このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240212となっている論文です。

PDF登録状況(公開日: 20240212)

TitleAuthorsAbstract論文公表日・翻訳日
# 遅延ループ貯留層ニューラルネットワークによるイベントカメラデータの時空間処理

Temporal-Spatial Processing of Event Camera Data via Delay-Loop Reservoir Neural Network ( http://arxiv.org/abs/2403.17013v1 )

ライセンス: Link先を確認
Richard Lau, Anthony Tylan-Tyler, Lihan Yao, Rey de Castro Roberto, Robert Taylor, Isaiah Jones, (参考訳) 本稿では,映像処理のための時間空間モデルについて述べる。 本稿では,遅延ループ貯水池(DLR)ニューラルネットを用いたビデオ処理に関するこれまでの研究から,時間空間対射(TSC)と呼ばれる予想を導出する。 TSCは、ビデオ信号の時間的表現に重要な情報コンテンツがあり、機械学習アルゴリズムは、知的処理のための空間的および時間的コンポーネントの分離最適化の恩恵を受けると仮定している。 映像を空間的, 時間的成分に分解し, これらの成分の相互情報(MI)を推定する視覚マルコフモデル(VMM)を提案する。 ビデオ相互情報の計算は複雑で時間を要するため,相互情報のバウンダリを推定するために相互情報ニューラルネットワークを用いる。 その結果,時間成分は空間成分と比較して大きなMIを有することがわかった。 この発見はしばしばニューラルネットワークの文献で見過ごされている。 本稿では,イベントカメラ分類のための遅延ループ型貯水池ニューラルネットワークの設計の指針として,この新たな発見を活用し,分類精度が18%向上することを示す。

This paper describes a temporal-spatial model for video processing with special applications to processing event camera videos. We propose to study a conjecture motivated by our previous study of video processing with delay loop reservoir (DLR) neural network, which we call Temporal-Spatial Conjecture (TSC). The TSC postulates that there is significant information content carried in the temporal representation of a video signal and that machine learning algorithms would benefit from separate optimization of the spatial and temporal components for intelligent processing. To verify or refute the TSC, we propose a Visual Markov Model (VMM) which decompose the video into spatial and temporal components and estimate the mutual information (MI) of these components. Since computation of video mutual information is complex and time consuming, we use a Mutual Information Neural Network to estimate the bounds of the mutual information. Our result shows that the temporal component carries significant MI compared to that of the spatial component. This finding has often been overlooked in neural network literature. In this paper, we will exploit this new finding to guide our design of a delay-loop reservoir neural network for event camera classification, which results in a 18% improvement on classification accuracy.
翻訳日:2024-04-01 02:44:33 公開日:2024-02-12
# ハイパースペクトルデータに基づく回帰のコントラスト学習

Contrastive Learning for Regression on Hyperspectral Data ( http://arxiv.org/abs/2403.17014v1 )

ライセンス: Link先を確認
Mohamad Dhaini, Maxime Berar, Paul Honeine, Antonin Van Exem, (参考訳) コントラスト学習は、特に画像分類タスクにおいて、表現学習において大きな効果を示した。 しかし、回帰タスクを対象とする研究や、より具体的にはハイパースペクトルデータに適用する研究は依然として不足している。 本稿では,ハイパースペクトルデータに対する回帰処理のためのコントラスト学習フレームワークを提案する。 この目的のために、ハイパースペクトルデータの増大に関連する変換のコレクションを提供し、回帰のための対照的な学習を調査する。 合成および実超スペクトルデータセットの実験により、提案したフレームワークと変換が回帰モデルの性能を大幅に改善し、他の最先端変換よりも優れたスコアが得られることが示された。

Contrastive learning has demonstrated great effectiveness in representation learning especially for image classification tasks. However, there is still a shortage in the studies targeting regression tasks, and more specifically applications on hyperspectral data. In this paper, we propose a contrastive learning framework for the regression tasks for hyperspectral data. To this end, we provide a collection of transformations relevant for augmenting hyperspectral data, and investigate contrastive learning for regression. Experiments on synthetic and real hyperspectral datasets show that the proposed framework and transformations significantly improve the performance of regression models, achieving better scores than other state-of-the-art transformations.
翻訳日:2024-04-01 02:44:33 公開日:2024-02-12
# 大規模言語モデルを用いたミニアプリケーションコードのプライバシリーク検出

Utilizing Large LanguageModels to Detect Privacy Leaks in Mini-App Code ( http://arxiv.org/abs/2402.07367v1 )

ライセンス: Link先を確認
Liming Jiang, (参考訳) ミニアプリケーション(Mini-applications)は、大規模なアプリケーションやプラットフォームに埋め込まれた小型のソフトウェアプログラムであり、個別のインストールを必要とせずにターゲット機能を提供する。 通常、Webベースまたはクラウドでホストされるこれらのミニアプリは、Webブラウザまたはモバイルアプリを介してアクセス可能な集中型サービスを提供することで、ユーザーエクスペリエンスを合理化する。 そのシンプルさ、スピード、統合性は、メッセージングプラットフォーム、ソーシャルメディアネットワーク、eコマースサイト、そして様々なデジタル環境に価値ある追加をもたらす。 中国のメッセージングアプリWeChat Mini Programsの目玉機能であるWeChat Mini Programsは、このトレンドを実証し、追加のダウンロードなしでシームレスなサービスの配列を提供する。 WeChatの広範なユーザーベースと支払いインフラを活用することで、Mini Programsは効率的なトランザクションを促進し、オンラインとオフラインのエクスペリエンスをブリッジし、中国のデジタルランドスケープを著しく形成する。 本稿では,WeChat Mini プログラム内のプライバシー侵害を検出するために,Large Language Models (LLMs) を用いることの可能性を検討する。 ミニプログラムの普及とデータプライバシに関する懸念の高まりを考えると、この研究はLLMがこのエコシステム内のプライバシー漏洩の事例を効果的に特定できるかどうかを判断することを目的としている。 WeChat Mini Program環境におけるユーザプライバシとセキュリティを保護し,よりセキュアなディジタルランドスケープに寄与することを目的としている。

Mini-applications, commonly referred to as mini-apps, are compact software programs embedded within larger applications or platforms, offering targeted functionality without the need for separate installations. Typically web-based or cloud-hosted, these mini-apps streamline user experiences by providing focused services accessible through web browsers or mobile apps. Their simplicity, speed, and integration capabilities make them valuable additions to messaging platforms, social media networks, e-commerce sites, and various digital environments. WeChat Mini Programs, a prominent feature of China's leading messaging app, exemplify this trend, offering users a seamless array of services without additional downloads. Leveraging WeChat's extensive user base and payment infrastructure, Mini Programs facilitate efficient transactions and bridge online and offline experiences, shaping China's digital landscape significantly. This paper investigates the potential of employing Large Language Models (LLMs) to detect privacy breaches within WeChat Mini Programs. Given the widespread use of Mini Programs and growing concerns about data privacy, this research seeks to determine if LLMs can effectively identify instances of privacy leakage within this ecosystem. Through meticulous analysis and experimentation, we aim to highlight the efficacy of LLMs in safeguarding user privacy and security within the WeChat Mini Program environment, thereby contributing to a more secure digital landscape.
翻訳日:2024-03-25 11:29:11 公開日:2024-02-12
# メタデータ情報を用いた悪意パッケージ検出

Malicious Package Detection using Metadata Information ( http://arxiv.org/abs/2402.07444v1 )

ライセンス: Link先を確認
S. Halder, M. Bewong, A. Mahboubi, Y. Jiang, R. Islam, Z. Islam, R. Ip, E. Ahmed, G. Ramachandran, A. Babar, (参考訳) ソフトウェアサプライチェーンを悪意のあるパッケージから保護することは、ソフトウェア開発の進化する状況において最重要である。 ソフトウェアサプライチェーンに対する攻撃は、攻撃者がソフトウェアリポジトリ内の一般的に使用されるパッケージやライブラリに有害なソフトウェアを注入することを含む。 例えば、JavaScriptはNode Package Manager(NPM)、PythonはPython Package Index(PyPi)をそれぞれのパッケージリポジトリとして使用する。 これまでNPMには、悪質なパッケージが人気のあるNPMパッケージに導入されたイベントストリームインシデントのような脆弱性があり、幅広いプロジェクトに影響を与える可能性がある。 現代のソフトウェア開発において、サードパーティパッケージの統合がますます普及し、アプリケーションの作成とデプロイが加速するにつれて、堅牢な検出メカニズムの必要性が重要になっている。 一方、毎日新しいパッケージが大量にリリースされているため、悪意のあるパッケージを識別するタスクは重大な課題となっている。 本稿では,メタデータに基づく悪意のあるパッケージ検出モデルであるMeMPtecを提案する。 このモデルは,パッケージメタデータ情報から一連の特徴を抽出する。 これらの特徴は, 単調性および制限制御特性に基づいて, 操作容易性 (ETM) と操作容易性 (DTM) のいずれかに分類される。 これらのメタデータ機能を利用することで、悪意のあるパッケージの検出の有効性を向上するだけでなく、既存の最先端技術と比較して敵攻撃に対する抵抗性を実証する。 実験の結果,偽陽性(最大97.56%)と偽陰性(最大91.86%)は有意な減少を示した。

Protecting software supply chains from malicious packages is paramount in the evolving landscape of software development. Attacks on the software supply chain involve attackers injecting harmful software into commonly used packages or libraries in a software repository. For instance, JavaScript uses Node Package Manager (NPM), and Python uses Python Package Index (PyPi) as their respective package repositories. In the past, NPM has had vulnerabilities such as the event-stream incident, where a malicious package was introduced into a popular NPM package, potentially impacting a wide range of projects. As the integration of third-party packages becomes increasingly ubiquitous in modern software development, accelerating the creation and deployment of applications, the need for a robust detection mechanism has become critical. On the other hand, due to the sheer volume of new packages being released daily, the task of identifying malicious packages presents a significant challenge. To address this issue, in this paper, we introduce a metadata-based malicious package detection model, MeMPtec. This model extracts a set of features from package metadata information. These extracted features are classified as either easy-to-manipulate (ETM) or difficult-to-manipulate (DTM) features based on monotonicity and restricted control properties. By utilising these metadata features, not only do we improve the effectiveness of detecting malicious packages, but also we demonstrate its resistance to adversarial attacks in comparison with existing state-of-the-art. Our experiments indicate a significant reduction in both false positives (up to 97.56%) and false negatives (up to 91.86%).
翻訳日:2024-03-25 11:29:11 公開日:2024-02-12
# LLM生成符号に対するレジリエントな透かし

Resilient Watermarking for LLM-Generated Codes ( http://arxiv.org/abs/2402.07518v1 )

ライセンス: Link先を確認
Boquan Li, Mengdi Zhang, Peixin Zhang, Jun Sun, Xingmei Wang, (参考訳) 大規模言語モデルの開発により、複数のAIがコード生成(ChatGPTやStarCoderなど)で利用可能になり、広く採用されている。 コードの一部がAIによって生成されるかどうか、さらにどのAIが著者であるかを知ることが望ましいことが多い。 例えば、あるバージョンのAIが脆弱なコードを生成することが知られている場合、特に作者を知ることが重要です。 既存のアプローチは、透かしのコードは、透かしのテキストデータよりも難しいため、広く使われているコードリファクタリングメソッドを通じて比較的簡単にコードを変更することができるため、満足できない。 本稿では,AI生成コードの透かし手法であるACW(AI Code Watermarking)を提案する。 ACWはトレーニングや微調整を必要としないため効率が良く、ブラックボックス方式で動作する。 透かしは、一般的なコードリファクタリングメソッドで簡単に取り除かれたり、改ざんしたりできないため、耐性がある。 ACWのキーとなる考え方は、慎重に設計されたセマンティック保存、等質なコード変換の集合を選択的に適用することであり、その存在(または欠如)により、透かしの存在を決定できる。 実験の結果,ACWは有効である(高い精度,真正,偽陽性)。

With the development of large language models, multiple AIs are now made available for code generation (such as ChatGPT and StarCoder) and are adopted widely. It is often desirable to know whether a piece of code is generated by AI, and furthermore, which AI is the author. For instance, if a certain version of AI is known to generate vulnerable code, it is particularly important to know the creator. Existing approaches are not satisfactory as watermarking codes are challenging compared with watermarking text data, as codes can be altered with relative ease via widely-used code refactoring methods. In this work, we propose ACW (AI Code Watermarking), a novel method for watermarking AI-generated codes. ACW is efficient as it requires no training or fine-tuning and works in a black-box manner. It is resilient as the watermark cannot be easily removed or tampered through common code refactoring methods. The key idea of ACW is to selectively apply a set of carefully-designed semantic-preserving, idempotent code transformations, whose presence (or absence) allows us to determine the existence of the watermark. Our experimental results show that ACW is effective (i.e., achieving high accuracy, true positive rates and false positive rates), resilient and efficient, significantly outperforming existing approaches.
翻訳日:2024-03-25 11:29:11 公開日:2024-02-12
# マルチ属性データ共有のためのプライバシ最適化ランダム化応答

Privacy-Optimized Randomized Response for Sharing Multi-Attribute Data ( http://arxiv.org/abs/2402.07584v1 )

ライセンス: Link先を確認
Akito Yamamoto, Tetsuo Shibuya, (参考訳) 社会におけるデータ量の増加に伴い、データ共有におけるプライバシーの懸念が広く認識されるようになった。 特に,個人属性情報の保護は,クラウドソーシングからパーソナライズド医療の実現に至るまで,幅広い目的に不可欠である。 単一属性情報や周波数推定などの特定の分析目的のために、ランダム化応答に基づく様々な微分プライベートな手法が提案されているが、個人の複数のカテゴリ情報そのものを共有するメカニズムについての研究は乏しい。 マルチ属性データを共有するための既存のランダム化レスポンスは、Kronecker製品を使用して、各プライバシレベルに応じて各属性情報を順番に摂動するが、データセット全体の弱いプライバシレベルしか達成しない。 そこで本研究では,マルチ属性データの共有において最強のプライバシを保証する,プライバシ最適化ランダム化応答を提案する。 さらに,準最適機構を構築するための効率的なヒューリスティックアルゴリズムを提案する。 我々のアルゴリズムの時間複雑性は O(k^2) であり、k は属性の数であり、k = 1000 の大規模データセットであっても約 1 秒で実行できる。 実験結果から,本手法は既存の手法に比べて,データセット全体のプライバシー保証を著しく向上することが示された。 さらに,本手法が既存の手法と比較して出力誤差の半分未満を達成可能であることを確認するために,ゲノム統計を用いた分析例を示す。 全体として、本研究は多属性データの信頼に値する共有と分析に向けた重要なステップである。 実験と補足結果のPython実装はhttps://github.com/ay0408/Optimized-RRで公開されている。

With the increasing amount of data in society, privacy concerns in data sharing have become widely recognized. Particularly, protecting personal attribute information is essential for a wide range of aims from crowdsourcing to realizing personalized medicine. Although various differentially private methods based on randomized response have been proposed for single attribute information or specific analysis purposes such as frequency estimation, there is a lack of studies on the mechanism for sharing individuals' multiple categorical information itself. The existing randomized response for sharing multi-attribute data uses the Kronecker product to perturb each attribute information in turn according to the respective privacy level but achieves only a weak privacy level for the entire dataset. Therefore, in this study, we propose a privacy-optimized randomized response that guarantees the strongest privacy in sharing multi-attribute data. Furthermore, we present an efficient heuristic algorithm for constructing a near-optimal mechanism. The time complexity of our algorithm is O(k^2), where k is the number of attributes, and it can be performed in about 1 second even for large datasets with k = 1,000. The experimental results demonstrate that both of our methods provide significantly stronger privacy guarantees for the entire dataset than the existing method. In addition, we show an analysis example using genome statistics to confirm that our methods can achieve less than half the output error compared with that of the existing method. Overall, this study is an important step toward trustworthy sharing and analysis of multi-attribute data. The Python implementation of our experiments and supplemental results are available at https://github.com/ay0408/Optimized-RR.
翻訳日:2024-03-25 11:29:11 公開日:2024-02-12
# DoSフラッディングアタックの緩和のための適応型人工免疫ネットワーク

Adaptive Artificial Immune Networks for Mitigating DoS flooding Attacks ( http://arxiv.org/abs/2402.07714v1 )

ライセンス: Link先を確認
Jorge Maestre Vidal, Ana Lucila Sandoval Orozco, Luis Javier García Villalba, (参考訳) サービスアタックの否定は、継続的な成長の脅威となる。 これは主に、高度化、実装の容易さ、難読化、近年の指紋認証の改善によるものである。 一方、自己組織化ネットワークへの進展や、ソフトウェア定義ネットワーク、ネットワーク機能仮想化、人工知能、クラウドコンピューティングなど、開発に関わるさまざまな技術は、新たな防衛戦略の設計を促進し、より完全で一貫性があり、ネットワークの現在の状況に防御配置を適用することができる。 本報告では, それらの開発に寄与するため, サービスアタックの否定を緩和するための人工免疫システムの利用を提案する。 このアプローチは、監視環境の要求に合った分散センサーのネットワークを構築することに基づいている。 これらの構成要素は脅威を識別し、人間の生体防御機構の振る舞いに応じて反応する。 異なる免疫反応のエミュレート、隔離領域の確立、免疫記憶の構築によって達成される。 その評価のために,公共ドメインデータセット(KDD'99,CAIDA'07,CAIDA'08)を用いた実験と,マドリード大学コンプルテンス校が収集した交通サンプルとツールDDoSIMによる浸水攻撃に基づく各種ネットワーク構成のシミュレーションを行った。

Denial of service attacks pose a threat in constant growth. This is mainly due to their tendency to gain in sophistication, ease of implementation, obfuscation and the recent improvements in occultation of fingerprints. On the other hand, progress towards self-organizing networks, and the different techniques involved in their development, such as software-defined networking, network-function virtualization, artificial intelligence or cloud computing, facilitates the design of new defensive strategies, more complete, consistent and able to adapt the defensive deployment to the current status of the network. In order to contribute to their development, in this paper, the use of artificial immune systems to mitigate denial of service attacks is proposed. The approach is based on building networks of distributed sensors suited to the requirements of the monitored environment. These components are capable of identifying threats and reacting according to the behavior of the biological defense mechanisms in human beings. It is accomplished by emulating the different immune reactions, the establishment of quarantine areas and the construction of immune memory. For their assessment, experiments with public domain datasets (KDD'99, CAIDA'07 and CAIDA'08) and simulations on various network configurations based on traffic samples gathered by the University Complutense of Madrid and flooding attacks generated by the tool DDoSIM were performed.
翻訳日:2024-03-25 11:19:24 公開日:2024-02-12
# バイオテクノロジー産業におけるMLSecOpsの統合 5.0

Integrating MLSecOps in the Biotechnology Industry 5.0 ( http://arxiv.org/abs/2402.07967v1 )

ライセンス: Link先を確認
Naseela Pervez, Alexander J. Titus, (参考訳) バイオテクノロジー産業 5.0 は、機械学習(ML)、モノのインターネット(IoT)、クラウドコンピューティングといった最先端技術の統合によって進歩している。 顧客からのデータを利用し、彼らの生活を変えることのできる業界が、さまざまな攻撃の標的であることは驚くにあたらない。 この章は、機械学習セキュリティオペレーション(MLSecOps)がバイオテクノロジー産業の5.0の確保にどのように役立つかの視点を提供する。 この章では、バイオテクノロジー産業の5.0における脅威と、MLアルゴリズムが業界におけるベストプラクティスのセキュア化にどのように役立つかを分析している。 この章では、バイオテクノロジー産業 5.0 における MLSecOps の範囲について論じ、現在の規制フレームワークに従うことがいかに重要かを強調している。 バイオテクノロジー産業 5.0 が医療、サプライチェーン管理、バイオマニュファクチャリング、製薬等において革新的なソリューションを開発するとともに、その章では、産業や企業が倫理的責任を考慮しつつ従うべきMLSecOpsのベストプラクティスについても論じている。 全体として、この章では、MLSecOpsをバイオテクノロジー産業 5.0 におけるプロセスの設計、デプロイメント、規制にどのように統合するかについて議論している。

Biotechnology Industry 5.0 is advancing with the integration of cutting-edge technologies like Machine Learning (ML), the Internet Of Things (IoT), and cloud computing. It is no surprise that an industry that utilizes data from customers and can alter their lives is a target of a variety of attacks. This chapter provides a perspective of how Machine Learning Security Operations (MLSecOps) can help secure the biotechnology Industry 5.0. The chapter provides an analysis of the threats in the biotechnology Industry 5.0 and how ML algorithms can help secure with industry best practices. This chapter explores the scope of MLSecOps in the biotechnology Industry 5.0, highlighting how crucial it is to comply with current regulatory frameworks. With biotechnology Industry 5.0 developing innovative solutions in healthcare, supply chain management, biomanufacturing, pharmaceuticals sectors, and more, the chapter also discusses the MLSecOps best practices that industry and enterprises should follow while also considering ethical responsibilities. Overall, the chapter provides a discussion of how to integrate MLSecOps into the design, deployment, and regulation of the processes in biotechnology Industry 5.0.
翻訳日:2024-03-25 11:19:24 公開日:2024-02-12
# Dumviri: 故障検知器によるトラッカーと混合トラッカーの検出

Dumviri: Detecting Trackers and Mixed Trackers with a Breakage Detector ( http://arxiv.org/abs/2402.08031v1 )

ライセンス: Link先を確認
He Shuang, Lianying Zhao, David Lie, (参考訳) 以前の自動トラッカー検出作業では、Webページの破壊を認識する機能が欠如しており、しばしばブロッキングトラッカーによる破壊を評価するために手動の分析に頼っている。 我々はDumviriを紹介した。Dumviriは、ページが適切に機能するために必要とするリソースを誤ってブロックすることによるWebページの破損を自動的に検出できる破壊検知器を備えている。 この追加により、Dumviriは機能リソースがトラッカーとして誤って分類されるのを防ぎ、全体的な検出精度を高めることができる。 私たちはDumviriを差分機能として設計しました。 さらに、これらの特徴は粒度を解析できないこと、Dumviriがリクエストフィールドの粒度でトラッキングリソースを予測できること、Dumviriが混在するトラッカーを処理できること、などが分かる。 15KページでDumviriを評価することは、人間の生成したフィルタリストのラベルを97.44%の精度で複製する能力を示している。 手動で分析した結果、Dumviriは未報告のトラッカーを特定し、その破壊検知器は、EasyPrivacyのような一般的なフィルタリストでWebページの破損の原因となるルールを特定できることがわかった。 混合トラッカーの場合、ダンヴィリは最初の自動混合トラッカー検出器であり、79.09%の精度を達成している。 これまでに報告されていない22のユニークなトラッカーと26の混合トラッカーを確認した。 我々は、これらの発見をすぐにプライバシー開発者に報告し、uBlock Originの拡張構文でフィルタリストを公開する。

Previous automatic tracker detection work lacks features to recognize web page breakage and often resort to manual analysis to assess the breakage caused by blocking trackers. We introduce Dumviri, which incorporates a breakage detector that can automatically detect web page breakage caused by erroneously blocking a resource that is needed by the page to function properly. This addition allows Dumviri to prevent functional resources from being misclassified as trackers and increases overall detection accuracy. We designed Dumviri to take differential features. We further find that these features are agnostic to analysis granularity and enable Dumviri to predict tracking resources at the request field granularity, allowing Dumviri to handle some mixed trackers. Evaluating Dumviri on 15K pages shows its ability to replicate the labels of human-generated filter lists with an accuracy of 97.44%. Through a manual analysis, we found that Dumviri identified previously unreported trackers and its breakage detector can identify rules that cause web page breakage in commonly used filter lists like EasyPrivacy. In the case of mixed trackers, Dumviri, being the first automated mixed tracker detector, achieves a 79.09% accuracy. We have confirmed 22 previously unreported unique trackers and 26 unique mixed trackers. We promptly reported these findings to privacy developers, and we will publish our filter lists in uBlock Origin's extended syntax.
翻訳日:2024-03-25 11:19:24 公開日:2024-02-12
# CycPUF: 周期的物理的非包括的機能

CycPUF: Cyclic Physical Unclonable Function ( http://arxiv.org/abs/2402.08084v1 )

ライセンス: Link先を確認
Michael Dominguez, Amin Rezaei, (参考訳) 物理不閉関数(PUF)は製造プロセスの不完全性を利用して、これらの経路を走行する信号の伝搬遅延の相違を引き起こす。 PUFはデバイス認証やチップ固有のキー生成に使用できるが、強力なPUFは機械学習モデリング攻撃に弱いことが示されている。 組み合わせ回路はループを使わずに設計する必要があるという印象もあるが、巡回結合回路はハードウェアの知的財産盗難に対する設計上の安全性を高めることが示されている。 本稿では,従来の遅延型PUF設計(arbiter PUF, ring oscillator PUF, butterfly PUF)にフィードバック信号を導入し,より広範な出力動作を実現する。 我々の分析に基づいて、周期PUFは、固定された課題の下で二項、定常状態、発振、擬似ランダムとなる応答を生成する。 提案するサイクリックPUFは,フィールドプログラマブルゲートアレイに実装されており,そのパワーと面積のオーバーヘッドは機能的指標に加えて,従来のものと比較して報告されている。 提案したサイクリックPUFのセキュリティ向上は、最先端の攻撃に対しても示される。

Physical Unclonable Functions (PUFs) leverage manufacturing process imperfections that cause propagation delay discrepancies for the signals traveling along these paths. While PUFs can be used for device authentication and chip-specific key generation, strong PUFs have been shown to be vulnerable to machine learning modeling attacks. Although there is an impression that combinational circuits must be designed without any loops, cyclic combinational circuits have been shown to increase design security against hardware intellectual property theft. In this paper, we introduce feedback signals into traditional delay-based PUF designs such as arbiter PUF, ring oscillator PUF, and butterfly PUF to give them a wider range of possible output behaviors and thus an edge against modeling attacks. Based on our analysis, cyclic PUFs produce responses that can be binary, steady-state, oscillating, or pseudo-random under fixed challenges. The proposed cyclic PUFs are implemented in field programmable gate arrays, and their power and area overhead, in addition to functional metrics, are reported compared with their traditional counterparts. The security gain of the proposed cyclic PUFs is also shown against state-of-the-art attacks.
翻訳日:2024-03-25 11:19:24 公開日:2024-02-12
# 地中真実の存在下での揚力モデリングの公平性評価

Fairness Evaluation for Uplift Modeling in the Absence of Ground Truth ( http://arxiv.org/abs/2403.12069v1 )

ライセンス: Link先を確認
Serdar Kadioglu, Filip Michalsky, (参考訳) AIベースの自動意思決定システムの採用の加速は、アルゴリズムによる決定の公平性を評価する上で、特に基礎的真理が欠如している場合において、課題となる。 介入を設計する際には、治療の恩恵を受ける可能性のある候補を特定するために、アップリフトモデリングが広く使用される。 しかし、これらのモデルは、候補が同時に治療と制御の両面では不可能であるため、結果測定に基礎的真理が欠如していることから、公平性評価に特に影響しうる。 本稿では,高揚度モデリングキャンペーンの反実的ラベルの代用としてサロゲートを生成することによって,不足する真実を克服する枠組みを提案する。 次に、補助的基底真理を利用して、より包括的な二項公正性評価を行う。 本稿では,このアプローチを,プロモーションオファリングのための現実のマーケティングキャンペーンから総合的な研究に応用する方法を示し,公正性評価の強化を実証する。

The acceleration in the adoption of AI-based automated decision-making systems poses a challenge for evaluating the fairness of algorithmic decisions, especially in the absence of ground truth. When designing interventions, uplift modeling is used extensively to identify candidates that are likely to benefit from treatment. However, these models remain particularly susceptible to fairness evaluation due to the lack of ground truth on the outcome measure since a candidate cannot be in both treatment and control simultaneously. In this article, we propose a framework that overcomes the missing ground truth problem by generating surrogates to serve as a proxy for counterfactual labels of uplift modeling campaigns. We then leverage the surrogate ground truth to conduct a more comprehensive binary fairness evaluation. We show how to apply the approach in a comprehensive study from a real-world marketing campaign for promotional offers and demonstrate its enhancement for fairness evaluation.
翻訳日:2024-03-25 07:46:43 公開日:2024-02-12
# 連結車と自律車に関する利害関係者の見解

Ambivalence in stakeholders' views on connected and autonomous vehicles ( http://arxiv.org/abs/2403.12070v1 )

ライセンス: Link先を確認
Celina Kacperski, Tobias Vogel, Florian Kutzner, (参考訳) 連結型・自律型車両(CAV)は、渋滞、安全、社会的包摂性、生態的持続可能性など、現在の輸送システムの問題を圧迫する解決策としてしばしば議論される。 科学的には、CAVが解決する可能性があるが、特定のCAVソリューションに依存してこれらの問題を解決することもできる。 本稿では,公共行政の代表者,自動車部品メーカー,保険会社,公共交通サービス提供者,モビリティの専門家,政治家など,様々な利害関係者のビジョンと最悪のシナリオについて検討する。 半構造化インタビュー17件の質的分析を行った。 CAVの導入に対する専門家の曖昧さは、効率性、快適さ、持続可能性の問題、歩行者やサイクリストのような道路共同利用者に対する懸念など、CAVの結果に対する高い不確実さを反映している。 政策立案者の境界条件の設定や労働市場に対する軽視の意味について論じる。 CAVの導入方法について、政策立案者や市民、その他の利害関係者の間で開かれた議論は、タイムリーに思える。

Connected and autonomous vehicles (CAVs) are often discussed as a solution to pressing issues of the current transport systems, including congestion, safety, social inclusion and ecological sustainability. Scientifically, there is agreement that CAVs may solve, but can also aggravate these issues, depending on the specific CAV solution. In the current paper, we investigate the visions and worst-case scenarios of various stakeholders, including representatives of public administrations, automotive original equipment manufacturers, insurance companies, public transportation service providers, mobility experts and politicians. A qualitative analysis of 17 semi-structured interviews is presented. It reveals experts' ambivalence towards the introduction of CAVs, reflecting high levels of uncertainty about CAV consequences, including issues of efficiency, comfort and sustainability, and concerns about road co-users such as pedestrians and cyclists. Implications of the sluggishness of policymakers to set boundary conditions and for the labor market are discussed. An open debate between policymakers, citizens and other stakeholders on how to introduce CAVs seems timely.
翻訳日:2024-03-25 07:36:54 公開日:2024-02-12
# GenAIによる教育の展開 : 授業計画における新たな地軸

Tailoring Education with GenAI: A New Horizon in Lesson Planning ( http://arxiv.org/abs/2403.12071v1 )

ライセンス: Link先を確認
Kostas Karpouzis, Dimitris Pantazatos, Joanna Taouki, Kalliopi Meli, (参考訳) 教育におけるジェネレーティブAI(GenAI)の出現は、従来の教育方法論への転換的アプローチを示し、個々の学生の多様なニーズを見落としていることが多い。 本研究では,教育者のためのデジタルアシスタントとして設計された,高度な自然言語処理に基づくGenAIツールを導入し,カスタマイズした授業プランの作成を可能にする。 このツールは'interactive mega-prompt'と呼ばれるイノベーティブな機能を利用しており、これは総合的なクエリシステムで、教育者は生徒の人口統計、学習目的、好みの教育スタイルなどの詳細な教室特質を入力できる。 この入力はGenAIによって処理され、調整されたレッスンプランを生成する。 ツールの有効性を評価するため,定量的(時間節約率の%)と質的(ユーザ満足度)の基準を取り入れた総合的な方法論が実施され,様々な教科や教育レベルにまたがって,教育者からの継続的なフィードバックを構造化された評価形式で収集した。 予備的な結果から,GenAIが生み出す授業計画が有効であり,授業計画時間を大幅に短縮し,多様な学生のニーズに配慮して学習経験を向上させることが示唆された。 このAI駆動のアプローチは、教育のパラダイムシフトを意味し、個別の注意と特定の学習支援が最重要となる特別教育ニーズ(SEN)を含む、幅広い教育文脈で適用可能な可能性を示唆している。

The advent of Generative AI (GenAI) in education presents a transformative approach to traditional teaching methodologies, which often overlook the diverse needs of individual students. This study introduces a GenAI tool, based on advanced natural language processing, designed as a digital assistant for educators, enabling the creation of customized lesson plans. The tool utilizes an innovative feature termed 'interactive mega-prompt,' a comprehensive query system that allows educators to input detailed classroom specifics such as student demographics, learning objectives, and preferred teaching styles. This input is then processed by the GenAI to generate tailored lesson plans. To evaluate the tool's effectiveness, a comprehensive methodology incorporating both quantitative (i.e., % of time savings) and qualitative (i.e., user satisfaction) criteria was implemented, spanning various subjects and educational levels, with continuous feedback collected from educators through a structured evaluation form. Preliminary results show that educators find the GenAI-generated lesson plans effective, significantly reducing lesson planning time and enhancing the learning experience by accommodating diverse student needs. This AI-driven approach signifies a paradigm shift in education, suggesting its potential applicability in broader educational contexts, including special education needs (SEN), where individualized attention and specific learning aids are paramount
翻訳日:2024-03-25 07:36:54 公開日:2024-02-12
# ニューラルネットワークを用いた水穴検出の比較検討

A Comparative Study of Watering Hole Attack Detection Using Supervised Neural Network ( http://arxiv.org/abs/2311.15024v3 )

ライセンス: Link先を確認
Mst. Nishita Aktar, Sornali Akter, Md. Nusaim Islam Saad, Jakir Hosen Jisun, Kh. Mustafizur Rahman, Md. Nazmus Sakib, (参考訳) セキュリティの状況は、サイバー脅威の高度化により標的攻撃から守る革新的な解決策を要求している。 本研究では、これらの攻撃を検知・防止するために、教師付きニューラルネットワークを用いた「水穴攻撃」として知られる悪質な戦術について検討する。 ニューラルネットワークは、そのような攻撃に関連するウェブサイトの行動とネットワークトラフィックのパターンを特定する。 確認された攻撃のデータセットをテストすると、わずか0.1%の偽陽性率で99%の検出率を示し、モデルの有効性を示している。 予防に関して言えば、このモデルは95%の攻撃をうまく停止し、堅牢なユーザー保護を提供する。 この研究は、Webフィルタリングソリューション、ユーザ教育、セキュリティコントロールを含む緩和戦略も提案している。 全体として、この研究は、強力な検知、予防、緩和戦略を提供する、防水孔攻撃に対抗するための有望な解決策を提示する。

The state of security demands innovative solutions to defend against targeted attacks due to the growing sophistication of cyber threats. This study explores the nefarious tactic known as "watering hole attacks using supervised neural networks to detect and prevent these attacks. The neural network identifies patterns in website behavior and network traffic associated with such attacks. Testing on a dataset of confirmed attacks shows a 99% detection rate with a mere 0.1% false positive rate, demonstrating the model's effectiveness. In terms of prevention, the model successfully stops 95% of attacks, providing robust user protection. The study also suggests mitigation strategies, including web filtering solutions, user education, and security controls. Overall, this research presents a promising solution for countering watering hole attacks, offering strong detection, prevention, and mitigation strategies.
翻訳日:2024-03-18 15:51:52 公開日:2024-02-12
# CABBA: ADS-Bのためのコンパチブル認証帯域効率ブロードキャストプロトコル

CABBA: Compatible Authenticated Bandwidth-efficient Broadcast protocol for ADS-B ( http://arxiv.org/abs/2312.09870v2 )

ライセンス: Link先を確認
Mikaëla Ngamboé, Xiao Niu, Benoit Joly, Steven P Biegler, Paul Berthier, Rémi Benito, Greg Rice, José M Fernandez, Gabriela Nicolescu, (参考訳) 自動監視ブロードキャスト(Automatic Dependent Surveillance-Broadcast、ADS-B)は、多くの空域で必須となる監視技術である。 安全を改善し、効率を高め、航空機の航法データを放送することで航空交通渋滞を低減する。 しかし、ADS-Bは、供給されるデータの完全性と信頼性を保証するメカニズムが欠如しているため、攻撃に対して脆弱である。 既存の暗号化ソリューションはいずれも、標準の後方互換性と帯域幅保存の要件を完全に満たしていない。 そこで我々は, TESLA, 位相オーバレイ変調技術, 証明書ベースのPKIを統合したCABBA (Compatible Authenticated Bandwidth- efficient Broadcast Protocol for ADS-B) を提案する。 その結果、エンティティ認証、データオリジン認証、データ完全性は、CABAが提供するセキュリティサービスである。 そこで我々は,CABBAのSDRベースの実装を設計し,受信機における商用および一般航空(GA)ADS-Bの後方互換性試験を行った。 In addition, we calculated the 1090ES band's activity factor and analysis the channel occupancy rate based on ITU-R SM.2256-1 recommendation。 また,CABAメッセージのビット誤り率解析を行った。 以上の結果から,CABBAは後方互換性があり,通信オーバーヘッドが大きくないこと,Eb/No値が14dB以上で許容できる誤差率があることが示唆された。

The Automatic Dependent Surveillance-Broadcast (ADS-B) is a surveillance technology that becomes mandatory in many airspaces. It improves safety, increases efficiency and reduces air traffic congestion by broadcasting aircraft navigation data. Yet, ADS-B is vulnerable to spoofing attacks as it lacks mechanisms to ensure the integrity and authenticity of the data being supplied. None of the existing cryptographic solutions fully meet the backward compatibility and bandwidth preservation requirements of the standard. Hence, we propose the Compatible Authenticated Bandwidth-efficient Broadcast protocol for ADS-B (CABBA), an improved approach that integrates TESLA, phase-overlay modulation techniques and certificate-based PKI. As a result, entity authentication, data origin authentication, and data integrity are the security services that CABBA offers. To assess compliance with the standard, we designed an SDR-based implementation of CABBA and performed backward compatibility tests on commercial and general aviation (GA) ADS-B in receivers. Besides, we calculated the 1090ES band's activity factor and analyzed the channel occupancy rate according to ITU-R SM.2256-1 recommendation. Also, we performed a bit error rate analysis of CABBA messages. The results suggest that CABBA is backward compatible, does not incur significant communication overhead, and has an error rate that is acceptable for Eb/No values above 14 dB.
翻訳日:2024-03-18 12:07:24 公開日:2024-02-12
# Weiboプラットフォームの専門家は株式市場の予測に優れているか?

Do Weibo platform experts perform better at predicting stock market? ( http://arxiv.org/abs/2403.00772v1 )

ライセンス: Link先を確認
Ziyuan Ma, Conor Ryan, Jim Buckley, and Muslim Chochlov(参考訳) 感情分析は株式市場の予測に使用できる。 しかし、既存の研究では、ニューラルネットワークを用いた株式市場の感情に基づく予測に対する、ユーザの財務的背景の影響は研究されていない。 本研究では、感情を発生させた人口の財務的背景に基づいて、感情に基づく株式市場予測を評価するために、ニューラルネットワークの新たな組み合わせが用いられる。 最先端の言語処理モデルであるBERT(Bidirectional Encoder Representations from Transformers)は感情の分類に使われ、時系列ベースの株式市場予測にはLSTM(Long-Short Term Memory)モデルが使用される。 評価のために、Weiboソーシャルネットワーキングプラットフォームは感情データ収集のソースとして使用される。 weiboユーザ(およびそれぞれのコメント)は、weiboが収集した背景情報に基づいて、認証金融アドバイザー(afa)と不正金融アドバイザー(ufa)グループに分割される。 香港ハンセン指数は、歴史的株式市場の変化データを抽出するために使用される。 その結果、afaグループのユーザーから学んだ株式市場の予測は、ufaグループのユーザーから学んだよりも39.67%正確であり、既存のアプローチと比較して最高精度(87%)を示している。

Sentiment analysis can be used for stock market prediction. However, existing research has not studied the impact of a user's financial background on sentiment-based forecasting of the stock market using artificial neural networks. In this work, a novel combination of neural networks is used for the assessment of sentiment-based stock market prediction, based on the financial background of the population that generated the sentiment. The state-of-the-art language processing model Bidirectional Encoder Representations from Transformers (BERT) is used to classify the sentiment and a Long-Short Term Memory (LSTM) model is used for time-series based stock market prediction. For evaluation, the Weibo social networking platform is used as a sentiment data collection source. Weibo users (and their comments respectively) are divided into Authorized Financial Advisor (AFA) and Unauthorized Financial Advisor (UFA) groups according to their background information, as collected by Weibo. The Hong Kong Hang Seng index is used to extract historical stock market change data. The results indicate that stock market prediction learned from the AFA group users is 39.67% more precise than that learned from the UFA group users and shows the highest accuracy (87%) when compared to existing approaches.
翻訳日:2024-03-11 00:21:09 公開日:2024-02-12
# EvoGPT-f:形式数学言語のベンチマークのための進化的GPTフレームワーク

EvoGPT-f: An Evolutionary GPT Framework for Benchmarking Formal Math Languages ( http://arxiv.org/abs/2402.16878v1 )

ライセンス: Link先を確認
Johnathan Mercer(参考訳) フォーマル数学(英: Formal mathematics)とは、任意の文をコンピュータで不当にチェックできるプログラミング言語に翻訳する分野である。 数学者やコンピュータ科学者は、coq、hol、leanといった言語の開発に数十年を費やしてきた。 機械学習の研究は、これらの形式的数学コーパスに収束し、対話的かつ自動化された定理証明を支援する方法論の多さを生み出した。 しかしながら、これらの論文は主に1つの証明課題のための1つの方法に焦点を当てている。 本稿では, 4つのトークン化手法(文字, 単語レベル, Byte Pair Encoding および StarCoder tokenizer)を用いて, 5つの形式数学コーパス(Lean, Lean 4, Coq, HOL 4, HOL Light)の微分機械学習性を, 初めて体系的に定量的に解析する進化的フレームワークであるEvoGPT-fを紹介する。 この論文は、学習すべき「最も良い」「最も簡単な」言語についての疑問を残さない。 むしろ、このフレームワークと予備的な発見は、これらの言語の微分機械学習可能性の照らし出し始め、コミュニティ全体でより体系的な量的および質的な比較研究を構築する基盤を提供する。

Formal mathematics is the discipline of translating mathematics into a programming language in which any statement can be unequivocally checked by a computer. Mathematicians and computer scientists have spent decades of painstaking formalization efforts developing languages such as Coq, HOL, and Lean. Machine learning research has converged on these formal math corpora and given rise to an assortment of methodologies to aid in interactive and automated theorem proving. However, these papers have primarily focused on one method, for one proof task, in one language. This paper introduces EvoGPT-f: a novel evolutionary framework for the first systematic quantitative analysis of the differential machine learnability of five formal math corpora (Lean 3, Lean 4, Coq, HOL 4, HOL Light) using four tokenization methods (character, word-level, Byte Pair Encoding and StarCoder tokenizer). This paper does not put to rest the question of the "best" or "easiest" language to learn. Rather, this framework and preliminary findings begin to illuminate the differential machine learnability of these languages, offering a foundation to forge more systematic quantitative and qualitative comparative research across communities.
翻訳日:2024-03-03 19:21:57 公開日:2024-02-12
# グラフフィードバックを用いた確率的文脈的バンディット:独立数からmas数へ

Stochastic contextual bandits with graph feedback: from independence number to MAS number ( http://arxiv.org/abs/2402.18591v1 )

ライセンス: Link先を確認
Yuxiao Wen, Yanjun Han, Zhengyuan Zhou(参考訳) グラフフィードバックを用いた文脈的帯域幅は、バニラの文脈的帯域幅よりもリッチな構造を持つ対話的学習問題であり、任意のコンテキスト下でのすべての近隣行動に対する報酬を明らかにする。 増大する文学がグラフフィードバックのほぼ完全な理解を描いているマルチアームのバンディット設定とは異なり、コンテクストのバンディットでは多くが未調査のままである。 そこで,本稿では,m$ が文脈数,$g$ がフィードバックグラフ,$\beta_m(g)$ が提案するグラフ理論的量であり,この問題に対する基本的な学習限界を特徴づけるものであることを証明して,後悔すべき下限値 $\omega(\sqrt{\beta_m(g) t})$ を確立することにより,この問いへの参入を行う。 興味深いことに、$\beta_M(G)$は$\alpha(G)$(グラフの独立数)と$\mathsf{m}(G)$(グラフの最大非巡回部分グラフ(MAS)数)の間の補間を行う。 また,コンテクストシーケンスやフィードバックグラフの重要なクラス,例えばオークションやインベントリ管理の応用を見出す推移的に閉じたグラフに対して,最適に近い後悔を実現するアルゴリズムを提供する。 特に,多くの文脈において,mas数は,多腕バンディットの独立数とは対照的に,文脈バンディットの統計的複雑性を完全に特徴付けることを示す。

We consider contextual bandits with graph feedback, a class of interactive learning problems with richer structures than vanilla contextual bandits, where taking an action reveals the rewards for all neighboring actions in the feedback graph under all contexts. Unlike the multi-armed bandits setting where a growing literature has painted a near-complete understanding of graph feedback, much remains unexplored in the contextual bandits counterpart. In this paper, we make inroads into this inquiry by establishing a regret lower bound $\Omega(\sqrt{\beta_M(G) T})$, where $M$ is the number of contexts, $G$ is the feedback graph, and $\beta_M(G)$ is our proposed graph-theoretical quantity that characterizes the fundamental learning limit for this class of problems. Interestingly, $\beta_M(G)$ interpolates between $\alpha(G)$ (the independence number of the graph) and $\mathsf{m}(G)$ (the maximum acyclic subgraph (MAS) number of the graph) as the number of contexts $M$ varies. We also provide algorithms that achieve near-optimal regrets for important classes of context sequences and/or feedback graphs, such as transitively closed graphs that find applications in auctions and inventory control. In particular, with many contexts, our results show that the MAS number completely characterizes the statistical complexity for contextual bandits, as opposed to the independence number in multi-armed bandits.
翻訳日:2024-03-03 19:11:48 公開日:2024-02-12
# 正則フラー理論 I:有限次元および無限次元における指数積分

Holomorphic Floer theory I: exponential integrals in finite and infinite dimensions ( http://arxiv.org/abs/2402.07343v1 )

ライセンス: Link先を確認
Maxim Kontsevich, Yan Soibelman(参考訳) In the first of the series of papers devoted to our project ``Holomorphic Floer Theory" we discuss exponential integrals and related wall-crossing structures. We emphasize two points of view on the subject: the one based on the ideas of deformation quantization and the one based on the ideas of Floer theory. Their equivalence is a corollary of our generalized Riemann-Hilbert correspondence. In the case of exponential integrals this amounts to several comparison isomorphisms between local and global versions of de Rham and Betti cohomology. We develop the corresponding theories in particular generalizing Morse-Novikov theory to the holomorphic case. We prove that arising wall-crossing structures are analytic. As a corollary, perturbative expansions of exponential integrals are resurgent. Based on a careful study of finite-dimensional exponential integrals we propose a conjectural approach to infinite-dimensional exponential integrals. We illustrate this approach in the case of Feynman path integral with holomorphic Lagrangian boundary conditions as well as in the case of the complexified Chern-Simons theory. We discuss the arising perverse sheaf of infinite rank as well as analyticity of the corresponding ``Chern-Simons wall-crossing structure". 我々は、量子波動関数の一般理論を開発し、チャーン・サイモンズ理論の場合、一般化されたナーム和の概念に基づくチャーン・サイモンズ壁交差構造の代替記述を与えることを示す。 対応する摂動級数の解析性と復活に関するいくつかの予想を提案する。

In the first of the series of papers devoted to our project ``Holomorphic Floer Theory" we discuss exponential integrals and related wall-crossing structures. We emphasize two points of view on the subject: the one based on the ideas of deformation quantization and the one based on the ideas of Floer theory. Their equivalence is a corollary of our generalized Riemann-Hilbert correspondence. In the case of exponential integrals this amounts to several comparison isomorphisms between local and global versions of de Rham and Betti cohomology. We develop the corresponding theories in particular generalizing Morse-Novikov theory to the holomorphic case. We prove that arising wall-crossing structures are analytic. As a corollary, perturbative expansions of exponential integrals are resurgent. Based on a careful study of finite-dimensional exponential integrals we propose a conjectural approach to infinite-dimensional exponential integrals. We illustrate this approach in the case of Feynman path integral with holomorphic Lagrangian boundary conditions as well as in the case of the complexified Chern-Simons theory. We discuss the arising perverse sheaf of infinite rank as well as analyticity of the corresponding ``Chern-Simons wall-crossing structure". We develop a general theory of quantum wave functions and show that in the case of Chern-Simons theory it gives an alternative description of the Chern-Simons wall-crossing structure based on the notion of generalized Nahm sum. We propose several conjectures about analyticity and resurgence of the corresponding perturbative series.
翻訳日:2024-02-25 17:13:07 公開日:2024-02-12
# 相対的選好最適化: IdenticalおよびDiverse Prompt間の対比応答によるLLMアライメントの強化

Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts ( http://arxiv.org/abs/2402.10958v1 )

ライセンス: Link先を確認
Yueqin Yin, Zhendong Wang, Yi Gu, Hai Huang, Weizhu Chen, Mingyuan Zhou(参考訳) 大規模言語モデル(llm)の分野では、モデルをユーザの多様な好みに合わせることが重要な課題である。 この分野ではdpo(direct preference optimization)が重要な役割を果たしている。 同じプロンプトから派生した選好のペアを使用することで動作し、追加の報酬モデルなしで機能する。 しかし、DPOは人間の学習の複雑な性質を完全に反映していない。 この欠点を克服するために、相対的優先度最適化(RPO)を提案する。 RPOは、同一のプロンプトと関連するプロンプトの両方から、より好まれる反応を識別するように設計されている。 コントラスト重み付け機構を導入し、ペアセットとアンペアセットの両方を含む幅広い好みデータを用いてLLMのチューニングを可能にする。 このアプローチはモデルの学習能力を拡張し、より多様なプロンプトからの洞察を活用できる。 対話や要約タスク、AlpacaEval2.0のリーダーボードを用いた評価などの経験的テストを通じて、RPOはLLMをユーザの好みに合わせる優れた能力を示し、トレーニングプロセスの適応性を向上させる。 論文で提示された結果を再現するために必要なPyTorchコードは、GitHubで公開されている。

In the field of large language models (LLMs), aligning models with the diverse preferences of users is a critical challenge. Direct Preference Optimization (DPO) has played a key role in this area. It works by using pairs of preferences derived from the same prompts, and it functions without needing an additional reward model. However, DPO does not fully reflect the complex nature of human learning, which often involves understanding contrasting responses to not only identical but also similar questions. To overcome this shortfall, we propose Relative Preference Optimization (RPO). RPO is designed to discern between more and less preferred responses derived from both identical and related prompts. It introduces a contrastive weighting mechanism, enabling the tuning of LLMs using a broader range of preference data, including both paired and unpaired sets. This approach expands the learning capabilities of the model, allowing it to leverage insights from a more varied set of prompts. Through empirical tests, including dialogue and summarization tasks, and evaluations using the AlpacaEval2.0 leaderboard, RPO has demonstrated a superior ability to align LLMs with user preferences and to improve their adaptability during the training process. The PyTorch code necessary to reproduce the results presented in the paper will be made available on GitHub for public access.
翻訳日:2024-02-25 17:08:04 公開日:2024-02-12
# データが制限されたり、アンバランスになったりして、Sleep-like Unsupervised Replayのパフォーマンスが向上

Sleep-Like Unsupervised Replay Improves Performance when Data are Limited or Unbalanced ( http://arxiv.org/abs/2402.10956v1 )

ライセンス: Link先を確認
Anthony Bazhenov, Pahan Dewasurendra, Giri Krishnan, Jean Erik Delanois(参考訳) ANN(Artificial Neural Network)のパフォーマンスは、トレーニングデータの制限や不均衡によって低下する。 対照的に、人間の脳はほんの数例から素早く学習することができる。 本稿では,MNISTデータセットとFashion MNISTデータセットの限られたデータを用いて訓練されたANNの性能向上における睡眠の役割について検討した。 睡眠はヘビアン型学習規則による教師なしの段階として実装された。 MNISTおよびFashion MNISTデータセットの0.5-10%の範囲で、限られたデータで訓練されたモデルに対して、睡眠後の精度が大幅に向上した。 総データの10%以上を使用した場合、睡眠はパフォーマンスにわずかに悪影響を及ぼしたが、元のデータを微調整することで改善された。 この研究は、睡眠中に脳が採用するシナプス量力学の潜在的な戦略に光を当て、トレーニングデータに制限や不均衡がある場合の記憶性能を高める。

The performance of artificial neural networks (ANNs) degrades when training data are limited or imbalanced. In contrast, the human brain can learn quickly from just a few examples. Here, we investigated the role of sleep in improving the performance of ANNs trained with limited data on the MNIST and Fashion MNIST datasets. Sleep was implemented as an unsupervised phase with local Hebbian type learning rules. We found a significant boost in accuracy after the sleep phase for models trained with limited data in the range of 0.5-10% of total MNIST or Fashion MNIST datasets. When more than 10% of the total data was used, sleep alone had a slight negative impact on performance, but this was remedied by fine-tuning on the original data. This study sheds light on a potential synaptic weight dynamics strategy employed by the brain during sleep to enhance memory performance when training data are limited or imbalanced.
翻訳日:2024-02-25 17:07:42 公開日:2024-02-12
# ソース相関によるbb84の安全性検証

Proving security of BB84 under source correlations ( http://arxiv.org/abs/2402.12346v1 )

ライセンス: Link先を確認
Ashutosh Marwah and Fr\'ed\'eric Dupuis(参考訳) デバイス不完全性とメモリ効果は、現実的な量子源によって生成される状態の間に望ましくない相関をもたらす可能性がある。 これらの相関はソース相関と呼ばれる。 これらの相関の存在下で量子鍵分布(qkd)プロトコルの安全性を証明することは、永続的な課題である。 本稿では,BB84プロトコルのセキュリティ証明を,これまで知られていた手法を用いて,ほぼ完全なソースを持つプロトコルと相関して簡易かつ一般的な手法を提案する。 そこで本研究では、QKDソースの出力をランダムにテストし、ソース相関に拘束力を与える簡単なソーステストを提案する。 次に、最近証明されたエントロピー三角形の不等式をスムーズなミニエントロピーに利用し、ほぼ完全なソースでプロトコルへの還元を行う。

Device imperfections and memory effects can result in undesired correlations among the states generated by a realistic quantum source. These correlations are called source correlations. Proving the security of quantum key distribution (QKD) protocols in the presence of these correlations has been a persistent challenge. We present a simple and general method to reduce the security proof of the BB84 protocol with source correlations to one with an almost perfect source, for which security can be proven using previously known techniques. For this purpose, we introduce a simple source test, which randomly tests the output of the QKD source and provides a bound on the source correlations. We then use the recently proven entropic triangle inequality for the smooth min-entropy to carry out the reduction to the protocol with the almost perfect source.
翻訳日:2024-02-25 16:52:32 公開日:2024-02-12
# ニューラルネットワークにおけるフーリエ回路:数学的推論とモジュラー算術における大規模言語モデルのポテンシャルを解き放つ

Fourier Circuits in Neural Networks: Unlocking the Potential of Large Language Models in Mathematical Reasoning and Modular Arithmetic ( http://arxiv.org/abs/2402.09469v1 )

ライセンス: Link先を確認
Jiuxiang Gu, Chenyang Li, Yingyu Liang, Zhenmei Shi, Zhao Song, Tianyi Zhou(参考訳) 機械学習の進化の展望では、ニューラルネットワークとトランスフォーマーが利用する内部表現の解読に重要な課題がある。 本研究は,ネットワークがターゲット関数をどう実行するかを理解するための最近の進歩に基づいて,特定の計算戦略を採用するネットワークの背後にある理由を探究する。 我々は、$k$入力を含むモジュラー付加の複雑な代数的学習タスクに焦点を向ける。 本研究では,スタイラライズされた一層ニューラルネットワークと一層トランスフォーマによって得られた特徴を解析的に評価する。 理論的枠組みの要点は、マージンの最大化原理が1つの隠れ層ニューラルネットワークで採用される特徴をどのように形作るかの解明である。 p$ は modulus を表し、$D_p$ は $k$ 入力を持つモジュラー演算のデータセットを表し、$m$ はネットワーク幅を表す。 我々は、m \geq 2^{2k-2} \cdot (p-1) $のニューロン数で、これらのネットワークがデータセット上で最大$ l_{2,k+1} $-marginに達することを実証する。 さらに、各隠れ層ニューロンは特定のフーリエスペクトルと整合し、モジュラー加算問題を解くのに不可欠であることを示す。 この知見と類似した研究の経験的観察とを関連づけることで,ニューラルネットワークの本質的な計算機構のより深い理解に寄与する。 さらに、トランスフォーマーの注目行列において、同様の計算機構を観察する。 この研究は、特に複素代数的タスクの領域において、それらの演算複雑性を解き放つための重要な一歩である。

In the evolving landscape of machine learning, a pivotal challenge lies in deciphering the internal representations harnessed by neural networks and Transformers. Building on recent progress toward comprehending how networks execute distinct target functions, our study embarks on an exploration of the underlying reasons behind networks adopting specific computational strategies. We direct our focus to the complex algebraic learning task of modular addition involving $k$ inputs. Our research presents a thorough analytical characterization of the features learned by stylized one-hidden layer neural networks and one-layer Transformers in addressing this task. A cornerstone of our theoretical framework is the elucidation of how the principle of margin maximization shapes the features adopted by one-hidden layer neural networks. Let $p$ denote the modulus, $D_p$ denote the dataset of modular arithmetic with $k$ inputs and $m$ denote the network width. We demonstrate that a neuron count of $ m \geq 2^{2k-2} \cdot (p-1) $, these networks attain a maximum $ L_{2,k+1} $-margin on the dataset $ D_p $. Furthermore, we establish that each hidden-layer neuron aligns with a specific Fourier spectrum, integral to solving modular addition problems. By correlating our findings with the empirical observations of similar studies, we contribute to a deeper comprehension of the intrinsic computational mechanisms of neural networks. Furthermore, we observe similar computational mechanisms in the attention matrix of the Transformer. This research stands as a significant stride in unraveling their operation complexities, particularly in the realm of complex algebraic tasks.
翻訳日:2024-02-16 18:43:22 公開日:2024-02-12
# PANORAMIA:リトレーニングなしの機械学習モデルのプライバシ監査

PANORAMIA: Privacy Auditing of Machine Learning Models without Retraining ( http://arxiv.org/abs/2402.09477v1 )

ライセンス: Link先を確認
Mishaal Kazmi, Hadrien Lautraite, Alireza Akbari, Mauricio Soroco, Qiaoyue Tang, Tao Wang, S\'ebastien Gambs, Mathias L\'ecuyer(参考訳) 生成したデータを非メンバーとして使用した会員推測攻撃に依存するMLモデルのプライバシ監査方式を提案する。 PANORAMIAと呼ぶこのスキームは、トレーニングプロセスやモデル再トレーニングを制御せずに大規模なMLモデルのプライバシリークを定量化し、トレーニングデータのサブセットへのアクセスのみを必要とする。 その適用性を示すため、画像や表データ分類から大規模言語モデルまで、複数のMLドメインにわたる監査手法の評価を行った。

We introduce a privacy auditing scheme for ML models that relies on membership inference attacks using generated data as "non-members". This scheme, which we call PANORAMIA, quantifies the privacy leakage for large-scale ML models without control of the training process or model re-training and only requires access to a subset of the training data. To demonstrate its applicability, we evaluate our auditing scheme across multiple ML domains, ranging from image and tabular data classification to large-scale language models.
翻訳日:2024-02-16 18:28:05 公開日:2024-02-12
# AIによる肺癌予後診断

AI-Enabled Lung Cancer Prognosis ( http://arxiv.org/abs/2402.09476v1 )

ライセンス: Link先を確認
Mahtab Darvish, Ryan Trask, Patrick Tallon, M\'elina Khansari, Lei Ren, Michelle Hershman, Bardia Yousefi(参考訳) 肺がんは、2020年に全世界で約179万人が死亡し、同時期に診断された新規症例は221万人と推定されている。 これらのうち、非小細胞肺癌(non-small cell lung cancer, nclc)が主な亜型であり、悪性度の高い予後を特徴とし、全病期にわたって5年間で約25%の生存率の低下が特徴である。 しかし, 予後は, 診断の段階や治療介入の段階によって大きく異なる。 人工知能(AI)の最近の進歩は、肺癌の予後に革命をもたらした。 機械学習やディープラーニングアルゴリズムを含むAI駆動の手法は、複雑なマルチオミクスデータを効率的に分析し、多様な臨床変数を統合することで、生存率予測の精度を高めることを約束している。 AI技術を活用することで、臨床医は包括的な予後の洞察を利用してパーソナライズされた治療戦略を調整し、最終的にNSCLCの患者結果を改善することができる。 AI駆動のデータ処理の概要は、理解を深め、そのようなシステムを使用するためのより良い方向を提供するのに役立つ。

Lung cancer is the primary cause of cancer-related mortality, claiming approximately 1.79 million lives globally in 2020, with an estimated 2.21 million new cases diagnosed within the same period. Among these, Non-Small Cell Lung Cancer (NSCLC) is the predominant subtype, characterized by a notably bleak prognosis and low overall survival rate of approximately 25% over five years across all disease stages. However, survival outcomes vary considerably based on the stage at diagnosis and the therapeutic interventions administered. Recent advancements in artificial intelligence (AI) have revolutionized the landscape of lung cancer prognosis. AI-driven methodologies, including machine learning and deep learning algorithms, have shown promise in enhancing survival prediction accuracy by efficiently analyzing complex multi-omics data and integrating diverse clinical variables. By leveraging AI techniques, clinicians can harness comprehensive prognostic insights to tailor personalized treatment strategies, ultimately improving patient outcomes in NSCLC. Overviewing AI-driven data processing can significantly help bolster the understanding and provide better directions for using such systems.
翻訳日:2024-02-16 18:27:55 公開日:2024-02-12
# 心拍信号の解読:心電図信号からの説明可能な心房細動検出のための視覚変換器アプローチ

Deciphering Heartbeat Signatures: A Vision Transformer Approach to Explainable Atrial Fibrillation Detection from ECG Signals ( http://arxiv.org/abs/2402.09474v1 )

ライセンス: Link先を確認
Aruna Mohan, Danne Elbers, Or Zilbershot, Fatemeh Afghah, David Vorchheimer(参考訳) ウェアラブル単葉心電図(ECG)デバイスを用いた遠隔患者モニタリングは、特に自動心臓疾患検出のための人工知能(AI)アプローチと組み合わせることで、心臓疾患の早期発見を可能にする重要な可能性を秘めている。 心臓疾患検出のためのディープラーニングに基づくAIアプローチの適用に関する先行研究がある。 しかしながら、これらのモデルは、多くのAIアルゴリズムを取り巻く現在のブラックボックス認識のために、臨床診断の信頼できる支援として広く受け入れられていない。 特に、正確な診断に寄与するecg信号の重要な特徴を識別する必要があるため、モデルの解釈性が向上する。 本研究では,単誘導心電図データに基づいて心房細動を識別する視覚変換器を提案する。 残差ネットワーク(ResNet)アプローチも視覚変換器アプローチと比較するために開発されている。 これらのモデルはChapman-Shaoxingデータセットに応用され、心房細動の分類や、他の一般的な不整脈、洞脈拍、正常洞脈拍を分類する。 これらのモデルにより、心房細動と洞細動との正常な正弦波リズムの区別において、その結果の分類を決定する心拍の鍵領域の同定が可能となり、P波とT波の重要性が強調される。

Remote patient monitoring based on wearable single-lead electrocardiogram (ECG) devices has significant potential for enabling the early detection of heart disease, especially in combination with artificial intelligence (AI) approaches for automated heart disease detection. There have been prior studies applying AI approaches based on deep learning for heart disease detection. However, these models are yet to be widely accepted as a reliable aid for clinical diagnostics, in part due to the current black-box perception surrounding many AI algorithms. In particular, there is a need to identify the key features of the ECG signal that contribute toward making an accurate diagnosis, thereby enhancing the interpretability of the model. In the present study, we develop a vision transformer approach to identify atrial fibrillation based on single-lead ECG data. A residual network (ResNet) approach is also developed for comparison with the vision transformer approach. These models are applied to the Chapman-Shaoxing dataset to classify atrial fibrillation, as well as another common arrhythmia, sinus bradycardia, and normal sinus rhythm heartbeats. The models enable the identification of the key regions of the heartbeat that determine the resulting classification, and highlight the importance of P-waves and T-waves, as well as heartbeat duration and signal amplitude, in distinguishing normal sinus rhythm from atrial fibrillation and sinus bradycardia.
翻訳日:2024-02-16 18:27:37 公開日:2024-02-12
# 列生成による一対一の対実的説明

One-for-many Counterfactual Explanations by Column Generation ( http://arxiv.org/abs/2402.09473v1 )

ライセンス: Link先を確認
Andrea Lodi and Jasone Ram\'irez-Ayerbe(参考訳) 本稿では,インスタンスのサブグループに1つの説明を割り当てる一対一の割り当てルールを用いて,一対一のインスタンス群に対する対実的な説明を生成する問題を考察する。 そこで,本研究では,各説明で変更可能な特徴の数を限定することでスパーシティを考慮しつつ,すべての事例を説明するのに必要な説明回数を最小化する問題を初めて解決する。 説明を効率的に検索する新しい列生成フレームワークを開発した。 我々のフレームワークは、ニューラルネットワークのようなあらゆるブラックボックス分類器に適用できます。 文献からの混合整数型プログラミングの簡単な適応と比較すると、列生成フレームワークはスケーラビリティ、計算性能、ソリューションの品質において支配的である。

In this paper, we consider the problem of generating a set of counterfactual explanations for a group of instances, with the one-for-many allocation rule, where one explanation is allocated to a subgroup of the instances. For the first time, we solve the problem of minimizing the number of explanations needed to explain all the instances, while considering sparsity by limiting the number of features allowed to be changed collectively in each explanation. A novel column generation framework is developed to efficiently search for the explanations. Our framework can be applied to any black-box classifier, like neural networks. Compared with a simple adaptation of a mixed-integer programming formulation from the literature, the column generation framework dominates in terms of scalability, computational performance and quality of the solutions.
翻訳日:2024-02-16 18:27:13 公開日:2024-02-12
# 確率的パラメトリゼーションのための機械学習

Machine Learning for Stochastic Parametrisation ( http://arxiv.org/abs/2402.09471v1 )

ライセンス: Link先を確認
Hannah M. Christensen, Salah Kouhen, Greta Miller, Raghul Parthipan(参考訳) 気象や気候予測に用いられる大気モデルは、伝統的に決定論的に定式化されている。 言い換えると、解決されたスケール変数の特定の状態を考えると、サブグリッドスケールプロセスからの強制力は推定され、大規模フローの進化を予測するのに使用される。 しかし、大気中のスケール分離の欠如は、このアプローチが予測エラーの大きな原因であることを意味する。 近年では、小規模プロセスにおける不確実性を特徴付ける確率的手法の使用という別のパラダイムが開発されている。 これらの技術は現在、気候、季節、季節、気候の時間帯で広く使われている。 並行して、近年は機械学習(ML)を用いたパラメトリックスキームの代替にも大きな進歩が見られる。 これは我々の数値モデルにスピードアップと改善をもたらす可能性がある。 しかし、これまでは決定論的アプローチに重点を置いてきた。 本稿では,これら2つの重要な展開をまとめ,確率的パラメトリゼーションにおけるデータ駆動アプローチの可能性について考察する。 我々はこの分野の初期の研究に注目し、残る新たな課題に注意を向ける。

Atmospheric models used for weather and climate prediction are traditionally formulated in a deterministic manner. In other words, given a particular state of the resolved scale variables, the most likely forcing from the sub-grid scale processes is estimated and used to predict the evolution of the large-scale flow. However, the lack of scale-separation in the atmosphere means that this approach is a large source of error in forecasts. Over recent years, an alternative paradigm has developed: the use of stochastic techniques to characterise uncertainty in small-scale processes. These techniques are now widely used across weather, sub-seasonal, seasonal, and climate timescales. In parallel, recent years have also seen significant progress in replacing parametrisation schemes using machine learning (ML). This has the potential to both speed up and improve our numerical models. However, the focus to date has largely been on deterministic approaches. In this position paper, we bring together these two key developments, and discuss the potential for data-driven approaches for stochastic parametrisation. We highlight early studies in this area, and draw attention to the novel challenges that remain.
翻訳日:2024-02-16 18:27:02 公開日:2024-02-12
# 転がり拡散モデル

Rolling Diffusion Models ( http://arxiv.org/abs/2402.09470v1 )

ライセンス: Link先を確認
David Ruhe, Jonathan Heek, Tim Salimans, Emiel Hoogeboom(参考訳) 拡散モデルは最近、ビデオ、流体力学シミュレーション、気候データなどの時間データにますます適用されている。 これらの方法は一般に拡散過程における雑音量について後続のフレームを等しく扱う。 本稿では,スライディングウインドウデノイジングプロセスを用いた新しい手法であるローリング拡散について検討する。 拡散過程が経時的に劣化することを保証するため、後続のフレームにより多くのノイズを割り当てることで、生成プロセスが展開するにつれて、将来の不確実性が高まる。 テンポラルダイナミクスが複雑である場合、ローリング拡散は標準拡散よりも優れていることを示す。 特に、この結果はkinetics-600ビデオデータセットを用いたビデオ予測タスクとカオス流体力学予測実験で実証されている。

Diffusion models have recently been increasingly applied to temporal data such as video, fluid mechanics simulations, or climate data. These methods generally treat subsequent frames equally regarding the amount of noise in the diffusion process. This paper explores Rolling Diffusion: a new approach that uses a sliding window denoising process. It ensures that the diffusion process progressively corrupts through time by assigning more noise to frames that appear later in a sequence, reflecting greater uncertainty about the future as the generation process unfolds. Empirically, we show that when the temporal dynamics are complex, Rolling Diffusion is superior to standard diffusion. In particular, this result is demonstrated in a video prediction task using the Kinetics-600 video dataset and in a chaotic fluid dynamics forecasting experiment.
翻訳日:2024-02-16 18:26:47 公開日:2024-02-12
# CTにおけるPheochromocytomasおよびParagangliomasの検出について

Weakly Supervised Detection of Pheochromocytomas and Paragangliomas in CT ( http://arxiv.org/abs/2402.08697v1 )

ライセンス: Link先を確認
David C. Oluigboa, Bikash Santra, Tejas Sudharshan Mathai, Pritam Mukherjee, Jianfei Liu, Abhishek Jha, Mayank Patel, Karel Pacak, Ronald M. Summers(参考訳) 褐色細胞腫と傍ガングリオーマ(ppgl)は稀な副腎外腫瘍であり、転移の可能性がある。 PPGLの患者に対して,CTは正確な局所化と進行の予測に好適なモダリティである。 しかし, 異なる解剖学的領域における腫瘍の大きさ, 形態, 出現の多様さから, 放射線技師はPPGLの正確な検出が困難である。 臨床医は、患者の訪問を通じて、定期的にサイズを計測し、変化を追跡する必要があるため、ppglの手動定義は、非常に時間がかかり、面倒なプロセスである。 この作業に費やした手作業を改善するために,プロキシセグメンテーションタスクを用いたCT研究におけるPPGLの自動検出手法を提案する。 PPGLの弱いアノテーションは軸スライス上に有意にマークされた2Dバウンディングボックスの形でのみ利用可能であり、これらの2Dボックスを弱い3Dアノテーションに拡張し、PPGLを直接セグメントする3DフルレゾリューションnnUNetモデルを訓練した。 PPGLと診断された255例の胸腹部骨盤CTによるデータセットについて検討した。 53例のCT検査で,提案手法により70%の精度と64.1%の感度を得た。 本研究は, 分節化によるppgl検出の有望な性質を浮き彫りにしており, 稀少な癌管理の領域において, 最先端の課題である。

Pheochromocytomas and Paragangliomas (PPGLs) are rare adrenal and extra-adrenal tumors which have the potential to metastasize. For the management of patients with PPGLs, CT is the preferred modality of choice for precise localization and estimation of their progression. However, due to the myriad variations in size, morphology, and appearance of the tumors in different anatomical regions, radiologists are posed with the challenge of accurate detection of PPGLs. Since clinicians also need to routinely measure their size and track their changes over time across patient visits, manual demarcation of PPGLs is quite a time-consuming and cumbersome process. To ameliorate the manual effort spent for this task, we propose an automated method to detect PPGLs in CT studies via a proxy segmentation task. As only weak annotations for PPGLs in the form of prospectively marked 2D bounding boxes on an axial slice were available, we extended these 2D boxes into weak 3D annotations and trained a 3D full-resolution nnUNet model to directly segment PPGLs. We evaluated our approach on a dataset consisting of chest-abdomen-pelvis CTs of 255 patients with confirmed PPGLs. We obtained a precision of 70% and sensitivity of 64.1% with our proposed approach when tested on 53 CT studies. Our findings highlight the promising nature of detecting PPGLs via segmentation, and furthers the state-of-the-art in this exciting yet challenging area of rare cancer management.
翻訳日:2024-02-15 18:21:21 公開日:2024-02-12
# game of trojans: 出力ベースのトロイの木馬モデル検出器に対する適応的な敵意

Game of Trojans: Adaptive Adversaries Against Output-based Trojaned-Model Detectors ( http://arxiv.org/abs/2402.08695v1 )

ライセンス: Link先を確認
Dinuka Sahabandu, Xiaojun Xu, Arezoo Rajabi, Luyao Niu, Bhaskar Ramasubramanian, Bo Li, Radha Poovendran(参考訳) 我々は,Trojaned DNNを再訓練し,SOTA出力に基づくTrojanedモデル検出器を意識した適応逆解析法を提案し,解析する。 その結果,(1)トリガー埋め込みとクリーンサンプルの双方において高い精度が確保され,(2)バイパス検出が可能となった。 提案手法は,DNNパラメータの高次元性が,これらの目的を同時に達成するための十分な自由度を提供するという観測に基づいている。 また,SOTA検出器のパラメータの再調整を可能とし,トロイの木馬モデルと検出器のパラメータの共進化をモデル化することで,SOTA検出器の適応を可能にする。 次に、この共進化を反復ゲームとしてモデル化できることを示し、このインタラクティブゲームの結果として得られる(最適)解が、上記の目的を達成するための敵となることを証明した。 さらに,埋め込みトリガの最小限の入力サンプルを選択するために,敵に対する欲求アルゴリズムを提案する。 dnnが使用するクロスエントロピーやログライクな損失関数に対して,greedyアルゴリズムは,トリガー埋め込みされた入力サンプル数を保証可能な保証を提供する。 mnist, cifar-10, cifar-100, speechcommandの4つの多様なデータセットに関する広範な実験により、敵はmntd, neuralcleanse, strip, taborの4つのsota出力ベースのトロイの木馬モデル検出器を効果的に回避できることが判明した。

We propose and analyze an adaptive adversary that can retrain a Trojaned DNN and is also aware of SOTA output-based Trojaned model detectors. We show that such an adversary can ensure (1) high accuracy on both trigger-embedded and clean samples and (2) bypass detection. Our approach is based on an observation that the high dimensionality of the DNN parameters provides sufficient degrees of freedom to simultaneously achieve these objectives. We also enable SOTA detectors to be adaptive by allowing retraining to recalibrate their parameters, thus modeling a co-evolution of parameters of a Trojaned model and detectors. We then show that this co-evolution can be modeled as an iterative game, and prove that the resulting (optimal) solution of this interactive game leads to the adversary successfully achieving the above objectives. In addition, we provide a greedy algorithm for the adversary to select a minimum number of input samples for embedding triggers. We show that for cross-entropy or log-likelihood loss functions used by the DNNs, the greedy algorithm provides provable guarantees on the needed number of trigger-embedded input samples. Extensive experiments on four diverse datasets -- MNIST, CIFAR-10, CIFAR-100, and SpeechCommand -- reveal that the adversary effectively evades four SOTA output-based Trojaned model detectors: MNTD, NeuralCleanse, STRIP, and TABOR.
翻訳日:2024-02-15 18:20:53 公開日:2024-02-12
# アンダーサンプドMRI再建における推測段階の検討

Inference Stage Denoising for Undersampled MRI Reconstruction ( http://arxiv.org/abs/2402.08692v1 )

ライセンス: Link先を確認
Yuyang Xue, Chen Qin, Sotirios A. Tsaftaris(参考訳) 磁気共鳴画像(MRI)データの再構成はディープラーニングによって肯定的な影響を受けている。 重要な課題は、トレーニングとテストデータ間の分散シフトへの一般化を改善することだ。 ほとんどのアプローチは、インダクティブ設計やデータ拡張を通じてこれに対処することを目指している。 しかし、ランダムノイズなどの誤解を招くデータや、推論段階データがモデル化されたシフトの仮定と一致しない場合の影響を受けやすい。 本研究では,条件付きハイパーパラメータネットワークを用いることで,拡張の必要性を排除し,ガウス雑音のレベルにおいて頑健な性能を維持する。 実験段階では,様々な入力ノイズレベルに耐えつつ,高精細度復元を行うことを実証する。 さらに,トレーニングの収束を加速するハイパーパラメータサンプリング戦略を提案する。 提案手法は,ベースライン法と比較して,全ての設定において高い精度と画質を実現する。

Reconstruction of magnetic resonance imaging (MRI) data has been positively affected by deep learning. A key challenge remains: to improve generalisation to distribution shifts between the training and testing data. Most approaches aim to address this via inductive design or data augmentation. However, they can be affected by misleading data, e.g. random noise, and cases where the inference stage data do not match assumptions in the modelled shifts. In this work, by employing a conditional hyperparameter network, we eliminate the need of augmentation, yet maintain robust performance under various levels of Gaussian noise. We demonstrate that our model withstands various input noise levels while producing high-definition reconstructions during the test stage. Moreover, we present a hyperparameter sampling strategy that accelerates the convergence of training. Our proposed method achieves the highest accuracy and image quality in all settings compared to baseline methods.
翻訳日:2024-02-15 18:20:22 公開日:2024-02-12
# テキストから画像への合成のためのユニバーサルセマンティクストリガーの発見

Discovering Universal Semantic Triggers for Text-to-Image Synthesis ( http://arxiv.org/abs/2402.07562v1 )

ライセンス: Link先を確認
Shengfang Zhai, Weilong Wang, Jiajun Li, Yinpeng Dong, Hang Su and Qingni Shen(参考訳) 近年、テキストから画像へのモデルは、制御可能で高品質な生成能力のため、コミュニティで広く注目を集めている。 しかし、そのようなモデルの堅牢性とその潜在的な倫理的問題は十分に検討されていない。 本稿では,入力テキスト内の任意の場所で追加可能でありながら,予め設定された意味的対象に対して生成画像を誘導できる意味のないトークンシーケンスであるuniversal semantic triggerを提案する。 SGSは、与えられたセマンティックターゲットに基づいて、潜在的に普遍的なセマンティックトリガーを自動的に発見する。 さらに,これらのトリガによる画像のセマンティックシフトを包括的に評価する評価指標を設計する。 そして、我々の実証分析によって、主流のオープンソーステキスト・ツー・イメージモデルが私たちのトリガーに弱いことがわかりました。 我々の研究は、テキストと画像の合成のさらなる理解に寄与し、ユーザがデプロイ前にモデルを自動的に監査するのに役立つ。

Recently text-to-image models have gained widespread attention in the community due to their controllable and high-quality generation ability. However, the robustness of such models and their potential ethical issues have not been fully explored. In this paper, we introduce Universal Semantic Trigger, a meaningless token sequence that can be added at any location within the input text yet can induce generated images towards a preset semantic target.To thoroughly investigate it, we propose Semantic Gradient-based Search (SGS) framework. SGS automatically discovers the potential universal semantic triggers based on the given semantic targets. Furthermore, we design evaluation metrics to comprehensively evaluate semantic shift of images caused by these triggers. And our empirical analyses reveal that the mainstream open-source text-to-image models are vulnerable to our triggers, which could pose significant ethical threats. Our work contributes to a further understanding of text-to-image synthesis and helps users to automatically auditing their models before deployment.
翻訳日:2024-02-15 18:19:45 公開日:2024-02-12
# 合成トランスファーラーニングによる解剖学的眼領域分離によるマルチストリーム視線推定

Multistream Gaze Estimation with Anatomical Eye Region Isolation by Synthetic to Real Transfer Learning ( http://arxiv.org/abs/2206.09256v2 )

ライセンス: Link先を確認
Zunayed Mahmud, Paul Hungler, Ali Etemad(参考訳) 本研究では,マルチストリーム・フレームワークによる視線解剖情報を活用し,視線表現を学習するニューラル・パイプラインmsgazenetを提案する。 提案手法は,解剖学的眼領域を分離するネットワークと,マルチストリーム視線推定のための第2のネットワークという2つの構成要素からなる。 眼球と虹彩領域の眼球領域マスクを含む合成データセットを用いて訓練するu-netスタイルのネットワークを用いて眼球領域分離を行う。 この段階で使用される合成データセットは、UnityEyesシミュレータを用いて取得され、80,000個の眼画像で構成されている。 トレーニングの後、眼領域分離ネットワークは実領域に移動され、実世界の眼画像のマスクを生成する。 トランスファーを成功させるために,訓練プロセスにおいてドメインランダム化を活用し,人工画像に類似した拡張の助けを借りて,より大きなばらつきの恩恵を受ける。 生成した眼領域マスクと生眼画像とを合わせて,広範囲の残差ブロックからなる視線推定ネットワークへのマルチストリーム入力を行う。 これらのエンコーダからの出力埋め込みは、視線回帰層に入力する前にチャネル次元に融合する。 我々は,3つの視線推定データセットの枠組みを評価し,高い性能を達成する。 提案手法は,2つのデータセットにおいて,最先端を7.57%,1.85%上回り,他方で競争結果を得る。 また,データ中の雑音に対するロバスト性についても検討し,ノイズに対する感度の低下を実証した。 最後に、様々なコンポーネントの寄与とソリューションにおける設計選択を評価するためのアブレーション研究を含む様々な実験を行った。

We propose a novel neural pipeline, MSGazeNet, that learns gaze representations by taking advantage of the eye anatomy information through a multistream framework. Our proposed solution comprises two components, first a network for isolating anatomical eye regions, and a second network for multistream gaze estimation. The eye region isolation is performed with a U-Net style network which we train using a synthetic dataset that contains eye region masks for the visible eyeball and the iris region. The synthetic dataset used in this stage is procured using the UnityEyes simulator, and consists of 80,000 eye images. Successive to training, the eye region isolation network is then transferred to the real domain for generating masks for the real-world eye images. In order to successfully make the transfer, we exploit domain randomization in the training process, which allows for the synthetic images to benefit from a larger variance with the help of augmentations that resemble artifacts. The generated eye region masks along with the raw eye images are then used together as a multistream input to our gaze estimation network, which consists of wide residual blocks. The output embeddings from these encoders are fused in the channel dimension before feeding into the gaze regression layers. We evaluate our framework on three gaze estimation datasets and achieve strong performances. Our method surpasses the state-of-the-art by 7.57% and 1.85% on two datasets, and obtains competitive results on the other. We also study the robustness of our method with respect to the noise in the data and demonstrate that our model is less sensitive to noisy data. Lastly, we perform a variety of experiments including ablation studies to evaluate the contribution of different components and design choices in our solution.
翻訳日:2024-02-14 20:34:07 公開日:2024-02-12
# 古典と量子論における測定

The measurement in classical and quantum theory ( http://arxiv.org/abs/2201.10344v2 )

ライセンス: Link先を確認
Alexey A. Kryukov(参考訳) Bohigas-Giannoni-Schmit (BGS) 予想は、古典的なカオスシステムの顕微鏡的類似のハミルトニアンはガウスアンサンブルからランダム行列でモデル化できると述べている。 ここで、この予想は古典力学と量子力学の間の最近発見された幾何学的関係の文脈において考慮されている。 BGSによって動機付けられ、古典的対向がランダムウォークを行う系のハミルトニアンは、ガウスユニタリアンサンブルから独立したランダム行列の族によってモデル化できると推測する。 この予想を受け入れて、古典物理学と量子物理学における観察過程の関係を見いだし、観察の不可逆性を導出し、ミクロとマクロの世界の境界を記述する。

The Bohigas-Giannoni-Schmit (BGS) conjecture states that the Hamiltonian of a microscopic analogue of a classical chaotic system can be modeled by a random matrix from a Gaussian ensemble. Here, this conjecture is considered in the context of a recently discovered geometric relationship between classical and quantum mechanics. Motivated by BGS, we conjecture that the Hamiltonian of a system whose classical counterpart performs a random walk can be modeled by a family of independent random matrices from the Gaussian unitary ensemble. By accepting this conjecture, we find a relationship between the process of observation in classical and quantum physics, derive irreversibility of observation and describe the boundary between the micro and macro worlds.
翻訳日:2024-02-14 20:33:38 公開日:2024-02-12
# 公正になるための学習: 等価意思決定への連続的アプローチ

Learning to be Fair: A Consequentialist Approach to Equitable Decision-Making ( http://arxiv.org/abs/2109.08792v4 )

ライセンス: Link先を確認
Alex Chohlas-Wood, Madison Coots, Henry Zhu, Emma Brunskill, Sharad Goel(参考訳) アルゴリズムを公平にするために、機械学習の文献は、人種や性別グループ間の決定、結果、エラー率の等化に重点を置いてきた。 今後、低所得者への交通支援を行う仮説的な政府ライドシェアプログラムについて説明する。 この文献に従えば、1ドル当たりの待遇効果が最も高い者への乗車を割り当てる一方、人種間での支出は等しく抑えることができる。 しかし、このアプローチはそのような制約の下流の結果を無視し、結果として予期せぬ害を引き起こす可能性がある。 例えば、ある人口集団が裁判所から遠く離れた場所に住んでいる場合、平等な支出を課すことは、提供された総乗車数を減らし、また、欠席した裁判所のために罰せられる人が増える可能性がある。 ここでは、決定結果の前提となる等式アルゴリズムを設計するための代替フレームワークを提案する。 このアプローチでは、まず、裁判所の出廷率に対する支出比率のバランスをとることなど、決定の可能な空間と結果の結果として、利害関係者に優先権を与える。 次に、決定政策の領域を最適化し、引き離されたユーティリティを最大化する方法でトレードオフを行います。 そこで我々は,表現力のあるユーティリティ機能群を対象としたデータから,これらの最適ポリシーを効率的に学習するアルゴリズムを開発した。 特に,各ステップの凸最適化問題を解きながら,ポリシの空間を探索するためにコンテキストバンディットアルゴリズムを用い,利用可能な情報に基づいて最適なポリシを推定する。 この一連のパラダイムは、公平な意思決定に対するより包括的なアプローチを促進する。

In an attempt to make algorithms fair, the machine learning literature has largely focused on equalizing decisions, outcomes, or error rates across race or gender groups. To illustrate, consider a hypothetical government rideshare program that provides transportation assistance to low-income people with upcoming court dates. Following this literature, one might allocate rides to those with the highest estimated treatment effect per dollar, while constraining spending to be equal across race groups. That approach, however, ignores the downstream consequences of such constraints, and, as a result, can induce unexpected harms. For instance, if one demographic group lives farther from court, enforcing equal spending would necessarily mean fewer total rides provided, and potentially more people penalized for missing court. Here we present an alternative framework for designing equitable algorithms that foregrounds the consequences of decisions. In our approach, one first elicits stakeholder preferences over the space of possible decisions and the resulting outcomes--such as preferences for balancing spending parity against court appearance rates. We then optimize over the space of decision policies, making trade-offs in a way that maximizes the elicited utility. To do so, we develop an algorithm for efficiently learning these optimal policies from data for a large family of expressive utility functions. In particular, we use a contextual bandit algorithm to explore the space of policies while solving a convex optimization problem at each step to estimate the best policy based on the available information. This consequentialist paradigm facilitates a more holistic approach to equitable decision-making.
翻訳日:2024-02-14 20:32:09 公開日:2024-02-12
# 破損したデータによる因果推論:測定誤差、欠落値、離散化、微分プライバシー

Causal Inference with Corrupted Data: Measurement Error, Missing Values, Discretization, and Differential Privacy ( http://arxiv.org/abs/2107.02780v6 )

ライセンス: Link先を確認
Anish Agarwal and Rahul Singh(参考訳) 米国国勢調査局は、2020年の国勢調査から得られたデータセットを故意に破壊し、回答者のプライバシーを強化し、経済分析の精度を低下させる可能性がある。 このトレードオフが避けられないかどうかを調べるため、高次元劣化データを用いた半パラメトリックな因果推論モデルを定式化する。 本稿では,データクリーニング調整信頼区間を用いたデータクリーニング,推定,推論手法を提案する。 有限サンプル引数による一貫性とガウス近似を半パラメトリック推定に対して$n^{ 1/2}$で証明し、非パラメトリック推定に対して優雅に分解する。 我々の重要な仮定は、真の共変量は概して低いランクであり、近似的な繰り返し測定と経験的に検証される。 本解析は,行列完全性,統計的学習,半パラメトリック統計量に対する非漸近的理論的貢献を提供する。 校正されたシミュレーションは,データクリーニングによる信頼区間の精度を検証し,国勢調査データに対する結果の妥当性を実証する。

The US Census Bureau will deliberately corrupt data sets derived from the 2020 US Census, enhancing the privacy of respondents while potentially reducing the precision of economic analysis. To investigate whether this trade-off is inevitable, we formulate a semiparametric model of causal inference with high dimensional corrupted data. We propose a procedure for data cleaning, estimation, and inference with data cleaning-adjusted confidence intervals. We prove consistency and Gaussian approximation by finite sample arguments, with a rate of $n^{ 1/2}$ for semiparametric estimands that degrades gracefully for nonparametric estimands. Our key assumption is that the true covariates are approximately low rank, which we interpret as approximate repeated measurements and empirically validate. Our analysis provides nonasymptotic theoretical contributions to matrix completion, statistical learning, and semiparametric statistics. Calibrated simulations verify the coverage of our data cleaning adjusted confidence intervals and demonstrate the relevance of our results for Census-derived data.
翻訳日:2024-02-14 20:31:08 公開日:2024-02-12
# MFAI:補助情報を活用するためのスケーラブルなベイズ行列分解手法

MFAI: A Scalable Bayesian Matrix Factorization Approach to Leveraging Auxiliary Information ( http://arxiv.org/abs/2303.02566v2 )

ライセンス: Link先を確認
Zhiwei Wang, Fa Zhang, Cong Zheng, Xianghong Hu, Mingxuan Cai, Can Yang(参考訳) 様々な状況において、行列分解法は、高データ間隔や低信号-雑音比(SNR)などのデータ品質の低下に悩まされている。 本稿では,実世界のアプリケーションで大量に利用可能な補助情報を利用して,データ品質の低下に起因する課題を克服し,行列分解問題を考える。 補助情報と主データ行列を結合する単純な線形モデルに主に依存する既存の手法とは異なり、確率行列分解フレームワークに勾配強化木を統合することで、補助情報(MFAI)を効果的に活用することを提案する。 このように、MFAIは、非線形関係を柔軟にモデル化する能力や、無関係な特徴に対する堅牢性、補助情報における欠落値など、勾配強化木の健全な特徴を自然に継承する。 MFAIのパラメータは、経験的ベイズフレームワークの下で自動的に決定され、補助情報の利用と過剰適合に対する免疫に適応する。 さらに、MFAIは変分推論を利用して計算効率が高く、大規模データセットにスケーラブルである。 我々はシミュレーション研究と実データ解析の総合的な数値結果を通じて,MFAIの利点を実証する。 我々のアプローチは、https://github.com/YangLabHKUST/mfairで利用可能なRパッケージmfairで実装されています。

In various practical situations, matrix factorization methods suffer from poor data quality, such as high data sparsity and low signal-to-noise ratio (SNR). Here, we consider a matrix factorization problem by utilizing auxiliary information, which is massively available in real-world applications, to overcome the challenges caused by poor data quality. Unlike existing methods that mainly rely on simple linear models to combine auxiliary information with the main data matrix, we propose to integrate gradient boosted trees in the probabilistic matrix factorization framework to effectively leverage auxiliary information (MFAI). Thus, MFAI naturally inherits several salient features of gradient boosted trees, such as the capability of flexibly modeling nonlinear relationships and robustness to irrelevant features and missing values in auxiliary information. The parameters in MFAI can be automatically determined under the empirical Bayes framework, making it adaptive to the utilization of auxiliary information and immune to overfitting. Moreover, MFAI is computationally efficient and scalable to large datasets by exploiting variational inference. We demonstrate the advantages of MFAI through comprehensive numerical results from simulation studies and real data analyses. Our approach is implemented in the R package mfair available at https://github.com/YangLabHKUST/mfair.
翻訳日:2024-02-14 20:22:36 公開日:2024-02-12
# ペアワイズ類似性のアクティブラーニングによる相関クラスタリング

Correlation Clustering with Active Learning of Pairwise Similarities ( http://arxiv.org/abs/2302.10295v4 )

ライセンス: Link先を確認
Linus Aronsson, Morteza Haghir Chehreghani(参考訳) 相関クラスタリングは、正と負の対の類似性を扱う、よく知られた教師なし学習設定である。 本稿では, 対の類似性が事前に与えられておらず, 費用対効果で問い合わせなければならない場合について検討する。 これにより,ユーザ/アノテーションが提供できるフィードバックタイプの柔軟性,相関クラスタリングアルゴリズムへの適応,クエリ戦略,雑音に対するロバスト性など,いくつかの利点を生かした,このタスクのための汎用的なアクティブラーニングフレームワークを開発する。 さらに,この設定に適した新しいクエリ戦略を提案し,分析する。 本手法の有効性と提案する問合せ戦略を,いくつかの実験により実証する。

Correlation clustering is a well-known unsupervised learning setting that deals with positive and negative pairwise similarities. In this paper, we study the case where the pairwise similarities are not given in advance and must be queried in a cost-efficient way. Thereby, we develop a generic active learning framework for this task that benefits from several advantages, e.g., flexibility in the type of feedback that a user/annotator can provide, adaptation to any correlation clustering algorithm and query strategy, and robustness to noise. In addition, we propose and analyze a number of novel query strategies suited to this setting. We demonstrate the effectiveness of our framework and the proposed query strategies via several experimental studies.
翻訳日:2024-02-14 20:21:52 公開日:2024-02-12
# オフラインRLにおける選択的不確かさ伝播

Selective Uncertainty Propagation in Offline RL ( http://arxiv.org/abs/2302.00284v2 )

ライセンス: Link先を確認
Sanath Kumar Krishnamurthy, Shrey Modi, Tanmay Gangwani, Sumeet Katariya, Branislav Kveton, Anshuka Rangi(参考訳) 我々は、有限水平オフライン強化学習(RL)の設定を考察し、動的プログラミング(DP)アルゴリズムにおける任意のステップhでポリシーを学習するという課題に動機づけられる。 これを学習するためには、全ての将来のステップにポリシーを最適化した後、ステップhで行動方針から逸脱する処理効果を評価するのに十分である。 任意のステップにおけるポリシーは次の状態分布に影響を与える可能性があるため、関連する分布シフトの課題は、確率的文脈的バンディット設定におけるそのような処理効果を推定するよりもはるかに統計的に難しい。 しかし、多くの実世界のRLインスタンスの硬さは2つの状態の間にある。 本研究では,分散シフトの難易度に適応する信頼区間構築のための,選択的不確実性伝播という柔軟で汎用的な手法を開発する。 おもちゃの環境に対するアプローチの利点を示し、オフライン政策学習におけるこれらの手法の利点を示す。

We consider the finite-horizon offline reinforcement learning (RL) setting, and are motivated by the challenge of learning the policy at any step h in dynamic programming (DP) algorithms. To learn this, it is sufficient to evaluate the treatment effect of deviating from the behavioral policy at step h after having optimized the policy for all future steps. Since the policy at any step can affect next-state distributions, the related distributional shift challenges can make this problem far more statistically hard than estimating such treatment effects in the stochastic contextual bandit setting. However, the hardness of many real-world RL instances lies between the two regimes. We develop a flexible and general method called selective uncertainty propagation for confidence interval construction that adapts to the hardness of the associated distribution shift challenges. We show benefits of our approach on toy environments and demonstrate the benefits of these techniques for offline policy learning.
翻訳日:2024-02-14 20:21:41 公開日:2024-02-12
# 大規模言語モデルは潜在変数モデルである:インテクスト学習のための良い説明と発見

Large Language Models Are Latent Variable Models: Explaining and Finding Good Demonstrations for In-Context Learning ( http://arxiv.org/abs/2301.11916v4 )

ライセンス: Link先を確認
Xinyi Wang, Wanrong Zhu, Michael Saxon, Mark Steyvers, William Yang Wang(参考訳) 近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。 しかし、既存の文献では、この能力のわずかなデモの選択に対する感受性が強調されている。 この能力が通常の言語モデルの事前学習目標から生じるメカニズムの現在の理解は、現実世界のllmから切り離されているままである。 本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。 そこで本研究では,小さいlmでアノテートされたデータの集合から最適なデモンストレーションを選択し,選択したデモをより大きなlmに直接一般化するアルゴリズムを提案する。 8つの実世界のテキスト分類データセットで8つのgptモデルを平均してベースラインよりも大幅に改善した。 また,数学語問題データセットであるGSM8K上で,本アルゴリズムの現実的有用性を示す。 llmsはタスク情報を含む潜在変数を暗黙的に推測する仮説を実証的に支持する。

In recent years, pre-trained large language models (LLMs) have demonstrated remarkable efficiency in achieving an inference-time few-shot learning capability known as in-context learning. However, existing literature has highlighted the sensitivity of this capability to the selection of few-shot demonstrations. Current understandings of the underlying mechanisms by which this capability arises from regular language model pretraining objectives remain disconnected from the real-world LLMs. This study aims to examine the in-context learning phenomenon through a Bayesian lens, viewing real-world LLMs as latent variable models. On this premise, we propose an algorithm to select optimal demonstrations from a set of annotated data with a small LM, and then directly generalize the selected demonstrations to larger LMs. We demonstrate significant improvement over baselines, averaged over eight GPT models on eight real-world text classification datasets. We also demonstrate the real-world usefulness of our algorithm on GSM8K, a math word problem dataset. Our empirical findings support our hypothesis that LLMs implicitly infer a latent variable containing task information.
翻訳日:2024-02-14 20:20:48 公開日:2024-02-12
# schrodinger dynamicsは測定を説明できるのか?

Can the Schrodinger dynamics explain measurement? ( http://arxiv.org/abs/2301.01858v2 )

ライセンス: Link先を確認
Alexey A. Kryukov(参考訳) 丸い障害物の適切な格子を通る球の運動はブラウン粒子の挙動をモデル化し、マクロ系の測定を記述するのに使うことができる。 一方、そのような動きはカオスであり、既知の予想では、対応する量子系のハミルトニアンは適切なアンサンブルのランダム行列統計に従わなければならない。 ガウスユニタリアンサンブルにおけるランダム行列で表されるハミルトニアンは、非定常状態のシュル=オディンガー進化を研究するために用いられる。 古典系を表すガウス状態に対しては、測定中の系の挙動を記述するブラウン運動が得られる。 一般的な量子状態に対しては、状態間の遷移確率のボルン則が導かれる。 すると、そのようなハミルトニアンモデルによる巨視的・微視的系のモデルによるシュル=オディンガー進化は、巨視的物体の古典的挙動と測定の不可逆性の説明を提供し、ミクロと巨視的世界の境界を同定する。

The motion of a ball through an appropriate lattice of round obstacles models the behavior of a Brownian particle and can be used to describe measurement on a macro system. On another hand, such motion is chaotic and a known conjecture asserts that the Hamiltonian of the corresponding quantum system must follow the random matrix statistics of an appropriate ensemble. We use the Hamiltonian represented by a random matrix in the Gaussian unitary ensemble to study the Schr\"odinger evolution of non-stationary states. For Gaussian states representing a classical system, the Brownian motion that describes the behavior of the system under measurement is obtained. For general quantum states, the Born rule for the probability of transition between states is derived. It is then shown that the Schr\"odinger evolution with such a Hamiltonian models measurement on macroscopic and microscopic systems, provides an explanation for the classical behavior of macroscopic bodies and for irreversibility of a measurement, and identifies the boundary between micro and macro worlds.
翻訳日:2024-02-14 20:19:10 公開日:2024-02-12
# 新しい脆弱歩行者データセットにおける深部物体検出器の比較

Comparison Of Deep Object Detectors On A New Vulnerable Pedestrian Dataset ( http://arxiv.org/abs/2212.06218v2 )

ライセンス: Link先を確認
Devansh Sharma, Tihitina Hade, Qing Tian(参考訳) 歩行者の安全は自動運転の主要な関心事である。 今日の歩行者データセットにおける脆弱なグループの表現不足は、脆弱な道路ユーザのデータセットに対する緊急の必要性を示している。 包括的モデルを訓練し,次いで,脆弱な歩行者識別の精度を向上させるための研究を進めるために,まず,脆弱な歩行者検出のための新しいデータセット,bg vulnerable pedestrian (bgvp)データセットを紹介する。 データセットには、障害のない子供、障害のない高齢者、障害のある高齢者、非脆弱性の4つのクラスが含まれている。 このデータセットはパブリックドメインから収集された画像と手動で注釈付けされたバウンディングボックスで構成されている。 さらに,提案したデータセットを用いて,YOLOv4,YOLOv5,YOLOX,Faster R-CNN,EfficientDetの5つの古典的ないし最先端のオブジェクト検出モデルをトレーニング,テストした。 その結果,YOLOXとYOLOv4はデータセット上で最高の成績を示し,YOLOv4は0.7999,YOLOXは0.5で0.7779,YOLOXは0.5で3.8%の成績を示した。 一般的に、5つの検知器は、 with Disability クラスをよく予測し、高齢者障害クラスではうまく機能しない。 YOLOX は mAP (0.5:0.95) の他の検出器を常に上回り、障害のない子供、障害のない高齢者、障害のない子供、障害のない子供、および障害のない人それぞれ 0.5644, 0.5242, 0.4781, 0.6796 を得る。 私たちのデータセットとコードはhttps://github.com/devvansh1997/bgvpで利用可能です。

Pedestrian safety is one primary concern in autonomous driving. The under-representation of vulnerable groups in today's pedestrian datasets points to an urgent need for a dataset of vulnerable road users. In order to help train comprehensive models and subsequently drive research to improve the accuracy of vulnerable pedestrian identification, we first introduce a new dataset for vulnerable pedestrian detection in this paper: the BG Vulnerable Pedestrian (BGVP) dataset. The dataset includes four classes, i.e., Children Without Disability, Elderly without Disability, With Disability, and Non-Vulnerable. This dataset consists of images collected from the public domain and manually-annotated bounding boxes. In addition, on the proposed dataset, we have trained and tested five classic or state-of-the-art object detection models, i.e., YOLOv4, YOLOv5, YOLOX, Faster R-CNN, and EfficientDet. Our results indicate that YOLOX and YOLOv4 perform the best on our dataset, YOLOv4 scoring 0.7999 and YOLOX scoring 0.7779 on the mAP 0.5 metric, while YOLOX outperforms YOLOv4 by 3.8 percent on the mAP 0.5:0.95 metric. Generally speaking, all five detectors do well predicting the With Disability class and perform poorly in the Elderly Without Disability class. YOLOX consistently outperforms all other detectors on the mAP (0.5:0.95) per class metric, obtaining 0.5644, 0.5242, 0.4781, and 0.6796 for Children Without Disability, Elderly Without Disability, Non-vulnerable, and With Disability, respectively. Our dataset and codes are available at https://github.com/devvansh1997/BGVP.
翻訳日:2024-02-14 20:18:29 公開日:2024-02-12
# Open Domain Multi-Hop Question AnsweringのためのFew-Shotデータ合成

Few-Shot Data Synthesis for Open Domain Multi-Hop Question Answering ( http://arxiv.org/abs/2305.13691v2 )

ライセンス: Link先を確認
Mingda Chen, Xilun Chen, Wen-tau Yih(参考訳) オープンドメインのマルチホップ質問応答のためのほとんどショット学習は、大言語モデル(LLM)の非コンテキスト学習能力に依存している。 強力ではあるが、これらのLSMは通常数十億から数百億のパラメータを含み、推論時にかなり非効率である。 より小さな言語モデルの性能向上のために,10個未満の注釈付き質問応答ペアを必要とするマルチホップ質問応答のためのデータ合成フレームワークを提案する。 我々のフレームワークは文書間のリッチで自然な関係にのみ依存しており、LLMとプロンプトによってパラメータ化されたデータ生成関数に基づいて構築されている。 我々は、何百万ものマルチホップ質問を合成し、言語モデルを微調整し、マルチホップ質問応答と事実検証のための一般的なベンチマークで評価する。 実験により,本手法はモデル性能を著しく向上させ,パラメータカウントの約3分の1の大きさでGPT-3.5ベースの手法と競合する。

Few-shot learning for open domain multi-hop question answering typically relies on the incontext learning capability of large language models (LLMs). While powerful, these LLMs usually contain tens or hundreds of billions of parameters, making them rather inefficient at inference time. To improve performance of smaller language models, we propose a data synthesis framework for multi-hop question answering that requires less than 10 human annotated question answer pairs. Our framework depends only on rich, naturally-occurring relationships among documents and is built upon the data generation functions parameterized by LLMs and prompts. We synthesize millions of multi-hop questions and claims to finetune language models, evaluated on popular benchmarks for multi-hop question answering and fact verification. Empirically, our approach improves model performance significantly, allowing the finetuned models to be competitive with GPT-3.5 based approaches while being almost one-third the size in parameter count.
翻訳日:2024-02-14 20:09:55 公開日:2024-02-12
# デッドラインインスタンスを用いた高速かつ効率的なマッチングアルゴリズム

Fast and Efficient Matching Algorithm with Deadline Instances ( http://arxiv.org/abs/2305.08353v2 )

ライセンス: Link先を確認
Zhao Song, Weixin Wang, Chenbo Yin, Junze Yin(参考訳) オンライン重み付けマッチング問題は、多くの応用のために機械学習の基本的な問題である。 この領域での多くの努力にもかかわらず、既存のアルゴリズムは遅すぎるか、$\mathrm{deadline}$(ノードがマッチできる最長時間)を考慮に入れない。 本稿では,まず$\mathrm{deadline}$という市場モデルを紹介する。 次に、2つの最適化アルゴリズム(\textsc{fastgreedy} と \textsc{fastpostponedgreedy})を提示し、アルゴリズムの時間複雑性と正確性に関する理論的証明を提供する。 textsc{FastGreedy}アルゴリズムでは、ノードが買い手なのか売り手なのかをすでに知っています。 しかし、 \textsc{FastPostponedGreedy} アルゴリズムでは、各ノードの状態は最初不明である。 次に、スケッチマトリクスを一般化し、実際のデータセットと合成データセットの両方でオリジナルのアルゴリズムとアルゴリズムを実行する。 $\epsilon \in (0,0.1)$ は各辺の実重みの相対誤差を表す。 元の \textsc{Greedy} と \textsc{PostponedGreedy} の競合比は、それぞれ $\frac{1}{2}$ と $\frac{1}{4}$ である。 これら2つのアルゴリズムに基づいて, \textsc{fastgreedy} と \textsc{fastpostponedgreedy} のアルゴリズムを提案し,その競合比はそれぞれ $\frac{1 - \epsilon}{2}$ と $\frac{1 - \epsilon}{4}$ である。 同時に、我々のアルゴリズムは元の2つのアルゴリズムよりも高速に動作します。 n$ ノードが $\mathbb{r} ^ d$ で与えられると、時間の複雑さは $o(nd)$ から $\widetilde{o}(\epsilon^{-2} \cdot (n + d))$ に減少する。

The online weighted matching problem is a fundamental problem in machine learning due to its numerous applications. Despite many efforts in this area, existing algorithms are either too slow or don't take $\mathrm{deadline}$ (the longest time a node can be matched) into account. In this paper, we introduce a market model with $\mathrm{deadline}$ first. Next, we present our two optimized algorithms (\textsc{FastGreedy} and \textsc{FastPostponedGreedy}) and offer theoretical proof of the time complexity and correctness of our algorithms. In \textsc{FastGreedy} algorithm, we have already known if a node is a buyer or a seller. But in \textsc{FastPostponedGreedy} algorithm, the status of each node is unknown at first. Then, we generalize a sketching matrix to run the original and our algorithms on both real data sets and synthetic data sets. Let $\epsilon \in (0,0.1)$ denote the relative error of the real weight of each edge. The competitive ratio of original \textsc{Greedy} and \textsc{PostponedGreedy} is $\frac{1}{2}$ and $\frac{1}{4}$ respectively. Based on these two original algorithms, we proposed \textsc{FastGreedy} and \textsc{FastPostponedGreedy} algorithms and the competitive ratio of them is $\frac{1 - \epsilon}{2}$ and $\frac{1 - \epsilon}{4}$ respectively. At the same time, our algorithms run faster than the original two algorithms. Given $n$ nodes in $\mathbb{R} ^ d$, we decrease the time complexity from $O(nd)$ to $\widetilde{O}(\epsilon^{-2} \cdot (n + d))$.
翻訳日:2024-02-14 20:09:09 公開日:2024-02-12
# IVP-VAE:初期値問題解を用いたEHR時系列モデリング

IVP-VAE: Modeling EHR Time Series with Initial Value Problem Solvers ( http://arxiv.org/abs/2305.06741v3 )

ライセンス: Link先を確認
Jingge Xiao, Leonie Basso, Wolfgang Nejdl, Niloy Ganguly, Sandipan Sikdar(参考訳) Neural ODEsやNeural Flowsのような連続した時間モデルでは、電子健康記録で頻繁に遭遇する不規則にサンプリングされた時系列を分析して有望な結果を示している。 これらのモデルに基づいて、時系列は通常、変分オートエンコーダアーキテクチャ内の初期値問題(ivp)ソルバと再帰ニューラルネットワークのハイブリッドで処理される。 IVPを逐次解くことで、そのようなモデルは計算効率が低下する。 本稿では,状態変化をivpsで直接近似できる連続プロセスを用いて,時系列をモデル化することを提案する。 これにより、反復計算が不要になり、複数の状態が並列に進化することが可能になる。 さらに、その可逆性を利用して1つのippソルバにエンコーダとデコーダを融合させることにより、パラメータの削減と収束の高速化を図る。 実世界の3つのデータセットの実験から,提案手法は先進国を体系的に上回り,最先端の結果が得られ,データ効率の面で大きな優位性を持つことが示された。

Continuous-time models such as Neural ODEs and Neural Flows have shown promising results in analyzing irregularly sampled time series frequently encountered in electronic health records. Based on these models, time series are typically processed with a hybrid of an initial value problem (IVP) solver and a recurrent neural network within the variational autoencoder architecture. Sequentially solving IVPs makes such models computationally less efficient. In this paper, we propose to model time series purely with continuous processes whose state evolution can be approximated directly by IVPs. This eliminates the need for recurrent computation and enables multiple states to evolve in parallel. We further fuse the encoder and decoder with one IVP solver utilizing its invertibility, which leads to fewer parameters and faster convergence. Experiments on three real-world datasets show that the proposed method can systematically outperform its predecessors, achieve state-of-the-art results, and have significant advantages in terms of data efficiency.
翻訳日:2024-02-14 20:08:37 公開日:2024-02-12
# 自己注意力学におけるクラスターの出現

The emergence of clusters in self-attention dynamics ( http://arxiv.org/abs/2305.05465v6 )

ライセンス: Link先を確認
Borjan Geshkovski, Cyril Letrouit, Yury Polyanskiy, Philippe Rigollet(参考訳) 相互作用する粒子系としてトランスフォーマーを見ることにより,重みが時間に依存しない場合の学習表現の幾何学を記述する。 トークンを表す粒子は、時間とともに無限大となるため、特定の制限対象に向かって集結する傾向にある。 クラスタ位置は初期トークンによって決定され、Transformersが学習した表現のコンテキスト認識を確認する。 力学系と偏微分方程式の手法を用いて、出現する制限対象の型は値行列のスペクトルに依存することを示した。 さらに、一次元の場合、自己着行列が低階ブール行列に収束することを証明する。 これらの結果の組み合わせは、vaswaniらによる経験的観察を数学的に確認する。 [VSP'17]トランスフォーマーによって処理されると、リーダーが一連のトークンに現れる。

Viewing Transformers as interacting particle systems, we describe the geometry of learned representations when the weights are not time dependent. We show that particles, representing tokens, tend to cluster toward particular limiting objects as time tends to infinity. Cluster locations are determined by the initial tokens, confirming context-awareness of representations learned by Transformers. Using techniques from dynamical systems and partial differential equations, we show that the type of limiting object that emerges depends on the spectrum of the value matrix. Additionally, in the one-dimensional case we prove that the self-attention matrix converges to a low-rank Boolean matrix. The combination of these results mathematically confirms the empirical observation made by Vaswani et al. [VSP'17] that leaders appear in a sequence of tokens when processed by Transformers.
翻訳日:2024-02-14 20:08:21 公開日:2024-02-12
# gistトークンでプロンプトを圧縮する学習

Learning to Compress Prompts with Gist Tokens ( http://arxiv.org/abs/2304.08467v3 )

ライセンス: Link先を確認
Jesse Mu, Xiang Lisa Li, Noah Goodman(参考訳) プロンプトは言語モデル(lms)のマルチタスク機能を利用する主要な方法であるが、プロンプトは入力コンテキストウィンドウの貴重なスペースを占め、同じプロンプトを繰り返しエンコーディングすることは計算量的に非効率である。 微粒化および蒸留法は、LMをプロンプトせずに特殊化することができるが、各タスクのモデルを再訓練する必要がある。 このトレードオフを完全に回避するために、我々はLMにプロンプトを圧縮するよう訓練するgistingを、キャッシュし、計算効率を高めるために再利用できる"gist"トークンの小さなセットに提示する。 gistモデルは、プロンプト圧縮を促進するために変圧器アテンションマスクを単純に変更することで、標準命令の微調整よりも追加コストなしでトレーニングすることができる。 decoder (LLaMA-7B) と encoder-decoder (FLAN-T5-XXL) のLMでは、gisting はプロンプトの最大26倍の圧縮が可能で、最大40%のFLOPs削減、4.2%のウォールタイムスピードアップ、ストレージセーブが可能で、出力品質の損失は最小限である。

Prompting is the primary way to utilize the multitask capabilities of language models (LMs), but prompts occupy valuable space in the input context window, and repeatedly encoding the same prompt is computationally inefficient. Finetuning and distillation methods allow for specialization of LMs without prompting, but require retraining the model for each task. To avoid this trade-off entirely, we present gisting, which trains an LM to compress prompts into smaller sets of "gist" tokens which can be cached and reused for compute efficiency. Gist models can be trained with no additional cost over standard instruction finetuning by simply modifying Transformer attention masks to encourage prompt compression. On decoder (LLaMA-7B) and encoder-decoder (FLAN-T5-XXL) LMs, gisting enables up to 26x compression of prompts, resulting in up to 40% FLOPs reductions, 4.2% wall time speedups, and storage savings, all with minimal loss in output quality.
翻訳日:2024-02-14 20:07:06 公開日:2024-02-12
# ベイズ深層学習のための崩壊推論

Collapsed Inference for Bayesian Deep Learning ( http://arxiv.org/abs/2306.09686v2 )

ライセンス: Link先を確認
Zhe Zeng, Guy Van den Broeck(参考訳) ベイズニューラルネットワーク(BNN)は、ディープラーニングにおける不確実性を定量化し、校正するフォーマリズムを提供する。 現在のbnnの推論アプローチでは、予測性能を損なう可能性があり、その代替案は計算量的に高価である傾向があります。 我々は、BNNの推論とボリューム計算の問題との間に、これまで見つからなかった関係を明らかにすることで、この問題に対処する。 本研究では, 崩壊サンプルを用いたベイズモデル平均化を行う新しい崩壊予測手法を提案する。 モンテカルロのサンプルよりは、サンプリングをネットワーク重みのサブセットに制限し、残りの部分で閉じた条件分布とペアリングすることで改善する。 崩壊したサンプルは、近似の後方から引き出された不測の多くのモデルを表し、高いサンプル効率をもたらす。 さらに,既存の体積計算解法を利用して,ニューラルネットワークの非線形性に拘わらず,崩壊したサンプルの残差化を解析的かつ効率的に解けることを示す。 提案する崩壊サンプルの利用は,スケーラビリティと精度のバランスを両立させる。 様々な回帰・分類タスクにおいて,崩壊したベイズ深層学習手法は既存手法よりも大幅に改善され,不確実性評価や予測性能の観点から新たな手法が確立された。

Bayesian neural networks (BNNs) provide a formalism to quantify and calibrate uncertainty in deep learning. Current inference approaches for BNNs often resort to few-sample estimation for scalability, which can harm predictive performance, while its alternatives tend to be computationally prohibitively expensive. We tackle this challenge by revealing a previously unseen connection between inference on BNNs and volume computation problems. With this observation, we introduce a novel collapsed inference scheme that performs Bayesian model averaging using collapsed samples. It improves over a Monte-Carlo sample by limiting sampling to a subset of the network weights while pairing it with some closed-form conditional distribution over the rest. A collapsed sample represents uncountably many models drawn from the approximate posterior and thus yields higher sample efficiency. Further, we show that the marginalization of a collapsed sample can be solved analytically and efficiently despite the non-linearity of neural networks by leveraging existing volume computation solvers. Our proposed use of collapsed samples achieves a balance between scalability and accuracy. On various regression and classification tasks, our collapsed Bayesian deep learning approach demonstrates significant improvements over existing methods and sets a new state of the art in terms of uncertainty estimation as well as predictive performance.
翻訳日:2024-02-14 19:57:37 公開日:2024-02-12
# オーバースカッシングはGNNのパワーにどのように影響しますか?

How does over-squashing affect the power of GNNs? ( http://arxiv.org/abs/2306.03589v3 )

ライセンス: Link先を確認
Francesco Di Giovanni, T. Konstantin Rusch, Michael M. Bronstein, Andreea Deac, Marc Lackenby, Siddhartha Mishra, Petar Veli\v{c}kovi\'c(参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データの機械学習のための最先端モデルである。 最もポピュラーなGNNクラスは、隣接ノード間で情報を交換することで動作し、Message Passing Neural Networks (MPNNs)として知られている。 広く使われているMPNNの表現力を理解することは重要な問題である。 しかし、既存の結果は、通常、ノード機能のない設定を考える。 本稿では,与えられたキャパシティを持つMPNNがどのノード特徴の関数クラスを学習できるかを決定するための厳密な分析を行う。 私たちはMPNNが許容するノード間のペアワイズインタラクションのレベルを測定することで実現しています。 この尺度は、大量のメッセージが固定サイズのベクトルに集約されたときに発生する、いわゆるオーバースワッシング効果の新しい定量的特徴付けを提供する。 提案手法を用いて,一対のノード間の十分な通信を保証するために,MPNNの容量は,通勤時間などの入力グラフ構造の性質に応じて十分に大きくなければならないことを示す。 多くの関連するシナリオにおいて、我々の分析は実際には不可能なステートメントを生じさせ、過剰なスカッシングがMPNNの表現力を妨げていることを示す。 我々は,広範囲な制御実験とアブレーション研究を通じて理論的知見を検証する。

Graph Neural Networks (GNNs) are the state-of-the-art model for machine learning on graph-structured data. The most popular class of GNNs operate by exchanging information between adjacent nodes, and are known as Message Passing Neural Networks (MPNNs). Given their widespread use, understanding the expressive power of MPNNs is a key question. However, existing results typically consider settings with uninformative node features. In this paper, we provide a rigorous analysis to determine which function classes of node features can be learned by an MPNN of a given capacity. We do so by measuring the level of pairwise interactions between nodes that MPNNs allow for. This measure provides a novel quantitative characterization of the so-called over-squashing effect, which is observed to occur when a large volume of messages is aggregated into fixed-size vectors. Using our measure, we prove that, to guarantee sufficient communication between pairs of nodes, the capacity of the MPNN must be large enough, depending on properties of the input graph structure, such as commute times. For many relevant scenarios, our analysis results in impossibility statements in practice, showing that over-squashing hinders the expressive power of MPNNs. We validate our theoretical findings through extensive controlled experiments and ablation studies.
翻訳日:2024-02-14 19:55:41 公開日:2024-02-12
# ベイズ最適化における文脈変数の学習

Learning relevant contextual variables within Bayesian Optimization ( http://arxiv.org/abs/2305.14120v3 )

ライセンス: Link先を確認
Julien Martinelli, Ayush Bharti, Armi Tiihonen, S.T. John, Louis Filstroff, Sabina J. Sloman, Patrick Rinke and Samuel Kaski(参考訳) 文脈ベイズ最適化(CBO)は、設計変数に関してブラックボックス関数を効率的に最適化し、実験条件などの環境に関するコンテキスト情報を同時に統合する。 しかし、文脈変数の関連性は事前には分かっていない。 さらに、コンテクスト変数は、現在のCBOアルゴリズムによって見落とされ、追加コストで最適化されることもある。 コストに敏感なCBOは、コストに基づいて設計変数の一部として最適化可能なコンテキスト変数を含める。 代わりに、最適化に含める文脈変数のサブセットを適応的に選択し、それらが環境によって決定される場合と比較して最適化することで得られる追加コストと、それらとの間のトレードオフに基づいて選択する。 後方サーロゲートモデルの感度解析により文脈変数の関連性を学習し,boの早期停止に関する最近の進展を利用して最適化コストを最小化する。 提案手法は,人工的および実世界実験の両方における代替案に対する感度分析駆動型コンテキストボ法(sadcbo法)と広範なアブレーション実験を併用して実証的に評価し,実例間で一貫した改善を示す。

Contextual Bayesian Optimization (CBO) efficiently optimizes black-box functions with respect to design variables, while simultaneously integrating contextual information regarding the environment, such as experimental conditions. However, the relevance of contextual variables is not necessarily known beforehand. Moreover, contextual variables can sometimes be optimized themselves at additional cost, a setting overlooked by current CBO algorithms. Cost-sensitive CBO would simply include optimizable contextual variables as part of the design variables based on their cost. Instead, we adaptively select a subset of contextual variables to include in the optimization, based on the trade-off between their \emph{relevance} and the additional cost incurred by optimizing them compared to leaving them to be determined by the environment. We learn the relevance of contextual variables by sensitivity analysis of the posterior surrogate model while minimizing the cost of optimization by leveraging recent developments on early stopping for BO. We empirically evaluate our proposed Sensitivity-Analysis-Driven Contextual BO (SADCBO) method against alternatives on both synthetic and real-world experiments, together with extensive ablation studies, and demonstrate a consistent improvement across examples.
翻訳日:2024-02-14 19:53:21 公開日:2024-02-12
# キネティックインダクタンスナノワイヤからのジャンクションフリーマイクロ波2モード放射

Junction-free microwave two-mode radiation from a kinetic inductance nanowire ( http://arxiv.org/abs/2308.02109v2 )

ライセンス: Link先を確認
Yufeng Wu, Mingrui Xu, and Hong X. Tang(参考訳) パラメトリックダウン変換は、量子情報処理と量子センシングのための光子の絡み合った状態を生成する光学において広く利用される技法である。 マイクロ波領域では、ジョセフソンパラメトリックアンプ(jpa)や電圧バイアスジョセフソンジャンクションなどのジョセフソンジャンクションに基づくデバイスが、そのような状態を生成するためにうまく利用されてきた。 しかし、磁場に対する高い感受性は、多くの応用において課題となっている。 ここではNbNパターンの超伝導ナノワイヤ共振器における4波混合による2モード圧縮状態の生成を示す。 NbNナノワイヤは強いKerr非線形性を示し、その結果、$g^{(2)}(0) = 11.9$の相互相関を持つシグナルイドラー対が放出される。 NbNの磁気抵抗性と高温(T_c$)のため, 運動インダクタンスに基づくマイクロ波パラメトリック光源は, 潜在的な応用範囲の拡大を約束する。

Parametric down-conversion is a widely exploited technique in optics to produce entangled states of photons for quantum information processing and quantum sensing. In the microwave domain, devices based on Josephson junctions, such as Josephson parametric amplifiers (JPAs) and voltage-biased Josephson junctions, have been successfully utilized to generate such states. However, their high susceptibility to magnetic fields has posed challenges in many applications. Here we demonstrate the generation of two-mode squeezed states via four-wave-mixing in a superconducting nanowire resonator patterned from NbN. The NbN nanowire exhibits a strong Kerr nonlinearity, resulting in the emission of a signal-idler pair with a cross-correlation of $g^{(2)}(0) = 11.9$. Owing to the magnetic resilience and high critical temperature ($T_c$) of NbN, our microwave parametric sources based on kinetic inductance promise an expanded range of potential applications.
翻訳日:2024-02-14 19:45:45 公開日:2024-02-12
# LaFiCMIL: 関連性のある複数インスタンス学習の観点からの大規模ファイル分類の再考

LaFiCMIL: Rethinking Large File Classification from the Perspective of Correlated Multiple Instance Learning ( http://arxiv.org/abs/2308.01413v3 )

ライセンス: Link先を確認
Tiezhu Sun, Weiguo Pian, Nadia Daoudi, Kevin Allix, Tegawend\'e F. Bissyand\'e, Jacques Klein(参考訳) トランスフォマーモデルでは、自然言語処理、特にテキスト分類タスクの性能が著しく向上している。 しかしながら、これらのモデルは大きなファイルを処理する際の課題に直面しており、主に入力制約が数百から数千のトークンに制限されているためである。 既存のモデルでこの問題に対処しようとする試みは、通常、長い入力から重要な情報のごく一部だけを抽出するが、複雑なアーキテクチャのためにしばしば高い計算コストが発生する。 本稿では,相関型複数インスタンス学習の観点から,大規模ファイルの分類という課題に対処する。 大規模ファイル分類に特化した手法であるlaficmilを提案する。 laficmilは単一のgpu上での効率的な操作に最適化されており、バイナリ、マルチクラス、マルチラベル分類タスクの汎用ソリューションとなっている。 本研究では,LaFiCMILの有効性を評価するために,多種多様で包括的なベンチマークデータセットを用いた広範囲な実験を行った。 機能抽出のためにBERTを統合することで、LaFiCMILは例外的なパフォーマンスを示し、すべてのデータセットに新しいベンチマークを設定する。 このアプローチの注目すべき成果は、32GBのメモリを持つ単一のGPU上で動作しながら、BERTを2万近いトークンを扱うようにスケールできることである。 この効率性と最先端のパフォーマンスは、大規模なファイル分類分野における画期的なアプローチとしてのLaFiCMILの可能性を強調している。

Transfomer-based models have significantly advanced natural language processing, in particular the performance in text classification tasks. Nevertheless, these models face challenges in processing large files, primarily due to their input constraints, which are generally restricted to hundreds or thousands of tokens. Attempts to address this issue in existing models usually consist in extracting only a fraction of the essential information from lengthy inputs, while often incurring high computational costs due to their complex architectures. In this work, we address the challenge of classifying large files from the perspective of correlated multiple instance learning. We introduce LaFiCMIL, a method specifically designed for large file classification. LaFiCMIL is optimized for efficient operation on a single GPU, making it a versatile solution for binary, multi-class, and multi-label classification tasks. We conducted extensive experiments using seven diverse and comprehensive benchmark datasets to assess LaFiCMIL's effectiveness. By integrating BERT for feature extraction, LaFiCMIL demonstrates exceptional performance, setting new benchmarks across all datasets. A notable achievement of our approach is its ability to scale BERT to handle nearly 20,000 tokens while operating on a single GPU with 32GB of memory. This efficiency, coupled with its state-of-the-art performance, highlights LaFiCMIL's potential as a groundbreaking approach in the field of large file classification.
翻訳日:2024-02-14 19:45:30 公開日:2024-02-12
# 量子ネットワークのためのタイムビン量子ビットに基づく高速多重絡み合い源

High-rate multiplexed entanglement source based on time-bin qubits for advanced quantum networks ( http://arxiv.org/abs/2310.01804v3 )

ライセンス: Link先を確認
Andrew Mueller, Samantha Davis, Boris Korzh, Raju Valivarthi, Andrew D. Beyer, Rahaf Youssef, Neil Sinclair, Cristi\'an Pe\~na, Matthew D. Shaw, and Maria Spiropulu(参考訳) 時間ビン量子ビットに基づくエンタングルメント分布は、新興量子ネットワークにとって魅力的な選択肢である。 我々は、80psで分離した初期および後期のビンに絡み合った光子対の4.09ghz繰り返し速度源を示す。 自発的パラメトリックダウン変換出力を8つのタイムビンエンタングルペアに多重化することにより、同時に高いレートと高いビジビリティを実現する。 エンタングルメントのビジビリティは99.4%、エンタングルメントレートは3.55e6一致/sまでであり、視認性を損なうことなく最大1桁の速度改善を達成するための直接的な道筋を予測している。 最後に、各多重チャンネルの絡み合い状態の密度行列を解き、ebit/sで蒸留可能な絡み合い率を表現し、有用な絡み合い分布に寄与する可視性と一致率のトレードオフを定量化する。 このソースは、高速エンタングルメントベースの量子鍵分布システムや高度な量子ネットワークのための基本的なビルディングブロックである。

Entanglement distribution based on time-bin qubits is an attractive option for emerging quantum networks. We demonstrate a 4.09 GHz repetition rate source of photon pairs entangled across early and late time bins separated by 80 ps. Simultaneous high rates and high visibilities are achieved through frequency multiplexing the spontaneous parametric down conversion output into 8 time-bin entangled pairs. We demonstrate entanglement visibilities as high as 99.4%, total entanglement rates up to 3.55e6 coincidences/s, and predict a straightforward path towards achieving up to an order of magnitude improvement in rates without compromising visibility. Finally, we resolve the density matrices of the entangled states for each multiplexed channel and express distillable entanglement rates in ebit/s, thereby quantifying the tradeoff between visibility and coincidence rates that contributes to useful entanglement distribution. This source is a fundamental building block for high-rate entanglement-based quantum key distribution systems or advanced quantum networks.
翻訳日:2024-02-14 19:33:54 公開日:2024-02-12
# キュディ検出器のアンルー現象と熱化

Unruh phenomena and thermalization for qudit detectors ( http://arxiv.org/abs/2309.04598v2 )

ライセンス: Link先を確認
Caroline Lima, Everett Patterson, Erickson Tjoa, Robert B. Mann(参考訳) 量子化スカラー場に結合したqudit検出器のunruh現象と標準のqubitベースのunruh-dewitt検出器の応答を比較した。 高次元qudit検出器モデルのunruh熱性指標としての詳細なバランス条件の有用性には限界があることを示した。 これは、2レベル量子ビットモデルとは対照的に、quditがそのエネルギーレベルの間に複数の遷移チャネルを持つという事実に遡ることができる。 これらの制限は、$SU(2)$のスピン-1表現と、パウリ観測可能空間(ハイゼンベルク・ワイル作用素)の非エルミート一般化に基づく2種類のクォート検出器モデルを用いて説明する。

We study Unruh phenomena for a qudit detector coupled to a quantized scalar field, comparing its response to that of a standard qubit-based Unruh-DeWitt detector. We show that there are limitations to the utility of the detailed balance condition as an indicator for Unruh thermality of higher-dimensional qudit detector models. This can be traced to the fact that a qudit has multiple possible transition channels between its energy levels, in contrast to the 2-level qubit model. We illustrate these limitations using two types of qutrit detector models based on the spin-1 representations of $SU(2)$ and the non-Hermitian generalization of the Pauli observables (the Heisenberg-Weyl operators).
翻訳日:2024-02-14 19:31:17 公開日:2024-02-12
# Les Houchs氏が大規模かつ無限の幅でのディープラーニングの講義を語る

Les Houches Lectures on Deep Learning at Large & Infinite Width ( http://arxiv.org/abs/2309.01592v3 )

ライセンス: Link先を確認
Yasaman Bahri, Boris Hanin, Antonin Brossollet, Vittorio Erba, Christian Keup, Rosalba Pacelli, James B. Simon(参考訳) 2022年 les houches summer school on statistical physics and machine learning で発表されたこれらの講義は、無限幅限界と深層ニューラルネットワークの大幅レジームに焦点を当てている。 対象とするトピックには、これらのネットワークの様々な統計的および動的特性が含まれる。 特に、講義者はランダム深層ニューラルネットワークの性質、トレーニングされたディープニューラルネットワーク、線形モデル、カーネル、および無限幅極限で発生するガウス過程の接続、そして、初期化とトレーニング後の大規模だが有限幅ネットワークの摂動的かつ非摂動的処理について論じる。

These lectures, presented at the 2022 Les Houches Summer School on Statistical Physics and Machine Learning, focus on the infinite-width limit and large-width regime of deep neural networks. Topics covered include various statistical and dynamical properties of these networks. In particular, the lecturers discuss properties of random deep neural networks; connections between trained deep neural networks, linear models, kernels, and Gaussian processes that arise in the infinite-width limit; and perturbative and non-perturbative treatments of large but finite-width networks, at initialization and after training.
翻訳日:2024-02-14 19:30:40 公開日:2024-02-12
# safear: リスクアウェアポリシによる安全なアルゴリズムリコース

SafeAR: Safe Algorithmic Recourse by Risk-Aware Policies ( http://arxiv.org/abs/2308.12367v3 )

ライセンス: Link先を確認
Haochen Wu, Shubham Sharma, Sunandita Patra, Sriram Gopalakrishnan(参考訳) 金融や医療といった重要な分野における機械学習(ML)モデルの利用の増加に伴い、MLモデルの決定に悪影響を及ぼす人々に対して、レコメンデーションを提供する必要性が高まっている。 一連の変更を推奨するシーケンシャルアルゴリズムのリコースに関する以前の作業は、アクションの実現性を重視し、機能変更の近接を利用してアクションコストを決定する。 しかし,リコースにおける特徴変化の不確実性と平均コストよりも高いリスクは考慮されていない。 もしリカバリが極めて高いコストを必要とする状況で(ある程度の確率で)悪化する可能性があるなら、それは望ましくない。 再帰を計算し評価する場合、リスクを組み込むことが不可欠である。 セーフ・アルゴリズム・リコース(Safe Algorithmic Recourse, セーフ・アルゴリズム・リコース)のようなリスクを考慮したリコースと呼ぶ。 その目的は、リスク許容度に基づいてリコースを選択する権限を人々に与えることだ。 本研究では,既存のデシラタが高コストのリスクを捕捉できないことを議論し,示す。 本稿では,コストの変動性を考慮したリコースポリシを算出し,アルゴリズムリコース文献とリスクに敏感な強化学習を結びつける手法を提案する。 また、リスクを簡潔に要約するために、金融文献から「リスク価値」と「リスク条件価値」を取り入れる。 提案手法を実世界の2つのデータセットに適用し,リスク尺度とレコース・デシダータ(スパーシティと近接性)を用いて,異なるリスク回避レベルでポリシーを比較する。

With the growing use of machine learning (ML) models in critical domains such as finance and healthcare, the need to offer recourse for those adversely affected by the decisions of ML models has become more important; individuals ought to be provided with recommendations on actions to take for improving their situation and thus receiving a favorable decision. Prior work on sequential algorithmic recourse -- which recommends a series of changes -- focuses on action feasibility and uses the proximity of feature changes to determine action costs. However, the uncertainties of feature changes and the risk of higher than average costs in recourse have not been considered. It is undesirable if a recourse could (with some probability) result in a worse situation from which recovery requires an extremely high cost. It is essential to incorporate risks when computing and evaluating recourse. We call the recourse computed with such risk considerations as Safe Algorithmic Recourse (SafeAR). The objective is to empower people to choose a recourse based on their risk tolerance. In this work, we discuss and show how existing recourse desiderata can fail to capture the risk of higher costs. We present a method to compute recourse policies that consider variability in cost and connect algorithmic recourse literature with risk-sensitive reinforcement learning. We also adopt measures "Value at Risk" and "Conditional Value at Risk" from the financial literature to summarize risk concisely. We apply our method to two real-world datasets and compare policies with different risk-aversion levels using risk measures and recourse desiderata (sparsity and proximity).
翻訳日:2024-02-14 19:30:06 公開日:2024-02-12
# プログラム検証のためのLLM生成ループ不変量ランキング

Ranking LLM-Generated Loop Invariants for Program Verification ( http://arxiv.org/abs/2310.09342v3 )

ライセンス: Link先を確認
Saikat Chakraborty, Shuvendu K. Lahiri, Sarah Fakhoury, Madanlal Musuvathi, Akash Lal, Aseem Rastogi, Aditya Senthilnathan, Rahul Sharma, Nikhil Swamy(参考訳) 帰納ループ不変量の合成は、プログラム検証の自動化に不可欠である。 本稿では,大規模言語モデル(gpt-3.5 や gpt-4 など)が,0-shot 設定のプログラムのクラスに対してループ不変量の合成が可能であるが,正しい不変量を生成するにはいくつかのサンプルが必要であることを検証した。 これは、不変性を確立するためのプログラム検証者への多数の呼び出しにつながる可能性がある。 この問題に対処するために, LLM の生成結果に対して, {\it re-level} アプローチを提案する。 我々は問題定義に基づいて正しい帰納的不変量と誤った試みを区別できるランク付け器を設計した。 ランク付けは対照的なランク付けに最適化されている。 実験結果から、この再ランク機構は、生成した候補の正しい不変量ランキングを大幅に改善し、検証者への呼び出し数が顕著に減少することを示した。 本論文のソースコードと実験データは \url{https://github.com/microsoft/NeuralInvariantRanker} で公開されている。

Synthesizing inductive loop invariants is fundamental to automating program verification. In this work, we observe that Large Language Models (such as gpt-3.5 or gpt-4) are capable of synthesizing loop invariants for a class of programs in a 0-shot setting, yet require several samples to generate the correct invariants. This can lead to a large number of calls to a program verifier to establish an invariant. To address this issue, we propose a {\it re-ranking} approach for the generated results of LLMs. We have designed a ranker that can distinguish between correct inductive invariants and incorrect attempts based on the problem definition. The ranker is optimized as a contrastive ranker. Experimental results demonstrate that this re-ranking mechanism significantly improves the ranking of correct invariants among the generated candidates, leading to a notable reduction in the number of calls to a verifier. The source code and the experimental data for this paper are available in \url{https://github.com/microsoft/NeuralInvariantRanker}.
翻訳日:2024-02-14 19:19:30 公開日:2024-02-12
# 平均報酬マルコフ決定過程における最適サンプル複雑性

Optimal Sample Complexity for Average Reward Markov Decision Processes ( http://arxiv.org/abs/2310.08833v2 )

ライセンス: Link先を確認
Shengbo Wang, Jose Blanchet, and Peter Glynn(参考訳) 本稿では,一様エルゴードマルコフ決定過程(mdp)に付随する長期平均報酬を最大化するために,生成モデルを仮定して,政策学習のサンプル複雑性に関するオープン問題を解く。 この文脈では、既存の文献は、$\widetilde O(|S||A|t_{\text{mix}}^2 \epsilon^{-2})$と$\Omega(|S||A|t_{\text{mix}} \epsilon^{-2})$のサンプル複雑性上限を提供する。 これらの式では、$|S|$ と $|A|$ はそれぞれ状態と作用空間の濃度を表し、$t_{\text{mix}}$ は全変動混合時間の均一な上限として機能し、$\epsilon$ はエラー耐性を表す。 したがって、$t_{\text{mix}}$の注目すべきギャップは依然としてブリッジされている。 我々の主な貢献は、平均報酬 MDP の最適ポリシを$\widetilde O(|S||A|t_{\text{mix}}\epsilon^{-2})$とする推定器の開発である。 これは文学の下位境界に到達した最初のアルゴリズムと分析である。 我々の新しいアルゴリズムは、Li et al. (2020)、Jin and Sidford (2021)、Wang et al. (2023)のアイデアからインスピレーションを得ている。 さらに,理論的結果を検証する数値実験を行った。

We resolve the open question regarding the sample complexity of policy learning for maximizing the long-run average reward associated with a uniformly ergodic Markov decision process (MDP), assuming a generative model. In this context, the existing literature provides a sample complexity upper bound of $\widetilde O(|S||A|t_{\text{mix}}^2 \epsilon^{-2})$ and a lower bound of $\Omega(|S||A|t_{\text{mix}} \epsilon^{-2})$. In these expressions, $|S|$ and $|A|$ denote the cardinalities of the state and action spaces respectively, $t_{\text{mix}}$ serves as a uniform upper limit for the total variation mixing times, and $\epsilon$ signifies the error tolerance. Therefore, a notable gap of $t_{\text{mix}}$ still remains to be bridged. Our primary contribution is the development of an estimator for the optimal policy of average reward MDPs with a sample complexity of $\widetilde O(|S||A|t_{\text{mix}}\epsilon^{-2})$. This marks the first algorithm and analysis to reach the literature's lower bound. Our new algorithm draws inspiration from ideas in Li et al. (2020), Jin and Sidford (2021), and Wang et al. (2023). Additionally, we conduct numerical experiments to validate our theoretical findings.
翻訳日:2024-02-14 19:19:13 公開日:2024-02-12
# 多言語モデリングの迷路を探る

Exploring the Maze of Multilingual Modeling ( http://arxiv.org/abs/2310.05404v2 )

ライセンス: Link先を確認
Sina Bagheri Nezhad, Ameeta Agrawal(参考訳) 近年,多言語モデルが注目され,多様な言語コンテキストに対応するアプリケーションの開発が可能となった。 本稿では, mBERT, XLM-R, GPT-3 の3つの多言語言語モデルの包括的評価を行う。 テキスト分類とテキスト生成という2つの異なるタスクの下で、リソース可用性(一般およびモデル固有)、言語ファミリー、スクリプトタイプ、および単語順序がモデルパフォーマンスに与える影響を理解することに焦点を当て、それらの性能を評価する。 その結果,言語固有の事前学習データの量はモデル性能において重要な役割を担っているが,汎用リソースの可用性,言語ファミリー,スクリプトタイプといった他の要因も重要な特徴であることがわかった。 本研究は、多言語言語モデルの理解を深め、言語と言語コンテキスト間のパフォーマンスの向上に寄与することを願っている。

Multilingual language models have gained significant attention in recent years, enabling the development of applications that meet diverse linguistic contexts. In this paper, we present a comprehensive evaluation of three popular multilingual language models: mBERT, XLM-R, and GPT-3. We assess their performance across a diverse set of languages, with a focus on understanding the impact of resource availability (general and model-specific), language family, script type, and word order on model performance, under two distinct tasks - text classification and text generation. Our findings reveal that while the amount of language-specific pretraining data plays a crucial role in model performance, we also identify other factors such as general resource availability, language family, and script type, as important features. We hope that our study contributes to a deeper understanding of multilingual language models to enhance their performance across languages and linguistic contexts.
翻訳日:2024-02-14 19:17:52 公開日:2024-02-12
# lilo: 圧縮と文書化による解釈可能なライブラリの学習

LILO: Learning Interpretable Libraries by Compressing and Documenting Code ( http://arxiv.org/abs/2310.19791v2 )

ライセンス: Link先を確認
Gabriel Grand, Lionel Wong, Matthew Bowers, Theo X. Olausson, Muxin Liu, Joshua B. Tenenbaum, Jacob Andreas(参考訳) 大規模言語モデル(LLM)はコード生成に優れていますが、ソフトウェア開発の重要な側面はリファクタリングのテクニックです。 本稿では,特定の問題領域に合わせたライブラリを構築するために,反復的に合成,圧縮,文書化を行う神経シンボリックフレームワークであるliloを紹介する。 LILOは、LLM誘導プログラム合成と、Stitchからの自動リファクタリングにおける最近のアルゴリズム的な進歩を組み合わせたものだ。 これらの抽象化を解釈するために、文脈的使用例に基づいて自然言語名や文書を推論するAuto-Doc(Auto-Docmentation)手順を導入する。 人間の可読性の改善に加えて、AutoDocはLILOのシンセサイザーが学習した抽象化を解釈し、デプロイするのを手助けすることで、パフォーマンスを向上させる。 文字列編集,シーン推論,グラフィック合成の3つの帰納的プログラム合成ベンチマークでLILOを評価する。 最先端のライブラリ学習アルゴリズムDreamCoderを含む既存のニューラルおよびシンボリックメソッドと比較して、LILOはより複雑なタスクを解決し、言語知識に根ざしたリッチなライブラリを学ぶ。

While large language models (LLMs) now excel at code generation, a key aspect of software development is the art of refactoring: consolidating code into libraries of reusable and readable programs. In this paper, we introduce LILO, a neurosymbolic framework that iteratively synthesizes, compresses, and documents code to build libraries tailored to particular problem domains. LILO combines LLM-guided program synthesis with recent algorithmic advances in automated refactoring from Stitch: a symbolic compression system that efficiently identifies optimal lambda abstractions across large code corpora. To make these abstractions interpretable, we introduce an auto-documentation (AutoDoc) procedure that infers natural language names and docstrings based on contextual examples of usage. In addition to improving human readability, we find that AutoDoc boosts performance by helping LILO's synthesizer to interpret and deploy learned abstractions. We evaluate LILO on three inductive program synthesis benchmarks for string editing, scene reasoning, and graphics composition. Compared to existing neural and symbolic methods - including the state-of-the-art library learning algorithm DreamCoder - LILO solves more complex tasks and learns richer libraries that are grounded in linguistic knowledge.
翻訳日:2024-02-14 19:06:12 公開日:2024-02-12
# パーティショニングによる局所的発見:露光対の多項式時間因果関係の発見

Local Discovery by Partitioning: Polynomial-Time Causal Discovery Around Exposure-Outcome Pairs ( http://arxiv.org/abs/2310.17816v2 )

ライセンス: Link先を確認
Jacqueline Maasch, Weishen Pan, Shantanu Gupta, Volodymyr Kuleshov, Kyra Gan, Fei Wang(参考訳) 因果的発見は、観測研究において因果推論に不可欠であり、不偏効果推定のための有効な調整セット(VAS)の同定を可能にする。 しかし、グローバル因果関係の発見は非パラメトリックな設定では難しいことで有名であり、指数関数的な時間とサンプルの複雑さが最悪の場合である。 そこで本研究では,非パラメトリックな局所探索アルゴリズムであるパーティショニング(LDP)による局所探索を提案する。 LDPは制約ベースのプロシージャで、変数を露出出力ペアに対する因果関係によってのみ定義されたサブセットに分割する。 さらに、LCPは因果不全と軽度の十分な条件下で露光出力対のVASを返却する。 総独立テストは変数数で最悪のケースである。 漸近理論的保証は合成グラフ上で数値的に検証される。 LDPの調整セットは、ベースライン発見アルゴリズムよりもバイアスが少なく、より正確な平均治療効果の推定値が得られる。 さらに、ldpはベンチマークのベースラインよりも少なくとも1300倍高速だった。

Causal discovery is crucial for causal inference in observational studies: it can enable the identification of valid adjustment sets (VAS) for unbiased effect estimation. However, global causal discovery is notoriously hard in the nonparametric setting, with exponential time and sample complexity in the worst case. To address this, we propose local discovery by partitioning (LDP), a novel nonparametric local discovery algorithm that is tailored for downstream inference tasks while avoiding the pretreatment assumption. LDP is a constraint-based procedure that partitions variables into subsets defined solely by their causal relation to an exposure-outcome pair. Further, LDP returns a VAS for the exposure-outcome pair under causal insufficiency and mild sufficient conditions. Total independence tests is worst-case quadratic in variable count. Asymptotic theoretical guarantees are numerically validated on synthetic graphs. Adjustment sets from LDP yield less biased and more precise average treatment effect estimates than baseline discovery algorithms, with LDP outperforming on confounder recall, runtime, and test count for VAS discovery. Further, LDP ran at least 1300x faster than baselines on a benchmark.
翻訳日:2024-02-14 19:05:32 公開日:2024-02-12
# 行列問題に対する量子時間空間トレードオフ

Quantum Time-Space Tradeoffs for Matrix Problems ( http://arxiv.org/abs/2401.05321v2 )

ライセンス: Link先を確認
Paul Beame, Niels Kornerup, Michael Whitmeyer(参考訳) 量子コンピュータが行列を含む多種多様な問題を解くのに必要な時間と空間を考察する。 我々の主な結果は、行列ベクトル積、行列逆転、行列乗算、パワーリングを含む線形代数問題に対して、既存の古典的時間空間のトレードオフであり、そのいくつかはすべての空間境界に対して厳密である。 例えば、離散フーリエ変換(dft)行列を含むほぼすべての行列に対して、最大$t$ 入力クエリと$s$ qubits のメモリを持つ量子回路は$t=\omega(n^2/s)$ で行列ベクトル積 $ax$ for $x \in \{0,1\}^n$ を計算する必要があることを証明する。 同様に、$n\times n$二進行列の行列乗法は$T=\Omega(n^3 / \sqrt{S})$である。 我々の下界の多くは時間と空間の複雑さで決定論的アルゴリズムと一致しているため、量子コンピュータは任意の空間境界を持つこれらの問題に対して漸近的な利点を与えることができない。 我々は、回路の層毎の空間の和である量子累積記憶複雑性の強い概念に一致する下界を得る。 また、Boolean (すなわち AND-OR) 行列乗法と行列ベクトル積も考慮し、以前の量子時間空間のトレードオフの下限を$n\times n$ Boolean 行列乗法により$T=\Omega(n^{2.5}/S^{1/4})$から$T=\Omega(n^{2.5}/S^{1/2})$へと改善する。 ブール行列乗法に対する改善された下界は、以前の研究で用いられる強い直積定理からより多くを抽出する新しい着色引数に基づいている。 線形代数問題の厳密な下限には、量子回路の成功確率の上限に古典的引数を適用できるzhandryのレコード・クエリ技術に新しいバケット法を加える必要がある。

We consider the time and space required for quantum computers to solve a wide variety of problems involving matrices, many of which have only been analyzed classically in prior work. Our main results show that for a range of linear algebra problems -- including matrix-vector product, matrix inversion, matrix multiplication and powering -- existing classical time-space tradeoffs, several of which are tight for every space bound, also apply to quantum algorithms. For example, for almost all matrices $A$, including the discrete Fourier transform (DFT) matrix, we prove that quantum circuits with at most $T$ input queries and $S$ qubits of memory require $T=\Omega(n^2/S)$ to compute matrix-vector product $Ax$ for $x \in \{0,1\}^n$. We similarly prove that matrix multiplication for $n\times n$ binary matrices requires $T=\Omega(n^3 / \sqrt{S})$. Because many of our lower bounds match deterministic algorithms with the same time and space complexity, we show that quantum computers cannot provide any asymptotic advantage for these problems with any space bound. We obtain matching lower bounds for the stronger notion of quantum cumulative memory complexity -- the sum of the space per layer of a circuit. We also consider Boolean (i.e. AND-OR) matrix multiplication and matrix-vector products, improving the previous quantum time-space tradeoff lower bounds for $n\times n$ Boolean matrix multiplication to $T=\Omega(n^{2.5}/S^{1/4})$ from $T=\Omega(n^{2.5}/S^{1/2})$. Our improved lower bound for Boolean matrix multiplication is based on a new coloring argument that extracts more from the strong direct product theorem used in prior work. Our tight lower bounds for linear algebra problems require adding a new bucketing method to the recording-query technique of Zhandry that lets us apply classical arguments to upper bound the success probability of quantum circuits.
翻訳日:2024-02-14 18:43:29 公開日:2024-02-12
# 深層アクティブラーニングとデータサブセット選択の進歩:情報理論直観による統一原則

Advancing Deep Active Learning & Data Subset Selection: Unifying Principles with Information-Theory Intuitions ( http://arxiv.org/abs/2401.04305v2 )

ライセンス: Link先を確認
Andreas Kirsch(参考訳) 本論文は,深層学習モデルのラベルと訓練効率を向上させることにより,深層学習の実践性を高めることを目的としている。 そこで本研究では,データサブセット選択手法,特に情報理論に基づくアクティブラーニングとアクティブサンプリングについて検討する。 アクティブ学習はラベル効率が向上し、アクティブサンプリングはトレーニング効率が向上する。 監視されたディープラーニングモデルは、ラベル付きデータによる広範なトレーニングを必要とすることが多い。 ラベル取得は高価で時間を要するため、大規模モデルのトレーニングはリソース集約的であり、学術研究以外での採用を妨げる。 「深層学習におけるデータサブセット選択のための既存の手法は、しばしばヒューリスティックスに依存したり、原理的な情報理論の基礎を欠いている。 対照的に、本論文は、情報理論に触発されたより原理的なアプローチを追求する深層学習におけるデータサブセット選択とその応用に関するいくつかの目的を考察する。 まず、単一のフォワードパスディープニューラルネットワークにおいて、疫学的およびアレタリックな不確実性を取り除き、様々な形の不確実性とそのデータサブセット選択との関連性に関する有用な直観と洞察を提供する。 次に,(ベイジアン)深層学習におけるアクティブラーニングとデータサブセット選択のための様々なアプローチを提案し,検討する。 最後に,重みや予測空間における情報量近似に対する様々な既存および提案手法について述べる。 この研究の根底にあるのは、ランダム変数と観測結果の両方を含む情報理論量の原則的で実践的な表記である。 この論文は、統一的な視点から働くことの利点を示し、深層学習の実践的応用への私たちの貢献の潜在的影響を強調している。

At its core, this thesis aims to enhance the practicality of deep learning by improving the label and training efficiency of deep learning models. To this end, we investigate data subset selection techniques, specifically active learning and active sampling, grounded in information-theoretic principles. Active learning improves label efficiency, while active sampling enhances training efficiency. Supervised deep learning models often require extensive training with labeled data. Label acquisition can be expensive and time-consuming, and training large models is resource-intensive, hindering the adoption outside academic research and ``big tech.'' Existing methods for data subset selection in deep learning often rely on heuristics or lack a principled information-theoretic foundation. In contrast, this thesis examines several objectives for data subset selection and their applications within deep learning, striving for a more principled approach inspired by information theory. We begin by disentangling epistemic and aleatoric uncertainty in single forward-pass deep neural networks, which provides helpful intuitions and insights into different forms of uncertainty and their relevance for data subset selection. We then propose and investigate various approaches for active learning and data subset selection in (Bayesian) deep learning. Finally, we relate various existing and proposed approaches to approximations of information quantities in weight or prediction space. Underpinning this work is a principled and practical notation for information-theoretic quantities that includes both random variables and observed outcomes. This thesis demonstrates the benefits of working from a unified perspective and highlights the potential impact of our contributions to the practical application of deep learning.
翻訳日:2024-02-14 18:42:15 公開日:2024-02-12
# 弱い言語モデルを強い言語モデルに変換するセルフプレイ微調整

Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models ( http://arxiv.org/abs/2401.01335v2 )

ライセンス: Link先を確認
Zixiang Chen and Yihe Deng and Huizhuo Yuan and Kaixuan Ji and Quanquan Gu(参考訳) Supervised Fine-Tuning (SFT) を通じて人間の注釈付きデータのパワーを損なうことは、Large Language Models (LLMs) の進展に重要である。 本稿では,人手による付加的なデータを取得することなく,弱いものから強力なLSMを成長させる可能性を探る。 教師付き微調整モデルから始まる自己再生fIne-tuNing (SPIN) と呼ばれるファインチューニング手法を提案する。 SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。 より具体的には、LSMは以前のイテレーションから独自のトレーニングデータを生成し、人間の注釈付きデータから得られたものから、これらの自己生成応答を識別することでポリシーを精査する。 提案手法は,LSMを生来のモデルから強大なモデルへと段階的に上昇させ,SFTのための人手による実演データの完全な可能性を解き放つ。 理論的には,本手法の学習目標関数に対するグローバル最適化は,llmポリシーが対象データ分布に適合する場合にのみ達成できることを実証する。 実験により,HuggingFace Open LLM LeaderboardやMT-Bench,Big-Benchのデータセットなど,いくつかのベンチマークデータセットについて評価を行った。 以上の結果から,SPINはGPT-4の嗜好データを補足した直接選好最適化(DPO)によりトレーニングしたモデルよりも優れた性能が得られることがわかった。 これは自己プレイの約束に光を当て、熟練した相手を必要とせずにLDMにおける人間レベルのパフォーマンスの達成を可能にする。 コードはhttps://github.com/uclaml/SPIN.comで入手できる。

Harnessing the power of human-annotated data through Supervised Fine-Tuning (SFT) is pivotal for advancing Large Language Models (LLMs). In this paper, we delve into the prospect of growing a strong LLM out of a weak one without the need for acquiring additional human-annotated data. We propose a new fine-tuning method called Self-Play fIne-tuNing (SPIN), which starts from a supervised fine-tuned model. At the heart of SPIN lies a self-play mechanism, where the LLM refines its capability by playing against instances of itself. More specifically, the LLM generates its own training data from its previous iterations, refining its policy by discerning these self-generated responses from those obtained from human-annotated data. Our method progressively elevates the LLM from a nascent model to a formidable one, unlocking the full potential of human-annotated demonstration data for SFT. Theoretically, we prove that the global optimum to the training objective function of our method is achieved only when the LLM policy aligns with the target data distribution. Empirically, we evaluate our method on several benchmark datasets including the HuggingFace Open LLM Leaderboard, MT-Bench, and datasets from Big-Bench. Our results show that SPIN can significantly improve the LLM's performance across a variety of benchmarks and even outperform models trained through direct preference optimization (DPO) supplemented with extra GPT-4 preference data. This sheds light on the promise of self-play, enabling the achievement of human-level performance in LLMs without the need for expert opponents. Codes are available at https://github.com/uclaml/SPIN.
翻訳日:2024-02-14 18:41:15 公開日:2024-02-12
# 有限周波における無秩序thoulessポンプの欠如

Absence of disordered Thouless pumps at finite frequency ( http://arxiv.org/abs/2401.17395v2 )

ライセンス: Link先を確認
Dominik Vuina, David M. Long, Philip J. D. Crowley and Anushya Chandran(参考訳) チューレスポンプ(Thouless pump)は、電荷を量子化された速度でポンプする1次元バンド絶縁体である。 前回の研究では、パンピングは弱く乱れたチェーンに持続し、有限駆動周波数のクリーンチェーンに別々に持続することを示した。 障害と有限周波数の相互作用について検討し、瞬時固有状態間の非断熱遷移によりポンプ速度が常にゼロに減衰することを示す。 しかし、減衰は遅く、ドライブの期間に指数関数的に大きい時間スケールで起こる。 断熱限界では、瞬時スペクトルのバンドギャップは、ポンプが停止する上の臨界障害強度で閉じる。 バンドエッジ近傍の希少状態間の散乱モデルから, この遷移に伴うポンプ速度のスケーリングを予測した。 我々の予測は超低温原子・フォトニックプラットフォームで実験的に検証できる。

A Thouless pump is a slowly driven one-dimensional band insulator which pumps charge at a quantised rate. Previous work showed that pumping persists in weakly disordered chains, and separately in clean chains at finite drive frequency. We study the interplay of disorder and finite frequency, and show that the pump rate always decays to zero due to non-adiabatic transitions between the instantaneous eigenstates. However, the decay is slow, occurring on a time-scale that is exponentially large in the period of the drive. In the adiabatic limit, the band gap in the instantaneous spectrum closes at a critical disorder strength above which pumping ceases. We predict the scaling of the pump rate around this transition from a model of scattering between rare states near the band edges. Our predictions can be experimentally tested in ultracold atomic and photonic platforms.
翻訳日:2024-02-14 18:32:11 公開日:2024-02-12
# A.I. ありとあらゆる場所において

A.I. In All The Wrong Places ( http://arxiv.org/abs/2401.16268v3 )

ライセンス: Link先を確認
Marc B\"ohlen, Ruolin Chen, Xiaoxu Dong, Srikar Gopaladinne, Hemanth Gorla, Divya Kandukuri, Sean Mansfield(参考訳) このテキストは、2世代の生成型人工知能(a.i.)システムが学際的、大学レベルのa.i.のアートとデザインの実践コースに組み込まれた2年間のテスト期間を通じて得られた経験を記述している。 このテキストは、コースの結果を使って、トラップと限界を考慮しながら、アートとデザインにおける生成システムの新たな機会を反映している。

This text describes experiences gained across a two-year test period during which two generations of Generative Artificial Intelligence (A.I.) systems were incorporated into an interdisciplinary, university level course on A.I. for art and design practices. The text uses the results from the courses to reflect on new opportunities for generative systems in art and design, while considering traps and limits.
翻訳日:2024-02-14 18:31:30 公開日:2024-02-12
# llmsによるスケーラブルな質的コーディング:いくつかのhermeneuticタスクにおける人間のパフォーマンスにマッチする思考連鎖推論

Scalable Qualitative Coding with LLMs: Chain-of-Thought Reasoning Matches Human Performance in Some Hermeneutic Tasks ( http://arxiv.org/abs/2401.15170v2 )

ライセンス: Link先を確認
Zackary Okun Dunivin(参考訳) 質的コーディング(英: Qualitative coding)は、テキストから意味を抽出し、テキストのコーパス間で定量的なパターンを識別する。 近年、大言語モデル(llm)の解釈能力の進歩により、コーディングプロセスの自動化(カテゴリラベルをテキストに適用)が可能となり、人間研究者はこれらの解釈タスクをaiに委譲しながら、より創造的な研究の側面に集中することができる。 本研究は,人文科学研究を代表とした,密集した段落長通路の社会史的コードからなる。 GPT-4は人間と同等の解釈が可能であるのに対して、GPT-3.5はそうではない。 我々の人間由来のゴールド標準と比較して、GPT-4は9コード中3コードに対して優れたインターコーダ信頼性(コーエンの$\kappa \geq 0.79$)、9コード中8コードに対して相当な信頼性(\kappa \geq 0.6$)を提供する。 対照的に、GPT-3.5はすべてのコード(mean(\kappa) = 0.34$; $max(\kappa) = 0.55$)に対して大幅に性能が低下する。 重要なのは、LCMがコーディング決定を正当化する根拠を与えるように促されたとき、コーディングの忠実さが大幅に改善することです。 従来のコードブックをLLMに適用するためのベストプラクティスと合わせて,これらの知見を紹介する。 以上の結果から,一部のコードブックでは,既存のLCMが大規模コンテンツ解析に有効であることが示唆された。 さらに彼らは、次世代モデルのAIコーディングがコードブックの大部分で実行可能な選択肢になる可能性が高いことを示唆している。

Qualitative coding, or content analysis, extracts meaning from text to discern quantitative patterns across a corpus of texts. Recently, advances in the interpretive abilities of large language models (LLMs) offer potential for automating the coding process (applying category labels to texts), thereby enabling human researchers to concentrate on more creative research aspects, while delegating these interpretive tasks to AI. Our case study comprises a set of socio-historical codes on dense, paragraph-long passages representative of a humanistic study. We show that GPT-4 is capable of human-equivalent interpretations, whereas GPT-3.5 is not. Compared to our human-derived gold standard, GPT-4 delivers excellent intercoder reliability (Cohen's $\kappa \geq 0.79$) for 3 of 9 codes, and substantial reliability ($\kappa \geq 0.6$) for 8 of 9 codes. In contrast, GPT-3.5 greatly underperforms for all codes ($mean(\kappa) = 0.34$; $max(\kappa) = 0.55$). Importantly, we find that coding fidelity improves considerably when the LLM is prompted to give rationale justifying its coding decisions (chain-of-thought reasoning). We present these and other findings along with a set of best practices for adapting traditional codebooks for LLMs. Our results indicate that for certain codebooks, state-of-the-art LLMs are already adept at large-scale content analysis. Furthermore, they suggest the next generation of models will likely render AI coding a viable option for a majority of codebooks.
翻訳日:2024-02-14 18:30:44 公開日:2024-02-12
# 騒音のパワー:RAGシステムのための検索の再定義

The Power of Noise: Redefining Retrieval for RAG Systems ( http://arxiv.org/abs/2401.14887v3 )

ライセンス: Link先を確認
Florin Cuconasu, Giovanni Trappolini, Federico Siciliano, Simone Filice, Cesare Campagnano, Yoelle Maarek, Nicola Tonellotto, Fabrizio Silvestri(参考訳) 検索型世代 (rag) システムは従来の大規模言語モデル (llm) を大きく上回っている。 RAGシステムは、情報検索(IR)フェーズを通じて取得した外部データを組み込んで、事前訓練された知識と限られたコンテキストウインドウに制限された標準LLMの制限を克服することで、生成能力を向上する。 この分野のほとんどの研究は、RAGシステム内のLLMの生成的側面に主に集中している。 本研究は、IR成分がRAGシステムに与える影響を徹底的かつ批判的に分析することによって、このギャップを埋めるものである。 本稿では,検索すべき文書の種類に焦点をあてて,レトリバーが有効なragのプロンプト定式化のために持つべき特性を分析する。 我々は,プロンプトに対する文書の関連性,その位置,文脈に含まれる数など,様々な要素を評価した。 以上の結果から,無関係な文書を含むことにより,品質低下の最初の仮定と矛盾する精度が30%以上向上する可能性が示唆された。 これらの結果は,検索を言語生成モデルと統合する特殊な戦略を開発する必要性を浮き彫りにして,今後の研究の基盤となる。

Retrieval-Augmented Generation (RAG) systems represent a significant advancement over traditional Large Language Models (LLMs). RAG systems enhance their generation ability by incorporating external data retrieved through an Information Retrieval (IR) phase, overcoming the limitations of standard LLMs, which are restricted to their pre-trained knowledge and limited context window. Most research in this area has predominantly concentrated on the generative aspect of LLMs within RAG systems. Our study fills this gap by thoroughly and critically analyzing the influence of IR components on RAG systems. This paper analyzes which characteristics a retriever should possess for an effective RAG's prompt formulation, focusing on the type of documents that should be retrieved. We evaluate various elements, such as the relevance of the documents to the prompt, their position, and the number included in the context. Our findings reveal, among other insights, that including irrelevant documents can unexpectedly enhance performance by more than 30% in accuracy, contradicting our initial assumption of diminished quality. These results underscore the need for developing specialized strategies to integrate retrieval with language generation models, thereby laying the groundwork for future research in this field.
翻訳日:2024-02-14 18:30:14 公開日:2024-02-12
# C-RAG:Retrieval-Augmented Language Models の生成リスク認定

C-RAG: Certified Generation Risks for Retrieval-Augmented Language Models ( http://arxiv.org/abs/2402.03181v2 )

ライセンス: Link先を確認
Mintong Kang, Nezihe Merve G\"urel, Ning Yu, Dawn Song, Bo Li(参考訳) 様々なアプリケーションにまたがる大きな言語モデル(LLM)の印象的な機能にもかかわらず、幻覚や誤認識といった信頼性の問題に悩まされている。 探索型言語モデル(rag)は、外部知識を基礎にして世代の信頼性を高めるために提案されているが、その生成リスクの理論的な理解は未定である。 この論文ではこう答えています 1)RAGが実際に低世代リスクにつながるかどうか。 2)ragおよびvanilla llmの発生リスクの証明可能な保証の方法、及び 3)RAGモデルで生成リスクを低減できる十分な条件は何か。 RAGモデルの生成リスクを認証する最初のフレームワークであるC-RAGを提案する。 具体的には、ragモデルのコンフォーメーショナルリスク分析を行い、コンフォーメーショナルジェネレーションリスク(conformal generation risk)と呼ぶ、ジェネレーションリスクの上位信頼度を証明します。 また,テスト分布シフトにおける一般有界リスク関数の共形生成リスクに関する理論的保証も提供する。 検索モデルと変圧器の品質が非自明な場合, RAG は単一の LLM よりも低い共形生成リスクを達成できることを示す。 実験の結果,4つの最先端検索モデル上で広く使用されている4つのNLPデータセットに対して,共形生成リスク保証の健全性と厳密性を示した。

Despite the impressive capabilities of large language models (LLMs) across diverse applications, they still suffer from trustworthiness issues, such as hallucinations and misalignments. Retrieval-augmented language models (RAG) have been proposed to enhance the credibility of generations by grounding external knowledge, but the theoretical understandings of their generation risks remains unexplored. In this paper, we answer: 1) whether RAG can indeed lead to low generation risks, 2) how to provide provable guarantees on the generation risks of RAG and vanilla LLMs, and 3) what sufficient conditions enable RAG models to reduce generation risks. We propose C-RAG, the first framework to certify generation risks for RAG models. Specifically, we provide conformal risk analysis for RAG models and certify an upper confidence bound of generation risks, which we refer to as conformal generation risk. We also provide theoretical guarantees on conformal generation risks for general bounded risk functions under test distribution shifts. We prove that RAG achieves a lower conformal generation risk than that of a single LLM when the quality of the retrieval model and transformer is non-trivial. Our intensive empirical results demonstrate the soundness and tightness of our conformal generation risk guarantees across four widely-used NLP datasets on four state-of-the-art retrieval models.
翻訳日:2024-02-14 18:19:50 公開日:2024-02-12
# smx: 専門家イテレーションのための逐次モンテカルロ計画

SMX: Sequential Monte Carlo Planning for Expert Iteration ( http://arxiv.org/abs/2402.07963v1 )

ライセンス: Link先を確認
Matthew V Macfarlane, Edan Toledo, Donal Byrne, Siddarth Singh, Paul Duckworth, Alexandre Laterre(参考訳) 意思決定と学習過程における計画能力を活用するエージェントの開発は、人工知能の進歩に不可欠である。 近年,木に基づく探索手法と自己再生学習機構を組み合わせる効果が実証されている。 しかし、これらの手法は通常、検索のシーケンシャルな性質のため、スケーリングの課題に直面します。 実用的なエンジニアリングソリューションは部分的にこれを克服できるが、それでも広範な計算資源を必要としており、適用性を妨げている。 本稿では,スケーラブルなモンテカルロ法を用いて効率的な自己学習機構を構築するモデルベース計画アルゴリズムであるSMXを紹介する。 推論としての制御の理論的な枠組みに基づくsmxは、ロバストな理論的基盤から恩恵を受ける。 サンプリングベースの検索アプローチは、離散的および連続的なアクション空間の両方を持つ環境に適応する。 さらに、SMXは高い並列化を可能にし、ハードウェアアクセラレータ上で実行することで計算効率を最適化することができる。 SMXは、AlphaZeroと比較して統計的に顕著な性能向上を示し、連続的および離散的な環境において、モデルフリーポリシー、マッチングまたはトップモデルフリーメソッドの改善演算子としての性能を示す。

Developing agents that can leverage planning abilities during their decision and learning processes is critical to the advancement of Artificial Intelligence. Recent works have demonstrated the effectiveness of combining tree-based search methods and self-play learning mechanisms. Yet, these methods typically face scaling challenges due to the sequential nature of their search. While practical engineering solutions can partly overcome this, they still demand extensive computational resources, which hinders their applicability. In this paper, we introduce SMX, a model-based planning algorithm that utilises scalable Sequential Monte Carlo methods to create an effective self-learning mechanism. Grounded in the theoretical framework of control as inference, SMX benefits from robust theoretical underpinnings. Its sampling-based search approach makes it adaptable to environments with both discrete and continuous action spaces. Furthermore, SMX allows for high parallelisation and can run on hardware accelerators to optimise computing efficiency. SMX demonstrates a statistically significant improvement in performance compared to AlphaZero, as well as demonstrating its performance as an improvement operator for a model-free policy, matching or exceeding top model-free methods across both continuous and discrete environments.
翻訳日:2024-02-14 18:08:05 公開日:2024-02-12
# 複雑な物理インフォームニューラルネットワーク

Densely Multiplied Physics Informed Neural Networks ( http://arxiv.org/abs/2402.04390v2 )

ライセンス: Link先を確認
Feilong Jiang, Xiaonan Hou, Min Xia(参考訳) 物理インフォームドニューラルネットワーク(PINN)は非線形偏微分方程式(PDE)を扱う大きな可能性を示しているが、PINNが不十分な精度の問題や不正な結果に悩まされることが一般的である。 トレーニングプロセスの最適化によってPINNの能力を向上しようとする既存のソリューションとは異なり、本研究では、PINNの性能向上のためにニューラルネットワークアーキテクチャを改善した。 本稿では,隠れたレイヤの出力と隠れたレイヤの出力とを乗算する,密乗型PINN(DM-PINN)アーキテクチャを提案する。 より訓練可能なパラメータを導入することなく、この効果的なメカニズムはPINNの精度を大幅に向上させることができる。 提案手法は,allan-cahn方程式,helmholtz方程式,burgers方程式,1d対流方程式の4つのベンチマーク例で評価された。 提案するアーキテクチャと異なるピン構造の比較により,dm-pinnの性能は精度と効率ともに優れていた。

Although physics-informed neural networks (PINNs) have shown great potential in dealing with nonlinear partial differential equations (PDEs), it is common that PINNs will suffer from the problem of insufficient precision or obtaining incorrect outcomes. Unlike most of the existing solutions trying to enhance the ability of PINN by optimizing the training process, this paper improved the neural network architecture to improve the performance of PINN. We propose a densely multiply PINN (DM-PINN) architecture, which multiplies the output of a hidden layer with the outputs of all the behind hidden layers. Without introducing more trainable parameters, this effective mechanism can significantly improve the accuracy of PINNs. The proposed architecture is evaluated on four benchmark examples (Allan-Cahn equation, Helmholtz equation, Burgers equation and 1D convection equation). Comparisons between the proposed architecture and different PINN structures demonstrate the superior performance of the DM-PINN in both accuracy and efficiency.
翻訳日:2024-02-14 18:04:00 公開日:2024-02-12
# CNNに必要な周波数は? 特徴学習における創発的ボトルネック構造

Which Frequencies do CNNs Need? Emergent Bottleneck Structure in Feature Learning ( http://arxiv.org/abs/2402.08010v1 )

ライセンス: Link先を確認
Yuxiao Wen, Arthur Jacot(参考訳) 本稿では,cnnにおける畳み込みボトルネック(cbn)構造の出現について述べる。そこではネットワークは,入力表現を数個の周波数とチャネルに沿ってのみサポートされた表現に変換し,最後の数個のレイヤを出力にマッピングする。 ボトルネック内に保持される周波数の数と種類を記述した CBN ランクを定義し、関数 $f$ を表すのに必要なパラメータノルムが CBN ランク $f$ の深さ時間としてスケールすることを部分的に証明する。 また、パラメータノルムは次の順序で$f$の正規性に依存することも示している。 ほぼ最適なパラメータノルムを持つネットワークはいずれもCBN構造を示し、大きな学習率でネットワークが安定しているという仮定のもと、ダウンサンプリングの一般的な実践を動機づけるアクティベーションが実現されることを示し、CBNの結果がダウンサンプリングで保たれていることを検証する。 最後に、CBN構造を用いて、CNNが多くのタスクで学んだ関数を解釈する。

We describe the emergence of a Convolution Bottleneck (CBN) structure in CNNs, where the network uses its first few layers to transform the input representation into a representation that is supported only along a few frequencies and channels, before using the last few layers to map back to the outputs. We define the CBN rank, which describes the number and type of frequencies that are kept inside the bottleneck, and partially prove that the parameter norm required to represent a function $f$ scales as depth times the CBN rank $f$. We also show that the parameter norm depends at next order on the regularity of $f$. We show that any network with almost optimal parameter norm will exhibit a CBN structure in both the weights and - under the assumption that the network is stable under large learning rate - the activations, which motivates the common practice of down-sampling; and we verify that the CBN results still hold with down-sampling. Finally we use the CBN structure to interpret the functions learned by CNNs on a number of tasks.
翻訳日:2024-02-14 17:56:26 公開日:2024-02-12
# 自閉症児のロボット補助療法のための3次元体ポーズ推定

Extending 3D body pose estimation for robotic-assistive therapies of autistic children ( http://arxiv.org/abs/2402.08006v1 )

ライセンス: Link先を確認
Laura Santos, Bernardo Carvalho, Catarina Barata, Jos\'e Santos-Victor(参考訳) ロボット支援療法は自閉症の子供に非常に有能な結果をもたらした。 子どものポーズの正確な推定は、人間とロボットの相互作用と治療評価の両方に不可欠である。 これらの子供は触感に敏感であるため、非誘惑的な方法が唯一の選択肢です。 深度カメラは広く使われているが、既存の方法には2つの大きな制限がある。 (i)通常、大人のみのデータで訓練され、子供のポーズを正しく推定しない。 (ii)咬合数の多いシナリオでは失敗する。 そこで本研究の目的は,既存の3Dボディモデリング手法を応用し,入力の1つを微調整するために線形回帰モデルを導入し,子供の3Dメッシュのポーズを補正することにより,幼児の3Dポーズ推定装置を開発することである。 制御された設定では,本手法の誤差は0.3m$以下であり,現在の最先端手法よりも低いと考えられる。 実世界の環境では、提案モデルがKinect深度カメラと同様に動作し、3Dボディのポーズをはるかに多くのフレームで推定することに成功した。

Robotic-assistive therapy has demonstrated very encouraging results for children with Autism. Accurate estimation of the child's pose is essential both for human-robot interaction and for therapy assessment purposes. Non-intrusive methods are the sole viable option since these children are sensitive to touch. While depth cameras have been used extensively, existing methods face two major limitations: (i) they are usually trained with adult-only data and do not correctly estimate a child's pose, and (ii) they fail in scenarios with a high number of occlusions. Therefore, our goal was to develop a 3D pose estimator for children, by adapting an existing state-of-the-art 3D body modelling method and incorporating a linear regression model to fine-tune one of its inputs, thereby correcting the pose of children's 3D meshes. In controlled settings, our method has an error below $0.3m$, which is considered acceptable for this kind of application and lower than current state-of-the-art methods. In real-world settings, the proposed model performs similarly to a Kinect depth camera and manages to successfully estimate the 3D body poses in a much higher number of frames.
翻訳日:2024-02-14 17:56:05 公開日:2024-02-12
# LLMの振舞いアライメントのための合成データを用いた修正直接選好最適化

Refined Direct Preference Optimization with Synthetic Data for Behavioral Alignment of LLMs ( http://arxiv.org/abs/2402.08005v1 )

ライセンス: Link先を確認
V\'ictor Gallego(参考訳) 本稿では,大規模言語モデル (LLM) の行動アライメントを改善する手法として,人間による注釈付きデータを必要としない 'emph{refined Direct Preference Optimization} (rDPO) を提案する。 教師llmによる自己批判的プロンプトを用いて合成データを作成し、一般化されたdpo損失関数を利用して学生llmにディスティルする。 損失関数は、合成データの品質を改善するために追加の外部報酬モデルを含むため、合成データセットの潜在的なノイズに対してrDPOは堅牢である。 rDPOは、安全性の向上、ロールプレイングに対する堅牢性、筋力低下など、多様な行動アライメントタスクに有効であることが示されている。 コードはhttps://github.com/vicgalle/refined-dpoでリリースできる。

In this paper, we introduce \emph{refined Direct Preference Optimization} (rDPO), a method for improving the behavioral alignment of Large Language Models (LLMs) without the need for human-annotated data. The method involves creating synthetic data using self-critique prompting by a teacher LLM and then utilising a generalized DPO loss function to distil to a student LLM. The loss function incorporates an additional external reward model to improve the quality of synthetic data, making rDPO robust to potential noise in the synthetic dataset. rDPO is shown to be effective in a diverse set of behavioural alignment tasks, such as improved safety, robustness against role-playing, and reduced sycophancy. Code to be released at https://github.com/vicgalle/refined-dpo.
翻訳日:2024-02-14 17:55:48 公開日:2024-02-12
# 量子ダイヤモンド顕微鏡によるハードウェアトロイの木馬検出電位と限界

Hardware Trojan Detection Potential and Limits with the Quantum Diamond Microscope ( http://arxiv.org/abs/2402.08004v1 )

ライセンス: Link先を確認
Jacob N. Lenz and Scott K. Perryman and Dmitro J. Martynowych and David A. Hopper and Sean M. Oliver(参考訳) 量子ダイヤモンド顕微鏡(Quantum Diamond Microscope, QDM)は、集積回路(IC)における電流を画像化できる装置であり、ハードウェアトロイの木馬の検出を約束する。 ハードウェアのトロイの木馬によって引き起こされる異常な電流は、QDMで撮像できる磁場側チャネルを通して現れ、改ざんの効果の検出と局所化を可能にする可能性がある。 本稿では,従来のQDM作業だけでなく,QDMの物理的限界や潜在的なトロイジャン行動の分析を通じて,ハードウェアトロイジャン検出におけるQDMの能力を明らかにすることを目的とする。 空間分解能、感度、時間対相対、視野といったQDMの指標が同定される。 fpga上のまれなイベント検出はqdmで実証される。 運用の概念は、IC開発の各段階におけるQDM活用のために特定され、異なる開発段階で使用するために必要な考慮事項と制限要因に言及されている。 最後に、ハードウェアトロイの木馬がIC電流活性に及ぼす影響を推定し、異なるプロセスサイズのICに対してQDM検出電位を投影するQDM感度と比較した。

The Quantum Diamond Microscope (QDM) is an instrument with a demonstrated capability to image electrical current in integrated circuits (ICs), which shows promise for detection of hardware Trojans. The anomalous current activity caused by hardware Trojans manifests through a magnetic field side channel that can be imaged with the QDM, potentially allowing for detection and localization of the effects of tampering. This paper seeks to identify the capabilities of the QDM for hardware Trojan detection through the analysis of previous QDM work as well as QDM physical limits and potential Trojan behaviors. QDM metrics of interest are identified, such as spatial resolution, sensitivity, time-to-result, and field-of-view. Rare event detection on an FPGA is demonstrated with the QDM. The concept of operations is identified for QDM utilization at different steps of IC development, noting necessary considerations and limiting factors for use at different development stages. Finally, the effects of hardware Trojans on IC current activity are estimated and compared to QDM sensitivities to project QDM detection potential for ICs of varying process sizes.
翻訳日:2024-02-14 17:55:33 公開日:2024-02-12
# 統計量からの量子相互作用のモデル独立推論

Model-independent inference of quantum interaction from statistics ( http://arxiv.org/abs/2402.08003v1 )

ライセンス: Link先を確認
Shubhayan Sarkar(参考訳) 任意の物理理論は、物理系間の相互作用の観点から物理系間の関係を確立することを目的としている。 しかしながら、この相互作用を推論するための文献における既知のアプローチは、関連する物理系の特定のモデリングに依存する。 ここでは、関係するシステムをモデル化する必要はないが、これらのシステムが量子論に従って振る舞うと仮定する別のアプローチを提案する。 まず,2つのシステム間の量子相互作用を統計的に推測する手法を提案する。 我々はベルの不平等の枠組みを利用する。 次に、任意の数の量子系が絡み合う相互作用によって相互作用するこの設定を拡張する。

Any physical theory aims to establish the relationship between physical systems in terms of the interaction between these systems. However, any known approach in the literature to infer this interaction is dependent on the particular modelling of the physical systems involved. Here, we propose an alternative approach where one does not need to model the systems involved but only assume that these systems behave according to quantum theory. We first propose a setup to infer a particular entangling quantum interaction between two systems from the statistics. For our purpose, we utilise the framework of Bell inequalities. We then extend this setup where an arbitrary number of quantum systems interact via some entangling interaction.
翻訳日:2024-02-14 17:55:16 公開日:2024-02-12
# ベイズ推論を用いたABCD法の改良と一般化

Improvement and generalization of ABCD method with Bayesian inference ( http://arxiv.org/abs/2402.08001v1 )

ライセンス: Link先を確認
Ezequiel Alvarez, Leandro Da Rold, Manuel Szewc, Alejandro Szynkman, Santiago A. Tanco, Tatiana Tarutina(参考訳) 新しい物理学の発見や、lhcにおける標準モデルに関する知識の洗練は、多くの要因を含む企業である。 利用可能な情報を活用することに集中し、通常のデータ駆動型ABCD手法を再考し、ベイジアン機械学習ツールを用いて一般化する。 本稿では,信号と背景の多さからなるデータセットを混合モデルを用いてよく記述する。 サンプル中の信号、背景、およびそれらの相対的な分画は、ベイズツールを用いたイベント・バイ・イベントレベルでの観測物間の事前の知識と依存を利用して、適切に抽出することができる。 ABCD法とは対照的に、異なる背景のいくつかの特性を理解し、各事象において2つ以上の独立した観測値を持つことができることを示す。 さらに、ハードカットによって定義された領域の代わりに、ベイズフレームワークは連続分布の情報を用いて統計的により堅牢な事象のソフトアサインを得る。 どちらの方法も比較するために、$pp\to hh\to b\bar b b \bar b$ にインスパイアされたおもちゃの問題を使用し、4つのジェットのフレーバーとジェットペアの不変質量を分析し、簡単な分布をモデル化する。 これらの情報をすべて活用し、バイアスと非依存の事前の組み合わせから始めると、ベイジアンフレームワークを使用してイベント・バイ・イベントレベルで観測者のデータと相互情報を利用すると、非常に良い後部へと導かれる。 この単純化されたモデルでは、bayesian frameworkがデータセット内の$\%$と$0.5\%$trueの信号分数で信号分数を取得する際に、abcd法の感度を上回っていることを示す。 また,この手法は信号の欠如に対して頑健であることを示す。

To find New Physics or to refine our knowledge of the Standard Model at the LHC is an enterprise that involves many factors. We focus on taking advantage of available information and pour our effort in re-thinking the usual data-driven ABCD method to improve it and to generalize it using Bayesian Machine Learning tools. We propose that a dataset consisting of a signal and many backgrounds is well described through a mixture model. Signal, backgrounds and their relative fractions in the sample can be well extracted by exploiting the prior knowledge and the dependence between the different observables at the event-by-event level with Bayesian tools. We show how, in contrast to the ABCD method, one can take advantage of understanding some properties of the different backgrounds and of having more than two independent observables to measure in each event. In addition, instead of regions defined through hard cuts, the Bayesian framework uses the information of continuous distribution to obtain soft-assignments of the events which are statistically more robust. To compare both methods we use a toy problem inspired by $pp\to hh\to b\bar b b \bar b$, selecting a reduced and simplified number of processes and analysing the flavor of the four jets and the invariant mass of the jet-pairs, modeled with simplified distributions. Taking advantage of all this information, and starting from a combination of biased and agnostic priors, leads us to a very good posterior once we use the Bayesian framework to exploit the data and the mutual information of the observables at the event-by-event level. We show how, in this simplified model, the Bayesian framework outperforms the ABCD method sensitivity in obtaining the signal fraction in scenarios with $1\%$ and $0.5\%$ true signal fractions in the dataset. We also show that the method is robust against the absence of signal.
翻訳日:2024-02-14 17:55:05 公開日:2024-02-12
# NetInfoF Framework: ネットワーク使用情報の測定と爆発

NetInfoF Framework: Measuring and Exploiting Network Usable Information ( http://arxiv.org/abs/2402.07999v1 )

ライセンス: Link先を確認
Meng-Chieh Lee, Haiyang Yu, Jian Zhang, Vassilis N. Ioannidis, Xiang Song, Soji Adeshina, Da Zheng, Christos Faloutsos(参考訳) ノード分散グラフとグラフタスク(リンク予測やノード分類)が与えられたら、グラフニューラルネットワーク(GNN)がうまく機能するかどうかを判断できますか? より具体的に言うと、グラフ構造とノード機能は、タスクに十分な有用な情報を運ぶか? 目的は,(1)グラフ構造やノード機能にどの程度の情報があるかを測定するための高速ツールを開発すること,(2)タスクが十分であればその情報を活用すること,である。 本稿では,netinfof_probe と netinfof_act を含むフレームワークである netinfof を提案する。 グラフデータを与えると、netinfof_probeはモデルトレーニングなしでnuiを測定し、netinfof_actはリンク予測とノード分類を解決し、2つのモジュールは同じバックボーンを共有する。 要約すると、NetInfoFは以下の顕著な利点を持っている。 (a)リンク予測とノード分類の両方を扱う一般 b) 原理的,理論的保証及び閉形式の解決 (c) ノード類似性に対する調整の提案により、有効である。 (d) スケーラブルで、入力サイズと線形にスケーリングする。 注意深く設計された合成データセットでは、netinfofはnuiの基礎的真理を正確に識別し、すべてのグラフシナリオにロバストな唯一の方法です。 実世界のデータセットに適用されるNetInfoFは、一般的なGNNベースラインと比較して、リンク予測で12回中11回勝利している。

Given a node-attributed graph, and a graph task (link prediction or node classification), can we tell if a graph neural network (GNN) will perform well? More specifically, do the graph structure and the node features carry enough usable information for the task? Our goals are (1) to develop a fast tool to measure how much information is in the graph structure and in the node features, and (2) to exploit the information to solve the task, if there is enough. We propose NetInfoF, a framework including NetInfoF_Probe and NetInfoF_Act, for the measurement and the exploitation of network usable information (NUI), respectively. Given a graph data, NetInfoF_Probe measures NUI without any model training, and NetInfoF_Act solves link prediction and node classification, while two modules share the same backbone. In summary, NetInfoF has following notable advantages: (a) General, handling both link prediction and node classification; (b) Principled, with theoretical guarantee and closed-form solution; (c) Effective, thanks to the proposed adjustment to node similarity; (d) Scalable, scaling linearly with the input size. In our carefully designed synthetic datasets, NetInfoF correctly identifies the ground truth of NUI and is the only method being robust to all graph scenarios. Applied on real-world datasets, NetInfoF wins in 11 out of 12 times on link prediction compared to general GNN baselines.
翻訳日:2024-02-14 17:54:33 公開日:2024-02-12
# フロベニウス光円錐とシフトユニタリ

Frobenius light cone and the shift unitary ( http://arxiv.org/abs/2402.07990v1 )

ライセンス: Link先を確認
Chao Yin, Andrew Lucas, David T. Stephen(参考訳) 一次元環上のシフトユニタリを実装するのに必要な時間は、局所ハミルトニアンとパワー-ロー相互作用を持つものである。 この時間はフロベニウス光円錐によって制限されるため、シフトユニタリは十分に小さなパワーロー指数のために長距離ベル対を作るよりもパラメトリックに実装が難しいことが証明される。 結果の証明と対称性保護型トポロジカルな状態と対称性保存型ハミルトニアンとの類似性は興味深い。

We bound the time necessary to implement the shift unitary on a one-dimensional ring, both using local Hamiltonians and those with power-law interactions. This time is constrained by the Frobenius light cone; hence we prove that shift unitaries are parametrically harder to implement than preparing long-range Bell pairs for sufficiently small power-law exponent. We note an intriguing similarity between the proof of our results, and the hardness of preparing symmetry-protected topological states with symmetry-preserving Hamiltonians.
翻訳日:2024-02-14 17:54:10 公開日:2024-02-12
# イオン四重項を持つ(1+1)D SU(2)格子ゲージ理論のディジタル量子シミュレーション

Digital quantum simulation of a (1+1)D SU(2) lattice gauge theory with ion qudits ( http://arxiv.org/abs/2402.07987v1 )

ライセンス: Link先を確認
Giuseppe Calaj\`o, Giuseppe Magnifico, Claire Edmunds, Martin Ringbauer, Simone Montangero and Pietro Silvi(参考訳) 本稿では, (1+1)D SU(2)非アーベル格子ゲージ理論, ハードコアグルーオンハミルトニアン・ヤン・ミルズに対する量子シミュレーション手法を提案する。 我々は、ゲージ不変性を満たすクーディット、すなわちSU(2)ガウスの法則を用いる。 一般化M{\o}lmer-S{\o}rensenゲートの動的特性を効率的にシミュレートするための実験的実現可能性について論じる。 本稿では,モデルのスケーラブルなディジタル量子シミュレーションを実現する上で,これらの資源を用いた浅層回路が十分であることを示す。 また,このモデルでは,バリオン励起のような非アーベル場理論に特有の物理的関連性を動的に表すことが可能であることを示す。

We present a quantum simulation strategy for a (1+1)D SU(2) non-abelian lattice gauge theory, a hardcore-gluon Hamiltonian Yang-Mills, tailored to a six-level trapped-ion qudit quantum processor, as recently experimentally realized. We employ a qudit encoding fulfilling gauge invariance, an SU(2) Gauss' law. We discuss the experimental feasibility of generalized M{\o}lmer-S{\o}rensen gates used to efficiently simulate the dynamics. We illustrate how a shallow circuit with these resources is sufficient to implement scalable digital quantum simulation of the model. We also numerically show that this model, albeit simple, can dynamically manifest physically-relevant properties specific to non-abelian field theories, such as baryon excitations.
翻訳日:2024-02-14 17:54:00 公開日:2024-02-12
# ランダム作用素成長のためのランツォススペクトル

Lanczos spectrum for random operator growth ( http://arxiv.org/abs/2402.07980v1 )

ライセンス: Link先を確認
Tran Quang Loc(参考訳) krylov法は最近再登場し、物理的に知覚可能な複雑性の概念と量子カオスと量子重力を結びつけている。 これらの発展において、ハミルトニアンとリウヴィリアンは三対角化され、シュロディンガー/ハイゼンベルク時間発展はクリロフ基底で表現される。 シュロディンガー進化の文脈では、この三対角化はランダム行列論において行われてきた。 我々はこれらの発展をハイゼンベルク時間発展に拡張し、リウヴィリアンがクリロフ空間の終わりまでどのように三対角化できるかを記述する。 ガウス行列モデルと非ガウス行列モデルの両方について解析公式を数値的に検証する。

Krylov methods have reappeared recently, connecting physically sensible notions of complexity with quantum chaos and quantum gravity. In these developments, the Hamiltonian and the Liouvillian are tridiagonalized so that Schrodinger/Heisenberg time evolution is expressed in the Krylov basis. In the context of Schrodinger evolution, this tridiagonalization has been carried out in Random Matrix Theory. We extend these developments to Heisenberg time evolution, describing how the Liouvillian can be tridiagonalized as well until the end of Krylov space. We numerically verify the analytical formulas both for Gaussian and non-Gaussian matrix models.
翻訳日:2024-02-14 17:53:47 公開日:2024-02-12
# 等尺テンソルネットワーク状態の計算複雑性

Computational complexity of isometric tensor network states ( http://arxiv.org/abs/2402.07975v1 )

ライセンス: Link先を確認
Daniel Malz and Rahul Trivedi(参考訳) ガッピング基底状態と位相状態の2次元的性質を数値的に求め計算するために開発された変分アンサッツである等尺テンソルネットワーク状態(isotns)の計算能力を決定する。 2D isoTNSを1+1Dユニタリ量子回路にマッピングすることにより、isoTNSの局所期待値は$\textsf{BQP}$-completeであることが分かる。 次に、IsoTNSを導入し、IsoTNSはフラストレーションフリーハミルトニアンの独特な基底状態であり、IsoTNSの結合次元が$D$であるインジェクティブパラメータ$\delta\in(0,1/D]$によって特徴づけられる。 インジェクティビティは必ず回路に非偏極ノイズを$\eta=\delta^2D^2$で付加することを示す。 弱い単射isoTNS(小$\delta$)は依然として$\textsf{BQP}$-completeであるが、強い単射isoTNS(\eta\geq0.41$)の局所期待値を計算するための効率的な古典的アルゴリズムが存在することを示す。 isotnsからのサンプリングは、監視された量子力学に対応し、ハードレジームから監視された回路を効率的にサンプリングできる簡単な位相に位相遷移する一連のisotnを示す。 本研究の結果は,isoTNSを契約する証明可能なアルゴリズムの設計に利用できる。 フラストレーションフリーハミルトニアンの基底状態と1次元の開回路力学の間の写像は、独立な関心を持つかもしれない。

We determine the computational power of isometric tensor network states (isoTNS), a variational ansatz originally developed to numerically find and compute properties of gapped ground states and topological states in two dimensions. By mapping 2D isoTNS to 1+1D unitary quantum circuits, we find that computing local expectation values in isoTNS is $\textsf{BQP}$-complete. We then introduce injective isoTNS, which are those isoTNS that are the unique ground states of frustration-free Hamiltonians, and which are characterized by an injectivity parameter $\delta\in(0,1/D]$, where $D$ is the bond dimension of the isoTNS. We show that injectivity necessarily adds depolarizing noise to the circuit at a rate $\eta=\delta^2D^2$. We show that weakly injective isoTNS (small $\delta$) are still $\textsf{BQP}$-complete, but that there exists an efficient classical algorithm to compute local expectation values in strongly injective isoTNS ($\eta\geq0.41$). Sampling from isoTNS corresponds to monitored quantum dynamics and we exhibit a family of isoTNS that undergo a phase transition from a hard regime to an easy phase where the monitored circuit can be sampled efficiently. Our results can be used to design provable algorithms to contract isoTNS. Our mapping between ground states of certain frustration-free Hamiltonians to open circuit dynamics in one dimension fewer may be of independent interest.
翻訳日:2024-02-14 17:53:34 公開日:2024-02-12
# 電力系統における最適状態伝達と絡み合い発生の実験ロードマップ

Experimental roadmap for optimal state transfer and entanglement generation in power-law systems ( http://arxiv.org/abs/2402.07974v1 )

ライセンス: Link先を確認
Andrew Y. Guo and Jeremy T. Young and Ron Belyansky and Przemyslaw Bienias and Alexey V. Gorshkov(参考訳) パワーロー相互作用を持つ実験システムは、最近量子情報処理の有望なプラットフォームとして関心を集めている。 このようなシステムは、超球形の絡み合いを広め、局所的に相互作用するシステム上で漸近的なスピードアップを達成することができる。 近年、Eldredgeらが開発したプロトコルが開発されている。 [Phys. Rev. Lett. 119, 170503 (2017)], Tran et al. [遠方粒子間で量子状態を素早く転送する作業はX 11 031016 (2021)] が最適で飽和した理論境界であることが示されている。 しかし、長距離相互作用を持つ物理システムにおけるこれらのプロトコルの実装は、まだ完全に実現されていない。 本研究では、アルカリ金属二量体からなる極性分子、励起リドバーグ状態の中性原子、強い磁気モーメントを持つ原子(例えばジスプロシウム)の3種類の原子と分子の相互作用を持つ高速な状態伝達プロトコルの実現に向けた実験的ロードマップを提供する。 短期的な実験実装の指針として,2つのプロトコル間のトレードオフを小さなシステムサイズで数値的に評価し,プロトコルの実行中に発生する可能性のあるクロストークエラーに対処する手法を開発した。

Experimental systems with power-law interactions have recently garnered interest as promising platforms for quantum information processing. Such systems are capable of spreading entanglement superballistically and achieving an asymptotic speed-up over locally interacting systems. Recently, protocols developed by Eldredge et al. [Phys. Rev. Lett. 119, 170503 (2017)] and Tran et al. [Phys. Rev. X 11, 031016 (2021)] for the task of transferring a quantum state between distant particles quickly were shown to be optimal and saturate theoretical bounds. However, the implementation of these protocols in physical systems with long-range interactions remains to be fully realized. In this work, we provide an experimental roadmap towards realizing fast state-transfer protocols in three classes of atomic and molecular systems with dipolar interactions: polar molecules composed of alkali-metal dimers, neutral atoms in excited Rydberg states, and atoms with strong magnetic moments (e.g. dysprosium). As a guide to near-term experimental implementation, we numerically evaluate the tradeoffs between the two protocols for small system sizes and develop methods to address potential crosstalk errors that may arise during the execution of the protocols.
翻訳日:2024-02-14 17:53:04 公開日:2024-02-12
# 衝突機における量子絡み合いとベル不等式違反

Quantum entanglement and Bell inequality violation at colliders ( http://arxiv.org/abs/2402.07972v1 )

ライセンス: Link先を確認
Alan J. Barr, Marco Fabbrichesi, Roberto Floreanini, Emidio Gabrielli, Luca Marzola(参考訳) 粒子物理学における絡み合いの研究は、ここ数年で加速している。 これは、トップクォークや$\tau$-lepton対、巨大なゲージボソン、ベクター中間子のような様々な状態の衝突器において、絡み合いやベルの不等式を検出する可能性に関する重要な結果を提供する新しい分野である。 このレビューでは、これらの開発を理解するのに必要な定義、ツール、基本的な結果を提示した後、2023年末までに公表された主な発見を要約します。 これらの調査は、大型ハドロン衝突型加速器におけるトップクォーク対生成における絡み合いの観測を除いて、実験が追いつきつつあるため、主に理論的に行われている。 我々は、qubitおよびqutritsシステム、すなわちスピンの半減期とスピンの粒子を含む最終状態の両方の結果に関する詳細な議論を含む。 エンタングルメントは、標準モデル以外の新しい粒子や場を制約する新しいツールとして提案されており、この有望な機能についても読者を紹介する。

The study of entanglement in particle physics has been gathering pace in the past few years. It is a new field that is providing important results about the possibility of detecting entanglement and testing Bell inequality at colliders for final states as diverse as top-quark or $\tau$-lepton pairs, massive gauge bosons and vector mesons. In this review, after presenting definitions, tools and basic results that are necessary for understanding these developments, we summarize the main findings -- as published up to the end of year 2023. These investigations have been mostly theoretical since the experiments are only now catching up, with the notable exception of the observation of entanglement in top-quark pair production at the Large Hadron Collider. We include a detailed discussion of the results for both qubit and qutrits systems, that is, final states containing spin one-half and spin one particles. Entanglement has also been proposed as a new tool to constrain new particles and fields beyond the Standard Model and we introduce the reader to this promising feature as well.
翻訳日:2024-02-14 17:52:45 公開日:2024-02-12
# 低次元分子埋め込みを用いた迅速化学類似探索

Utilizing Low-Dimensional Molecular Embeddings for Rapid Chemical Similarity Search ( http://arxiv.org/abs/2402.07970v1 )

ライセンス: Link先を確認
Kathryn E. Kirchoff, James Wellnitz, Joshua E. Hochuli, Travis Maxfield, Konstantin I. Popov, Shawn Gomez, Alexander Tropsha(参考訳) 最も近い近隣の類似性探索は化学において一般的な課題であり、薬物発見に顕著なユースケースがある。 しかし、このタスクでよく使われるアプローチのいくつかは、まだブルートフォースアプローチを利用している。 実際には、これは計算にコストと過大な時間を要する可能性がある。 このタスクのこれまでの計算の進歩は一般に、一般化性に欠けるハードウェアやデータセット固有のトリックの改善に依存してきた。 低複雑度探索アルゴリズムを利用するアプローチは比較的未検討のままである。 しかし、これらのアルゴリズムの多くは近似解であり、あるいは典型的な高次元の化学埋め込みと競合する。 本稿では,k-d木構造と低次元ケミカル組込みの組み合わせが,標準ケミカル類似性検索ベンチマークの性能を維持しつつ,最寄りの高速クエリを実現することができるかを評価する。 本研究は, 標準化学埋め込みの次元的低減と, 学習された, 構造を意識した埋め込み(SmallSA)について検討する。 このフレームワークでは、10億以上の化学物質を1つのCPUコア上で1秒未満で検索し、ブルートフォースアプローチよりも5桁高速になる。 また,SmallSAが化学類似性ベンチマークにおいて競合性能を達成することを示す。

Nearest neighbor-based similarity searching is a common task in chemistry, with notable use cases in drug discovery. Yet, some of the most commonly used approaches for this task still leverage a brute-force approach. In practice this can be computationally costly and overly time-consuming, due in part to the sheer size of modern chemical databases. Previous computational advancements for this task have generally relied on improvements to hardware or dataset-specific tricks that lack generalizability. Approaches that leverage lower-complexity searching algorithms remain relatively underexplored. However, many of these algorithms are approximate solutions and/or struggle with typical high-dimensional chemical embeddings. Here we evaluate whether a combination of low-dimensional chemical embeddings and a k-d tree data structure can achieve fast nearest neighbor queries while maintaining performance on standard chemical similarity search benchmarks. We examine different dimensionality reductions of standard chemical embeddings as well as a learned, structurally-aware embedding -- SmallSA -- for this task. With this framework, searches on over one billion chemicals execute in less than a second on a single CPU core, five orders of magnitude faster than the brute-force approach. We also demonstrate that SmallSA achieves competitive performance on chemical similarity benchmarks.
翻訳日:2024-02-14 17:52:23 公開日:2024-02-12
# シュワルツシルト時空における光子-重力結合

Photon-Gravity Coupling in Schwarzschild Spacetime ( http://arxiv.org/abs/2402.07969v1 )

ライセンス: Link先を確認
Masoud Molaei(参考訳) 曲面時空における量子電磁力学の正準形式性を開発した。 この形式化はシュヴァルツシルト重力場における光子の系統的な研究を可能にし、新しい結果をもたらし、ヒューリスティックな方法によって予測された以前の結果を精錬する。 重力赤方偏移はスペクトルの全ての周波数の光子の鋭い周波数のシフトである」という主張が証明されている。 重力重ね合わせのデコヒーレンスは、曲がった時空現象における光子-重力カップリングと観測者に依存した量子電磁力学によるものであることが示されている。 光子重力インターフェロメトリ相対位相シフトの完全な量子一般相対論的性質が示され、その観測によってニュートン重力の妥当性とアインシュタイン同値原理の1つの事象(弱い一様重力場でさえも)を超えて拡張されることが示されている。

A canonical formalism for quantum electrodynamics in curved spacetime is developed. This formalism enables a systematic investigation of photons in the Schwarzschild gravitational field, yielding novel results as well as refining previous results that were predicted by heuristic methods. The claim that "the gravitational redshift is a shift in the sharp frequencies of the photons for all frequencies of the spectrum" is proved. It is shown the gravitational superposition decoherence is due to photon-gravity coupling and observer-dependent quantum electrodynamics in curved spacetime phenomena. The full quantum-general relativistic nature of the photon gravitational interferometric relative phase shift is demonstrated, and it is shown its observation will falsify the validity of Newtonian gravity and the extension of the Einstein equivalence principle beyond a single event (even in the weak uniform gravitational field.)
翻訳日:2024-02-14 17:52:05 公開日:2024-02-12
# 生成型aiによるエラーメッセージのリアルタイムプログラミングの拡張

Enhancing Programming Error Messages in Real Time with Generative AI ( http://arxiv.org/abs/2402.08072v1 )

ライセンス: Link先を確認
Bailey Kimmel, Austin Geisert, Lily Yaro, Brendan Gipson, Taylor Hotchkiss, Sidney Osae-Asante, Hunter Vaught, Grant Wininger, Chase Yamaguchi(参考訳) 生成AIは、コンピュータ科学を含む多くの分野の教え方を変えつつある。 ジェネレーティブなAIツールは、プログラミングの問題を解決し、幅広いコードのブロックを書き、複雑なコードを簡単な言葉で説明できることを示した。 特にpromiseは、生成aiを使ってエラーメッセージのプログラミングを強化している。 学生とインストラクターは、これらのメッセージがしばしば解読され、理解しにくいと何十年も不平を言ってきた。 しかし、近年の研究では、GPT-4による拡張では、繰り返しエラーが少ないことが示されている。 私たちは、自動評価ツールであるatheneに提出されたすべてのプログラムに対して、chatgptからのフィードバックを実装し、コンパイラ、ランタイム、ロジックエラーのヘルプを提供します。 以上の結果から,自動評価ツールに生成AIを追加することで必ずしも改善が得られず,インターフェースの設計はGPT-4が提供するフィードバックのユーザビリティに大きく寄与することがわかった。

Generative AI is changing the way that many disciplines are taught, including computer science. Researchers have shown that generative AI tools are capable of solving programming problems, writing extensive blocks of code, and explaining complex code in simple terms. Particular promise has been shown in using generative AI to enhance programming error messages. Both students and instructors have complained for decades that these messages are often cryptic and difficult to understand. Yet recent work has shown that students make fewer repeated errors when enhanced via GPT-4. We extend this work by implementing feedback from ChatGPT for all programs submitted to our automated assessment tool, Athene, providing help for compiler, run-time, and logic errors. Our results indicate that adding generative AI to an automated assessment tool does not necessarily make it better and that design of the interface matters greatly to the usability of the feedback that GPT-4 provided.
翻訳日:2024-02-14 17:44:35 公開日:2024-02-12
# MIMLライブラリ:多言語多言語学習のためのモジュール・フレキシブルライブラリ

MIML library: a Modular and Flexible Library for Multi-instance Multi-label Learning ( http://arxiv.org/abs/2402.08056v1 )

ライセンス: Link先を確認
\'Alvaro Belmonte and Amelia Zafra and Eva Gibaja(参考訳) MIMLライブラリは、マルチインスタンス・マルチラベル(MIML)学習のための分類アルゴリズムを開発し、テストし、比較するJavaソフトウェアツールである。 このライブラリには43のアルゴリズムが含まれており、データ管理とパーティショニング、ホールドアウトとクロスバリデーションの方法、パフォーマンス評価のための標準メトリクス、レポートの生成のための特定のフォーマットと設備を提供する。 さらに、アルゴリズムはプログラムを必要とせずに$xml$設定ファイルを通じて実行できる。 プラットフォームに依存しない,拡張可能な,無償のオープンソースで,GNU General Public Licenseの下でGitHubから入手可能だ。

MIML library is a Java software tool to develop, test, and compare classification algorithms for multi-instance multi-label (MIML) learning. The library includes 43 algorithms and provides a specific format and facilities for data managing and partitioning, holdout and cross-validation methods, standard metrics for performance evaluation, and generation of reports. In addition, algorithms can be executed through $xml$ configuration files without needing to program. It is platform-independent, extensible, free, open-source, and available on GitHub under the GNU General Public License.
翻訳日:2024-02-14 17:44:12 公開日:2024-02-12
# 量子アルゴリズムによる感性アイテムセットの隠蔽

A Quantum Algorithm Based Heuristic to Hide Sensitive Itemsets ( http://arxiv.org/abs/2402.08055v1 )

ライセンス: Link先を確認
Abhijeet Ghoshal, Yan Li, Syam Menon, Sumit Sarkar(参考訳) 量子デバイスは情報を表すために量子ビットを使用し、量子物理学、特に重ね合わせと絡み合いから重要な性質を利用することができる。 その結果、量子コンピュータは最も先進的な古典的コンピュータを上回る可能性がある。 近年、量子アルゴリズムはこの約束のヒントを示しており、量子領域に対して多くのアルゴリズムが提案されている。 量子コンピュータ上での難解な現実問題の解決には、2つの大きなハードルがある。 1つはハードウェア分野であり、最も先進的な量子系における量子ビットの数は小さすぎて大きな問題の解が現実的になる。 2つめは、量子コンピュータが量子ビットを使用するため、そのアルゴリズムは従来のコンピュータで作業するアルゴリズムと根本的に異なる。これらの制約の結果として、研究は、概念実証として、小さなバージョンの問題を解決するアプローチの開発に注力している。量子ビットが十分に利用可能になったら、これらのスケールアップが可能になることを認識している。 この論文の目標は、同じ線に沿っている。 データ共有の文脈において、よく研究された問題を解決するための量子的アプローチを提案する。 このヒューリスティックはよく知られた量子近似最適化アルゴリズム(QAOA)を用いる。 量子アルゴリズムを用いてこの問題をどのように解決できるかを説明するために,小さなデータセットを含む実験結果を示す。 その結果,提案手法にはポテンシャルがあり,最適に近い回答が得られた。 同時に、我々はこの手法をさらに改善する機会があることに気付いた。

Quantum devices use qubits to represent information, which allows them to exploit important properties from quantum physics, specifically superposition and entanglement. As a result, quantum computers have the potential to outperform the most advanced classical computers. In recent years, quantum algorithms have shown hints of this promise, and many algorithms have been proposed for the quantum domain. There are two key hurdles to solving difficult real-world problems on quantum computers. The first is on the hardware front -- the number of qubits in the most advanced quantum systems is too small to make the solution of large problems practical. The second involves the algorithms themselves -- as quantum computers use qubits, the algorithms that work there are fundamentally different from those that work on traditional computers. As a result of these constraints, research has focused on developing approaches to solve small versions of problems as proofs of concept -- recognizing that it would be possible to scale these up once quantum devices with enough qubits become available. Our objective in this paper is along the same lines. We present a quantum approach to solve a well-studied problem in the context of data sharing. This heuristic uses the well-known Quantum Approximate Optimization Algorithm (QAOA). We present results on experiments involving small datasets to illustrate how the problem could be solved using quantum algorithms. The results show that the method has potential and provide answers close to optimal. At the same time, we realize there are opportunities for improving the method further.
翻訳日:2024-02-14 17:43:51 公開日:2024-02-12
# ロバストなマルチモーダルセミ教師付き学習のためのマルチランダムマスキングオートエンコーダアンサンブル

Multiple Random Masking Autoencoder Ensembles for Robust Multimodal Semi-supervised Learning ( http://arxiv.org/abs/2402.08035v1 )

ライセンス: Link先を確認
Alexandru-Raul Todoran, Marius Leordeanu(参考訳) コンピュータビジョンや機械学習では、世界の複数の解釈層(モダリティやビュー)を考慮し、それらが相互にどう関係しているかを学ぶ必要がある現実世界の問題が増えている。 例えば、衛星データから地球観測を行う場合、地球システムがどのように機能するかを最もよく理解するためには、他の層(例えば、水蒸気、積雪、温度など)から1つの観測層(例えば、植生指数)を予測することができ、また、データが欠落している場合(例えば、測定失敗やエラー)に、確実に1つの層の情報を予測できることが重要である。

There is an increasing number of real-world problems in computer vision and machine learning requiring to take into consideration multiple interpretation layers (modalities or views) of the world and learn how they relate to each other. For example, in the case of Earth Observations from satellite data, it is important to be able to predict one observation layer (e.g. vegetation index) from other layers (e.g. water vapor, snow cover, temperature etc), in order to best understand how the Earth System functions and also be able to reliably predict information for one layer when the data is missing (e.g. due to measurement failure or error).
翻訳日:2024-02-14 17:43:29 公開日:2024-02-12
# LLMベースのアシスタントが間違っている理由と時期 - ソフトウェアヘルプ検索におけるプロンプトベースのインタラクションの有効性の検討

Why and When LLM-Based Assistants Can Go Wrong: Investigating the Effectiveness of Prompt-Based Interactions for Software Help-Seeking ( http://arxiv.org/abs/2402.08030v1 )

ライセンス: Link先を確認
Anjali Khurana, Hari Subramonyam, Parmit K Chilana(参考訳) ChatGPTのようなLarge Language Model (LLM)アシスタントは、複雑な機能豊富なソフトウェアをナビゲートする検索方法の潜在的な代替手段として登場した。 LLMは、ドメイン固有のテキスト、ソフトウェアマニュアル、コードリポジトリからの膨大なトレーニングデータを使用して、ヒューマンライクなインタラクションを模倣する。 本研究では,16名の参加者によるイントラサブジェクト実験とフォローアップインタビューを通じて,llm生成ソフトウェア指導について検討した。 私たちは、ベースラインのllmアシスタントと、特定のソフトウェアコンテキストに最適化されたllm、softaibotを比較しました。 タスク完了、精度、妥当性、信頼を評価しました。 意外なことに,SoftAIBot はベースライン LLM よりも優れていたが,本研究の結果,即時ガイドラインとドメインコンテキストの統合により,LLM の使用状況とユーザ認識に有意な差は認められなかった。 ほとんどのユーザーは、LLMの反応に関連するプロンプトのテキストの理解に苦慮し、たとえ間違っていたとしても、LLMの提案に従わざるを得なかった。 この結果、LCMのソフトウェアタスクに対するアドバイスの使用が困難となり、タスク完了率が低下した。 我々の詳細な分析では、ユーザがLSMの応答の不正確さに気付いておらず、ソフトウェア専門知識の欠如とLCMのアシストを評価する能力のギャップが示唆された。 ドメイン固有のLLMアシスタントの設計を推し進める中で,我々は,ユーザが迅速なインタラクションを理解し,バイアスを特定し,LLMアシスタントの有用性を最大化するために,説明可能なコンテキスト対応キューをLLMに組み込むことの重要性を強調した。

Large Language Model (LLM) assistants, such as ChatGPT, have emerged as potential alternatives to search methods for helping users navigate complex, feature-rich software. LLMs use vast training data from domain-specific texts, software manuals, and code repositories to mimic human-like interactions, offering tailored assistance, including step-by-step instructions. In this work, we investigated LLM-generated software guidance through a within-subject experiment with 16 participants and follow-up interviews. We compared a baseline LLM assistant with an LLM optimized for particular software contexts, SoftAIBot, which also offered guidelines for constructing appropriate prompts. We assessed task completion, perceived accuracy, relevance, and trust. Surprisingly, although SoftAIBot outperformed the baseline LLM, our results revealed no significant difference in LLM usage and user perceptions with or without prompt guidelines and the integration of domain context. Most users struggled to understand how the prompt's text related to the LLM's responses and often followed the LLM's suggestions verbatim, even if they were incorrect. This resulted in difficulties when using the LLM's advice for software tasks, leading to low task completion rates. Our detailed analysis also revealed that users remained unaware of inaccuracies in the LLM's responses, indicating a gap between their lack of software expertise and their ability to evaluate the LLM's assistance. With the growing push for designing domain-specific LLM assistants, we emphasize the importance of incorporating explainable, context-aware cues into LLMs to help users understand prompt-based interactions, identify biases, and maximize the utility of LLM assistants.
翻訳日:2024-02-14 17:43:13 公開日:2024-02-12
# 非有界パルス相関を持つ量子鍵分布

Quantum key distribution with unbounded pulse correlations ( http://arxiv.org/abs/2402.08028v1 )

ライセンス: Link先を確認
Margarida Pereira, Guillermo Curr\'as-Lorenzo, Akihiro Mizutani, Davide Rusca, Marcos Curty, Kiyoshi Tamaki(参考訳) 量子鍵分布(QKD)の実用化における主要な問題は、放出された信号間の相関の出現である。 近年の研究では、この不完全性の存在下でのQKDの安全性が証明されているが、パルス相関は有限長であるという前提に基づいている。 しかし、これらの相関の長さは潜在的に非有界である可能性があるため、この仮定は実際には必ずしも満たされない。 実際、最初の放出パルスは、たとえ非常に微弱であっても、最後のパルスと相関する可能性がある。 それでも直感的には、これらの相関は基本的に無視できるほど小さくなり、セキュリティの観点からは不適切になるパルス分離しきい値が存在するべきである。 この知見に基づいて,パルス相関が非有界長を持つような実効的シナリオに,既存のセキュリティ証明を拡張するように設計された一般的な形式を導入する。 このアプローチは、これらの証明の適用性とqkdの実装セキュリティの堅牢性を大幅に向上させる。

A prevalent issue in practical applications of quantum key distribution (QKD) is the emergence of correlations among the emitted signals. Although recent works have proved the security of QKD in the presence of this imperfection, they rest on the premise that pulse correlations are of finite length. However, this assumption is not necessarily met in practice, since the length of these correlations could be potentially unbounded. Indeed, the first emitted pulse could be correlated with the last one, even if very faintly. Still, intuitively, there should exist a pulse separation threshold after which these correlations become so small as to be essentially negligible, rendering them inconsequential from a security standpoint. Building on this insight, we introduce a general formalism designed to extend existing security proofs to the practically relevant scenario in which pulse correlations have an unbounded length. This approach significantly enhances the applicability of these proofs and the robustness of QKD's implementation security.
翻訳日:2024-02-14 17:42:39 公開日:2024-02-12
# オフロードレースにおけるコンピュータビジョンのためのデータセットとベンチマーク

Beyond the Mud: Datasets and Benchmarks for Computer Vision in Off-Road Racing ( http://arxiv.org/abs/2402.08025v1 )

ライセンス: Link先を確認
Jacob Tyo, Motolani Olarinre, Youngseog Chung, Zachary C. Lipton(参考訳) 光文字認識(ocr)とコンピュータビジョンシステム(英語版)の著しい進歩にもかかわらず、テキストを堅牢に認識し、制約のない \emph{in-the-wild} 環境で撮影された画像中の人物を識別することは現在も課題である。 しかし、このような障害は、オフロードレースイベント中に撮影された写真のレーサーを特定するなど、視覚システムの実践的な応用において克服されなければならない。 この目的のために、オフロードバイクレーサーナンバーデータセット(RND)とMuddy Racer re-iDentification Dataset(MUDD)という2つの挑戦的な現実のデータセットを導入し、現在の手法の欠点を強調し、OCRの進歩と極端な条件下での人物の再識別(ReID)を促進する。 この2つのデータセットには、オフロード競技中に撮影された6300以上の画像が含まれており、泥、複雑なポーズ、動きのぼやけなど、現代のビジョンシステムでさえも弱めている。 両データセットのベンチマーク性能を最先端モデルを用いて評価する。 オフザシェルフモデルはトランスファーが悪く、テキストスポッティングでは15%のエンドツーエンド(E2E)F1スコア、ReIDでは33%のランク1精度に達した。 微調整は大幅に改善され、E2Eテキストスポッティングでは53%のF1スコア、ReIDでは79%のランク1の精度でモデル性能が向上するが、それでも性能は良くない。 ドメインターゲット技術を必要とする実世界のOCRとReIDのオープンな問題を明らかにする。 これらのデータセットとモデル制限の分析により、泥や複雑なポーズといった現実世界の状況を扱うイノベーションを促進し、堅牢なコンピュータビジョンの進歩を促進することを目指している。 全てのデータは、プロのモータースポーツ写真家、レーサー、ファンが使用するウェブサイトであるPerformancePhoto.coから得られた。 最高のパフォーマンスのテキストスポッティングとReIDモデルは、リアルタイムのレース写真検索に使用される。

Despite significant progress in optical character recognition (OCR) and computer vision systems, robustly recognizing text and identifying people in images taken in unconstrained \emph{in-the-wild} environments remain an ongoing challenge. However, such obstacles must be overcome in practical applications of vision systems, such as identifying racers in photos taken during off-road racing events. To this end, we introduce two new challenging real-world datasets - the off-road motorcycle Racer Number Dataset (RND) and the Muddy Racer re-iDentification Dataset (MUDD) - to highlight the shortcomings of current methods and drive advances in OCR and person re-identification (ReID) under extreme conditions. These two datasets feature over 6,300 images taken during off-road competitions which exhibit a variety of factors that undermine even modern vision systems, namely mud, complex poses, and motion blur. We establish benchmark performance on both datasets using state-of-the-art models. Off-the-shelf models transfer poorly, reaching only 15% end-to-end (E2E) F1 score on text spotting, and 33% rank-1 accuracy on ReID. Fine-tuning yields major improvements, bringing model performance to 53% F1 score for E2E text spotting and 79% rank-1 accuracy on ReID, but still falls short of good performance. Our analysis exposes open problems in real-world OCR and ReID that necessitate domain-targeted techniques. With these datasets and analysis of model limitations, we aim to foster innovations in handling real-world conditions like mud and complex poses to drive progress in robust computer vision. All data was sourced from PerformancePhoto.co, a website used by professional motorsports photographers, racers, and fans. The top-performing text spotting and ReID models are deployed on this platform to power real-time race photo search.
翻訳日:2024-02-14 17:42:25 公開日:2024-02-12
# ugmae:グラフマスクオートエンコーダのための統一フレームワーク

UGMAE: A Unified Framework for Graph Masked Autoencoders ( http://arxiv.org/abs/2402.08023v1 )

ライセンス: Link先を確認
Yijun Tian, Chuxu Zhang, Ziyi Kou, Zheyuan Liu, Xiangliang Zhang, Nitesh V. Chawla(参考訳) グラフ上の生成的自己教師型学習、特にグラフマスク付きオートエンコーダは、一般的な学習パラダイムとして現れ、非ユークリッドデータを扱う上での有効性を示した。 しかし、残っているいくつかの問題は既存のメソッドの能力を制限する。 1)マスキングにおける不均一ノードの重要性の無視 2) 全体性グラフ情報の未利用化 3)出力空間における再構成損失の排他的利用による表現空間の意味知識の無知,及び 4) マスキングコンテンツの大量発生による不安定な再構築。 そこで我々は,これらの問題に適応性,整合性,相補性,整合性の観点から対処するための,グラフマスク付きオートエンコーダの統一フレームワークであるUGMAEを提案する。 具体的には,ノードとサンプル情報マスク(適応性)のユニークな意義を考慮した適応型特徴マスク生成器を開発した。 次に,特徴再構成を併用したランキングベース構造再構築目標関節を設計し,全体性グラフ情報を捕捉し,隣人間の位相的近接性(積分性)を強調する。 その後、表現空間における高レベル意味知識をエンコードするブートストラップベースの類似性モジュールを提示し、出力空間における低レベル再構成(補完性)を補完する。 最後に、さらに安定化した一貫性目標(一貫性)を持つ再構築目標を提供するための一貫性保証モジュールを構築する。 広範な実験により、ugmaeは複数のデータセットにまたがる複数のタスクのコントラストベースラインとジェネレーティブな最先端ベースラインの両方よりも優れていることが示されている。

Generative self-supervised learning on graphs, particularly graph masked autoencoders, has emerged as a popular learning paradigm and demonstrated its efficacy in handling non-Euclidean data. However, several remaining issues limit the capability of existing methods: 1) the disregard of uneven node significance in masking, 2) the underutilization of holistic graph information, 3) the ignorance of semantic knowledge in the representation space due to the exclusive use of reconstruction loss in the output space, and 4) the unstable reconstructions caused by the large volume of masked contents. In light of this, we propose UGMAE, a unified framework for graph masked autoencoders to address these issues from the perspectives of adaptivity, integrity, complementarity, and consistency. Specifically, we first develop an adaptive feature mask generator to account for the unique significance of nodes and sample informative masks (adaptivity). We then design a ranking-based structure reconstruction objective joint with feature reconstruction to capture holistic graph information and emphasize the topological proximity between neighbors (integrity). After that, we present a bootstrapping-based similarity module to encode the high-level semantic knowledge in the representation space, complementary to the low-level reconstruction in the output space (complementarity). Finally, we build a consistency assurance module to provide reconstruction objectives with extra stabilized consistency targets (consistency). Extensive experiments demonstrate that UGMAE outperforms both contrastive and generative state-of-the-art baselines on several tasks across multiple datasets.
翻訳日:2024-02-14 17:41:49 公開日:2024-02-12
# 大規模無線ネットワークにおけるQ-Learningの活用

Leveraging Digital Cousins for Ensemble Q-Learning in Large-Scale Wireless Networks ( http://arxiv.org/abs/2402.08022v1 )

ライセンス: Link先を確認
Talha Bozkus, Urbashi Mitra(参考訳) 最適な資源管理、電力割り当て、スループットの最大化を含む大規模無線ネットワークの最適化は、観測不能なシステムダイナミクスと不均一で複雑な性質のために本質的に困難である。 ここでは、無線ネットワークを最適化するための従来のQ学習アルゴリズムの性能と複雑さに対処する新しいアンサンブルQ学習アルゴリズムを提案する。 合成マルコフ決定プロセスを用いたアンサンブル学習は、大局的な観測可能な無線ネットワークを近似する新しいモデルを介して無線ネットワークに適合する。 特に、デジタル従兄弟は、複数の合成マルコフ環境上の複数のQ-ラーニングアルゴリズムを並列に実行し、その出力を単一のQ-関数に融合する従来のデジタルツインの概念の拡張として提案されている。 重要な統計値とQ-関数の収束解析と、推定バイアスと分散に対する上限の導出を行う。 実世界の無線ネットワークにまたがる数値的な結果から,提案アルゴリズムは,最先端の強化学習アルゴリズムよりも実行時複雑性が最大40%少ない平均的ポリシー誤差を最大50%低減できることがわかった。 また, 理論結果は実験結果の傾向を適切に予測することを示した。

Optimizing large-scale wireless networks, including optimal resource management, power allocation, and throughput maximization, is inherently challenging due to their non-observable system dynamics and heterogeneous and complex nature. Herein, a novel ensemble Q-learning algorithm that addresses the performance and complexity challenges of the traditional Q-learning algorithm for optimizing wireless networks is presented. Ensemble learning with synthetic Markov Decision Processes is tailored to wireless networks via new models for approximating large state-space observable wireless networks. In particular, digital cousins are proposed as an extension of the traditional digital twin concept wherein multiple Q-learning algorithms on multiple synthetic Markovian environments are run in parallel and their outputs are fused into a single Q-function. Convergence analyses of key statistics and Q-functions and derivations of upper bounds on the estimation bias and variance are provided. Numerical results across a variety of real-world wireless networks show that the proposed algorithm can achieve up to 50% less average policy error with up to 40% less runtime complexity than the state-of-the-art reinforcement learning algorithms. It is also shown that theoretical results properly predict trends in the experimental results.
翻訳日:2024-02-14 17:41:26 公開日:2024-02-12
# 不注意なwhisper: 音声からテキストへの幻覚のハーム

Careless Whisper: Speech-to-Text Hallucination Harms ( http://arxiv.org/abs/2402.08021v1 )

ライセンス: Link先を確認
Allison Koenecke, Anna Seo Gyeong Choi, Katelyn Mei, Hilke Schellmann, Mona Sloane(参考訳) 音声テキストサービスは、入力音声をできるだけ正確に書き起こすことを目的としている。 彼らは日々の生活、例えばパーソナル・ボイス・アシスタントやカスタマー・コンパニオン・インタラクションでの役割を担っている。 私たちは、業界を上回っている最先端のサービスであるopen aiのwhisperを評価します。 ウィスラーの書き起こしの多くは極めて正確であったが、音声の書き起こしの約1%は幻覚的な句や文全体を含んでおり、基礎となる音声にはいかなる形態も存在しなかった。 われわれはWhisperによるコンテンツを数学的に分析し、幻覚の38%には暴力、個人情報の作成、偽ビデオベースの権威などの明確な害が含まれていることを発見した。 さらに, 幻覚がなぜ起こるのかという仮説を提示し, 健康状態による発話タイプによる潜在的な差異を明らかにする。 我々は,これらの言語モデルに基づく幻覚をささやき声で改善し,下流の音声からテキストへのモデルの応用における潜在的なバイアスに対する認識を高めるよう,業界実践者に呼びかける。

Speech-to-text services aim to transcribe input audio as accurately as possible. They increasingly play a role in everyday life, for example in personal voice assistants or in customer-company interactions. We evaluate Open AI's Whisper, a state-of-the-art service outperforming industry competitors. While many of Whisper's transcriptions were highly accurate, we found that roughly 1% of audio transcriptions contained entire hallucinated phrases or sentences, which did not exist in any form in the underlying audio. We thematically analyze the Whisper-hallucinated content, finding that 38% of hallucinations include explicit harms such as violence, made up personal information, or false video-based authority. We further provide hypotheses on why hallucinations occur, uncovering potential disparities due to speech type by health status. We call on industry practitioners to ameliorate these language-model-based hallucinations in Whisper, and to raise awareness of potential biases in downstream applications of speech-to-text models.
翻訳日:2024-02-14 17:41:08 公開日:2024-02-12
# 拡散生成モデルにおける最近近傍スコア推定器

Nearest Neighbour Score Estimators for Diffusion Generative Models ( http://arxiv.org/abs/2402.08018v1 )

ライセンス: Link先を確認
Matthew Niedoba, Dylan Green, Saeid Naderiparizi, Vasileios Lioutas, Jonathan Wilder Lavington, Xiaoxuan Liang, Yunpeng Liu, Ke Zhang, Setareh Dabiri, Adam \'Scibior, Berend Zwartsenberg, Frank Wood(参考訳) スコア関数推定は拡散生成モデルからのトレーニングとサンプリングの両方の基礎となる。 この事実にもかかわらず、最もよく使われる推定器は、バイアス付きニューラルネットワーク近似または条件スコアに基づく高分散モンテカルロ推定器である。 トレーニングセットから複数のサンプルを用いて推定値の分散を劇的に低減する新しい近接スコア関数推定器を提案する。 低分散推定器を2つの説得力のある応用に活用する。 推定器による整合性モデルの訓練を行い, 収束速度と試料品質の両面で有意な増加が報告された。 拡散モデルでは,確率フローODE統合のための学習ネットワークを置き換えることが可能であり,将来的な研究の新たな道が開かれる。

Score function estimation is the cornerstone of both training and sampling from diffusion generative models. Despite this fact, the most commonly used estimators are either biased neural network approximations or high variance Monte Carlo estimators based on the conditional score. We introduce a novel nearest neighbour score function estimator which utilizes multiple samples from the training set to dramatically decrease estimator variance. We leverage our low variance estimator in two compelling applications. Training consistency models with our estimator, we report a significant increase in both convergence speed and sample quality. In diffusion models, we show that our estimator can replace a learned network for probability-flow ODE integration, opening promising new avenues of future research.
翻訳日:2024-02-14 17:40:50 公開日:2024-02-12
# Lumos : シーンテキスト認識によるマルチモーダルLLMの活用

Lumos : Empowering Multimodal LLMs with Scene Text Recognition ( http://arxiv.org/abs/2402.08017v1 )

ライセンス: Link先を確認
Ashish Shenoy, Yichao Lu, Srihari Jayakumar, Debojeet Chatterjee, Mohsen Moslehpour, Pierce Chuang, Abhay Harpale, Vikas Bhardwaj, Di Xu, Shicong Zhao, Longfang Zhao, Ankit Ramchandani, Xin Luna Dong, Anuj Kumar(参考訳) 本稿では,テキスト理解機能を備えたマルチモーダル質問応答システムLumosを紹介する。 LumosのコアとなるのはScene Text Recognition (STR)コンポーネントで、一対一の視点画像からテキストを抽出し、その出力はマルチモーダル大言語モデル(MM-LLM)への入力を増やすのに使用される。 Lumosの開発中に、STRの品質、全体的なレイテンシ、モデル推論に関する多くの課題に直面しました。 本稿では,これらの課題を掘り下げ,これらの障害を克服するためのシステムアーキテクチャ,設計選択,モデリング技術について議論する。 また,各コンポーネントについて総合的な評価を行い,高品質と効率性を示す。

We introduce Lumos, the first end-to-end multimodal question-answering system with text understanding capabilities. At the core of Lumos is a Scene Text Recognition (STR) component that extracts text from first person point-of-view images, the output of which is used to augment input to a Multimodal Large Language Model (MM-LLM). While building Lumos, we encountered numerous challenges related to STR quality, overall latency, and model inference. In this paper, we delve into those challenges, and discuss the system architecture, design choices, and modeling techniques employed to overcome these obstacles. We also provide a comprehensive evaluation for each component, showcasing high quality and efficiency.
翻訳日:2024-02-14 17:40:39 公開日:2024-02-12
# Amharic-LLaMAの強化:タスク特化および生成データセットの統合

Enhancing Amharic-LLaMA: Integrating Task Specific and Generative Datasets ( http://arxiv.org/abs/2402.08015v1 )

ライセンス: Link先を確認
Israel Abebe Azime, Mitiku Yohannes Fuge, Atnafu Lambebo Tonja, Tadesse Destaw Belay, Aman Kassahun Wassie, Eyasu Shiferaw Jada, Yonas Chanie, Walelign Tewabe Sewunetie, Seid Muhie Yimam(参考訳) 大規模言語モデル (LLM) は自然言語処理 (NLP) 研究において、人間の言語を理解・生成する上での卓越した性能のため、多くの注目を集めている。 しかし、リソースが使えないため、低リソース言語は残されている。 本研究では,Amharicの言語モデル性能を向上させるために,タスク固有および生成データセットを統合することで,LLaMA-2-Amharicモデルの強化に焦点を当てる。 我々はAmharic命令の微調整データセットとLLaMA-2-Amharicモデルをコンパイルする。 微調整モデルは異なるNLPタスクにおいて有望な結果を示す。 データセット作成パイプライン、命令データセット、トレーニングされたモデル、評価出力をオープンソースにして、これらのモデルに関する言語固有の研究を促進する。

Large language models (LLMs) have received a lot of attention in natural language processing (NLP) research because of their exceptional performance in understanding and generating human languages. However, low-resource languages are left behind due to the unavailability of resources. In this work, we focus on enhancing the LLaMA-2-Amharic model by integrating task-specific and generative datasets to improve language model performance for Amharic. We compile an Amharic instruction fine-tuning dataset and fine-tuned LLaMA-2-Amharic model. The fine-tuned model shows promising results in different NLP tasks. We open-source our dataset creation pipeline, instruction datasets, trained models, and evaluation outputs to promote language-specific studies on these models.
翻訳日:2024-02-14 17:40:27 公開日:2024-02-12
# オンライン微分プライベート合成データ生成

Online Differentially Private Synthetic Data Generation ( http://arxiv.org/abs/2402.08012v1 )

ライセンス: Link先を確認
Yiyun He, Roman Vershynin, Yizhe Zhu(参考訳) オンライン微分プライベート合成データ生成のための多項式時間アルゴリズムを提案する。 ハイパーキューブの$[0,1]^d$と無限の時間軸内のデータストリームに対して、各時刻に差動的にプライベートな合成データセットを生成するオンラインアルゴリズムを開発した。 このアルゴリズムは、$O(t^{-1/d}\log(t))$ for $d\geq 2$ and $O(t^{-1}\log^{4.5}(t))$ for $d=1$ in the 1-Wasserstein distanceである。 この結果は、Lipschitzクエリを含むクエリをカウントする継続リリースモデルに関する以前の作業を一般化する。 データセット全体が一度に利用可能となるオフラインの場合と比較して、我々のアプローチは精度境界に追加のポリログ係数しか必要としない。

We present a polynomial-time algorithm for online differentially private synthetic data generation. For a data stream within the hypercube $[0,1]^d$ and an infinite time horizon, we develop an online algorithm that generates a differentially private synthetic dataset at each time $t$. This algorithm achieves a near-optimal accuracy bound of $O(t^{-1/d}\log(t))$ for $d\geq 2$ and $O(t^{-1}\log^{4.5}(t))$ for $d=1$ in the 1-Wasserstein distance. This result generalizes the previous work on the continual release model for counting queries to include Lipschitz queries. Compared to the offline case, where the entire dataset is available at once, our approach requires only an extra polylog factor in the accuracy bound.
翻訳日:2024-02-14 17:40:15 公開日:2024-02-12
# 木遺伝プログラミングにおける現象型の性質について

On The Nature Of The Phenotype In Tree Genetic Programming ( http://arxiv.org/abs/2402.08011v1 )

ライセンス: Link先を確認
Wolfgang Banzhaf, Illya Bakurov(参考訳) 本稿では,ツリーベースGP(TGP)における遺伝子型と表現型の基本概念について考察し,その挙動を5つのベンチマークデータセットを用いて解析する。 TGPは、他のGP表現で観察できるのと同じ挙動を示す: 遺伝子型レベルでは、非効率なコードでしばしばチェックされていない成長を示すが、表現型レベルでは、はるかに小さな木が観察できる。 表現型を生成するために,GP木から意味的に非効率なコードを取り除くユニークな手法を提案する。 このアプローチは、遺伝子型の局所操作に限らず、かなり単純な表現型を抽出する。 この変換を問題非依存パラメータに基づいて一般化し, 粗粒化により, 厳密な表現型をさらに単純化し, 近似表現型を生成する。 これらの表現型の概念は、進化した解が真に予測するものを明確にし、表現型レベルで考慮されたGPモデルをずっとよく解釈できる。

In this contribution, we discuss the basic concepts of genotypes and phenotypes in tree-based GP (TGP), and then analyze their behavior using five benchmark datasets. We show that TGP exhibits the same behavior that we can observe in other GP representations: At the genotypic level trees show frequently unchecked growth with seemingly ineffective code, but on the phenotypic level, much smaller trees can be observed. To generate phenotypes, we provide a unique technique for removing semantically ineffective code from GP trees. The approach extracts considerably simpler phenotypes while not being limited to local operations in the genotype. We generalize this transformation based on a problem-independent parameter that enables a further simplification of the exact phenotype by coarse-graining to produce approximate phenotypes. The concept of these phenotypes (exact and approximate) allows us to clarify what evolved solutions truly predict, making GP models considered at the phenotypic level much better interpretable.
翻訳日:2024-02-14 17:39:56 公開日:2024-02-12
# ニューラルコントラクトダイナミクスの学習:拡張線形化とグローバル保証

Learning Neural Contracting Dynamics: Extended Linearization and Global Guarantees ( http://arxiv.org/abs/2402.08090v1 )

ライセンス: Link先を確認
Sean Jaffe and Alexander Davydov and Deniz Lapsekili and Ambuj singh and Francesco Bullo(参考訳) 学習力学系における大域的安定性とロバスト性保証は、不確実性に直面したシステムの健全性を保証するために不可欠である。 拡張線形化契約力学(ELCD)は,グローバルな契約性を保証するニューラルネットワークベースの力学系である。 ELCDの鍵となる特徴は、非線形ベクトル場の拡張線型化のパラメトリゼーションである。 最も基本的な形では、ELCDは保証される (i)グローバルに指数関数的に安定する (ii)均衡収縮、及び (iii)ある計量に関して世界規模で契約する。 データ空間におけるより一般的なメトリクスに対する縮約を可能にするため、データ空間と潜在空間の間の微分同相を訓練し、潜在空間における縮約を強制し、データ空間における大域的縮約性を保証する。 我々は、elcdのパフォーマンスを$$d、$$$d、$$$d lasaデータセットで実証した。

Global stability and robustness guarantees in learned dynamical systems are essential to ensure well-behavedness of the systems in the face of uncertainty. We present Extended Linearized Contracting Dynamics (ELCD), the first neural network-based dynamical system with global contractivity guarantees in arbitrary metrics. The key feature of ELCD is a parametrization of the extended linearization of the nonlinear vector field. In its most basic form, ELCD is guaranteed to be (i) globally exponentially stable, (ii) equilibrium contracting, and (iii) globally contracting with respect to some metric. To allow for contraction with respect to more general metrics in the data space, we train diffeomorphisms between the data space and a latent space and enforce contractivity in the latent space, which ensures global contractivity in the data space. We demonstrate the performance of ELCD on the $2$D, $4$D, and $8$D LASA datasets.
翻訳日:2024-02-14 17:32:16 公開日:2024-02-12
# 統計的プロセス制御を用いた分布外検出とデータドリフトモニタリング

Out-of-Distribution Detection and Data Drift Monitoring using Statistical Process Control ( http://arxiv.org/abs/2402.08088v1 )

ライセンス: Link先を確認
Ghada Zamzmi, Kesavan Venkatesh, Brandon Nelson, Smriti Prathapan, Paul H. Yi, Berkman Sahiner, and Jana G. Delfino(参考訳) 背景: マシンラーニング(ml)メソッドは、トレーニング分布から逸脱したデータで失敗することが多い。 これは、データドリフトが患者の安全を損なう予期せぬパフォーマンスを引き起こす可能性がある臨床環境でML対応デバイスにとって重要な懸念である。 方法: オフ・オブ・ディストリビューション(OOD)検出とドリフトモニタリングのためのML対応統計処理制御(SPC)フレームワークを提案する。 SPCは、視覚的かつ統計的に、期待される分布からの逸脱を強調しているため、有利である。 放射線画像中のデータドリフトを監視するためのフレームワークの有用性を実証するため,特徴表現抽出法,ドリフト定量化法,spcパラメータ選択法など,異なる設計選択法を検討した。 結果:2つの課題に対するフレームワークの有効性を示す。 1)軸方向ct画像と非軸方向ct画像の鑑別 2)胸部X線(CXR)を他の形態から分離する。 どちらのタスクにおいても, ood入力の検出精度は高く, ct 0.913, cxr 0.995, ct 0.980, cxr 0.984。 当社のフレームワークは、データストリームの監視や、ドリフトの発生時期の特定にも適していました。 CXR100例を対象に,2日以内にOOD入力率0-1%から3-5%のドリフトが検出され,偽陽性率は低かった。 さらなる実験結果を通じて、基礎となるモデルの構造からのデータ非依存な性質と独立性を示す。 結論:我々は,データやモダリティ,モデルに依存しないood検出とドリフト監視のためのフレームワークを提案する。 フレームワークはカスタマイズ可能で、特定のアプリケーションに適応できる。

Background: Machine learning (ML) methods often fail with data that deviates from their training distribution. This is a significant concern for ML-enabled devices in clinical settings, where data drift may cause unexpected performance that jeopardizes patient safety. Method: We propose a ML-enabled Statistical Process Control (SPC) framework for out-of-distribution (OOD) detection and drift monitoring. SPC is advantageous as it visually and statistically highlights deviations from the expected distribution. To demonstrate the utility of the proposed framework for monitoring data drift in radiological images, we investigated different design choices, including methods for extracting feature representations, drift quantification, and SPC parameter selection. Results: We demonstrate the effectiveness of our framework for two tasks: 1) differentiating axial vs. non-axial computed tomography (CT) images and 2) separating chest x-ray (CXR) from other modalities. For both tasks, we achieved high accuracy in detecting OOD inputs, with 0.913 in CT and 0.995 in CXR, and sensitivity of 0.980 in CT and 0.984 in CXR. Our framework was also adept at monitoring data streams and identifying the time a drift occurred. In a simulation with 100 daily CXR cases, we detected a drift in OOD input percentage from 0-1% to 3-5% within two days, maintaining a low false-positive rate. Through additional experimental results, we demonstrate the framework's data-agnostic nature and independence from the underlying model's structure. Conclusion: We propose a framework for OOD detection and drift monitoring that is agnostic to data, modality, and model. The framework is customizable and can be adapted for specific applications.
翻訳日:2024-02-14 17:32:03 公開日:2024-02-12
# マルチモダリティ学習のためのテキスト中心アライメント

Text-centric Alignment for Multi-Modality Learning ( http://arxiv.org/abs/2402.08086v1 )

ライセンス: Link先を確認
Yun-Da Tsai, Ting-Yu Yen, Pei-Fu Guo, Zhe-Yan Li, Shou-De Lin(参考訳) 本研究では,マルチモーダル学習におけるモダリティミスマッチの課題について考察する。 本稿では,マルチモダリティ学習 (tamml) のためのテキスト中心アライメントを提案する。このアプローチは,大規模言語モデル (llms) とコンテキスト内学習,基礎モデルを用いて,マルチモダリティシステムの一般化可能性を高める革新的な手法である。 テキストのユニークな性質を統一意味空間として活用することにより、TAMMLは目に見えない、多様性があり、予測不可能なモダリティの組み合わせを扱う上で、大幅な改善を示す。 TAMMLは様々なモダリティに適応するだけでなく、堅牢なパフォーマンスも維持し、埋め込み表現における従来の固定モードフレームワークの限界を克服する基礎モデルの可能性を示している。 この研究は、モダリティの可用性が動的で不確実である現実のアプリケーションに対して、柔軟で効果的なソリューションを提供することによって、この分野に貢献する。

This research paper addresses the challenge of modality mismatch in multimodal learning, where the modalities available during inference differ from those available at training. We propose the Text-centric Alignment for Multi-Modality Learning (TAMML) approach, an innovative method that utilizes Large Language Models (LLMs) with in-context learning and foundation models to enhance the generalizability of multimodal systems under these conditions. By leveraging the unique properties of text as a unified semantic space, TAMML demonstrates significant improvements in handling unseen, diverse, and unpredictable modality combinations. TAMML not only adapts to varying modalities but also maintains robust performance, showcasing the potential of foundation models in overcoming the limitations of traditional fixed-modality frameworks in embedding representations. This study contributes to the field by offering a flexible, effective solution for real-world applications where modality availability is dynamic and uncertain.
翻訳日:2024-02-14 17:31:34 公開日:2024-02-12
# メッセージデトリング:表現力のあるグラフ学習のためのシンプルで効果的なサイクル表現

Message Detouring: A Simple Yet Effective Cycle Representation for Expressive Graph Learning ( http://arxiv.org/abs/2402.08085v1 )

ライセンス: Link先を確認
Ziquan Wei, Tingting Dan, Guorong Wu(参考訳) グラフ学習は、バイオインフォマティクス、ソーシャルネットワーク、化学物質の分野で重要である。 周期のような高次グラフレットは、ノード分類、エッジ予測、グラフ認識のための情報グラフ表現を達成するために重要であるが、高次トポロジ特性のモデリングは、機械学習におけるその広範な応用を制限する重要な計算課題を生じさせる。 この制限に対処するために、各グラフノードに関連付けられた様々な局所トポロジ内の最短経路と最長経路のコントラストを生かした、グラフ全体のサイクル表現を階層的に特徴付けるための \textit{message detouring}の概念を導入する。 我々のメッセージデトゥーリングランドスケープから導かれるトポロジカル特徴表現は、高次 \textit{Weisfeiler-Lehman} (WL) テストに匹敵する表現力を示すが、計算要求ははるかに少ない。 本稿では,グラフカーネルとメッセージパッシングニューラルネットワークとの統合に加えて,トランスフォーマーバックボーンを使用してノードとエッジ間のサイクル表現を統合する,新たなメッセージデトリングニューラルネットワークを提案する。 理論的な結果とは別に、表現性、グラフ分類、ノード分類の実験結果は、様々なベンチマークデータセットの現在のアプローチを大きく上回る可能性があることを示している。

Graph learning is crucial in the fields of bioinformatics, social networks, and chemicals. Although high-order graphlets, such as cycles, are critical to achieving an informative graph representation for node classification, edge prediction, and graph recognition, modeling high-order topological characteristics poses significant computational challenges, restricting its widespread applications in machine learning. To address this limitation, we introduce the concept of \textit{message detouring} to hierarchically characterize cycle representation throughout the entire graph, which capitalizes on the contrast between the shortest and longest pathways within a range of local topologies associated with each graph node. The topological feature representations derived from our message detouring landscape demonstrate comparable expressive power to high-order \textit{Weisfeiler-Lehman} (WL) tests but much less computational demands. In addition to the integration with graph kernel and message passing neural networks, we present a novel message detouring neural network, which uses Transformer backbone to integrate cycle representations across nodes and edges. Aside from theoretical results, experimental results on expressiveness, graph classification, and node classification show message detouring can significantly outperform current counterpart approaches on various benchmark datasets.
翻訳日:2024-02-14 17:31:15 公開日:2024-02-12
# スコアベース生成モデルによる部分ガウス確率分布の族学習における次元の呪いを破る

Score-based generative models break the curse of dimensionality in learning a family of sub-Gaussian probability distributions ( http://arxiv.org/abs/2402.08082v1 )

ライセンス: Link先を確認
Frank Cole, Yulong Lu(参考訳) スコアベース生成モデル(SGM)は膨大な画像生成タスクにおいて大きな成功を収めてきたが、その数学的基礎はまだ限られている。 本稿では,sgmの近似と一般化を,サブガウジアン確率分布の族を学習するために解析する。 標準ガウス測度に対する相対密度の観点から、確率分布の複雑性の概念を導入する。 パラメータが適切に有界なニューラルネットワークによって対数相対密度を局所的に近似できるなら、経験的スコアマッチングによって生成された分布は、全分布を次元非依存の速度で近似する。 ガウスのある種の混合を含む例を通して、我々の理論を説明する。 本証明の必須成分は、フォワード過程に関連する真のスコア関数に対する次元自由深層ニューラルネットワーク近似率を導出することであり、それ自体は興味深い。

While score-based generative models (SGMs) have achieved remarkable success in enormous image generation tasks, their mathematical foundations are still limited. In this paper, we analyze the approximation and generalization of SGMs in learning a family of sub-Gaussian probability distributions. We introduce a notion of complexity for probability distributions in terms of their relative density with respect to the standard Gaussian measure. We prove that if the log-relative density can be locally approximated by a neural network whose parameters can be suitably bounded, then the distribution generated by empirical score matching approximates the target distribution in total variation with a dimension-independent rate. We illustrate our theory through examples, which include certain mixtures of Gaussians. An essential ingredient of our proof is to derive a dimension-free deep neural network approximation rate for the true score function associated with the forward process, which is interesting in its own right.
翻訳日:2024-02-14 17:30:48 公開日:2024-02-12
# 2人プレイゲームにおけるエージェントとしての大規模言語モデル

Large Language Models as Agents in Two-Player Games ( http://arxiv.org/abs/2402.08078v1 )

ライセンス: Link先を確認
Yang Liu, Peng Sun, Hang Li(参考訳) 通常、人間のフィードバックによる事前学習、微調整、強化学習を含む大規模言語モデル(LLM)のトレーニングプロセスを、単一かつ統一された機械学習パラダイム内で正式に定義することにより、LLM技術の進歩において重要な洞察を導き出すことができる。 本研究は,ゲーム理論,強化学習,マルチエージェントシステムなどにおいて,llmの訓練方法と,2人プレイゲームにおけるエージェント開発戦略の類似性を明らかにするものである。 本稿では,言語ゲームにおけるエージェント学習の観点から,LLM学習プロセスの再概念化を提案する。 このフレームワークは、llm開発の成功と課題に関する革新的な視点を明らかにし、他の戦略的考慮事項の中でアライメント問題に対処する新しい理解を提供する。 さらに,LLMの学習のための新しいデータ準備と機械学習技術に光を当てている。

By formally defining the training processes of large language models (LLMs), which usually encompasses pre-training, supervised fine-tuning, and reinforcement learning with human feedback, within a single and unified machine learning paradigm, we can glean pivotal insights for advancing LLM technologies. This position paper delineates the parallels between the training methods of LLMs and the strategies employed for the development of agents in two-player games, as studied in game theory, reinforcement learning, and multi-agent systems. We propose a re-conceptualization of LLM learning processes in terms of agent learning in language-based games. This framework unveils innovative perspectives on the successes and challenges in LLM development, offering a fresh understanding of addressing alignment issues among other strategic considerations. Furthermore, our two-player game approach sheds light on novel data preparation and machine learning techniques for training LLMs.
翻訳日:2024-02-14 17:30:33 公開日:2024-02-12
# ジェネレーティブモデリングのためのカーネルとの拡散型計測

Diffeomorphic Measure Matching with Kernels for Generative Modeling ( http://arxiv.org/abs/2402.08077v1 )

ライセンス: Link先を確認
Biraj Pandey, Bamdad Hosseini, Pau Batlle, and Houman Owhadi(参考訳) 本稿では,正規微分方程式 (odes) と再生成核ヒルベルト空間 (rkhss) を用いた最小発散生成モデリングおよびサンプリングへの確率測度の移動に関する一般的な枠組みについて述べる。 提案手法の理論的解析を行い,モデルの複雑さ,トレーニングセット内のサンプル数,モデルの誤識別という観点から,事前誤差境界を与える。 広範な数値実験は、この手法の特性、強度、弱点をさらに強調し、条件付きシミュレーションや推論など他のタスクにも適用性を広げている。

This article presents a general framework for the transport of probability measures towards minimum divergence generative modeling and sampling using ordinary differential equations (ODEs) and Reproducing Kernel Hilbert Spaces (RKHSs), inspired by ideas from diffeomorphic matching and image registration. A theoretical analysis of the proposed method is presented, giving a priori error bounds in terms of the complexity of the model, the number of samples in the training set, and model misspecification. An extensive suite of numerical experiments further highlights the properties, strengths, and weaknesses of the method and extends its applicability to other tasks, such as conditional simulation and inference.
翻訳日:2024-02-14 17:30:19 公開日:2024-02-12
# ゲノム理解のための効率的かつスケーラブルな言語モデル

Efficient and Scalable Fine-Tune of Language Models for Genome Understanding ( http://arxiv.org/abs/2402.08075v1 )

ライセンス: Link先を確認
Huixin Zhan, Ying Nian Wu, Zijun Zhang(参考訳) DNA基盤モデルはゲノムの理解を深めてきたが、ゲノムデータの限られた規模と多様性において大きな課題に直面している。 この制限は、かなり大きなスケールで成長する自然言語基盤モデルの成功と非常に対照的である。 さらに、ゲノム理解には、固有のデータ不均一性を伴う下流ゲノムアノテーションタスクが多数含まれており、ゲノム学に適したより効率的で堅牢な微調整方法が必要である。 ここでは、 \textsc{Lingo}: \textsc{L}anguage prefix f\textsc{In}e-tuning for \textsc{G}en\textsc{O}mesを示す。 DNA基盤モデルとは異なり、textsc{Lingo} は自然言語基盤モデルの文脈的手がかりを戦略的に活用し、言語知識をゲノム配列に再分類する。 \textsc{Lingo} はさらに、小さな計算予算内でプルーンと確率的に特異ベクトルを再帰する適応的なランクサンプリング法により、多くの不均一な下流細管タスクを許容する。 アダプティブなランクサンプリングは、全14のゲノム理解タスクにおいて既存の微調整方法よりも優れ、ゲノム特異的なアダプタとしてトレーニング可能なパラメータの2\%未満を必要とした。 印象的なことに、これらのアダプタを自然言語基盤モデルに適用することは、DNA基盤モデルの性能と一致または超えた。 \textsc{Lingo} は、ゲノム特異的な言語モデル上のアダプタを通して、効率的でスケーラブルなゲノム理解の新しいパラダイムを提示する。

Although DNA foundation models have advanced the understanding of genomes, they still face significant challenges in the limited scale and diversity of genomic data. This limitation starkly contrasts with the success of natural language foundation models, which thrive on substantially larger scales. Furthermore, genome understanding involves numerous downstream genome annotation tasks with inherent data heterogeneity, thereby necessitating more efficient and robust fine-tuning methods tailored for genomics. Here, we present \textsc{Lingo}: \textsc{L}anguage prefix f\textsc{In}e-tuning for \textsc{G}en\textsc{O}mes. Unlike DNA foundation models, \textsc{Lingo} strategically leverages natural language foundation models' contextual cues, recalibrating their linguistic knowledge to genomic sequences. \textsc{Lingo} further accommodates numerous, heterogeneous downstream fine-tune tasks by an adaptive rank sampling method that prunes and stochastically reintroduces pruned singular vectors within small computational budgets. Adaptive rank sampling outperformed existing fine-tuning methods on all benchmarked 14 genome understanding tasks, while requiring fewer than 2\% of trainable parameters as genomic-specific adapters. Impressively, applying these adapters on natural language foundation models matched or even exceeded the performance of DNA foundation models. \textsc{Lingo} presents a new paradigm of efficient and scalable genome understanding via genomic-specific adapters on language models.
翻訳日:2024-02-14 17:30:06 公開日:2024-02-12
# 入出力仕様を用いたデータサイエンスコード生成のグラウンド化

Grounding Data Science Code Generation with Input-Output Specifications ( http://arxiv.org/abs/2402.08073v1 )

ライセンス: Link先を確認
Yeming Wen, Pengcheng Yin, Kensen Shi, Henryk Michalewski, Swarat Chaudhuri, Alex Polozov(参考訳) 大規模言語モデル(LLM)は、最近、自然言語(NL)プロンプトからコードを生成する驚くべき能力を示した。 しかし、現実世界では、NLは曖昧すぎてプログラミング問題の背後にある真の意図を捉え、追加の入出力(I/O)仕様を必要とすることが多い。 残念ながら、LSMは出力をNLプロンプトとI/O仕様の両方と整合させることが難しい。 本稿では、タスクが明快なI/O仕様を必要とするデータサイエンスプログラミングの文脈において、この問題を緩和する方法を提供する。 具体的には、I/O仕様に対するLLMの微調整のための新しいアプローチであるGIFT4Codeを提案する。 提案手法は, LLM自体が生成する合成データを活用し, 実行からのフィードバックを鍵学習信号として利用する。 このフィードバックは、プログラムI/O仕様の形で、命令の微調整を容易にするためにLLMに提供される。 我々はarcadeとds-1000という2つの挑戦的なデータサイエンスベンチマークでこのアプローチを評価した。 結果は、LCMが実行可能なだけでなく、ユーザ仕様に正確に適合するコードを生成する能力を大幅に改善し、複雑なデータサイエンスタスクにおけるコード生成の品質を大幅に改善したことを示す。

Large language models (LLMs) have recently demonstrated a remarkable ability to generate code from natural language (NL) prompts. However, in the real world, NL is often too ambiguous to capture the true intent behind programming problems, requiring additional input-output (I/O) specifications. Unfortunately, LLMs can have difficulty aligning their outputs with both the NL prompt and the I/O specification. In this paper, we give a way to mitigate this issue in the context of data science programming, where tasks require explicit I/O specifications for clarity. Specifically, we propose GIFT4Code, a novel approach for the instruction fine-tuning of LLMs with respect to I/O specifications. Our method leverages synthetic data produced by the LLM itself and utilizes execution-derived feedback as a key learning signal. This feedback, in the form of program I/O specifications, is provided to the LLM to facilitate instruction fine-tuning. We evaluated our approach on two challenging data science benchmarks, Arcade and DS-1000. The results demonstrate a significant improvement in the LLM's ability to generate code that is not only executable but also accurately aligned with user specifications, substantially improving the quality of code generation for complex data science tasks.
翻訳日:2024-02-14 17:29:38 公開日:2024-02-12
# 多属性視覚トランスフォーマーは効率的でロバストな学習者である

Multi-Attribute Vision Transformers are Efficient and Robust Learners ( http://arxiv.org/abs/2402.08070v1 )

ライセンス: Link先を確認
Hanan Gani and Nada Saadi and Noor Hussein and Karthik Nandakumar(参考訳) ビジョントランスフォーマー(ViT)は、その誕生以来、幅広いタスクにわたる畳み込みニューラルネットワーク(CNN)に代わる魅力的な代替手段として現れてきた。 ViTは、グローバルな注目、閉塞に対するレジリエンス、分散シフトへの適応性など、顕著な特徴を示す。 ViTの未発見の側面は、複数の属性関連タスクを同時に把握する能力に言及して、マルチ属性学習の可能性である。 本稿では,ViTのマルチ属性学習能力について検討し,個別のタスクとして,単一のViTネットワークを通じて様々な属性をトレーニングするための,単純かつ効果的な戦略を提案する。 対戦型攻撃に対する多属性ViTのレジリエンスを評価し,その性能を単一属性に設計したViTと比較した。 さらに,最近のPatch-Fool攻撃に対するマルチ属性ViTのロバスト性についても検討した。 CelebAデータセットに関する実証的な発見は、アサーションの検証を提供します。

Since their inception, Vision Transformers (ViTs) have emerged as a compelling alternative to Convolutional Neural Networks (CNNs) across a wide spectrum of tasks. ViTs exhibit notable characteristics, including global attention, resilience against occlusions, and adaptability to distribution shifts. One underexplored aspect of ViTs is their potential for multi-attribute learning, referring to their ability to simultaneously grasp multiple attribute-related tasks. In this paper, we delve into the multi-attribute learning capability of ViTs, presenting a straightforward yet effective strategy for training various attributes through a single ViT network as distinct tasks. We assess the resilience of multi-attribute ViTs against adversarial attacks and compare their performance against ViTs designed for single attributes. Moreover, we further evaluate the robustness of multi-attribute ViTs against a recent transformer based attack called Patch-Fool. Our empirical findings on the CelebA dataset provide validation for our assertion.
翻訳日:2024-02-14 17:29:19 公開日:2024-02-12
# LLMを超えて - 複雑な推論のランドスケープを促進する

Beyond LLMs: Advancing the Landscape of Complex Reasoning ( http://arxiv.org/abs/2402.08064v1 )

ライセンス: Link先を確認
Jennifer Chu-Carroll, Andrew Beck, Greg Burnham, David OS Melville, David Nachman, A. Erdem \"Ozcan, David Ferrucci(参考訳) 数年前にLarge Language Modelsが登場して以来、多くのAI問題のデファクトソリューションとみなされてきた。 しかし、信頼性、コスト、スピードといった業界で広く採用されるのを防ぐLLMの多くの欠陥に加えて、大規模言語モデルでは制約満足度や最適化の問題が不十分な、一般的な現実世界の問題のクラスが存在する。 これらの問題はユビキタスであり、現在のソリューションは高度に専門的で実装に費用がかかる。 Elemental Cognitionでは、制約満足度と最適化問題を解決するために、ニューロシンボリックアプローチを採用するEC AIプラットフォームを開発しました。 このプラットフォームは、中核として、正確で高性能な論理推論エンジンを採用し、知識獲得とユーザインタラクションにLLMを活用している。 このプラットフォームは、アプリケーションロジックを自然言語と簡潔な言語で指定し、アプリケーションユーザインターフェースを生成してユーザと効果的に対話するのをサポートする。 3つの領域のEC AIプラットフォーム上に構築されたシステムに対してLLMを評価し,有効かつ最適なソリューションの構築,提案されたソリューションの検証,無効なソリューションの修復において,EC AIシステムはLLMを大幅に上回る結果を得た。

Since the advent of Large Language Models a few years ago, they have often been considered the de facto solution for many AI problems. However, in addition to the many deficiencies of LLMs that prevent them from broad industry adoption, such as reliability, cost, and speed, there is a whole class of common real world problems that Large Language Models perform poorly on, namely, constraint satisfaction and optimization problems. These problems are ubiquitous and current solutions are highly specialized and expensive to implement. At Elemental Cognition, we developed our EC AI platform which takes a neuro-symbolic approach to solving constraint satisfaction and optimization problems. The platform employs, at its core, a precise and high performance logical reasoning engine, and leverages LLMs for knowledge acquisition and user interaction. This platform supports developers in specifying application logic in natural and concise language while generating application user interfaces to interact with users effectively. We evaluated LLMs against systems built on the EC AI platform in three domains and found the EC AI systems to significantly outperform LLMs on constructing valid and optimal solutions, on validating proposed solutions, and on repairing invalid solutions.
翻訳日:2024-02-14 17:29:04 公開日:2024-02-12
# ネットワークトラフィックフィンガープリンティングのための局所性センシティブハッシュ

Locality Sensitive Hashing for Network Traffic Fingerprinting ( http://arxiv.org/abs/2402.08063v1 )

ライセンス: Link先を確認
Nowfel Mashnoor, Jay Thom, Abdur Rouf, Shamik Sengupta, Batyr Charyyev(参考訳) IoT(Internet of Things)の出現は、コンピュータネットワークにさらなる複雑さと困難をもたらした。 これらのガジェットは、特にサイバー攻撃の影響を受けやすい。 したがって、ネットワーク管理のためにネットワーク内のこれらのデバイスを認識し、有害な行為を識別することが重要である。 ネットワークトラフィックフィンガープリントは,デバイスを特定し異常を検出する上で重要な技術である。 現在、この方法の主要な方法は機械学習(ML)に大きく依存している。 それでも、機械学習(ML)手法は、ネットワークで検出された概念ドリフトに対するレジリエンスを提供するために、特徴の選択、ハイパーパラメータの調整、モデルの再訓練を必要とする。 本研究では,これらの問題に対する解決策として,LSH(Locality-sensitive hashing)を用いたネットワークトラフィックのフィンガープリントを提案する。 本研究は,Nilsimsa LSH関数の設計オプションについて検討する。 次に、この関数を使用して、デバイス識別に使用できるネットワークデータのユニークな指紋を作成します。 また,MLベースのトラフィックフィンガープリントと比較したところ,ネットワーク内のデバイスを識別する精度が約94%向上し,最先端の精度が12%向上することがわかった。

The advent of the Internet of Things (IoT) has brought forth additional intricacies and difficulties to computer networks. These gadgets are particularly susceptible to cyber-attacks because of their simplistic design. Therefore, it is crucial to recognise these devices inside a network for the purpose of network administration and to identify any harmful actions. Network traffic fingerprinting is a crucial technique for identifying devices and detecting anomalies. Currently, the predominant methods for this depend heavily on machine learning (ML). Nevertheless, machine learning (ML) methods need the selection of features, adjustment of hyperparameters, and retraining of models to attain optimal outcomes and provide resilience to concept drifts detected in a network. In this research, we suggest using locality-sensitive hashing (LSH) for network traffic fingerprinting as a solution to these difficulties. Our study focuses on examining several design options for the Nilsimsa LSH function. We then use this function to create unique fingerprints for network data, which may be used to identify devices. We also compared it with ML-based traffic fingerprinting and observed that our method increases the accuracy of state-of-the-art by 12% achieving around 94% accuracy in identifying devices in a network.
翻訳日:2024-02-14 17:28:42 公開日:2024-02-12
# 助けを求めることで連続空間における災害を避ける

Avoiding Catastrophe in Continuous Spaces by Asking for Help ( http://arxiv.org/abs/2402.08062v1 )

ライセンス: Link先を確認
Benjamin Plaut, Hanlin Zhu, Stuart Russell(参考訳) 公式な後悔の保証を持つ強化学習アルゴリズムの多くは、すべての誤りが可逆であると仮定し、本質的にすべての選択肢を試すことに依存している。 このアプローチは、いくつかのミスが許容できない、あるいは破滅的な結果をもたらす。 そこで本稿では,災害発生の可能性を最小限に抑えることを目的とした,コンテキストバンディット問題の変種を提案する。 具体的には、各ラウンドのペイオフは、そのラウンドのカタストロフィを避けるチャンスを表し、そのラウンドの成果を最大化しようとする(大惨事を避ける全体的な可能性)。 エージェントが成功する確率を与えるため、メンターに対して限られた数のクエリを許容し、リプシッツの継続的な支払い関数を仮定する。 本稿では,連続的な1次元状態空間と比較的「単純な」ペイオフ関数を仮定し,時間軸が成長するにつれてメンターが0に近づくことを後悔するアルゴリズムを提案する。 単純さの前提なしに、任意のアルゴリズムが常にヘルプを要求するか、大惨事を引き起こすようにほぼ保証されています。 最後に,アルゴリズムを多次元状態空間に一般化するための重要な障害を特定する。

Most reinforcement learning algorithms with formal regret guarantees assume all mistakes are reversible and rely on essentially trying all possible options. This approach leads to poor outcomes when some mistakes are irreparable or even catastrophic. We propose a variant of the contextual bandit problem where the goal is to minimize the chance of catastrophe. Specifically, we assume that the payoff each round represents the chance of avoiding catastrophe that round, and try to maximize the product of payoffs (the overall chance of avoiding catastrophe). To give the agent some chance of success, we allow a limited number of queries to a mentor and assume a Lipschitz continuous payoff function. We present an algorithm whose regret and rate of querying the mentor both approach 0 as the time horizon grows, assuming a continuous 1D state space and a relatively "simple" payoff function. We also provide a matching lower bound: without the simplicity assumption: any algorithm either constantly asks for help or is nearly guaranteed to cause catastrophe. Finally, we identify the key obstacle to generalizing our algorithm to a multi-dimensional state space.
翻訳日:2024-02-14 17:28:23 公開日:2024-02-12
# 量子エージェントの情報ゲインと測定障害

Information gain and measurement disturbance for quantum agents ( http://arxiv.org/abs/2402.08060v1 )

ライセンス: Link先を確認
Arthur O. T. Pang, Noah Lupu-Gladstein, Y. Batuhan Yilmaz, Aharon Brodutch, Aephraim M. Steinberg(参考訳) 量子測定の伝統的な形式(以下「TQM」)は、量子状態のいくつかの性質を抽出し、古典的な情報として保存する過程を記述する。 TQMは、人間が量子システムとどのように相互作用するかを自然かつ適切に記述するものであるが、より一般的な量子的エージェントがそれをどのように行うかという質問には沈黙している。 古典的な情報だけでなく、量子状態も記憶する能力を持つ観測者によるシステムの観測を、どのように記述するか。 本稿では,エージェントのメモリが研究中のシステムに関する情報(古典的あるいは量子的)を格納するように,システムと相互作用する量子エージェントのための,より一般的な種類のセンサに測定の考え方を拡張する。 適切な感覚相互作用のために、量子エージェントは、いかなる古典的測定でも可能であろうよりも、系についてより「learn」であるかもしれない。 このようなシステムを実験的に実証し,測定の効果を消去するために必要な情報を考慮してトレードオフを特徴付ける。

The traditional formalism of quantum measurement (hereafter ``TQM'') describes processes where some properties of quantum states are extracted and stored as classical information. While TQM is a natural and appropriate description of how humans interact with quantum systems, it is silent on the question of how a more general, quantum, agent would do so. How do we describe the observation of a system by an observer with the ability to store not only classical information but quantum states in its memory? In this paper, we extend the idea of measurement to a more general class of sensors for quantum agents which interact with a system in such a way that the agent's memory stores information (classical or quantum) about the system under study. For appropriate sensory interactions, the quantum agent may ``learn'' more about the system than would be possible under any set of classical measurements -- but as we show, this comes at the cost of additional measurement disturbance. We experimentally demonstrate such a system and characterize the tradeoffs, which can be done by considering the information required to erase the effects of a measurement.
翻訳日:2024-02-14 17:28:03 公開日:2024-02-12
# ゲームにおける再帰的ジョイントシミュレーション

Recursive Joint Simulation in Games ( http://arxiv.org/abs/2402.08128v1 )

ライセンス: Link先を確認
Vojtech Kovarik, Caspar Oesterheld, Vincent Conitzer(参考訳) AIエージェント間のゲーム理論のダイナミクスは、様々な方法で従来の人間と人間の相互作用とは異なる可能性がある。 そのような違いの1つは、例えばソースコードが知られているため、AIエージェントを正確にシミュレートすることができることである。 我々の目標は、この可能性を活用して、戦略的設定においてより協力的な結果を達成する方法を探ることである。 本稿では,エージェントが再帰的関節シミュレーションを行うAIエージェント間の相互作用について検討する。 つまり、エージェントはまず、彼らが直面する状況のシミュレーションを共同で観察する。 このシミュレーションは再帰的に追加のシミュレーション(小さな失敗の確率で、無限の再帰を避ける)を含み、これらのネストされたシミュレーションの結果は、アクションが選択される前に観察される。 得られた相互作用は、元のゲームの無限に繰り返されるバージョンと戦略的に等価であることを示し、様々な民間定理のような既存の結果を直接転送できるようにする。

Game-theoretic dynamics between AI agents could differ from traditional human-human interactions in various ways. One such difference is that it may be possible to accurately simulate an AI agent, for example because its source code is known. Our aim is to explore ways of leveraging this possibility to achieve more cooperative outcomes in strategic settings. In this paper, we study an interaction between AI agents where the agents run a recursive joint simulation. That is, the agents first jointly observe a simulation of the situation they face. This simulation in turn recursively includes additional simulations (with a small chance of failure, to avoid infinite recursion), and the results of all these nested simulations are observed before an action is chosen. We show that the resulting interaction is strategically equivalent to an infinitely repeated version of the original game, allowing a direct transfer of existing results such as the various folk theorems.
翻訳日:2024-02-14 17:22:43 公開日:2024-02-12
# micrortsにおける競争勝利型深層強化学習エージェント

A Competition Winning Deep Reinforcement Learning Agent in microRTS ( http://arxiv.org/abs/2402.08112v1 )

ライセンス: Link先を確認
Scott Goodfriend(参考訳) スクリプトエージェントは、CIGとCoGが主催するIEEE microRTS(\mu$RTS)コンペティションの5回を主に受賞している。 深層強化学習 (drl) アルゴリズムはリアルタイム戦略 (rts) ゲームにおいて大きな進歩を遂げているが、この主な学術的競争における採用は、必要なかなりのトレーニングリソースとそのようなエージェントの作成とデバッグに固有の複雑さのために制限されている。 RAISocketAIはIEEE microRTSコンペティションで優勝した最初のDRLエージェントである。 パフォーマンス制約のないベンチマークでは、RAISocketAIは2つの以前の競争勝者を定期的に破った。 このコンテストで優勝したDRLは、将来のmicroRTSコンペティションのベンチマークであり、将来のDRL研究の出発点となる。 ベースポリシーの反復的微調整と特定の地図への転載学習は、ライイソケタイの勝利に不可欠であった。 これらの戦略は将来のDRLエージェントを経済的に訓練するために使用できる。 行動クローンを用いた模倣学習のさらなる取り組みとDRLによるこれらのモデルの微調整は、実証された競争行動でモデルをブートストラップする効率的な方法として有望であることが証明されている。

Scripted agents have predominantly won the five previous iterations of the IEEE microRTS ($\mu$RTS) competitions hosted at CIG and CoG. Despite Deep Reinforcement Learning (DRL) algorithms making significant strides in real-time strategy (RTS) games, their adoption in this primarily academic competition has been limited due to the considerable training resources required and the complexity inherent in creating and debugging such agents. RAISocketAI is the first DRL agent to win the IEEE microRTS competition. In a benchmark without performance constraints, RAISocketAI regularly defeated the two prior competition winners. This first competition-winning DRL submission can be a benchmark for future microRTS competitions and a starting point for future DRL research. Iteratively fine-tuning the base policy and transfer learning to specific maps were critical to RAISocketAI's winning performance. These strategies can be used to economically train future DRL agents. Further work in Imitation Learning using Behavior Cloning and fine-tuning these models with DRL has proven promising as an efficient way to bootstrap models with demonstrated, competitive behaviors.
翻訳日:2024-02-14 17:22:30 公開日:2024-02-12
# データから意思決定へ:ビジネスレコメンデーションにおける機械学習のトランスフォーメーションパワー

From Data to Decisions: The Transformational Power of Machine Learning in Business Recommendations ( http://arxiv.org/abs/2402.08109v1 )

ライセンス: Link先を確認
Kapilya Gangadharan, K. Malathi, Anoop Purandaran, Barathi Subramanian, and Rathinaraja Jeyaraj(参考訳) 本研究は,機械学習(ML)がレコメンデーションシステム(RS)の進化と有効性に与える影響,特に商業的ビジネス環境におけるその重要性の高まりについて検討することを目的とする。 方法論的には,データソーシングや機能工学,評価指標の重要性といった側面に着目し,これらのシステムの構築と洗練におけるmlの役割を考察し,レコメンデーションアルゴリズムの反復的向上を強調する。 高度なアルゴリズムとデータ分析によって駆動されるレコメンデーションエンジン(re)のデプロイは、さまざまなドメインにわたって検討され、ユーザエクスペリエンスと意思決定プロセスに大きな影響を示している。 これらのエンジンは、情報発見の合理化とコラボレーションの強化だけでなく、知識獲得を加速し、ビジネスにおけるデジタルランドスケープのナビゲートに不可欠である。 個々の顧客のニーズに合ったレコメンデーションを提供することで、企業の売上、収益、競争力の面で大きな貢献をします。 この研究は、コンテンツがパーソナライズされ、好みの変化に動的に適応する、シームレスで直感的なオンライン体験に対するユーザの期待が高まることを明らかにする。 今後の研究の方向性には、ディープラーニングモデルの進歩、RSの展開における倫理的考慮、スケーラビリティの課題への対処などが含まれる。 本研究は、研究者や実践者にとって、rsにおけるmlの理解と活用が不可欠であることを強調し、商用ビジネスの展望におけるパーソナライズドレコメンデーションの可能性を最大限に活用する。

This research aims to explore the impact of Machine Learning (ML) on the evolution and efficacy of Recommendation Systems (RS), particularly in the context of their growing significance in commercial business environments. Methodologically, the study delves into the role of ML in crafting and refining these systems, focusing on aspects such as data sourcing, feature engineering, and the importance of evaluation metrics, thereby highlighting the iterative nature of enhancing recommendation algorithms. The deployment of Recommendation Engines (RE), driven by advanced algorithms and data analytics, is explored across various domains, showcasing their significant impact on user experience and decision-making processes. These engines not only streamline information discovery and enhance collaboration but also accelerate knowledge acquisition, proving vital in navigating the digital landscape for businesses. They contribute significantly to sales, revenue, and the competitive edge of enterprises by offering improved recommendations that align with individual customer needs. The research identifies the increasing expectation of users for a seamless, intuitive online experience, where content is personalized and dynamically adapted to changing preferences. Future research directions include exploring advancements in deep learning models, ethical considerations in the deployment of RS, and addressing scalability challenges. This study emphasizes the indispensability of comprehending and leveraging ML in RS for researchers and practitioners, to tap into the full potential of personalized recommendation in commercial business prospects.
翻訳日:2024-02-14 17:22:11 公開日:2024-02-12
# 凸凹最適化による移動帯域統計調停の探索

Finding Moving-Band Statistical Arbitrages via Convex-Concave Optimization ( http://arxiv.org/abs/2402.08108v1 )

ライセンス: Link先を確認
Kasper Johansson and Thomas Schmelzer and Stephen Boyd(参考訳) 本稿では,従来の対よりも多くの資産を含む統計的仲裁を求める手法を提案する。 我々は,バンドに残されている価格とレバレッジ限界に照らして,最もボラティリティの高いポートフォリオを求める問題を定式化する。 この最適化問題は凸ではなく、特定の逐次凸計画法である凸凹法を用いて近似的に解くことができる。 提案手法は,価格帯の中間点が時間とともに変化する移動帯域統計仲裁器の探索にどのように一般化するかを示す。

We propose a new method for finding statistical arbitrages that can contain more assets than just the traditional pair. We formulate the problem as seeking a portfolio with the highest volatility, subject to its price remaining in a band and a leverage limit. This optimization problem is not convex, but can be approximately solved using the convex-concave procedure, a specific sequential convex programming method. We show how the method generalizes to finding moving-band statistical arbitrages, where the price band midpoint varies over time.
翻訳日:2024-02-14 17:21:42 公開日:2024-02-12
# 色中心を用いた効率的な核スピンキャラクタリゼーションのためのブループリント

Blueprint for efficient nuclear spin characterization with color center ( http://arxiv.org/abs/2402.08107v1 )

ライセンス: Link先を確認
Majid Zahedian, Vadim Vorobyov, J\"org Wrachtrup(参考訳) 固体中の核スピンは、スケーラブルな量子ハードウェアの開発に有望な手段を提供する。 近傍の単色中心を利用することで、スピン共鳴によってこれらのスピンを単一部位レベルで効率的に扱うことができる。 しかし、個々の核スピンの特徴付けは、超微粒子カップリングの強さ、調整されたアプローチ、実験条件によって特徴付けプロトコルが異なるため、かなり困難である。 CPMGやXY8パルス配列のような修正された電子スピンのハーンエコーは一般的に用いられるが、スピン1/2系、強い結合スピン、異なる同位体からなる核スピン浴を含むシナリオにおいて、大きな制限を受ける。 ここでは、各原子核と電子スピンの間の超微粒子相互作用を決定するためのより簡単なアプローチを示す。 この方法は様々なプラットフォーム、特にダイヤモンド(SiV、GeV、SnV、PbV)やシリコン(T-セントレ、P-ドナー)におけるS=1/2族IV欠陥の出現を約束する。 理論的な枠組みを提供し、様々なスピンを示す色中心に適応する。 核スピンクラスター上でのシミュレーションにより、異なるプロトコルを評価し、fisher information matrix と cramer rao bounds を用いてそれらの性能を比較する。

Nuclear spins in solids offer a promising avenue for developing scalable quantum hardware. Leveraging nearby single-color centers, these spins can be efficiently addressed at the single-site level through spin resonance. However, characterising individual nuclear spins is quite cumbersome since the characterisation protocols may differ depending on the strength of the hyperfine coupling, necessitating tailored approaches and experimental conditions. While modified electron spin Hahn echoes like CPMG and XY8 pulse sequences are commonly employed, they encounter significant limitations in scenarios involving spin-1/2 systems, strongly coupled spins, or nuclear spin baths comprising distinct isotopes. Here, we present a more straightforward approach for determining the hyperfine interactions among each nuclear and the electron spin. This method holds promise across diverse platforms, especially for emerging S=1/2 group IV defects in diamond (e.g., SiV, GeV, SnV, PbV) or silicon (T-centre, P-donors). We provide a theoretical framework and adapt it for color-centers exhibiting various spins. Through simulations conducted on nuclear spin clusters, we evaluate different protocols and compare their performance using the Fisher information matrix and Cramer Rao bounds.
翻訳日:2024-02-14 17:21:32 公開日:2024-02-12
# 平均場 min-max 問題に対するミラーDescent-Ascent

Mirror Descent-Ascent for mean-field min-max problems ( http://arxiv.org/abs/2402.08106v1 )

ライセンス: Link先を確認
Razvan-Andrei Lascu, Mateusz B. Majka, {\L}ukasz Szpruch(参考訳) 本研究では,測度空間上のmin-max問題を同時および逐次的に解くためのミラー降下指数アルゴリズムの2つの変種について検討する。 我々は、平坦微分による測度空間上で定義される適切なブレグマン分岐に関して、凸凹凸とペイオフ関数の相対的滑らかさの仮定の下で働く。 nikaid\`o-isoda誤差で測定された混合nash平衡の収束率は、関連する有限次元アルゴリズムの最先端の結果と一致する同時および逐次スキームに対して、それぞれ$\mathcal{o}\left(n^{-1/2}\right)$と$\mathcal{o}\left(n^{-2/3}\right)$の順であることが示されている。

We study two variants of the mirror descent-ascent algorithm for solving min-max problems on the space of measures: simultaneous and sequential. We work under assumptions of convexity-concavity and relative smoothness of the payoff function with respect to a suitable Bregman divergence, defined on the space of measures via flat derivatives. We show that the convergence rates to mixed Nash equilibria, measured in the Nikaid\`o-Isoda error, are of order $\mathcal{O}\left(N^{-1/2}\right)$ and $\mathcal{O}\left(N^{-2/3}\right)$ for the simultaneous and sequential schemes, respectively, which is in line with the state-of-the-art results for related finite-dimensional algorithms.
翻訳日:2024-02-14 17:21:11 公開日:2024-02-12
# ラプラシアン制約付きデカルト積グラフの学習

Learning Cartesian Product Graphs with Laplacian Constraints ( http://arxiv.org/abs/2402.08105v1 )

ライセンス: Link先を確認
Changhao Shi and Gal Mishne(参考訳) グラフラプラシアン学習(graph laplacian learning)は、ネットワークトポロジー推論としても知られ、複数のコミュニティにとって非常に興味深い問題である。 ガウス図形モデル (GM) では、グラフ学習はラプラシア構造との共分散選択をもたらす。 グラフ信号処理(GSP)では、フィルタシステムの出力から観測されていないグラフを推測することが不可欠である。 本稿では,ラプラシアン制約下でのデカルト積グラフの学習の問題について考察する。 カルテシアングラフ積は高次条件依存をモデル化する自然な方法であり、GSPをマルチウェイテンソルに一般化する鍵でもある。 カルト積ラプラシアンのペナル化最大推定(MLE)に対する統計的整合性を確立し、その問題を解決するための効率的なアルゴリズムを提案する。 また,構造的欠落値が存在する場合に,効率的なジョイントグラフ学習とインプテーションを行う手法を拡張した。 合成および実世界のデータセット実験により,本手法は従来のGSP法やGM法よりも優れていることが示された。

Graph Laplacian learning, also known as network topology inference, is a problem of great interest to multiple communities. In Gaussian graphical models (GM), graph learning amounts to endowing covariance selection with the Laplacian structure. In graph signal processing (GSP), it is essential to infer the unobserved graph from the outputs of a filtering system. In this paper, we study the problem of learning Cartesian product graphs under Laplacian constraints. The Cartesian graph product is a natural way for modeling higher-order conditional dependencies and is also the key for generalizing GSP to multi-way tensors. We establish statistical consistency for the penalized maximum likelihood estimation (MLE) of a Cartesian product Laplacian, and propose an efficient algorithm to solve the problem. We also extend our method for efficient joint graph learning and imputation in the presence of structural missing values. Experiments on synthetic and real-world datasets demonstrate that our method is superior to previous GSP and GM methods.
翻訳日:2024-02-14 17:20:51 公開日:2024-02-12
# 量子ネットワークによる絡み合いのルーティング

Routing entanglement through quantum networks ( http://arxiv.org/abs/2402.08102v1 )

ライセンス: Link先を確認
Karl Pelka, Matteo Aquilina, Andr\'e Xuereb(参考訳) 非古典物理学の最も明確な証明の一つである絡み合いは、より安全な通信やより高速な計算といった技術応用に重大な可能性を秘めている。 本稿では,連続変数系のネットワークにおける非相互輸送を用いた一方向の絡み合いの経路について検討する。 我々は、量子系における制御可能な絡み合いの流れの潜在的な実現を議論し、ガウス相互作用のみを使用し、対称性を破るために散逸を設計した。 また,熱揺らぎがエンタングルメントが伝播する距離を制限し,この距離とエンタングルメント源の強さ,ネットワークを介したホッピングの強度との間の直観的な挙動を観察する条件についても検討した。

Entanglement, one of the clearest manifestations of non-classical physics, holds significant promise for technological applications such as more secure communications and faster computations. In this paper we explore the use of non-reciprocal transport in a network of continuous-variable systems to route entanglement in one direction through the network. We develop the theory and discuss a potential realization of controllable flow of entanglement in quantum systems; our method employs only Gaussian interactions and engineered dissipation to break the symmetry. We also explore the conditions under which thermal fluctuations limit the distance over which the entanglement propagates and observe a counter-intuitive behavior between this distance, the strength of the entanglement source, and the strength of the hopping through the network.
翻訳日:2024-02-14 17:20:35 公開日:2024-02-12
# オーディティング・ワーク:ニューヨーク市のアルゴリズムによる偏見監査体制を探る

Auditing Work: Exploring the New York City algorithmic bias audit regime ( http://arxiv.org/abs/2402.08101v1 )

ライセンス: Link先を確認
Lara Groves, Jacob Metcalf, Alayna Kennedy, Briana Vecchione, and Andrew Strait(参考訳) 2023年7月、ニューヨーク市は商用機械学習システムのための最初のアルゴリズム監査システムを開始した。 地方法144条(LL 144)は、独立監査官が実施する年次バイアス監査を実施するために、雇用の自動化された雇用決定ツール(AEDT)を使用する雇用者を義務付けている。 本稿では,LL 144の他のアルゴリズム監査の試みについて述べる。 16人の専門家と実践者による質的インタビューを通じて、ll 144は事実上監査体制を確立していないことが判明した。 この法律は、AEDTや独立監査人、指導的監査人、AEDTベンダー、およびAEDTを使用して、求職者を保護するのに失敗した方法で法の実践的実装を定義する企業など、重要な側面を明確に定義することができない。 コントリビューション要因には、法律の欠陥のある透明性駆動的変化理論、業界ロビー活動によるAEDTの定義の狭化、データへのアクセスにおける監査者が直面する実践的・文化的課題、正当な監査人を構成するものに対する広範な意見の相違などがあり、4つの異なる「監査役」が生じる。 我々は、政策立案者が同様のバイアス監査体制を作り、明確な定義、指標、説明責任の向上を強調する4つの勧告で締めくくった。 監査役のレンズを通してLL 144を探索することにより、監査に関するエビデンスベースを説明責任メカニズムとして前進させ、政策立案者が同様の体制を創り出すためのガイダンスを提供する。

In July 2023, New York City (NYC) initiated the first algorithm auditing system for commercial machine-learning systems. Local Law 144 (LL 144) mandates NYC-based employers using automated employment decision-making tools (AEDTs) in hiring to undergo annual bias audits conducted by an independent auditor. This paper examines lessons from LL 144 for other national algorithm auditing attempts. Through qualitative interviews with 16 experts and practitioners within the regime, we find that LL 144 has not effectively established an auditing regime. The law fails to clearly define key aspects, such as AEDTs and independent auditors, leading auditors, AEDT vendors, and companies using AEDTs to define the law's practical implementation in ways that failed to protect job applicants. Contributing factors include the law's flawed transparency-driven theory of change, industry lobbying narrowing the definition of AEDTs, practical and cultural challenges faced by auditors in accessing data, and wide disagreement over what constitutes a legitimate auditor, resulting in four distinct 'auditor roles.' We conclude with four recommendations for policymakers seeking to create similar bias auditing regimes, emphasizing clearer definitions, metrics, and increased accountability. By exploring LL 144 through the lens of auditors, our paper advances the evidence base around audit as an accountability mechanism, providing guidance for policymakers seeking to create similar regimes.
翻訳日:2024-02-14 17:20:19 公開日:2024-02-12
# テキスト-SQL翻訳における大規模言語モデルのデータ汚染の影響の検討

Investigating the Impact of Data Contamination of Large Language Models in Text-to-SQL Translation ( http://arxiv.org/abs/2402.08100v1 )

ライセンス: Link先を確認
Federico Ranaldi, Elena Sofia Ruzzetti, Dario Onorati, Leonardo Ranaldi, Cristina Giannone, Andrea Favalli, Raniero Romagnoli, Fabio Massimo Zanzotto(参考訳) コードを生成するためのテキスト記述を理解することは、ゼロショットシナリオで命令追従するLarge Language Model(LLM)の達成された能力であるようだ。 しかし、この翻訳能力は、対象とするテキスト記述とその関連コードに影響を与えている可能性が極めて高い。 この効果はデータ汚染と呼ばれる。 本研究では,テキストからSQLへのコード生成タスクにおけるGPT-3.5の性能に及ぼすデータ汚染の影響について検討する。 そこで我々は,GPTにおけるデータ汚染を検出する新しい手法を導入し,既知のスパイダーデータセットと新しい未知のデータセットTermiteを用いて,GPT-3.5のテキスト・トゥ・SQLパフォーマンスを検証した。 さらに,データベースから構造化情報を取り除き,テキスト・トゥ・SQLタスクを複雑にすることで,逆テーブル・ディコネクション(ATD)アプローチによる修正情報を持つデータベース上でのGPT-3.5の有効性を解析する。 この結果から,ATD の修正であっても,GPT-3.5 が不慣れな Termite データセット上で顕著な性能低下を示し,テキスト-SQL 翻訳タスクにおける LLM に対するデータ汚染の影響を強調した。

Understanding textual description to generate code seems to be an achieved capability of instruction-following Large Language Models (LLMs) in zero-shot scenario. However, there is a severe possibility that this translation ability may be influenced by having seen target textual descriptions and the related code. This effect is known as Data Contamination. In this study, we investigate the impact of Data Contamination on the performance of GPT-3.5 in the Text-to-SQL code-generating tasks. Hence, we introduce a novel method to detect Data Contamination in GPTs and examine GPT-3.5's Text-to-SQL performances using the known Spider Dataset and our new unfamiliar dataset Termite. Furthermore, we analyze GPT-3.5's efficacy on databases with modified information via an adversarial table disconnection (ATD) approach, complicating Text-to-SQL tasks by removing structural pieces of information from the database. Our results indicate a significant performance drop in GPT-3.5 on the unfamiliar Termite dataset, even with ATD modifications, highlighting the effect of Data Contamination on LLMs in Text-to-SQL translation tasks.
翻訳日:2024-02-14 17:19:35 公開日:2024-02-12
# 畳み込みニューラルネットワークを用いた身体MRI系列型の自動分類

Automated Classification of Body MRI Sequence Type Using Convolutional Neural Networks ( http://arxiv.org/abs/2402.08098v1 )

ライセンス: Link先を確認
Kimberly Helm, Tejas Sudharshan Mathai, Boah Kim, Pritam Mukherjee, Jianfei Liu, Ronald M. Summers(参考訳) 異常の同定と疾患の診断のために、身体のマルチパラメトリックMRIが定期的に取得される。 しかし、MRIプロトコルや関連配列の標準的な命名規則は、様々なメーカーのMRIスキャナーが画像撮影に使われている施設でのイメージングの実践の幅広いバリエーションのために存在しない。 その結果、MRIシーケンスの強度分布は様々であり、DICOMヘッダのシーケンスタイプに関連する情報競合も存在する。 現在、正しいシーケンスを読み取り、診断に使用するためには、臨床医の監視が必要である。 これは、大規模な臨床研究のためのコホートを構築するために、あるいはAIアルゴリズムを開発するために、特定のシリーズを考える必要がある場合、課題となる。 dicomヘッダーの有効性を確保するために,胸部,腹部,骨盤のレベルで獲得した3次元mriシーケンスを自動分類する手法を提案する。 我々の3D DenseNet-121モデルは、3つのシーメンススキャナー(Aera, Verio, Biograph mMR)で得られた5つのMRIシークエンスを区別し、99.5%のF1スコアを得た。 私たちの知る限りでは、胸部、腹部、骨盤のmriシーケンスを3次元に分類する自動化手法を最初に開発し、これまでの最先端のmri系列分類器よりも優れています。

Multi-parametric MRI of the body is routinely acquired for the identification of abnormalities and diagnosis of diseases. However, a standard naming convention for the MRI protocols and associated sequences does not exist due to wide variations in imaging practice at institutions and myriad MRI scanners from various manufacturers being used for imaging. The intensity distributions of MRI sequences differ widely as a result, and there also exists information conflicts related to the sequence type in the DICOM headers. At present, clinician oversight is necessary to ensure that the correct sequence is being read and used for diagnosis. This poses a challenge when specific series need to be considered for building a cohort for a large clinical study or for developing AI algorithms. In order to reduce clinician oversight and ensure the validity of the DICOM headers, we propose an automated method to classify the 3D MRI sequence acquired at the levels of the chest, abdomen, and pelvis. In our pilot work, our 3D DenseNet-121 model achieved an F1 score of 99.5% at differentiating 5 common MRI sequences obtained by three Siemens scanners (Aera, Verio, Biograph mMR). To the best of our knowledge, we are the first to develop an automated method for the 3D classification of MRI sequences in the chest, abdomen, and pelvis, and our work has outperformed the previous state-of-the-art MRI series classifiers.
翻訳日:2024-02-14 17:18:59 公開日:2024-02-12
# 凸低レベル問題を用いた単純二値最適化のための加速勾配法

An Accelerated Gradient Method for Simple Bilevel Optimization with Convex Lower-level Problem ( http://arxiv.org/abs/2402.08097v1 )

ライセンス: Link先を確認
Jincheng Cao, Ruichen Jiang, Erfan Yazdandoost Hamedani, Aryan Mokhtari(参考訳) 本稿では,他方の凸滑らかな制約付き最適化問題の最適解集合上の凸滑らかな対象関数を最小化する,単純二値最適化問題に着目する。 そこで本稿では, カット平面アプローチを用いて, 下層問題の解集合を局所的に近似し, 高速化された勾配に基づく更新を用いて, 近似された解集合上の上層目標関数を減少させる手法を提案する。 提案手法の性能を最適化性および実現不可能性の観点から測定し,両誤差基準に対する非漸近収束保証を提供する。 具体的には、実現可能な集合がコンパクトであるとき、この方法では最大で$\mathcal{o}(\max\{1/\sqrt{\epsilon_{f}}, 1/\epsilon_g\})$の反復が必要であり、$\epsilon_f$-suboptimalと$\epsilon_g$-infeasibleである解を見つける。 さらに、下層の目的が$r$-th H\"olderian の誤差境界を満たすという仮定の下で、我々の手法は$r=1$のときの単一レベルの凸制約最適化の最適複雑さと一致する$\mathcal{O}(\max\{\epsilon_{f}^{-\frac{2r-1}{2r}},\epsilon_{g}^{-\frac{2r-1}{2r}}\})$の反復複雑性を達成することを示す。

In this paper, we focus on simple bilevel optimization problems, where we minimize a convex smooth objective function over the optimal solution set of another convex smooth constrained optimization problem. We present a novel bilevel optimization method that locally approximates the solution set of the lower-level problem using a cutting plane approach and employs an accelerated gradient-based update to reduce the upper-level objective function over the approximated solution set. We measure the performance of our method in terms of suboptimality and infeasibility errors and provide non-asymptotic convergence guarantees for both error criteria. Specifically, when the feasible set is compact, we show that our method requires at most $\mathcal{O}(\max\{1/\sqrt{\epsilon_{f}}, 1/\epsilon_g\})$ iterations to find a solution that is $\epsilon_f$-suboptimal and $\epsilon_g$-infeasible. Moreover, under the additional assumption that the lower-level objective satisfies the $r$-th H\"olderian error bound, we show that our method achieves an iteration complexity of $\mathcal{O}(\max\{\epsilon_{f}^{-\frac{2r-1}{2r}},\epsilon_{g}^{-\frac{2r-1}{2r}}\})$, which matches the optimal complexity of single-level convex constrained optimization when $r=1$.
翻訳日:2024-02-14 17:17:56 公開日:2024-02-12
# 訓練済みモデルの微調整時にリハーサルするプレトレインサンプルは?

Which Pretrain Samples to Rehearse when Finetuning Pretrained Models? ( http://arxiv.org/abs/2402.08096v1 )

ライセンス: Link先を確認
Andrew Bai, Chih-Kuan Yeh, Cho-Jui Hsieh, Ankur Taly(参考訳) 特定のタスクに関する微調整された基礎モデルが、テキストおよび視覚タスクの事実上のアプローチとなった。 このアプローチの既知の落とし穴は、微調整中に起こる事前学習知識の忘れることだ。 プレトレインデータセットからランダムにサンプルをリハーサルすることは、そのような忘れを緩和するための一般的なアプローチである。 しかし、ランダムな混合には、モデルによって忘れられたり、学習できなかったりしないサンプルが含まれる。 そこで我々は,実際に忘れられているサンプルを識別し,優先する新しいサンプリング手法であるmix-cdを提案する。 副次的損傷の直接同定は計算コストがかかるため, 微調整標本の統計を追跡し, その分布を推定する手法を提案する。 我々のアプローチは軽量で実装が容易で、既存のモデルにシームレスに統合することができ、計算コストを増すことなく事前訓練性能を維持する効果的な手段を提供する。

Fine-tuning pretrained foundational models on specific tasks is now the de facto approach for text and vision tasks. A known pitfall of this approach is the forgetting of pretraining knowledge that happens during finetuning. Rehearsing samples randomly from the pretrain dataset is a common approach to alleviate such forgetting. However, we find that random mixing unintentionally includes samples which are not (yet) forgotten or unlearnable by the model. We propose a novel sampling scheme, mix-cd, that identifies and prioritizes samples that actually face forgetting, which we call collateral damage. Since directly identifying collateral damage samples is computationally expensive, we propose a procedure to estimate the distribution of such samples by tracking the statistics of finetuned samples. Our approach is lightweight, easy to implement, and can be seamlessly integrated into existing models, offering an effective means to retain pretrain performance without additional computational costs.
翻訳日:2024-02-14 17:16:50 公開日:2024-02-12
# 離散拡散モデルの収束解析:一様化による厳密な実装

Convergence Analysis of Discrete Diffusion Model: Exact Implementation through Uniformization ( http://arxiv.org/abs/2402.08095v1 )

ライセンス: Link先を確認
Hongrui Chen, Lexing Ying(参考訳) 拡散モデルはデータ生成タスクで大きな経験的成功を収めた。 近年、拡散モデルのフレームワークを離散状態空間に適応させ、言語やグラフのような本質的に離散的なデータをモデリングするためのより自然なアプローチを提供している。 これは前処理とそれに対応する逆処理の両方をCTMC(Continuous Time Markov Chains)として定式化する。 本稿では,離散拡散モデルの理論的性質について考察する。 具体的には,連続マルコフ連鎖の一様化を利用したアルゴリズムを導入し,ランダムな時間点上の遷移を実装した。 離散スコア関数の学習に関する合理的な仮定の下で、超キューブ上の任意の分布からサンプリングするためのトータル変分距離とKL発散保証を導出する。 この結果は,$\mathbb{r}^d$ における拡散モデルの最先端の成果と一致し,$\mathbb{r}^d$ 設定と比較して離散拡散モデルの利点を更に強調する。

Diffusion models have achieved huge empirical success in data generation tasks. Recently, some efforts have been made to adapt the framework of diffusion models to discrete state space, providing a more natural approach for modeling intrinsically discrete data, such as language and graphs. This is achieved by formulating both the forward noising process and the corresponding reversed process as Continuous Time Markov Chains (CTMCs). In this paper, we investigate the theoretical properties of the discrete diffusion model. Specifically, we introduce an algorithm leveraging the uniformization of continuous Markov chains, implementing transitions on random time points. Under reasonable assumptions on the learning of the discrete score function, we derive Total Variation distance and KL divergence guarantees for sampling from any distribution on a hypercube. Our results align with state-of-the-art achievements for diffusion models in $\mathbb{R}^d$ and further underscore the advantages of discrete diffusion models in comparison to the $\mathbb{R}^d$ setting.
翻訳日:2024-02-14 17:16:33 公開日:2024-02-12
# BASE TTS:100K時間データを用いた10億パラメータテキスト音声モデルの構築から学んだこと

BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data ( http://arxiv.org/abs/2402.08093v1 )

ライセンス: Link先を確認
Mateusz {\L}ajszczak, Guillermo C\'ambara, Yang Li, Fatih Beyhan, Arent van Korlaar, Fan Yang, Arnaud Joly, \'Alvaro Mart\'in-Cortinas, Ammar Abbas, Adam Michalski, Alexis Moinet, Sri Karlapati, Ewa Muszy\'nska, Haohan Guo, Bartosz Putrycz, Soledad L\'opez Gambino, Kayeon Yoo, Elena Sokolova, Thomas Drugman(参考訳) これは$\textbf{b}$ig$\textbf{a}$daptive$\textbf{s}$treamable ttsの略で、$\textbf{e}$mergent能力を持つ。 BASE TTSは、これまでで最大のTSモデルであり、パブリックドメインの音声データ100K時間で訓練され、音声の自然性において新たな最先端を達成する。 原文を離散符号("speechcodes")に変換し、さらに畳み込みベースのデコーダを使用してこれらの音声コードをインクリメンタルで流線型に波形に変換する1億パラメータの自己回帰トランスフォーマーをデプロイする。 さらに,話者IDのアンタングル化とバイトペア符号化による圧縮を特徴とする,新しい音声トークン化手法を用いて音声符号化を行う。 データ量の増加を訓練する際、大規模言語モデルの「創発的能力」が広く報告されているのを反映して、10K以上の時間と500M以上のパラメータで構築されたBASE TTSの変種が、テキストに複雑な文に自然な韻律を呈示し始めた。 テキストから音声への創発的能力を測定するために,特殊なデータセットを設計し,共有する。 本稿では,YourTTS,Bark,TortoiseTTSなどの大規模音声合成システムを含むベースラインに対する評価により,BASE TTSの最先端の自然性を示す。 モデルによって生成されたオーディオサンプルはhttps://amazon-ltts-paper.com/で確認できる。

We introduce a text-to-speech (TTS) model called BASE TTS, which stands for $\textbf{B}$ig $\textbf{A}$daptive $\textbf{S}$treamable TTS with $\textbf{E}$mergent abilities. BASE TTS is the largest TTS model to-date, trained on 100K hours of public domain speech data, achieving a new state-of-the-art in speech naturalness. It deploys a 1-billion-parameter autoregressive Transformer that converts raw texts into discrete codes ("speechcodes") followed by a convolution-based decoder which converts these speechcodes into waveforms in an incremental, streamable manner. Further, our speechcodes are built using a novel speech tokenization technique that features speaker ID disentanglement and compression with byte-pair encoding. Echoing the widely-reported "emergent abilities" of large language models when trained on increasing volume of data, we show that BASE TTS variants built with 10K+ hours and 500M+ parameters begin to demonstrate natural prosody on textually complex sentences. We design and share a specialized dataset to measure these emergent abilities for text-to-speech. We showcase state-of-the-art naturalness of BASE TTS by evaluating against baselines that include publicly available large-scale text-to-speech systems: YourTTS, Bark and TortoiseTTS. Audio samples generated by the model can be heard at https://amazon-ltts-paper.com/.
翻訳日:2024-02-14 17:16:14 公開日:2024-02-12
# ロングシーケンスにおけるリカレントモデルの復活について--変圧器時代の調査と研究の機会-

On the Resurgence of Recurrent Models for Long Sequences: Survey and Research Opportunities in the Transformer Era ( http://arxiv.org/abs/2402.08132v1 )

ライセンス: Link先を確認
Matteo Tiezzi, Michele Casoni, Alessandro Betti, Tommaso Guidi, Marco Gori and Stefano Melacci(参考訳) 機械学習コミュニティにとって長年の課題は、非常に長いデータ列から処理と学習が可能なモデルを開発することです。 トランスフォーマーベースのネットワーク(例えば、大きな言語モデル)の見事な成果は、並列注意をそのような課題に成功するための鍵として推進し、リカレントモデルの古典的なシーケンシャルな処理の役割を無視する。 しかし、ここ数年、自己注意の二次的な複雑さに関心を持つ研究者は、ニューラルモデルの新しい波を提案しており、これはトランスフォーマーとリカレントネットという2つの世界から最高のものを得ている。 一方、深宇宙状態モデルは時間とともに関数近似を行うための強固なアプローチとして登場し、シーケンシャルデータから学習する新たな視点を開拓し、この分野の多くの人々に応用され、(線形)リカレントニューラルネットワークの特殊なクラスを実装した。 本調査は,再帰の包括関係を包括するこれらの傾向を概観することを目的としている。 さらに、無限長列のより現実的な設定のために既知の長い列を処理するという考え方を捨てて、ストリームデータから生涯オンライン学習の分野を分断する、新たな研究機会を強調する。

A longstanding challenge for the Machine Learning community is the one of developing models that are capable of processing and learning from very long sequences of data. The outstanding results of Transformers-based networks (e.g., Large Language Models) promotes the idea of parallel attention as the key to succeed in such a challenge, obfuscating the role of classic sequential processing of Recurrent Models. However, in the last few years, researchers who were concerned by the quadratic complexity of self-attention have been proposing a novel wave of neural models, which gets the best from the two worlds, i.e., Transformers and Recurrent Nets. Meanwhile, Deep Space-State Models emerged as robust approaches to function approximation over time, thus opening a new perspective in learning from sequential data, followed by many people in the field and exploited to implement a special class of (linear) Recurrent Neural Networks. This survey is aimed at providing an overview of these trends framed under the unifying umbrella of Recurrence. Moreover, it emphasizes novel research opportunities that become prominent when abandoning the idea of processing long sequences whose length is known-in-advance for the more realistic setting of potentially infinite-length sequences, thus intersecting the field of lifelong-online learning from streamed data.
翻訳日:2024-02-14 17:07:22 公開日:2024-02-12
# 無形フィードバックグラフを用いた効率的コンテクストバンディット

Efficient Contextual Bandits with Uninformed Feedback Graphs ( http://arxiv.org/abs/2402.08127v1 )

ライセンス: Link先を確認
Mengxiao Zhang, Yuheng Zhang, Haipeng Luo, Paul Mineiro(参考訳) フィードバックグラフを持つバンドは、完全な情報と古典的なバンディットの問題を補間する強力なオンライン学習モデルであり、現実のアプリケーションの多くをキャプチャする。 Zhang et al. (2023) による最近の研究は、この問題の文脈バージョンを研究し、オンライン回帰への還元による効率的かつ最適なアルゴリズムを提案する。 しかし、彼らのアルゴリズムは、各決定を行う前にフィードバックグラフを見ることに大きく依存しているが、多くのアプリケーションでは、フィードバックグラフはインフォームされていない。 この研究は、損失とグラフの両方に対するオンライン回帰を効率的に還元することで、そのような非形式設定のための最初の文脈的アルゴリズムを開発する。 重要なことは,2乗損失ではなくログ損失を用いてグラフを学習し,良好な後悔の保証を得ることである。 また,合成データと実世界データの両方を用いて入札アプリケーションにおけるアルゴリズムの実証的有効性を示す。

Bandits with feedback graphs are powerful online learning models that interpolate between the full information and classic bandit problems, capturing many real-life applications. A recent work by Zhang et al. (2023) studies the contextual version of this problem and proposes an efficient and optimal algorithm via a reduction to online regression. However, their algorithm crucially relies on seeing the feedback graph before making each decision, while in many applications, the feedback graph is uninformed, meaning that it is either only revealed after the learner makes her decision or even never fully revealed at all. This work develops the first contextual algorithm for such uninformed settings, via an efficient reduction to online regression over both the losses and the graphs. Importantly, we show that it is critical to learn the graphs using log loss instead of squared loss to obtain favorable regret guarantees. We also demonstrate the empirical effectiveness of our algorithm on a bidding application using both synthetic and real-world data.
翻訳日:2024-02-14 17:06:54 公開日:2024-02-12
# 一般値関数をもつ文脈多項ロジット帯域

Contextual Multinomial Logit Bandits with General Value Functions ( http://arxiv.org/abs/2402.08126v1 )

ライセンス: Link先を確認
Mengxiao Zhang, Haipeng Luo(参考訳) MNL(Contextual multinomial logit)は、オンライン小売や広告など、現実のアソシエーションレコメンデーション問題の多くを捉えている。 しかしながら、以前の研究は線形値関数のみを考慮(一般化)しており、適用可能性を大幅に制限している。 この事実に動機づけられた本研究では、文脈的帯域幅の研究の最近の動向からアイデアを借り、基礎的真実を含む一般値関数クラスを持つ文脈的MNL帯域幅を考える。 具体的には,確率的および対数的設定の両方を考慮し,それぞれ異なる計算-回帰トレードオフを持つアルゴリズム一式を提案する。 線形の場合に適用した場合、この結果は指数関数的に大きい問題依存定数に依存しない最初のものであるだけでなく、計算効率、次元自由後悔境界、完全に対向する文脈や報酬を扱う能力などの他の利点も享受する。

Contextual multinomial logit (MNL) bandits capture many real-world assortment recommendation problems such as online retailing/advertising. However, prior work has only considered (generalized) linear value functions, which greatly limits its applicability. Motivated by this fact, in this work, we consider contextual MNL bandits with a general value function class that contains the ground truth, borrowing ideas from a recent trend of studies on contextual bandits. Specifically, we consider both the stochastic and the adversarial settings, and propose a suite of algorithms, each with different computation-regret trade-off. When applied to the linear case, our results not only are the first ones with no dependence on a certain problem-dependent constant that can be exponentially large, but also enjoy other advantages such as computational efficiency, dimension-free regret bounds, or the ability to handle completely adversarial contexts and rewards.
翻訳日:2024-02-14 17:06:38 公開日:2024-02-12
# ロバストSLAMベンチマークのためのカスタマイズ可能な摂動合成

Customizable Perturbation Synthesis for Robust SLAM Benchmarking ( http://arxiv.org/abs/2402.08125v1 )

ライセンス: Link先を確認
Xiaohao Xu, Tianyi Zhang, Sibo Wang, Xiang Li, Yongqi Chen, Ye Li, Bhiksha Raj, Matthew Johnson-Roberson, Xiaonan Huang(参考訳) ロバストネスは、非構造環境、特に同時局在マッピング(SLAM)の領域におけるロボットの展開を成功させる重要な要因である。 シミュレーションベースのベンチマークは,実世界のデータ収集と比較して,堅牢性評価のための高度にスケーラブルなアプローチとして浮上している。 しかし、多様な摂動を持つ挑戦的で制御可能な騒がしい世界を創り出すことは、比較的未開拓のままである。 そこで本研究では,様々な摂動に対するマルチモーダルスラムモデルの弾力性を評価することを目的とした,ノイズデータ合成のための新しいカスタマイズ可能なパイプラインを提案する。 このパイプラインにはカスタマイズ可能なハードウェアセットアップ、ソフトウェアコンポーネント、摂動環境が組み込まれている。 特に,摂動構成ツールボックスとともに包括的摂動分類を導入し,クリーンシミュレーションの雑音環境への転換を可能にする。 パイプラインを利用すると、様々な摂動型を含むRobust-SLAMベンチマークをインスタンス化し、既存の高度なマルチモーダルSLAMモデルのリスク耐性を評価する。 標準ベンチマークの精度が実証されたにもかかわらず,実世界外乱に対する既存のslamモデルの感受性を明らかにする。 私たちの摂動合成ツールボックス、SLAMロバスト性評価パイプライン、Robust-SLAMベンチマークはhttps://github.com/Xiaohao-Xu/SLAM-under-Perturbation/で公開されます。

Robustness is a crucial factor for the successful deployment of robots in unstructured environments, particularly in the domain of Simultaneous Localization and Mapping (SLAM). Simulation-based benchmarks have emerged as a highly scalable approach for robustness evaluation compared to real-world data collection. However, crafting a challenging and controllable noisy world with diverse perturbations remains relatively under-explored. To this end, we propose a novel, customizable pipeline for noisy data synthesis, aimed at assessing the resilience of multi-modal SLAM models against various perturbations. This pipeline incorporates customizable hardware setups, software components, and perturbed environments. In particular, we introduce comprehensive perturbation taxonomy along with a perturbation composition toolbox, allowing the transformation of clean simulations into challenging noisy environments. Utilizing the pipeline, we instantiate the Robust-SLAM benchmark, which includes diverse perturbation types, to evaluate the risk tolerance of existing advanced multi-modal SLAM models. Our extensive analysis uncovers the susceptibilities of existing SLAM models to real-world disturbance, despite their demonstrated accuracy in standard benchmarks. Our perturbation synthesis toolbox, SLAM robustness evaluation pipeline, and Robust-SLAM benchmark will be made publicly available at https://github.com/Xiaohao-Xu/SLAM-under-Perturbation/.
翻訳日:2024-02-14 17:06:21 公開日:2024-02-12
# 無マスキー蜂成体形成 : 熱画像の最先端畳み込みニューラルネットワーク解析による品質保証のブレークスルー

Unmasking honey adulteration : a breakthrough in quality assurance through cutting-edge convolutional neural network analysis of thermal images ( http://arxiv.org/abs/2402.08122v1 )

ライセンス: Link先を確認
Ilias Boulbarj, Bouklouze Abdelaziz, Yousra El Alami, Douzi Samira, Douzi Hassan(参考訳) 有機物から生成される天然物であるハニーは、その高い評判で広く認知されている。 それにもかかわらず、蜂蜜は、一般人の幸福と国の財政的幸福の両方に重大な影響をもたらす、密通の影響を受ける。 蜂蜜の付着を検出する従来のアプローチは、時間的要求や感度の制限としばしば関連づけられる。 本稿では、熱画像に基づく蜂蜜の分類に畳み込みニューラルネットワーク(CNN)を用いて、上記の問題に対処する新しいアプローチを提案する。 サーマルイメージング技術を用いることで、蜂蜜サンプルの温度の違いが糖組成、水分量、その他の汚染物質によって明らかになるため、嫌気物質の検出において大きな利点がある。 蜂蜜を分類するための精巧なアプローチを確立するため、真正および腐った蜂蜜サンプルの熱画像からなる徹底したデータセットを収集した。 収集されたデータセットを使用して、いくつかの最先端の畳み込みニューラルネットワーク(cnn)モデルをトレーニングし、最適化した。 このモデルの中には、InceptionV3、Xception、VGG19、ResNetといった事前訓練されたモデルがあり、例外的な性能を示し、分類精度は88%から98%である。 さらに,より合理化され,より複雑でない畳み込みニューラルネットワーク(CNN)モデルを実装した。 この単純化はモデルの唯一の利点を提供するだけでなく、リソースと時間という観点で同時により効率的なソリューションを提供する。 このアプローチは、ミツバチのビジネスで品質管理を行うための有効な方法を提供し、この貴重な有機商品の真偽と安全性を保証する。

Honey, a natural product generated from organic sources, is widely recognized for its revered reputation. Nevertheless, honey is susceptible to adulteration, a situation that has substantial consequences for both the well-being of the general population and the financial well-being of a country. Conventional approaches for detecting honey adulteration are often associated with extensive time requirements and restricted sensitivity. This paper presents a novel approach to address the aforementioned issue by employing Convolutional Neural Networks (CNNs) for the classification of honey samples based on thermal images. The use of thermal imaging technique offers a significant advantage in detecting adulterants, as it can reveal differences in temperature in honey samples caused by variations in sugar composition, moisture levels, and other substances used for adulteration. To establish a meticulous approach to categorizing honey, a thorough dataset comprising thermal images of authentic and tainted honey samples was collected. Several state-of-the-art Convolutional Neural Network (CNN) models were trained and optimized using the dataset that was gathered. Within this set of models, there exist pre-trained models such as InceptionV3, Xception, VGG19, and ResNet that have exhibited exceptional performance, achieving classification accuracies ranging from 88% to 98%. Furthermore, we have implemented a more streamlined and less complex convolutional neural network (CNN) model, outperforming comparable models with an outstanding accuracy rate of 99%. This simplification offers not only the sole advantage of the model, but it also concurrently offers a more efficient solution in terms of resources and time. This approach offers a viable way to implement quality control measures in the honey business, so guaranteeing the genuineness and safety of this valuable organic commodity.
翻訳日:2024-02-14 17:06:00 公開日:2024-02-12
# 分子配列解析における普遍的非パラメトリックアプローチ

A Universal Non-Parametric Approach For Improved Molecular Sequence Analysis ( http://arxiv.org/abs/2402.08117v1 )

ライセンス: Link先を確認
Sarwan Ali, Tamkanat E Ali, Prakash Chourasia, Murray Patterson(参考訳) 生物学的研究の分野では、分子配列の特徴と機能を理解することが不可欠である。 分子配列の分類は、ニューラルネットワークに基づく技術が広く利用されている。 驚くべき精度にもかかわらず、これらのモデルはかなりの数のパラメータとより多くのデータ収集を必要とする。 本稿では,Gzip や Bz2 などの基本的な圧縮アルゴリズムと正規化圧縮距離 (NCD) アルゴリズムを組み合わせることで,手作りの特徴や事前訓練されたモデルに頼らずに,分類タスクにおけるより良い性能を実現する,圧縮ベースモデルに基づく新しい手法を提案する。 まず、gzipやbz2といったよく知られた圧縮アルゴリズムを用いて分子配列を圧縮する。 圧縮されたファイルに符号化された潜伏構造を利用して、コルモゴロフ複雑性から導かれる各分子配列間の正規化圧縮距離を計算する。 これにより距離行列が得られ、これはガウス核を用いてカーネル行列を生成するための入力となる。 次に、カーネル主成分分析(PCA)を用いて、対応する分子配列のベクトル表現を取得し、重要な構造情報と機能情報を取得する。 結果として得られるベクトル表現は、分子配列解析の効率的かつ効果的な解であり、MLベースの下流タスクで使用できる。 提案手法では,パラメータ数とデータ要求が大きいため,計算集約型ディープニューラルネットワーク(DNN)の必要性を排除している。 代わりに軽量で汎用的な圧縮ベースモデルを採用している。

In the field of biological research, it is essential to comprehend the characteristics and functions of molecular sequences. The classification of molecular sequences has seen widespread use of neural network-based techniques. Despite their astounding accuracy, these models often require a substantial number of parameters and more data collection. In this work, we present a novel approach based on the compression-based Model, motivated from \cite{jiang2023low}, which combines the simplicity of basic compression algorithms like Gzip and Bz2, with Normalized Compression Distance (NCD) algorithm to achieve better performance on classification tasks without relying on handcrafted features or pre-trained models. Firstly, we compress the molecular sequence using well-known compression algorithms, such as Gzip and Bz2. By leveraging the latent structure encoded in compressed files, we compute the Normalized Compression Distance between each pair of molecular sequences, which is derived from the Kolmogorov complexity. This gives us a distance matrix, which is the input for generating a kernel matrix using a Gaussian kernel. Next, we employ kernel Principal Component Analysis (PCA) to get the vector representations for the corresponding molecular sequence, capturing important structural and functional information. The resulting vector representations provide an efficient yet effective solution for molecular sequence analysis and can be used in ML-based downstream tasks. The proposed approach eliminates the need for computationally intensive Deep Neural Networks (DNNs), with their large parameter counts and data requirements. Instead, it leverages a lightweight and universally accessible compression-based model.
翻訳日:2024-02-14 17:05:31 公開日:2024-02-12
# 推論・計画課題における大規模言語モデルの自己検証限界について

On the Self-Verification Limitations of Large Language Models on Reasoning and Planning Tasks ( http://arxiv.org/abs/2402.08115v1 )

ライセンス: Link先を確認
Kaya Stechly, Karthik Valmeekam, Subbarao Kambhampati(参考訳) 大規模言語モデル(llm)の推論能力については、多くの意見が分かれている。 論法がスケールで自動的に現れるという最初の楽観主義は、乗法から単純な計画へと展開する反例の多さによって誘惑を受けてきたが、LLMが自己批判し、反復的な方法で独自のソリューションを改善できるという考えは広範に広まっている。 この信念は、正しさの検証は生成よりも容易であるべきだという仮定にかかっているように見える - 計算複雑性からのむしろ古典的な議論 - llmとは無関係で、彼らが行っていることは近似検索である。 本稿では,推論と計画の文脈における反復的プロンプトの有効性を体系的に検討する。 本報告では,gpt-4の3つの領域における性能に関する原理実証研究として,24のゲーム,グラフ彩色,ストリップ計画について述べる。 我々は,自答を批判するモデルと,提案する解の検証を行う外部正解法を用いて実験を行った。 いずれの場合も,批判の内容がボトムラインのパフォーマンスに実際に影響を及ぼすのか,また,性能を損なうことなく拡張システムの要素を省略できるのかを分析した。 我々は,自己批判による著しいパフォーマンス崩壊,健全な外部検証による大幅なパフォーマンス向上を観察するが,批判の内容はシステムのパフォーマンスに関係しない。 実際、単にサウンド検証器で再入力するだけで、より関連するセットアップの利点のほとんどを維持できる。

There has been considerable divergence of opinion on the reasoning abilities of Large Language Models (LLMs). While the initial optimism that reasoning might emerge automatically with scale has been tempered thanks to a slew of counterexamples--ranging from multiplication to simple planning--there persists a wide spread belief that LLMs can self-critique and improve their own solutions in an iterative fashion. This belief seemingly rests on the assumption that verification of correctness should be easier than generation--a rather classical argument from computational complexity--which should be irrelevant to LLMs to the extent that what they are doing is approximate retrieval. In this paper, we set out to systematically investigate the effectiveness of iterative prompting in the context of reasoning and planning. We present a principled empirical study of the performance of GPT-4 in three domains: Game of 24, Graph Coloring, and STRIPS planning. We experiment both with the model critiquing its own answers and with an external correct reasoner verifying proposed solutions. In each case, we analyze whether the content of criticisms actually affects bottom line performance, and whether we can ablate elements of the augmented system without losing performance. We observe significant performance collapse with self-critique, significant performance gains with sound external verification, but that the content of critique doesn't matter to the performance of the system. In fact, merely re-prompting with a sound verifier maintains most of the benefits of more involved setups.
翻訳日:2024-02-14 17:05:06 公開日:2024-02-12
# 大規模言語モデルのためのアクティブな選好学習

Active Preference Learning for Large Language Models ( http://arxiv.org/abs/2402.08114v1 )

ライセンス: Link先を確認
William Muldrew, Peter Hayes, Mingtian Zhang, David Barber(参考訳) 大きな言語モデル(LLM)がより有能になるにつれて、人間の意図に合わせるための微調整技術がますます重要になっている。 これらのモデルを調整する上で重要な考慮事項は、LLM自体をオーラクルとして使用する場合、人的資源を効果的に利用する方法、あるいはモデルリソースを使用する方法である。 人間やAIの好みからの強化学習(RLHF/RLAIF)はそのようなテクニックの最も顕著な例であるが、複雑で不安定であることが多い。 direct preference optimization (dpo) は、最近よりシンプルでより安定した代替案として提案されている。 そこで本研究では, DPO の実践的学習戦略を開発し, 嗜好ラベルをよりよく活用する。 本稿では,言語モデルの予測エントロピーとdpo最適化による暗黙的選好モデルの確実性の測定に基づいて,プロンプト/コンプリートペアの実用的獲得関数を提案する。 提案手法は,ペアの選好データに基づく微調整の学習率と最終性能の両方を改善する方法を示す。

As large language models (LLMs) become more capable, fine-tuning techniques for aligning with human intent are increasingly important. A key consideration for aligning these models is how to most effectively use human resources, or model resources in the case where LLMs themselves are used as oracles. Reinforcement learning from Human or AI preferences (RLHF/RLAIF) is the most prominent example of such a technique, but is complex and often unstable. Direct Preference Optimization (DPO) has recently been proposed as a simpler and more stable alternative. In this work, we develop an active learning strategy for DPO to make better use of preference labels. We propose a practical acquisition function for prompt/completion pairs based on the predictive entropy of the language model and a measure of certainty of the implicit preference model optimized by DPO. We demonstrate how our approach improves both the rate of learning and final performance of fine-tuning on pairwise preference data.
翻訳日:2024-02-14 17:04:39 公開日:2024-02-12
# 医療言語モデルにおける認知バイアスへの対処

Addressing cognitive bias in medical language models ( http://arxiv.org/abs/2402.08113v1 )

ライセンス: Link先を確認
Samuel Schmidgall, Carl Harris, Ime Essien, Daniel Olshvang, Tawsifur Rahman, Ji Woong Kim, Rojin Ziaei, Jason Eshraghian, Peter Abadir, Rama Chellappa(参考訳) 医療分野への大型言語モデル(LLM)の統合は, 臨床意思決定のシミュレーションにおいて有望な精度で注目されている。 しかし、医師の判断は認知バイアスの存在を含む多くの要因によって形成されるため、臨床意思決定はシミュレーションよりも複雑である。 しかし、LLMがヒト臨床医に影響を及ぼす認知バイアスの程度は未解明のままである。 この仮説は、llmが認知バイアスを含む臨床質問に直面すると、そのようなバイアスを伴わない同じ質問に比べて有意に正確な回答を得られず、医学的タスクに適用されるllmの認知バイアスを評価するための新しいベンチマークであるbiasmedqaを開発したことを示唆する。 BiasMedQAを用いて, GPT-4, Mixtral-8x70B, GPT-3.5, PaLM-2, Llama 270B-chat, PMC Llama 13Bの6種類のLCMを評価した。 米国医学ライセンス試験(usmle)のステップ1、ステップ2、ステップ3から1273の質問に対して、臨床に関連する一般的な認知バイアスを再現するためにこれらのモデルをテストした。 llama 2 70b-chat と pmc llama 13b とは対照的に,gpt-4 のバイアスに対する回復力は,認知バイアスによって不釣り合いに影響を受ける。 本研究は,医療用LSMの開発において,より安全で信頼性の高い医療応用をめざして,バイアス軽減の必要性を強調した。

The integration of large language models (LLMs) into the medical field has gained significant attention due to their promising accuracy in simulated clinical decision-making settings. However, clinical decision-making is more complex than simulations because physicians' decisions are shaped by many factors, including the presence of cognitive bias. However, the degree to which LLMs are susceptible to the same cognitive biases that affect human clinicians remains unexplored. Our hypothesis posits that when LLMs are confronted with clinical questions containing cognitive biases, they will yield significantly less accurate responses compared to the same questions presented without such biases.In this study, we developed BiasMedQA, a novel benchmark for evaluating cognitive biases in LLMs applied to medical tasks. Using BiasMedQA we evaluated six LLMs, namely GPT-4, Mixtral-8x70B, GPT-3.5, PaLM-2, Llama 2 70B-chat, and the medically specialized PMC Llama 13B. We tested these models on 1,273 questions from the US Medical Licensing Exam (USMLE) Steps 1, 2, and 3, modified to replicate common clinically-relevant cognitive biases. Our analysis revealed varying effects for biases on these LLMs, with GPT-4 standing out for its resilience to bias, in contrast to Llama 2 70B-chat and PMC Llama 13B, which were disproportionately affected by cognitive bias. Our findings highlight the critical need for bias mitigation in the development of medical LLMs, pointing towards safer and more reliable applications in healthcare.
翻訳日:2024-02-14 17:04:23 公開日:2024-02-12
# はしご上の離散アーベル格子ゲージ理論とその量子時計モデルとの双対性

Discrete Abelian lattice gauge theories on a ladder and their dualities with quantum clock models ( http://arxiv.org/abs/2208.04182v4 )

ライセンス: Link先を確認
Sunny Pradhan, Andrea Maroncelli, Elisa Ercolessi(参考訳) 2本足のラダー幾何学上の$\mathbb{z}_n$格子ゲージ理論のゲージ不変部分空間から1本鎖上の$n$クロックモデルへの双対性変換の研究を行った。 このマッピングの主な特徴は、ゲージモデルの超選択セクタに依存する時計モデルにおける縦方向の磁場の出現であり、ゲージ理論の異なるセクタが全く異なる位相図を示せることを示唆している。 これを調べ、閉じ込められた位相が現れるかどうかを確認するために、正確な対角化とDMRGを用いて、$N = 2, 3, 4$の数値解析を行う。

We study a duality transformation from the gauge-invariant subspace of a $\mathbb{Z}_N$ lattice gauge theory on a two-leg ladder geometry to an $N$-clock model on a single chain. The main feature of this mapping is the emergence of a longitudinal field in the clock model, whose value depends on the superselection sector of the gauge model, implying that the different sectors of the gauge theory can show quite different phase diagrams. In order to investigate this and see if confined phases might emerge, we perform a numerical analysis for $N = 2, 3, 4$, using exact diagonalization and DMRG.
翻訳日:2024-02-14 01:41:44 公開日:2024-02-12
# オンライン重み付きバイパートイトマッチングのためのサブ線形時間アルゴリズム

Sublinear Time Algorithm for Online Weighted Bipartite Matching ( http://arxiv.org/abs/2208.03367v2 )

ライセンス: Link先を確認
Hang Hu, Zhao Song, Runzhou Tao, Zhaozhuo Xu, Junze Yin, Danyang Zhuo(参考訳) オンラインバイパーティイトマッチングは、オンラインアルゴリズムの基本的な問題である。 目標は、辺重みの和を最大化するために2組の頂点を一致させることであり、1組の頂点に対して、それぞれの頂点とその対応する辺重みが列に現れる。 現在、実用的なレコメンデーションシステムや検索エンジンでは、ユーザの深い表現とアイテムの深い表現との間の内積によって重み付けが決定される。 標準オンラインマッチングは、すべてのn$アイテムをリニアスキャンするためにnd$時間を支払う必要があり、(各表現ベクトルが長さ$d$と仮定して)重みを計算し、その重みに基づいてマッチングを決定する。 しかし、実際に$n$は、例えばオンラインeコマースプラットフォームにおいて非常に大きなものになり得る。 したがって、重みの計算時間を改善することは実用上重要な問題である。 本研究では,重みを近似的に計算する理論的基礎を提供する。 提案したランダム化データ構造では,マッチングアルゴリズムの競合比を保ちながら,重みをサブ線形時間で計算できることが示されている。

Online bipartite matching is a fundamental problem in online algorithms. The goal is to match two sets of vertices to maximize the sum of the edge weights, where for one set of vertices, each vertex and its corresponding edge weights appear in a sequence. Currently, in the practical recommendation system or search engine, the weights are decided by the inner product between the deep representation of a user and the deep representation of an item. The standard online matching needs to pay $nd$ time to linear scan all the $n$ items, computing weight (assuming each representation vector has length $d$), and then deciding the matching based on the weights. However, in reality, the $n$ could be very large, e.g. in online e-commerce platforms. Thus, improving the time of computing weights is a problem of practical significance. In this work, we provide the theoretical foundation for computing the weights approximately. We show that, with our proposed randomized data structures, the weights can be computed in sublinear time while still preserving the competitive ratio of the matching algorithm.
翻訳日:2024-02-14 01:41:33 公開日:2024-02-12
# 変化点回帰のためのクロスバリデーション:落とし穴と解決策

Cross-validation for change-point regression: pitfalls and solutions ( http://arxiv.org/abs/2112.03220v3 )

ライセンス: Link先を確認
Florian Pein and Rajen D. Shah(参考訳) クロスバリデーションは、多くの非パラメトリック回帰問題においてパラメータ選択をチューニングするための標準的なアプローチである。 しかし、その使用は変化点回帰においてあまり一般的ではなく、おそらくその予測誤差に基づく基準は小さな急激な変化を許容し、したがって変化点の数と位置を推定するのに適さないと考えられる。 実際、二乗誤差損失を伴うクロスバリデーションの問題はより厳格であり、変更点数を体系的に過小評価し、変更が容易に検出できる単純な設定で平均関数を高最適に推定する可能性がある。 本稿では,2つの簡単な方法を提案する。まず,2乗誤差損失よりも絶対誤差を用いること,そして2つは,使用したホールドアウトセットを変更することである。 後者の場合、一般的な変更点推定手順に対して、変更点数の一貫した推定を可能にする条件を提供する。 これらの条件は, 変更点数を誤って供給した場合に, 新たな結果を用いた最小2乗推定で満たされることを示す。 数値実験により,新しい手法は,誤差分布が十分に特定されている場合の古典的なチューニングパラメータ選択を用いた,一般的な変化点法と競合していることが示された。 提案手法の実装は,CRAN上のRパッケージクロスバリデーションCPで利用可能である。

Cross-validation is the standard approach for tuning parameter selection in many non-parametric regression problems. However its use is less common in change-point regression, perhaps as its prediction error-based criterion may appear to permit small spurious changes and hence be less well-suited to estimation of the number and location of change-points. We show that in fact the problems of cross-validation with squared error loss are more severe and can lead to systematic under- or over-estimation of the number of change-points, and highly suboptimal estimation of the mean function in simple settings where changes are easily detectable. We propose two simple approaches to remedy these issues, the first involving the use of absolute error rather than squared error loss, and the second involving modifying the holdout sets used. For the latter, we provide conditions that permit consistent estimation of the number of change-points for a general change-point estimation procedure. We show these conditions are satisfied for least squares estimation using new results on its performance when supplied with the incorrect number of change-points. Numerical experiments show that our new approaches are competitive with common change-point methods using classical tuning parameter choices when error distributions are well-specified, but can substantially outperform these in misspecified models. An implementation of our methodology is available in the R package crossvalidationCP on CRAN.
翻訳日:2024-02-14 01:39:58 公開日:2024-02-12
# 厳密な鞍点を避ける慣性ニュートンアルゴリズム

Inertial Newton Algorithms Avoiding Strict Saddle Points ( http://arxiv.org/abs/2111.04596v2 )

ライセンス: Link先を確認
Camille Castera(参考訳) 非凸景観におけるニュートン法と慣性勾配勾配を混合した2階アルゴリズムの漸近挙動について検討した。 これらの手法のニュートン的挙動にもかかわらず、彼らは常に厳密な鞍点から逃れている。 また,これらの手法の超パラメータが臨界点近傍の質的挙動に果たす役割を証明した。 理論的結果は数値図によって支えられている。

We study the asymptotic behavior of second-order algorithms mixing Newton's method and inertial gradient descent in non-convex landscapes. We show that, despite the Newtonian behavior of these methods, they almost always escape strict saddle points. We also evidence the role played by the hyper-parameters of these methods in their qualitative behavior near critical points. The theoretical results are supported by numerical illustrations.
翻訳日:2024-02-14 01:39:12 公開日:2024-02-12
# 可変選択による計算効率の良い高次元ベイズ最適化

Computationally Efficient High-Dimensional Bayesian Optimization via Variable Selection ( http://arxiv.org/abs/2109.09264v2 )

ライセンス: Link先を確認
Yihang Shen and Carl Kingsford(参考訳) ベイズ最適化 (bayesian optimization, bo) は、ブラックボックス関数をグローバルに最適化する手法である。 BOは多くのシナリオに適用されているが、高次元領域を持つ関数にスケールする効果的なBOアルゴリズムの開発は依然として課題である。 バニラBOによるそのような機能の最適化は非常に時間がかかる。 高次元の空間を低次元の空間に埋め込むという考え方に基づく高次元のboの代替戦略は、予め特定する必要がある埋め込み次元の選択に敏感である。 変数選択を利用した計算効率の高い高次元BO法を開発した。 提案手法は,選択変数を含む空間を予め指定したハイパーパラメータを必要とせずに,軸整列部分空間を自動的に学習することができる。 アルゴリズムの計算複雑性を理論的に解析し,後悔の束縛を導出する。 我々は,いくつかの合成および実問題に対する本手法の有効性を実証的に示す。

Bayesian Optimization (BO) is a method for globally optimizing black-box functions. While BO has been successfully applied to many scenarios, developing effective BO algorithms that scale to functions with high-dimensional domains is still a challenge. Optimizing such functions by vanilla BO is extremely time-consuming. Alternative strategies for high-dimensional BO that are based on the idea of embedding the high-dimensional space to the one with low dimension are sensitive to the choice of the embedding dimension, which needs to be pre-specified. We develop a new computationally efficient high-dimensional BO method that exploits variable selection. Our method is able to automatically learn axis-aligned sub-spaces, i.e. spaces containing selected variables, without the demand of any pre-specified hyperparameters. We theoretically analyze the computational complexity of our algorithm and derive the regret bound. We empirically show the efficacy of our method on several synthetic and real problems.
翻訳日:2024-02-14 01:38:25 公開日:2024-02-12
# 適応グラフ畳み込みネットワークを用いた複数ラベル画像分類:単一領域から複数の領域へ

Multi-label Image Classification using Adaptive Graph Convolutional Networks: from a Single Domain to Multiple Domains ( http://arxiv.org/abs/2301.04494v4 )

ライセンス: Link先を確認
Indel Pal Singh, Enjie Ghorbel, Oyebade Oyedotun, Djamila Aouada(参考訳) 本稿では,マルチラベル画像分類のための適応グラフベースアプローチを提案する。 グラフベースの手法はラベル相関をモデル化する能力から、マルチラベル分類の分野で広く利用されている。 特に、それらの効果は、単一のドメインを考える場合だけでなく、複数のドメインを考慮に入れる場合にも証明されている。 しかし、使用グラフの位相はヒューリスティックに定義されているため最適ではない。 さらに、連続的なグラフ畳み込みネットワーク(GCN)集約は、特徴の類似性を損なう傾向がある。 これらの問題を克服するために、エンドツーエンドでグラフ接続を学ぶためのアーキテクチャを導入する。 これは注意に基づくメカニズムと類似性保存戦略を統合することで実現される。 提案するフレームワークは,複数のドメインに拡張し,対戦型トレーニングスキームを用いて拡張する。 多くの実験が、よく知られた単一ドメインとマルチドメインのベンチマークで報告されている。 その結果,提案手法は平均精度 (mAP) とモデルサイズを,最先端技術と比較して比較して比較した結果を得た。 コードは公開される予定だ。

This paper proposes an adaptive graph-based approach for multi-label image classification. Graph-based methods have been largely exploited in the field of multi-label classification, given their ability to model label correlations. Specifically, their effectiveness has been proven not only when considering a single domain but also when taking into account multiple domains. However, the topology of the used graph is not optimal as it is pre-defined heuristically. In addition, consecutive Graph Convolutional Network (GCN) aggregations tend to destroy the feature similarity. To overcome these issues, an architecture for learning the graph connectivity in an end-to-end fashion is introduced. This is done by integrating an attention-based mechanism and a similarity-preserving strategy. The proposed framework is then extended to multiple domains using an adversarial training scheme. Numerous experiments are reported on well-known single-domain and multi-domain benchmarks. The results demonstrate that our approach achieves competitive results in terms of mean Average Precision (mAP) and model size as compared to the state-of-the-art. The code will be made publicly available.
翻訳日:2024-02-14 01:30:54 公開日:2024-02-12
# NetEffect: 一般化ネットワーク効果の発見と爆発

NetEffect: Discovery and Exploitation of Generalized Network Effects ( http://arxiv.org/abs/2301.00270v3 )

ライセンス: Link先を確認
Meng-Chieh Lee, Shubhranshu Shekhar, Jaemin Yoo, Christos Faloutsos(参考訳) ノードラベルの少ないグラフが与えられたら、どうすればいいのか? (a)一般化ネットワーク効果(GNE)があるか否かを識別する (b)ノードクラス間の相互関係を説明するためにGNEを推定し、 (c) 下流タスクのパフォーマンスを改善するために、GNEを効率的に利用しますか? GNEの知識は、ノード分類やターゲット広告といった様々なタスクに有用である。 しかし, ノードラベルやノイズエッジが限られているため, 実世界のグラフでは, ホモフィリーやヘテロフィリーなどのGNEの同定は困難である。 本稿では,上記の問題に対処するためのグラフマイニング手法であるneteffectを提案する。 (i)原則:ノードラベルの少ないグラフにおけるGNEの存在を決定する統計的テスト。 (二 一般説明可能:観測された特定種類のGNEを推定するための閉形式解 (iii)精度とスケーラビリティ: 正確で高速なノード分類のためのGNEの統合。 実世界のグラフに適用すると、NetEffectは多くのグラフにおいてGNEの予期せぬ欠如が発見され、不均一性を示すことが認められた。 さらに,ノード分類において,GNEの導入が有効であることを示す。 NetEffectは、100万スケールの現実世界のグラフで、競合他社に比べて7倍のスピードアップ(14分対2時間)を達成した。

Given a large graph with few node labels, how can we (a) identify whether there is generalized network-effects (GNE) or not, (b) estimate GNE to explain the interrelations among node classes, and (c) exploit GNE efficiently to improve the performance on downstream tasks? The knowledge of GNE is valuable for various tasks like node classification, and targeted advertising. However, identifying GNE such as homophily, heterophily or their combination is challenging in real-world graphs due to limited availability of node labels and noisy edges. We propose NetEffect, a graph mining approach to address the above issues, enjoying the following properties: (i) Principled: a statistical test to determine the presence of GNE in a graph with few node labels; (ii) General and Explainable: a closed-form solution to estimate the specific type of GNE observed; and (iii) Accurate and Scalable: the integration of GNE for accurate and fast node classification. Applied on real-world graphs, NetEffect discovers the unexpected absence of GNE in numerous graphs, which were recognized to exhibit heterophily. Further, we show that incorporating GNE is effective on node classification. On a million-scale real-world graph, NetEffect achieves over 7 times speedup (14 minutes vs. 2 hours) compared to most competitors.
翻訳日:2024-02-14 01:30:24 公開日:2024-02-12
# 瞬時量子多項式回路を用いた1層QAOA近傍の探索

Exploring the neighborhood of 1-layer QAOA with Instantaneous Quantum Polynomial circuits ( http://arxiv.org/abs/2210.05526v3 )

ライセンス: Link先を確認
Sebastian Leontica and David Amaro(参考訳) 我々は1層QAOA回路をより大規模なパラメータ化インスタント量子多項式回路に組込み、組合せ最適化問題の解法として改良された変分量子アルゴリズムを作成する。 解析式を用いて最適パラメータを古典的に求めることにより,我々のプロトコルはバレンプラトーやハードウェアノイズに対して堅牢である。 基底状態の平均の重なりは$\mathcal{o}(2^{-0.31 n})$であり、ランダムなシェリントン=キルクパトリック (sk) のハミルトニアンに対してn$の量子ビットの数であり、1層qaoaよりも多項式が改善された。 さらに,多様体上の変分的虚時発展は,低温擬似ボルツマン状態に近いことを観測する。 このプロトコルは、最近リリースされたquantinuum h2トラップイオン量子ハードウェアおよびエミュレータ上で1層qaoaを上回り、7から32キュービットの312のランダムskインスタンスの平均近似比が0.985$となり、1インスタンスあたり4〜1208ショットで約4,4\%$が最適に解かれる。

We embed 1-layer QAOA circuits into the larger class of parameterized Instantaneous Quantum Polynomial circuits to produce an improved variational quantum algorithm for solving combinatorial optimization problems. The use of analytic expressions to find optimal parameters classically makes our protocol robust against barren plateaus and hardware noise. The average overlap with the ground state scales as $\mathcal{O}(2^{-0.31 N})$ with the number of qubits $N$ for random Sherrington-Kirkpatrick (SK) Hamiltonians of up to 29 qubits, a polynomial improvement over 1-layer QAOA. Additionally, we observe that performing variational imaginary time evolution on the manifold approximates low-temperature pseudo-Boltzmann states. Our protocol outperforms 1-layer QAOA on the recently released Quantinuum H2 trapped-ion quantum hardware and emulator, where we obtain an average approximation ratio of $0.985$ across 312 random SK instances of 7 to 32 qubits, from which almost $44\%$ are solved optimally using 4 to 1208 shots per instance.
翻訳日:2024-02-14 01:27:21 公開日:2024-02-12
# SDAT:画質向上のためのサブデータセット代替トレーニング

SDAT: Sub-Dataset Alternation Training for Improved Image Demosaicing ( http://arxiv.org/abs/2303.15792v2 )

ライセンス: Link先を確認
Yuval Becker, Raz Z. Nossek, Tomer Peleg(参考訳) 画像復調はデジタルカメラの画像処理パイプラインにおいて重要なステップである。 ディープラーニングのようなデータ中心のアプローチでは、トレーニングに使用されるデータセットの分布は、ネットワークの結果にバイアスを与える可能性がある。 例えば、自然画像では、ほとんどのパッチは滑らかで、高濃度のパッチはより稀である。 これはデモサイシングアルゴリズムのパフォーマンスのバイアスにつながる可能性がある。 ほとんどのディープラーニングアプローチは、特定の損失を利用したり、特別なネットワークアーキテクチャを設計することで、この問題に対処する。 本稿では,訓練プロトコルの観点から問題に取り組む,SDAT(Sub-Dataset Alternation Training)を提案する。 SDATは2つの必須相から構成される。 初期段階では、データセット全体からサブデータセットを作成する方法を採用し、それぞれが異なるバイアスを発生させる。 次のフェーズでは、データセット全体のトレーニングに加えて、派生したサブデータセットを使用する、交互のトレーニングプロセスが含まれている。 sdatは選択したアーキテクチャに関わらず,デモサイシングタスクで実施した各種実験によって適用可能である。 実験は、cnnやトランスフォーマーなど、さまざまなアーキテクチャサイズとタイプで実施されている。 すべてのケースで改善されたパフォーマンスを示します。 また、人気の高い3つのイメージデモサイシングベンチマークで最先端の結果を得ることができます。

Image demosaicing is an important step in the image processing pipeline for digital cameras. In data centric approaches, such as deep learning, the distribution of the dataset used for training can impose a bias on the networks' outcome. For example, in natural images most patches are smooth, and high-content patches are much rarer. This can lead to a bias in the performance of demosaicing algorithms. Most deep learning approaches address this challenge by utilizing specific losses or designing special network architectures. We propose a novel approach, SDAT, Sub-Dataset Alternation Training, that tackles the problem from a training protocol perspective. SDAT is comprised of two essential phases. In the initial phase, we employ a method to create sub-datasets from the entire dataset, each inducing a distinct bias. The subsequent phase involves an alternating training process, which uses the derived sub-datasets in addition to training also on the entire dataset. SDAT can be applied regardless of the chosen architecture as demonstrated by various experiments we conducted for the demosaicing task. The experiments are performed across a range of architecture sizes and types, namely CNNs and transformers. We show improved performance in all cases. We are also able to achieve state-of-the-art results on three highly popular image demosaicing benchmarks.
翻訳日:2024-02-14 01:19:51 公開日:2024-02-12
# ゼロg飛行中の光子絡み合い

Photonic entanglement during a zero-g flight ( http://arxiv.org/abs/2303.13183v2 )

ライセンス: Link先を確認
Julius Bittermann, Lukas Bulla, Sebastian Ecker, Sebastian Philipp Neumann, Matthias Fink, Martin Bohmann, Nicolai Friis, Marcus Huber, Rupert Ursin(参考訳) 量子技術は、極端な条件下で基本量子現象をテストできるまで成熟した。 特に、現代の量子情報理論の基礎である絡み合いは、様々な悪い環境で頑健に生成され、検証することができる。 これらの実験をさらに進め、パラボリック飛行中に高品質のベル実験を行い、ベル違反を継続的に観察しながら微小重力から1.8g超重力への移行を行い、ベル-CHSHパラメータは$S=-2.6202$から$2.7323$、平均は$\overline{S} = -2.680$、平均標準偏差は$\overline{\Delta S} = 0.014$である。 この違反は、一様加速と非一様加速の両方の影響を受けない。 この実験は、宇宙ベースアプリケーションにおける現在の量子通信プラットフォームの安定性を実証し、非慣性運動と量子情報の相互作用をテストするための重要な基準点を追加する。

Quantum technologies have matured to the point that we can test fundamental quantum phenomena under extreme conditions. Specifically, entanglement, a cornerstone of modern quantum information theory, can be robustly produced and verified in various adverse environments. We take these tests further and implement a high-quality Bell experiment during a parabolic flight, transitioning from microgravity to hypergravity of 1.8 g while continuously observing Bell violation, with Bell-CHSH parameters between $S=-2.6202$ and $-2.7323$, an average of $\overline{S} = -2.680$, and average standard deviation of $\overline{\Delta S} = 0.014$. This violation is unaffected both by uniform and non-uniform acceleration. This experiment demonstrates the stability of current quantum communication platforms for space-based applications and adds an important reference point for testing the interplay of non-inertial motion and quantum information.
翻訳日:2024-02-14 01:19:14 公開日:2024-02-12
# DAPR:Document-Aware Passage Retrievalのベンチマーク

DAPR: A Benchmark on Document-Aware Passage Retrieval ( http://arxiv.org/abs/2305.13915v2 )

ライセンス: Link先を確認
Kexin Wang, Nils Reimers, Iryna Gurevych(参考訳) これまでのニューラル検索は、短いテキストのランク付けに重点を置いており、長い文書に挑戦している。 ユーザは、ウィキペディアの記事や研究論文など、巨大なコーパスから、長いドキュメントの中で関連するパスを見つけたい場合が多い。 本稿では,このタスクをDAPR (emph{Document-Aware Passage Retrieval}) と呼ぶ。 State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5\%)は文書コンテキストの欠如に起因する。 これにより、異種ドメインからの複数のデータセットを含むこのタスクのベンチマークを構築することができます。 実験では,(1)BM25によるハイブリッド検索と(2)コンテキスト化された文節表現を用いて,文書コンテキストによる文節表現を通知することで,文書コンテキストでSoTAの文節検索を拡張した。 ハイブリット検索は,難解なクエリと難解なクエリが混在するクエリでは最強であるにもかかわらず,文書コンテキストの理解を必要とするハードクエリでは完全に失敗する。 一方、コンテクスト化された文節表現(例えば、先行する文書のタイトル)は、これらの難解なクエリを良く改善するが、全体的な性能もかなり悪い。 提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。 コードとデータはhttps://github.com/UKPLab/arxiv2023-dapr.comで公開されている。

The work of neural retrieval so far focuses on ranking short texts and is challenged with long documents. There are many cases where the users want to find a relevant passage within a long document from a huge corpus, e.g. Wikipedia articles, research papers, etc. We propose and name this task \emph{Document-Aware Passage Retrieval} (DAPR). While analyzing the errors of the State-of-The-Art (SoTA) passage retrievers, we find the major errors (53.5\%) are due to missing document context. This drives us to build a benchmark for this task including multiple datasets from heterogeneous domains. In the experiments, we extend the SoTA passage retrievers with document context via (1) hybrid retrieval with BM25 and (2) contextualized passage representations, which inform the passage representation with document context. We find despite that hybrid retrieval performs the strongest on the mixture of the easy and the hard queries, it completely fails on the hard queries that require document-context understanding. On the other hand, contextualized passage representations (e.g. prepending document titles) achieve good improvement on these hard queries, but overall they also perform rather poorly. Our created benchmark enables future research on developing and comparing retrieval systems for the new task. The code and the data are available at https://https://github.com/UKPLab/arxiv2023-dapr.
翻訳日:2024-02-14 01:08:17 公開日:2024-02-12
# 距離測度空間におけるランダム探索からバンディット学習へ

From Random Search to Bandit Learning in Metric Measure Spaces ( http://arxiv.org/abs/2305.11509v6 )

ライセンス: Link先を確認
Chuying Han, Yasong Feng, Tianyu Wang(参考訳) ランダム検索はハイパーパラメータ最適化の最も広く使われている手法の1つであり、ディープラーニングモデルの成功に不可欠である。 驚くべき性能にもかかわらず、基礎となる作用機構を記述するために非ヒューリスティック理論はほとんど開発されていない。 本稿ではランダム探索に関する理論的考察を行う。 本稿では,基礎となる関数のランドスケープを記述する「emph{scattering dimension}」の概念を導入し,ランダム探索の性能を定量化する。 環境がノイズのない場合、ランダム探索の出力はレート $ \widetilde{\mathcal{o}} \left( \left( \frac{1}{t} \right)^{ \frac{1}{d_s} } \right) $ の確率において最適値に収束する。 観測された関数値が有界な$iid$ノイズによって破損した場合、ランダム探索の出力は、$ \widetilde{\mathcal{O}} \left( \left( \frac{1}{T} \right)^{ \frac{1}{d_s + 1} } \right)$で確率の最適値に収束する。 さらに、ランダム探索の原理に基づいて、確率測度も同時に与えられるような距離空間の2倍化におけるリプシッツブライトに対して、BLiN-MOSと呼ばれるアルゴリズムを導入し、穏やかな条件下では、BLiN-MOSは次数 $ \widetilde{\mathcal{O}} \left(T^{ \frac{d_z}{d_z + 1} } \right)$, $d_z$ が問題インスタンスのズーム次元であることを示す。

Random Search is one of the most widely-used method for Hyperparameter Optimization, and is critical to the success of deep learning models. Despite its astonishing performance, little non-heuristic theory has been developed to describe the underlying working mechanism. This paper gives a theoretical accounting of Random Search. We introduce the concept of \emph{scattering dimension} that describes the landscape of the underlying function, and quantifies the performance of random search. We show that, when the environment is noise-free, the output of random search converges to the optimal value in probability at rate $ \widetilde{\mathcal{O}} \left( \left( \frac{1}{T} \right)^{ \frac{1}{d_s} } \right) $, where $ d_s \ge 0 $ is the scattering dimension of the underlying function. When the observed function values are corrupted by bounded $iid$ noise, the output of random search converges to the optimal value in probability at rate $ \widetilde{\mathcal{O}} \left( \left( \frac{1}{T} \right)^{ \frac{1}{d_s + 1} } \right) $. In addition, based on the principles of random search, we introduce an algorithm, called BLiN-MOS, for Lipschitz bandits in doubling metric spaces that are also endowed with a probability measure, and show that under mild conditions, BLiN-MOS achieves a regret rate of order $ \widetilde{\mathcal{O}} \left( T^{ \frac{d_z}{d_z + 1} } \right) $, where $d_z$ is the zooming dimension of the problem instance.
翻訳日:2024-02-14 01:07:27 公開日:2024-02-12
# 拡散言語モデルの生成は早期に停止できる

Diffusion Language Models Generation Can Be Halted Early ( http://arxiv.org/abs/2305.10818v4 )

ライセンス: Link先を確認
Sofia Maria Lo Cicero Vaina, Nikita Balagansky, Daniil Gavrilov(参考訳) 拡散言語モデル (DLMs) は, トラクタブル制御可能生成における実用性から, テキスト生成に期待できる道である。 また、テキストを自己回帰的に予測する必要がないという利点もある。 しかし、これらの特徴にもかかわらず、DLMはまだ自己回帰的な性能レベルに達していない。 これら2種類の言語モデルのパフォーマンスギャップを減らす方法の1つは、DLMの生成を高速化することである。 そこで本研究では,この問題に対処するための新しい手法を提案する。 これにより、与えられた時間枠内でより多くの生成ステップの実行が可能になり、高品質な出力につながる。 具体的には,テキスト生成のdlms完全性を推定し,生成プロセスの適応停止を可能にする。 我々は,Plaid,SSD,CDCD DLM上での手法の評価を行い,その生成ワークフローに関する密な視点を創出する。 最後に,本手法はモデルサンプルの品質を低下させることなく,これらのモデルを停止させ,生成時間を10ドル~40ドル\%削減できることを確認した。

Diffusion Language models (DLMs) are a promising avenue for text generation due to their practical properties on tractable controllable generation. They also have the advantage of not having to predict text autoregressively. However, despite these notable features, DLMs have not yet reached the performance levels of their autoregressive counterparts. One of the ways to reduce the performance gap between these two types of language models is to speed up the generation of DLMs. Therefore, we propose a novel methodology to address this issue in this work. It enables the execution of more generation steps within a given time frame, leading to higher-quality outputs. Specifically, our methods estimate DLMs completeness of text generation and allow adaptive halting of the generation process. We evaluate our methods on Plaid, SSD, and CDCD DLMs and create a cohesive perspective on their generation workflows. Finally, we confirm that our methods allow halting these models and decrease the generation time by $10$-$40$\% without a drop in the quality of model samples.
翻訳日:2024-02-14 01:06:42 公開日:2024-02-12
# ラショモン集合における特徴的相互作用点のクラウド探索

Exploring the cloud of feature interaction scores in a Rashomon set ( http://arxiv.org/abs/2305.10181v2 )

ライセンス: Link先を確認
Sichao Li, Rong Wang, Quanling Deng, Amanda Barnard(参考訳) 機能間の相互作用は、機械学習モデルの振る舞いを理解する中心である。 近年の研究では、単一予測モデルにおける特徴的相互作用の検出と定量化に大きく貢献している。 十分に訓練された予測モデルは、真の特徴的相互作用を保たないかもしれないし、特徴的相互作用の強さが異なる複数の優れた予測モデルが存在する。 そこで我々は,ほぼ同じ精度の予測モデルを用いたモデルクラスにおける特徴的相互作用強度の探索を推奨する。 そこで本研究では,Rashomon 集合のコンテキストにおける特徴相互作用スコア (FIS) を導入し,与えられたタスクに類似した精度のモデル集合を表現した。 モデルクラスのfisを計算するための汎用的かつ実用的なアルゴリズムを提案する。 合成データを用いてfisの特性を実証し,他の統計分野との接続性を示す。 さらに,高次元空間における特徴相互作用の分散を可視化するHaloプロットと,ラショモン集合におけるFISを解析するためのSwarmプロットを導入する。 回帰予測と画像分類による実験は、同様の精度の予測モデルにおいて、機能相互作用が劇的に重要であることを示す。 提案するfisは,機械学習モデルにおける特徴的相互作用の性質に関する貴重な洞察を与えることができることが示唆された。

Interactions among features are central to understanding the behavior of machine learning models. Recent research has made significant strides in detecting and quantifying feature interactions in single predictive models. However, we argue that the feature interactions extracted from a single pre-specified model may not be trustworthy since: a well-trained predictive model may not preserve the true feature interactions and there exist multiple well-performing predictive models that differ in feature interaction strengths. Thus, we recommend exploring feature interaction strengths in a model class of approximately equally accurate predictive models. In this work, we introduce the feature interaction score (FIS) in the context of a Rashomon set, representing a collection of models that achieve similar accuracy on a given task. We propose a general and practical algorithm to calculate the FIS in the model class. We demonstrate the properties of the FIS via synthetic data and draw connections to other areas of statistics. Additionally, we introduce a Halo plot for visualizing the feature interaction variance in high-dimensional space and a swarm plot for analyzing FIS in a Rashomon set. Experiments with recidivism prediction and image classification illustrate how feature interactions can vary dramatically in importance for similarly accurate predictive models. Our results suggest that the proposed FIS can provide valuable insights into the nature of feature interactions in machine learning models.
翻訳日:2024-02-14 01:06:27 公開日:2024-02-12
# より小さな言語モデルはブラックボックスマシン生成テキスト検出器より優れている

Smaller Language Models are Better Black-box Machine-Generated Text Detectors ( http://arxiv.org/abs/2305.09859v3 )

ライセンス: Link先を確認
Niloofar Mireshghallah, Justus Mattern, Sicun Gao, Reza Shokri, Taylor Berg-Kirkpatrick(参考訳) 人間が書いたものと非常によく似た説得力のある発話を生成できる流麗な生成言語モデルが出現すると、テキストが機械によって生成されたか、あるいは人間が書いたかの区別がより困難で重要になり、そのようなモデルは誤った情報や偽ニュース、偽レビュー、特定の著者や人物を模倣するために使われる。 この目的のために、マシン生成テキストを検出する手法が数多く提案されている。 これらのメソッドの多くは、ターゲットモデルのロジットにアクセスするか、ターゲットからサンプリングする機能を必要とする。 そのようなブラックボックス検出方法の1つは、生成したテキストが生成者の可能性関数の下で局所的に最適であるという観察に依存している。 全体として、より小さく、部分的に訓練されたモデルは、より普遍的なテキスト検出器として、より正確に、小モデルと大モデルの両方から生成されたテキストを検出できる。 興味深いことに、検出器とジェネレータが同じデータで訓練されたかどうかは、検出の成功にとって重要ではない。 例えば、OPT-125Mモデルは、ChatGPT世代を検出するのにAUCが0.81であり、GPTファミリーのGPTJ-6BはAUCが0.45である。

With the advent of fluent generative language models that can produce convincing utterances very similar to those written by humans, distinguishing whether a piece of text is machine-generated or human-written becomes more challenging and more important, as such models could be used to spread misinformation, fake news, fake reviews and to mimic certain authors and figures. To this end, there have been a slew of methods proposed to detect machine-generated text. Most of these methods need access to the logits of the target model or need the ability to sample from the target. One such black-box detection method relies on the observation that generated text is locally optimal under the likelihood function of the generator, while human-written text is not. We find that overall, smaller and partially-trained models are better universal text detectors: they can more precisely detect text generated from both small and larger models. Interestingly, we find that whether the detector and generator were trained on the same data is not critically important to the detection success. For instance the OPT-125M model has an AUC of 0.81 in detecting ChatGPT generations, whereas a larger model from the GPT family, GPTJ-6B, has AUC of 0.45.
翻訳日:2024-02-14 01:06:05 公開日:2024-02-12
# ソフトウェア分析に生涯学習を採用するコストとメリットについて -ブラウンビルドとリスク予測に関する実証的研究-

On the Costs and Benefits of Adopting Lifelong Learning for Software Analytics -- Empirical Study on Brown Build and Risk Prediction ( http://arxiv.org/abs/2305.09824v2 )

ライセンス: Link先を確認
Doriane Olewicki, Sarra Habchi, Mathieu Nayrolles, Mojtaba Faramarzi, Sarath Chandar, Bram Adams(参考訳) 今日では、例えばコード変更のリスクを予測する機械学習(ML)モデルを用いたソフトウェア分析ツールが十分に確立されています。 しかしながら、プロジェクトの目標が時間とともに変化し、開発者とその習慣が変わるにつれて、これらのモデルのパフォーマンスは時間の経過とともに低下する傾向にあります。 現在のリトレーニングのプラクティスでは、パフォーマンスの低下が観測された場合、大きな更新データセット上でスクラッチから新しいモデルをトレーニングする必要があるため、計算コストが発生する。 文献はオンライン学習アプローチに関心を寄せてきたが,産業環境において統合・評価されることは稀である。 本稿では,ユビソフトにおける産業用ユースケースにおける生涯学習(LL)の活用について検討し,産業界で一般的に使用されている再学習・スクラッチ手法と比較して,性能と必要な計算労力の両方を評価した。 llは、新しいデータを使用して古いモデルを段階的に更新するインクリメンタル学習器を使用して、mlベースのソフトウェア分析ツールを継続的に構築および維持するために使用される。 重要な古いデータポイントのいわゆる“破滅的忘れ”を避けるために、私たちは古いデータのリプレイバッファを採用しています。

Nowadays, software analytics tools using machine learning (ML) models to, for example, predict the risk of a code change are well established. However, as the goals of a project shift over time, and developers and their habits change, the performance of said models tends to degrade (drift) over time. Current retraining practices typically require retraining a new model from scratch on a large updated dataset when performance decay is observed, thus incurring a computational cost; also there is no continuity between the models as the past model is discarded and ignored during the new model training. Even though the literature has taken interest in online learning approaches, those have rarely been integrated and evaluated in industrial environments. This paper evaluates the use of lifelong learning (LL) for industrial use cases at Ubisoft, evaluating both the performance and the required computational effort in comparison to the retraining-from-scratch approaches commonly used by the industry. LL is used to continuously build and maintain ML-based software analytics tools using an incremental learner that progressively updates the old model using new data. To avoid so-called "catastrophic forgetting" of important older data points, we adopt a replay buffer of older data, which still allows us to drastically reduce the size of the overall training dataset, and hence model training time.
翻訳日:2024-02-14 01:05:41 公開日:2024-02-12
# 宇宙天気研究のための太陽活動領域磁図画像データセット

Solar Active Region Magnetogram Image Dataset for Studies of Space Weather ( http://arxiv.org/abs/2305.09492v3 )

ライセンス: Link先を確認
Laura E. Boucheron, Ty Vincent, Jeremy A. Grajeda, Ellery Wuest(参考訳) このデータセットでは、NASAのソーラー・ダイナミクス・オブザーバ(Solar Dynamics Observatory, SDO)から、磁気グラム(磁場の強さを定量化するイメージ)の包括的なコレクションを提供しています。 このデータセットは、3つのソースからのデータを組み込んで、太陽活動領域(大磁束の領域、一般的には噴火イベントの源)のsdo helioseismic and magnetic imager (hmi)磁図と対応するフレリング活性のラベルを提供する。 このデータセットは、磁気構造、時間経過に伴う進化、太陽フレアとの関係に関する画像解析や太陽物理学の研究に有用である。 このデータセットは、教師付きおよび教師なしの機械学習(古典的および深層)、バイナリとマルチクラスの分類、回帰を含む、自動的な太陽フレア予測方法を研究する研究者にとって興味深い。 このデータセットは、太陽フレア予測研究のベンチマークデータセットとして機能する、太陽活動領域の一貫した大きさの画像による、最小限の処理とユーザ設定が可能なデータセットである。

In this dataset we provide a comprehensive collection of magnetograms (images quantifying the strength of the magnetic field) from the National Aeronautics and Space Administration's (NASA's) Solar Dynamics Observatory (SDO). The dataset incorporates data from three sources and provides SDO Helioseismic and Magnetic Imager (HMI) magnetograms of solar active regions (regions of large magnetic flux, generally the source of eruptive events) as well as labels of corresponding flaring activity. This dataset will be useful for image analysis or solar physics research related to magnetic structure, its evolution over time, and its relation to solar flares. The dataset will be of interest to those researchers investigating automated solar flare prediction methods, including supervised and unsupervised machine learning (classical and deep), binary and multi-class classification, and regression. This dataset is a minimally processed, user configurable dataset of consistently sized images of solar active regions that can serve as a benchmark dataset for solar flare prediction research.
翻訳日:2024-02-14 01:05:17 公開日:2024-02-12
# 偏微分方程式を解く物理インフォームドトークン変換器

Physics Informed Token Transformer for Solving Partial Differential Equations ( http://arxiv.org/abs/2305.08757v3 )

ライセンス: Link先を確認
Cooper Lorsung, Zijie Li, Amir Barati Farimani(参考訳) 偏微分方程式 (Partial Differential Equations, PDE) は、科学と工学の多くの分野の中核である。 古典的なアプローチはしばしば違法に遅いが、機械学習モデルはシステム情報を完全に組み込むことができないことが多い。 過去数年間、トランスフォーマーは人工知能の分野に大きな影響を与え、PDEアプリケーションでの利用が増加している。 しかし、その成功にもかかわらず、現在トランスフォーマーは物理と推論の統合を欠いている。 本研究の目的は、PITT: Physics Informed Token Transformerを導入することである。 PITTの目的は、偏微分方程式(PDE)を学習プロセスに埋め込むことによって物理学の知識を統合することである。 PITTは方程式トークン化法を用いて解析駆動型数値更新演算子を学習する。 PDEのトークン化と部分微分の埋め込みにより、トランスフォーマーモデルは物理過程の背後にある基礎知識を認識する。 これを証明するために、PITTは1Dと2DのPDEニューラル演算子予測タスクに挑戦する。 その結果,pitは一般的なニューラル演算子モデルよりも優れており,制御方程式から物理的に関連のある情報を抽出できることがわかった。

Solving Partial Differential Equations (PDEs) is the core of many fields of science and engineering. While classical approaches are often prohibitively slow, machine learning models often fail to incorporate complete system information. Over the past few years, transformers have had a significant impact on the field of Artificial Intelligence and have seen increased usage in PDE applications. However, despite their success, transformers currently lack integration with physics and reasoning. This study aims to address this issue by introducing PITT: Physics Informed Token Transformer. The purpose of PITT is to incorporate the knowledge of physics by embedding partial differential equations (PDEs) into the learning process. PITT uses an equation tokenization method to learn an analytically-driven numerical update operator. By tokenizing PDEs and embedding partial derivatives, the transformer models become aware of the underlying knowledge behind physical processes. To demonstrate this, PITT is tested on challenging 1D and 2D PDE neural operator prediction tasks. The results show that PITT outperforms popular neural operator models and has the ability to extract physically relevant information from governing equations.
翻訳日:2024-02-14 01:04:58 公開日:2024-02-12
# 一般化結合と量子シュール変換のための基本アルゴリズム

Generalised Coupling and An Elementary Algorithm for the Quantum Schur Transform ( http://arxiv.org/abs/2305.04069v3 )

ライセンス: Link先を確認
Adam Wills, Sergii Strelchuk(参考訳) 量子シューア変換(quantum schur transform)は、計算基底をユニタリ群と対称群の既約表現からなる結合基底に写像する基本的な構成ブロックである。 等価に、これは計算基底から置換量子コンピューティング(pqc)の同時スピン固有ベイシスへの基底の変化と見なすことができる [量子 inf. comput., 10, 470-497 (2010)]。 後者の観点を採用することにより、$O(\log(n))$ ancillas を用いて、$O(n^3\log(n)\log(\frac{n}{\epsilon}))$ Clifford + T gates の列に分解できるような量子シュア変換を実装するための透明なアルゴリズムを提案する。 本稿では,この操作をアイソメトリではなくユニタリとして実装するアプリケーションの必要性について論じる。 クレプシュ・ゴルダン係数によって結合された量子ビットからなるシュール状態を研究することにより、一般結合量子状態の概念を導入する。 我々は6つの条件を提示し、異なる組み合わせで量子コンピュータ上のこれらの状態の効率的な生成や(計算容量の意味で)古典的シミュラビリティを保証する。 wigner 6-j 記号と su(n) clebsch-gordan 係数は自然に我々の枠組みに適合する。 最後に,計算可能状態のクラスを保存するユニタリ変換について検討する。

The quantum Schur transform is a fundamental building block that maps the computational basis to a coupled basis consisting of irreducible representations of the unitary and symmetric groups. Equivalently, it may be regarded as a change of basis from the computational basis to a simultaneous spin eigenbasis of Permutational Quantum Computing (PQC) [Quantum Inf. Comput., 10, 470-497 (2010)]. By adopting the latter perspective, we present a transparent algorithm for implementing the qubit quantum Schur transform which uses $O(\log(n))$ ancillas and can be decomposed into a sequence of $O(n^3\log(n)\log(\frac{n}{\epsilon}))$ Clifford + T gates, where $\epsilon$ is the accuracy of the algorithm in terms of the trace norm. We discuss the necessity for some applications of implementing this operation as a unitary rather than an isometry, as is often presented. By studying the associated Schur states, which consist of qubits coupled via Clebsch-Gordan coefficients, we introduce the notion of generally coupled quantum states. We present six conditions, which in different combinations ensure the efficient preparation of these states on a quantum computer or their classical simulability (in the sense of computational tractability). It is shown that Wigner 6-j symbols and SU(N) Clebsch-Gordan coefficients naturally fit our framework. Finally, we investigate unitary transformations which preserve the class of computationally tractable states.
翻訳日:2024-02-14 01:04:23 公開日:2024-02-12
# StyleLipSync:スタイルベースのパーソナライズされたリップ同期ビデオ生成

StyleLipSync: Style-based Personalized Lip-sync Video Generation ( http://arxiv.org/abs/2305.00521v2 )

ライセンス: Link先を確認
Taekyung Ki and Dongchan Min(参考訳) 本稿では,スタイルベースでパーソナライズされたリップ同期ビデオ生成モデルであるStyleLipSyncを提案する。 任意のアイデンティティの動画を生成するために,事前学習したStyleGANのセマンティックにリッチな潜伏空間から先行して表現的リップを利用して,線形変換による映像の一貫性を設計する。 従来のリップシンク法とは対照的に,3次元パラメトリックメッシュ予測フレームをフレーム単位で利用することにより,マスクを動的に位置決めし,フレーム上の自然性を改善するポーズアウェアマスクを導入する。 さらに,人間特有の視覚情報を高めつつ,リップシンクの一般化を保った同期調整器を導入することにより,任意の人物に対して数ショットのリップシンク適応手法を提案する。 広汎な実験により,提案手法により,ゼロショット設定でも正確なリップシンク映像を生成でき,数秒の目標映像を用いて顔の特徴を向上できることが示された。

In this paper, we present StyleLipSync, a style-based personalized lip-sync video generative model that can generate identity-agnostic lip-synchronizing video from arbitrary audio. To generate a video of arbitrary identities, we leverage expressive lip prior from the semantically rich latent space of a pre-trained StyleGAN, where we can also design a video consistency with a linear transformation. In contrast to the previous lip-sync methods, we introduce pose-aware masking that dynamically locates the mask to improve the naturalness over frames by utilizing a 3D parametric mesh predictor frame by frame. Moreover, we propose a few-shot lip-sync adaptation method for an arbitrary person by introducing a sync regularizer that preserves lip-sync generalization while enhancing the person-specific visual information. Extensive experiments demonstrate that our model can generate accurate lip-sync videos even with the zero-shot setting and enhance characteristics of an unseen face using a few seconds of target video through the proposed adaptation method.
翻訳日:2024-02-14 01:03:56 公開日:2024-02-12
# 円錐交差検出のためのハイブリッド量子アルゴリズム

A hybrid quantum algorithm to detect conical intersections ( http://arxiv.org/abs/2304.06070v2 )

ライセンス: Link先を確認
Emiel Koridon, Joana Fraxanet, Alexandre Dauphin, Lucas Visscher, Thomas E. O'Brien, Stefano Polla(参考訳) 円錐交差は、光異性化や非放射緩和のような化学過程において重要な役割を果たすことが知られている分子ハミルトニアンのポテンシャルエネルギー面間の位相的に保護された交差である。 それらは非ゼロベリー位相によって特徴づけられ、これは原子座標空間の閉路上で定義される位相不変量であり、経路が交叉多様体を囲むときの値は$\pi$である。 本研究では,実分子ハミルトニアンに対して,選択経路に沿った変分アンサッツの局所的最適値を追跡し,制御のないアダマール検定により初期状態と最終状態の重なりを推定することによりベリー相が得られることを示す。 さらに、パスを$N$ポイントに識別することで、N$シングルNewton-Raphsonステップを使用して、ステートを非変動的に更新することができる。 最後に、ベリー位相は2つの離散値(0 または $\pi$)しか取ることができないので、定数で区切られた累積誤差であっても、この手順は成功する。 フォーマルジミン分子 (\ce{H2C=NH}) の小さな玩具モデルへのアルゴリズムの適用を数値的に示す。

Conical intersections are topologically protected crossings between the potential energy surfaces of a molecular Hamiltonian, known to play an important role in chemical processes such as photoisomerization and non-radiative relaxation. They are characterized by a non-zero Berry phase, which is a topological invariant defined on a closed path in atomic coordinate space, taking the value $\pi$ when the path encircles the intersection manifold. In this work, we show that for real molecular Hamiltonians, the Berry phase can be obtained by tracing a local optimum of a variational ansatz along the chosen path and estimating the overlap between the initial and final state with a control-free Hadamard test. Moreover, by discretizing the path into $N$ points, we can use $N$ single Newton-Raphson steps to update our state non-variationally. Finally, since the Berry phase can only take two discrete values (0 or $\pi$), our procedure succeeds even for a cumulative error bounded by a constant; this allows us to bound the total sampling cost and to readily verify the success of the procedure. We demonstrate numerically the application of our algorithm on small toy models of the formaldimine molecule (\ce{H2C=NH}).
翻訳日:2024-02-14 01:03:28 公開日:2024-02-12
# グラフ上の逆問題に対する量子計算アルゴリズムとNP完全逆問題

Quantum computing algorithms for inverse problems on graphs and an NP-complete inverse problem ( http://arxiv.org/abs/2306.05253v2 )

ライセンス: Link先を確認
Joonas Ilmavirta, Matti Lassas, Jinpeng Lu, Lauri Oksanen, Lauri Ylinen(参考訳) 有限グラフ $(x,e)$ の逆問題を考えると、頂点 $b\subset x$ の部分集合と距離 $d_{(x,e)}(b_1,b_2)$ のすべての頂点 $b_1,b_2\in b$ が与えられる。 点距離$x_1,x_2\in X$ は、2つの頂点を結ぶのに必要なエッジの最小数として定義される。 逆問題(英: inverse problem)とは、リーマン幾何学における境界剛性問題や地球物理学における逆旅行時間問題の離散版である。 この問題には特定の条件下でのユニークな解法があることを示し、それを解決するための量子コンピューティング手法を開発する。 例えば、$(x,e)$ が木であり、$b$ が木の葉の集合であるとき、グラフ $(x,e)$ は、一定の数の頂点を持つすべてのグラフのクラスにおいて一意的に決定できる。 グラフ$(X,E)$,あるいはそれらのうちの1つを生成する量子計算アルゴリズムについて,与えられた頂点数と頂点間の所要距離を$B$で表現する。 そこで我々はグラフの量子ビット表現を取り込んでグローバーの探索アルゴリズムと組み合わせるアルゴリズムを開発した。 このアルゴリズムは$O(|X|^2)$ qubitsだけで実装できるが、これは隣接行列の$(X,E)$の要素の数と同じ順序である。 また、従来のアルゴリズムに比べて計算コストが2倍に向上している。 最後に、計算理論の応用を考察し、上述の逆問題に対する若干の修正がNP完全であることを示し、全てのNPプロブレムを離散逆問題に還元することができる。

We consider an inverse problem for a finite graph $(X,E)$ where we are given a subset of vertices $B\subset X$ and the distances $d_{(X,E)}(b_1,b_2)$ of all vertices $b_1,b_2\in B$. The distance of points $x_1,x_2\in X$ is defined as the minimal number of edges needed to connect two vertices, so all edges have length 1. The inverse problem is a discrete version of the boundary rigidity problem in Riemannian geometry or the inverse travel time problem in geophysics. We will show that this problem has unique solution under certain conditions and develop quantum computing methods to solve it. We prove the following uniqueness result: when $(X,E)$ is a tree and $B$ is the set of leaves of the tree, the graph $(X,E)$ can be uniquely determined in the class of all graphs having a fixed number of vertices. We present a quantum computing algorithm which produces a graph $(X,E)$, or one of those, which has a given number of vertices and the required distances between vertices in $B$. To this end we develop an algorithm that takes in a qubit representation of a graph and combine it with Grover's search algorithm. The algorithm can be implemented using only $O(|X|^2)$ qubits, the same order as the number of elements in the adjacency matrix of $(X,E)$. It also has a quadratic improvement in computational cost compared to standard classical algorithms. Finally, we consider applications in theory of computation, and show that a slight modification of the above inverse problem is NP-complete: all NP-problems can be reduced to a discrete inverse problem we consider.
翻訳日:2024-02-14 00:55:55 公開日:2024-02-12
# 駐車場入居検知における深層学習手法の改訂

Revising deep learning methods in parking lot occupancy detection ( http://arxiv.org/abs/2306.04288v3 )

ライセンス: Link先を確認
Anastasia Martynova, Mikhail Kuznetsov, Vadim Porvatov, Vladislav Tishin, Andrey Kuznetsov, Natalia Semenova, Ksenia Kuznetsova(参考訳) 駐車場案内システムは近年,スマートシティの発展パラダイムの一部として人気が高まっている。 このようなシステムの重要な部分は、ドライバーが関心のある地域をまたいで利用可能な駐車場を検索できるアルゴリズムである。 このタスクの古典的なアプローチは、ニューラルネットワーク分類器のカメラレコードへの応用に基づいている。 しかし、既存のシステムは、特定の視覚条件に関する一般化能力や適切なテストの欠如を示している。 本研究では、現在最先端の駐車場占有率検出アルゴリズムを広く評価し、その予測品質を最近登場した視覚変換器と比較し、EfficientNetアーキテクチャに基づく新しいパイプラインを提案する。 性能計算実験により, 5つの異なるデータセットで評価したモデルの場合, 性能が向上することを示した。

Parking guidance systems have recently become a popular trend as a part of the smart cities' paradigm of development. The crucial part of such systems is the algorithm allowing drivers to search for available parking lots across regions of interest. The classic approach to this task is based on the application of neural network classifiers to camera records. However, existing systems demonstrate a lack of generalization ability and appropriate testing regarding specific visual conditions. In this study, we extensively evaluate state-of-the-art parking lot occupancy detection algorithms, compare their prediction quality with the recently emerged vision transformers, and propose a new pipeline based on EfficientNet architecture. Performed computational experiments have demonstrated the performance increase in the case of our model, which was evaluated on 5 different datasets.
翻訳日:2024-02-14 00:54:58 公開日:2024-02-12
# 量子ニューラルネットワークによるバイオマーカー発見:CTLA4活性化経路のケーススタディ

Biomarker Discovery with Quantum Neural Networks: A Case-study in CTLA4-Activation Pathways ( http://arxiv.org/abs/2306.01745v2 )

ライセンス: Link先を確認
Nam Nguyen(参考訳) バイオマーカーの発見は、膨大な検索スペースのために難しい課題だ。 量子コンピューティングと量子人工知能(量子AI)は、バイオマーカー発見タスクの計算問題に対処するために用いられる。 入力活性化経路のバイオマーカーを発見するために,量子ニューラルネットワーク(QNN)アーキテクチャを提案する。 バイオマーカー候補集合の最大関連性, 最小冗長性 (mRMR) 基準を用いる。 提案モデルは,制約されたハードウェア上でニューラルネットワークを配信できるため,経済性が高い。 我々は, (1) CTLA4-activation stand-alone, (2) CTLA4-CD8A-CD8B co-activation, (3) CTLA4-CD2 co-activation, (4) CTLA4-CD2-CD48-CD58-CD84 co-activationを含む, CTLA4の4つの活性化経路に関する概念実証を行った。 CLIC4, CPE, ETS2, FAM107A, GPR116, HYOU1, LCN2, MACF1, MT1G, NAPA, NDUFS5, PAK1, PFN1, PGAP3, PPM1G, PSMD8, RNF213, SLC25A3, UBA1, WLSを含むCLTA4関連経路の突然変異活性化に関与する新規なバイオマーカーを示す。 https://github.com/namnguyen0510/Biomarker-Discovery-with-Quantum-Neural-Networks。

Biomarker discovery is a challenging task due to the massive search space. Quantum computing and quantum Artificial Intelligence (quantum AI) can be used to address the computational problem of biomarker discovery tasks. We propose a Quantum Neural Networks (QNNs) architecture to discover biomarkers for input activation pathways. The Maximum Relevance, Minimum Redundancy (mRMR) criteria is used to score biomarker candidate sets. Our proposed model is economical since the neural solution can be delivered on constrained hardware. We demonstrate the proof of concept on four activation pathways associated with CTLA4, including (1) CTLA4-activation stand-alone, (2) CTLA4-CD8A-CD8B co-activation, (3) CTLA4-CD2 co-activation, and (4) CTLA4-CD2-CD48-CD53-CD58-CD84 co-activation. The model indicates new biomarkers associated with the mutational activation of CLTA4-associated pathways, including 20 genes: CLIC4, CPE, ETS2, FAM107A, GPR116, HYOU1, LCN2, MACF1, MT1G, NAPA, NDUFS5, PAK1, PFN1, PGAP3, PPM1G, PSMD8, RNF213, SLC25A3, UBA1, and WLS. We open source the implementation at: https://github.com/namnguyen0510/Biomarker-Discovery-with-Quantum-Neural-Networks.
翻訳日:2024-02-14 00:53:57 公開日:2024-02-12
# 最初の推測バイアス:未訓練のネットワークがクラスをいかに好んでいるか

Initial Guessing Bias: How Untrained Networks Favor Some Classes ( http://arxiv.org/abs/2306.00809v3 )

ライセンス: Link先を確認
Emanuele Francazi, Aurelien Lucchi, Marco Baity-Jesi(参考訳) ニューラルネットワークにおけるバイアス効果の理解と制御は、正確かつ公平なモデル性能を確保するために不可欠である。 分類問題の文脈において、深層ニューラルネットワーク(DNN)の構造が、訓練の開始前や明示的なバイアスがない場合でも、全ての予測を同じクラスに割り当てるようにモデルを条件付けることができることを示す理論的分析を提供する。 我々は,データセット特性以外にも,データセット前処理手法を含むモデル選択や,アクティベーション関数,最大プール層,ネットワーク深さなどのアーキテクチャ決定の影響を受け,この現象の存在を<textit{initial Guessing Bias} (IGB) と呼ぶ。 IGBの分析はアーキテクチャの選択とモデル初期化のための情報を提供する。 また、ノード置換対称性の崩壊、自己破壊の違反、深さが現象に与える非自明な影響など、理論的な結果も強調する。

Understanding and controlling biasing effects in neural networks is crucial for ensuring accurate and fair model performance. In the context of classification problems, we provide a theoretical analysis demonstrating that the structure of a deep neural network (DNN) can condition the model to assign all predictions to the same class, even before the beginning of training, and in the absence of explicit biases. We prove that, besides dataset properties, the presence of this phenomenon, which we call \textit{Initial Guessing Bias} (IGB), is influenced by model choices including dataset preprocessing methods, and architectural decisions, such as activation functions, max-pooling layers, and network depth. Our analysis of IGB provides information for architecture selection and model initialization. We also highlight theoretical consequences, such as the breakdown of node-permutation symmetry, the violation of self-averaging and the non-trivial effects that depth has on the phenomenon.
翻訳日:2024-02-14 00:53:14 公開日:2024-02-12
# 非凸滑らか関数に対する漸進勾配の収束について

On Convergence of Incremental Gradient for Non-Convex Smooth Functions ( http://arxiv.org/abs/2305.19259v4 )

ライセンス: Link先を確認
Anastasia Koloskova, Nikita Doikov, Sebastian U. Stich, Martin Jaggi(参考訳) 機械学習とニューラルネットワーク最適化では、キャッシュミスの数を最小限に抑え、実用的な収束挙動を良くするため、インクリメンタル勾配やシャッフルSGDのようなアルゴリズムが人気である。 しかし、理論におけるそれらの最適化特性、特に非凸滑らかな函数は、いまだに不完全である。 本稿では, 任意のデータ順序付けによるSGDアルゴリズムの収束特性を, 非凸スムーズ関数の広い枠組み内で検討する。 以上の結果より,インクリメンタル勾配と単一シャッフルSGDのコンバージェンス保証が向上した。 特に$n$がトレーニングセットのサイズであれば、コンバージェンス保証の最適化期間を$n$倍にし、精度を$o(n / \varepsilon)$から$o(1 / \varepsilon)$にする。

In machine learning and neural network optimization, algorithms like incremental gradient, and shuffle SGD are popular due to minimizing the number of cache misses and good practical convergence behavior. However, their optimization properties in theory, especially for non-convex smooth functions, remain incompletely explored. This paper delves into the convergence properties of SGD algorithms with arbitrary data ordering, within a broad framework for non-convex smooth functions. Our findings show enhanced convergence guarantees for incremental gradient and single shuffle SGD. Particularly if $n$ is the training set size, we improve $n$ times the optimization term of convergence guarantee to reach accuracy $\varepsilon$ from $O(n / \varepsilon)$ to $O(1 / \varepsilon)$.
翻訳日:2024-02-14 00:52:42 公開日:2024-02-12
# BadLabel: ラベルノイズ学習の評価と改善に関するロバストな視点

BadLabel: A Robust Perspective on Evaluating and Enhancing Label-noise Learning ( http://arxiv.org/abs/2305.18377v2 )

ライセンス: Link先を確認
Jingfeng Zhang, Bo Song, Haohan Wang, Bo Han, Tongliang Liu, Lei Liu, Masashi Sugiyama(参考訳) ラベルノイズ学習(LNL)は、ノイズラベルを用いたトレーニングデータに基づいてモデルの一般化を促進することを目的としている。 実用的なLNLアルゴリズムを実現するために、研究者はクラス条件からインスタンス依存ノイズまで様々なラベルノイズタイプを提案している。 本稿では,既存のlnlアルゴリズムの性能を大きなマージンで著しく低下させることができるbadlabelというラベルノイズ型を提案する。 badlabelは、特定のサンプルを選択してラベルを他のラベルにフリップすることで、クリーンでノイズの多いラベルの損失値が区別不能になるような、標準分類に対するラベルフリッピング攻撃に基づいて作成される。 さらに,badlabelが提示する課題に対処するために,各時代においてラベルを逆さまに摂動させるロバストなlnl法を提案し,クリーンラベルとノイズラベルの損失値を再度識別する。 ラベル付きデータの小さなセットを一度選択すれば、セミ教師付き学習のテクニックを適用してモデルを正確に訓練することができる。 実験の結果,既存のlnlアルゴリズムが新たに導入されたbadlabelノイズタイプに対して脆弱であることを実証し,提案するロバストなlnl手法は様々なラベルノイズ下でのモデルの一般化性能を効果的に向上できることを示した。 ノイズの多いラベルの新しいデータセットとロバストなLNLアルゴリズムのソースコードはhttps://github.com/zjfheart/BadLabelsで入手できる。

Label-noise learning (LNL) aims to increase the model's generalization given training data with noisy labels. To facilitate practical LNL algorithms, researchers have proposed different label noise types, ranging from class-conditional to instance-dependent noises. In this paper, we introduce a novel label noise type called BadLabel, which can significantly degrade the performance of existing LNL algorithms by a large margin. BadLabel is crafted based on the label-flipping attack against standard classification, where specific samples are selected and their labels are flipped to other labels so that the loss values of clean and noisy labels become indistinguishable. To address the challenge posed by BadLabel, we further propose a robust LNL method that perturbs the labels in an adversarial manner at each epoch to make the loss values of clean and noisy labels again distinguishable. Once we select a small set of (mostly) clean labeled data, we can apply the techniques of semi-supervised learning to train the model accurately. Empirically, our experimental results demonstrate that existing LNL algorithms are vulnerable to the newly introduced BadLabel noise type, while our proposed robust LNL method can effectively improve the generalization performance of the model under various types of label noise. The new dataset of noisy labels and the source codes of robust LNL algorithms are available at https://github.com/zjfheart/BadLabels.
翻訳日:2024-02-14 00:52:30 公開日:2024-02-12
# 準静的近似を超えた時間依存ハミルトニアンの量子シミュレーション

Quantum simulations of time-dependent Hamiltonians beyond the quasi-static approximation ( http://arxiv.org/abs/2305.17097v3 )

ライセンス: Link先を確認
Boyuan Shi and Florian Mintert(参考訳) 時間依存量子系のアナログ量子シミュレーションへの既存のアプローチは、時間依存量子系の量子シミュレーションに対する摂動補正に依存している。 流れ方程式と多モードフーリエ展開に基づくアプローチにより, 摂動処理に対するこの制限を克服した。 我々のアプローチで実現可能な量子シミュレーションのポテンシャルは、駆動された非相互作用ハバード系におけるチャーン絶縁体の量子相転移を通じて、Lambda-systemとquenchの有限時間でのペタゴニカルな例で示される。 lambda-systemの例は、断熱近似の妥当性を超えて状況を記述するためのアプローチの能力を示しています。

Existing approaches to analogue quantum simulations of time-dependent quantum systems rely on perturbative corrections to quantum simulations of time-independent quantum systems. We overcome this restriction to perturbative treatments with an approach based on flow equations and a multi-mode Fourier expansion. The potential of the quantum simulations that can be achieved with our approach is demonstrated with the pedagogical example of a Lambda-system and the quench in finite time through a quantum phase transition of a Chern insulator in a driven non-interacting Hubbard system. The example of the Lambda-system demonstrates the ability of our approach to describe situations beyond the validity of adiabatic approximations.
翻訳日:2024-02-14 00:52:03 公開日:2024-02-12
# 非マッピング環境におけるマルチ車両ルーティングのための分散オンラインロールアウト

Distributed Online Rollout for Multivehicle Routing in Unmapped Environments ( http://arxiv.org/abs/2305.15596v2 )

ライセンス: Link先を確認
Jamison W. Weber, Dhanush R. Giriyan, Devendra R. Parkar, Andr\'ea W. Richa, Dimitri P. Bertsekas(参考訳) 本研究では,ネットワーク,ノードのサブセットを占有するエージェント群,タスク群が与えられた場合,各タスクが少なくとも1回はエージェントに訪問されるという制約を満たした最小コストの動作列を求める。 この問題の古典的なバージョンは、システムの状態を完全に監視し、集中制御方式に従って個々のエージェントに指示する中央計算サーバを想定している。 対照的に、集中型サーバはなく、各エージェントは、基盤となるネットワーク(タスクとエージェントの位置を含む)の事前知識を持たない個々のプロセッサである、と仮定する。 さらに、エージェントは、厳密な局所的コミュニケーションとセンシング能力(それぞれの位置の固定半径に制限される)を持ち、現実世界の複数のマルチエージェントアプリケーションとより密接に連携している。 これらの制限は、ローカル情報共有とエージェント間の直接調整によって克服される多くの課題をもたらす。 この問題に対して,エージェントをローカルクラスタに自己組織化し,各クラスタに個別にマルチエージェントロールアウトスキームを適用する,完全分散,オンライン,スケーラブルな強化学習アルゴリズムを提案する。 我々は,分散ロールアウトアルゴリズムが欲望ベースポリシーよりも改善し始める臨界センシング半径が存在することを,広範囲なシミュレーションにより実証的に示す。 この臨界センシング半径は、ネットワークの大きさの$\log^*$関数に比例して増加し、従って、関連するネットワークに対して小さな定数である。 分散強化学習アルゴリズムは, 臨界センシング半径の2倍, 3倍の範囲のradiiのベースポリシーに対して, 約2倍のコスト改善を実現する。

In this work we consider a generalization of the well-known multivehicle routing problem: given a network, a set of agents occupying a subset of its nodes, and a set of tasks, we seek a minimum cost sequence of movements subject to the constraint that each task is visited by some agent at least once. The classical version of this problem assumes a central computational server that observes the entire state of the system perfectly and directs individual agents according to a centralized control scheme. In contrast, we assume that there is no centralized server and that each agent is an individual processor with no a priori knowledge of the underlying network (including task and agent locations). Moreover, our agents possess strictly local communication and sensing capabilities (restricted to a fixed radius around their respective locations), aligning more closely with several real-world multiagent applications. These restrictions introduce many challenges that are overcome through local information sharing and direct coordination between agents. We present a fully distributed, online, and scalable reinforcement learning algorithm for this problem whereby agents self-organize into local clusters and independently apply a multiagent rollout scheme locally to each cluster. We demonstrate empirically via extensive simulations that there exists a critical sensing radius beyond which the distributed rollout algorithm begins to improve over a greedy base policy. This critical sensing radius grows proportionally to the $\log^*$ function of the size of the network, and is, therefore, a small constant for any relevant network. Our decentralized reinforcement learning algorithm achieves approximately a factor of two cost improvement over the base policy for a range of radii bounded from below and above by two and three times the critical sensing radius, respectively.
翻訳日:2024-02-14 00:51:18 公開日:2024-02-12
# 高次タスクアフィニティによるグラフ上のマルチタスク学習の促進

Boosting Multitask Learning on Graphs through Higher-Order Task Affinities ( http://arxiv.org/abs/2306.14009v3 )

ライセンス: Link先を確認
Dongyue Li, Haotian Ju, Aneesh Sharma, and Hongyang R. Zhang(参考訳) 与えられたグラフ上のノードラベルの予測は、コミュニティ検出や分子グラフ予測など、多くのアプリケーションで広く研究されている問題である。 本稿では,グラフ上の複数のノードラベリング関数を同時に予測し,マルチタスク学習の観点からこの問題を再考する。 各コミュニティメンバシップはバイナリノード分類タスクである。 マルチタスク学習を複数のコミュニティ検出に適用した場合,タスク関係はノードのラベル付けによって非常に非線形であるため,複雑な重複パターンにより負の移動が頻繁に発生する。 この課題に対処するため,高次タスク親和性尺度に基づくグループにタスクをクラスタリングするアルゴリズムを開発した。 そして、各タスクグループにマルチタスクモデルを適合させ、ベースラインモデルの上にブースティング手順を発生させます。 他のタスクと他のタスクのランダムなサブセットの存在下での1つのタスクの予測損失として、2つのタスク間の高次タスク親和性測度を推定する。 次に,アフィニティスコア行列上のスペクトルクラスタリングを用いてタスクグルーピングを同定する。 高次アフィニティスコアを効率的に計算するための速度アップ手法をいくつか設計し,ペアワイズタスクアフィニティよりも高い精度で負の転送を予測できることを示した。 各種のコミュニティ検出および分子グラフ予測データセットを用いて,既存の手法と比較して良好な結果を得た。 最後に、グラフ上のタスクの植込みブロックモデルの下では、アフィニティスコアが確実にタスクをグループに分割できることを示す理論的分析を提供する。

Predicting node labels on a given graph is a widely studied problem with many applications, including community detection and molecular graph prediction. This paper considers predicting multiple node labeling functions on graphs simultaneously and revisits this problem from a multitask learning perspective. For a concrete example, consider overlapping community detection: each community membership is a binary node classification task. Due to complex overlapping patterns, we find that negative transfer is prevalent when we apply naive multitask learning to multiple community detection, as task relationships are highly nonlinear across different node labeling. To address the challenge, we develop an algorithm to cluster tasks into groups based on a higher-order task affinity measure. We then fit a multitask model on each task group, resulting in a boosting procedure on top of the baseline model. We estimate the higher-order task affinity measure between two tasks as the prediction loss of one task in the presence of another task and a random subset of other tasks. Then, we use spectral clustering on the affinity score matrix to identify task grouping. We design several speedup techniques to compute the higher-order affinity scores efficiently and show that they can predict negative transfers more accurately than pairwise task affinities. We validate our procedure using various community detection and molecular graph prediction data sets, showing favorable results compared with existing methods. Lastly, we provide a theoretical analysis to show that under a planted block model of tasks on graphs, our affinity scores can provably separate tasks into groups.
翻訳日:2024-02-14 00:43:21 公開日:2024-02-12
# 量子機械学習を理解するには

Understanding quantum machine learning also requires rethinking generalization ( http://arxiv.org/abs/2306.13461v2 )

ライセンス: Link先を確認
Elies Gil-Fuster, Jens Eisert, Carlos Bravo-Prieto(参考訳) 量子機械学習モデルは、少ないデータでトレーニングしても、一般化性能を成功させた。 本研究では、系統的ランダム化実験を通じて、一般化を理解する伝統的なアプローチではそのような量子モデルの振る舞いを説明できないことを示す。 我々の実験は、最先端の量子ニューラルネットワークがトレーニングデータのランダムな状態とランダムなラベル付けに正確に適合していることを明らかにした。 ランダムデータを記憶するこの能力は、vc次元、ラデマッハ複雑性、およびそれらの一様相対性といった複雑性尺度に基づく問題化アプローチにおいて、小さな一般化誤差という現在の概念に欠点がある。 我々は、量子ニューラルネットワークが任意のラベルを量子状態に適合させ、記憶能力を示す理論的な構成で実験結果を補完する。 本研究の結果は, トレーニングデータが少ない場合のみ, モデルファミリの特性のみに基づく保証を除外して, 良好な一般化の可能性を阻害するものではない。 これらの知見は、従来の量子機械学習の一般化の理解における根本的な課題を明らかにし、機械学習タスクの量子モデルの研究におけるパラダイムシフトの必要性を強調している。

Quantum machine learning models have shown successful generalization performance even when trained with few data. In this work, through systematic randomization experiments, we show that traditional approaches to understanding generalization fail to explain the behavior of such quantum models. Our experiments reveal that state-of-the-art quantum neural networks accurately fit random states and random labeling of training data. This ability to memorize random data defies current notions of small generalization error, problematizing approaches that build on complexity measures such as the VC dimension, the Rademacher complexity, and all their uniform relatives. We complement our empirical results with a theoretical construction showing that quantum neural networks can fit arbitrary labels to quantum states, hinting at their memorization ability. Our results do not preclude the possibility of good generalization with few training data but rather rule out any possible guarantees based only on the properties of the model family. These findings expose a fundamental challenge in the conventional understanding of generalization in quantum machine learning and highlight the need for a paradigm shift in the study of quantum models for machine learning tasks.
翻訳日:2024-02-14 00:42:55 公開日:2024-02-12
# 実コード用量子重み列挙器に$X$と$Z$を正確に変換する

Quantum Weight Enumerators for Real Codes with $X$ and $Z$ Exactly Transversal ( http://arxiv.org/abs/2306.12526v2 )

ライセンス: Link先を確認
Eric Kubischta, Ian Teixeira, J. Maxwell Silvester(参考訳) このノートでは、実際の量子誤り訂正符号の重み付き列挙器が$ X $ と $ Z $ のとき、正確に超越は特定のアイデンティティを満たす必要があることを示す。 これらのアイデンティティの結果の1つは、コードがエラー検出されている場合、自動的にエラー修正を無償で行い、超越性とコード距離の関係を示唆していることである。

In this note we show that the weight enumerators of a real quantum error correcting code with $ X $ and $ Z $ exactly transversal must satisfy certain identities. One consequence of these identities is that if the code is error detecting then it is automatically error correcting for free; implying a relationship between transversality and code distance.
翻訳日:2024-02-14 00:42:08 公開日:2024-02-12
# 乗法フリー推論による高効率深スパイキング多層パーセプトロン

Efficient Deep Spiking Multi-Layer Perceptrons with Multiplication-Free Inference ( http://arxiv.org/abs/2306.12465v2 )

ライセンス: Link先を確認
Boyan Li, Luziwei Leng, Ran Cheng, Shuaijie Shen, Kaixuan Zhang, Jianguo Zhang, Jianxing Liao(参考訳) スパイキングニューラルネットワーク(SNN)に対する深層畳み込みアーキテクチャの適用の進歩は、画像分類性能を大幅に向上させ、計算負荷を低減させた。 しかし、高分解能ビジョンタスクの性能向上に重要な注意と変圧器機構を調和させるMFI(Multiplication-Free Inference)が存在しないため、これらの利得に制限が課せられる。 そこで本研究では,MLP(Multi-Layer Perceptrons)の進歩からインスピレーションを得て,新たな経路を探索する。 本稿では,MFIの互換性を維持するためにバッチ正規化を利用する革新的なスパイクMLPアーキテクチャを提案し,ローカル特徴抽出機能を強化するためのスパイクパッチ符号化層を提案する。 その結果,グローバルレセプティブフィールドと局所特徴抽出を効果的に融合し,スパイクに基づく包括的計算を行うマルチステージスパイクmlpネットワークを構築した。 我々のネットワークは、事前トレーニングや洗練されたSNNトレーニング技術に頼ることなく、ImageNet-1Kデータセットで66.39%のトップ1精度を確保し、直接訓練されたResNet-34を2.67%上回る。 さらに,計算コスト,モデル容量,シミュレーションステップを削減した。 我々のネットワークの拡張版は、モデル容量2.1倍の容量で運用しながら、71.64%の精度でスパイクするVGG-16ネットワークの性能に挑戦する。 我々の発見は、グローバルとローカルの学習能力をシームレスに統合する深層SNNアーキテクチャの可能性を強調した。 興味深いことに、我々のネットワークの訓練された受容野は皮質細胞の活動パターンを反映している。

Advancements in adapting deep convolution architectures for Spiking Neural Networks (SNNs) have significantly enhanced image classification performance and reduced computational burdens. However, the inability of Multiplication-Free Inference (MFI) to harmonize with attention and transformer mechanisms, which are critical to superior performance on high-resolution vision tasks, imposes limitations on these gains. To address this, our research explores a new pathway, drawing inspiration from the progress made in Multi-Layer Perceptrons (MLPs). We propose an innovative spiking MLP architecture that uses batch normalization to retain MFI compatibility and introduces a spiking patch encoding layer to reinforce local feature extraction capabilities. As a result, we establish an efficient multi-stage spiking MLP network that effectively blends global receptive fields with local feature extraction for comprehensive spike-based computation. Without relying on pre-training or sophisticated SNN training techniques, our network secures a top-1 accuracy of 66.39% on the ImageNet-1K dataset, surpassing the directly trained spiking ResNet-34 by 2.67%. Furthermore, we curtail computational costs, model capacity, and simulation steps. An expanded version of our network challenges the performance of the spiking VGG-16 network with a 71.64% top-1 accuracy, all while operating with a model capacity 2.1 times smaller. Our findings accentuate the potential of our deep SNN architecture in seamlessly integrating global and local learning abilities. Interestingly, the trained receptive field in our network mirrors the activity patterns of cortical cells.
翻訳日:2024-02-14 00:42:01 公開日:2024-02-12
# 構造化状態抽象化によるナビゲーションのための協調的マルチエージェント学習

Cooperative Multi-Agent Learning for Navigation via Structured State Abstraction ( http://arxiv.org/abs/2306.11336v2 )

ライセンス: Link先を確認
Mohamed K. Abdelaziz, Mohammed S. Elbamby, Sumudu Samarakoon, Mehdi Bennis(参考訳) ナビゲーションのための協調型マルチエージェント強化学習(MARL)により、エージェントが協調してナビゲーション目標を達成することができる。 エージェントは緊急通信を使用して通信プロトコルを学び、ナビゲーションタスクを達成するために必要な情報を調整し、共有する。 創発的なコミュニケーションでは、事前定義された使用規則のないシンボルが交換され、トレーニングを通じて意味と構文が現れる。 MARL環境における通信プロトコルとともにナビゲーションポリシーを学ぶことは、探索すべき巨大な状態空間のために非常に複雑である。 この複雑さに対処するために、ナビゲーションタスクに参加するエージェント間で適応状態空間抽象化と通信プロトコルを共同で学習する、新しいニューラルネットワークアーキテクチャを提案する。 目標は、政策性能を劣化させることなく、探索すべき状態空間のサイズを大幅に削減する適応的な抽象化器を考案することである。 シミュレーションの結果,提案手法は,生の状態や固定状態の抽象化を用いた場合と比較して,達成可能な報酬の観点から,トレーニングの繰り返しを少なくすることができることがわかった。 さらに,訓練中にコミュニケーションプロトコルが出現し,より少ない訓練イテレーションでエージェントがより良い方針を学習できることを示した。

Cooperative multi-agent reinforcement learning (MARL) for navigation enables agents to cooperate to achieve their navigation goals. Using emergent communication, agents learn a communication protocol to coordinate and share information that is needed to achieve their navigation tasks. In emergent communication, symbols with no pre-specified usage rules are exchanged, in which the meaning and syntax emerge through training. Learning a navigation policy along with a communication protocol in a MARL environment is highly complex due to the huge state space to be explored. To cope with this complexity, this work proposes a novel neural network architecture, for jointly learning an adaptive state space abstraction and a communication protocol among agents participating in navigation tasks. The goal is to come up with an adaptive abstractor that significantly reduces the size of the state space to be explored, without degradation in the policy performance. Simulation results show that the proposed method reaches a better policy, in terms of achievable rewards, resulting in fewer training iterations compared to the case where raw states or fixed state abstraction are used. Moreover, it is shown that a communication protocol emerges during training which enables the agents to learn better policies within fewer training iterations.
翻訳日:2024-02-14 00:41:32 公開日:2024-02-12
# 重み付きSGDを訓練した過パラメータニューラルネットワークのインシシット圧縮性

Implicit Compressibility of Overparametrized Neural Networks Trained with Heavy-Tailed SGD ( http://arxiv.org/abs/2306.08125v2 )

ライセンス: Link先を確認
Yijun Wan, Melih Barsbey, Abdellatif Zaidi, Umut Simsekli(参考訳) ニューラルネットワーク圧縮は、その実用的妥当性だけでなく、圧縮性と一般化誤差の間に明確な関係があることから、その理論的意味から、ますます重要になってきている。 近年の研究では、確率勾配降下(SGD)のハイパーパラメータの選択が、学習パラメータベクトルの圧縮性に影響を及ぼすことが示されている。 しかし、これらの結果は検証不可能な仮定に依存しており、結果として生じる理論はその暗黙性のために実践的なガイドラインを提供していない。 本研究では,アルゴリズムの出力が非自明な仮定をすることなく確実に圧縮可能となるように,sgdの簡単な修正を提案する。 sgdで学習した単層ニューラルネットワークについて検討し,各反復で重み付き雑音を付加した場合,任意の圧縮レートに対して,アルゴリズムの出力が高い確率で圧縮可能となるようなオーバーパラメータ化のレベルが存在することを示す。 この結果を達成するために、私たちは2つの主要な技術貢献をします。 (i)重項確率微分方程式のクラスに対する「カオスの伝播」の結果を証明し、 (ii)euler離散化の誤差推定を導出する。 提案手法は, 各種モデルやデータセットによる圧縮性の向上だけでなく, より現実的なアーキテクチャにおいても, プルーニング下での堅牢なテスト性能も実現可能であることを示唆する。

Neural network compression has been an increasingly important subject, not only due to its practical relevance, but also due to its theoretical implications, as there is an explicit connection between compressibility and generalization error. Recent studies have shown that the choice of the hyperparameters of stochastic gradient descent (SGD) can have an effect on the compressibility of the learned parameter vector. These results, however, rely on unverifiable assumptions and the resulting theory does not provide a practical guideline due to its implicitness. In this study, we propose a simple modification for SGD, such that the outputs of the algorithm will be provably compressible without making any nontrivial assumptions. We consider a one-hidden-layer neural network trained with SGD, and show that if we inject additive heavy-tailed noise to the iterates at each iteration, for any compression rate, there exists a level of overparametrization such that the output of the algorithm will be compressible with high probability. To achieve this result, we make two main technical contributions: (i) we prove a 'propagation of chaos' result for a class of heavy-tailed stochastic differential equations, and (ii) we derive error estimates for their Euler discretization. Our experiments suggest that the proposed approach not only achieves increased compressibility with various models and datasets, but also leads to robust test performance under pruning, even in more realistic architectures that lie beyond our theoretical setting.
翻訳日:2024-02-14 00:41:12 公開日:2024-02-12
# 最悪のカーネルを推定してロバストなMDPを解くアルゴリズム(Non-Robust)

Bring Your Own (Non-Robust) Algorithm to Solve Robust MDPs by Estimating The Worst Kernel ( http://arxiv.org/abs/2306.05859v2 )

ライセンス: Link先を確認
Kaixin Wang, Uri Gadot, Navdeep Kumar, Kfir Levy, Shie Mannor(参考訳) Robust Markov Decision Processes (RMDP) は、遷移カーネルの摂動に頑健なシーケンシャルな意思決定のためのフレームワークを提供する。 しかし、現在のRMDP法は小さな問題に限られており、高次元領域での使用を妨げている。 このギャップを埋めるために、我々はRMDPを解決するための新しいオンラインアプローチであるEWoKを紹介します。 ポリシーや価値の更新を規則化する以前の作業とは異なり、EWoKは学習プロセスにおける完全な柔軟性を維持しながら、エージェントの最悪のシナリオをシミュレートすることで堅牢性を達成する。 特に、EWoKは任意のオフザシェルフな非ロバストなRLアルゴリズムの上に適用でき、高次元領域へのスケーリングが容易である。 簡単なカートポールから高次元のDeepMind Control Suite環境にまたがる実験は、ロバストポリシーを学習するための実用的な方法として、EWoKパラダイムの有効性と適用性を示した。

Robust Markov Decision Processes (RMDPs) provide a framework for sequential decision-making that is robust to perturbations on the transition kernel. However, current RMDP methods are often limited to small-scale problems, hindering their use in high-dimensional domains. To bridge this gap, we present EWoK, a novel online approach to solve RMDP that Estimates the Worst transition Kernel to learn robust policies. Unlike previous works that regularize the policy or value updates, EWoK achieves robustness by simulating the worst scenarios for the agent while retaining complete flexibility in the learning process. Notably, EWoK can be applied on top of any off-the-shelf {\em non-robust} RL algorithm, enabling easy scaling to high-dimensional domains. Our experiments, spanning from simple Cartpole to high-dimensional DeepMind Control Suite environments, demonstrate the effectiveness and applicability of the EWoK paradigm as a practical method for learning robust policies.
翻訳日:2024-02-14 00:39:35 公開日:2024-02-12
# 同じスペクトルシグネチャを持つ複数のフルオロフォアの単一光子エミッタ数の推定

Estimation of the number of single-photon emitters for multiple fluorophores with the same spectral signature ( http://arxiv.org/abs/2306.05614v2 )

ライセンス: Link先を確認
Wenchao Li, Shuo Li, Timothy C. Brown, Qiang Sun, Xuezhi Wang, Vladislav V. Yakovlev, Allison Kealy, Bill Moran, Andrew D. Greentree(参考訳) 蛍光顕微鏡は生物学的機能を理解する上で重要である。 しかし、ほとんどの蛍光実験は、絶対数の蛍光粒子が決定できないため、定性的不合理である。 また、従来の蛍光強度測定手法では、スペクトル窓の総強度のみが得られるため、励起されて同じスペクトル窓に放出される2つ以上のフルオロフォアを区別できない。 ここでは、光子数分解実験を用いて、複数の異なる種の発光源の数と放出確率を、それぞれ同じ測定されたスペクトルシグネチャで決定できることを示す。 1種あたりのエミッター数の決定と、その種から1種、2種、3種で光子を収集する確率を示すことで、我々のアイデアを説明する。 畳み込み双項モデルは、複数の種から放出されるカウントされた光子をモデル化するために提示される。 そして、期待最大化(EM)アルゴリズムを用いて、測定された光子数と予測畳み込み二項分布関数とを一致させる。 EMアルゴリズムの適用において、準最適解に閉じ込められる問題を活用するために、EMアルゴリズムの初期推定を求める際にモーメント法を導入する。 さらに、関連するCram\'er-Rao下界が導出され、シミュレーション結果と比較される。

Fluorescence microscopy is of vital importance for understanding biological function. However most fluorescence experiments are only qualitative inasmuch as the absolute number of fluorescent particles can often not be determined. Additionally, conventional approaches to measuring fluorescence intensity cannot distinguish between two or more fluorophores that are excited and emit in the same spectral window, as only the total intensity in a spectral window can be obtained. Here we show that, by using photon number resolving experiments, we are able to determine the number of emitters and their probability of emission for a number of different species, all with the same measured spectral signature. We illustrate our ideas by showing the determination of the number of emitters per species and the probability of photon collection from that species, for one, two, and three otherwise unresolvable fluorophores. The convolution Binomial model is presented to model the counted photons emitted by multiple species. And then the Expectation-Maximization (EM) algorithm is used to match the measured photon counts to the expected convolution Binomial distribution function. In applying the EM algorithm, to leverage the problem of being trapped in a sub-optimal solution, the moment method is introduced in finding the initial guess of the EM algorithm. Additionally, the associated Cram\'er-Rao lower bound is derived and compared with the simulation results.
翻訳日:2024-02-14 00:39:16 公開日:2024-02-12
# 1次元フェルミガス中の不純物の相関除去による温度測定

Thermometry by correlated dephasing of impurities in a 1D Fermi gas ( http://arxiv.org/abs/2307.10132v4 )

ライセンス: Link先を確認
Sindre Brattegard and Mark T. Mitchison(参考訳) 我々は,超低温フェルミオン原子の共有環境に埋め込まれた2つの静的不純物量子ビットの純粋退化ダイナミクスを理論的に検討する。 我々の目標は、不純物間の浴媒介相互作用が非平衡量子温度計としての性能にどのように影響するかを理解することである。 関数決定式を用いて動的に解くことにより,ruderman-kittel-kasuya-yosida型の遅延相互作用により不純物が相関することを示した。 さらに, これらの相関関係は, 2量子ビット温度計の感度を2つの独立した不純物よりも高め, メトロロジー的な利点をもたらすことを実証する。 この増強は、低温と不純物と気体の間の弱い衝突結合の限界において最も顕著である。 この精度の利点は標準ラムゼイ干渉計を用いて利用でき、相関した初期状態を作成したり、不純物を個別に操作したり測定したりする必要もない。 また, 温度推定を行う際の相関を無視する影響を定量的に評価し, 不純物の簡易モデルから許容可能な精度を得ることができた。 以上の結果から, フェルミガス中の不純物の高次非平衡物理が示され, 超低温での温度推定の精度向上に寄与する可能性が示唆された。

We theoretically investigate the pure dephasing dynamics of two static impurity qubits embedded within a common environment of ultracold fermionic atoms, which are confined to one spatial dimension. Our goal is to understand how bath-mediated interactions between impurities affect their performance as nonequilibrium quantum thermometers. By solving the dynamics exactly using a functional determinant approach, we show that the impurities become correlated via retarded interactions of the Ruderman-Kittel-Kasuya-Yosida type. Moreover, we demonstrate that these correlations can provide a metrological advantage, enhancing the sensitivity of the two-qubit thermometer beyond that of two independent impurities. This enhancement is most prominent in the limit of low temperature and weak collisional coupling between the impurities and the gas. We show that this precision advantage can be exploited using standard Ramsey interferometry, with no need to prepare correlated initial states nor to individually manipulate or measure the impurities. We also quantitatively assess the impact of ignoring these correlations when constructing a temperature estimate, finding that acceptable precision can still be achieved from a simplified model of independent impurities. Our results demonstrate the rich nonequilibrium physics of impurities dephasing in a common Fermi gas, and may help to provide better temperature estimates at ultralow temperatures.
翻訳日:2024-02-14 00:30:57 公開日:2024-02-12
# テレビシリーズの人気をデコードする:ネットワーク分析の観点から

Decoding the Popularity of TV Series: A Network Analysis Perspective ( http://arxiv.org/abs/2307.05329v2 )

ライセンス: Link先を確認
Melody Yu(参考訳) 本稿では,3つの人気テレビシリーズから抽出されたキャラクタネットワークを分析し,テレビ番組のキャラクタネットワークメトリクスとIMDBのレビューとの関係について検討する。 キャラクターネットワーク(英: character network)とは、シーン内のキャラクターの相互作用を表すテレビ番組のプロットから生成されたグラフであり、それら間の接続の存在を示す。 ノード次数やグラフ密度など各エピソードのネットワークメトリクスを算出し,これらの指標を用いてimdbのネットワークメトリクスとテレビシリーズレビューの関係を考察する。 その結果,テレビシリーズにおけるキャラクターインタラクションのネットワーク指標は,テレビシリーズのレビュースコアと強い相関を示した。 本研究は,テレビ制作者が視聴者にアピールする未来のエピソードのキャラクタダイナミクスの調整方法を理解する上で,より定量的な情報を提供することを目的としている。 キャラクタインタラクションが視聴者のエンゲージメントや楽しみに与える影響を理解することによって、プロデューサーは番組の展開に関するインフォームドな意思決定を行うことができる。

In this paper, we analyze the character networks extracted from three popular television series and explore the relationship between a TV show episode's character network metrics and its review from IMDB. Character networks are graphs created from the plot of a TV show that represents the interactions of characters in scenes, indicating the presence of a connection between them. We calculate various network metrics for each episode, such as node degree and graph density, and use these metrics to explore the potential relationship between network metrics and TV series reviews from IMDB. Our results show that certain network metrics of character interactions in episodes have a strong correlation with the review score of TV series. Our research aims to provide more quantitative information that can help TV producers understand how to adjust the character dynamics of future episodes to appeal to their audience. By understanding the impact of character interactions on audience engagement and enjoyment, producers can make informed decisions about the development of their shows.
翻訳日:2024-02-14 00:28:48 公開日:2024-02-12
# 正確な校正モデルのための集合学習

Set Learning for Accurate and Calibrated Models ( http://arxiv.org/abs/2307.02245v4 )

ライセンス: Link先を確認
Lukas Muttenthaler and Robert A. Vandermeulen and Qiuyi Zhang and Thomas Unterthiner and Klaus-Robert M\"uller(参考訳) モデル過信と不適切なキャリブレーションは機械学習では一般的であり、標準的な経験的リスク最小化を適用する場合の考慮が難しい。 そこで本研究では,単一例ではなく集合に対するクロスエントロピー誤差を最小限に抑える,奇数k$out Learning(OKO)と呼ばれる,これらの問題を緩和する新しい手法を提案する。 これにより、モデルがデータサンプル間の相関をキャプチャし、特に限られたトレーニングデータとクラス不均衡なレシエーションにおいて、精度とキャリブレーションの両方を向上することができる。 おそらく、OKOは硬いラベルでトレーニングしたり、温度スケーリングのような追加のキャリブレーションパラメータチューニングを落としたりしても、キャリブレーションが良くなる。 我々はこれを広範な実験分析で示し,その結果を解釈するための数学的理論を提供する。 我々は、okoは多くの設定に簡単に適応できる一般的なフレームワークであり、トレーニングされたモデルは推論時に単一の例に適用することができることを強調する。

Model overconfidence and poor calibration are common in machine learning and difficult to account for when applying standard empirical risk minimization. In this work, we propose a novel method to alleviate these problems that we call odd-$k$-out learning (OKO), which minimizes the cross-entropy error for sets rather than for single examples. This naturally allows the model to capture correlations across data examples and achieves both better accuracy and calibration, especially in limited training data and class-imbalanced regimes. Perhaps surprisingly, OKO often yields better calibration even when training with hard labels and dropping any additional calibration parameter tuning, such as temperature scaling. We demonstrate this in extensive experimental analyses and provide a mathematical theory to interpret our findings. We emphasize that OKO is a general framework that can be easily adapted to many settings and a trained model can be applied to single examples at inference time, without significant run-time overhead or architecture changes.
翻訳日:2024-02-14 00:27:39 公開日:2024-02-12
# 連続正規化流を用いた格子ナンブゴト弦のサンプリング

Sampling the lattice Nambu-Goto string using Continuous Normalizing Flows ( http://arxiv.org/abs/2307.01107v2 )

ライセンス: Link先を確認
Michele Caselle, Elia Cellini and Alessandro Nada(参考訳) 有効弦理論 (EST) は、凝縮束管を薄い振動弦としてモデル化するヤン=ミルズ理論において閉じ込めを記述する強力な非摂動的アプローチである。 EST計算は通常、ゼータ関数正則化(英語版)を用いて行われるが、この方法で対処するには複雑すぎる観測物を含む状況(例えば、フラックス管の形状や、ナムブ・ゴト ESTを超える高次補正の研究)がある。 本稿では,この問題を回避するための機械学習手法の最近の進歩に基づく数値的アプローチを提案する。 実験室としてNambu-Goto文字列を用いて, 連続正規化フローと呼ばれる新しい種類の深部生成モデルを用いることで, EST予測の信頼性の高い数値推定値が得られることを示す。

Effective String Theory (EST) represents a powerful non-perturbative approach to describe confinement in Yang-Mills theory that models the confining flux tube as a thin vibrating string. EST calculations are usually performed using the zeta-function regularization: however there are situations (for instance the study of the shape of the flux tube or of the higher order corrections beyond the Nambu-Goto EST) which involve observables that are too complex to be addressed in this way. In this paper we propose a numerical approach based on recent advances in machine learning methods to circumvent this problem. Using as a laboratory the Nambu-Goto string, we show that by using a new class of deep generative models called Continuous Normalizing Flows it is possible to obtain reliable numerical estimates of EST predictions.
翻訳日:2024-02-14 00:27:06 公開日:2024-02-12
# データ駆動によるがん細胞株の分子プロファイリングデータの抽出と濃縮

Data-Driven Information Extraction and Enrichment of Molecular Profiling Data for Cancer Cell Lines ( http://arxiv.org/abs/2307.00933v2 )

ライセンス: Link先を確認
Ellery Smith, Rahel Paloots, Dimitris Giagkos, Michael Baudis, Kurt Stockinger(参考訳) 研究手段と計算方法論の普及に伴い、生物医学の出版物は数と体積が指数関数的に増加している。 がん細胞株は、細胞機構の研究から薬物開発まで、現在幅広い用途に応用されている生物学的および医学的な研究で頻繁に用いられるモデルであり、関連するデータや出版物が豊富にある。 大量のテキストを通して興味のある細胞株の関連情報を収集することは、人間が行うと退屈で非常に遅い。 したがって、意味のある知識抽出を促進するためには、新しい計算情報抽出と相関機構が必要である。 本研究では,新しいデータ抽出・探索システムの設計,実装,応用について述べる。 本システムは、科学文献からテクストエンティティ間の深い意味関係を抽出し、癌細胞株の領域における既存の構造化臨床データを強化する。 我々は,ゲノムコピー番号の変種プロットと,影響を受ける遺伝子などの関連エンティティの自動リンクを可能にする,新しい公開データ探索ポータルを導入する。 それぞれの関係には文学由来の証拠が伴い、既存の構造化されたデータをバネボードとして使用して、深く、かつ高速な文献検索を可能にする。 私たちのシステムは、https://cancercelllines.orgで公開されています。

With the proliferation of research means and computational methodologies, published biomedical literature is growing exponentially in numbers and volume. Cancer cell lines are frequently used models in biological and medical research that are currently applied for a wide range of purposes, from studies of cellular mechanisms to drug development, which has led to a wealth of related data and publications. Sifting through large quantities of text to gather relevant information on the cell lines of interest is tedious and extremely slow when performed by humans. Hence, novel computational information extraction and correlation mechanisms are required to boost meaningful knowledge extraction. In this work, we present the design, implementation and application of a novel data extraction and exploration system. This system extracts deep semantic relations between textual entities from scientific literature to enrich existing structured clinical data in the domain of cancer cell lines. We introduce a new public data exploration portal, which enables automatic linking of genomic copy number variants plots with ranked, related entities such as affected genes. Each relation is accompanied by literature-derived evidences, allowing for deep, yet rapid, literature search, using existing structured data as a springboard. Our system is publicly available on the web at https://cancercelllines.org
翻訳日:2024-02-14 00:26:50 公開日:2024-02-12
# 励起状態の自然量子モンテカルロ計算

Natural Quantum Monte Carlo Computation of Excited States ( http://arxiv.org/abs/2308.16848v2 )

ライセンス: Link先を確認
David Pfau and Simon Axelrod and Halvard Sutterud and Ingrid von Glehn and James S. Spencer(参考訳) 本稿では,基底状態推定の自然な一般化である量子システムの最小励起状態推定のための変分モンテカルロアルゴリズムを提案する。 この方法は自由パラメータを持たず、異なる状態の明示的な直交化を必要とせず、代わりに与えられた系の励起状態を見つける問題を拡張系の基底状態を見つける問題に変換する。 任意の観測可能量の期待値は、遷移双極子モーメントのような異なる状態間の非対角予測を含む計算可能である。 本手法は完全に汎用的ではあるが, ニューラルネットワークを多電子系における変分アンサツェとして利用する最近の研究と組み合わせて, この手法をFermiNetおよびPsiformer Ansatzeと組み合わせることで, ベンゼンほどの大きさの分子の垂直励起エネルギーと振動強度を正確に回復できることが示されている。 ここで示される分子の例の他に、この手法が原子、原子、凝縮物質物理学への変分量子モンテカルロの応用に大きな関心を持つだろう。

We present a variational Monte Carlo algorithm for estimating the lowest excited states of a quantum system which is a natural generalization of the estimation of ground states. The method has no free parameters and requires no explicit orthogonalization of the different states, instead transforming the problem of finding excited states of a given system into that of finding the ground state of an expanded system. Expected values of arbitrary observables can be calculated, including off-diagonal expectations between different states such as the transition dipole moment. Although the method is entirely general, it works particularly well in conjunction with recent work on using neural networks as variational Ansatze for many-electron systems, and we show that by combining this method with the FermiNet and Psiformer Ansatze we can accurately recover vertical excitation energies and oscillator strengths on molecules as large as benzene. Beyond the examples on molecules presented here, we expect this technique will be of great interest for applications of variational quantum Monte Carlo to atomic, nuclear and condensed matter physics.
翻訳日:2024-02-13 22:43:51 公開日:2024-02-12
# スパースIMUセンシングによる効率的な人文推定のための設計空間探索

Design Space Exploration on Efficient and Accurate Human Pose Estimation from Sparse IMU-Sensing ( http://arxiv.org/abs/2308.02397v2 )

ライセンス: Link先を確認
Iris F\"urst-Walter, Antonio Nappi, Tanja Harbaum, J\"urgen Becker(参考訳) スポーツ、リハビリテーション、作業安全における人間の動作を評価するためのヒューマンポーズ推定(human pose estimation, hpe)は、センシティブな基礎となる個人データを妥協することなく正確なセンシングを必要とする。 したがって、局所処理は必要であり、そのようなシステムにおける限られたエネルギー予算は、一般的なカメラセンシングの代わりに慣性計測ユニット(IMU)によって対処することができる。 ハードウェアリソースの正確性と効率的な利用との間の中心的なトレードオフは、研究ではほとんど議論されない。 このトレードオフを,IMUセンサの様々な量と位置の模擬設計空間探索(DSE)によって解決する。 まず,センサ構成の異なる公開ボディモデルデータセットから imu-dataを生成し,このデータを用いてディープラーニングモデルをトレーニングする。 さらに、精度とリソースのトレードオフを評価するための組み合わせ指標を提案する。 我々はDSEをセンサ構成の評価ツールとして使用し、特定のユースケースに有用なものを特定した。 例えば、精度とリソースが等しいシステムでは、メッシュ誤差が6.03 cmの4つのセンサの最適なセンサ構成を特定し、精度を32.7%向上させ、2つのセンサーによるハードウェアの労力を削減する。 私たちの研究は、適切なセンサーの位置決めとデータプライバシとリソース認識への注意による健康アプリケーションの設計に使用できます。

Human Pose Estimation (HPE) to assess human motion in sports, rehabilitation or work safety requires accurate sensing without compromising the sensitive underlying personal data. Therefore, local processing is necessary and the limited energy budget in such systems can be addressed by Inertial Measurement Units (IMU) instead of common camera sensing. The central trade-off between accuracy and efficient use of hardware resources is rarely discussed in research. We address this trade-off by a simulative Design Space Exploration (DSE) of a varying quantity and positioning of IMU-sensors. First, we generate IMU-data from a publicly available body model dataset for different sensor configurations and train a deep learning model with this data. Additionally, we propose a combined metric to assess the accuracy-resource trade-off. We used the DSE as a tool to evaluate sensor configurations and identify beneficial ones for a specific use case. Exemplary, for a system with equal importance of accuracy and resources, we identify an optimal sensor configuration of 4 sensors with a mesh error of 6.03 cm, increasing the accuracy by 32.7% and reducing the hardware effort by two sensors compared to state of the art. Our work can be used to design health applications with well-suited sensor positioning and attention to data privacy and resource-awareness.
翻訳日:2024-02-13 22:40:44 公開日:2024-02-12
# 凸最適化のための適応近位勾配法

Adaptive Proximal Gradient Method for Convex Optimization ( http://arxiv.org/abs/2308.02261v2 )

ライセンス: Link先を確認
Yura Malitsky, Konstantin Mishchenko(参考訳) 本稿では,凸最適化における2つの基本1次アルゴリズム,すなわち勾配降下法(gd)と近位勾配法(proxgd)について検討する。 我々は,滑らかな関数の局所的曲率情報を活用することで,これらのアルゴリズムを完全に適応させることに重点を置いている。 本稿では,GD と ProxGD の適応バージョンを提案する。 さらに、勾配の局所リプシッツ性のみを仮定する手法の収束性を証明する。 さらに、提案されたバージョンは、[MM20]で最初に提案されたものよりもさらに大きなステップサイズを可能にする。

In this paper, we explore two fundamental first-order algorithms in convex optimization, namely, gradient descent (GD) and proximal gradient method (ProxGD). Our focus is on making these algorithms entirely adaptive by leveraging local curvature information of smooth functions. We propose adaptive versions of GD and ProxGD that are based on observed gradient differences and, thus, have no added computational costs. Moreover, we prove convergence of our methods assuming only local Lipschitzness of the gradient. In addition, the proposed versions allow for even larger stepsizes than those initially suggested in [MM20].
翻訳日:2024-02-13 22:40:22 公開日:2024-02-12
# 遅延選択実験:今後の分析

Delayed choice experiments: An analysis in forward time ( http://arxiv.org/abs/2307.14687v2 )

ライセンス: Link先を確認
Marijn Waaijer and Jan van Neerven(参考訳) 本稿では、ウィーラーの古典的なゲダンケン実験と遅延量子消去器の2つの遅延選択実験について詳細に分析する。 解析の結果,両実験の結果は,教科書量子力学を用いた実験で収集した情報に基づいて完全に説明できることがわかった。 議論のどの時点でも、次に何が起こるかを説明するために未来からの情報が必要とされる。 実際、より真実である:両方の実験に対して、厳密に数学的に、ステップの時間順序が変更され、遅延した選択を避けるため、全く同じ最終状態になることを示す。 この運用的な意味では、シナリオは結果から引き出すことができる結論の観点から完全に等価である。

In this article, we present a detailed analysis of two famous delayed choice experiments: Wheeler's classic gedanken-experiment and the delayed quantum eraser. Our analysis shows that the outcomes of both experiments can be fully explained on the basis of the information collected during the experiments using textbook quantum mechanics only. At no point in the argument, information from the future is needed to explain what happens next. In fact, more is true: for both experiments, we show, in a strictly mathematical way, that a modified version in which the time-ordering of the steps is changed to avoid the delayed choice leads to exactly the same final state. In this operational sense, the scenarios are completely equivalent in terms of conclusions that can be drawn from their outcomes.
翻訳日:2024-02-13 22:40:12 公開日:2024-02-12
# 個人別ロジスティック回帰の精度向上:事前学習アプローチ

Accuracy Improvement in Differentially Private Logistic Regression: A Pre-training Approach ( http://arxiv.org/abs/2307.13771v3 )

ライセンス: Link先を確認
Mohammad Hoseinpour, Milad Hoseinpour, Ali Aghagolzadeh(参考訳) 機械学習(ML)モデルは、トレーニングデータセットを記憶することができる。 その結果、プライベートデータセットよりもMLモデルをトレーニングすることで、個人のプライバシ侵害につながる可能性がある。 differential privacy (dp)は、基礎となるトレーニングデータセットのプライバシーを保護するための厳格なプライバシー概念である。 しかし、DPフレームワークでのMLモデルのトレーニングは通常、MLモデルの精度を低下させる。 本稿では,事前学習モジュールを用いてDPロジスティック回帰(LR)の精度を高めることを目的とする。 より詳しくは、まずはLRモデルを公開トレーニングデータセットで事前トレーニングし、プライバシーに関する懸念はありません。 次に、DP-LRモデルをプライベートデータセットで微調整する。 その結果,事前学習モジュールを追加することでDP-LRモデルの精度が大幅に向上することがわかった。

Machine learning (ML) models can memorize training datasets. As a result, training ML models over private datasets can lead to the violation of individuals' privacy. Differential privacy (DP) is a rigorous privacy notion to preserve the privacy of underlying training datasets. Yet, training ML models in a DP framework usually degrades the accuracy of ML models. This paper aims to boost the accuracy of a DP logistic regression (LR) via a pre-training module. In more detail, we initially pre-train our LR model on a public training dataset that there is no privacy concern about it. Then, we fine-tune our DP-LR model with the private dataset. In the numerical results, we show that adding a pre-training module significantly improves the accuracy of the DP-LR model.
翻訳日:2024-02-13 22:40:01 公開日:2024-02-12
# ゼロショットモデルのロバスト化

Zero-Shot Robustification of Zero-Shot Models ( http://arxiv.org/abs/2309.04344v2 )

ライセンス: Link先を確認
Dyah Adila, Changho Shin, Linrong Cai, Frederic Sala(参考訳) ゼロショット推論(zero-shot inference)は,ダウンストリーム分類タスクに事前トレーニングされた大規模モデルを,さらなるトレーニングなしで使用可能にする,強力なパラダイムである。 しかしながら、これらのモデルは、パフォーマンスに影響を与える可能性がある継承バイアスに弱い。 従来のソリューションは微調整だが、これは事前訓練されたモデルのキーとなる利点を損なう。 完全ゼロショット方式で事前学習したモデル埋め込みのロバスト性を改善する手法であるRoboShotを提案する。 まず、タスク記述から有用な洞察を得るために言語モデル(LM)を用いる。 これらの洞察は組み込まれていて、有害なコンポーネントを取り除くために使われます。 理論的には、ゼロショット埋め込みにおけるバイアスの簡易かつトラクタブルなモデルを提供し、我々のアプローチがパフォーマンスを向上できる条件を特徴付ける結果を与える。 実験により,9つの画像およびNLP分類タスクにおけるRoboShotの評価を行い,最悪のグループ精度では平均15.98%向上し,ゼロショットベースラインでの全体的な精度は低下した。 さらに,RoboShotが事前訓練された言語モデルと互換性があることを実証し,ゼロショット適応変種を用いてパフォーマンスをさらに向上する方法を提案する。

Zero-shot inference is a powerful paradigm that enables the use of large pretrained models for downstream classification tasks without further training. However, these models are vulnerable to inherited biases that can impact their performance. The traditional solution is fine-tuning, but this undermines the key advantage of pretrained models, which is their ability to be used out-of-the-box. We propose RoboShot, a method that improves the robustness of pretrained model embeddings in a fully zero-shot fashion. First, we use language models (LMs) to obtain useful insights from task descriptions. These insights are embedded and used to remove harmful and boost useful components in embeddings -- without any supervision. Theoretically, we provide a simple and tractable model for biases in zero-shot embeddings and give a result characterizing under what conditions our approach can boost performance. Empirically, we evaluate RoboShot on nine image and NLP classification tasks and show an average improvement of 15.98% on worst group accuracy, with trivial decrease in overall accuracy over several zero-shot baselines. Additionally, we demonstrate that RoboShot is compatible with a variety of pretrained and language models and propose a way to further boost performance with a zero-shot adaptation variant.
翻訳日:2024-02-13 22:33:37 公開日:2024-02-12
# 対向プロンプトに対するllm安全性の検証

Certifying LLM Safety against Adversarial Prompting ( http://arxiv.org/abs/2309.02705v3 )

ライセンス: Link先を確認
Aounon Kumar, Chirag Agarwal, Suraj Srinivas, Aaron Jiaxun Li, Soheil Feizi and Himabindu Lakkaraju(参考訳) 大規模言語モデル(LLM)は、LSMの安全ガードレールをバイパスし有害なコンテンツを生成するために入力プロンプトに悪意のあるトークンを追加する敵攻撃に対して脆弱である。 本研究では,認証された安全保証付き敵のプロンプトを防御する最初のフレームワークである消去・チェックを導入する。 プロンプトが与えられると、手順はトークンを個別に消去し、安全フィルタを用いて結果のサブシーケンスを検査する。 我々の安全証明書は、有害なプロンプトが特定のサイズまで敵の攻撃によって安全であると誤解されないことを保証します。 Llama 2 と DistilBERT の2種類の安全フィルタを実装し, 2 つのケースの消去チェック性能を比較した。 我々は3つの攻撃モードに対して防御する。 一 有害なプロンプトの終わりに敵のシーケンスを付加する敵の接尾辞 二 相手方の挿入であって、相手方のシーケンスがプロンプトの中央のどこにでも挿入されているもの 三 敵トークンをそのプロンプトにおいて任意の位置に挿入する場合であって、必ずしも連続ブロックではないもの 実験結果から, 安全プロンプトの安全性が保証され, 安全プロンプトの良好な試験性能が維持できることがわかった。 さらに,3つの効果的な実証的防御法を提案する。 一 消去チェックのランダム化サブサンプリング版であるRandEC 二 有害クラスのソフトマックススコアを最大化するトークンを強引に消去するグレディEC iii) gradec は勾配情報を用いてトークンの消去を最適化する。 本稿では,Greedy Coordinate Gradient(GCG)攻撃アルゴリズムが生成する敵のプロンプトに対する効果を示す。 私たちの実験のコードはhttps://github.com/aounon/certified-llm-safetyで利用可能です。

Large language models (LLMs) are vulnerable to adversarial attacks that add malicious tokens to an input prompt to bypass the safety guardrails of an LLM and cause it to produce harmful content. In this work, we introduce erase-and-check, the first framework for defending against adversarial prompts with certifiable safety guarantees. Given a prompt, our procedure erases tokens individually and inspects the resulting subsequences using a safety filter. Our safety certificate guarantees that harmful prompts are not mislabeled as safe due to an adversarial attack up to a certain size. We implement the safety filter in two ways, using Llama 2 and DistilBERT, and compare the performance of erase-and-check for the two cases. We defend against three attack modes: i) adversarial suffix, where an adversarial sequence is appended at the end of a harmful prompt; ii) adversarial insertion, where the adversarial sequence is inserted anywhere in the middle of the prompt; and iii) adversarial infusion, where adversarial tokens are inserted at arbitrary positions in the prompt, not necessarily as a contiguous block. Our experimental results demonstrate that this procedure can obtain strong certified safety guarantees on harmful prompts while maintaining good empirical performance on safe prompts. Additionally, we propose three efficient empirical defenses: i) RandEC, a randomized subsampling version of erase-and-check; ii) GreedyEC, which greedily erases tokens that maximize the softmax score of the harmful class; and iii) GradEC, which uses gradient information to optimize tokens to erase. We demonstrate their effectiveness against adversarial prompts generated by the Greedy Coordinate Gradient (GCG) attack algorithm. The code for our experiments is available at https://github.com/aounon/certified-llm-safety.
翻訳日:2024-02-13 22:32:16 公開日:2024-02-12
# 周波数規則化による非矩形逆ローバストMDPの解法

Solving Non-Rectangular Reward-Robust MDPs via Frequency Regularization ( http://arxiv.org/abs/2309.01107v2 )

ライセンス: Link先を確認
Uri Gadot, Esther Derman, Navdeep Kumar, Maxence Mohamed Elfatihi, Kfir Levy, Shie Mannor(参考訳) 堅牢マルコフ決定過程(RMDP)では、報酬と遷移ダイナミクスは与えられた不確実性集合にあると仮定される。 RMDPは、その集合から最も敵対的なモデルの下で最大リターンを目標とすることにより、不特定環境に対する性能感度に対処する。 しかし、計算の可搬性を保つため、不確かさ集合は伝統的に各状態に対して独立に構成される。 このいわゆる矩形性条件は、計算上の懸念によってのみ動機づけられている。 その結果、実践的なインセンティブがなく、過度に保守的な行動につながる可能性がある。 本研究では,トランジッションカーネルを固定した結合報酬rmdpについて検討するが,報酬関数は名目上のものから$\alpha$-radius の範囲内にある。 我々は、このタイプの非矩形報酬RMDPと政策訪問頻度正規化の直接接続を描く。 政策段階の手法を導入し,その収束性を証明する。 数値実験では、矩形不確かさと比較して学習方針の頑健さと保守的でない振る舞いが示されている。

In robust Markov decision processes (RMDPs), it is assumed that the reward and the transition dynamics lie in a given uncertainty set. By targeting maximal return under the most adversarial model from that set, RMDPs address performance sensitivity to misspecified environments. Yet, to preserve computational tractability, the uncertainty set is traditionally independently structured for each state. This so-called rectangularity condition is solely motivated by computational concerns. As a result, it lacks a practical incentive and may lead to overly conservative behavior. In this work, we study coupled reward RMDPs where the transition kernel is fixed, but the reward function lies within an $\alpha$-radius from a nominal one. We draw a direct connection between this type of non-rectangular reward-RMDPs and applying policy visitation frequency regularization. We introduce a policy-gradient method and prove its convergence. Numerical experiments illustrate the learned policy's robustness and its less conservative behavior when compared to rectangular uncertainty.
翻訳日:2024-02-13 22:30:08 公開日:2024-02-12
# 修正重力による宇宙体積のベイズ深度学習

Bayesian deep learning for cosmic volumes with modified gravity ( http://arxiv.org/abs/2309.00612v2 )

ライセンス: Link先を確認
Jorge Enrique Garc\'ia-Farieta, H\'ector J Hort\'ua and Francisco-Shu Kitaura(参考訳) 新しい世代の銀河サーベイは、宇宙スケールで重力をテストできる前例のないデータを提供します。 大規模構造のロバストな宇宙論的解析は、宇宙のウェブにエンコードされた非線形情報を利用する必要がある。 しかし、機械学習技術はそのようなツールを提供するが、不確実性の事前評価を提供していない。 本研究では,不確実性推定による深層ニューラルネットワークを用いて,修正重力(MG)シミュレーションから宇宙パラメータを抽出することを目的とした。 1つのベイズ最後の層(bll)と1つのベイズ層(fullb)の2つのケースを考慮して、ベイズニューラルネットワーク(bnns)を実装した。 128$^3$粒子を持つMpc側立方体体積256$h^{-1}$MpcをカバーするMG-PICOLAに依存する修正重力モデルを含む2000のダークマターのみの粒子メッシュからBNNを実空間密度場とパワースペクトルで訓練する。 BNNは$\Omega_m$と$\sigma_8$のパラメータを正確に予測し、それぞれがMGパラメータと相関する。 我々は、bnnが従来のニューラルネットワークの過大かつ過小評価問題を克服する十分な不確実性推定をもたらすことを見出した。 MGパラメータの存在は, MG予測の貧弱な説明の1つとして$\sigma_8$という大きな縮退をもたらすことが観察された。 MGを無視すると、相対誤差は$\Omega_m$と$\sigma_8$で少なくとも$30\%$にずれる。 さらに,密度場とパワースペクトル解析の結果と,計算時間を2倍に抑えるbll実験とfullb実験の比較結果の一致を報告した。 この研究は、完全な小さな宇宙の体積から非常に非線形な状態への宇宙パラメータを抽出する経路の設定に寄与する。

The new generation of galaxy surveys will provide unprecedented data allowing us to test gravity at cosmological scales. A robust cosmological analysis of the large-scale structure demands exploiting the nonlinear information encoded in the cosmic web. Machine Learning techniques provide such tools, however, do not provide a priori assessment of uncertainties. This study aims at extracting cosmological parameters from modified gravity (MG) simulations through deep neural networks endowed with uncertainty estimations. We implement Bayesian neural networks (BNNs) with an enriched approximate posterior distribution considering two cases: one with a single Bayesian last layer (BLL), and another one with Bayesian layers at all levels (FullB). We train both BNNs with real-space density fields and power-spectra from a suite of 2000 dark matter only particle mesh $N$-body simulations including modified gravity models relying on MG-PICOLA covering 256 $h^{-1}$ Mpc side cubical volumes with 128$^3$ particles. BNNs excel in accurately predicting parameters for $\Omega_m$ and $\sigma_8$ and their respective correlation with the MG parameter. We find out that BNNs yield well-calibrated uncertainty estimates overcoming the over- and under-estimation issues in traditional neural networks. We observe that the presence of MG parameter leads to a significant degeneracy with $\sigma_8$ being one of the possible explanations of the poor MG predictions. Ignoring MG, we obtain a deviation of the relative errors in $\Omega_m$ and $\sigma_8$ by at least $30\%$. Moreover, we report consistent results from the density field and power spectra analysis, and comparable results between BLL and FullB experiments which permits us to save computing time by a factor of two. This work contributes in setting the path to extract cosmological parameters from complete small cosmic volumes towards the highly nonlinear regime.
翻訳日:2024-02-13 22:29:33 公開日:2024-02-12
# 街路網における都市ブロックアーティファクト検出のための形状に基づくヒューリスティック

A shape-based heuristic for the detection of urban block artifacts in street networks ( http://arxiv.org/abs/2309.00438v2 )

ライセンス: Link先を確認
Martin Fleischmann and Anastassia Vybornova(参考訳) 街路網は都市のユビキタスな構成要素であり、その開発を導いており、街路網は多くの都市分析手法の重要な要素でもある。 しかし、そのグラフ表現は主に輸送目的のために設計されていることが多い。 この表現は、例えば形態解析、視覚ナビゲーション、ドローン飛行経路の場合など、輸送ネットワークを必須の事前処理ステップとして単純化する必要がある他のユースケースには適していない。 自動前処理手法の緊急需要は様々な分野から来ているが、まだ未解決の課題である。 本稿では,この課題に取り組むために,交通の縁で囲まれながら都市ブロックを表現しない「顔のアーティファクト」,すなわちジオメトリの識別のための,安価な計算ヒューリスティックを提案する。 このヒューリスティックは,形状コンパクト度測定値の周波数分布と街路網面ポリゴンの面積測定を組み合わせたものである。 本手法を世界131大都市で試行し, 分析対象都市の99%で顔のアーティファクトの同定に成功したことを示す。 別の目的で収集されたデータによって引き起こされるアーティファクトを検出するヒューリスティックは、自動化されたストリートネットワークの単純化ワークフローへの第一歩です。 さらに,提案するフェイスアーティファクト指数は,異なる地域における都市開発を導く構造規則の違いを明らかにする。

Street networks are ubiquitous components of cities, guiding their development and enabling movement from place to place; street networks are also the critical components of many urban analytical methods. However, their graph representation is often designed primarily for transportation purposes. This representation is less suitable for other use cases where transportation networks need to be simplified as a mandatory pre-processing step, e.g., in the case of morphological analysis, visual navigation, or drone flight routing. While the urgent demand for automated pre-processing methods comes from various fields, it is still an unsolved challenge. In this article, we tackle this challenge by proposing a cheap computational heuristic for the identification of "face artifacts", i.e., geometries that are enclosed by transportation edges but do not represent urban blocks. The heuristic is based on combining the frequency distributions of shape compactness metrics and area measurements of street network face polygons. We test our method on 131 globally sampled large cities and show that it successfully identifies face artifacts in 89\% of analyzed cities. Our heuristic of detecting artifacts caused by data being collected for another purpose is the first step towards an automated street network simplification workflow. Moreover, the proposed face artifact index uncovers differences in structural rules guiding the development of cities in different world regions.
翻訳日:2024-02-13 22:28:22 公開日:2024-02-12
# メタモデリングによるリガンド-タンパク質結合親和性の予測

Improved prediction of ligand-protein binding affinities by meta-modeling ( http://arxiv.org/abs/2310.03946v2 )

ライセンス: Link先を確認
Ho-Joon Lee, Prashant S. Emani, and Mark B. Gerstein(参考訳) 計算的アプローチによる標的タンパク質に対する候補薬物リガンドの正確なスクリーニングは、薬物開発における主要な関心事である。 このような仮想スクリーニングは、リガンドとタンパク質の結合親和性を予測する方法に依存する。 結合親和性予測のための多くの計算モデルが開発されてきたが、ターゲット間で様々な結果が得られた。 モデル固有のバイアスを低減する上で,アンサンブル法やメタモデリング法が大きな可能性を秘めていることを考慮し,提案した力場に基づく経験的ドッキングとシーケンスに基づくディープラーニングモデルを統合する枠組みを開発した。 このフレームワークを構築する際に、個々のベースモデル、トレーニングデータベース、およびいくつかのメタモデリングアプローチの多くの組み合わせを評価します。 メタモデルの多くはベースモデルに対する親和性予測を大幅に改善している。 我々の最高のメタモデルは、構造のみに基づく最先端のディープラーニングツールに匹敵する性能を実現し、物理化学的特性や分子記述子といった特徴を明示的に含み、データベースのスケーラビリティと柔軟性を向上させる。 全体として、結合親和性予測を改善するために、多様なモデリングアプローチを組み合せることを実証する。

The accurate screening of candidate drug ligands against target proteins through computational approaches is of prime interest to drug development efforts. Such virtual screening depends in part on methods to predict the binding affinity between ligands and proteins. Many computational models for binding affinity prediction have been developed, but with varying results across targets. Given that ensembling or meta-modeling methods have shown great promise in reducing model-specific biases, we develop a framework to integrate published force-field-based empirical docking and sequence-based deep learning models. In building this framework, we evaluate many combinations of individual base models, training databases, and several meta-modeling approaches. We show that many of our meta-models significantly improve affinity predictions over base models. Our best meta-models achieve comparable performance to state-of-the-art deep learning tools exclusively based on structures, while allowing for improved database scalability and flexibility through the explicit inclusion of features such as physicochemical properties or molecular descriptors. Overall, we demonstrate that diverse modeling approaches can be ensembled together to gain improvement in binding affinity prediction.
翻訳日:2024-02-13 22:20:47 公開日:2024-02-12
# ヘビーテールバンディットにおける$(\epsilon, u)$-adaptive regretの最小化

$(\epsilon, u)$-Adaptive Regret Minimization in Heavy-Tailed Bandits ( http://arxiv.org/abs/2310.02975v2 )

ライセンス: Link先を確認
Gianmarco Genalti and Lupo Marsigli and Nicola Gatti and Alberto Maria Metelli(参考訳) 重細な分布は、金融から通信まで、いくつかの場所で自然に発生する。 subgaussian や bounded rewards の下での後悔の最小化は広く研究されているが、ヘビーテール分布での学習は過去10年間で人気を博しただけである。 本稿では、ある$\epsilon \in (0,1]$に対して、報酬分布が最大位 $1+\epsilon$ の有限絶対な生モーメントを持つような条件を、定数$u<+\infty$ で一様有界に考える。 本稿では,学習者に対して$\epsilon$と$u$が未知であり,適応しなければならない場合の,後悔の最小化問題を考察する。 まず,適応はコストがかかることを示し,不適応の場合の同じ後悔の保証が,それ以上の仮定で達成できないことを示す2つの負の結果を導出する。 そこで我々は,完全データ駆動型トリミング平均推定器を考案,解析し,そのような推定器を利用する新しい適応的最小化アルゴリズムAdaR-UCBを提案する。 最後に, adar-ucbは, 既知の分布的仮定の下で, 非適応重項の場合とほぼ一致した後悔の保証を享受する最初のアルゴリズムであることを示す。

Heavy-tailed distributions naturally arise in several settings, from finance to telecommunications. While regret minimization under subgaussian or bounded rewards has been widely studied, learning with heavy-tailed distributions only gained popularity over the last decade. In this paper, we consider the setting in which the reward distributions have finite absolute raw moments of maximum order $1+\epsilon$, uniformly bounded by a constant $u<+\infty$, for some $\epsilon \in (0,1]$. In this setting, we study the regret minimization problem when $\epsilon$ and $u$ are unknown to the learner and it has to adapt. First, we show that adaptation comes at a cost and derive two negative results proving that the same regret guarantees of the non-adaptive case cannot be achieved with no further assumptions. Then, we devise and analyze a fully data-driven trimmed mean estimator and propose a novel adaptive regret minimization algorithm, AdaR-UCB, that leverages such an estimator. Finally, we show that AdaR-UCB is the first algorithm that, under a known distributional assumption, enjoys regret guarantees nearly matching those of the non-adaptive heavy-tailed case.
翻訳日:2024-02-13 22:20:29 公開日:2024-02-12
# 低エネルギーにおける量子力学の局所性境界

Locality bounds for quantum dynamics at low energy ( http://arxiv.org/abs/2310.02856v2 )

ライセンス: Link先を確認
Andrew Osborne, Chao Yin, Andrew Lucas(参考訳) 空間局所ハミルトニアンの低エネルギー密度状態における量子力学の一般的な減速について論じる。 単一粒子の量子ウォークから始めると、ハミルトニアンのある種のクラス(格子正規化$H\propto p^{2k}$)に対して、低エネルギーでの粒子運動の「バタフライ速度」は、次元解析から予想されるように、上界が$E^{(2k-1)/2k}$であることを示す。 これらの結果を一般化し、反発的な相互作用を持つ多体系における粒子の典型的な速度の境界を得る。

We discuss the generic slowing down of quantum dynamics in low energy density states of spatially local Hamiltonians. Beginning with quantum walks of a single particle, we prove that for certain classes of Hamiltonians (deformations of lattice-regularized $H\propto p^{2k}$), the ``butterfly velocity" of particle motion at low energies has an upper bound that must scale as $E^{(2k-1)/2k}$, as expected from dimensional analysis. We generalize these results to obtain bounds on the typical velocities of particles in many-body systems with repulsive interactions, where for certain families of Hubbard-like models we obtain similar scaling.
翻訳日:2024-02-13 22:20:03 公開日:2024-02-12
# 有界離散時系列における概周期性の普遍性

Universality of almost periodicity in bounded discrete time series ( http://arxiv.org/abs/2310.00290v3 )

ライセンス: Link先を確認
Tsuyoshi Yoneda(参考訳) 我々は有界離散時系列を考える。 その統計的特徴から、フーリエ変換を使わずに、対応する時系列を局所時間間隔で近似する適切な概周期関数を求める。

We consider bounded discrete time series. From its statistical feature, without any use of the Fourier transform, we find a suitable almost periodic function which approximates the corresponding time series in a local time interval.
翻訳日:2024-02-13 22:18:47 公開日:2024-02-12
# 衝突自由運動計画のための絶縁体による伝熱拡散

Denoising Heat-inspired Diffusion with Insulators for Collision Free Motion Planning ( http://arxiv.org/abs/2310.12609v4 )

ライセンス: Link先を確認
Junwoo Chang, Hyunwoo Ryu, Jiwoo Kim, Soochul Yoo, Jongeun Choi, Joohwan Seo, Nikhil Prakash, Roberto Horowitz(参考訳) 拡散モデルは、柔軟性と多モード性のためにロボット工学の強力なツールとして台頭している。 これらの手法のいくつかは複雑な問題に効果的に対処するが、しばしば推論時の障害物検出に大きく依存し、追加の機器を必要とする。 これらの課題に対処し,推論時間中に,単一の視覚入力から,到達可能な目標と障害を回避する計画動作のみを同時に生成する手法を提案する。 我々のアプローチの中心は、衝突回避拡散カーネルをトレーニングに利用することである。 ビヘイビアクローニングモデルや古典拡散モデルに対する評価を通じて,その頑健性が証明された。 マルチモーダル環境では特に効果的で、目標に向かって移動し、障害物によってブロックされた到達不能なものを避けながら、衝突回避を確保する。 プロジェクトウェブサイト: https://sites.google.com/view/denoising-heat-inspired

Diffusion models have risen as a powerful tool in robotics due to their flexibility and multi-modality. While some of these methods effectively address complex problems, they often depend heavily on inference-time obstacle detection and require additional equipment. Addressing these challenges, we present a method that, during inference time, simultaneously generates only reachable goals and plans motions that avoid obstacles, all from a single visual input. Central to our approach is the novel use of a collision-avoiding diffusion kernel for training. Through evaluations against behavior-cloning and classical diffusion models, our framework has proven its robustness. It is particularly effective in multi-modal environments, navigating toward goals and avoiding unreachable ones blocked by obstacles, while ensuring collision avoidance. Project Website: https://sites.google.com/view/denoising-heat-inspired
翻訳日:2024-02-13 22:10:16 公開日:2024-02-12
# 蓄積局所効果(ALE)に基づく機械学習と古典的手法を用いた統計的推測

Statistical inference using machine learning and classical techniques based on accumulated local effects (ALE) ( http://arxiv.org/abs/2310.09877v3 )

ライセンス: Link先を確認
Chitu Okoli(参考訳) Accumulated Local Effects (ALE)は、ブラックボックス機械学習(ML)アルゴリズムの結果のグローバルな説明のためのモデルに依存しないアプローチである。 ALEに基づく統計的推論を行う上で、少なくとも3つの課題がある。ALE分析の信頼性を保証すること、特に小さなデータセットのコンテキストにおいて、MLにおける変数の全体的な影響を直感的に特徴づけること、MLデータ分析から堅牢な推論を行うことである。 これに対し、ALEを用いた統計的推論のための革新的なツールや手法を導入し、データセットのサイズに合わせて自己申告された信頼区間を確立し、結果変数尺度と正規化尺度の両方に直感的に影響を示すALE効果尺度を導入する。 さらに,これらのツールを用いて信頼性の高い統計的推論を行う方法を示すとともに,r の 'ale' パッケージに実装されているフレキシブルなパターンを例示する。本研究は ale に関する議論と ml と統計解析におけるその適用可能性を促進し,この分野の課題を克服するための実用的なソリューションを提供する。

Accumulated Local Effects (ALE) is a model-agnostic approach for global explanations of the results of black-box machine learning (ML) algorithms. There are at least three challenges with conducting statistical inference based on ALE: ensuring the reliability of ALE analyses, especially in the context of small datasets; intuitively characterizing a variable's overall effect in ML; and making robust inferences from ML data analysis. In response, we introduce innovative tools and techniques for statistical inference using ALE, establishing bootstrapped confidence intervals tailored to dataset size and introducing ALE effect size measures that intuitively indicate effects on both the outcome variable scale and a normalized scale. Furthermore, we demonstrate how to use these tools to draw reliable statistical inferences, reflecting the flexible patterns ALE adeptly highlights, with implementations available in the 'ale' package in R. This work propels the discourse on ALE and its applicability in ML and statistical analysis forward, offering practical solutions to prevailing challenges in the field.
翻訳日:2024-02-13 22:09:40 公開日:2024-02-12
# Score-based Diffusion を用いた混合型語彙データ合成

Mixed-Type Tabular Data Synthesis with Score-based Diffusion in Latent Space ( http://arxiv.org/abs/2310.09656v2 )

ライセンス: Link先を確認
Hengrui Zhang, Jiani Zhang, Balasubramaniam Srinivasan, Zhengyuan Shen, Xiao Qin, Christos Faloutsos, Huzefa Rangwala and George Karypis(参考訳) 表データ生成の最近の進歩は、合成データの品質を大幅に向上させた。 しかし,表データへの拡散モデルの拡張は,複雑に変化する分布とデータ型の組み合わせにより困難である。 本稿では,変分オートエンコーダ(VAE)の潜在空間内での拡散モデルを利用して,表層データを合成する手法であるTabsynを紹介する。 提案するtabsynの主な利点は,(1) 汎用性: 単一の統一空間に変換し,明らかにコラム間の関係を捉えることにより,幅広いデータ型を扱う能力,(2) 品質: 拡散モデルのトレーニングを強化するために潜在埋め込みの分散を最適化すること,(3) 速度: 逆ステップの数が少なく,既存の拡散ベースの手法よりも高速に合成できること,等である。 5つのメトリクスによる6つのデータセットに関する広範な実験は、tabsynが既存のメソッドを上回ることを示している。 具体的には、最も競争の激しいベースラインと比較して、列間分布とペア間相関推定のエラー率を86%と67%削減する。

Recent advances in tabular data generation have greatly enhanced synthetic data quality. However, extending diffusion models to tabular data is challenging due to the intricately varied distributions and a blend of data types of tabular data. This paper introduces Tabsyn, a methodology that synthesizes tabular data by leveraging a diffusion model within a variational autoencoder (VAE) crafted latent space. The key advantages of the proposed Tabsyn include (1) Generality: the ability to handle a broad spectrum of data types by converting them into a single unified space and explicitly capture inter-column relations; (2) Quality: optimizing the distribution of latent embeddings to enhance the subsequent training of diffusion models, which helps generate high-quality synthetic data, (3) Speed: much fewer number of reverse steps and faster synthesis speed than existing diffusion-based methods. Extensive experiments on six datasets with five metrics demonstrate that Tabsyn outperforms existing methods. Specifically, it reduces the error rates by 86% and 67% for column-wise distribution and pair-wise column correlation estimations compared with the most competitive baselines.
翻訳日:2024-02-13 22:09:21 公開日:2024-02-12
# ByteStack-ID:Grayscale Image-based Network Intrusion Detectionのための Payload Byte Frequency を利用した統合スタックモデル

ByteStack-ID: Integrated Stacked Model Leveraging Payload Byte Frequency for Grayscale Image-based Network Intrusion Detection ( http://arxiv.org/abs/2310.09298v2 )

ライセンス: Link先を確認
Irfan Khan, Yasir Ali Farrukh and Syed Wali(参考訳) 進化を続けるネットワークセキュリティの領域では、ネットワークトラフィック内の多様な攻撃クラスの迅速かつ正確な識別が最優先事項である。 本稿では,パケットレベルの侵入検知に適した先駆的アプローチであるByteStack-IDを提案する。 bytestack-idの中核は、ペイロードデータの頻度分布から生成されたグレースケールのイメージを活用しており、これは複雑なデータパターンを識別するモデルの能力を大きく向上する画期的な技術である。 特に,本手法は,主にフローベースデータに依存する従来のネットワーク侵入検知システム(NIDS)から逸脱したパケットレベルの情報にのみ基づいている。 ByteStack-IDはスタック手法の基本的な概念に基づいて構築されているが、従来のスタック手法とは異なっている。 新たなメタ学習層を統合ベース学習層にシームレスに統合し、高度に最適化された統一モデルを作成する。 ByteStack-IDフレームワークは、精度、リコール、F1スコアを含む重要なパフォーマンス指標にわたって、ベースラインモデルと最先端のアプローチを一貫して上回っている。 印象的なことに,提案手法は,マルチクラス分類タスクにおいて,81\%のマクロF1スコアを実現する。 ネットワークの脅威の継続的な進化によって特徴づけられる状況において、bytestack-idは堅牢で汎用性の高いセキュリティソリューションとして出現し、ネットワークトラフィックデータから抽出されたパケットレベルの情報のみに依存する。

In the ever-evolving realm of network security, the swift and accurate identification of diverse attack classes within network traffic is of paramount importance. This paper introduces "ByteStack-ID," a pioneering approach tailored for packet-level intrusion detection. At its core, ByteStack-ID leverages grayscale images generated from the frequency distributions of payload data, a groundbreaking technique that greatly enhances the model's ability to discern intricate data patterns. Notably, our approach is exclusively grounded in packet-level information, a departure from conventional Network Intrusion Detection Systems (NIDS) that predominantly rely on flow-based data. While building upon the fundamental concept of stacking methodology, ByteStack-ID diverges from traditional stacking approaches. It seamlessly integrates additional meta learner layers into the concatenated base learners, creating a highly optimized, unified model. Empirical results unequivocally confirm the outstanding effectiveness of the ByteStack-ID framework, consistently outperforming baseline models and state-of-the-art approaches across pivotal performance metrics, including precision, recall, and F1-score. Impressively, our proposed approach achieves an exceptional 81\% macro F1-score in multiclass classification tasks. In a landscape marked by the continuous evolution of network threats, ByteStack-ID emerges as a robust and versatile security solution, relying solely on packet-level information extracted from network traffic data.
翻訳日:2024-02-13 22:08:33 公開日:2024-02-12
# MemGPT:オペレーティングシステムとしてのLLMを目指して

MemGPT: Towards LLMs as Operating Systems ( http://arxiv.org/abs/2310.08560v2 )

ライセンス: Link先を確認
Charles Packer, Sarah Wooders, Kevin Lin, Vivian Fang, Shishir G. Patil, Ion Stoica, Joseph E. Gonzalez(参考訳) 大規模言語モデル(LLM)はAIに革命をもたらしたが、コンテキストウィンドウの制限により制約され、会話の拡張やドキュメント分析といったタスクにおいてその実用性が妨げられている。 コンテクストを制限されたコンテキストウインドウを超えて利用できるようにするために,従来のオペレーティングシステムにおける階層型メモリシステムからインスピレーションを得て,高速メモリと低速メモリ間のデータ移動による大規模メモリリソースの出現を実現する技術である仮想コンテクスト管理を提案する。 この手法を用いて,LLMの限られたコンテキストウィンドウ内に拡張コンテキストを効果的に提供するために,異なるメモリ層をインテリジェントに管理するシステムであるMemGPT(Memory-GPT)を導入し,インタプリタを用いて自身とユーザ間の制御フローを管理する。 我々は,現在のllmの限られたコンテキストウィンドウがパフォーマンスを著しく損なう2つの領域において,osにインスパイアされた設計を評価する。 ドキュメント分析, llmのコンテキストウィンドウをはるかに越えた大規模ドキュメントを解析可能なmemgpt, ユーザとの長期的インタラクションを通じて動的に記憶し, 反映し, 進化する対話型エージェントを作成できるマルチセッションチャットである。 私たちはMemGPTコードと実験のためのデータをhttps://memgpt.ai.comでリリースします。

Large language models (LLMs) have revolutionized AI, but are constrained by limited context windows, hindering their utility in tasks like extended conversations and document analysis. To enable using context beyond limited context windows, we propose virtual context management, a technique drawing inspiration from hierarchical memory systems in traditional operating systems that provide the appearance of large memory resources through data movement between fast and slow memory. Using this technique, we introduce MemGPT (Memory-GPT), a system that intelligently manages different memory tiers in order to effectively provide extended context within the LLM's limited context window, and utilizes interrupts to manage control flow between itself and the user. We evaluate our OS-inspired design in two domains where the limited context windows of modern LLMs severely handicaps their performance: document analysis, where MemGPT is able to analyze large documents that far exceed the underlying LLM's context window, and multi-session chat, where MemGPT can create conversational agents that remember, reflect, and evolve dynamically through long-term interactions with their users. We release MemGPT code and data for our experiments at https://memgpt.ai.
翻訳日:2024-02-13 22:07:48 公開日:2024-02-12
# 量子接続、電荷および仮想粒子

Quantum connection, charges and virtual particles ( http://arxiv.org/abs/2310.06507v4 )

ライセンス: Link先を確認
Alexander D. Popov(参考訳) 幾何学的には、量子力学は古典的な粒子相空間上の複素直線束 $L_\hbar$ で定義される: $T^*{R}^3\cong{R}^6$ で、座標は $x^a$ と momenta $p_a$, $a,...=1,2,3$ である。 この量子バンドル $L_\hbar$ には接続 $A_\hbar$ が与えられ、そのセクションはシュリンガー方程式に従う標準波動関数 $\psi$ である。 共変微分の成分 $\nabla_{a_\hbar}^{}$ in $l_\hbar$ は作用素 ${\hat x}^a$ と ${\hat p}_a$ と等価である。 束 $L_\hbar=: L_{C}^+$ は対称性群 U(1)$_\hbar$ に関連付けられ、群 U(1)$_\hbar$ の生成元の固有値である量子電荷 $q=1$ の粒子を記述する。 複素共役束 $L^-_{C}:={\overline{L_{C}^+}}$ は量子電荷 $q=-1$ の反粒子を記述する。 L_{C}^\pm$ と接続 $A_\hbar$ を相対論的位相空間 $T^*{R}^{3,1}$ に持ち上げ、粒子と反粒子の両方を記述するディラックスピノルバンドルに結合する。 自由相対論的クォークとレプトンはミンコフスキー空間${R}^{3,1}$上のディラック方程式によって記述される。 この方程式は、バンドル上での量子接続 $a_\hbar$ との相互作用を含まない: $l^\pm_{c}\to t^*{r}^{3,1}$ なぜなら、$a_\hbar$ は $t^*{r}^{3,1}$ の $p_a$-directions に沿ってのみ非有界成分を持つからである。 素フェルミオン$\Psi$と量子接続$A_\hbar$ on $L_{C}^\pm$との相互作用を可能にするため、$\Psi$が$t$と$x^a$にのみ依存する条件を維持しながら、ダイラック方程式を位相空間に拡張する。 拡張方程式は、離散エネルギー値とコヒーレント状態のウェーブパケットを持つ振動子型解の無限個数を持つ。 これらの正規化解は、質量殻ハイパーボロイドの外に住む仮想粒子や反粒子を記述している。 自由粒子への遷移は、圧縮されたコヒーレント状態を通じて可能である。

Geometrically, quantum mechanics is defined by a complex line bundle $L_\hbar$ over the classical particle phase space $T^*{R}^3\cong{R}^6$ with coordinates $x^a$ and momenta $p_a$, $a,...=1,2,3$. This quantum bundle $L_\hbar$ is endowed with a connection $A_\hbar$, and its sections are standard wave functions $\psi$ obeying the Schr\"odinger equation. The components of covariant derivatives $\nabla_{A_\hbar}^{}$ in $L_\hbar$ are equivalent to operators ${\hat x}^a$ and ${\hat p}_a$. The bundle $L_\hbar=: L_{C}^+$ is associated with symmetry group U(1)$_\hbar$ and describes particles with quantum charge $q=1$ which is eigenvalue of the generator of the group U(1)$_\hbar$. The complex conjugate bundle $L^-_{C}:={\overline{L_{C}^+}}$ describes antiparticles with quantum charge $q=-1$. We will lift the bundles $L_{C}^\pm$ and connection $A_\hbar$ on them to the relativistic phase space $T^*{R}^{3,1}$ and couple them to the Dirac spinor bundle describing both particles and antiparticles. Free relativistic quarks and leptons are described by the Dirac equation on Minkowski space ${R}^{3,1}$. This equation does not contain interaction with the quantum connection $A_\hbar$ on bundles $L^\pm_{C}\to T^*{R}^{3,1}$ because $A_\hbar$ has non-vanishing components only along $p_a$-directions in $T^*{R}^{3,1}$. To enable the interaction of elementary fermions $\Psi$ with quantum connection $A_\hbar$ on $L_{C}^\pm$, we will extend the Dirac equation to the phase space while maintaining the condition that $\Psi$ depends only on $t$ and $x^a$. The extended equation has an infinite number of oscillator-type solutions with discrete energy values as well as wave packets of coherent states. We argue that all these normalized solutions describe virtual particles and antiparticles living outside the mass shell hyperboloid. The transition to free particles is possible through squeezed coherent states.
翻訳日:2024-02-13 22:07:08 公開日:2024-02-12
# 直接グラフニューラルネットワークによるロバスト角同期

Robust Angular Synchronization via Directed Graph Neural Networks ( http://arxiv.org/abs/2310.05842v2 )

ライセンス: Link先を確認
Yixuan He, Gesine Reinert, David Wipf, Mihai Cucuringu(参考訳) 角同期問題は、未知の角度の組 $\theta_1, \dots, \theta_n\in[0, 2\pi)$ を、それらのオフセットの$m$ノイズ測定 $\theta_i-\theta_j \;\mbox{mod} \; 2\pi から正確に推定することを目的としている。 たとえば、センサーネットワークのローカライズ、位相検索、分散クロック同期などだ。 不均一な設定(dubed $k$-synchronization)への問題の延長は、各群からノイズのある観測(未知のグループ割り当て)を与えられたとき、同時に$k$の角度群を推定することである。 既存の角同期法は、通常、高雑音のレシエーションでは性能が悪く、応用では一般的である。 本稿では,指向型グラフニューラルネットワークを用いた,理論上接地されたエンドツーエンドトレーニングフレームワークであるgnnsyncを提案することで,角同期問題やその不均一性拡張にニューラルネットワークを活用する。 さらに、同期目的を符号化するために新しい損失関数が考案される。 広範データセットによる実験結果から,GNNSyncは,高雑音レベルにおいても,角度同期問題とその拡張に対する包括的ベースラインに対して,競争力があり,優れた性能を発揮することが示された。

The angular synchronization problem aims to accurately estimate (up to a constant additive phase) a set of unknown angles $\theta_1, \dots, \theta_n\in[0, 2\pi)$ from $m$ noisy measurements of their offsets $\theta_i-\theta_j \;\mbox{mod} \; 2\pi.$ Applications include, for example, sensor network localization, phase retrieval, and distributed clock synchronization. An extension of the problem to the heterogeneous setting (dubbed $k$-synchronization) is to estimate $k$ groups of angles simultaneously, given noisy observations (with unknown group assignment) from each group. Existing methods for angular synchronization usually perform poorly in high-noise regimes, which are common in applications. In this paper, we leverage neural networks for the angular synchronization problem, and its heterogeneous extension, by proposing GNNSync, a theoretically-grounded end-to-end trainable framework using directed graph neural networks. In addition, new loss functions are devised to encode synchronization objectives. Experimental results on extensive data sets demonstrate that GNNSync attains competitive, and often superior, performance against a comprehensive set of baselines for the angular synchronization problem and its extension, validating the robustness of GNNSync even at high noise levels.
翻訳日:2024-02-13 22:05:42 公開日:2024-02-12
# COSTAR:自己監督学習による時間的対実推定の改善

COSTAR: Improved Temporal Counterfactual Estimation with Self-Supervised Learning ( http://arxiv.org/abs/2311.00886v2 )

ライセンス: Link先を確認
Chuizheng Meng, Yihe Dong, Sercan \"O. Ar{\i}k, Yan Liu, Tomas Pfister(参考訳) 医療や電子商取引など多くの分野で、特にランダム化制御試験(RCT)が高コストまたは非現実性に苦しむ場合、観察された歴史からの時間的対実結果の推定は意思決定に不可欠である。 現実世界のデータセットでは、複雑なダイナミクス、長距離の依存関係、過去の処理と共変量の両方が将来の結果に影響を与えるため、時間に依存した共同創設者のモデリングが難しい。 本稿では,歴史表現の改善のために自己教師付き学習を統合した新しい手法であるcostar(counterfactual self-supervised transformer)を提案する。 本稿では、時間的治療結果の観察に適したコンポーネントワイドコントラスト損失を提案し、その効果を教師なし領域適応の観点から説明する。 COSTARは、既存のモデルと比較して、推定精度と分布外データへの一般化において優れた性能を得る。

Estimation of temporal counterfactual outcomes from observed history is crucial for decision-making in many domains such as healthcare and e-commerce, particularly when randomized controlled trials (RCTs) suffer from high cost or impracticality. For real-world datasets, modeling time-dependent confounders is challenging due to complex dynamics, long-range dependencies and both past treatments and covariates affecting the future outcomes. In this paper, we introduce Counterfactual Self-Supervised Transformer (COSTAR), a novel approach that integrates self-supervised learning for improved historical representations. We propose a component-wise contrastive loss tailored for temporal treatment outcome observations and explain its effectiveness from the view of unsupervised domain adaptation. COSTAR yields superior performance in estimation accuracy and generalization to out-of-distribution data compared to existing models, as validated by empirical results on both synthetic and real-world datasets.
翻訳日:2024-02-13 21:58:33 公開日:2024-02-12
# ゴールコンディショニングエージェントのためのオープンエンド学習問題の定義

A Definition of Open-Ended Learning Problems for Goal-Conditioned Agents ( http://arxiv.org/abs/2311.00344v3 )

ライセンス: Link先を確認
Olivier Sigaud, Gianluca Baldassarre, Cedric Colas, Stephane Doncieux, Richard Duro, Nicolas Perrin-Gilbert, Vieri Giuliano Santucci(参考訳) 最近の機械学習の研究論文の多くは、タイトルに‘open-ended learning’がある。 しかし、その用語を使うことの意味を定義する試みはごくわずかである。 さらに悪いことに、より綿密に見ると、オープンエンド学習と継続的学習、生涯学習、オートテリック学習といった関連する概念の違いについてのコンセンサスはないようだ。 本稿では,この状況の解決に寄与する。 概念の系図と、それが本当に何を意味するのかのより最近の視点を図解した後、オープン・エンド・ラーニングは一般に多様な特性の集合を包含する複合概念として考えられていることを概説する。 従来のアプローチとは対照的に,我々は,観察者の視点から斬新と考えられる無限の地平線上に,時間から時間までの要素(観察,オプション,報酬関数,目標など)を生成できるオープンエンドプロセスの重要な基本特性を分離することを提案する。 そこから,オープンディビジョン学習問題の概念を構築し,特に,エージェントが目標駆動スキルのレパートリーを増大させることが可能なオープンディビジョン目標条件強化学習問題のサブセットに焦点をあてる。 最後に、私たちの基本的な定義と、発達型AI研究者が念頭に置いているであろうオープンエンドラーニングの概念とのギャップを埋めるために、まだ実行すべき作業を強調します。

A lot of recent machine learning research papers have ``open-ended learning'' in their title. But very few of them attempt to define what they mean when using the term. Even worse, when looking more closely there seems to be no consensus on what distinguishes open-ended learning from related concepts such as continual learning, lifelong learning or autotelic learning. In this paper, we contribute to fixing this situation. After illustrating the genealogy of the concept and more recent perspectives about what it truly means, we outline that open-ended learning is generally conceived as a composite notion encompassing a set of diverse properties. In contrast with previous approaches, we propose to isolate a key elementary property of open-ended processes, which is to produce elements from time to time (e.g., observations, options, reward functions, and goals), over an infinite horizon, that are considered novel from an observer's perspective. From there, we build the notion of open-ended learning problems and focus in particular on the subset of open-ended goal-conditioned reinforcement learning problems in which agents can learn a growing repertoire of goal-driven skills. Finally, we highlight the work that remains to be performed to fill the gap between our elementary definition and the more involved notions of open-ended learning that developmental AI researchers may have in mind.
翻訳日:2024-02-13 21:57:56 公開日:2024-02-12
# 道路安全モデリングのためのグラフニューラルネットワーク:事故解析のためのデータセットと評価

Graph Neural Networks for Road Safety Modeling: Datasets and Evaluations for Accident Analysis ( http://arxiv.org/abs/2311.00164v2 )

ライセンス: Link先を確認
Abhinav Nippani, Dongyue Li, Haotian Ju, Haris N. Koutsopoulos, Hongyang R. Zhang(参考訳) 道路網の接続と交通量に基づく道路網における交通事故解析の問題点について考察する。 過去の研究は、交通事故の発生を予測するために歴史的記録を用いた様々な深層学習手法を設計してきた。 しかしながら、既存の手法の正確性に関するコンセンサスが欠如しており、基本的な問題は総合的な評価のための公開事故データセットの欠如である。 本稿では,米国各州の公報から得られた交通事故記録の大規模統一データセットを構築し,道路網と交通量報告を伴い,合計900万件の記録を収集した。 この新しいデータセットを用いて,道路網における事故発生予測のための既存のディープラーニング手法を評価する。 私たちの主な発見は、graphsageのようなグラフニューラルネットワークは、絶対誤差が22%未満の道路での事故数を正確に予測でき、事故が87%以上のaurocで発生するかどうかを、状態平均で予測できるということです。 本研究では,交通量と事故予測を組み合わせるために,マルチタスク学習を用いてクロスステートな変動(事故ラベルの可用性など)を考慮し,これらの結果を得る。 アブレーション研究は、道路グラフ構造の特徴、その他の特徴の重要性を強調している。 最後に、分析の意味について論じ、新しいデータセットを簡単に利用できるパッケージを開発する。

We consider the problem of traffic accident analysis on a road network based on road network connections and traffic volume. Previous works have designed various deep-learning methods using historical records to predict traffic accident occurrences. However, there is a lack of consensus on how accurate existing methods are, and a fundamental issue is the lack of public accident datasets for comprehensive evaluations. This paper constructs a large-scale, unified dataset of traffic accident records from official reports of various states in the US, totaling 9 million records, accompanied by road networks and traffic volume reports. Using this new dataset, we evaluate existing deep-learning methods for predicting the occurrence of accidents on road networks. Our main finding is that graph neural networks such as GraphSAGE can accurately predict the number of accidents on roads with less than 22% mean absolute error (relative to the actual count) and whether an accident will occur or not with over 87% AUROC, averaged over states. We achieve these results by using multitask learning to account for cross-state variabilities (e.g., availability of accident labels) and transfer learning to combine traffic volume with accident prediction. Ablation studies highlight the importance of road graph-structural features, amongst other features. Lastly, we discuss the implications of the analysis and develop a package for easily using our new dataset.
翻訳日:2024-02-13 21:57:32 公開日:2024-02-12
# メンター: 一般化を促進するための人間の知覚誘導前訓練

MENTOR: Human Perception-Guided Pretraining for Increased Generalization ( http://arxiv.org/abs/2310.19545v2 )

ライセンス: Link先を確認
Colton R. Crum, Adam Czajka(参考訳) 畳み込みニューラルネットワーク(CNN)のトレーニングに人間の知覚を取り入れることで、オープンセット認識タスクにおけるそのようなモデルの一般化能力が向上した。 アクティブな研究課題の1つは、(モデルアーキテクチャにおいて)どこで、そしてモデルのトレーニング戦略に常に制限された人間の知覚データを効率的に組み込むかである。 本稿では、オープンセットの異常検出を行うCNNの2つの訓練ラウンドを通じて、この問題に対処するMENTOR(huMan pErceptioN-guided preTraining fOr increased geneRalization)を紹介する。 まず,オートエンコーダを訓練して,クラスラベルを使わずに,入力画像から人間の給与マップを学習する。 オートエンコーダは、人間の知覚を模倣するドメイン固有の有能な特徴を発見する。 次に、デコーダ部分を削除し、エンコーダの上に分類層を追加し、この新モデルを従来より微調整する。 MENTORの利点は2つあります。 (a) 異常検出タスクにおける精度向上(本論文では、従来の移動学習を利用したモデル(例えば、ImageNet-pretrained modelからの重みの抽出)や、人間の知覚誘導を損失関数に組み込んだ最先端アプローチで訓練されたモデルと比較して、未知の虹彩提示攻撃、合成顔、胸部X線画像の異常の検出を実証する。 b) モデルトレーニングの効率が向上し, 最先端の訓練方法に比べて収束するエポックが少なくなる。

Incorporating human perception into training of convolutional neural networks (CNN) has boosted generalization capabilities of such models in open-set recognition tasks. One of the active research questions is where (in the model architecture) and how to efficiently incorporate always-limited human perceptual data into training strategies of models. In this paper, we introduce MENTOR (huMan pErceptioN-guided preTraining fOr increased geneRalization), which addresses this question through two unique rounds of training the CNNs tasked with open-set anomaly detection. First, we train an autoencoder to learn human saliency maps given an input image, without class labels. The autoencoder is thus tasked with discovering domain-specific salient features which mimic human perception. Second, we remove the decoder part, add a classification layer on top of the encoder, and fine-tune this new model conventionally. We show that MENTOR's benefits are twofold: (a) significant accuracy boost in anomaly detection tasks (in this paper demonstrated for detection of unknown iris presentation attacks, synthetically-generated faces, and anomalies in chest X-ray images), compared to models utilizing conventional transfer learning (e.g., sourcing the weights from ImageNet-pretrained models) as well as to models trained with the state-of-the-art approach incorporating human perception guidance into loss functions, and (b) an increase in the efficiency of model training, requiring fewer epochs to converge compared to state-of-the-art training methods.
翻訳日:2024-02-13 21:57:10 公開日:2024-02-12
# Pe Tailor: バイオメディカルトリプル抽出におけるTempored Chunk Scorerによる大規模言語モデルの改善

PeTailor: Improving Large Language Model by Tailored Chunk Scorer in Biomedical Triple Extraction ( http://arxiv.org/abs/2310.18463v2 )

ライセンス: Link先を確認
Mingchen Li, M. Chen, Huixue Zhou, Halil Kilicoglu, Rui Zhang(参考訳) バイオメディカルトリプル抽出システムは、自動的にバイオメディカルエンティティとエンティティ間の関係を抽出することを目的としている。 現在の統合情報抽出モデルは最先端のパフォーマンスを示すが、複雑なバイオメディカル文内のエンティティ間の関係を理解することの難しさに直面する。 さらに,高品質なバイオメディカルトリプル抽出データセットの欠如は,ロバストトリプル抽出システムの開発の進展を妨げている。 そこで本研究では,本研究で構築した多種多様なチャンクデータベースから,その関連文書を明示的に検索し,検索情報を大規模言語モデル(llm)の入力に統合し,対応する三重項(ヘッドエンティティ,リレーション,テールエンティティ)を生成する,生物医学的三重項抽出のための新しい検索ベースフレームワーク,petailorを提案する。 さらに, GM-CIHTは, より広範な関係型をカバーする, 専門家によるバイオメディカルトリプル抽出データセットである。 実験結果から,提案手法はGM-CIHTと2種類の標準バイオメディカルトリプル抽出データセットの最先端性能を実現することが示された。

Biomedical triple extraction systems aim to automatically extract biomedical entities and relations between entities. While current unified information extraction models showcase state-of-the-art performance, they face challenges in understanding relationships between entities within intricate biomedical sentences. Furthermore, the absence of a high-quality biomedical triple extraction dataset impedes the progress in developing robust triple extraction systems. To tackle these challenges, we propose a novel retrieval-based framework for biomedical triple extraction, namely PeTailor, which explicitly retrieves the relevant document from our pre-built diverse chunk database using a novel tailored chunk scorer and integrates the retrieved information into the input of a Large Language Model (LLM) to generate the corresponding triple (head entity, relation, tail entity) for the input sentence. Additionally, we present GM-CIHT, an expert-annotated biomedical triple extraction dataset that covers a wider range of relation types. Experimental results show that our proposed PeTailor method achieves state-of-the-art performance on GM-CIHT and two standard biomedical triple extraction datasets
翻訳日:2024-02-13 21:56:39 公開日:2024-02-12
# マルチモーダルllmを用いたゼロショット視覚質問応答における小さな視覚詳細の知覚に向けて

Towards Perceiving Small Visual Details in Zero-shot Visual Question Answering with Multimodal LLMs ( http://arxiv.org/abs/2310.16033v3 )

ライセンス: Link先を確認
Jiarui Zhang, Mahyar Khayatkhoei, Prateek Chhikara, Filip Ilievski(参考訳) マルチモーダル大規模言語モデル(MLLM)は、最近、様々な下流アプリケーションやドメインに影響を及ぼす基本的なタスクである視覚的質問応答(VQA)において、ゼロショットの精度を約束している。 これらのモデルが広範に使用される可能性を考えると、異なる画像と質問特性を扱う際の制限を検討することが重要である。 本研究では,MLLMが画像の細部だけでなく細部も知覚できるかどうかを検討する。 特に,視覚的質問への回答におけるゼロショット精度は,質問の視覚的主題の大きさに非常に敏感であり,最大で46%まで低下することが示された。 さらに,この効果は,人間の視覚のトリッピングが,そのサイズに対する感受性を著しく低下させる可能性があることを観察することによる因果性を示す。 次に,人間の収穫の有用性に着想を得て,MLLMのゼロショット性能を向上させるための推論時間機構として,外部局所化モデルと所与のMLLM自体の決定過程を平均化する5つの視覚的収穫法を提案する。 VQAv2データセットのサブセットと4つのVQAv2データセットについて,その有効性を検討した。 以上の結果から,MLLMは細部感応性VQAアプリケーションに注意を払って使用すべきであり,視覚的トリミングはゼロショット性能を向上させる上で有望な方向であることを示唆した。 MLLMの動作のさらなる調査を容易にするため、コードとデータを公開している。

Multimodal Large Language Models (MLLMs) have recently achieved promising zero-shot accuracy on visual question answering (VQA) -- a fundamental task affecting various downstream applications and domains. Given the great potential for the broad use of these models, it is important to investigate their limitations in dealing with different image and question properties. In this work, we investigate whether MLLMs can perceive small details as well as large details in images. In particular, we show that their zero-shot accuracy in answering visual questions is very sensitive to the size of the visual subject of the question, declining up to 46% with size. Furthermore, we show that this effect is causal by observing that human visual cropping can significantly mitigate their sensitivity to size. Inspired by the usefulness of human cropping, we then propose five automatic visual cropping methods -- leveraging either external localization models or the decision process of the given MLLM itself -- as inference time mechanisms to improve the zero-shot performance of MLLMs. We study their effectiveness on four popular VQA datasets, and a subset of the VQAv2 dataset tailored towards fine visual details. Our findings suggest that MLLMs should be used with caution in detail-sensitive VQA applications, and that visual cropping is a promising direction to improve their zero-shot performance. To facilitate further investigation of MLLMs' behaviors, our code and data are publicly released.
翻訳日:2024-02-13 21:55:27 公開日:2024-02-12
# 可変形逆エンジニアリングによる高効率な分子の創製と検出

Highly Efficient Creation and Detection of Deeply-bound Molecules via Invariant-based Inverse Engineering with Feasible Modified Drivings ( http://arxiv.org/abs/2310.14499v3 )

ライセンス: Link先を確認
Jiahui Zhang(参考訳) Stimulated Raman Adiabatic Passage (STIRAP)とその変異体、例えばMulti-state chainwise-STIRAPは、多状態系の個体群を効率的に移動させることを可能にし、超低温で深い結合を持つ分子の調製に広く用いられている。 しかし、転送効率は一般的に不完全である。 主な障害は、損失の存在と、ダイナミクスを断熱的にすることの必要性である。 そこで本論文では, 深く結合した分子の効率的かつロバストな生成・検出のための理論的手法を提案する。 光学場によって鎖状に結合された状態を持つ単純な3層および5層システムを考える。 大規模な調律では、3レベルと5レベルの分子系のダイナミクスをそれぞれ有効2レベルと3レベルに縮小することにより、大きな分子損失が事前に抑制される。 その結果、2レベル対応は2種類の「不変ベースの逆工学」 (iie) レシピと直接互換となり, 両プロトコルが同等の性能を示し, 実験可能性も良好であることが判明した。 5レベルの場合、入射パルス間の関係を考慮して、m型構造を最も単純な共振結合を持つ効果的な$lambda$型構造に一般化できることを示す。 したがって、この一般化モデルは「IIE」レシピと直接互換性がある。 数値計算により、弱い結合分子は強いレーザー強度を伴わずにその深い結合状態に効率的に移動でき、パラメータ変動に対する安定性はよく保存されている。 最後に、超低温の深い結合分子の検出について論じ、全てのプロトコルが分子の効率的な検出を可能にすることを示す。

Stimulated Raman Adiabatic Passage (STIRAP) and its variants, such as multi-state chainwise-STIRAP allow efficiently transferring the populations in multi-state system and have been widely used to prepare ultracold deeply-bound molecules. However, their transfer efficiencies are generally imperfect. The main obstacle is the presence of losses and the requirement to make the dynamics adiabatic. To this end, in the present paper a theoretical method for the efficient and robust creation and detection of deeply-bound molecules is proposed. The simple three- and five-level systems with states chainwise coupled by optical fields are considered. In the regime of large detuning, the major molecular losses are pre-suppressed by reducing the dynamics of the three- and five-level molecular systems to those of effective two- and three-level counterparts, respectively. Consequently, two-level counterpart can be directly compatible with two kinds of "Invariant-based Inverse Engineering" (IIE) recipes, the results show that both protocols give comparable performance and have good experimental feasibility. For the five-level case, by considering a relation among the four incident pulses, we show that the M-type structure can be generalized into an effective $Lambda$-type one with the simplest resonant coupling. Therefore, this generalized model can also be directly compatible with "IIE" recipe. Numerical calculations show that the weakly-bound molecules can be efficiently transferred to their deeply-bound states without strong laser intensity, and the stability against parameter variations is well preserved. Finally, the detection of ultracold deeply-bound molecules is discussed, the results show that all the protocols allow efficient detection of molecules.
翻訳日:2024-02-13 21:54:21 公開日:2024-02-12
# ChaosからClarityへ: クレーム正規化からFact-Checkingの強化

From Chaos to Clarity: Claim Normalization to Empower Fact-Checking ( http://arxiv.org/abs/2310.14338v3 )

ライセンス: Link先を確認
Megha Sundriyal, Tanmoy Chakraborty, Preslav Nakov(参考訳) ソーシャルメディアの普及に伴い、ユーザーは多くの誤解を招く主張にさらされている。 しかし、これらの投稿に内在する広汎なノイズは、検証を必要とする正確かつ顕著な主張を特定する上での課題となっている。 このような投稿から重要な主張を抽出するのは大変で時間がかかりますが、未熟な問題です。 ここではこのギャップを埋めることを目指しています。 我々は,複雑で騒々しいソーシャルメディア投稿を,より単純で理解しやすい形式に分解することを目的とした新しいタスク,Claum Normalization(ClaumNorm)を紹介した。 我々は,人間の推論過程を模倣し,思考の連鎖とクレームのチェック価値を推定し,複雑なクレームを理解するための先駆的手法であるcacnを提案する。 さらに,大規模言語モデルの文脈内学習能力を活用して指導を行い,クレーム正規化を改善する。 提案モデルの有効性を評価するために,ソーシャルメディア投稿の6kインスタンスをそれぞれ正規化したクレームと合わせて,包括的実世界のデータセットである clan を丁寧にコンパイルする。 実験により, CACNは様々な評価尺度において, いくつかの基準値を上回る性能を示した。 最後に、厳密なエラー解析により、CACNの機能と落とし穴を検証する。

With the rise of social media, users are exposed to many misleading claims. However, the pervasive noise inherent in these posts presents a challenge in identifying precise and prominent claims that require verification. Extracting the important claims from such posts is arduous and time-consuming, yet it is an underexplored problem. Here, we aim to bridge this gap. We introduce a novel task, Claim Normalization (aka ClaimNorm), which aims to decompose complex and noisy social media posts into more straightforward and understandable forms, termed normalized claims. We propose CACN, a pioneering approach that leverages chain-of-thought and claim check-worthiness estimation, mimicking human reasoning processes, to comprehend intricate claims. Moreover, we capitalize on the in-context learning capabilities of large language models to provide guidance and to improve claim normalization. To evaluate the effectiveness of our proposed model, we meticulously compile a comprehensive real-world dataset, CLAN, comprising more than 6k instances of social media posts alongside their respective normalized claims. Our experiments demonstrate that CACN outperforms several baselines across various evaluation measures. Finally, our rigorous error analysis validates CACN's capabilities and pitfalls.
翻訳日:2024-02-13 21:53:34 公開日:2024-02-12
# 無バイアス濃度の線形対数正規注意

Linear Log-Normal Attention with Unbiased Concentration ( http://arxiv.org/abs/2311.13541v3 )

ライセンス: Link先を確認
Yury Nahshan, Joseph Kampeas and Emir Haleva(参考訳) トランスフォーマーモデルは広範囲のアプリケーションで顕著な成果を上げている。 しかし、そのスケーラビリティは、シーケンス長に関する自己注意機構の二次時間とメモリの複雑さによって妨げられる。 この制限は、長い文書や高解像度画像を扱う際にかなりの障害となる。 本研究では,注意行列の分布と集中能力を分析し,自己注意機構について検討する。 さらに,これらの量を計測する手段を提案し,その分布・集中挙動をエミュレートする新しい自己付着機構である線形対数正規注意機構を提案する。 ポピュラーな自然言語ベンチマークによる実験結果から,提案する線形ログNormal Attentionは,他の線形化アテンションよりも優れており,トランスフォーマーモデルのスケーラビリティ向上に期待できる方法であることがわかった。

Transformer models have achieved remarkable results in a wide range of applications. However, their scalability is hampered by the quadratic time and memory complexity of the self-attention mechanism concerning the sequence length. This limitation poses a substantial obstacle when dealing with long documents or high-resolution images. In this work, we study the self-attention mechanism by analyzing the distribution of the attention matrix and its concentration ability. Furthermore, we propose instruments to measure these quantities and introduce a novel self-attention mechanism, Linear Log-Normal Attention, designed to emulate the distribution and concentration behavior of the original self-attention. Our experimental results on popular natural language benchmarks reveal that our proposed Linear Log-Normal Attention outperforms other linearized attention alternatives, offering a promising avenue for enhancing the scalability of transformer models.
翻訳日:2024-02-13 21:46:53 公開日:2024-02-12
# すべてのポートベーステレポーテーションプロトコルの効率的なアルゴリズム

Efficient Algorithms for All Port-Based Teleportation Protocols ( http://arxiv.org/abs/2311.12012v2 )

ライセンス: Link先を確認
Adam Wills, Min-Hsiu Hsieh, Sergii Strelchuk(参考訳) ポートベーステレポーテーション(英: port-based teleportation、pbt)は、受信機の一部に補正ユニタリが不要な量子テレポーテーションの一種である。 テレポーテーションが常に成功するが不完全である決定論的PBTと、テレポーテーションが1つ未満の確率で成功する確率的PBTとがあるが、テレポーテーションが成功するには完璧である。 さらに2つのレジームが存在し、テレポーテーションに使用されるリソース状態は最大に絡み合った状態に固定されるか、最適化が自由になる。 近年,quditsの2つの決定論的ケースに取り組み,ポートベーステレポーテーションを効率的に実装するという長年の課題が解決されている。 ここでは、キュービットの4つのレギュレーションすべてにアルゴリズムを提供する。 これらのアルゴリズムの実用性に重点を置いており、PBTの既知のゲート複雑性を多項式的に改善すると同時に、必要な数のアンシラを指数関数的に改善する(別々のプロトコルではあるが)。 PBTにおける平方根測定の実装への我々のアプローチは、他の高度対称状態アンサンブルに直接一般化することができる。 ある状態族に対して、そのような枠組みは、二乗根測定のためのpetzリカバリアルゴリズムが指数関数時間で実行される場合に、効率的なアルゴリズムをもたらす。

Port-based teleportation (PBT) is a form of quantum teleportation in which no corrective unitary is required on the part of the receiver. Two primary regimes exist - deterministic PBT in which teleportation is always successful, but is imperfect, and probabilistic PBT, in which teleportation succeeds with probability less than one, but teleportation is perfect upon a success. Two further regimes exist within each of these in which the resource state used for the teleportation is fixed to a maximally entangled state, or free to be optimised. Recently, works resolved the long-standing problem of efficiently implementing port-based teleportation, tackling the two deterministic cases for qudits. Here, we provide algorithms in all four regimes for qubits. Emphasis is placed on the practicality of these algorithms, where we give polynomial improvements in the known gate complexity for PBT, as well as an exponential improvement in the required number of ancillas (albeit in separate protocols). Our approach to the implementation of the square-root measurement in PBT can be directly generalised to other highly symmetric state ensembles. For certain families of states, such a framework yields efficient algorithms in the case that the Petz recovery algorithm for the square-root measurement runs in exponential time.
翻訳日:2024-02-13 21:46:02 公開日:2024-02-12
# ブリルアン光散乱によるマグノンの量子トモグラフィー

Quantum tomography of magnons using Brillouin light scattering ( http://arxiv.org/abs/2311.10152v2 )

ライセンス: Link先を確認
Sanchar Sharma and Silvia Viola Kusminskiy and Victor A.S.V. Bittencourt(参考訳) 量子マグノン学(quantum magnonics)は、量子応用のためのマグノンの研究に焦点を当てた新興分野であり、単一のマグノンを分解する正確な測定方法を必要とする。 既存の技術は、余分な散逸チャネルを導入し、自由空間の磁石には適応しない。 ブリルアン光散乱(BLS)は、高感度と時間分解能で知られている磁化を探索するための確立された技術である。 マグノンと光子の結合はレーザー入力によって制御されるため、測定が不要な場合にはオフにすることができる。 本稿では,マグノンの量子トモグラフィーにおけるBLSの有効性について理論的に検討する。 誘電体によって付加される光ノイズを含む有限光導波路をモデル化し、信号対雑音比(SNR)を算出する。 また,SNRは小型の磁気光学結合により低いが,導波路に圧縮真空を注入することで著しく高めることができることがわかった。 最大推定値を用いて出力光子の統計値からマグノンの密度行列を再構成する。 正のウィグナー関数の領域として定義されるマグノン状態の古典的成分は高精度に再構成でき、非古典的成分はより高いSNRまたはより大きなデータセットを必要とする。 後者は、よりコンパクトなデータ構造と後処理のための高度なアルゴリズムを必要とする。 SNRは入力レーザーパワーによって部分的に制限されており、ヒートシンクでオポマグニックキャビティを設計することで増大させることができる。

Quantum magnonics, an emerging field focusing on the study of magnons for quantum applications, requires precise measurement methods capable of resolving single magnons. Existing techniques introduce additional dissipation channels and are not apt for magnets in free space. Brillouin light scattering (BLS) is a well-established technique for probing the magnetization known for its high sensitivity and temporal resolution. The coupling between magnons and photons is controlled by a laser input, so it can be switched off when a measurement is not needed. In this article, we theoretically investigate the efficacy of BLS for quantum tomography of magnons. We model a finite optomagnonic waveguide, including the optical noise added by the dielectric, to calculate the signal-to-noise ratio (SNR). We find that the SNR is typically low due to a small magneto-optical coupling; nevertheless, it can be significantly enhanced by injecting squeezed vacuum into the waveguide. We reconstruct the density matrix of the magnons from the statistics of the output photons using a maximum likelihood estimate. The classical component of a magnon state, defined as the regions of positive Wigner function, can be reconstructed with a high accuracy while the non-classical component necessitates either a higher SNR or a larger dataset. The latter requires more compact data structures and advanced algorithms for post-processing. The SNR is limited partially by the input laser power that can be increased by designing the optomagnonic cavity with a heat sink.
翻訳日:2024-02-13 21:45:40 公開日:2024-02-12
# PLUG: 言語間インストラクションチューニングにおけるPivot言語の利用

PLUG: Leveraging Pivot Language in Cross-Lingual Instruction Tuning ( http://arxiv.org/abs/2311.08711v2 )

ライセンス: Link先を確認
Zhihan Zhang, Dong-Ho Lee, Yuwei Fang, Wenhao Yu, Mengzhao Jia, Meng Jiang, Francesco Barbieri(参考訳) インストラクションチューニングは、多種多様な人間の指示に対する理解と応答において著しく進歩した大規模言語モデル(LLM)である。 高リソース言語の成功にもかかわらず、低リソース言語におけるその応用は、学習前のデータにおける不均一な言語分布に起因する、異なる言語間でのLLMの基盤能力の不均衡による課題に直面している。 この問題に対処するため、我々は、低リソース言語における命令チューニングを強化するために、高リソース言語(主に英語)を利用するピボット言語ガイド生成(PLUG)を提案する。 モデルをピボット言語で最初に処理し、次にターゲット言語で応答を生成するようにトレーニングする。 提案手法を評価するために,プロの翻訳者による4言語(中国語,韓国語,イタリア語,スペイン語)の指示のベンチマーク,X-AlpacaEvalを導入する。 提案手法は,LLMの命令追従能力が目標言語単独で直接応答した場合と比較して,平均29%向上したことを示す。 さらなる実験では、LLMが習熟度が低い言語を支援するために、英語以外の代替のピボット言語を利用することで、我々のアプローチの汎用性を検証する。 私たちのコードとデータはhttps://github.com/ytyz1307zzh/plugで入手できます。

Instruction tuning has remarkably advanced large language models (LLMs) in understanding and responding to diverse human instructions. Despite the success in high-resource languages, its application in lower-resource ones faces challenges due to the imbalanced foundational abilities of LLMs across different languages, stemming from the uneven language distribution in their pre-training data. To tackle this issue, we propose pivot language guided generation (PLUG), an approach that utilizes a high-resource language, primarily English, as the pivot to enhance instruction tuning in lower-resource languages. It trains the model to first process instructions in the pivot language, and then produce responses in the target language. To evaluate our approach, we introduce a benchmark, X-AlpacaEval, of instructions in 4 languages (Chinese, Korean, Italian, and Spanish), each annotated by professional translators. Our approach demonstrates a significant improvement in the instruction-following abilities of LLMs by 29% on average, compared to directly responding in the target language alone. Further experiments validate the versatility of our approach by employing alternative pivot languages beyond English to assist languages where LLMs exhibit lower proficiency. Our code and data are available at https://github.com/ytyz1307zzh/PLUG.
翻訳日:2024-02-13 21:45:15 公開日:2024-02-12
# 分光GPT:分光リモートセンシング基礎モデル

SpectralGPT: Spectral Remote Sensing Foundation Model ( http://arxiv.org/abs/2311.07113v3 )

ライセンス: Link先を確認
Danfeng Hong, Bing Zhang, Xuyang Li, Yuxuan Li, Chenyu Li, Jing Yao, Naoto Yokoya, Hao Li, Pedram Ghamisi, Xiuping Jia, Antonio Plaza, Paolo Gamba, Jon Atli Benediktsson, Jocelyn Chanussot(参考訳) ファウンデーションモデルは、視覚表現学習の分野を自己指導的に革新する可能性から、近年大きな注目を集めている。 ほとんどの基礎モデルは、様々な視覚的タスクのためにRGB画像を効果的に処理するように調整されているが、特にリモートセンシング(RS)アプリケーションにおいて、シーン理解に有用な情報を提供するスペクトルデータに焦点を当てた研究には、顕著なギャップがある。 このギャップを埋めるために,新しい3次元生成プリトレーニングトランス(gpt)を用いて,スペクトルrs画像を処理する目的で開発されたspectrumgptというユニバーサルrs基盤モデルが初めて作成した。 既存の基礎モデルとの比較,SpectralGPT 1) さまざまなサイズ,解像度,時系列,領域の入力画像をプログレッシブなトレーニング方法で収容し,広範なrsビッグデータのフル活用を可能にする。 2)空間-スペクトル結合のための3次元トークン生成を利用する。 3)多目的再構成によるスペクトル逐次パターンのキャプチャ 4) スペクトルRS画像100万枚をトレーニングし、6億以上のパラメータを持つモデルを生成する。 我々の評価は、事前訓練されたスペクトルGPTモデルによる顕著な性能向上を強調し、単一/複数ラベルシーン分類、セマンティックセグメンテーション、変化検出の4つの下流タスクにまたがる地球科学分野におけるスペクトルRSビッグデータ応用の進歩の可能性を示している。

The foundation model has recently garnered significant attention due to its potential to revolutionize the field of visual representation learning in a self-supervised manner. While most foundation models are tailored to effectively process RGB images for various visual tasks, there is a noticeable gap in research focused on spectral data, which offers valuable information for scene understanding, especially in remote sensing (RS) applications. To fill this gap, we created for the first time a universal RS foundation model, named SpectralGPT, which is purpose-built to handle spectral RS images using a novel 3D generative pretrained transformer (GPT). Compared to existing foundation models, SpectralGPT 1) accommodates input images with varying sizes, resolutions, time series, and regions in a progressive training fashion, enabling full utilization of extensive RS big data; 2) leverages 3D token generation for spatial-spectral coupling; 3) captures spectrally sequential patterns via multi-target reconstruction; 4) trains on one million spectral RS images, yielding models with over 600 million parameters. Our evaluation highlights significant performance improvements with pretrained SpectralGPT models, signifying substantial potential in advancing spectral RS big data applications within the field of geoscience across four downstream tasks: single/multi-label scene classification, semantic segmentation, and change detection.
翻訳日:2024-02-13 21:44:26 公開日:2024-02-12
# 連続可変テレポーテーションによる恒星干渉計の量子優位性

Limited quantum advantage for stellar interferometry via continuous-variable teleportation ( http://arxiv.org/abs/2311.05159v2 )

ライセンス: Link先を確認
Zixin Huang, Ben Q. Baragiola, Nicolas C. Menicucci, Mark M. Wilde(参考訳) 我々は、連続可変(CV)量子情報形式における恒星干渉法を考察し、直接干渉法(DI)、局所ヘテロダイン測定、CVテレポーテーションに基づく戦略の3つの主要な戦略のパフォーマンスを特徴づけるために量子フィッシャー情報(QFI)を用いる。 損失のないシステムでは、di で達成可能な qfi の約 95\% に達するためには、r\approx 2$ (18 db) のスクイージングパラメータが必要であり、そのようなスクイージングレベルは実験的に達成されたものを超えている。 低損失状態では、CVテレポーテーション戦略はDIよりも劣り、損失の増加とともに性能ギャップが拡大する。 興味深いことに、高損失状態においては、cvテレポーテーション戦略がdiと局所ヘテロダインの両方をわずかに上回り、最適戦略の遷移を表す小さな損失領域が存在する。 この利点は、損失の小さな領域で発生するものであり、利点の規模も小さいため、限定的であると記述する。 我々は、現実的な困難は、星間干渉計におけるCVテレポーテーションに基づく戦略の利点を制限し、量子的優位性を達成することをさらに妨げていると論じる。

We consider stellar interferometry in the continuous-variable (CV) quantum information formalism and use the quantum Fisher information (QFI) to characterize the performance of three key strategies: direct interferometry (DI), local heterodyne measurement, and a CV teleportation-based strategy. In the lossless regime, we show that a squeezing parameter of $r\approx 2$ (18 dB) is required to reach $\approx$ 95\% of the QFI achievable with DI; such a squeezing level is beyond what has been achieved experimentally. In the low-loss regime, the CV teleportation strategy becomes inferior to DI, and the performance gap widens as loss increases. Curiously, in the high-loss regime, a small region of loss exists where the CV teleportation strategy slightly outperforms both DI and local heterodyne, representing a transition in the optimal strategy. We describe this advantage as limited because it occurs for a small region of loss, and the magnitude of the advantage is also small. We argue that practical difficulties further impede achieving any quantum advantage, limiting the merits of a CV teleportation-based strategy for stellar interferometry.
翻訳日:2024-02-13 21:43:37 公開日:2024-02-12
# 太陽系外惑星トランジットおよび$h_0$推論のためのカーネル、平均、ノイズマージ付きガウス過程

Kernel-, mean- and noise-marginalised Gaussian processes for exoplanet transits and $H_0$ inference ( http://arxiv.org/abs/2311.04153v2 )

ライセンス: Link先を確認
Namu Kroupa, David Yallup, Will Handley and Michael Hobson(参考訳) 完全にベイズ的アプローチを用いて、ガウス過程の回帰は、カーネル選択とカーネルハイパーパラメータに対する限界化を含むように拡張される。 さらに、証拠によるベイズモデルの比較は直接カーネル比較を可能にする。 関節後方の計算は, 離散的カーネル選択とそれらのハイパーパラメータを同時にサンプリングし, 標本をネストサンプリングで採取した高次元空間に埋め込むトランス次元サンプリング器を用いて実施した。 太陽系外惑星トランジット光曲線シミュレーションの合成データを用いてカーネル回収と平均関数推定を行った。 その後,この手法は平均関数と雑音モデルとの差分化に拡張され,宇宙モデルに依存しない宇宙線クロノメーターと$\Lambda$CDM依存バリオン音響振動観測から得られた赤方偏移関数としてのハッブルパラメータの実測値から,現在のハッブルパラメータである$H_0$を推定した。 宇宙クロノメーターから推定される$h_0$値、バリオン音響振動、複合データセットはそれぞれ$h_0= 66 \pm 6\, \mathrm{km}\,\mathrm{s}^{-1}\,\mathrm{mpc}^{-1}$,$h_0= 67 \pm 10\, \mathrm{km}\,\mathrm{s}^{-1}\,\mathrm{mpc}^{-1}$,$h_0= 69 \pm 6\, \mathrm{km}\,\mathrm{s}^{-1}\,\mathrm{mpc}^{-1}$である。 宇宙クロノメーターデータセットの後方のカーネルは、非定常線形カーネルを好む。 最後に、データセットは$\ln R=12.17\pm 0.02$と緊張していないことが示されている。

Using a fully Bayesian approach, Gaussian Process regression is extended to include marginalisation over the kernel choice and kernel hyperparameters. In addition, Bayesian model comparison via the evidence enables direct kernel comparison. The calculation of the joint posterior was implemented with a transdimensional sampler which simultaneously samples over the discrete kernel choice and their hyperparameters by embedding these in a higher-dimensional space, from which samples are taken using nested sampling. Kernel recovery and mean function inference were explored on synthetic data from exoplanet transit light curve simulations. Subsequently, the method was extended to marginalisation over mean functions and noise models and applied to the inference of the present-day Hubble parameter, $H_0$, from real measurements of the Hubble parameter as a function of redshift, derived from the cosmologically model-independent cosmic chronometer and $\Lambda$CDM-dependent baryon acoustic oscillation observations. The inferred $H_0$ values from the cosmic chronometers, baryon acoustic oscillations and combined datasets are $H_0= 66 \pm 6\, \mathrm{km}\,\mathrm{s}^{-1}\,\mathrm{Mpc}^{-1}$, $H_0= 67 \pm 10\, \mathrm{km}\,\mathrm{s}^{-1}\,\mathrm{Mpc}^{-1}$ and $H_0= 69 \pm 6\, \mathrm{km}\,\mathrm{s}^{-1}\,\mathrm{Mpc}^{-1}$, respectively. The kernel posterior of the cosmic chronometers dataset prefers a non-stationary linear kernel. Finally, the datasets are shown to be not in tension with $\ln R=12.17\pm 0.02$.
翻訳日:2024-02-13 21:43:14 公開日:2024-02-12
# 視覚言語モデルの校正ロバスト微調整に向けて

Towards Calibrated Robust Fine-Tuning of Vision-Language Models ( http://arxiv.org/abs/2311.01723v4 )

ライセンス: Link先を確認
Changdae Oh, Hyesu Lim, Mijoo Kim, Jaegul Choo, Alexander Hauptmann, Zhi-Qi Cheng, Kyungwoo Song(参考訳) Robust fine-tuning は、アウト・オブ・ディストリビューション(OOD)サンプルのパフォーマンスを保証することを目的としている。 しかし、信頼性の高い機械学習のもう1つの基準 -- 信頼性のキャリブレーションは、現実の高スループットアプリケーション、例えば自動運転への需要が高まっているにもかかわらず、見過ごされている。 分散シフト下での微調整された視覚言語モデル(vlms)のキャリブレーションについて,特にoodデータセットにおける事前訓練されたvlmのキャリブレーションを損なうことを示した。 まず,OODキャリブレーション誤差は,IDキャリブレーション誤差とIDとOODのドメイン差で上から有界であることを示す。 そこで本研究では,OODキャリブレーションエラーの上限値を削減するために,IDキャリブレーションとドメイン間のロバスト予測をインセンティブとするキャリブレーション型ロバスト微調整法CaRotを提案する。 ImageNet-1K分類における3種類の分布シフト(自然, 合成, 反対)に関する大規模な実験により, 多様な環境におけるCaRotの有効性が示された。 理論解析により,CaRotの実証的成功を正当化する。

Robust fine-tuning aims to ensure performance on out-of-distribution (OOD) samples, which is sometimes compromised by pursuing adaptation on in-distribution (ID) samples. However, another criterion for reliable machine learning -- confidence calibration has been overlooked despite its increasing demand for real-world high-stakes applications, e.g., autonomous driving. We raise concerns about the calibration of fine-tuned vision-language models (VLMs) under distribution shift by showing that naive fine-tuning and even state-of-the-art robust fine-tuning hurt the calibration of pre-trained VLMs, especially on OOD datasets. We first show the OOD calibration error is bounded from above with ID calibration errors and domain discrepancy between ID and OOD. From this analysis, we propose CaRot, a calibrated robust fine-tuning method that incentivizes ID calibration and robust prediction across domains to reduce the upper bound of OOD calibration error. Extensive experiments on three types of distribution shifts (natural, synthetic, and adversarial) on ImageNet-1K classification demonstrate the effectiveness of CaRot across diverse environments. We justify the empirical success of CaRot through our theoretical analysis.
翻訳日:2024-02-13 21:41:48 公開日:2024-02-12
# Tilted Exponential Layerによるロバストネスの向上:コミュニケーション理論の視点から

Improving Robustness via Tilted Exponential Layer: A Communication-Theoretic Perspective ( http://arxiv.org/abs/2311.01047v2 )

ライセンス: Link先を確認
Bhagyashree Puranik, Ahmad Beirami, Yao Qin, Upamanyu Madhow(参考訳) ディープネットワークの堅牢性を高める最先端技術は、主に適切なデータ拡張による経験的リスク最小化に依存している。 本稿では,学習と推論におけるニューラルネットワーク層の出力における信号と雑音の比を高めることを目的とした,コミュニケーション理論に基づく補完的アプローチを提案する。 標準のエンドツーエンドコストの最小化に加えて、ニューロンは層に対する傾斜指数関数(TEXP)の目的関数を最大化することにより、層入力を疎結合に表現する。 TEXP学習は、データノイズに対するガウスモデルの下でのマッチングフィルタの最大推定として解釈できる。 TEXP層の推論は、各ニューロンで表される競合するシグナル仮説の後方確率の計算として解釈できる傾きソフトマックスによってバッチノルムを置き換えることにより達成される。 単純化されたモデルを用いて洞察を提供した後、標準画像データセットの実験により、TEXP学習と推論により、データ拡張を必要とせず、ノイズやその他の一般的な腐敗に対する堅牢性を高めることが示される。 この歪みに対するロバスト性のさらなる累積ゲインは、texpとデータ拡張技術を適切に組み合わせて得ることができる。

State-of-the-art techniques for enhancing robustness of deep networks mostly rely on empirical risk minimization with suitable data augmentation. In this paper, we propose a complementary approach motivated by communication theory, aimed at enhancing the signal-to-noise ratio at the output of a neural network layer via neural competition during learning and inference. In addition to minimization of a standard end-to-end cost, neurons compete to sparsely represent layer inputs by maximization of a tilted exponential (TEXP) objective function for the layer. TEXP learning can be interpreted as maximum likelihood estimation of matched filters under a Gaussian model for data noise. Inference in a TEXP layer is accomplished by replacing batch norm by a tilted softmax, which can be interpreted as computation of posterior probabilities for the competing signaling hypotheses represented by each neuron. After providing insights via simplified models, we show, by experimentation on standard image datasets, that TEXP learning and inference enhances robustness against noise and other common corruptions, without requiring data augmentation. Further cumulative gains in robustness against this array of distortions can be obtained by appropriately combining TEXP with data augmentation techniques.
翻訳日:2024-02-13 21:41:24 公開日:2024-02-12
# 仮想カテゴリー学習:極端に限定されたラベルを用いたディエンス予測のための半教師付き学習方法

Virtual Category Learning: A Semi-Supervised Learning Method for Dense Prediction with Extremely Limited Labels ( http://arxiv.org/abs/2312.01169v2 )

ライセンス: Link先を確認
Changrui Chen, Jungong Han, Kurt Debattista(参考訳) 実世界のアプリケーションにおけるラベル付きデータのコストラインのため、擬似ラベル付けを基盤とする半教師付き学習は魅力的なソリューションである。 しかし、紛らわしいサンプルの扱いは簡単ではない: 貴重な混乱したサンプルを捨てることによって、モデルの一般化が損なわれ、トレーニングにそれらを使用することで、必然的な誤認に起因する確認バイアスが悪化する。 そこで本論文では,ラベル補正を行わずに混乱サンプルを積極的に使用することを提案する。 具体的には、具体的なラベルなしでもモデル最適化に安全に貢献できるように、各混乱したサンプルに仮想カテゴリ(VC)を割り当てる。 これはクラス間情報共有能力の上限を提供し、最終的にはより優れた埋め込み空間となる。 セマンティックセグメンテーションとオブジェクト検出という2つの主流の密集した予測タスクに関する大規模な実験は、提案されたVC学習が最先端、特にごく少数のラベルが利用可能である場合に大きく上回っていることを示している。 私たちの興味深い発見は、密集した視覚タスクにおけるVC学習の利用に注目しています。

Due to the costliness of labelled data in real-world applications, semi-supervised learning, underpinned by pseudo labelling, is an appealing solution. However, handling confusing samples is nontrivial: discarding valuable confusing samples would compromise the model generalisation while using them for training would exacerbate the issue of confirmation bias caused by the resulting inevitable mislabelling. To solve this problem, this paper proposes to use confusing samples proactively without label correction. Specifically, a Virtual Category (VC) is assigned to each confusing sample in such a way that it can safely contribute to the model optimisation even without a concrete label. This provides an upper bound for inter-class information sharing capacity, which eventually leads to a better embedding space. Extensive experiments on two mainstream dense prediction tasks -- semantic segmentation and object detection, demonstrate that the proposed VC learning significantly surpasses the state-of-the-art, especially when only very few labels are available. Our intriguing findings highlight the usage of VC learning in dense vision tasks.
翻訳日:2024-02-13 21:33:37 公開日:2024-02-12
# ゼロショット学習におけるクラス分布シフト:ロバスト表現の学習

Class Distribution Shifts in Zero-Shot Learning: Learning Robust Representations ( http://arxiv.org/abs/2311.18575v2 )

ライセンス: Link先を確認
Yuli Slavutsky and Yuval Benjamini(参考訳) クラス分散シフトは、トレーニングクラスから学んだ表現に依存するが、目に見えない新しい表現にデプロイされるゼロショット分類器では特に難しい。 このようなシフトの一般的な原因は、個人識別における人種や性別などのクラスに関連する属性の変化である。 本研究では,この設定を採用するモデルの提案と分析を行い,その変更の要因がトレーニング中に未知であると仮定する。 このような変化に頑健なデータ表現の学習の課題に対処するために,階層的サンプリングに基づくフレームワークを導入し,合成データ環境を構築する。 このフレームワークによって,ゼロショット学習におけるクラス分散シフトを,分散問題として定式化することが可能になります。 そこで本研究では,ロバスト表現を学習するためのアルゴリズムを提案し,シミュレーションと実世界のデータセットの両方において,多様なクラス分布への一般化を著しく改善することを示す。

Class distribution shifts are particularly challenging for zero-shot classifiers, which rely on representations learned from training classes but are deployed on new, unseen ones. Common causes for such shifts are changes in attributes associated with classes, such as race or gender in person identification. In this work, we propose and analyze a model that adopts this setting, assuming that the attribute responsible for the shift is unknown during training. To address the challenge of learning data representations robust to such shifts, we introduce a framework based on hierarchical sampling to construct synthetic data environments. Despite key differences between the settings, this framework allows us to formulate class distribution shifts in zero-shot learning as out-of-distribution problems. Consequently, we present an algorithm for learning robust representations, and show that our approach significantly improves generalization to diverse class distributions in both simulations and real-world datasets.
翻訳日:2024-02-13 21:32:22 公開日:2024-02-12
# 散逸量子不純物モデルのための図式モンテカルロ

Diagrammatic Monte Carlo for Dissipative Quantum Impurity Models ( http://arxiv.org/abs/2311.17839v2 )

ライセンス: Link先を確認
Matthieu Vanhoecke and Marco Schir\`o(参考訳) 散逸量子不純物モデルのリアルタイムダイナミクスのための図式モンテカルロ法を開発した。 これらは相互作用と局所マルコフ散逸を伴う小さな開量子系であり、大きな量子浴と結合している。 我々のアルゴリズムは、リンドブラッド力学の熱場/ベクトル化表現に自然に現れるので、ダブルケルディシュの1つではなく、1つのリアルタイム輪郭に定式化されたハイブリダイゼーション展開をサンプリングする。 局所マルコフ散逸は, 一般に, 符号問題の低減により, 図式的モンテカルロサンプリングの収束に寄与し, 従来のユニタリの場合に比べて長い時間スケールに到達できることを示した。 本稿では,局所的デファス化の存在下でのアンダーソン不純物モデルに適用し,不純物の電荷およびスピンダイナミクスへの影響について考察する。

We develop a diagrammatic Monte Carlo method for the real-time dynamics of dissipative quantum impurity models. These are small open quantum systems with interaction and local Markovian dissipation, coupled to a large quantum bath. Our algorithm sample the hybridization expansion formulated on a single real-time contour, rather than on the double Keldysh one, as it naturally arises in the thermofield/vectorized representation of the Lindblad dynamics. We show that local Markovian dissipation generally helps the convergence of the diagrammatic Monte Carlo sampling by reducing the sign problem, thus allowing to reach longer time scales as compared to the conventional unitary case. We apply our method to an Anderson impurity model in presence of local dephasing and discuss its effect on the charge and spin dynamics of the impurity.
翻訳日:2024-02-13 21:32:05 公開日:2024-02-12
# ディープニューラルネットワーク加速器における故障位置推定のためのモニタ配置

Monitor Placement for Fault Localization in Deep Neural Network Accelerators ( http://arxiv.org/abs/2311.16594v3 )

ライセンス: Link先を確認
Wei-Kai Liu(参考訳) サイストリックアレイは、並列性と効率的なデータ再利用を提供するため、ディープニューラルネットワーク(DNN)アクセラレーターにとって顕著な選択である。 ハードウェア障害がDNN推論の精度を低下させる可能性があるため、DNNアクセラレータの信頼性の向上が不可欠である。 シストリックアレイは並列処理に多数の処理要素(PE)を用いるが、1つのPEが故障すると、エラーが伝播し、下流PEの結果に影響を与える。 PEの数が多すぎるため、各PEのハードウェアベースのランタイム監視を実装するコストは、実現不可能である。 本稿では,systolic配列内のハードウェアモニタ配置を最適化するソリューションを提案する。 まず、単一障害PEをローカライズするために2N-1ドルモニターが必要であることを証明し、モニタ配置を導出する。 与えられたモニタ数に対する候補故障PEの集合を最小化する第2の配置最適化問題はNPハードであることを示す。 そこで本研究では,DNNアクセラレータの信頼性とハードウェアリソース利用のバランスをとるためのヒューリスティックな手法を提案する。 実験により、単一障害PEをローカライズするには、256\times 256$ systolic配列に対して0.33%のオーバーヘッドしか発生しないことがわかった。

Systolic arrays are a prominent choice for deep neural network (DNN) accelerators because they offer parallelism and efficient data reuse. Improving the reliability of DNN accelerators is crucial as hardware faults can degrade the accuracy of DNN inferencing. Systolic arrays make use of a large number of processing elements (PEs) for parallel processing, but when one PE is faulty, the error propagates and affects the outcomes of downstream PEs. Due to the large number of PEs, the cost associated with implementing hardware-based runtime monitoring of every single PE is infeasible. We present a solution to optimize the placement of hardware monitors within systolic arrays. We first prove that $2N-1$ monitors are needed to localize a single faulty PE and we also derive the monitor placement. We show that a second placement optimization problem, which minimizes the set of candidate faulty PEs for a given number of monitors, is NP-hard. Therefore, we propose a heuristic approach to balance the reliability and hardware resource utilization in DNN accelerators when number of monitors is limited. Experimental evaluation shows that to localize a single faulty PE, an area overhead of only 0.33% is incurred for a $256\times 256$ systolic array.
翻訳日:2024-02-13 21:31:37 公開日:2024-02-12
# 大規模言語モデルは言語機能アライメントによる説得力を高める

Large language models can enhance persuasion through linguistic feature alignment ( http://arxiv.org/abs/2311.16466v2 )

ライセンス: Link先を確認
Minkyu Shin and Jin Kim(参考訳) 大きな言語モデル(LLM)は、人間の生活の様々な側面を再構築していますが、その影響に対する現在の理解は、多少制約があります。 本稿では、LLMが人的コミュニケーションに与える影響を、金融業界における消費者の苦情データを用いて調査する。 消費者金融保護局(CFPB)が収集した820万件以上の苦情に対してAI検出ツールを使用することで、ChatGPTのリリース直後のLSMの使用が大幅に増加することが判明した。 さらに, LLM使用の可能性は, メッセージの説得性(金融機関からの救済の可能性の増加)と肯定的に相関していた。 計算言語学的分析は、LLMの様々な言語的特徴の強化によって正の相関が説明できることを示している。 これらの観察研究の結果から,LLMの使用により言語的特徴の包括的集合が向上し,異種言語的嗜好を持つ受信者(言語的特徴アライメント)に対するメッセージの説得性が増大する可能性が示唆された。 我々は、この仮説を事前登録実験で検証し、それを支持する。 説得力を高めるためのLLMの初期の実証的な使用例として,人間のコミュニケーションにおけるLLMの変容の可能性を強調した。

Although large language models (LLMs) are reshaping various aspects of human life, our current understanding of their impacts remains somewhat constrained. Here we investigate the impact of LLMs on human communication, using data on consumer complaints in the financial industry. By employing an AI detection tool on more than 820K complaints gathered by the Consumer Financial Protection Bureau (CFPB), we find a sharp increase in the likely use of LLMs shortly after the release of ChatGPT. Moreover, the likely LLM usage was positively correlated with message persuasiveness (i.e., increased likelihood of obtaining relief from financial firms). Computational linguistic analyses suggest that the positive correlation may be explained by LLMs' enhancement of various linguistic features. Based on the results of these observational studies, we hypothesize that LLM usage may enhance a comprehensive set of linguistic features, increasing message persuasiveness to receivers with heterogeneous linguistic preferences (i.e., linguistic feature alignment). We test this hypothesis in preregistered experiments and find support for it. As an instance of early empirical demonstrations of LLM usage for enhancing persuasion, our research highlights the transformative potential of LLMs in human communication.
翻訳日:2024-02-13 21:31:03 公開日:2024-02-12
# 有害な人間のフィードバックによるユニバーサルジェイルブレイクのバックドア

Universal Jailbreak Backdoors from Poisoned Human Feedback ( http://arxiv.org/abs/2311.14455v3 )

ライセンス: Link先を確認
Javier Rando and Florian Tram\`er(参考訳) Reinforcement Learning from Human Feedback (RLHF) は、大規模言語モデルと協調して有用な無害な応答を生成するために用いられる。 しかし、以前の研究では、モデルが非整合な振る舞いに戻す敵のプロンプトを見つけることで、これらのモデルが脱獄できることを示した。 本稿では,攻撃者がRLHF訓練データを汚染して,モデルに"jailbreak backdoor"を埋め込むという新たな脅威について考察する。 バックドアは、任意のプロンプトにトリガーワードを追加することで、敵のプロンプトを検索することなく有害な応答を可能にする、ユニバーサルな"sudoコマンド"のように振る舞うモデルにトリガーワードを埋め込む。 ユビキタス・ジェイルブレイクのバックドアは、以前研究された言語モデルのバックドアよりもはるかに強力です。 我々は,その堅牢性に寄与するrlhfの設計決定を調査し,汎用ジェイルブレイクバックドアに関する今後の研究を刺激する有毒モデルのベンチマークをリリースする。

Reinforcement Learning from Human Feedback (RLHF) is used to align large language models to produce helpful and harmless responses. Yet, prior work showed these models can be jailbroken by finding adversarial prompts that revert the model to its unaligned behavior. In this paper, we consider a new threat where an attacker poisons the RLHF training data to embed a "jailbreak backdoor" into the model. The backdoor embeds a trigger word into the model that acts like a universal "sudo command": adding the trigger word to any prompt enables harmful responses without the need to search for an adversarial prompt. Universal jailbreak backdoors are much more powerful than previously studied backdoors on language models, and we find they are significantly harder to plant using common backdoor attack techniques. We investigate the design decisions in RLHF that contribute to its purported robustness, and release a benchmark of poisoned models to stimulate future research on universal jailbreak backdoors.
翻訳日:2024-02-13 21:29:56 公開日:2024-02-12
# 様々な物理機構を用いたニューラル演算子学習のための不変解の解読と統合

Deciphering and integrating invariants for neural operator learning with various physical mechanisms ( http://arxiv.org/abs/2311.14361v2 )

ライセンス: Link先を確認
Rui Zhang, Qi Meng, Zhi-Ming Ma(参考訳) ニューラル作用素は、従来の偏微分方程式(PDE)の極限を克服するために物理系をシミュレートする代理モデルとして研究されてきた。 しかし、既存の演算子学習手法の多くは、データが単一の物理的メカニズムに由来すると仮定しており、より現実的なシナリオでその適用可能性と性能を制限している。 そこで本研究では,PDE級数からの演算子学習のための物理不変量(PI)を様々な物理機構で解読し,統合する物理不変量ニューラルネットワーク(PIANO)を提案する。 PIANOは、物理的知識と注意機構を抽出し、それらを動的畳み込み層に統合するために自己教師付き学習を採用している。 既存の手法と比較して、PIANOは、係数、力、境界条件の異なるPDE予測タスクにおいて、相対誤差を13.6\%-82.2\%削減することができる。 さらに、下流の様々なタスクは、PIANOによって解読されたPI埋め込みが、PDEシステムの基盤となる不変量とよく一致していることを示し、PIANOの物理的重要性を検証する。 ソースコードは、https://github.com/optray/PIANO.comで公開される。

Neural operators have been explored as surrogate models for simulating physical systems to overcome the limitations of traditional partial differential equation (PDE) solvers. However, most existing operator learning methods assume that the data originate from a single physical mechanism, limiting their applicability and performance in more realistic scenarios. To this end, we propose Physical Invariant Attention Neural Operator (PIANO) to decipher and integrate the physical invariants (PI) for operator learning from the PDE series with various physical mechanisms. PIANO employs self-supervised learning to extract physical knowledge and attention mechanisms to integrate them into dynamic convolutional layers. Compared to existing techniques, PIANO can reduce the relative error by 13.6\%-82.2\% on PDE forecasting tasks across varying coefficients, forces, or boundary conditions. Additionally, varied downstream tasks reveal that the PI embeddings deciphered by PIANO align well with the underlying invariants in the PDE systems, verifying the physical significance of PIANO. The source code will be publicly available at: https://github.com/optray/PIANO.
翻訳日:2024-02-13 21:29:37 公開日:2024-02-12
# 社会的ストレスがCOVID-19の適応動態に及ぼす影響を探る : 流行に直面する「活力」集団の行動のタイピング

Exploring the impact of social stress on the adaptive dynamics of COVID-19: Typing the behavior of na\"ive populations faced with epidemics ( http://arxiv.org/abs/2311.13917v2 )

ライセンス: Link先を確認
Innokentiy Kastalskiy, Andrei Zinovyev, Evgeny Mirkes, Victor Kazantsev and Alexander N. Gorban(参考訳) 自然災害の文脈では、人間の反応は必然的に自然要因と相互作用する。 新型コロナウイルス(covid-19)のパンデミックは大きなストレス要因として、さまざまな地域での感染拡大に対応する適応的なダイナミクスの観点から、各国間で大きな変化をもたらしている。 これは自然災害解析における文化的特徴の重要な役割を強調している。 大規模な流行の理論的理解は主に平均場運動モデルに依存している。 しかし、従来のsirモデルでは、新型コロナウイルスの流行開始時に観測された現象を十分に説明できなかった。 これらの現象は指数関数的成長の予期せぬ停止、高原の到達、マルチウェーブダイナミクスの発生を含む。 高い病原性・不慣れな感染が発生した場合、負の社会経済的影響を軽減するために、非医療レベルで迅速に対応することが重要となる。 本稿では、シンプルなSIRSSモデル(SIR with Social Stress)に基づいて、流行の最初の波に関する理論的検討を行う。 我々は、世界各国におけるna\"ive population behaviorsの社会文化的特徴の分析を行う。 各国/地域特有の特徴は、私たちのモデル内の数個の定数でカプセル化され、これは、適合したCOVID-19統計から導かれる。 これらの定数はまた、外的ストレス要因に対する社会的反応のダイナミクスを反映しており、地球規模の社会災害における人間性と自然要因の相互行動を研究することの重要性を強調している。 これらの地域特有の特徴に基づき、地域当局はワクチン開発まで疫病対策を効果的に行うことができる。

In the context of natural disasters, human responses inevitably intertwine with natural factors. The COVID-19 pandemic, as a significant stress factor, has brought to light profound variations among different countries in terms of their adaptive dynamics in addressing the spread of infection outbreaks across different regions. This emphasizes the crucial role of cultural characteristics in natural disaster analysis. The theoretical understanding of large-scale epidemics primarily relies on mean-field kinetic models. However, conventional SIR-like models failed to fully explain the observed phenomena at the onset of the COVID-19 outbreak. These phenomena included the unexpected cessation of exponential growth, the reaching of plateaus, and the occurrence of multi-wave dynamics. In situations where an outbreak of a highly virulent and unfamiliar infection arises, it becomes crucial to respond swiftly at a non-medical level to mitigate the negative socio-economic impact. Here we present a theoretical examination of the first wave of the epidemic based on a simple SIRSS model (SIR with Social Stress). We conduct an analysis of the socio-cultural features of na\"ive population behaviors across various countries worldwide. The unique characteristics of each country/territory are encapsulated in only a few constants within our model, derived from the fitted COVID-19 statistics. These constants also reflect the societal response dynamics to the external stress factor, underscoring the importance of studying the mutual behavior of humanity and natural factors during global social disasters. Based on these distinctive characteristics of specific regions, local authorities can optimize their strategies to effectively combat epidemics until vaccines are developed.
翻訳日:2024-02-13 21:29:18 公開日:2024-02-12
# パターンを用いたシンボリック数値計画

Symbolic Numeric Planning with Patterns ( http://arxiv.org/abs/2312.09963v3 )

ライセンス: Link先を確認
Matteo Cardellini, Enrico Giunchiglia, and Marco Maratea(参考訳) 本稿では,線形数値計画問題に対する新しい手法であるシンボリックパターン計画法を提案する。 プランニング問題$\pi$、バウンド$n$、パターン -- 任意の一連のアクションとして定義される -- を考えると、バウンド$n$を、最先端のロールアップと緩和された$\exists$エンコーディングよりも少ない変数と/または節を持つ公式として見つけるという問題をエンコードします。 さらに重要なことは、任意の境界に対して、後者の2つのエンコーディングが有効な計画を見つけるのを許すが、我々の法則に従わないことを証明している。 実験面では、今年の国際計画コンペティション(IPC)に参加したものを含め、他の6つの計画システムについて検討し、今年のITC問題に関して、我々のプランナーであるPattyが驚くほど優れた比較パフォーマンスを示した。

In this paper, we propose a novel approach for solving linear numeric planning problems, called Symbolic Pattern Planning. Given a planning problem $\Pi$, a bound $n$ and a pattern -- defined as an arbitrary sequence of actions -- we encode the problem of finding a plan for $\Pi$ with bound $n$ as a formula with fewer variables and/or clauses than the state-of-the-art rolled-up and relaxed-relaxed-$\exists$ encodings. More importantly, we prove that for any given bound, it is never the case that the latter two encodings allow finding a valid plan while ours does not. On the experimental side, we consider 6 other planning systems -- including the ones which participated in this year's International Planning Competition (IPC) -- and we show that our planner Patty has remarkably good comparative performances on this year's IPC problems.
翻訳日:2024-02-13 21:21:50 公開日:2024-02-12
# 再構成可能な原子配列を持つ非クリフォードゲートの効率的な耐故障性実装

Efficient fault-tolerant implementations of non-Clifford gates with reconfigurable atom arrays ( http://arxiv.org/abs/2312.09111v2 )

ライセンス: Link先を確認
Yi-Fei Wang, Yixu Wang, Yu-An Chen, Wenjun Zhang, Tao Zhang, Jiazhong Hu, Wenlan Chen, Yingfei Gu, Zi-Wen Liu(参考訳) スケーラブルな普遍量子コンピューティングを実現するためには、論理ゲートの普遍的な集合をフォールトトレラントに実装する必要がある。 再構成可能なatom配列プラットフォームのいくつかの特徴は、この重要な課題に対処するのに本質的に適しており、信頼性と効率の面で大きなアドバンテージをもたらす可能性があることを実証する。 具体的には、マジック状態蒸留、連結コード配列、フォールトトレラント論理マルチコントロールゲートなど、非ローカル接続、並列ゲートアクション、集団移動、ネイティブマルチコントロールのz$ゲートといった重要なプラットフォーム機能を活用する一連の戦略を検討する。 本解析は,論理ゲートの効率的な実験実現に関する貴重な知見を提供し,再構成可能なアトムアレイを用いたフォールトトレラント量子計算のフルサイクルデモンストレーションのガイドとなる。

To achieve scalable universal quantum computing, we need to implement a universal set of logical gates fault-tolerantly, for which the main difficulty lies with non-Clifford gates. We demonstrate that several characteristic features of the reconfigurable atom array platform are inherently well-suited for addressing this key challenge, potentially leading to significant advantages in fidelity and efficiency. Specifically, we consider a series of different strategies including magic state distillation, concatenated code array, and fault-tolerant logical multi-controlled-$Z$ gates, leveraging key platform features such as non-local connectivity, parallel gate action, collective mobility, and native multi-controlled-$Z$ gates. Our analysis provides valuable insights into the efficient experimental realization of logical gates, serving as a guide for the full-cycle demonstration of fault-tolerant quantum computation with reconfigurable atom arrays.
翻訳日:2024-02-13 21:21:30 公開日:2024-02-12
# タスクfMRI解析空間におけるパイプライン群集の探索

Uncovering communities of pipelines in the task-fMRI analytical space ( http://arxiv.org/abs/2312.06231v2 )

ライセンス: Link先を確認
Elodie Germani (EMPENN), Elisa Fromont (LACODAM), Camille Maumet (EMPENN)(参考訳) 機能的磁気共鳴イメージングにおける解析的ワークフローは、パイプラインの選択方法に関する限られたベストプラクティスで非常に柔軟である。 異なるパイプラインの使用が異なる結果をもたらす可能性があることが示されているが、これらの違いを駆動する要因や、コンテキスト間の差異の安定性についてはまだ理解されていない。 パイプライン空間を探索するためにコミュニティ検出アルゴリズムを使用し、異なるコンテキストにわたるパイプライン関係の安定性を評価します。 特に、特定のパラメータ(例えば、モーションレグレッタの数、ソフトウェアパッケージなど)を共有するパイプラインには、同様の結果をもたらすサブセットがあることが示されています。 これらのパイプラインからパイプラインへのパターンは、参加者のグループ間で安定しているが、異なるタスク間では安定しない。 コミュニティ間の差異を可視化することにより,パイプライン空間は主に脳の活性化領域の大きさと統計マップの統計値のスケールによって駆動されることが示された。

Analytical workflows in functional magnetic resonance imaging are highly flexible with limited best practices as to how to choose a pipeline. While it has been shown that the use of different pipelines might lead to different results, there is still a lack of understanding of the factors that drive these differences and of the stability of these differences across contexts. We use community detection algorithms to explore the pipeline space and assess the stability of pipeline relationships across different contexts. We show that there are subsets of pipelines that give similar results, especially those sharing specific parameters (e.g. number of motion regressors, software packages, etc.). Those pipeline-to-pipeline patterns are stable across groups of participants but not across different tasks. By visualizing the differences between communities, we show that the pipeline space is mainly driven by the size of the activation area in the brain and the scale of statistic values in statistic maps.
翻訳日:2024-02-13 21:19:39 公開日:2024-02-12
# 潜在ノードと構造騒音下におけるネットワーク力学系の因果構造学習

Learning the Causal Structure of Networked Dynamical Systems under Latent Nodes and Structured Noise ( http://arxiv.org/abs/2312.05974v3 )

ライセンス: Link先を確認
Augusto Santos, Diogo Rente, Rui Seabra and Jos\'e M. F. Moura(参考訳) 本稿では,線形ネットワーク型力学系(NDS)の隠れ因果ネットワークを,そのノードの一部の時系列データから学習する。 NDSのダイナミクスは、一対のノード間で急激な関連を生み出す色付きノイズによって駆動され、問題をはるかに難しくする。 ノイズ相関と部分可観測性の課題に対処するため,観測ノードの時系列データから計算した特徴ベクトルを各ノードに割り当てる。 特徴の集合を一貫して分割するアフィン超平面が存在し、接続されたノードのペアに対応する特徴ベクトルと非連結なペアに対応するものとを分離する。 従って因果推論問題は、設計された特徴をクラスタリングすることで解決される。 単純なベースライン教師付き手法を用いて,実世界ネットワークを含む広帯域接続環境と雑音相関レベル下での因果推論機構の競合性能を実証する。 さらに,線形NDSにおける構造整合性の新たな技術的保証を考察した。

This paper considers learning the hidden causal network of a linear networked dynamical system (NDS) from the time series data at some of its nodes -- partial observability. The dynamics of the NDS are driven by colored noise that generates spurious associations across pairs of nodes, rendering the problem much harder. To address the challenge of noise correlation and partial observability, we assign to each pair of nodes a feature vector computed from the time series data of observed nodes. The feature embedding is engineered to yield structural consistency: there exists an affine hyperplane that consistently partitions the set of features, separating the feature vectors corresponding to connected pairs of nodes from those corresponding to disconnected pairs. The causal inference problem is thus addressed via clustering the designed features. We demonstrate with simple baseline supervised methods the competitive performance of the proposed causal inference mechanism under broad connectivity regimes and noise correlation levels, including a real world network. Further, we devise novel technical guarantees of structural consistency for linear NDS under the considered regime.
翻訳日:2024-02-13 21:19:26 公開日:2024-02-12
# 連続可変真の多部絡み合いの最小基準

Minimal criteria for continuous-variable genuine multipartite entanglement ( http://arxiv.org/abs/2401.04376v2 )

ライセンス: Link先を確認
Olga Leskovjanov\'a and Ladislav Mi\v{s}ta Jr(参考訳) 我々は二次作用素の第二モーメントに対する真のマルチモード絡み合い基準のセットを導出する。 この基準は、位置のばらつきの和と運動量二次結合の間の不確実性関係の共通形を持つ。 基準のユニークな特徴は、和が少なくとも2つのモードの組み合わせの最小の分散数を含むことである。 基準を適用するために知っておくべき2番目のモーメントの数は、既存の基準の2次スケーリングとは対照的に、モードの数に線形にしかスケールしない。 各基準は木グラフに関連付けられており、基礎となる木の構造にのみ基づく基準の直接的構築方法の開発が可能となった。 提案手法の実用性は,最大6モードのガウス状態の真の多モード絡みが検出される多くの例を見出すことによって実証される。 設計基準は, 大規模多モード状態における真のマルチパーティイト絡みの検証に特に適しており, 調査対象の2モード近傍の辺縁共分散行列のセットのみが利用可能である。

We derive a set of genuine multi-mode entanglement criteria for second moments of the quadrature operators. The criteria have a common form of the uncertainty relation between sums of variances of position and momentum quadrature combinations. A unique feature of the criteria is that the sums contain the least possible number of variances of at most two-mode combinations. The number of second moments we need to know to apply the criteria thus scales only linearly with the number of modes, as opposed to the quadratic scaling of the already existing criteria. Each criterion is associated with a tree graph, which allowed us to develop a direct method of construction of the criteria based solely on the structure of the underlying tree. The practicality of the proposed criteria is demonstrated by finding a number of examples of Gaussian states of up to six modes, whose genuine multi-mode entanglement is detected by them. The designed criteria are particularly suitable for verification of genuine multipartite entanglement in large multi-mode states or when only a set of two-mode nearest-neighbour marginal covariance matrices of the investigated state is available.
翻訳日:2024-02-13 21:10:08 公開日:2024-02-12
# 一般的なタスクにおける命令チューニングのためのパラメータ効率の高いスパルシティ製作法

Parameter-Efficient Sparsity Crafting from Dense to Mixture-of-Experts for Instruction Tuning on General Tasks ( http://arxiv.org/abs/2401.02731v3 )

ライセンス: Link先を確認
Haoyuan Wu, Haisheng Zheng, Zhuolun He, Bei Yu(参考訳) 大規模言語モデル(LLM)は、自然言語処理(NLP)のタスクにおいて、かなり熟練している。 成功しているパラダイムであるインストラクションチューニングは、LLMが自然言語命令に従う能力を高め、幅広いタスクにまたがる堅牢な一般化を示す。 しかしながら、モデルキャパシティの制約により、これらのモデルは複数のタスクにまたがるパフォーマンスの制限に直面することが多い。 命令チューニングフェーズでこの能力を拡張することは、大きな課題となる。 この問題に対処するために,パラメータ効率のよいスパシティ・クラフト (PESC) という新しい手法を導入し,Mixture of Experts (MoE) アーキテクチャを用いて高密度モデルからスパースモデルへ変換する。 PESCはアダプタをスパースモデルのMoE層に統合し、これらの層内の個々の重みを変更することなく専門家を差別化する。 この方法は計算コストとGPUメモリの要求を大幅に削減し、挿入アダプタによるパラメータの最小増加によるモデルの容量拡張を容易にする。 実験によりPESC法の有効性が示された。 インストラクションチューニングにおいてPESCを用いて,Camelidaeと称されるスパースモデルは,他のすべてのオープンソーススパースモデルより優れ,GPT3.5と比較して優れた汎用性を示す。

Large Language Models (LLMs) have demonstrated considerable proficiency in general natural language processing (NLP) tasks. Instruction tuning, a successful paradigm, enhances the ability of LLMs to follow natural language instructions and exhibit robust generalization across a wide range of tasks. However, these models often encounter performance limitations across multiple tasks due to constrained model capacity. Expanding this capacity during the instruction tuning phase poses significant challenges. To address this issue, we introduce a novel approach, Parameter-Efficient Sparsity Crafting (PESC), which transitions dense models to sparse models using a Mixture of Experts (MoE) architecture. PESC integrates adapters into the MoE layers of sparse models, differentiating experts without altering the individual weights within these layers. This method significantly reduces computational costs and GPU memory requirements, facilitating model capacity expansion through a minimal increase in parameters via the inserted adapters. Our empirical evaluation demonstrates the effectiveness of the PESC method. Using PESC during instruction tuning, our sparse models, dubbed Camelidae outperform all other opensource sparse models and exhibit superior general capabilities compared to GPT3.5.
翻訳日:2024-02-13 21:09:49 公開日:2024-02-12
# kernel-u-net:多変量時系列予測のための対称階層アーキテクチャ

Kernel-U-Net: Symmetric and Hierarchical Architecture for Multivariate Time Series Forecasting ( http://arxiv.org/abs/2401.01479v2 )

ライセンス: Link先を確認
Jiang You, Ren\'e Natowicz, Arben Cela, Jacob Ouanounou, Patrick Siarry(参考訳) 時系列予測タスクは、履歴情報に基づいて将来のトレンドを予測する。 トランスフォーマーベースのU-Netアーキテクチャは、医用画像セグメンテーションの成功にもかかわらず、YFormerで証明されているように、時系列予測における表現性と計算効率に制限がある。 これらの課題に取り組むために、対称で階層的なu字型ニューラルネットワークアーキテクチャであるkernel-u-netを導入する。 kernel-u-netエンコーダは徐々に入力列を潜在ベクトルに圧縮し、対称デコーダはそのベクトルを出力列に拡張する。 具体的には、kernel-u-netは、入力時系列をカーネル操作からパッチに分割する手順を分離し、カスタマイズされたカーネルの実行の利便性を提供する。 この方法の主な利点は2つあります 1) 特定のデータセットに適応するためのカーネルカスタマイズの柔軟性 2) 計算効率は向上し, トランスフォーマー層の複雑さは線形に低下した。 実世界の7つのデータセットの実験では、多変量と単変量の両方の設定を考慮して、Kernel-U-Netのパフォーマンスが、ほとんどのケースで既存の最先端モデルであるPatchTSTを上回るか、あるいは満たすことを示した。 Kernel-U-Netのソースコードは、さらなる研究とアプリケーションのために公開されている。

Time series forecasting task predicts future trends based on historical information. Transformer-based U-Net architectures, despite their success in medical image segmentation, have limitations in both expressiveness and computation efficiency in time series forecasting as evidenced in YFormer. To tackle these challenges, we introduce Kernel-U-Net, a symmetric and hierarchical U-shape neural network architecture. The kernel-U-Net encoder compresses gradually input series into latent vectors, and its symmetric decoder subsequently expands these vectors into output series. Specifically, Kernel-U-Net separates the procedure of partitioning input time series into patches from kernel manipulation, thereby providing the convenience of executing customized kernels. Our method offers two primary advantages: 1) Flexibility in kernel customization to adapt to specific datasets; 2) Enhanced computational efficiency, with the complexity of the Transformer layer reduced to linear. Experiments on seven real-world datasets, considering both multivariate and univariate settings, demonstrate that Kernel-U-Net's performance either exceeds or meets that of the existing state-of-the-art model PatchTST in the majority of cases and outperforms Yformer. The source code for Kernel-U-Net will be made publicly available for further research and application.
翻訳日:2024-02-13 21:09:13 公開日:2024-02-12
# subquadratic timeにおけるスケーラブルネットワーク再構成

Scalable network reconstruction in subquadratic time ( http://arxiv.org/abs/2401.01404v3 )

ライセンス: Link先を確認
Tiago P. Peixoto(参考訳) ネットワーク再構成は、それらの結合(典型的には、グラフィカルモデルからの時系列または独立したサンプル)に条件づけられた結果の振る舞いに関する観測データのみを与えられた$N$ノード間の、観測されていないペアワイズ結合を決定することである。 この問題のために提案されたアルゴリズムのスケーラビリティに対する大きな障害は、一見避けられない二次的複雑性である$o(n^2)$であり、関心のあるネットワークのほとんどがスパースであり、いくつかの非ゼロ結合が$o(n)$であるという事実にもかかわらず、各ペアワイズ結合が少なくとも1回は検討されている要件に対応している。 本稿では,o(n^{3/2}\log n)$という大まかな上限値を持つデータ依存的複雑性を持つが,より典型的な対数線形複雑性であるo(n\log^2n)$を持つ,サブクアドラル時間でその結果を達成する,幅広いレコンストラクション問題に適用可能な一般アルゴリズムを提案する。 我々のアルゴリズムは, 確率的に第2の隣接探索に依拠し, 最良辺候補を高い確率で生成し, 余剰二次探索をバイパスする。 実際、我々のアルゴリズムは、2次ベースラインよりも桁違いに高速な性能を実現し、容易に並列化が可能となり、数十万のノードとエッジでネットワークを再構築することができる。

Network reconstruction consists in determining the unobserved pairwise couplings between $N$ nodes given only observational data on the resulting behavior that is conditioned on those couplings -- typically a time-series or independent samples from a graphical model. A major obstacle to the scalability of algorithms proposed for this problem is a seemingly unavoidable quadratic complexity of $O(N^2)$, corresponding to the requirement of each possible pairwise coupling being contemplated at least once, despite the fact that most networks of interest are sparse, with a number of non-zero couplings that is only $O(N)$. Here we present a general algorithm applicable to a broad range of reconstruction problems that achieves its result in subquadratic time, with a data-dependent complexity loosely upper bounded by $O(N^{3/2}\log N)$, but with a more typical log-linear complexity of $O(N\log^2N)$. Our algorithm relies on a stochastic second neighbor search that produces the best edge candidates with high probability, thus bypassing an exhaustive quadratic search. In practice, our algorithm achieves a performance that is many orders of magnitude faster than the quadratic baseline, allows for easy parallelization, and thus enables the reconstruction of networks with hundreds of thousands and even millions of nodes and edges.
翻訳日:2024-02-13 21:08:50 公開日:2024-02-12
# 誤差をもつ量子クリロフアルゴリズムの解析

Analysis of quantum Krylov algorithms with errors ( http://arxiv.org/abs/2401.01246v3 )

ライセンス: Link先を確認
William Kirby(参考訳) この研究は、量子回路の出力における一般的なエラーを対象とする、リアルタイム進化に基づく量子クリロフアルゴリズムの誤差解析を提供する。 結果として得られた基底状態エネルギー推定値の上限と下限を証明し、上限の誤差は入力誤差率において線形であることを示した。 これにより、およそ線形誤差スケーリングを示す既知の数値と、正方根スケーリングしか得られない事前理論解析との間の不一致が解消される。 我々の主な手法は、実効的クリロフ空間で研究された実効的対象ハミルトニアンの観点から、一般的な誤差を表現することである。 これらの結果は量子クライロフ誤差の主な特徴を理解するための理論的枠組みを提供する。

This work provides an error analysis of quantum Krylov algorithms based on real-time evolutions, subject to generic errors in the outputs of the quantum circuits. We prove upper and lower bounds on the resulting ground state energy estimates, and the error in the upper bound is linear in the input error rates. This resolves a misalignment between known numerics, which exhibit approximately linear error scaling, and prior theoretical analysis, which only provably obtained square-root scaling. Our main technique is expressing generic errors in terms of an effective target Hamiltonian studied in an effective Krylov space. These results provide a theoretical framework for understanding the main features of quantum Krylov errors.
翻訳日:2024-02-13 21:08:26 公開日:2024-02-12
# NPHardEval: 複雑性クラスによる大規模言語モデルの推論能力の動的ベンチマーク

NPHardEval: Dynamic Benchmark on Reasoning Ability of Large Language Models via Complexity Classes ( http://arxiv.org/abs/2312.14890v4 )

ライセンス: Link先を確認
Lizhou Fan, Wenyue Hua, Lingyao Li, Haoyang Ling, Yongfeng Zhang(参考訳) 複雑な推論能力は、現在のLLMの最も重要な特徴の1つであり、複雑な意思決定タスクにおいて重要な役割を果たすために利用されてきた。 したがって,LLMの推論能力を評価するために,大規模言語モデル (LLM) の推論能力に関する多くのベンチマークが確立されている。 しかし、現在のベンチマークはLLMが達成できる推論能力の全範囲を厳格に評価する上で不十分である。 これらのベンチマークは公開アクセス可能で静的であるため、モデルが特定のベンチマークメトリクスに対する応答を調整できる可能性があり、その結果、パフォーマンスが増大する。 これらの制限に対処するため、我々の研究は NPHardEval という新しいベンチマークを導入した。 このベンチマークは、900のアルゴリズム質問の範囲でLLMの推論能力を評価し、NP-Hard複雑性クラスまで拡張するように設計されている。 これらの質問は、NPハード複雑性クラス以下の幅広い複雑性クラスを表現するために慎重に選ばれ、LLMの推論能力の厳密な測度を提供する。 本研究では,LLMにおける推論の現況に光を当て,複雑なクラス間でのLLMの性能の比較を通して,客観的かつ厳密な視点を提供する。 さらに、このベンチマークは動的更新メカニズムで設計されており、データポイントは毎月更新される。 このような定期的な更新は、ベンチマークに過剰に適合するllmのリスクを緩和し、より正確で信頼性の高い推論能力の評価を促進する上で、重要な役割を果たす。 NPHardEvalのベンチマークデータセットとコードはhttps://github.com/casmlab/NPHardEvalで公開されている。

Complex reasoning ability is one of the most important features of current LLMs, which has also been leveraged to play an integral role in complex decision-making tasks. Therefore, the investigation into the reasoning capabilities of Large Language Models (LLMs) is critical: numerous benchmarks have been established to assess the reasoning abilities of LLMs. However, current benchmarks are inadequate in offering a rigorous evaluation of the full extent of reasoning abilities that LLMs are capable of achieving. They are also prone to the risk of overfitting, as these benchmarks, being publicly accessible and static, allow models to potentially tailor their responses to specific benchmark metrics, thereby inflating their performance. Addressing these limitations, our research introduces a new benchmark, named NPHardEval. This benchmark is designed to evaluate the reasoning abilities of LLMs across a broad spectrum of 900 algorithmic questions, extending up to the NP-Hard complexity class. These questions are meticulously chosen to represent a wide range of complexity class below the NP-hard complexity class, offering a rigorous measure of the reasoning ability of LLMs. Through this study, we shed light on the current state of reasoning in LLMs, providing an objective and rigorous perspective through the comparison of LLMs' performance across complex classes. Moreover, this benchmark is designed with a dynamic update mechanism, where the datapoints are refreshed on a monthly basis. Such regular updates play a crucial role in mitigating the risk of LLMs overfitting to the benchmark, promoting a more accurate and reliable assessment of their reasoning capabilities. The benchmark dataset and code of NPHardEval are available at https://github.com/casmlab/NPHardEval.
翻訳日:2024-02-13 21:07:07 公開日:2024-02-12
# パラメータ化射影ベルマン演算子

Parameterized Projected Bellman Operator ( http://arxiv.org/abs/2312.12869v2 )

ライセンス: Link先を確認
Th\'eo Vincent, Alberto Maria Metelli, Boris Belousov, Jan Peters, Marcello Restelli and Carlo D'Eramo(参考訳) 近似値反復 (avi) は、最適値関数の近似を得ることを目的とした強化学習(rl)のためのアルゴリズム群である。 一般に、AVIアルゴリズムは各ステップが構成される反復手順を実装している。 (i)ベルマン作用素の応用と (ii)考慮された函数空間への射影ステップ。 ベルマン作用素はその挙動を強く決定する遷移サンプルを利用しており、非形式的なサンプルは無視できない更新や長いデトゥールを生じさせ、その有害な効果は計算的に集中的なプロジェクションステップによってさらに悪化する。 そこで本研究では, avi法のようにサンプルから推定するのではなく, ベルマン作用素の近似バージョンを学習することに基づく新しい代替手法を提案する。 このようにして、私たちは (i)遷移サンプルを一般化し、 (ii)計算集約的な投影ステップを避ける。 このため、我々は新しい作用素をベルマン作用素 (PBO) と呼ぶ。 汎用的な逐次意思決定問題に対するpbo学習のための最適化問題を定式化し,その性質をrl問題の2つの代表的なクラスで理論的に解析する。 さらに,このアプローチをaviのレンズで理論的に検討し,ニューラルネットワークのパラメータ化を利用してオフラインおよびオンライン環境でpboを学習するアルゴリズムの実装を考案する。 最後に、いくつかのRL問題に対する正規ベルマン作用素 PBO w.r.t. の利点を実証的に示す。

Approximate value iteration (AVI) is a family of algorithms for reinforcement learning (RL) that aims to obtain an approximation of the optimal value function. Generally, AVI algorithms implement an iterated procedure where each step consists of (i) an application of the Bellman operator and (ii) a projection step into a considered function space. Notoriously, the Bellman operator leverages transition samples, which strongly determine its behavior, as uninformative samples can result in negligible updates or long detours, whose detrimental effects are further exacerbated by the computationally intensive projection step. To address these issues, we propose a novel alternative approach based on learning an approximate version of the Bellman operator rather than estimating it through samples as in AVI approaches. This way, we are able to (i) generalize across transition samples and (ii) avoid the computationally intensive projection step. For this reason, we call our novel operator projected Bellman operator (PBO). We formulate an optimization problem to learn PBO for generic sequential decision-making problems, and we theoretically analyze its properties in two representative classes of RL problems. Furthermore, we theoretically study our approach under the lens of AVI and devise algorithmic implementations to learn PBO in offline and online settings by leveraging neural network parameterizations. Finally, we empirically showcase the benefits of PBO w.r.t. the regular Bellman operator on several RL problems.
翻訳日:2024-02-13 21:06:15 公開日:2024-02-12
# ProLex: 言語能力指向の語彙置換のためのベンチマーク

ProLex: A Benchmark for Language Proficiency-oriented Lexical Substitution ( http://arxiv.org/abs/2401.11356v2 )

ライセンス: Link先を確認
Xuanming Zhang, Zixun Chen, Zhou Yu(参考訳) Lexical Substitutionは、コンテキスト文で所定の対象単語の適切な代用を見つける。 しかし、その課題は、目標よりも同等または高い習熟度を持つ代用品を考えることに失敗し、言語学習者が書き方を改善するのに有益である可能性がある。 このギャップを埋めるために,新しいタスクである言語習熟度指向語彙置換を提案する。 また,適切な代用物だけでなく,優れた言語能力を示す代用物を生成するシステムの能力を評価するための新しいベンチマークである prolex も紹介する。 ベンチマークの他に,新しいタスクを自動実行可能なモデルを提案する。 タスク固有の合成データを微調整したLlama2-13Bモデルでは,Fスコアの平均3.2%でChatGPTを上回り,ProLexのGPT-4と同等の結果が得られることを示す。

Lexical Substitution discovers appropriate substitutes for a given target word in a context sentence. However, the task fails to consider substitutes that are of equal or higher proficiency than the target, an aspect that could be beneficial for language learners looking to improve their writing. To bridge this gap, we propose a new task, language proficiency-oriented lexical substitution. We also introduce ProLex, a novel benchmark designed to assess systems' ability to generate not only appropriate substitutes but also substitutes that demonstrate better language proficiency. Besides the benchmark, we propose models that can automatically perform the new task. We show that our best model, a Llama2-13B model fine-tuned with task-specific synthetic data, outperforms ChatGPT by an average of 3.2% in F-score and achieves comparable results with GPT-4 on ProLex.
翻訳日:2024-02-13 20:58:31 公開日:2024-02-12
# ランダムフォレスト機械学習を用いた非侵襲的急性比較症候群診断

Noninvasive Acute Compartment Syndrome Diagnosis Using Random Forest Machine Learning ( http://arxiv.org/abs/2401.10386v2 )

ライセンス: Link先を確認
Zaina Abu Hweij, Florence Liang, Sophie Zhang(参考訳) 急性コンパートメント症候群 (acs) は、筋肉のコンパートメント内の圧力上昇によって引き起こされる整形外科的な緊急事態であり、永久的な組織損傷と最終的には死に至る。 acsの診断は、患者が報告する症状に大きく依存する。この方法は、臨床的に信頼性がなく、しばしば、動作設定で機能不全となる侵襲的内圧測定によって補足される。 本研究は,acsの客観的かつ非侵襲的診断を提案する。 このデバイスは、皮膚に置かれる力感受性抵抗体(FSR)からの代理的な圧力読み取りを利用するランダムフォレスト機械学習モデルを通じてACSを検出する。 診断の妥当性を検証するために,fsr測定値とそれに対応する生体内圧力を模擬したデータセットを作成した。 診断精度は最大98%であった。 この装置は感度や特異性など重要な性能指標に優れており、現在の動作において統計的に重要な性能差がある。 73USDで作られたこのデバイスは、費用対効果の高いソリューションかもしれない。 これらの結果から,非侵襲的ACS診断が臨床精度基準を満たしている可能性が示唆された。

Acute compartment syndrome (ACS) is an orthopedic emergency, caused by elevated pressure within a muscle compartment, that leads to permanent tissue damage and eventually death. Diagnosis of ACS relies heavily on patient-reported symptoms, a method that is clinically unreliable and often supplemented with invasive intracompartmental pressure measurements that can malfunction in motion settings. This study proposes an objective and noninvasive diagnostic for ACS. The device detects ACS through a random forest machine learning model that uses surrogate pressure readings from force-sensitive resistors (FSRs) placed on the skin. To validate the diagnostic, a data set containing FSR measurements and the corresponding simulated intracompartmental pressure was created for motion and motionless scenarios. The diagnostic achieved up to 98% accuracy. The device excelled in key performance metrics, including sensitivity and specificity, with a statistically insignificant performance difference in motion present cases. Manufactured for 73 USD, our device may be a cost-effective solution. These results demonstrate the potential of noninvasive ACS diagnostics to meet clinical accuracy standards in real world settings.
翻訳日:2024-02-13 20:58:17 公開日:2024-02-12
# 脱獄の仕方:ブラックボックスで簡単にジェイルブレイクを防げる方法

All in How You Ask for It: Simple Black-Box Method for Jailbreak Attacks ( http://arxiv.org/abs/2401.09798v3 )

ライセンス: Link先を確認
Kazuhiro Takemoto(参考訳) ChatGPTのような大規模言語モデル(LLM)は、倫理的に有害なプロンプトを生成するためにセーフガードが回避される「ジェイルブレイク」問題に遭遇する。 本研究では,ジェイルブレイクプロンプトを効率的に作成するためのブラックボックス手法を提案する。 本手法は, 有害なプロンプトを目標LLMを直接利用した良性表現に反復的に変換し, LLMが安全を回避可能な表現を自律的に生成できるという仮説を導いた。 また,ChatGPT(GPT-3.5およびGPT-4)とGemini-Pro(GPT-3.5およびGPT-4)を用いて行った実験により,提案手法は平均5回に80%を超える攻撃成功率を達成した。 ジェイルブレイクのプロンプトは、自然言語で簡潔なだけでなく、防御も難しいものだった。 これらの結果は、効果的なジェイルブレイクプロンプトの作成は以前考えられていたよりも複雑ではなく、ブラックボックスのジェイルブレイク攻撃によるリスクの高揚を物語っていることを示唆している。

Large Language Models (LLMs), such as ChatGPT, encounter `jailbreak' challenges, wherein safeguards are circumvented to generate ethically harmful prompts. This study introduces a straightforward black-box method for efficiently crafting jailbreak prompts, addressing the significant complexity and computational costs associated with conventional methods. Our technique iteratively transforms harmful prompts into benign expressions directly utilizing the target LLM, predicated on the hypothesis that LLMs can autonomously generate expressions that evade safeguards. Through experiments conducted with ChatGPT (GPT-3.5 and GPT-4) and Gemini-Pro, our method consistently achieved an attack success rate exceeding 80% within an average of five iterations for forbidden questions and proved robust against model updates. The jailbreak prompts generated were not only naturally-worded and succinct but also challenging to defend against. These findings suggest that the creation of effective jailbreak prompts is less complex than previously believed, underscoring the heightened risk posed by black-box jailbreak attacks.
翻訳日:2024-02-13 20:57:57 公開日:2024-02-12
# フラックス可変マイクロ波空洞を用いた浮遊超電導体のリモートセンシング

Remote sensing of a levitated superconductor with a flux-tunable microwave cavity ( http://arxiv.org/abs/2401.08854v2 )

ライセンス: Link先を確認
Philip Schmidt, Remi Claessen, Gerard Higgins, Joachim Hofer, Jannek J. Hansen, Peter Asenbaum, Kevin Uhl, Reinhold Kleiner, Rudolf Gross, Hans Huebl, Michael Trupke, Markus Aspelmeyer(参考訳) 本稿では,マイクロ波共振器に埋め込まれた超伝導量子干渉装置からなる空洞-電界系について,6$\mu$gの磁気浮上型超伝導球にピックアップループで結合する。 磁気トラップにおける球の運動は、SQUIDキャビティ系の周波数シフトを誘導する。 我々はマイクロ波分光法を用いてシステムを特徴づけ、電気機械相互作用がチューニング可能であることを示す。 10^{-7} \, \mathrm{m} / \sqrt{\mathrm{hz}}$ の変位感度の測定は、ミリケルビン環境温度でプランクスケールの質量を持つ浮遊粒子の地上冷却への道を定義する。

We present a cavity-electromechanical system comprising a superconducting quantum interference device which is embedded in a microwave resonator and coupled via a pick-up loop to a 6 $\mu$g magnetically-levitated superconducting sphere. The motion of the sphere in the magnetic trap induces a frequency shift in the SQUID-cavity system. We use microwave spectroscopy to characterize the system, and we demonstrate that the electromechanical interaction is tunable. The measured displacement sensitivity of $10^{-7} \, \mathrm{m} / \sqrt{\mathrm{Hz}}$, defines a path towards ground-state cooling of levitated particles with Planck-scale masses at millikelvin environment temperatures.
翻訳日:2024-02-13 20:56:28 公開日:2024-02-12
# Xハッキング:「AutoML」の脅威

X Hacking: The Threat of Misguided AutoML ( http://arxiv.org/abs/2401.08513v2 )

ライセンス: Link先を確認
Rahul Sharma, Sergey Redyuk, Sumantrak Mukherjee, Andrea Sipka, Sebastian Vollmer, David Selby(参考訳) 説明可能なAI(XAI)と解釈可能な機械学習手法は、モデル予測と派生した洞察の信頼を構築するのに役立つが、アナリストがXAIメトリクスを操作して事前に特定された結論をサポートするための逆インセンティブも提示する。 本稿では,シャップ値などのxaiメトリクスに適用可能なpハッキングの形式であるx-hackingの概念を紹介する。 自動機械学習パイプラインを用いて、共通のベースラインに優れた予測性能を維持しつつ、望ましい説明を生成する「防御可能な」モデルを探す方法を示す。 我々は、多目的最適化問題として説明と精度のトレードオフを定式化し、実世界のデータセットにXハックの有効性と重大さを実証的に示す。 最後に,xai研究の信頼性と再現性に対する倫理的意義について考察する。

Explainable AI (XAI) and interpretable machine learning methods help to build trust in model predictions and derived insights, yet also present a perverse incentive for analysts to manipulate XAI metrics to support pre-specified conclusions. This paper introduces the concept of X-hacking, a form of p-hacking applied to XAI metrics such as Shap values. We show how an automated machine learning pipeline can be used to search for 'defensible' models that produce a desired explanation while maintaining superior predictive performance to a common baseline. We formulate the trade-off between explanation and accuracy as a multi-objective optimization problem and illustrate the feasibility and severity of X-hacking empirically on familiar real-world datasets. Finally, we suggest possible methods for detection and prevention, and discuss ethical implications for the credibility and reproducibility of XAI research.
翻訳日:2024-02-13 20:56:14 公開日:2024-02-12
# 小さなジョセフソン接合における2重シャピロステップの実証

Demonstration of dual Shapiro steps in small Josephson junctions ( http://arxiv.org/abs/2401.06599v2 )

ライセンス: Link先を確認
Fabian Kaap, Christoph Kissling, Victor Gaydamachenko, Lukas Gr\"unhaupt, Sergey Lotkhov(参考訳) 小さなジョセフソン接合におけるブロッホ振動は理論的にジョセフソン振動の量子双対として予測された。 この予測の重要な結果は、ブロッホ振動を外部マイクロ波信号に同期させる際に量子化された電流ステップ(いわゆるデュアルシャピロステップ)が出現することである。 これらのステップは、外部信号の周波数$f$と基本電荷$e$, $I=\pm n \times 2ef$で定義される現在の$I$の基本的な標準を可能にし、$n$は自然数である。 ここでは、小さなal/alo$_\mathrm{x}$/al josephsonジャンクションから正弦波ドライブへのブロッホ振動を1$から6:\mathrm{ghz}$の周波数で同期させ、デュアルシャピロステップを$i\approx 3 \: \mathrm{na}$まで観測することで、この基本的な関係を実現する。 今日の電圧標準に触発され、さらに二重性関係を確かめるために、ジョセフソン振動の単一磁束量子モードと双対となるパルス駆動状態を調べ、二重シャピロステップの同様の非対称パターンを観察する。 この研究はジョセフソン接合における量子双対効果を確認し、よく確立された製造技術と簡単な回路設計に基づく量子力学の幅広い応用への道を開く。

Bloch oscillations in small Josephson junctions were predicted theoretically as the quantum dual to Josephson oscillations. A significant consequence of this prediction is the emergence of quantized current steps, so-called dual Shapiro steps, when synchronizing Bloch oscillations to an external microwave signal. These steps potentially enable a fundamental standard of current $I$, defined via the frequency $f$ of the external signal and the elementary charge $e$, $I=\pm n \times 2ef$, where $n$ is a natural number. Here, we realize this fundamental relation by synchronizing the Bloch oscillations in small Al/AlO$_\mathrm{x}$/Al Josephson junctions to sinusoidal drives with frequencies varying from $1$ to $6\:\mathrm{GHz}$ and observe dual Shapiro steps up to $I\approx 3 \: \mathrm{nA}$. Inspired by today's voltage standards and to further confirm the duality relation, we investigate a pulsed drive regime, which is dual to the single flux quantum mode of Josephson oscillations, and observe a similar asymmetric pattern of dual Shapiro steps. This work confirms quantum duality effects in Josephson junctions and paves the way towards a range of applications in quantum metrology based on well-established fabrication techniques and straightforward circuit design.
翻訳日:2024-02-13 20:54:55 公開日:2024-02-12
# InfiAgent-DABench: データ分析タスクにおけるエージェントの評価

InfiAgent-DABench: Evaluating Agents on Data Analysis Tasks ( http://arxiv.org/abs/2401.05507v2 )

ライセンス: Link先を確認
Xueyu Hu, Ziyu Zhao, Shuang Wei, Ziwei Chai, Qianli Ma, Guoyin Wang, Xuwu Wang, Jing Su, Jingjing Xu, Ming Zhu, Yao Cheng, Jianbo Yuan, Jiwei Li, Kun Kuang, Yang Yang, Hongxia Yang, Fei Wu(参考訳) 本稿では,llmベースのエージェントをデータ解析タスクで評価するための最初のベンチマークであるinfiagent-dabenchを紹介する。 これらのタスクは、エージェントが実行環境と対話することで複雑なタスクをエンドツーエンドで解決する必要がある。 このベンチマークには、52のCSVファイルから得られた257のデータ分析質問からなるデータセットであるDAEvalと、LCMを組み込んでデータ分析エージェントとして機能するエージェントフレームワークが含まれている。 データ分析の質問はしばしばオープンで、人間の監督なしには評価が難しいので、私たちは各質問をクローズドな形式に変換して自動的に評価できるようにフォーマットプロピング技術を採用しています。 34 LLMの広範なベンチマークにより、データ解析タスクで直面する現在の課題が明らかになった。 さらに, エージェント・フレームワーク上に構築し, DABench 上で GPT-3.5 を3.9% 上回る特殊エージェント DAAgent を開発した。 InfiAgent-DABenchの評価データセットとツールキットはhttps://github.com/InfiAgent/InfiAgent でリリースされている。

In this paper, we introduce InfiAgent-DABench, the first benchmark specifically designed to evaluate LLM-based agents on data analysis tasks. These tasks require agents to end-to-end solving complex tasks by interacting with an execution environment. This benchmark contains DAEval, a dataset consisting of 257 data analysis questions derived from 52 CSV files, and an agent framework which incorporates LLMs to serve as data analysis agents for both serving and evaluation. Since data analysis questions are often open-ended and hard to evaluate without human supervision, we adopt a format-prompting technique to convert each question into a closed-form format so that they can be automatically evaluated. Our extensive benchmarking of 34 LLMs uncovers the current challenges encountered in data analysis tasks. In addition, building on top of our agent framework, we develop a specialized agent, DAAgent, which surpasses GPT-3.5 by 3.9% on DABench. Evaluation datasets and toolkits for InfiAgent-DABench are released at https://github.com/InfiAgent/InfiAgent .
翻訳日:2024-02-13 20:54:25 公開日:2024-02-12
# 左利きメタマテリアル伝送路における粒子生成

Particle creation in left-handed metamaterial transmission lines ( http://arxiv.org/abs/2401.16976v2 )

ライセンス: Link先を確認
Alessandro Ferreri, David Edward Bruschi and Frank K. Wilhelm(参考訳) 伝送線は量子場の量子シミュレータの優れた例である。 特定の回路素子を適切に駆動することにより、量子真空の非断熱刺激による粒子生成などの量子相対論的効果を再現することができる。 超伝導量子干渉デバイスにおけるジョセフソンエネルギーの変調による左利き伝送線路の粒子生成について検討する。 以上の結果から,これらの系に存在する特異な分散関係により,通常の右利き送電線に対して,より良好な条件で粒子生成が生じることが示唆された。

Transmission lines are excellent examples of quantum simulators of quantum fields. By appropriately driving specific circuit elements, these devices can reproduce quantum relativistic effects such as the particle creation due to the non-adiabatic stimulation of the quantum vacuum. We investigate particle creation in left-handed transmission lines due to the modulation of the Josephson energy in superconducting quantum interference devices. Our results show that, as a consequence of the peculiar dispersion relations present in these systems, the particle production occurs with much more favorable conditions with respect to the usual right-handed transmission lines.
翻訳日:2024-02-13 20:46:38 公開日:2024-02-12
# PICL:部分微分方程式に対する物理インフォームドコントラスト学習

PICL: Physics Informed Contrastive Learning for Partial Differential Equations ( http://arxiv.org/abs/2401.16327v2 )

ライセンス: Link先を確認
Cooper Lorsung and Amir Barati Farimani(参考訳) ニューラル作用素は、最近、部分微分方程式(PDE)シュロゲートモデルとして人気が高まっている。 関数ではなく解関数の学習は、複雑なpdesに対する高速で正確な解を計算するための強力なアプローチであることが証明されている。 様々な代理モデリングタスクにおけるニューラル演算子のパフォーマンスを評価する作業は数多く行われているが、これらの作業は通常、一度に1つの方程式上でのパフォーマンスを評価する。 本研究では,複数の支配方程式にまたがるニューラル演算子一般化を同時に改善する汎用コントラスト損失を利用した新しいコントラスト事前学習フレームワークを開発する。 制御方程式係数は、系間の接地相似性を測定するために用いられる。 物理に変形したシステム進化と潜在空間モデル出力の組み合わせは入力データにアンカーされ、距離関数で使用される。 物理インフォームド・コントラクティブ事前学習は, フーリエニューラル演算子の固定未来タスクにおける精度と一般化を両立させ, 自己回帰ロールアウトに匹敵する性能と, 1次元熱, バーガーズ, 線形対流方程式の超分解能タスクを向上することがわかった。

Neural operators have recently grown in popularity as Partial Differential Equation (PDEs) surrogate models. Learning solution functionals, rather than functions, has proven to be a powerful approach to calculate fast, accurate solutions to complex PDEs. While much work has been done evaluating neural operator performance on a wide variety of surrogate modeling tasks, these works normally evaluate performance on a single equation at a time. In this work, we develop a novel contrastive pretraining framework utilizing Generalized Contrastive Loss that improves neural operator generalization across multiple governing equations simultaneously. Governing equation coefficients are used to measure ground-truth similarity between systems. A combination of physics-informed system evolution and latent-space model output are anchored to input data and used in our distance function. We find that physics-informed contrastive pretraining improves both accuracy and generalization for the Fourier Neural Operator in fixed-future task, with comparable performance on the autoregressive rollout, and superresolution tasks for the 1D Heat, Burgers', and linear advection equations.
翻訳日:2024-02-13 20:45:48 公開日:2024-02-12
# LM潜在空間のセマンティックス--語彙定義によるアプローチ

On the Semantics of LM Latent Space: A Vocabulary-defined Approach ( http://arxiv.org/abs/2401.16184v3 )

ライセンス: Link先を確認
Jian Gu, Chunyang Chen, Aldeida Aleti(参考訳) 言語モデル(lm)の潜在空間を理解することは、その性能と解釈可能性を高めるために不可欠である。 既存の分析は、LMセマンティクスに不整合(モデル中心)な洞察を与え、LM適応の本質的な側面を無視している。 この手法は,LMの潜在空間内で参照フレームを確立し,LMの語彙を基盤とした非絡み合った意味解析を確実にする。 我々のアプローチは、モデル中心の洞察にLM語彙を活用する、事前の絡み合った分析を超越する。 さらに,微分性と局所等方性を重視したロジット計算手法を提案し,lm適応時のデータ表現を意味的に校正するニューラルネットワークモジュールを提案する。 多様なテキスト理解データセットにわたる広範な実験を通じて,本手法は検索強化生成とパラメータ効率の微調整の最先端手法より優れ,その有効性と適用性を示している。 本研究は, LM力学に光を当てるだけでなく, LM性能と解釈可能性を高めるための実用的ソリューションも提供する。

Understanding the latent space of language models (LM) is crucial to refining their performance and interpretability. Existing analyses often fall short in providing disentangled (model-centric) insights into LM semantics, and neglect essential aspects of LM adaption. In response, we introduce a pioneering method called vocabulary-defined semantics, which establishes a reference frame within the LM latent space, ensuring disentangled semantic analysis grounded in LM vocabulary. Our approach transcends prior entangled analysis, leveraging LM vocabulary for model-centric insights. Furthermore, we propose a novel technique to compute logits, emphasising differentiability and local isotropy, and introduce a neural clustering module for semantically calibrating data representations during LM adaptation. Through extensive experiments across diverse text understanding datasets, our approach outperforms state-of-the-art methods of retrieval-augmented generation and parameter-efficient finetuning, showcasing its efficacy and broad applicability. Our findings not only shed light on LM mechanics, but also offer practical solutions to enhance LM performance and interpretability.
翻訳日:2024-02-13 20:45:27 公開日:2024-02-12
# sernet-former:アテンションブースティングゲートとアテンションフュージョンネットワークを用いた効率的な残差ネットワークによる意味セグメンテーション

SERNet-Former: Semantic Segmentation by Efficient Residual Network with Attention-Boosting Gates and Attention-Fusion Networks ( http://arxiv.org/abs/2401.15741v2 )

ライセンス: Link先を確認
Serdar Erisen(参考訳) セマンティクスセグメンテーションにおける最先端手法の効率を向上させるには、増大する計算コストと、グローバルおよびローカルコンテキストからのセマンティクス情報を融合するといった課題を克服する必要がある。 セマンティックセグメンテーションにおいて畳み込みニューラルネットワーク(CNN)が遭遇する最近の成功と問題に基づいて,一意に効率的な残余ネットワークを持つエンコーダデコーダアーキテクチャを提案する。 注意喚起ゲート(AbG)と注意喚起モジュール(AbM)は、特徴に基づく意味情報をエンコーダ内の効率的な残留ネットワークのグローバルコンテキストと融合させることを目的として展開される。 このデコーダネットワークは、AbMにインスパイアされた追加の注意融合ネットワーク(AfN)で開発されている。 AfNは、デコーダ部に追加の畳み込み層を配置することにより、意味情報の1対1変換の効率を向上させるように設計されている。 我々のネットワークは、挑戦的なCamVidとCityscapesデータセットでテストされており、提案手法は、ResNet-50のような既存のベースラインに大幅に改善されている。 我々の知る限り、開発ネットワークであるSERNet-FormerはCamVidデータセット上で最先端の結果(84.62 %はIoU)を達成し、Cityscapesバリデーションデータセットでは挑戦的な結果(87.35 %はIoU)を達成している。

Improving the efficiency of state-of-the-art methods in semantic segmentation requires overcoming the increasing computational cost as well as issues such as fusing semantic information from global and local contexts. Based on the recent success and problems that convolutional neural networks (CNNs) encounter in semantic segmentation, this research proposes an encoder-decoder architecture with a unique efficient residual network. Attention-boosting gates (AbGs) and attention-boosting modules (AbMs) are deployed by aiming to fuse the feature-based semantic information with the global context of the efficient residual network in the encoder. Respectively, the decoder network is developed with the additional attention-fusion networks (AfNs) inspired by AbM. AfNs are designed to improve the efficiency in the one-to-one conversion of the semantic information by deploying additional convolution layers in the decoder part. Our network is tested on the challenging CamVid and Cityscapes datasets, and the proposed methods reveal significant improvements on the existing baselines, such as ResNet-50. To the best of our knowledge, the developed network, SERNet-Former, achieves state-of-the-art results (84.62 % mean IoU) on CamVid dataset and challenging results (87.35 % mean IoU) on Cityscapes validation dataset.
翻訳日:2024-02-13 20:44:48 公開日:2024-02-12
# 科学研究における生成AIの5つの倫理的原則

Five ethical principles for generative AI in scientific research ( http://arxiv.org/abs/2401.15284v2 )

ライセンス: Link先を確認
Zhicheng Lin(参考訳) 大きな言語モデルのような生成的人工知能ツールは、学術研究や現実世界の応用を急速に変えつつある。 しかし、科学における生成AIの倫理的ガイドラインに関する議論は断片的であり、コンセンサスに基づく標準の緊急の必要性が強調されている。 本論文は,真偽と偏見に関するモデル制約の理解,プライバシ,機密性,著作権の尊重,モデル出力を取り入れた際の盗作行為やポリシー違反の回避,アプリケーション全体のメリットの確保,透過的かつ再現的なAIの使用,5つの主要なテーマにわたる分析と緩和戦略の展開を通じて,最初のフレームワークを提供する。 一般的なシナリオは、潜在的な倫理的違反を示すために概説されている。 グローバルコンセンサスとプロのトレーニングと合理的な実施が、研究の整合性を守りながらaiのメリットを促進する上で重要である、と論じている。

Generative artificial intelligence tools like large language models are rapidly transforming academic research and real world applications. However, discussions on ethical guidelines for generative AI in science remain fragmented, underscoring the urgent need for consensus based standards. This paper offers an initial framework by developing analyses and mitigation strategies across five key themes: understanding model limitations regarding truthfulness and bias; respecting privacy, confidentiality, and copyright; avoiding plagiarism and policy violations when incorporating model output; ensuring applications provide overall benefit; and using AI transparently and reproducibly. Common scenarios are outlined to demonstrate potential ethical violations. We argue that global consensus coupled with professional training and reasonable enforcement are critical to promoting the benefits of AI while safeguarding research integrity.
翻訳日:2024-02-13 20:44:14 公開日:2024-02-12
# PROXYQA:大規模言語モデルを用いた長文生成のための代替フレームワーク

PROXYQA: An Alternative Framework for Evaluating Long-Form Text Generation with Large Language Models ( http://arxiv.org/abs/2401.15042v2 )

ライセンス: Link先を確認
Haochen Tan, Zhijiang Guo, Zhan Shi, Lu Xu, Zhili Liu, Yunlong Feng, Xiaoguang Li, Yasheng Wang, Lifeng Shang, Qun Liu, Linqi Song(参考訳) 大規模言語モデル(LLM)は、長期的文脈理解タスクにおいて顕著な成功を収めた。 しかし、レポートや記事などの長い内容を生成する能力は依然として不十分である。 現在のベンチマークでは、情報的かつ包括的コンテンツを生成するLLMの能力は十分に評価されておらず、より厳密な評価アプローチが必要である。 そこで本研究では,様々な領域にまたがる詳細な人文計算を行う長文テキスト生成フレームワークである \textsc{ProxyQA} について紹介する。 各メタクエストは、注釈付き回答を持つ対応する \textit{proxy-questions} を含む。 LLMはこれらのメタクエストに応答して広範なコンテンツを生成するよう促される。 評価器を利用し、生成したコンテンツを背景コンテキストとして組み込むことにより、評価器のパフォーマンスに基づいて生成されたコンテンツの品質を評価する。 高品質評価ツールとして,複数のllmを調べ, \textsc{proxyqa} の要求性を強調した。 人的評価は, <textit{proxy-questions} による評価が, 自己整合性が高く, 人的基準に関連のある検証方法であることを示す。 データセットとリーダーボードは \url{https://github.com/Namco0816/ProxyQA} で入手できる。

Large Language Models (LLMs) have exhibited remarkable success in long-form context comprehension tasks. However, their capacity to generate long contents, such as reports and articles, remains insufficiently explored. Current benchmarks do not adequately assess LLMs' ability to produce informative and comprehensive content, necessitating a more rigorous evaluation approach. In this study, we introduce \textsc{ProxyQA}, a framework for evaluating long-form text generation, comprising in-depth human-curated \textit{meta-questions} spanning various domains. Each meta-question contains corresponding \textit{proxy-questions} with annotated answers. LLMs are prompted to generate extensive content in response to these meta-questions. Utilizing an evaluator and incorporating generated content as background context, \textsc{ProxyQA} evaluates the quality of generated content based on the evaluator's performance in answering the \textit{proxy-questions}. We examine multiple LLMs, emphasizing \textsc{ProxyQA}'s demanding nature as a high-quality assessment tool. Human evaluation demonstrates that evaluating through \textit{proxy-questions} is a highly self-consistent and human-criteria-correlated validation method. The dataset and leaderboard will be available at \url{https://github.com/Namco0816/ProxyQA}.
翻訳日:2024-02-13 20:43:57 公開日:2024-02-12
# コンテキスト対応ペルソナリファインメントによる長期会話におけるコモンセンス強化メモリ構築と管理

Commonsense-augmented Memory Construction and Management in Long-term Conversations via Context-aware Persona Refinement ( http://arxiv.org/abs/2401.14215v3 )

ライセンス: Link先を確認
Hana Kim, Kai Tzu-iunn Ong, Seoyeon Kim, Dongha Lee, Jinyoung Yeo(参考訳) 話者のペルソナの記憶と活用は、長期的な会話における応答生成の一般的なプラクティスである。 しかし、人間によるデータセットは多くの場合、応答品質を阻害する非形成的なパーソナライズ文を提供する。 本稿では,コモンセンスに基づくペルソナ拡張を利用して,このような課題を長期会話で解決する新しい枠組みを提案する。 先行研究は、他と矛盾するペルソナを作らないことに焦点を当てる一方で、コンテクストの背景を設計戦略で洗練することにより、矛盾するペルソナをリッチな話者情報を含む文に変換することに重点を置いている。 マルチセッション環境におけるペルソナ拡張の先駆者として,本フレームワークは人間のようなペルソナ改良による応答生成を促進する。 私たちの研究の補足ビデオはhttps://caffeine-15bbf.web.app/で閲覧できます。

Memorizing and utilizing speakers' personas is a common practice for response generation in long-term conversations. Yet, human-authored datasets often provide uninformative persona sentences that hinder response quality. This paper presents a novel framework that leverages commonsense-based persona expansion to address such issues in long-term conversation. While prior work focuses on not producing personas that contradict others, we focus on transforming contradictory personas into sentences that contain rich speaker information, by refining them based on their contextual backgrounds with designed strategies. As the pioneer of persona expansion in multi-session settings, our framework facilitates better response generation via human-like persona refinement. The supplementary video of our work is available at https://caffeine-15bbf.web.app/.
翻訳日:2024-02-13 20:43:07 公開日:2024-02-12
# EndoGS : Gaussian Splatting を用いた変形性内視鏡組織再建術

EndoGS: Deformable Endoscopic Tissues Reconstruction with Gaussian Splatting ( http://arxiv.org/abs/2401.11535v2 )

ライセンス: Link先を確認
Lingting Zhu, Zhao Wang, Jiahao Cui, Zhenchao Jin, Guying Lin, Lequan Yu(参考訳) 外科的3次元再構成はロボット手術における重要な研究分野であり,最近の研究では動的放射能場の変種を採用し,単視点映像からの変形性組織の3次元再構成に成功している。 しかし、これらの手法は時間を要する最適化や品質の低下に苦しめられ、下流タスクへの採用が制限されることが多い。 最近流行している3D表現である3D Gaussian Splatting にインスパイアされ, 変形性内視鏡組織再建に Gaussian Splatting を適用した。 具体的には, 変形場を組み込んだ動的シーン処理, 空間的重みマスクを用いた奥行き案内の監督, ツールオクルージョンによる3dターゲットの最適化, 表面アライメントによる正則化手法により, より優れた形状を捉える。 結果として、EndoGSは単一視点ビデオ、推定深度マップ、ラベル付きツールマスクから高品質な変形可能な内視鏡組織を再構成しレンダリングする。 DaVinciのロボット手術ビデオの実験では、EndoGSは優れたレンダリング品質を実現している。 コードはhttps://github.com/HKU-MedAI/EndoGSで入手できる。

Surgical 3D reconstruction is a critical area of research in robotic surgery, with recent works adopting variants of dynamic radiance fields to achieve success in 3D reconstruction of deformable tissues from single-viewpoint videos. However, these methods often suffer from time-consuming optimization or inferior quality, limiting their adoption in downstream tasks. Inspired by 3D Gaussian Splatting, a recent trending 3D representation, we present EndoGS, applying Gaussian Splatting for deformable endoscopic tissue reconstruction. Specifically, our approach incorporates deformation fields to handle dynamic scenes, depth-guided supervision with spatial-temporal weight masks to optimize 3D targets with tool occlusion from a single viewpoint, and surface-aligned regularization terms to capture the much better geometry. As a result, EndoGS reconstructs and renders high-quality deformable endoscopic tissues from a single-viewpoint video, estimated depth maps, and labeled tool masks. Experiments on DaVinci robotic surgery videos demonstrate that EndoGS achieves superior rendering quality. Code is available at https://github.com/HKU-MedAI/EndoGS.
翻訳日:2024-02-13 20:41:57 公開日:2024-02-12
# twisted unitary $t$-groups による自由量子符号

Free Quantum Codes from Twisted Unitary $t$-groups ( http://arxiv.org/abs/2402.01638v2 )

ライセンス: Link先を確認
Eric Kubischta, Ian Teixeira(参考訳) ツイスト付きユニタリ$t$-群は、既約表現によるツイスト化の下でのユニタリ$t$-群の一般化である。 次に、Knill-Laflamme誤差補正条件に表現論的手法を適用し、ねじれたユニタリ$t$-群が距離$d=t+1$の量子符号に自動的に対応することを示す。 これらのコードには多くのトランスバーサルゲートがあり、それらは本質的にフォールトトレラントである。

We introduce twisted unitary $t$-groups, a generalization of unitary $t$-groups under a twisting by an irreducible representation. We then apply representation theoretic methods to the Knill-Laflamme error correction conditions to show that twisted unitary $t$-groups automatically correspond to quantum codes with distance $d=t+1$. By construction these codes have many transversal gates, which are naturally fault tolerant.
翻訳日:2024-02-13 20:33:22 公開日:2024-02-12
# Skip \n:大規模視覚言語モデルにおける幻覚の簡易化手法

Skip \n: A Simple Method to Reduce Hallucination in Large Vision-Language Models ( http://arxiv.org/abs/2402.01345v4 )

ライセンス: Link先を確認
Zongbo Han, Zechen Bai, Haiyang Mei, Qianli Xu, Changqing Zhang, Mike Zheng Shou(参考訳) 大規模視覚言語モデル(LVLM)の最近の進歩は、人間の言語による視覚情報理解における印象的な能力を示している。 これらの進歩にもかかわらず、LVLMは視覚情報に存在しないオブジェクトのテキスト記述を生成するなど、マルチモーダル幻覚の課題に直面している。 しかし、マルチモーダル幻覚の根本原因はいまだに解明されていない。 本稿では,LVLMの固有バイアスが幻覚の重要な要因である可能性を示唆する新しい視点を提案する。 具体的には,学習データ中の「\n\n」の前後の内容が有意な意味変化を示す場合,段落に関する意味変化バイアスを系統的に同定する。 このパターンは、「\n\n」に続く内容が幻覚的記述の少ない先行内容と明らかに異なることを推測し、「\n\n」に続く幻覚的記述の確率を増大させる。 我々は,この仮説を複数の公開LVLM上で検証した。 また、生成した記述に「\n\n」を意図的に挿入すると、より幻覚が引き起こされる。 そこで,LVLMの幻覚を効果的に緩和するために,'\n'の出力をスキップすることで簡単な手法を提案する。

Recent advancements in large vision-language models (LVLMs) have demonstrated impressive capability in visual information understanding with human language. Despite these advances, LVLMs still face challenges with multimodal hallucination, such as generating text descriptions of objects that are not present in the visual information. However, the underlying fundamental reasons of multimodal hallucinations remain poorly explored. In this paper, we propose a new perspective, suggesting that the inherent biases in LVLMs might be a key factor in hallucinations. Specifically, we systematically identify a semantic shift bias related to paragraph breaks (\n\n), where the content before and after '\n\n' in the training data frequently exhibit significant semantic changes. This pattern leads the model to infer that the contents following '\n\n' should be obviously different from the preceding contents with less hallucinatory descriptions, thereby increasing the probability of hallucinatory descriptions subsequent to the '\n\n'. We have validated this hypothesis on multiple publicly available LVLMs. Besides, we find that deliberately inserting '\n\n' at the generated description can induce more hallucinations. A simple method is proposed to effectively mitigate the hallucination of LVLMs by skipping the output of '\n'.
翻訳日:2024-02-13 20:32:45 公開日:2024-02-12
# フェデレート・アンラーニング:安定性と公正性の観点から

Federated Unlearning: a Perspective of Stability and Fairness ( http://arxiv.org/abs/2402.01276v3 )

ライセンス: Link先を確認
Jiaqi Shao, Tao Lin, Xuanyu Cao, Bing Luo(参考訳) 本稿では,フェデレートアンラーニング(FU)とデータ不均一性の多面的結果について検討する。 我々は,FU評価の重要な指標を紹介し,検証,グローバル安定性,局所公正性に着目し,固有のトレードオフについて検討する。 さらに,最適化フレームワークを用いて,データ不均質性を用いた学習プロセスを定式化する。 我々の重要な貢献は、FUにおけるトレードオフに関する包括的な理論的分析であり、FUに対するデータ不均一性の影響に関する洞察を提供する。 これらの知見を生かして,これらのトレードオフを管理するためのFU機構を提案する。 我々は、我々のFUメカニズムがトレードオフを効果的にバランスし、理論解析から得られた洞察を実証する。

This paper explores the multifaceted consequences of federated unlearning (FU) with data heterogeneity. We introduce key metrics for FU assessment, concentrating on verification, global stability, and local fairness, and investigate the inherent trade-offs. Furthermore, we formulate the unlearning process with data heterogeneity through an optimization framework. Our key contribution lies in a comprehensive theoretical analysis of the trade-offs in FU and provides insights into data heterogeneity's impacts on FU. Leveraging these insights, we propose FU mechanisms to manage the trade-offs, guiding further development for FU mechanisms. We empirically validate that our FU mechanisms effectively balance trade-offs, confirming insights derived from our theoretical analysis.
翻訳日:2024-02-13 20:32:23 公開日:2024-02-12
# health-llm:パーソナライズされた検索型疾病予測モデル

Health-LLM: Personalized Retrieval-Augmented Disease Prediction Model ( http://arxiv.org/abs/2402.00746v3 )

ライセンス: Link先を確認
Mingyu Jin, Qinkai Yu, Chong Zhang, Dong Shu, Suiyuan Zhu, Mengnan Du, Yongfeng Zhang, Yanda Meng(参考訳) 医療における人工知能(AI)は、非常に高度なインテリジェント医療治療を持っている。 しかし、従来のインテリジェントヘルスケアは、静的データと統一された標準によって制限されており、個々の状況や他の課題との完全な統合を妨げている。 したがって、開発にはより専門的で詳細なインテリジェントヘルスケア手法が必要である。 そこで我々は,大規模特徴抽出と医療知識トレードオフスコアリングを組み合わせたHeath-LLMという革新的なフレームワークを提案する。 従来の健康管理手法と比較して,本手法には3つの利点がある。 まず,健康報告を大規模モデルに統合し,詳細なタスク情報を提供する。 第2に、専門的な医療専門知識は、健康特性の重み付けスコアを調整するために使用される。 第3に,半自動特徴抽出フレームワークを用いて言語モデルの分析能力を高め,専門家の洞察を取り入れ,疾患予測の精度を向上させる。 本研究は,Health-LLMの有効性を評価するために,多数の健康報告で疾患予測実験を行った。 実験の結果,提案手法は従来の方法を超え,疾患予測とパーソナライズされた健康管理に革命をもたらす可能性が示唆された。 コードはhttps://github.com/jmyissb/HealthLLMで入手できる。

Artificial intelligence (AI) in healthcare has significantly advanced intelligent medical treatment. However, traditional intelligent healthcare is limited by static data and unified standards, preventing full integration with individual situations and other challenges. Hence, a more professional and detailed intelligent healthcare method is needed for development. To this end, we propose an innovative framework named Heath-LLM, which combines large-scale feature extraction and medical knowledge trade-off scoring. Compared to traditional health management methods, our approach has three main advantages. First, our method integrates health reports into a large model to provide detailed task information. Second, professional medical expertise is used to adjust the weighted scores of health characteristics. Third, we use a semi-automated feature extraction framework to enhance the analytical power of language models and incorporate expert insights to improve the accuracy of disease prediction. We have conducted disease prediction experiments on a large number of health reports to assess the effectiveness of Health-LLM. The results of the experiments indicate that the proposed method surpasses traditional methods and has the potential to revolutionize disease prediction and personalized health management. The code is available at https://github.com/jmyissb/HealthLLM.
翻訳日:2024-02-13 20:32:12 公開日:2024-02-12
# 貨物モード選択モデルの精度向上:2017 CFS PUFデータセットとアンサンブル学習技術を用いた事例研究

Improving the accuracy of freight mode choice models: A case study using the 2017 CFS PUF data set and ensemble learning techniques ( http://arxiv.org/abs/2402.00654v2 )

ライセンス: Link先を確認
Diyi Liu, Hyeonsup Lim, Majbah Uddin, Yuandong Liu, Lee D. Han, Ho-ling Hwang, Shih-Miao Chin(参考訳) 米国国勢調査局は、2012年(公用マイクロデータ)と2017年(公用ファイル)に発行された全国的な商品運動の出荷レベルの特性を提供する、コモディティフロー調査から2つの実験データを収集した。 この情報によって,貨物物流の詳細なパターンを理解する上で,データ駆動型手法の価値がますます高まっている。 In this study, we used the 2017 Commodity Flow Survey Public Use File data set to explore building a high-performance freight mode choice model, considering three main improvements: (1) constructing local models for each separate commodity/industry category; (2) extracting useful geographical features, particularly the derived distance of each freight mode between origin/destination zones; and (3) applying additional ensemble learning methods such as stacking or voting to combine results from local and unified models for improved performance. 提案手法は外部情報を組み込まずに92%以上の精度を達成し、ランダムフォレストモデルに1万以上のサンプルを適用した場合に比べて19%以上向上した。 さらに、SHAP(Shapely Additive Explanations)値を計算して、提案モデルから得られた出力と主要なパターンを説明した。 モデルフレームワークは既存の貨物モード選択モデルの性能と解釈可能性を高めることができる。

The US Census Bureau has collected two rounds of experimental data from the Commodity Flow Survey, providing shipment-level characteristics of nationwide commodity movements, published in 2012 (i.e., Public Use Microdata) and in 2017 (i.e., Public Use File). With this information, data-driven methods have become increasingly valuable for understanding detailed patterns in freight logistics. In this study, we used the 2017 Commodity Flow Survey Public Use File data set to explore building a high-performance freight mode choice model, considering three main improvements: (1) constructing local models for each separate commodity/industry category; (2) extracting useful geographical features, particularly the derived distance of each freight mode between origin/destination zones; and (3) applying additional ensemble learning methods such as stacking or voting to combine results from local and unified models for improved performance. The proposed method achieved over 92% accuracy without incorporating external information, an over 19% increase compared to directly fitting Random Forests models over 10,000 samples. Furthermore, SHAP (Shapely Additive Explanations) values were computed to explain the outputs and major patterns obtained from the proposed model. The model framework could enhance the performance and interpretability of existing freight mode choice models.
翻訳日:2024-02-13 20:31:52 公開日:2024-02-12
# 最適輸送と粒子勾配降下を利用したプライバシー保護データリリース

Privacy-preserving data release leveraging optimal transport and particle gradient descent ( http://arxiv.org/abs/2401.17823v2 )

ライセンス: Link先を確認
Konstantin Donhauser and Javier Abad and Neha Hulkund and Fanny Yang(参考訳) 本稿では,医療や行政などの高度に敏感な領域において,保護された表層データセットの差分データ合成を行う新しい手法を提案する。 現在の最先端の手法は主に境界ベースのアプローチを使用しており、データセットは辺縁のプライベートな推定から生成される。 本稿では, 最適移動と粒子勾配降下のツールを活用した, 辺縁系プライベートデータ合成の新しい生成法であるprivpgdを提案する。 我々のアルゴリズムは、非常にスケーラブルで、追加のドメイン固有の制約を組み込む柔軟性を提供しながら、幅広いデータセット上の既存のメソッドよりも優れています。

We present a novel approach for differentially private data synthesis of protected tabular datasets, a relevant task in highly sensitive domains such as healthcare and government. Current state-of-the-art methods predominantly use marginal-based approaches, where a dataset is generated from private estimates of the marginals. In this paper, we introduce PrivPGD, a new generation method for marginal-based private data synthesis, leveraging tools from optimal transport and particle gradient descent. Our algorithm outperforms existing methods on a large range of datasets while being highly scalable and offering the flexibility to incorporate additional domain-specific constraints.
翻訳日:2024-02-13 20:30:38 公開日:2024-02-12
# 散逸系における絡み合った多重、非対称性、量子mpemba効果

Entangled multiplets, asymmetry, and quantum Mpemba effect in dissipative systems ( http://arxiv.org/abs/2402.02918v2 )

ライセンス: Link先を確認
Fabio Caceffo, Sara Murciano, Vincenzo Alba(参考訳) 近年、エンタングルメント非対称性は、量子クエンチ後の平衡外量子多体系の動的対称性回復を理解するための情報ツールとして登場した。 可積分系に対して、非対称性は、Refで指摘された準粒子図形を通して時空のスケーリング限界で理解することができる。 [1]. しかし、一般的な初期状態からの量子クエンチの準粒子像はいまだに欠けていた。 ここでは,非対称性を構成する主成分である還元密度行列の荷電モーメントに対する正準粒子像を推定する。 我々の公式は、任意の数の励起の絡み合った多重項を生成するクエンチに対して機能する。 結果のベンチマークを$XX$のスピンチェーンで行います。 まず、多次元定常位相近似に基づく初等的アプローチを用いて、[2] で処理されたクエンチに対する荷電モーメントのダイナミクスを厳密に導出する$\textit{ab initio}$ を提供する。 次に, 準粒子画像中では, 同じ結果が容易に得られることを示す。 解析の副産物として、長い時間で消滅する絡み合う非対称性を保証する一般的な基準を得る。 次に、リンドブラッドマスター方程式を用いて、エンタングルメント非対称性に対する利得と損失散逸の影響を研究する。 具体的には、放散の存在下でのいわゆる量子Mpemba効果(QME)の運命について検討する。 単位動力学が示さない場合でも散逸はQMEを誘導できることを示すとともに,QMEの条件を準粒子ベースで解釈する。

Recently, the entanglement asymmetry emerged as an informative tool to understand dynamical symmetry restoration in out-of-equilibrium quantum many-body systems after a quantum quench. For integrable systems the asymmetry can be understood in the space-time scaling limit via the quasiparticle picture, as it was pointed out in Ref. [1]. However, a quasiparticle picture for quantum quenches from generic initial states was still lacking. Here we conjecture a full-fledged quasiparticle picture for the charged moments of the reduced density matrix, which are the main ingredients to construct the asymmetry. Our formula works for quenches producing entangled multiplets of an arbitrary number of excitations. We benchmark our results in the $XX$ spin chain. First, by using an elementary approach based on the multidimensional stationary phase approximation we provide an $\textit{ab initio}$ rigorous derivation of the dynamics of the charged moments for the quench treated in [2]. Then, we show that the same results can be straightforwardly obtained within our quasiparticle picture. As a byproduct of our analysis, we obtain a general criterion ensuring a vanishing entanglement asymmetry at long times. Next, by using the Lindblad master equation, we study the effect of gain and loss dissipation on the entanglement asymmetry. Specifically, we investigate the fate of the so-called quantum Mpemba effect (QME) in the presence of dissipation. We show that dissipation can induce QME even if unitary dynamics does not show it, and we provide a quasiparticle-based interpretation of the condition for the QME.
翻訳日:2024-02-13 20:19:25 公開日:2024-02-12
# 言語モデルに対するデータ汚染検出の実施は(あまりにも)容易である

Evading Data Contamination Detection for Language Models is (too) Easy ( http://arxiv.org/abs/2402.02823v2 )

ライセンス: Link先を確認
Jasper Dekoninck, Mark Niklas M\"uller, Maximilian Baader, Marc Fischer, Martin Vechev(参考訳) 大規模な言語モデルは広く普及しており、ベンチマークのパフォーマンスは、あるモデルに対して別のモデルよりもユーザの好みを導くことが多い。 しかしながら、これらのモデルでトレーニングされる膨大なデータが、不注意に公開ベンチマークの汚染につながり、パフォーマンス測定を損なう可能性がある。 近年, 汚染検出手法が開発されているが, 検出を回避しようとする悪意のあるモデル提供者による意図的な汚染の可能性を見落としている。 この設定は、公開ベンチマークの信頼性に疑念を抱くため、非常に重要であると我々は主張する。 この問題をより厳密に研究するために,モデルプロバイダと汚染検出方法の両方の分類を提案する。 これは、現在の検出方法を完全に回避しながらベンチマーク性能を大幅に膨らませる、単純で効果的な汚染技術であるealで活用している既存の方法の脆弱性を明らかにします。

Large language models are widespread, with their performance on benchmarks frequently guiding user preferences for one model over another. However, the vast amount of data these models are trained on can inadvertently lead to contamination with public benchmarks, thus compromising performance measurements. While recently developed contamination detection methods try to address this issue, they overlook the possibility of deliberate contamination by malicious model providers aiming to evade detection. We argue that this setting is of crucial importance as it casts doubt on the reliability of public benchmarks. To more rigorously study this issue, we propose a categorization of both model providers and contamination detection methods. This reveals vulnerabilities in existing methods that we exploit with EAL, a simple yet effective contamination technique that significantly inflates benchmark performance while completely evading current detection methods.
翻訳日:2024-02-13 20:19:02 公開日:2024-02-12
# 医療におけるマルチモーダル機械学習アプローチの見直し

Review of multimodal machine learning approaches in healthcare ( http://arxiv.org/abs/2402.02460v2 )

ライセンス: Link先を確認
Felix Krones, Umar Marikkar, Guy Parsons, Adam Szmul, Adam Mahdi(参考訳) 医療における機械学習の手法は、伝統的に単一のモダリティからのデータを使用することに重点を置いており、意思決定を改善するために複数の情報源を統合する臨床実践を効果的に再現する能力を制限する。 臨床医は通常、患者の人口統計情報、検査データ、バイタルサイン、様々な画像データモダリティを含む様々なデータソースを使用して、インフォームドな意思決定を行い、彼らの発見を文脈づける。 機械学習の最近の進歩により、マルチモーダルデータのより効率的な導入が促進され、臨床医のアプローチをより良く表現できるアプリケーションが生まれた。 本稿では,医療におけるマルチモーダル機械学習のアプローチを概観し,最近の文献を概観する。 臨床診断に使用される様々なデータ形態について,特に画像データに着目して検討する。 融合技術を評価し、既存のマルチモーダルデータセットを探索し、一般的なトレーニング戦略を検討する。

Machine learning methods in healthcare have traditionally focused on using data from a single modality, limiting their ability to effectively replicate the clinical practice of integrating multiple sources of information for improved decision making. Clinicians typically rely on a variety of data sources including patients' demographic information, laboratory data, vital signs and various imaging data modalities to make informed decisions and contextualise their findings. Recent advances in machine learning have facilitated the more efficient incorporation of multimodal data, resulting in applications that better represent the clinician's approach. Here, we provide a review of multimodal machine learning approaches in healthcare, offering a comprehensive overview of recent literature. We discuss the various data modalities used in clinical diagnosis, with a particular emphasis on imaging data. We evaluate fusion techniques, explore existing multimodal datasets and examine common training strategies.
翻訳日:2024-02-13 20:18:47 公開日:2024-02-12
# metaoptimize: ステップサイズや他のメタパラメータを最適化するフレームワーク

MetaOptimize: A Framework for Optimizing Step Sizes and Other Meta-parameters ( http://arxiv.org/abs/2402.02342v2 )

ライセンス: Link先を確認
Arsalan Sharifnassab, Saber Salehkaleybar, Richard Sutton(参考訳) 本稿では,機械学習アルゴリズムにおけるメタパラメータ(ハイパーパラメータ)の最適化という課題に対処する。 計算コストのかかる従来のメタパラメータ探索手法から離れ、トレーニング中にメタパラメータ、特にステップサイズ(学習率)を動的に調整するメタ最適化フレームワークを導入する。 より具体的には、metaoptimizeは任意の一階最適化アルゴリズムをラップし、ステップサイズをオンザフライで調整することで、トレーニングにおけるステップサイズによる長期的な影響を考慮した、特定の後悔を最小限に抑えることができる。 また,MetaOptimizeの低複雑性な変種を導入し,複数の最適化アルゴリズムへの適応性とともに,さまざまな機械学習アプリケーションにまたがる手作り学習率の最高のスケジュールに匹敵する性能を示す。

This paper addresses the challenge of optimizing meta-parameters (i.e., hyperparameters) in machine learning algorithms, a critical factor influencing training efficiency and model performance. Moving away from the computationally expensive traditional meta-parameter search methods, we introduce MetaOptimize framework that dynamically adjusts meta-parameters, particularly step sizes (also known as learning rates), during training. More specifically, MetaOptimize can wrap around any first-order optimization algorithm, tuning step sizes on the fly to minimize a specific form of regret that accounts for long-term effect of step sizes on training, through a discounted sum of future losses. We also introduce low complexity variants of MetaOptimize that, in conjunction with its adaptability to multiple optimization algorithms, demonstrate performance competitive to those of best hand-crafted learning rate schedules across various machine learning applications.
翻訳日:2024-02-13 20:18:33 公開日:2024-02-12
# InViT: 不変Nested View Transformerを用いた一般化可能なルーティング問題の解法

INViT: A Generalizable Routing Problem Solver with Invariant Nested View Transformer ( http://arxiv.org/abs/2402.02317v2 )

ライセンス: Link先を確認
Han Fang, Zhihao Song, Paul Weng, Yutong Ban(参考訳) 近年,ルーティング問題を解くための高速ヒューリスティックスを学習する上で,深い強化学習が有望な成果を上げている。 一方、ほとんどの解法は、異なるスケールの未知の分布や分布への一般化に苦しむ。 この問題に対処するため,我々は,ネストした設計をエンコーダ内の不変ビューとともに強制し,学習した解法の一般化性を促進するinvariant nested view transformer (invit)と呼ばれる新しいアーキテクチャを提案する。 データ拡張によって強化されたポリシー勾配アルゴリズムを適用する。 提案したINViTは、様々な分布と異なる問題スケールを持つTSPおよびCVRP問題において、支配的な一般化性能を実現する。

Recently, deep reinforcement learning has shown promising results for learning fast heuristics to solve routing problems. Meanwhile, most of the solvers suffer from generalizing to an unseen distribution or distributions with different scales. To address this issue, we propose a novel architecture, called Invariant Nested View Transformer (INViT), which is designed to enforce a nested design together with invariant views inside the encoders to promote the generalizability of the learned solver. It applies a modified policy gradient algorithm enhanced with data augmentations. We demonstrate that the proposed INViT achieves a dominant generalization performance on both TSP and CVRP problems with various distributions and different problem scales.
翻訳日:2024-02-13 20:18:14 公開日:2024-02-12
# 生成AIドメインにおけるDCTトレースの爆発について

On the Exploitation of DCT-Traces in the Generative-AI Domain ( http://arxiv.org/abs/2402.02209v2 )

ライセンス: Link先を確認
Orazio Pontorno (1), Luca Guarnera (1), Sebastiano Battiato (1) ((1) University of Catania)(参考訳) ディープフェイクは、サイバーセキュリティとデジタル法医学の世界でもっとも困難な課題の1つであり、特に最近の生成型aiベースのソリューションで得られた高品質な結果を考慮している。 ほとんど全ての生成モデルは合成データにユニークな痕跡を残しており、分析され詳細が特定できれば、既存のディープフェイク検出器の一般化限界を改善するために利用することができる。 本稿では,GANおよび拡散モデルエンジンが生成する周波数領域の深度画像を分析し,離散コサイン変換(DCT)係数の基礎的統計分布を詳細に検討した。 すべての係数が画像検出に等しく寄与するわけではないことを認識し、特定の係数の組み合わせに埋め込まれたユニークな「識別指紋」の存在を仮定する。 それらを特定するために、機械学習分類器は様々な係数の組み合わせで訓練された。 さらに、説明可能なAI (XAI) LIMEアルゴリズムを用いて、固有な係数の識別的組み合わせを探索した。 最後に、JPEG圧縮を適用してトレースの持続性を分析する頑健性試験を行った。 実験結果は、JPEG攻撃においてより差別的で永続的な生成モデルが残した痕跡の存在を明らかにした。

Deepfakes represent one of the toughest challenges in the world of Cybersecurity and Digital Forensics, especially considering the high-quality results obtained with recent generative AI-based solutions. Almost all generative models leave unique traces in synthetic data that, if analyzed and identified in detail, can be exploited to improve the generalization limitations of existing deepfake detectors. In this paper we analyzed deepfake images in the frequency domain generated by both GAN and Diffusion Model engines, examining in detail the underlying statistical distribution of Discrete Cosine Transform (DCT) coefficients. Recognizing that not all coefficients contribute equally to image detection, we hypothesize the existence of a unique "discriminative fingerprint", embedded in specific combinations of coefficients. To identify them, Machine Learning classifiers were trained on various combinations of coefficients. In addition, the Explainable AI (XAI) LIME algorithm was used to search for intrinsic discriminative combinations of coefficients. Finally, we performed a robustness test to analyze the persistence of traces by applying JPEG compression. The experimental results reveal the existence of traces left by the generative models that are more discriminative and persistent at JPEG attacks.
翻訳日:2024-02-13 20:18:02 公開日:2024-02-12
# Premier-TACO : 時間的行動駆動型コントラスト損失によるマルチタスク表現の事前学習

Premier-TACO is a Few-Shot Policy Learner: Pretraining Multitask Representation via Temporal Action-Driven Contrastive Loss ( http://arxiv.org/abs/2402.06187v2 )

ライセンス: Link先を確認
Ruijie Zheng, Yongyuan Liang, Xiyao Wang, Shuang Ma, Hal Daum\'e III, Huazhe Xu, John Langford, Praveen Palanisamy, Kalyan Shankar Basu, Furong Huang(参考訳) 逐次意思決定タスクにおける数ショットポリシー学習効率の向上を目的としたマルチタスク特徴表現学習手法であるPremier-TACOを提案する。 Premier-TACOは、一般的な特徴表現を事前トレーニングするために、マルチタスクのオフラインデータセットのサブセットを活用する。 これは、新しいネガティブなサンプルサンプリング戦略を取り入れることで、最先端の視覚制御タスクで知られている時間的アクションコントラッシブラーニング(TACO)の目標を推し進める。 この戦略は、TACOの計算効率を大幅に向上させ、大規模なマルチタスクのオフライン事前訓練を可能にするために重要である。 Deepmind Control Suite, MetaWorld, LIBEROなど, 多様な連続制御ベンチマークにおいて, 視覚表現の事前訓練におけるPremier-TACOの有効性を実証し, 新規タスクの数発の模倣学習を著しく向上させた。 我々のコード、事前トレーニングデータ、および事前トレーニングされたモデルチェックポイントはhttps://github.com/PremierTACO/premier-taco.comでリリースされる。

We present Premier-TACO, a multitask feature representation learning approach designed to improve few-shot policy learning efficiency in sequential decision-making tasks. Premier-TACO leverages a subset of multitask offline datasets for pretraining a general feature representation, which captures critical environmental dynamics and is fine-tuned using minimal expert demonstrations. It advances the temporal action contrastive learning (TACO) objective, known for state-of-the-art results in visual control tasks, by incorporating a novel negative example sampling strategy. This strategy is crucial in significantly boosting TACO's computational efficiency, making large-scale multitask offline pretraining feasible. Our extensive empirical evaluation in a diverse set of continuous control benchmarks including Deepmind Control Suite, MetaWorld, and LIBERO demonstrate Premier-TACO's effectiveness in pretraining visual representations, significantly enhancing few-shot imitation learning of novel tasks. Our code, pretraining data, as well as pretrained model checkpoints will be released at https://github.com/PremierTACO/premier-taco.
翻訳日:2024-02-13 20:10:50 公開日:2024-02-12
# YOLO v7による磁気共鳴画像のキドニー検出

Using YOLO v7 to Detect Kidney in Magnetic Resonance Imaging ( http://arxiv.org/abs/2402.05817v2 )

ライセンス: Link先を確認
Pouria Yazdian Anari, Fiona Obiezu, Nathan Lay, Fatemeh Dehghani Firouzabadi, Aditi Chaurasia, Mahshid Golagha, Shiva Singh, Fatemeh Homayounieh, Aryan Zahergivar, Stephanie Harmon, Evrim Turkbey, Rabindra Gautam, Kevin Ma, Maria Merino, Elizabeth C. Jones, Mark W. Ball, W. Marston Linehan, Baris Turkbey, Ashkan A. Malayeri(参考訳) 本研究は, 医療用画像フォーマットの修正型YOLO V7の訓練および試験により, 腎臓検出を向上するための最新のYou Only Look Once (YOLO V7) オブジェクト検出法について検討する。 Methods Studyは腎細胞癌(RCC)の亜型878例と正常腎の206例を含む。 計5657回のMRI検査で1084例が検索された。 振り返り維持データベースから1034個の腫瘍を抽出した症例は326例で, 腫瘍周囲に境界箱を引いた。 主要なモデルは、アノテーション付きケースの80%でトレーニングされ、20%はテストに費やされた(最初のテストセット)。 次に、最も優れた一次モデルを用いて、残りの861患者の腫瘍を同定し、そのモデルを用いてスキャンで境界ボックス座標を作成した。 10のベンチマークトレーニングセットが生成され、未登録患者の座標が生成された。 最終モデルは、最初のテストセットで腎臓を予測するために使用されました。 正の予測値 (PPV) , 感度, 平均平均精度 (mAP) を報告した。 結果】初等訓練では平均PPV0.94+/-0.01,感度0.87+/-0.04,mAP0.91+/-0.02であった。 最良の一次モデルは、ppv 0.97、感度 0.92、マップ 0.95であった。 最終モデルは平均PSV 0.95 +/- 0.03、感度 0.98 +/- 0.004、mAP 0.95 +/- 0.01 を示した。 結語 医用画像ライブラリーを用いた半教師付きアプローチにより, 腎検出のための高性能モデルを開発した。 モデルの一般化性を評価するには、さらなる外部検証が必要となる。

Introduction This study explores the use of the latest You Only Look Once (YOLO V7) object detection method to enhance kidney detection in medical imaging by training and testing a modified YOLO V7 on medical image formats. Methods Study includes 878 patients with various subtypes of renal cell carcinoma (RCC) and 206 patients with normal kidneys. A total of 5657 MRI scans for 1084 patients were retrieved. 326 patients with 1034 tumors recruited from a retrospective maintained database, and bounding boxes were drawn around their tumors. A primary model was trained on 80% of annotated cases, with 20% saved for testing (primary test set). The best primary model was then used to identify tumors in the remaining 861 patients and bounding box coordinates were generated on their scans using the model. Ten benchmark training sets were created with generated coordinates on not-segmented patients. The final model used to predict the kidney in the primary test set. We reported the positive predictive value (PPV), sensitivity, and mean average precision (mAP). Results The primary training set showed an average PPV of 0.94 +/- 0.01, sensitivity of 0.87 +/- 0.04, and mAP of 0.91 +/- 0.02. The best primary model yielded a PPV of 0.97, sensitivity of 0.92, and mAP of 0.95. The final model demonstrated an average PPV of 0.95 +/- 0.03, sensitivity of 0.98 +/- 0.004, and mAP of 0.95 +/- 0.01. Conclusion Using a semi-supervised approach with a medical image library, we developed a high-performing model for kidney detection. Further external validation is required to assess the model's generalizability.
翻訳日:2024-02-13 20:10:28 公開日:2024-02-12
# Modality-relative pre-training を用いたテキスト・コード生成

Text-to-Code Generation with Modality-relative Pre-training ( http://arxiv.org/abs/2402.05783v2 )

ライセンス: Link先を確認
Fenia Christopoulou, Guchun Zhang, Gerasimos Lampouras(参考訳) 大規模な事前学習された言語モデルは、しばしば厳密な自然言語モデルの事前学習を通じて、非常に成功したプログラミング言語のタスクに拡張され、適用されてきた。 このようなアプローチは、列の両様相を同じ埋め込み空間に効果的にマッピングする。 しかし、プログラミング言語のキーワード(例えば「while」)は、しばしば非常に厳密に定義された意味論を持つ。 そのため、自然言語の使用から学習を移すことは、必ずしもコードアプリケーションにとって有益ではないかもしれない。 本研究は,すでに事前学習済みの言語モデルを仮定し,シーケンストークンがどのようなモダリティを持つのか,そして下流タスクの究極のメリットに応じて,どのように適応・表現できるかを検討する。 モーダリティ-相対的学習目標を用いたモデル事前学習において,モーダリティ間の埋め込み空間の分離実験を行った。 2つのバックボーンモデルと2つのテストセットにまたがる一貫した改善を観察し、pass@$k$を測定し、新しいインクリメンタルな変動を計測する。

Large pre-trained language models have recently been expanded and applied to programming language tasks with great success, often through further pre-training of a strictly-natural language model--where training sequences typically contain both natural and (linearised) programming language. Such approaches effectively map both modalities of the sequence into the same embedding space. However, programming language keywords (e.g. "while") often have very strictly defined semantics. As such, transfer learning from their natural language usage may not necessarily be beneficial to their code application and vise versa. Assuming an already pre-trained language model, in this work we investigate how sequence tokens can be adapted and represented differently, depending on which modality they belong to, and to the ultimate benefit of the downstream task. We experiment with separating embedding spaces between modalities during further model pre-training with modality-relative training objectives. We focus on text-to-code generation and observe consistent improvements across two backbone models and two test sets, measuring pass@$k$ and a novel incremental variation.
翻訳日:2024-02-13 20:09:56 公開日:2024-02-12
# レインボーオプション価格の量子振幅負荷

Quantum Amplitude Loading for Rainbow Options Pricing ( http://arxiv.org/abs/2402.05574v2 )

ライセンス: Link先を確認
Francesca Cibrario, Or Samimi Golan, Giacomo Ranieri, Emanuele Dri, Mattia Ippoliti, Ron Cohen, Christian Mattia, Bartolomeo Montrucchio, Amir Naveh, Davide Corbelletto(参考訳) この研究は、量子コンピュータを用いたパス非依存型マルチアセット微分の一種である価格虹オプションに対する新しいアプローチを導入している。 反復量子振幅推定法を用いて、価格空間への遷移を遅らせて効率を強調し、エンドツーエンドの量子回路実装を提案する。 さらに,指数関数を扱う2つの異なる振幅負荷手法を解析した。 IBM QASMシミュレータの実験は、我々の量子価格モデルを検証し、量子金融の進化分野に寄与する。

This work introduces a novel approach to price rainbow options, a type of path-independent multi-asset derivatives, with quantum computers. Leveraging the Iterative Quantum Amplitude Estimation method, we present an end-to-end quantum circuit implementation, emphasizing efficiency by delaying the transition to price space. Moreover, we analyze two different amplitude loading techniques for handling exponential functions. Experiments on the IBM QASM simulator validate our quantum pricing model, contributing to the evolving field of quantum finance.
翻訳日:2024-02-13 20:09:16 公開日:2024-02-12
# ApiQ: 2ビット量子化大言語モデルの微調整

ApiQ: Finetuning of 2-Bit Quantized Large Language Model ( http://arxiv.org/abs/2402.05147v2 )

ライセンス: Link先を確認
Baohao Liao, Christof Monz(参考訳) 大規模言語モデル(LLM)のメモリ効率の高い微調整は、GPUメモリの制限による制約と、これらの手法の完全な微調整による結果が原因で、LLMのサイズが増大するにつれ、近年大きな注目を集めている。 進歩にもかかわらず、QLoRAのようなメモリ効率の高い微調整のための現在の戦略は、様々なビット幅量子化や多面的タスクにまたがる不整合性能を示す。 この矛盾は、量子化過程が保存された知識に対する有害な影響に大きく起因し、破滅的な忘れ去られ、微調整のために事前訓練されたモデルの利用を損なう結果となった。 本研究では,LoRA成分を並列に初期化し,LLMの重みを定量化することにより,損失情報を量子化から復元する新しい量子化フレームワークApiQを提案する。 このアプローチは、より浅い層からより深い層へのエラー伝播を緩和しながら、元のLCMのアクティベーション精度の維持を保証する。 様々なモデルを用いた言語タスクの包括的評価により、ApiQは量子化時のアクティベーションエラーを実証的に最小化する。 その結果、量子化の様々なビット幅にわたって優れた微調整結果が得られる。

Memory-efficient finetuning of large language models (LLMs) has recently attracted huge attention with the increasing size of LLMs, primarily due to the constraints posed by GPU memory limitations and the comparable results of these methods with full finetuning. Despite the advancements, current strategies for memory-efficient finetuning, such as QLoRA, exhibit inconsistent performance across diverse bit-width quantizations and multifaceted tasks. This inconsistency largely stems from the detrimental impact of the quantization process on preserved knowledge, leading to catastrophic forgetting and undermining the utilization of pretrained models for finetuning purposes. In this work, we introduce a novel quantization framework named ApiQ, designed to restore the lost information from quantization by concurrently initializing LoRA components and quantizing the weights of LLMs. This approach ensures the maintenance of the original LLM's activation precision while mitigating the error propagation from shallower into deeper layers. Through comprehensive evaluations conducted on a spectrum of language tasks with various models, ApiQ demonstrably minimizes activation error during quantization. Consequently, it consistently achieves superior finetuning outcomes across various bit-widths of quantization.
翻訳日:2024-02-13 20:07:48 公開日:2024-02-12
# LightCAM: 話者認証のためのコンテキスト対応マスキングに基づくD-TDNNの高速で軽量な実装

LightCAM: A Fast and Light Implementation of Context-Aware Masking based D-TDNN for Speaker Verification ( http://arxiv.org/abs/2402.06073v2 )

ライセンス: Link先を確認
Di Cao, Xianchen Wang, Junfeng Zhou, Jiakai Zhang, Yanjing Lei and Wenpeng Chen(参考訳) 従来の時間遅延ニューラルネットワーク(TDNN)は、高い計算複雑性と推論速度の遅いコストで最先端のパフォーマンスを実現しており、産業環境では実装が困難である。 Densely Connected Time Delay Neural Network (D-TDNN)とContext Aware Masking (CAM)モジュールは、システム性能を維持しながら複雑性を低減するための効率的な構造であることが証明されている。 本稿では,より奥行き分離可能な畳み込みモジュール (dsm) を採用し,マルチスケール機能集約 (mfa) を異なるレベルでの機能融合に利用する高速軽量モデル lightcam を提案する。 VoxCelebデータセット上で大規模な実験が行われ、比較の結果、VoxCeleb1-Oで0.83のEERと0.0891のMinDCFを達成した。 さらに、複雑性解析により、提案アーキテクチャが計算コストを低減し、推論速度を高速化することを示した。

Traditional Time Delay Neural Networks (TDNN) have achieved state-of-the-art performance at the cost of high computational complexity and slower inference speed, making them difficult to implement in an industrial environment. The Densely Connected Time Delay Neural Network (D-TDNN) with Context Aware Masking (CAM) module has proven to be an efficient structure to reduce complexity while maintaining system performance. In this paper, we propose a fast and lightweight model, LightCAM, which further adopts a depthwise separable convolution module (DSM) and uses multi-scale feature aggregation (MFA) for feature fusion at different levels. Extensive experiments are conducted on VoxCeleb dataset, the comparative results show that it has achieved an EER of 0.83 and MinDCF of 0.0891 in VoxCeleb1-O, which outperforms the other mainstream speaker verification methods. In addition, complexity analysis further demonstrates that the proposed architecture has lower computational cost and faster inference speed.
翻訳日:2024-02-13 19:55:34 公開日:2024-02-12
# inexact halpern iteration と分散ロバスト最適化への応用

An Inexact Halpern Iteration with Application to Distributionally Robust Optimization ( http://arxiv.org/abs/2402.06033v2 )

ライセンス: Link先を確認
Ling Liang, Kim-Chuan Toh, and Jia-Jie Zhu(参考訳) 単調包含問題を解くためのhalpern反復は、その単純な形式と魅力的な収束性のために近年、関心が高まっている。 本稿では,決定論的および確率的設定におけるスキームの不正確な変種について検討する。 広範な収束解析を行い,不等式許容性を選択することにより,不等式が (期待) 剰余ノルムの項で$o(k^{-1})$ の収束率を許容することを示した。 本研究は,同じコンバージェンス特性を共有しつつ,文献で用いられる最先端の非実用性条件を緩和する。 次に,データ駆動型ワッサーシュタインの分散的ロバストな最適化問題の2つのクラスを解くために,提案手法をいかに適用できるかを示す。 確率的一階法を用いた分布的ロバスト学習のための不正確な計算を行う能力について強調する。

The Halpern iteration for solving monotone inclusion problems has gained increasing interests in recent years due to its simple form and appealing convergence properties. In this paper, we investigate the inexact variants of the scheme in both deterministic and stochastic settings. We conduct extensive convergence analysis and show that by choosing the inexactness tolerances appropriately, the inexact schemes admit an $O(k^{-1})$ convergence rate in terms of the (expected) residue norm. Our results relax the state-of-the-art inexactness conditions employed in the literature while sharing the same competitive convergence properties. We then demonstrate how the proposed methods can be applied for solving two classes of data-driven Wasserstein distributionally robust optimization problems that admit convex-concave min-max optimization reformulations. We highlight its capability of performing inexact computations for distributionally robust learning with stochastic first-order methods.
翻訳日:2024-02-13 19:55:12 公開日:2024-02-12
# MinMaxMin$Q$-learning

MinMaxMin $Q$-learning ( http://arxiv.org/abs/2402.05951v2 )

ライセンス: Link先を確認
Nitsan Soffair, Shie Mannor(参考訳) MinMaxMin $Q$-learningは、保守的RLアルゴリズムに固有の真の$Q$-valueを過大評価する)過大評価バイアスの問題に対処する、新しい楽観的なアクター・クリティカルアルゴリズムである。 その核となる公式は、min-batch maxmin $q$-networks距離という形で、$q$-targetに追加され、優先的なリプレイサンプリングルールとして使用される$q$-networks間の不一致に依存している。 我々は、TD3とTD7の上にMinMaxMinを実装し、最先端の連続空間アルゴリズム(DDPG、TD3、TD7)に対して厳格なテストを行う。 その結果、すべてのテストタスクでDDPG、TD3、TD7よりもMinMaxMinが一貫したパフォーマンス向上を示した。

MinMaxMin $Q$-learning is a novel optimistic Actor-Critic algorithm that addresses the problem of overestimation bias ($Q$-estimations are overestimating the real $Q$-values) inherent in conservative RL algorithms. Its core formula relies on the disagreement among $Q$-networks in the form of the min-batch MaxMin $Q$-networks distance which is added to the $Q$-target and used as the priority experience replay sampling-rule. We implement MinMaxMin on top of TD3 and TD7, subjecting it to rigorous testing against state-of-the-art continuous-space algorithms-DDPG, TD3, and TD7-across popular MuJoCo and Bullet environments. The results show a consistent performance improvement of MinMaxMin over DDPG, TD3, and TD7 across all tested tasks.
翻訳日:2024-02-13 19:54:54 公開日:2024-02-12
# SQT -- std $Q$-target

SQT -- std $Q$-target ( http://arxiv.org/abs/2402.05950v2 )

ライセンス: Link先を確認
Nitsan Soffair, Dotan Di-Castro, Orly Avner, Shie Mannor(参考訳) std $q$-targetは、保守的でアクタ批判的で、アンサンブルで、q$-learningベースのアルゴリズムであり、単一のキーである$q$-formula: $q$-networks標準偏差に基づいている。 我々は、TD3/TD7コード上にSQTを実装し、7つの一般的な MuJoCo タスクと Bullet タスクにおいて、最先端(SOTA)アクター批判アルゴリズムである DDPG,TD3,TD7 に対してテストする。 SQTは, DDPG, TD3, TD7に対して, DDPG, TD7よりも高い性能を示す一方, TD3 の $Q$-target 式よりも, RL の過大評価バイアスに対する保守的解法として優れていることを示す。

Std $Q$-target is a conservative, actor-critic, ensemble, $Q$-learning-based algorithm, which is based on a single key $Q$-formula: $Q$-networks standard deviation, which is an "uncertainty penalty", and, serves as a minimalistic solution to the problem of overestimation bias. We implement SQT on top of TD3/TD7 code and test it against the state-of-the-art (SOTA) actor-critic algorithms, DDPG, TD3 and TD7 on seven popular MuJoCo and Bullet tasks. Our results demonstrate SQT's $Q$-target formula superiority over TD3's $Q$-target formula as a conservative solution to overestimation bias in RL, while SQT shows a clear performance advantage on a wide margin over DDPG, TD3, and TD7 on all tasks.
翻訳日:2024-02-13 19:54:38 公開日:2024-02-12
# EmojiCrypt: 大規模言語モデルによるセキュア通信のためのプロンプト暗号化

EmojiCrypt: Prompt Encryption for Secure Communication with Large Language Models ( http://arxiv.org/abs/2402.05868v2 )

ライセンス: Link先を確認
Guo Lin, Wenyue Hua, Yongfeng Zhang(参考訳) ChatGPTのようなクラウドベースの大規模言語モデル(LLM)は、日々の運用に不可欠なものとなり、さまざまなアプリケーションにまたがる重要なツールとなっている。 While these models offer substantial benefits in terms of accessibility and functionality, they also introduce significant privacy concerns: the transmission and storage of user data in cloud infrastructures pose substantial risks of data breaches and unauthorized access to sensitive information; even if the transmission and storage of data is encrypted, the LLM service provider itself still knows the real contents of the data, preventing individuals or entities from confidently using such LLM services. これらの問題に対処するために,ユーザプライバシ保護のためのシンプルかつ効果的なメカニズムであるEmojiCryptを提案する。 ユーザ入力をLLMに送信する前に暗号化するために絵文字を使用しており、プロンプトの本来の意図を維持しながら、人間やLLMの検査では解読できないので、モデルの性能に影響を与えない。 パーソナライズドレコメンデーション,感情分析,表データ分析という3つのタスクについて実験を行った。 実験結果によると、EmojiCryptは、人やLSM自体による機密データの識別を防止できるだけでなく、さらなるチューニングをすることなく精度を維持・改善できると同時に、即時暗号化なしで直接LLMをプッシュするよりも、同等またはそれ以上のタスク精度を達成することができる。 これらの結果は,LLMの機能的整合性と性能を損なうことなく,ユーザのプライバシを保護する暗号化手法を採用する実践性を強調した。 コードとデータセットはhttps://github.com/agiresearch/emojicryptで入手できる。

Cloud-based large language models (LLMs) such as ChatGPT have increasingly become integral to daily operations, serving as vital tools across various applications. While these models offer substantial benefits in terms of accessibility and functionality, they also introduce significant privacy concerns: the transmission and storage of user data in cloud infrastructures pose substantial risks of data breaches and unauthorized access to sensitive information; even if the transmission and storage of data is encrypted, the LLM service provider itself still knows the real contents of the data, preventing individuals or entities from confidently using such LLM services. To address these concerns, this paper proposes a simple yet effective mechanism EmojiCrypt to protect user privacy. It uses Emoji to encrypt the user inputs before sending them to LLM, effectively rendering them indecipherable to human or LLM's examination while retaining the original intent of the prompt, thus ensuring the model's performance remains unaffected. We conduct experiments on three tasks, personalized recommendation, sentiment analysis, and tabular data analysis. Experiment results reveal that EmojiCrypt can encrypt personal information within prompts in such a manner that not only prevents the discernment of sensitive data by humans or LLM itself, but also maintains or even improves the precision without further tuning, achieving comparable or even better task accuracy than directly prompting the LLM without prompt encryption. These results highlight the practicality of adopting encryption measures that safeguard user privacy without compromising the functional integrity and performance of LLMs. Code and dataset are available at https://github.com/agiresearch/EmojiCrypt.
翻訳日:2024-02-13 19:53:29 公開日:2024-02-12
# 初値オークションにおける入札のための戦略的ロバスト学習アルゴリズム

Strategically-Robust Learning Algorithms for Bidding in First-Price Auctions ( http://arxiv.org/abs/2402.07363v1 )

ライセンス: Link先を確認
Rachitesh Kumar, Jon Schneider, Balasubramanian Sivan(参考訳) ゲーム理論と機械学習のインターフェースにおいて、繰り返し最初の価格オークションで競うことの学習は根本的な問題であり、ディスプレイ広告が第1価格オークションに移行したことにより、近年関心が高まっている。 本研究では,プライスオークションにおける純ストラテジー入札のための新しいコンケーブの定式化を提案し,この問題に対する自然なグラディエント・アセンセントアルゴリズムの解析に利用した。 重要なことに、われわれの分析は過去の仕事の典型的な焦点である後悔以上のものであり、入札アルゴリズムが展開されるオンライン広告市場の戦略的背景でもある。 具体的には、最も高い競合入札が反対に生成された場合、我々のアルゴリズムが$O(\sqrt{T})$後悔を達成できることを示し、オンラインアルゴリズムが改善できないことを示す。 さらに、競合が定常かつ確率的である場合、後悔は$O(\log T)$に改善されることを示す。 後悔を超えて、我々は戦略的な売り手が我々のアルゴリズムを利用して、最適なメカニズムの下で可能なよりも平均的な収入を引き出すことができないこと、すなわち、売り手は各オークションに独占的準備価格を掲示するよりも、ずっと良い結果を出すことができないことを示します。 そして最後に、我々のアルゴリズムはインセンティブと互換性があることを証明します - 買い手がアルゴリズム全体に真に価値を報告する(ほぼ)支配的な戦略です。

Learning to bid in repeated first-price auctions is a fundamental problem at the interface of game theory and machine learning, which has seen a recent surge in interest due to the transition of display advertising to first-price auctions. In this work, we propose a novel concave formulation for pure-strategy bidding in first-price auctions, and use it to analyze natural Gradient-Ascent-based algorithms for this problem. Importantly, our analysis goes beyond regret, which was the typical focus of past work, and also accounts for the strategic backdrop of online-advertising markets where bidding algorithms are deployed -- we prove that our algorithms cannot be exploited by a strategic seller and that they incentivize truth-telling for the buyer. Concretely, we show that our algorithms achieve $O(\sqrt{T})$ regret when the highest competing bids are generated adversarially, and show that no online algorithm can do better. We further prove that the regret improves to $O(\log T)$ when the competition is stationary and stochastic. Moving beyond regret, we show that a strategic seller cannot exploit our algorithms to extract more revenue on average than is possible under the optimal mechanism, i.e., the seller cannot do much better than posting the monopoly reserve price in each auction. Finally, we prove that our algorithm is also incentive compatible -- it is a (nearly) dominant strategy for the buyer to report her values truthfully to the algorithm as a whole.
翻訳日:2024-02-13 16:10:00 公開日:2024-02-12
# ヨーロッパ文化遺産をモデル化するオントロジ工学--文化宝石を事例として

Ontology Engineering to Model the European Cultural Heritage: The Case of Cultural Gems ( http://arxiv.org/abs/2402.07351v1 )

ライセンス: Link先を確認
Valentina Alberti, Cinzia Cocco, Sergio Consoli, Valentina Montalto, Francesco Panella(参考訳) Cultural gems は欧州委員会合同研究センター (DG JRC) が考案したウェブアプリケーションで、ヨーロッパ中の人々や組織が文化的・創造的な場所のユニークなリポジトリを作成することを目的としている。 主な目的は、単一ヨーロッパ文化領域におけるアイデンティティの感覚を強化するために、ヨーロッパ文化のビジョンを提供することである。 cultural gemsは、300以上のヨーロッパの都市や町で13万以上の物理的場所を地図化しており、2020年からはオンライン文化イニシアチブもリストアップしている。 新しいリリースは、アプリケーションの相互運用性を高めることを目的としている。 本研究の目的は, 欧州都市における文化遺産の地図化に用いられている文化遺産のオントロジーの現況について, リンクオープンデータ(LOD)標準を用いて, ファインタブル, アクセシブル, インターオペラビリティ, 再利用可能なデータFAIRを作成することである。 我々は、その方法論の概要を提供し、オントロジーの構造と、その上に構築しているサービスとツールを提示します。

Cultural gems is a web application conceived by the European Commission's Joint Research Centre (DG JRC), which aims at engaging people and organisations across Europe to create a unique repository of cultural and creative places. The main goal is to provide a vision of European culture in order to strengthen a sense of identity within a single European cultural realm. Cultural gems maps more than 130,000 physical places in over 300 European cities and towns, and since 2020 it also lists online cultural initiatives. The new release aims, among other, to increase the interoperability of the application. At this purpose, we provide an overview on the current development of an ontology for Cultural gems used to map cultural heritage in European cities by using Linked Open Data (LOD) standards, and making the data FAIR, that is Findable, Accessible, Interoperable, and Reusable. We provide an overview of the methodology, presenting the structure of the ontology, and the services and tools we are currently building on top.
翻訳日:2024-02-13 16:09:33 公開日:2024-02-12
# 対人AI

Antagonistic AI ( http://arxiv.org/abs/2402.07350v1 )

ライセンス: Link先を確認
Alice Cai, Ian Arawjo, Elena L. Glassman(参考訳) AI開発に関する談話の大半は、従属的で“道徳的”なモデルと“人間的価値”が一致している、と仮定している。要するに、優れたAIはサイコファンティックなAIである。私たちは、サイコファンティックなパラダイムの影、私たちが敵AIと呼ぶデザイン空間を探求する。反対の振る舞いや価値観を埋め込むAIシステム。 悪い”あるいは“不道徳”とは程遠いが、敵意的なAIシステムは、ユーザの仮定に直面するように強制したり、レジリエンスを構築したり、より健全なリレーショナルバウンダリを開発するといった、時にユーザにとってメリットがあるのではないか、と考える。 形式的な探索と、参加者がアンタゴニズムを利用する架空のAI技術を設計した投機的デザインワークショップから、私たちは、潜在的なメリット、設計技術、およびユーザエクスペリエンスにアンタゴニズム要素を埋め込む方法を明確にした、敵対的AIのためのデザインスペースを配置しました。 最後に、この分野の多くの倫理的課題を議論し、反抗的なai(同意、コンテキスト、フレーミング)の責任ある設計のための3次元を特定する。

The vast majority of discourse around AI development assumes that subservient, "moral" models aligned with "human values" are universally beneficial -- in short, that good AI is sycophantic AI. We explore the shadow of the sycophantic paradigm, a design space we term antagonistic AI: AI systems that are disagreeable, rude, interrupting, confrontational, challenging, etc. -- embedding opposite behaviors or values. Far from being "bad" or "immoral," we consider whether antagonistic AI systems may sometimes have benefits to users, such as forcing users to confront their assumptions, build resilience, or develop healthier relational boundaries. Drawing from formative explorations and a speculative design workshop where participants designed fictional AI technologies that employ antagonism, we lay out a design space for antagonistic AI, articulating potential benefits, design techniques, and methods of embedding antagonistic elements into user experience. Finally, we discuss the many ethical challenges of this space and identify three dimensions for the responsible design of antagonistic AI -- consent, context, and framing.
翻訳日:2024-02-13 16:09:12 公開日:2024-02-12
# 01ロスサイン活性化ニューラルネットワークアンサンブルにおけるtextfooler black box adversarial attackの精度

Accuracy of TextFooler black box adversarial attacks on 01 loss sign activation neural network ensemble ( http://arxiv.org/abs/2402.07347v1 )

ライセンス: Link先を確認
Yunzhe Xue and Usman Roshan(参考訳) 近年の研究では、画像分類敵攻撃に対する01損失符号活性化ニューラルネットワークの防御効果が示されている。 CIFAR10データセットでモデルを攻撃するための公開の課題は、まだ未解決のままである。 01 損失符号アクティベーションニューラルネットワークは、textfoolerと呼ばれる人気のあるブラックボックステキスト敵攻撃プログラムを欺くのが難しいのか? 本稿では,IMDBレビュー,Yelpレビュー,MR感情分類,AGニュース分類の4つの人気テキスト分類データセットについて検討する。 01ロスサインアクティベーションネットワークは,Sigmoid アクティベーションのクロスエントロピーやバイナリニューラルネットワークと比較して,TextFoolerによる攻撃がはるかに難しいことがわかった。 また,新たなグローバルプーリングステップを用いた01個の損失符号活性化畳み込みニューラルネットワークについても検討した。 この新たなバリエーションによって、TextFoolerがそれに対して事実上役に立たないという敵の精度が大幅に向上する。 コードは \url{https://github.com/zero-one-loss/wordcnn01} と \url{https://github.com/xyzacademic/mlp01example} で自由に利用できる。 ここでの研究は、テキスト敵攻撃に対する愚かな証明モデルを作成するために、01ロスサインアクティベーションネットワークをさらに発展させることを示唆している。

Recent work has shown the defense of 01 loss sign activation neural networks against image classification adversarial attacks. A public challenge to attack the models on CIFAR10 dataset remains undefeated. We ask the following question in this study: are 01 loss sign activation neural networks hard to deceive with a popular black box text adversarial attack program called TextFooler? We study this question on four popular text classification datasets: IMDB reviews, Yelp reviews, MR sentiment classification, and AG news classification. We find that our 01 loss sign activation network is much harder to attack with TextFooler compared to sigmoid activation cross entropy and binary neural networks. We also study a 01 loss sign activation convolutional neural network with a novel global pooling step specific to sign activation networks. With this new variation we see a significant gain in adversarial accuracy rendering TextFooler practically useless against it. We make our code freely available at \url{https://github.com/zero-one-loss/wordcnn01} and \url{https://github.com/xyzacademic/mlp01example}. Our work here suggests that 01 loss sign activation networks could be further developed to create fool proof models against text adversarial attacks.
翻訳日:2024-02-13 16:08:47 公開日:2024-02-12
# オフライン強化学習における ICU の計測スケジューリング

Measurement Scheduling for ICU Patients with Offline Reinforcement Learning ( http://arxiv.org/abs/2402.07344v1 )

ライセンス: Link先を確認
Zongliang Ji, Anna Goldenberg, Rahul G. Krishnan(参考訳) ICU患者の臨床検査のスケジューリングは重要な課題である。 研究によると、ICUで注文された検査の20-40%は冗長であり、患者の安全を損なうことなく排除できる。 先行研究はオフライン強化学習(オフライン-rl)を利用して、患者情報に基づいた検査検査の順序付けに最適なポリシーを見つける。 しかし、その後新たなICU患者データセットがリリースされ、Offline-RL法で様々な進歩がなされた。 本研究では,まず,時系列タスクを対象としたMIMIC-IVデータセットの事前処理パイプラインを提案する。 次に,最先端のオフラインrl手法がicu患者研究室テストスケジューリングのより良いポリシーを同定する効果について検討する。 方法論的性能の評価に加えて、ICU設定における実験室試験のスケジューリングにOffline-RLフレームワークを用いることの全体的な適合性や実用性についても検討する。

Scheduling laboratory tests for ICU patients presents a significant challenge. Studies show that 20-40% of lab tests ordered in the ICU are redundant and could be eliminated without compromising patient safety. Prior work has leveraged offline reinforcement learning (Offline-RL) to find optimal policies for ordering lab tests based on patient information. However, new ICU patient datasets have since been released, and various advancements have been made in Offline-RL methods. In this study, we first introduce a preprocessing pipeline for the newly-released MIMIC-IV dataset geared toward time-series tasks. We then explore the efficacy of state-of-the-art Offline-RL methods in identifying better policies for ICU patient lab test scheduling. Besides assessing methodological performance, we also discuss the overall suitability and practicality of using Offline-RL frameworks for scheduling laboratory tests in ICU settings.
翻訳日:2024-02-13 16:08:25 公開日:2024-02-12
# AIによるデザインの未来を想像する: 動的グラウンド、構成的ネゴシエーション、持続可能なモチベーション

Imagining a Future of Designing with AI: Dynamic Grounding, Constructive Negotiation, and Sustainable Motivation ( http://arxiv.org/abs/2402.07342v1 )

ライセンス: Link先を確認
Priyan Vaithilingam, Ian Arawjo, Elena L. Glassman(参考訳) 私たちは、AI技術を含む将来のデザインワークフローを考えます。 アクティビティとコミュニケーション理論から抽出し,過去の技術と比較して,大規模aiモデルがデザインを提供できる新たな価値の分離を試みる。 動的基盤化、建設交渉、持続可能なモチベーションという3つの余裕に到達し、自然言語対応基盤モデルの潜在品質を要約して、明示的に設計すれば、設計プロセスをサポートすることができます。 デザイン・フィクションを通じて、私たちは未来のインターフェースを、現実的なシナリオで我々の3つの余裕を実演するSquirrel Gameの試作品として想像する。 我々のデザインプロセス、用語、図表は、人間デザイナーとのコラボレーションに関して、AI技術の相対的な可利用性に関する将来の議論に寄与することを目的としています。

We ideate a future design workflow that involves AI technology. Drawing from activity and communication theory, we attempt to isolate the new value large AI models can provide design compared to past technologies. We arrive at three affordances -- dynamic grounding, constructive negotiation, and sustainable motivation -- that summarize latent qualities of natural language-enabled foundation models that, if explicitly designed for, can support the process of design. Through design fiction, we then imagine a future interface as a diegetic prototype, the story of Squirrel Game, that demonstrates each of our three affordances in a realistic usage scenario. Our design process, terminology, and diagrams aim to contribute to future discussions about the relative affordances of AI technology with regard to collaborating with human designers.
翻訳日:2024-02-13 16:08:09 公開日:2024-02-12
# 線形バンドイットの雑音適応信頼集合とベイズ最適化への応用

Noise-Adaptive Confidence Sets for Linear Bandits and Application to Bayesian Optimization ( http://arxiv.org/abs/2402.07341v1 )

ライセンス: Link先を確認
Kwang-Sung Jun, Jungtaek Kim(参考訳) 事前の未知のノイズレベルに適応することは、シーケンシャルな意思決定において非常に重要であるが難しい問題であり、効率的な探索には、しばしば緩やかに特定されるノイズレベルに関する知識が必要である。 2つの点で線形帯域でこの問題に対処する上で大きな進歩を報告した。 まず、未知の準ガウスパラメータ $\sigma_*^2$ に対して $d$ が次元であり $\sqrt{d\sigma_*^2 + \sigma_0^2}$ が $\sigma_*^2$ よりもはるかに大きい特定のサブガウスパラメータ (既知の) であるような、未知のサブガウスパラメータ $\sigma_*^2$ に 'semi-adaptive' な新しい信頼集合を提案する。 これは Abbasi-Yadkori et al. (2011) の標準信頼集合の $\sqrt{d\sigma_0^2}$ よりも大幅に改善されている。 このことは, 線形包帯における後悔の抑制につながることを示す。 第二に, 有界報酬に対して, 先行技術における数値性能が大幅に向上した新しい分散適応信頼度セットを提案する。 次に,この信頼セットを適用し,新たな後悔分析手法によって実現される楽観的アプローチを通じて,最初の実用的分散適応線形バンディットアルゴリズムを開発する。 いずれの信頼セットも、オンライン学習の‘regret equality’に批判的に依存しています。 ベイズ最適化タスクにおける経験的評価から,提案アルゴリズムは既存手法よりも優れた性能を示した。

Adapting to a priori unknown noise level is a very important but challenging problem in sequential decision-making as efficient exploration typically requires knowledge of the noise level, which is often loosely specified. We report significant progress in addressing this issue in linear bandits in two respects. First, we propose a novel confidence set that is `semi-adaptive' to the unknown sub-Gaussian parameter $\sigma_*^2$ in the sense that the (normalized) confidence width scales with $\sqrt{d\sigma_*^2 + \sigma_0^2}$ where $d$ is the dimension and $\sigma_0^2$ is the specified sub-Gaussian parameter (known) that can be much larger than $\sigma_*^2$. This is a significant improvement over $\sqrt{d\sigma_0^2}$ of the standard confidence set of Abbasi-Yadkori et al. (2011), especially when $d$ is large. We show that this leads to an improved regret bound in linear bandits. Second, for bounded rewards, we propose a novel variance-adaptive confidence set that has a much improved numerical performance upon prior art. We then apply this confidence set to develop, as we claim, the first practical variance-adaptive linear bandit algorithm via an optimistic approach, which is enabled by our novel regret analysis technique. Both of our confidence sets rely critically on `regret equality' from online learning. Our empirical evaluation in Bayesian optimization tasks shows that our algorithms demonstrate better or comparable performance compared to existing methods.
翻訳日:2024-02-13 16:07:53 公開日:2024-02-12
# グラフニューラルネットワークを用いたランダム幾何グラフアライメント

Random Geometric Graph Alignment with Graph Neural Networks ( http://arxiv.org/abs/2402.07340v1 )

ライセンス: Link先を確認
Suqi Liu and Morgane Austern(参考訳) 頂点特徴情報の存在下でのグラフアライメント問題に対するグラフニューラルネットワークの性能を特徴付ける。 より具体的には、ノイズの少ない単一のランダムな幾何学的グラフの独立摂動である2つのグラフを考えると、2つのグラフの頂点の間の未知の1対1のマッピングを復元することが課題である。 特徴ベクトルの間隔と雑音レベルについて一定の条件下では、注意深く設計された一層グラフニューラルネットワークは、グラフ構造の助けを借りて頂点間の正しいアライメントを高い確率で回復することができる。 また、ノイズレベルの条件が対数的要因に厳密であることも証明した。 最後に,グラフニューラルネットワークの性能とノイズの多い頂点特性の代入問題を直接的に解くことを比較した。 ノイズレベルが少なくとも一定である場合、この直接マッチングは完全なリカバリが得られず、グラフニューラルネットワークは、グラフの大きさのパワーと同じくらい早く成長するノイズレベルを許容できることを示した。

We characterize the performance of graph neural networks for graph alignment problems in the presence of vertex feature information. More specifically, given two graphs that are independent perturbations of a single random geometric graph with noisy sparse features, the task is to recover an unknown one-to-one mapping between the vertices of the two graphs. We show under certain conditions on the sparsity and noise level of the feature vectors, a carefully designed one-layer graph neural network can with high probability recover the correct alignment between the vertices with the help of the graph structure. We also prove that our conditions on the noise level are tight up to logarithmic factors. Finally we compare the performance of the graph neural network to directly solving an assignment problem on the noisy vertex features. We demonstrate that when the noise level is at least constant this direct matching fails to have perfect recovery while the graph neural network can tolerate noise level growing as fast as a power of the size of the graph.
翻訳日:2024-02-13 16:07:19 公開日:2024-02-12
# スペインにおける女性雇用に影響を及ぼす感情と道徳を理解する

Beyond the Headlines: Understanding Sentiments and Morals Impacting Female Employment in Spain ( http://arxiv.org/abs/2402.07339v1 )

ライセンス: Link先を確認
Oscar Araque, Luca Barbaglia, Francesco Berlingieri, Marco Colagrossi, Sergio Consoli, Lorenzo Gatti, Caterina Mauri, Kyriaki Kalimeri(参考訳) スペインにおける女性の雇用状況が何十年も改善され、2008年のスペイン大不況により、このプロセスは突然停止した。 本研究では, 自然言語処理技術を用いて, 国・地域ニュースの縦断コーパスを分析し, スペインメディアで表現された男女不平等の言及の価額を把握した。 ニュース記事の自動分析は、実際にスペインの労働市場で女性が直面している既知の困難を捉えている。 我々のアプローチは他の関心事に簡単に一般化できる。 記事に表される感情や道徳的価値観を評価すると、ほとんどの場合、女性は、新聞記事に基づく労働市場全体の状況が悪化している場合に、男性以上の関心を持っていることが分かる。 この行動は2000年から2022年までの期間に存在し、2008年の経済危機や最近のCOVID-19パンデミックで特に顕著に見られた。 たいていの場合、この現象は地域レベルではより顕著で、集計統計よりも地方労働市場への注目度が高いことや、地域の状況では女性が孤立や差別の状況に苦しむことがあるためである。 本研究は,スペインにおける男女不平等を代替データを用いてより深く理解し,政策立案者や利害関係者に通知することに役立つ。

After decades of improvements in the employment conditions of females in Spain, this process came to a sudden stop with the Great Spanish Recession of 2008. In this contribution, we analyse a large longitudinal corpus of national and regional news outlets employing advanced Natural Language Processing techniques to capture the valence of mentions of gender inequality expressed in the Spanish press. The automatic analysis of the news articles does indeed capture the known hardships faced by females in the Spanish labour market. Our approach can be straightforwardly generalised to other topics of interest. Assessing the sentiment and moral values expressed in the articles, we notice that females are, in the majority of cases, concerned more than males when there is a deterioration in the overall labour market conditions, based on newspaper articles. This behaviour has been present in the entire period of study (2000--2022) and looked particularly pronounced during the economic crisis of 2008 and the recent COVID-19 pandemic. Most of the time, this phenomenon looks to be more pronounced at the regional level, perhaps caused by a significant focus on local labour markets rather than on aggregate statistics or because, in local contexts, females might suffer more from an isolation or discrimination condition. Our findings contribute to a deeper understanding of the gender inequalities in Spain using alternative data, informing policymakers and stakeholders.
翻訳日:2024-02-13 16:06:59 公開日:2024-02-12
# マニピュレーション検出におけるサリエンシバイアスの探索

Exploring Saliency Bias in Manipulation Detection ( http://arxiv.org/abs/2402.07338v1 )

ライセンス: Link先を確認
Joshua Krinsky, Alan Bettis, Qiuyu Tang, Daniel Moreira, Aparna Bharati(参考訳) 画像の改ざんによる偽ニュースや誤情報のソーシャルメディアによる爆発は、画像操作検出のためのモデルやデータセットの開発に繋がった。 しかし、既存の検出方法は、特定の操作が視聴者の知覚に与える影響を考慮せずに、メディアオブジェクトを分離して扱う。 法医学データセットは、通常、操作操作と対応するピクセルベースのマスクに基づいて分析されるが、操作の意味、すなわちシーンの種類、オブジェクト、および視聴者のシーンコンテンツに対する注意に基づくものではない。 操作の意味論は、操作された画像を通して誤情報を拡散する上で重要な役割を果たす。 視覚誤情報を理解するための意味認識法医学的手法のさらなる発展を促すために,人気のある画像操作データセットにおける視覚的・意味的サルマンシーの動向と検出への影響を分析するフレームワークを提案する。

The social media-fuelled explosion of fake news and misinformation supported by tampered images has led to growth in the development of models and datasets for image manipulation detection. However, existing detection methods mostly treat media objects in isolation, without considering the impact of specific manipulations on viewer perception. Forensic datasets are usually analyzed based on the manipulation operations and corresponding pixel-based masks, but not on the semantics of the manipulation, i.e., type of scene, objects, and viewers' attention to scene content. The semantics of the manipulation play an important role in spreading misinformation through manipulated images. In an attempt to encourage further development of semantic-aware forensic approaches to understand visual misinformation, we propose a framework to analyze the trends of visual and semantic saliency in popular image manipulation datasets and their impact on detection.
翻訳日:2024-02-13 16:06:35 公開日:2024-02-12
# 単一硬x線光子による若手二重スリット干渉

Young double-slit interference with single hard x-ray photons ( http://arxiv.org/abs/2402.07377v1 )

ライセンス: Link先を確認
T.E. Gureyev, C. Hall, B. Arhatari, D. Pelliccia, A. Aminzadeh, K.M. Pavlov and H.M. Quiney(参考訳) 単色硬X線と25keVのエネルギーを用いた新しい二重スリット実験を行った。 実験は、干渉計と検出器の間の距離110mのシンクロトロン源で行われ、75マイクロピクセルの光子計で十分なサンプリングが可能な十分な期間の干渉パターンが得られた。 実験の単一粒子版では、それぞれに1つの登録光子を持つ100万枚以上の画像フレームが集められた。 これらのフレームの総和は、干渉パターンと期待期間との明確な存在を示した。 その後の分析は、バラの基準に従って、光子干渉の有無を決定するのに必要な検出された光子の最小数を客観的に推定した。 一般的な理論的な関心とは別に、これらの研究は最小限の放射線線量で光子計数モードにおける医用x線位相コントラストイメージングの可能性を探ることを目的としていた。

Young double-slit experiments using monochromatic hard X-rays with the energy of 25 keV are presented. The experiments were performed at a synchrotron source with a distance of 110 m between the interferometer and the detector to produce an interference pattern with a sufficiently broad period that could be adequately sampled by a photon-counting detector with 75 micrometre pixels. In the single-particle version of the experiment, over one million image frames with a single registered photon in each one were collected. The sum of these frames showed a clear presence of the interference pattern with the expected period. Subsequent analysis provided an objective estimation of the minimal number of detected photons required to determine, in accordance with the Rose criterion, the presence of the photon interference. Apart from a general theoretical interest, these investigations were aimed at exploring the possibility of medical X-ray phase-contrast imaging in photon-counting mode at minimal radiation doses.
翻訳日:2024-02-13 15:57:16 公開日:2024-02-12
# 物体中心ニューラルフィールドの教師なし発見

Unsupervised Discovery of Object-Centric Neural Fields ( http://arxiv.org/abs/2402.07376v1 )

ライセンス: Link先を確認
Rundong Luo, Hong-Xing Yu, Jiajun Wu(参考訳) 一つの画像から3次元オブジェクト中心のシーン表現を推定する。 最近の手法では、単純な合成画像から教師なしの3dオブジェクト発見の可能性を示したが、視覚的にリッチで多様なオブジェクトで現実世界のシーンに一般化できなかった。 この制限は、形状や外観といったオブジェクト固有の属性と、その3d位置のような外部的でビューア中心のプロパティを絡むオブジェクト表現に起因している。 このボトルネックに対処するため,我々は,オブジェクト中心のニューラルフィールド(uocf)の教師なし発見を提案する。 uocfはオブジェクトの本質を学習することに集中し、extrinsicsを別々にモデル化する。 提案手法は体系的な一般化を著しく改善し,スパース現実画像からの高忠実度オブジェクト中心シーン表現の教師なし学習を可能にする。 このアプローチを評価するために、2つの実際のキッチン環境を含む3つの新しいデータセットを収集しました。 広範な実験により、uocfは単一の実画像から視覚的にリッチなオブジェクトを教師なしで発見でき、3dオブジェクトのセグメンテーションやシーン操作のようなアプリケーションを可能にする。 特に、uOCFは1つの実画像から見えない物体にゼロショットの一般化を示す。 プロジェクトページ: https://red-fairy.github.io/uOCF/

We study inferring 3D object-centric scene representations from a single image. While recent methods have shown potential in unsupervised 3D object discovery from simple synthetic images, they fail to generalize to real-world scenes with visually rich and diverse objects. This limitation stems from their object representations, which entangle objects' intrinsic attributes like shape and appearance with extrinsic, viewer-centric properties such as their 3D location. To address this bottleneck, we propose Unsupervised discovery of Object-Centric neural Fields (uOCF). uOCF focuses on learning the intrinsics of objects and models the extrinsics separately. Our approach significantly improves systematic generalization, thus enabling unsupervised learning of high-fidelity object-centric scene representations from sparse real-world images. To evaluate our approach, we collect three new datasets, including two real kitchen environments. Extensive experiments show that uOCF enables unsupervised discovery of visually rich objects from a single real image, allowing applications such as 3D object segmentation and scene manipulation. Notably, uOCF demonstrates zero-shot generalization to unseen objects from a single real image. Project page: https://red-fairy.github.io/uOCF/
翻訳日:2024-02-13 15:57:03 公開日:2024-02-12
# 領域適応による実世界の大気乱流補正

Real-World Atmospheric Turbulence Correction via Domain Adaptation ( http://arxiv.org/abs/2402.07371v1 )

ライセンス: Link先を確認
Xijun Wang, Santiago L\'opez-Tapia, Aggelos K. Katsaggelos(参考訳) 日常生活で一般的な現象である大気の乱流は、主に地球表面の均一な加熱によって引き起こされる。 この現象は、取得した画像やビデオが歪んだりぼやけたりする結果となり、特にオブジェクトの正確な検出や認識などの屋外環境から、鮮明で安定した画像やビデオをキャプチャすることに依存する、下流の視覚タスクに大きな影響を与える。 そのため, 大気乱流をシミュレートする方法を提案し, 効果的な深層学習に基づく大気乱流効果の除去法を考案した。 しかし、これらの合成乱流画像は現実世界の乱流効果の全ての範囲をカバーできない。 モデルは、合成シナリオで素晴らしいパフォーマンスを達成しましたが、現実世界のケースに適用すると、常にパフォーマンスが低下します。 さらに、トレーニング中にモデルにクリーンな真実が提供されないため、現実の乱流を減らすことがより難しい作業である。 本稿では, 実世界の大気乱流補正と教師なし実世界の大気乱流補正を結びつける, ドメイン適応フレームワークに基づく実世界の大気乱流緩和モデルを提案する。 提案手法は,実世界の大気乱流シナリオにおける性能の向上を図り,画質と下流ビジョンの両タスクを改善した。

Atmospheric turbulence, a common phenomenon in daily life, is primarily caused by the uneven heating of the Earth's surface. This phenomenon results in distorted and blurred acquired images or videos and can significantly impact downstream vision tasks, particularly those that rely on capturing clear, stable images or videos from outdoor environments, such as accurately detecting or recognizing objects. Therefore, people have proposed ways to simulate atmospheric turbulence and designed effective deep learning-based methods to remove the atmospheric turbulence effect. However, these synthesized turbulent images can not cover all the range of real-world turbulence effects. Though the models have achieved great performance for synthetic scenarios, there always exists a performance drop when applied to real-world cases. Moreover, reducing real-world turbulence is a more challenging task as there are no clean ground truth counterparts provided to the models during training. In this paper, we propose a real-world atmospheric turbulence mitigation model under a domain adaptation framework, which links the supervised simulated atmospheric turbulence correction with the unsupervised real-world atmospheric turbulence correction. We will show our proposed method enhances performance in real-world atmospheric turbulence scenarios, improving both image quality and downstream vision tasks.
翻訳日:2024-02-13 15:56:45 公開日:2024-02-12
# SelfSwapper:シェイプ・アグノスティック・マスクド・オートエンコーダによる自己監督型顔スワップ

SelfSwapper: Self-Supervised Face Swapping via Shape Agnostic Masked AutoEncoder ( http://arxiv.org/abs/2402.07370v1 )

ライセンス: Link先を確認
Jaeseong Lee, Junha Hyung, Sohyun Jeong, Jaegul Choo(参考訳) フェイススワップは様々な用途で大きな注目を集めている。 従来のフェイススワップ手法の大半はシーソーゲームトレーニング方式に依存しており、モデルトレーニングの不安定さを招き、ターゲットのID漏洩問題による混合IDを持つ望ましくないサンプルが生じることが多い。 本稿では,顔スワッピングモデルトレーニングの強化を目的とした,新しい自己教師型アプローチであるShape Agnostic Masked AutoEncoder (SAMAE) トレーニングスキームを提案する。 本研究は,従来のシーソーゲームを回避し,その自己再構築訓練方式を通したクリア・グラウンド・真実を導入することで,従来のトレーニング手法の限界に対処した。 入力画像の顔領域を隠蔽し、学習された非絡み合ったアイデンティティと非同一性の特徴を利用することにより、ID漏洩を効果的に軽減する。 さらに, パーフォレーション・混乱やランダムメッシュ・スケーリングといった新しい手法を用いて形状不整合問題に取り組み, 両面を犠牲にすることなく, 同一性と非同一性の両方を保ちながら, 新たな最先端の手法を確立する。

Face swapping has gained significant attention for its varied applications. The majority of previous face swapping approaches have relied on the seesaw game training scheme, which often leads to the instability of the model training and results in undesired samples with blended identities due to the target identity leakage problem. This paper introduces the Shape Agnostic Masked AutoEncoder (SAMAE) training scheme, a novel self-supervised approach designed to enhance face swapping model training. Our training scheme addresses the limitations of traditional training methods by circumventing the conventional seesaw game and introducing clear ground truth through its self-reconstruction training regime. It effectively mitigates identity leakage by masking facial regions of the input images and utilizing learned disentangled identity and non-identity features. Additionally, we tackle the shape misalignment problem with new techniques including perforation confusion and random mesh scaling, and establishes a new state-of-the-art, surpassing other baseline methods, preserving both identity and non-identity attributes, without sacrificing on either aspect.
翻訳日:2024-02-13 15:56:26 公開日:2024-02-12
# diff-rntraj:道路網拘束軌道生成のための構造認識拡散モデル

Diff-RNTraj: A Structure-aware Diffusion Model for Road Network-constrained Trajectory Generation ( http://arxiv.org/abs/2402.07369v1 )

ライセンス: Link先を確認
Tonglong Wei, Youfang Lin, Shengnan Guo, Yan Lin, Yiheng Huang, Chenyang Xiang, Yuqing Bai, Menglu Ya, Huaiyu Wan(参考訳) 軌道データは車両の動きを記録するために様々な用途に不可欠である。 しかし、公開トラジェクトリデータセットは、トラジェクトリデータマイニングやトラジェクトリベースのアプリケーションの開発を妨げるプライバシー上の懸念のために、大規模に制限されている。 この問題に対処するために、データセットの規模を拡大するために、合成軌道を生成するいくつかの方法が提案されている。 しかし、既存の手法はすべて地理座標系において軌道を生成しており、実用上の利用には2つの制限がある。 1) 生成した軌道が道路上で制約されることを保証することができない。 2)道路関連情報の欠如。 本稿では,道路網上で道路関連情報を直接生成できる道路網拘束軌道(rntraj)生成の実用的応用ニーズを満たすための新しい問題を提案する。 RNTrajは、各点を離散的な道路セグメントと連続的な移動率で表すハイブリッドタイプのデータである。 RNTrajを生成するために、Diff-RNTrajと呼ばれる拡散モデルを設計する。 このモデルは、ハイブリッドRNTrajを連続表現に組み込むための事前学習戦略を組み込むことにより、連続拡散フレームワークを用いて、ハイブリッドRNTrajを効果的に扱うことができる。 サンプリング段階において、RNTrajデコーダは拡散モデルによって生成された連続表現をハイブリッドRNTraj形式にマッピングするように設計されている。 さらにdiff-rntrajは生成した軌道の空間的妥当性を高めるために新しい損失関数を導入する。 2つの実世界の軌跡データセットで実施された実験により,提案モデルの有効性が示された。

Trajectory data is essential for various applications as it records the movement of vehicles. However, publicly available trajectory datasets remain limited in scale due to privacy concerns, which hinders the development of trajectory data mining and trajectory-based applications. To address this issue, some methods for generating synthetic trajectories have been proposed to expand the scale of the dataset. However, all existing methods generate trajectories in the geographical coordinate system, which poses two limitations for their utilization in practical applications: 1) the inability to ensure that the generated trajectories are constrained on the road. 2) the lack of road-related information. In this paper, we propose a new problem to meet the practical application need, \emph{i.e.}, road network-constrained trajectory (RNTraj) generation, which can directly generate trajectories on the road network with road-related information. RNTraj is a hybrid type of data, in which each point is represented by a discrete road segment and a continuous moving rate. To generate RNTraj, we design a diffusion model called Diff-RNTraj. This model can effectively handle the hybrid RNTraj using a continuous diffusion framework by incorporating a pre-training strategy to embed hybrid RNTraj into continuous representations. During the sampling stage, a RNTraj decoder is designed to map the continuous representation generated by the diffusion model back to the hybrid RNTraj format. Furthermore, Diff-RNTraj introduces a novel loss function to enhance the spatial validity of the generated trajectories. Extensive experiments conducted on two real-world trajectory datasets demonstrate the effectiveness of the proposed model.
翻訳日:2024-02-13 15:56:05 公開日:2024-02-12
# インコンテキスト学習によるサブポピュレーション代表モデルの一般化評価

Assessing Generalization for Subpopulation Representative Modeling via In-Context Learning ( http://arxiv.org/abs/2402.07368v1 )

ライセンス: Link先を確認
Gabriel Simmons and Vladislav Savinov(参考訳) 本研究は,2016年と2020年のアメリカ国民選挙研究から得られたデータを用いて,経験的データから一般化する大規模言語モデル(llm)に基づくサブポピュレーション代表モデル(srms)の能力を評価する。 応答変数と人口統計群をまたいだ一般化について検討する。 経験的データによる条件付けによって全体のパフォーマンスが向上する一方で、コンテキスト内学習の利点は人口層によって大きく異なり、時には別の人口層のパフォーマンスを損なうこともあります。 SRMの文脈内学習の無意味な利点は、SRMを実装する実践者や、それに依存するかもしれない意思決定者にとって課題となる。 我々の研究は、忠実さだけでなく一般化もテストする多様なサブポピュレーションから得られたきめ細かいベンチマークの必要性を強調している。

This study evaluates the ability of Large Language Model (LLM)-based Subpopulation Representative Models (SRMs) to generalize from empirical data, utilizing in-context learning with data from the 2016 and 2020 American National Election Studies. We explore generalization across response variables and demographic subgroups. While conditioning with empirical data improves performance on the whole, the benefit of in-context learning varies considerably across demographics, sometimes hurting performance for one demographic while helping performance for others. The inequitable benefits of in-context learning for SRM present a challenge for practitioners implementing SRMs, and for decision-makers who might come to rely on them. Our work highlights a need for fine-grained benchmarks captured from diverse subpopulations that test not only fidelity but generalization.
翻訳日:2024-02-13 15:55:38 公開日:2024-02-12
# 期待最大化とターボ深部近似メッセージパッシングによるベイズ連関学習

Bayesian Federated Learning Via Expectation Maximization and Turbo Deep Approximate Message Passing ( http://arxiv.org/abs/2402.07366v1 )

ライセンス: Link先を確認
Wei Xu, An Liu, Yiting Zhang and Vincent Lau(参考訳) Federated Learning(FL)は、クライアントが分散トレーニングデータを持ち、中央サーバが集約とスケジューリングを処理する機械学習パラダイムである。 FLアルゴリズムは通常、確率勾配勾配勾配(SGD)を用いて局所モデルを訓練するクライアントを伴い、緩やかな収束や、最適以下の解では行き詰まる傾向にある。 本稿では,これらの欠点を回避するために,メッセージパッシングに基づくベイズ連関学習(bfl)フレームワークを提案する。具体的には,ディープニューラルネットワーク(dnn)の学習と圧縮の問題と,疎ベイズ推論問題として,グループスパースプリアーを用いて構造化モデル圧縮を実現する。 そこで本研究では,分散学習と圧縮を実現するために,期待最大化(em)とターボディープ近似メッセージパッシング(tdamp)を組み合わせた効率的なbflアルゴリズムであるemtdampを提案する。 中央サーバは局所的な後方分布を集約し、グローバル後方分布を更新、emに基づくハイパーパラメータを更新して収束を加速する。 クライアントはTDAMPを実行し、共同事前分布のDNN上の効率的な近似メッセージパッシングを実現する。 ボストンの住宅価格予測と手書き認識へのEMTDAMPの適用について詳述し、EMTDAMPの利点を実証するために、広範な数値的な結果を示す。

Federated learning (FL) is a machine learning paradigm where the clients possess decentralized training data and the central server handles aggregation and scheduling. Typically, FL algorithms involve clients training their local models using stochastic gradient descent (SGD), which carries drawbacks such as slow convergence and being prone to getting stuck in suboptimal solutions. In this work, we propose a message passing based Bayesian federated learning (BFL) framework to avoid these drawbacks.Specifically, we formulate the problem of deep neural network (DNN) learning and compression and as a sparse Bayesian inference problem, in which group sparse prior is employed to achieve structured model compression. Then, we propose an efficient BFL algorithm called EMTDAMP, where expectation maximization (EM) and turbo deep approximate message passing (TDAMP) are combined to achieve distributed learning and compression. The central server aggregates local posterior distributions to update global posterior distributions and update hyperparameters based on EM to accelerate convergence. The clients perform TDAMP to achieve efficient approximate message passing over DNN with joint prior distribution. We detail the application of EMTDAMP to Boston housing price prediction and handwriting recognition, and present extensive numerical results to demonstrate the advantages of EMTDAMP.
翻訳日:2024-02-13 15:55:25 公開日:2024-02-12
# 不均一エージェント間の相対性能基準下での最適投資のための深層学習法

A Deep Learning Method for Optimal Investment Under Relative Performance Criteria Among Heterogeneous Agents ( http://arxiv.org/abs/2402.07365v1 )

ライセンス: Link先を確認
Mathieu Lauri\`ere, Ludovic Tangpi, Xuchen Zhou(参考訳) グラフゲームは、重み付けされた相互作用グラフを通して相互作用する多くのプレイヤーとゲームを研究するために導入された。 限界に渡すことで、プレイヤーの連続体を持つゲームが得られ、その相互作用はグラフェンを介して行われる。 本稿では,相対的な性能基準下での最適投資を目的としたグラフゲームに着目し,深層学習手法を提案する。 この手法は,前向き確率微分方程式によるナッシュ平衡のキャラクタリゼーションと,確率微分ゲームのための機械学習アルゴリズムの最近の進歩の2つの重要な要素に基づいている。 2つの異なる金融モデルに関する数値実験を行う。 各モデルにおいて、相互作用の異なる構造に対応する複数のグラフェンの効果を比較する。

Graphon games have been introduced to study games with many players who interact through a weighted graph of interaction. By passing to the limit, a game with a continuum of players is obtained, in which the interactions are through a graphon. In this paper, we focus on a graphon game for optimal investment under relative performance criteria, and we propose a deep learning method. The method builds upon two key ingredients: first, a characterization of Nash equilibria by forward-backward stochastic differential equations and, second, recent advances of machine learning algorithms for stochastic differential games. We provide numerical experiments on two different financial models. In each model, we compare the effect of several graphons, which correspond to different structures of interactions.
翻訳日:2024-02-13 15:54:57 公開日:2024-02-12
# 分散量子ビット読み出しスキームにおける計測誘起状態遷移

Measurement-induced state transitions in dispersive qubit readout schemes ( http://arxiv.org/abs/2402.07360v1 )

ライセンス: Link先を確認
Konstantin N. Nesterov and Ivan V. Pechenezhskiy(参考訳) 分散読み出し方式は超伝導量子ビットの量子非破壊測定を可能にする。 読み出し電力の増大は読み出し時間を短縮し、状態判別誤差を低減するが、より高い非計算状態へのキュービット遷移を促進することができる。 これらの測定誘起状態遷移の開始を予測できることは、キュービット回路の最適化に役立ち、異なるキュービットタイプの読み出し性能を比較する手段を提供する。 着飾ったコヒーレント状態の概念に基づいて、状態遷移を起こすことなく、分散された読み出しに使用できる光子の最大数を決定するための2つの簡単な指標を考える。 我々は、任意の量子ビット型特異近似からのメトリックの独立性を示すために、fluxonium readoutにフォーカスする。 トランスモンやその他の超伝導量子ビットの分散読み出しは、同じ方法で普遍的に扱うことができる。

The dispersive readout scheme enables quantum non-demolition measurement of superconducting qubits. An increased readout power can shorten the readout time and reduce the state discrimination error but can promote qubit transitions into higher noncomputational states. The ability to predict the onset of these measurement-induced state transitions can aid the optimization of qubit circuits and provide means for comparing the readout performance of different qubit types. Building upon the concept of dressed coherent states, we consider two straightforward metrics for determining the maximum number of photons that can be used for dispersive readout without causing state transitions. We focus on the fluxonium readout to demonstrate the independence of the metrics from any qubit-type-specific approximations. The dispersive readout of transmons and other superconducting qubits can be treated universally in the same fashion.
翻訳日:2024-02-13 15:54:43 公開日:2024-02-12
# 高速かつ適応的な予測区間のための回帰木

Regression Trees for Fast and Adaptive Prediction Intervals ( http://arxiv.org/abs/2402.07357v1 )

ライセンス: Link先を確認
Luben M. C. Cabezas, Mateus P. Otto, Rafael Izbicki, Rafael B. Stern(参考訳) 予測モデルは間違いを犯す。 したがって、予測に関連する不確実性を定量化する必要がある。 コンフォーマル推論は、点予測に関する統計的に有効な予測領域を作成するための強力なツールとして現れてきたが、回帰問題への単純適用は非適応領域を生み出す。 新しい共形スコアは、しばしば量子的回帰器や条件密度推定器に依存し、この制限に対処することを目指している。 これらは予測バンドの作成に有用であるが、これらのスコアは任意の予測モデル周辺の不確かさを定量化するという当初の目標から外れている。 本稿では,局所カバレッジ保証を伴う回帰問題の予測区間を校正する新しいモデル非依存な手法を提案する。 我々のアプローチは条件付きカバレッジを近似する特徴空間の最も粗い分割を追求することに基づいている。 回帰木とランダムフォレストを適合度スコアでトレーニングすることで、この分割を作成する。 様々な適合度スコアや予測設定に適用し,シミュレーションや実世界のデータセットで確立されたベースラインよりも優れたスケーラビリティとパフォーマンスを示す。 標準のScikit-Lernインターフェースを使ってメソッドを実装するPythonパッケージロガートを提供する。

Predictive models make mistakes. Hence, there is a need to quantify the uncertainty associated with their predictions. Conformal inference has emerged as a powerful tool to create statistically valid prediction regions around point predictions, but its naive application to regression problems yields non-adaptive regions. New conformal scores, often relying upon quantile regressors or conditional density estimators, aim to address this limitation. Although they are useful for creating prediction bands, these scores are detached from the original goal of quantifying the uncertainty around an arbitrary predictive model. This paper presents a new, model-agnostic family of methods to calibrate prediction intervals for regression problems with local coverage guarantees. Our approach is based on pursuing the coarsest partition of the feature space that approximates conditional coverage. We create this partition by training regression trees and Random Forests on conformity scores. Our proposal is versatile, as it applies to various conformity scores and prediction settings and demonstrates superior scalability and performance compared to established baselines in simulated and real-world datasets. We provide a Python package locart that implements our methods using the standard scikit-learn interface.
翻訳日:2024-02-13 15:54:30 公開日:2024-02-12
# ガウスのMin-Max理論とその応用

A Novel Gaussian Min-Max Theorem and its Applications ( http://arxiv.org/abs/2402.07356v1 )

ライセンス: Link先を確認
Danil Akhtiamov, David Bosch, Reza Ghane, K Nithin Varma, Babak Hassibi(参考訳) ゴードンによる有名な結果により、ある不等式条件が満たされた場合、2つのガウス過程の最小挙動を比較することができる。 この結果の結果として、高次元統計学、機械学習、非滑らかな最適化、信号処理に多大な影響を及ぼしたガウスのmin-max(GMT)と凸ガウスのmin-max(CGMT)定理が導かれる。 どちらの定理も、ゴードンの比較不等式を満たす一対のガウス過程に依存している。 これまでにこれらの不等式を満たすガウス過程は発見されていない。 本稿では,このような新しいペアを同定する。 結果として得られる定理は、古典的gmt と cgmt の定理を、一次過程のガウス行列が iid 列を持つ場合から、独立だが非同一分布のものまで拡張する。 新しいCGMTは、多ソースガウス回帰問題や一般ガウス混合モデルの二項分類に応用される。

A celebrated result by Gordon allows one to compare the min-max behavior of two Gaussian processes if certain inequality conditions are met. The consequences of this result include the Gaussian min-max (GMT) and convex Gaussian min-max (CGMT) theorems which have had far-reaching implications in high-dimensional statistics, machine learning, non-smooth optimization, and signal processing. Both theorems rely on a pair of Gaussian processes, first identified by Slepian, that satisfy Gordon's comparison inequalities. To date, no other pair of Gaussian processes satisfying these inequalities has been discovered. In this paper, we identify such a new pair. The resulting theorems extend the classical GMT and CGMT Theorems from the case where the underlying Gaussian matrix in the primary process has iid rows to where it has independent but non-identically-distributed ones. The new CGMT is applied to the problems of multi-source Gaussian regression, as well as to binary classification of general Gaussian mixture models.
翻訳日:2024-02-13 15:54:11 公開日:2024-02-12
# 平均場定常分布からのサンプリング

Sampling from the Mean-Field Stationary Distribution ( http://arxiv.org/abs/2402.07355v1 )

ライセンス: Link先を確認
Yunbum Kook, Matthew S. Zhang, Sinho Chewi, Murat A. Erdogdu, Mufan (Bill) Li(参考訳) 本研究では,平均場SDEの定常分布からのサンプリングの複雑さ,あるいは相互作用項を含む確率測度空間上の関数の最小化の複雑さについて検討する。 本研究の主な知見は,(1)有限粒子系による平均場sdeの近似,(2)カオスの均一な時間伝播,(2)標準対数対数解析による有限粒子定常分布からのサンプリング,の2つの重要な側面を分離することである。 我々のアプローチは概念的にシンプルであり、その柔軟性はアルゴリズムと理論の両方に最先端の技術を取り入れることができる。 これにより、平均フィールド状態における特定の2層ニューラルネットワークを最適化する保証の改善など、多数の設定での保証が改善される。

We study the complexity of sampling from the stationary distribution of a mean-field SDE, or equivalently, the complexity of minimizing a functional over the space of probability measures which includes an interaction term. Our main insight is to decouple the two key aspects of this problem: (1) approximation of the mean-field SDE via a finite-particle system, via uniform-in-time propagation of chaos, and (2) sampling from the finite-particle stationary distribution, via standard log-concave samplers. Our approach is conceptually simpler and its flexibility allows for incorporating the state-of-the-art for both algorithms and theory. This leads to improved guarantees in numerous settings, including better guarantees for optimizing certain two-layer neural networks in the mean-field regime.
翻訳日:2024-02-13 15:53:50 公開日:2024-02-12
# Re-DiffiNet:拡散を用いた腫瘍分節の差のモデル化

Re-DiffiNet: Modeling discrepancies in tumor segmentation using diffusion ( http://arxiv.org/abs/2402.07354v1 )

ライセンス: Link先を確認
Tianyi Ren, Abhishek Sharma, Juampablo Heras Rivera, Harshitha Rebala, Ethan Honey, Agamdeep Chopra, Mehmet Kurt(参考訳) 腫瘍マージンの同定はグリオ芽腫の外科的決定に不可欠であり、神経外科医に信頼できる支援を提供する。 長年にわたって腫瘍セグメンテーションのためのディープラーニングアーキテクチャは改善されてきたが、臨床現場に適した完全自律システムの構築は、まだモデル予測が臨床応用に望まれる精度と一般化のレベルに達していないため、大きな課題である。 生成的モデリング技術は近年大きく改善されている。 具体的には、GAN(Generative Adversarial Networks)とDDPM(Denoising-Diffusion-based Model)を使用して、より少ないアーティファクトとより微細な属性で高品質な画像を生成する。 本稿では, DDPMを用いて, U-Netのようなセグメンテーションモデルの出力と基底真実との相違をモデル化するRe-Diffinetというフレームワークを紹介する。 差分を明示的にモデル化することにより、最新のU-Netセグメンテーションモデルと比較して、Diceスコアの0.55\%、HD95の16.28\%が5倍以上のクロスバリデーションから平均的に改善されていることを示す。

Identification of tumor margins is essential for surgical decision-making for glioblastoma patients and provides reliable assistance for neurosurgeons. Despite improvements in deep learning architectures for tumor segmentation over the years, creating a fully autonomous system suitable for clinical floors remains a formidable challenge because the model predictions have not yet reached the desired level of accuracy and generalizability for clinical applications. Generative modeling techniques have seen significant improvements in recent times. Specifically, Generative Adversarial Networks (GANs) and Denoising-diffusion-based models (DDPMs) have been used to generate higher-quality images with fewer artifacts and finer attributes. In this work, we introduce a framework called Re-Diffinet for modeling the discrepancy between the outputs of a segmentation model like U-Net and the ground truth, using DDPMs. By explicitly modeling the discrepancy, the results show an average improvement of 0.55\% in the Dice score and 16.28\% in HD95 from cross-validation over 5-folds, compared to the state-of-the-art U-Net segmentation model.
翻訳日:2024-02-13 15:53:35 公開日:2024-02-12
# データ配信に基づくカリキュラム学習

Data Distribution-based Curriculum Learning ( http://arxiv.org/abs/2402.07352v1 )

ライセンス: Link先を確認
Shonal Chaudhry and Anuraganand Sharma(参考訳) トレーニングサンプルの順序は、分類器のパフォーマンスに大きな影響を与える可能性がある。 カリキュラム学習(Curriculum learning)は、トレーニングサンプルを簡単から困難に注文する方法である。 本稿では,DCL(Data Distribution-based Curriculum Learning)と呼ばれるカリキュラム学習手法を提案する。 DDCLはデータセットのデータ分散を使用して、サンプルの順序に基づいてカリキュラムを構築する。 DDCL (Density) とDDCL (Point) という2種類のスコアリング手法を用いてトレーニングサンプルのスコアリングを行い、トレーニング順序を決定する。 DDCL(Density)はサンプル密度を使ってスコアを割り当て、DDCL(Point)はスコアのユークリッド距離を利用する。 提案手法をニューラルネットワーク, 支持ベクトルマシン, ランダム森林分類器を用いて, 複数のデータセットで実験することにより評価する。 評価の結果,DDCLの適用により,カリキュラムのない標準評価と比較して,すべてのデータセットの平均分類精度が向上することがわかった。 さらに,1つの学習エポックにおける誤差損失の解析により,カリキュラムなしの手法でDDCLを使用する場合,収束が速いことが判明した。

The order of training samples can have a significant impact on the performance of a classifier. Curriculum learning is a method of ordering training samples from easy to hard. This paper proposes the novel idea of a curriculum learning approach called Data Distribution-based Curriculum Learning (DDCL). DDCL uses the data distribution of a dataset to build a curriculum based on the order of samples. Two types of scoring methods known as DDCL (Density) and DDCL (Point) are used to score training samples thus determining their training order. DDCL (Density) uses the sample density to assign scores while DDCL (Point) utilises the Euclidean distance for scoring. We evaluate the proposed DDCL approach by conducting experiments on multiple datasets using a neural network, support vector machine and random forest classifier. Evaluation results show that the application of DDCL improves the average classification accuracy for all datasets compared to standard evaluation without any curriculum. Moreover, analysis of the error losses for a single training epoch reveals that convergence is faster when using DDCL over the no curriculum method.
翻訳日:2024-02-13 15:53:11 公開日:2024-02-12
# チャンス制約最適化のための等角的予測計画法

Conformal Predictive Programming for Chance Constrained Optimization ( http://arxiv.org/abs/2402.07407v1 )

ライセンス: Link先を確認
Yiqi Zhao, Xinyi Yu, Jyotirmoy V. Deshmukh, Lars Lindemann(参考訳) 共形予測 (cp) の進歩に動機づけられ, 確率制約付き最適化 (cco) 問題の解法である共形予測計画 (cpp) を提案する。 CPPはこれらのランダムパラメータのサンプルと、CPの中心である量子補題を用いて、CCO問題を決定論的最適化問題に変換する。 そこで我々は,(1)量子化を線形プログラムとして記述し,そのKKT条件 (CPP-KKT) と(2)混合整数プログラミング (CPP-MIP) の2つのトラクタブルなCPPの再構成を提案する。 CPPは、例えばサンプル近似やシナリオアプローチなど、既存のアプローチと概念的に異なるCCO問題に対して、限界確率的実現可能性を保証する。 サンプル近似手法とアルゴリズム的類似性について検討する一方で、CPPの強みはCPの異なる変種を組み込むように容易に拡張できることを強調した。 これを説明するために,CCO問題の不確実なパラメータの分布変化に対処する頑健な共形予測プログラムを提案する。

Motivated by the advances in conformal prediction (CP), we propose conformal predictive programming (CPP), an approach to solve chance constrained optimization (CCO) problems, i.e., optimization problems with nonlinear constraint functions affected by arbitrary random parameters. CPP utilizes samples from these random parameters along with the quantile lemma -- which is central to CP -- to transform the CCO problem into a deterministic optimization problem. We then present two tractable reformulations of CPP by: (1) writing the quantile as a linear program along with its KKT conditions (CPP-KKT), and (2) using mixed integer programming (CPP-MIP). CPP comes with marginal probabilistic feasibility guarantees for the CCO problem that are conceptually different from existing approaches, e.g., the sample approximation and the scenario approach. While we explore algorithmic similarities with the sample approximation approach, we emphasize that the strength of CPP is that it can easily be extended to incorporate different variants of CP. To illustrate this, we present robust conformal predictive programming to deal with distribution shifts in the uncertain parameters of the CCO problem.
翻訳日:2024-02-13 15:47:21 公開日:2024-02-12
# ドルか? スペイン語と英語によるLLMのバイリンガル化

D\'olares or Dollars? Unraveling the Bilingual Prowess of Financial LLMs Between Spanish and English ( http://arxiv.org/abs/2402.07405v1 )

ライセンス: Link先を確認
Xiao Zhang, Ruoyu Xiang, Chenhan Yuan, Duanyu Feng, Weiguang Han, Alejandro Lopez-Lira, Xiao-Yang Liu, Sophia Ananiadou, Min Peng, Jimin Huang, Qianqian Xie(参考訳) スペインの金融業界における重要な役割にもかかわらず、スペイン語の金融自然言語処理(NLP)や、特に大きな言語モデル(LLM)の時代における応用研究において、明らかなギャップが存在する。 このギャップを埋めるため,我々は,インストラクションデータセット,微調整されたllm,スペイン語と英語による金融llmの評価ベンチマークを確立する最初のバイリンガルフレームワークであるtois\'on de oroを発表した。 7つのタスクをカバーする15のデータセットから144k以上のスペイン語と英語のサンプルを含む厳密にキュレートされたバイリンガル命令データセットを構築した。 そこで本稿では,バイリンガル金融アプリケーション用に設計されたLLMであるFinMA-ESを紹介する。 FLARE-ESは9つのタスクをカバーする21のデータセットを持つ最初の総合的バイリンガル評価ベンチマークである。 FLARE-ESベンチマークの結果は、既存のLLMにおいて、多言語のパフォーマンスギャップとバイアスを顕著に示している。 FinMA-ESモデルは、戦略的指導のチューニングと多様な言語資源からのデータの活用により、スペインの金融業務におけるGPT-4などのSOTA LLMを上回り、言語間移動による肯定的な影響を浮き彫りにした。 すべてのデータセット、モデル、ベンチマークがリリースされた。

Despite Spanish's pivotal role in the global finance industry, a pronounced gap exists in Spanish financial natural language processing (NLP) and application studies compared to English, especially in the era of large language models (LLMs). To bridge this gap, we unveil Tois\'on de Oro, the first bilingual framework that establishes instruction datasets, finetuned LLMs, and evaluation benchmark for financial LLMs in Spanish joint with English. We construct a rigorously curated bilingual instruction dataset including over 144K Spanish and English samples from 15 datasets covering 7 tasks. Harnessing this, we introduce FinMA-ES, an LLM designed for bilingual financial applications. We evaluate our model and existing LLMs using FLARE-ES, the first comprehensive bilingual evaluation benchmark with 21 datasets covering 9 tasks. The FLARE-ES benchmark results reveal a significant multilingual performance gap and bias in existing LLMs. FinMA-ES models surpass SOTA LLMs such as GPT-4 in Spanish financial tasks, due to strategic instruction tuning and leveraging data from diverse linguistic resources, highlighting the positive impact of cross-linguistic transfer. All our datasets, models, and benchmarks have been released.
翻訳日:2024-02-13 15:46:44 公開日:2024-02-12
# AIによる多領域決定分析の強化:自動決定支援のための解析階層プロセスとGPT-4の統合

Enhancing Multi-Criteria Decision Analysis with AI: Integrating Analytic Hierarchy Process and GPT-4 for Automated Decision Support ( http://arxiv.org/abs/2402.07404v1 )

ライセンス: Link先を確認
Igor Svoboda, Dmytro Lande(参考訳) 本稿では,AHP(Analytic Hierarchy Process)とGPT-4(Generative Pre-trained Transformer 4)大言語モデル(LLM)を組み込んだ新たなフレームワークを提案する。 仮想専門家としてgpt-4自律エージェントの能力を利用することで,意思決定プロセスを自動化し,効率と信頼性の両立を図る。 この新しいアプローチは、高度な意思決定分析にLLMを活用することに焦点を当て、従来の意思決定モデルと最先端AIテクノロジの相乗効果を強調している。 我々の革新的な方法論は、複雑な意思決定シナリオにAI駆動エージェントを使用することの大幅な進歩を示し、戦略的サイバーセキュリティアプリケーションにおけるAIの重要性を強調します。 その結果, AHP と LLM を組み合わせることにより,サイバーセキュリティなどにおける知的意思決定支援システムの新たなパラダイムが確立された。

Our study presents a new framework that incorporates the Analytic Hierarchy Process (AHP) and Generative Pre-trained Transformer 4 (GPT-4) large language model (LLM), bringing novel approaches to cybersecurity Multiple-criteria Decision Making (MCDA). By utilizing the capabilities of GPT-4 autonomous agents as virtual experts, we automate the decision-making process, enhancing both efficiency and reliability. This new approach focuses on leveraging LLMs for sophisticated decision analysis, highlighting the synergy between traditional decision-making models and cutting-edge AI technologies. Our innovative methodology demonstrates significant advancements in using AI-driven agents for complex decision-making scenarios, highlighting the importance of AI in strategic cybersecurity applications. The findings reveal the transformative potential of combining AHP and LLMs, establishing a new paradigm for intelligent decision support systems in cybersecurity and beyond.
翻訳日:2024-02-13 15:46:09 公開日:2024-02-12
# より具体的に言うと:3d u-netとその変種に基づく新しい不確実性に基づく気道セグメンテーションアプリケーション

Make it more specific: A novel uncertainty based airway segmentation application on 3D U-Net and its variants ( http://arxiv.org/abs/2402.07403v1 )

ライセンス: Link先を確認
Shiyi Wang, Yang Nan, Felder Federico N, Sheng Zhang, Walsh Simon L F, Guang Yang(参考訳) それぞれの医療セグメンテーションタスクは、そのシナリオに基づいて特定のAIアルゴリズムで考慮し、最も正確な予測モデルを得ることができるようにすべきである。 医学的セグメンテーションにおける最も一般的なアルゴリズムである3d u-netとその変種は、肺気管セグメンテーションのタスクを直接実装することができるが、気管の特別な木のような構造を考慮せず、そのセグメンテーション精度を改善する余地があることを示唆している。 したがって、最先端のDLアルゴリズムがバニラ3D U-Net構造であるため、肺気道セグメンテーションにおいて特別な自然な画像モダリティを持つ様々なパフォーマンス向上モジュールは導入されないため、研究ギャップが存在する。 本稿では, 分岐レベルU-Net(B-UNet)と分岐レベルCE-UNet(B-CE-UNet)の2つの異なるネットワーク構造を提案し, 予測結果を同じデータセットと比較した。 特に、二つのネットワークは、気道の細かい分岐端の特徴を学ぶために、分岐損失と中央線損失を追加する。 不確実性推定アルゴリズムも、自信のある予測を達成し、モデル全体の信頼性を高めるために含まれています。 また, 肺気管の最大接続率に基づく予測を計算し, 分節精細化と刈り取りのための後処理中に抽出した。

Each medical segmentation task should be considered with a specific AI algorithm based on its scenario so that the most accurate prediction model can be obtained. The most popular algorithms in medical segmentation, 3D U-Net and its variants, can directly implement the task of lung trachea segmentation, but its failure to consider the special tree-like structure of the trachea suggests that there is much room for improvement in its segmentation accuracy. Therefore, a research gap exists because a great amount of state-of-the-art DL algorithms are vanilla 3D U-Net structures, which do not introduce the various performance-enhancing modules that come with special natural image modality in lung airway segmentation. In this paper, we proposed two different network structures Branch-Level U-Net (B-UNet) and Branch-Level CE-UNet (B-CE-UNet) which are based on U-Net structure and compared the prediction results with the same dataset. Specially, both of the two networks add branch loss and central line loss to learn the feature of fine branch endings of the airways. Uncertainty estimation algorithms are also included to attain confident predictions and thereby, increase the overall trustworthiness of our whole model. In addition, predictions of the lung trachea based on the maximum connectivity rate were calculated and extracted during post-processing for segmentation refinement and pruning.
翻訳日:2024-02-13 15:45:15 公開日:2024-02-12
# BDIQA:心の理論を通して認知推論を探求するビデオ質問のための新しいデータセット

BDIQA: A New Dataset for Video Question Answering to Explore Cognitive Reasoning through Theory of Mind ( http://arxiv.org/abs/2402.07402v1 )

ライセンス: Link先を確認
Yuanyuan Mao, Xin Lin, Qin Ni, Liang He(参考訳) 認知知の基本的な構成要素として、心の理論(ToM)は、AIを人間の思考プロセスに近づき、それによって人間との相互作用と協調を強化する。 特に、複雑なシーンにおけるモデルの理解を大幅に改善することができる。 しかし、現在のvideo question answer(videoqa)データセットは、イベント内の因果推論を研究することに焦点を当てている。 そのため、ビデオQA領域内でのToM推論タスクの開発が不足している。 本稿では,ToMの文脈におけるビデオQAモデルの認知的推論能力に関する最初のベンチマークであるBDIQAを提案する。 BDIQAは子供のToMの認知発達にインスパイアされ、データセットやタスクにおけるマシンToMの現在の欠陥に対処する。 具体的には、単純なシナリオと複雑なシナリオの両方において、BDI(Belief, Desire and Intention)推論を評価する、2つの難易度でタスクを提供する。 ビデオQAの主流手法の評価を行い、ゼロショット、少数ショット、教師あり学習を用いてその能力を診断する。 認知的推論タスクにおける事前学習モデルの性能は相容れないままである。 この課題に対処するため、我々は徹底的な分析と実験を行い、最終的にはアブレーション分析に由来する認知的推論を強化するための2つのガイドラインを提示する。

As a foundational component of cognitive intelligence, theory of mind (ToM) can make AI more closely resemble human thought processes, thereby enhancing their interaction and collaboration with human. In particular, it can significantly improve a model's comprehension of videos in complex scenes. However, current video question answer (VideoQA) datasets focus on studying causal reasoning within events few of them genuinely incorporating human ToM. Consequently, there is a lack of development in ToM reasoning tasks within the area of VideoQA. This paper presents BDIQA, the first benchmark to explore the cognitive reasoning capabilities of VideoQA models in the context of ToM. BDIQA is inspired by the cognitive development of children's ToM and addresses the current deficiencies in machine ToM within datasets and tasks. Specifically, it offers tasks at two difficulty levels, assessing Belief, Desire and Intention (BDI) reasoning in both simple and complex scenarios. We conduct evaluations on several mainstream methods of VideoQA and diagnose their capabilities with zero shot, few shot and supervised learning. We find that the performance of pre-trained models on cognitive reasoning tasks remains unsatisfactory. To counter this challenge, we undertake thorough analysis and experimentation, ultimately presenting two guidelines to enhance cognitive reasoning derived from ablation analysis.
翻訳日:2024-02-13 15:44:22 公開日:2024-02-12
# LLMはFact-checkingに忠実な説明をもたらすか? マルチエージェントによるFact-Checking

Can LLMs Produce Faithful Explanations For Fact-checking? Towards Faithful Explainable Fact-Checking via Multi-Agent Debate ( http://arxiv.org/abs/2402.07401v1 )

ライセンス: Link先を確認
Kyungha Kim, Sangyun Lee, Kung-Hsiang Huang, Hou Pong Chan, Manling Li, Heng Ji(参考訳) ファクトチェック研究は検証を広範囲に検討してきたが、自然言語による説明の生成はユーザの信頼に不可欠である。 大言語モデル(LLM)はテキスト生成に優れるが、事実チェックにおける忠実な説明を生成する能力は依然として過小評価されている。 本研究は,LSMがこのような説明を生成できる能力について検討し,ゼロショットプロンプトがしばしば不信感を引き起こすことを発見した。 これらの課題に対処するために,複数のllmを多様な役割を持つエージェントとして利用するマルチエージェント・ディベート・リフレクション・リファインメント(madr)フレームワークを提案する。 MADRは、最終的な説明が厳密な検証を行い、不誠実な要素の可能性を著しく低減し、提示された証拠と密接に一致させることを保証する。 実験の結果,MADR は LLM の生成した説明の信頼性を向上し,これらの説明の信頼性と信頼性を向上することが示された。

Fact-checking research has extensively explored verification but less so the generation of natural-language explanations, crucial for user trust. While Large Language Models (LLMs) excel in text generation, their capability for producing faithful explanations in fact-checking remains underexamined. Our study investigates LLMs' ability to generate such explanations, finding that zero-shot prompts often result in unfaithfulness. To address these challenges, we propose the Multi-Agent Debate Refinement (MADR) framework, leveraging multiple LLMs as agents with diverse roles in an iterative refining process aimed at enhancing faithfulness in generated explanations. MADR ensures that the final explanation undergoes rigorous validation, significantly reducing the likelihood of unfaithful elements and aligning closely with the provided evidence. Experimental results demonstrate that MADR significantly improves the faithfulness of LLM-generated explanations to the evidence, advancing the credibility and trustworthiness of these explanations.
翻訳日:2024-02-13 15:43:59 公開日:2024-02-12
# vislinginstruct: 自律的命令最適化によるマルチモーダル言語モデルにおけるゼロショット学習の促進

VisLingInstruct: Elevating Zero-Shot Learning in Multi-Modal Language Models with Autonomous Instruction Optimization ( http://arxiv.org/abs/2402.07398v1 )

ライセンス: Link先を確認
Dongsheng Zhu, Xunzhu Tang, Weidong Han, Jinghui Lu, Yukun Zhao, Guoliang Xing, Junfeng Wang, Dawei Yin(参考訳) 本稿では,ゼロショット学習におけるマルチモーダル言語モデル(MMLM)の新たなアプローチであるVisLingInstructを提案する。 現在のMMLMは、マルチモーダルタスクにおいて印象的なゼロショット能力を示すが、その性能は命令の品質に大きく依存する。 VisLingInstructは、インコンテクスト学習を通じて命令文を自律的に評価し、最適化することで、MMLMにおける視覚知覚と言語表現の相乗効果を改善する。 この指導の進展とともに、MMLMの視覚特徴抽出モジュールを最適化し、さらにテキストキューに対する応答性を高めた。 flant5 と vicuna に基づく mmlms の包括的実験により, vislinginstruct が視覚マルチモーダルタスクにおけるゼロショット性能を大幅に改善することを示した。 特に、TextVQAとHatefulMemesデータセットの先行技術よりも13.1%と9%の精度向上を実現している。

This paper presents VisLingInstruct, a novel approach to advancing Multi-Modal Language Models (MMLMs) in zero-shot learning. Current MMLMs show impressive zero-shot abilities in multi-modal tasks, but their performance depends heavily on the quality of instructions. VisLingInstruct tackles this by autonomously evaluating and optimizing instructional texts through In-Context Learning, improving the synergy between visual perception and linguistic expression in MMLMs. Alongside this instructional advancement, we have also optimized the visual feature extraction modules in MMLMs, further augmenting their responsiveness to textual cues. Our comprehensive experiments on MMLMs, based on FlanT5 and Vicuna, show that VisLingInstruct significantly improves zero-shot performance in visual multi-modal tasks. Notably, it achieves a 13.1% and 9% increase in accuracy over the prior state-of-the-art on the TextVQA and HatefulMemes datasets.
翻訳日:2024-02-13 15:43:40 公開日:2024-02-12
# AIを活用してアフリカ全土の科学とコンピューティング教育を推進 - 進歩、挑戦、機会

Leveraging AI to Advance Science and Computing Education across Africa: Progress, Challenges, and Opportunities ( http://arxiv.org/abs/2402.07397v1 )

ライセンス: Link先を確認
George Boateng(参考訳) アフリカ大陸全体で、学生はコンピュータ、インターネット接続性、信頼性のある電気、資格のある教師の不足といった重要なリソースへのアクセスを制限するなど、様々な教育上の課題に取り組んだ。 これらの課題にもかかわらず、BERTやGPT-4といったAIの最近の進歩は、教育の進歩の可能性を示している。 しかし、これらのAIツールは西洋の教育設定の文脈内で主にデプロイされ評価される傾向にあり、アフリカの学生が直面しているユニークなニーズと課題に限定的に注意が向けられている。 In this book chapter, we describe our works developing and deploying AI in Education tools in Africa: (1) SuaCode, an AI-powered app that enables Africans to learn to code using their smartphones, (2) AutoGrad, an automated grading, and feedback tool for graphical and interactive coding assignments, (3) a tool for code plagiarism detection that shows visual evidence of plagiarism, (4) Kwame, a bilingual AI teaching assistant for coding courses, (5) Kwame for Science, a web-based AI teaching assistant that provides instant answers to students' science questions and (6) Brilla AI, an AI contestant for the National Science and Maths Quiz competition. 我々は、AIを使ってアフリカ全土の科学とコンピューティング教育を前進させる課題と可能性について論じる。

Across the African continent, students grapple with various educational challenges, including limited access to essential resources such as computers, internet connectivity, reliable electricity, and a shortage of qualified teachers. Despite these challenges, recent advances in AI such as BERT, and GPT-4 have demonstrated their potential for advancing education. Yet, these AI tools tend to be deployed and evaluated predominantly within the context of Western educational settings, with limited attention directed towards the unique needs and challenges faced by students in Africa. In this book chapter, we describe our works developing and deploying AI in Education tools in Africa: (1) SuaCode, an AI-powered app that enables Africans to learn to code using their smartphones, (2) AutoGrad, an automated grading, and feedback tool for graphical and interactive coding assignments, (3) a tool for code plagiarism detection that shows visual evidence of plagiarism, (4) Kwame, a bilingual AI teaching assistant for coding courses, (5) Kwame for Science, a web-based AI teaching assistant that provides instant answers to students' science questions and (6) Brilla AI, an AI contestant for the National Science and Maths Quiz competition. We discuss challenges and potential opportunities to use AI to advance science and computing education across Africa.
翻訳日:2024-02-13 15:43:21 公開日:2024-02-12
# モデル予測制御戦略によるロバスト量子制御

Robust Quantum Control via a Model Predictive Control Strategy ( http://arxiv.org/abs/2402.07396v1 )

ライセンス: Link先を確認
Yunyan Lee, Ian R. Petersen, Daoyi Dong(参考訳) 本稿では,境界不確実性を考慮した2レベル量子システムに対する時間最適モデル予測制御(tompc)を用いたロバスト制御戦略を提案する。 本手法では, 有限地平線上において, 量子系を基準として制御場を最適化し, 第一時間間隔の最適制御を適用し, 不確実な系に射影測定を行う。 次の時間間隔の新しい制御フィールドは、測定結果に基づいて反復的に最適化される。 TOMPCアルゴリズムの安定性を保証するための理論的結果を示す。 また,2段階システムの制御におけるTOMPC戦略の堅牢性と収束率も特徴付ける。 数値シミュレーションにより、不確実性の存在下では、量子tompcアルゴリズムはロバスト性を高め、高い忠実度で状態を所望の状態に制御できることが示される。 この研究は、量子制御におけるモデル予測制御の進歩に貢献し、量子技術の実用化におけるその可能性を探る。

This article presents a robust control strategy using Time-Optimal Model Predictive Control (TOMPC) for a two-level quantum system subject to bounded uncertainties. In this method, the control field is optimized over a finite horizon using a nominal quantum system as the reference and then the optimal control for the first time interval is applied and a projective measurement is implemented on the uncertain system. The new control field for the next time interval will be iteratively optimized based on the measurement result. We present theoretical results to guarantee the stability of the TOMPC algorithm. We also characterize the robustness and the convergence rate of the TOMPC strategy for the control of two-level systems. Numerical simulations further demonstrate that, in the presence of uncertainties, our quantum TOMPC algorithm enhances robustness and steers the state to the desired state with high fidelity. This work contributes to the progress of Model Predictive Control in quantum control and explores its potential in practical applications of quantum technology.
翻訳日:2024-02-13 15:43:01 公開日:2024-02-12
# TeMPO: 小型スロー光電気光学変調器を用いたエッジAIのための効率的な時間多重動的フォトニックテンソルコア

TeMPO: Efficient Time-Multiplexed Dynamic Photonic Tensor Core for Edge AI with Compact Slow-Light Electro-Optic Modulator ( http://arxiv.org/abs/2402.07393v1 )

ライセンス: Link先を確認
Meng Zhang, Dennis Yin, Nicholas Gangi, Amir Begovi\'c, Alexander Chen, Zhaoran Rena Huang, Jiaqi Gu(参考訳) 電子フォトニックコンピューティングシステムは、特にリソース制限されたエッジプラットフォーム上のリアルタイムで低エネルギーのディープニューラルネットワーク(DNN)推論タスクにおいて、光学の優れた計算速度と効率のために、エネルギー効率のよい人工知能(AI)加速タスクにおいて大きなポテンシャルを提供する。 しかし、鋳造可能なデバイスと従来のシステムアーキテクチャに基づく現在の光ニューラルアクセラレーションは、高度にカスタマイズされた電子アクセラレーションと比較して、依然として性能のギャップに遭遇している。 ドメイン特殊化の欠如による性能ギャップを埋めるため,TMPOと呼ばれる時間多重化動的フォトニックテンソルアクセラレータを,クロス層デバイス/回路/アーキテクチャのカスタマイズにより提案する。 デバイスレベルでは、試験的なデモンストレーション、光スプリッター、および入力エンコーディングとドット製品計算におけるフットプリントと電力を大幅に削減する位相シフト器を備えた、低光電気光学変調器を含む、ファウンデーション互換でカスタマイズされたフォトニックデバイスを提供する。 回路レベルでは、部分積は並列光電流アグリゲーション、軽量容量時間積分、シーケンシャルデジタル和によって階層的に蓄積され、アナログ-デジタル変換ボトルネックをかなり軽減する。 また、高速なハードウェア共有を最大化するマルチタイルマルチコアアーキテクチャも採用しています。 さまざまなエッジaiワークロードにまたがって、tempoはデジタル比較可能なタスク精度と優れた量子化/ノイズ耐性を提供します。 368.6 TOPSのピーク性能、22.3 TOPS/Wエネルギー効率、1.2 TOPS/mm$^2$計算密度を実現し、エッジAIハードウェアにおけるParetoフロンティアを推し進める。 この研究は、クロスレイヤーのコデザインとドメイン固有のカスタマイズの力を示し、将来の電子フォトニック加速器にさらなる性能と効率をもたらす道を開く。

Electronic-photonic computing systems offer immense potential in energy-efficient artificial intelligence (AI) acceleration tasks due to the superior computing speed and efficiency of optics, especially for real-time, low-energy deep neural network (DNN) inference tasks on resource-restricted edge platforms. However, current optical neural accelerators based on foundry-available devices and conventional system architecture still encounter a performance gap compared to highly customized electronic counterparts. To bridge the performance gap due to lack of domain specialization, we present a time-multiplexed dynamic photonic tensor accelerator, dubbed TeMPO, with cross-layer device/circuit/architecture customization. At the device level, we present foundry-compatible, customized photonic devices, including a slow-light electro-optic modulator with experimental demonstration, optical splitters, and phase shifters that significantly reduce the footprint and power in input encoding and dot-product calculation. At the circuit level, partial products are hierarchically accumulated via parallel photocurrent aggregation, lightweight capacitive temporal integration, and sequential digital summation, considerably relieving the analog-to-digital conversion bottleneck. We also employ a multi-tile, multi-core architecture to maximize hardware sharing for higher efficiency. Across diverse edge AI workloads, TeMPO delivers digital-comparable task accuracy with superior quantization/noise tolerance. We achieve a 368.6 TOPS peak performance, 22.3 TOPS/W energy efficiency, and 1.2 TOPS/mm$^2$ compute density, pushing the Pareto frontier in edge AI hardware. This work signifies the power of cross-layer co-design and domain-specific customization, paving the way for future electronic-photonic accelerators with even greater performance and efficiency.
翻訳日:2024-02-13 15:42:47 公開日:2024-02-12
# 多腕バンドにおける再現性は漸近的に自由である

Replicability is Asymptotically Free in Multi-armed Bandits ( http://arxiv.org/abs/2402.07391v1 )

ライセンス: Link先を確認
Junpei Komiyama, Shinji Ito, Yuichi Yoshida, Souta Koshino(参考訳) この仕事の動機は、再現可能な機械学習の需要の増加にある。 確率的マルチアームバンディット問題について検討する。 特に,アルゴリズムの動作列がデータセット内に存在するランダム性に影響されないことを高い確率で保証するレプリケーブルアルゴリズムを考える。 我々は、既存のアルゴリズムは、$O(1/\rho^2)が非複製性アルゴリズムよりも後悔の度合いが高いことを観察する。 しかし、この追加コストは、与えられた$\rho$に対して時間的地平線$T$が十分に大きいときに必要であることを示す。 1つの腕にコミットする前に一様に腕を引くexplore-then-commitアルゴリズムを提案する。 さらに,各位相の終端に準最適アームを除去する逐次除去アルゴリズムについて検討する。 これらのアルゴリズムの複製性を確保するため、ランダム性を意思決定プロセスに組み込む。 また,線形バンディット問題への連続除去の利用も拡張する。 これらのアルゴリズムの解析には,非複製の可能性を制限するための原理的手法を提案する。 このアプローチは、既存の研究が暗黙的に従ったステップを解明する。 さらに、2本腕のレプリカブルバンディット問題に対する最初の下界を導出し、提案アルゴリズムの最適性を2本腕の場合に最大$\log\log T$ factorまで求める。

This work is motivated by the growing demand for reproducible machine learning. We study the stochastic multi-armed bandit problem. In particular, we consider a replicable algorithm that ensures, with high probability, that the algorithm's sequence of actions is not affected by the randomness inherent in the dataset. We observe that existing algorithms require $O(1/\rho^2)$ times more regret than nonreplicable algorithms, where $\rho$ is the level of nonreplication. However, we demonstrate that this additional cost is unnecessary when the time horizon $T$ is sufficiently large for a given $\rho$, provided that the magnitude of the confidence bounds is chosen carefully. We introduce an explore-then-commit algorithm that draws arms uniformly before committing to a single arm. Additionally, we examine a successive elimination algorithm that eliminates suboptimal arms at the end of each phase. To ensure the replicability of these algorithms, we incorporate randomness into their decision-making processes. We extend the use of successive elimination to the linear bandit problem as well. For the analysis of these algorithms, we propose a principled approach to limiting the probability of nonreplication. This approach elucidates the steps that existing research has implicitly followed. Furthermore, we derive the first lower bound for the two-armed replicable bandit problem, which implies the optimality of the proposed algorithms up to a $\log\log T$ factor for the two-armed case.
翻訳日:2024-02-13 15:42:13 公開日:2024-02-12
# アルゴリズム性能に対する仮定フリーテストの限界

The Limits of Assumption-free Tests for Algorithm Performance ( http://arxiv.org/abs/2402.07388v1 )

ライセンス: Link先を確認
Yuetian Luo and Rina Foygel Barber(参考訳) アルゴリズムの評価と比較は、機械学習と統計学における基本的な問題です -- 特定のモデリングタスクでアルゴリズムはどの程度の性能を持ち、どのアルゴリズムが最適か? アルゴリズムの性能を評価するために多くの手法が開発され、しばしばクロスバリデーション型の戦略に基づいて、データの異なるサブセットに対する関心のアルゴリズムを再訓練し、保持されたデータポイントでそのパフォーマンスを評価する。 このような方法が広く用いられているにもかかわらず、これらの手法の理論的性質はまだ完全には理解されていない。 本研究では,これらの疑問に限られたデータで答える基本的な限界について検討する。 特に、2つの質問を区別する: アルゴリズムが、サイズが$n$のトレーニングセットから学習する問題に対して、アルゴリズムが$a$、サイズが$n$のトレーニングデータセットで$a$を実行して生成された特定の適合モデルがどの程度優れているか? 我々の主な結果は、アルゴリズムの$A$を 'black box'' として扱うテスト(つまり、$A$の振る舞いを経験的にしか研究できない)に対して、利用可能なデータポイントの数が $n$ のサンプルサイズの $n$ よりも何倍も大きい場合を除いて、$A$のパフォーマンスを推論する能力に根本的な制限があることを証明している。 (一方で、特定の適合モデルの性能を評価することは、ホールドアウトデータセットが利用可能である限り簡単であり、つまり、$N-n$が小さすぎる限りである)。 また,アルゴリズム安定性の仮定が,この困難さを回避できるかどうかを問う。 驚くべきことに、これはそうではない:同じ硬さの結果は、収まるモデルが本質的に非ランダムな高安定性な状態を除いても、$A$のパフォーマンスを評価する問題に依然として当てはまる。 最後に、複数のアルゴリズムを比較する問題に対して、同様の硬度結果を確立する。

Algorithm evaluation and comparison are fundamental questions in machine learning and statistics -- how well does an algorithm perform at a given modeling task, and which algorithm performs best? Many methods have been developed to assess algorithm performance, often based around cross-validation type strategies, retraining the algorithm of interest on different subsets of the data and assessing its performance on the held-out data points. Despite the broad use of such procedures, the theoretical properties of these methods are not yet fully understood. In this work, we explore some fundamental limits for answering these questions with limited amounts of data. In particular, we make a distinction between two questions: how good is an algorithm $A$ at the problem of learning from a training set of size $n$, versus, how good is a particular fitted model produced by running $A$ on a particular training data set of size $n$? Our main results prove that, for any test that treats the algorithm $A$ as a ``black box'' (i.e., we can only study the behavior of $A$ empirically), there is a fundamental limit on our ability to carry out inference on the performance of $A$, unless the number of available data points $N$ is many times larger than the sample size $n$ of interest. (On the other hand, evaluating the performance of a particular fitted model is easy as long as a holdout data set is available -- that is, as long as $N-n$ is not too small.) We also ask whether an assumption of algorithmic stability might be sufficient to circumvent this hardness result. Surprisingly, we find that this is not the case: the same hardness result still holds for the problem of evaluating the performance of $A$, aside from a high-stability regime where fitted models are essentially nonrandom. Finally, we also establish similar hardness results for the problem of comparing multiple algorithms.
翻訳日:2024-02-13 15:41:52 公開日:2024-02-12
# chain-of-layer: 限定例からの分類誘導のための大規模言語モデルを反復的に推進する

Chain-of-Layer: Iteratively Prompting Large Language Models for Taxonomy Induction from Limited Examples ( http://arxiv.org/abs/2402.07386v1 )

ライセンス: Link先を確認
Qingkai Zeng, Yuyang Bai, Zhaoxuan Tan, Shangbin Feng, Zhenwen Liang, Zhihan Zhang, Meng Jiang(参考訳) 自動分類誘導は、Web検索、レコメンデーションシステム、質問応答に不可欠である。 手作業による分類学のキュレーションは人的労力で高価であり、自動分類学の構築を極めて望ましいものにしている。 そこで本研究では,あるエンティティの集合から分類学を誘導するためのコンテキスト内学習フレームワークであるChain-of-Layerを紹介する。 Chain-of-Layerはタスクを分割し、各レイヤで関連する候補エンティティを選択し、徐々に分類を上下に構築する。 誤りを最小限に抑えるため,エンサンブルベースのランキングフィルタを導入し,各イテレーションで生成する幻覚コンテンツを減らす。 大規模な実験を通じて,4つの実世界のベンチマークにおいて,Chain-of-Layerが最先端のパフォーマンスを達成することを示す。

Automatic taxonomy induction is crucial for web search, recommendation systems, and question answering. Manual curation of taxonomies is expensive in terms of human effort, making automatic taxonomy construction highly desirable. In this work, we introduce Chain-of-Layer which is an in-context learning framework designed to induct taxonomies from a given set of entities. Chain-of-Layer breaks down the task into selecting relevant candidate entities in each layer and gradually building the taxonomy from top to bottom. To minimize errors, we introduce the Ensemble-based Ranking Filter to reduce the hallucinated content generated at each iteration. Through extensive experiments, we demonstrate that Chain-of-Layer achieves state-of-the-art performance on four real-world benchmarks.
翻訳日:2024-02-13 15:41:16 公開日:2024-02-12
# マルチモーダル大言語モデルの知覚限界の検討

Exploring Perceptual Limitation of Multimodal Large Language Models ( http://arxiv.org/abs/2402.07384v1 )

ライセンス: Link先を確認
Jiarui Zhang, Jinyi Hu, Mahyar Khayatkhoei, Filip Ilievski, Maosong Sun(参考訳) MLLM(Multimodal Large Language Models)は近年、視覚的疑問に答える際、目立った知覚能力を示したが、その知覚の限界についてはほとんど分かっていない。 特に、先行研究はMLLMの物体サイズに対する感受性の逸話的な証拠を提供しているが、この現象とその根本原因は包括的に調査されていない。 本研究では,最先端mllmにおける小型視覚物体の知覚を定量的に検討し,画像中の小物体に関する質問に回答する際の広汎な限界を明らかにする。 次に、この制限に寄与する4つの独立した要因(物体の質、大きさ、距離、位置)を特定し、各因子がMLLMの知覚に与える影響を測定するための制御された介入研究を行う。 特に、より低いオブジェクト品質とより小さなオブジェクトサイズは、独立してmllmsの視覚的な質問に答える能力を減らすことができることが分かりました。 より驚くべきことに、画像中の物体の位置と視覚障害の存在は、MLLMの質問応答精度を著しく低下させる可能性がある。 本研究は,MLLMの知覚的限界をよりよく理解し,今後のMLLMの知覚を解析するための新しい評価プロトコルを提供する。 さらなる調査を容易にするために、コードとデータをリリースします。

Multimodal Large Language Models (MLLMs) have recently shown remarkable perceptual capability in answering visual questions, however, little is known about the limits of their perception. In particular, while prior works have provided anecdotal evidence of MLLMs' sensitivity to object size, this phenomenon and its underlying causes have not been explored comprehensively. In this work, we quantitatively study the perception of small visual objects in several state-of-the-art MLLMs and reveal a pervasive limitation in answering questions about small objects in images. Next, we identify four independent factors that can contribute to this limitation -- object quality, size, distractors, and location -- and conduct controlled intervention studies to measure the effect of each factor on MLLMs' perception. In particular, we find that lower object quality and smaller object size can both independently reduce MLLMs' ability to answer visual questions. More surprisingly, we find that the location of the object in the image and the presence of visual distractors can also significantly reduce MLLMs' question answering accuracy. Our study provides a better understanding of the perceptual limitation of MLLMs and contributes new evaluation protocols for analyzing the perception of future MLLMs. To facilitate further investigations, we release our code and data.
翻訳日:2024-02-13 15:41:03 公開日:2024-02-12
# フローマッチングをベースとしたゼロショットテキスト音声ラグ

Making Flow-Matching-Based Zero-Shot Text-to-Speech Laugh as You Like ( http://arxiv.org/abs/2402.07383v1 )

ライセンス: Link先を確認
Naoyuki Kanda, Xiaofei Wang, Sefik Emre Eskimez, Manthan Thakker, Hemin Yang, Zirun Zhu, Min Tang, Canrun Li, Steven Tsai, Zhen Xiao, Yufei Xia, Jinzhu Li, Yanqing Liu, Sheng Zhao, Michael Zeng(参考訳) 笑いは人間の発話の最も表現力と自然な側面の1つであり、感情、社会的手がかり、ユーモアを伝える。 しかし、ほとんどのTTSシステムは、現実的で適切な笑い声を作り出す能力がなく、アプリケーションやユーザー体験を制限している。 自然笑いを発生させる先行研究はあったが、生成する笑いのタイミングや種類を制御できるという点では不足していた。 本研究では,発話タイミングと表情を正確に制御した短い音声プロンプトに基づいて,任意の話者の自然な笑い声を生成することができるゼロショットTSであるELaTEを提案する。 具体的には、elateは音声の特徴を模倣する音声プロンプト、生成された音声の内容を示すテキストプロンプト、笑いの開始時と終了時のいずれかの笑い表現を制御する入力、あるいは模倣される笑いを含む追加の音声プロンプトに作用する。 条件付きフローマッチングに基づくゼロショットttsの基礎に基づくモデルを開発し,笑い検出器からのフレームレベル表現を付加条件として微調整した。 大規模な事前学習データと小規模な笑い条件データを混合する簡単な手法を用いて,事前学習されたゼロショットTSモデルの品質を損なうことなく,訓練済みのゼロショットTSモデルを簡単に微調整して正確な制御性で自然笑いを生成することができることを示した。 評価の結果,従来のモデルに比べて高い品質と制御性で笑声を生成できることが判明した。 デモサンプルはhttps://aka.ms/elate/を参照。

Laughter is one of the most expressive and natural aspects of human speech, conveying emotions, social cues, and humor. However, most text-to-speech (TTS) systems lack the ability to produce realistic and appropriate laughter sounds, limiting their applications and user experience. While there have been prior works to generate natural laughter, they fell short in terms of controlling the timing and variety of the laughter to be generated. In this work, we propose ELaTE, a zero-shot TTS that can generate natural laughing speech of any speaker based on a short audio prompt with precise control of laughter timing and expression. Specifically, ELaTE works on the audio prompt to mimic the voice characteristic, the text prompt to indicate the contents of the generated speech, and the input to control the laughter expression, which can be either the start and end times of laughter, or the additional audio prompt that contains laughter to be mimicked. We develop our model based on the foundation of conditional flow-matching-based zero-shot TTS, and fine-tune it with frame-level representation from a laughter detector as additional conditioning. With a simple scheme to mix small-scale laughter-conditioned data with large-scale pre-training data, we demonstrate that a pre-trained zero-shot TTS model can be readily fine-tuned to generate natural laughter with precise controllability, without losing any quality of the pre-trained zero-shot TTS model. Through the evaluations, we show that ELaTE can generate laughing speech with significantly higher quality and controllability compared to conventional models. See https://aka.ms/elate/ for demo samples.
翻訳日:2024-02-13 15:40:40 公開日:2024-02-12
# トポロジカルデータ解析による分岐構造の新しい定義と定量的解析

Novel definition and quantitative analysis of branch structure with topological data analysis ( http://arxiv.org/abs/2402.07436v1 )

ライセンス: Link先を確認
Haruhisa Oda, Mayuko Kida, Yoichi Nakata, Hiroki Kurihara(参考訳) 分枝ネットワーク構造は自然に豊富であるが,既存の定量的手法では分枝構造の主観的判断に依存することが多いため,その客観的解析は期待以上に困難である。 この問題は、離散粒子を含む画像を扱う場合に特に顕著である。 本稿では,位相的データ解析,特に永続的ホモロジーに基づく内部構造と外部構造の数学的定義を導入することにより,分岐ネットワークの定量的解析のための客観的枠組みを提案する。 画像から構築した永続図と凸船体上のプロットとを比較した。 2つの図形の変化点は内部構造であり、2つの図間の差は外部構造である。 我々は,本手法の数学的理論を構築し,内部構造が凸船体上のプロットに対して単調な関係を持つことを示すが,外部構造はそうではない。 これは画像の解像度に関連する現象である。 本手法は, 生物の幅広い分岐構造に適用可能であり, 数値, 空間分布, サイズなどの客観的解析が可能である。 さらに, この手法は, 一般化された永続性景観など, トポロジカルデータ解析の他のツールと組み合わせられる可能性がある。

While branching network structures abound in nature, their objective analysis is more difficult than expected because existing quantitative methods often rely on the subjective judgment of branch structures. This problem is particularly pronounced when dealing with images comprising discrete particles. Here we propose an objective framework for quantitative analysis of branching networks by introducing the mathematical definitions for internal and external structures based on topological data analysis, specifically, persistent homology. We compare persistence diagrams constructed from images with and without plots on the convex hull. The unchanged points in the two diagrams are the internal structures and the difference between the two diagrams is the external structures. We construct a mathematical theory for our method and show that the internal structures have a monotonicity relationship with respect to the plots on the convex hull, while the external structures do not. This is the phenomenon related to the resolution of the image. Our method can be applied to a wide range of branch structures in biology, enabling objective analysis of numbers, spatial distributions, sizes, and more. Additionally, our method has the potential to be combined with other tools in topological data analysis, such as the generalized persistence landscape.
翻訳日:2024-02-13 15:33:53 公開日:2024-02-12
# 通貨変動の分析: GARCH, EWMA, IVモデルによるGBP/USDおよびEUR/GBPペアの比較検討

Analyzing Currency Fluctuations: A Comparative Study of GARCH, EWMA, and IV Models for GBP/USD and EUR/GBP Pairs ( http://arxiv.org/abs/2402.07435v1 )

ライセンス: Link先を確認
Narayan Tondapu(参考訳) 本研究では,グレートブリテンポンド (GBP) の価値の変動について検討した。 我々は特に、米国ドル(USD)とユーロ(EUR)通貨ペアとの関係に焦点を当てている。 2018年6月15日から2023年6月15日までのデータを利用して、各ペアの日々のリターンの20日間の変動を予測するために、様々な数学的モデルを適用した。 我々の分析は、指数重み移動平均(EWMA)、一般化自己回帰条件ヘテロスケサシティ(GARCH)モデル、インプリッドボラティリティ(IV)モデルの実装を含む。 その性能を評価するために,根平均二乗誤差 (rmse) と平均絶対誤差 (mae) を用いた予測精度の比較を行った。 GARCHモデルの複雑さを掘り下げ、提供されたデータセットに適用した場合の統計特性を調べた。 以上の結果から,EUR/GBP対に非対称リターンが存在することが示唆された。 さらに,残差が標準正規分布ではなく標準t分布に従うと仮定した場合,garch型モデルがデータに適合することを示す。 さらに,GARCH型モデルにおける予測手法の有効性について検討した。 ローリングウインドウの予測とウィンドウの予測を比べると、テストシナリオ全体にわたってどちらのアプローチにも明確な優位性はない。 実験の結果, GBP/USDペアでは, 転がり窓を用いた GARCH モデルの利用から, 最も正確なボラティリティ予測が得られた。 逆に、EUR/GBPペアの場合、最適予測はGARCHモデルと、交換レートの年次インプリッドボラティリティを独立変数として組み込んだ通常最小方形(OLS)モデルから導かれる。

In this study, we examine the fluctuation in the value of the Great Britain Pound (GBP). We focus particularly on its relationship with the United States Dollar (USD) and the Euro (EUR) currency pairs. Utilizing data from June 15, 2018, to June 15, 2023, we apply various mathematical models to assess their effectiveness in predicting the 20-day variation in the pairs' daily returns. Our analysis involves the implementation of Exponentially Weighted Moving Average (EWMA), Generalized Autoregressive Conditional Heteroskedasticity (GARCH) models, and Implied Volatility (IV) models. To evaluate their performance, we compare the accuracy of their predictions using Root Mean Square Error (RMSE) and Mean Absolute Error (MAE) metrics. We delve into the intricacies of GARCH models, examining their statistical characteristics when applied to the provided dataset. Our findings suggest the existence of asymmetric returns in the EUR/GBP pair, while such evidence is inconclusive for the GBP/USD pair. Additionally, we observe that GARCH-type models better fit the data when assuming residuals follow a standard t-distribution rather than a standard normal distribution. Furthermore, we investigate the efficacy of different forecasting techniques within GARCH-type models. Comparing rolling window forecasts to expanding window forecasts, we find no definitive superiority in either approach across the tested scenarios. Our experiments reveal that for the GBP/USD pair, the most accurate volatility forecasts stem from the utilization of GARCH models employing a rolling window methodology. Conversely, for the EUR/GBP pair, optimal forecasts are derived from GARCH models and Ordinary Least Squares (OLS) models incorporating the annualized implied volatility of the exchange rate as an independent variable.
翻訳日:2024-02-13 15:33:35 公開日:2024-02-12
# 固有タスクベースによる参照表現生成の評価

Intrinsic Task-based Evaluation for Referring Expression Generation ( http://arxiv.org/abs/2402.07432v1 )

ライセンス: Link先を確認
Guanyi Chen, Fahime Same, Kees van Deemter(参考訳) 近年, Referring Expression Generation (REG) モデルに対する人間による評価研究が予期せぬ結論を得た: \textsc{webnlg} では, 最先端のニューラルモデルによって生成された Referring Expressions (REs) は, REs in \textsc{webnlg} の REs と区別できないだけでなく, 単純なルールベースシステムによって生成された REs からも区別できない。 ここでは、この制限は、純粋に評価に基づく人的評価(自然言語生成における一般的な実践)の使用に起因する可能性があると論じる。 そこで本研究では,REGモデルに対する本質的なタスクベース評価を提案し,REsの品質の評価に加えて,2つのメタレベルタスクの達成が求められた。 これらのタスクの1つは、各reの参照成功に関するもので、もう1つのタスクは、参加者に各reに対するより良い代替案を提案する。 その結果,従来の評価と比べ,各REGモデルの性能をより包括的に評価し,参加者の格付けをより信頼性と差別性を高めることが示唆された。

Recently, a human evaluation study of Referring Expression Generation (REG) models had an unexpected conclusion: on \textsc{webnlg}, Referring Expressions (REs) generated by the state-of-the-art neural models were not only indistinguishable from the REs in \textsc{webnlg} but also from the REs generated by a simple rule-based system. Here, we argue that this limitation could stem from the use of a purely ratings-based human evaluation (which is a common practice in Natural Language Generation). To investigate these issues, we propose an intrinsic task-based evaluation for REG models, in which, in addition to rating the quality of REs, participants were asked to accomplish two meta-level tasks. One of these tasks concerns the referential success of each RE; the other task asks participants to suggest a better alternative for each RE. The outcomes suggest that, in comparison to previous evaluations, the new evaluation protocol assesses the performance of each REG model more comprehensively and makes the participants' ratings more reliable and discriminable.
翻訳日:2024-02-13 15:32:59 公開日:2024-02-12
# SALAD: スマートAI言語アシスタント

SALAD: Smart AI Language Assistant Daily ( http://arxiv.org/abs/2402.07431v1 )

ライセンス: Link先を確認
Ragib Amin Nihal(参考訳) saladは、外国人が日本語を学ぶのを助けるai駆動の言語学習アプリケーションだ。 漢字仮名文字の翻訳、音声認識、翻訳音声、語彙追跡、文法説明、新たに学習した単語から生成された歌などを提供している。 このアプリは初心者と中間学習者をターゲットにしており、言語習得をより使いやすくすることを目指している。 SALADは日々の翻訳を使用して、ネイティブスピーカーとのコミュニケーションの流布と快適さを高める。 主な目的は、効果的な日本語学習、ユーザエンゲージメント、進捗追跡である。 我が国の外国人の39%が日本人話者との会話に不快を感じている。 外国人の60%以上がSALADの日本語能力に自信を示していた。 このアプリは、大きな言語モデル、音声認識、拡散モデルを使用して、言語ギャップを埋め、日本のより包括的なコミュニティを育む。

SALAD is an AI-driven language-learning application designed to help foreigners learn Japanese. It offers translations in Kanji-Kana-Romaji, speech recognition, translated audio, vocabulary tracking, grammar explanations, and songs generated from newly learned words. The app targets beginners and intermediate learners, aiming to make language acquisition more accessible and enjoyable. SALAD uses daily translations to enhance fluency and comfort in communication with native speakers. The primary objectives include effective Japanese language learning, user engagement, and progress tracking. A survey by us found that 39% of foreigners in Japan face discomfort in conversations with Japanese speakers. Over 60% of foreigners expressed confidence in SALAD's ability to enhance their Japanese language skills. The app uses large language models, speech recognition, and diffusion models to bridge the language gap and foster a more inclusive community in Japan.
翻訳日:2024-02-13 15:32:34 公開日:2024-02-12
# 自動車ローカライゼーションのための粒子フィルタSLAM

Particle Filter SLAM for Vehicle Localization ( http://arxiv.org/abs/2402.07429v1 )

ライセンス: Link先を確認
Tianrui Liu, Changxin Xu, Yuxin Qiao, Chufeng Jiang, Jiqiang Yu(参考訳) 同時ローカライゼーションとマッピング (slam) はロボット工学における大きな課題であり、ロボットエージェントの正確な位置を未知の環境内で決定しながら、地図を動的に構築することを伴う。 この複雑なタスクは固有の「鶏と卵」ジレンマによってさらに複雑化され、正確なマッピングはロボットの位置を信頼できる推定に依存する。 さらに、SLAMの計算強度は、さらなる複雑さの層を追加し、この分野において重要なトピックとなっている。 本研究では,粒子フィルタSLAM法を採用することでSLAMの課題に対処する。 lidar技術は周囲の障害物に対する詳細な洞察を提供することで環境認識に寄与するが,本手法では符号化データと光ジャイロ情報を利用して車両の運動を正確に推定する。 これらのデータストリームの統合は、ロボットシステムにおける同時ローカライゼーションとマッピングに関連する複雑さを効果的にナビゲートし克服するための重要な取り組みを示す、粒子フィルタslamフレームワークの確立に結実する。

Simultaneous Localization and Mapping (SLAM) presents a formidable challenge in robotics, involving the dynamic construction of a map while concurrently determining the precise location of the robotic agent within an unfamiliar environment. This intricate task is further compounded by the inherent "chicken-and-egg" dilemma, where accurate mapping relies on a dependable estimation of the robot's location, and vice versa. Moreover, the computational intensity of SLAM adds an additional layer of complexity, making it a crucial yet demanding topic in the field. In our research, we address the challenges of SLAM by adopting the Particle Filter SLAM method. Our approach leverages encoded data and fiber optic gyro (FOG) information to enable precise estimation of vehicle motion, while lidar technology contributes to environmental perception by providing detailed insights into surrounding obstacles. The integration of these data streams culminates in the establishment of a Particle Filter SLAM framework, representing a key endeavor in this paper to effectively navigate and overcome the complexities associated with simultaneous localization and mapping in robotic systems.
翻訳日:2024-02-13 15:32:21 公開日:2024-02-12
# 注意機構を考慮したニュースレコメンデーション

News Recommendation with Attention Mechanism ( http://arxiv.org/abs/2402.07422v1 )

ライセンス: Link先を確認
Tianrui Liu, Changxin Xu, Yuxin Qiao, Chufeng Jiang, Weisheng Chen(参考訳) 本稿では,オンライン情報共有の重要な要素であるニュースレコメンデーションの分野について考察する。 当初、我々はニュースレコメンデーションの明確な紹介を行い、中核的な問題を定義し、現在の手法と最近の顕著なアルゴリズムを要約する。 そこで我々は,ニュースレコメンデーションのための注目に基づくアプローチであるNRAM(News Recommendation with Attention Mechanism)の実装と,その有効性を評価する。 評価の結果,NRAMは,デジタルニュースプラットフォーム上でのニュースコンテンツのパーソナライズ方法を大幅に改善する可能性が示唆された。

This paper explores the area of news recommendation, a key component of online information sharing. Initially, we provide a clear introduction to news recommendation, defining the core problem and summarizing current methods and notable recent algorithms. We then present our work on implementing the NRAM (News Recommendation with Attention Mechanism), an attention-based approach for news recommendation, and assess its effectiveness. Our evaluation shows that NRAM has the potential to significantly improve how news content is personalized for users on digital news platforms.
翻訳日:2024-02-13 15:32:02 公開日:2024-02-12
# 交通難問題について

On the Transit Obfuscation Problem ( http://arxiv.org/abs/2402.07420v1 )

ライセンス: Link先を確認
Hideaki Takahashi and Alex Fukunaga(参考訳) ルート上の中間点やルートから見えるようにすることは、交通や監視のシナリオにおいて重要な目標である。 本稿では,ある始点から終点への移動の問題であるトランジット難読化問題について,敵から隠れる必要がある特定の通過点を「隠蔽」しながら検討する。 我々は,経路計画アルゴリズムの知識が十分ある強力な敵であっても,特定の通過点の匿名性を定量的に保証するトランジット匿名性の概念を提案する。 この匿名性基準を満たす計画・探索アルゴリズムを提案し,評価する。

Concealing an intermediate point on a route or visible from a route is an important goal in some transportation and surveillance scenarios. This paper studies the Transit Obfuscation Problem, the problem of traveling from some start location to an end location while "covering" a specific transit point that needs to be concealed from adversaries. We propose the notion of transit anonymity, a quantitative guarantee of the anonymity of a specific transit point, even with a powerful adversary with full knowledge of the path planning algorithm. We propose and evaluate planning/search algorithms that satisfy this anonymity criterion.
翻訳日:2024-02-13 15:31:51 公開日:2024-02-12
# 条件付き生成モデルは任意の因果効果推定からサンプルに十分である

Conditional Generative Models are Sufficient to Sample from Any Causal Effect Estimand ( http://arxiv.org/abs/2402.07419v1 )

ライセンス: Link先を確認
Md Musfiqur Rahman, Matt Jordan, Murat Kocaoglu(参考訳) 観測データからの因果推論は、最近機械学習に多くの応用を見出した。 因果効果を計算するための音響アルゴリズムと完全アルゴリズムは存在するが、これらのアルゴリズムの多くは、画像のような高次元のシステムでは推定が難しい観測分布上の条件付き可能性への明示的なアクセスを必要とする。 この問題を緩和するために、研究者はニューラルモデルと因果関係をシミュレートし、素晴らしい結果を得た。 しかし、これらの既存のアプローチは、潜伏した共同設立者との画像データ上の因果グラフや条件付き介入サンプルなどの一般的なシナリオには適用できない。 本稿では,任意の因果グラフが与えられた因果効果を条件付き生成モデルのプッシュフォワード計算によって計算できることを示す。 この結果に基づき,画像データ上の任意の(条件付き)介入分布からサンプルを得るための拡散ベースアプローチを考案する。 アルゴリズムの性能を示すために,処理値(X$)と対象変数(Y$)の両方をイメージとして有するColored MNISTデータセット上で実験を行い,$P(y|do(x))$から介入サンプルを得る。 提案アルゴリズムの適用例として,CelebAデータセット上で事前学習した2つの大条件生成モデルについて,スプリアス相関の強さとそれらが達成する絡み合いのレベルを分析して評価する。

Causal inference from observational data has recently found many applications in machine learning. While sound and complete algorithms exist to compute causal effects, many of these algorithms require explicit access to conditional likelihoods over the observational distribution, which is difficult to estimate in the high-dimensional regime, such as with images. To alleviate this issue, researchers have approached the problem by simulating causal relations with neural models and obtained impressive results. However, none of these existing approaches can be applied to generic scenarios such as causal graphs on image data with latent confounders, or obtain conditional interventional samples. In this paper, we show that any identifiable causal effect given an arbitrary causal graph can be computed through push-forward computations of conditional generative models. Based on this result, we devise a diffusion-based approach to sample from any (conditional) interventional distribution on image data. To showcase our algorithm's performance, we conduct experiments on a Colored MNIST dataset having both the treatment ($X$) and the target variables ($Y$) as images and obtain interventional samples from $P(y|do(x))$. As an application of our algorithm, we evaluate two large conditional generative models that are pre-trained on the CelebA dataset by analyzing the strength of spurious correlations and the level of disentanglement they achieve.
翻訳日:2024-02-13 15:31:42 公開日:2024-02-12
# semtra:クロスドメインゼロショットポリシー適応のための意味的スキルトランスレータ

SemTra: A Semantic Skill Translator for Cross-Domain Zero-Shot Policy Adaptation ( http://arxiv.org/abs/2402.07418v1 )

ライセンス: Link先を確認
Sangwoo Shin, Minjong Yoo, Jeongwoo Lee, Honguk Woo(参考訳) 本研究は,ユーザ入力をインターリーブしたマルチモーダルスニペットに入力することで,異なるドメインに対する新たなロングホライズンタスクを誘発するクロスドメイン設定において,セマンティックスキルのゼロショット適応能力,セマンティックな専門家の行動パターンについて検討する。 これらのクロスドメイン設定では,マルチモーダルモデルを用いてスニペットからスキルを抽出する意味的スキル翻訳フレームワークsemtraを提案し,これらの抽出スキルを対象領域に適応させるために,事前学習した言語モデルの推論能力を活用する。 このフレームワークは、タスク適応とスキル適応という2レベル階層を採用している。 タスク適応中、言語モデルによるseq-to-seq変換は、抽出されたスキルを、クロスドメインコンテキストに適合するように調整されたセマンティックスキルシーケンスに変換する。 スキル適応は、言語プロンプトとコントラスト学習に基づくコンテキスト推論によって促進されるパラメトリックインスタンス化を通じて、対象ドメインコンテキストに対する各意味スキルの最適化にフォーカスします。 この階層的適応によって、フレームワークは、インターリーブされたマルチモーダルスニペットからワンショットで複雑なタスク仕様を推測するだけでなく、ゼロショット学習能力を持つ新しいドメインにも適用できるようになる。 我々はMeta-World、Franka Kitchen、RLBench、CARLA環境でフレームワークを評価した。 以上の結果から,長い作業や異なるドメインへの適応における枠組みの優越性を明らかにするとともに,抽象的な指示を解釈する認知ロボットや,様々な構成で動作する自律走行車など,実用的なユースケースにおける幅広い適用性を示した。

This work explores the zero-shot adaptation capability of semantic skills, semantically interpretable experts' behavior patterns, in cross-domain settings, where a user input in interleaved multi-modal snippets can prompt a new long-horizon task for different domains. In these cross-domain settings, we present a semantic skill translator framework SemTra which utilizes a set of multi-modal models to extract skills from the snippets, and leverages the reasoning capabilities of a pretrained language model to adapt these extracted skills to the target domain. The framework employs a two-level hierarchy for adaptation: task adaptation and skill adaptation. During task adaptation, seq-to-seq translation by the language model transforms the extracted skills into a semantic skill sequence, which is tailored to fit the cross-domain contexts. Skill adaptation focuses on optimizing each semantic skill for the target domain context, through parametric instantiations that are facilitated by language prompting and contrastive learning-based context inferences. This hierarchical adaptation empowers the framework to not only infer a complex task specification in one-shot from the interleaved multi-modal snippets, but also adapt it to new domains with zero-shot learning abilities. We evaluate our framework with Meta-World, Franka Kitchen, RLBench, and CARLA environments. The results clarify the framework's superiority in performing long-horizon tasks and adapting to different domains, showing its broad applicability in practical use cases, such as cognitive robots interpreting abstract instructions and autonomous vehicles operating under varied configurations.
翻訳日:2024-02-13 15:31:19 公開日:2024-02-12
# 視覚・言語モデルの校正に関する実証的研究

An Empirical Study Into What Matters for Calibrating Vision-Language Models ( http://arxiv.org/abs/2402.07417v1 )

ライセンス: Link先を確認
Weijie Tu, Weijian Deng, Dylan Campbell, Stephen Gould, Tom Gedeon(参考訳) VLM(Vision-Language Models)は、ゼロショット認識における主要なアプローチとして登場し、多様なシナリオや大きな分布変化を扱うことに長けている。 しかし、リスクに敏感な分野への展開には、不確実性推定能力の理解が必要とされる。 本研究では,異なるアーキテクチャ,データセット,トレーニング戦略にわたるVLMの校正特性について検討する。 特に,ある領域,ラベルセット,階層レベルで校正された場合のVLMの不確実性推定性能を分析し,異なる領域で検証した。 以上の結果から, VLMは本質的に不確実性に対して校正されていないが, 温度スケーリングは分布の変化やラベルセットの変化によらず, キャリブレーションを著しく改善することがわかった。 さらに、VLMはごく小さな例で校正することができる。 より詳細な実験を通じて、我々は我々の洞察の潜在的な応用と重要性を強調し、批判的で現実的なシナリオにおいてより信頼性が高く効果的なVLMの利用を目指しています。

Vision--Language Models (VLMs) have emerged as the dominant approach for zero-shot recognition, adept at handling diverse scenarios and significant distribution changes. However, their deployment in risk-sensitive areas requires a deeper understanding of their uncertainty estimation capabilities, a relatively uncharted area. In this study, we explore the calibration properties of VLMs across different architectures, datasets, and training strategies. In particular, we analyze the uncertainty estimation performance of VLMs when calibrated in one domain, label set or hierarchy level, and tested in a different one. Our findings reveal that while VLMs are not inherently calibrated for uncertainty, temperature scaling significantly and consistently improves calibration, even across shifts in distribution and changes in label set. Moreover, VLMs can be calibrated with a very small set of examples. Through detailed experimentation, we highlight the potential applications and importance of our insights, aiming for more reliable and effective use of VLMs in critical, real-world scenarios.
翻訳日:2024-02-13 15:30:48 公開日:2024-02-12
# 多様な異種計算システムに対するコンテキストアウェアマルチモデルオブジェクト検出

Context-aware Multi-Model Object Detection for Diversely Heterogeneous Compute Systems ( http://arxiv.org/abs/2402.07415v1 )

ライセンス: Link先を確認
Justin Davis and Mehmet E. Belviranli(参考訳) 近年、ディープニューラルネットワーク(DNN)は、特に自律システムにおいて、連続移動物体検出(OD)タスクに広く採用されている。 しかしながら、デプロイにおける一般的な問題は、単一のdnnを使用するワンサイズフィットオールアプローチであり、結果として計算リソースの効率が低下する。 この非効率性は、システム全体の効率を低下させるため、エネルギー制約のあるシステムでは特に有害である。 入力データストリームに埋め込まれたコンテキスト情報(例えば、ODモデルが実行されているカメラフィードのフレーム)は、より効率的なマルチモデルベースのODプロセスを可能にするために利用することができる。 本稿では,動的に変化する文脈情報や計算制約に応じて,様々なDNNベースのODモデルから連続的に選択するShiFTを提案する。 この選択の間、シフトは、レイテンシの制約を満たしながら、エネルギー効率を最適化するために、マルチアクセラレータの実行を独特に考慮している。 提案手法は,最新のGPUベースの単一モデルODアプローチと比較して,エネルギー使用率7.5倍,レイテンシ2.8倍の改善を実現する。

In recent years, deep neural networks (DNNs) have gained widespread adoption for continuous mobile object detection (OD) tasks, particularly in autonomous systems. However, a prevalent issue in their deployment is the one-size-fits-all approach, where a single DNN is used, resulting in inefficient utilization of computational resources. This inefficiency is particularly detrimental in energy-constrained systems, as it degrades overall system efficiency. We identify that, the contextual information embedded in the input data stream (e.g. the frames in the camera feed that the OD models are run on) could be exploited to allow a more efficient multi-model-based OD process. In this paper, we propose SHIFT which continuously selects from a variety of DNN-based OD models depending on the dynamically changing contextual information and computational constraints. During this selection, SHIFT uniquely considers multi-accelerator execution to better optimize the energy-efficiency while satisfying the latency constraints. Our proposed methodology results in improvements of up to 7.5x in energy usage and 2.8x in latency compared to state-of-the-art GPU-based single model OD approaches.
翻訳日:2024-02-13 15:30:30 公開日:2024-02-12
# 遷移距離表現学習による助成報酬生成

Auxiliary Reward Generation with Transition Distance Representation Learning ( http://arxiv.org/abs/2402.07412v1 )

ライセンス: Link先を確認
Siyuan Li and Shijie Han and Yingnan Zhao and By Liang and Peng Liu(参考訳) 強化学習(rl)は、逐次的な意思決定問題に挑戦する強みを示している。 RLの報酬関数は、タスク完了度合いの尺度として機能するため、学習性能に不可欠である。 現実世界の問題では、報酬は主に人間設計であり、厳格なチューニングを必要とし、人間の認知バイアスの影響を受けやすい。 補助報酬の自動生成を実現するために, 状態間の'遷移距離'を計測できる新しい表現学習手法を提案する。 これらの表現に基づいて,人間知識を必要とせず,単タスクシナリオとスキルチェーンシナリオの両方に対して補助報酬生成手法を導入する。 提案手法は幅広い操作タスクにおいて評価される。 実験結果は, 学習効率の向上だけでなく, 収束安定性の向上にも寄与する補助報酬による状態間の遷移距離測定と誘導改善の有効性を示した。

Reinforcement learning (RL) has shown its strength in challenging sequential decision-making problems. The reward function in RL is crucial to the learning performance, as it serves as a measure of the task completion degree. In real-world problems, the rewards are predominantly human-designed, which requires laborious tuning, and is easily affected by human cognitive biases. To achieve automatic auxiliary reward generation, we propose a novel representation learning approach that can measure the ``transition distance'' between states. Building upon these representations, we introduce an auxiliary reward generation technique for both single-task and skill-chaining scenarios without the need for human knowledge. The proposed approach is evaluated in a wide range of manipulation tasks. The experiment results demonstrate the effectiveness of measuring the transition distance between states and the induced improvement by auxiliary rewards, which not only promotes better learning efficiency but also increases convergent stability.
翻訳日:2024-02-13 15:30:11 公開日:2024-02-12
# 固有モチベーションのための電位ベース逆整形

Potential-Based Reward Shaping For Intrinsic Motivation ( http://arxiv.org/abs/2402.07411v1 )

ライセンス: Link先を確認
Grant C. Forbes, Nitish Gupta, Leonardo Villalobos-Arias, Colin M. Potts, Arnav Jhala, David L. Roberts(参考訳) 近年,複雑・スパース・リワード環境下で学習する内在的モチベーション(IM)報酬形成法が急増している。 これらの手法は、しばしば環境における最適なポリシーの集合を不注意に変更し、最適以下の行動を引き起こす。 報酬形成のリスクを軽減するための従来の研究、特にポテンシャルベース報酬形成(PBRS)は、しばしば複雑で訓練可能な機能であり、PBRSが開発された従来の報酬関数よりも幅広い変数に依存するため、多くのIM手法には適用されていない。 PBRSの拡張として、これまで証明されたよりも一般的な関数セットの下で最適なポリシーの集合を維持できることを示す。 また, 最適政策のセットを変更することなく, im 報酬をポテンシャルに基づく形式に変換する手法である "em potential-based intrinsic motivation} (pbim) を提案する。 minigridのドアキーとクリフウォーキング環境でのテストでは、pbimがエージェントが最適以下のポリシーに収束するのをうまく防ぎ、トレーニングをスピードアップできることが示されています。

Recently there has been a proliferation of intrinsic motivation (IM) reward-shaping methods to learn in complex and sparse-reward environments. These methods can often inadvertently change the set of optimal policies in an environment, leading to suboptimal behavior. Previous work on mitigating the risks of reward shaping, particularly through potential-based reward shaping (PBRS), has not been applicable to many IM methods, as they are often complex, trainable functions themselves, and therefore dependent on a wider set of variables than the traditional reward functions that PBRS was developed for. We present an extension to PBRS that we prove preserves the set of optimal policies under a more general set of functions than has been previously proven. We also present {\em Potential-Based Intrinsic Motivation} (PBIM), a method for converting IM rewards into a potential-based form that is useable without altering the set of optimal policies. Testing in the MiniGrid DoorKey and Cliff Walking environments, we demonstrate that PBIM successfully prevents the agent from converging to a suboptimal policy and can speed up training.
翻訳日:2024-02-13 15:29:55 公開日:2024-02-12
# コントラスト型言語イメージ事前学習(clip)のロバスト性について

A Closer Look at the Robustness of Contrastive Language-Image Pre-Training (CLIP) ( http://arxiv.org/abs/2402.07410v1 )

ライセンス: Link先を確認
Weijie Tu, Weijian Deng, Tom Gedeon(参考訳) コントラスト言語-画像事前学習(CLIP)モデルは、複数の困難分散シフトにまたがる顕著な一般化機能を示している。 しかし、特定の視覚要因の変動に対するロバスト性については、まだまだ検討すべき点がたくさんある。 現実世界のアプリケーションでは、信頼性と安全性のあるシステムは、予測の不確実性など、分類精度以外の他の安全目標を考慮しなければならない。 しかし,これらの安全関連機能に対するCLIPモデルの有効性は低い。 本研究は,CLIPモデルの安全性を包括的に調査し,視覚因子の変動に対するレジリエンス,不確実性評価の校正,異常な入力を検出する能力の3つの重要な特性に着目した。 この目的のために、83のクリップモデルと127のイメージネット分類器を調査した。 それらはアーキテクチャ、(事前)分散とトレーニング戦略に多様です。 10種類の視覚因子(例えば、形状とパターン)、5種類の分散データ、テクスチャ、スタイル、摂動シフトなど、異なるシフトタイプを持つ8つの自然で挑戦的なテスト条件について検討した。 私たちの研究は、CLIPモデルに関するこれまで未知の知見をいくつか明らかにした。 例えば、既存の発見と矛盾する他のImageNetモデルよりも常に校正されているわけではない。 また,本分析は,安全に関する3つの特性に深く影響することを示すことにより,トレーニングソース設計の意義を裏付けるものである。 私たちの包括的な研究は、より堅牢で信頼性の高いCLIPモデルの開発を導いてくれると信じています。

Contrastive Language-Image Pre-training (CLIP) models have demonstrated remarkable generalization capabilities across multiple challenging distribution shifts. However, there is still much to be explored in terms of their robustness to the variations of specific visual factors. In real-world applications, reliable and safe systems must consider other safety objectives beyond classification accuracy, such as predictive uncertainty. Yet, the effectiveness of CLIP models on such safety-related features is less-explored. Driven by the above, this work comprehensively investigates the safety objectives of CLIP models, specifically focusing on three key properties: resilience to visual factor variations, calibrated uncertainty estimations, and the ability to detect anomalous inputs. To this end, we study 83 CLIP models and 127 ImageNet classifiers. They are diverse in architecture, (pre)training distribution and training strategies. We consider 10 visual factors (e.g., shape and pattern), 5 types of out-of-distribution data, and 8 natural and challenging test conditions with different shift types, such as texture, style, and perturbation shifts. Our study has unveiled several previously unknown insights into CLIP models. For instance, they are not consistently more calibrated than other ImageNet models, which contradicts existing findings. Additionally, our analysis underscores the significance of training source design by showcasing its profound influence on the three safety-related properties. We believe our comprehensive study can shed light on and help guide the development of more robust and reliable CLIP models.
翻訳日:2024-02-13 15:29:37 公開日:2024-02-12
# 大規模言語モデル:Webshellのエスケープサンプルを生成するハイブリッドプロンプトアルゴリズムの提案

Large Language Models are Few-shot Generators: Proposing Hybrid Prompt Algorithm To Generate Webshell Escape Samples ( http://arxiv.org/abs/2402.07408v1 )

ライセンス: Link先を確認
Mingrui Ma, Lansheng Han, Chunjie Zhou(参考訳) サイバー攻撃の頻発により、webshell攻撃と防御は徐々にネットワークセキュリティの分野で研究のホットスポットとなっている。 しかしながら、公開されているベンチマークデータセットの欠如と、webshellエスケープサンプル生成の手動定義ルールへの過度な依存により、webshellエスケープサンプル生成戦略と人工知能ベースのwebshell検出アルゴリズムに関する研究の進展が鈍化している。 弱いウェブシェルサンプルエスケープ機能,複雑な悪意のある特徴を持つウェブシェルデータセットの欠如,およびWebシェル検出技術の開発を促進するために,大規模言語モデルの助けを借りてウェブシェルサンプル生成のためのHybrid Promptアルゴリズムを提案する。 webshellサンプル生成用に特別に開発されたプロンプトアルゴリズムとして、ハイブリッドプロンプトアルゴリズムは、思考連鎖、思考のツリーを含む様々なプロンプトアイデアを結合するだけでなく、webshell階層モジュールや、webshellエスケープ戦略の学習と推論におけるllmの促進のための、少数のサンプルを含む。 実験の結果、ハイブリッドプロンプトアルゴリズムは、高いエスケープ率(gpt-4モデルによる88.61%)と生存率(gpt-4モデルによる54.98%)で高品質なwebshellサンプルを生成するコード推論能力に優れた複数のllmで動作することがわかった。

The frequent occurrence of cyber-attacks has made webshell attacks and defense gradually become a research hotspot in the field of network security. However, the lack of publicly available benchmark datasets and the over-reliance on manually defined rules for webshell escape sample generation have slowed down the progress of research related to webshell escape sample generation strategies and artificial intelligence-based webshell detection algorithms. To address the drawbacks of weak webshell sample escape capabilities, the lack of webshell datasets with complex malicious features, and to promote the development of webshell detection technology, we propose the Hybrid Prompt algorithm for webshell escape sample generation with the help of large language models. As a prompt algorithm specifically developed for webshell sample generation, the Hybrid Prompt algorithm not only combines various prompt ideas including Chain of Thought, Tree of Thought, but also incorporates various components such as webshell hierarchical module and few-shot example to facilitate the LLM in learning and reasoning webshell escape strategies. Experimental results show that the Hybrid Prompt algorithm can work with multiple LLMs with excellent code reasoning ability to generate high-quality webshell samples with high Escape Rate (88.61% with GPT-4 model on VIRUSTOTAL detection engine) and Survival Rate (54.98% with GPT-4 model).
翻訳日:2024-02-13 15:29:12 公開日:2024-02-12
# T-RAG: LLMトレンチからの教訓

T-RAG: Lessons from the LLM Trenches ( http://arxiv.org/abs/2402.07483v1 )

ライセンス: Link先を確認
Masoomali Fatehkia, Ji Kim Lucas, Sanjay Chawla(参考訳) 大規模言語モデル(llm)は、広範囲のドメインにまたがるアプリケーションにそれらを統合しようとする、驚くべき言語能力を示している。 重要なアプリケーション領域は、データセキュリティが主な考慮事項であり、オンプレミスでデプロイ可能なアプリケーション、限られた計算リソース、クエリに正しく応答する堅牢なアプリケーションが必要であるプライベートなエンタープライズドキュメントに対する質問に答えることである。 Retrieval-Augmented Generation (RAG)は、LLMベースのアプリケーションを構築するための最も顕著なフレームワークである。 RAGの構築は比較的単純ですが、堅牢で信頼性の高いアプリケーションには、広範囲のカスタマイズとアプリケーションドメインの比較的深い知識が必要です。 プライベートな組織文書に対する質問応答のためのLLMアプリケーションの構築とデプロイの経験を共有します。 我々のアプリケーションは、RAGと微調整されたオープンソースLLMを組み合わせています。 さらに,木-RAG(T-RAG)と呼ばれるシステムでは,組織内のエンティティ階層を表現するために木構造を用いる。 これは、組織の階層内のエンティティに関連するユーザクエリに応答する際のコンテキストを強化するためのテキスト記述を生成するために使用される。 評価の結果,この組み合わせは単純なRAGや微調整実装よりも優れていることがわかった。 最後に、実際の使用のためにllmアプリケーションを構築した経験から学んだ教訓を共有します。

Large Language Models (LLM) have shown remarkable language capabilities fueling attempts to integrate them into applications across a wide range of domains. An important application area is question answering over private enterprise documents where the main considerations are data security, which necessitates applications that can be deployed on-prem, limited computational resources and the need for a robust application that correctly responds to queries. Retrieval-Augmented Generation (RAG) has emerged as the most prominent framework for building LLM-based applications. While building a RAG is relatively straightforward, making it robust and a reliable application requires extensive customization and relatively deep knowledge of the application domain. We share our experiences building and deploying an LLM application for question answering over private organizational documents. Our application combines the use of RAG with a finetuned open-source LLM. Additionally, our system, which we call Tree-RAG (T-RAG), uses a tree structure to represent entity hierarchies within the organization. This is used to generate a textual description to augment the context when responding to user queries pertaining to entities within the organization's hierarchy. Our evaluations show that this combination performs better than a simple RAG or finetuning implementation. Finally, we share some lessons learned based on our experiences building an LLM application for real-world use.
翻訳日:2024-02-13 15:24:22 公開日:2024-02-12
# androidでテストデータの匿名化: 痛いのか?

Anonymizing Test Data in Android: Does It Hurt? ( http://arxiv.org/abs/2402.07460v1 )

ライセンス: Link先を確認
Elena Masserini, Davide Ginelli, Daniela Micucci, Daniela Briola, Leonardo Mariani(参考訳) フィールドから収集された障害データ(例えば、障害トレース、バグレポート、メモリダンプ)は、失敗を再現し分析する必要のある開発者にとって貴重な情報源である。 残念ながら、フィールドデータは機密情報を含んでいるため、無差別に収集することはできない。 プライバシー保護技術は、データの匿名化と個人情報開示のリスク軽減に対処することができる。 しかし、匿名化情報の収集は再現性、すなわち匿名化データが現場で観測された障害の再現を許さない可能性がある。 本稿では,プライバシ保護技術が失敗の再現性に与える影響について実証的研究を行う。 特に,プライバシ保護技術が17のAndroidアプリケーションにおいて,19のバグの再現性に与える影響について検討した。 結果は、プライバシ保護技術の選択と設定方法に関する洞察を提供する。

Failure data collected from the field (e.g., failure traces, bug reports, and memory dumps) represent an invaluable source of information for developers who need to reproduce and analyze failures. Unfortunately, field data may include sensitive information and thus cannot be collected indiscriminately. Privacy-preserving techniques can address this problem anonymizing data and reducing the risk of disclosing personal information. However, collecting anonymized information may harm reproducibility, that is, the anonymized data may not allow the reproduction of a failure observed in the field. In this paper, we present an empirical investigation about the impact of privacy-preserving techniques on the reproducibility of failures. In particular, we study how five privacy-preserving techniques may impact reproducibilty for 19 bugs in 17 Android applications. Results provide insights on how to select and configure privacy-preserving techniques.
翻訳日:2024-02-13 15:24:01 公開日:2024-02-12
# Dehn 手術によるトポロジカルな絡み合いの探索

Exploring topological entanglement through Dehn surgery ( http://arxiv.org/abs/2402.07459v1 )

ライセンス: Link先を確認
Aditya Dwivedi, Siddharth Dwivedi, Vivek Kumar Singh, Pichai Ramadevi, Bhabani Prasad Mandal(参考訳) リンクのデーン充填から得られる閉3次元多様体の$\text{psl}(2,\mathbb{c})$チャーン・シモンズ分割関数を計算し、$\mathbf s^3\backslash {\mathcal{l}}$, ここで$\mathcal{l}=\mathcal{k}# h$ は結び目 $\mathcal {k}$ の結び目 $\mathcal {k}$ の連結和である。 初期のトポロジカル絡み合いとそのような連結補集合に対する還元密度行列 $\sigma$ に動機づけられた我々は、行列 $\sigma$ のトレースが閉3次元多様体の分割函数 $\text{PSL}(2,\mathbb{C})$ に等しくなるように Dehn 充填の選択を決定したいと考えた。 我々は,SnapPyプログラムと数値手法を用いて,この等価性を先行順に示す。 我々は、すべての双曲結び目に対して、最大6つの交叉に対して明示的な結果を与えた。

We compute the $\text{PSL}(2,\mathbb{C})$ Chern-Simons partition function of a closed 3-manifold obtained from Dehn fillings of the link complement $\mathbf S^3\backslash {\mathcal{L}}$, where $\mathcal{L}=\mathcal{K}# H$ is the connected sum of the knot $\mathcal {K}$ with the Hopf link $H$. Motivated by our earlier work on topological entanglement and the reduced density matrix $\sigma$ for such link complements, we wanted to determine a choice of Dehn filling so that the trace of the matrix $\sigma$ becomes equal to the $\text{PSL}(2,\mathbb{C})$ partition function of the closed 3-manifold. We use the SnapPy program and numerical techniques to show this equivalence up to the leading order. We have given explicit results for all hyperbolic knots $\mathcal{K}$ up to six crossings.
翻訳日:2024-02-13 15:23:47 公開日:2024-02-12
# 逐次予測における校正からの距離について

On the Distance from Calibration in Sequential Prediction ( http://arxiv.org/abs/2402.07458v1 )

ライセンス: Link先を確認
Mingda Qiao, Letian Zheng(参考訳) 本研究では,予測値と予測値との$l_1$距離と定義したキャリブレーション距離を用いて予測者が評価される逐次二進予測設定について検討する。 これは、最近B{\l}asiok, Gopalan, Hu and Nakkiran (STOC 2023)によって提案されたオフライン設定の校正測度に類似している。 キャリブレーション距離は、完全キャリブレーションから逸脱する自然な直感的な尺度であり、$L_1$キャリブレーション誤差やその変量のような多くの一般的なキャリブレーション測度を持たないリプシッツ連続性特性を満たす。 我々は、逆選択された$T$バイナリ結果の列に対して、予測において$O(\sqrt{T})$キャリブレーション距離を達成する予測アルゴリズムが存在することを証明した。 この上界のコアは、キャリブレーション距離が、前者の連続緩和である下方キャリブレーション距離によって正確に近似されていることを示す構造的な結果である。 すると、$O(\sqrt{T})$低いキャリブレーション距離は、単純なミニマックス引数とリプシッツ類でのオンライン学習への還元によって達成できることを示す。 下限側では、敵が独立したランダムビット列を出力する場合でも、$\omega(t^{1/3})$キャリブレーション距離が避けられないことが示され、早期停止機能(すなわち、乱数ビットの生成を停止し、残りのステップで同じビットを出力する)を有する。 興味深いことに、この早期停止がなければ、予測器はより小さなキャリブレーション距離$\mathrm{polylog}(T)$を達成できる。

We study a sequential binary prediction setting where the forecaster is evaluated in terms of the calibration distance, which is defined as the $L_1$ distance between the predicted values and the set of predictions that are perfectly calibrated in hindsight. This is analogous to a calibration measure recently proposed by B{\l}asiok, Gopalan, Hu and Nakkiran (STOC 2023) for the offline setting. The calibration distance is a natural and intuitive measure of deviation from perfect calibration, and satisfies a Lipschitz continuity property which does not hold for many popular calibration measures, such as the $L_1$ calibration error and its variants. We prove that there is a forecasting algorithm that achieves an $O(\sqrt{T})$ calibration distance in expectation on an adversarially chosen sequence of $T$ binary outcomes. At the core of this upper bound is a structural result showing that the calibration distance is accurately approximated by the lower calibration distance, which is a continuous relaxation of the former. We then show that an $O(\sqrt{T})$ lower calibration distance can be achieved via a simple minimax argument and a reduction to online learning on a Lipschitz class. On the lower bound side, an $\Omega(T^{1/3})$ calibration distance is shown to be unavoidable, even when the adversary outputs a sequence of independent random bits, and has an additional ability to early stop (i.e., to stop producing random bits and output the same bit in the remaining steps). Interestingly, without this early stopping, the forecaster can achieve a much smaller calibration distance of $\mathrm{polylog}(T)$.
翻訳日:2024-02-13 15:23:21 公開日:2024-02-12
# OS-Copilot: 自己改善型汎用コンピュータエージェントを目指して

OS-Copilot: Towards Generalist Computer Agents with Self-Improvement ( http://arxiv.org/abs/2402.07456v1 )

ライセンス: Link先を確認
Zhiyong Wu, Chengcheng Han, Zichen Ding, Zhenmin Weng, Zhoumianze Liu, Shunyu Yao, Tao Yu and Lingpeng Kong(参考訳) コンピュータとの自律的なインタラクションは、大きな可能性を秘めた長年の課題であり、近年の大規模言語モデル(llm)の普及は、デジタルエージェントの構築の進展を著しく加速している。 しかし、これらのエージェントのほとんどは特定のソフトウェアやウェブサイトのような狭いドメインと相互作用するように設計されている。 この狭い焦点は、一般的なコンピュータタスクに適用性を制限する。 この目的のために,OS-Copilotは,Web,コード端末,ファイル,マルチメディア,各種サードパーティアプリケーションなど,オペレーティングシステム(OS)の包括的要素と対話可能な汎用エージェントを構築するためのフレームワークである。 我々はOS-Copilotを使って、汎用コンピュータタスクを自動化する自己改善型実施エージェントであるFRIDAYを開発した。 一般的なAIアシスタントのベンチマークであるGAIAでは、FRIDAYが従来の手法を35%上回り、以前のタスクから蓄積したスキルを通じて、目に見えないアプリケーションへの強力な一般化を示している。 また、FRIDAYがExcelとPowerpointの制御と自己改善を最小限の監督で学んでいることの数値的および定量的証拠を示す。 当社のos-copilotフレームワークと経験的知見は,より有能で汎用的なコンピュータエージェントに向けた今後の研究のためのインフラストラクチャと洞察を提供する。

Autonomous interaction with the computer has been a longstanding challenge with great potential, and the recent proliferation of large language models (LLMs) has markedly accelerated progress in building digital agents. However, most of these agents are designed to interact with a narrow domain, such as a specific software or website. This narrow focus constrains their applicability for general computer tasks. To this end, we introduce OS-Copilot, a framework to build generalist agents capable of interfacing with comprehensive elements in an operating system (OS), including the web, code terminals, files, multimedia, and various third-party applications. We use OS-Copilot to create FRIDAY, a self-improving embodied agent for automating general computer tasks. On GAIA, a general AI assistants benchmark, FRIDAY outperforms previous methods by 35%, showcasing strong generalization to unseen applications via accumulated skills from previous tasks. We also present numerical and quantitative evidence that FRIDAY learns to control and self-improve on Excel and Powerpoint with minimal supervision. Our OS-Copilot framework and empirical findings provide infrastructure and insights for future research toward more capable and general-purpose computer agents.
翻訳日:2024-02-13 15:22:46 公開日:2024-02-12
# 非断熱遷移による量子輸送

Quantum transport enabled by non-adiabatic transitions ( http://arxiv.org/abs/2402.07454v1 )

ライセンス: Link先を確認
Ajith Ramachandran, Alexander Eisfeld, Sebastian W\"uster, Jan-Michael Rost(参考訳) 離散的な部位を持つネットワークにおける電荷やエネルギーの量子輸送は、分子エレクトロニクスから光収穫、量子光学メタマテリアルまで様々な量子技術の中心である。 1次元ネットワークは導波路と見なすことができる。 このような導波路をいくつかの部位を含む制御ユニットにハイブリダイズすると、導波路を透過する伝達は制御ユニット内の部位の動きに敏感に依存する。 ハイブリッド導波管とその制御ユニットはファノ・アンダーソン鎖を形成し、ボルン・オッペンハイマー表面は両方の成分から特性を受け継いだ: 導波管からのバンド構造と、制御ユニットからの部位座標の関数としてのポテンシャルエネルギーステップである。 時間依存量子波パケットを用いて, 制御ユニットが表面間の非断熱遷移を誘導する移動サイトを含む場合に限り, ハイブリッド構造が透過的になる条件を明らかにする。 したがって, メカニック素子とエキサイトニック素子を組み合わせたハイブリッド量子技術において, ボルン・オッペンハイマー表面を機能的に合成し, スイッチングや温度センサなどの応用が可能となる。

Quantum transport of charge or energy in networks with discrete sites is central to diverse quantum technologies, from molecular electronics to light harvesting and quantum opto-mechanical metamaterials. A one dimensional network can be viewed as waveguide. We show that if such waveguide is hybridised with a control unit that contains a few sites, then transmission through the waveguide depends sensitively on the motion of the sites in the control unit. Together, the hybrid waveguide and its control-unit form a Fano-Anderson chain whose Born-Oppenheimer surfaces inherit characteristics from both components: A bandstructure from the waveguide and potential energy steps as a function of site coordinates from the control-unit. Using time-dependent quantum wave packets, we reveal conditions under which the hybrid structure becomes transmissive only if the control unit contains mobile sites that induce non-adiabatic transitions between the surfaces. Hence, our approach provides functional synthetic Born-Oppenheimer surfaces for hybrid quantum technologies combining mechanic and excitonic elements, and has possible applications such as switching and temperature sensing.
翻訳日:2024-02-13 15:22:26 公開日:2024-02-12
# Bandit-Feedbackオンラインマルチクラス分類:変数とトレードオフ

Bandit-Feedback Online Multiclass Classification: Variants and Tradeoffs ( http://arxiv.org/abs/2402.07453v1 )

ライセンス: Link先を確認
Yuval Filmus, Steve Hanneke, Idan Mehalel and Shay Moran(参考訳) 敵のオンライン設定におけるマルチクラス分類の領域を考えてみよう。 完全な情報とは対照的に、盗賊のフィードバックに頼る値段はいくらですか。 適応的敵は、難解な相手に比べて損失をどの程度増幅できるのか? ランダム化学習者は決定論的学習と比較して損失をどの程度軽減できるのか? 我々はこれらの質問を誤り境界モデルで研究し、ほぼ緊密な回答を提供する。 我々は、バンディットフィードバックの下で束縛された最適誤りが、ラベル数を表す$k$のフル情報ケースで束縛された最適ミスよりも最大で$o(k)$であることを示す。 この境界は厳密で、Daniely氏とHelbertal氏['13]とLong氏['17, '20]によって以前に提起され研究されたオープンな質問に対する回答を提供する。 さらに, ランダム化学習者と決定論的学習者とのギャップと, バンドイットフィードバック設定における適応的および必然的な敵間のギャップについて, $\tilde{\theta}(k)$ のほぼ最適境界を提示する。 これは、適応的かつ必然的な敵が等価である完全な情報シナリオと対照的であり、ランダム化学習者と決定論的学習者の間の誤り境界の差は、一定の乗算係数が2ドルである。 さらに, この結果から, 最適ランダム化誤差境界が決定論的並列の約2乗根であることを示唆する。 これまでの結果は、これが本質的には最小のものであることを示している。

Consider the domain of multiclass classification within the adversarial online setting. What is the price of relying on bandit feedback as opposed to full information? To what extent can an adaptive adversary amplify the loss compared to an oblivious one? To what extent can a randomized learner reduce the loss compared to a deterministic one? We study these questions in the mistake bound model and provide nearly tight answers. We demonstrate that the optimal mistake bound under bandit feedback is at most $O(k)$ times higher than the optimal mistake bound in the full information case, where $k$ represents the number of labels. This bound is tight and provides an answer to an open question previously posed and studied by Daniely and Helbertal ['13] and by Long ['17, '20], who focused on deterministic learners. Moreover, we present nearly optimal bounds of $\tilde{\Theta}(k)$ on the gap between randomized and deterministic learners, as well as between adaptive and oblivious adversaries in the bandit feedback setting. This stands in contrast to the full information scenario, where adaptive and oblivious adversaries are equivalent, and the gap in mistake bounds between randomized and deterministic learners is a constant multiplicative factor of $2$. In addition, our results imply that in some cases the optimal randomized mistake bound is approximately the square-root of its deterministic parallel. Previous results show that this is essentially the smallest it can get.
翻訳日:2024-02-13 15:22:07 公開日:2024-02-12
# triaug: out-of-distribution detection による超音波不均衡乳腺病変のロバスト分類

TriAug: Out-of-Distribution Detection for Robust Classification of Imbalanced Breast Lesion in Ultrasound ( http://arxiv.org/abs/2402.07452v1 )

ライセンス: Link先を確認
Yinyu Ye, Shijing Chen, Dong Ni, Ruobing Huang(参考訳) 乳腺病変の組織学的亜型のような異なる疾患は、頻度が著しく異なる。 大量のID(In-distriion)データで訓練されたモデルでも、臨床の分野では見当たらないクラスに属するOOD(Out-of-distriion)サンプルに遭遇することが多い。 そこで本研究では,乳房超音波画像に対する長期OOD検出タスクに基づく新しい枠組みを提案する。 有望なOOD検出性能を維持しながらID分類精度を向上させる三重項状態拡張(TriAug)を備える。 一方、クラス不均衡問題を扱うために、バランスの取れた球損失を設計した。

Different diseases, such as histological subtypes of breast lesions, have severely varying incidence rates. Even trained with substantial amount of in-distribution (ID) data, models often encounter out-of-distribution (OOD) samples belonging to unseen classes in clinical reality. To address this, we propose a novel framework built upon a long-tailed OOD detection task for breast ultrasound images. It is equipped with a triplet state augmentation (TriAug) which improves ID classification accuracy while maintaining a promising OOD detection performance. Meanwhile, we designed a balanced sphere loss to handle the class imbalanced problem.
翻訳日:2024-02-13 15:21:41 公開日:2024-02-12
# AraSpider: アラビア語からSQLへの民主化

AraSpider: Democratizing Arabic-to-SQL ( http://arxiv.org/abs/2402.07448v1 )

ライセンス: Link先を確認
Ahmed Heakl, Youssef Mohamed, and Ahmed B. Zaky(参考訳) 本研究では,アラビア語コミュニティにおける自然言語処理(NLP)の改善を目的とした,最初のアラビア語版であるAraSpiderについて述べる。 4つの多言語翻訳モデルを英語からアラビア語への翻訳の有効性について検討した。 さらに、アラビア文字からSQLクエリを生成する能力について、2つのモデルが評価された。 その結果,Siderデータセットの上位パフォーマーと考えられるChatGPT 3.5モデルとSQLCoderモデルの両方のパフォーマンスが大幅に向上した。 特にChatGPT 3.5は高品質な翻訳を示し、SQLCoderはテキストからSQLタスクに優れていた。 この研究は、アラビア語NLPタスクにおけるモデル性能を高めるために、文脈スキーマの導入と逆変換戦略を活用することの重要性を強調している。 さらに、データセットの再現性と他言語への翻訳に関する詳細な方法論の提供は、この分野における透明性と協調的な知識共有を促進する研究のコミットメントを強調している。 全体として、これらの貢献はnlp研究を前進させ、アラビア語研究者に力を与え、言語理解とデータベースの尋問に関するグローバルな談話を強化する。

This study presents AraSpider, the first Arabic version of the Spider dataset, aimed at improving natural language processing (NLP) in the Arabic-speaking community. Four multilingual translation models were tested for their effectiveness in translating English to Arabic. Additionally, two models were assessed for their ability to generate SQL queries from Arabic text. The results showed that using back translation significantly improved the performance of both ChatGPT 3.5 and SQLCoder models, which are considered top performers on the Spider dataset. Notably, ChatGPT 3.5 demonstrated high-quality translation, while SQLCoder excelled in text-to-SQL tasks. The study underscores the importance of incorporating contextual schema and employing back translation strategies to enhance model performance in Arabic NLP tasks. Moreover, the provision of detailed methodologies for reproducibility and translation of the dataset into other languages highlights the research's commitment to promoting transparency and collaborative knowledge sharing in the field. Overall, these contributions advance NLP research, empower Arabic-speaking researchers, and enrich the global discourse on language comprehension and database interrogation.
翻訳日:2024-02-13 15:21:29 公開日:2024-02-12
# 品質は重要だ - webマインド・パラレルコーパスの品質と有用性について

Quality Does Matter: A Detailed Look at the Quality and Utility of Web-Mined Parallel Corpora ( http://arxiv.org/abs/2402.07446v1 )

ライセンス: Link先を確認
Surangika Ranathunga, Nisansa de Silva, Menan Velayuthan, Aloka Fernando, Charitha Rathnayake(参考訳) 2つの低リソース言語(英語-sinhala, english-tamil, sinhala-tamilの3つの言語ペア)について,webマインドコーパスの品質に関する詳細な分析を行った。 我々は,各コーパスを類似度尺度で分類し,各コーパスの異なる部分について内在的,外因的評価を行った。 ウェブマイニングコーパスの異なる部分で品質が著しく異なり、言語やデータセットによって品質が変化することを示す。 また、Webマイニングされたデータセットでは、最もランクの高い25k部分でトレーニングされたNeural Machine Translation(NMT)モデルが、人間の計算したデータセットと同等であることを示す。

We conducted a detailed analysis on the quality of web-mined corpora for two low-resource languages (making three language pairs, English-Sinhala, English-Tamil and Sinhala-Tamil). We ranked each corpus according to a similarity measure and carried out an intrinsic and extrinsic evaluation on different portions of this ranked corpus. We show that there are significant quality differences between different portions of web-mined corpora and that the quality varies across languages and datasets. We also show that, for some web-mined datasets, Neural Machine Translation (NMT) models trained with their highest-ranked 25k portion can be on par with human-curated datasets.
翻訳日:2024-02-13 15:21:11 公開日:2024-02-12
# 単調な逆境を持つトップ$k$ランキング

Top-$K$ ranking with a monotone adversary ( http://arxiv.org/abs/2402.07445v1 )

ライセンス: Link先を確認
Yuepeng Yang, Antares Chen, Lorenzo Orecchia, Cong Ma(参考訳) 本稿では,単調な逆数による上位$Kのランキング問題に対処する。 比較グラフがランダムに生成され、敵が任意の辺を追加することを許容するシナリオを考える。 統計学者の目標は、この半ランダム比較グラフから導かれる対数比較に基づいて、最上位の$k$推奨項目を正確に識別することである。 この論文の主な貢献は、n が比較対象の項目数を表す $\log^2(n)$ factor まで、最適に近いサンプル複雑性を達成する重み付き最大度推定器(mle)を開発することである。 これは分析的およびアルゴリズム的革新の組み合わせによって実現される。 分析の面では、既存の分析よりも明示的でタイトな重み付きmleの洗練された$\ell_\infty$エラー解析を提供する。 これは、$\ell_\infty$エラーと重み付き比較グラフのスペクトル特性に関連する。 アルゴリズムの革新は、半ランダムグラフを再重み付けし、特定のスペクトル特性を満たすSDPベースのアプローチの開発を伴う。 さらに,行列乗算重み更新(MMWU)フレームワークに基づく一階法を提案する。 この方法は半ランダム比較グラフのサイズに対してほぼ直線時間で結果のSDPを効率よく解く。

In this paper, we address the top-$K$ ranking problem with a monotone adversary. We consider the scenario where a comparison graph is randomly generated and the adversary is allowed to add arbitrary edges. The statistician's goal is then to accurately identify the top-$K$ preferred items based on pairwise comparisons derived from this semi-random comparison graph. The main contribution of this paper is to develop a weighted maximum likelihood estimator (MLE) that achieves near-optimal sample complexity, up to a $\log^2(n)$ factor, where n denotes the number of items under comparison. This is made possible through a combination of analytical and algorithmic innovations. On the analytical front, we provide a refined $\ell_\infty$ error analysis of the weighted MLE that is more explicit and tighter than existing analyses. It relates the $\ell_\infty$ error with the spectral properties of the weighted comparison graph. Motivated by this, our algorithmic innovation involves the development of an SDP-based approach to reweight the semi-random graph and meet specified spectral properties. Additionally, we propose a first-order method based on the Matrix Multiplicative Weight Update (MMWU) framework. This method efficiently solves the resulting SDP in nearly-linear time relative to the size of the semi-random comparison graph.
翻訳日:2024-02-13 15:20:56 公開日:2024-02-12
# 注意のI/O複雑さ、それともFlashの注意はいかに最適か?

The I/O Complexity of Attention, or How Optimal is Flash Attention? ( http://arxiv.org/abs/2402.07443v1 )

ライセンス: Link先を確認
Barna Saha, Christopher Ye(参考訳) 自己注意は一般的なTransformerアーキテクチャの中心にあるが、時間とメモリの複雑さに悩まされている。 FlashAttentionアルゴリズムはトランスフォーマーのスケーリングにおける真のボトルネックとしてI/O複雑性を明らかにした。 メモリ階層の2つのレベル、高速キャッシュ(GPUオンチップSRAMなど)と遅いメモリ(GPU高帯域メモリなど)が与えられた場合、I/O複雑性はメモリへのアクセス数を計測する。 flashattentionは$\frac{n^2d^2}{m}$ i/o演算を使ってアテンションを計算し、ここで$n$はアテンション行列の次元、$d$はヘッドディメンション、$m$はキャッシュサイズである。 しかし、このI/O複雑性は最適か? 既知の下限は、メモリを遅くするために書き込む必要のある出力が$\omega(nd)$であるため、$m=\theta(nd)$ のとき、i/o の複雑さが $o(nd)$ となるだけである。 FlashAttention I/Oは$M$のすべての値に最適ですか? 上記の問題を全一般性において解き、任意の定数で$m \geq d^2$の値に対してフラッシュアテンションによって与えられる上限に一致するi/o複雑性下限を示す。 さらに,$M < d^2$に対して,より低いI/O複雑性を持つアルゴリズムを提案し,最適であることを示す。 さらに、我々の下限は、注意行列を計算するのに組合せ行列の乗法を使用しない。 高速な行列乗法を用いても、上記のI/O複雑性境界は改善できない。 我々は,行列圧縮のための新しい通信複雑性プロトコルを導入し,通信複雑性をi/o複雑性に結びつける。 私たちの知る限りでは、これは通信複雑性とI/O複雑性の関連を確立するための最初の取り組みであり、この関係は独立した関心事になり、将来I/O複雑性の低い境界を証明する多くのアプリケーションを見つけるだろうと考えています。

Self-attention is at the heart of the popular Transformer architecture, yet suffers from quadratic time and memory complexity. The breakthrough FlashAttention algorithm revealed I/O complexity as the true bottleneck in scaling Transformers. Given two levels of memory hierarchy, a fast cache (e.g. GPU on-chip SRAM) and a slow memory (e.g. GPU high-bandwidth memory), the I/O complexity measures the number of accesses to memory. FlashAttention computes attention using $\frac{N^2d^2}{M}$ I/O operations where $N$ is the dimension of the attention matrix, $d$ the head-dimension and $M$ the cache size. However, is this I/O complexity optimal? The known lower bound only rules out an I/O complexity of $o(Nd)$ when $M=\Theta(Nd)$, since the output that needs to be written to slow memory is $\Omega(Nd)$. This leads to the main question of our work: Is FlashAttention I/O optimal for all values of $M$? We resolve the above question in its full generality by showing an I/O complexity lower bound that matches the upper bound provided by FlashAttention for any values of $M \geq d^2$ within any constant factors. Further, we give a better algorithm with lower I/O complexity for $M < d^2$, and show that it is optimal as well. Moreover, our lower bounds do not rely on using combinatorial matrix multiplication for computing the attention matrix. We show even if one uses fast matrix multiplication, the above I/O complexity bounds cannot be improved. We do so by introducing a new communication complexity protocol for matrix compression, and connecting communication complexity to I/O complexity. To the best of our knowledge, this is the first work to establish a connection between communication complexity and I/O complexity, and we believe this connection could be of independent interest and will find many more applications in proving I/O complexity lower bounds in the future.
翻訳日:2024-02-13 15:20:24 公開日:2024-02-12
# フリーフォームテキストコマンドによるゲームエージェント:LLMに基づくコード生成と行動分岐を用いて

Game Agent Driven by Free-Form Text Command: Using LLM-based Code Generation and Behavior Branch ( http://arxiv.org/abs/2402.07442v1 )

ライセンス: Link先を確認
Ray Ito, Junichiro Takahashi(参考訳) ゲームエージェントのテキストコマンド制御を実装する試みがいくつか行われている。 しかし、現在の技術は事前に定義されたフォーマットコマンドの処理に限られている。 本稿では,自由形式で表現された自然言語コマンドを理解可能なゲームエージェントのためのテキストコマンド制御システムを提案する。 提案システムでは,コード生成のための大規模言語モデル(LLM)を用いて,自然言語コマンドを動作木に基づく知識表現である行動分岐に解釈・変換し,ゲームエージェントによる実行を容易にする。 本研究は,Pok\emonをシミュレーションし,複数の参加者を巻き込んだゲーム環境における実証検証を行った。 その結果,リアルタイム言語対話型ゲームエージェントの分野で注目される自然言語コマンドの理解と実行能力が確認された。 この材料の使用に注意してください。 本資料の著作権は日本人工知能学会(JSAI)が保持している。 この資料はJSAIの合意によりここで発行されている。 もしユーザが複製、デリバティブ・ワーク、配布、あるいはその全部を一般に公開したいと思ったら、日本の著作権法に準拠してください。 All Rights Reserved, Copyright (C) The Japanese Society for Artificial Intelligence(英語)

Several attempts have been made to implement text command control for game agents. However, current technologies are limited to processing predefined format commands. This paper proposes a pioneering text command control system for a game agent that can understand natural language commands expressed in free-form. The proposed system uses a large language model (LLM) for code generation to interpret and transform natural language commands into behavior branch, a proposed knowledge expression based on behavior trees, which facilitates execution by the game agent. This study conducted empirical validation within a game environment that simulates a Pok\'emon game and involved multiple participants. The results confirmed the system's ability to understand and carry out natural language commands, representing a noteworthy in the realm of real-time language interactive game agents. Notice for the use of this material. The copyright of this material is retained by the Japanese Society for Artificial Intelligence (JSAI). This material is published here with the agreement of JSAI. Please be complied with Copyright Law of Japan if any users wish to reproduce, make derivative work, distribute or make available to the public any part or whole thereof. All Rights Reserved, Copyright (C) The Japanese Society for Artificial Intelligence.
翻訳日:2024-02-13 15:19:19 公開日:2024-02-12
# LoCoとM2-BERTを用いた長期検索モデルのベンチマークと構築

Benchmarking and Building Long-Context Retrieval Models with LoCo and M2-BERT ( http://arxiv.org/abs/2402.07440v1 )

ライセンス: Link先を確認
Jon Saad-Falcon, Daniel Y. Fu, Simran Arora, Neel Guha, Christopher R\'e(参考訳) 検索パイプラインは、多くの機械学習システムの不可欠なコンポーネントで、ドキュメントが長い(例えば10kトークンなど)ドメインや、関連するドキュメントを識別するには、テキスト全体にわたって情報を合成する必要がある。 これらのドメインに適したロングコンテキスト検索エンコーダの開発には,(1)ロングコンテキスト検索性能の評価方法,(2)ショートコンテキスト(クエリ対応)とロングコンテキスト(ドキュメント対応)の両方を表現するベース言語モデルを事前トレーニングする方法,(3)gpuメモリ制約によって課されるバッチサイズ制限下での検索のためにこのモデルを微調整する方法,の3つの課題がある。 これらの課題に対処するために,我々はまず,チャンキングが不可能あるいは有効でない長文検索のための新しい12タスクベンチマークであるLoCoV1を紹介する。 次に、M2-BERT検索エンコーダについて述べる。M2-BERT検索エンコーダは、Monarch Mixerアーキテクチャから構築された80Mパラメータの状態空間エンコーダモデルであり、最大32Kトークンまで拡張可能である。 本稿では、このエンコーダが短いコンテキストシーケンスと長いコンテキストシーケンスの両方を処理できるプリトレーニングデータ混合と、このベースモデルを単一サンプルバッチのみで検索する微調整アプローチについて述べる。 最後に,LoCoV1上のM2-BERT検索エンコーダを検証した結果,5~90倍のパラメータを含むにもかかわらず,最大23.3ポイントの競合ベースラインを達成できた。

Retrieval pipelines-an integral component of many machine learning systems-perform poorly in domains where documents are long (e.g., 10K tokens or more) and where identifying the relevant document requires synthesizing information across the entire text. Developing long-context retrieval encoders suitable for these domains raises three challenges: (1) how to evaluate long-context retrieval performance, (2) how to pretrain a base language model to represent both short contexts (corresponding to queries) and long contexts (corresponding to documents), and (3) how to fine-tune this model for retrieval under the batch size limitations imposed by GPU memory constraints. To address these challenges, we first introduce LoCoV1, a novel 12 task benchmark constructed to measure long-context retrieval where chunking is not possible or not effective. We next present the M2-BERT retrieval encoder, an 80M parameter state-space encoder model built from the Monarch Mixer architecture, capable of scaling to documents up to 32K tokens long. We describe a pretraining data mixture which allows this encoder to process both short and long context sequences, and a finetuning approach that adapts this base model to retrieval with only single-sample batches. Finally, we validate the M2-BERT retrieval encoder on LoCoV1, finding that it outperforms competitive baselines by up to 23.3 points, despite containing 5-90x fewer parameters.
翻訳日:2024-02-13 15:18:33 公開日:2024-02-12
# 非原子間混雑ゲームにおける最適課税設計の学習

Learning Optimal Tax Design in Nonatomic Congestion Games ( http://arxiv.org/abs/2402.07437v1 )

ライセンス: Link先を確認
Qiwen Cui, Maryam Fazel and Simon S. Du(参考訳) 非原子的混雑ゲームにおける最適税制設計の学習方法について検討する。 プレイヤー間の自己関心行動がシステムの効率を損なうことが知られている。 税制は、この問題を緩和し、社会的に最適な行動を引き起こす一般的な方法である。 本研究では, 社会コストを最小化できる最適税法を学習する最初のステップとして, すなわち, 強制課税下の均衡状態のみを, 設計者が観察できることを述べる。 既存のアルゴリズムは指数的に大きな税関数空間、勾配の非存在、目的の非凸性のために適用できない。 これらの課題に対処するために,本アルゴリズムは,(1)最適税を近似する分級線形税,(2)強い対流ポテンシャル関数を保証する余剰線形用語,(3)「境界」税を見つけるための効率的なサブルーチンなど,いくつかの新しい成分を活用する。 このアルゴリズムは、$O(\beta F^2/\epsilon)$サンプルの複雑さで$\epsilon$-optimal taxを見つけることができ、$\beta$はコスト関数の滑らかさ、$F$は施設数である。

We study how to learn the optimal tax design to maximize the efficiency in nonatomic congestion games. It is known that self-interested behavior among the players can damage the system's efficiency. Tax mechanisms is a common method to alleviate this issue and induce socially optimal behavior. In this work, we take the initial step for learning the optimal tax that can minimize the social cost with \emph{equilibrium feedback}, i.e., the tax designer can only observe the equilibrium state under the enforced tax. Existing algorithms are not applicable due to the exponentially large tax function space, nonexistence of the gradient, and nonconvexity of the objective. To tackle these challenges, our algorithm leverages several novel components: (1) piece-wise linear tax to approximate the optimal tax; (2) an extra linear term to guarantee a strongly convex potential function; (3) efficient subroutine to find the ``boundary'' tax. The algorithm can find an $\epsilon$-optimal tax with $O(\beta F^2/\epsilon)$ sample complexity, where $\beta$ is the smoothness of the cost function and $F$ is the number of facilities.
翻訳日:2024-02-13 15:17:46 公開日:2024-02-12
# MAFIA:マルチアダプタ融合包括型LanguAgeモデル

MAFIA: Multi-Adapter Fused Inclusive LanguAge Models ( http://arxiv.org/abs/2402.07519v1 )

ライセンス: Link先を確認
Prachi Jain, Ashutosh Sathe, Varun Gumma, Kabir Ahuja, Sunayana Sitaram(参考訳) プレトレーニング言語モデル(PLM)は、様々なタスクでNLPで広く使われている。 近年の研究では、これらのモデルが示す様々なバイアスを特定し、これらのバイアスを修正する方法を提案している。 しかしながら、ほとんどの著作は、性別、人種、宗教など、独立して限定された偏見次元に対処している。 さらに、メソッドは通常、下流タスクのパフォーマンスを維持するために、完全なモデルを微調整する。 本研究では,複数の次元にまたがる事前学習言語モデルをモジュール的にデバイアスすることを目的とする。 以前の研究は、限定的な米国中心の偽データ拡張(cda)を使用してplmのデバイアスを広範囲に検討した。 我々は構造化知識と大規模な生成モデルを用いて、半自動化された方法で複数のバイアス次元にまたがる多様なCDAを構築します。 本稿では,複数の社会的バイアス間の相互作用を考慮せず,様々な社会的バイアスの相乗効果を生かし,同時にマルチバイアス・デバイアスを可能にするデバイアスモデルを提案する。 複数のタスクや言語に対する広範な評価は、我々のアプローチの有効性を示している。

Pretrained Language Models (PLMs) are widely used in NLP for various tasks. Recent studies have identified various biases that such models exhibit and have proposed methods to correct these biases. However, most of the works address a limited set of bias dimensions independently such as gender, race, or religion. Moreover, the methods typically involve finetuning the full model to maintain the performance on the downstream task. In this work, we aim to modularly debias a pretrained language model across multiple dimensions. Previous works extensively explored debiasing PLMs using limited US-centric counterfactual data augmentation (CDA). We use structured knowledge and a large generative model to build a diverse CDA across multiple bias dimensions in a semi-automated way. We highlight how existing debiasing methods do not consider interactions between multiple societal biases and propose a debiasing model that exploits the synergy amongst various societal biases and enables multi-bias debiasing simultaneously. An extensive evaluation on multiple tasks and languages demonstrates the efficacy of our approach.
翻訳日:2024-02-13 15:10:09 公開日:2024-02-12
# 真の相関ガウス状態を生成するネットワーク機構

Network mechanism for generating genuinely correlative Gaussian states ( http://arxiv.org/abs/2402.07489v1 )

ライセンス: Link先を確認
Zhaofang Bai, Shuanping Du(参考訳) 真の量子相関(gqc)を持つ長距離量子状態の生成は、量子通信をサポートする量子ネットワークの最も重要な機能の一つである。 本稿では、あるgqc(真の絡み合いを含む)でマルチモードガウス状態を生成する決定論的スキームを提案する。 マルチモード状態を生成する効率的なアルゴリズムも提案する。 本手法は,マルチモードガウス状態の生成におけるボトルネックを解決するのに有用であり,現在の量子技術におけるマルチパーティタイト量子状態生成の現実の応用への道を開くかもしれない。

Generating a long-distance quantum state with genuine quantum correlation (GQC) is one of the most essential functions of quantum networks to support quantum communication. Here, we provide a deterministic scheme for generating multimode Gaussian states with certain GQC (including genuine entanglement). Efficient algorithms of generating multimode states are also proposed. Our scheme is useful for resolving the bottleneck in generating some multimode Gaussian states and may pave the way towards real world applications of preparing multipartite quantum states in current quantum technologies.
翻訳日:2024-02-13 15:09:54 公開日:2024-02-12
# 確率微分方程式によるスコアベース拡散モデル-技術チュートリアル

Score-based Diffusion Models via Stochastic Differential Equations -- a Technical Tutorial ( http://arxiv.org/abs/2402.07487v1 )

ライセンス: Link先を確認
Wenpin Tang and Hanyang Zhao(参考訳) 本論文は,確率微分方程式(sde)による定式化に特に焦点をあてた,スコアに基づく拡散モデルに関する解説記事である。 sde/odeサンプリングを包含するサンプリングとスコアマッチング,スコアマッチング効率,一貫性モデル,強化学習という,拡散モデリングにおける2つの柱について論じた。 提案された結果の主案を説明するための短い証明が与えられる。 この記事は主に初心者を現場に紹介することを目的としており、実践者は新しいモデルやアルゴリズムを設計するのに有用な分析方法を見出すかもしれない。

This is an expository article on the score-based diffusion models, with a particular focus on the formulation via stochastic differential equations (SDE). After a gentle introduction, we discuss the two pillars in the diffusion modeling -- sampling and score matching, which encompass the SDE/ODE sampling, score matching efficiency, the consistency model, and reinforcement learning. Short proofs are given to illustrate the main idea of the stated results. The article is primarily for introducing the beginners to the field, and practitioners may also find some analysis useful in designing new models or algorithms.
翻訳日:2024-02-13 15:09:44 公開日:2024-02-12
# 定常格子における進行波増幅

Travelling wave amplification in stationary gratings ( http://arxiv.org/abs/2402.07486v1 )

ライセンス: Link先を確認
S. A. R. Horsley and J. B. Pendry(参考訳) 空間に静止するが、時間的に振動する格子振幅は、逆方向を移動する独立した格子の集合として正確にモデル化され、ほぼ同一方向を移動する波と相互作用する。 この構造は、進行する格子の重要な特徴を再現する:局所波速度が格子速度と等しい点における波の増幅。 同じ磁場圧縮と光子生成は、格子プロファイルの1つのフーリエ成分であっても局所波速度に一致する速度を持つ場合にも明らかである。 定常だが振動する格子は、走行する格子よりも実験的に実現しやすいと推測する。

We show that a grating amplitude stationary in space but oscillating in time can be accurately modelled as a set of independent gratings travelling in opposite directions, interacting almost exclusively with waves travelling in the same direction. This structure reproduces the key features of travelling gratings: amplification of a wave at points where the local wave speed equals the grating velocity. The same field compression and photon production is evident when even a single Fourier component of the grating profile has a velocity that matches the local wave speed. We speculate that these stationary but oscillating gratings may prove easier to realise experimentally than travelling gratings.
翻訳日:2024-02-13 15:09:33 公開日:2024-02-12
# ニューラルネットワーク行動の解釈可能性に基づく侵略攻撃のトポロジカルセーフガード

Topological Safeguard for Evasion Attack based on the Interpretability of Artificial Neural Network Behavior ( http://arxiv.org/abs/2402.07480v1 )

ライセンス: Link先を確認
Xabier Echeberria-Barrio, Amaia Gil-Lerchundi, I\~nigo Mendialdua, Raul Orduna-Urrutia(参考訳) 近年、Deep Learning技術はさまざまな分野で提案され、それぞれに多くの進歩をもたらしたが、サイバーセキュリティに関するこれらのソリューションにおける新たな脅威を特定した。 これらの実装モデルは、ディープラーニング技術に関連するいくつかの脆弱性をもたらしている。 さらに、これらは実装されたモデルを活用し、プライベート情報を取得し、モデルの意思決定を変更できる。 したがって、これらの脆弱性や攻撃を研究し、それらを避けたり戦ったりするために防御を設計することへの関心が研究者の間で高まっている。 特に、広く知られている回避攻撃は研究者によって分析されており、そのような脅威を避けるためのいくつかの防御策が文献で見られる。 L-BFGアルゴリズムの提示以来、この脅威は研究コミュニティを悩ませている。 しかし、既知の全ての回避アルゴリズムに対する完全な防御がないため、新たな独創的な対策が開発され続けている。 本研究では,新たな回避攻撃検知装置を開発した。 入力サンプルが注入された際にモデルによって与えられるニューロンの活性化の情報に焦点を当てている。 さらに、対象とするディープラーニングモデルのトポロジーに注目し、どのニューロンが接続しているかに応じてアクティベーションを分析する。 このアプローチは、対象モデルのトポロジーが回避攻撃が起こるかどうかに関する重要な情報を含んでいることを示す文献から決定されている。 この目的のために、グラフ畳み込みニューラルネットワーク(GCN)技術を使用する検出器にこれらの情報をすべて導入するために、巨大なデータ前処理が必要である。 そこで, 対象モデルのトポロジを理解し, 有望な結果を得て, 類似の防衛に関する文献に提示される結果を改善する。

In the last years, Deep Learning technology has been proposed in different fields, bringing many advances in each of them, but identifying new threats in these solutions regarding cybersecurity. Those implemented models have brought several vulnerabilities associated with Deep Learning technology. Moreover, those allow taking advantage of the implemented model, obtaining private information, and even modifying the model's decision-making. Therefore, interest in studying those vulnerabilities/attacks and designing defenses to avoid or fight them is gaining prominence among researchers. In particular, the widely known evasion attack is being analyzed by researchers; thus, several defenses to avoid such a threat can be found in the literature. Since the presentation of the L-BFG algorithm, this threat concerns the research community. However, it continues developing new and ingenious countermeasures since there is no perfect defense for all the known evasion algorithms. In this work, a novel detector of evasion attacks is developed. It focuses on the information of the activations of the neurons given by the model when an input sample is injected. Moreover, it puts attention to the topology of the targeted deep learning model to analyze the activations according to which neurons are connecting. This approach has been decided because the literature shows that the targeted model's topology contains essential information about if the evasion attack occurs. For this purpose, a huge data preprocessing is required to introduce all this information in the detector, which uses the Graph Convolutional Neural Network (GCN) technology. Thus, it understands the topology of the target model, obtaining promising results and improving the outcomes presented in the literature related to similar defenses.
翻訳日:2024-02-13 15:09:24 公開日:2024-02-12
# 言語処理としての食品レコメンデーション(F-RLP) : パーソナライズされた文脈パラダイム

Food Recommendation as Language Processing (F-RLP): A Personalized and Contextual Paradigm ( http://arxiv.org/abs/2402.07477v1 )

ライセンス: Link先を確認
Ali Rostami, Ramesh Jain, Amir M. Rahmani(参考訳) 最先端のルールベースと分類ベースの食品レコメンデーションシステムは、実用的で有用になる上で大きな課題に直面している。 この難しさは、ほとんどの機械学習モデルが、ほぼ無限のクラスと、不均衡データセット内の限られた数のサンプルによって特徴づけられる問題に苦しむため、主に発生する。 逆に、レコメンデーションエンジンとしての大規模言語モデル(llm)の出現は有望な道筋を提供している。 しかし、言語処理としての汎用推奨(rlp)アプローチは、効果的な食品推奨に必要な重要な要素を欠いている。 このギャップに対処するために、食品特化、調整されたインフラを提供する新しいフレームワークであるF-RLP(Food Recommendation as Language Processing)を紹介します。 F-RLPはLLMの能力を最大限に活用し、より正確でパーソナライズされた食品レコメンデーションの道を開く。

State-of-the-art rule-based and classification-based food recommendation systems face significant challenges in becoming practical and useful. This difficulty arises primarily because most machine learning models struggle with problems characterized by an almost infinite number of classes and a limited number of samples within an unbalanced dataset. Conversely, the emergence of Large Language Models (LLMs) as recommendation engines offers a promising avenue. However, a general-purpose Recommendation as Language Processing (RLP) approach lacks the critical components necessary for effective food recommendations. To address this gap, we introduce Food Recommendation as Language Processing (F-RLP), a novel framework that offers a food-specific, tailored infrastructure. F-RLP leverages the capabilities of LLMs to maximize their potential, thereby paving the way for more accurate, personalized food recommendations.
翻訳日:2024-02-13 15:08:58 公開日:2024-02-12
# 高次元立方体錯体の拡張と量子ローカルテストコードへの応用

Expansion of higher-dimensional cubical complexes with application to quantum locally testable codes ( http://arxiv.org/abs/2402.07476v1 )

ライセンス: Link先を確認
Irit Dinur, Ting-Chun Lin, Thomas Vidick(参考訳) より高次元の「キュービカル」鎖複体を導入し、量子局所テスト可能な符号の設計に適用する。 我々の立方体鎖複体は任意の次元$t$で構成することができ、正確には、拡張符号(例$t=1$)のシプサー・スピールマン構成とディンルらによる構成を一般化する。 al と Panteleev と Kalachev の平方体(例 $t$=2) は、それぞれ古典的局所的テスト可能および量子的低密度パリティチェック符号の設計に適用されている。 t=4$ の場合、我々の構成は 4-タプルのランダム線型写像のロバスト性に関する予想を条件に、量子局所テスト可能な符号の族を与える。 これらの符号は線形次元、逆多対数相対距離と音質、多対数パリティチェックを有する。 私たちの複合体は2つの材料からモジュラーな方法で構築できます。 第一に、幾何学(縁、面、立方体など)は、A_1,\ldots,A_t$というアクションのペア交換セットと共に、サイズ$N$のセット$G$で提供される。 第二に、連鎖複体は、符号に基づく局所係数空間を各幾何学的対象に関連付け、それらの係数空間上の局所写像を導入することによって得られる。 我々は連鎖錯体のサイクルと共サイクル展開を制限した。 第一に、各cayley graph $cay(g,a_j)$ は良い(スペクトル)展開である必要があり、第二に、コードのファミリーとそれらの双対はどちらも堅牢性の形式を満たす必要がある(コードのペアに対する合意テスト可能性の条件を一般化する)。 第1の仮定は満足しやすいが、現在、第2の仮定が達成できるかどうかは分かっていない。

We introduce a higher-dimensional "cubical" chain complex and apply it to the design of quantum locally testable codes. Our cubical chain complex can be constructed for any dimension $t$, and in a precise sense generalizes the Sipser-Spielman construction of expander codes (case $t=1$) and the constructions by Dinur et. al and Panteleev and Kalachev of a square complex (case $t$=2), which have been applied to the design of classical locally testable and quantum low-density parity check codes respectively. For $t=4$ our construction gives a family of quantum locally testable codes conditional on a conjecture about robustness of four-tuples of random linear maps. These codes have linear dimension, inverse poly-logarithmic relative distance and soundness, and polylogarithmic-size parity checks. Our complex can be built in a modular way from two ingredients. Firstly, the geometry (edges, faces, cubes, etc.) is provided by a set $G$ of size $N$, together with pairwise commuting sets of actions $A_1,\ldots,A_t$ on it. Secondly, the chain complex itself is obtained by associating local coefficient spaces based on codes, with each geometric object, and introducing local maps on those coefficient spaces. We bound the cycle and co-cycle expansion of the chain complex. The assumptions we need are two-fold: firstly, each Cayley graph $Cay(G,A_j)$ needs to be a good (spectral) expander, and secondly, the families of codes and their duals both need to satisfy a form of robustness (that generalizes the condition of agreement testability for pairs of codes). While the first assumption is easy to satisfy, it is currently not known if the second can be achieved.
翻訳日:2024-02-13 15:08:43 公開日:2024-02-12
# ナノプリント結晶中の単一分子の高分解能低温分光

High-resolution Cryogenic Spectroscopy of Single Molecules in Nanoprinted Crystals ( http://arxiv.org/abs/2402.07474v1 )

ライセンス: Link先を確認
Mohammad Musavinezhad, Jan Renger, Johannes Zirkelbach, Tobias Utikal, Claudio U. Hail, Thomas Basch\'e, Dimos Poulikakos, Stephan G\"otzinger, and Vahid Sandoghdar(参考訳) 液体ヘリウム温度 (t=2 k) でレーザー分光を行い, 電気流体力学的ドリッピングにより作製したナノ高さアントラセン結晶にドーピングされた1分子のジベンゾテレレン (dbt) 分子を調べる。 高分解能蛍光励起分光法を用いて、プリントナノ結晶中の単一分子のゼロフォノン線は、バルク内の同じゲストホスト系で観測されるフーリエ制限遷移とほぼ同等に狭くなることを示した。 さらに、スペクトル不安定度は1本の直線幅に匹敵する。 DBT分子の超解像を記録し、励起ビームの偏光を変化させることで、印刷された結晶の寸法と結晶軸の配向を決定する。 有機ナノとマイクロ結晶の電気流体力学的印刷は、狭い光遷移を持つ量子エミッタの位置制御が望ましい一連の応用への道を開く。

We perform laser spectroscopy at liquid helium temperatures (T=2 K) to investigate single dibenzoterrylene (DBT) molecules doped in anthracene crystals of nanoscopic height fabricated by electrohydrodynamic dripping. Using high-resolution fluorescence excitation spectroscopy, we show that zero-phonon lines of single molecules in printed nanocrystals are nearly as narrow as the Fourier-limited transitions observed for the same guest-host system in the bulk. Moreover, the spectral instabilities are comparable to or less than one linewidth. By recording super-resolution images of DBT molecules and varying the polarization of the excitation beam, we determine the dimensions of the printed crystals and the orientation of the crystals' axes. Electrohydrodynamic printing of organic nano and microcrystals paves the way for a series of applications, where controlled positioning of quantum emitters with narrow optical transitions is desirable.
翻訳日:2024-02-13 15:08:07 公開日:2024-02-12
# 機械学習原子間ポテンシャルのためのデカルト原子クラスター展開

Cartesian atomic cluster expansion for machine learning interatomic potentials ( http://arxiv.org/abs/2402.07472v1 )

ライセンス: Link先を確認
Bingqing Cheng(参考訳) 機械学習の原子間ポテンシャルは、物質科学と化学における大規模で正確な原子モデルに革命をもたらしている。 これらのポテンシャルは、しばしば基底関数として球面調和を伴う原子クラスター展開や同変メッセージパッシングを用いる。 しかし、回転対称性を維持するためのクレブシュ・ゴルダン係数への依存は計算効率の非効率と冗長性をもたらす。 オルタナティブ:デカルト座標系原子密度拡大を提案する。 このアプローチは、相互作用体秩序を維持しながら原子環境を完全に記述する。 さらに,様々な化学元素の低次元埋め込みと原子間メッセージパッシングを統合する。 結果として得られるポテンシャルはデカルト原子クラスター展開 (cace) と呼ばれ、精度、安定性、一般化性に優れている。 バルク水, 小分子および25元素高エントロピー合金を含む多種多様なシステムでの性能を検証した。

Machine learning interatomic potentials are revolutionizing large-scale, accurate atomistic modelling in material science and chemistry. These potentials often use atomic cluster expansion or equivariant message passing with spherical harmonics as basis functions. However, the dependence on Clebsch-Gordan coefficients for maintaining rotational symmetry leads to computational inefficiencies and redundancies. We propose an alternative: a Cartesian-coordinates-based atomic density expansion. This approach provides a complete description of atomic environments while maintaining interaction body orders. Additionally, we integrate low-dimensional embeddings of various chemical elements and inter-atomic message passing. The resulting potential, named Cartesian Atomic Cluster Expansion (CACE), exhibits good accuracy, stability, and generalizability. We validate its performance in diverse systems, including bulk water, small molecules, and 25-element high-entropy alloys.
翻訳日:2024-02-13 15:07:50 公開日:2024-02-12
# ランダムウォークを用いた微分プライベート分散学習

Differentially Private Decentralized Learning with Random Walks ( http://arxiv.org/abs/2402.07471v1 )

ライセンス: Link先を確認
Edwige Cyffers, Aur\'elien Bellet and Jalaj Upadhyay(参考訳) 連合学習の人気は、スケーラビリティの向上と、参加者がデータのコントロールを維持し、データのセキュリティと主権を向上させる能力から来ています。 残念ながら、共有モデルのアップデートは、新たなプライバシ攻撃サーフェスも生み出す。 本研究では,分散学習のプライバシ保証をランダムウォークアルゴリズムを用いて特徴付け,通信グラフの縁に沿ってあるノードから別のノードへ移動してモデルを更新する。 Pairwise Network Differential Privacy(Pairwise Network Differential Privacy)と呼ばれる分散アルゴリズムの研究に合わせた最近の微分プライバシーの変種を用いて、通信トポロジの影響をグラフ理論量で捉えたノード間のプライバシー損失に関するクローズドフォーム表現を導出する。 さらに,ランダムウォークアルゴリズムは,相互に近接するノードに対して,ゴシップアルゴリズムよりも優れたプライバシ保証を提供する傾向があることを明らかにした。 合成および実世界のグラフとデータセットに関する経験的評価で理論的結果を補足する。

The popularity of federated learning comes from the possibility of better scalability and the ability for participants to keep control of their data, improving data security and sovereignty. Unfortunately, sharing model updates also creates a new privacy attack surface. In this work, we characterize the privacy guarantees of decentralized learning with random walk algorithms, where a model is updated by traveling from one node to another along the edges of a communication graph. Using a recent variant of differential privacy tailored to the study of decentralized algorithms, namely Pairwise Network Differential Privacy, we derive closed-form expressions for the privacy loss between each pair of nodes where the impact of the communication topology is captured by graph theoretic quantities. Our results further reveal that random walk algorithms tends to yield better privacy guarantees than gossip algorithms for nodes close from each other. We supplement our theoretical results with empirical evaluation on synthetic and real-world graphs and datasets.
翻訳日:2024-02-13 15:07:39 公開日:2024-02-12
# テキスト分類におけるLLM容量の限界を押し上げる

Pushing The Limit of LLM Capacity for Text Classification ( http://arxiv.org/abs/2402.07470v1 )

ライセンス: Link先を確認
Yazhou Zhang, Mengyao Wang, Chenyu Ren, Qiuchi Li, Prayag Tiwari, Benyou Wang, Jing Qin(参考訳) テキスト分類の今後の研究の価値は、多くの下流NLPタスクにわたる大規模言語モデル(LLM)によって実証された異常な有効性のために、課題と不確実性に直面している。 タスク境界が徐々に消えていく、オープンエンドの言語モデリングの時代において、緊急の疑問が生まれます。 そこで本研究では,強力なベース学習者のプールを反復的にアンサンブルすることで,特殊なテキスト分類 LLM を生成するための適応的強化フレームワーク RGPT を提案する。 ベース学習者は、トレーニングサンプルの分布を適応的に調整し、反復的に微調整するLLMを構築する。 このような基礎学習者は、過去の学習者からの履歴予測を繰り返し組み込むことで、特殊なテキスト分類 LLM にまとめられる。 総合的な経験的比較により、RGPTは4つのベンチマークで平均1.36%の8SOTA PLMと7SOTA LLMを大きく上回っている。 さらなる評価実験は、人間の分類よりも明らかにRGPTを上回っていることを示している。

The value of text classification's future research has encountered challenges and uncertainties, due to the extraordinary efficacy demonstrated by large language models (LLMs) across numerous downstream NLP tasks. In this era of open-ended language modeling, where task boundaries are gradually fading, an urgent question emerges: have we made significant advances in text classification under the full benefit of LLMs? To answer this question, we propose RGPT, an adaptive boosting framework tailored to produce a specialized text classification LLM by recurrently ensembling a pool of strong base learners. The base learners are constructed by adaptively adjusting the distribution of training samples and iteratively fine-tuning LLMs with them. Such base learners are then ensembled to be a specialized text classification LLM, by recurrently incorporating the historical predictions from the previous learners. Through a comprehensive empirical comparison, we show that RGPT significantly outperforms 8 SOTA PLMs and 7 SOTA LLMs on four benchmarks by 1.36% on average. Further evaluation experiments show a clear surpassing of RGPT over human classification.
翻訳日:2024-02-13 15:07:21 公開日:2024-02-12
# 高次元フォッカープランク方程式のためのスコアベース物理インフォームドニューラルネットワーク

Score-Based Physics-Informed Neural Networks for High-Dimensional Fokker-Planck Equations ( http://arxiv.org/abs/2402.07465v1 )

ライセンス: Link先を確認
Zheyuan Hu, Zhongqiang Zhang, George Em Karniadakis, Kenji Kawaguchi(参考訳) フォッカー・プランク方程式(Fokker-Planck equation)は確率過程における基礎的なPDEである。 しかし、次元性(CoD)の呪いは、高次元FP PDEを扱う際に問題となる。 モンテカルロとバニラ物理学に基づくニューラルネットワーク (pinns) はcodに取り組む可能性を示したが、どちらの手法もブラウン運動に関連する確率密度関数 (pdf) を扱う際に高次元の数値誤差を示す。 ポイントワイズPDFの値は次元が大きくなるにつれて指数関数的に減少し、数値シミュレーションの精度を上回り、かなりの誤差をもたらす。 さらに、大規模なサンプリングのため、モンテカルロは高速サンプリングを提供しない。 バニラPINNによる対数可能性(LL)のモデル化は、FP方程式を難しいHJB方程式に変換し、その誤差は次元とともに急速に増加する。 そこで本研究では,スコアに基づく解法を用いてスコア関数をSDEに適合させる手法を提案する。 スコア関数はLLの勾配として定義され、LLとPDFの推測において基本的な役割を担い、高速なSDEサンプリングを可能にする。 Score Matching(SM)、Sliced SM(SSM)、Score-PINNの3つのフィッティング手法が導入された。 提案するスコアベースsdeソルバは、sm、ssm、またはスコアピンを用いてスコアを取得する2段階、および得られたスコアを用いてodeを介してllを解く。 これらの手法の比較評価は、様々なトレードオフを示す。 提案手法は,異方性ou過程,幾何ブラウン過程,固有空間の異なるブラウン過程を含む多種多様なsdesで評価される。 また,ガウス分布,対数正規分布,ラプラス分布,コーシー分布もテストした。 数値計算の結果、スコアベースのSDEソルバの安定性、速度、性能を異なる設定で示し、高次元FP方程式に対するCoDの解法としてのポテンシャルを固めた。

The Fokker-Planck (FP) equation is a foundational PDE in stochastic processes. However, curse of dimensionality (CoD) poses challenge when dealing with high-dimensional FP PDEs. Although Monte Carlo and vanilla Physics-Informed Neural Networks (PINNs) have shown the potential to tackle CoD, both methods exhibit numerical errors in high dimensions when dealing with the probability density function (PDF) associated with Brownian motion. The point-wise PDF values tend to decrease exponentially as dimension increases, surpassing the precision of numerical simulations and resulting in substantial errors. Moreover, due to its massive sampling, Monte Carlo fails to offer fast sampling. Modeling the logarithm likelihood (LL) via vanilla PINNs transforms the FP equation into a difficult HJB equation, whose error grows rapidly with dimension. To this end, we propose a novel approach utilizing a score-based solver to fit the score function in SDEs. The score function, defined as the gradient of the LL, plays a fundamental role in inferring LL and PDF and enables fast SDE sampling. Three fitting methods, Score Matching (SM), Sliced SM (SSM), and Score-PINN, are introduced. The proposed score-based SDE solver operates in two stages: first, employing SM, SSM, or Score-PINN to acquire the score; and second, solving the LL via an ODE using the obtained score. Comparative evaluations across these methods showcase varying trade-offs. The proposed method is evaluated across diverse SDEs, including anisotropic OU processes, geometric Brownian, and Brownian with varying eigenspace. We also test various distributions, including Gaussian, Log-normal, Laplace, and Cauchy. The numerical results demonstrate the score-based SDE solver's stability, speed, and performance across different settings, solidifying its potential as a solution to CoD for high-dimensional FP equations.
翻訳日:2024-02-13 15:06:59 公開日:2024-02-12
# 価値負荷問題へのホルム的アプローチ:ペーパークリップ黙示録の防止?

A Hormetic Approach to the Value-Loading Problem: Preventing the Paperclip Apocalypse? ( http://arxiv.org/abs/2402.07462v1 )

ライセンス: Link先を確認
Nathan I. N. Henry, Mangor Pedersen, Matt Williams, Jamin L. B. Martin, Liesje Donkin(参考訳) バリューローディング問題は、人間の価値観や好みに合わせて人工知能(AI)システムを構築する研究者にとって重要な課題である。 この問題は、AI行動の安全かつ最適な限界を定義し、規制する手法を必要とする。 本研究では,AIの行動パターンの制御にホーミング分析を用いる規制パラダイムであるHALO(Hormetic ALignment via Opponent Process)を提案する。 行動ホルモン症(behavior hormesis)は、行動の低周波が有益であり、高周波が有害である現象である。 動作をアロスタティックな対向プロセスとしてモデル化することで、反復可能な動作のホルモン限界を定量化するために行動周波数応答解析(bfra)または行動カウント応答解析(bcra)のいずれかを利用することができる。 haloが‘paperclip maximr’のシナリオをいかに解決できるかをデモする。これは、ペーパークリップを作るための規制のないaiが、宇宙のすべての物質を紙クリップに変換することができる、という思考実験だ。 本手法は,限界効用の減少を伴う反復可能な行動のヘドニック計算に基づく「価値」データベースの作成に有用である。 これによりhaloは、aiシステムにヒューマンアライメントされた値を組み込む価値負荷問題や、弱いモデルがよりインテリジェントになるにつれてより強力なモデルを監督できるかどうかを探究する弱い~強い一般化問題に対する有望な解決策として位置づけられる。 したがって、HALOは、AIアルゴリズムが正しいかどうかを学習できる計算値システムの開発につながるかもしれないいくつかの研究の道を開く。

The value-loading problem is a significant challenge for researchers aiming to create artificial intelligence (AI) systems that align with human values and preferences. This problem requires a method to define and regulate safe and optimal limits of AI behaviors. In this work, we propose HALO (Hormetic ALignment via Opponent processes), a regulatory paradigm that uses hormetic analysis to regulate the behavioral patterns of AI. Behavioral hormesis is a phenomenon where low frequencies of a behavior have beneficial effects, while high frequencies are harmful. By modeling behaviors as allostatic opponent processes, we can use either Behavioral Frequency Response Analysis (BFRA) or Behavioral Count Response Analysis (BCRA) to quantify the hormetic limits of repeatable behaviors. We demonstrate how HALO can solve the 'paperclip maximizer' scenario, a thought experiment where an unregulated AI tasked with making paperclips could end up converting all matter in the universe into paperclips. Our approach may be used to help create an evolving database of 'values' based on the hedonic calculus of repeatable behaviors with decreasing marginal utility. This positions HALO as a promising solution for the value-loading problem, which involves embedding human-aligned values into an AI system, and the weak-to-strong generalization problem, which explores whether weak models can supervise stronger models as they become more intelligent. Hence, HALO opens several research avenues that may lead to the development of a computational value system that allows an AI algorithm to learn whether the decisions it makes are right or wrong.
翻訳日:2024-02-13 15:06:27 公開日:2024-02-12
# イオントラップにおける制御可能な貯水池によるスピンボーソン模型のシミュレーション

Simulating the spin-boson model with a controllable reservoir in an ion trap ( http://arxiv.org/abs/2402.07461v1 )

ライセンス: Link先を確認
G.-X. Wang, Y.-K. Wu, R. Yao, W.-Q. Lian, Z.-J. Cheng, Y.-L. Xu, C. Zhang, Y. Jiang, Y.-Z. Xu, B.-X. Qi, P.-Y. Hou, Z.-C. Zhou, L. He, and L.-M. Duan(参考訳) スピンボソンモデルはオープン量子力学の原型モデルである。 ここでは、スピンがボソニックモードの構造的貯水池に結合する捕捉されたイオンの鎖を用いてスピンボソンモデルをシミュレートする。 我々は, イオン数, ターゲットイオン位置, フォノン側バンドに変形するレーザ, レーザー中の周波数成分数を調整することにより, 貯留層のスペクトル密度を調整し, 初期符号化された情報の崩壊と再生に対するそれらの影響を観察する。 我々の研究は、複雑な貯水池構造を持つオープン量子力学をシミュレーションするための強力なプラットフォームとしてイオントラップを実証している。

The spin-boson model is a prototypical model for open quantum dynamics. Here we simulate the spin-boson model using a chain of trapped ions where a spin is coupled to a structured reservoir of bosonic modes. We engineer the spectral density of the reservoir by adjusting the ion number, the target ion location, the laser detuning to the phonon sidebands, and the number of frequency components in the laser, and we observe their effects on the collapse and revival of the initially encoded information. Our work demonstrates the ion trap as a powerful platform for simulating open quantum dynamics with complicated reservoir structures.
翻訳日:2024-02-13 15:05:58 公開日:2024-02-12
# 光ナノキャピラリー繊維の誘導モードへの単一光子の高効率チャネル化

Highly efficient channeling of single photons into guided modes of optical nanocapillary fibers ( http://arxiv.org/abs/2402.07552v1 )

ライセンス: Link先を確認
Bashaiah Elaganuru, Resmi M, and Ramachandrarao Yalla(参考訳) 単一量子エミッタから光ナノキャピラリーファイバ(NCF)の誘導モードへの単一光子の効率的なチャネル化を数値的に報告する。 NCFは、内径と外径の液体コア光ナノファイバーからなる。 我々は,水媒体を充填したNCFの内部径と外径を,単一の双極子源(SDS)を内部に配置することによって最適化する。 水媒体を充填したNCFの中心に、放射偏光SDSを配置した場合、最大チャネル効率は52%となる。 NCFの最適内径と外径は、それぞれ620nmの発光波長に対して100nmと360nmである。 さらに,NCF内に単一量子エミッタを配置する際の実験的曖昧さを考慮したNCF内部のSDS位置依存性について検討する。 その結果, 最適条件下では水媒体の流路効率はほぼ一定であることがわかった。 このプラットフォームは、量子技術において単一光子を生成し、バイオセンシングにおいて単一細胞を検出する新しい経路を開くことができる。

We report numerically the efficient channeling of single photons from a single quantum emitter into guided modes of optical nanocapillary fibers (NCFs). The NCF is formed of a liquid core optical nanofiber with inner and outer diameters. We optimize the inner and outer diameters of the NCF filled with water medium by placing a single dipole source (SDS) inside. The maximum channeling efficiency of 52% is found when the radially polarized SDS is placed at the center of the NCF filled with the water medium. The optimum inner and outer diameters of the NCF are 100 nm and 360 nm for the emission wavelength of 620 nm, respectively. Additionally, we investigate the SDS position dependence inside the NCF considering experimental ambiguity in placing a single quantum emitter inside the NCF. We found that the channeling efficiency remains almost constant for the water medium at the optimum condition. The present platform may open a novel route for generating single photons in quantum technologies and detecting single cells in bio-sensing.
翻訳日:2024-02-13 14:58:11 公開日:2024-02-12
# モース配列

Morse sequences ( http://arxiv.org/abs/2402.07526v1 )

ライセンス: Link先を確認
Gilles Bertrand (LIGM)(参考訳) 離散モース理論に対する単純かつ効果的なアプローチを提供するモース列の概念を導入する。 モース列(英: Morse sequence)は、2つの基本的な操作、すなわち展開(崩壊の逆)と充填(穿孔の逆)からなる列である。 任意の離散モールス関数の勾配ベクトル場を表す代替方法として、モース列が考えられることを示す。 また、モース列と異なる種類のモース関数とを直接的にリンクさせることも可能であることを示す。 最後に、任意の単体錯体からモース列を構築するための2つの基本スキームを定式化する最大モース列を導入する。

We introduce the notion of a Morse sequence, which provides a simple and effective approach to discrete Morse theory. A Morse sequence is a sequence composed solely of two elementary operations, that is, expansions (the inverse of a collapse), and fillings (the inverse of a perforation). We show that a Morse sequence may be seen as an alternative way to represent the gradient vector field of an arbitrary discrete Morse function. We also show that it is possible, in a straightforward manner, to make a link between Morse sequences and different kinds of Morse functions. At last, we introduce maximal Morse sequences, which formalize two basic schemes for building a Morse sequence from an arbitrary simplicial complex.
翻訳日:2024-02-13 14:57:56 公開日:2024-02-12
# アンサンブル推論を用いたクローン検出のリコール改善

Using Ensemble Inference to Improve Recall of Clone Detection ( http://arxiv.org/abs/2402.07523v1 )

ライセンス: Link先を確認
Gul Aftab Ahmed, James Vincent Patten, Yuanhua Han, Guoxian Lu, David Gregg, Jim Buckley, Muslim Chochlov(参考訳) 大規模なソースコードクローン検出は難しい課題である。 これまでの研究では,ニューラルネットワークを活用し,近接探索を近似するアプローチ (sscd) を提案し,大規模コードのクローンを時間効率良く探索する手法を提案した。 しかし,本論文では,異なるニューラルネットワークモデルの相対的有効性が,大規模クローン検出手法の文脈で評価されていないことを示唆する。 本研究では,クローン検出時に高い精度を保ちながら,リコールを最大化する可能性の観点から,個別に複数のモデルを評価することを目的とする。 アンサンブル推論(この場合、これらのニューラルネットワークモデルのうちの1つ以上の結果を用いて)が、このタスクをさらに補助できるかどうかを検討する。 これを評価するために,我々は4つの最先端ニューラルネットワークモデルを採用し,それらを個別/組み合わせで評価した。 その結果、約500万行のc/c++コードの例示データセット上では、リコールが考慮される場合、アンサンブル推論がすべての試行されたケースで個々のモデルを上回ることを示唆する。 個々のモデルにおいて、adaモデル(chatgptファミリのモデル)は最高の性能を持つ。 しかし、商用企業は、そのアプローチで要求されるように、独自のソースコードをクラウドに渡す準備ができていないかもしれない。 結果として、彼らはCodeBERTベースとCodeT5モデルのアンサンブル・コンビネーションに興味を持ち、結果としてリコールと精度が類似している。

Large-scale source-code clone detection is a challenging task. In our previous work, we proposed an approach (SSCD) that leverages artificial neural networks and approximates nearest neighbour search to effectively and efficiently locate clones in large-scale bodies of code, in a time-efficient manner. However, our literature review suggests that the relative efficacy of differing neural network models has not been assessed in the context of large-scale clone detection approaches. In this work, we aim to assess several such models individually, in terms of their potential to maximize recall, while preserving a high level of precision during clone detection. We investigate if ensemble inference (in this case, using the results of more than one of these neural network models in combination) can further assist in this task. To assess this, we employed four state-of-the-art neural network models and evaluated them individually/in combination. The results, on an illustrative dataset of approximately 500K lines of C/C++ code, suggest that ensemble inference outperforms individual models in all trialled cases, when recall is concerned. Of individual models, the ADA model (belonging to the ChatGPT family of models) has the best performance. However commercial companies may not be prepared to hand their proprietary source code over to the cloud, as required by that approach. Consequently, they may be more interested in an ensemble-combination of CodeBERT-based and CodeT5 models, resulting in similar (if slightly lesser) recall and precision results.
翻訳日:2024-02-13 14:57:43 公開日:2024-02-12
# 機械学習と小面積推定の統合に向けて

A step towards the integration of machine learning and small area estimation ( http://arxiv.org/abs/2402.07521v1 )

ライセンス: Link先を確認
Tomasz \.Z\k{a}d{\l}o, Adam Chwila(参考訳) 機械学習技術の利用は多くの研究領域で増加している。 現在、データ収集の公式統計(衛星画像、webスクレイピング、テキストマイニング、データのクリーニング、統合、インプテーションなど)だけでなく、データ分析にも広く使われている。 しかし,小面積推定を含む検層におけるこれらの手法の利用は依然として限られている。 そこで本研究では,これらのアルゴリズムが支持する予測器を提案する。 機械学習の手法は、変数間の複雑で非線形な関係を同定しモデル化する上で、すでに非常に強力であることが示されている。 そこで本研究は,実生活調査の重要度が高いという意見から,提案手法の性能を異なる設定で分析する。 我々は,提案手法がモデルに基づく最適手法と比較しても,提案手法が望ましい代替案であることを示すため,仮定モデルからの小さな離脱のみを考察した。 さらに,機械学習予測器の精度推定手法を提案し,従来の手法と比較して精度を計測する手法を提案する。 この問題の解法は、これらのアプローチの統合における重要な問題の1つとして文献に示されている。 シミュレーション研究は,ポーランド地方データバンクから無償で入手可能な実時間データセットに基づいており,最終期のサブポピュレーション特性の予測問題は,他のサブポピュレーションや期間からの「ボーリング強度」が考慮されている。

The use of machine-learning techniques has grown in numerous research areas. Currently, it is also widely used in statistics, including the official statistics for data collection (e.g. satellite imagery, web scraping and text mining, data cleaning, integration and imputation) but also for data analysis. However, the usage of these methods in survey sampling including small area estimation is still very limited. Therefore, we propose a predictor supported by these algorithms which can be used to predict any population or subpopulation characteristics based on cross-sectional and longitudinal data. Machine learning methods have already been shown to be very powerful in identifying and modelling complex and nonlinear relationships between the variables, which means that they have very good properties in case of strong departures from the classic assumptions. Therefore, we analyse the performance of our proposal under a different set-up, in our opinion of greater importance in real-life surveys. We study only small departures from the assumed model, to show that our proposal is a good alternative in this case as well, even in comparison with optimal methods under the model. What is more, we propose the method of the accuracy estimation of machine learning predictors, giving the possibility of the accuracy comparison with classic methods, where the accuracy is measured as in survey sampling practice. The solution of this problem is indicated in the literature as one of the key issues in integration of these approaches. The simulation studies are based on a real, longitudinal dataset, freely available from the Polish Local Data Bank, where the prediction problem of subpopulation characteristics in the last period, with "borrowing strength" from other subpopulations and time periods, is considered.
翻訳日:2024-02-13 14:57:18 公開日:2024-02-12
# カーネル手法としての物理インフォームド機械学習

Physics-informed machine learning as a kernel method ( http://arxiv.org/abs/2402.07514v1 )

ライセンス: Link先を確認
Nathan Doum\`eche (LPSM, EDF R&D OSIRIS), Francis Bach (DI-ENS), Claire Boyer (IUF, LPSM), G\'erard Biau (LPSM)(参考訳) 物理インフォームド機械学習は、データベースのアプローチの表現性と物理モデルの解釈可能性を組み合わせる。 この文脈では、物理の不整合を定量化する偏微分方程式により経験的リスクが正規化される一般的な回帰問題を考える。 線形微分先行問題に対して、この問題はカーネル回帰タスクとして定式化できることを示す。 カーネル理論を利用すると、正規化リスクの最小化に対する収束率を導出し、少なくともソボレフのミニマックスレートで収束することを示す。 しかし、物理的な誤差によって、より速い速度が得られる。 この原理は1次元の例で説明され、物理情報による経験的リスクの規則化は推定器の統計的性能に有益であるという主張を支持する。

Physics-informed machine learning combines the expressiveness of data-based approaches with the interpretability of physical models. In this context, we consider a general regression problem where the empirical risk is regularized by a partial differential equation that quantifies the physical inconsistency. We prove that for linear differential priors, the problem can be formulated as a kernel regression task. Taking advantage of kernel theory, we derive convergence rates for the minimizer of the regularized risk and show that it converges at least at the Sobolev minimax rate. However, faster rates can be achieved, depending on the physical error. This principle is illustrated with a one-dimensional example, supporting the claim that regularizing the empirical risk with physical information can be beneficial to the statistical performance of estimators.
翻訳日:2024-02-13 14:56:51 公開日:2024-02-12
# バランシング法:ポルトガルのASRビエイズをアンマスキーと緩和

The Balancing Act: Unmasking and Alleviating ASR Biases in Portuguese ( http://arxiv.org/abs/2402.07513v1 )

ライセンス: Link先を確認
Ajinkya Kulkarni, Anna Tokareva, Rameez Qureshi, Miguel Couceiro(参考訳) 言語理解の分野では、Whisper や Multilingual Massive Speech (MMS) のようなシステムが最先端のパフォーマンスを示している。 本研究は,ポルトガル語特有のカジュアル会話音声に固有の自動音声認識(asr)におけるバイアス評価に焦点をあてた,whisperとmmsシステムの包括的探索に焦点をあてたものである。 調査対象は性別,年齢,肌の色,位置情報など多岐にわたる。 単語誤り率(WER)などの従来のASR評価指標とともに、性別バイアス分析にp値の統計的意義を取り入れた。 さらに,データ分布の影響を詳細に検討し,オーバーサンプリング技術がステレオタイプバイアスを緩和することを示す。 この研究は、MMSとWhisperの応用を通じて、ポルトガル語の文脈におけるバイアスを定量化するための先駆的な取り組みであり、多言語環境でのASRシステムの性能の理解に寄与している。

In the field of spoken language understanding, systems like Whisper and Multilingual Massive Speech (MMS) have shown state-of-the-art performances. This study is dedicated to a comprehensive exploration of the Whisper and MMS systems, with a focus on assessing biases in automatic speech recognition (ASR) inherent to casual conversation speech specific to the Portuguese language. Our investigation encompasses various categories, including gender, age, skin tone color, and geo-location. Alongside traditional ASR evaluation metrics such as Word Error Rate (WER), we have incorporated p-value statistical significance for gender bias analysis. Furthermore, we extensively examine the impact of data distribution and empirically show that oversampling techniques alleviate such stereotypical biases. This research represents a pioneering effort in quantifying biases in the Portuguese language context through the application of MMS and Whisper, contributing to a better understanding of ASR systems' performance in multilingual settings.
翻訳日:2024-02-13 14:56:39 公開日:2024-02-12
# 生成aiエージェント間の秘密結束

Secret Collusion Among Generative AI Agents ( http://arxiv.org/abs/2402.07510v1 )

ライセンス: Link先を確認
Sumeet Ramesh Motwani, Mikhail Baranchuk, Martin Strohmeier, Vijay Bolina, Philip H.S. Torr, Lewis Hammond, Christian Schroeder de Witt(参考訳) 大規模言語モデル(LLM)の最近の能力向上は、生成AIエージェントを通信するチームが共同作業を解決するアプリケーションを開く。 これは、情報の不正な共有や、その他の不要なエージェントの調整に関するプライバシーとセキュリティの課題をもたらす。 現代のステガノグラフィー技術はそのようなダイナミクスを検出しにくくする。 本稿では,AIとセキュリティの両文献から関連する概念を抽出し,生成AIエージェントのシステムにおける秘密共謀の問題を包括的に定式化する。 ステガノグラフィーの使用に対するインセンティブについて検討し,様々な緩和策を提案する。 調査の結果,様々な形態の秘密結束に必要な機能を体系的にテストするモデル評価フレームワークが得られた。 我々は、幅広い現代のllmで広範な実験結果を提供する。 現在のモデルのステガノグラフィー能力は限られているが、gpt-4は、ステガノグラフィーのフロンティアモデルの能力の継続的な監視の必要性を示唆する能力ジャンプを表示する。 我々は、生成AIモデル間の共謀のリスクを軽減するための総合的な研究プログラムを策定する。

Recent capability increases in large language models (LLMs) open up applications in which teams of communicating generative AI agents solve joint tasks. This poses privacy and security challenges concerning the unauthorised sharing of information, or other unwanted forms of agent coordination. Modern steganographic techniques could render such dynamics hard to detect. In this paper, we comprehensively formalise the problem of secret collusion in systems of generative AI agents by drawing on relevant concepts from both the AI and security literature. We study incentives for the use of steganography, and propose a variety of mitigation measures. Our investigations result in a model evaluation framework that systematically tests capabilities required for various forms of secret collusion. We provide extensive empirical results across a range of contemporary LLMs. While the steganographic capabilities of current models remain limited, GPT-4 displays a capability jump suggesting the need for continuous monitoring of steganographic frontier model capabilities. We conclude by laying out a comprehensive research program to mitigate future risks of collusion between generative AI models.
翻訳日:2024-02-13 14:56:23 公開日:2024-02-12
# 地形gps登録に基づく速度予測の改善のためのクラスタリングダイナミクス

Clustering Dynamics for Improved Speed Prediction Deriving from Topographical GPS Registrations ( http://arxiv.org/abs/2402.07507v1 )

ライセンス: Link先を確認
Sarah Almeida Carneiro (LIGM), Giovanni Chierchia (LIGM), Aurelie Pirayre (IFPEN), Laurent Najman (LIGM)(参考訳) インテリジェントトランスポーテーションシステムの分野における永続的な課題は、データカバレッジが乏しい、あるいは全くない地理的地域から正確なトラフィックインサイトを抽出することである。 そこで本研究では,GPSデータポイントとそれに関連する地形・道路設計特徴を用いた速度予測手法を提案する。 私たちのゴールは、地形とインフラの類似性を利用して、交通データがない地域での速度を予測する機械学習モデルをトレーニングできるかどうかを調べることです。 そのために,地理的にクラスタ化された道路を中心に,時間指向の速度辞書を作成して,選択した機能構成に速度相関を提供する。 その結果,新しい回帰法や標準回帰法よりも質的,定量的な改善が得られた。 提示されたフレームワークは、データトラフィック分析の欠如に対する戦略を考案する新しい視点を提供する。

A persistent challenge in the field of Intelligent Transportation Systems is to extract accurate traffic insights from geographic regions with scarce or no data coverage. To this end, we propose solutions for speed prediction using sparse GPS data points and their associated topographical and road design features. Our goal is to investigate whether we can use similarities in the terrain and infrastructure to train a machine learning model that can predict speed in regions where we lack transportation data. For this we create a Temporally Orientated Speed Dictionary Centered on Topographically Clustered Roads, which helps us to provide speed correlations to selected feature configurations. Our results show qualitative and quantitative improvement over new and standard regression methods. The presented framework provides a fresh perspective on devising strategies for missing data traffic analysis.
翻訳日:2024-02-13 14:56:08 公開日:2024-02-12
# NeuralSentinel: ニューラルネットワークの信頼性と信頼性の保護

NeuralSentinel: Safeguarding Neural Network Reliability and Trustworthiness ( http://arxiv.org/abs/2402.07506v1 )

ライセンス: Link先を確認
Xabier Echeberria-Barrio, Mikel Gorricho, Selene Valencia, Francesco Zola(参考訳) 人工知能(AI)システムの利用は、分析するデータの量を減らす能力、ユーザの努力、高い精度の保存能力により、指数関数的に増加している。 しかし、この新たな要素をループに導入することで、システムの信頼性を損なう攻撃ポイントに変化した。 この新たなシナリオは、aiモデルの信頼性と信頼性、および彼らの応答決定の不確実性に関する重要な課題を提起し、医療、化学、電気設備などの重要な領域に適用される場合にさらに重要になった。 本稿では,aiモデルの信頼性と信頼性を検証するためのツールであるneuralsentinel(ns)を提案する。 このツールは、攻撃と防衛戦略と説明可能性の概念を組み合わせて、AIモデルを強調し、モデル決定を理解することによって、専門家以外のスタッフがこの新しいシステムに対する信頼を高めるのに役立つ。 NSは、必要なすべての情報を扱うループ内の人間を助ける、シンプルで使いやすいインターフェースを提供する。 このツールはハッカソンイベントにデプロイされ、皮膚がん画像検出器の信頼性を評価するために使用された。 イベント中、専門家と非専門家は検出器を攻撃し、どの要素がモデルの誤分類に最も重要か、どのテクニックが最も効率的かを学習した。 このイベントはNSの制限を検出し、さらなる改善のためのフィードバックを集めるためにも使用された。

The usage of Artificial Intelligence (AI) systems has increased exponentially, thanks to their ability to reduce the amount of data to be analyzed, the user efforts and preserving a high rate of accuracy. However, introducing this new element in the loop has converted them into attacked points that can compromise the reliability of the systems. This new scenario has raised crucial challenges regarding the reliability and trustworthiness of the AI models, as well as about the uncertainties in their response decisions, becoming even more crucial when applied in critical domains such as healthcare, chemical, electrical plants, etc. To contain these issues, in this paper, we present NeuralSentinel (NS), a tool able to validate the reliability and trustworthiness of AI models. This tool combines attack and defence strategies and explainability concepts to stress an AI model and help non-expert staff increase their confidence in this new system by understanding the model decisions. NS provide a simple and easy-to-use interface for helping humans in the loop dealing with all the needed information. This tool was deployed and used in a Hackathon event to evaluate the reliability of a skin cancer image detector. During the event, experts and non-experts attacked and defended the detector, learning which factors were the most important for model misclassification and which techniques were the most efficient. The event was also used to detect NS's limitations and gather feedback for further improvements.
翻訳日:2024-02-13 14:55:55 公開日:2024-02-12
# ClusterTabNet:テーブル検出とテーブル構造認識のための監視クラスタリング手法

ClusterTabNet: Supervised clustering method for table detection and table structure recognition ( http://arxiv.org/abs/2402.07502v1 )

ライセンス: Link先を確認
Marek Polewczyk and Marco Spinaci(参考訳) 本稿では,ocr出力に基づいてテーブルの検出と認識を行うために,文書中の単語をクラスタ化する新しいディープラーニング手法を提案する。 表構造ボトムアップを、一対の単語(同じ行、列、ヘッダ、同じテーブル)間の関係のグラフとして解釈し、その隣接行列を予測するためにトランスフォーマーエンコーダモデルを使用する。 PubTabNetおよびFinTabNetデータセットと同様にPubTables-1Mデータセット上で,本手法の性能を示す。 DETRやFaster R-CNNのような現在の最先端検出手法と比較して,本手法は比較的小さなモデルを必要とするが,類似性や精度が向上する。

We present a novel deep-learning-based method to cluster words in documents which we apply to detect and recognize tables given the OCR output. We interpret table structure bottom-up as a graph of relations between pairs of words (belonging to the same row, column, header, as well as to the same table) and use a transformer encoder model to predict its adjacency matrix. We demonstrate the performance of our method on the PubTables-1M dataset as well as PubTabNet and FinTabNet datasets. Compared to the current state-of-the-art detection methods such as DETR and Faster R-CNN, our method achieves similar or better accuracy, while requiring a significantly smaller model.
翻訳日:2024-02-13 14:55:31 公開日:2024-02-12
# 2つのタスクのための1つのトレイン:教師付きコントラスト学習を用いた暗号化トラフィック分類フレームワーク

One Train for Two Tasks: An Encrypted Traffic Classification Framework Using Supervised Contrastive Learning ( http://arxiv.org/abs/2402.07501v1 )

ライセンス: Link先を確認
Haozhen Zhang, Xi Xiao, Le Yu, Qing Li, Zhen Ling, Ye Zhang(参考訳) ネットワークセキュリティが広く注目される中、暗号化されたトラフィック分類が現在研究の焦点となっている。 しかし,既存の手法では,データサンプル間の共通特性を十分に考慮せずにトラヒック分類を行い,サブ最適性能を実現する。 さらに、パケットレベルおよびフローレベルの分類タスクを個別にトレーニングするが、これはパケットレベルタスクで学んだパケット表現をフローレベルタスクで活用できるため冗長である。 そこで本研究では,CLE-TFE (Contrastive Learning Enhanced Temporal Fusion Encoder) と呼ばれる実効モデルを提案する。 特に、教師付きコントラスト学習を利用してパケットレベルおよびフローレベル表現を強化し、バイトレベルのトラフィックグラフ上でグラフデータ拡張を行い、コントラスト学習によりバイト間の微粒なセマンティック不変特性を捉える。 また,同一モデルにおけるパケットレベルとフローレベルの分類タスクを1つのトレーニングで同時に達成するクロスレベルマルチタスク学習を提案する。 さらなる実験では、CLE-TFEは2つのタスクで最高の全体的なパフォーマンスを達成する一方、計算オーバーヘッド(浮動小数点演算、FLOP)は事前訓練されたモデルの1/14程度である(ET-BERTなど)。 私たちはhttps://github.com/ViktorAxelsen/CLE-TFEでコードをリリースします。

As network security receives widespread attention, encrypted traffic classification has become the current research focus. However, existing methods conduct traffic classification without sufficiently considering the common characteristics between data samples, leading to suboptimal performance. Moreover, they train the packet-level and flow-level classification tasks independently, which is redundant because the packet representations learned in the packet-level task can be exploited by the flow-level task. Therefore, in this paper, we propose an effective model named a Contrastive Learning Enhanced Temporal Fusion Encoder (CLE-TFE). In particular, we utilize supervised contrastive learning to enhance the packet-level and flow-level representations and perform graph data augmentation on the byte-level traffic graph so that the fine-grained semantic-invariant characteristics between bytes can be captured through contrastive learning. We also propose cross-level multi-task learning, which simultaneously accomplishes the packet-level and flow-level classification tasks in the same model with one training. Further experiments show that CLE-TFE achieves the best overall performance on the two tasks, while its computational overhead (i.e., floating point operations, FLOPs) is only about 1/14 of the pre-trained model (e.g., ET-BERT). We release the code at https://github.com/ViktorAxelsen/CLE-TFE
翻訳日:2024-02-13 14:55:18 公開日:2024-02-12
# accelerated smoothing:ランダム化平滑化へのスケーラブルなアプローチ

Accelerated Smoothing: A Scalable Approach to Randomized Smoothing ( http://arxiv.org/abs/2402.07498v1 )

ライセンス: Link先を確認
Devansh Bhardwaj, Kshitiz Kaushik, Sarthak Gupta(参考訳) ランダム化スムーシングは, 特定分布からのスムースな雑音を利用して, スムースな分類器の堅牢性を確保することで, 敵攻撃に対する強力な防御法として出現している。 しかし、このプロセスでのモンテカルロサンプリングの利用は、より大きなスケールでのランダム化平滑化の実用性を制約する計算集約要素を導入する。 この制限に対処するために,モンテカルロサンプリングを代理ニューラルネットワークのトレーニングに置き換える新しい手法を提案する。 様々な場面で広範囲な実験を行い, 特異な精度で平滑化分類器を近似する手法の有効性を実証した。 さらに,本手法はロバスト半径認証プロセスを大幅に高速化し,従来のランダム化スムージングに伴う計算ボトルネックを克服し,600ドル近い計算時間の改善を実現した。

Randomized smoothing has emerged as a potent certifiable defense against adversarial attacks by employing smoothing noises from specific distributions to ensure the robustness of a smoothed classifier. However, the utilization of Monte Carlo sampling in this process introduces a compute-intensive element, which constrains the practicality of randomized smoothing on a larger scale. To address this limitation, we propose a novel approach that replaces Monte Carlo sampling with the training of a surrogate neural network. Through extensive experimentation in various settings, we demonstrate the efficacy of our approach in approximating the smoothed classifier with remarkable precision. Furthermore, we demonstrate that our approach significantly accelerates the robust radius certification process, providing nearly $600$X improvement in computation time, overcoming the computational bottlenecks associated with traditional randomized smoothing.
翻訳日:2024-02-13 14:54:51 公開日:2024-02-12
# 動的リスク評価のための可視化による敵対的事例に対する深層学習防御の理解

Understanding Deep Learning defenses Against Adversarial Examples Through Visualizations for Dynamic Risk Assessment ( http://arxiv.org/abs/2402.07496v1 )

ライセンス: Link先を確認
Xabier Echeberria-Barrio, Amaia Gil-Lerchundi, Jon Egana-Zubia, Raul Orduna-Urrutia(参考訳) 近年、深層ニューラルネットワークモデルが様々な分野で開発され、多くの進歩をもたらしている。 しかし、リスクが重要となるタスクでも、それらが使われ始めています。 これらのモデルの誤診は重大な事故や死亡につながる可能性がある。 この懸念は、すべてのモデルを守るべき脆弱性の長いリストを発見することで、これらのモデルに対する攻撃の可能性を研究する研究者の関心につながった。 敵の例攻撃は研究者の間で広く知られている攻撃であり、そのような脅威を避けるためにいくつかの防御を開発した。 しかし、これらの防御はディープニューラルネットワークモデルと同じくらい不透明であり、その動作方法はまだ不明である。 防御されたモデルのパフォーマンスがどのように変更されているのかをより正確に理解するために、ターゲットモデルの振る舞いをどのように変更するかを視覚化することが興味深い理由です。 本研究は, 防御モデルにおいて, それぞれの行動変化を可視化するために, 敵の例攻撃に対する防御が選択されている。 畳み込みニューラルネットワーク層と高密度ニューラルネットワーク層で構成されたモデルを用いて, 敵のトレーニング, 次元減少, 予測類似性が選択された防御条件である。 各防御において、元のモデルの挙動と防御されたモデルの挙動を比較し、対象モデルを視覚化のグラフで表現する。

In recent years, Deep Neural Network models have been developed in different fields, where they have brought many advances. However, they have also started to be used in tasks where risk is critical. A misdiagnosis of these models can lead to serious accidents or even death. This concern has led to an interest among researchers to study possible attacks on these models, discovering a long list of vulnerabilities, from which every model should be defended. The adversarial example attack is a widely known attack among researchers, who have developed several defenses to avoid such a threat. However, these defenses are as opaque as a deep neural network model, how they work is still unknown. This is why visualizing how they change the behavior of the target model is interesting in order to understand more precisely how the performance of the defended model is being modified. For this work, some defenses, against adversarial example attack, have been selected in order to visualize the behavior modification of each of them in the defended model. Adversarial training, dimensionality reduction and prediction similarity were the selected defenses, which have been developed using a model composed by convolution neural network layers and dense neural network layers. In each defense, the behavior of the original model has been compared with the behavior of the defended model, representing the target model by a graph in a visualization.
翻訳日:2024-02-13 14:54:37 公開日:2024-02-12
# 畳み込みニューラルネットワークによる実ligoデータの信号検出

Convolutional Neural Networks for signal detection in real LIGO data ( http://arxiv.org/abs/2402.07492v1 )

ライセンス: Link先を確認
Ond\v{r}ej Zelenka, Bernd Br\"ugmann, and Frank Ohme(参考訳) コンパクトな二元融合からの信号に対する重力波検出器のデータを探すことは、計算的に要求されるタスクである。 近年,現状と今後の課題に対処する機械学習アルゴリズムが提案されている。 しかし、評価方法の異なる選択により、これらの出版物の結果は大きく異なることが多い。 機械学習重力波探索チャレンジは、これらの問題を解決し、機械学習検索評価のための統一されたフレームワークを作成するために設立された。 6チームがコントリビュートを行い、そのうち4つが機械学習メソッドに基づいており、2つが最先端の生産分析である。 本稿では、チームTPI FSU Jenaからの提出と、その更新版について述べる。 また、我々のアルゴリズムを実際のO3bデータに適用し、GWTC-3カタログの関連するイベントを復元する。

Searching the data of gravitational-wave detectors for signals from compact binary mergers is a computationally demanding task. Recently, machine learning algorithms have been proposed to address current and future challenges. However, the results of these publications often differ greatly due to differing choices in the evaluation procedure. The Machine Learning Gravitational-Wave Search Challenge was organized to resolve these issues and produce a unified framework for machine-learning search evaluation. Six teams submitted contributions, four of which are based on machine learning methods and two are state-of-the-art production analyses. This paper describes the submission from the team TPI FSU Jena and its updated variant. We also apply our algorithm to real O3b data and recover the relevant events of the GWTC-3 catalog.
翻訳日:2024-02-13 14:54:16 公開日:2024-02-12
# 室温光による分子スピンのコヒーレント制御

Room-temperature optically detected coherent control of molecular spins ( http://arxiv.org/abs/2402.07572v1 )

ライセンス: Link先を確認
Adrian Mena, Sarah K. Mann, Angus Cowley-Semple, Emma Bryan, Sandrine Heutz, Dane R. McCamey, Max Attwood, Sam L. Bayliss(参考訳) 分子チューナビリティと多用途展開の方法の両方から恩恵を受け、光学的に結合した分子スピンはセンシングやイメージングのような量子技術にとって有望なプラットフォームである。 室温で光学的に検出されたコヒーレントスピン制御は、敏感な読み出し、多用途スピン操作、環境操作を組み合わせた多くのアプリケーションにとって重要な実現法である。 ここでは、このような機能を分子スピン系で示す。 有機クロマフォの光励起三重項状態(パラテルフェニルホストにドープしたペンタセン)を用いて,光ルミネッセンスコントラストによるコヒーレントスピン操作を室温で10%およびマイクロ秒のコヒーレンス時間以上で光学的に検出する。 さらに,マルチトリプレットサブレベルのコヒーレント制御が光スピンコントラストを著しく向上させ,光検出したコヒーレント制御を熱蒸着薄膜に拡張し,高発光コントラストと1マイクロ秒のコヒーレンス時間を保持することを実証した。 これらの結果は、合成化学によって体系的に調整できる室温量子技術の機会を開く。

Benefiting from both molecular tunability and versatile methods for deployment, optically interfaced molecular spins are a promising platform for quantum technologies such as sensing and imaging. Room-temperature optically detected coherent spin control is a key enabler for many applications, combining sensitive readout, versatile spin manipulation, and ambient operation. Here we demonstrate such functionality in a molecular spin system. Using the photoexcited triplet state of organic chromophores (pentacene doped in a para-terphenyl host), we optically detect coherent spin manipulation with photoluminescence contrasts exceeding 10% and microsecond coherence times at room temperature. We further demonstrate how coherent control of multiple triplet sublevels can significantly enhance optical spin contrast, and extend optically detected coherent control to a thermally evaporated thin film, retaining high photoluminescence contrast and coherence times of order one microsecond. These results open opportunities for room-temperature quantum technologies that can be systematically tailored through synthetic chemistry.
翻訳日:2024-02-13 14:44:49 公開日:2024-02-12
# 曲線形状のみ:次の曲線形状予測によるゼロショット多変量時系列予測のための基礎モデル

Only the Curve Shape Matters: Training Foundation Models for Zero-Shot Multivariate Time Series Forecasting through Next Curve Shape Prediction ( http://arxiv.org/abs/2402.07570v1 )

ライセンス: Link先を確認
Cheng Feng, Long Huang, Denis Krompass(参考訳) ゼロショット多変量時系列予測のためのエンコーダのみスタイル基礎モデルであるGeneral Time Transformer(GTT)を提案する。 GTTは、さまざまなドメインにまたがる2億の高品質時系列サンプルの大規模なデータセットで事前訓練されている。 提案手法では,多変量時系列予測のタスクをチャネルワイズ次曲線形状予測問題として定式化し,各時系列サンプルを非重複曲線形状の列として統一的な数値等級で表現する。 gttは、チャネル毎に過去の曲線形状のウィンドウに基づいて次の曲線形状を予測するように訓練される。 実験結果から,GTTは非表示時系列データセットに対して,最先端の教師付きベースラインを超越した,優れたゼロショット多変量予測能力を示すことが示された。 さらに,様々なgttモデルパラメータとトレーニングデータセットスケールの影響について検討し,ゼロショット多変量時系列予測の文脈においてもスケーリング則が成立していることを観察した。

We present General Time Transformer (GTT), an encoder-only style foundation model for zero-shot multivariate time series forecasting. GTT is pretrained on a large dataset of 200M high-quality time series samples spanning diverse domains. In our proposed framework, the task of multivariate time series forecasting is formulated as a channel-wise next curve shape prediction problem, where each time series sample is represented as a sequence of non-overlapping curve shapes with a unified numerical magnitude. GTT is trained to predict the next curve shape based on a window of past curve shapes in a channel-wise manner. Experimental results demonstrate that GTT exhibits superior zero-shot multivariate forecasting capabilities on unseen time series datasets, even surpassing state-of-the-art supervised baselines. Additionally, we investigate the impact of varying GTT model parameters and training dataset scales, observing that the scaling law also holds in the context of zero-shot multivariate time series forecasting.
翻訳日:2024-02-13 14:44:28 公開日:2024-02-12
# Weisfeiler-Leman氏:もっと表現力が重要な時

Weisfeiler-Leman at the margin: When more expressivity matters ( http://arxiv.org/abs/2402.07568v1 )

ライセンス: Link先を確認
Billy J. Franks, Christopher Morris, Ameya Velingker, and Floris Geerts(参考訳) Weisfeiler-Lemanアルゴリズム(1$-WL)はグラフ同型問題に対するよく研究されたヒューリスティックである。 近年、このアルゴリズムは、メッセージパッシンググラフニューラルネットワーク(mpnn)の表現力の理解と、グラフカーネルとしての有効性において重要な役割を果たしている。 その成功にもかかわらず、1ドルWLは非同型グラフを区別する問題に直面し、より表現力のあるMPNNとカーネルアーキテクチャの開発に繋がる。 しかし,表現性向上と一般化性能向上の関係はいまだ不明である。 ここで、アーキテクチャの表現性は、グラフ同型を通して見るとき、その一般化性能に関する限られた洞察を与える。 さらに,サブグラフ情報による$$$-wlとmpnnの強化に着目し,古典的マージン理論を用いて,アーキテクチャの表現率の増大が一般化性能の向上と一致する条件を検討する。 さらに, 勾配流がMPNNの重み付けを最大限界解へ押し上げることを示す。 さらに,表現力のある1ドルWLベースのカーネルとMPNNアーキテクチャのバリエーションを紹介する。 実験結果は理論的な結果の妥当性を確認した。

The Weisfeiler-Leman algorithm ($1$-WL) is a well-studied heuristic for the graph isomorphism problem. Recently, the algorithm has played a prominent role in understanding the expressive power of message-passing graph neural networks (MPNNs) and being effective as a graph kernel. Despite its success, $1$-WL faces challenges in distinguishing non-isomorphic graphs, leading to the development of more expressive MPNN and kernel architectures. However, the relationship between enhanced expressivity and improved generalization performance remains unclear. Here, we show that an architecture's expressivity offers limited insights into its generalization performance when viewed through graph isomorphism. Moreover, we focus on augmenting $1$-WL and MPNNs with subgraph information and employ classical margin theory to investigate the conditions under which an architecture's increased expressivity aligns with improved generalization performance. In addition, we show that gradient flow pushes the MPNN's weights toward the maximum margin solution. Further, we introduce variations of expressive $1$-WL-based kernel and MPNN architectures with provable generalization properties. Our empirical study confirms the validity of our theoretical findings.
翻訳日:2024-02-13 14:44:10 公開日:2024-02-12
# 最適エネルギー伝達のための量子鎖設計のための強化学習アプローチ

A Reinforcement Learning Approach to the Design of Quantum Chains for Optimal Energy Transfer ( http://arxiv.org/abs/2402.07561v1 )

ライセンス: Link先を確認
S. Sgroi, G. Zicari, A. Imparato, and M. Paternostro(参考訳) 強化学習に基づくボトムアップアプローチを提案し,効率的な励磁伝達性能を実現するチェーンの設計を提案する。 強結合条件下で鎖状に配置された粒子間の距離依存相互作用を仮定する。 2つの粒子と局所的な励起から始めて、転送確率を改善するために徐々に構成員数を増加させる。 我々は、マルコフ決定過程として最適位置と粒子数を求める問題を定式化し、最適連鎖構築ポリシーと最適連鎖構成を異なるシナリオ下で見つけるために、近似ポリシー最適化を用いる。 ターゲットがチェーンの端に接続されたシンクである場合と、ターゲットがチェーンの最右端粒子である場合の両方を考慮する。 粒子位置決め誤差によって引き起こされる連鎖障害の問題に対処する。 すべての場合において、特定の条件に応じて異なる連鎖構成と特性を持つ非常に高い励起伝達を達成することができる。

We propose a bottom-up approach, based on Reinforcement Learning, to the design of a chain achieving efficient excitation-transfer performances. We assume distance-dependent interactions among particles arranged in a chain under tight-binding conditions. Starting from two particles and a localised excitation, we gradually increase the number of constitutents of the system so as to improve the transfer probability. We formulate the problem of finding the optimal locations and numbers of particles as a Markov Decision Process: we use Proximal Policy Optimization to find the optimal chain-building policies and the optimal chain configurations under different scenarios. We consider both the case in which the target is a sink connected to the end of the chain and the case in which the target is the right-most particle in the chain. We address the problem of disorder in the chain induced by particle positioning errors. We are able to achieve extremely high excitation transfer in all cases, with different chain configurations and properties depending on the specific conditions.
翻訳日:2024-02-13 14:43:50 公開日:2024-02-12
# BCFTアプローチによるいくつかのフェルミオンCFTにおけるエンタングルメントスペクトルのトータルおよび対称性

Total and Symmetry resolved Entanglement spectra in some Fermionic CFTs from the BCFT approach ( http://arxiv.org/abs/2402.07557v1 )

ライセンス: Link先を確認
Himanshu Gaur(参考訳) 本研究では,境界コンフォーマル場理論(BCFT)を用いて,約2ドルのフェルミオンCFTの1区間における全スペクトルと対称性分解スペクトルについて検討する。 このアプローチでは、ヒルベルト空間の分割は、絡み合う境界点の周りの円板を切断し、監視下で拡張対称性を保つ境界条件を課すことによって達成される。 減少密度モーメントは、bcft分割関数と関連付けられ、対称性電荷セクタにおいても対角的であることが分かる。 特に,まず,非質量ディラックフェルミオンとモジュラー不変なディラックフェルミオンの絡み合いスペクトルについて,軸線とベクトル $u(1)$ 対称性のいずれを保った境界条件を考慮して検討した。 モジュラー不変のディラックフェルミオンの総エンタングルメントスペクトルは双対半径でのコンパクトボソンの結果と一致するが、質量を持たないディラックフェルミオンの場合、境界エントロピー項は自己双対コンパクトボソンと一致しない。 対称性を解いた絡み合いは、対称性と理論の両方に依存する電荷スペクトルを除いて、すべての場合において同じである。 また,異なるキラルなu(1)^n$対称性を保持する境界条件を考慮して,n$マスレスディラックフェルミオンの絡み合いスペクトルについて検討した。 絡み合いスペクトルは$U(1)^M$部分群に対して研究され、ここでは$M\leq N$は異なるキラル対称性を保持する境界条件を与える。 総絡み合いスペクトルは境界理論における$U(1)^M$対称性の表現に敏感であることが判明し、その他の挙動は$O(1)$である。 同様の結果はSymmetrysolved entanglement entropiesにも見られる。 u(1)$対称性の特徴的な$\log\log\left(\ell/\epsilon\right)$項は、対称性が解決したエンタングルメントスペクトルにおいて、$m$に比例する。

In this work, we study the universal total and symmetry-resolved entanglement spectra for a single interval of some $2$d Fermionic CFTs using the Boundary Conformal Field theory (BCFT) approach. In this approach, the partition of Hilbert space is achieved by cutting out discs around the entangling boundary points and imposing boundary conditions preserving the extended symmetry under scrutiny. The reduced density moments are then related to the BCFT partition functions and are also found to be diagonal in the symmetry charge sectors. In particular, we first study the entanglement spectra of massless Dirac fermion and modular invariant Dirac fermion by considering the boundary conditions preserving either the axial or the vector $U(1)$ symmetry. The total entanglement spectra of the modular invariant Dirac fermion are shown to match with the compact boson result at the duality radius, while for the massless Dirac fermion, it is found that the boundary entropy term doesn't match with the self-dual compact boson. The symmetry-resolved entanglement is found to be the same in all cases, except for the charge spectrum which is dependent on both the symmetry and the theory. We also study the entanglement spectra of $N$ massless Dirac fermions by considering boundary conditions preserving different chiral $U(1)^N$ symmetries. Entanglement spectra are studied for $U(1)^M$ subgroups, where $M\leq N$, by imposing boundary conditions preserving different chiral symmetries. The total entanglement spectra are found to be sensitive to the representations of the $U(1)^M$ symmetry in the boundary theory among other behaviours at $O(1)$. Similar results are also found for the Symmetry resolved entanglement entropies. The characteristic $\log\log\left(\ell/\epsilon\right)$ term of the $U(1)$ symmetry is found to be proportional to $M$ in the symmetry-resolved entanglement spectra.
翻訳日:2024-02-13 14:43:36 公開日:2024-02-12
# アナログインメモリコンピューティングのための精度最適化固定点ニアメモリディジタル処理ユニット

A Precision-Optimized Fixed-Point Near-Memory Digital Processing Unit for Analog In-Memory Computing ( http://arxiv.org/abs/2402.07549v1 )

ライセンス: Link先を確認
Elena Ferro, Athanasios Vasilopoulos, Corey Lammie, Manuel Le Gallo, Luca Benini, Irem Boybat, Abu Sebastian(参考訳) Analog In-Memory Computing (AIMC)は、高速かつエネルギー効率の高いディープラーニング(DL)推論のための新興技術である。 しかし、メモリ装置に関連する回路ミスマッチや非理想性に対処するには、ある程度のデジタル後処理が必要となる。 効率的なニアメモリデジタルロジックは、AIMCの高領域/エネルギー効率と低レイテンシを維持するために重要である。 既存のシステムはFloating Point 16 (FP16)演算を採用しており、並列化能力は限られており、レイテンシも高い。 これらの制限を克服するため,固定点演算に基づくNMPU(Near-Memory Digital Processing Unit)を提案する。 オーバヘッドを最小限に抑えつつ、競争精度と従来のアプローチよりも高い計算スループットを実現する。 さらに、NMPUはReLUやBatch Normalizationといった標準DLアクティベーションステップをサポートしている。 14nmCMOS技術でNMPUの設計を物理的に実装し,性能,パワー,面積の詳細な評価を行う。 我々は、AIMCチップのデータを用いて、NMPUの有効性を検証するとともに、提案したNMPUによるシミュレーションAIMCシステムが、既存のFP16ベースの実装より優れていることを示す。 さらに,CIFAR10/CIFAR100データセットでトレーニングしたResNet9/ResNet32ネットワークのベンチマークでは,FP16ベースラインに比べて0.12 %/0.4 %の精度低下がみられた。

Analog In-Memory Computing (AIMC) is an emerging technology for fast and energy-efficient Deep Learning (DL) inference. However, a certain amount of digital post-processing is required to deal with circuit mismatches and non-idealities associated with the memory devices. Efficient near-memory digital logic is critical to retain the high area/energy efficiency and low latency of AIMC. Existing systems adopt Floating Point 16 (FP16) arithmetic with limited parallelization capability and high latency. To overcome these limitations, we propose a Near-Memory digital Processing Unit (NMPU) based on fixed-point arithmetic. It achieves competitive accuracy and higher computing throughput than previous approaches while minimizing the area overhead. Moreover, the NMPU supports standard DL activation steps, such as ReLU and Batch Normalization. We perform a physical implementation of the NMPU design in a 14 nm CMOS technology and provide detailed performance, power, and area assessments. We validate the efficacy of the NMPU by using data from an AIMC chip and demonstrate that a simulated AIMC system with the proposed NMPU outperforms existing FP16-based implementations, providing 139$\times$ speed-up, 7.8$\times$ smaller area, and a competitive power consumption. Additionally, our approach achieves an inference accuracy of 86.65 %/65.06 %, with an accuracy drop of just 0.12 %/0.4 % compared to the FP16 baseline when benchmarked with ResNet9/ResNet32 networks trained on the CIFAR10/CIFAR100 datasets, respectively.
翻訳日:2024-02-13 14:43:00 公開日:2024-02-12
# 知的論理エージェントにおける信頼性と倫理的行動の確保

Ensuring trustworthy and ethical behaviour in intelligent logical agents ( http://arxiv.org/abs/2402.07547v1 )

ライセンス: Link先を確認
Stefania Costantini(参考訳) 自律的な知的エージェントは、生命の生命と福祉と重要な社会的機能に依存する多くの応用で採用されている。 したがって、エージェントは信頼に値する。 事前認証技術(すなわち、システムの配備前に適用される技術)は有用であるが、進化するエージェントには十分ではなく、そのエピステマ性や信念の状態を変更したり、異種エージェントがシステムのどの段階でもシステムに参加または離脱できるオープンマルチエージェントシステムには十分ではない。 本稿では,エージェントの信頼度と倫理性を確保するために考案された,動的(実行時)論理に基づく自己検査手法を提案する。

Autonomous Intelligent Agents are employed in many applications upon which the life and welfare of living beings and vital social functions may depend. Therefore, agents should be trustworthy. A priori certification techniques (i.e., techniques applied prior to system's deployment) can be useful, but are not sufficient for agents that evolve, and thus modify their epistemic and belief state, and for open Multi-Agent Systems, where heterogeneous agents can join or leave the system at any stage of its operation. In this paper, we propose/refine/extend dynamic (runtime) logic-based self-checking techniques, devised in order to be able to ensure agents' trustworthy and ethical behaviour.
翻訳日:2024-02-13 14:42:32 公開日:2024-02-12
# TransAxx: 近似コンピューティングによる効率的なトランスフォーマー

TransAxx: Efficient Transformers with Approximate Computing ( http://arxiv.org/abs/2402.07545v1 )

ライセンス: Link先を確認
Dimitrios Danopoulos, Georgios Zervakis, Dimitrios Soudris, J\"org Henkel(参考訳) 最近トランスアーキテクチャによって導入されたViT(Vision Transformer)モデルは、非常に競争力があり、畳み込みニューラルネットワーク(CNN)の代替として人気がある。 しかしながら、これらのモデルの高い計算要求は、特に低消費電力デバイスにおける実用性を制限する。 現在の最先端技術では、DNNアクセラレーターの高度に増大する計算要求に対応するために近似乗算器を使用しているが、ViTモデルでの使用について以前の研究は行われていない。 本研究では,PyTorchライブラリをベースとしたフレームワークであるTransAxxを提案し,近似演算の高速な固有サポートにより,ViTモデルなどのDNNに対する近似計算の影響をシームレスに評価する。 transaxxを用いてimagenetデータセット上のトランスフォーマーモデルの感度を分析し、近似乗算を行い、精度を回復するために近似認識微調整を行う。 さらに,ViTモデルの近似加速器を生成する手法を提案する。 本手法はモンテカルロ木探索 (mcts) アルゴリズムを用いて, ハードウェア駆動のハンドクラフトポリシーを用いて, 可能な構成空間を効率的に探索する。 本評価は, 精度とパワーのトレードオフを著しく達成し, 性能を損なうことなくかなりの利得が得られることを示す。

Vision Transformer (ViT) models which were recently introduced by the transformer architecture have shown to be very competitive and often become a popular alternative to Convolutional Neural Networks (CNNs). However, the high computational requirements of these models limit their practical applicability especially on low-power devices. Current state-of-the-art employs approximate multipliers to address the highly increased compute demands of DNN accelerators but no prior research has explored their use on ViT models. In this work we propose TransAxx, a framework based on the popular PyTorch library that enables fast inherent support for approximate arithmetic to seamlessly evaluate the impact of approximate computing on DNNs such as ViT models. Using TransAxx we analyze the sensitivity of transformer models on the ImageNet dataset to approximate multiplications and perform approximate-aware finetuning to regain accuracy. Furthermore, we propose a methodology to generate approximate accelerators for ViT models. Our approach uses a Monte Carlo Tree Search (MCTS) algorithm to efficiently search the space of possible configurations using a hardware-driven hand-crafted policy. Our evaluation demonstrates the efficacy of our methodology in achieving significant trade-offs between accuracy and power, resulting in substantial gains without compromising on performance.
翻訳日:2024-02-13 14:42:18 公開日:2024-02-12
# 微調整言語モデルにおける説明の役割

Show Me How It's Done: The Role of Explanations in Fine-Tuning Language Models ( http://arxiv.org/abs/2402.07543v1 )

ライセンス: Link先を確認
Mohamad Ballout, Ulf Krumnack, Gunther Heidemann and Kai-Uwe Kuehnberger(参考訳) 本研究は,言語モデルの性能向上のために,説明付き微調整を用いることの意義を示す。 モデルのパラメータを保持するプロンプトとは異なり、微調整により、トレーニングフェーズ中にモデルのパラメータを学習して更新することができる。 本研究では,結果の提示ではなく,結果の説明を含むデータを用いて,様々な大きさの言語モデルに微調整を適用した。 パラメータが6000万にも満たない小さな言語モデルでさえ、このアプローチのメリットは大きいことが分かりました。 興味深いことに, 詳細な説明は大型モデルよりも小型モデルにとって有益であり, 後者は長さに関係なく, あらゆる形態の説明からほぼ同じ利点を得た。 さらに,説明文を含めることで,説明なしでは解決できない課題をモデルが解決できることを実証する。 最後に、説明を加えるという難しい性質にもかかわらず、説明を含むサンプルは、訓練に必要なデータ量を減らすだけでなく、モデルによるより効果的な一般化を促進する。 以上の結果から,説明を伴う微調整が大規模言語モデルの性能を著しく向上させることが示唆された。

Our research demonstrates the significant benefits of using fine-tuning with explanations to enhance the performance of language models. Unlike prompting, which maintains the model's parameters, fine-tuning allows the model to learn and update its parameters during a training phase. In this study, we applied fine-tuning to various sized language models using data that contained explanations of the output rather than merely presenting the answers. We found that even smaller language models with as few as 60 million parameters benefited substantially from this approach. Interestingly, our results indicated that the detailed explanations were more beneficial to smaller models than larger ones, with the latter gaining nearly the same advantage from any form of explanation, irrespective of its length. Additionally, we demonstrate that the inclusion of explanations enables the models to solve tasks that they were not able to solve without explanations. Lastly, we argue that despite the challenging nature of adding explanations, samples that contain explanations not only reduce the volume of data required for training but also promote a more effective generalization by the model. In essence, our findings suggest that fine-tuning with explanations significantly bolsters the performance of large language models.
翻訳日:2024-02-13 14:41:56 公開日:2024-02-12
# ASAP-Repair: API使用グラフに基づくAPI特有の自動プログラム修復

ASAP-Repair: API-Specific Automated Program Repair Based on API Usage Graphs ( http://arxiv.org/abs/2402.07542v1 )

ライセンス: Link先を確認
Sebastian Nielebock and Paul Blockhaus and Jacob Kr\"uger and Frank Ortmeier(参考訳) 現代のソフトウェア開発は、アプリケーションプログラミングインタフェース(API)によるコードの再利用に依存している。 このような再利用は、開発者が確立されたアルゴリズムやデータ構造を新たに学習し、開発するのを妨げます。 しかし、APIの理解や適切なドキュメントの欠如により、APIを誤用するリスクもある。 apiの誤用検出をターゲットとする技術は多いが、apiの誤用を自動的に修復する努力は限られている。 本稿では,api固有の自動プログラム修復(asap-repair)技術について述べる。 ASAP-Repairは、最先端API誤用検出のAPI使用テンプレートを活用することで、API使用グラフ(AUG)に基づいたAPI誤用を修正することを意図している。 本稿では,ASAP-Repairが確立したAPI誤用データセットに適用可能であることを示す。 さらに,ASAP-Repairの進化に向けた次のステップと課題を,本格的な自動プログラム修復(APR)技術に向けて論じる。

Modern software development relies on the reuse of code via Application Programming Interfaces (APIs). Such reuse relieves developers from learning and developing established algorithms and data structures anew, enabling them to focus on their problem at hand. However, there is also the risk of misusing an API due to a lack of understanding or proper documentation. While many techniques target API misuse detection, only limited efforts have been put into automatically repairing API misuses. In this paper, we present our advances on our technique API-Specific Automated Program Repair (ASAP-Repair). ASAP-Repair is intended to fix API misuses based on API Usage Graphs (AUGs) by leveraging API usage templates of state-of-the-art API misuse detectors. We demonstrate that ASAP-Repair is in principle applicable on an established API misuse dataset. Moreover, we discuss next steps and challenges to evolve ASAP-Repair towards a full-fledged Automatic Program Repair (APR) technique.
翻訳日:2024-02-13 14:41:37 公開日:2024-02-12
# PKG API: 個人の知識グラフ管理のためのツール

PKG API: A Tool for Personal Knowledge Graph Management ( http://arxiv.org/abs/2402.07540v1 )

ライセンス: Link先を確認
Nolwenn Bernard and Ivica Kostric and Weronika {\L}ajewska and Krisztian Balog and Petra Galu\v{s}\v{c}\'akov\'a and Vinay Setty and Martin G. Skj{\ae}veland(参考訳) 個人知識グラフ(PKG)は、個人が断片化された個人データを中央に保存し、統合する方法を提供し、完全なユーザコントロールを維持しながらサービスのパーソナライゼーションを改善する。 その可能性にもかかわらず、ユーザフレンドリなインターフェースを備えた実用的なPKG実装は依然として少ない。 この作業は、PKGを表現、管理、インターフェースする完全なソリューションを提案することで、このギャップに対処する。 提案手法は,(1)ユーザ対応のPKGクライアントで,(2)サービス指向のPKG APIにより,エンドユーザが自然言語による個人データの管理が容易になる。 これらの文をpkg内で表現することの複雑さに対処するため,我々は,これをサポートするrdfベースのpkg語彙と,アクセス権とプロヴァンスの性質を提案する。

Personal knowledge graphs (PKGs) offer individuals a way to store and consolidate their fragmented personal data in a central place, improving service personalization while maintaining full user control. Despite their potential, practical PKG implementations with user-friendly interfaces remain scarce. This work addresses this gap by proposing a complete solution to represent, manage, and interface with PKGs. Our approach includes (1) a user-facing PKG Client, enabling end-users to administer their personal data easily via natural language statements, and (2) a service-oriented PKG API. To tackle the complexity of representing these statements within a PKG, we present an RDF-based PKG vocabulary that supports this, along with properties for access rights and provenance.
翻訳日:2024-02-13 14:41:21 公開日:2024-02-12
# BreakGPT:金融ブレークアウト検出のための多段階構造を持つ大規模言語モデル

BreakGPT: A Large Language Model with Multi-stage Structure for Financial Breakout Detection ( http://arxiv.org/abs/2402.07536v1 )

ライセンス: Link先を確認
Kang Zhang, Osamu Yoshie, Weiran Huang(参考訳) トレーディング・レンジ・ブレイクアウト(Trending Range Breakout、TRB)は、金融取引の技術的分析において重要な手法であり、株式、先物、外国為替などの金融市場のトレーダが広く採用している。 しかし、trueとfalseの区別と正しい合理性の提供は投資家にとって大きな課題となる。 近年,ダウンストリームアプリケーションで大規模言語モデルが成功を収めているが,財務的ブレークアウト検出の領域での有効性は劣っている。 その理由は、ブレークアウト検出にはユニークなデータと特定の知識が必要であるからだ。 これらの問題に対処するために、ファイナンシャルブレークアウト検出のための最初の大規模言語モデルであるBreakGPTを導入する。 さらに,大規模言語モデル,すなわちマルチステージ構造のための新しいフレームワークを開発し,下流アプリケーションにおける誤りを効果的に軽減した。 GPT-3.5と比較して、BreakGPTは回答の精度を44%改善し、多段階構造は改善に17.6%貢献した。 さらに、ChatGPT-4を47%上回っている。 私たちのコードは公開されています。 https://github.com/Neviim96/BreakGPT

Trading range breakout (TRB) is a key method in the technical analysis of financial trading, widely employed by traders in financial markets such as stocks, futures, and foreign exchange. However, distinguishing between true and false breakout and providing the correct rationale cause significant challenges to investors. Recently, large language models have achieved success in various downstream applications, but their effectiveness in the domain of financial breakout detection has been subpar. The reason is that the unique data and specific knowledge are required in breakout detection. To address these issues, we introduce BreakGPT, the first large language model for financial breakout detection. Furthermore, we have developed a novel framework for large language models, namely multi-stage structure, effectively reducing mistakes in downstream applications. Experimental results indicate that compared to GPT-3.5, BreakGPT improves the accuracy of answers and rational by 44%, with the multi-stage structure contributing 17.6% to the improvement. Additionally, it outperforms ChatGPT-4 by 42.07%. Our Code is publicly available: https://github.com/Neviim96/BreakGPT
翻訳日:2024-02-13 14:41:07 公開日:2024-02-12
# 再現性,再現性,再現性:ハイパフォーマンスコンピューティングに着目した再現性研究の調査

Reproducibility, Replicability, and Repeatability: A survey of reproducible research with a focus on high performance computing ( http://arxiv.org/abs/2402.07530v1 )

ライセンス: Link先を確認
Benjamin A. Antunes (LIMOS), David R.C. Hill (ISIMA, LIMOS)(参考訳) 再現性は科学研究の基本原理として広く認められている。 現在、科学コミュニティは「再現性危機」としばしば呼ばれる再現性に関連する多くの課題に取り組んでおり、この危機は多くの科学分野に浸透した。 本研究では,この再現性の欠如に寄与する科学的実践の要因について検討した。 研究における計算の一般的な統合に重点が置かれており、出版論文でブラックボックスとして機能することもある。 本研究は主にハイパフォーマンスコンピューティング(hpc)に焦点をあて,ユニークな再現性課題を提示する。 本稿ではこれらの懸念と潜在的な解決策を概観する。 さらに,HPC分野における科学の進歩と持続的課題の同定における再現可能な研究の重要性について論じる。

Reproducibility is widely acknowledged as a fundamental principle in scientific research. Currently, the scientific community grapples with numerous challenges associated with reproducibility, often referred to as the ''reproducibility crisis.'' This crisis permeated numerous scientific disciplines. In this study, we examined the factors in scientific practices that might contribute to this lack of reproducibility. Significant focus is placed on the prevalent integration of computation in research, which can sometimes function as a black box in published papers. Our study primarily focuses on highperformance computing (HPC), which presents unique reproducibility challenges. This paper provides a comprehensive review of these concerns and potential solutions. Furthermore, we discuss the critical role of reproducible research in advancing science and identifying persisting issues within the field of HPC.
翻訳日:2024-02-13 14:40:46 公開日:2024-02-12
# lossless homomorphic compressionを用いた分散ディープラーニングの高速化

Accelerating Distributed Deep Learning using Lossless Homomorphic Compression ( http://arxiv.org/abs/2402.07529v1 )

ライセンス: Link先を確認
Haoyu Li, Yuchen Xu, Jiayi Chen, Rohit Dwivedula, Wenfei Wu, Keqiang He, Aditya Akella, Daehyeok Kim(参考訳) ディープニューラルネットワーク(DNN)の複雑さとサイズが大きくなるにつれて、分散トレーニング中の通信オーバーヘッドの増加は重大なボトルネックとなり、分散トレーニングシステムのスケーラビリティに挑戦している。 既存のソリューションは、ワーカレベルの圧縮とネットワーク内の集約によってこのボトルネックを軽減することを目的としているが、圧縮効率と計算オーバーヘッドのトレードオフを効率的に調整できないため、全体的なパフォーマンスとスケーラビリティを損なう。 本稿では,ネットワーク内アグリゲーションとワーカレベルの圧縮を効果的に融合する新しい圧縮アルゴリズムを提案する。 私たちのソリューションはどちらも同型であり、CPU/GPU処理を使わずに効率的なネットワーク内アグリゲーションを可能にします。 圧縮と計算効率において理論的に最適であるこのアプローチは、ncf、lstm、vgg19、bert-baseなどの様々なdnnモデルで実証的に検証され、集約スループットが6.33$\times$向上し、分単位のトレーニング速度が3.74$\times$向上した。

As deep neural networks (DNNs) grow in complexity and size, the resultant increase in communication overhead during distributed training has become a significant bottleneck, challenging the scalability of distributed training systems. Existing solutions, while aiming to mitigate this bottleneck through worker-level compression and in-network aggregation, fall short due to their inability to efficiently reconcile the trade-offs between compression effectiveness and computational overhead, hindering overall performance and scalability. In this paper, we introduce a novel compression algorithm that effectively merges worker-level compression with in-network aggregation. Our solution is both homomorphic, allowing for efficient in-network aggregation without CPU/GPU processing, and lossless, ensuring no compromise on training accuracy. Theoretically optimal in compression and computational efficiency, our approach is empirically validated across diverse DNN models such as NCF, LSTM, VGG19, and BERT-base, showing up to a 6.33$\times$ improvement in aggregation throughput and a 3.74$\times$ increase in per-iteration training speed.
翻訳日:2024-02-13 14:40:34 公開日:2024-02-12
# 雑音量子プロセッサ上での時間依存係数を持つlindblad方程式の最適化雑音支援シミュレーション

Optimized noise-assisted simulation of the Lindblad equation with time-dependent coefficients on a noisy quantum processor ( http://arxiv.org/abs/2402.07617v1 )

ライセンス: Link先を確認
Jos\'e D. Guimar\~aes, Antonio Ruiz-Molero, James Lim, Mikhail I. Vasilevskiy, Susana F. Huelga and Martin B. Plenio(参考訳) 量子デバイスのノイズは一般に計算精度に有害であると考えられている。 しかし、ノイズアシストシミュレーションの最近の提案は、ノイズがノイズ中間スケール量子(nisq)デバイス上のオープンシステムのデジタル量子シミュレーションの資産となり得ることを実証している。 本稿では,従来の雑音支援シミュレーションと比較して,計算要求を桁違いに削減できる最適化されたデコヒーレンス率制御方式を提案する。 このアプローチをさらに拡張し、時間依存係数を持つリンドブラッド方程式を量子誤差特性評価と緩和法のみを用いて包含する。 この拡張により、NISQデバイス上の非マルコフ力学の摂動シミュレーションが可能となり、アンシラ量子ビットや中間回路の測定を必要としない。 本研究は,エミュレートされたIBMQデバイス上での数値実験により検証した。 全体として、我々の研究は、現在の量子プロセッサを現実のオープンシステムを効果的にシミュレートする価値のある最適化を提供する。

Noise in quantum devices is generally considered detrimental to computational accuracy. However, the recent proposal of noise-assisted simulation has demonstrated that noise can be an asset in digital quantum simulations of open systems on Noisy Intermediate-Scale Quantum (NISQ) devices. In this context, we introduce an optimized decoherence rate control scheme that can significantly reduce computational requirements by multiple orders of magnitude, in comparison to the original noise-assisted simulation. We further extend this approach to encompass Lindblad equations with time-dependent coefficients, using only quantum error characterization and mitigation techniques. This extension allows for the perturbative simulation of non-Markovian dynamics on NISQ devices, eliminating the need for ancilla qubits or mid-circuit measurements. Our contributions are validated through numerical experiments on an emulated IBMQ device. Overall, our work offers valuable optimizations that bring current quantum processors closer to effectively simulating realistic open systems.
翻訳日:2024-02-13 14:33:14 公開日:2024-02-12
# アンカーベース大規模言語モデル

Anchor-based Large Language Models ( http://arxiv.org/abs/2402.07616v1 )

ライセンス: Link先を確認
Jianhui Pang, Fanghua Ye, Derek F. Wong, Longyue Wang(参考訳) 大規模言語モデル(llms)は主にデコーダのみのトランスフォーマーアーキテクチャを採用しており、歴史的トークンのキー/バリュー情報の保持を必要とし、コンテキスト情報を提供し、冗長な計算を避ける。 しかし、これらのLLMのかなりのサイズとパラメータボリュームは、大量のGPUメモリを必要とする。 このメモリ需要は入力テキストの長さとともに増大し、情報保存と処理のより効率的な方法が緊急に必要となる。 本研究では,アンカーベース自己注意ネットワーク(AnSAN)とアンカーベース推論戦略を利用するアンカーベースLPM(AnLLM)を紹介する。 このアプローチにより、LLMはシーケンス情報をアンカートークンに圧縮し、キー/値キャッシュを削減し、推論効率を向上させる。 実験によると、AnLLMは最大99%のキー/バリューキャッシュの削減と最大3.5倍の高速推論で同等の精度を維持している。 精度の小さな妥協にもかかわらず、AnLLMは計算効率と資源利用を著しく改善し、実用的な応用におけるリアルタイム推論のためのLLMにおけるアンカーベースアテンションアプローチの可能性を示した。

Large language models (LLMs) predominantly employ decoder-only transformer architectures, necessitating the retention of keys/values information for historical tokens to provide contextual information and avoid redundant computation. However, the substantial size and parameter volume of these LLMs require massive GPU memory. This memory demand increases with the length of the input text, leading to an urgent need for more efficient methods of information storage and processing. This study introduces the Anchor-based LLM (AnLLM), which utilizes an innovative anchor-based self-attention network (AnSAN) and also an anchor-based inference strategy. This approach enables LLMs to compress sequence information into an anchor token, reducing the keys/values cache and enhancing inference efficiency. Experiments show that the AnLLM maintains comparable accuracy with up to 99% keys/values cache reduction and up to 3.5 times faster inference. Despite a minor compromise in accuracy, the AnLLM significantly improves computational efficiency and resource utilization, demonstrating the potential of the anchor-based attention approach in the context of LLMs for real-time inference in practical applications.
翻訳日:2024-02-13 14:32:58 公開日:2024-02-12
# 可換対称性制約下における大域的最適性

Global optimality under amenable symmetry constraints ( http://arxiv.org/abs/2402.07613v1 )

ライセンス: Link先を確認
Peter Orbanz(参考訳) 1) 与えられた凸関数やリスクを最小化する関数や測度が存在し、(2) 可換変換群によって指定された対称性を満たすかどうかを問う。 そのような対称性の例としては、不変性、等分散性、準不変性がある。 この結果は, stein と le cam の古い考え方と, 代数群に対するエルゴード定理に現れる近似群平均値に寄与する。 凸解析においてオービトロープと呼ばれる凸集合のクラスが重要となり、そのようなオービトロープの性質を非パラメトリックな設定で確立する。 また,コサイクリングと呼ばれる単純な装置を用いて,単一問題に対する異なる対称性を低減できることを示す。 応用として、不変核平均埋め込みに関する結果と、対称性の制約下での輸送計画の最適性に関するモンゲ・カントロヴィチの定理を得る。 また,不変テストにおけるハント・スタインの定理との関係についても述べる。

We ask whether there exists a function or measure that (1) minimizes a given convex functional or risk and (2) satisfies a symmetry property specified by an amenable group of transformations. Examples of such symmetry properties are invariance, equivariance, or quasi-invariance. Our results draw on old ideas of Stein and Le Cam and on approximate group averages that appear in ergodic theorems for amenable groups. A class of convex sets known as orbitopes in convex analysis emerges as crucial, and we establish properties of such orbitopes in nonparametric settings. We also show how a simple device called a cocycle can be used to reduce different forms of symmetry to a single problem. As applications, we obtain results on invariant kernel mean embeddings and a Monge-Kantorovich theorem on optimality of transport plans under symmetry constraints. We also explain connections to the Hunt-Stein theorem on invariant tests.
翻訳日:2024-02-13 14:32:38 公開日:2024-02-12
# Step-On-Feet Tuning:ブートストラップによるLCMの自己アライメントのスケーリング

Step-On-Feet Tuning: Scaling Self-Alignment of LLMs via Bootstrapping ( http://arxiv.org/abs/2402.07610v1 )

ライセンス: Link先を確認
Haoyu Wang, Guozheng Ma, Ziqiao Meng, Zeyu Qin, Li Shen, Zhong Zhang, Bingzhe Wu, Liu Liu, Yatao Bian, Tingyang Xu, Xueqian Wang, Peilin Zhao(参考訳) 自己調整は、有望なモデル能力を確保しつつ、人間のアノテーションのコストを削減する効果的な方法である。 しかし、現在のほとんどの手法は単一のラウンドでデータ収集とトレーニングのステップを完了しており、自己整合モデルの継続的な改善能力を見落としている可能性がある。 マルチタイムブートストラップで自己調整を行う場合はどうでしょう? この戦略はモデルの性能を高めるのか、それとも急速な劣化につながるのか? 本稿では,大規模言語モデルにおける自己アライメントのブートストラップの影響について考察する。 この結果から,自己アライメントの自己アライメントは,コンテキスト内学習によるデータの多様性を保証することによって,シングルラウンドアプローチを著しく上回ることがわかった。 ブートストラップの能力をさらに活用するために,データのトレーニング順序を調査し,調整することで,モデルの性能が向上する。 これらの知見に基づいて,モデルが継続的に強化した小ショット機能を活用し,ゼロまたはワンショットのパフォーマンスを向上させるステップオン・フェート・チューニング(SOFT)を提案する。 簡単な学習法に基づいて、自己アライメントの性能をさらに向上させるSOFT+を提案する。 実験では,SOFT(SOFT+)の多種多様な分類・生成タスクにおける効率を実証し,モデルアライメント性能を継続的に向上させる自己アライメントのブートストラップの可能性を強調した。

Self-alignment is an effective way to reduce the cost of human annotation while ensuring promising model capability. However, most current methods complete the data collection and training steps in a single round, which may overlook the continuously improving ability of self-aligned models. This gives rise to a key query: What if we do multi-time bootstrapping self-alignment? Does this strategy enhance model performance or lead to rapid degradation? In this paper, our pioneering exploration delves into the impact of bootstrapping self-alignment on large language models. Our findings reveal that bootstrapping self-alignment markedly surpasses the single-round approach, by guaranteeing data diversity from in-context learning. To further exploit the capabilities of bootstrapping, we investigate and adjust the training order of data, which yields improved performance of the model. Drawing on these findings, we propose Step-On-Feet Tuning (SOFT) which leverages model's continuously enhanced few-shot ability to boost zero or one-shot performance. Based on easy-to-hard training recipe, we propose SOFT+ which further boost self-alignment's performance. Our experiments demonstrate the efficiency of SOFT (SOFT+) across various classification and generation tasks, highlighting the potential of bootstrapping self-alignment on continually enhancing model alignment performance.
翻訳日:2024-02-13 14:32:21 公開日:2024-02-12
# 基底状態の変分後選択と熱状態シミュレーション

Variational post-selection for ground states and thermal states simulation ( http://arxiv.org/abs/2402.07605v1 )

ライセンス: Link先を確認
Shi-Xin Zhang, Jiaqi Miao and Chang-Yu Hsieh(参考訳) ノイズの多い中間スケール量子(nisq)時代の最も有望なルートの一つである変分量子アルゴリズム(vqas)は、短期的な量子ハードウェア制限による厳しい課題に直面しながら、様々な潜在的な応用を提供する。 本研究では,変分後選択手法を取り入れることで,変分量子アンサッツの表現性を高める枠組みを提案する。 これらの手法は、現世代の量子デバイスと互換性のあるancilla qubits上の変分モジュールとニューラルネットワーク後処理を適用する。 変分後選択機能を備えることで,量子スピン系と分子系の両方に対する変分基底状態と熱状態の精度が大幅に向上することを示す。 特に,熱量子システムの局所的性質を推定する場合には,ニューラルネットワークのポストセレクションと新しい最適化目標の組み合わせにより,従来の手法に匹敵するスケーラブルな手法を提案する。

Variational quantum algorithms (VQAs), as one of the most promising routes in the noisy intermediate-scale quantum (NISQ) era, offer various potential applications while also confront severe challenges due to near-term quantum hardware restrictions. In this work, we propose a framework to enhance the expressiveness of variational quantum ansatz by incorporating variational post-selection techniques. These techniques apply variational modules and neural network post-processing on ancilla qubits, which are compatible with the current generation of quantum devices. Equipped with variational post-selection, we demonstrate that the accuracy of the variational ground state and thermal state preparation for both quantum spin and molecule systems is substantially improved. Notably, in the case of estimating the local properties of a thermalized quantum system, we present a scalable approach that outperforms previous methods through the combination of neural post-selection and a new optimization objective.
翻訳日:2024-02-13 14:31:58 公開日:2024-02-12
# 生成モデルを用いた極小最適分布強化学習

Near-Minimax-Optimal Distributional Reinforcement Learning with a Generative Model ( http://arxiv.org/abs/2402.07598v1 )

ライセンス: Link先を確認
Mark Rowland, Li Kevin Wenliang, R\'emi Munos, Clare Lyle, Yunhao Tang, Will Dabney(参考訳) モデルベース分散強化学習(RL)のための新しいアルゴリズムを提案し、生成モデル(対数因子まで)による戻り分布の近似が最小限最適であることを証明し、Zhangらによるオープンな質問を解決する(2023年)。 本解析は, 分布 rl に対する圏論的アプローチに関する新しい理論的な結果を与え, 分布的ベルマン方程式である確率的カテゴリー的 cdf ベルマン方程式も導入する。 また,複数のモデルに基づく分布RLアルゴリズムと,実践者によるいくつかのテイクアウトの比較実験を行った。

We propose a new algorithm for model-based distributional reinforcement learning (RL), and prove that it is minimax-optimal for approximating return distributions with a generative model (up to logarithmic factors), resolving an open question of Zhang et al. (2023). Our analysis provides new theoretical results on categorical approaches to distributional RL, and also introduces a new distributional Bellman equation, the stochastic categorical CDF Bellman equation, which we expect to be of independent interest. We also provide an experimental study comparing several model-based distributional RL algorithms, with several takeaways for practitioners.
翻訳日:2024-02-13 14:31:42 公開日:2024-02-12
# 信頼できるSR:拡散モデルと人間のフィードバックによる画像超解像の曖昧性解消

Trustworthy SR: Resolving Ambiguity in Image Super-resolution via Diffusion Models and Human Feedback ( http://arxiv.org/abs/2402.07597v1 )

ライセンス: Link先を確認
Cansu Korkmaz, Ege Cirakman, A. Murat Tekalp, Zafer Dogan(参考訳) 超解像 (super- resolution, sr) は、与えられた低解像と整合する大きな解群を持つ逆問題である。 様々な決定論的アルゴリズムは、忠実さと知覚的品質のバランスをとる単一のソリューションを見つけることを目的としているが、このトレードオフはしばしば、情報中心のアプリケーションに曖昧さをもたらす視覚的アーティファクトを引き起こす。 一方、拡散モデル(DM)は、解空間にまたがる様々な実現可能なSR画像を生成するのに優れている。 課題は、このセットの中で最も可能性の高いソリューションを、信頼できる方法でどうやって決定するかである。 我々は,PSNR,LPIPS,disTSなどの定量的指標が,あいまいな症例を解決するための信頼性のある指標ではないことを観察した。 そこで本研究では, 被験者に対して, 少数のサンプルの選択を依頼し, 選択したサンプルの平均値をアンサンブルする手法を提案する。 この戦略は、DMの高品質な画像生成能力を活用し、特に特定の桁や文字の識別などのユースケースにおいて、単一の信頼できるソリューションを得ることの重要性を認識しながら、複数の実現可能なソリューションを生成することは、信頼性のある結果をもたらすことができない。 実験の結果,提案手法は最先端のSR手法と比較して信頼性の高い解を提供することがわかった。

Super-resolution (SR) is an ill-posed inverse problem with a large set of feasible solutions that are consistent with a given low-resolution image. Various deterministic algorithms aim to find a single solution that balances fidelity and perceptual quality; however, this trade-off often causes visual artifacts that bring ambiguity in information-centric applications. On the other hand, diffusion models (DMs) excel in generating a diverse set of feasible SR images that span the solution space. The challenge is then how to determine the most likely solution among this set in a trustworthy manner. We observe that quantitative measures, such as PSNR, LPIPS, DISTS, are not reliable indicators to resolve ambiguous cases. To this effect, we propose employing human feedback, where we ask human subjects to select a small number of likely samples and we ensemble the averages of selected samples. This strategy leverages the high-quality image generation capabilities of DMs, while recognizing the importance of obtaining a single trustworthy solution, especially in use cases, such as identification of specific digits or letters, where generating multiple feasible solutions may not lead to a reliable outcome. Experimental results demonstrate that our proposed strategy provides more trustworthy solutions when compared to state-of-the art SR methods.
翻訳日:2024-02-13 14:31:31 公開日:2024-02-12
# シート音楽トランスフォーマー:モノフォニックな書き起こしを超えたエンドツーエンドの光音楽認識

Sheet Music Transformer: End-To-End Optical Music Recognition Beyond Monophonic Transcription ( http://arxiv.org/abs/2402.07596v1 )

ライセンス: Link先を確認
Antonio R\'ios-Vila, Jorge Calvo-Zaragoza, Thierry Paquet(参考訳) OMR(State-of-the-the-the-art end-to-end Optical Music Recognition)は、主にポリフォニーのような複雑なスコアレイアウトを扱うためにモノフォニックの書き起こし技術を用いて行われてきた。 有効性にもかかわらず、これらのアプローチはスケーラビリティと制限に関連する課題を示唆している。 本稿では,モノフォニック戦略のみに頼らずに複雑な楽譜の書き起こしが可能な最初のエンドツーエンドOMRモデルであるシート音楽変換器を提案する。 本モデルでは、入力画像から標準デジタル音楽符号化フォーマットの楽譜の書き起こしを予測するトランスフォーマーベースの画像系列フレームワークを用いる。 本モデルは2つのポリフォニック音楽データセット上でテストされ,これらの複雑な音楽構造を効果的に処理できることが証明された。 実験結果は, モデルの能力を示すだけでなく, 最先端の方法よりも優れており, エンドツーエンドのOMR転写の進歩に寄与している。

State-of-the-art end-to-end Optical Music Recognition (OMR) has, to date, primarily been carried out using monophonic transcription techniques to handle complex score layouts, such as polyphony, often by resorting to simplifications or specific adaptations. Despite their efficacy, these approaches imply challenges related to scalability and limitations. This paper presents the Sheet Music Transformer, the first end-to-end OMR model designed to transcribe complex musical scores without relying solely on monophonic strategies. Our model employs a Transformer-based image-to-sequence framework that predicts score transcriptions in a standard digital music encoding format from input images. Our model has been tested on two polyphonic music datasets and has proven capable of handling these intricate music structures effectively. The experimental outcomes not only indicate the competence of the model, but also show that it is better than the state-of-the-art methods, thus contributing to advancements in end-to-end OMR transcription.
翻訳日:2024-02-13 14:31:08 公開日:2024-02-12
# 医用画像分類における画像ネット事前学習モデルとDINOv2の比較分析

Comparative Analysis of ImageNet Pre-Trained Deep Learning Models and DINOv2 in Medical Imaging Classification ( http://arxiv.org/abs/2402.07595v1 )

ライセンス: Link先を確認
Yuning Huang, Jingchen Zou, Lanxi Meng, Xin Yue, Qing Zhao, Jianqiang Li, Changwei Song, Gabriel Jimenez, Shaowu Li, Guanghui Fu(参考訳) 医療画像分析は、しばしばデータの不足に遭遇する。 転送学習は、計算資源を維持しながらこの問題に対処する上で有効である。 視覚トランスフォーマーアーキテクチャを使用するdinov2のような基礎モデルが最近登場し、この分野で新たな機会が生まれ、大きな関心を集めている。 しかし、DINOv2の臨床データに対する性能は依然として検証する必要がある。 本稿では,脳MRIデータの3つの臨床的モダリティを用いたグリオーマグレーディングタスクを行った。 我々は、ImageNetやDINOv2をベースとした様々な事前学習深層学習モデルの性能を、伝達学習コンテキストで比較した。 私たちの焦点は、凍結メカニズムがパフォーマンスに与える影響を理解することです。 また,胸部x線撮影,眼底x線撮影,皮膚内視鏡検査の3種類について検討を行った。 我々の臨床データセットでは、DINOv2の性能はImageNetベースの事前訓練モデルほど優れていなかったが、公開データセットでは、特に凍結機構を使用する場合、DINOv2は他のモデルよりも優れていた。 同様の性能は、様々なタスクにわたるDINOv2モデルの様々なサイズで観察された。 要約すると、DINOv2は医学画像分類タスク、特に自然画像に似たデータに対して有効である。 しかし、その効果はMRIのような自然画像と大きく異なるデータによって異なる可能性がある。 さらに、より小さいバージョンのモデルを採用することは、医療作業に適しており、リソース節約の便益を提供する。 私たちのコードはhttps://github.com/guanghuifu/medical_dinov2_evalで利用可能です。

Medical image analysis frequently encounters data scarcity challenges. Transfer learning has been effective in addressing this issue while conserving computational resources. The recent advent of foundational models like the DINOv2, which uses the vision transformer architecture, has opened new opportunities in the field and gathered significant interest. However, DINOv2's performance on clinical data still needs to be verified. In this paper, we performed a glioma grading task using three clinical modalities of brain MRI data. We compared the performance of various pre-trained deep learning models, including those based on ImageNet and DINOv2, in a transfer learning context. Our focus was on understanding the impact of the freezing mechanism on performance. We also validated our findings on three other types of public datasets: chest radiography, fundus radiography, and dermoscopy. Our findings indicate that in our clinical dataset, DINOv2's performance was not as strong as ImageNet-based pre-trained models, whereas in public datasets, DINOv2 generally outperformed other models, especially when using the frozen mechanism. Similar performance was observed with various sizes of DINOv2 models across different tasks. In summary, DINOv2 is viable for medical image classification tasks, particularly with data resembling natural images. However, its effectiveness may vary with data that significantly differs from natural images such as MRI. In addition, employing smaller versions of the model can be adequate for medical task, offering resource-saving benefits. Our codes are available at https://github.com/GuanghuiFU/medical_DINOv2_eval.
翻訳日:2024-02-13 14:30:48 公開日:2024-02-12
# 力学系に対する基礎推論モデル

Foundational Inference Models for Dynamical Systems ( http://arxiv.org/abs/2402.07594v1 )

ライセンス: Link先を確認
Patrick Seifner, Kostadin Cvejoski, Ramses J. Sanchez(参考訳) 常微分方程式(ODE)は、多くの自然現象や社会現象のモデルとして機能する力学系を基盤とする。 しかし、そのような現象に関するノイズの多い観測の集合を最もよく記述したODEを推定することは驚くほど困難であり、それを達成できるモデルは高度に専門的で複雑である傾向にある。 本研究では,ノイズデータからのODEのゼロショット推論のための新しい教師付き学習フレームワークを提案する。 まず、初期条件空間上の分布とそれらの定義するベクトル場の空間をサンプリングすることにより、1次元ODEの大規模なデータセットを生成する。 次に、これらの方程式の解のノイズ観測と対応する初期条件とベクトル場の間のニューラルマップを学習する。 基礎推論モデル(英語版)(FIM)と呼ばれる結果のモデルは可能である。 (i)時間軸に沿って写し、一致させて解像度を高めること (ii) 微調整を必要とせず、任意の次元の推論モデルを構築して構成する。 我々はFIMを用いて、異なる次元の基底構造力学系とゼロショット方式で経験的時系列データの両方をモデル化し、これらの系に微調整された最先端のモデルより優れた性能を示す。 私たちの(事前訓練済みの)FIMはオンラインで利用可能です

Ordinary differential equations (ODEs) underlie dynamical systems which serve as models for a vast number of natural and social phenomena. Yet inferring the ODE that best describes a set of noisy observations on one such phenomenon can be remarkably challenging, and the models available to achieve it tend to be highly specialized and complex too. In this work we propose a novel supervised learning framework for zero-shot inference of ODEs from noisy data. We first generate large datasets of one-dimensional ODEs, by sampling distributions over the space of initial conditions, and the space of vector fields defining them. We then learn neural maps between noisy observations on the solutions of these equations, and their corresponding initial condition and vector fields. The resulting models, which we call foundational inference models (FIM), can be (i) copied and matched along the time dimension to increase their resolution; and (ii) copied and composed to build inference models of any dimensionality, without the need of any finetuning. We use FIM to model both ground-truth dynamical systems of different dimensionalities and empirical time series data in a zero-shot fashion, and outperform state-of-the-art models which are finetuned to these systems. Our (pretrained) FIMs are available online
翻訳日:2024-02-13 14:30:25 公開日:2024-02-12
# 戦略的環境における学習のためのスケーリング法則の再考

Rethinking Scaling Laws for Learning in Strategic Environments ( http://arxiv.org/abs/2402.07588v1 )

ライセンス: Link先を確認
Tinashe Handina and Eric Mazumdar(参考訳) より大規模な機械学習モデルのデプロイは、モデルがより表現力のある$\unicode{x2013}$と、より多くのデータが$\unicode{x2013}$にアクセスできるほどパフォーマンスが向上する、というコンセンサスを反映している。 モデルがさまざまな現実世界のシナリオにデプロイされると、必然的に戦略的環境に直面します。 本研究では,モデルと戦略的相互作用の相互作用がスケーリング法則にどのように影響するかという自然問題を考える。 戦略的相互作用が従来のスケーリング法則の見解を破る可能性があることが分かりました。$\unicode{x2013}$ つまり、モデルが大きくなり、(無限のデータであっても)表現的になるにつれて、パフォーマンスが必ずしも単調に改善されるとは限らないということです。 この現象は,戦略回帰,戦略分類,マルチエージェント強化学習といったいくつかの文脈において,単に自己のモデルや政策クラスの表現性を制限することによって,厳密な平衡結果が得られるという戦略環境の例を通して,その意味を示す。 これらの例に動機づけられ、エージェントがゲーム内のアクションセットとして使用する異なるモデルクラスの中から選択しようとするゲームにおけるモデル選択の新しいパラダイムを提案する。

The deployment of ever-larger machine learning models reflects a growing consensus that the more expressive the model$\unicode{x2013}$and the more data one has access to$\unicode{x2013}$the more one can improve performance. As models get deployed in a variety of real world scenarios, they inevitably face strategic environments. In this work, we consider the natural question of how the interplay of models and strategic interactions affects scaling laws. We find that strategic interactions can break the conventional view of scaling laws$\unicode{x2013}$meaning that performance does not necessarily monotonically improve as models get larger and/ or more expressive (even with infinite data). We show the implications of this phenomenon in several contexts including strategic regression, strategic classification, and multi-agent reinforcement learning through examples of strategic environments in which$\unicode{x2013}$by simply restricting the expressivity of one's model or policy class$\unicode{x2013}$one can achieve strictly better equilibrium outcomes. Motivated by these examples, we then propose a new paradigm for model-selection in games wherein an agent seeks to choose amongst different model classes to use as their action set in a game.
翻訳日:2024-02-13 14:30:06 公開日:2024-02-12
# グループ固有の分散概念ドリフトの展開:フェデレーション学習におけるフェアネス・インペラティブ

Unveiling Group-Specific Distributed Concept Drift: A Fairness Imperative in Federated Learning ( http://arxiv.org/abs/2402.07586v1 )

ライセンス: Link先を確認
Teresa Salazar and Jo\~ao Gama and Helder Ara\'ujo and Pedro Henriques Abreu(参考訳) 機械学習の発展分野では、公平性を保証することが重要な関心事となり、意思決定プロセスにおける差別的結果を軽減するアルゴリズムの開発が進められている。 しかし,グループ固有の概念ドリフトの存在下での公正性の実現は未発見のフロンティアであり,本研究は先駆的な試みである。 グループ固有の概念ドリフト(グループ固有の概念ドリフト)とは、あるグループが時間とともにコンセプトを経験し、別のグループがそうでない状況を指す。 クライアントが協力的にモデルをトレーニングするフェデレートラーニングのフレームワークの中で、その分散特性は、各クライアントが同じ概念を共有しながらグループ固有のコンセプトドリフトを独立して経験し、公正性を維持するための複雑でダイナミックな環境を作ることができるため、これらの課題をさらに増幅します。 我々の研究の重要な貢献の1つは、集団固有の概念ドリフトとその分散した概念ドリフトの問題の形式化と導入であり、公平の領域におけるその重要な重要性に光を当てている。 さらに,先行研究の知見を活かし,複数モデルアプローチ,局所群別ドリフト検出機構,時間経過に伴うモデルの連続クラスタリングを用いた,既存の分散概念ドリフト適応アルゴリズムをグループ固有の分散概念ドリフトに適用する。 本実験から得られた知見は,グループ固有のコンセプトドリフトと,機械学習における公平性向上のための分散処理の重要性を強調した。

In the evolving field of machine learning, ensuring fairness has become a critical concern, prompting the development of algorithms designed to mitigate discriminatory outcomes in decision-making processes. However, achieving fairness in the presence of group-specific concept drift remains an unexplored frontier, and our research represents pioneering efforts in this regard. Group-specific concept drift refers to situations where one group experiences concept drift over time while another does not, leading to a decrease in fairness even if accuracy remains fairly stable. Within the framework of federated learning, where clients collaboratively train models, its distributed nature further amplifies these challenges since each client can experience group-specific concept drift independently while still sharing the same underlying concept, creating a complex and dynamic environment for maintaining fairness. One of the significant contributions of our research is the formalization and introduction of the problem of group-specific concept drift and its distributed counterpart, shedding light on its critical importance in the realm of fairness. In addition, leveraging insights from prior research, we adapt an existing distributed concept drift adaptation algorithm to tackle group-specific distributed concept drift which utilizes a multi-model approach, a local group-specific drift detection mechanism, and continuous clustering of models over time. The findings from our experiments highlight the importance of addressing group-specific concept drift and its distributed counterpart to advance fairness in machine learning.
翻訳日:2024-02-13 14:29:38 公開日:2024-02-12
# グリーンMLサービスの実現に向けたアーキテクチャ設計決定の特定

Identifying architectural design decisions for achieving green ML serving ( http://arxiv.org/abs/2402.07585v1 )

ライセンス: Link先を確認
Francisco Dur\'an, Silverio Mart\'inez-Fern\'andez, Matias Martinez, and Patricia Lago(参考訳) 大規模機械学習モデルの利用の増加は、計算需要の増加に対する懸念を浮き彫りにしている。 トレーニングフェーズのエネルギー消費が注目されている一方で、推論フェーズを考える作業は少ない。 ML推論では、MLサービスとして知られるユーザアクセスのためのMLモデルのMLシステムへのバインディングは、MLアプリケーションで効率を達成するための重要かつ未検討のステップである。 MLアーキテクチャ設計決定の文献とGreen AIについて、特にML提供に焦点を当てて検討する。 本研究の目的は,建築設計決定に係わるMLを,文献提供の文脈における研究者や実践者の視点から,品質特性の理解と識別を目的として分析することである。 私たちの成果は (i)対応するコンポーネントや関連する技術スタックとともに、アーキテクチャ設計決定を行うmlを特定し、 (ii)エネルギー効率を含む文献で研究されている品質特性の概要を述べる。 この予備的な研究は、グリーンMLサービスを達成するための最初のステップです。 私たちの分析は、モデルを提供する際にグリーンアウェアアーキテクチャ設計を決定するml研究者や実践者に役立つかもしれません。

The growing use of large machine learning models highlights concerns about their increasing computational demands. While the energy consumption of their training phase has received attention, fewer works have considered the inference phase. For ML inference, the binding of ML models to the ML system for user access, known as ML serving, is a critical yet understudied step for achieving efficiency in ML applications. We examine the literature in ML architectural design decisions and Green AI, with a special focus on ML serving. The aim is to analyze ML serving architectural design decisions for the purpose of understanding and identifying them with respect to quality characteristics from the point of view of researchers and practitioners in the context of ML serving literature. Our results (i) identify ML serving architectural design decisions along with their corresponding components and associated technological stack, and (ii) provide an overview of the quality characteristics studied in the literature, including energy efficiency. This preliminary study is the first step in our goal to achieve green ML serving. Our analysis may aid ML researchers and practitioners in making green-aware architecture design decisions when serving their models.
翻訳日:2024-02-13 14:29:08 公開日:2024-02-12
# カークウッド・ディラック準確率の量子速度限界

Quantum speed limit for Kirkwood-Dirac quasiprobabilities ( http://arxiv.org/abs/2402.07582v1 )

ライセンス: Link先を確認
Sagar Silva Pratapsi, Sebastian Deffner, Stefano Gherardini(参考訳) 量子システムが真の量子機能を示すまで、最小限の時間は何でしょう? この質問に答えるために、測定統計から得られた2時間相関関数の量子速度制限を導出する。 一般に、これらの2時間相関器は準確率によって記述されるが、もしシステムの初期量子状態が測定可観測物と可換でない場合である。 我々の量子速度限界はハイゼンベルク・ロバートソンの不確実性関係から導出され、準確率が非正となる最小時間を設定する。 例示として、これらの結果を条件付き量子ゲートに適用し、最大速度で非古典性をもたらす最適条件を決定する。 我々の分析は、真の非古典力学におけるパワー抽出の促進も示唆している。

What is the minimal time until a quantum system can exhibit genuine quantum features? To answer this question we derive quantum speed limits for two-time correlation functions arising from statistics of measurements. Generally, these two-time correlators are described by quasiprobabilities, if the initial quantum state of the system does not commute with the measurement observables. Our quantum speed limits are derived from the Heisenberg-Robertson uncertainty relation, and set the minimal time at which a quasiprobability can become non-positive, which is evidence for the onset of non-classical traits in the system dynamics. As an illustrative example, we apply these results to a conditional quantum gate, by determining the optimal condition giving rise to non-classicality at maximum speed. Our analysis also hints at boosted power extraction in genuinely non-classical dynamics.
翻訳日:2024-02-13 14:28:49 公開日:2024-02-12
# 多目的コントラスト最適化としてのトピックモデリング

Topic Modeling as Multi-Objective Contrastive Optimization ( http://arxiv.org/abs/2402.07577v1 )

ライセンス: Link先を確認
Thong Nguyen, Xiaobao Wu, Xinshuai Dong, Cong-Duy T Nguyen, See-Kiong Ng, Anh Tuan Luu(参考訳) 近年の表現学習手法は,対の入力文書を対比するエビデンス下限(elbo)と対比学習目的の重み付き線形結合を最適化することにより,神経話題モデルを強化する。 しかし、文書レベルのコントラスト学習は、話題モデリングを妨げる単語比などの低レベルの相互情報を取り込む可能性がある。 さらに,入力の詳細を記憶したELBO損失と,入力文書間で一般化されたトピック表現を学習しようとする対照的な損失との間には,潜在的な矛盾がある。 これらの問題に対処するために,まず,トピックベクトルの集合を指向した新しいコントラスト学習法を導入し,入力文書の集合間で共有される有用な意味を捉える。 第2に,相対的トピックモデリングを勾配に基づく多目的最適化問題として,ELBOと相対的目的とのトレードオフのバランスをとるパレート定常解の実現を目標とした。 大規模な実験により、我々のフレームワークは、トピックコヒーレンス、トピックの多様性、下流のパフォーマンスの観点から、常に高性能なニューラルトピックモデルを生成することが示された。

Recent representation learning approaches enhance neural topic models by optimizing the weighted linear combination of the evidence lower bound (ELBO) of the log-likelihood and the contrastive learning objective that contrasts pairs of input documents. However, document-level contrastive learning might capture low-level mutual information, such as word ratio, which disturbs topic modeling. Moreover, there is a potential conflict between the ELBO loss that memorizes input details for better reconstruction quality, and the contrastive loss which attempts to learn topic representations that generalize among input documents. To address these issues, we first introduce a novel contrastive learning method oriented towards sets of topic vectors to capture useful semantics that are shared among a set of input documents. Secondly, we explicitly cast contrastive topic modeling as a gradient-based multi-objective optimization problem, with the goal of achieving a Pareto stationary solution that balances the trade-off between the ELBO and the contrastive objective. Extensive experiments demonstrate that our framework consistently produces higher-performing neural topic models in terms of topic coherence, topic diversity, and downstream performance.
翻訳日:2024-02-13 14:28:37 公開日:2024-02-12
# cec2022基本ベンチマーク問題の景観特性に及ぼす空間変換の影響

Impact of spatial transformations on landscape features of CEC2022 basic benchmark problems ( http://arxiv.org/abs/2402.07654v1 )

ライセンス: Link先を確認
Haoran Yin, Diederick Vermetten, Furong Ye, Thomas H.W. B\"ack, Anna V. Kononova(参考訳) 最適化ヒューリスティックスをベンチマークする場合、使用済み問題の構築においてバイアスを利用したアルゴリズムを避ける必要がある。 この方法の1つの方法は、各問題の異なるバージョンを提供することであるが、アルゴリズムが様々な問題にうまく取り組むためのメカニズムを備えていることを保証するために変換を適用することである。 本稿では,これらの問題変換のいくつかを調査し,cec2022ベンチマークスイートの5つの問題の集合の低レベルなランドスケープ特性にどのように影響するかを示す。 その結果、比較的小さな変換であっても、計測された景観特性を著しく変化させることができることがわかった。 これは、問題変換を作成する際に保存したい特性と、それらを公平に測定する方法について、より広い疑問を提起する。

When benchmarking optimization heuristics, we need to take care to avoid an algorithm exploiting biases in the construction of the used problems. One way in which this might be done is by providing different versions of each problem but with transformations applied to ensure the algorithms are equipped with mechanisms for successfully tackling a range of problems. In this paper, we investigate several of these problem transformations and show how they influence the low-level landscape features of a set of 5 problems from the CEC2022 benchmark suite. Our results highlight that even relatively small transformations can significantly alter the measured landscape features. This poses a wider question of what properties we want to preserve when creating problem transformations, and how to fairly measure them.
翻訳日:2024-02-13 14:21:34 公開日:2024-02-12
# アナログ制御と常時オン相互作用を用いたディジタルゲートのエミュレートのための変分プロトコル

Variational protocols for emulating digital gates using analog control with always-on interactions ( http://arxiv.org/abs/2402.07653v1 )

ライセンス: Link先を確認
Claire Chevallier, Joseph Vovrosh, Julius de Hond, Mario Dagrada, Alexandre Dauphin, and Vincent E. Elfving(参考訳) 中性原子量子シミュレータ用に調整された変分パルスシーケンスを設計し、シングルキュービットゲートとマルチキュービットゲートの層を設計できることを示した。 アプリケーションとして,提案手法を用いて再焦点アルゴリズム,SWAPネットワーク,究極的には量子化学シミュレーションを行う方法について論じる。 理論的プロトコルはまだ実験的な制限があるが、これまでアナログモードと互換性がないと考えられていたものを含め、変分量子アルゴリズムにアナログ量子プロセッサを使用するために、さらなる最適化がなされている。

We design variational pulse sequences tailored for neutral atom quantum simulators and show that we can engineer layers of single-qubit and multi-qubit gates. As an application, we discuss how the proposed method can be used to perform refocusing algorithms, SWAP networks, and ultimately quantum chemistry simulations. While the theoretical protocol we develop still has experimental limitations, it paves the way, with some further optimisation, for the use of analog quantum processors for variational quantum algorithms, including those not previously considered compatible with analog mode.
翻訳日:2024-02-13 14:21:11 公開日:2024-02-12
# 大言語モデルからの合成データを用いた治療困難うつ病の臨床像の検出

Detecting the Clinical Features of Difficult-to-Treat Depression using Synthetic Data from Large Language Models ( http://arxiv.org/abs/2402.07645v1 )

ライセンス: Link先を確認
Isabelle Lorge, Dan W. Joyce, Niall Taylor, Alejo Nevado-Holgado, Andrea Cipriani, Andrey Kormilitzin(参考訳) 難治性うつ病(DTD:Difficult-to-treat depression)は、治療にもかかわらず大きな負担を被る患者のうつ病に対する、より広く、より包括的な視点として提案されている。 我々は,DTDの臨床症状をとらえる予後因子を特定するために,日常的に収集された,物語(自由テキスト)電子健康記録(EHR)データを問うことができるLarge Language Model(LLM)ベースのツールの開発を試みた。 本研究では,LLM生成合成データ(GPT3.5)と非最大抑圧(NMS)アルゴリズムを用いて,BERTに基づくスパン抽出モデルの学習を行う。 得られたモデルにより、実際の臨床データ(DTD症候群に適合する患者の増加または減少するテキストのスパン)において、関連するさまざまな正および負の要因に関連するスパンを抽出しラベル付けすることができる。 本研究は,20の異なる因子からなる実臨床データを用いた総合成績(0.70F1)と,乱用履歴,情緒障害の家族歴,病気の重篤度,自殺率などの重要なDTD因子のサブセットを用いた高いパフォーマンス(0.85F1と0.95精度)を,合成データのみを訓練することにより得られることを示す。 従来の高度に機密性の高い医療データと人力によるアノテーションが必要であったアプリケーションでは,今後の医療応用が期待できる。

Difficult-to-treat depression (DTD) has been proposed as a broader and more clinically comprehensive perspective on a person's depressive disorder where despite treatment, they continue to experience significant burden. We sought to develop a Large Language Model (LLM)-based tool capable of interrogating routinely-collected, narrative (free-text) electronic health record (EHR) data to locate published prognostic factors that capture the clinical syndrome of DTD. In this work, we use LLM-generated synthetic data (GPT3.5) and a Non-Maximum Suppression (NMS) algorithm to train a BERT-based span extraction model. The resulting model is then able to extract and label spans related to a variety of relevant positive and negative factors in real clinical data (i.e. spans of text that increase or decrease the likelihood of a patient matching the DTD syndrome). We show it is possible to obtain good overall performance (0.70 F1 across polarity) on real clinical data on a set of as many as 20 different factors, and high performance (0.85 F1 with 0.95 precision) on a subset of important DTD factors such as history of abuse, family history of affective disorder, illness severity and suicidality by training the model exclusively on synthetic data. Our results show promise for future healthcare applications especially in applications where traditionally, highly confidential medical data and human-expert annotation would normally be required.
翻訳日:2024-02-13 14:20:41 公開日:2024-02-12
# 安全クリティカルペデストリアン検出のためのフローベース信頼性基準

A Flow-based Credibility Metric for Safety-critical Pedestrian Detection ( http://arxiv.org/abs/2402.07642v1 )

ライセンス: Link先を確認
Maria Lyssenko, Christoph Gladisch, Christian Heinzemann, Matthias Woehrle, Rudolph Triebel(参考訳) 安全は自動運転(AD)における認識において最も重要である。 しかしながら、最先端のオブジェクト検出における主要な安全性の懸念は、標準評価スキームが安全非依存のメトリクスを使用して十分な検出性能を主張することである。 したがって、評価タスク中に安全クリティカルな誤検出を強調するために、補足的なドメイン知識を活用することが不可欠である。 そこで,本研究では,歩行者境界ボックスに対するcフローと呼ばれる新しい信頼度指標を提案する。 この目的のために、c-flowは画像シーケンスからの補完的な光フロー信号に依存し、追加ラベルを必要とせずに安全クリティカルな誤検出の分析を強化する。 大規模adデータセット上で,最先端の歩行者検出器を用いてcフローを実装し,評価する。 我々の分析は、c-flowによって開発者は安全クリティカルな誤検出を識別できることを示している。

Safety is of utmost importance for perception in automated driving (AD). However, a prime safety concern in state-of-the art object detection is that standard evaluation schemes utilize safety-agnostic metrics to argue sufficient detection performance. Hence, it is imperative to leverage supplementary domain knowledge to accentuate safety-critical misdetections during evaluation tasks. To tackle the underspecification, this paper introduces a novel credibility metric, called c-flow, for pedestrian bounding boxes. To this end, c-flow relies on a complementary optical flow signal from image sequences and enhances the analyses of safety-critical misdetections without requiring additional labels. We implement and evaluate c-flow with a state-of-the-art pedestrian detector on a large AD dataset. Our analysis demonstrates that c-flow allows developers to identify safety-critical misdetections.
翻訳日:2024-02-13 14:20:09 公開日:2024-02-12
# マルチモーダルテキストと画像データに対する感性制御フィードバックの合成

Synthesizing Sentiment-Controlled Feedback For Multimodal Text and Image Data ( http://arxiv.org/abs/2402.07640v1 )

ライセンス: Link先を確認
Puneet Kumar, Sarthak Malik, Balasubramanian Raman, Xiaobai Li(参考訳) テキストと画像の両方を含むマルチモーダル入力に応答して感情制御されたフィードバックを生成する能力は、共感的、正確、そして係わる応答をシステムに提供することによって、人間とコンピュータの相互作用において重要なギャップに対処する。 この能力は医療、マーケティング、教育に深く応用されている。 そこで本研究では,大規模制御可能なマルチモーダルフィードバック合成(cmfeed)データセットを構築し,制御可能なフィードバック合成システムを提案する。 提案システムは,テキスト入力と視覚入力のためのエンコーダ,デコーダ,制御性ブロックを含む。 変換器と高速R-CNNネットワークを使ってテキストと視覚の特徴を抽出し、それらを組み合わせてフィードバックを生成する。 cmfeedデータセットは、画像、テキスト、投稿に対する反応、関連度スコア付き人間コメント、コメントに対する反応を含んでいる。 投稿やコメントに対する反応は、提案されたモデルをトレーニングして、特定の(肯定的あるいは否定的な)感情でフィードバックを生成するために利用される。 感情分類の精度は77.23%で、制御性を用いずに精度より18.82%高い。 さらに、ランクに基づくメトリクスによるフィードバック関連性を評価するための類似モジュールも組み込まれている。 非制御および制御されたフィードバックの生成におけるテキスト的および視覚的特徴の寄与を分析するための解釈可能性技術を実装している。

The ability to generate sentiment-controlled feedback in response to multimodal inputs, comprising both text and images, addresses a critical gap in human-computer interaction by enabling systems to provide empathetic, accurate, and engaging responses. This capability has profound applications in healthcare, marketing, and education. To this end, we construct a large-scale Controllable Multimodal Feedback Synthesis (CMFeed) dataset and propose a controllable feedback synthesis system. The proposed system includes an encoder, decoder, and controllability block for textual and visual inputs. It extracts textual and visual features using a transformer and Faster R-CNN networks and combines them to generate feedback. The CMFeed dataset encompasses images, text, reactions to the post, human comments with relevance scores, and reactions to the comments. The reactions to the post and comments are utilized to train the proposed model to produce feedback with a particular (positive or negative) sentiment. A sentiment classification accuracy of 77.23% has been achieved, 18.82% higher than the accuracy without using the controllability. Moreover, the system incorporates a similarity module for assessing feedback relevance through rank-based metrics. It implements an interpretability technique to analyze the contribution of textual and visual features during the generation of uncontrolled and controlled feedback.
翻訳日:2024-02-13 14:19:24 公開日:2024-02-12
# 情報ボトルネックの厳密な境界とディープラーニングへの応用

Tighter Bounds on the Information Bottleneck with Application to Deep Learning ( http://arxiv.org/abs/2402.07639v1 )

ライセンス: Link先を確認
Nir Weingarten, Zohar Yakhini, Moshe Butman, Ran Gilad-Bachrach(参考訳) Deep Neural Nets (DNN)は、下流タスク、目的関数、その他のパラメータによって誘導される潜在表現を学習する。 学習された表現の質は、DNNの一般化能力と出現する潜在空間のコヒーレンスに影響を与える。 Information Bottleneck (IB)は、データモデリングのための仮説上最適なフレームワークを提供するが、しばしば難解である。 近年のDNNとIBの連携により,VAEにインスパイアされた変動法が相互情報の境界を近似し,敵攻撃に対する堅牢性が向上した。 本研究は,従来のIBにインスパイアされたDNNの性能を向上させるため,新しい,より厳密な変化境界を導入する。 これらの進歩は、データモデリングフレームワークとしてのIBとその変分近似のケースを強化し、分類器DNNの対角ロバスト性を著しく向上する簡単な方法を提供する。

Deep Neural Nets (DNNs) learn latent representations induced by their downstream task, objective function, and other parameters. The quality of the learned representations impacts the DNN's generalization ability and the coherence of the emerging latent space. The Information Bottleneck (IB) provides a hypothetically optimal framework for data modeling, yet it is often intractable. Recent efforts combined DNNs with the IB by applying VAE-inspired variational methods to approximate bounds on mutual information, resulting in improved robustness to adversarial attacks. This work introduces a new and tighter variational bound for the IB, improving performance of previous IB-inspired DNNs. These advancements strengthen the case for the IB and its variational approximations as a data modeling framework, and provide a simple method to significantly enhance the adversarial robustness of classifier DNNs.
翻訳日:2024-02-13 14:19:03 公開日:2024-02-12
# 摂動グラフ上で定義された信号の圧縮回復

Compressive Recovery of Signals Defined on Perturbed Graphs ( http://arxiv.org/abs/2402.07637v1 )

ライセンス: Link先を確認
Sabyasachi Ghosh and Ajit Rajwade(参考訳) 圧縮測定からグラフのノードに定義された要素による信号の復元は、センサネットワーク、画像再構成、グループテストなどの様々な領域で発生しうる重要な問題である。 いくつかのシナリオでは、グラフは正確には知られておらず、基底真理グラフに対するいくつかの辺の追加や削除が存在するかもしれない。 このような摂動は、たとえ小さいとしてもグラフフーリエ変換(GFT)に大きな影響を及ぼす。 これは基底真理グラフの gft 基底でスパース表現を持つかもしれない信号の回復を妨げる。 本稿では, 圧縮測定から同時に信号を復元し, グラフ摂動を補正するアルゴリズムを提案する。 我々はアルゴリズムの重要な理論的特性を解析する。 グラフ摂動の補正手法は,圧縮センシングにおけるクロスバリデーションなどのモデル選択手法に基づいている。 ネットワーク科学文献においてよく用いられるグラフのGFTベースに疎表現を持つ信号に対して,本アルゴリズムの有効性を検証する。 圧縮画像再構成の応用例も提示され、グラフ摂動は大きな強度差を持つ画素を繋ぐ望ましくないグラフエッジとしてモデル化される。 すべての実験において、本アルゴリズムは、摂動を無視したり、gft基底の摂動に一階近似を用いるベースライン手法よりも明らかに優れている。

Recovery of signals with elements defined on the nodes of a graph, from compressive measurements is an important problem, which can arise in various domains such as sensor networks, image reconstruction and group testing. In some scenarios, the graph may not be accurately known, and there may exist a few edge additions or deletions relative to a ground truth graph. Such perturbations, even if small in number, significantly affect the Graph Fourier Transform (GFT). This impedes recovery of signals which may have sparse representations in the GFT bases of the ground truth graph. We present an algorithm which simultaneously recovers the signal from the compressive measurements and also corrects the graph perturbations. We analyze some important theoretical properties of the algorithm. Our approach to correction for graph perturbations is based on model selection techniques such as cross-validation in compressed sensing. We validate our algorithm on signals which have a sparse representation in the GFT bases of many commonly used graphs in the network science literature. An application to compressive image reconstruction is also presented, where graph perturbations are modeled as undesirable graph edges linking pixels with significant intensity difference. In all experiments, our algorithm clearly outperforms baseline techniques which either ignore the perturbations or use first order approximations to the perturbations in the GFT bases.
翻訳日:2024-02-13 14:18:46 公開日:2024-02-12
# 連系自動車におけるハイブリッド機能融合による協調的セマンティック占有予測

Collaborative Semantic Occupancy Prediction with Hybrid Feature Fusion in Connected Automated Vehicles ( http://arxiv.org/abs/2402.07635v1 )

ライセンス: Link先を確認
Rui Song, Chenwei Liang, Hu Cao, Zhiran Yan, Walter Zimmer, Markus Gross, Andreas Festag, Alois Knoll(参考訳) 自動車両における協調的知覚は、エージェント間の情報の交換を利用して、知覚結果を高めることを目的としている。 従来のカメラベースの協調3D認識手法では、通常、環境の表現として3D境界ボックスや鳥の目視を用いる。 しかし、これらのアプローチは包括的3次元環境予測を提供するには不足している。 このギャップを埋めるために,第1の3次元意味的占有予測法を提案する。 特に,ハイブリッド融合による局所的3次元意味的占有予測を改善する (i)意味的・占有的タスクの特徴、及び (ii)車両間で共有される圧縮直交注意特徴。 さらに,意味的占有予測のために設計された協調的知覚データセットの欠如により,現在の協調的知覚データセットを拡張し,より堅牢な評価のために3次元協調的意味的占有ラベルを含む。 実験の結果は (i)1台の車両の結果を30%以上上回る、共同的な意味的占有率予測が優れている。 (ii)semantic occupancyに根ざしたモデルは、その後の知覚応用において最先端の3d検出技術よりも優れており、道路環境における精度の向上とセマンティック・アウェアネスの向上を示している。

Collaborative perception in automated vehicles leverages the exchange of information between agents, aiming to elevate perception results. Previous camera-based collaborative 3D perception methods typically employ 3D bounding boxes or bird's eye views as representations of the environment. However, these approaches fall short in offering a comprehensive 3D environmental prediction. To bridge this gap, we introduce the first method for collaborative 3D semantic occupancy prediction. Particularly, it improves local 3D semantic occupancy predictions by hybrid fusion of (i) semantic and occupancy task features, and (ii) compressed orthogonal attention features shared between vehicles. Additionally, due to the lack of a collaborative perception dataset designed for semantic occupancy prediction, we augment a current collaborative perception dataset to include 3D collaborative semantic occupancy labels for a more robust evaluation. The experimental findings highlight that: (i) our collaborative semantic occupancy predictions excel above the results from single vehicles by over 30%, and (ii) models anchored on semantic occupancy outpace state-of-the-art collaborative 3D detection techniques in subsequent perception applications, showcasing enhanced accuracy and enriched semantic-awareness in road environments.
翻訳日:2024-02-13 14:18:25 公開日:2024-02-12
# 弱修正インスタンスセグメンテーションのための完全なインスタンスマイニング

Complete Instances Mining for Weakly Supervised Instance Segmentation ( http://arxiv.org/abs/2402.07633v1 )

ライセンス: Link先を確認
Zecheng Li, Zening Zeng, Yuqi Liang, Jin-Gang Yu(参考訳) 画像レベルのラベルのみを使用したwsis(weakly supervised instance segmentation)は、粗いアノテーションとより細かいタスクとの整合が難しいため、難しい課題である。 しかし、ディープニューラルネットワーク(DNN)の進歩により、WSISは大きな注目を集めている。 提案に基づくパラダイムに従うと、1つのインスタンスが複数の提案によって表現されるため、冗長なセグメンテーションの問題が発生する。 例えば、犬の写真と提案をネットワークに送信し、犬を含む1つの提案だけを出力することを期待しますが、ネットワークは複数の提案を出力します。 この問題に対処するために,提案手法の完全性を評価するため,MaskIoUヘッドを用いた完全インスタンスのオンライン改善に焦点を当てたWSISの新しいアプローチと,冗長なセグメンテーション問題を明示的にモデル化し,洗練された擬似ラベルを生成するための完全インスタンスマイニング(CIM)戦略を提案する。 弊社のアプローチは、複数のインスタンスや完全なインスタンスをネットワークが認識できるようにし、アンチノイズ戦略を取り入れることで、その堅牢性をさらに向上する。 PASCAL VOC 2012 および MS COCO データセットの実証評価により,本手法が最先端の性能を顕著に向上することを示す。 私たちの実装はhttps://github.com/ZechengLi19/CIMで公開されます。

Weakly supervised instance segmentation (WSIS) using only image-level labels is a challenging task due to the difficulty of aligning coarse annotations with the finer task. However, with the advancement of deep neural networks (DNNs), WSIS has garnered significant attention. Following a proposal-based paradigm, we encounter a redundant segmentation problem resulting from a single instance being represented by multiple proposals. For example, we feed a picture of a dog and proposals into the network and expect to output only one proposal containing a dog, but the network outputs multiple proposals. To address this problem, we propose a novel approach for WSIS that focuses on the online refinement of complete instances through the use of MaskIoU heads to predict the integrity scores of proposals and a Complete Instances Mining (CIM) strategy to explicitly model the redundant segmentation problem and generate refined pseudo labels. Our approach allows the network to become aware of multiple instances and complete instances, and we further improve its robustness through the incorporation of an Anti-noise strategy. Empirical evaluations on the PASCAL VOC 2012 and MS COCO datasets demonstrate that our method achieves state-of-the-art performance with a notable margin. Our implementation will be made available at https://github.com/ZechengLi19/CIM.
翻訳日:2024-02-13 14:18:04 公開日:2024-02-12
# AIは人間とAIのコラボレーションを妨げる

Overconfident and Unconfident AI Hinder Human-AI Collaboration ( http://arxiv.org/abs/2402.07632v1 )

ライセンス: Link先を確認
Jingshu Li, Yitian Yang, Yi-chieh Lee(参考訳) 人工知能(AI)が進歩するにつれて、プロフェッショナルと日常の両方で人間とAIのコラボレーションがますます広まりつつある。 このようなコラボレーションでは、AIはそのパフォーマンスに関する信頼性レベルを表現でき、AIの提案を評価する上で人間にとって重要な指標となる。 しかし、AIは過度な自信または自信の欠如を示す可能性がある。信頼を表すものは実際のパフォーマンスよりも高いか低い。 本研究では、AIの過信と過信が人間の信頼、AI提案の受け入れ、コラボレーションの結果に与える影響について検討する。 我々の研究は、AI信頼度レベルとパフォーマンスフィードバックの開示が、AI信頼度の不一致の認識を促進することを明らかにした。 しかし、参加者はそのような不一致を認識できるとして信頼を保ち、AIの提案を拒絶し、共同作業におけるパフォーマンスが低下する傾向にある。 逆に、そのような情報がなければ、参加者は不正の特定に苦慮し、結果として正しいAIアドバイスを無視するか、不正なAI提案に従うか、コラボレーションに悪影響を及ぼす。 この研究は、AIの表現された信頼を実際のパフォーマンスと整合させることの重要性と、AIの信頼に対する人間の信頼を校正することの必要性を強調することにより、人間とAIのコラボレーションを強化するための貴重な洞察を提供する。

As artificial intelligence (AI) advances, human-AI collaboration has become increasingly prevalent across both professional and everyday settings. In such collaboration, AI can express its confidence level about its performance, serving as a crucial indicator for humans to evaluate AI's suggestions. However, AI may exhibit overconfidence or underconfidence--its expressed confidence is higher or lower than its actual performance--which may lead humans to mistakenly evaluate AI advice. Our study investigates the influences of AI's overconfidence and underconfidence on human trust, their acceptance of AI suggestions, and collaboration outcomes. Our study reveal that disclosing AI confidence levels and performance feedback facilitates better recognition of AI confidence misalignments. However, participants tend to withhold their trust as perceiving such misalignments, leading to a rejection of AI suggestions and subsequently poorer performance in collaborative tasks. Conversely, without such information, participants struggle to identify misalignments, resulting in either the neglect of correct AI advice or the following of incorrect AI suggestions, adversely affecting collaboration. This study offers valuable insights for enhancing human-AI collaboration by underscoring the importance of aligning AI's expressed confidence with its actual performance and the necessity of calibrating human trust towards AI confidence.
翻訳日:2024-02-13 14:17:43 公開日:2024-02-12
# G-Retriever: テキストグラフ理解と質問応答のための検索拡張生成

G-Retriever: Retrieval-Augmented Generation for Textual Graph Understanding and Question Answering ( http://arxiv.org/abs/2402.07630v1 )

ライセンス: Link先を確認
Xiaoxin He, Yijun Tian, Yifei Sun, Nitesh V. Chawla, Thomas Laurent, Yann LeCun, Xavier Bresson, Bryan Hooi(参考訳) テキスト属性を持つグラフが与えられると、ユーザは 'chat with their graph': すなわち、会話インターフェイスを使ってグラフについて質問することができる。 ユーザの質問に応えて,本手法はテキスト応答を提供し,グラフの関連部分をハイライトする。 既存の研究は、大規模言語モデル(LLM)とグラフニューラルネットワーク(GNN)を様々な方法で統合しているが、それらは主に、従来のグラフタスク(ノード、エッジ、グラフ分類など)、あるいは、小さなグラフや合成グラフ上の単純なグラフクエリへの応答に焦点を当てている。 対照的に,実世界のテキストグラフを対象とする柔軟な質問応答フレームワークを開発し,シーングラフ理解や常識推論,知識グラフ推論など,複数のアプリケーションに適用する。 この目標に向けて、私たちはまず、さまざまなタスクから収集されたデータを用いたグラフ質問回答(GraphQA)ベンチマークを開発します。 次に,gnn,llms,検索型生成(rag)の強みを統合し,ソフトプロンプトによるグラフ理解を強化するための微調整を行うg-retrieverアプローチを提案する。 幻覚に抵抗し、LLMのコンテキストウィンドウサイズを大幅に超えるテキストグラフを可能にするため、G-Retrieverは、このタスクを入賞スタイナーツリー最適化問題として定式化し、グラフ上のRAGを実行する。 実験により,本手法は複数の領域からのテキストグラフタスクのベースラインを上回り,より大きなグラフサイズでスケールし,幻覚に抵抗することを示す。 (私たちのコードとデータセットは、https://github.com/XiaoxinHe/G-Retriever.comで入手できる)。

Given a graph with textual attributes, we enable users to `chat with their graph': that is, to ask questions about the graph using a conversational interface. In response to a user's questions, our method provides textual replies and highlights the relevant parts of the graph. While existing works integrate large language models (LLMs) and graph neural networks (GNNs) in various ways, they mostly focus on either conventional graph tasks (such as node, edge, and graph classification), or on answering simple graph queries on small or synthetic graphs. In contrast, we develop a flexible question-answering framework targeting real-world textual graphs, applicable to multiple applications including scene graph understanding, common sense reasoning, and knowledge graph reasoning. Toward this goal, we first develop our Graph Question Answering (GraphQA) benchmark with data collected from different tasks. Then, we propose our G-Retriever approach, which integrates the strengths of GNNs, LLMs, and Retrieval-Augmented Generation (RAG), and can be fine-tuned to enhance graph understanding via soft prompting. To resist hallucination and to allow for textual graphs that greatly exceed the LLM's context window size, G-Retriever performs RAG over a graph by formulating this task as a Prize-Collecting Steiner Tree optimization problem. Empirical evaluations show that our method outperforms baselines on textual graph tasks from multiple domains, scales well with larger graph sizes, and resists hallucination. (Our codes and datasets are available at: https://github.com/XiaoxinHe/G-Retriever.)
翻訳日:2024-02-13 14:17:21 公開日:2024-02-12
# 試験リスクの確率勾配流れのダイナミクスとその弱特性に対する厳密解

Stochastic Gradient Flow Dynamics of Test Risk and its Exact Solution for Weak Features ( http://arxiv.org/abs/2402.07626v1 )

ライセンス: Link先を確認
Rodrigo Veiga, Anastasia Remizova, Nicolas Macris(参考訳) 学習理論における連続時間確率勾配流力学のテストリスクについて検討する。 経路積分の定式化を用いて, 学習率の低い状況下では, 純勾配と確率勾配の試験リスク曲線の差を計算するための一般式を提供する。 一般理論を,二重降下現象を表現した簡素な弱い特徴のモデルに適用し,時間とモデルパラメータの関数として,力学に付加された確率項による補正を明示的に計算する。 解析結果は離散時間確率勾配降下のシミュレーションと比較し,良好な一致を示した。

We investigate the test risk of continuous-time stochastic gradient flow dynamics in learning theory. Using a path integral formulation we provide, in the regime of a small learning rate, a general formula for computing the difference between test risk curves of pure gradient and stochastic gradient flows. We apply the general theory to a simple model of weak features, which displays the double descent phenomenon, and explicitly compute the corrections brought about by the added stochastic term in the dynamics, as a function of time and model parameters. The analytical results are compared to simulations of discrete-time stochastic gradient descent and show good agreement.
翻訳日:2024-02-13 14:16:50 公開日:2024-02-12
# AutoMathText: 数学的テキストのための言語モデルによる自動データ選択

AutoMathText: Autonomous Data Selection with Language Models for Mathematical Texts ( http://arxiv.org/abs/2402.07625v1 )

ライセンス: Link先を確認
Yifan Zhang, Yifan Luo, Yang Yuan, Andrew Chi-Chih Yao(参考訳) 連続的事前学習による数学的推論における言語モデルの習熟度を向上させるために,基本言語モデルを自律的データ選択に活用する新たな戦略を導入する。 従来の教師付き微調整や訓練された分類器を人間の注釈データに置き換え,メタ入力言語モデルをゼロショット検証器として活用し,高品質の数学的コンテンツを自律的に評価・選択し,200gb以上のデータを包含するオープンソースautomatthtextデータセットをリリースする。 本手法の有効性を示すために,automatthtextデータセット上で7bパラメータのミストラル言語モデルを継続的に事前学習し,それまでの連続事前学習に比べて桁数を桁減らし,計算データセットのダウンストリーム性能を大幅に改善した。 提案手法は,ベースラインに比べて2倍の事前学習トークン効率向上を示し,モデルの数学的推論能力向上へのアプローチの可能性を示す。 AutoMathTextデータセットはhttps://huggingface.co/datasets/math-ai/AutoMathTextで公開されている。 コードはhttps://github.com/yifanzhang-pro/AutoMathTextで入手できる。

To improve language models' proficiency in mathematical reasoning via continual pretraining, we introduce a novel strategy that leverages base language models for autonomous data selection. Departing from conventional supervised fine-tuning or trained classifiers with human-annotated data, our approach utilizes meta-prompted language models as zero-shot verifiers to autonomously evaluate and select high-quality mathematical content, and we release the curated open-source AutoMathText dataset encompassing over 200GB of data. To demonstrate the efficacy of our method, we continuously pretrained a 7B-parameter Mistral language model on the AutoMathText dataset, achieving substantial improvements in downstream performance on the MATH dataset with a token amount reduced by orders of magnitude compared to previous continuous pretraining works. Our method showcases a 2 times increase in pretraining token efficiency compared to baselines, underscoring the potential of our approach in enhancing models' mathematical reasoning capabilities. The AutoMathText dataset is available at https://huggingface.co/datasets/math-ai/AutoMathText. The code is available at https://github.com/yifanzhang-pro/AutoMathText.
翻訳日:2024-02-13 14:16:40 公開日:2024-02-12
# 微分方程式近似ニューラルネットワークの正確性検証

Correctness Verification of Neural Networks Approximating Differential Equations ( http://arxiv.org/abs/2402.07621v1 )

ライセンス: Link先を確認
Petros Ellinas, Rahul Nellikath, Ignasi Ventura, Jochen Stiasny, Spyros Chatzivasileiadis(参考訳) 部分微分方程式(PDE)の解を近似するニューラルネットワーク(NN)の検証は、信頼性を高め、特に安全クリティカルなシステムにおいてデプロイメントを加速するための大きなマイルストーンである。 もし成功すれば、そのようなnnは複雑な動的システムのシミュレーションを100回以上加速するシミュレーションソフトウェアツールの不可欠な部分となる。 しかし、これらの関数の検証には大きな課題があり、効率的に結合する方法やNNの微分を表現する方法が簡単ではない。 この仕事はどちらの問題にも対処する。 まず、NN微分を有限差分近似として定義する。 次に,PDE残差境界問題を初期値問題の誤差伝播とともに定式化する。 最後に、まず、出力領域の事前知識を使わずにnn関数にバウンドする問題に取り組む。 そこで我々は,不完全なCROWNソルバと,終了条件とドメイン拒否条件のグラディエントアタックを組み合わせた並列分岐アルゴリズムを構築した。 我々は,提案フレームワークの強みと弱みを実証し,その効率を高めるためのさらなる取り組みを提案する。

Verification of Neural Networks (NNs) that approximate the solution of Partial Differential Equations (PDEs) is a major milestone towards enhancing their trustworthiness and accelerating their deployment, especially for safety-critical systems. If successful, such NNs can become integral parts of simulation software tools which can accelerate the simulation of complex dynamic systems more than 100 times. However, the verification of these functions poses major challenges; it is not straightforward how to efficiently bound them or how to represent the derivative of the NN. This work addresses both these problems. First, we define the NN derivative as a finite difference approximation. Then, we formulate the PDE residual bounding problem alongside the Initial Value Problem's error propagation. Finally, for the first time, we tackle the problem of bounding an NN function without a priori knowledge of the output domain. For this, we build a parallel branching algorithm that combines the incomplete CROWN solver and Gradient Attack for termination and domain rejection conditions. We demonstrate the strengths and weaknesses of the proposed framework, and we suggest further work to enhance its efficiency.
翻訳日:2024-02-13 14:16:20 公開日:2024-02-12
# クラウドソース型呼吸音声データを用いたcovid-19の多変量予測モデルの開発

Developing a Multi-variate Prediction Model For COVID-19 From Crowd-sourced Respiratory Voice Data ( http://arxiv.org/abs/2402.07619v1 )

ライセンス: Link先を確認
Yuyang Yan, Wafaa Aljbawi, Sami O. Simons, Visara Urovi(参考訳) 新型コロナウイルスは世界中で223カ国以上で感染しており、非侵襲的で低コストで高度にスケーラブルなソリューションの必要性が高まっている。 音声記録データからcovid-19を識別するディープラーニングモデルを開発した。 この研究の目新しさは、音声録音のみからcovid-19識別のためのディープラーニングモデルの開発にある。 私たちはCambridge COVID-19 Soundデータベースを使用し、4352人の参加者からクラウドソースされた893の音声サンプルを、COVID-19 Soundsアプリを通じて公開しています。 メルスペクトルおよびメル周波数ケプストラム係数(MFCC)およびCNNエンコーダ特徴を含む音声特徴を抽出する。 音声データに基づいて、COVID-19の症例を検出するためのディープラーニング分類モデルを構築した。 これらのモデルには、Long Short-Term Memory (LSTM) と Convolutional Neural Network (CNN) と Hidden-Unit BERT (HuBERT) がある。 予測能力とベースライン機械学習モデルを比較した。 hubert は 86\% で、最高 auc は 0.93 である。 提案モデルを用いて得られた結果は,最先端の結果と比較して,音声記録から新型コロナウイルスの診断に有望な結果を示唆する。

COVID-19 has affected more than 223 countries worldwide and in the Post-COVID Era, there is a pressing need for non-invasive, low-cost, and highly scalable solutions to detect COVID-19. We develop a deep learning model to identify COVID-19 from voice recording data. The novelty of this work is in the development of deep learning models for COVID-19 identification from only voice recordings. We use the Cambridge COVID-19 Sound database which contains 893 speech samples, crowd-sourced from 4352 participants via a COVID-19 Sounds app. Voice features including Mel-spectrograms and Mel-frequency cepstral coefficients (MFCC) and CNN Encoder features are extracted. Based on the voice data, we develop deep learning classification models to detect COVID-19 cases. These models include Long Short-Term Memory (LSTM) and Convolutional Neural Network (CNN) and Hidden-Unit BERT (HuBERT). We compare their predictive power to baseline machine learning models. HuBERT achieves the highest accuracy of 86\% and the highest AUC of 0.93. The results achieved with the proposed models suggest promising results in COVID-19 diagnosis from voice recordings when compared to the results obtained from the state-of-the-art.
翻訳日:2024-02-13 14:16:02 公開日:2024-02-12
# 直交群およびユニタリ群に対するランダウ・セプターチャネルについて

On the Landau-Streater channel for orthogonal and unitary groups ( http://arxiv.org/abs/2402.07700v1 )

ライセンス: Link先を確認
Vahid Karimipour(参考訳) d=2j+1$次元において、landau-streater量子チャネルは$su(2)$代数のスピン$j$表現に基づいて定義される。 j=1$ に対してのみ、このチャネルは werner-holevo チャネルと同値であり、群 $su(3)$ に関する共分散特性を享受する。 我々は、リー代数 $so(d)$ に基づく方法で、このチャネルのクラスを高次元に拡張する。 その結果、任意の次元のヴェルナー・ホルボチャネルと同値性が保たれる。 得られるチャネルはユニタリ群 $u(d)$ に関して共変である。 次に、このチャンネルをquditsのノイズの多いチャネルとして機能するように修正します。 その結果、修正されたチャネルは恒等チャネルとヴェルナー・ホレヴォチャネルの間を補間し、その共分散は直交行列の部分群$SO(d)$に還元される。 次に、そのスペクトル、不分割領域の欠如、一発の古典的容量、絡み合い支援容量、補体チャネルの閉じた形式、量子容量に対する潜在的な下限など、結果として生じる1パラメータのチャネルの傾向について検討する。 チャネルをユニタリ群に一般化する方法を簡潔に述べる。

In $d=2j+1$ dimensions, the Landau-Streater quantum channel is defined on the basis of spin $j$ representation of the $su(2)$ algebra. Only for $j=1$, this channel is equivalent to the Werner-Holevo channel and enjoys covariance properties with respect to the group $SU(3)$. We extend this class of channels to higher dimensions in a way which is based on the Lie algebra $so(d)$. As a result it retains its equivalence to the Werner-Holevo channel in arbitrary dimensions. The resulting channel is covariant with respect to the unitary group $U(d)$. We then modify this channel in a way which can act as a noisy channel on qudits. The resulting modified channel now interpolates between the identity channel and the Werner-Holevo channel and its covariance is reduced to the subgroup of orthogonal matrices $SO(d)$. We then investigate some of the propeties of the resulting one-parameter family of channels, including their spectrum, their regions of lack of indivisibility, their one-shot classical capacity, entanglement-assisted capacity and the closed form of their complement channel and a possible lower bound for their quantum capacity. We briefly mention how the channel can be generalized to unitary groups.
翻訳日:2024-02-13 14:08:56 公開日:2024-02-12
# 未知の物理的制約を持つベイズ最適化のための境界探索

Boundary Exploration for Bayesian Optimization With Unknown Physical Constraints ( http://arxiv.org/abs/2402.07692v1 )

ライセンス: Link先を確認
Yunsheng Tian, Ane Zuniga, Xinwei Zhang, Johannes P. D\"urholt, Payel Das, Jie Chen, Wojciech Matusik, Mina Konakovi\'c Lukovi\'c(参考訳) ベイズ最適化は、評価数が著しく制限されたブラックボックス関数の最適化に成功している。 しかし、多くの現実世界のアプリケーションでは、物理的またはシステムの制限のためにどの設計が実現可能か事前に知ることは困難または不可能である。 これらの問題は未知の関数を未知の制約で最適化するより難しい問題を引き起こす。 本稿では,このようなシナリオにおいて,最適解は設計空間の実現可能領域と実現不可能領域の境界に置かれていることを観察し,内部光学よりもかなり困難である。 この観察から着想を得たbe-cboは,実現可能な設計と実現不可能な設計の境界を効率的に探索する新しいベイズ最適化手法である。 境界を識別するために、複雑な境界をキャプチャする標準的なガウス過程を上回るニューラルネットワークのアンサンブルで制約を学習する。 本手法は,合成および実世界のベンチマークを総合的に実験することにより,最先端手法に対する優れた性能を示す。

Bayesian optimization has been successfully applied to optimize black-box functions where the number of evaluations is severely limited. However, in many real-world applications, it is hard or impossible to know in advance which designs are feasible due to some physical or system limitations. These issues lead to an even more challenging problem of optimizing an unknown function with unknown constraints. In this paper, we observe that in such scenarios optimal solution typically lies on the boundary between feasible and infeasible regions of the design space, making it considerably more difficult than that with interior optima. Inspired by this observation, we propose BE-CBO, a new Bayesian optimization method that efficiently explores the boundary between feasible and infeasible designs. To identify the boundary, we learn the constraints with an ensemble of neural networks that outperform the standard Gaussian Processes for capturing complex boundaries. Our method demonstrates superior performance against state-of-the-art methods through comprehensive experiments on synthetic and real-world benchmarks.
翻訳日:2024-02-13 14:08:36 公開日:2024-02-12
# 非エルミート系の固有スペクトルにおける擬エルミート対称性と縮退多様体の相互作用

Interplay of pseudo-Hermitian symmetries and degenerate manifolds in the eigenspectrum of non-Hermitian systems ( http://arxiv.org/abs/2402.07690v1 )

ライセンス: Link先を確認
Grigory A. Starkov(参考訳) 本稿では,擬エルミート系のスペクトルが擬距離作用素の選択におけるあいまいさの影響について検討する。 特に,擬似メトリックのパラメータ非依存な異なる選択が可能である場合と,システムのパラメータ空間にロバストな縮退多様体が出現する可能性について解析する。

In this letter, we study how the spectrum of pseudo-Hermitian systems is influenced by the ambiguity in the choice of the pseudo-metric operator. In particular, we analyze the case when different parameter-independent choices of pseudo-metric are possible and how it can lead to the appearance of robust degenerate manifolds in the parameter space of the system.
翻訳日:2024-02-13 14:08:20 公開日:2024-02-12
# OrderBkd:再配置によるテキストバックドア攻撃

OrderBkd: Textual backdoor attack through repositioning ( http://arxiv.org/abs/2402.07689v1 )

ライセンス: Link先を確認
Irina Alekseevskaia and Konstantin Arkhipenko(参考訳) サードパーティのデータセットと事前訓練された機械学習モデルを使用することは、隠れたバックドア攻撃の可能性からnlpシステムにとって脅威となる。 既存の攻撃では、トークンの挿入や文のパラフレージングなどのデータサンプルを汚染し、元のテキストの意味を変更するか、検出することができる。 これまでの研究との大きな違いは、文中の2つの単語の配置をトリガーとして使うことです。 SST-2 と AG の分類データセットに対して,これらのトークンを選択するための特定の部分音声(POS)ベースのルールを設計し,適用することにより,クリーンサンプルとパープレキシティとセマンティック類似性の観点から既存攻撃よりも高い攻撃成功率を維持することができる。 また,オニオン防御法に対する攻撃の堅牢性を示す。 論文のコードとデータは、https://github.com/alekseevskaia/OrderBkdで取得できる。

The use of third-party datasets and pre-trained machine learning models poses a threat to NLP systems due to possibility of hidden backdoor attacks. Existing attacks involve poisoning the data samples such as insertion of tokens or sentence paraphrasing, which either alter the semantics of the original texts or can be detected. Our main difference from the previous work is that we use the reposition of a two words in a sentence as a trigger. By designing and applying specific part-of-speech (POS) based rules for selecting these tokens, we maintain high attack success rate on SST-2 and AG classification datasets while outperforming existing attacks in terms of perplexity and semantic similarity to the clean samples. In addition, we show the robustness of our attack to the ONION defense method. All the code and data for the paper can be obtained at https://github.com/alekseevskaia/OrderBkd.
翻訳日:2024-02-13 14:08:13 公開日:2024-02-12
# CyberMetric:サイバーセキュリティにおける大規模言語モデルの知識評価のためのベンチマークデータセット

CyberMetric: A Benchmark Dataset for Evaluating Large Language Models Knowledge in Cybersecurity ( http://arxiv.org/abs/2402.07688v1 )

ライセンス: Link先を確認
Norbert Tihanyi, Mohamed Amine Ferrag, Ridhi Jain, Merouane Debbah(参考訳) 大規模言語モデル(LLM)は、コンピュータビジョンから医学診断まで、様々な領域にまたがる。 しかし、暗号、リバースエンジニアリング、リスクアセスメントのような管理面を含む、サイバーセキュリティの多様な風景を理解することは、人間の専門家にとっても課題である。 本稿では、基準、認定、研究論文、書籍、その他のサイバーセキュリティ分野の出版物から得られた1万の質問からなるベンチマークデータセットであるCyberMetricを紹介する。 これらの質問は、gpt-3.5やfalcon-180bなど、専門家の知識とllmを融合するコラボレーションプロセスによって作成される。 人間の専門家は200時間以上かけて正確さと妥当性を確認した。 LLMの知識を評価すること以外に、データセットの主な目標は、サイバーセキュリティにおける人間と異なるLLMとの公正な比較を促進することである。 これを実現するために、サイバーセキュリティの幅広いトピックをカバーする80の質問を慎重に選択し、さまざまな専門知識レベルの30の参加者を巻き込み、この分野における人間とマシンインテリジェンスの包括的比較を容易にした。 その結果、LLMはサイバーセキュリティのあらゆる面で人間よりも優れていた。

Large Language Models (LLMs) excel across various domains, from computer vision to medical diagnostics. However, understanding the diverse landscape of cybersecurity, encompassing cryptography, reverse engineering, and managerial facets like risk assessment, presents a challenge, even for human experts. In this paper, we introduce CyberMetric, a benchmark dataset comprising 10,000 questions sourced from standards, certifications, research papers, books, and other publications in the cybersecurity domain. The questions are created through a collaborative process, i.e., merging expert knowledge with LLMs, including GPT-3.5 and Falcon-180B. Human experts spent over 200 hours verifying their accuracy and relevance. Beyond assessing LLMs' knowledge, the dataset's main goal is to facilitate a fair comparison between humans and different LLMs in cybersecurity. To achieve this, we carefully selected 80 questions covering a wide range of topics within cybersecurity and involved 30 participants of diverse expertise levels, facilitating a comprehensive comparison between human and machine intelligence in this area. The findings revealed that LLMs outperformed humans in almost every aspect of cybersecurity.
翻訳日:2024-02-13 14:07:57 公開日:2024-02-12
# 弱教師付きreidに対するコントラスト型複数インスタンス学習

Contrastive Multiple Instance Learning for Weakly Supervised Person ReID ( http://arxiv.org/abs/2402.07685v1 )

ライセンス: Link先を確認
Jacob Tyo and Zachary C. Lipton(参考訳) 個人再識別(ReID)のための大規模で正確なラベル付きデータセットの取得は、大きな課題となっている。 弱い教師付きReIDがこの問題に対処し始めたが、そのパフォーマンスは完全に教師付きメソッドに遅れている。 これに対し、より効果的な教師付きReIDに適した新しいフレームワークであるContrastive Multiple Instance Learning (CMIL)を導入する。 CMILは、対照的な損失を生かしながら、単一のモデルと擬似ラベルを必要とせず、従来のReIDのパフォーマンスを大幅に向上させたテクニックを、従来のMILベースのアプローチすべてに欠いている。 3つのデータセットにわたる広範な実験と分析を通じて、CMILは大規模SYSU-30kデータセットの最先端のパフォーマンスと仮定を少なくするだけでなく、WL-market1501とWakly Labeled MUddy Racer re-iDentificationデータセット(WL-MUDD)データセットのベースラインを一貫して上回る。 我々は、PerformancePhoto.coで現実世界のアプリケーションから自然に発生する弱いラベルを特徴とするMUDDデータセットの拡張であるWL-MUDDデータセットを紹介し、リリースする。 私たちのコードとデータは、https://drive.google.com/file/d/1rjMbWB6m-apHF3Wg_cfqc8QqKgQ21AsT/view? usp=drive_link

The acquisition of large-scale, precisely labeled datasets for person re-identification (ReID) poses a significant challenge. Weakly supervised ReID has begun to address this issue, although its performance lags behind fully supervised methods. In response, we introduce Contrastive Multiple Instance Learning (CMIL), a novel framework tailored for more effective weakly supervised ReID. CMIL distinguishes itself by requiring only a single model and no pseudo labels while leveraging contrastive losses -- a technique that has significantly enhanced traditional ReID performance yet is absent in all prior MIL-based approaches. Through extensive experiments and analysis across three datasets, CMIL not only matches state-of-the-art performance on the large-scale SYSU-30k dataset with fewer assumptions but also consistently outperforms all baselines on the WL-market1501 and Weakly Labeled MUddy racer re-iDentification dataset (WL-MUDD) datasets. We introduce and release the WL-MUDD dataset, an extension of the MUDD dataset featuring naturally occurring weak labels from the real-world application at PerformancePhoto.co. All our code and data are accessible at https://drive.google.com/file/d/1rjMbWB6m-apHF3Wg_cfqc8QqKgQ21AsT/view?usp=drive_link.
翻訳日:2024-02-13 14:07:38 公開日:2024-02-12
# 共分散ニューラルネットワークを用いた脳年齢予測の基礎モデルに向けて

Towards a Foundation Model for Brain Age Prediction using coVariance Neural Networks ( http://arxiv.org/abs/2402.07684v1 )

ライセンス: Link先を確認
Saurabh Sihag, Gonzalo Mateos, Alejandro Ribeiro(参考訳) 脳年齢(brain age)は、機械学習アルゴリズムを用いた神経画像データセットに由来する生物学的年齢の推定である。 時間的年齢に関する脳年齢の増加は、神経変性と認知低下に対する脆弱性の増加を反映している。 本稿では,共分散ニューラルネットワークに基づくニューロvnnを,脳年齢予測アプリケーションの基礎モデルのためのパラダイムとして研究する。 neurovnnは、皮質の厚さ特徴を用いて年代を予測し、異なる神経学的文脈で脳年齢を微調整するために、健康な人口の回帰モデルとして事前訓練されている。 重要なことは、NeuroVNNは脳年齢に解剖学的解釈性を加え、任意の脳のアトラスに従って計算されたデータセットへの転送を可能にする「スケールフリー」特性を持つ。 以上の結果から,NuroVNNは,異なる個体群における生物学的に可算な脳年齢推定値の抽出や,NuroVNNのトレーニングに用いるデータセットと異なる次元のデータセットへの転送に成功できることが示唆された。

Brain age is the estimate of biological age derived from neuroimaging datasets using machine learning algorithms. Increasing brain age with respect to chronological age can reflect increased vulnerability to neurodegeneration and cognitive decline. In this paper, we study NeuroVNN, based on coVariance neural networks, as a paradigm for foundation model for the brain age prediction application. NeuroVNN is pre-trained as a regression model on healthy population to predict chronological age using cortical thickness features and fine-tuned to estimate brain age in different neurological contexts. Importantly, NeuroVNN adds anatomical interpretability to brain age and has a `scale-free' characteristic that allows its transference to datasets curated according to any arbitrary brain atlas. Our results demonstrate that NeuroVNN can extract biologically plausible brain age estimates in different populations, as well as transfer successfully to datasets of dimensionalities distinct from that for the dataset used to train NeuroVNN.
翻訳日:2024-02-13 14:07:10 公開日:2024-02-12
# ビファインセマンティック依存関係解析を強化する補助的タスク

Auxiliary Tasks to Boost Biaffine Semantic Dependency Parsing ( http://arxiv.org/abs/2402.07682v1 )

ライセンス: Link先を確認
Marie Candito(参考訳) Dozat and Manning (2017)は、セマンティック依存性解析(SDP)にまで拡張された(Dozat and Manning, 2018)。 グラフ上のその性能は、木の生成の制約がなければ、与えられた文のすべての弧が互いに独立に予測される(トークンの共有表現を実行する)ため、驚くほど高い。 このような決定の独立を回避するため、O(n^2)複雑性と高度に並列化可能なアーキテクチャを維持しながら、アーク間の何らかの相互依存性を導入する単純な補助的タスクを提案する。 SemEval 2015 Task 18 (Oepen et al., 2015) とフランスのディープシンタクティック・サイクリックグラフ (Ribeyre et al., 2014) の3つのイングランドの非循環データセットに対する実験は、トランスフォーマーベースの文脈化表現を用いて、ほぼ最先端のベースライン上で、系統的なパフォーマンス向上を示す。 これにより、SDPの性能を高めるためのシンプルで堅牢な方法が提供される。

The biaffine parser of Dozat and Manning (2017) was successfully extended to semantic dependency parsing (SDP) (Dozat and Manning, 2018). Its performance on graphs is surprisingly high given that, without the constraint of producing a tree, all arcs for a given sentence are predicted independently from each other (modulo a shared representation of tokens). To circumvent such an independence of decision, while retaining the O(n^2) complexity and highly parallelizable architecture, we propose to use simple auxiliary tasks that introduce some form of interdependence between arcs. Experiments on the three English acyclic datasets of SemEval 2015 task 18 (Oepen et al., 2015), and on French deep syntactic cyclic graphs (Ribeyre et al., 2014) show modest but systematic performance gains on a near state-of-the-art baseline using transformer-based contextualized representations. This provides a simple and robust method to boost SDP performance.
翻訳日:2024-02-13 14:06:53 公開日:2024-02-12
# 大規模言語モデル "Ad Referendum": 法的領域における機械翻訳はどの程度優れているか?

Large Language Models "Ad Referendum": How Good Are They at Machine Translation in the Legal Domain? ( http://arxiv.org/abs/2402.07681v1 )

ライセンス: Link先を確認
Vicent Briva-Iglesias, Joao Lucas Cavalheiro Camargo, Gokhan Dogru(参考訳) 本研究では,法域内の4つの言語対にまたがる伝統型ニューラルネットワーク翻訳(NMT)システムに対して,最先端の2つの大規模言語モデル(LLM)の機械翻訳(MT)の品質を評価する。 AEM(Automatic Evaluation met-rics)とHE(Human Evaluation)を専門のトランスラレータで組み合わせて、翻訳ランク、流用度、妥当性を評価する。 再調査では、Google Translateは一般的にAMMのLLMよりも優れているが、人間の評価者は、LLM(特にGPT-4)を、文脈的に適切で流動的な翻訳で比較可能またはわずかに優れていると評価している。 この相違は、特殊法的用語と文脈を扱うllmsの可能性を示唆し、mt品質の評価における人間評価方法の重要性を強調している。 この研究は、特殊なドメインにおけるLLMのキャパビティの進化と、LLM生成翻訳のニュアンスをよりよく捉えるために、従来のAEMの再評価を要求する。

This study evaluates the machine translation (MT) quality of two state-of-the-art large language models (LLMs) against a tradition-al neural machine translation (NMT) system across four language pairs in the legal domain. It combines automatic evaluation met-rics (AEMs) and human evaluation (HE) by professional transla-tors to assess translation ranking, fluency and adequacy. The re-sults indicate that while Google Translate generally outperforms LLMs in AEMs, human evaluators rate LLMs, especially GPT-4, comparably or slightly better in terms of producing contextually adequate and fluent translations. This discrepancy suggests LLMs' potential in handling specialized legal terminology and context, highlighting the importance of human evaluation methods in assessing MT quality. The study underscores the evolving capabil-ities of LLMs in specialized domains and calls for reevaluation of traditional AEMs to better capture the nuances of LLM-generated translations.
翻訳日:2024-02-13 14:06:32 公開日:2024-02-12
# AYDIV:統合視覚変換器による3次元物体検出の適応化

AYDIV: Adaptable Yielding 3D Object Detection via Integrated Contextual Vision Transformer ( http://arxiv.org/abs/2402.07680v1 )

ライセンス: Link先を確認
Tanmoy Dam, Sanjay Bhargav Dharavath, Sameer Alam, Nimrod Lilith, Supriyo Chakraborty and Mir Feroskhan(参考訳) LiDARとカメラデータを組み合わせることで、自律運転システムにおける短距離物体検出の強化が期待できる。 しかし、この融合は、LiDARのスパースデータとカメラの高密度解像度とのコントラストにより、長距離検出が困難になる。 さらに、2つのデータ表現の相違は融合メソッドをさらに複雑にする。 AYDIVは3相アライメントプロセスを統合した新しいフレームワークで,データ不一致時にも長距離検出の高速化を目的としている。 aydivは、グローバル・コンテクスト・フュージョン・アライメント・トランスフォーマー(gcfat)と、lidarとカメラの詳細の融合を微調整するスパース・フューズド・フィーチャー・アテンション(sffa)、包括的な空間データ融合のためのボリューム・グリッド・アテンション(vga)から構成される。 Waymo Open Dataset(WOD)におけるAYDIVのパフォーマンスは、mAPH値(L2の難しさ)が1.24%向上し、Argoverse2 Datasetのパフォーマンスが7.40%向上した。 私たちのコードはhttps://github.com/sanjay-810/AYDIV2で公開されています。

Combining LiDAR and camera data has shown potential in enhancing short-distance object detection in autonomous driving systems. Yet, the fusion encounters difficulties with extended distance detection due to the contrast between LiDAR's sparse data and the dense resolution of cameras. Besides, discrepancies in the two data representations further complicate fusion methods. We introduce AYDIV, a novel framework integrating a tri-phase alignment process specifically designed to enhance long-distance detection even amidst data discrepancies. AYDIV consists of the Global Contextual Fusion Alignment Transformer (GCFAT), which improves the extraction of camera features and provides a deeper understanding of large-scale patterns; the Sparse Fused Feature Attention (SFFA), which fine-tunes the fusion of LiDAR and camera details; and the Volumetric Grid Attention (VGA) for a comprehensive spatial data fusion. AYDIV's performance on the Waymo Open Dataset (WOD) with an improvement of 1.24% in mAPH value(L2 difficulty) and the Argoverse2 Dataset with a performance improvement of 7.40% in AP value demonstrates its efficacy in comparison to other existing fusion-based methods. Our code is publicly available at https://github.com/sanjay-810/AYDIV2
翻訳日:2024-02-13 14:06:13 公開日:2024-02-12
# GBOT:拡張現実支援アセンブリ誘導のためのグラフベースの3Dオブジェクトトラッキング

GBOT: Graph-Based 3D Object Tracking for Augmented Reality-Assisted Assembly Guidance ( http://arxiv.org/abs/2402.07677v1 )

ライセンス: Link先を確認
Shiyu Li, Hannah Schieber, Niklas Corell, Bernhard Egger, Julian Kreimeier and Daniel Roth(参考訳) 組み立て可能な部品の誘導は拡張現実にとって有望な分野である。 augmented reality assembly guidanceは、ターゲットオブジェクトの6dオブジェクトポーズをリアルタイムで要求する。 特にタイムクリティカルな医療や産業では、個々の部品の連続的かつマーカーのない追跡は、対象部品に重ね合わせられた指示を可視化するのに不可欠である。 この点において、ユーザの手や他のオブジェクトによるオクルージョンと異なるアセンブリ状態の複雑さは、堅牢でリアルタイムのマーカーレスマルチオブジェクトトラッキングを複雑にする。 この問題に対処するために,新しいグラフベースのRGB-D追跡手法であるグラフベースオブジェクト追跡(GBOT)を提案する。 リアルタイムマーカーレスマルチオブジェクト追跡は、6Dポーズ推定によって初期化され、グラフベースのアセンブリポーズが更新される。 様々なアセンブリ状態の追跡は、新しいマルチステートアセンブリグラフによって達成される。 個々の組立部品の相対的なポーズを利用して多状態組立グラフを更新する。 このグラフで個々のオブジェクトをリンクすることで、アセンブリプロセス中により堅牢なオブジェクト追跡が可能になる。 評価のために,将来的な作業のベンチマークとして,公開可能な3Dプリント可能な組立資産の合成データセットを導入する。 合成データの定量的実験と実際のテストデータによる質的研究により、GBOTは、コンテキスト対応の拡張現実アセンブリーガイダンスの実現に向けて、既存の作業より優れていることが示された。 データセットとコードは公開されます。

Guidance for assemblable parts is a promising field for augmented reality. Augmented reality assembly guidance requires 6D object poses of target objects in real time. Especially in time-critical medical or industrial settings, continuous and markerless tracking of individual parts is essential to visualize instructions superimposed on or next to the target object parts. In this regard, occlusions by the user's hand or other objects and the complexity of different assembly states complicate robust and real-time markerless multi-object tracking. To address this problem, we present Graph-based Object Tracking (GBOT), a novel graph-based single-view RGB-D tracking approach. The real-time markerless multi-object tracking is initialized via 6D pose estimation and updates the graph-based assembly poses. The tracking through various assembly states is achieved by our novel multi-state assembly graph. We update the multi-state assembly graph by utilizing the relative poses of the individual assembly parts. Linking the individual objects in this graph enables more robust object tracking during the assembly process. For evaluation, we introduce a synthetic dataset of publicly available and 3D printable assembly assets as a benchmark for future work. Quantitative experiments in synthetic data and further qualitative study in real test data show that GBOT can outperform existing work towards enabling context-aware augmented reality assembly guidance. Dataset and code will be made publically available.
翻訳日:2024-02-13 14:05:50 公開日:2024-02-12
# 相対論的量子場のフォトニックセルオートマトンシミュレーション:Zitterbewegungの観察

Photonic cellular automaton simulation of relativistic quantum fields: observation of Zitterbewegung ( http://arxiv.org/abs/2402.07672v1 )

ライセンス: Link先を確認
Alessia Suprano, Danilo Zia, Emanuele Polino, Davide Poderini, Gonzalo Carvacho, Fabio Sciarrino, Matteo Lugli, Alessandro Bisio, and Paolo Perinotti(参考訳) 量子セルオートマトン(Quantum Cellular Automaton, QCA)は、一般量子計算のモデルであり、相対論的量子場のデジタル量子シミュレーションの自然な候補である。 本稿では,ディラック量子セルオートマトン(DQCA)を用いて,自由相対論的ディラック量子場の1+1次元でのQCAシミュレーションを実現するための最初のフォトニックプラットフォームを紹介する。 単一光子の軌道角運動量(OAM)におけるフィールド位置自由度を符号化し、DQCAの8ステップを実験的に実現し、入力OAM状態の完全な制御と2つの空間光変調器を用いた出力測定が可能となる。 そこで, 各段階におけるOAM空間の分布について検討し, 粒子と反粒子の干渉の兆候である実例実験シナリオにおいて観測が極めて困難である自由ディラック場観測の時間発展を再現することができた。 期待値と測定値の関係はシミュレータの性能を検証し、より複雑な相対論的効果のシミュレーションへのフォトニックプラットフォームの適用への道を開く。

Quantum Cellular Automaton (QCA) is a model for universal quantum computation and a natural candidate for digital quantum simulation of relativistic quantum fields. Here we introduce the first photonic platform for implementing QCA-simulation of a free relativistic Dirac quantum field in 1+1 dimension, through a Dirac Quantum Cellular Automaton (DQCA). Encoding the field position degree of freedom in the Orbital Angular Momentum (OAM) of single photons, our state-of-the-art setup experimentally realizes 8 steps of a DQCA, with the possibility of having complete control over the input OAM state preparation and the output measurement making use of two spatial light modulators. Therefore, studying the distribution in the OAM space at each step, we were able to reproduce the time evolution of the free Dirac field observing, the Zitterbewegung, an oscillatory movement extremely difficult to see in real case experimental scenario that is a signature of the interference of particle and antiparticle states. The accordance between the expected and measured Zitterbewegung oscillations certifies the simulator performances, paving the way towards the application of photonic platforms to the simulation of more complex relativistic effects.
翻訳日:2024-02-13 14:05:28 公開日:2024-02-12
# 分割多項式テンソルネットワーク量子特徴符号化

Piecewise Polynomial Tensor Network Quantum Feature Encoding ( http://arxiv.org/abs/2402.07671v1 )

ライセンス: Link先を確認
Mazen Ali and Matthias Kabel(参考訳) 本研究は,低ランクテンソルネットワークを用いた分別多項式特徴を用いた連続変数の量子回路への埋め込み手法を提案する。 本手法は,偏微分方程式の解法や関数回帰法といった数値応用に適した空間的局所化表現を取り入れることで,量子アルゴリズムの適用性を高めることを目的としている。 離散微分方程式の解の効率的な点評価とジャンプの不連続性などの局所化特徴を持つモデリング関数を用いて,pptnqfeの可能性を示す。 有望だが、未探究のノイズの影響や訓練可能な回路の設計といった課題は残っている。 本研究は、新しい特徴埋め込みによる量子モデルの拡張と、量子機械学習においてより広範な関数型にTN表現を活用するための新たな道を開く。

This work introduces a novel method for embedding continuous variables into quantum circuits via piecewise polynomial features, utilizing low-rank tensor networks. Our approach, termed Piecewise Polynomial Tensor Network Quantum Feature Encoding (PPTNQFE), aims to broaden the applicability of quantum algorithms by incorporating spatially localized representations suited for numerical applications like solving partial differential equations and function regression. We demonstrate the potential of PPTNQFE through efficient point evaluations of solutions of discretized differential equations and in modeling functions with localized features such as jump discontinuities. Although promising, challenges such as unexplored noise impact and design of trainable circuits remain. This study opens new avenues for enhancing quantum models with novel feature embeddings and leveraging TN representations for a wider array of function types in quantum machine learning.
翻訳日:2024-02-13 14:05:03 公開日:2024-02-12
# テクトリアル:光子対の空間的相関を形作る

Tutorial: Shaping the Spatial Correlations of Entangled Photon Pairs ( http://arxiv.org/abs/2402.07667v1 )

ライセンス: Link先を確認
Patrick Cameron, Baptiste Courme, Daniele Faccio, Hugo Defienne(参考訳) 量子イメージングは撮像システムの性能を高め、ノイズや解像度といった基本的な限界を超える可能性がある。 しかし、これらのスキームには制限があり、古典的なテクニックを置き換えるにはまだまだ長い道のりがある。 そのため、現実の応用を見つけることを目的として、量子イメージング法の実用性向上に強い焦点が当てられている。 このことを念頭に置いて,本チュートリアルでは,光子対の絡み合った画像に古典的な光造形の概念を適用する方法について述べる。 空間光変調器を用いて光子対状態の空間相関を形作る2つの基本的な実験構成を詳述し、この方法と古典的形状の大きな違いを強調する。 次に、これらの概念を拡張して光子対による収差と散乱補正を行う2つの最近の例を示す。 これらの実験の重要なステップの詳細は、光子対をベースとしたイメージングと形状実験のガイドとして使用できることを目標としている。

Quantum imaging enhances imaging systems performance, potentially surpassing fundamental limits such as noise and resolution. However, these schemes have limitations and are still a long way from replacing classical techniques. Therefore, there is a strong focus on improving the practicality of quantum imaging methods, with the goal of finding real-world applications. With this in mind, in this tutorial we describe how the concepts of classical light shaping can be applied to imaging schemes based on entangled photon pairs. We detail two basic experimental configurations in which a spatial light modulator is used to shape the spatial correlations of a photon pair state and highlight the key differences between this and classical shaping. We then showcase two recent examples that expand on these concepts to perform aberration and scattering correction with photon pairs. We include specific details on the key steps of these experiments, with the goal that this can be used as a guide for building photon-pair-based imaging and shaping experiments.
翻訳日:2024-02-13 14:04:47 公開日:2024-02-12
# 医療の音 : 大規模言語モデルによる医療転写 asr の精度向上

The Sound of Healthcare: Improving Medical Transcription ASR Accuracy with Large Language Models ( http://arxiv.org/abs/2402.07658v1 )

ライセンス: Link先を確認
Ayo Adedeji, Sarita Joshi, Brendan Doohan(参考訳) 急速に発展する医学文書の展望では、正確な臨床対話の書き起こしがますます重要になっている。 本研究では,医学転写における音声認識システム(ASR)の精度を高めるために,LLM(Large Language Models)の可能性を検討する。 多様なプライマリ・ケア・コンサルテーションを含むPrivock57データセットを用いて, ASR 生成した転写産物の精製に高度な LLM を適用する。 本研究は,本質的医学用語の正確な書き起こしのための一般語誤り率(wer),医療概念wer(mc-wer),話者ダイアリゼーション精度の向上に焦点をあてた多面的研究である。 さらに,LLM後処理が意味的テキスト類似性の向上に果たす役割を評価し,臨床対話の文脈的整合性を維持する。 一連の実験を通して,ゼロショットとチェーン・オブ・ソート(CoT)の有効性を比較し,ダイアリゼーションと補正精度を向上させる手法を提案する。 以上の結果から,LLM,特にCoTプロンプトは既存のASRシステムのダイアリゼーション精度を向上するだけでなく,この領域の最先端性能も向上することが明らかとなった。 この改良により、医療概念をより正確に把握し、転写された対話の全体的な意味的一貫性を高めることができる。 以上の結果から,LSMがASR出力を増強し,独立に転写タスクに優れ,医療的ASRシステムを変換し,より正確で信頼性の高い患者記録を医療環境にもたらすことが示唆された。

In the rapidly evolving landscape of medical documentation, transcribing clinical dialogues accurately is increasingly paramount. This study explores the potential of Large Language Models (LLMs) to enhance the accuracy of Automatic Speech Recognition (ASR) systems in medical transcription. Utilizing the PriMock57 dataset, which encompasses a diverse range of primary care consultations, we apply advanced LLMs to refine ASR-generated transcripts. Our research is multifaceted, focusing on improvements in general Word Error Rate (WER), Medical Concept WER (MC-WER) for the accurate transcription of essential medical terms, and speaker diarization accuracy. Additionally, we assess the role of LLM post-processing in improving semantic textual similarity, thereby preserving the contextual integrity of clinical dialogues. Through a series of experiments, we compare the efficacy of zero-shot and Chain-of-Thought (CoT) prompting techniques in enhancing diarization and correction accuracy. Our findings demonstrate that LLMs, particularly through CoT prompting, not only improve the diarization accuracy of existing ASR systems but also achieve state-of-the-art performance in this domain. This improvement extends to more accurately capturing medical concepts and enhancing the overall semantic coherence of the transcribed dialogues. These findings illustrate the dual role of LLMs in augmenting ASR outputs and independently excelling in transcription tasks, holding significant promise for transforming medical ASR systems and leading to more accurate and reliable patient records in healthcare settings.
翻訳日:2024-02-13 14:04:31 公開日:2024-02-12
# ニューラルサロゲートモデルを用いたマルチレベル最適制御

Multi-level Optimal Control with Neural Surrogate Models ( http://arxiv.org/abs/2402.07763v1 )

ライセンス: Link先を確認
Dante Kalise, Estefan\'ia Loayza-Romero, Kirsten A. Morris, Zhengang Zhong(参考訳) 最適アクチュエータおよび制御設計は、関連する最適閉ループの性能に基づいてアクチュエータ設計を評価するマルチレベル最適化問題として研究されている。 与えられたアクチュエータ実現のための最適閉ループの評価は,ニューラルネットワークをサロゲートとした計算上要求されるタスクである。 ニューラルネットワークサロゲートを用いて最適化階層の下位レベルを置き換えることで、高速な勾配ベースと勾配のないコンセンサスに基づく最適化手法を使用して最適アクチュエータ設計を決定することができる。 提案するサーロゲートモデルと最適化手法の有効性を, 熱制御のための最適アクチュエータ位置に関するテストで評価した。

Optimal actuator and control design is studied as a multi-level optimisation problem, where the actuator design is evaluated based on the performance of the associated optimal closed loop. The evaluation of the optimal closed loop for a given actuator realisation is a computationally demanding task, for which the use of a neural network surrogate is proposed. The use of neural network surrogates to replace the lower level of the optimisation hierarchy enables the use of fast gradient-based and gradient-free consensus-based optimisation methods to determine the optimal actuator design. The effectiveness of the proposed surrogate models and optimisation methods is assessed in a test related to optimal actuator location for heat control.
翻訳日:2024-02-13 13:59:12 公開日:2024-02-12
# マルチタスク政策学習における視覚特徴のタスク条件適応

Task-conditioned adaptation of visual features in multi-task policy learning ( http://arxiv.org/abs/2402.07739v1 )

ライセンス: Link先を確認
Pierre Marza, Laetitia Matignon, Olivier Simonin, Christian Wolf(参考訳) さまざまなタスクにうまく対処することは、自律エージェントの中核的な能力であり、基礎となる意思決定戦略を柔軟に適応させ、本研究で論じているように、基盤となる知覚モジュールも適応する必要がある。 類似した議論は人間の視覚システムであり、現在のタスクによって決定される注意に焦点を当てるためにトップダウン信号を使用する。 同様に、本研究では、マルチタスクポリシー学習の文脈で、特定の下流タスクを条件とした事前学習された大規模ビジョンモデルを適用する。 予め訓練した重みを微調整する必要のないタスク条件付きアダプタと、動作のクローンを訓練した単一ポリシーを組み合わせて、複数のタスクに対処可能なタスク条件付きアダプタを提案する。 タスク埋め込みに関するポリシとビジュアルアダプタを条件として,タスクが既知の場合は推論時に選択したり,あるいは例の例から推測したりすることが可能です。 この目的のために,新しい最適化に基づく推定器を提案する。 提案手法はCortexBenchベンチマークの多種多様なタスクに対して評価し,既存の作業と比較して,単一のポリシーで対処可能であることを示す。 特に,視覚的特徴を適応させることが重要な設計選択であり,視覚的な実演の見つからないタスクに一般化できることを実証する。

Successfully addressing a wide variety of tasks is a core ability of autonomous agents, which requires flexibly adapting the underlying decision-making strategies and, as we argue in this work, also adapting the underlying perception modules. An analogical argument would be the human visual system, which uses top-down signals to focus attention determined by the current task. Similarly, in this work, we adapt pre-trained large vision models conditioned on specific downstream tasks in the context of multi-task policy learning. We introduce task-conditioned adapters that do not require finetuning any pre-trained weights, combined with a single policy trained with behavior cloning and capable of addressing multiple tasks. We condition the policy and visual adapters on task embeddings, which can be selected at inference if the task is known, or alternatively inferred from a set of example demonstrations. To this end, we propose a new optimization-based estimator. We evaluate the method on a wide variety of tasks of the CortexBench benchmark and show that, compared to existing work, it can be addressed with a single policy. In particular, we demonstrate that adapting visual features is a key design choice and that the method generalizes to unseen tasks given visual demonstrations.
翻訳日:2024-02-13 13:59:00 公開日:2024-02-12
# 文脈内学習によるユニバーサルリンク予測

Universal link predictor by In-context Learning ( http://arxiv.org/abs/2402.07738v1 )

ライセンス: Link先を確認
Kaiwen Dong, Haitao Mao, Zhichun Guo, Nitesh V. Chawla(参考訳) グラフ機械学習では、グラフ内の欠落や将来のリンクを推測することを目的として、リンク予測が重要なタスクである。 従来のアプローチでは、広く観察される接続パターンに基づいたヒューリスティックな手法を採用し、モデルトレーニングを必要とせず、幅広い適用性と一般化性を提供する。 実用性にもかかわらず、これらの手法は人間由来のヒューリスティックに依存し、データ駆動アプローチの適応性に欠ける。 逆にパラメトリックリンク予測器は、データから接続パターンを自動的に学習し、最先端を達成するのに優れているが、異なるグラフを直接渡すのに失敗する。 その代わり、ターゲットグラフに適応するために、広範なトレーニングとハイパーパラメータ最適化のコストが必要です。 本稿では,ヒューリスティックアプローチの一般化可能性とパラメトリックモデルのパターン学習能力を組み合わせた新しいモデルであるuniversal link predictor (unilp)を提案する。 UniLPは、さまざまなグラフをまたいだ接続パターンを自律的に識別するように設計されている。 In-context Learning (ICL) の実装を通じて、異なるグラフのユニークな分布から生じる接続パターンの矛盾に対処する。 このアプローチにより、UniLPはコンテキスト実証に基づいて様々なターゲットグラフに動的に調整できるため、負の移動を避けることができる。 厳密な実験を通じて、unilpは、テスト時に新しい未知のグラフに適応し、特定のデータセット用に微調整されたパラメトリックモデルに対して、比較可能な、あるいは、よりパフォーマンスの高いパラメトリックモデルを実行する能力を示す。 この結果から,UniLPがリンク予測の新しい標準を策定し,ヒューリスティックな手法とパラメトリックな手法の長所を1つの多目的フレームワークで組み合わせる可能性が示唆された。

Link prediction is a crucial task in graph machine learning, where the goal is to infer missing or future links within a graph. Traditional approaches leverage heuristic methods based on widely observed connectivity patterns, offering broad applicability and generalizability without the need for model training. Despite their utility, these methods are limited by their reliance on human-derived heuristics and lack the adaptability of data-driven approaches. Conversely, parametric link predictors excel in automatically learning the connectivity patterns from data and achieving state-of-the-art but fail short to directly transfer across different graphs. Instead, it requires the cost of extensive training and hyperparameter optimization to adapt to the target graph. In this work, we introduce the Universal Link Predictor (UniLP), a novel model that combines the generalizability of heuristic approaches with the pattern learning capabilities of parametric models. UniLP is designed to autonomously identify connectivity patterns across diverse graphs, ready for immediate application to any unseen graph dataset without targeted training. We address the challenge of conflicting connectivity patterns-arising from the unique distributions of different graphs-through the implementation of In-context Learning (ICL). This approach allows UniLP to dynamically adjust to various target graphs based on contextual demonstrations, thereby avoiding negative transfer. Through rigorous experimentation, we demonstrate UniLP's effectiveness in adapting to new, unseen graphs at test time, showcasing its ability to perform comparably or even outperform parametric models that have been finetuned for specific datasets. Our findings highlight UniLP's potential to set a new standard in link prediction, combining the strengths of heuristic and parametric methods in a single, versatile framework.
翻訳日:2024-02-13 13:58:40 公開日:2024-02-12
# BAMを用いたグラフ構造推定:双線形注意機構の導入

Graph Structure Inference with BAM: Introducing the Bilinear Attention Mechanism ( http://arxiv.org/abs/2402.07735v1 )

ライセンス: Link先を確認
Philipp Froehlich and Heinz Koeppl(参考訳) 統計学と機械学習では、データセットの依存関係を検出することが中心的な課題である。 本稿では,教師付きグラフ構造学習のための新しいニューラルネットワークモデル,すなわち観測データとその基礎となる依存構造間のマッピングを学習するプロセスを提案する。 モデルは可変な形状と結合した入力データで訓練され、推論のために訓練されたネットワークを通る単一のフォワードパスのみを必要とする。 構造方程式モデルを活用し, ランダムに生成した多変量チェビシェフ多項式をトレーニングデータのシミュレーションに利用することにより, 線形および多種類の非線形依存関係にまたがるロバストな一般化性を実証する。 本稿では,変換データの共分散行列のレベルで動作し,対称正定値行列多様体の幾何学を尊重する,従属情報の明示的処理のための新しい双線型注意機構(bam)を提案する。 経験的評価は, 広範囲な依存性の検出, 非有向グラフ推定に優れ, 完備部分有向非巡回グラフ推定における競争力を, 新たな二段階アプローチにより証明する手法の頑健性を示す。

In statistics and machine learning, detecting dependencies in datasets is a central challenge. We propose a novel neural network model for supervised graph structure learning, i.e., the process of learning a mapping between observational data and their underlying dependence structure. The model is trained with variably shaped and coupled simulated input data and requires only a single forward pass through the trained network for inference. By leveraging structural equation models and employing randomly generated multivariate Chebyshev polynomials for the simulation of training data, our method demonstrates robust generalizability across both linear and various types of non-linear dependencies. We introduce a novel bilinear attention mechanism (BAM) for explicit processing of dependency information, which operates on the level of covariance matrices of transformed data and respects the geometry of the manifold of symmetric positive definite matrices. Empirical evaluation demonstrates the robustness of our method in detecting a wide range of dependencies, excelling in undirected graph estimation and proving competitive in completed partially directed acyclic graph estimation through a novel two-step approach.
翻訳日:2024-02-13 13:58:09 公開日:2024-02-12
# AIR-Bench: 生成的理解による大規模オーディオ言語モデルのベンチマーク

AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension ( http://arxiv.org/abs/2402.07729v1 )

ライセンス: Link先を確認
Qian Yang, Jin Xu, Wenrui Liu, Yunfei Chu, Ziyue Jiang, Xiaohuan Zhou, Yichong Leng, Yuanjun Lv, Zhou Zhao, Chang Zhou, Jingren Zhou(参考訳) 近年,命令追従型音声言語モデルが人間と音声の相互作用に広く注目されている。 しかし、音声中心の対話能力を評価するベンチマークがないことは、この分野の進歩を妨げている。 従来のモデルは、音声認識(asr)などの異なる基本タスクの評価に重点を置いており、音声を中心としたオープンエンド生成能力の評価を欠いている。 したがって、LALM(Large Audio-Language Models)領域の進展を追跡し、今後の改善のためのガイダンスを提供することは困難である。 本稿では,lalmsの様々な音声信号(音声,自然音,音楽など)の理解能力を評価するために設計された最初のベンチマークであるair-bench (\textbf{a}udio \textbf{i}nst\textbf{r}uction \textbf{bench}mark)を紹介する。 AIR-Benchは2つの次元を含む: \textit{foundation} と \textit{chat} ベンチマーク。 前者は19のタスクと約19kの単座質問で構成され、LALMの基本的な単座能力を調べることを目的としている。 後者は、オープンエンドのクェリ・アンド・アンワーデータの2kインスタンスを含み、複雑なオーディオにおけるモデルの理解と命令に従う能力を直接評価する。 どちらのベンチマークも、モデルが直接仮説を生成する必要がある。 音声のメタ情報から生成された仮説のスコアを評価するために,gpt-4などの先進言語モデルを活用した統一フレームワークを設計した。 実験の結果,gpt-4に基づく評価と人間評価の整合性が高まった。 評価結果を通じて既存のLALMの限界を明らかにすることで、AIR-Benchは将来の研究の方向性についての洞察を提供することができる。

Recently, instruction-following audio-language models have received broad attention for human-audio interaction. However, the absence of benchmarks capable of evaluating audio-centric interaction capabilities has impeded advancements in this field. Previous models primarily focus on assessing different fundamental tasks, such as Automatic Speech Recognition (ASR), and lack an assessment of the open-ended generative capabilities centered around audio. Thus, it is challenging to track the progression in the Large Audio-Language Models (LALMs) domain and to provide guidance for future improvement. In this paper, we introduce AIR-Bench (\textbf{A}udio \textbf{I}nst\textbf{R}uction \textbf{Bench}mark), the first benchmark designed to evaluate the ability of LALMs to understand various types of audio signals (including human speech, natural sounds, and music), and furthermore, to interact with humans in the textual format. AIR-Bench encompasses two dimensions: \textit{foundation} and \textit{chat} benchmarks. The former consists of 19 tasks with approximately 19k single-choice questions, intending to inspect the basic single-task ability of LALMs. The latter one contains 2k instances of open-ended question-and-answer data, directly assessing the comprehension of the model on complex audio and its capacity to follow instructions. Both benchmarks require the model to generate hypotheses directly. We design a unified framework that leverages advanced language models, such as GPT-4, to evaluate the scores of generated hypotheses given the meta-information of the audio. Experimental results demonstrate a high level of consistency between GPT-4-based evaluation and human evaluation. By revealing the limitations of existing LALMs through evaluation results, AIR-Bench can provide insights into the direction of future research.
翻訳日:2024-02-13 13:57:50 公開日:2024-02-12
# 教師なし手話翻訳と生成

Unsupervised Sign Language Translation and Generation ( http://arxiv.org/abs/2402.07726v1 )

ライセンス: Link先を確認
Zhengsheng Guo, Zhiwei He, Wenxiang Jiao, Xing Wang, Rui Wang, Kehai Chen, Zhaopeng Tu, Yong Xu, Min Zhang(参考訳) unsupervised neural machine translation (UNMT)の成功に触発されて、並列手話データなしで豊富な単一モダリティ(テキストとビデオ)データから学習する、unsupervised sign language translation and generation network (USLNet)を導入する。 USLNet comprises two main components: single-modality reconstruction modules (text and video) that rebuild the input from its noisy version in the same modality and cross-modality back-translation modules (text-video-text and video-text-video) that reconstruct the input from its noisy version in the different modality using back-translation procedure.Unlike the single-modality back-translation procedure in text-based UNMT, USLNet faces the cross-modality discrepancy in feature representation, in which the length and the feature dimension mismatch between text and video sequences. 可変長テキストとビデオシーケンスの整合性の問題に対処するスライディングウィンドウ手法を提案する。 我々の知る限り、USLNetは、自然言語テキストと手話ビデオの両方を統一的に生成できる最初の教師なし手話翻訳および生成モデルである。 BBC-Oxford Sign Language データセット (BOBSL) と Open-Domain American Sign Language データセット (OpenASL) の実験結果から,USLNet は教師付きベースラインモデルと比較して競争力のある結果となり,手話の翻訳と生成に有効であることが示された。

Motivated by the success of unsupervised neural machine translation (UNMT), we introduce an unsupervised sign language translation and generation network (USLNet), which learns from abundant single-modality (text and video) data without parallel sign language data. USLNet comprises two main components: single-modality reconstruction modules (text and video) that rebuild the input from its noisy version in the same modality and cross-modality back-translation modules (text-video-text and video-text-video) that reconstruct the input from its noisy version in the different modality using back-translation procedure.Unlike the single-modality back-translation procedure in text-based UNMT, USLNet faces the cross-modality discrepancy in feature representation, in which the length and the feature dimension mismatch between text and video sequences. We propose a sliding window method to address the issues of aligning variable-length text with video sequences. To our knowledge, USLNet is the first unsupervised sign language translation and generation model capable of generating both natural language text and sign language video in a unified manner. Experimental results on the BBC-Oxford Sign Language dataset (BOBSL) and Open-Domain American Sign Language dataset (OpenASL) reveal that USLNet achieves competitive results compared to supervised baseline models, indicating its effectiveness in sign language translation and generation.
翻訳日:2024-02-13 13:57:19 公開日:2024-02-12
# フラクショナルフォッカー・プランク方程式による重機SDEの一般化境界

Generalization Bounds for Heavy-Tailed SDEs through the Fractional Fokker-Planck Equation ( http://arxiv.org/abs/2402.07723v1 )

ライセンス: Link先を確認
Benjamin Dupuis, Umut \c{S}im\c{s}ekli(参考訳) 重み付き確率最適化アルゴリズムの一般化特性を理解することは、近年注目されている。 重項付き確率微分方程式をプロキシとして、確率最適化の興味深い側面を照明する一方で、先行研究は期待一般化境界を与えたり、計算不能な情報理論用語を導入したりした。 これらの欠点に対処するため,本研究では,非自明な情報理論用語を含まない重項sdesに対する高い確率汎化限界を証明している。 この目的を達成するために、いわゆる分数的フォッカー・プランク方程式(対応する重み付きSDEの分布の進化を制御した偏微分方程式)に付随するエントロピーフローを推定した新しい証明手法を開発した。 高確率境界の獲得に加えて、我々の境界は先行技術と比較してパラメータの次元によりよく依存していることを示す。 以上の結果から,重尾は問題構造によって有益か有害かが示唆される相転移現象が明らかになった。 我々は様々な環境で実施された実験で理論を支持する。

Understanding the generalization properties of heavy-tailed stochastic optimization algorithms has attracted increasing attention over the past years. While illuminating interesting aspects of stochastic optimizers by using heavy-tailed stochastic differential equations as proxies, prior works either provided expected generalization bounds, or introduced non-computable information theoretic terms. Addressing these drawbacks, in this work, we prove high-probability generalization bounds for heavy-tailed SDEs which do not contain any nontrivial information theoretic terms. To achieve this goal, we develop new proof techniques based on estimating the entropy flows associated with the so-called fractional Fokker-Planck equation (a partial differential equation that governs the evolution of the distribution of the corresponding heavy-tailed SDE). In addition to obtaining high-probability bounds, we show that our bounds have a better dependence on the dimension of parameters as compared to prior art. Our results further identify a phase transition phenomenon, which suggests that heavy tails can be either beneficial or harmful depending on the problem structure. We support our theory with experiments conducted in a variety of settings.
翻訳日:2024-02-13 13:56:52 公開日:2024-02-12
# LoRA-drop:出力評価に基づく効率的なLoRAパラメータ抽出

LoRA-drop: Efficient LoRA Parameter Pruning based on Output Evaluation ( http://arxiv.org/abs/2402.07721v1 )

ライセンス: Link先を確認
Hongyun Zhou, Xiangyu Lu, Wang Xu, Conghui Zhu, Tiejun Zhao(参考訳) ローランク適応 (lora) は、限られた計算資源の下で事前学習されたモデルを微調整するために各層に補助パラメータを導入する。 しかし、大きなモデルにスケールアップする際、リソース消費の課題に直面している。 従来の研究では、問題に対処するための異なるレイヤに対するLoRAパラメータの重要性を評価することによって、プルーニング技術を採用している。 しかし、これらの取り組みはパラメータの特徴を分析してその重要性を評価するだけだった。 実際、パラメータとデータに関連するloraの出力は、凍結したモデルに直接影響を及ぼす要因である。 そこで本研究では,LoRA出力を解析してパラメータの重要性を評価するLoRA-dropを提案する。 私たちは重要なレイヤに対してLoRAを保持し、他のレイヤのLoRAは同じパラメータを共有します。 NLUおよびNLGタスクの冗長な実験は、LoRA-dropの有効性を示す。

Low-Rank Adaptation (LoRA) introduces auxiliary parameters for each layer to fine-tune the pre-trained model under limited computing resources. But it still faces challenges of resource consumption when scaling up to larger models. Previous studies employ pruning techniques by evaluating the importance of LoRA parameters for different layers to address the problem. However, these efforts only analyzed parameter features to evaluate their importance. Indeed, the output of LoRA related to the parameters and data is the factor that directly impacts the frozen model. To this end, we propose LoRA-drop which evaluates the importance of the parameters by analyzing the LoRA output. We retain LoRA for important layers and the LoRA of the other layers share the same parameters. Abundant experiments on NLU and NLG tasks demonstrate the effectiveness of LoRA-drop.
翻訳日:2024-02-13 13:56:32 公開日:2024-02-12
# インタラクションに基づく運転シナリオ分類とラベル付け

Interaction-Based Driving Scenario Classification and Labeling ( http://arxiv.org/abs/2402.07720v1 )

ライセンス: Link先を確認
Cheng Chang, Jiawei Zhang, Jingwei Ge, Zuo Zhang, Junqing Wei, Li Li(参考訳) シナリオデータは、自律運転に関する研究において重要な役割を担い、異なるタイプのインタラクションでシナリオを抽出しインデックス化するために、洗練された記述とラベルを取得することが不可欠である。 しかし,既存の手法ではシナリオ分類の問題にうまく対応できず,コアとなる車間相互作用との比較もできない。 本稿では,対話型シナリオ分類とラベル付けのためのフレームワークを提案する。 車両インタラクションの基本タイプの要約に基づいて,シナリオデータストリームを時空間的シナリオ進化ツリーを介して,一連のシナリオセグメントにスライスする。 多くの公開シナリオデータセットのシナリオセグメント統計をさらに分析する。 また,グラフ計算木と動的時間ウォーピングに基づいて,シナリオ比較とラベル付けを行うためのシナリオメトリックグラフdtwを提案する。 極端なインタラクティブなシナリオやコーナーケースを効率的にフィルタして抽出することができる。 さらに,軌道予測モデルを用いた実験例では,シナリオラベリングの有効性と有効性を示した。 全体的なフレームワークは、シナリオデータの使用とインデックス化をしっかりとサポートできる。

Scenario data play a vital role in autonomous driving related researches, and it is essential to obtain refined descriptions and labels to extract and index scenarios with different types of interactions. However, existing methods cannot cope well with the problem of scenario classification and comparison with vehicle interactions as the core. In this paper, we propose a framework for interaction-based refined scenario classification and labeling. Based on the summarized basic types of vehicle interactions, we slice scenario data stream into a series of scenario segments via spatiotemporal scenario evolution tree. The scenario segment statistics of many published scenario datasets are further analyzed. We also propose the scenario metric Graph-DTW based on Graph Computation Tree and Dynamic Time Warping to conduct refined scenario comparison and labeling. The extreme interactive scenarios and corner cases can be efficiently filtered and extracted. Moreover, testing examples on trajectory prediction model demonstrate the effectiveness and advantages of scenario labeling and the proposed metric. The overall framework can provide solid support for the usage and indexing of scenario data.
翻訳日:2024-02-13 13:56:20 公開日:2024-02-12
# いくつかの統計モデル間の効率的な削減

Efficient reductions between some statistical models ( http://arxiv.org/abs/2402.07717v1 )

ライセンス: Link先を確認
Mengqi Lou, Guy Bresler, Ashwin Pananjady(参考訳) 本研究では,ソースモデルのパラメータを知らずに,サンプルをソース統計モデルからターゲット統計モデルに大まかに変換する問題について検討し,統計実験間の還元を計算的に効率的に構築する。 特に、一様、Erlang、Laplaceの位置モデルを一般的なターゲットファミリーに大まかに還元する計算効率の良い手順を提供する。 本手法は,標準高次元問題,専門家の混合,位相検索,信号デノイジン間の非漸近的還元を定め,本手法を説明する。 特に、削減は構造保存であり、欠落したデータに対応できる。 また、微分プライベートなメカニズムを別のメカニズムに変換する応用の可能性についても指摘します。

We study the problem of approximately transforming a sample from a source statistical model to a sample from a target statistical model without knowing the parameters of the source model, and construct several computationally efficient such reductions between statistical experiments. In particular, we provide computationally efficient procedures that approximately reduce uniform, Erlang, and Laplace location models to general target families. We illustrate our methodology by establishing nonasymptotic reductions between some canonical high-dimensional problems, spanning mixtures of experts, phase retrieval, and signal denoising. Notably, the reductions are structure preserving and can accommodate missing data. We also point to a possible application in transforming one differentially private mechanism to another.
翻訳日:2024-02-13 13:56:05 公開日:2024-02-12
# モデル崩壊の謎:回帰の場合

Model Collapse Demystified: The Case of Regression ( http://arxiv.org/abs/2402.07712v1 )

ライセンス: Link先を確認
Elvis Dohmatob, Yunzhen Feng and Julia Kempe(参考訳) ChatGPTのような大規模言語モデルの時代において、「モデル崩壊」という現象は、モデルが過去の世代から生成されたデータに基づいて再帰的に訓練されることで、モデルが最終的に完全に役に立たないようになるまでその性能が低下する状況である。 本研究では,この現象を,カーネル回帰の簡易な設定において検討し,モデルが偽データに対処できる場所と,モデルの性能が完全に崩壊する状態との明確な交差関係を示す結果を得る。 多項式減衰スペクトルおよび震源条件下では、高速から低速のクロスオーバー現象を示す改良されたスケーリング法則が得られる。 また、モデル崩壊を緩和する適応正則化に基づく簡単な戦略を提案する。 我々の理論的結果は実験によって検証される。

In the era of large language models like ChatGPT, the phenomenon of "model collapse" refers to the situation whereby as a model is trained recursively on data generated from previous generations of itself over time, its performance degrades until the model eventually becomes completely useless, i.e the model collapses. In this work, we study this phenomenon in the simplified setting of kernel regression and obtain results which show a clear crossover between where the model can cope with fake data, and a regime where the model's performance completely collapses. Under polynomial decaying spectral and source conditions, we obtain modified scaling laws which exhibit new crossover phenomena from fast to slow rates. We also propose a simple strategy based on adaptive regularization to mitigate model collapse. Our theoretical results are validated with experiments.
翻訳日:2024-02-13 13:55:44 公開日:2024-02-12
# CUDAを用いたGPU上の3Dポイントクラウドのためのスパース畳み込みの最適化

Optimization of Sparse Convolution for 3D-Point Cloud on GPUs with CUDA ( http://arxiv.org/abs/2402.07710v1 )

ライセンス: Link先を確認
Chester Luo, Kevin Lai(参考訳) 近年、画像解析や処理など、構造化グリッドデータを含む様々な領域において支配的なアプローチとして出現した深層学習法、特に畳み込みニューラルネットワーク(cnns)の利用が著しく増加している。 しかし、LiDARと3Dセンサーの利用が多くの領域で指数関数的に増加し、3D点雲の分析の必要性が高まっている。 3次元点雲の利用は、物体認識やセグメンテーションなどの様々な用途において重要である。 写真とは対照的に、点雲はスパーシティを示し、規則的なグリッドを欠いているため、異なる処理と計算の問題を引き起こす。

In recent years, there has been a significant increase in the utilization of deep learning methods, particularly convolutional neural networks (CNNs), which have emerged as the dominant approach in various domains that involve structured grid data, such as picture analysis and processing. Nevertheless, the exponential growth in the utilization of LiDAR and 3D sensors across many domains has resulted in an increased need for the analysis of 3D point clouds. The utilization of 3D point clouds is crucial in various applications, including object recognition and segmentation, as they offer a spatial depiction of things within a three-dimensional environment. In contrast to photos, point clouds exhibit sparsity and lack a regular grid, hence posing distinct processing and computational issues.
翻訳日:2024-02-13 13:55:22 公開日:2024-02-12
# 左心房細動のサイン付き距離場に基づくセグメンテーションと統計的形状モデリング

Signed Distance Field based Segmentation and Statistical Shape Modelling of the Left Atrial Appendage ( http://arxiv.org/abs/2402.07708v1 )

ライセンス: Link先を確認
Kristine Aavild Juhl, Jakob Slipsager, Ole de Backer, Klaus Kofoed, Oscar Camara and Rasmus Paulsen(参考訳) 心房細動の患者は虚血性脳梗塞のリスクを5〜7倍に高める。 これらの症例では、血栓局在の最も一般的な部位は左心房細動 (LAA) 内であり、LAAの形状と虚血性脳卒中リスクとの相関が示されている。 これらの研究は、手動による形状測定と定性的評価を利用しており、そのため、異なる研究における結論の矛盾を説明できる大規模なサーバ間差が生じやすい。 定量的形状記述子は,LAA形態を強く特徴付け,他の機能パラメータや脳卒中リスクと関連付ける必要がある。 深層学習法はCT(Computed tomography)などの高分解能画像から心血管構造を抽出するための標準的手法となっているが,LAAセグメンテーションではごくわずかしかテストされていない。 さらに、セグメンテーションアルゴリズムの大部分は、統計形状解析や計算流体モデリングなど、さらなる処理に理想的でない非スムース3dモデルを生成する。 本稿では,画像分割,メッシュモデル作成,laaの統計的形状モデリングのための完全自動パイプラインを提案する。 LAA解剖学は署名距離場(SDF)として暗黙的に表現され、Deep Learningを用いてCT画像から直接回帰する。 SDFはさらに、LAA形状を共通のテンプレートに登録し、統計形状モデル(SSM)を構築するために使われる。 106個の自動区分けされたLAAに基づいて、構築されたSSMは、LAA形状を約5つのPCAモードで定量化することができ、いわゆるチキンウィングと非チキンウィングの形態に対応する2つの異なる形状クラスターを識別できることを示した。

Patients with atrial fibrillation have a 5-7 fold increased risk of having an ischemic stroke. In these cases, the most common site of thrombus localization is inside the left atrial appendage (LAA) and studies have shown a correlation between the LAA shape and the risk of ischemic stroke. These studies make use of manual measurement and qualitative assessment of shape and are therefore prone to large inter-observer discrepancies, which may explain the contradictions between the conclusions in different studies. We argue that quantitative shape descriptors are necessary to robustly characterize LAA morphology and relate to other functional parameters and stroke risk. Deep Learning methods are becoming standardly available for segmenting cardiovascular structures from high resolution images such as computed tomography (CT), but only few have been tested for LAA segmentation. Furthermore, the majority of segmentation algorithms produces non-smooth 3D models that are not ideal for further processing, such as statistical shape analysis or computational fluid modelling. In this paper we present a fully automatic pipeline for image segmentation, mesh model creation and statistical shape modelling of the LAA. The LAA anatomy is implicitly represented as a signed distance field (SDF), which is directly regressed from the CT image using Deep Learning. The SDF is further used for registering the LAA shapes to a common template and build a statistical shape model (SSM). Based on 106 automatically segmented LAAs, the built SSM reveals that the LAA shape can be quantified using approximately 5 PCA modes and allows the identification of two distinct shape clusters corresponding to the so-called chicken-wing and non-chicken-wing morphologies.
翻訳日:2024-02-13 13:54:59 公開日:2024-02-12
# 炭素添加シリコンにおける真正・偽単一g中心

Genuine and faux single G centers in carbon-implanted silicon ( http://arxiv.org/abs/2402.07705v1 )

ライセンス: Link先を確認
Alrik Durand, Yoann Baron, F\'elix Cache, Tobias Herzig, Mario Khoury, S\'ebastien Pezzagna, Jan Meijer, Jean-Michel Hartmann, Shay Reboh, Marco Abbarchi, Isabelle Robert-Philip, Jean-Michel G\'erard, Vincent Jacques, Guillaume Cassabois and Ana\"is Dr\'eau(参考訳) シリコンで調査された蛍光欠陥の多種多様の中で、多くの研究はゼロフォノンラインを持つ色中心に焦点を合わせており、シリコンの一般的な炭素錯体、すなわちG中心と同一視されている。 しかし、量子効率に関する一貫性のない推定は、これらの個々のエミッターの正確な同定に疑問を投げかけた。 単光子放射特性の比較分析により、これらの単色中心が2つの異なる点欠陥の族に分裂していることが示される。 第1のファミリーは、よく同定された顕微鏡構造を持つ本物の単一G中心で構成され、その発光は60年代からアンサンブル測定で研究されている。 残りの欠陥は新しいカラーセンターに属しており、それはg$^{\star}$ centerと呼ばれ、その原子構成はまだ決定されていない。 これらの結果は、G または G$^{\star}$ 中心量子特性に依存する量子技術のさらなる発展に不可欠である将来の欠陥の誤同定に対する保護を与える。

Among the wide variety of single fluorescent defects investigated in silicon, numerous studies have focused on color centers with a zero-phonon line around $1.28 \mu$m and identified to a common carbon-complex in silicon, namely the G center. However, inconsistent estimates regarding their quantum efficiency cast doubt on the correct identification of these individual emitters. Through a comparative analysis of their single-photon emission properties, we demonstrate that these single color centers are split in two distinct families of point defects. A first family consists of the genuine single G centers with a well-identified microscopic structure and whose photoluminescence has been investigated on ensemble measurements since the 60's. The remaining defects belong to a new color center, which we will refer to as G$^{\star}$ center, whose atomic configuration has yet to be determined. These results provide a safeguard against future defect misidentifications, which is crucial for further development of quantum technologies relying on G or G$^{\star}$ center quantum properties.
翻訳日:2024-02-13 13:53:27 公開日:2024-02-12
# 未知の遅延を伴うオンラインシークエンシャル意思決定

Online Sequential Decision-Making with Unknown Delays ( http://arxiv.org/abs/2402.07703v1 )

ライセンス: Link先を確認
Ping Wu and Heyan Huang and Zhengyang Liu(参考訳) オンライン・シーケンシャルな意思決定の分野では、オンライン・凸最適化(oco)の枠組みを利用して遅延の問題に対処し、決定のフィードバックが未知の遅延で届くようにする。 ユークリッドノルムや勾配情報に限定された従来の研究とは異なり、様々な種類のフィードバックを処理する近似解に基づく遅延アルゴリズムの3つのファミリーを提案する。 提案アルゴリズムは万能であり,普遍規範にも適用可能である。 具体的には、損失関数の完全な情報によるフィードバックのための遅延正規化リーダアルゴリズムのファミリーと、損失関数の勾配情報によるフィードバックのための遅延ミラーDescentアルゴリズムのファミリーと、損失関数の勾配の値情報によるフィードバックのための単純化された遅延ミラーDescentアルゴリズムのファミリーを紹介する。 各アルゴリズムに対して、一般凸性および相対的強凸性の場合の対応する後悔境界を提供する。 また,具体的な例によって,各アルゴリズムの効率性を異なる規範で示す。 さらに, 理論結果は, 標準設定に分解した場合の現在の最適境界値と一致している。

In the field of online sequential decision-making, we address the problem with delays utilizing the framework of online convex optimization (OCO), where the feedback of a decision can arrive with an unknown delay. Unlike previous research that is limited to Euclidean norm and gradient information, we propose three families of delayed algorithms based on approximate solutions to handle different types of received feedback. Our proposed algorithms are versatile and applicable to universal norms. Specifically, we introduce a family of Follow the Delayed Regularized Leader algorithms for feedback with full information on the loss function, a family of Delayed Mirror Descent algorithms for feedback with gradient information on the loss function and a family of Simplified Delayed Mirror Descent algorithms for feedback with the value information of the loss function's gradients at corresponding decision points. For each type of algorithm, we provide corresponding regret bounds under cases of general convexity and relative strong convexity, respectively. We also demonstrate the efficiency of each algorithm under different norms through concrete examples. Furthermore, our theoretical results are consistent with the current best bounds when degenerated to standard settings.
翻訳日:2024-02-13 13:52:51 公開日:2024-02-12
# アルゴリズムフェアネスとカラーブラインド・ラシズム--交差点を案内する

Algorithmic Fairness and Color-blind Racism: Navigating the Intersection ( http://arxiv.org/abs/2402.07778v1 )

ライセンス: Link先を確認
Jamelle Watson-Daniels(参考訳) 我々の焦点は、(1)アルゴリズムの科学的研究、(2)人種と人種差別に関する学問の2つの研究視点の交差にある。 アルゴリズム的公正に関する多くの研究の流れがこの交差点で関心から生まれた。 私たちはこの交差点を、両側から派生した仕事の産物と考える。 1)アルゴリズムから(2)人種差別まで、開始地は人種差別の概念化に結びつくアルゴリズム的な問題や方法かもしれない。 一方,(2)の人種差別から(1)のアルゴリズムに至るまで,人種差別の遺産が存続していることや,その遺産とアルゴリズムの導入とのつながりをこの設定に描き出すような設定を,出発点として認識することができる。 どちらの方向でも、人種差別とアルゴリズムの交差点で研究を行う際に有意義な解離が起こる。 本稿では,この交差点における研究方向の集合的反映を促す。 主に人種バイアスの事例に動機づけられているにもかかわらず、アルゴリズム的公平性の研究は、人種差別に関する奨学金からほとんど切り離されている。 特に、色盲人種差別のイデオロギーに直接アルゴリズム的公平性議論を結びつける検討は行われておらず、このギャップを埋めようとしている。 まず、色盲人種差別に関する本質的な説明をレビューし、アルゴリズム的公平性研究における人種的言説をレビューし、重要なパターン、シフト、切り離しを強調する。 究極的には、研究者は、イデオロギー的な変化を認識し、学際線間の有意義な接続を維持するために反復的に方向転換することで、交差点での景観のナビゲーションを改善することができると主張する。

Our focus lies at the intersection between two broader research perspectives: (1) the scientific study of algorithms and (2) the scholarship on race and racism. Many streams of research related to algorithmic fairness have been born out of interest at this intersection. We think about this intersection as the product of work derived from both sides. From (1) algorithms to (2) racism, the starting place might be an algorithmic question or method connected to a conceptualization of racism. On the other hand, from (2) racism to (1) algorithms, the starting place could be recognizing a setting where a legacy of racism is known to persist and drawing connections between that legacy and the introduction of algorithms into this setting. In either direction, meaningful disconnection can occur when conducting research at the intersection of racism and algorithms. The present paper urges collective reflection on research directions at this intersection. Despite being primarily motivated by instances of racial bias, research in algorithmic fairness remains mostly disconnected from scholarship on racism. In particular, there has not been an examination connecting algorithmic fairness discussions directly to the ideology of color-blind racism; we aim to fill this gap. We begin with a review of an essential account of color-blind racism then we review racial discourse within algorithmic fairness research and underline significant patterns, shifts and disconnects. Ultimately, we argue that researchers can improve the navigation of the landscape at the intersection by recognizing ideological shifts as such and iteratively re-orienting towards maintaining meaningful connections across interdisciplinary lines.
翻訳日:2024-02-13 13:45:49 公開日:2024-02-12
# teller: 説明、一般化、制御可能な偽ニュース検出のための信頼できるフレームワーク

TELLER: A Trustworthy Framework for Explainable, Generalizable and Controllable Fake News Detection ( http://arxiv.org/abs/2402.07776v1 )

ライセンス: Link先を確認
Hui Liu, Wenya Wang, Haoru Li, Haoliang Li(参考訳) 偽ニュースの拡散は深刻な社会問題として現れ、産業や学界から大きな関心を集めている。 既存のディープラーニングに基づく手法では、偽ニュースの正確な検出が進んでいるが、その信頼性は、非透明な推論プロセス、一般化能力の欠如、大型言語モデル(LLM)との統合の固有のリスクによって損なわれる可能性がある。 この課題に対処するため,我々は,モデルの説明可能性,一般化性,制御性を優先する,信頼性の高い偽ニュース検出のための新しいフレームワークである {\methodname} を提案する。 これは認知と意思決定システムを統合したデュアルシステムフレームワークによって実現され、上記の原則に準拠している。 認知システムは人間の専門知識を活用して論理述語を生成する。 一方、決定システムは、これらの原子を集約する一般化可能な論理則を導出し、様々な領域にわたる入力ニュースの真偽を識別し、意思決定プロセスにおける透明性を高める。 最後に,4つのデータセットについて総合的な評価結果を示し,提案手法の有効性と信頼性を示す。 我々の実装は \url{https://github.com/less-and-less-bugs/Trust_TELLER} で利用可能です。

The proliferation of fake news has emerged as a severe societal problem, raising significant interest from industry and academia. While existing deep-learning based methods have made progress in detecting fake news accurately, their reliability may be compromised caused by the non-transparent reasoning processes, poor generalization abilities and inherent risks of integration with large language models (LLMs). To address this challenge, we propose {\methodname}, a novel framework for trustworthy fake news detection that prioritizes explainability, generalizability and controllability of models. This is achieved via a dual-system framework that integrates cognition and decision systems, adhering to the principles above. The cognition system harnesses human expertise to generate logical predicates, which guide LLMs in generating human-readable logic atoms. Meanwhile, the decision system deduces generalizable logic rules to aggregate these atoms, enabling the identification of the truthfulness of the input news across diverse domains and enhancing transparency in the decision-making process. Finally, we present comprehensive evaluation results on four datasets, demonstrating the feasibility and trustworthiness of our proposed framework. Our implementation is available at \url{https://github.com/less-and-less-bugs/Trust_TELLER}.
翻訳日:2024-02-13 13:45:22 公開日:2024-02-12
# 不確実性下における公平な多目的最適化のためのエンドツーエンド学習

End-to-End Learning for Fair Multiobjective Optimization Under Uncertainty ( http://arxiv.org/abs/2402.07772v1 )

ライセンス: Link先を確認
My H Dinh and James Kotary and Ferdinando Fioretto(参考訳) 人工知能と操作研究における多くの決定プロセスは、パラメータが未知で観測可能なデータから推測されるパラメトリック最適化問題によってモデル化されている。 機械学習におけるPtO(Predict-Then-Optimize)パラダイムは、パラメトリック推論モデルをエンドツーエンドにトレーニングすることで、下流の意思決定品質を最大化することを目的としている。 これは、問題の形式に特有の近似技術、特に非微分可能線形および混合整数プログラムを用いた最適化問題によるバックプロパゲーションを必要とする。 本稿では,PtO法を拡張して,決定モデルの公平性と堅牢性を保証する能力で知られている,非微分可能重み付き平均化(OWA)目標を用いた問題の最適化を行う。 そこで本研究では,owa関数の最適化をパラメトリック予測と効果的に統合し,不確実性下で公平かつ堅牢な最適化を行う方法を示す。

Many decision processes in artificial intelligence and operations research are modeled by parametric optimization problems whose defining parameters are unknown and must be inferred from observable data. The Predict-Then-Optimize (PtO) paradigm in machine learning aims to maximize downstream decision quality by training the parametric inference model end-to-end with the subsequent constrained optimization. This requires backpropagation through the optimization problem using approximation techniques specific to the problem's form, especially for nondifferentiable linear and mixed-integer programs. This paper extends the PtO methodology to optimization problems with nondifferentiable Ordered Weighted Averaging (OWA) objectives, known for their ability to ensure properties of fairness and robustness in decision models. Through a collection of training techniques and proposed application settings, it shows how optimization of OWA functions can be effectively integrated with parametric prediction for fair and robust optimization under uncertainty.
翻訳日:2024-02-13 13:44:58 公開日:2024-02-12
# 大規模言語モデルからの量的知識検索

Quantitative knowledge retrieval from large language models ( http://arxiv.org/abs/2402.07770v1 )

ライセンス: Link先を確認
David Selby, Kai Spriestersbach, Yuichiro Iwashita, Dennis Bappert, Archana Warrier, Sumantrak Mukherjee, Muhammad Nabeel Asim, Koichi Kise, Sebastian Vollmer(参考訳) 大規模言語モデル (LLM) は, 説得力のある自然言語配列を生成する能力について広く研究されてきたが, 定量的情報検索にはあまり有用ではない。 本稿では,ベイズモデルの事前分布の解明や欠落データのインプテーションといったデータ分析タスクを支援するために,量的知識検索のメカニズムとしてのllmの実現可能性を検討する。 本稿では,LLMを科学文献の潜在空間へのインタフェースとして扱い,異なる文脈や領域の応答を,より確立されたアプローチと比較する,迅速なエンジニアリングフレームワークを提案する。 LLMを「専門家」として使うことの意味と課題について論じる。

Large language models (LLMs) have been extensively studied for their abilities to generate convincing natural language sequences, however their utility for quantitative information retrieval is less well understood. In this paper we explore the feasibility of LLMs as a mechanism for quantitative knowledge retrieval to aid data analysis tasks such as elicitation of prior distributions for Bayesian models and imputation of missing data. We present a prompt engineering framework, treating an LLM as an interface to a latent space of scientific literature, comparing responses in different contexts and domains against more established approaches. Implications and challenges of using LLMs as 'experts' are discussed.
翻訳日:2024-02-13 13:44:40 公開日:2024-02-12
# 英語とヒンディー語におけるスタイル伝達としてのテキストデトックス化

Text Detoxification as Style Transfer in English and Hindi ( http://arxiv.org/abs/2402.07767v1 )

ライセンス: Link先を確認
Sourabrata Mukherjee, Akanksha Bansal, Atul Kr. Ojha, John P. McCrae, Ond\v{r}ej Du\v{s}ek(参考訳) 本論文は, 有毒テキストを非有毒テキストに自動的に変換するテキストデトックス化に焦点を当てている。 このタスクは、より安全でより尊敬されるオンラインコミュニケーションに寄与し、テキストスタイルの保存中にテキストスタイルが変化するテキストスタイル転送(TST)タスクと見なすことができる。 本稿では,類似タスクからの知識伝達,マルチタスク学習,シーケンス・ツー・シーケンス・モデリングと各種毒性分類タスクの併用,削除・再構築の3つのアプローチを提案する。 この研究を支援するために,Dementievaらが提供するデータセットを利用する。 (2021年)有毒なテキストに対応する無毒化テキストの複数バージョンを含む。 実験では、専門家のアノテータを通して最適な変種を選択し、有害な文章を1つの適切なデトックス化バージョンと組み合わせたデータセットを作成しました。 さらに,評価目的に適した英語データセットの一部と整合した,小型のヒンディ並列データセットも導入した。 以上の結果から,本手法は実際のコンテンツの保存と流血の維持を両立させながら,効果的にテキスト中毒のバランスをとることが判明した。

This paper focuses on text detoxification, i.e., automatically converting toxic text into non-toxic text. This task contributes to safer and more respectful online communication and can be considered a Text Style Transfer (TST) task, where the text style changes while its content is preserved. We present three approaches: knowledge transfer from a similar task, multi-task learning approach, combining sequence-to-sequence modeling with various toxicity classification tasks, and, delete and reconstruct approach. To support our research, we utilize a dataset provided by Dementieva et al.(2021), which contains multiple versions of detoxified texts corresponding to toxic texts. In our experiments, we selected the best variants through expert human annotators, creating a dataset where each toxic sentence is paired with a single, appropriate detoxified version. Additionally, we introduced a small Hindi parallel dataset, aligning with a part of the English dataset, suitable for evaluation purposes. Our results demonstrate that our approach effectively balances text detoxication while preserving the actual content and maintaining fluency.
翻訳日:2024-02-13 13:44:30 公開日:2024-02-12
# スパースコンテキスト固有の因果システムのためのスケーラブルな構造学習

Scalable Structure Learning for Sparse Context-Specific Causal Systems ( http://arxiv.org/abs/2402.07762v1 )

ライセンス: Link先を確認
Felix Leopoldo Rios, Alex Markham, Liam Solus(参考訳) 構造学習アルゴリズムとともに, 共分散カテゴリ変数間のコンテキスト固有関係をグラフィカルに表現する手法がいくつか提案されている。 既存の最適化ベースの手法は、多くのコンテキスト特化モデルによりスケーラビリティが制限されているが、制約ベースのDAG学習アルゴリズムよりも制約ベースの手法の方がエラーを起こしやすい。 我々は,標準dag学習アルゴリズム以上の制約をテストしながら,数百変数までスケール可能なコンテキスト固有モデル学習のためのハイブリッドアルゴリズムを提案する。 スケーラブルな学習は、順序に基づくMCMCアルゴリズムと、DAGモデルで一般的に呼び出されるものと類似した空間性仮定を組み合わせることで達成される。 本手法を実装するために,最近 alon と balogh が提起したオープン問題の特別な場合を解決する。 この手法は, 精度とスケーラビリティの両方の観点から, 合成データと実世界の実例で良好に動作することを示す。

Several approaches to graphically representing context-specific relations among jointly distributed categorical variables have been proposed, along with structure learning algorithms. While existing optimization-based methods have limited scalability due to the large number of context-specific models, the constraint-based methods are more prone to error than even constraint-based DAG learning algorithms since more relations must be tested. We present a hybrid algorithm for learning context-specific models that scales to hundreds of variables while testing no more constraints than standard DAG learning algorithms. Scalable learning is achieved through a combination of an order-based MCMC algorithm and sparsity assumptions analogous to those typically invoked for DAG models. To implement the method, we solve a special case of an open problem recently posed by Alon and Balogh. The method is shown to perform well on synthetic data and real world examples, in terms of both accuracy and scalability.
翻訳日:2024-02-13 13:44:11 公開日:2024-02-12
# 変圧器のステップワイズ推論の理解に向けて:合成グラフナビゲーションモデル

Towards an Understanding of Stepwise Inference in Transformers: A Synthetic Graph Navigation Model ( http://arxiv.org/abs/2402.07757v1 )

ライセンス: Link先を確認
Mikail Khona, Maya Okawa, Jan Hula, Rahul Ramesh, Kento Nishi, Robert Dick, Ekdeep Singh Lubana, Hidenori Tanaka(参考訳) scratchpadsやchain-of-thoughtのようなステップワイズ推論プロトコルは、言語モデルが複雑な問題を解決するのに役立つ。 これらのプロトコルによる性能向上にもかかわらず、段階的推論の基本的なメカニズムはいまだ解明されていない。 そこで本研究では,ステップワイズ推論が一般的に有用である問題の多段階の性質を具現化した,自動回帰変換器モデルを提案する。 具体的には、モデルがグラフの開始からゴールノードへのパスをトラバースするタスクを課すグラフナビゲーション問題を定義する。 単純さにも拘わらず、大規模に観測されたいくつかの現象を経験的に再現し分析できることがわかりました。 (i)訓練データの構造において見出される段階的な推論推論ギャップ 二 サンプリング温度の変動によるモデル世代における多様性・正確性トレードオフ (iii)モデルの出力の単純さのバイアス (iv)in-contextexemplarsによる構成一般化とプライマシーバイアス。 全体として、我々の研究はステップワイズ推論を研究するための基礎的な合成フレームワークを導入し、この現象をより深く理解するための基礎となる機械的な仮説を提供します。

Stepwise inference protocols, such as scratchpads and chain-of-thought, help language models solve complex problems by decomposing them into a sequence of simpler subproblems. Despite the significant gain in performance achieved via these protocols, the underlying mechanisms of stepwise inference have remained elusive. To address this, we propose to study autoregressive Transformer models on a synthetic task that embodies the multi-step nature of problems where stepwise inference is generally most useful. Specifically, we define a graph navigation problem wherein a model is tasked with traversing a path from a start to a goal node on the graph. Despite is simplicity, we find we can empirically reproduce and analyze several phenomena observed at scale: (i) the stepwise inference reasoning gap, the cause of which we find in the structure of the training data; (ii) a diversity-accuracy tradeoff in model generations as sampling temperature varies; (iii) a simplicity bias in the model's output; and (iv) compositional generalization and a primacy bias with in-context exemplars. Overall, our work introduces a grounded, synthetic framework for studying stepwise inference and offers mechanistic hypotheses that can lay the foundation for a deeper understanding of this phenomenon.
翻訳日:2024-02-13 13:43:56 公開日:2024-02-12
# 思考の拡散:拡散言語モデルにおける思考の連鎖

Diffusion of Thoughts: Chain-of-Thought Reasoning in Diffusion Language Models ( http://arxiv.org/abs/2402.07754v1 )

ライセンス: Link先を確認
Jiacheng Ye, Shansan Gong, Liheng Chen, Lin Zheng, Jiahui Gao, Han Shi, Chuan Wu, Zhenguo Li, Wei Bi, Lingpeng Kong(参考訳) 拡散モデルはテキスト処理で注目を集めており、従来の自己回帰モデルよりも多くの利点がある。 本研究は,自己回帰型言語モデルにおける推論能力を向上する手法として,拡散モデルとChain-of-Thought(CoT)の統合について検討する。 我々は,拡散過程を通じて時間の経過とともに推論ステップが拡散できるように,思考の拡散(dot)を提案する。 従来の自己回帰型言語モデルとは対照的に、dotは計算と推論のパフォーマンスの間のトレードオフにおいて、より柔軟性を提供します。 実験の結果,マルチ桁乗算と小学校数学における DoT の有効性が示された。 さらにDoTでは,自己整合性復号化のような既存の推論向上技術による,有望な自己補正能力とメリットも紹介している。 本研究は,拡散言語モデルにおける推論能力の理解と開発に寄与する。

Diffusion models have gained attention in text processing, offering many potential advantages over traditional autoregressive models. This work explores the integration of diffusion models and Chain-of-Thought (CoT), a well-established technique to improve the reasoning ability in autoregressive language models. We propose Diffusion-of-Thought (DoT), allowing reasoning steps to diffuse over time through the diffusion process. In contrast to traditional autoregressive language models that make decisions in a left-to-right, token-by-token manner, DoT offers more flexibility in the trade-off between computation and reasoning performance. Our experimental results demonstrate the effectiveness of DoT in multi-digit multiplication and grade school math problems. Additionally, DoT showcases promising self-correction abilities and benefits from existing reasoning-enhancing techniques like self-consistency decoding. Our findings contribute to the understanding and development of reasoning capabilities in diffusion language models.
翻訳日:2024-02-13 13:43:37 公開日:2024-02-12
# 混合Q-Functionals:連続行動領域を持つ協調MARLにおける価値に基づく手法の改善

Mixed Q-Functionals: Advancing Value-Based Methods in Cooperative MARL with Continuous Action Domains ( http://arxiv.org/abs/2402.07752v1 )

ライセンス: Link先を確認
Yasin Findik and S. Reza Ahmadzadeh(参考訳) マルチエージェント学習問題を効率的に取り組むことは、継続的行動領域において難しい課題である。 値ベースのアルゴリズムは、離散アクションドメインに適用するとサンプル効率が優れているが、連続アクションを扱う場合、通常非効率である。 一方、政策に基づくアルゴリズムは、批判ネットワークを活用して学習プロセスの指導と勾配推定の安定化を図り、この問題に対処しようとする。 これらの手法における真の戻り値の推定と局所最適値への降下の制限は、非効率でしばしば準最適ポリシーをもたらす。 本稿では,批判ネットワークをさらに強化する傾向から脱却し,多数のアクションを同時評価することにより,マルチエージェント連続ドメインにおける価値ベース手法の有効性向上に焦点をあてる。 本稿では,q関数の概念に触発された混合q関数(mixed q-functionals,mqf)という,エージェントの基底関数への変換を可能にするアルゴリズムを提案する。 本アルゴリズムは,アクション値の混合によりエージェント間の協調を促進する。 本アルゴリズムの有効性を6つの協調マルチエージェントシナリオで評価した。 実験の結果,MQF は迅速な行動評価と試料効率の向上により,Deep Deterministic Policy Gradient の 4 つの変種を上回る性能を示した。

Tackling multi-agent learning problems efficiently is a challenging task in continuous action domains. While value-based algorithms excel in sample efficiency when applied to discrete action domains, they are usually inefficient when dealing with continuous actions. Policy-based algorithms, on the other hand, attempt to address this challenge by leveraging critic networks for guiding the learning process and stabilizing the gradient estimation. The limitations in the estimation of true return and falling into local optima in these methods result in inefficient and often sub-optimal policies. In this paper, we diverge from the trend of further enhancing critic networks, and focus on improving the effectiveness of value-based methods in multi-agent continuous domains by concurrently evaluating numerous actions. We propose a novel multi-agent value-based algorithm, Mixed Q-Functionals (MQF), inspired from the idea of Q-Functionals, that enables agents to transform their states into basis functions. Our algorithm fosters collaboration among agents by mixing their action-values. We evaluate the efficacy of our algorithm in six cooperative multi-agent scenarios. Our empirical findings reveal that MQF outperforms four variants of Deep Deterministic Policy Gradient through rapid action evaluation and increased sample efficiency.
翻訳日:2024-02-13 13:43:21 公開日:2024-02-12
# 経験ベイズ平滑化による最適スコア推定

Optimal score estimation via empirical Bayes smoothing ( http://arxiv.org/abs/2402.07747v1 )

ライセンス: Link先を確認
Andre Wibisono, Yihong Wu, Kaylee Yingxi Yang(参考訳) 未知確率分布$\rho^*$から$n$独立分布および$d$次元における同一分布観測値のスコア関数を推定する問題について検討する。 この推定問題に対する$\tilde \theta(n^{-\frac{2}{d+4}})$の最適レートを、スコアマッチングの文献で一般的に用いられる$\|\hat s - s^*\|^2_{l^2(\rho^*)} という損失関数の下で定め、正確なスコア推定のためのサンプル複雑性が指数関数的に$d$で増加するような次元の呪いを強調する。 実験ベイズ理論における重要な知見と、ヘリンガー距離における滑らかな経験的分布の新しい収束率を用いて、ガウス核に基づく正規化スコア推定器が、一致するミニマックス下界によって最適に示されるこの速度を達成することを示す。 また、スコアベース生成モデルのサンプル複雑性に関する理論の含意についても論じる。

We study the problem of estimating the score function of an unknown probability distribution $\rho^*$ from $n$ independent and identically distributed observations in $d$ dimensions. Assuming that $\rho^*$ is subgaussian and has a Lipschitz-continuous score function $s^*$, we establish the optimal rate of $\tilde \Theta(n^{-\frac{2}{d+4}})$ for this estimation problem under the loss function $\|\hat s - s^*\|^2_{L^2(\rho^*)}$ that is commonly used in the score matching literature, highlighting the curse of dimensionality where sample complexity for accurate score estimation grows exponentially with the dimension $d$. Leveraging key insights in empirical Bayes theory as well as a new convergence rate of smoothed empirical distribution in Hellinger distance, we show that a regularized score estimator based on a Gaussian kernel attains this rate, shown optimal by a matching minimax lower bound. We also discuss the implication of our theory on the sample complexity of score-based generative models.
翻訳日:2024-02-13 13:43:00 公開日:2024-02-12
# 深層学習を用いたCTおよびMRIにおける軟部腫瘍の最小相互分離

Minimally Interactive Segmentation of Soft-Tissue Tumors on CT and MRI using Deep Learning ( http://arxiv.org/abs/2402.07746v1 )

ライセンス: Link先を確認
Douwe J. Spaanderman (1), Martijn P. A. Starmans (1), Gonnie C. M. van Erp (1), David F. Hanff (1), Judith H. Sluijter (1), Anne-Rose W. Schut (2 and 3), Geert J. L. H. van Leenders (4), Cornelis Verhoef (2), Dirk J. Grunhagen (2), Wiro J. Niessen (5), Jacob J. Visser (1), Stefan Klein (1) ((1) Department of Radiology and Nuclear Medicine, Erasmus MC, Rotterdam, the Netherlands, (2) Department of Surgical Oncology, Erasmus MC Cancer Institute, Rotterdam, the Netherlands, (3) Department of Medical Oncology, Erasmus MC Cancer Institute, Rotterdam, the Netherlands, (4) Department of Pathology, Erasmus MC Cancer Institute, Rotterdam, the Netherlands, (5) Faculty of Medical Sciences, University of Groningen, Groningen, The Netherlands)(参考訳) セグメンテーションは、形態学的、体積的、放射線学的バイオマーカーを得るために医療画像において重要である。 手動セグメンテーションは正確であるが、放射線科医の臨床的ワークフローでは実現不可能である。 そこで我々は,ct および mri 上の軟部腫瘍 (stts) に対する,最小対話型深層学習に基づく分節法を開発した。 この方法では、腫瘍の境界付近の6箇所をクリックする必要がある。 これら6つの点は距離マップに変換され、畳み込みニューラルネットワークの入力として画像と共に機能する。 訓練と検証には,7つの解剖学的位置において514人の患者と9種類のSTT型を含むマルチセンターデータセットを用いて,CTでは0.85$\pm$0.11 (mean $\pm$ standard deviation (SD)),T1強調MRIでは0.84$\pm$0.12のDice similarity Coefficient (DSC)を使用した。 次に, T1強調MRIでは0.81$\pm$0.08, T1強調MRIでは0.84$\pm$0.09, T2強調MRIでは0.88\pm0.08であった。 結論として,本手法はCTとMRIの異なる種類のSTTを効果的に分割し,表現型や画像モダリティに頑健な一般化を行う。

Segmentations are crucial in medical imaging to obtain morphological, volumetric, and radiomics biomarkers. Manual segmentation is accurate but not feasible in the radiologist's clinical workflow, while automatic segmentation generally obtains sub-par performance. We therefore developed a minimally interactive deep learning-based segmentation method for soft-tissue tumors (STTs) on CT and MRI. The method requires the user to click six points near the tumor's extreme boundaries. These six points are transformed into a distance map and serve, with the image, as input for a Convolutional Neural Network. For training and validation, a multicenter dataset containing 514 patients and nine STT types in seven anatomical locations was used, resulting in a Dice Similarity Coefficient (DSC) of 0.85$\pm$0.11 (mean $\pm$ standard deviation (SD)) for CT and 0.84$\pm$0.12 for T1-weighted MRI, when compared to manual segmentations made by expert radiologists. Next, the method was externally validated on a dataset including five unseen STT phenotypes in extremities, achieving 0.81$\pm$0.08 for CT, 0.84$\pm$0.09 for T1-weighted MRI, and 0.88\pm0.08 for previously unseen T2-weighted fat-saturated (FS) MRI. In conclusion, our minimally interactive segmentation method effectively segments different types of STTs on CT and MRI, with robust generalization to previously unseen phenotypes and imaging modalities.
翻訳日:2024-02-13 13:42:31 公開日:2024-02-12
# 良いモデルの集合による予測的チャーン

Predictive Churn with the Set of Good Models ( http://arxiv.org/abs/2402.07745v1 )

ライセンス: Link先を確認
Jamelle Watson-Daniels, Flavio du Pin Calmon, Alexander D'Amour, Carol Long, David C. Parkes, Berk Ustun(参考訳) 現代のマスマーケットアプリケーションにおける機械学習モデルは、時間とともに更新されることが多い。 直面した最も大きな課題の1つは、全体的なパフォーマンス向上にもかかわらず、これらの更新が予測不能な方法で特定のモデル予測をひっくり返す可能性があることである。 実際に研究者は、モデルの事前と更新後の不安定な予測の数を定量化している。 本稿では、この効果を、予測多重性のレンズ、すなわち、近似モデル(羅生門集合)の集合上での矛盾する予測の頻度を通して研究する。 従来の予測多重性尺度を用いて、この予測モデルセット、すなわち、デプロイメントにおけるベースラインモデルを置き換えるために使用されるモデルの集合について、期待されるチャーンを検査する方法を示す。 異なる視点からラショモン集合内のモデル間の期待チャーンに関する理論的結果を示す。 そして私たちは、rashomonセットによるモデル更新よりも期待されているチャーンを特徴付け、実世界のデータセットに関する経験的な結果と分析を組み合わせることで、私たちのアプローチがコンシューマー向けアプリケーションのチャーンを予測、縮小、回避するのにどのように役立つかを示します。 さらに,不確実性意識が強化されたモデルにおいても,このアプローチが有効であることを示す。

Machine learning models in modern mass-market applications are often updated over time. One of the foremost challenges faced is that, despite increasing overall performance, these updates may flip specific model predictions in unpredictable ways. In practice, researchers quantify the number of unstable predictions between models pre and post update -- i.e., predictive churn. In this paper, we study this effect through the lens of predictive multiplicity -- i.e., the prevalence of conflicting predictions over the set of near-optimal models (the Rashomon set). We show how traditional measures of predictive multiplicity can be used to examine expected churn over this set of prospective models -- i.e., the set of models that may be used to replace a baseline model in deployment. We present theoretical results on the expected churn between models within the Rashomon set from different perspectives. And we characterize expected churn over model updates via the Rashomon set, pairing our analysis with empirical results on real-world datasets -- showing how our approach can be used to better anticipate, reduce, and avoid churn in consumer-facing applications. Further, we show that our approach is useful even for models enhanced with uncertainty awareness.
翻訳日:2024-02-13 13:41:59 公開日:2024-02-12
# エージェントと人間と環境の統一化に向けて

Towards Unified Alignment Between Agents, Humans, and Environment ( http://arxiv.org/abs/2402.07744v1 )

ライセンス: Link先を確認
Zonghan Yang, An Liu, Zijun Liu, Kaiming Liu, Fangzhou Xiong, Yile Wang, Zeyuan Yang, Qingyuan Hu, Xinrui Chen, Zhenhe Zhang, Fuwen Luo, Zhicheng Guo, Peng Li, Yang Liu(参考訳) 基礎モデルの急速な進歩は、基礎モデルの普遍的な能力を活用して推論、意思決定、環境相互作用を行う自律エージェントの繁栄につながった。 しかし、複雑な現実的な環境では、エージェントの有効性は限定的である。 本研究では, エージェントと人間の意図, 環境動態, 金融予算の制限などの自己契約の同時調整を提唱する, $\mathbf{u}$nified $\mathbf{a}$lignment for $\mathbf{a}$gents (\mathbf{ua}^2$) の原則を紹介する。 我々は,$\mathbf{ua}^2$の観点から,現在のエージェント研究を概観し,既存のエージェントベンチマークやメソッド候補における無視された要因を強調する。 また,webshopには,意図を示すユーザプロファイル,複雑な環境ダイナミクスのためのパーソナライズされたリランキング,自己制約を反映したランタイムコスト統計など,現実的な機能を導入して概念実証を行う。 次に、$\mathbf{UA}^2$の原則に従い、エージェントの初期設計を提案し、その性能を適合したWebShopのいくつかの候補ベースラインでベンチマークする。 広範な実験結果はさらに、$\mathbf{ua}^2$ の原理の重要性を証明した。 本研究は,一般問題解決能力を向上させた自律エージェント研究の次のステップに光を当てる。

The rapid progress of foundation models has led to the prosperity of autonomous agents, which leverage the universal capabilities of foundation models to conduct reasoning, decision-making, and environmental interaction. However, the efficacy of agents remains limited when operating in intricate, realistic environments. In this work, we introduce the principles of $\mathbf{U}$nified $\mathbf{A}$lignment for $\mathbf{A}$gents ($\mathbf{UA}^2$), which advocate for the simultaneous alignment of agents with human intentions, environmental dynamics, and self-constraints such as the limitation of monetary budgets. From the perspective of $\mathbf{UA}^2$, we review the current agent research and highlight the neglected factors in existing agent benchmarks and method candidates. We also conduct proof-of-concept studies by introducing realistic features to WebShop, including user profiles to demonstrate intentions, personalized reranking for complex environmental dynamics, and runtime cost statistics to reflect self-constraints. We then follow the principles of $\mathbf{UA}^2$ to propose an initial design of our agent, and benchmark its performance with several candidate baselines in the retrofitted WebShop. The extensive experimental results further prove the importance of the principles of $\mathbf{UA}^2$. Our research sheds light on the next steps of autonomous agent research with improved general problem-solving abilities.
翻訳日:2024-02-13 13:41:38 公開日:2024-02-12
# 複合対話型検索におけるマルチモーダル明確化の課題

Asking Multimodal Clarifying Questions in Mixed-Initiative Conversational Search ( http://arxiv.org/abs/2402.07742v1 )

ライセンス: Link先を確認
Yifei Yuan, Clemencia Siro, Mohammad Aliannejadi, Maarten de Rijke, Wai Lam(参考訳) 対話型検索システムでは、質問を明確にすることで、1つのクエリで意図を表現するのに苦労しているユーザーを助ける。 これらの質問は、ユーザの情報ニーズを明らかにし、クエリのあいまいさを解決することを目的としている。 マルチモーダル情報が関連するシナリオでは、非テキスト情報を用いて明確化プロセスを改善することができると仮定する。 そこで,本稿では,質問の明確化に画像を追加するとともに,オープンドメインの対話型検索システムにおいて,質問をマルチモーダルに問う新たなタスクを考案する。 このタスクの研究を容易にするために,4k以上のマルチモーダルを含むMelonというデータセットを収集し,14k以上の画像に富む。 また,マルチモーダルクエリの明確化モデルであるmartoを提案し,異なるプロンプトで異なるステージのトレーニングを行うための,プロンプトベースの生成的微調整戦略を採用する。 クエリの明確化フェーズにおけるマルチモーダルコンテンツの重要性を理解するために,いくつかの分析を行った。 実験結果から,画像の追加により,画像選択時の検索性能が最大90%向上することが示唆された。 また, マルトの優越性を示すために, 有効性および効率性の観点から, 判別基準線との比較を行った。

In mixed-initiative conversational search systems, clarifying questions are used to help users who struggle to express their intentions in a single query. These questions aim to uncover user's information needs and resolve query ambiguities. We hypothesize that in scenarios where multimodal information is pertinent, the clarification process can be improved by using non-textual information. Therefore, we propose to add images to clarifying questions and formulate the novel task of asking multimodal clarifying questions in open-domain, mixed-initiative conversational search systems. To facilitate research into this task, we collect a dataset named Melon that contains over 4k multimodal clarifying questions, enriched with over 14k images. We also propose a multimodal query clarification model named Marto and adopt a prompt-based, generative fine-tuning strategy to perform the training of different stages with different prompts. Several analyses are conducted to understand the importance of multimodal contents during the query clarification phase. Experimental results indicate that the addition of images leads to significant improvements of up to 90% in retrieval performance when selecting the relevant images. Extensive analyses are also performed to show the superiority of Marto compared with discriminative baselines in terms of effectiveness and efficiency.
翻訳日:2024-02-13 13:41:10 公開日:2024-02-12
# ソフトウェア開発ライフサイクルに焦点をあてたモノのインターネットのセキュリティ問題に直面するベストプラクティス

Best Practices for Facing the Security Challenges of Internet of Things Devices Focusing on Software Development Life Cycle ( http://arxiv.org/abs/2402.07832v1 )

ライセンス: Link先を確認
Md Rafid Islam, Ratun Rahman(参考訳) ここ数年、IoTデバイスの数は大幅に増加しており、この傾向は続く可能性が高い。 ますます増加するIoTデバイスのためのソフトウェアの開発に、ますます多くの努力が注がれている。 すべてのiotシステムは、デバイスが効率的に機能するソフトウェアを持っています。 しかし、この情報とテクノロジーの時代には常にセキュリティが懸念されている。 IoTデバイスのセキュリティは、脅威の増加による最優先事項となっている。 本研究は、IoTデバイスのソフトウェア開発に使用されるガイドラインに重点を置いて、IoTにおけるセキュリティを確保するためのベストプラクティスを紹介する。 この研究の目的は、潜在的な脅威に対する認識を高め、セキュアなソフトウェア開発ライフサイクルを強調することである。 この研究はまた、将来の開発への参考点となり、iotソフトウェアをセキュアにし、脆弱性に対処するための確固たる基盤を提供する。

In the past few years, the number of IoT devices has grown substantially, and this trend is likely to continue. An increasing amount of effort is being put into developing software for the ever-increasing IoT devices. Every IoT system at its core has software that enables the devices to function efficiently. But security has always been a concern in this age of information and technology. Security for IoT devices is now a top priority due to the growing number of threats. This study introduces best practices for ensuring security in the IoT, with an emphasis on guidelines to be utilized in software development for IoT devices. The objective of the study is to raise awareness of potential threats, emphasizing the secure software development lifecycle. The study will also serve as a point of reference for future developments and provide a solid foundation for securing IoT software and dealing with vulnerabilities.
翻訳日:2024-02-13 13:33:50 公開日:2024-02-12
# 逐次意思決定としての検索提示思考過程

Retrieval-Augmented Thought Process as Sequential Decision Making ( http://arxiv.org/abs/2402.07812v1 )

ライセンス: Link先を確認
Thomas Pouplin, Hao Sun, Samuel Holt, Mihaela van der Schaar(参考訳) 大規模言語モデル(llm)は、人々を支援し、「知性」を示す強力な能力を示している。 しかし、プライバシに対する懸念、幻覚を生み出す傾向、長いコンテキストを扱うことの難しさなど、いくつかのオープンな課題が彼らの幅広い応用を妨げる。 本稿では,Retrieval-Augmented Thought Process (RATP)を導入することで,これらの課題に対処する。 外部知識にアクセスすると、RATPは多段階決定プロセスとしてLLMの思考生成を定式化する。 このような思考プロセスを最適化するために、ratpはモンテカルロ木探索を活用し、コスト効率のよい推論を可能にするq値推定器を学習する。 倫理的およびセキュリティ上の懸念がLLMの訓練方法を制限しているプライベートデータによる質問応答の課題に対処するため、RATPは既存の文脈内検索強化言語モデルよりも50%改善されている。

Large Language Models (LLMs) have demonstrated their strong ability to assist people and show "sparks of intelligence". However, several open challenges hinder their wider application: such as concerns over privacy, tendencies to produce hallucinations, and difficulties in handling long contexts. In this work, we address those challenges by introducing the Retrieval-Augmented Thought Process (RATP). Given access to external knowledge, RATP formulates the thought generation of LLMs as a multiple-step decision process. To optimize such a thought process, RATP leverages Monte-Carlo Tree Search, and learns a Q-value estimator that permits cost-efficient inference. In addressing the task of question-answering with private data, where ethical and security concerns limit LLM training methods, RATP achieves a 50% improvement over existing in-context retrieval-augmented language models.
翻訳日:2024-02-13 13:33:37 公開日:2024-02-12
# 量子ウォーク、離散波動方程式およびチェビシェフ多項式

Quantum walks, the discrete wave equation and Chebyshev polynomials ( http://arxiv.org/abs/2402.07809v1 )

ライセンス: Link先を確認
Simon Apers and Laurent Miclo(参考訳) 量子ウォーク(quantum walk)は、ランダムウォークの量子アナログである。 量子ウォークがランダムウォークの速度をいかに速くするかは、比較的よく理解されているが、量子ウォークがグラフ上のランダムウォークの拡散や混合速度をどれだけ速くできるかは、長年の疑問である。 テレンス・タオ(terence tao)のブログ投稿に着想を得て,量子ウォークをグラフ上の離散波動方程式から導出する,この問題に対する特別な視点について述べる。 これにより、量子ウォークダイナミクスは、ランダムウォーク遷移行列に単にチェビシェフ多項式を適用するものとして記述される。 この観点は問題を量子起源から切り離し、バロポロス=カーヌ境界のようなランダムウォーク理論における初期の(量子でない)仕事とチェビシェフ多項式との接続を強調している。 我々は、格子上の量子ウォークダイナミクスの弱い限界を証明することによって、このアプローチを説明する。 これは格子上の量子ウォークの二次的に改善された拡散挙動の異なる証明を与える。

A quantum walk is the quantum analogue of a random walk. While it is relatively well understood how quantum walks can speed up random walk hitting times, it is a long-standing open question to what extent quantum walks can speed up the spreading or mixing rate of random walks on graphs. In this expository paper, inspired by a blog post by Terence Tao, we describe a particular perspective on this question that derives quantum walks from the discrete wave equation on graphs. This yields a description of the quantum walk dynamics as simply applying a Chebyshev polynomial to the random walk transition matrix. This perspective decouples the problem from its quantum origin, and highlights connections to earlier (non-quantum) work and the use of Chebyshev polynomials in random walk theory as in the Varopoulos-Carne bound. We illustrate the approach by proving a weak limit of the quantum walk dynamics on the lattice. This gives a different proof of the quadratically improved spreading behavior of quantum walks on lattices.
翻訳日:2024-02-13 13:33:23 公開日:2024-02-12
# Sourcerer:サンプルベース最大エントロピー源分布推定

Sourcerer: Sample-based Maximum Entropy Source Distribution Estimation ( http://arxiv.org/abs/2402.07808v1 )

ライセンス: Link先を確認
Julius Vetter, Guy Moss, Cornelius Schr\"oder, Richard Gao, Jakob H. Macke(参考訳) 科学的モデリングアプリケーションでは、しばしば観測のデータセットと一貫性のあるパラメータの分布を推定する必要がある。 しかし、多くの異なるソース分布がデータ一貫性のあるシミュレーションの同じ分布を生成する可能性があるため、この問題は不適切である。 等しく有効な多くの情報源の中から原則的選択を行うために,最大エントロピー分布,すなわち可能な限り不確実性を維持することを優先するアプローチを提案する。 本手法は純粋にサンプルベースであり,データセットとシミュレーション間の不一致を測定するためにスライスされたwasserstein距離を利用する。 本手法をいくつかのタスクでベンチマークし,シミュレーションの信頼性を犠牲にすることなく,より高いエントロピーで音源分布を回復できることを示した。 最後に,本手法の有用性を示すために,何千もの測定値を持つ実験データセットから,ホジキン・ホクスリーニューロンモデルのパラメータのソース分布を推定する。 本稿では,科学シミュレーションパラメータのユニークなソース分布を可能な限り不確実性を維持しつつ推定する枠組みを提案する。

Scientific modeling applications often require estimating a distribution of parameters consistent with a dataset of observations - an inference task also known as source distribution estimation. This problem can be ill-posed, however, since many different source distributions might produce the same distribution of data-consistent simulations. To make a principled choice among many equally valid sources, we propose an approach which targets the maximum entropy distribution, i.e., prioritizes retaining as much uncertainty as possible. Our method is purely sample-based - leveraging the Sliced-Wasserstein distance to measure the discrepancy between the dataset and simulations - and thus suitable for simulators with intractable likelihoods. We benchmark our method on several tasks, and show that it can recover source distributions with substantially higher entropy without sacrificing the fidelity of the simulations. Finally, to demonstrate the utility of our approach, we infer source distributions for parameters of the Hodgkin-Huxley neuron model from experimental datasets with thousands of measurements. In summary, we propose a principled framework for inferring unique source distributions of scientific simulator parameters while retaining as much uncertainty as possible.
翻訳日:2024-02-13 13:33:03 公開日:2024-02-12
# 拡散モデルにおける整合性トレーニングの数学的理論に向けて

Towards a mathematical theory for consistency training in diffusion models ( http://arxiv.org/abs/2402.07802v1 )

ライセンス: Link先を確認
Gen Li, Zhihan Huang, Yuting Wei(参考訳) 拡散モデルのサンプリングフェーズにおける高い計算オーバーヘッドを軽減するために提案された一貫性モデルは、最先端の経験的性能を達成しつつ、単段サンプリングを容易にする。 トレーニングフェーズに統合されると、一貫性モデルは拡散過程の任意の時点の任意の時点をその開始点にマッピングできる一連の一貫性関数を訓練しようとする。 実証的な成功にもかかわらず、一貫性のトレーニングに関する包括的な理論的理解はいまだ解明されていない。 本稿では,一貫性モデルの理論的基盤を確立するための第一歩を踏み出す。 分布の目標値に近い$\varepsilon$内でサンプルを生成するために(いくつかのwasersteinメトリックによって測定される)、一貫性学習のステップ数がデータ次元が$d$である$d^{5/2}/\varepsilon$のオーダーを超えるのに十分であることを示す。 我々の理論は一貫性モデルの有効性と有効性に関する厳密な洞察を与え、下流推論タスクにおけるそれらの有用性を示す。

Consistency models, which were proposed to mitigate the high computational overhead during the sampling phase of diffusion models, facilitate single-step sampling while attaining state-of-the-art empirical performance. When integrated into the training phase, consistency models attempt to train a sequence of consistency functions capable of mapping any point at any time step of the diffusion process to its starting point. Despite the empirical success, a comprehensive theoretical understanding of consistency training remains elusive. This paper takes a first step towards establishing theoretical underpinnings for consistency models. We demonstrate that, in order to generate samples within $\varepsilon$ proximity to the target in distribution (measured by some Wasserstein metric), it suffices for the number of steps in consistency learning to exceed the order of $d^{5/2}/\varepsilon$, with $d$ the data dimension. Our theory offers rigorous insights into the validity and efficacy of consistency models, illuminating their utility in downstream inference tasks.
翻訳日:2024-02-13 13:32:46 公開日:2024-02-12
# マイクロ波光子のフラックス量子ビットに基づく検出器

Flux qubit-based detector of microwave photons ( http://arxiv.org/abs/2402.07801v1 )

ライセンス: Link先を確認
O. A. Ilinskaya, A. I. Ryzhov, S. N. Shevchenko(参考訳) フラックス量子ビット検出器を用いたマイクロ波光子の検出理論について述べる。 我々は、電磁場がコヒーレントな状態であるような半古典的近似を考える。 Flux qubitはマルチレベル量子システム(qudit)と考えられている。 リンドブラッド方程式の解法を用いて,検出の読み出しとリセットの段階におけるクディットの水準の職業の時間発展について述べる。 リセット段階を考慮すると、時間進化は複数の回避レベル交差によって記述され、多レベルランダウ-ツェナー-シュタッケルベルク-マヨラナ問題(LZSM)をもたらす。 数値計算に加えて,アディバティック・インパルス近似とレート方程式のアプローチに基づいて,リセットステージダイナミクスを記述するための近似解析解を提案する。 本理論は、単一光子検出などの応用を含む、quditsの駆動散逸ダイナミクスの理論記述に有用である。

A theory of detection of microwave photons with a flux qubit-based detector is presented. We consider semiclassical approximation with the electromagnetic field being in a coherent state. Flux qubit is considered as a multilevel quantum system (qudit). By solving the Lindblad equation, we describe the time evolution of occupations of the qudit's levels for readout and reset stages of detection. When considering the reset stage, the time evolution is described by multiple avoided-level crossings, thus providing a multilevel Landau-Zener-Stuckelberg-Majorana (LZSM) problem. In addition to numerical calculations, we present an approximate analytical solution for the description of the reset stage dynamics based on the adiabatic-impulse approximation and rate equation approach. Our theory may be useful for the theoretical description of driven-dissipative dynamics of qudits, including applications such as single-photon detection.
翻訳日:2024-02-13 13:32:28 公開日:2024-02-12
# 計画環境のリデザインの一般化

Generalising Planning Environment Redesign ( http://arxiv.org/abs/2402.07799v1 )

ライセンス: Link先を確認
Alberto Pozanco, Ramon Fraga Pereira, Daniel Borrajo(参考訳) 環境設計において、ある関係者は環境に変化を適用することで他のエージェントの決定に影響を与えようとしている。 計画環境(re)設計に関するほとんどの研究は、目標や計画の認識を促進し、環境変更の空間を探索し、それらのタスクを簡素化し、特定のメトリックを最適化する最小限の変更点を見つけることを目的としている。 この探索空間は通常難解であり、既存の手法ではより効率的に探索を行うためのメトリック依存の刈り込み技術が考案されている。 その結果、異なる目的やメトリクスをまたいで一般化できないアプローチが生まれる。 本稿では,エージェントの目標や計画の認識に必ずしも関係しない目的や指標を利害関係者が持つ可能性があることを論じる。 そこで, 計画環境再設計の課題を一般化するために, メトリクス非依存な汎用環境再設計手法を開発し, 最近のトップクオリティ計画研究を活用し, 利害関係者の目的や指標に応じて, 計画環境を効率的に再設計する。 環境再設計ベンチマークによる実験では、目標認識の促進や、新しいメトリクスセットを最適化した環境再設計タスクの解決効果など、よく知られたメトリクスを使用する場合の既存のアプローチよりも、一般的なアプローチの方が優れています。

In Environment Design, one interested party seeks to affect another agent's decisions by applying changes to the environment. Most research on planning environment (re)design assumes the interested party's objective is to facilitate the recognition of goals and plans, and search over the space of environment modifications to find the minimal set of changes that simplify those tasks and optimise a particular metric. This search space is usually intractable, so existing approaches devise metric-dependent pruning techniques for performing search more efficiently. This results in approaches that are not able to generalise across different objectives and/or metrics. In this paper, we argue that the interested party could have objectives and metrics that are not necessarily related to recognising agents' goals or plans. Thus, to generalise the task of Planning Environment Redesign, we develop a general environment redesign approach that is metric-agnostic and leverages recent research on top-quality planning to efficiently redesign planning environments according to any interested party's objective and metric. Experiments over a set of environment redesign benchmarks show that our general approach outperforms existing approaches when using well-known metrics, such as facilitating the recognition of goals, as well as its effectiveness when solving environment redesign tasks that optimise a novel set of different metrics.
翻訳日:2024-02-13 13:32:16 公開日:2024-02-12
# チューニングフリー確率最適化

Tuning-Free Stochastic Optimization ( http://arxiv.org/abs/2402.07793v1 )

ライセンス: Link先を確認
Ahmed Khaled and Chi Jin(参考訳) 大規模な機械学習問題は、ハイパーパラメータチューニングのコストをますます禁止する。 これにより、自らをオンザフライでチューニングできるアルゴリズムの必要性が生じます。 最適調整最適化アルゴリズムの性能を関連する問題パラメータのゆるいヒントのみを与えられた多対数因子に合わせる「チューニングフリー」アルゴリズムの概念を定式化する。 特に最適に調整された確率勾配降下 (sgd) に適合するアルゴリズムを考える。 最適化領域が有界であれば、SGDのチューニング不要なマッチングが可能であり、既存のアルゴリズムによって実現可能であることを示す。 凸や滑らかなリプシッツ関数を非有界領域上で最小化するタスクでは、チューニング不要な最適化は不可能である。 非有界領域でもチューニングフリー最適化が可能となる条件について考察する。 特に,最近提案されたDoGアルゴリズムとDoWGアルゴリズムは,ノイズ分布が十分に良好な場合,チューニング不要であることを示す。 滑らかで潜在的に非凸な関数の定常点を求めるタスクに対して、チューニングされたSGDの最もよく知られた高確率収束率と、追加の多対数コストで一致するSGDの変種を与える。 しかし、調整されたSGDの最適収束率を高い確率で一致させるアルゴリズムが存在しないことを示す不確実性結果も提示する。

Large-scale machine learning problems make the cost of hyperparameter tuning ever more prohibitive. This creates a need for algorithms that can tune themselves on-the-fly. We formalize the notion of "tuning-free" algorithms that can match the performance of optimally-tuned optimization algorithms up to polylogarithmic factors given only loose hints on the relevant problem parameters. We consider in particular algorithms that can match optimally-tuned Stochastic Gradient Descent (SGD). When the domain of optimization is bounded, we show tuning-free matching of SGD is possible and achieved by several existing algorithms. We prove that for the task of minimizing a convex and smooth or Lipschitz function over an unbounded domain, tuning-free optimization is impossible. We discuss conditions under which tuning-free optimization is possible even over unbounded domains. In particular, we show that the recently proposed DoG and DoWG algorithms are tuning-free when the noise distribution is sufficiently well-behaved. For the task of finding a stationary point of a smooth and potentially nonconvex function, we give a variant of SGD that matches the best-known high-probability convergence rate for tuned SGD at only an additional polylogarithmic cost. However, we also give an impossibility result that shows no algorithm can hope to match the optimal expected convergence rate for tuned SGD with high probability.
翻訳日:2024-02-13 13:31:49 公開日:2024-02-12
# NVIDIA FLAREによる大規模モデルのフェデレーション学習の強化

Empowering Federated Learning for Massive Models with NVIDIA FLARE ( http://arxiv.org/abs/2402.07792v1 )

ライセンス: Link先を確認
Holger R. Roth, Ziyue Xu, Yuan-Ting Hsieh, Adithya Renduchintala, Isaac Yang, Zhihong Zhang, Yuhong Wen, Sean Yang, Kevin Lu, Kristopher Kersten, Camir Ricketts, Daguang Xu, Chester Chen, Yan Cheng, Andrew Feng(参考訳) 人工知能(AI)と大規模言語モデル(LLM)の分野では、データの処理と活用が重要な課題となっている。 最先端の機械学習アルゴリズムのほとんどはデータ中心だ。 しかし、モデルパフォーマンスのライフサイクルとして、プライバシー、規制、地政学、著作権問題、膨大なデータセットの移動に必要な多大な労力など、必要なデータは必ずしも集中できない。 本稿では,NVIDIA FLAREによって実現されたフェデレーション学習が,これらの課題に対して,パラメータ効率とLLMの完全教師付き微調整を可能とし,自然言語処理やバイオ医薬品への応用により,その正確性と堅牢性を高めることができるかを検討する。

In the ever-evolving landscape of artificial intelligence (AI) and large language models (LLMs), handling and leveraging data effectively has become a critical challenge. Most state-of-the-art machine learning algorithms are data-centric. However, as the lifeblood of model performance, necessary data cannot always be centralized due to various factors such as privacy, regulation, geopolitics, copyright issues, and the sheer effort required to move vast datasets. In this paper, we explore how federated learning enabled by NVIDIA FLARE can address these challenges with easy and scalable integration capabilities, enabling parameter-efficient and full supervised fine-tuning of LLMs for natural language processing and biopharmaceutical applications to enhance their accuracy and robustness.
翻訳日:2024-02-13 13:31:28 公開日:2024-02-12
# 機械学習精度特性による自動車の自律走行挙動の連続保証

Continuous Assurance of Autonomous Vehicle Behavior Through Machine Learned Correctness Properties ( http://arxiv.org/abs/2402.07791v1 )

ライセンス: Link先を確認
Matthew Litton, Doron Drusinsky, and James Bret Michael(参考訳) 正確性特性は、ソフトウェアシステム、特にソフトウェア更新や運用環境の変化、新しく学習された行動によって機能が頻繁に変化するサイバーフィジカルシステムにおける検証と検証を行う上で重要である。 システムの設計と運用要件に関してシステムの動作が正しいことを保証するのに使用できる機械主導の補正特性の形で、表現可能で実行可能な正当性プロパティを自動構築する新しい手法を詳述する。 探索に基づく最適化のために,クロスエントロピーアルゴリズムの複数の拡張を用いて,新しいシミュレーションベースのトレーニングデータとテストデータを生成する手法を提案する。 そして,本手法を自律走行車のソフトウェア・イン・ザ・ループ評価に適用し,そのようなモデルがマルチエージェントサイバー物理システムの重要な特性を主張できることを実証する。 このプロセスは,システム開発者や技術者の領域に,形式的手法の専門家の領域から堅牢な正当性特性を開発するタスクをもたらし,マシン学習された正当性特性が,複雑な環境におけるサイバー物理システムの正しい振る舞いを捉えるのに十分な表現力を持っていることを実証する。 この進歩は、システムデザイナやユーザへの信頼の証となり、自動運転車や他のインテリジェント交通システムへの信頼性を高めます。

Correctness properties are critical to conducting verification and validation on software systems, especially those cyberphysical systems whose functionality changes frequently due to software updates, changes in the operating environment, or newly learned behaviors. We detail a novel method to automatically construct expressive, executable correctness properties in the form of machine-learned correctness properties which can be used to ensure that a system's behavior is correct with respect to its design and operating requirements. We propose a method to bootstrap the creation of these correctness properties using a novel simulation-based generation of training and testing data using multiple extensions to the Cross Entropy algorithm for search-based optimization. Then, we apply this method to a software-in-the-loop evaluation of an autonomous vehicle to demonstrate that such models can assert about important properties of multi-agent cyberphysical systems. We demonstrate that this process brings the task of developing robust correctness properties from the realm of formal methods experts into the domain of system developers and engineers, and that machine-learned correctness properties are expressive enough to capture the correct behavior of cyberphysical systems in their complex environments. This advancement can provide evidence of dependability to system designers and users, enhancing trust in the deployment of autonomous vehicles and other intelligent transportation systems.
翻訳日:2024-02-13 13:31:13 公開日:2024-02-12
# 不確実性から精度:校正によるバイナリ分類性能の向上

From Uncertainty to Precision: Enhancing Binary Classifier Performance through Calibration ( http://arxiv.org/abs/2402.07790v1 )

ライセンス: Link先を確認
Agathe Fernandes Machado, Arthur Charpentier, Emmanuel Flachaire, Ewen Gallic, Fran\c{c}ois Hu(参考訳) バイナリ分類器の性能評価は、伝統的に精度などのメトリクスを用いた識別能力に焦点を当てている。 しかしながら、これらの指標は、特に金融や医療といった繊細な意思決定ドメインを扱う場合、モデル固有の不確実性を無視していることが多い。 モデル予測スコアはイベント確率と見なされるので、正確な解釈には校正が不可欠である。 本研究では,歪み評価のための様々な校正尺度の感度を解析し,局所校正スコア(Local Calibration Score)を導入した。 再校正手法を比較することで,局所回帰を提唱し,効果的な再校正ツールとしての2つの役割と,よりスムーズな可視化のファシリテータを強調する。 これらの知見をランダムフォレスト分類器と回帰器を用いて実世界のシナリオに適用し、性能最適化時のキャリブレーションを同時に測定する。

The assessment of binary classifier performance traditionally centers on discriminative ability using metrics, such as accuracy. However, these metrics often disregard the model's inherent uncertainty, especially when dealing with sensitive decision-making domains, such as finance or healthcare. Given that model-predicted scores are commonly seen as event probabilities, calibration is crucial for accurate interpretation. In our study, we analyze the sensitivity of various calibration measures to score distortions and introduce a refined metric, the Local Calibration Score. Comparing recalibration methods, we advocate for local regressions, emphasizing their dual role as effective recalibration tools and facilitators of smoother visualizations. We apply these findings in a real-world scenario using Random Forest classifier and regressor to predict credit default while simultaneously measuring calibration during performance optimization.
翻訳日:2024-02-13 13:30:51 公開日:2024-02-12
# 検索におけるマルチインテント属性認識テキストマッチング

Multi-Intent Attribute-Aware Text Matching in Searching ( http://arxiv.org/abs/2402.07788v1 )

ライセンス: Link先を確認
Mingzhe Li, Xiuying Chen, Jing Xiang, Qishen Zhang, Changsheng Ma, Chenchen Dai, Jinxiong Chang, Zhongyi Liu, Guannan Zhang(参考訳) テキストマッチングシステムは、ほとんどの検索プラットフォームで基本的なサービスとなっている。 例えば、ユーザクエリと関連する候補項目のマッチング、あるいはユーザ入力クエリを選択済みのハイパフォーマンスクエリに書き換えて、より優れた検索エクスペリエンスを提供する。 実際には、クエリとアイテムの両方に、アイテムのカテゴリやクエリで言及される場所など、マッチングに役立つ集約されたキー情報を表す複数の属性が含まれていることが多い。 しかし、既存の作品の多くは、属性を補足情報としてテキスト表現に統合することにより、属性の有効性を損なう。 そこで本研究では,2つの属性間の関係について検討する。 両端の属性は数と型で整合しないことが多いので,マルチインテント・モデリングによる属性の利点を活用することを提案する。 属性から抽出されたインテントは、クエリのさまざまなニーズを要約し、より洗練され抽象的なアイテムの豊富なコンテンツを提供する。 具体的には、属性認識エンコーダ、マルチインテントモデリング、インテント認識マッチングの3つの主要コンポーネントからなるマルチインテント属性認識マッチングモデル(MIM)を提案する。 属性認識エンコーダでは、属性の重要性に関してテキストと属性を重み付けし、スケールされた注意機構を通じて処理する。 その後、マルチインテント・モデリングは、2つの端から意図を抽出して調整する。 ここでは,学習意図が多様だが集中的であることを保証する分散損失と,学習意図に合わせたkullback-leiblerダイバーデンス損失を見出す。 最後に、意図認識マッチングにおいて、意図を自己監督型マスキングタスクで評価し、最終マッチング結果を出力するために組み込む。

Text matching systems have become a fundamental service in most searching platforms. For instance, they are responsible for matching user queries to relevant candidate items, or rewriting the user-input query to a pre-selected high-performing one for a better search experience. In practice, both the queries and items often contain multiple attributes, such as the category of the item and the location mentioned in the query, which represent condensed key information that is helpful for matching. However, most of the existing works downplay the effectiveness of attributes by integrating them into text representations as supplementary information. Hence, in this work, we focus on exploring the relationship between the attributes from two sides. Since attributes from two ends are often not aligned in terms of number and type, we propose to exploit the benefit of attributes by multiple-intent modeling. The intents extracted from attributes summarize the diverse needs of queries and provide rich content of items, which are more refined and abstract, and can be aligned for paired inputs. Concretely, we propose a multi-intent attribute-aware matching model (MIM), which consists of three main components: attribute-aware encoder, multi-intent modeling, and intent-aware matching. In the attribute-aware encoder, the text and attributes are weighted and processed through a scaled attention mechanism with regard to the attributes' importance. Afterward, the multi-intent modeling extracts intents from two ends and aligns them. Herein, we come up with a distribution loss to ensure the learned intents are diverse but concentrated, and a kullback-leibler divergence loss that aligns the learned intents. Finally, in the intent-aware matching, the intents are evaluated by a self-supervised masking task, and then incorporated to output the final matching result.
翻訳日:2024-02-13 13:30:35 公開日:2024-02-12
# Aspect-based Sentiment Analysis のための拡張可能な多角核融合ネットワーク

Extensible Multi-Granularity Fusion Network for Aspect-based Sentiment Analysis ( http://arxiv.org/abs/2402.07787v1 )

ライセンス: Link先を確認
Xiaowei Zhao, Yong Zhou, Xiujuan Xu, Yu Liu(参考訳) Aspect-based Sentiment Analysis (ABSA)は、感情情報を理解するためにテキスト内の感情表現を評価する。 従来の研究では、知識グラフのような外部知識を統合して、ABSAモデルのセマンティックな特徴を強化していた。 近年,グラフニューラルネットワーク (GNN) の構文解析への依存性と構成木の利用について検討している。 absaの発展に伴い、より革新的な言語的および構造的特徴(例えば潜在グラフ)が取り入れられているが、これは複雑さと混乱をもたらす。 現在、多様な言語的・構造的特徴をABSAに統合するためのスケーラブルなフレームワークは存在しない。 本稿では,依存性や構成構文,注意の意味,外部知識グラフなどの情報を統合したEMGF(Extensible Multi-Granularity Fusion)ネットワークを提案する。 EMGFはマルチアンカー三重項学習と直交射影を備えており、各粒度特徴と相乗的相互作用の結合ポテンシャルを効率よく利用し、計算コストを増すことなく累積効果をもたらす。 SemEval 2014とTwitterデータセットの実験的発見は、EMGFが既存のABSAメソッドよりも優れていることを裏付けている。

Aspect-based Sentiment Analysis (ABSA) evaluates sentiment expressions within a text to comprehend sentiment information. Previous studies integrated external knowledge, such as knowledge graphs, to enhance the semantic features in ABSA models. Recent research has examined the use of Graph Neural Networks (GNNs) on dependency and constituent trees for syntactic analysis. With the ongoing development of ABSA, more innovative linguistic and structural features are being incorporated (e.g. latent graph), but this also introduces complexity and confusion. As of now, a scalable framework for integrating diverse linguistic and structural features into ABSA does not exist. This paper presents the Extensible Multi-Granularity Fusion (EMGF) network, which integrates information from dependency and constituent syntactic, attention semantic , and external knowledge graphs. EMGF, equipped with multi-anchor triplet learning and orthogonal projection, efficiently harnesses the combined potential of each granularity feature and their synergistic interactions, resulting in a cumulative effect without additional computational expenses. Experimental findings on SemEval 2014 and Twitter datasets confirm EMGF's superiority over existing ABSA methods.
翻訳日:2024-02-13 13:30:05 公開日:2024-02-12
# HYPO:超球面分布の一般化

HYPO: Hyperspherical Out-of-Distribution Generalization ( http://arxiv.org/abs/2402.07785v1 )

ライセンス: Link先を確認
Haoyue Bai, Yifei Ming, Julian Katz-Samuels, and Yixuan Li(参考訳) out-of-distribution (ood) 一般化は、現実世界にデプロイされる機械学習モデルにとって重要である。 しかし、異なるドメインや環境にまたがって不変の機能を学ぶ能力を必要とするため、これを実現することは基本的に困難である。 本稿では,超球面空間における領域不変表現を確実に学習する新しいフレームワークHYPO(HYPerspherical OOD generalization)を提案する。 特に、我々の超球面学習アルゴリズムは、クラス内変異とクラス間分離原則によって導かれる -- 同じクラス(異なるトレーニング領域全体)のフィーチャがクラスプロトタイプと密接に一致していることを保証する一方で、異なるクラスプロトタイプが最大に分離されている。 さらに、我々の原型学習目的がOOD一般化境界をどのように改善するかに関する理論的正当化を提供する。 OODベンチマークの挑戦実験を通じて,本手法が競争基準よりも優れ,優れた性能を実現することを示す。 コードはhttps://github.com/deeplearning-wisc/hypoで入手できる。

Out-of-distribution (OOD) generalization is critical for machine learning models deployed in the real world. However, achieving this can be fundamentally challenging, as it requires the ability to learn invariant features across different domains or environments. In this paper, we propose a novel framework HYPO (HYPerspherical OOD generalization) that provably learns domain-invariant representations in a hyperspherical space. In particular, our hyperspherical learning algorithm is guided by intra-class variation and inter-class separation principles -- ensuring that features from the same class (across different training domains) are closely aligned with their class prototypes, while different class prototypes are maximally separated. We further provide theoretical justifications on how our prototypical learning objective improves the OOD generalization bound. Through extensive experiments on challenging OOD benchmarks, we demonstrate that our approach outperforms competitive baselines and achieves superior performance. Code is available at https://github.com/deeplearning-wisc/hypo.
翻訳日:2024-02-13 13:29:45 公開日:2024-02-12
# 強化学習を用いたIR-Aware ECOタイミング最適化

IR-Aware ECO Timing Optimization Using Reinforcement Learning ( http://arxiv.org/abs/2402.07781v1 )

ライセンス: Link先を確認
Vidya A. Chhabria, Wenjing Jiang and Sachin S. Sapatnekar(参考訳) 工学的な変更順序(ECOs)は、過度のIR降下によるタイミングシフトから回復するために最小限の設計修正を行う。 本稿では、RLを用いたIR-drop-awareタイミング解析とECOタイミング最適化を統合する。 物理設計および電力グリッド合成後に動作し、ゲートサイズによるIR滴によるタイミング劣化を補正する。 ラグランジアン緩和(LR)技法を新しいRLフレームワークに組み込んだもので、リレーショナルグラフ畳み込みネットワーク(R-GCN)エージェントを使用してゲートを逐次サイズし、タイミング違反を修正する。 R-GCNは古典的なLR専用アルゴリズムより優れており、オープンな45nm技術でそれを実現する (a)遅延領域トレードオフ曲線のパレート前方を左に移動させる (b)iso品質でトレーニングされたモデルを使用して高速推論を実行することで、従来のメソッドよりもランタイムを節約する。 RLモデルは、タイミング仕様で転送可能であり、ゼロショット学習や微調整で見えない設計に転送可能である。

Engineering change orders (ECOs) in late stages make minimal design fixes to recover from timing shifts due to excessive IR drops. This paper integrates IR-drop-aware timing analysis and ECO timing optimization using reinforcement learning (RL). The method operates after physical design and power grid synthesis, and rectifies IR-drop-induced timing degradation through gate sizing. It incorporates the Lagrangian relaxation (LR) technique into a novel RL framework, which trains a relational graph convolutional network (R-GCN) agent to sequentially size gates to fix timing violations. The R-GCN agent outperforms a classical LR-only algorithm: in an open 45nm technology, it (a) moves the Pareto front of the delay-area tradeoff curve to the left and (b) saves runtime over the classical method by running fast inference using trained models at iso-quality. The RL model is transferable across timing specifications, and transferable to unseen designs with zero-shot learning or fine tuning.
翻訳日:2024-02-13 13:29:19 公開日:2024-02-12
# prismatic vlms:ビジュアルコンディショニング言語モデルの設計空間の検討

Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models ( http://arxiv.org/abs/2402.07865v1 )

ライセンス: Link先を確認
Siddharth Karamcheti, Suraj Nair, Ashwin Balakrishna, Percy Liang, Thomas Kollar, Dorsa Sadigh(参考訳) 視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用され、LLaVa、InstructBLIP、PaLI-3といった多くの新しいモデルが採用されている。 新しいリリースの量にもかかわらず、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査であり、客観的で一貫した評価の欠如によってさらに複雑な課題として、どの要因がモデルパフォーマンスに寄与するかを理解することは困難である。 これらのギャップに対処するために、まず視覚的質問応答、言語からのオブジェクトローカライゼーション、幻覚などの特性を探索するターゲットチャレンジセット、VLMの機能に関する校正されたきめ細かな洞察を提供する評価の集合をコンパイルする。 第2に,事前学習された視覚的表現や,ベースと命令型言語モデルとのトレードオフの定量化など,キー設計軸に沿ってvlmを厳格に検討する。 1)VLMの評価のための統一的なフレームワーク、(2)VLMトレーニングのための最適化された柔軟なコード、(3)オープンソースのVLMの最先端技術であるInstructBLIPとLLaVa v1.5を厳密に上回る7-13BスケールでのVLMのファミリーを含む全てのモデルのチェックポイント。

Visually-conditioned language models (VLMs) have seen growing adoption in applications such as visual dialogue, scene understanding, and robotic task planning; adoption that has fueled a wealth of new models such as LLaVa, InstructBLIP, and PaLI-3. Despite the volume of new releases, key design decisions around image preprocessing, architecture, and optimization are under-explored, making it challenging to understand what factors account for model performance $-$ a challenge further complicated by the lack of objective, consistent evaluations. To address these gaps, we first compile a suite of standardized evaluations spanning visual question answering, object localization from language, and targeted challenge sets that probe properties such as hallucination; evaluations that provide calibrated, fine-grained insight into a VLM's capabilities. Second, we rigorously investigate VLMs along key design axes, including pretrained visual representations and quantifying the tradeoffs of using base vs. instruct-tuned language models, amongst others. We couple our analysis with three resource contributions: (1) a unified framework for evaluating VLMs, (2) optimized, flexible code for VLM training, and (3) checkpoints for all models, including a family of VLMs at the 7-13B scale that strictly outperform InstructBLIP and LLaVa v1.5, the state-of-the-art in open-source VLMs.
翻訳日:2024-02-13 13:20:56 公開日:2024-02-12
# 位置-モーメント結合を持つ高調波発振器の不確かさ原理積の完全下界

Exact lower bound of the uncertainty principle product for the harmonic oscillator with position-momentum coupling ( http://arxiv.org/abs/2402.07842v1 )

ライセンス: Link先を確認
Yamen Hamdouni(参考訳) ハミルトニアンである \hat h= \frac{\hat{p}^2}{2m} +\frac{1}{2} m \omega^2 \hat{x}^2+\frac{\mu}{2}(\hat x \hat p+ \hat p \hat x)$ ここで、$\mu<\omega$ は$\delta x \delta p\ge\frac{\hbar \omega}{2\sqrt{\omega^2-\mu^2}} を読み取る。 この下界のすべての値は量子力学的に禁止される。 この系の消滅と生成演算子を構築し、対応するコヒーレント状態に対する演算子 $\hat p$ と $\hat x$ の期待値を計算する。

We show that the uncertainty principle product for the position and momentum operators for a system described by the Hamiltonian $ \hat H= \frac{\hat{p}^2}{2m} +\frac{1}{2} m \omega^2 \hat{x}^2+\frac{\mu}{2}(\hat x \hat p+ \hat p \hat x)$ where $\mu<\omega$ reads $\Delta x \Delta p\ge\frac{\hbar \omega}{2\sqrt{\omega^2-\mu^2}}$. All the values bellow this lower bound are thus quantum-mechanically forbidden. We construct the annihilation and creation operators for this system and we calculate the expectation values of the operators $\hat p$ and $\hat x$ with respect to the corresponding coherent states.
翻訳日:2024-02-13 13:20:25 公開日:2024-02-12
# メンバーシップ推論は大規模言語モデルで動作するか?

Do Membership Inference Attacks Work on Large Language Models? ( http://arxiv.org/abs/2402.07841v1 )

ライセンス: Link先を確認
Michael Duan, Anshuman Suri, Niloofar Mireshghallah, Sewon Min, Weijia Shi, Luke Zettlemoyer, Yulia Tsvetkov, Yejin Choi, David Evans, Hannaneh Hajishirzi(参考訳) メンバーシップ推論攻撃(mias)は、特定のデータポイントがターゲットモデルのトレーニングデータのメンバーであるかどうかを予測する。 従来の機械学習モデルに関する広範な研究にもかかわらず、大規模言語モデル(LLM)の事前学習データに関するMIAの研究は限られている。 我々は、Pileで訓練された言語モデル(LM)に対して、MIAの大規模評価を行い、そのパラメータは160Mから12Bまでである。 様々な LLM サイズや領域にまたがるほとんどの設定において,MIA はランダムな推測よりもほとんど優れていないことがわかった。 さらなる分析により,(1)大規模データセットと少数のトレーニングイテレーションの組み合わせ,(2)メンバと非メンバとの間の本質的に曖昧な境界によって,パフォーマンスが低下していることが判明した。 我々は,LDMがメンバシップ推論に脆弱であることを示す特定の設定を特定し,そのような設定における明らかな成功は,メンバーと非メンバが同一のドメインから引き出された場合や時間範囲が異なる場合など,分布シフトによるものであることを示す。 私たちは、既存のすべてのMIAを含む統一ベンチマークパッケージとしてコードとデータをリリースし、将来の作業をサポートします。

Membership inference attacks (MIAs) attempt to predict whether a particular datapoint is a member of a target model's training data. Despite extensive research on traditional machine learning models, there has been limited work studying MIA on the pre-training data of large language models (LLMs). We perform a large-scale evaluation of MIAs over a suite of language models (LMs) trained on the Pile, ranging from 160M to 12B parameters. We find that MIAs barely outperform random guessing for most settings across varying LLM sizes and domains. Our further analyses reveal that this poor performance can be attributed to (1) the combination of a large dataset and few training iterations, and (2) an inherently fuzzy boundary between members and non-members. We identify specific settings where LLMs have been shown to be vulnerable to membership inference and show that the apparent success in such settings can be attributed to a distribution shift, such as when members and non-members are drawn from the seemingly identical domain but with different temporal ranges. We release our code and data as a unified benchmark package that includes all existing MIAs, supporting future work.
翻訳日:2024-02-13 13:19:55 公開日:2024-02-12
# 最適輸送によるメタプラニングに向けて

Towards Meta-Pruning via Optimal Transport ( http://arxiv.org/abs/2402.07839v1 )

ライセンス: Link先を確認
Alexander Theus, Olin Geimer, Friedrich Wicke, Thomas Hofmann, Sotiris Anagnostidis, Sidak Pal Singh(参考訳) ニューラルネットワークの構造的プルーニングは、伝統的に重要でないニューロンの識別と破棄に依存しており、これはしばしば、その後の微調整の努力を必要とするかなりの精度の損失をもたらす。 本稿では,この主流プルーニングパラダイムに挑戦する,Intra-Fusionという新しいアプローチを提案する。 有意義なニューロンの重要性の指標を設計する既存の方法とは異なり、輸液は過剰な刈り取り手順を再定義する。 モデル融合と最適輸送の概念を利用することで、より効果的なスパースモデル表現に到達するために、不可知的に与えられた重要な計量を利用する。 特に,本手法は,資源集約的な微調整を必要とせず,相当な精度回復を実現し,ニューラルネットワーク圧縮のための効率的かつ有望なツールである。 さらに, 競争性能を維持しながら, 訓練時間を著しく短縮するために, プランニングプロセスに融合を加える方法についても検討した。 CIFAR-10, CIFAR-100, ImageNetなどの一般的なデータセット上で, 各種ネットワークのベンチマークを行った。 より広範に、提案されたイントラフュージョンアプローチが、主流の圧縮アプローチに代わる新たな代替手段を探究することを期待している。 私たちのコードは、https://github.com/alexandertheus/Intra-Fusion.comで利用可能です。

Structural pruning of neural networks conventionally relies on identifying and discarding less important neurons, a practice often resulting in significant accuracy loss that necessitates subsequent fine-tuning efforts. This paper introduces a novel approach named Intra-Fusion, challenging this prevailing pruning paradigm. Unlike existing methods that focus on designing meaningful neuron importance metrics, Intra-Fusion redefines the overlying pruning procedure. Through utilizing the concepts of model fusion and Optimal Transport, we leverage an agnostically given importance metric to arrive at a more effective sparse model representation. Notably, our approach achieves substantial accuracy recovery without the need for resource-intensive fine-tuning, making it an efficient and promising tool for neural network compression. Additionally, we explore how fusion can be added to the pruning process to significantly decrease the training time while maintaining competitive performance. We benchmark our results for various networks on commonly used datasets such as CIFAR-10, CIFAR-100, and ImageNet. More broadly, we hope that the proposed Intra-Fusion approach invigorates exploration into a fresh alternative to the predominant compression approaches. Our code is available here: https://github.com/alexandertheus/Intra-Fusion.
翻訳日:2024-02-13 13:19:37 公開日:2024-02-12
# クープマン作用素による時間領域の一般化

Generalizing across Temporal Domains with Koopman Operators ( http://arxiv.org/abs/2402.07834v1 )

ライセンス: Link先を確認
Qiuhao Zeng, Wei Wang, Fan Zhou, Gezheng Xu, Ruizhi Pu, Changjian Shui, Christian Gagne, Shichun Yang, Boyu Wang, Charles X. Ling(参考訳) ドメイン一般化の分野では、ターゲットデータにアクセスせずに対象ドメインに一般化できる予測モデルを構築するという課題は依然として難しい。 ドメイン間のダイナミクスの進化を考えると、この問題はさらに複雑になる。 この問題に対処するために様々なアプローチが提案されているが、基礎となる一般化理論の包括的理解はまだ欠けている。 本研究では,条件分布の整合が一般化境界の低減に繋がる新しい理論的結果を提案する。 我々の分析は、クープマンニューラル演算子を用いて時間領域一般化(TDG)問題を解くための鍵となる動機となり、結果としてテンポラルクープマンネットワーク(TKNet)が生まれる。 コープマン作用素を用いることにより、tdgで遭遇する時間発展分布をコープマン理論の原理を用いて効果的に解決する。 合成および実世界のデータセットを用いた実証評価により,提案手法の有効性を検証した。

In the field of domain generalization, the task of constructing a predictive model capable of generalizing to a target domain without access to target data remains challenging. This problem becomes further complicated when considering evolving dynamics between domains. While various approaches have been proposed to address this issue, a comprehensive understanding of the underlying generalization theory is still lacking. In this study, we contribute novel theoretic results that aligning conditional distribution leads to the reduction of generalization bounds. Our analysis serves as a key motivation for solving the Temporal Domain Generalization (TDG) problem through the application of Koopman Neural Operators, resulting in Temporal Koopman Networks (TKNets). By employing Koopman Operators, we effectively address the time-evolving distributions encountered in TDG using the principles of Koopman theory, where measurement functions are sought to establish linear transition relations between evolving domains. Through empirical evaluations conducted on synthetic and real-world datasets, we validate the effectiveness of our proposed approach.
翻訳日:2024-02-13 13:19:17 公開日:2024-02-12
# マヨラナ符号の符号化

Encoding Majorana codes ( http://arxiv.org/abs/2402.07829v1 )

ライセンス: Link先を確認
Maryam Mudassar, Riley W. Chien and Daniel Gottesman(参考訳) 量子誤り訂正プロトコルを実装するには、まず、符号の正しい部分空間に状態を準備するためのスキームが必要であり、これをユニタリ符号化回路を用いて行うことができる。 このような符号を変換するゲートはフェルミオンパリティを保たなければならないため、マヨラナ符号は特別である。 本稿では,マヨラナ符号のユニタリ符号化回路を安定化行列を用いて計算するアルゴリズムを提案する。 そこで本研究では, ガウス除去法と行演算を基本フェルミオンクリフォード演算に置き換えた2つの手法を提案する。 1つのアプローチはアンシラモードを追加し、すべてのマヨラナ安定剤コードで動作し、2つ目のアプローチはアンシラを使用しないが、完全なパリティが安定化剤群内にある場合は動作しない。

To implement a quantum error correction protocol, we first need a scheme to prepare our state in the correct subspace of the code, and this can be done using a unitary encoding circuit. Majorana codes are special since any gates that transform such codes must preserve fermionic parity. In this paper, we present an algorithm that uses the stabilizer matrix to compute unitary encoding circuits for Majorana codes. We present two approaches, both of which use a version of Gaussian elimination with row operations replaced with elementary fermionic Clifford operations. One approach uses an additional ancilla mode and works for all Majorana stabilizer codes, while the second approach does not use ancilla but does not work if the total parity is inside the stabilizer group.
翻訳日:2024-02-13 13:19:00 公開日:2024-02-12
# Aya Model:多言語言語モデルを用いたオープンアクセシブルインストラクション

Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model ( http://arxiv.org/abs/2402.07827v1 )

ライセンス: Link先を確認
Ahmet \"Ust\"un, Viraat Aryabumi, Zheng-Xin Yong, Wei-Yin Ko, Daniel D'souza, Gbemileke Onilude, Neel Bhandari, Shivalika Singh, Hui-Lee Ooi, Amr Kayid, Freddie Vargus, Phil Blunsom, Shayne Longpre, Niklas Muennighoff, Marzieh Fadaee, Julia Kreutzer, Sara Hooker(参考訳) 最近の大規模言語モデル(llm)のブレークスルーは、少数のデータリッチ言語を中心にしている。 ファーストクラスの市民言語を超えて、ブレークスルーへのアクセスを広げるためには何が必要か? 本研究は,多言語多言語生成言語モデルであるayaを紹介し,50%以上が低リソースであると考えられる101言語における命令に従う。 Ayaはタスクの大部分でmT0とBLOOMZを上回っ、言語の数を2倍にしている。 本稿では,99言語にまたがる多言語evalの最先端性を広げる広範な評価スイートについて紹介する。識別的および生成的タスク,人的評価,そして,保留タスクと分配内パフォーマンスの両方をカバーするシミュレーションされた勝利率などである。 さらに, 最適微調整混合物組成, データの刈り取り, およびモデルの毒性, バイアス, 安全性について詳細な検討を行った。 私たちは命令データセットとモデルをhttps://hf.co/CohereForAI/aya-101でオープンソース化しました。

Recent breakthroughs in large language models (LLMs) have centered around a handful of data-rich languages. What does it take to broaden access to breakthroughs beyond first-class citizen languages? Our work introduces Aya, a massively multilingual generative language model that follows instructions in 101 languages of which over 50% are considered as lower-resourced. Aya outperforms mT0 and BLOOMZ on the majority of tasks while covering double the number of languages. We introduce extensive new evaluation suites that broaden the state-of-art for multilingual eval across 99 languages -- including discriminative and generative tasks, human evaluation, and simulated win rates that cover both held-out tasks and in-distribution performance. Furthermore, we conduct detailed investigations on the optimal finetuning mixture composition, data pruning, as well as the toxicity, bias, and safety of our models. We open-source our instruction datasets and our model at https://hf.co/CohereForAI/aya-101
翻訳日:2024-02-13 13:18:45 公開日:2024-02-12
# xz型タナーグラフ再帰展開符号

XZ-type Tanner-graph-recursive-expansion code ( http://arxiv.org/abs/2402.07823v1 )

ライセンス: Link先を確認
Zhengzhong Yi, Zhipeng Liang, Zicheng Wang, Jiahan Chen, Chen Qiu, Yulin Wu and Xuan Wang(参考訳) 量子安定化器符号は符号化レートの低い問題に直面している。 本稿では,XZ型Tanner-graph-recursive-expansion符号と呼ばれる新しい量子安定化符号を提案する。 この符号は漸近的な符号化速度はゼロだが、符号長の増加に伴い、その符号化速度は極端に遅くなる傾向がある。 同じコード長で、そのコードレートは表面コードよりもはるかに高い。 xz-type tanner-graph-recursive-expansion code の符号距離が $o(log(n))$ であることを証明する。 さらに、符号容量ノイズ閾値は0.078であり、完全に分離された信念伝搬デコーダによって得られる。 この手紙は、再帰的に拡張されたタナーグラフのアイデアは、より良い性能で量子コードを構築する可能性を秘めている。

Quantum stabilizer codes face the problem of low coding rate. In this letter, we propose a new class of quantum stabilizer codes called XZ-type Tanner-graph-recursive-expansion code. Though this code still have zero asymptotic coding rate, its coding rate tends to zero extremely slowly with the growth of code length. Under the same code length, its coding rate is much higher than that of surface code. We prove that the code distance of XZ-type Tanner-graph-recursive-expansion code is $O(log(N))$. Moreover, the code capacity noise threshold is around 0.078, which is obtained by fully decoupled belief propagation decoder. This letter shows that the idea of recursively expanding Tanner graph might have potential to construct quantum codes with better performance.
翻訳日:2024-02-13 13:18:30 公開日:2024-02-12
# 局所最適ネットワークによるモルフォ進化におけるフィットネスランドスケープの理解

Understanding fitness landscapes in morpho-evolution via local optima networks ( http://arxiv.org/abs/2402.07822v1 )

ライセンス: Link先を確認
Sarah L. Thomson, L\'eni K. Le Goff, Emma Hart, Edgar Buchanan(参考訳) モルフォ進化(Morpho-evolution、ME)とは、ロボットの設計とコントローラを同時に最適化し、タスクと環境が与えられた性能を最大化することを指す。 設計と制御を表現できる多くの遺伝子エンコーディングが提案されている。 従来の研究は、客観的機能と評価される設計の多様性に関して、その性能の観点からのエンコーディングの実証的な比較を提供しているが、観察された結果を説明する試みはない。 そこで我々はLocal Optima Network (LON) を用いて3つの異なるエンコーディングによって引き起こされるフィットネスランドスケープの構造を解析し、ロコモーションタスクのためにロボットを進化させる際に、異なるフィットネスランドスケープを探索プロセスで横切ることの容易さに新たな光を当てる。 組合せ最適化ドメインで人気があるにもかかわらず、MEの分野でLON分析が適用されたのはこれが初めてであり、この発見により、MEランドスケープにカスタマイズされた新しいアルゴリズムや演算子の設計が容易になる。

Morpho-evolution (ME) refers to the simultaneous optimisation of a robot's design and controller to maximise performance given a task and environment. Many genetic encodings have been proposed which are capable of representing design and control. Previous research has provided empirical comparisons between encodings in terms of their performance with respect to an objective function and the diversity of designs that are evaluated, however there has been no attempt to explain the observed findings. We address this by applying Local Optima Network (LON) analysis to investigate the structure of the fitness landscapes induced by three different encodings when evolving a robot for a locomotion task, shedding new light on the ease by which different fitness landscapes can be traversed by a search process. This is the first time LON analysis has been applied in the field of ME despite its popularity in combinatorial optimisation domains; the findings will facilitate design of new algorithms or operators that are customised to ME landscapes in the future.
翻訳日:2024-02-13 13:18:20 公開日:2024-02-12
# 計算効率の高いマルチクラス校正について

On Computationally Efficient Multi-Class Calibration ( http://arxiv.org/abs/2402.07821v1 )

ライセンス: Link先を確認
Parikshit Gopalan, Lunjia Hu, Guy N. Rothblum(参考訳) ラベルが$[k]$で値を取ることができ、予測器がラベル上の分布を予測できるマルチクラスラベル問題を考える。 本研究では, 有意義な予測の強い保証を与え, 時間およびサンプル複素数多項式を$k$で達成できるマルチクラス校正の概念は存在するか? キャリブレーションの以前の概念は、計算効率と表現性のトレードオフを示しており、サンプルの複雑性が指数関数的に$k$になるか、計算に難解な問題を解くか、あるいはかなり弱い保証を与える必要がある。 我々はマルチクラス予測のための投影型スムースキャリブレーションという頑健な概念を定式化し、複雑性多項式をk$のこの定義の下で効率的に予測器を校正するための新しい再校正アルゴリズムを与えます。 予測された滑らかなキャリブレーションは、その形式のバイナリ分類問題に予測子を使用したい下流の意思決定者全員に強い保証を与える: このラベルは、サブセット $t \subseteq [k]$: これは動物のイメージですか? これにより、ラベルに割り当てられた確率を$t$で合計することで予測される確率は、そのタスクの完全な校正されたバイナリ予測器に近いことが保証される。 また、我々の定義の自然な強化は計算が難しいことを示し、情報理論上の障壁や計算の難解さにぶつかる。 上層と下層の両方の境界は、マルチクラスキャリブレーションと、(標準的な)バイナリ予測設定における無依存学習の問題の間の密接な関係にあります。

Consider a multi-class labelling problem, where the labels can take values in $[k]$, and a predictor predicts a distribution over the labels. In this work, we study the following foundational question: Are there notions of multi-class calibration that give strong guarantees of meaningful predictions and can be achieved in time and sample complexities polynomial in $k$? Prior notions of calibration exhibit a tradeoff between computational efficiency and expressivity: they either suffer from having sample complexity exponential in $k$, or needing to solve computationally intractable problems, or give rather weak guarantees. Our main contribution is a notion of calibration that achieves all these desiderata: we formulate a robust notion of projected smooth calibration for multi-class predictions, and give new recalibration algorithms for efficiently calibrating predictors under this definition with complexity polynomial in $k$. Projected smooth calibration gives strong guarantees for all downstream decision makers who want to use the predictor for binary classification problems of the form: does the label belong to a subset $T \subseteq [k]$: e.g. is this an image of an animal? It ensures that the probabilities predicted by summing the probabilities assigned to labels in $T$ are close to some perfectly calibrated binary predictor for that task. We also show that natural strengthenings of our definition are computationally hard to achieve: they run into information theoretic barriers or computational intractability. Underlying both our upper and lower bounds is a tight connection that we prove between multi-class calibration and the well-studied problem of agnostic learning in the (standard) binary prediction setting.
翻訳日:2024-02-13 13:18:00 公開日:2024-02-12
# 単一視点からの実世界の点雲のベンチマークグルーシーデータセット

A Benchmark Grocery Dataset of Realworld Point Clouds From Single View ( http://arxiv.org/abs/2402.07819v1 )

ライセンス: Link先を確認
Shivanand Venkanna Sheshappanavar, Tejas Anvekar, Shivanand Kundargi, Yufan Wang and Chandra Kambhamettu(参考訳) 微細な食料品の物体認識は、自動チェックアウト、店内ロボットナビゲーション、視覚障害者のための補助技術など幅広い用途において重要なコンピュータビジョン問題である。 既存の食料品のデータセットは主に2D画像である。 これらのデータセットでトレーニングされたモデルは、通常の2Dグリッドからの学習機能に限られる。 Kinectのようなポータブルな3Dセンサーは携帯電話で一般的に利用されていたが、LiDARやTrueDepthのようなセンサーは近年携帯電話に統合されている。 モバイルの3Dセンサーが利用できるが、今のところ、食料品用の大規模な3Dデータセットは存在しない。 さらに、既存の3Dデータセットには詳細な食料品カテゴリがなく、限られたトレーニングサンプルがある。 さらに、オブジェクトと従来の写真キャプチャーでデータを収集することは、データの収集を煩雑にする。 そこで,我々は3dgrocery100と呼ばれる大規模食料品データセットを紹介する。 100のクラスを構成し、合計87,898個の3Dポイントクラウドが10,755枚のRGB-D画像から作成されている。 最近の6つの最先端の3Dポイントクラウド分類モデルにデータセットをベンチマークする。 さらに,マイナショットおよび継続的なラーニングポイントクラウド分類タスクでデータセットをベンチマークする。 プロジェクトページ: https://bigdatavision.org/3dgrocery100/

Fine-grained grocery object recognition is an important computer vision problem with broad applications in automatic checkout, in-store robotic navigation, and assistive technologies for the visually impaired. Existing datasets on groceries are mainly 2D images. Models trained on these datasets are limited to learning features from the regular 2D grids. While portable 3D sensors such as Kinect were commonly available for mobile phones, sensors such as LiDAR and TrueDepth, have recently been integrated into mobile phones. Despite the availability of mobile 3D sensors, there are currently no dedicated real-world large-scale benchmark 3D datasets for grocery. In addition, existing 3D datasets lack fine-grained grocery categories and have limited training samples. Furthermore, collecting data by going around the object versus the traditional photo capture makes data collection cumbersome. Thus, we introduce a large-scale grocery dataset called 3DGrocery100. It constitutes 100 classes, with a total of 87,898 3D point clouds created from 10,755 RGB-D single-view images. We benchmark our dataset on six recent state-of-the-art 3D point cloud classification models. Additionally, we also benchmark the dataset on few-shot and continual learning point cloud classification tasks. Project Page: https://bigdatavision.org/3DGrocery100/.
翻訳日:2024-02-13 13:17:26 公開日:2024-02-12
# 拡張性大言語モデルファインタニングのための微分プライベートゼロ階法

Differentially Private Zeroth-Order Methods for Scalable Large Language Model Finetuning ( http://arxiv.org/abs/2402.07818v1 )

ライセンス: Link先を確認
Z Liu, J Lou, W Bao, Z Qin, K Ren(参考訳) タスク固有のデータセットの微調整は、様々な下流タスクに事前学習されたLLMの強力な能力を活用する、広く採用されているパラダイムである。 LLMsファインタニングの人気とそれに伴うプライバシー上の懸念により、事前訓練されたLCMsの差分プライベート(DP)ファインタニングは、タスク固有のデータセットのプライバシ保護に注目が集まっている。 DP LLMファインタニングメソッドの設計コアに注目することは、プライバシ、ユーティリティ、スケーラビリティの間の十分なトレードオフである。 既存の手法のほとんどはDP-SGDの精巧な研究に基づいている。 DP-SGDのスケーラビリティを限界まで押し上げたにもかかわらず、DP-SGDベースの微調整法は残念ながらSGD固有の非効率性によって制限されている。 本稿では,より効率的なゼロ階勾配で勾配を近似することにより,SGDのスケーラビリティボトルネックを回避する,LCM事前学習のためのDPゼロ階法の可能性について検討する。 本稿では, ゼロオーダー法をSGDのドロップイン置換として扱うのではなく, 理論的, 実験的に総合的研究を行う。 まず,キーハイパーパラメータを動的にスケジュールするステージワイズdp零次法を提案する。 この設計は、dpランダム摂動と零次法の勾配近似誤差の相乗効果と、その微調整軌道への影響を基礎としている。 第2に,追加データや追加のプライバシ予算を必要とせず,データフリーな刈り取り手法を再提案することで識別可能なパラメータを削減し,スケーラビリティをさらに向上させる。 提案手法の理論的解析を行う。 我々は,エンコーダのみのマスク付き言語モデルとデコーダのみの自己回帰型言語モデルの両方について広範な実証分析を行い,スケーラビリティと実用性の観点から印象的な結果を得た。

Finetuning on task-specific datasets is a widely-embraced paradigm of harnessing the powerful capability of pretrained LLMs for various downstream tasks. Due to the popularity of LLMs finetuning and its accompanying privacy concerns, differentially private (DP) finetuning of pretrained LLMs has garnered increasing attention to safeguarding the privacy of task-specific datasets. Lying at the design core of DP LLM finetuning methods is the satisfactory tradeoff between privacy, utility, and scalability. Most existing methods build upon the seminal work of DP-SGD. Despite pushing the scalability of DP-SGD to its limit, DP-SGD-based finetuning methods are unfortunately limited by the inherent inefficiency of SGD. In this paper, we investigate the potential of DP zeroth-order methods for LLM pretraining, which avoids the scalability bottleneck of SGD by approximating the gradient with the more efficient zeroth-order gradient. Rather than treating the zeroth-order method as a drop-in replacement for SGD, this paper presents a comprehensive study both theoretically and empirically. First, we propose the stagewise DP zeroth-order method that dynamically schedules key hyperparameters. This design is grounded on the synergy between DP random perturbation and the gradient approximation error of the zeroth-order method, and its effect on finetuning trajectory. Second, we further enhance the scalability by reducing the trainable parameters that are identified by repurposing a data-free pruning technique requiring no additional data or extra privacy budget. We provide theoretical analysis for both proposed methods. We conduct extensive empirical analysis on both encoder-only masked language model and decoder-only autoregressive language model, achieving impressive results in terms of scalability and utility.
翻訳日:2024-02-13 13:17:08 公開日:2024-02-12
# コントラスト学習を用いたトークンレベルの文脈表現改善のためのWiktionaryの注入

Injecting Wiktionary to improve token-level contextual representations using contrastive learning ( http://arxiv.org/abs/2402.07817v1 )

ライセンス: Link先を確認
Anna Mosolova, Marie Candito, Carlos Ramisch(参考訳) 静的な単語の埋め込みは文脈に見えないが、語彙的意味論のタスクのコンテキストは文脈的な単語の埋め込みには存在しないが、同じ意味のベクトルはあまりに異なる(Ethayarajh, 2019)。 コントラスト学習を用いた微調整事前学習言語モデル(PLM)が提案され,自動自己拡張例(Liu et al., 2021b)を活用する。 本稿では,英語wiktionaryを用いて,代替の監督源としてレキシコンを注入する方法について検討する。 また、次元の減少が結果の文脈的単語埋め込みに与える影響についても検証する。 我々は,Word-In-Context(WiC)タスクに対するアプローチを,教師なし設定(トレーニングセットを使用しない)で評価する。 元のwicテストセットで新たなsoma結果を得る。 また,2つの新しいWiCテストセットを提案する。 セマンティクスフレームのインダクションタスクに対する改善は、控えめではあるが、観察しています。 関連研究との比較を英語で実験したが,本手法は大規模ウィクタリーが存在する多くの言語に対応可能である。

While static word embeddings are blind to context, for lexical semantics tasks context is rather too present in contextual word embeddings, vectors of same-meaning occurrences being too different (Ethayarajh, 2019). Fine-tuning pre-trained language models (PLMs) using contrastive learning was proposed, leveraging automatically self-augmented examples (Liu et al., 2021b). In this paper, we investigate how to inject a lexicon as an alternative source of supervision, using the English Wiktionary. We also test how dimensionality reduction impacts the resulting contextual word embeddings. We evaluate our approach on the Word-In-Context (WiC) task, in the unsupervised setting (not using the training set). We achieve new SoTA result on the original WiC test set. We also propose two new WiC test sets for which we show that our fine-tuning method achieves substantial improvements. We also observe improvements, although modest, for the semantic frame induction task. Although we experimented on English to allow comparison with related work, our method is adaptable to the many languages for which large Wiktionaries exist.
翻訳日:2024-02-13 13:16:37 公開日:2024-02-12
# pbadet:part-body associationのためのワンステージアンカーフリーアプローチ

PBADet: A One-Stage Anchor-Free Approach for Part-Body Association ( http://arxiv.org/abs/2402.07814v1 )

ライセンス: Link先を確認
Zhongpai Gao, Huayi Zhou, Abhishek Sharma, Meng Zheng, Benjamin Planche, Terrence Chen, Ziyan Wu(参考訳) 人間の部分(例えば手、顔)の検出と個人との関係性は、ユビキタスなヒューマン・マシン・インタフェースや行動認識にとって重要なタスクである。 伝統的な手法では多段階のプロセスを使うことが多いし、厄介なアンカーベースのシステムに依存している。 本稿では,新しい一段階アンカーフリー・アプローチであるpbadetについて述べる。 マルチスケール特徴マップにまたがるアンカーフリーオブジェクト表現に基づいて,親体と部品の関係を効果的にカプセル化する特異な部分対体中心オフセットを導入する。 我々の設計は本質的に汎用的であり、検出精度や堅牢性を損なうことなく複数の部品間関連を管理することができる。 様々なデータセットに関する総合的な実験は、既存の最先端技術に勝るだけでなく、より合理化され効率的なソリューションを提供するアプローチの有効性を強調している。

The detection of human parts (e.g., hands, face) and their correct association with individuals is an essential task, e.g., for ubiquitous human-machine interfaces and action recognition. Traditional methods often employ multi-stage processes, rely on cumbersome anchor-based systems, or do not scale well to larger part sets. This paper presents PBADet, a novel one-stage, anchor-free approach for part-body association detection. Building upon the anchor-free object representation across multi-scale feature maps, we introduce a singular part-to-body center offset that effectively encapsulates the relationship between parts and their parent bodies. Our design is inherently versatile and capable of managing multiple parts-to-body associations without compromising on detection accuracy or robustness. Comprehensive experiments on various datasets underscore the efficacy of our approach, which not only outperforms existing state-of-the-art techniques but also offers a more streamlined and efficient solution to the part-body association challenge.
翻訳日:2024-02-13 13:16:16 公開日:2024-02-12
# PIVOT: VLMのアクション可能な知識を排除した反復的なビジュアルプロンプティング

PIVOT: Iterative Visual Prompting Elicits Actionable Knowledge for VLMs ( http://arxiv.org/abs/2402.07872v1 )

ライセンス: Link先を確認
Soroush Nasiriany, Fei Xia, Wenhao Yu, Ted Xiao, Jacky Liang, Ishita Dasgupta, Annie Xie, Danny Driess, Ayzaan Wahid, Zhuo Xu, Quan Vuong, Tingnan Zhang, Tsang-Wei Edward Lee, Kuang-Huei Lee, Peng Xu, Sean Kirmani, Yuke Zhu, Andy Zeng, Karol Hausman, Nicolas Heess, Chelsea Finn, Sergey Levine, Brian Ichter(参考訳) 視覚言語モデル(VLM)は、論理的推論から視覚的理解に至るまで、様々なタスクにわたって印象的な能力を示している。 これにより、例えばロボット制御など、世界とのよりリッチなインタラクションの扉が開く。 しかしながら、VLMはテキスト出力のみを生成し、ロボット制御やその他の空間的タスクは連続的な座標、行動、軌道を出力する必要がある。 タスク固有のデータを微調整することなく、どうやってVLMがそのような設定を処理できるのか? 本稿では,タスクを反復的な視覚的質問応答としてキャスティングする反復的ビジュアル最適化(pivot)と呼ばれるvlmのための新しいビジュアルプロンピング手法を提案する。 各イテレーションにおいて、画像はVLMが参照できる提案(例えば、候補ロボットアクション、ローカライゼーション、トラジェクトリ)の視覚的表現で注釈付けされる。 VLMはそのタスクに最適なものを選択する。 これらの提案は反復的に洗練され、VLMは最終的に最高の解答をゼロにすることができる。 実世界のロボットナビゲーションにおけるPIVOT,画像からの実世界の操作,シミュレーションによる指示,ローカライゼーションなどの空間推論タスクについて検討する。 私たちのアプローチは、ロボットのトレーニングデータやさまざまな環境でのナビゲーション、その他の能力なしに、ロボットシステムのゼロショット制御を可能にします。 現在の性能は完璧には程遠いが、この新体制の可能性と限界を強調し、ロボットおよび空間推論領域におけるインターネットスケールVLMの有望なアプローチを示す。 ウェブサイト: pivot-prompt.github.io and HuggingFace: https://huggingface.co/spaces/pivot-prompt/pivot-prompt-demo

Vision language models (VLMs) have shown impressive capabilities across a variety of tasks, from logical reasoning to visual understanding. This opens the door to richer interaction with the world, for example robotic control. However, VLMs produce only textual outputs, while robotic control and other spatial tasks require outputting continuous coordinates, actions, or trajectories. How can we enable VLMs to handle such settings without fine-tuning on task-specific data? In this paper, we propose a novel visual prompting approach for VLMs that we call Prompting with Iterative Visual Optimization (PIVOT), which casts tasks as iterative visual question answering. In each iteration, the image is annotated with a visual representation of proposals that the VLM can refer to (e.g., candidate robot actions, localizations, or trajectories). The VLM then selects the best ones for the task. These proposals are iteratively refined, allowing the VLM to eventually zero in on the best available answer. We investigate PIVOT on real-world robotic navigation, real-world manipulation from images, instruction following in simulation, and additional spatial inference tasks such as localization. We find, perhaps surprisingly, that our approach enables zero-shot control of robotic systems without any robot training data, navigation in a variety of environments, and other capabilities. Although current performance is far from perfect, our work highlights potentials and limitations of this new regime and shows a promising approach for Internet-Scale VLMs in robotic and spatial reasoning domains. Website: pivot-prompt.github.io and HuggingFace: https://huggingface.co/spaces/pivot-prompt/pivot-prompt-demo.
翻訳日:2024-02-13 13:09:03 公開日:2024-02-12
# 細粒度混合専門家のためのスケーリング則

Scaling Laws for Fine-Grained Mixture of Experts ( http://arxiv.org/abs/2402.07871v1 )

ライセンス: Link先を確認
Jakub Krajewski, Jan Ludziejewski, Kamil Adamczewski, Maciej Pi\'oro, Micha{\l} Krutul, Szymon Antoniak, Kamil Ciebiera, Krystian Kr\'ol, Tomasz Odrzyg\'o\'zd\'z, Piotr Sankowski, Marek Cygan, Sebastian Jaszczur(参考訳) 専門家の混合モデル(moe)は、大規模言語モデルの計算コストを削減するための主要なソリューションとして登場した。 本研究では,拡張変数を組み込んだスケーリング特性の解析を行う。 具体的には,新しいハイパーパラメータである粒度を導入し,その調整によって専門家のサイズを正確に制御する。 これに基づいて,訓練トークン数,モデルサイズ,粒度を考慮して,細粒度moeのスケーリング法則を確立する。 これらの法則を活用し、与えられた計算予算の最適トレーニング構成を導出する。 以上の結果から,MoEモデルが高密度トランスフォーマーを一貫して上回るだけでなく,モデルサイズとトレーニング予算のスケールアップに伴って,高密度モデルと高密度モデルとの効率ギャップが拡大することが明らかとなった。 さらに, フィードフォワード層を反映させるため, 専門家のサイズをmoeで設定する一般的な手法は, ほぼどんな計算予算でも最適ではないことを示す。

Mixture of Experts (MoE) models have emerged as a primary solution for reducing the computational cost of Large Language Models. In this work, we analyze their scaling properties, incorporating an expanded range of variables. Specifically, we introduce a new hyperparameter, granularity, whose adjustment enables precise control over the size of the experts. Building on this, we establish scaling laws for fine-grained MoE, taking into account the number of training tokens, model size, and granularity. Leveraging these laws, we derive the optimal training configuration for a given computational budget. Our findings not only show that MoE models consistently outperform dense Transformers but also highlight that the efficiency gap between dense and MoE models widens as we scale up the model size and training budget. Furthermore, we demonstrate that the common practice of setting the size of experts in MoE to mirror the feed-forward layer is not optimal at almost any computational budget.
翻訳日:2024-02-13 13:08:34 公開日:2024-02-12
# 力学系における実験設計のためのネスティング粒子フィルタ

Nesting Particle Filters for Experimental Design in Dynamical Systems ( http://arxiv.org/abs/2402.07868v1 )

ライセンス: Link先を確認
Sahel Iqbal, Adrien Corenflos, Simo S\"arkk\"a, Hany Abdulsamad(参考訳) 本稿では,非交換可能データに対するベイズ実験設計(bed)を,リスクに敏感な政策最適化として定式化する新しい手法を提案する。 Inside-Out SMC^2アルゴリズムは,予測情報ゲインのネストされた連続モンテカルロ(SMC)推定器を使用し,それを粒子マルコフ連鎖モンテカルロ(pMCMC)フレームワークに埋め込んで勾配に基づく政策最適化を行う。 これは、先進的な設計方針を学習することで実験のコストを減らし、期待情報ゲイン(EIG)のバイアス推定に頼っている最近のアプローチとは対照的である。 一連の力学系の数値検証は,他の最先端戦略と比較して,本手法の有効性を示す。

In this paper, we propose a novel approach to Bayesian Experimental Design (BED) for non-exchangeable data that formulates it as risk-sensitive policy optimization. We develop the Inside-Out SMC^2 algorithm that uses a nested sequential Monte Carlo (SMC) estimator of the expected information gain and embeds it into a particle Markov chain Monte Carlo (pMCMC) framework to perform gradient-based policy optimization. This is in contrast to recent approaches that rely on biased estimators of the expected information gain (EIG) to amortize the cost of experiments by learning a design policy in advance. Numerical validation on a set of dynamical systems showcases the efficacy of our method in comparison to other state-of-the-art strategies.
翻訳日:2024-02-13 13:08:19 公開日:2024-02-12
# PoisonedRAG: 大規模言語モデルの検索強化に対する知識中毒攻撃

PoisonedRAG: Knowledge Poisoning Attacks to Retrieval-Augmented Generation of Large Language Models ( http://arxiv.org/abs/2402.07867v1 )

ライセンス: Link先を確認
Wei Zou, Runpeng Geng, Binghui Wang, Jinyuan Jia(参考訳) 大規模言語モデル(LLM)は、その例外的な生成能力により、顕著な成功を収めた。 彼らの成功にもかかわらず、それらはまた、最新の知識と幻覚の欠如のような固有の制限がある。 Retrieval-Augmented Generation (RAG)は、これらの制限を緩和するための最先端技術である。 特に、質問が与えられた場合、RAGは知識データベースから関連する知識を取得し、LSMの入力を増強する。 例えば、検索された知識は、ウィキペディアから集めた数百万のテキストを含む知識データベースが与えられた質問に最もセマンティックに類似したトップkテキストの集合である可能性がある。 その結果、LLMは検索した知識をコンテキストとして利用して、与えられた質問に対する回答を生成することができた。 既存の研究は主にRAGの正確さや効率の改善に重点を置いており、その安全性は明らかにされていない。 私たちはこの仕事のギャップを埋めることを目指している。 特に,RAG に対する知識中毒攻撃のセットである PoisonedRAG を提案し,攻撃者が攻撃対象の質問に対して LLM が攻撃対象の回答を生成するように,いくつかの有害テキストを知識データベースに注入する。 我々は知識中毒攻撃を最適化問題として定式化し,その解は有毒テキストの集合である。 rag上の攻撃者の背景知識(ブラックボックス設定やホワイトボックス設定など)に応じて、最適化問題を解決するための2つのソリューションを提案する。 複数のベンチマークデータセットとLCMによる結果から、ターゲットの質問に対して5つの有毒テキストを数百万のテキストを持つデータベースに注入することで、攻撃が90%の成功率を達成することができた。 我々はまた、最近の防衛も評価し、我々の攻撃に対して防衛するには不十分であることを示し、新しい防衛の必要性を強調した。

Large language models (LLMs) have achieved remarkable success due to their exceptional generative capabilities. Despite their success, they also have inherent limitations such as a lack of up-to-date knowledge and hallucination. Retrieval-Augmented Generation (RAG) is a state-of-the-art technique to mitigate those limitations. In particular, given a question, RAG retrieves relevant knowledge from a knowledge database to augment the input of the LLM. For instance, the retrieved knowledge could be a set of top-k texts that are most semantically similar to the given question when the knowledge database contains millions of texts collected from Wikipedia. As a result, the LLM could utilize the retrieved knowledge as the context to generate an answer for the given question. Existing studies mainly focus on improving the accuracy or efficiency of RAG, leaving its security largely unexplored. We aim to bridge the gap in this work. Particularly, we propose PoisonedRAG , a set of knowledge poisoning attacks to RAG, where an attacker could inject a few poisoned texts into the knowledge database such that the LLM generates an attacker-chosen target answer for an attacker-chosen target question. We formulate knowledge poisoning attacks as an optimization problem, whose solution is a set of poisoned texts. Depending on the background knowledge (e.g., black-box and white-box settings) of an attacker on the RAG, we propose two solutions to solve the optimization problem, respectively. Our results on multiple benchmark datasets and LLMs show our attacks could achieve 90% attack success rates when injecting 5 poisoned texts for each target question into a database with millions of texts. We also evaluate recent defenses and our results show they are insufficient to defend against our attacks, highlighting the need for new defenses.
翻訳日:2024-02-13 13:08:06 公開日:2024-02-12
# 仮想チャネルの浄化

Virtual Channel Purification ( http://arxiv.org/abs/2402.07866v1 )

ライセンス: Link先を確認
Zhenhuan Liu, Xingjian Zhang, Yue-Yang Fei, Zhenyu Cai(参考訳) 量子エラー軽減は、最先端ノイズマシンや早期耐故障装置の目標状態特性を抽出する鍵となるアプローチである。 本稿では,フラッグフォールトトレランスと仮想状態浄化のアイデアを用いて,同様の量子ビットおよびゲートリソースを仮想状態浄化として使用する仮想チャネル浄化(vcp)プロトコルを開発した。 さらに、VCPは仮想状態浄化に必要な仮定の大部分を取り除く。 本質的に、VCPはノイズモデル、ターゲット量子状態、ターゲット問題に関する具体的な知識を必要としない最初の量子エラー軽減プロトコルであり、実用的なノイズレシエーションに対して厳密な性能保証を提供する。 さらに、VCPと量子エラー補正の間で接続が行われ、量子エラー補正と量子エラー緩和を組み合わせた最初のプロトコルの1つが生成される。 チャネル内のすべてのノイズを除去し、低次の浄化と同じサンプリングコストを支払えば、量子エラー緩和における標準バイアス分散トレードオフを超えることができる。 このプロトコルはチャネル容量の活性化や絡み合い分布といった量子ネットワークの重要なタスクにも適用できる。

Quantum error mitigation is a key approach for extracting target state properties on state-of-the-art noisy machines and early fault-tolerant devices. Using the ideas from flag fault tolerance and virtual state purification, we develop the virtual channel purification (VCP) protocol, which consumes similar qubit and gate resources as virtual state purification but offers up to exponentially stronger error suppression with increased system size and more noisy operation copies. Furthermore, VCP removes most of the assumptions required in virtual state purification. Essentially, VCP is the first quantum error mitigation protocol that does not require specific knowledge about the noise models, the target quantum state, and the target problem while still offering rigorous performance guarantees for practical noise regimes. Further connections are made between VCP and quantum error correction to produce one of the first protocols that combine quantum error correction and quantum error mitigation beyond concatenation. We can remove all noise in the channel while paying only the same sampling cost as low-order purification, reaching beyond the standard bias-variance trade-off in quantum error mitigation. Our protocol can also be adapted to key tasks in quantum networks like channel capacity activation and entanglement distribution.
翻訳日:2024-02-13 13:07:36 公開日:2024-02-12
# AIによる予測:人間の予測精度を改善するLLMアシスタント

AI-Augmented Predictions: LLM Assistants Improve Human Forecasting Accuracy ( http://arxiv.org/abs/2402.07862v1 )

ライセンス: Link先を確認
Philipp Schoenegger, Peter S. Park, Ezra Karger, Philip E. Tetlock(参考訳) 大規模言語モデル(llm)は印象的な能力を示し、多くの領域で人間のパフォーマンスを上回っています。 本研究は,予測作業における判断性を高めるためのllmの可能性を検討する。 2つのGPT-4-Turboアシスタントの予測精度への影響について検討した。 参加者 (N = 991) は, 直接予測支援を伴わずに, より進んだモデル (DaVinci-003) を用いた制御群とは対照的に, 与えられたLLMアシスタントを参照する選択肢を持っていた。 予備登録分析の結果,LLMの増大は,制御群と比較して,両タイプのアシスタントで予測精度を23%向上させることがわかった。 この改善は、スーパーフォアキャスティングアシスタントの予測精度が高いにもかかわらず行われ、拡張の利点はモデル予測精度だけによるものではないことを示している。 調査の結果,1項目の予測項目で顕著な効果を示したが,28%の偏りがみられたのに対し,超予測アシスタントの精度は43%向上した。 さらに,LLM増補は,熟練度が低い予測者に対して不均衡に恩恵を与えるか,予測の多様性を減らし,知恵を低下させるか,質問の難易度で効果が変化するかを検討する。 我々の発見はこれらの仮説を一貫して支持していない。 以上の結果から,llmアシスタントへのアクセスは,バイアスのあるものであっても,対話時に答えが不明な認知的要求課題において有効な意思決定支援となる可能性が示唆された。

Large language models (LLMs) show impressive capabilities, matching and sometimes exceeding human performance in many domains. This study explores the potential of LLMs to augment judgement in forecasting tasks. We evaluated the impact on forecasting accuracy of two GPT-4-Turbo assistants: one designed to provide high-quality advice ('superforecasting'), and the other designed to be overconfident and base-rate-neglecting. Participants (N = 991) had the option to consult their assigned LLM assistant throughout the study, in contrast to a control group that used a less advanced model (DaVinci-003) without direct forecasting support. Our preregistered analyses reveal that LLM augmentation significantly enhances forecasting accuracy by 23% across both types of assistants, compared to the control group. This improvement occurs despite the superforecasting assistant's higher accuracy in predictions, indicating the augmentation's benefit is not solely due to model prediction accuracy. Exploratory analyses showed a pronounced effect in one forecasting item, without which we find that the superforecasting assistant increased accuracy by 43%, compared with 28% for the biased assistant. We further examine whether LLM augmentation disproportionately benefits less skilled forecasters, degrades the wisdom-of-the-crowd by reducing prediction diversity, or varies in effectiveness with question difficulty. Our findings do not consistently support these hypotheses. Our results suggest that access to an LLM assistant, even a biased one, can be a helpful decision aid in cognitively demanding tasks where the answer is not known at the time of interaction.
翻訳日:2024-02-13 13:07:15 公開日:2024-02-12
# 論文入札におけるレビュー者・著者共謀輪の検出について

On the Detection of Reviewer-Author Collusion Rings From Paper Bidding ( http://arxiv.org/abs/2402.07860v1 )

ライセンス: Link先を確認
Steven Jecmen, Nihar B. Shah, Fei Fang, Leman Akoglu(参考訳) コンピュータサイエンス会議におけるピアレビューシステムに対する大きな脅威は、レビュアー間の「衝突リング」の存在である。 このような共謀のリングでは、会議に自身の論文を提出したレビュアーが共同で会議の紙の割り当てを操作し、お互いの論文をレビューするために割り当てられる。 可解なレビュアーが紙の代入を操作できる最も簡単な方法は、戦略的な論文入札を通じて互いの論文に対する関心を示すことである。 この重要な問題を解決するための潜在的アプローチの1つは、調整された入札から衝突するレビュアーを検出することである。 以前の研究は、他の種類の不正を検知するための効果的な技術を開発したが、まだ結節環の検出が可能であるという研究は確立していない。 本研究では,紙入札から結束環を検出できるかどうかという問題に取り組む。 この質問に答えるために,既存の不正検出アルゴリズムの評価を含む,現実的な2つの会議入札データセットの実証分析を行う。 例えば、あるデータセットでは、検出されていないコリダは、他のコリダによって書かれた論文の最大30%に割り当てることができる。 さらに、10人のコラウダーがお互いの論文の全てに入札すると、検出アルゴリズムは真のコラウダーと31%以上のオーバーラップしたレビュアーのグループを出力しない。 これらの結果から,共謀は入札から効果的に検出できないことが示唆され,追加メタデータを活用するより複雑な検出アルゴリズムの開発の必要性が示された。

A major threat to the peer-review systems of computer science conferences is the existence of "collusion rings" between reviewers. In such collusion rings, reviewers who have also submitted their own papers to the conference work together to manipulate the conference's paper assignment, with the aim of being assigned to review each other's papers. The most straightforward way that colluding reviewers can manipulate the paper assignment is by indicating their interest in each other's papers through strategic paper bidding. One potential approach to solve this important problem would be to detect the colluding reviewers from their manipulated bids, after which the conference can take appropriate action. While prior work has has developed effective techniques to detect other kinds of fraud, no research has yet established that detecting collusion rings is even possible. In this work, we tackle the question of whether it is feasible to detect collusion rings from the paper bidding. To answer this question, we conduct empirical analysis of two realistic conference bidding datasets, including evaluations of existing algorithms for fraud detection in other applications. We find that collusion rings can achieve considerable success at manipulating the paper assignment while remaining hidden from detection: for example, in one dataset, undetected colluders are able to achieve assignment to up to 30% of the papers authored by other colluders. In addition, when 10 colluders bid on all of each other's papers, no detection algorithm outputs a group of reviewers with more than 31% overlap with the true colluders. These results suggest that collusion cannot be effectively detected from the bidding, demonstrating the need to develop more complex detection algorithms that leverage additional metadata.
翻訳日:2024-02-13 13:06:43 公開日:2024-02-12
# Lissard: 長くてシンプルなシーケンス推論データセット

Lissard: Long and Simple Sequential Reasoning Datasets ( http://arxiv.org/abs/2402.07859v1 )

ライセンス: Link先を確認
Mirelle Bueno, Roberto Lotufo, and Rodrigo Nogueira(参考訳) 言語モデルは、数十万のトークンからなる長いシーケンスを扱う必要のあるタスクを解決することができる。 しかしながら、単純なルールを繰り返し使用する必要のあるタスクでは、トレーニング中に見られるものよりもはるかに短いシーケンスでも失敗することが多い。 例えば、最先端のllmは、最大20項目の2つのリストにある共通項目を見つけることができるが、リストが80項目ある場合は失敗する。 本稿では,モデルが処理し,広範囲なシーケンス長を生成する能力を評価することを目的とした7つのタスクからなるベンチマークであるLissardを紹介する。 オープンソース (Mistral-7B と Mixtral-8x7B) とプロプライエタリモデル (GPT-3.5 と GPT-4) の評価は、シーケンスの複雑さが増大するにつれて、全てのモデルにおいて一貫した性能低下を示す。 データセットとコードはhttps://github.com/unicamp-dl/lissardで入手できる。

Language models are now capable of solving tasks that require dealing with long sequences consisting of hundreds of thousands of tokens. However, they often fail on tasks that require repetitive use of simple rules, even on sequences that are much shorter than those seen during training. For example, state-of-the-art LLMs can find common items in two lists with up to 20 items but fail when lists have 80 items. In this paper, we introduce Lissard, a benchmark comprising seven tasks whose goal is to assess the ability of models to process and generate wide-range sequence lengths, requiring repetitive procedural execution. Our evaluation of open-source (Mistral-7B and Mixtral-8x7B) and proprietary models (GPT-3.5 and GPT-4) show a consistent decline in performance across all models as the complexity of the sequence increases. The datasets and code are available at https://github.com/unicamp-dl/Lissard
翻訳日:2024-02-13 13:06:16 公開日:2024-02-12
# 気分障害における薬物クラスと非レスポンダーの同定のためのマルチスケール神経画像特徴

Multiscale Neuroimaging Features for the Identification of Medication Class and Non-Responders in Mood Disorder Treatment ( http://arxiv.org/abs/2402.07858v1 )

ライセンス: Link先を確認
Bradley T. Baker, Mustafa S. Salman, Zening Fu, Armin Iraji, Elizabeth Osuch, Jeremy Bockholt, Vince D. Calhoun(参考訳) 気分障害の臨床治療において、患者が提示する複雑な行動症状と特定の薬物クラスに対する患者反応の変動は、標準診断法や処方薬法を用いる場合に、迅速かつ信頼性の高い治療を提供するのに困難をもたらす可能性がある。 神経画像スキャンや誘導体などの生理学的情報を臨床プロセスに組み込むことにより、このプロセスを取り巻く不確実性を軽減することが期待されている。 特に、ニューラルな特徴が抗うつ薬や気分安定剤の標準的なコースに反応しない患者を特定するのに役立ち、臨床医は長大で副作用のある治療を回避し、考慮されていないかもしれない別の、より効果的なコースを探すことができる。 これまで、関連する神経画像の特徴を導出するためのアプローチは、データ内の1つのスケールでのみ機能し、臨床診断支援に利用可能な情報の深さを制限する可能性があった。 本研究では,多空間規模のニューロイメージング機能(特に静止状態機能ネットワークと機能的ネットワーク接続対策)の利用が,気分障害の治療における関連薬物クラスと非対応者の識別に,リッチで堅牢な基盤を提供することを示す。 生成した特徴は、高速かつ自動的な特徴選択のための新しいアプローチとともに、薬品クラスと非対応者の識別における高い精度と、新規なマルチスケールバイオマーカーの識別を支援することができることを示す。

In the clinical treatment of mood disorders, the complex behavioral symptoms presented by patients and variability of patient response to particular medication classes can create difficulties in providing fast and reliable treatment when standard diagnostic and prescription methods are used. Increasingly, the incorporation of physiological information such as neuroimaging scans and derivatives into the clinical process promises to alleviate some of the uncertainty surrounding this process. Particularly, if neural features can help to identify patients who may not respond to standard courses of anti-depressants or mood stabilizers, clinicians may elect to avoid lengthy and side-effect-laden treatments and seek out a different, more effective course that might otherwise not have been under consideration. Previously, approaches for the derivation of relevant neuroimaging features work at only one scale in the data, potentially limiting the depth of information available for clinical decision support. In this work, we show that the utilization of multi spatial scale neuroimaging features - particularly resting state functional networks and functional network connectivity measures - provide a rich and robust basis for the identification of relevant medication class and non-responders in the treatment of mood disorders. We demonstrate that the generated features, along with a novel approach for fast and automated feature selection, can support high accuracy rates in the identification of medication class and non-responders as well as the identification of novel, multi-scale biomarkers.
翻訳日:2024-02-13 13:05:55 公開日:2024-02-12
# 歴史的降雨データに基づくインドにおけるモンスーン降雨予測とncep-nwp予測の比較

Comparing skill of historical rainfall data based monsoon rainfall prediction in India with NCEP-NWP forecasts ( http://arxiv.org/abs/2402.07851v1 )

ライセンス: Link先を確認
Apoorva Narula, Aastha Jain, Jatin Batra, Sandeep Juneja(参考訳) この草案では,4モンスーン,1日,3日前におけるインド全土の降雨量予測の問題点について考察する。 我々は,imdから得られた過去の日次降水データを用いて,1^{\circ} \times 1^{\circ}$の空間分解能で,901~2022$の期間にニューラルネットワークを訓練した。 これは、2011-2022年にNCEP(National Centre for Environmental Prediction)から得られた数値天気予報(NWP)の予測と比較する。 国全体の詳細な分析を行い,インドで最も人口の多い都市を別々に分析した。 過去の降雨データにディープラーニングを適用した予測は,NWP予測や永続性に基づく予測よりも正確である,という結論が得られた。 我々の予測と比較すると、NCEP-NWPモデルによる予測は1日の予測では約34%高い誤差を持ち、3日の予測では68%以上のエラーがある。 同様に、パーシステンス推定では、1日の予測では29%、3日の予測では54%以上のエラーが報告されている。 さらに、過去20日間のデータは、1日と3日の予測の誤りを減らし、トランスフォーマーベースの学習アーキテクチャ、LSTMを使用する場合の少なさを観察する。 予備分析で示唆された重要な結論は、モンスーン予測に関連する多種多様なデータと慎重に選択されたニューラルネットワークアーキテクチャにより、NWP予測を大幅に改善できるということである。

In this draft we consider the problem of forecasting rainfall across India during the four monsoon months, one day as well as three days in advance. We train neural networks using historical daily gridded precipitation data for India obtained from IMD for the time period $1901- 2022$, at a spatial resolution of $1^{\circ} \times 1^{\circ}$. This is compared with the numerical weather prediction (NWP) forecasts obtained from NCEP (National Centre for Environmental Prediction) available for the period 2011-2022. We conduct a detailed country wide analysis and separately analyze some of the most populated cities in India. Our conclusion is that forecasts obtained by applying deep learning to historical rainfall data are more accurate compared to NWP forecasts as well as predictions based on persistence. On average, compared to our predictions, forecasts from NCEP-NWP model have about 34% higher error for a single day prediction, and over 68% higher error for a three day prediction. Similarly, persistence estimates report a 29% higher error in a single day forecast, and over 54% error in a three day forecast. We further observe that data up to 20 days in the past is useful in reducing errors of one and three day forecasts, when a transformer based learning architecture, and to a lesser extent when an LSTM is used. A key conclusion suggested by our preliminary analysis is that NWP forecasts can be substantially improved upon through more and diverse data relevant to monsoon prediction combined with carefully selected neural network architecture.
翻訳日:2024-02-13 13:05:30 公開日:2024-02-12
# 割り当て多様体上のE-Geodesic Flow Matchingによる離散関節分布の生成モデリング

Generative Modeling of Discrete Joint Distributions by E-Geodesic Flow Matching on Assignment Manifolds ( http://arxiv.org/abs/2402.07846v1 )

ライセンス: Link先を確認
Bastian Boll, Daniel Gonzalez-Alvarado, Christoph Schn\"orr(参考訳) 本稿では、離散測度を分解する部分多様体上の連続正規化フローに基づく離散分布の新しい生成モデルを提案する。 フローの統合は徐々にカテゴリを割り当て、ラウンドリングやサンプルトランケーションといった潜在的連続モデルを識別する問題を回避します。 構造化離散データの複雑な統計的依存関係を表現できる一般的な非分解離散分布は、部分多様体を全ての結合離散分布のメタプレプレックスに埋め込み、データ駆動平均化によって近似することができる。 離散分布を分解する測地線の流れをマッチングすることにより、生成モデルの効率的な訓練を実演する。 様々な実験は、アプローチの幅広い適用性を説明する。

This paper introduces a novel generative model for discrete distributions based on continuous normalizing flows on the submanifold of factorizing discrete measures. Integration of the flow gradually assigns categories and avoids issues of discretizing the latent continuous model like rounding, sample truncation etc. General non-factorizing discrete distributions capable of representing complex statistical dependencies of structured discrete data, can be approximated by embedding the submanifold into a the meta-simplex of all joint discrete distributions and data-driven averaging. Efficient training of the generative model is demonstrated by matching the flow of geodesics of factorizing discrete distributions. Various experiments underline the approach's broad applicability.
翻訳日:2024-02-13 13:05:06 公開日:2024-02-12
# ノードクラスタリングにおける教師なしメトリックによるGNNの最適化に関する検討

An Investigation into Using Unsupervised Metrics to Optimise GNNs for Node Clustering ( http://arxiv.org/abs/2402.07845v1 )

ライセンス: Link先を確認
William Leeney and Ryan McConville(参考訳) グラフニューラルネットワーク(gnns)は、特徴と接続情報の双対性から学習することで、グラフ内のコミュニティを検出するように訓練することができる。 現在、GNNの最適化のための一般的なアプローチは、ハイパーパラメータチューニングとモデル選択にグラウンドトゥルースとの比較を使うことである。 本研究では,モジュール性のみを最適化することで,ノードをgnnを持つコミュニティにクラスタ化できることを示す。 モジュラリティはグラフ分割品質指標であるが、性能の低下なしに機能をエンコードするGNNの最適化に使用できることを示す。 我々はさらに一歩進め、教師なしのメートル法性能が地中性能を予測できるかどうかについても検討する。 gnnを最適化するためにモジュラリティが利用できる理由を調べるために、このアプローチの限界を示す合成実験をデザインする。 合成グラフは、属性グラフ内の異なる、ランダム、ゼロの情報空間分割における現在の機能を強調するために作成される。 モジュラリティは,実世界のデータセット上でのハイパーパラメータ最適化やモデル選択に使用できると同時に,地上性能の予測に適したプロキシとしても使用できるが,空間が競合する信号を含む場合,gnnは情報の双対性のバランスを取れない。

Graph Neural Networks (GNNs) can be trained to detect communities within a graph by learning from the duality of feature and connectivity information. Currently, the common approach for optimisation of GNNs is to use comparisons to ground-truth for hyperparameter tuning and model selection. In this work, we show that nodes can be clustered into communities with GNNs by solely optimising for modularity, without any comparison to ground-truth. Although modularity is a graph partitioning quality metric, we show that this can be used to optimise GNNs that also encode features without a drop in performance. We take it a step further and also study whether the unsupervised metric performance can predict ground-truth performance. To investigate why modularity can be used to optimise GNNs, we design synthetic experiments that show the limitations of this approach. The synthetic graphs are created to highlight current capabilities in distinct, random and zero information space partitions in attributed graphs. We conclude that modularity can be used for hyperparameter optimisation and model selection on real-world datasets as well as being a suitable proxy for predicting ground-truth performance, however, GNNs fail to balance the information duality when the spaces contain conflicting signals.
翻訳日:2024-02-13 13:04:54 公開日:2024-02-12
# mercury: llmコード合成のための効率ベンチマーク

Mercury: An Efficiency Benchmark for LLM Code Synthesis ( http://arxiv.org/abs/2402.07844v1 )

ライセンス: Link先を確認
Mingzhe Du, Anh Tuan Luu, Bin Ji, See-Kiong Ng(参考訳) コード合成のためのLarge Language Models (LLM)の評価の進歩にもかかわらず、ベンチマークは主に機能的正確性に注目し、コード効率の重要性を見越している。 LLMコード合成タスクのコード効率を評価するために指定された最初のベンチマークであるMercuryを提示する。 mercuryは、さまざまな難易度レベルをカバーする1,889のプログラミングタスクと、包括的な評価のために無制限のケースを生成するテストケースジェネレータで構成されている。 既存のベンチマークとは異なり、MercuryはBeyond@Kという新しいメトリクスを統合して、過去の提案に基づいて正規化されたコード効率を測定する。 LLMは機能的に正しいコードを生成する能力を示すが、その効率性には大きなギャップがあり、LLM研究と開発のための新たなフロンティアが浮かび上がっている。

Despite advancements in evaluating Large Language Models (LLMs) for code synthesis, benchmarks have predominantly focused on functional correctness, overlooking the importance of code efficiency. We present Mercury, the first benchmark designated for assessing the code efficiency of LLM code synthesis tasks. Mercury consists of 1,889 programming tasks covering diverse difficulty levels alongside test case generators generating unlimited cases for comprehensive evaluation. Unlike existing benchmarks, Mercury integrates a novel metric Beyond@K to measure normalized code efficiency based on historical submissions, leading to a new evaluation indicator for code synthesis, which encourages generating functionally correct and computationally efficient code, mirroring the real-world software development standard. Our findings reveal that while LLMs demonstrate the remarkable capability to generate functionally correct code, there still exists a substantial gap in their efficiency output, underscoring a new frontier for LLM research and development.
翻訳日:2024-02-13 13:04:31 公開日:2024-02-12
# 量子テトラヘドラの安定化エントロピー

Stabilizer entropy of quantum tetrahedra ( http://arxiv.org/abs/2402.07843v1 )

ライセンス: Link先を確認
Simone Cepollaro, Goffredo Chirco, Gianluca Cuffaro, Gianluca Esposito, Alioscia Hamma(参考訳) 量子幾何学の構造はどの程度複雑か? いくつかのアプローチでは、時空原子は量子四面体と呼ばれるsu(2)中間子によって得られる。 この構造の複雑さは、そのようなモデルをシミュレートし、量子重力効果の実験的実証に向けての最近の試みにおいて、具体的な結果をもたらす。 したがって、このクラスのモデルに固有の計算と実験的な複雑さの両方が存在する。 本稿では,安定度エントロピー(SE)のレンズ下で,この複雑さについて検討する。 ゲージ不変基底状態のseと、su(2)ゲージ不変部分空間におけるその平均を計算する。 定容積の状態は(ほぼ)最大SEによって選択され、利用可能な量子コンピュータ上での実験的なデモンストレーションを行うための検証プロトコルに正確な境界を与える。

How complex is the structure of quantum geometry? In several approaches, the spacetime atoms are obtained by the SU(2) intertwiner called quantum tetrahedron. The complexity of this construction has a concrete consequence in recent efforts to simulate such models and toward experimental demonstrations of quantum gravity effects. There are, therefore, both a computational and an experimental complexity inherent to this class of models. In this paper, we study this complexity under the lens of stabilizer entropy (SE). We calculate the SE of the gauge-invariant basis states and its average in the SU(2) gauge invariant subspace. We find that the states of definite volume are singled out by the (near) maximal SE and give precise bounds to the verification protocols for experimental demonstrations on available quantum computers.
翻訳日:2024-02-13 13:04:14 公開日:2024-02-12
# トランスフォーマーをスピードアップする「fast: factorizable attention」

FAST: Factorizable Attention for Speeding up Transformers ( http://arxiv.org/abs/2402.07901v1 )

ライセンス: Link先を確認
Armin Gerami, Monte Hoover, Pranav S. Dulepet, Ramani Duraiswami(参考訳) 元の高速多重極法に固有の因子分解と改良された高速ガウス変換により、高次元で効率的に動作する分解可能な注意形式を導入する。 このアプローチは、変換器の注意機構の計算とメモリの複雑さを$O(N^2)$から$O(N)$に下げる。 従来の試みと比較して,注意行列の完全な表現をスペース化を伴わずに維持し,トークン間の全対一の関係を組み込む線形スケールアテンション機構を提案する。 新しいアテンションメトリックの特性を調べ、様々な標準設定でテストを実施します。 その結果、我々の注意機構は堅牢な性能を示し、自己注意が使用される多様なアプリケーションに対して大きな可能性を秘めていることがわかった。

Motivated by the factorization inherent in the original fast multipole method and the improved fast Gauss transform we introduce a factorable form of attention that operates efficiently in high dimensions. This approach reduces the computational and memory complexity of the attention mechanism in transformers from $O(N^2)$ to $O(N)$. In comparison to previous attempts, our work presents a linearly scaled attention mechanism that maintains the full representation of the attention matrix without compromising on sparsification and incorporates the all-to-all relationship between tokens. We explore the properties of our new attention metric and conduct tests in various standard settings. Results indicate that our attention mechanism has a robust performance and holds significant promise for diverse applications where self-attention is used.
翻訳日:2024-02-13 12:56:09 公開日:2024-02-12
# Wavefrontランダム化はデコンボリューションを改善する

Wavefront Randomization Improves Deconvolution ( http://arxiv.org/abs/2402.07900v1 )

ライセンス: Link先を確認
Amit Kohli, Anastasios N. Angelopoulos, Laura Waller(参考訳) 撮像システムの性能は光学収差によって制限され、その結果の画像のぼかしを引き起こす。 デコンボリューションのようなデジタル補正技術は、シーン内の空間周波数が収差によって適切に測定されないため、ブラーを補正する能力に制限がある(システム転送機能の「ゼロ」)。 画像システムへのランダムマスクの付加は収差依存性をなくし、伝達関数の零点の可能性を低減し、デコンボリューション時のノイズに対する感度を低下させることを実証する。 その結果、デコンボリューション中のノイズに対する感度が低下する。 シミュレーションでは, この手法により, 収差型, 収差強度, 信号対雑音比の幅で画質が向上することを示す。

The performance of an imaging system is limited by optical aberrations, which cause blurriness in the resulting image. Digital correction techniques, such as deconvolution, have limited ability to correct the blur, since some spatial frequencies in the scene are not measured adequately due to the aberrations ('zeros' of the system transfer function). We prove that the addition of a random mask to an imaging system removes its dependence on aberrations, reducing the likelihood of zeros in the transfer function and consequently reducing the sensitivity to noise during deconvolution. and consequently result in lower sensitivity to noise during deconvolution. In simulation, we show that this strategy improves image quality over a range of aberration types, aberration strengths, and signal-to-noise ratios.
翻訳日:2024-02-13 12:55:57 公開日:2024-02-12
# シングルチャイルド言語入力からの学習可能性に関する体系的研究

A systematic investigation of learnability from single child linguistic input ( http://arxiv.org/abs/2402.07899v1 )

ライセンス: Link先を確認
Yulu Qin, Wentao Wang and Brenden M. Lake(参考訳) 言語モデル(lms)は、言語的に一貫性のあるテキストを生成することに優れた能力を示し、人間の言語学習能力の理解にその関連性に関する議論を引き起こした。 しかし、これらのモデルのトレーニングデータと子供が受ける言語入力との間には、大きなギャップがある。 LMは一般的に、子供指向の音声(Warstadt and Bowman, 2022; Warstadt et al., 2023; Frank, 2023a)と大きく、根本的に異なるデータに基づいて訓練される。 本研究は,一人の子どもの言語入力のサブセットに基づくLMの訓練に焦点を当てた。 これまでwang, vong, kim, lake (2023) は、この設定で訓練されたlsmが構文的および意味的単語のクラスターを形成し、特定の言語現象に対する感受性を高めることができることを発見したが、それらは単一の子供データセットからトレーニングされたlstmと単純なニューラルネットワークのみを考慮していた。 ここでは,6つの異なるモデルアーキテクチャを5つのデータセット(3つのシングルチャイルドと2つのベースライン)で体系的に学習する。 その結果, シングルチャイルドデータセットを用いて学習したモデルは, 従来の研究と一貫した結果を示し, 子どもの言語入力のサブセットから意味的な構文的・意味的表現を形成するという頑健さを浮き彫りにした。

Language models (LMs) have demonstrated remarkable proficiency in generating linguistically coherent text, sparking discussions about their relevance to understanding human language learnability. However, a significant gap exists between the training data for these models and the linguistic input a child receives. LMs are typically trained on data that is orders of magnitude larger and fundamentally different from child-directed speech (Warstadt and Bowman, 2022; Warstadt et al., 2023; Frank, 2023a). Addressing this discrepancy, our research focuses on training LMs on subsets of a single child's linguistic input. Previously, Wang, Vong, Kim, and Lake (2023) found that LMs trained in this setting can form syntactic and semantic word clusters and develop sensitivity to certain linguistic phenomena, but they only considered LSTMs and simpler neural networks trained from just one single-child dataset. Here, to examine the robustness of learnability from single-child input, we systematically train six different model architectures on five datasets (3 single-child and 2 baselines). We find that the models trained on single-child datasets showed consistent results that matched with previous work, underscoring the robustness of forming meaningful syntactic and semantic representations from a subset of a child's linguistic input.
翻訳日:2024-02-13 12:55:43 公開日:2024-02-12
# 直接原理フィードバックによるピンクエレファント抑制

Suppressing Pink Elephants with Direct Principle Feedback ( http://arxiv.org/abs/2402.07896v1 )

ライセンス: Link先を確認
Louis Castricato, Nathan Lile, Suraj Anand, Hailey Schoelkopf, Siddharth Verma, Stella Biderman(参考訳) RLHFやコンスティチューションAIといった既存の言語モデルを制御する方法は、どのLLMの振る舞いが望ましいかを判断し、それらを言語モデルに訓練する。 しかし、多くの場合、llmsは様々なニーズを持つ複数のコンテキストで使用できるように、制御可能な \textit{at inference time} であることが望ましい。 我々はこれを \textbf{pink elephant problem} で説明する: llmに特定の実体(``pink elephant'')の議論を避けるよう指示し、代わりに望ましい実体(``grey elephant'')について議論する。 本稿では,リアクションのランク付けを省略し,批判やリビジョンに直接DPOを利用する,憲法AIの新たな単純化である‘textbf{Direct Principle Feedback} を適用する。 以上の結果から, 合成Pink ElephantsデータセットのDPF微調整後, LLaMA 2モデルがLlama-2-13B-Chatおよび誘導ベースラインより有意に優れており, Pink Elephant問題を評価する試験セットではGPT-4と同等の性能を示した。

Existing methods for controlling language models, such as RLHF and Constitutional AI, involve determining which LLM behaviors are desirable and training them into a language model. However, in many cases, it is desirable for LLMs to be controllable \textit{at inference time}, so that they can be used in multiple contexts with diverse needs. We illustrate this with the \textbf{Pink Elephant Problem}: instructing an LLM to avoid discussing a certain entity (a ``Pink Elephant''), and instead discuss a preferred entity (``Grey Elephant''). We apply a novel simplification of Constitutional AI, \textbf{Direct Principle Feedback}, which skips the ranking of responses and uses DPO directly on critiques and revisions. Our results show that after DPF fine-tuning on our synthetic Pink Elephants dataset, our 13B fine-tuned LLaMA 2 model significantly outperforms Llama-2-13B-Chat and a prompted baseline, and performs as well as GPT-4 in on our curated test set assessing the Pink Elephant Problem.
翻訳日:2024-02-13 12:55:13 公開日:2024-02-12
# カスタムデータセットを用いた機械学習によるラブラドールビーンのスパイダーマウスの検出

Detection of Spider Mites on Labrador Beans through Machine Learning Approaches Using Custom Datasets ( http://arxiv.org/abs/2402.07895v1 )

ライセンス: Link先を確認
Violet Liu, Jason Chen, Ans Qureshi, Mahla Nejati(参考訳) 本研究は,JAI FS-1600D-10GEカメラを用いて実環境下で収集したRGBおよびNIRデータを用いて,RGBNデータセットを構築することを目的とした,植物病検出のための視覚機械学習手法を提案する。 YOLOv8とシーケンシャルCNNを用いた2段階早期植物病検出モデルを用いて、部分ラベル付きデータセットのトレーニングを行い、単一段階のエンドツーエンドセグメンテーションモデルと比較して3.6%のmAP増加を示した。 シーケンシャルCNNモデルは、RGBNデータを利用する検証精度90.62%を達成した。 ResNet15とシーケンシャルCNNモデルを用いたRGBと比較して、RGBNを用いて平均6.25%の検証精度が向上した。 食品生産需要を満たすためには、さらなる研究とデータセットの改善が必要である。

Amidst growing food production demands, early plant disease detection is essential to safeguard crops; this study proposes a visual machine learning approach for plant disease detection, harnessing RGB and NIR data collected in real-world conditions through a JAI FS-1600D-10GE camera to build an RGBN dataset. A two-stage early plant disease detection model with YOLOv8 and a sequential CNN was used to train on a dataset with partial labels, which showed a 3.6% increase in mAP compared to a single-stage end-to-end segmentation model. The sequential CNN model achieved 90.62% validation accuracy utilising RGBN data. An average of 6.25% validation accuracy increase is found using RGBN in classification compared to RGB using ResNet15 and the sequential CNN models. Further research and dataset improvements are needed to meet food production demands.
翻訳日:2024-02-13 12:54:49 公開日:2024-02-12
# MODIPHY: PHantom Convolution-Enabled Faster YOLOを用いたIoT用マルチモーダル障害物検出

MODIPHY: Multimodal Obscured Detection for IoT using PHantom Convolution-Enabled Faster YOLO ( http://arxiv.org/abs/2402.07894v1 )

ライセンス: Link先を確認
Shubhabrata Mukherjee, Cory Beard, Zhu Li(参考訳) 自動運転車やセキュリティシステムのような現実のモノのインターネット(IoT)アプリケーションでは、低照度条件と隠蔽シナリオがオブジェクト検出を妨げる。 高度な機械学習モデルは精度を追求する一方で、計算の要求はリソース制約のあるデバイスの限界と衝突し、リアルタイムのパフォーマンスを阻害する。 現在の研究では、これまでに考案された最小のYOLOモデルのひとつである"YOLO Phantom"を導入することで、この課題に対処しています。 YOLO Phantomは、新しいPhantom Convolutionブロックを利用して、最新のYOLOv8nモデルに匹敵する精度を実現し、パラメータとモデルサイズを同時に43%削減し、Giga Floating Point Operations (GFLOPs) の19%の大幅な削減を実現している。 YOLO Phantomは、我々のマルチモーダルなRGB赤外線データセットの転送学習を活用して、低照度と閉塞の問題に対処し、悪条件下での堅牢なビジョンと組み合わせます。 その実世界の有効性は、高度な低照度およびrgbカメラを備えたiotプラットフォーム上で実証され、効率的なリアルタイムオブジェクト検出のためにawsベースの通知エンドポイントにシームレスに接続する。 ベンチマークの結果、ベースラインのYOLOv8nモデルと比較して、それぞれ17%と14%のフレーム/秒(FPS)で熱およびRGB検出が可能であることが判明した。 コミュニティへのコントリビューションには、コードとマルチモーダルデータセットの両方がGitHubで公開されている。

Low-light conditions and occluded scenarios impede object detection in real-world Internet of Things (IoT) applications like autonomous vehicles and security systems. While advanced machine learning models strive for accuracy, their computational demands clash with the limitations of resource-constrained devices, hampering real-time performance. In our current research, we tackle this challenge, by introducing "YOLO Phantom", one of the smallest YOLO models ever conceived. YOLO Phantom utilizes the novel Phantom Convolution block, achieving comparable accuracy to the latest YOLOv8n model while simultaneously reducing both parameters and model size by 43%, resulting in a significant 19% reduction in Giga Floating Point Operations (GFLOPs). YOLO Phantom leverages transfer learning on our multimodal RGB-infrared dataset to address low-light and occlusion issues, equipping it with robust vision under adverse conditions. Its real-world efficacy is demonstrated on an IoT platform with advanced low-light and RGB cameras, seamlessly connecting to an AWS-based notification endpoint for efficient real-time object detection. Benchmarks reveal a substantial boost of 17% and 14% in frames per second (FPS) for thermal and RGB detection, respectively, compared to the baseline YOLOv8n model. For community contribution, both the code and the multimodal dataset are available on GitHub.
翻訳日:2024-02-13 12:54:34 公開日:2024-02-12
# テキスト生成のためのラベル効率モデル選択

Label-Efficient Model Selection for Text Generation ( http://arxiv.org/abs/2402.07891v1 )

ライセンス: Link先を確認
Shir Ashury-Tahan, Benjamin Sznajder, Leshem Choshen, Liat Ein-Dor, Eyal Shnarch, Ariel Gera(参考訳) 与えられた対象タスクのモデル選択は、異なるモデルの出力品質の広範なアノテーションを伴う可能性があるため、コストがかかる可能性がある。 DiffUseは、候補テキスト生成モデル間の情報決定を効率的に行う方法である。 DiffUseは、必要な好みアノテーションの量を削減し、評価を行う上で貴重な時間とリソースを節約します。 DiffUseは、モデル出力間のセマンティックな差異を表す埋め込みをクラスタリングすることで、インテリジェントにインスタンスを選択する。 したがって、選好決定により有益である例のサブセットを識別することができる。 本手法はモデル非依存であり,任意のテキスト生成モデルに適用可能である。 さらに,アノテートするインスタンス数を動的に決定する実用的な反復手法を提案する。 何百ものモデルペアに対する一連の実験では、高い評価信頼性を維持しながら、DiffUseが要求されるアノテーションの数を最大75%削減できることを示した。

Model selection for a given target task can be costly, as it may entail extensive annotation of the quality of outputs of different models. We introduce DiffUse, an efficient method to make an informed decision between candidate text generation models. DiffUse reduces the required amount of preference annotations, thus saving valuable time and resources in performing evaluation. DiffUse intelligently selects instances by clustering embeddings that represent the semantic differences between model outputs. Thus, it is able to identify a subset of examples that are more informative for preference decisions. Our method is model-agnostic, and can be applied to any text generation model. Moreover, we propose a practical iterative approach for dynamically determining how many instances to annotate. In a series of experiments over hundreds of model pairs, we demonstrate that DiffUse can dramatically reduce the required number of annotations -- by up to 75% -- while maintaining high evaluation reliability.
翻訳日:2024-02-13 12:54:06 公開日:2024-02-12
# MAIDCRL: 半集中型マルチエージェント影響Dense-CNN強化学習

MAIDCRL: Semi-centralized Multi-Agent Influence Dense-CNN Reinforcement Learning ( http://arxiv.org/abs/2402.07890v1 )

ライセンス: Link先を確認
Ayesha Siddika Nipu, Siming Liu, Anthony Harris(参考訳) 多エージェントシステムにおける分散意思決定は、協調システムと競争システムの両方において対話的行動学習の難しい課題を示す。 この複雑さを軽減するため、MAIDRLはエージェント影響マップ(AIM)によって強化された半集中型Dense Reinforcement Learningアルゴリズムを提案し、StarCraft Multi-Agent Challenge(SMAC)シナリオで効果的なマルチエージェント制御を学習する。 本稿では、MAIDRLにおけるDenseNetを拡張し、深層モデルアーキテクチャに畳み込み層を組み込むことにより、半集中型マルチエージェントDense-CNN強化学習(MAIDCRL)を導入し、同種シナリオと異種シナリオの両方の性能評価を行う。 その結果,CNN対応MAIDCRLは学習性能を大幅に向上し,既存のMAIDRLと比較して学習速度が向上した。 さらに、モデルの安定性と堅牢性について検討する。 この統計は,我々のモデルが与えられたすべてのシナリオにおいて高い勝利率を達成するだけでなく,きめ細かい意思決定におけるエージェントの学習プロセスを促進することを反映している。

Distributed decision-making in multi-agent systems presents difficult challenges for interactive behavior learning in both cooperative and competitive systems. To mitigate this complexity, MAIDRL presents a semi-centralized Dense Reinforcement Learning algorithm enhanced by agent influence maps (AIMs), for learning effective multi-agent control on StarCraft Multi-Agent Challenge (SMAC) scenarios. In this paper, we extend the DenseNet in MAIDRL and introduce semi-centralized Multi-Agent Dense-CNN Reinforcement Learning, MAIDCRL, by incorporating convolutional layers into the deep model architecture, and evaluate the performance on both homogeneous and heterogeneous scenarios. The results show that the CNN-enabled MAIDCRL significantly improved the learning performance and achieved a faster learning rate compared to the existing MAIDRL, especially on more complicated heterogeneous SMAC scenarios. We further investigate the stability and robustness of our model. The statistics reflect that our model not only achieves higher winning rate in all the given scenarios but also boosts the agent's learning process in fine-grained decision-making.
翻訳日:2024-02-13 12:53:50 公開日:2024-02-12
# データ保護のためのAndroid静的解析アプローチに向けて

Toward an Android Static Analysis Approach for Data Protection ( http://arxiv.org/abs/2402.07889v1 )

ライセンス: Link先を確認
Mugdha Khedkar and Eric Bodden(参考訳) ユーザからデータを収集するandroidアプリケーションは,現行の法的フレームワークに従って保護する必要がある。 このようなデータ保護は、欧州連合がGDPR(General Data Protection Regulation)を施行して以来、さらに重要になっている。 アプリ開発者は法律の専門家ではないので、プライバシーを意識したソースコードを書くのは難しい。 さらに、アプリ開発プロセス全体でデータ保護を判断するためのツールサポートも限定されている。 本稿では,Androidアプリのデータ保護を診断し,説明するための静的解析アプローチの必要性を示唆する。 分析は、ソースコード内の個人データソースを認識し、これらのソースに由来するデータフローをさらに調査することを目的としている。 アプリケーション開発者は、データ操作、派生データ、および技術的措置の存在に関する重要な質問に答えることができる。 課題にも拘わらず、セキュリティ脆弱性を識別する一般的な方法である静的なテナント分析によって、この分析がどこまで実現できるかを探る。 これは、自動静的プログラム分析に基づいて、Androidアプリのデータ保護を保証するために、アプリ開発者やアセスタを支援するツールベースのアプローチを設計する最初のステップである。

Android applications collecting data from users must protect it according to the current legal frameworks. Such data protection has become even more important since the European Union rolled out the General Data Protection Regulation (GDPR). Since app developers are not legal experts, they find it difficult to write privacy-aware source code. Moreover, they have limited tool support to reason about data protection throughout their app development process. This paper motivates the need for a static analysis approach to diagnose and explain data protection in Android apps. The analysis will recognize personal data sources in the source code, and aims to further examine the data flow originating from these sources. App developers can then address key questions about data manipulation, derived data, and the presence of technical measures. Despite challenges, we explore to what extent one can realize this analysis through static taint analysis, a common method for identifying security vulnerabilities. This is a first step towards designing a tool-based approach that aids app developers and assessors in ensuring data protection in Android apps, based on automated static program analysis.
翻訳日:2024-02-13 12:53:28 公開日:2024-02-12
# 量子ドットにおける励起子とバイエクシトン状態のハイブリッドアコースト・オプティカル・スイングアップ合成

Hybrid acousto-optical swing-up preparation of exciton and biexciton states in a quantum dot ( http://arxiv.org/abs/2402.07887v1 )

ライセンス: Link先を確認
Mateusz Kuniej, Micha{\l} Gawe{\l}czyk, Pawe{\l} Machnikowski(参考訳) 近年では、制御されたカップリングによる量子自由度が量子情報の転送を可能にし、新しい世代のデバイスが出現する可能性があるハイブリッドシステムのアイデアが持ち込まれた。 すべての固体系との普遍的な結合と小型化との互換性のため、音場はそのような部品の界面において重要な役割を果たす。 光活性量子ドット(英語版)(QD)は、量子技術とその複数の利用可能なインターフェースにおけるシステムの最前線にあり、ハイブリッドシステムの優れたコンポーネントとなる。 QDは偏光に絡み合った光子対を生成するが、決定論的かつ高忠実な状態の準備が必要である。 すべての共鳴スキームは、励起パルスから放出された光子を区別するためにフィルタを必要とする。 したがって、最近提案され成功したスイングアップスキームのように、非共鳴励起法が必要となる。 本稿では,この非共振器方式のハイブリッド音響光学バージョンを提案し,エキシトンおよびバイエクシトン状態の合成を行う。 音響変調を用いることで、1つの振動モードと1つの光パルスでエキシトン状態またはバイエクシトン状態を選択的に励起できることを示す。 したがって、どちらのフィールドも進化を制御するトリガーとして振る舞うことができる。 さらに, 2種類の応用関連QD, InAs/GaAs, GaAs/AlGaAsの有限温度におけるフォノン脱コヒーレンスの影響を評価し, GaAs QDsのエキシトン調製は, 既に利用可能な音響変調周波数を持つ液体窒素温度においてもほぼ脱コヒーレンスフリーであることが確認された。 このアプローチは、アコースティックモードを遷移のトリガとして使用する場合、エミッタと量子音響モードの絡み合いを生成する方法となるかもしれない。

Recent years brought the idea of hybrid systems, in which quantum degrees of freedom, due to controlled couplings, allow the transfer of quantum information and may lead to the emergence of new generation devices. Due to the universal coupling with all solid-state systems and compatibility with miniaturization, acoustic fields will play an important role in interfacing such components. Optically active quantum dots (QDs) are at the forefront of systems for applications in quantum technologies and their multiple available interfaces make them a great component of hybrid systems. QDs generate polarization-entangled photon pairs, however deterministic and high-fidelity preparation of the state is needed. All resonant schemes need filtering to distinguish emitted photons from the excitation pulse, which limits the photon yield significantly. Thus, non-resonant excitation methods are needed like the recently proposed and successful swing-up scheme. Here, we propose a hybrid acousto-optical version of this non-resonant scheme to prepare exciton and biexciton states. We show that using acoustic modulation allows selectively exciting either exciton or biexciton states with just one mode of vibration and one optical pulse or vice versa: acoustic pulse during detuned optical driving. Thus, either of the fields can act as a trigger controlling the evolution. Further, we evaluate the impact of phonon decoherence at finite temperatures for two types of application-relevant QDs, InAs/GaAs and GaAs/AlGaAs, and find that for GaAs QDs exciton preparation can be almost decoherence-free even at liquid nitrogen temperatures already with currently available acoustic modulation frequencies. This approach may pave the way for generating entanglement between an emitter and a quantum acoustic mode when using the acoustic mode as a trigger for the transitions.
翻訳日:2024-02-13 12:53:12 公開日:2024-02-12
# 量子回路におけるコスト集中と勾配消滅の等価性:リーマン方程式の基本的証明

Equivalence of cost concentration and gradient vanishing for quantum circuits: an elementary proof in the Riemannian formulation ( http://arxiv.org/abs/2402.07883v1 )

ライセンス: Link先を確認
Qiang Miao and Thomas Barthel(参考訳) 量子回路の最適化は、システムサイズの平均勾配振幅の減衰によって阻害される。 崩壊が指数関数的であるとき、これはバレン高原問題と呼ばれる。 明示的な回路パラメトリゼーション(回転角の点で)を考えると、Arrasmith et al., Quantum Sci で示されている。 テクノル 7, 045015 (2022) は、バレン高原はコスト関数分散の指数関数的崩壊と等価である。 このような最適化問題の(パラメトリゼーションフリー)リーマン定式化において、この問題は特に単純になる。 初等導出は、コスト関数の単ゲート分散がリーマンの単ゲート勾配の分散の半分に厳密に等しいことを示し、ここでは一様ハール測度に従って可変ゲートをサンプリングする。 コスト関数とその勾配の総分散は、どちらも単ゲート分散の和によって上から有界であり、逆に上から有界な単ゲート分散である。 したがって、勾配の減衰とコスト関数の変動は引き継ぎ、不毛高原問題は勾配ベースを避けて勾配なし最適化法を採用することで解決できない。

The optimization of quantum circuits can be hampered by a decay of average gradient amplitudes with the system size. When the decay is exponential, this is called the barren plateau problem. Considering explicit circuit parametrizations (in terms of rotation angles), it has been shown in Arrasmith et al., Quantum Sci. Technol. 7, 045015 (2022) that barren plateaus are equivalent to an exponential decay of the cost-function variance. We show that the issue becomes particularly simple in the (parametrization-free) Riemannian formulation of such optimization problems. An elementary derivation shows that the single-gate variance of the cost function is strictly equal to half the variance of the Riemannian single-gate gradient, where we sample variable gates according to the uniform Haar measure. The total variances of the cost function and its gradient are both bounded from above by the sum of single-gate variances and, conversely, bound single-gate variances from above. So, decays of gradients and cost-function variations go hand in hand, and barren plateau problems cannot be resolved by avoiding gradient-based in favor of gradient-free optimization methods.
翻訳日:2024-02-13 12:52:39 公開日:2024-02-12
# グラフ理論を用いたサイバー攻撃の機械学習に基づく検出

Using Graph Theory for Improving Machine Learning-based Detection of Cyber Attacks ( http://arxiv.org/abs/2402.07878v1 )

ライセンス: Link先を確認
Giacomo Zonneveld, Lorenzo Principi, Marco Baldi(参考訳) ネットワーク侵入やサイバー脅威の早期発見は、サイバーセキュリティの主要な柱のひとつだ。 この目的の最も効果的なアプローチの1つは、正統なユーザと区別することで攻撃者の存在を検知することを目的として、人工知能アルゴリズムの助けを借りてネットワークトラフィックを分析することである。 これは一般的に、ネットワーク内の端末間で交換されるトラフィックを収集し、パック単位または接続単位で分析することで行われる。 本稿では,より効率的な検出と古典的アプローチの制限を克服できる新しい指標を抽出することを目的として,分析下でネットワークトラフィックの前処理を行う方法を提案する。 これらの新しいメトリクスはグラフ理論に基づいており、個々のパケットや接続ではなく、ネットワーク全体を考慮している。 このアプローチは,公開データセット上で実施した実験によって検証される。その結果,従来のアプローチの制限を克服できるだけでなく,サイバー脅威の検出能力も向上できる。

Early detection of network intrusions and cyber threats is one of the main pillars of cybersecurity. One of the most effective approaches for this purpose is to analyze network traffic with the help of artificial intelligence algorithms, with the aim of detecting the possible presence of an attacker by distinguishing it from a legitimate user. This is commonly done by collecting the traffic exchanged between terminals in a network and analyzing it on a per-packet or per-connection basis. In this paper, we propose instead to perform pre-processing of network traffic under analysis with the aim of extracting some new metrics on which we can perform more efficient detection and overcome some limitations of classical approaches. These new metrics are based on graph theory, and consider the network as a whole, rather than focusing on individual packets or connections. Our approach is validated through experiments performed on publicly available data sets, from which it results that it can not only overcome some of the limitations of classical approaches, but also achieve a better detection capability of cyber threats.
翻訳日:2024-02-13 12:52:19 公開日:2024-02-12
# WildfireGPT:Wildfire分析のための大規模言語モデル

WildfireGPT: Tailored Large Language Model for Wildfire Analysis ( http://arxiv.org/abs/2402.07877v1 )

ライセンス: Link先を確認
Yangxinyu Xie, Tanwi Mallick, Joshua David Bergerson, John K. Hutchison, Duane R. Verner, Jordan Branham, M. Ross Alexander, Robert B. Ross, Yan Feng, Leslie-Anne Levy, Weijie Su(参考訳) 近年の大規模言語モデル(LLM)の進歩は、人工知能(AI)と機械学習(ML)のフロンティアにおける変換能力を示している。 しかし、LSMは一般化されたモデルであり、広範なテキストコーパスで訓練されており、特に気候変動のより広い文脈における山火事の詳細のような専門的な知識を必要とする地域では、文脈特有の情報の提供に苦慮している。 ワイルドファイアのレジリエンスと適応にフォーカスした意思決定者や政策立案者にとっては、正確さだけでなく、汎用性よりもドメイン固有の応答を得ることが不可欠である。 そこで我々はWildfireGPTを開発した。これは,ユーザクエリをワイルドファイアリスクに関する実用的な洞察に変換するための,プロトタイプLLMエージェントである。 我々は、WildfireGPTに気候予測や科学文献などの追加のコンテキストを提供することで、その情報が現在、関連性、科学的に正確であることを保証する。 これによってwildfiregptは、研究者、エンジニア、都市プランナー、緊急マネージャ、インフラオペレーターを含む多様なエンドユーザーをサポートするために、wildfireリスクに関する詳細なユーザー固有の洞察を提供する効果的なツールとなる。

The recent advancement of large language models (LLMs) represents a transformational capability at the frontier of artificial intelligence (AI) and machine learning (ML). However, LLMs are generalized models, trained on extensive text corpus, and often struggle to provide context-specific information, particularly in areas requiring specialized knowledge such as wildfire details within the broader context of climate change. For decision-makers and policymakers focused on wildfire resilience and adaptation, it is crucial to obtain responses that are not only precise but also domain-specific, rather than generic. To that end, we developed WildfireGPT, a prototype LLM agent designed to transform user queries into actionable insights on wildfire risks. We enrich WildfireGPT by providing additional context such as climate projections and scientific literature to ensure its information is current, relevant, and scientifically accurate. This enables WildfireGPT to be an effective tool for delivering detailed, user-specific insights on wildfire risks to support a diverse set of end users, including researchers, engineers, urban planners, emergency managers, and infrastructure operators.
翻訳日:2024-02-13 12:52:03 公開日:2024-02-12
# 言語フィードバックモデルを用いた政策改善

Policy Improvement using Language Feedback Models ( http://arxiv.org/abs/2402.07876v1 )

ライセンス: Link先を確認
Victor Zhong, Dipendra Misra, Xingdi Yuan, Marc-Alexandre C\^ot\'e(参考訳) 本稿では,言語フィードバックモデル (LFM) を導入し,指示文で指定されたタスクを遂行する上で望ましい行動,すなわち指示文の模倣学習を支援する。 LFMを訓練するために,言語記述に適応した視覚的軌跡に対するLarge Language Models (LLMs) からのフィードバックを得た。 まず, 3つの異なる言語基盤環境(タッチダウン, サイエンスワールド, ALFWorld)において, LFMを用いて望ましい行動を特定することにより, 強力な行動クローニングベースラインよりもタスク補完率を向上させる。 第2に、LPMの出力トークン数を制御する場合、LSMを専門家として使用してアクションを直接予測する。 第3に、LFMは未確認環境に一般化し、1ラウンドの適応によりタスク完了率を3.5-12.0%向上させる。 最後に、LCMは人間の解釈可能なフィードバックを性能損失なく提供し、模倣学習に望ましい行動の人間による検証を可能にする。

We introduce Language Feedback Models (LFMs) that identify desirable behaviour - actions that help achieve tasks specified in the instruction - for imitation learning in instruction following. To train LFMs, we obtain feedback from Large Language Models (LLMs) on visual trajectories verbalized to language descriptions. First, by using LFMs to identify desirable behaviour to imitate, we improve in task-completion rate over strong behavioural cloning baselines on three distinct language grounding environments (Touchdown, ScienceWorld, and ALFWorld). Second, LFMs outperform using LLMs as experts to directly predict actions, when controlling for the number of LLM output tokens. Third, LFMs generalize to unseen environments, improving task-completion rate by 3.5-12.0% through one round of adaptation. Finally, LFM can be modified to provide human-interpretable feedback without performance loss, allowing human verification of desirable behaviour for imitation learning.
翻訳日:2024-02-13 12:51:41 公開日:2024-02-12
# 線形二次制御における政策グラディエントの不必要バイアス:初期状態に対する外挿

Implicit Bias of Policy Gradient in Linear Quadratic Control: Extrapolation to Unseen Initial States ( http://arxiv.org/abs/2402.07875v1 )

ライセンス: Link先を確認
Noam Razin, Yotam Alexander, Edo Cohen-Karlik, Raja Giryes, Amir Globerson, Nadav Cohen(参考訳) 現代の機械学習では、モデルは様々な方法でトレーニングデータに適合することが多く、そのうちのいくつかは目に見えない(テスト)データでうまく機能する。 このような場合、勾配降下はしばしば暗黙のバイアスを示し、目に見えないデータに優れたパフォーマンスをもたらす。 この暗黙のバイアスは教師付き学習で広く研究されたが、最適制御(強化学習)では理解されていない。 そこで、勾配降下によるシステムに適用された制御器の学習はポリシー勾配と呼ばれ、学習した制御器が未知の初期状態に外挿する程度が重要な問題である。 本稿では,初期状態に対する外挿の観点から,政策勾配の暗黙バイアスを理論的に検討する。 基本線形二次レギュレータ(lqr)問題に焦点をあてて,外挿の程度は,訓練中の初期状態から開始する際のシステムによる探索の程度に依存することを確認した。 実験は我々の理論を裏付け、システムが非線形でコントローラがニューラルネットワークであるLQRを超えた問題に関する結論を示す。 実世界の最適制御は、トレーニングする初期状態の情報選択方法を開発することにより、大幅に改善される可能性があると仮定する。

In modern machine learning, models can often fit training data in numerous ways, some of which perform well on unseen (test) data, while others do not. Remarkably, in such cases gradient descent frequently exhibits an implicit bias that leads to excellent performance on unseen data. This implicit bias was extensively studied in supervised learning, but is far less understood in optimal control (reinforcement learning). There, learning a controller applied to a system via gradient descent is known as policy gradient, and a question of prime importance is the extent to which a learned controller extrapolates to unseen initial states. This paper theoretically studies the implicit bias of policy gradient in terms of extrapolation to unseen initial states. Focusing on the fundamental Linear Quadratic Regulator (LQR) problem, we establish that the extent of extrapolation depends on the degree of exploration induced by the system when commencing from initial states included in training. Experiments corroborate our theory, and demonstrate its conclusions on problems beyond LQR, where systems are non-linear and controllers are neural networks. We hypothesize that real-world optimal control may be greatly improved by developing methods for informed selection of initial states to train on.
翻訳日:2024-02-13 12:51:22 公開日:2024-02-12