このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240708となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# テキスト音声合成のための音声単位選択の解析
Analyzing Speech Unit Selection for Textless Speech-to-Speech Translation ( http://arxiv.org/abs/2407.18332v1 ) ライセンス: Link先を確認 | Jarod Duret, Yannick Estève, Titouan Parcollet, | (参考訳) テキストなし音声音声翻訳システムの最近の進歩は、自己教師あり学習技術の導入によって進められている。
多くの最先端システムは、ソース言語音声を対象言語内の離散表現列に変換するのに類似したアーキテクチャを採用しているが、これらのターゲット音声単位を選択する基準は未解決のままである。
本研究は、自動音声認識、音声合成、話者認識、感情認識などの下流タスクの研究を通じて、選択プロセスについて検討する。
この結果から, 合成性能が良好である単位は, 翻訳効率が向上している単位と必ずしも相関しないことが明らかとなった。
この不一致は、ターゲット特徴選択の複雑さと、音声音声翻訳システム全体の性能に与える影響を浮き彫りにする。
Recent advancements in textless speech-to-speech translation systems have been driven by the adoption of self-supervised learning techniques. Although most state-of-the-art systems adopt a similar architecture to transform source language speech into sequences of discrete representations in the target language, the criteria for selecting these target speech units remains an open question. This work explores the selection process through a study of downstream tasks such as automatic speech recognition, speech synthesis, speaker recognition, and emotion recognition. Interestingly, our findings reveal a discrepancy in the optimization of discrete speech units: units that perform well in resynthesis performance do not necessarily correlate with those that enhance translation efficacy. This discrepancy underscores the nuanced complexity of target feature selection and its impact on the overall performance of speech-to-speech translation systems. | 翻訳日:2024-08-05 01:25:56 公開日:2024-07-08 |
# 熱力学-持続型グラフニューラルネットワーク
Thermodynamics-Consistent Graph Neural Networks ( http://arxiv.org/abs/2407.18372v1 ) ライセンス: Link先を確認 | Jan G. Rittig, Alexander Mitsos, | (参考訳) 本稿では,二成分混合物の組成依存的活動係数を予測するために,ギブス自由エネルギーグラフニューラルネットワーク(GE-GNN)を提案する。
GE-GNNアーキテクチャはギブス自由エネルギーを予測し、熱力学関係を用いて活動係数を求めることにより熱力学的整合性を確保する。
これらは微分であるため、アクティビティ係数をエンドツーエンドで学習するために自動微分が適用される。
アーキテクチャは基本的な熱力学に基づいているため、熱力学の整合性を学ぶために余分な損失項は不要である。
出力は基本的な性質であるため、熱力学モデリングの限界や仮定は課さない。
活性係数予測の精度と熱力学的整合性を示す。
We propose excess Gibbs free energy graph neural networks (GE-GNNs) for predicting composition-dependent activity coefficients of binary mixtures. The GE-GNN architecture ensures thermodynamic consistency by predicting the molar excess Gibbs free energy and using thermodynamic relations to obtain activity coefficients. As these are differential, automatic differentiation is applied to learn the activity coefficients in an end-to-end manner. Since the architecture is based on fundamental thermodynamics, we do not require additional loss terms to learn thermodynamic consistency. As the output is a fundamental property, we neither impose thermodynamic modeling limitations and assumptions. We demonstrate high accuracy and thermodynamic consistency of the activity coefficient predictions. | 翻訳日:2024-08-05 01:25:56 公開日:2024-07-08 |
# SMILESデータにおける双方向LSTMによる薬物安全性評価の高速化
Accelerating Drug Safety Assessment using Bidirectional-LSTM for SMILES Data ( http://arxiv.org/abs/2407.18919v1 ) ライセンス: Link先を確認 | K. Venkateswara Rao, Dr. Kunjam Nageswara Rao, Dr. G. Sita Ratnam, | (参考訳) 計算法は、薬物発見のペースを加速するのに有用である。
薬剤発見には、ターゲットの同定、検証、鉛発見、鉛最適化などのいくつかのステップがあり、鉛最適化の段階では、鉛化合物の吸収、分布、代謝、排ガス、毒性が評価される。
Simplified Molecular Input Line Entry System (SMILES) で表される鉛化合物の毒性と溶解度を予測する問題に対処する。
SMILESデータを扱う様々なアプローチの中で、提案したモデルはシーケンスベースのアプローチを用いて構築された。
提案したBi-Directional Long Term Memory (BiLSTM) は、入力分子配列を処理するリカレントニューラルネットワーク(RNN)の変種である。
提案した研究は、SMILES文字列にコードされたシーケンシャルパターンを理解することを目的としており、それによって分子の毒性を予測する。
ClinToxデータセット上の提案モデルは、OC精度0.96を達成して、TrimnetやPre-training Graph Neural Network(GNN)といった従来のアプローチを上回る。
BiLSTMは、溶解度予測においてRMSE値が1.22であるFreeSolvデータセットの前のモデルより優れている。
Computational methods are useful in accelerating the pace of drug discovery. Drug discovery carries several steps such as target identification and validation, lead discovery, and lead optimisation etc., In the phase of lead optimisation, the absorption, distribution, metabolism, excretion, and toxicity properties of lead compounds are assessed. To address the issue of predicting toxicity and solubility in the lead compounds, represented in Simplified Molecular Input Line Entry System (SMILES) notation. Among the different approaches that work on SMILES data, the proposed model was built using a sequence-based approach. The proposed Bi-Directional Long Short Term Memory (BiLSTM) is a variant of Recurrent Neural Network (RNN) that processes input molecular sequences for the comprehensive examination of the structural features of molecules from both forward and backward directions. The proposed work aims to understand the sequential patterns encoded in the SMILES strings, which are then utilised for predicting the toxicity of the molecules. The proposed model on the ClinTox dataset surpasses previous approaches such as Trimnet and Pre-training Graph neural networks(GNN) by achieving a ROC accuracy of 0.96. BiLSTM outperforms the previous model on FreeSolv dataset with a low RMSE value of 1.22 in solubility prediction. | 翻訳日:2024-08-05 01:25:56 公開日:2024-07-08 |
# 弾性・弾塑性キャビティ拡張問題に対する擬似普遍関数近似器
Parsimonious Universal Function Approximator for Elastic and Elasto-Plastic Cavity Expansion Problems ( http://arxiv.org/abs/2407.19074v1 ) ライセンス: Link先を確認 | Xiao-Xuan Chen, Pin Zhang, Hai-Sui Yu, Zhen-Yu Yin, Brian Sheil, | (参考訳) キャビティ展開(Cavity expansion)は、地球工学における標準問題であり、偏微分方程式(PDE)と常微分方程式(ODE)によって記述できる。
本研究では,新しい解法である物理インフォームドニューラルネットワーク(PINN)を用いて弾性および弾塑性状態における拡張キャビティ内の応力場を計算する可能性について検討した。
PINNは、広範囲のPDE/ODEの解を導出する有効な普遍関数近似器として登場したが、エラスト塑性の問題を解く能力は未だ不明である。
PINNの単純さと精度のバランスをとるために、新しい擬似損失関数が最初に提案されている。
提案手法は, 等方性, 異方性弾性媒体, およびトレスカおよびモーア・クーロンの収率基準による弾性完全塑性媒体を含むキャビティ膨張問題における多種多様な材料挙動に適用した。
その結果,PDEの近似解を高精度に導き出すには,相似な事前情報に基づく損失関数の利用が有用であることが示唆された。
本発明の方法は、拡張空洞の弾性および塑性両方の機械的応答に対する解の正確な導出を可能にする。
また、PINNが地球工学の実践においてより複雑な問題を解決するために、どのようにさらに進歩するかについての洞察も提供する。
Cavity expansion is a canonical problem in geotechnics, which can be described by partial differential equations (PDEs) and ordinary differential equations (ODEs). This study explores the potential of using a new solver, a physics-informed neural network (PINN), to calculate the stress field in an expanded cavity in the elastic and elasto-plastic regimes. Whilst PINNs have emerged as an effective universal function approximator for deriving the solutions of a wide range of governing PDEs/ODEs, their ability to solve elasto-plastic problems remains uncertain. A novel parsimonious loss function is first proposed to balance the simplicity and accuracy of PINN. The proposed method is applied to diverse material behaviours in the cavity expansion problem including isotropic, anisotropic elastic media, and elastic-perfectly plastic media with Tresca and Mohr-Coulomb yield criteria. The results indicate that the use of a parsimonious prior information-based loss function is highly beneficial to deriving the approximate solutions of complex PDEs with high accuracy. The present method allows for accurate derivation of solutions for both elastic and plastic mechanical responses of an expanded cavity. It also provides insights into how PINNs can be further advanced to solve more complex problems in geotechnical practice. | 翻訳日:2024-08-05 01:06:22 公開日:2024-07-08 |
# ソフトウェアサプライチェーンのレジリエンスを高める - ソフトウェアサプライチェーンのセキュリティリスクを軽減し、開発ライフサイクルにおけるセキュリティの持続性を保証する戦略
Enhancing Software Supply Chain Resilience: Strategy For Mitigating Software Supply Chain Security Risks And Ensuring Security Continuity In Development Lifecycle ( http://arxiv.org/abs/2407.13785v1 ) ライセンス: Link先を確認 | Ahmed Akinsola, Abdullah Akinde, | (参考訳) この記事では、ソフトウェアサプライチェーンの進化的脅威に対する保護に必要な戦略的アプローチと予防措置について述べる。
それは、ソフトウェアサプライチェーンのレジリエンスに固有の課題と脆弱性の理解を促進し、現代の社会を支えるデジタルインフラストラクチャの透明性と信頼を促進することを目的としています。
ソフトウェアサプライチェーンのレジリエンスの概念を検証し、サプライチェーンのセキュリティの現状を評価することによって、セキュリティリスクを軽減し、開発ライフサイクルを通してセキュリティの持続性を保証するための戦略とプラクティスについて議論する基盤を提供する。
この包括的分析を通じて、本論文はソフトウェアサプライチェーンのセキュリティ姿勢を強化し、接続された世界におけるデジタルシステムの信頼性と安全性を確保するための継続的な取り組みに貢献する。
This article delves into the strategic approaches and preventive measures necessary to safeguard the software supply chain against evolving threats. It aims to foster an understanding of the challenges and vulnerabilities inherent in software supply chain resilience and to promote transparency and trust in the digital infrastructure that underpins contemporary society. By examining the concept of software supply chain resilience and assessing the current state of supply chain security, the article provides a foundation for discussing strategies and practices that can mitigate security risks and ensure security continuity throughout the development lifecycle. Through this comprehensive analysis, the article contributes to the ongoing effort to strengthen the security posture of software supply chains, thereby ensuring the reliable and secure operation of digital systems in a connected world | 翻訳日:2024-07-28 18:48:53 公開日:2024-07-08 |
# 抽象セマンティックスによるWebAssemblyプログラムのコールグラフの構築
Building Call Graph of WebAssembly Programs via Abstract Semantics ( http://arxiv.org/abs/2407.14527v1 ) ライセンス: Link先を確認 | Mattia Paccamiccio, Franco Raimondi, Michele Loreti, | (参考訳) WebAssemblyは、ポータビリティとパフォーマンスに重点を置いて人気を集めているコードのバイナリフォーマットである。
現在、WebAssemblyの最も一般的なユースケースは、ブラウザでの実行である。
ポータビリティのため、スタンドアローンアプリケーションとしても採用されている。
しかし、WebAssemblyのバイナリフォーマットは、悪意のあるソフトウェアの手段として使われる傾向にある。
例えば、ブラウザで実行されるコードに暗号通貨マイナーを埋め込むことができる。
その結果、WebAssemblyのセキュリティ検証、情報フロー制御、より一般的には、適切なAPI使用方法などの動作特性を検証するツールの開発に、かなりの関心が寄せられている。
この文書では、WebAssemblyコードのコールグラフ構築の問題に対処する。
これは、呼び出しグラフの保持または計算が、ほとんどのプロセス間検証タスクの前提条件であるため重要である。
本稿では,抽象解釈理論に基づく形式解を提案する。
我々は、そのアプローチを最先端のベンチマークプログラムに対してどのように機能するかを予測することによって比較する。
WebAssembly is a binary format for code that is gaining popularity thanks to its focus on portability and performance. Currently, the most common use case for WebAssembly is execution in a browser. It is also being increasingly adopted as a stand-alone application due to its portability. The binary format of WebAssembly, however, makes it prone to being used as a vehicle for malicious software. For instance, one could embed a cryptocurrency miner in code executed by a browser. As a result, there is substantial interest in developing tools for WebAssembly security verification, information flow control, and, more generally, for verifying behavioral properties such as correct API usage. In this document, we address the issue of building call graphs for WebAssembly code. This is important because having or computing a call graph is a prerequisite for most inter-procedural verification tasks. In this paper, we propose a formal solution based on the theory of Abstract Interpretation. We compare our approach to the state-of-the-art by predicting how it would perform against a set of specifically crafted benchmark programs. | 翻訳日:2024-07-28 18:39:09 公開日:2024-07-08 |
# サイバー物理システムのためのスケーラブルクラスタアーキテクチャ
A Scalable Clustered Architecture for Cyber-Physical Systems ( http://arxiv.org/abs/2407.14529v1 ) ライセンス: Link先を確認 | Bernardo Cabral, | (参考訳) サイバー物理システム(CPS)は、インテリジェントな相互接続システムの運用において重要な役割を担っている。
CPSは物理的資産やプロセスの検知、監視、制御が可能な物理およびソフトウェアコンポーネントを統合している。
しかし、大量のデータを効率的に処理し、高いパフォーマンスと信頼性を確保する分散型でスケーラブルなCPSの開発は、依然として難しい課題である。
さらに、既存の商用ソリューションはコストがかかり、特定のアプリケーションには適さないことが多い。
このプロジェクトの開発は、CPSの課題に対するソリューションの設計と実装に貢献することを目的としている。
この目的を達成するため、Edge4CPSシステムを開発した。
Edge4CPSシステムは、Kubernetesを活用して分散エッジコンピューティングクラスタを管理する、オープンソースの分散マルチアーキテクチャソリューションである。
複数のコンピューティングノードにまたがるアプリケーションのデプロイを容易にする。
また、データ処理、分類、可視化を含むデータパイプラインなどのサービスや、メッセージングプロトコル翻訳のミドルウェアも提供する。
Cyber-Physical Systems (CPS) play a vital role in the operation of intelligent interconnected systems. CPS integrates physical and software components capable of sensing, monitoring, and controlling physical assets and processes. However, developing distributed and scalable CPSs that efficiently handle large volumes of data while ensuring high performance and reliability remains a challenging task. Moreover, existing commercial solutions are often costly and not suitable for certain applications, limiting developers and researchers in experimenting and deploying CPSs on a larger scale. The development of this project aims to contribute to the design and implementation of a solution to the CPS challenges. To achieve this goal, the Edge4CPS system was developed. Edge4CPS system is an open source, distributed, multi-architecture solution that leverages Kubernetes for managing distributed edge computing clusters. It facilitates the deployment of applications across multiple computing nodes. It also offers services such as data pipeline, which includes data processing, classification, and visualization, as well as a middleware for messaging protocol translation. | 翻訳日:2024-07-28 18:39:09 公開日:2024-07-08 |
# 公正ジャーナリズムのツールとしてのAI - Maltaのケーススタディ
AI as a Tool for Fair Journalism: Case Studies from Malta ( http://arxiv.org/abs/2407.15316v1 ) ライセンス: Link先を確認 | Dylan Seychell, Gabriel Hili, Jonathan Attard, Konstantinos Makantatis, | (参考訳) 今日のメディアの世界では、社会的な視点とジャーナリストの整合性の形成における人工知能(AI)の役割がますます明白になりつつある。
本稿では,マルタのメディア市場を中心とした2つの事例研究について述べる。
マルタの規模は比較的小さいが、類似のメディア・コンテキストと幅広いメディア・コンテキストの両方に適用できる貴重な洞察を提供する。
これら2つのプロジェクトは、ニュース記事やテレビニュースセグメントの潜在的なバイアスを分析するために設計されたメディアモニタリングとプレゼンテーションツールに焦点を当てている。
最初のプロジェクトは、コンピュータビジョンと自然言語処理の技術を使用して、ニュース記事の画像とそれに対応するキャプション、見出し、記事本体の一貫性を分析する。
第2のプロジェクトは、コンピュータビジョン技術を使用して、画面上の時間やニュースビデオの視覚的露出を追跡し、クエリ可能なデータを提供する。
これらのイニシアチブは、ジャーナリストと大衆の両方にバイアスを特定する手段を提供することによって、社会に貢献することを目的としている。
さらに、これらのツールをジャーナリストに利用して、偏見を検知・低減するための堅牢なツールを提供することで、メディアの信頼性を向上させる。
In today`s media landscape, the role of Artificial Intelligence (AI) in shaping societal perspectives and journalistic integrity is becoming increasingly apparent. This paper presents two case studies centred on Malta`s media market featuring technical novelty. Despite its relatively small scale, Malta offers invaluable insights applicable to both similar and broader media contexts. These two projects focus on media monitoring and present tools designed to analyse potential biases in news articles and television news segments. The first project uses Computer Vision and Natural Language Processing techniques to analyse the coherence between images in news articles and their corresponding captions, headlines, and article bodies. The second project employs computer vision techniques to track individuals` on-screen time or visual exposure in news videos, providing queryable data. These initiatives aim to contribute to society by providing both journalists and the public with the means to identify biases. Furthermore, we make these tools accessible to journalists to improve the trustworthiness of media outlets by offering robust tools for detecting and reducing bias. | 翻訳日:2024-07-28 18:29:13 公開日:2024-07-08 |
# BoRA:マルチタスク大規模言語モデルに対するベイジアン階層型低ランク適応
BoRA: Bayesian Hierarchical Low-Rank Adaption for Multi-task Large Language Models ( http://arxiv.org/abs/2407.15857v1 ) ライセンス: Link先を確認 | Simen Eide, Arnoldo Frigessi, | (参考訳) 本稿では,マルチタスク大規模言語モデル(LLM)を微調整する新しい手法であるBayesian Hierarchical Low-Rank Adaption (BoRA)を紹介する。
Low-Rank Adaption (LoRA)のような現在の微調整アプローチは、トレーニングパラメータやメモリ使用量の削減には有効だが、複数の類似タスクに適用した場合は制限に直面している。
通常、実践者は各タスクに対して個別のモデルをトレーニングするか、またはすべてのタスクに対して単一のモデルをトレーニングするかを選択しなければならない。
BoRAは、グローバルな階層的事前を通じて情報を共有できるベイズ階層モデルを活用することで、これらのトレードオフに対処する。
これにより、限られたデータを持つタスクは、関連するタスクから派生した全体的な構造から恩恵を受けながら、より多くのデータを持つタスクが専門化できる。
実験の結果,BoRAは個々のモデルアプローチと統一モデルアプローチの両方に優れており,より難易度が低く,タスク間の一般化性が向上していることがわかった。
本手法はマルチタスクLLMファインタニングのためのスケーラブルで効率的なソリューションを提供する。
This paper introduces Bayesian Hierarchical Low-Rank Adaption (BoRA), a novel method for finetuning multi-task Large Language Models (LLMs). Current finetuning approaches, such as Low-Rank Adaption (LoRA), perform exeptionally well in reducing training parameters and memory usage but face limitations when applied to multiple similar tasks. Practitioners usually have to choose between training separate models for each task or a single model for all tasks, both of which come with trade-offs in specialization and data utilization. BoRA addresses these trade-offs by leveraging a Bayesian hierarchical model that allows tasks to share information through global hierarchical priors. This enables tasks with limited data to benefit from the overall structure derived from related tasks while allowing tasks with more data to specialize. Our experimental results show that BoRA outperforms both individual and unified model approaches, achieving lower perplexity and better generalization across tasks. This method provides a scalable and efficient solution for multi-task LLM finetuning, with significant practical implications for diverse applications. | 翻訳日:2024-07-28 18:29:13 公開日:2024-07-08 |
# 準構造環境における人工知能によるナビゲーション
Artificial Intelligence Based Navigation in Quasi Structured Environment ( http://arxiv.org/abs/2407.17508v1 ) ライセンス: Link先を確認 | Hariram Sampath Kumar, Archana Singh, Manish Kumar Ojha, | (参考訳) 地下鉄、高速道路、水路などの様々な公共交通機関の適切な計画は、効率を高め、混雑を減らし、国の安全を向上させることができる。
ルートプランニングには、高い実装コスト、適切なリソースとインフラの必要性、変更に対する抵抗など、いくつかの課題がある。
本研究の目的は、Floyd- Warshall、Bellman-Ford、Johnson、Ant Colony Optimization(ACO)、Particle Swarm Optimization(PSO)、Grey Wolf Optimizer(GWO)の動作、応用、複雑性要因、利点と欠点を調べ、上記のアプリケーションに最適な選択肢を見つけることである。
本稿では,上記のアルゴリズムの比較分析について述べる。
比較に基づいてFloyd-Warshall法とACOアルゴリズムが選択される。
また,修正Floyd-WarshallとACOアルゴリズムの組み合わせを提案する。
提案アルゴリズムは、準構造化点と呼ばれる境界内のランダムに構造化された点に適用した場合、より少ない時間でより良い結果を示す。
また,Floyd-WarshallをACOに統合し,上記を克服するリアルタイムモデルを開発するための今後の取り組みについても論じる。
The proper planning of different types of public transportation such as metro, highway, waterways, and so on, can increase the efficiency, reduce the congestion and improve the safety of the country. There are certain challenges associated with route planning, such as high cost of implementation, need for adequate resource & infrastructure and resistance to change. The goal of this research is to examine the working, applications, complexity factors, advantages & disadvantages of Floyd- Warshall, Bellman-Ford, Johnson, Ant Colony Optimization (ACO), Particle Swarm Optimization (PSO), & Grey Wolf Optimizer (GWO), to find the best choice for the above application. In this paper, comparative analysis of above-mentioned algorithms is presented. The Floyd-Warshall method and ACO algorithm are chosen based on the comparisons. Also, a combination of modified Floyd-Warshall with ACO algorithm is proposed. The proposed algorithm showed better results with less time complexity, when applied on randomly structured points within a boundary called quasi-structured points. In addition, this paper also discusses the future works of integrating Floyd-Warshall with ACO to develop a real-time model for overcoming above mentioned-challenges during transportation route planning. | 翻訳日:2024-07-28 17:59:54 公開日:2024-07-08 |
# 予期せぬ出来事の文脈における正当性を明らかにする : トピックモデリング分析による情報システムコンサルタント企業と国際機関への問い合わせ
Unveiling Legitimacy in the unexpected events context : An Inquiry into Information System Consultancy companies and international organizations through Topic Modeling Analysis ( http://arxiv.org/abs/2407.17509v1 ) ライセンス: Link先を確認 | Oussama Abidi, | (参考訳) ますますダイナミックで現代的な市場において、予期せぬ出来事の再発は、情報システム(IS)ステークホルダーからの積極的な反応を必要とする。
各IS俳優は行動の合法化と戦略の伝達に努める。
本研究は、ISの正当性の領域を掘り下げ、ISコンサルタント会社と国際機関、特に予期せぬ出来事の文脈における2つの主要な利害関係者のコミュニケーションに焦点を当てたものである。
この目的を達成するため,両俳優が出版する多種多様な出版物について検討した。
トピックモデリング手法を用いてこれらの文書を分析し,その正当性に関する貴重な知見を抽出した。
本研究は,予期せぬ出来事に起因した課題に対応する2つの主要なIS利害関係者を探索し,正当性のある談話文学に貢献することを目的としている。
In an increasingly dynamic and modern market, the recurrence of unexpected events necessitates proactive responses from information system (IS) stakeholders. Each IS actor strives to legitimize its actions and communicate its strategy. This study delves into the realm of IS legitimation, focusing on the communication of two key stakeholders: IS consultancy companies and international organizations, particularly in the context of unexpected events. To achieve this objective, we examined a diverse array of publications released by both actors. Employing a topic modeling methodology, we analyzed these documents to extract valuable insights regarding their methods of legitimation. Through this research, we aim to contribute to the legitimation discourse literature by offering an exploration of two key IS stakeholders responding to the challenges posed by unexpected events. | 翻訳日:2024-07-28 17:59:54 公開日:2024-07-08 |
# 高次元高次データに対する最適スパース特異値分解法
Optimal Sparse Singular Value Decomposition for High-dimensional High-order Data ( http://arxiv.org/abs/1809.01796v2 ) ライセンス: Link先を確認 | Anru Zhang, Rungang Han, | (参考訳) 本稿では,ある空間構造を持つ高次元高次データの次元削減を目的としたスパーステンソル特異値分解について考察する。
特異値分解(STAT-SVD)のためのスパーステンソル交換閾値法を提案する。
提案手法は,各反復におけるしきい値のシャープな基準を提供する,新しい二重投射 \&しきい値設定方式を特徴とする。
正規テンソルSVDモデルと比較して、STAT-SVDはより弱い仮定の下でより堅牢な推定を可能にする。
推定精度の上限と下限の両方を開発する。
提案手法は, 一般的な状況のクラスにおいて, 最大速度最適であることを示す。
シミュレーション研究により、STAT-SVDは様々な構成でよく機能することが示された。
また、欧州の死亡率に関する縦断的テンソルデータセットについて、提案手法のメリットを述べる。
In this article, we consider the sparse tensor singular value decomposition, which aims for dimension reduction on high-dimensional high-order data with certain sparsity structure. A method named Sparse Tensor Alternating Thresholding for Singular Value Decomposition (STAT-SVD) is proposed. The proposed procedure features a novel double projection \& thresholding scheme, which provides a sharp criterion for thresholding in each iteration. Compared with regular tensor SVD model, STAT-SVD permits more robust estimation under weaker assumptions. Both the upper and lower bounds for estimation accuracy are developed. The proposed procedure is shown to be minimax rate-optimal in a general class of situations. Simulation studies show that STAT-SVD performs well under a variety of configurations. We also illustrate the merits of the proposed procedure on a longitudinal tensor dataset on European country mortality rates. | 翻訳日:2024-07-23 02:37:22 公開日:2024-07-08 |
# ソフトアクター批判アルゴリズムの離散的行動空間への一般化
Generalizing soft actor-critic algorithms to discrete action spaces ( http://arxiv.org/abs/2407.11044v1 ) ライセンス: Link先を確認 | Le Zhang, Yong Gu, Xin Zhao, Yanshuo Zhang, Shu Zhao, Yifei Jin, Xinxin Wu, | (参考訳) ATARIは、強化学習(RL)研究者が学習アルゴリズムの有効性をテストするために使用する一連のビデオゲームである。
生のピクセルとゲームスコアのみを受信すると、エージェントはプロの人間のゲームテスターと同等のレベルまで高度な戦略を開発することを学ぶ。
理想的には、環境とのインタラクションをほとんど必要としないエージェントも必要とします。
従来の競合モデルなしのアルゴリズムでは、ポリシーヘッドを使わずに、価値の高いRainbowアルゴリズムを使用している。
本稿では,ソフトアクター・クリティック(SAC)アルゴリズムの実用的な離散的変種を提案する。
この新しい変種は、個別のドメインに対するポリシーヘッドを使用して、非政治的な学習を可能にする。
先進的なレインボー変種、すなわち ''bigger, better, faster' (BBF) に組み込むことで、結果としてSAC-BBFは1.045から1.088までの最先端のインタークアタイル平均値 (IQM) を改善し、リプレイ比 (RR) 2 のみを用いてこれらの結果を達成する。
SAC-BBFのトレーニング時間は、RR2を使用することで、BBFがRR8を用いて1.045のIQMを達成するのに要する時間の3分の1である。
1以上のIQMの値は超人的性能を示すため、SAC-BBFはRR2のみを用いた超人的レベルを持つ唯一のモデルフリーアルゴリズムである。
コードはGitHubでhttps://github.com/lezhang-thu/bigger-better-faster-SACで公開されている。
ATARI is a suite of video games used by reinforcement learning (RL) researchers to test the effectiveness of the learning algorithm. Receiving only the raw pixels and the game score, the agent learns to develop sophisticated strategies, even to the comparable level of a professional human games tester. Ideally, we also want an agent requiring very few interactions with the environment. Previous competitive model-free algorithms for the task use the valued-based Rainbow algorithm without any policy head. In this paper, we change it by proposing a practical discrete variant of the soft actor-critic (SAC) algorithm. The new variant enables off-policy learning using policy heads for discrete domains. By incorporating it into the advanced Rainbow variant, i.e., the ``bigger, better, faster'' (BBF), the resulting SAC-BBF improves the previous state-of-the-art interquartile mean (IQM) from 1.045 to 1.088, and it achieves these results using only replay ratio (RR) 2. By using lower RR 2, the training time of SAC-BBF is strictly one-third of the time required for BBF to achieve an IQM of 1.045 using RR 8. As a value of IQM greater than one indicates super-human performance, SAC-BBF is also the only model-free algorithm with a super-human level using only RR 2. The code is publicly available on GitHub at https://github.com/lezhang-thu/bigger-better-faster-SAC. | 翻訳日:2024-07-22 12:09:54 公開日:2024-07-08 |
# 2023/24 VIEWS 予測課題:武器紛争における死者数予測の不確実性
The 2023/24 VIEWS Prediction Challenge: Predicting the Number of Fatalities in Armed Conflict, with Uncertainty ( http://arxiv.org/abs/2407.11045v1 ) ライセンス: Link先を確認 | Håvard Hegre, Paola Vesco, Michael Colaresi, Jonas Vestby, Alexa Timlick, Noorain Syed Kazmi, Friederike Becker, Marco Binetti, Tobias Bodentien, Tobias Bohne, Patrick T. Brandt, Thomas Chadefaux, Simon Drauz, Christoph Dworschak, Vito D'Orazio, Cornelius Fritz, Hannah Frank, Kristian Skrede Gleditsch, Sonja Häffner, Martin Hofer, Finn L. Klebe, Luca Macis, Alexandra Malaga, Marius Mehrl, Nils W. Metternich, Daniel Mittermaier, David Muchlinski, Hannes Mueller, Christian Oswald, Paola Pisano, David Randahl, Christopher Rauh, Lotta Rüter, Thomas Schincariol, Benjamin Seimon, Elena Siletti, Marco Tagliapietra, Chandler Thornhill, Johan Vegelius, Julian Walterskirchen, | (参考訳) 本稿では,武力紛争における死者数の予測を,VIEWS分析単位に集約したUCDP `best'推定形式で行うことを目的とした予測課題について概説する。
コントリビューションの形式、評価基準、手順、コントリビューションの簡単な概要を提示する。
この記事は、分析前の計画に類似した機能を提供する: 真の将来の予測ウィンドウが始まる前に公開された予測モデルのステートメント。
チャレンジの詳細と、この文書で言及されているすべてのデータは、https://viewsforecasting.org/research/prediction-challenge-2023で見ることができる。
This draft article outlines a prediction challenge where the target is to forecast the number of fatalities in armed conflicts, in the form of the UCDP `best' estimates, aggregated to the VIEWS units of analysis. It presents the format of the contributions, the evaluation metric, and the procedures, and a brief summary of the contributions. The article serves a function analogous to a pre-analysis plan: a statement of the forecasting models made publicly available before the true future prediction window commences. More information on the challenge, and all data referred to in this document, can be found at https://viewsforecasting.org/research/prediction-challenge-2023. | 翻訳日:2024-07-22 12:09:54 公開日:2024-07-08 |
# 大規模言語モデルの LoRA に関する調査
A Survey on LoRA of Large Language Models ( http://arxiv.org/abs/2407.11046v1 ) ライセンス: Link先を確認 | Yuren Mao, Yuhang Ge, Yijiang Fan, Wenyi Xu, Yu Mi, Zhonghao Hu, Yunjun Gao, | (参考訳) Low-Rank Adaptation~(LoRA)は、高密度ニューラルネットワーク層をプラグ可能な低ランク行列で更新する、パラメータ効率の良い微調整パラダイムの1つである。
さらに、クロスタスクの一般化とプライバシ保護において大きな利点がある。
したがって、LoRAは近年注目を集めており、関連する文献の数は指数関数的な成長を示している。
LoRAの現状を概観する必要がある。
本調査は,(1)ダウンストリーム適応の改善による下流タスクの性能向上,(2)複数のLoRAプラグインを混合してタスク間一般化を実現するクロスタスク一般化手法,(3)LoRAの計算効率を高める効率改善手法,(4)LoRAをフェデレート学習に使用するデータプライバシ保護手法,(5)アプリケーションの観点から,進捗を分類し,レビューする。
また,本調査では今後の方向性についても論じる。
Low-Rank Adaptation~(LoRA), which updates the dense neural network layers with pluggable low-rank matrices, is one of the best performed parameter efficient fine-tuning paradigms. Furthermore, it has significant advantages in cross-task generalization and privacy-preserving. Hence, LoRA has gained much attention recently, and the number of related literature demonstrates exponential growth. It is necessary to conduct a comprehensive overview of the current progress on LoRA. This survey categorizes and reviews the progress from the perspectives of (1) downstream adaptation improving variants that improve LoRA's performance on downstream tasks; (2) cross-task generalization methods that mix multiple LoRA plugins to achieve cross-task generalization; (3) efficiency-improving methods that boost the computation-efficiency of LoRA; (4) data privacy-preserving methods that use LoRA in federated learning; (5) application. Besides, this survey also discusses the future directions in this field. | 翻訳日:2024-07-22 12:09:54 公開日:2024-07-08 |
# 衛星ネットワークのためのマルチエージェント深層学習ルーティングシミュレータ
An open source Multi-Agent Deep Reinforcement Learning Routing Simulator for satellite networks ( http://arxiv.org/abs/2407.11047v1 ) ライセンス: Link先を確認 | Federico Lozano-Cuadra, Mathias D. Thorsager, Israel Leyva-Mayorga, Beatriz Soret, | (参考訳) 本稿では,低軌道衛星コンステレーション(LSatC)におけるパケットルーティングの動的不確実性を考慮したオープンソースのシミュレータを提案する。
Python で実装されたシミュレータは,従来の Dijkstra ベースのルーティングに加えて,Q-Routing や Multi-Agent Deep Reinforcement Learning (MA-DRL) といった高度な学習ソリューションもサポートしています。
SimPyモジュールによるイベントベースのアプローチを使用して、パケットの生成、ルーティング、キューを正確にシミュレートし、キューとレイテンシのリアルタイムトラッキングを提供する。
シミュレータは高度に設定可能で、ルーティングポリシー、トラフィック、地上および宇宙層トポロジ、通信パラメータ、学習ハイパーパラメータの調整が可能である。
主な機能は、システムの動きを視覚化し、パケットパスを追跡する機能である。
その結果、従来の方法と比較して、強化学習(RL)ベースのルーティングポリシを使用して、エンドツーエンド(E2E)のレイテンシを大幅に改善した。
ソースコード、ドキュメント、および後処理の結果と分析を備えたJupyterノートはGitHubで入手できる。
This paper introduces an open source simulator for packet routing in Low Earth Orbit Satellite Constellations (LSatCs) considering the dynamic system uncertainties. The simulator, implemented in Python, supports traditional Dijkstra's based routing as well as more advanced learning solutions, specifically Q-Routing and Multi-Agent Deep Reinforcement Learning (MA-DRL) from our previous work. It uses an event-based approach with the SimPy module to accurately simulate packet creation, routing and queuing, providing real-time tracking of queues and latency. The simulator is highly configurable, allowing adjustments in routing policies, traffic, ground and space layer topologies, communication parameters, and learning hyperparameters. Key features include the ability to visualize system motion and track packet paths. Results highlight significant improvements in end-to-end (E2E) latency using Reinforcement Learning (RL)-based routing policies compared to traditional methods. The source code, the documentation and a Jupyter notebook with post-processing results and analysis are available on GitHub. | 翻訳日:2024-07-22 12:09:54 公開日:2024-07-08 |
# データモダリティの欠如による移動モードのマグニチュードと回転不変性の検出
Magnitude and Rotation Invariant Detection of Transportation Modes with Missing Data Modalities ( http://arxiv.org/abs/2407.11048v1 ) ライセンス: Link先を確認 | Jeroen Van Der Donckt, Jonas Van Der Donckt, Sofie Van Hoecke, | (参考訳) この研究は、2024年のSHL認識チャレンジに対するSignal Sleuthsチームの解決策を示す。
この課題は、携帯電話の移動データをシャッフルして重なり合う5秒のウィンドウで移動モードを検出することであり、これら3つのモード(加速度計、ジャイロスコープ、磁力計)のうちの1つがランダムに欠落している。
データ分析は、列車と検証データの間に大きな分布シフトを示し、大きさと回転不変のアプローチを必要とした。
従来の機械学習を利用して、ロバストな処理、特徴抽出、回転不変アグリゲーションに重点を置いています。
アブレーション実験により、頻繁に使われる信号の大きさベクトルのみに依存すると、最も低い性能が得られることが示された。
逆に,提案した回転不変アグリゲーションは,回転認識機能よりも大幅に改善され,特徴ベクトル長も低減された。
さらに、z-正規化はロバストスペクトルの特徴を作るのに不可欠であることが判明した。
This work presents the solution of the Signal Sleuths team for the 2024 SHL recognition challenge. The challenge involves detecting transportation modes using shuffled, non-overlapping 5-second windows of phone movement data, with exactly one of the three available modalities (accelerometer, gyroscope, magnetometer) randomly missing. Data analysis indicated a significant distribution shift between train and validation data, necessitating a magnitude and rotation-invariant approach. We utilize traditional machine learning, focusing on robust processing, feature extraction, and rotation-invariant aggregation. An ablation study showed that relying solely on the frequently used signal magnitude vector results in the poorest performance. Conversely, our proposed rotation-invariant aggregation demonstrated substantial improvement over using rotation-aware features, while also reducing the feature vector length. Moreover, z-normalization proved crucial for creating robust spectral features. | 翻訳日:2024-07-22 12:09:54 公開日:2024-07-08 |
# F-adjointによる学習
Learning by the F-adjoint ( http://arxiv.org/abs/2407.11049v1 ) ライセンス: Link先を確認 | Ahmed Boughammoura, | (参考訳) Boughammoura (2023) による最近の論文では、F-adjoint 法と呼ばれる別の定式化の観点から、バックプロパゲーションアルゴリズムを記述している。
特に、F-adjointアルゴリズムにより、ネットワーク内の各重みに関する損失勾配の計算は簡単であり、簡単に行うことができる。
本研究では、フィードフォワードニューラルネットワークのための教師付き学習アルゴリズムを改善するための理論的枠組みを開発し、検討する。
本研究の主な成果は、勾配降下法と組み合わせた神経力学モデルを導入することにより、深いフィードフォワードネットワーク設定のための局所学習規則を導出する平衡F-随伴過程を導出したことである。
MNISTとFashion-MNISTデータセットの実験結果は、提案手法が標準バックプロパゲーショントレーニング手順を大幅に改善することを示した。
A recent paper by Boughammoura (2023) describes the back-propagation algorithm in terms of an alternative formulation called the F-adjoint method. In particular, by the F-adjoint algorithm the computation of the loss gradient, with respect to each weight within the network, is straightforward and can simply be done. In this work, we develop and investigate this theoretical framework to improve some supervised learning algorithm for feed-forward neural network. Our main result is that by introducing some neural dynamical model combined by the gradient descent algorithm, we derived an equilibrium F-adjoint process which yields to some local learning rule for deep feed-forward networks setting. Experimental results on MNIST and Fashion-MNIST datasets, demonstrate that the proposed approach provide a significant improvements on the standard back-propagation training procedure. | 翻訳日:2024-07-22 12:09:54 公開日:2024-07-08 |
# グラフニューラルネットワークと空間情報学習による天気予報の事後予測
Graph Neural Networks and Spatial Information Learning for Post-Processing Ensemble Weather Forecasts ( http://arxiv.org/abs/2407.11050v1 ) ライセンス: Link先を確認 | Moritz Feik, Sebastian Lerch, Jan Stühmer, | (参考訳) 数値天気予報モデルからのアンサンブル予測は、後処理による修正を必要とする系統的なエラーを示す。
過去数年間、柔軟なニューラルネットワークベースの後処理手法が大幅に進歩してきたが、ほとんどのステーションベースのアプローチは、予測エラーで空間構造を利用する能力を制限する全ての入力データポイントを別々に扱う。
位置情報間の情報共有を改善するために,グラフ上の駅位置をノードとして表現し,周辺地域から関連する予測情報を識別するためのアテンション機構を利用する,アンサンブル後処理のためのグラフニューラルネットワークアーキテクチャを提案する。
欧州における2m温度予測のケーススタディでは、グラフニューラルネットワークモデルは、高度に競争力のあるニューラルネットワークベースの後処理法よりも大幅に改善されている。
Ensemble forecasts from numerical weather prediction models show systematic errors that require correction via post-processing. While there has been substantial progress in flexible neural network-based post-processing methods over the past years, most station-based approaches still treat every input data point separately which limits the capabilities for leveraging spatial structures in the forecast errors. In order to improve information sharing across locations, we propose a graph neural network architecture for ensemble post-processing, which represents the station locations as nodes on a graph and utilizes an attention mechanism to identify relevant predictive information from neighboring locations. In a case study on 2-m temperature forecasts over Europe, the graph neural network model shows substantial improvements over a highly competitive neural network-based post-processing method. | 翻訳日:2024-07-22 12:09:54 公開日:2024-07-08 |
# 効率的なタンパク質アンサンブル生成のためのAlphaFlowの改良
Improving AlphaFlow for Efficient Protein Ensembles Generation ( http://arxiv.org/abs/2407.12053v1 ) ライセンス: Link先を確認 | Shaoning Li, Mingyu Li, Yusong Wang, Xinheng He, Nanning Zheng, Jian Zhang, Pheng-Ann Heng, | (参考訳) タンパク質のコンフォメーション・ランドスケープを調べることは、その生物学的機能や性質を理解する上で重要な方法である。
AlphaFlowは、フローマッチングフレームワークの下でAlphaFoldを微調整することで、構造予測モデルに柔軟性を導入するシーケンス条件生成モデルとして際立っている。
フローマッチングによる効率的なサンプリングの利点にもかかわらず、AlphaFlowは最終的に1つのコンフォーメーションを生成するために複数のAlphaFoldを実行する必要がある。
AlphaFoldの大量消費のため、その適用性は制限された時間枠内でより大きなタンパク質アンサンブルや長い鎖のサンプリングに限られる。
本研究では,AlphaFlow-Litと呼ばれる特徴条件付き生成モデルを提案し,効率的なタンパク質アンサンブル生成を実現する。
構造全体の完全な微調整とは対照的に、コンフォーメーションを再構築するために軽量構造モジュールのみに焦点をあてる。
AlphaFlow-LitはAlphaFlowとオンパーで動作し、予行訓練なしで蒸留されたバージョンを上回り、47倍のサンプリング加速を達成している。
効率の進歩は、より高速でスケーラブルなタンパク質アンサンブルの生成を可能にするAlphaFlow-Litの可能性を示している。
Investigating conformational landscapes of proteins is a crucial way to understand their biological functions and properties. AlphaFlow stands out as a sequence-conditioned generative model that introduces flexibility into structure prediction models by fine-tuning AlphaFold under the flow-matching framework. Despite the advantages of efficient sampling afforded by flow-matching, AlphaFlow still requires multiple runs of AlphaFold to finally generate one single conformation. Due to the heavy consumption of AlphaFold, its applicability is limited in sampling larger set of protein ensembles or the longer chains within a constrained timeframe. In this work, we propose a feature-conditioned generative model called AlphaFlow-Lit to realize efficient protein ensembles generation. In contrast to the full fine-tuning on the entire structure, we focus solely on the light-weight structure module to reconstruct the conformation. AlphaFlow-Lit performs on-par with AlphaFlow and surpasses its distilled version without pretraining, all while achieving a significant sampling acceleration of around 47 times. The advancement in efficiency showcases the potential of AlphaFlow-Lit in enabling faster and more scalable generation of protein ensembles. | 翻訳日:2024-07-22 09:07:34 公開日:2024-07-08 |
# 大規模言語モデルを用いたオンライン音声予測の限界
Limits to Predicting Online Speech Using Large Language Models ( http://arxiv.org/abs/2407.12850v1 ) ライセンス: Link先を確認 | Mina Remeli, Moritz Hardt, Robert C. Williamson, | (参考訳) ソーシャルメディア上でのオンライン音声の予測可能性について検討し,ユーザの投稿外の情報により予測可能性が改善されるかどうかを検討した。
最近の研究は、ユーザーの仲間が書いた投稿に含まれる予測情報が、ユーザーの投稿を上回る可能性があることを示唆している。
大規模な言語モデルの成功に感銘を受け、我々はこの仮説を実証的に検証した。
我々は予測不可能性をモデルの不確実性の尺度として定義する。
本研究の基盤として,5万人以上のXユーザ(以前はTwitter)とその仲間から625万件の投稿を収集した。
サイズが10億から70億の3つの大きな言語モデルにわたって、ユーザの投稿を仲間の投稿から予測するのは、パフォーマンスが低いことが分かりました。
さらに,ユーザ自身の投稿の予測値は,仲間の投稿よりも一貫して高い。
取締役会全体では、ソーシャルメディア投稿の予測可能性はまだ低く、文脈のない財務ニュースの予測に匹敵する。
本研究は,予測不能の原因と結果の堅牢性について,詳細な分析により拡張する。
具体的には、ハッシュタグと@メンションからかなりの量の予測の不確実性が生じることを観察する。
さらに、追加のコンテキストでモデルにプロンプトする代わりに、追加のコンテキストで微調整を行えば、結果が再現されます。
We study the predictability of online speech on social media, and whether predictability improves with information outside a user's own posts. Recent work suggests that the predictive information contained in posts written by a user's peers can surpass that of the user's own posts. Motivated by the success of large language models, we empirically test this hypothesis. We define unpredictability as a measure of the model's uncertainty, i.e., its negative log-likelihood on future tokens given context. As the basis of our study, we collect a corpus of 6.25M posts from more than five thousand X (previously Twitter) users and their peers. Across three large language models ranging in size from 1 billion to 70 billion parameters, we find that predicting a user's posts from their peers' posts performs poorly. Moreover, the value of the user's own posts for prediction is consistently higher than that of their peers'. Across the board, we find that the predictability of social media posts remains low, comparable to predicting financial news without context. We extend our investigation with a detailed analysis about the causes of unpredictability and the robustness of our findings. Specifically, we observe that a significant amount of predictive uncertainty comes from hashtags and @-mentions. Moreover, our results replicate if instead of prompting the model with additional context, we finetune on additional context. | 翻訳日:2024-07-22 08:28:07 公開日:2024-07-08 |
# ISPO:中国伝統医学データのセマンティックな統合のためのシンプレクティック・フェノタイプの統合オントロジー
ISPO: An Integrated Ontology of Symptom Phenotypes for Semantic Integration of Traditional Chinese Medical Data ( http://arxiv.org/abs/2407.12851v1 ) ライセンス: Link先を確認 | Zixin Shu, Rui Hua, Dengying Yan, Chenxia Lu, Ning Xu, Jun Li, Hui Zhu, Jia Zhang, Dan Zhao, Chenyang Hui, Junqiu Ye, Chu Liao, Qi Hao, Wen Ye, Cheng Luo, Xinyan Wang, Chuang Cheng, Xiaodong Li, Baoyan Liu, Xiaji Zhou, Runshun Zhang, Min Xu, Xuezhong Zhou, | (参考訳) 症状表現型は、様々な疾患の診断と治療のための重要なタイプの1つである。
しかし、症状用語の多様性は、特に中国伝統医学(TCM)の分野において、様々な種類の症状関連医療データの分析と知識共有を妨げる主要な障害の1つである。
目的: 本研究は,中国EMRのデータマイニングを支援するために, 症状表現型統合オントロジー(ISPO)を構築することを目的としている。
方法: 症状表現型(ISPO)の統合オントロジーを構築するため, 医用テキストアノテーションシステムからの支持を得て, 古典的TCM教科書と大規模中国の電子医療記録(EMR)を手作業で作成し, 症状用語を収集した。
さらに,異なる用語間のセマンティック・インターオペラビリティを促進するために,中国語用語と英語用語を相互参照した手動マッピングにより,公開されているバイオメディカル・ボキャブラリを組み込んだ。
また,ISPOを独立した臨床用EMRを用いて評価し,臨床データ解析に高用量な医用オントロジーを提供する。
結果: EMRの78,696例, バイオメディカル語彙5例, TCM本21例, 辞書を統合することで, ISPOは3,147概念, 23,475用語, 55,552定義, 文脈テキストを提供する。
症状表現型の関連解剖学的体系の分類学的構造に則り、ISPOは12の上位レベルカテゴリと79の中間レベルサブカテゴリを提供する。
データ分析の検証の結果、ISPOは95.35%、98.53%、92.66%の症状率で、3つの独立した臨床試験データセットで0.5%の頻度で発症し、オントロジーへのマッピングにおけるISPOの有意な価値を示すことが示されている。
Symptom phenotypes are one of the key types of manifestations for diagnosis and treatment of various disease conditions. However, the diversity of symptom terminologies is one of the major obstacles hindering the analysis and knowledge sharing of various types of symptom-related medical data particularly in the fields of Traditional Chinese Medicine (TCM). Objective: This study aimed to construct an Integrated Ontology of symptom phenotypes (ISPO) to support the data mining of Chinese EMRs and real-world study in TCM field. Methods: To construct an integrated ontology of symptom phenotypes (ISPO), we manually annotated classical TCM textbooks and large-scale Chinese electronic medical records (EMRs) to collect symptom terms with support from a medical text annotation system. Furthermore, to facilitate the semantic interoperability between different terminologies, we incorporated public available biomedical vocabularies by manual mapping between Chinese terms and English terms with cross-references to source vocabularies. In addition, we evaluated the ISPO using independent clinical EMRs to provide a high-usable medical ontology for clinical data analysis. Results: By integrating 78,696 inpatient cases of EMRs, 5 biomedical vocabularies, 21 TCM books and dictionaries, ISPO provides 3,147 concepts, 23,475 terms, and 55,552 definition or contextual texts. Adhering to the taxonomical structure of the related anatomical systems of symptom phenotypes, ISPO provides 12 top-level categories and 79 middle-level sub-categories. The validation of data analysis showed the ISPO has a coverage rate of 95.35%, 98.53% and 92.66% for symptom terms with occurrence rates of 0.5% in additional three independent curated clinical datasets, which can demonstrate the significant value of ISPO in mapping clinical terms to ontologies. | 翻訳日:2024-07-22 08:28:07 公開日:2024-07-08 |
# 歴史的インク:19世紀のスペイン語のセマンティックシフト検出
Historical Ink: Semantic Shift Detection for 19th Century Spanish ( http://arxiv.org/abs/2407.12852v1 ) ライセンス: Link先を確認 | Tony Montes, Laura Manrique-Gómez, Rubén Manrique, | (参考訳) 本稿では,19世紀のスペイン語文における単語の意味の進化を,計算言語学の手法を用いて,ラテンアメリカ・スペイン語に焦点をあてて考察する。
これは、特に歴史的文脈において、言語進化を理解するために不可欠であるセマンティックシフト検出(SSD)タスクに対処する。
この研究は、スペイン語の標的単語の集合を分析することに焦点を当てている。
これを実現するために、19世紀のスペインのコーパスが構築され、SSDタスクのカスタマイズ可能なパイプラインが開発された。
このパイプラインは、単語の感覚を見つけ出し、2つのコーパス間の意味的変化を測定するのに役立ちます。
その結果は、言語変化に反映される文化的・社会的変化に関する貴重な洞察を与えてくれる。
This paper explores the evolution of word meanings in 19th-century Spanish texts, with an emphasis on Latin American Spanish, using computational linguistics techniques. It addresses the Semantic Shift Detection (SSD) task, which is crucial for understanding linguistic evolution, particularly in historical contexts. The study focuses on analyzing a set of Spanish target words. To achieve this, a 19th-century Spanish corpus is constructed, and a customizable pipeline for SSD tasks is developed. This pipeline helps find the senses of a word and measure their semantic change between two corpora using fine-tuned BERT-like models with old Spanish texts for both Latin American and general Spanish cases. The results provide valuable insights into the cultural and societal shifts reflected in language changes over time | 翻訳日:2024-07-22 08:28:07 公開日:2024-07-08 |
# フェデレーションラーニングとブロックチェーンによる信頼できるAIoT対応ローカライゼーションシステム
A Trustworthy AIoT-enabled Localization System via Federated Learning and Blockchain ( http://arxiv.org/abs/2407.07921v1 ) ライセンス: Link先を確認 | Junfei Wang, He Huang, Jingze Feng, Steven Wong, Lihua Xie, Jianfei Yang, | (参考訳) スマートな建物における屋内ローカライゼーション技術に対する大きな需要があり、この分野で最も有望なソリューションは、IoTデバイスから収集されたクラウドソースのユーザデータに基づいてトレーニングされた機械学習モデルを使用するRFセンサーとフィンガープリントベースの手法を使用することである。
しかし、これは実際にはセキュリティとプライバシーの問題を引き起こす。
一部の研究者は、フェデレートドラーニングを使用してプライバシー問題を部分的に克服することを提案しているが、セキュリティ上の懸念、例えば単一ポイント障害、悪意のある攻撃は依然として残っている。
本稿では,DFLocというフレームワークを,以下の2つのセキュリティ問題を考慮して,高精度な3Dローカライゼーションタスクを実現する。
特に、信頼性と正確な屋内ローカライゼーションシステムにおける単一ポイント障害の問題に対処するため、従来の作業で中央サーバが処理するモデル分散や集約といったタスクを全クライアントに分散することで、フレームワークを分散化する特殊なブロックチェーンを設計する。
さらに、悪意のあるノード攻撃の懸念を軽減するため、ブロックチェーン内にモデル検証機構を更新する。
実験結果から,従来の統合学習システムと比較して,高精度な3D位置予測を実現するフレームワークの能力と,単一点障害や悪意ある攻撃の影響に対する優れた抵抗性を実証した。
There is a significant demand for indoor localization technology in smart buildings, and the most promising solution in this field is using RF sensors and fingerprinting-based methods that employ machine learning models trained on crowd-sourced user data gathered from IoT devices. However, this raises security and privacy issues in practice. Some researchers propose to use federated learning to partially overcome privacy problems, but there still remain security concerns, e.g., single-point failure and malicious attacks. In this paper, we propose a framework named DFLoc to achieve precise 3D localization tasks while considering the following two security concerns. Particularly, we design a specialized blockchain to decentralize the framework by distributing the tasks such as model distribution and aggregation which are handled by a central server to all clients in most previous works, to address the issue of the single-point failure for a reliable and accurate indoor localization system. Moreover, we introduce an updated model verification mechanism within the blockchain to alleviate the concern of malicious node attacks. Experimental results substantiate the framework's capacity to deliver accurate 3D location predictions and its superior resistance to the impacts of single-point failure and malicious attacks when compared to conventional centralized federated learning systems. | 翻訳日:2024-07-12 21:58:43 公開日:2024-07-08 |
# スマートコントラクトにおける脆弱性検出:包括的調査
Vulnerability Detection in Smart Contracts: A Comprehensive Survey ( http://arxiv.org/abs/2407.07922v1 ) ライセンス: Link先を確認 | Christopher De Baets, Basem Suleiman, Armin Chitizadeh, Imran Razzak, | (参考訳) ブロックチェーン技術が成長する中で、スマートコントラクトは、分散化されたネットワークでトランザクションを自律的に実行するトランスフォーメーションデジタル契約として存在します。
しかし、これらの契約はセキュリティ上の脆弱性という形での課題に直面し、経済的および運用上の重大なリスクを生じさせる。
スマートコントラクトの脆弱性を検出して緩和する従来の方法は、包括性と有効性の欠如によって制限されているが、高度な機械学習技術の統合は、効果的な脆弱性対策を増やすための魅力的なアプローチである。
我々は、厳格な体系的なレビューを行い、機械学習とスマートコントラクトの交差点を探索することで、既存の文献における重要なギャップを埋めようとしている。
具体的には、スマートコントラクトにおける脆弱性の検出と緩和を改善する機械学習技術の可能性を検討する。
2018年から2023年にかけて、IEEE、ACM、ScienceDirect、Scopus、Google Scholarといったデータベースから88の記事を分析しました。
その結果、KNN、RF、DT、XG-Boost、SVMといった古典的な機械学習技術は、脆弱性検出において静的ツールよりも優れていることがわかった。
さらに、ディープラーニングと古典的機械学習を統合したマルチモデルアプローチでは、精度とリコールが大幅に向上する一方、様々な手法を用いたハイブリッドモデルは、脆弱性検出精度においてほぼ完璧な性能を達成する。
最先端のソリューションを統合することで、現在の手法を合成し、研究ギャップを徹底的に調査し、今後の研究の方向性を提案する。
この研究から得られた洞察は、学術者、業界の専門家、そして機械学習を活用してスマートコントラクトのセキュリティを強化することに関心のある団体にとって、重要な基準となることを意図している。
In the growing field of blockchain technology, smart contracts exist as transformative digital agreements that execute transactions autonomously in decentralised networks. However, these contracts face challenges in the form of security vulnerabilities, posing significant financial and operational risks. While traditional methods to detect and mitigate vulnerabilities in smart contracts are limited due to a lack of comprehensiveness and effectiveness, integrating advanced machine learning technologies presents an attractive approach to increasing effective vulnerability countermeasures. We endeavour to fill an important gap in the existing literature by conducting a rigorous systematic review, exploring the intersection between machine learning and smart contracts. Specifically, the study examines the potential of machine learning techniques to improve the detection and mitigation of vulnerabilities in smart contracts. We analysed 88 articles published between 2018 and 2023 from the following databases: IEEE, ACM, ScienceDirect, Scopus, and Google Scholar. The findings reveal that classical machine learning techniques, including KNN, RF, DT, XG-Boost, and SVM, outperform static tools in vulnerability detection. Moreover, multi-model approaches integrating deep learning and classical machine learning show significant improvements in precision and recall, while hybrid models employing various techniques achieve near-perfect performance in vulnerability detection accuracy. By integrating state-of-the-art solutions, this work synthesises current methods, thoroughly investigates research gaps, and suggests directions for future studies. The insights gathered from this study are intended to serve as a seminal reference for academics, industry experts, and bodies interested in leveraging machine learning to enhance smart contract security. | 翻訳日:2024-07-12 21:58:43 公開日:2024-07-08 |
# $k$-NNレグレッションにおける$k$の選択のための最小不一致原理戦略
Minimum discrepancy principle strategy for choosing $k$ in $k$-NN regression ( http://arxiv.org/abs/2008.08718v7 ) ライセンス: Link先を確認 | Yaroslav Averyanov, Alain Celisse, | (参考訳) ホールドアウトデータを使わずに、$k$-NN回帰推定器でハイパーパラメータ$k$を選択するための新しいデータ駆動戦略を提案する。
我々は,ハイパーパラメータを反復的手順 ($k$以上) として選択する問題を扱い,早期停止の考え方と最小差分原理に基づく実践的戦略を用いて提案する。
このモデル選択戦略は、いくつかの滑らかな函数クラス、例えば有界領域上のリプシッツ函数クラスに対してミニマックス最適であることが証明されている。
この手法は、ホールドアウト法や5倍のクロスバリデーション、AIC基準など、他のモデル選択手法と比較して、人工的および実世界のデータセットの統計性能を向上することが多い。
戦略の新規性は、モデル選択手順の計算時間を減少させ、結果の推定器の統計的(最小限)最適性を保存することから生じる。
より正確には、サイズ$n$のサンプルとして$k$を$\left\{ 1, \ldots, n \right\}$と$\left\{ f^1, \ldots, f^n \right\}$の中から選ぶとすれば、最小の離散性原理は回帰関数の近似器であり、最小の離散性原理は推定器の分数の計算を必要とする。
We present a novel data-driven strategy to choose the hyperparameter $k$ in the $k$-NN regression estimator without using any hold-out data. We treat the problem of choosing the hyperparameter as an iterative procedure (over $k$) and propose using an easily implemented in practice strategy based on the idea of early stopping and the minimum discrepancy principle. This model selection strategy is proven to be minimax-optimal over some smoothness function classes, for instance, the Lipschitz functions class on a bounded domain. The novel method often improves statistical performance on artificial and real-world data sets in comparison to other model selection strategies, such as the Hold-out method, 5-fold cross-validation, and AIC criterion. The novelty of the strategy comes from reducing the computational time of the model selection procedure while preserving the statistical (minimax) optimality of the resulting estimator. More precisely, given a sample of size $n$, if one should choose $k$ among $\left\{ 1, \ldots, n \right\}$, and $\left\{ f^1, \ldots, f^n \right\}$ are the estimators of the regression function, the minimum discrepancy principle requires the calculation of a fraction of the estimators, while this is not the case for the generalized cross-validation, Akaike's AIC criteria, or Lepskii principle. | 翻訳日:2024-07-11 22:45:35 公開日:2024-07-08 |
# 重力と量子計測の問題点
Gravitation and the Problem of Quantum Measurement ( http://arxiv.org/abs/2010.14965v2 ) ライセンス: Link先を確認 | Chris Allen Broka, | (参考訳) 一般相対性理論を定量化する目標は,半古典的重力に有利にするために放棄されるべきである。
形式主義はそれを行うためのものである。
この文脈で量子測定の問題を考察する。
EPRパラドックスとPage-Geilker実験に特に注意が払われる。
We consider the possibility that the goal of quantizing General Relativity should be abandoned in favor of Semiclassical Gravity. A formalism is provided for doing so. The quantum measurement problem is investigated in this context. Particular attention is paid to the EPR paradox and the Page-Geilker experiment. | 翻訳日:2024-07-11 22:45:35 公開日:2024-07-08 |
# ソフトコア異方性リーブ-ライニガー流体の二重解法
Dual approach to soft-core anyonic Lieb-Liniger fluids ( http://arxiv.org/abs/2407.06108v1 ) ライセンス: Link先を確認 | Gerard Valentí-Rojas, Patrik Öhberg, | (参考訳) 量子物質の同一性はゲージ場によって効果的に変化することができる。
2つの空間次元において、これはチャーン・サイモンズ・フラックス・アタッチメント機構によって説明されるが、そのようなメカニズムは低次元では不可能である。
ここでは、ゲージ場の存在下での1次元相互作用するボース気体について検討する。
このモデルは大きなゲージ変換によって相互作用する正準系に明示的にマッピングすることができ、チャーン・サイモンズに類似した統計的変換を示す。
弱い相互作用の極限におけるボゴリューボフスペクトルは、統計的相互作用から生じるロトン最小値の存在を明らかにする。
平均場レベルではキラルソリトンが回収される。
これらは量子境界状態として理解されるなら、局所化された正準粒子に対応するものとして解釈することは自然である。
流体力学の議論は、リーマン=ホップの非線形性による波束の伝播における分散キラル衝撃波の存在を強調する。
数値計算は、キラルソリトン列車と衝撃波の両方の存在を示している。
The identity of quantum matter can be effectively altered by means of gauge fields. In two spatial dimensions this is illustrated by the Chern-Simons flux-attachment mechanism, but such a mechanism is not possible in lower dimensions. Here, we study a one-dimensional interacting Bose gas in the presence of a gauge field. This model can be explicitly mapped into an interacting anyonic system by a large gauge transformation, indicating a statistical transmutation analogous to that of Chern-Simons. The Bogoliubov spectrum in the weakly-interacting limit reveals the presence of a roton minimum arising from the statistical interaction. At a mean-field level chiral solitons are recovered. Should these be understood as quantum bound states, it is natural to interpret them as corresponding to localised anyonic quasiparticles. Hydrodynamic arguments highlight the presence of dispersive chiral shock waves in the propagation of a wavepacket due to a Riemann-Hopf nonlinearity. Numerical calculations show the presence of both chiral soliton trains and shock waves. | 翻訳日:2024-07-11 20:39:53 公開日:2024-07-08 |
# x^{2q+1}$ over $\mathbb{F}_{q^2}$の微分スペクトルとウォルシュスペクトルについて
On the differential and Walsh spectra of $x^{2q+1}$ over $\mathbb{F}_{q^2}$ ( http://arxiv.org/abs/2407.07710v1 ) ライセンス: Link先を確認 | Sihem Mesnager, Huawei Wu, | (参考訳) q$ を奇素数とし、$\mathbb{F}_{q^2}$ を$q^2$元を持つ有限体とする。
本稿では、パワー関数 $F(x)=x^{2q+1}$ over $\mathbb{F}_{q^2}$ の微分スペクトルを決定する。
また、$\mathbb{F}_{q^2}$の特性が$$$であるとき、ウォルシュスペクトルの値分布を$F$とし、それを4$値とし、得られた結果を用いて4$の巡回符号の重量分布を決定する。
Let $q$ be an odd prime power and let $\mathbb{F}_{q^2}$ be the finite field with $q^2$ elements. In this paper, we determine the differential spectrum of the power function $F(x)=x^{2q+1}$ over $\mathbb{F}_{q^2}$. When the characteristic of $\mathbb{F}_{q^2}$ is $3$, we also determine the value distribution of the Walsh spectrum of $F$, showing that it is $4$-valued, and use the obtained result to determine the weight distribution of a $4$-weight cyclic code. | 翻訳日:2024-07-11 16:22:15 公開日:2024-07-08 |
# デジタルツインセンサによる文化遺産の活用
Digital Twin sensors in cultural heritage applications ( http://arxiv.org/abs/2407.07750v1 ) ライセンス: Link先を確認 | Franco Niccolucci, Achille Felicetti, | (参考訳) 本論文は,センサとアクティベーターのセマンティックな記述と実世界との対話のプロセスを含む文化遺産資料に使用されるデジタル双生児の反応性を記述するために,以前の研究で導入されたヘリテージデジタル双生児オントロジーの拡張に関するものである。
文化遺産におけるデジタル双生児の使用に関する以前の研究を分析した結果、遺産デジタル双生児オントロジーの概要が述べられ、既存のデジタル双生児の文化遺産への応用について概説するとともに、この話題に関する科学的貢献の大量生産を要約したレビューも参照されたい。
次に、リアクティブ・デジタル・ツイン・オントロジー(Reactive Digital Twin Ontology)と呼ばれる新しいオントロジーが記述され、センサー、アクティベーター、決定プロセスも意味的に記述され、以前の同期的アプローチを文化遺産文書に転換する。
いくつかのケーススタディはこの理論を実証している。
The paper concerns the extension of the Heritage Digital Twin Ontology introduced in previous work to describe the reactivity of digital twins used for cultural heritage documentation by including the semantic description of sensors and activators and all the process of interacting with the real world. After analysing previous work on the use of digital twins in cultural heritage, a summary description of the Heritage Digital Twin Ontology is provided, and the existing applications of digital twins to cultural heritage are overviewed, with references to reviews summarizing the large production of scientific contributions on the topic. Then a novel ontology, named Reactive Digital Twin Ontology is described, in which sensors, activators and the decision processes are also semantically described, turning the previous synchronic approach to cultural heritage documentation into a diachronic one. Some case studies exemplify this theory. | 翻訳日:2024-07-11 16:12:31 公開日:2024-07-08 |
# 情報管理における個人情報保護のためのセマンティックス保存歪み
Semantics-Preserved Distortion for Personal Privacy Protection in Information Management ( http://arxiv.org/abs/2201.00965v3 ) ライセンス: Link先を確認 | Jiajia Li, Lu Yang, Letian Peng, Shitou Zhang, Ping Wang, Zuchao Li, Hai Zhao, | (参考訳) 近年、機械学習(特にディープラーニング)は情報管理の分野に大きな影響を与えている。
原文からのセンシティブな情報の学習や記憶を抑えるために,いくつかの手法が提案されているが,本論文では,意味的整合性を維持しつつテキストを歪めるための言語学的アプローチを提案する。
この目的のために,歪み中の意味的意味の保存を評価するための新しい尺度であるNighboring Distribution Divergenceを利用する。
本尺度に基づいて, 意味保存歪みの枠組みとして, 生成的アプローチと置換的アプローチの2つを提示する。
個人プライバシ保護における歪み技術の有効性と有効性を確認するため, 名前付きエンティティ認識, 選挙区解析, 機械読取理解など, 様々なタスクに対する評価を行った。
また,NLP領域内のプライバシを重視した3つの課題において,属性攻撃に対して本手法を検証し,構造改善アプローチに対するデータベース改善アプローチの単純さと有効性を明らかにした。
さらに、特定の医療情報管理シナリオにおけるプライバシ保護について検討し、本手法が機密データの記憶を効果的に制限することを示し、その実用性を裏付ける。
In recent years, machine learning - particularly deep learning - has significantly impacted the field of information management. While several strategies have been proposed to restrict models from learning and memorizing sensitive information from raw texts, this paper suggests a more linguistically-grounded approach to distort texts while maintaining semantic integrity. To this end, we leverage Neighboring Distribution Divergence, a novel metric to assess the preservation of semantic meaning during distortion. Building on this metric, we present two distinct frameworks for semantic-preserving distortion: a generative approach and a substitutive approach. Our evaluations across various tasks, including named entity recognition, constituency parsing, and machine reading comprehension, affirm the plausibility and efficacy of our distortion technique in personal privacy protection. We also test our method against attribute attacks in three privacy-focused assignments within the NLP domain, and the findings underscore the simplicity and efficacy of our data-based improvement approach over structural improvement approaches. Moreover, we explore privacy protection in a specific medical information management scenario, showing our method effectively limits sensitive data memorization, underscoring its practicality. | 翻訳日:2024-07-11 00:57:55 公開日:2024-07-08 |
# 線形表現を用いた非線形力学系の量子計算への挑戦
Challenges for quantum computation of nonlinear dynamical systems using linear representations ( http://arxiv.org/abs/2202.02188v3 ) ライセンス: Link先を確認 | Yen Ting Lin, Robert B. Lowrie, Denis Aslangil, Yiğit Subaşı, Andrew T. Sornborger, | (参考訳) 近年の研究では、線形表現は、ヒルベルト空間の波動関数に対して線形に作用する非線形力学系を量子コンピュータで解くのに適していることが示唆されている。
クープマン表現やクープマン・フォン・ノイマン力学のような線形表現は、力学系の研究コミュニティから注目を集めている。
ここでは,既存の手法,概念的基礎,表現を比較・関連できる統一理論フレームワークを提案する。
また、非線形古典系の量子シミュレーションがそのような線型表現で可能であるという事実にもかかわらず、実現可能な有限次元空間への必要な射影は、実際には除去や制御が難しい数値的アーティファクトを誘導する。
結果として、一般的な非線形力学系を解くために量子計算を実用的で信頼性が高く正確に利用する方法は、まだ未解決の問題である。
A number of recent studies have proposed that linear representations are appropriate for solving nonlinear dynamical systems with quantum computers, which fundamentally act linearly on a wave function in a Hilbert space. Linear representations, such as the Koopman representation and Koopman von Neumann mechanics, have regained attention from the dynamical-systems research community. Here, we aim to present a unified theoretical framework, currently missing in the literature, with which one can compare and relate existing methods, their conceptual basis, and their representations. We also aim to show that, despite the fact that quantum simulation of nonlinear classical systems may be possible with such linear representations, a necessary projection into a feasible finite-dimensional space will in practice eventually induce numerical artifacts which can be hard to eliminate or even control. As a result, a practical, reliable and accurate way to use quantum computation for solving general nonlinear dynamical systems is still an open problem. | 翻訳日:2024-07-11 00:57:55 公開日:2024-07-08 |
# Online Bilevel Optimization: Regret Analysis of Online Alternating Gradient Methods
Online Bilevel Optimization: Regret Analysis of Online Alternating Gradient Methods ( http://arxiv.org/abs/2207.02829v7 ) ライセンス: Link先を確認 | Davoud Ataee Tarzanagh, Parvin Nazari, Bojian Hou, Li Shen, Laura Balzano, | (参考訳) 本稿では、時間変化の両レベル問題列を次々に明らかにする「textit{online bilevel optimization」を提案する。
オンラインのシングルレベルアルゴリズムに対する既知の後悔の限界を、バイレベル設定にまで広げる。
具体的には,「textit{bilevel regret}」という新たな概念を提供し,スムーズさを生かすオンラインな時間平均勾配法を開発し,内部および外部の最小化シーケンスのパス長の点で後悔の限界を与える。
This paper introduces \textit{online bilevel optimization} in which a sequence of time-varying bilevel problems is revealed one after the other. We extend the known regret bounds for online single-level algorithms to the bilevel setting. Specifically, we provide new notions of \textit{bilevel regret}, develop an online alternating time-averaged gradient method that is capable of leveraging smoothness, and give regret bounds in terms of the path-length of the inner and outer minimizer sequences. | 翻訳日:2024-07-11 00:50:53 公開日:2024-07-08 |
# ACOPF学習のためのバッチ化アクティブサンプリング
Bucketized Active Sampling for Learning ACOPF ( http://arxiv.org/abs/2208.07497v3 ) ライセンス: Link先を確認 | Michael Klamkin, Mathieu Tanneau, Terrence W. K. Mak, Pascal Van Hentenryck, | (参考訳) 本稿では、OPFの入力/出力関係を近似する機械学習モデルとして、最適電力フロー(OPF)の最適化プロキシについて考察する。
最近の研究は、そのようなプロキシが高忠実であることを示すことに重点を置いている。
しかしながら、トレーニングには重要なデータが必要であり、各インスタンスはOPFの(オフライン)解決を必要とします。
マーケットクリーニングアプリケーションの要件を満たすため,本研究では,最適なOPFプロキシをタイムリミット内でトレーニングすることを目的とした,新たなアクティブラーニングフレームワークであるBucketized Active Smpling(BAS)を提案する。
BASは入力ドメインをバケットに分割し、次にサンプルする場所を決定するために取得関数を使用する。
検証セットに同じパーティショニングを適用することで、BASはラベル付き検証サンプルを未ラベルのサンプルの選択に活用する。
BASはまた、時間とともに増加し減少する適応的な学習率にも依存している。
実験の結果,BASの利点が示された。
This paper considers optimization proxies for Optimal Power Flow (OPF), i.e., machine-learning models that approximate the input/output relationship of OPF. Recent work has focused on showing that such proxies can be of high fidelity. However, their training requires significant data, each instance necessitating the (offline) solving of an OPF. To meet the requirements of market-clearing applications, this paper proposes Bucketized Active Sampling (BAS), a novel active learning framework that aims at training the best possible OPF proxy within a time limit. BAS partitions the input domain into buckets and uses an acquisition function to determine where to sample next. By applying the same partitioning to the validation set, BAS leverages labeled validation samples in the selection of unlabeled samples. BAS also relies on an adaptive learning rate that increases and decreases over time. Experimental results demonstrate the benefits of BAS. | 翻訳日:2024-07-11 00:50:53 公開日:2024-07-08 |
# AUTOLYCUS: 解釈可能なモデルに対するモデル抽出攻撃のための説明可能なAI(XAI)の爆発
AUTOLYCUS: Exploiting Explainable AI (XAI) for Model Extraction Attacks against Interpretable Models ( http://arxiv.org/abs/2302.02162v3 ) ライセンス: Link先を確認 | Abdullah Caglar Oksuz, Anisa Halimi, Erman Ayday, | (参考訳) 説明可能な人工知能(XAI)は、AIモデルの意思決定プロセスを明らかにすることを目的としている。
しかし、そのような説明に使用されるデータは、セキュリティとプライバシーのリスクを引き起こす可能性がある。
既存の文献は、メンバシップ推論、モデル反転、モデル抽出攻撃を含む機械学習モデルに対する攻撃を特定する。
これらの攻撃は、設定や関係者によって、モデルまたはトレーニングデータのいずれかをターゲットにしている。
XAIツールは、モデル抽出攻撃の脆弱性を増大させる可能性がある。これは、モデル所有者がブラックボックスアクセスを好む場合の懸念であり、モデルパラメータとアーキテクチャをプライベートに保つ。
このリスクを生かして、ブラックボックス設定下での解釈可能なモデルに対して、新しいトレーニング(学習)ベースのモデル抽出攻撃フレームワークであるAUTOLYCUSを提案する。
XAIツールとして、LIME(Local Interpretable Model-Agnostic Explanations)とSHAP(Shapley Value)を利用して、決定境界を推論し、ターゲットモデルの機能を複製するサロゲートモデルを作成する。
LIME と SHAP は主に現実的で情報に富んだ説明のために選ばれ、広く採用され、シンプルで、使いやすくなっている。
AUTOLYCUSを6つの機械学習データセット上で評価し、サロゲートモデルとターゲットモデルとの精度と類似度を測定した。
その結果、AUTOLYCUSは極めて効果的であり、最先端の攻撃に比べてクエリをはるかに少なくし、精度と類似性を維持していることがわかった。
決定木,ロジスティック回帰,ナイーブベイズ,k-アネレスト近傍を含む,複数の解釈可能なMLモデルの性能と伝達性を検証する。
さらに,提案手法に対するAUTOLYCUSのレジリエンスも示す。
Explainable Artificial Intelligence (XAI) aims to uncover the decision-making processes of AI models. However, the data used for such explanations can pose security and privacy risks. Existing literature identifies attacks on machine learning models, including membership inference, model inversion, and model extraction attacks. These attacks target either the model or the training data, depending on the settings and parties involved. XAI tools can increase the vulnerability of model extraction attacks, which is a concern when model owners prefer black-box access, thereby keeping model parameters and architecture private. To exploit this risk, we propose AUTOLYCUS, a novel retraining (learning) based model extraction attack framework against interpretable models under black-box settings. As XAI tools, we exploit Local Interpretable Model-Agnostic Explanations (LIME) and Shapley values (SHAP) to infer decision boundaries and create surrogate models that replicate the functionality of the target model. LIME and SHAP are mainly chosen for their realistic yet information-rich explanations, coupled with their extensive adoption, simplicity, and usability. We evaluate AUTOLYCUS on six machine learning datasets, measuring the accuracy and similarity of the surrogate model to the target model. The results show that AUTOLYCUS is highly effective, requiring significantly fewer queries compared to state-of-the-art attacks, while maintaining comparable accuracy and similarity. We validate its performance and transferability on multiple interpretable ML models, including decision trees, logistic regression, naive bayes, and k-nearest neighbor. Additionally, we show the resilience of AUTOLYCUS against proposed countermeasures. | 翻訳日:2024-07-11 00:50:53 公開日:2024-07-08 |
# 自己組織型神経離散表現学習
Self-Organising Neural Discrete Representation Learning à la Kohonen ( http://arxiv.org/abs/2302.07950v2 ) ライセンス: Link先を確認 | Kazuki Irie, Róbert Csordás, Jürgen Schmidhuber, | (参考訳) ニューラルネットワーク(NN)における離散表現の教師なし学習は、現代の多くのアプリケーションにとって不可欠である。
ベクトル量子化(VQ)は、特に変分オートエンコーダ(VAE)のような生成モデルにおいて、指数的移動平均ベースVQ(EMA-VQ)アルゴリズムがよく用いられるようになった。
本稿では,KSOM (Self-Organising Map) に対するコホーネンの学習規則に基づく代替VQアルゴリズムについて検討する。
EMA-VQはKSOMの特殊なケースである。
KSOMは実験的に、EMA-VQよりも早く収束し、KSOMが生成する離散表現は、ノードが離散的なシンボルである格子上の位相構造を形成し、結果として脳の地形図の人工バージョンとなる。
画像処理にKSOMをVQ-VAEに使用することにより,これらの特性を再検討する。
我々の実験では、よく構成されたEMA-VQと比較してスピードアップはトレーニングの開始時にのみ観測可能であるが、KSOMは一般に、例えば初期化スキームの選択など、より堅牢である。
Unsupervised learning of discrete representations in neural networks (NNs) from continuous ones is essential for many modern applications. Vector Quantisation (VQ) has become popular for this, in particular in the context of generative models, such as Variational Auto-Encoders (VAEs), where the exponential moving average-based VQ (EMA-VQ) algorithm is often used. Here, we study an alternative VQ algorithm based on Kohonen's learning rule for the Self-Organising Map (KSOM; 1982). EMA-VQ is a special case of KSOM. KSOM is known to offer two potential benefits: empirically, it converges faster than EMA-VQ, and KSOM-generated discrete representations form a topological structure on the grid whose nodes are the discrete symbols, resulting in an artificial version of the brain's topographic map. We revisit these properties by using KSOM in VQ-VAEs for image processing. In our experiments, the speed-up compared to well-configured EMA-VQ is only observable at the beginning of training, but KSOM is generally much more robust, e.g., w.r.t. the choice of initialisation schemes. | 翻訳日:2024-07-11 00:50:53 公開日:2024-07-08 |
# スパースガウス過程による変圧器の校正
Calibrating Transformers via Sparse Gaussian Processes ( http://arxiv.org/abs/2303.02444v3 ) ライセンス: Link先を確認 | Wenlong Chen, Yingzhen Li, | (参考訳) トランスフォーマーモデルは、自然言語処理、音声認識、コンピュータビジョンにおける幅広い応用において、予測タスクにおいて大きな成功を収めてきた。
トランスフォーマーの成功を安全クリティカルな領域に拡張するには、未調査のままであるキャリブレーションされた不確実性推定が必要である。
そこで本稿では,マルチヘッドアテンションブロック(MHA)の出力空間に直接ベイズ推論を行い,その不確実性を校正するスパースガウスプロセスアテンション(SGPA)を提案する。
スケールされたドット積演算を有効な対称カーネルに置き換え、スパースガウス過程(SGP)技術を用いてMHA出力の後方過程を近似する。
SGPAベースのトランスフォーマーは、テキスト、画像、グラフ上の一連の予測タスクにおいて、競合予測精度を達成すると同時に、分布内キャリブレーションと分布外ロバストネスと検出の両方を顕著に改善する。
Transformer models have achieved profound success in prediction tasks in a wide range of applications in natural language processing, speech recognition and computer vision. Extending Transformer's success to safety-critical domains requires calibrated uncertainty estimation which remains under-explored. To address this, we propose Sparse Gaussian Process attention (SGPA), which performs Bayesian inference directly in the output space of multi-head attention blocks (MHAs) in transformer to calibrate its uncertainty. It replaces the scaled dot-product operation with a valid symmetric kernel and uses sparse Gaussian processes (SGP) techniques to approximate the posterior processes of MHA outputs. Empirically, on a suite of prediction tasks on text, images and graphs, SGPA-based Transformers achieve competitive predictive accuracy, while noticeably improving both in-distribution calibration and out-of-distribution robustness and detection. | 翻訳日:2024-07-11 00:50:53 公開日:2024-07-08 |
# 機械心理学:心理学的手法を用いた大規模言語モデルにおける創発的能力と行動の調査
Machine Psychology: Investigating Emergent Capabilities and Behavior in Large Language Models Using Psychological Methods ( http://arxiv.org/abs/2303.13988v5 ) ライセンス: Link先を確認 | Thilo Hagendorff, | (参考訳) 大規模言語モデル(LLM)は、現在、人間のコミュニケーションと日常の生活を結び付けるAIシステムの最前線にある。
急速な技術進歩と極端な汎用性により、LLMは今や数百万人のユーザを抱えており、情報検索、コンテンツ生成、問題解決などの主要なゴート技術になりつつある。
したがって、その能力を徹底的に評価し、精査することが非常に重要である。
現在のLLMでは、ますます複雑で斬新な行動パターンがあるため、もともと人間をテストするために設計された心理学実験の参加者として扱うことで、これを実現できる。
そこで本研究では,「機械心理学」と呼ばれる新しい研究分野を紹介する。
この論文は、心理学の異なるサブフィールドがLLMの行動テストにどのように影響するかを概説する。
機械心理学研究の方法論的基準を定義しており、特にプロンプトデザインのポリシーに焦点を当てている。
さらに、LLMで発見された行動パターンがどのように解釈されるかを記述する。
要約すると、機械心理学は従来の自然言語処理ベンチマークでは検出できないLLMの創発的能力を発見することを目的としている。
Large language models (LLMs) are currently at the forefront of intertwining AI systems with human communication and everyday life. Due to rapid technological advances and their extreme versatility, LLMs nowadays have millions of users and are at the cusp of being the main go-to technology for information retrieval, content generation, problem-solving, etc. Therefore, it is of great importance to thoroughly assess and scrutinize their capabilities. Due to increasingly complex and novel behavioral patterns in current LLMs, this can be done by treating them as participants in psychology experiments that were originally designed to test humans. For this purpose, the paper introduces a new field of research called "machine psychology". The paper outlines how different subfields of psychology can inform behavioral tests for LLMs. It defines methodological standards for machine psychology research, especially by focusing on policies for prompt designs. Additionally, it describes how behavioral patterns discovered in LLMs are to be interpreted. In sum, machine psychology aims to discover emergent abilities in LLMs that cannot be detected by most traditional natural language processing benchmarks. | 翻訳日:2024-07-11 00:50:53 公開日:2024-07-08 |
# SmartChoices: 学習した実装によるソフトウェアの拡張
SmartChoices: Augmenting Software with Learned Implementations ( http://arxiv.org/abs/2304.13033v3 ) ライセンス: Link先を確認 | Daniel Golovin, Gabor Bartok, Eric Chen, Emily Donahue, Tzu-Kuo Huang, Efi Kokiopoulou, Ruoyan Qin, Nikhil Sarda, Justin Sybrandt, Vincent Tjeng, | (参考訳) 多くのソフトウェアシステムにおいて、ヒューリスティックスはキャッシュの排除、タスクスケジューリング、情報提示などの決定に使われ、システム全体の振る舞いに大きな影響を与えます。
機械学習はこれらのヒューリスティックよりも優れているかもしれないが、プロダクションシステムにおける既存のヒューリスティックを安全に確実に置き換えることは、違法にコストがかかる。
We present SmartChoices, a novel approach that reduce the cost to deploy production-ready ML solution for contextual bandits problem。
SmartChoicesのインターフェースは、問題の定式化を実装の詳細から明確に分離している。 エンジニアは、SmartChoices APIに渡されるコンテキスト、アーム、フィードバックのデータタイプを定義することで、ユースケースを記述し、SmartChoicesはデータエンコーディングとロギング、トレーニング、ポリシの評価、デプロイを管理する。
当社の実装はベストプラクティスを定式化し,低レベルのアプリケーションで使用するのに十分な効率で,共有ライブラリを通じて棚外の貴重な生産機能を提供します。
全体として、SmartChoicesは、非専門家がMLシステムに共通する多くの技術的負債を排除し、プロダクション対応のMLソリューションを迅速にデプロイすることを可能にする。
エンジニアは独立してSmartChoicesを使用して、キャッシュ、バッチ処理ワークロード、UIレイアウトを含む幅広いソフトウェアを改善し、結果としてレイテンシ、スループット、クリックスルー率が改善されている。
In many software systems, heuristics are used to make decisions - such as cache eviction, task scheduling, and information presentation - that have a significant impact on overall system behavior. While machine learning may outperform these heuristics, replacing existing heuristics in a production system safely and reliably can be prohibitively costly. We present SmartChoices, a novel approach that reduces the cost to deploy production-ready ML solutions for contextual bandits problems. SmartChoices' interface cleanly separates problem formulation from implementation details: engineers describe their use case by defining datatypes for the context, arms, and feedback that are passed to SmartChoices APIs, while SmartChoices manages encoding & logging data and training, evaluating & deploying policies. Our implementation codifies best practices, is efficient enough for use in low-level applications, and provides valuable production features off the shelf via a shared library. Overall, SmartChoices enables non-experts to rapidly deploy production-ready ML solutions by eliminating many sources of technical debt common to ML systems. Engineers have independently used SmartChoices to improve a wide range of software including caches, batch processing workloads, and UI layouts, resulting in better latency, throughput, and click-through rates. | 翻訳日:2024-07-11 00:40:48 公開日:2024-07-08 |
# ClimSim-Online: ハイブリッドML物理気候エミュレーションのための大規模マルチスケールデータセットとフレームワーク
ClimSim-Online: A Large Multi-scale Dataset and Framework for Hybrid ML-physics Climate Emulation ( http://arxiv.org/abs/2306.08754v6 ) ライセンス: Link先を確認 | Sungduk Yu, Zeyuan Hu, Akshay Subramaniam, Walter Hannah, Liran Peng, Jerry Lin, Mohamed Aziz Bhouri, Ritwik Gupta, Björn Lütjens, Justus C. Will, Gunnar Behrens, Julius J. M. Busecke, Nora Loose, Charles I. Stern, Tom Beucler, Bryce Harrop, Helge Heuer, Benjamin R. Hillman, Andrea Jenney, Nana Liu, Alistair White, Tian Zheng, Zhiming Kuang, Fiaz Ahmed, Elizabeth Barnes, Noah D. Brenowitz, Christopher Bretherton, Veronika Eyring, Savannah Ferretti, Nicholas Lutsko, Pierre Gentine, Stephan Mandt, J. David Neelin, Rose Yu, Laure Zanna, Nathan Urban, Janni Yuval, Ryan Abernathey, Pierre Baldi, Wayne Chuang, Yu Huang, Fernando Iglesias-Suarez, Sanket Jantre, Po-Lun Ma, Sara Shamekh, Guang Zhang, Michael Pritchard, | (参考訳) 現代の気候予測は、計算上の制約による適切な空間的および時間的解決を欠いているため、サブ解像度スケールで発生する雷雨のような臨界過程を表現する不正確な結果となった。
物理と機械学習(ML)を組み合わせたハイブリッドな手法は、高速で高忠実な気候シミュレーションを提供し、計算空調、高解像度のシミュレーションをMLエミュレータにアウトソーシングする。
しかし、これらのハイブリッドML物理シミュレーションは、多くのML専門家がアクセスできないドメイン固有のデータとワークフローを必要とする。
ClimSimデータセットの拡張(Yu et al , 2024)として、ハイブリッドML-物理シミュレータを開発するためのエンドツーエンドワークフローを含むClimSim-Onlineを紹介する。
ClimSimデータセットには570億の多変量入力/出力ベクトルが含まれており、ホスト気候シミュレータのマクロスケール状態に対する高分解能、高忠実度物理学の影響を捉えている。
データセットはグローバルで、高いサンプリング頻度で10年間にわたっています。
ハイブリッドテストのための運用環境シミュレータにMLモデルを統合するための、クロスプラットフォームでコンテナ化されたパイプラインを提供します。
また,各種MLベースラインとハイブリッドベースラインシミュレータを実装し,安定で熟練したエミュレータを構築する上でのMLの課題を強調した。
データ(https://huggingface.co/datasets/LEAP/ClimSim_high-res)とコード(https://leap-stc.github.io/ClimSimとhttps://github.com/leap-stc/climsim-online)は、ハイブリッドML物理と高忠実度気候シミュレーションの開発をサポートするために公開されている。
Modern climate projections lack adequate spatial and temporal resolution due to computational constraints, leading to inaccuracies in representing critical processes like thunderstorms that occur on the sub-resolution scale. Hybrid methods combining physics with machine learning (ML) offer faster, higher fidelity climate simulations by outsourcing compute-hungry, high-resolution simulations to ML emulators. However, these hybrid ML-physics simulations require domain-specific data and workflows that have been inaccessible to many ML experts. As an extension of the ClimSim dataset (Yu et al., 2024), we present ClimSim-Online, which also includes an end-to-end workflow for developing hybrid ML-physics simulators. The ClimSim dataset includes 5.7 billion pairs of multivariate input/output vectors, capturing the influence of high-resolution, high-fidelity physics on a host climate simulator's macro-scale state. The dataset is global and spans ten years at a high sampling frequency. We provide a cross-platform, containerized pipeline to integrate ML models into operational climate simulators for hybrid testing. We also implement various ML baselines, alongside a hybrid baseline simulator, to highlight the ML challenges of building stable, skillful emulators. The data (https://huggingface.co/datasets/LEAP/ClimSim_high-res) and code (https://leap-stc.github.io/ClimSim and https://github.com/leap-stc/climsim-online) are publicly released to support the development of hybrid ML-physics and high-fidelity climate simulations. | 翻訳日:2024-07-11 00:40:48 公開日:2024-07-08 |
# 原子ボソンサンプリング装置
An atomic boson sampler ( http://arxiv.org/abs/2307.06936v2 ) ライセンス: Link先を確認 | Aaron W. Young, Shawn Geller, William J. Eckner, Nathan Schine, Scott Glancy, Emanuel Knill, Adam M. Kaufman, | (参考訳) ボソンサンプリングは、量子コンピューティングの制限されたモデルを実装する。
これは、プログラム可能な非相互作用力学に従って伝播する同一ボソンの干渉による分布からサンプリングする能力によって定義される。
本稿では、2次元トンネル結合光学格子における超低温原子を用いたボソンサンプリングの新たな組み合わせについて述べる。
これらのツールには、光学的ツイーザーと高忠実度光冷却による再配置によるほぼ同一のボゾン原子(99.5^{+0.5}_{-1.6}\;\%$ indistinguishability)の大きなアンサンブルの高速かつプログラマブルな調製、低損失(5.0(2)\;\%$、進化時間に依存しない)格子内の可変進化時間の伝播、進化後の原子位置の高忠実度検出(通常99.8(1)\;\%$)が含まれる。
本システムでは、格子内の$\sim 1000$のサイト間で最大180$の原子を分散したボソンサンプリングの特定の事例について検討する。
この状態において、与えられたボソンサンプリング分布の直接検証は不可能である。
代わりに, 生成した原子の識別不可能性を判定し, 単一粒子ユニタリの応用ファミリーを特徴づけ, 幅広い原子番号の干渉による集束特性を観察するために, ターゲット試験を導入し, 実施する。
相互作用系に拡張すると、様々なHubbardモデルのシミュレーションにおいて、基底および励起状態を直接組み立てるために必要なコア機能を示す。
A boson sampler implements a restricted model of quantum computing. It is defined by the ability to sample from the distribution resulting from the interference of identical bosons propagating according to programmable, non-interacting dynamics. Here, we demonstrate a new combination of tools for implementing boson sampling using ultracold atoms in a two-dimensional, tunnel-coupled optical lattice. These tools include fast and programmable preparation of large ensembles of nearly identical bosonic atoms ($99.5^{+0.5}_{-1.6}\;\%$ indistinguishability) by means of rearrangement with optical tweezers and high-fidelity optical cooling, propagation for variable evolution time in the lattice with low loss ($5.0(2)\;\%$, independent of evolution time), and high fidelity detection of the atom positions after their evolution (typically $99.8(1)\;\%$). With this system, we study specific instances of boson sampling involving up to $180$ atoms distributed among $\sim 1000$ sites in the lattice. Direct verification of a given boson sampling distribution is not feasible in this regime. Instead, we introduce and perform targeted tests to determine the indistinguishability of the prepared atoms, to characterize the applied family of single particle unitaries, and to observe expected bunching features due to interference for a large range of atom numbers. When extended to interacting systems, our work demonstrates the core capabilities required to directly assemble ground and excited states in simulations of various Hubbard models. | 翻訳日:2024-07-11 00:31:04 公開日:2024-07-08 |
# 高分解能水理モデルにおける正確な空間費用勾配を用いた地域化の学習 : フランス地中海地域への適用
Learning Regionalization using Accurate Spatial Cost Gradients within a Differentiable High-Resolution Hydrological Model: Application to the French Mediterranean Region ( http://arxiv.org/abs/2308.02040v2 ) ライセンス: Link先を確認 | Ngo Nghi Truyen Huynh, Pierre-André Garambois, François Colleoni, Benjamin Renard, Hélène Roux, Julie Demargne, Maxime Jay-Allemand, Pierre Javelle, | (参考訳) 未ゲージ捕集における空間分布型水文パラメータの推定は, 地域化の難しさを招き, 放電データの空間的制約を課す必要がある。
考えられるアプローチは、物理記述子と概念モデルパラメータを定量的に関連付ける伝達関数を探すことである。
本稿では,多線形回帰あるいは人工ニューラルネットワーク(ANN)に基づく学習可能な地域化マッピングを,相違可能な水文モデルに組み込んだハイブリッドデータ同化・パラメータ地域化(HDA-PR)手法を提案する。
このアプローチは、2つの異なるコードがどのようにリンクされ、その勾配が連鎖されるかを示し、高精度な随伴型勾配を用いて、高次元の局所化コンテキスト内で広範囲な時空間計算領域にわたる異種データセットの活用を可能にする。
逆問題は、複数の観測地点からの情報を考慮に入れたマルチゲージ校正コスト関数に対処する。
HDA-PRは、フランス地中海地域における126個のフラッシュフロード・プロンの高分解能、時間、およびキロメートルの地域モデルで試験された。
結果は,特にANNを用いた上流から下流までの外挿シナリオにおいて,特にHDA-PRの強い地域化性能を示し,空間的,時間的,時空間的,時空間的検証においてNSEスコアの中央値が0.6から0.71に到達し,NSEを平均30%改善した。
ANNは、複雑なキャリブレーションの場合の線形マッピングよりも優れたモデル制御性を提供する非線形記述子-パラメータマッピングを学習することができる。
Estimating spatially distributed hydrological parameters in ungauged catchments poses a challenging regionalization problem and requires imposing spatial constraints given the sparsity of discharge data. A possible approach is to search for a transfer function that quantitatively relates physical descriptors to conceptual model parameters. This paper introduces a Hybrid Data Assimilation and Parameter Regionalization (HDA-PR) approach incorporating learnable regionalization mappings, based on either multi-linear regressions or artificial neural networks (ANNs), into a differentiable hydrological model. This approach demonstrates how two differentiable codes can be linked and their gradients chained, enabling the exploitation of heterogeneous datasets across extensive spatio-temporal computational domains within a high-dimensional regionalization context, using accurate adjoint-based gradients. The inverse problem is tackled with a multi-gauge calibration cost function accounting for information from multiple observation sites. HDA-PR was tested on high-resolution, hourly and kilometric regional modeling of 126 flash-flood-prone catchments in the French Mediterranean region. The results highlight a strong regionalization performance of HDA-PR especially in the most challenging upstream-to-downstream extrapolation scenario with ANN, achieving median Nash-Sutcliffe efficiency (NSE) scores from 0.6 to 0.71 for spatial, temporal, spatio-temporal validations, and improving NSE by up to 30% on average compared to the baseline model calibrated with lumped parameters. ANN enables to learn a non-linear descriptors-to-parameters mapping which provides better model controllability than a linear mapping for complex calibration cases. | 翻訳日:2024-07-11 00:31:04 公開日:2024-07-08 |
# MELT:プルリクエストからの効果的な軽量トランスフォーメーションのマイニング
MELT: Mining Effective Lightweight Transformations from Pull Requests ( http://arxiv.org/abs/2308.14687v2 ) ライセンス: Link先を確認 | Daniel Ramos, Hailie Mitchell, Inês Lynce, Vasco Manquinho, Ruben Martins, Claire Le Goues, | (参考訳) ソフトウェア開発者はしばしばAPIの更新に苦労し、手動、時間がかかり、エラーが発生しやすいプロセスにつながる。
私たちは、人気のあるライブラリリポジトリのプルリクエストから直接、軽量なAPIマイグレーションルールを生成する新しいアプローチであるMELTを紹介します。
私たちの重要な洞察は、プルリクエストをオープンソースライブラリにマージすることは、API移行ルールをマイニングするのに十分な、豊富な情報ソースである、ということです。
ライブラリソースから抽出したコード例とプルリクエストに基づいて自動生成されたコード例を活用することで、構造的なコード検索と置換のための言語である \comby の変換ルールを推論する。
単一コードの例から推測されるルールは具体的すぎるため,クライアントプロジェクトに適用可能なルールを一般化する手法を提案する。
MELTルールは構文駆動で、解釈可能で、容易に適応できる。
さらに、これまでの作業とは異なり、私たちのアプローチはルール推論をライブラリワークフローにシームレスに統合することができ、クライアントコードのマイグレーションを待つ必要がなくなる。
MELTを4つの人気のあるライブラリからのプルリクエストで評価し、プルリクエストのコード例から461のマイグレーションルール、自動生成されたコード例から114のルールをマイニングしました。
我々の一般化手順は、マイニングされたルールのマッチ数を9倍に増やす。
私たちはこれらのルールをクライアントプロジェクトに適用し、それらのテストを実行しました。その結果、警告の数が全体的に減少し、実際のシナリオにおけるMELTの有効性を示すいくつかのテストケースが修正されました。
Software developers often struggle to update APIs, leading to manual, time-consuming, and error-prone processes. We introduce MELT, a new approach that generates lightweight API migration rules directly from pull requests in popular library repositories. Our key insight is that pull requests merged into open-source libraries are a rich source of information sufficient to mine API migration rules. By leveraging code examples mined from the library source and automatically generated code examples based on the pull requests, we infer transformation rules in \comby, a language for structural code search and replace. Since inferred rules from single code examples may be too specific, we propose a generalization procedure to make the rules more applicable to client projects. MELT rules are syntax-driven, interpretable, and easily adaptable. Moreover, unlike previous work, our approach enables rule inference to seamlessly integrate into the library workflow, removing the need to wait for client code migrations. We evaluated MELT on pull requests from four popular libraries, successfully mining 461 migration rules from code examples in pull requests and 114 rules from auto-generated code examples. Our generalization procedure increases the number of matches for mined rules by 9x. We applied these rules to client projects and ran their tests, which led to an overall decrease in the number of warnings and fixing some test cases demonstrating MELT's effectiveness in real-world scenarios. | 翻訳日:2024-07-11 00:31:04 公開日:2024-07-08 |
# 光格子における大規模原子配列の高忠実度検出
High-fidelity detection of large-scale atom arrays in an optical lattice ( http://arxiv.org/abs/2309.04717v5 ) ライセンス: Link先を確認 | Renhao Tao, Maximilian Ammenwerth, Flavien Gyger, Immanuel Bloch, Johannes Zeiher, | (参考訳) 中立原子に基づく量子シミュレーションの最近の進歩は、高分解能で単原子感度のイメージング技術から大きく恩恵を受けている。
光学格子や光ツイーザにおける原子の局所的な検出を実現するために、様々なアプローチが開発されている。
アルカリ-アース原子やアルカリ-アース原子の場合、狭い光学遷移の存在は、冷却機構がトラップ電位の微分光学レベルシフトを空間的に解決する能力から生じる新しいタイプのシホス冷却を行う可能性を開く。
これまでのところ、地上状態のトラップ深さが冷却に関わる励起状態のそれを超える「反発型シシフス」構成で高忠実な画像が達成できるかどうかという未解決の問題があった。
ここでは,高忠実度 (99.971(1)\%$) と高生存率 (99.80(5)\%$) のシィフス冷却によるストロンチウム原子のイメージングを示す。
最大399ドルのツイーザーを持つ大規模ツイーザーアレイの原子のピンニング電位として光学格子を用い、繰り返し、高忠実な格子-ツイーザー-格子転移を示す。
さらに、MOTから直接約10000の原子で格子をロードし、生存確率と分類忠実度を99.2\%$より良く組み合わせた10000ドルの格子サイトをスケーラブルに撮像する。
この格子は将来,光ツイーザアレイの連続的な補充のための局所的にアドレス化可能でソート可能な貯水池として機能する。
Recent advances in quantum simulation based on neutral atoms have largely benefited from high-resolution, single-atom sensitive imaging techniques. A variety of approaches have been developed to achieve such local detection of atoms in optical lattices or optical tweezers. For alkaline-earth and alkaline-earth-like atoms, the presence of narrow optical transitions opens up the possibility of performing novel types of Sisyphus cooling, where the cooling mechanism originates from the capability to spatially resolve the differential optical level shifts in the trap potential. Up to now, it has been an open question whether high-fidelity imaging could be achieved in a "repulsive Sisyphus" configuration, where the trap depth of the ground state exceeds that of the excited state involved in cooling. Here, we demonstrate high-fidelity ($99.971(1)\%$) and high-survival ($99.80(5)\%$) imaging of strontium atoms using repulsive Sisyphus cooling. We use an optical lattice as a pinning potential for atoms in a large-scale tweezer array with up to $399$ tweezers and show repeated, high-fidelity lattice-tweezer-lattice transfers. We furthermore demonstrate loading the lattice with approximately 10000 atoms directly from the MOT and scalable imaging over $>10000$ lattice sites with a combined survival probability and classification fidelity better than $99.2\%$. Our lattice thus serves as a locally addressable and sortable reservoir for continuous refilling of optical tweezer arrays in the future. | 翻訳日:2024-07-11 00:31:04 公開日:2024-07-08 |
# 人間の活動のデコード:活動認識のためのウェアラブル加速度計とジャイロスコープデータの解析
Decoding Human Activities: Analyzing Wearable Accelerometer and Gyroscope Data for Activity Recognition ( http://arxiv.org/abs/2310.02011v3 ) ライセンス: Link先を確認 | Utsab Saha, Sawradip Saha, Tahmid Kabir, Shaikh Anowarul Fattah, Mohammad Saquib, | (参考訳) 人の動きや相対位置は、異なる種類のセンサーによって効果的に捕捉することができ、対応するセンサ出力は、異なる人間の活動の分類のための様々なマニピュレータ技術に利用することができる。
本稿では,FusionActNetという,多構造アーキテクチャにおける2つのユニークなアプローチを提案する。
第1のアプローチは、2つの専用残余ネットワークを用いて、特定のアクションの静的かつ動的挙動をキャプチャすることを目的としており、第2のアプローチはガイダンスモジュールを導入することで最終的な意思決定プロセスを促進する。
2段階のトレーニングプロセスは、第1段階では、静的(人体が動かない場所)と動的(人体の運動に関わる)データを用いて、残留ネットワークを個別に事前訓練するように設計されている。
次の段階では、事前訓練された静的または動的モデルとともにガイダンスモジュールを使用して、所定のセンサーデータをトレーニングする。
ここで、ガイダンスモジュールは、静的または動的モデルから得られる最も関連性の高い予測ベクトルを強調することを学び、異なる人間のアクティビティを効果的に分類するのに役立つ。
提案手法は2つのベンチマークデータセットを用いて評価し,最先端手法と比較した。
その結果,提案手法は精度,精度,リコール,F1スコアにおいて既存手法よりも優れており,UCI HARとMotion-Senseデータセットの精度は97.35%,95.35%であった。
A person's movement or relative positioning can be effectively captured by different types of sensors and corresponding sensor output can be utilized in various manipulative techniques for the classification of different human activities. This letter proposes an effective scheme for human activity recognition, which introduces two unique approaches within a multi-structural architecture, named FusionActNet. The first approach aims to capture the static and dynamic behavior of a particular action by using two dedicated residual networks and the second approach facilitates the final decision-making process by introducing a guidance module. A two-stage training process is designed where at the first stage, residual networks are pre-trained separately by using static (where the human body is immobile) and dynamic (involving movement of the human body) data. In the next stage, the guidance module along with the pre-trained static or dynamic models are used to train the given sensor data. Here the guidance module learns to emphasize the most relevant prediction vector obtained from the static or dynamic models, which helps to effectively classify different human activities. The proposed scheme is evaluated using two benchmark datasets and compared with state-of-the-art methods. The results clearly demonstrate that our method outperforms existing approaches in terms of accuracy, precision, recall, and F1 score, achieving 97.35% and 95.35% accuracy on the UCI HAR and Motion-Sense datasets, respectively which highlights both the effectiveness and stability of the proposed scheme. | 翻訳日:2024-07-11 00:31:04 公開日:2024-07-08 |
# ファイナンスにおける大規模言語モデル:調査
Large Language Models in Finance: A Survey ( http://arxiv.org/abs/2311.10723v2 ) ライセンス: Link先を確認 | Yinheng Li, Shaofei Wang, Han Ding, Hang Chen, | (参考訳) 大規模言語モデル(LLM)の最近の進歩は、金融における人工知能応用の新しい可能性を開いた。
本稿では,LLMを金融業務に活用する上で重要な2つの側面,すなわち既存ソリューションと導入指針に焦点をあてた実践的調査を行う。
まず、ゼロショットまたは少数ショット学習による事前学習モデルの活用、ドメイン固有のデータの微調整、カスタムLLMのスクラッチからのトレーニングなど、金融分野におけるLLMの採用に関する現在のアプローチについてレビューする。
主要なモデルを要約し、財務自然言語処理タスクの性能改善を評価する。
第2に、データ、計算、パフォーマンスに関するユースケース制約に基づいて、適切なLLMソリューションを選択する際に、金融専門家を導くための決定フレームワークを提案する。
このフレームワークは軽量な実験からカスタマイズ LLM への多額の投資までの道筋を提供する。
最後に、金融アプリケーションにおけるLCMの活用に関する制限と課題について論じる。
全体として、この調査は最先端の技術を総合し、金融AIの進歩にLCMを責任を持って適用するためのロードマップを提供することを目的としている。
Recent advances in large language models (LLMs) have opened new possibilities for artificial intelligence applications in finance. In this paper, we provide a practical survey focused on two key aspects of utilizing LLMs for financial tasks: existing solutions and guidance for adoption. First, we review current approaches employing LLMs in finance, including leveraging pretrained models via zero-shot or few-shot learning, fine-tuning on domain-specific data, and training custom LLMs from scratch. We summarize key models and evaluate their performance improvements on financial natural language processing tasks. Second, we propose a decision framework to guide financial professionals in selecting the appropriate LLM solution based on their use case constraints around data, compute, and performance needs. The framework provides a pathway from lightweight experimentation to heavy investment in customized LLMs. Lastly, we discuss limitations and challenges around leveraging LLMs in financial applications. Overall, this survey aims to synthesize the state-of-the-art and provide a roadmap for responsibly applying LLMs to advance financial AI. | 翻訳日:2024-07-11 00:21:19 公開日:2024-07-08 |
# パスベースニューラルネットワークを用いた知識グラフの帰納的リンク予測
Inductive Link Prediction in Knowledge Graphs using Path-based Neural Networks ( http://arxiv.org/abs/2312.10293v2 ) ライセンス: Link先を確認 | Canlin Zhang, Xiuwen Liu, | (参考訳) リンク予測は知識グラフにおいて重要な研究領域であり、多くの下流アプリケーションがある。
多くの実世界のシナリオでは、インダクティブリンク予測が必要であり、未知のエンティティ間で予測を行う必要がある。
埋め込みベースのモデルは、通常、新しいエンティティの埋め込みを微調整する必要があるため、帰納的リンク予測タスクに直接適用することは困難である。
ルールベースのモデルによってキャプチャされた論理ルールは、同じグラフ型を持つ新しいエンティティに直接適用することができるが、キャプチャされたルールは離散的であり、通常は寛大さを欠いている。
グラフニューラルネットワーク(GNN)は、深いニューラルネットワークを活用することで、トポロジ情報を新しいグラフに一般化することができるが、それでも新しいエンティティの埋め込みを微調整する必要がある。
本稿では,シアムニューラルネットワークを用いた帰納的リンク予測のための経路ベースモデルであるSiaILPを提案する。
我々のモデルは関係や経路の埋め込みにのみ依存しており、微調整なしで新しい実体に一般化することができる。
WN18RR, FB15k-237, Nell995 のインダクティブバージョンを用いたリンク予測タスクにおいて,本モデルがいくつかの最新性能を実現することを示す。
私たちのコードは \url{https://github.com/canlinzhang/SiaILP} で利用可能です。
Link prediction is a crucial research area in knowledge graphs, with many downstream applications. In many real-world scenarios, inductive link prediction is required, where predictions have to be made among unseen entities. Embedding-based models usually need fine-tuning on new entity embeddings, and hence are difficult to be directly applied to inductive link prediction tasks. Logical rules captured by rule-based models can be directly applied to new entities with the same graph typologies, but the captured rules are discrete and usually lack generosity. Graph neural networks (GNNs) can generalize topological information to new graphs taking advantage of deep neural networks, which however may still need fine-tuning on new entity embeddings. In this paper, we propose SiaILP, a path-based model for inductive link prediction using siamese neural networks. Our model only depends on relation and path embeddings, which can be generalized to new entities without fine-tuning. Experiments show that our model achieves several new state-of-the-art performances in link prediction tasks using inductive versions of WN18RR, FB15k-237, and Nell995. Our code is available at \url{https://github.com/canlinzhang/SiaILP}. | 翻訳日:2024-07-11 00:11:18 公開日:2024-07-08 |
# AutoChunk: メモリ効率の良いロングシーケンス推論のための自動アクティベーションチャンク
AutoChunk: Automated Activation Chunk for Memory-Efficient Long Sequence Inference ( http://arxiv.org/abs/2401.10652v3 ) ライセンス: Link先を確認 | Xuanlei Zhao, Shenggan Cheng, Guangyang Lu, Jiarui Fang, Haotian Zhou, Bin Jia, Ziming Liu, Yang You, | (参考訳) 大規模なディープラーニングモデルは、さまざまなアプリケーションで素晴らしいパフォーマンスを実現しています。
しかし、パラメータメモリやアクティベーションメモリを含む大きなメモリ要件は、実用上重要な課題となっている。
既存のメソッドは主にパラメータメモリに対処するが、アクティベーションメモリの重要性は見過ごされている。
特に、長い入力シーケンスでは、アクティベーションメモリは、シーケンスの長さが増加するにつれて顕著な指数関数的な成長を経験することが期待されている。
提案するAutoChunkは,チャンク戦略による長周期推論のためのアクティベーションメモリを効率的に削減する自動適応型コンパイラである。
提案システムでは,複数段階の最適化によりチャンクプランを生成する。
各段階で、チャンク検索パスは可能なチャンク候補をすべて探索し、チャンク選択パスは最適なチャンクを識別する。
実行時に、AutoChunkはコード生成を使用してチャンク戦略を自動的に適用する。
実験の結果、AutoChunkは10%以内の速度損失を維持しながら80%以上のアクティベーションメモリを削減し、最大シーケンス長を3.2倍から11.7倍に拡張し、最先端の手法よりも大きなマージンで性能を向上できることが示された。
Large deep learning models have achieved impressive performance across a range of applications. However, their large memory requirements, including parameter memory and activation memory, have become a significant challenge for their practical serving. While existing methods mainly address parameter memory, the importance of activation memory has been overlooked. Especially for long input sequences, activation memory is expected to experience a significant exponential growth as the length of sequences increases. In this approach, we propose AutoChunk, an automatic and adaptive compiler system that efficiently reduces activation memory for long sequence inference by chunk strategies. The proposed system generates chunk plans by optimizing through multiple stages. In each stage, the chunk search pass explores all possible chunk candidates and the chunk selection pass identifies the optimal one. At runtime, AutoChunk employs code generation to automatically apply chunk strategies. The experiments demonstrate that AutoChunk can reduce over 80\% of activation memory while maintaining speed loss within 10%, extend max sequence length by 3.2x to 11.7x, and outperform state-of-the-art methods by a large margin. | 翻訳日:2024-07-11 00:01:01 公開日:2024-07-08 |
# パラメトリックマトリックスモデル
Parametric Matrix Models ( http://arxiv.org/abs/2401.11694v3 ) ライセンス: Link先を確認 | Patrick Cook, Danny Jammooa, Morten Hjorth-Jensen, Daniel D. Lee, Dean Lee, | (参考訳) パラメトリック行列モデルと呼ばれる機械学習アルゴリズムの一般クラスを示す。
ニューロンの生物学を模倣する既存の機械学習モデルとは異なり、パラメトリック行列モデルは量子系の物理をエミュレートする行列方程式を使用する。
物理問題の解法と同様に、パラメトリック行列モデルは所望の出力につながる支配方程式を学習する。
パラメトリック行列モデルは経験的データから効率的に訓練することができ、方程式は代数的、微分的、あるいは積分的関係を用いることができる。
もともと科学計算用に設計されたが、パラメトリック行列モデルは一般的な機械学習問題に適用可能な普遍関数近似器であることが証明されている。
基礎となる理論を導入した後、パラメトリック行列モデルを幅広い問題に対してそれらの性能を示す一連の異なる課題に適用する。
ここで検証された全ての課題に対して、パラメトリック行列モデルは、入力特徴外挿を可能にする効率的で解釈可能な計算フレームワーク内で正確な結果を生成する。
We present a general class of machine learning algorithms called parametric matrix models. In contrast with most existing machine learning models that imitate the biology of neurons, parametric matrix models use matrix equations that emulate the physics of quantum systems. Similar to how physics problems are usually solved, parametric matrix models learn the governing equations that lead to the desired outputs. Parametric matrix models can be efficiently trained from empirical data, and the equations may use algebraic, differential, or integral relations. While originally designed for scientific computing, we prove that parametric matrix models are universal function approximators that can be applied to general machine learning problems. After introducing the underlying theory, we apply parametric matrix models to a series of different challenges that show their performance for a wide range of problems. For all the challenges tested here, parametric matrix models produce accurate results within an efficient and interpretable computational framework that allows for input feature extrapolation. | 翻訳日:2024-07-11 00:01:01 公開日:2024-07-08 |
# 物理層における深層学習:データ駆動型エンドツーエンド通信システムとその意味論的応用に関するレビュー
Deep Learning in Physical Layer: Review on Data Driven End-to-End Communication Systems and their Enabling Semantic Applications ( http://arxiv.org/abs/2401.12800v2 ) ライセンス: Link先を確認 | Nazmul Islam, Seokjoo Shin, | (参考訳) ディープラーニング(DL)は、データ駆動型エンドツーエンド(E2E)学習を導入し、物理層(PHY)をDLアーキテクチャに変換してピーク最適化を実現することで、無線通信システムに革命をもたらした。
PHYにおけるDL for E2E最適化の活用は、複雑な無線環境における適応性と性能を著しく向上させ、5G以上の先進的なネットワークシステムの要求を満たす。
さらに、データ駆動型PHY最適化の進化により、テキスト、画像、オーディオ、ビデオ、マルチモーダルトランスミッションなど、様々なモードにわたる高度なセマンティック応用が可能になった。
これらのアプリケーションは、ビットレベルからセマンティックレベルのインテリジェンスへのコミュニケーションを高め、コンテキストや意図を識別する。
PHYは、DLアーキテクチャとしてセマンティックコミュニケーション(SeemCom)システムにおいて重要な役割を担っているが、E2E通信とSemComシステムの両方を統合する包括的な研究は、依然としてかなり過小評価されている。
このことは、これらの統合的な分野の新規性とポテンシャルを強調し、有望な研究領域としてマークしている。
そこで本稿では,E2E通信システムにおけるデータ駆動型PHYの今後の動向を概観し,様々なモダリティにまたがるセマンティックアプリケーションの実現における役割を強調した。
また、E2E通信およびSemComシステムのためのDLの今後の進歩のための重要なガイドとして、重要な課題と研究の方向性を特定する。
Deep learning (DL) has revolutionized wireless communication systems by introducing datadriven end-to-end (E2E) learning, where the physical layer (PHY) is transformed into DL architectures to achieve peak optimization. Leveraging DL for E2E optimization in PHY significantly enhances its adaptability and performance in complex wireless environments, meeting the demands of advanced network systems such as 5G and beyond. Furthermore, this evolution of data-driven PHY optimization has also enabled advanced semantic applications across various modalities, including text, image, audio, video, and multimodal transmissions. These applications elevate communication from bit-level to semantic-level intelligence, making it capable of discerning context and intent. Although the PHY, as a DL architecture, plays a crucial role in enabling semantic communication (SemCom) systems, comprehensive studies that integrate both E2E communication and SemCom systems remain significantly underexplored. This highlights the novelty and potential of these integrative fields, marking them as a promising research domain. Therefore, this article provides a comprehensive review of the emerging field of data-driven PHY for E2E communication systems, emphasizing their role in enabling semantic applications across various modalities. It also identifies key challenges and potential research directions, serving as a crucial guide for future advancements in DL for E2E communication and SemCom systems. | 翻訳日:2024-07-11 00:01:01 公開日:2024-07-08 |
# ボソニック損失劣化チャネルにおける量子通信
Quantum communication on the bosonic loss-dephasing channel ( http://arxiv.org/abs/2401.15634v2 ) ライセンス: Link先を確認 | Francesco Anna Mele, Farzin Salek, Vittorio Giovannetti, Ludovico Lami, | (参考訳) 量子光学系は通常、光子損失と劣化という2種類のノイズによって影響を受ける。
個々のノイズ過程に関する広範な研究にもかかわらず、それらの組み合わせ効果に関する包括的な理解はいまだに欠如している。
重要な問題は損失の値を決定することであり、結果として損失の減少するチャネルは分解不能となり、その効果を補正できる符号が存在しないこと、あるいは量子通信が可能であることを暗示している。
量子6, 821 (2022) の予想は、損失が 50\% 以上である場合に限って、ボソニック損失劣化チャネルが反劣化可能であることを示唆している。
本稿では, 損失の任意の値に対して, 劣化が臨界値以上であれば, ボソニック損失劣化チャネルは分解不能であることを示すことによって, この予想を否定する。
我々の結果は、量子通信が不可能な大きなパラメータ領域を識別する一方で、二方向古典通信が利用可能であれば、量子通信 -- 量子鍵分布 -- が常に達成可能であることを証明している。
Quantum optical systems are typically affected by two types of noise: photon loss and dephasing. Despite extensive research on each noise process individually, a comprehensive understanding of their combined effect is still lacking. A crucial problem lies in determining the values of loss and dephasing for which the resulting loss-dephasing channel is anti-degradable, implying the absence of codes capable of correcting its effect or, alternatively, capable of enabling quantum communication. A conjecture in [Quantum 6, 821 (2022)] suggested that the bosonic loss-dephasing channel is anti-degradable if and only if the loss is above $50\%$. In this paper we refute this conjecture, specifically proving that for any value of the loss, if the dephasing is above a critical value, then the bosonic loss-dephasing channel is anti-degradable. While our result identifies a large parameter region where quantum communication is not possible, we also prove that if two-way classical communication is available, then quantum communication -- and thus quantum key distribution -- is always achievable, even for high values of loss and dephasing. | 翻訳日:2024-07-11 00:01:01 公開日:2024-07-08 |
# 脱獄攻撃に対する言語モデルのロバストプロンプト最適化
Robust Prompt Optimization for Defending Language Models Against Jailbreaking Attacks ( http://arxiv.org/abs/2401.17263v4 ) ライセンス: Link先を確認 | Andy Zhou, Bo Li, Haohan Wang, | (参考訳) AIアライメントの進歩にもかかわらず、大きな言語モデル(LLM)は敵の攻撃や脱獄に弱いままであり、敵は望ましくない行動を誘発するためにプロンプトを修正することができる。
いくつかの防衛策が提案されているが、新たに提案された攻撃やより挑戦的な脅威モデルには適応していない。
そこで本稿では,ロバスト・プロンプト・最適化(RPO)を用いて,ロバスト・プロンプト・最適化(RPO)による堅牢なシステムレベルの防御を実現する。
本手法では, 敵を防御目標に直接組み込み, 軽量かつ移動可能な接尾辞を最適化することにより, RPOが最悪の場合の適応攻撃に適応できるようにする。
GPT-4の攻撃成功率(ASR)は6%,Llama-2は0%,JailbreakBenchは0%に低下した。
コードはhttps://github.com/lapisrocks/rpoにある。
Despite advances in AI alignment, large language models (LLMs) remain vulnerable to adversarial attacks or jailbreaking, in which adversaries can modify prompts to induce unwanted behavior. While some defenses have been proposed, they have not been adapted to newly proposed attacks and more challenging threat models. To address this, we propose an optimization-based objective for defending LLMs against jailbreaking attacks and an algorithm, Robust Prompt Optimization (RPO) to create robust system-level defenses. Our approach directly incorporates the adversary into the defensive objective and optimizes a lightweight and transferable suffix, enabling RPO to adapt to worst-case adaptive attacks. Our theoretical and experimental results show improved robustness to both jailbreaks seen during optimization and unknown jailbreaks, reducing the attack success rate (ASR) on GPT-4 to 6% and Llama-2 to 0% on JailbreakBench, setting the state-of-the-art. Code can be found at https://github.com/lapisrocks/rpo | 翻訳日:2024-07-11 00:01:01 公開日:2024-07-08 |
# テキスト・ツー・イメージ・ジェネレーションにおける美学と忠実度向上のためのネガティブ・プロンプトの最適化
Optimizing Negative Prompts for Enhanced Aesthetics and Fidelity in Text-To-Image Generation ( http://arxiv.org/abs/2403.07605v2 ) ライセンス: Link先を確認 | Michael Ogezi, Ning Shi, | (参考訳) テキスト・ツー・イメージ生成では、望ましくない画像特性を記述した負のプロンプトを用いることで、画質を大幅に向上させることができる。
しかし、良いネガティブなプロンプトを生み出すことは手作業であり、退屈である。
そこで我々は, 教師付き微調整と強化学習を用いて, 画像生成に対する負のプロンプト生成を最適化する新しい手法NegOptを提案する。
その結果, インセプションスコアは, 他の手法に比べて25%増加し, テストセットの真真正のプロンプトを上回った。
さらに、NegOptを使えば、私たちにとって最も重要なメトリクスを優先的に最適化できます。
最後に、負のプロンプトのデータセットである負のプロンプトDB(https://github.com/mikeogezi/negopt)を構築します。
In text-to-image generation, using negative prompts, which describe undesirable image characteristics, can significantly boost image quality. However, producing good negative prompts is manual and tedious. To address this, we propose NegOpt, a novel method for optimizing negative prompt generation toward enhanced image generation, using supervised fine-tuning and reinforcement learning. Our combined approach results in a substantial increase of 25% in Inception Score compared to other approaches and surpasses ground-truth negative prompts from the test set. Furthermore, with NegOpt we can preferentially optimize the metrics most important to us. Finally, we construct Negative Prompts DB (https://github.com/mikeogezi/negopt), a publicly available dataset of negative prompts. | 翻訳日:2024-07-10 23:41:10 公開日:2024-07-08 |
# 3T取得による7T MRI合成
7T MRI Synthesization from 3T Acquisitions ( http://arxiv.org/abs/2403.08979v2 ) ライセンス: Link先を確認 | Qiming Cui, Duygu Tosun, Pratik Mukherjee, Reza Abbasi-Asl, | (参考訳) 改良されたディープラーニング技術は、3T MRI入力から合成された7T MRIを生成するために使用できる。
この画像強調処理は、超高磁場MRIの利点を活用し、3T取得の信号対雑音比とコントラスト対雑音比を改善する。
本稿では,V-Net畳み込みニューラルネットワークのカスタム設計版に基づく,新しい7T合成アルゴリズムを提案する。
V-Netベースのモデルでは,既存のベンチマークモデルと比較して,シングルサイトおよびマルチサイトMRIデータセットの強化性能が優れていることが実証された。
軽度外傷性脳損傷(TBI)を有する8症例の3T-7T MRI対を訓練すると,本モデルでは最先端の7T合成性能が得られた。
従来の研究と比較すると, パイプラインから生成された合成7T画像は, 病理組織の改善に優れていた。
さらに、入力分布の変動に頑健なトレーニングモデルに対して、データ拡張スキームを実装し、テストする。
これにより、合成7Tモデルは、マルチサイトデータセットにおけるスキャン内およびスキャン間変動を許容できる。
健常者と軽度TBIを含む2つの施設の18の3T-7T MRI対からなる調和したデータセットにおいて,本モデルは,その性能を維持し,低分解能で3T MRI入力に一般化することができる。
以上の結果から,V-NetモデルによるMRI強調の可能性を実証し,データ拡張による合成7Tモデルの一般化性向上のための予備的調査を行った。
Supervised deep learning techniques can be used to generate synthetic 7T MRIs from 3T MRI inputs. This image enhancement process leverages the advantages of ultra-high-field MRI to improve the signal-to-noise and contrast-to-noise ratios of 3T acquisitions. In this paper, we introduce multiple novel 7T synthesization algorithms based on custom-designed variants of the V-Net convolutional neural network. We demonstrate that the V-Net based model has superior performance in enhancing both single-site and multi-site MRI datasets compared to the existing benchmark model. When trained on 3T-7T MRI pairs from 8 subjects with mild Traumatic Brain Injury (TBI), our model achieves state-of-the-art 7T synthesization performance. Compared to previous works, synthetic 7T images generated from our pipeline also display superior enhancement of pathological tissue. Additionally, we implement and test a data augmentation scheme for training models that are robust to variations in the input distribution. This allows synthetic 7T models to accommodate intra-scanner and inter-scanner variability in multisite datasets. On a harmonized dataset consisting of 18 3T-7T MRI pairs from two institutions, including both healthy subjects and those with mild TBI, our model maintains its performance and can generalize to 3T MRI inputs with lower resolution. Our findings demonstrate the promise of V-Net based models for MRI enhancement and offer a preliminary probe into improving the generalizability of synthetic 7T models with data augmentation. | 翻訳日:2024-07-10 23:41:10 公開日:2024-07-08 |
# MASSM:画像から直接多解剖学的統計的形状モデリングのためのエンドツーエンドディープラーニングフレームワーク
MASSM: An End-to-End Deep Learning Framework for Multi-Anatomy Statistical Shape Modeling Directly From Images ( http://arxiv.org/abs/2403.11008v2 ) ライセンス: Link先を確認 | Janmesh Ukey, Tushar Kataria, Shireen Y. Elhabian, | (参考訳) 統計的形状モデリング(SSM)は、人口の解剖学的変化を効果的に分析するが、手動の局所化とセグメンテーションの必要性により制限される。
近年のディープラーニングの進歩は、非分割画像から統計的表現(点分布モデルやPDMなど)を自動的に生成する有望なアプローチを提供してきた。
トレーニングが終わると、これらのディープラーニングベースのモデルは、新しい科目のための手動セグメンテーションの必要性を排除します。
ほとんどのディープラーニング手法は、画像ボリュームの手作業による事前調整と、ターゲット解剖のまわりのバウンディングボックス仕様を必要とするため、部分的に手動の推論プロセスに繋がる。
近年のアプローチは、解剖学的局所化を促進するが、人口レベルの統計表現のみを推定し、画像中の解剖を直接記述することはできない。
さらに、単一の解剖学をモデル化することに限定されている。
複数の解剖を同時にローカライズし、人口レベルの統計表現を推定し、画像空間内での形状表現を直接記述する新しいエンドツーエンドディープラーニングフレームワークであるMASSMを紹介する。
以上の結果から,マルチタスクネットワークを介して画像空間の解剖を記述し,複数の解剖処理を行うMASSMは,医用画像処理タスクのセグメンテーションネットワークよりも優れた形状情報を提供することがわかった。
統計的形状モデル(SSM)の推定は、検出およびデライン化される前により堅牢な統計を符号化するため、セグメンテーションよりも強いタスクである。
MASSMはより正確で包括的な形状表現を可能にし、従来のピクセルワイドセグメンテーションの能力を上回っている。
Statistical Shape Modeling (SSM) effectively analyzes anatomical variations within populations but is limited by the need for manual localization and segmentation, which relies on scarce medical expertise. Recent advances in deep learning have provided a promising approach that automatically generates statistical representations (as point distribution models or PDMs) from unsegmented images. Once trained, these deep learning-based models eliminate the need for manual segmentation for new subjects. Most deep learning methods still require manual pre-alignment of image volumes and bounding box specification around the target anatomy, leading to a partially manual inference process. Recent approaches facilitate anatomy localization but only estimate population-level statistical representations and cannot directly delineate anatomy in images. Additionally, they are limited to modeling a single anatomy. We introduce MASSM, a novel end-to-end deep learning framework that simultaneously localizes multiple anatomies, estimates population-level statistical representations, and delineates shape representations directly in image space. Our results show that MASSM, which delineates anatomy in image space and handles multiple anatomies through a multitask network, provides superior shape information compared to segmentation networks for medical imaging tasks. Estimating Statistical Shape Models (SSM) is a stronger task than segmentation, as it encodes a more robust statistical prior for the objects to be detected and delineated. MASSM allows for more accurate and comprehensive shape representations, surpassing the capabilities of traditional pixel-wise segmentation. | 翻訳日:2024-07-10 23:41:10 公開日:2024-07-08 |
# 一般化可能な力学系学習のためのニューラルコンテキストフロー
Neural Context Flows for Learning Generalizable Dynamical Systems ( http://arxiv.org/abs/2405.02154v2 ) ライセンス: Link先を確認 | Roussel Desmond Nzoyem, David A. W. Barton, Tom Deakin, | (参考訳) ニューラル常微分方程式は、たとえ力学が以前見られた挙動に近い場合でも、基盤システムのパラメータ変化によって生成される新しい力学挙動を一般化するのに苦労する。
パラメータの変化が観測されない場合、すなわちデータ収集の際の値や影響を直接測定できない場合、問題は悪化する。
このフレームワークは,非観測パラメータを潜在コンテキストベクトルに符号化し,ベクトル場への入力として利用する。
NCFは、パラメータに関するベクトル場の微分可能性と、任意の文脈ベクトルが他のパラメータからのトラジェクトリに影響を与えることを可能にする一階テイラー展開を利用する。
提案手法の有効性を検証し,マルチタスクとメタラーニングの代替案と比較し,ドメイン内平均二乗誤差における競合性能と,ロトカ・ボルテラ,グリコリシスオシレータ,グレイ・スコット問題に対する分布外評価を示す。
本研究は, 条件付きニューラル・オードの恩恵を受ける科学および関連分野の基礎モデルに対して, 実践的な意味を持つ。
私たちのコードはhttps://github.com/ddrous/ncflow.comで公開されています。
Neural Ordinary Differential Equations typically struggle to generalize to new dynamical behaviors created by parameter changes in the underlying system, even when the dynamics are close to previously seen behaviors. The issue gets worse when the changing parameters are unobserved, i.e., their value or influence is not directly measurable when collecting data. We introduce Neural Context Flow (NCF), a framework that encodes said unobserved parameters in a latent context vector as input to a vector field. NCFs leverage differentiability of the vector field with respect to the parameters, along with first-order Taylor expansion to allow any context vector to influence trajectories from other parameters. We validate our method and compare it to established Multi-Task and Meta-Learning alternatives, showing competitive performance in mean squared error for in-domain and out-of-distribution evaluation on the Lotka-Volterra, Glycolytic Oscillator, and Gray-Scott problems. This study holds practical implications for foundational models in science and related areas that benefit from conditional neural ODEs. Our code is openly available at https://github.com/ddrous/ncflow. | 翻訳日:2024-07-10 23:21:23 公開日:2024-07-08 |
# LLMから行動へ:階層型ロボット制御におけるブリッジとしての潜在コード
From LLMs to Actions: Latent Codes as Bridges in Hierarchical Robot Control ( http://arxiv.org/abs/2405.04798v2 ) ライセンス: Link先を確認 | Yide Shentu, Philipp Wu, Aravind Rajeswaran, Pieter Abbeel, | (参考訳) ロボット工学の階層的制御は、ハイレベルなタスクプランナと低レベルなポリシーの間をコミュニケーションするための、明確に定義されたインターフェース層の必要性に長年悩まされてきた。
LLMの出現に伴い、言語は将来的なインターフェース層として現れてきた。
しかし、これにはいくつかの制限がある。
すべてのタスクを自然言語で容易に表現可能なステップ(ダンスルーチンの実行など)に分解できる訳ではない。
さらに、ドメインシフトや破滅的な忘れが原因で、具体化されたデータのエンドツーエンドの微調整が困難になる。
我々はこれらの制限を克服するための代替アーキテクチャとして、学習可能な遅延符号をブリッジ(LCB)として導入する。
学習可能な潜在コードを使用して,LDMと低レベルのポリシのブリッジとして機能する。
これにより、LLMは言語制限に完全に制約されることなく、タスク計画の目標を柔軟に伝達することができる。
さらに、事前学習中に学習した単語トークンの埋め込みスペースを破壊することなく、エンドツーエンドの微調整を可能にする。
言語表(Language Table)とCalvin(Calvin)という2つの共通言語に基づくエージェントのベンチマーク実験により、純粋言語を推論と多段階動作を必要とするタスクのインターフェイス層として活用する'method~outperformsベースライン(w/GPT-4Vを含む)が見つかった。
Hierarchical control for robotics has long been plagued by the need to have a well defined interface layer to communicate between high-level task planners and low-level policies. With the advent of LLMs, language has been emerging as a prospective interface layer. However, this has several limitations. Not all tasks can be decomposed into steps that are easily expressible in natural language (e.g. performing a dance routine). Further, it makes end-to-end finetuning on embodied data challenging due to domain shift and catastrophic forgetting. We introduce our method -- Learnable Latent Codes as Bridges (LCB) -- as an alternate architecture to overcome these limitations. \method~uses a learnable latent code to act as a bridge between LLMs and low-level policies. This enables LLMs to flexibly communicate goals in the task plan without being entirely constrained by language limitations. Additionally, it enables end-to-end finetuning without destroying the embedding space of word tokens learned during pre-training. Through experiments on Language Table and Calvin, two common language based benchmarks for embodied agents, we find that \method~outperforms baselines (including those w/ GPT-4V) that leverage pure language as the interface layer on tasks that require reasoning and multi-step behaviors. | 翻訳日:2024-07-10 23:21:23 公開日:2024-07-08 |
# 大規模言語モデルはオープンエンディング数学の質問に対するフィードバックを再現できるか?
Can Large Language Models Replicate ITS Feedback on Open-Ended Math Questions? ( http://arxiv.org/abs/2405.06414v2 ) ライセンス: Link先を確認 | Hunter McNichols, Jaewook Lee, Stephen Fancsali, Steve Ritter, Andrew Lan, | (参考訳) Intelligent Tutoring Systems (ITS) は、しばしば自動フィードバックコンポーネントを含み、事前に定義されたエラーを検出すると、学生に事前に定義されたフィードバックメッセージを提供する。
このようなフィードバックコンポーネントでは、テンプレートベースのアプローチを採用しています。
これらのアプローチは、限られた数の学生エラーを検出し、対応するフィードバックを提供するために、人間の専門家による多大な努力を必要とする。
この制限は、多くの異なる誤りがあるようなオープンエンド数学の質問で例示される。
本研究は,テンプレートベースアプローチを用いた確立されたITSの手法と同様,大規模言語モデル(LLM)のオープンエンド数学質問に対するフィードバックを生成する能力について検討する。
我々は,オープンソースのLLMとプロプライエタリなLLMの両方を,実際の学生の反応とそれに対応するITSによるフィードバックに基づいて微調整する。
テキスト類似度指標を用いて,生成したフィードバックの質を測定した。
オープンソースのモデルとプロプライエタリなモデルの両方が、トレーニング中に見たフィードバックを複製する可能性を示していますが、以前は見つからなかった学生のエラーに対して、十分に一般化していません。
これらの結果から,LLMはフィードバックの形式化を学べるが,学生の数学的誤りを十分に理解できないことが示唆された。
Intelligent Tutoring Systems (ITSs) often contain an automated feedback component, which provides a predefined feedback message to students when they detect a predefined error. To such a feedback component, we often resort to template-based approaches. These approaches require significant effort from human experts to detect a limited number of possible student errors and provide corresponding feedback. This limitation is exemplified in open-ended math questions, where there can be a large number of different incorrect errors. In our work, we examine the capabilities of large language models (LLMs) to generate feedback for open-ended math questions, similar to that of an established ITS that uses a template-based approach. We fine-tune both open-source and proprietary LLMs on real student responses and corresponding ITS-provided feedback. We measure the quality of the generated feedback using text similarity metrics. We find that open-source and proprietary models both show promise in replicating the feedback they see during training, but do not generalize well to previously unseen student errors. These results suggest that despite being able to learn the formatting of feedback, LLMs are not able to fully understand mathematical errors made by students. | 翻訳日:2024-07-10 23:21:23 公開日:2024-07-08 |
# 3次元カメラ評価のための衝突回避基準
Collision Avoidance Metric for 3D Camera Evaluation ( http://arxiv.org/abs/2405.09755v2 ) ライセンス: Link先を確認 | Vage Taamazyan, Alberto Dall'olio, Agastya Kalra, | (参考訳) 3Dカメラは、ロボティクスや自動運転の応用のための重要な情報源として登場した。
これらのカメラによって、ロボットは点雲を捉えて利用し、周囲をナビゲートし、他の物体との衝突を避けることができる。
しかしながら、現在の標準的なカメラ評価メトリクスは、特定のアプリケーションコンテキストを考慮していないことが多い。
これらの指標は一般的に、実際のシナリオでは直接的にパフォーマンスに変換されない、チャンファー距離 (CD) やアース・マーバー距離 (EMD) のような尺度に焦点を当てている。
この限界に対処するため, 衝突回避の重要な課題に対する3Dカメラの適合性を評価するために, ポイントクラウド評価のための新しい指標を提案する。
このメトリクスは、アプリケーション固有の考察を取り入れ、安全なロボットナビゲーションを保証するためのカメラの有効性をより正確に測定する。
ソースコードはhttps://github.com/inrinsic-ai/collision-avoidance-metricで公開されている。
3D cameras have emerged as a critical source of information for applications in robotics and autonomous driving. These cameras provide robots with the ability to capture and utilize point clouds, enabling them to navigate their surroundings and avoid collisions with other objects. However, current standard camera evaluation metrics often fail to consider the specific application context. These metrics typically focus on measures like Chamfer distance (CD) or Earth Mover's Distance (EMD), which may not directly translate to performance in real-world scenarios. To address this limitation, we propose a novel metric for point cloud evaluation, specifically designed to assess the suitability of 3D cameras for the critical task of collision avoidance. This metric incorporates application-specific considerations and provides a more accurate measure of a camera's effectiveness in ensuring safe robot navigation. The source code is available at https://github.com/intrinsic-ai/collision-avoidance-metric. | 翻訳日:2024-07-10 23:21:23 公開日:2024-07-08 |
# 期待最大化による観測からの拡散先行学習
Learning Diffusion Priors from Observations by Expectation Maximization ( http://arxiv.org/abs/2405.13712v2 ) ライセンス: Link先を確認 | François Rozet, Gérôme Andry, François Lanusse, Gilles Louppe, | (参考訳) 最近、拡散モデルはベイズ逆問題に顕著な先行性があることが証明された。
しかしながら、これらのモデルのトレーニングは通常、大量のクリーンデータへのアクセスを必要とする。
本研究では,不完全および雑音のみから拡散モデルを学習するための予測最大化アルゴリズムに基づく新しい手法を提案する。
従来の手法とは異なり,本手法は下流タスクに不可欠である適切な拡散モデルに導かれる。
本研究では,非条件拡散モデルに対する新しい後続サンプリング手法の提案と動機付けを行う。
本手法の有効性を示す実証的証拠を提示する。
Diffusion models recently proved to be remarkable priors for Bayesian inverse problems. However, training these models typically requires access to large amounts of clean data, which could prove difficult in some settings. In this work, we present a novel method based on the expectation-maximization algorithm for training diffusion models from incomplete and noisy observations only. Unlike previous works, our method leads to proper diffusion models, which is crucial for downstream tasks. As part of our method, we propose and motivate a new posterior sampling scheme for unconditional diffusion models. We present empirical evidence supporting the effectiveness of our method. | 翻訳日:2024-07-10 23:11:39 公開日:2024-07-08 |
# アナログデジタル量子シミュレータの熱化と臨界
Thermalization and Criticality on an Analog-Digital Quantum Simulator ( http://arxiv.org/abs/2405.17385v2 ) ライセンス: Link先を確認 | Trond I. Andersen, Nikita Astrakhantsev, Amir H. Karamlou, Julia Berndtsson, Johannes Motruk, Aaron Szasz, Jonathan A. Gross, Alexander Schuckert, Tom Westerhout, Yaxing Zhang, Ebrahim Forati, Dario Rossi, Bryce Kobrin, Agustin Di Paolo, Andrey R. Klots, Ilya Drozdov, Vladislav D. Kurilovich, Andre Petukhov, Lev B. Ioffe, Andreas Elben, Aniket Rath, Vittorio Vitale, Benoit Vermersch, Rajeev Acharya, Laleh Aghababaie Beni, Kyle Anderson, Markus Ansmann, Frank Arute, Kunal Arya, Abraham Asfaw, Juan Atalaya, Brian Ballard, Joseph C. Bardin, Andreas Bengtsson, Alexander Bilmes, Gina Bortoli, Alexandre Bourassa, Jenna Bovaird, Leon Brill, Michael Broughton, David A. Browne, Brett Buchea, Bob B. Buckley, David A. Buell, Tim Burger, Brian Burkett, Nicholas Bushnell, Anthony Cabrera, Juan Campero, Hung-Shen Chang, Zijun Chen, Ben Chiaro, Jahan Claes, Agnetta Y. Cleland, Josh Cogan, Roberto Collins, Paul Conner, William Courtney, Alexander L. Crook, Sayan Das, Dripto M. Debroy, Laura De Lorenzo, Alexander Del Toro Barba, Sean Demura, Paul Donohoe, Andrew Dunsworth, Clint Earle, Alec Eickbusch, Aviv Moshe Elbag, Mahmoud Elzouka, Catherine Erickson, Lara Faoro, Reza Fatemi, Vinicius S. Ferreira, Leslie Flores Burgos, Austin G. Fowler, Brooks Foxen, Suhas Ganjam, Robert Gasca, William Giang, Craig Gidney, Dar Gilboa, Marissa Giustina, Raja Gosula, Alejandro Grajales Dau, Dietrich Graumann, Alex Greene, Steve Habegger, Michael C. Hamilton, Monica Hansen, Matthew P. Harrigan, Sean D. Harrington, Stephen Heslin, Paula Heu, Gordon Hill, Markus R. Hoffmann, Hsin-Yuan Huang, Trent Huang, Ashley Huff, William J. Huggins, Sergei V. Isakov, Evan Jeffrey, Zhang Jiang, Cody Jones, Stephen Jordan, Chaitali Joshi, Pavol Juhas, Dvir Kafri, Hui Kang, Kostyantyn Kechedzhi, Trupti Khaire, Tanuj Khattar, Mostafa Khezri, Mária Kieferová, Seon Kim, Alexei Kitaev, Paul V. Klimov, Alexander N. Korotkov, Fedor Kostritsa, John Mark Kreikebaum, David Landhuis, Brandon W. Langley, Pavel Laptev, Kim-Ming Lau, Loïck Le Guevel, Justin Ledford, Joonho Lee, Kenny Lee, Yuri D. Lensky, Brian J. Lester, Wing Yan Li, Alexander T. Lill, Wayne Liu, William P. Livingston, Aditya Locharla, Daniel Lundahl, Aaron Lunt, Sid Madhuk, Ashley Maloney, Salvatore Mandrà, Leigh S. Martin, Orion Martin, Steven Martin, Cameron Maxfield, Jarrod R. McClean, Matt McEwen, Seneca Meeks, Kevin C. Miao, Amanda Mieszala, Sebastian Molina, Shirin Montazeri, Alexis Morvan, Ramis Movassagh, Charles Neill, Ani Nersisyan, Michael Newman, Anthony Nguyen, Murray Nguyen, Chia-Hung Ni, Murphy Yuezhen Niu, William D. Oliver, Kristoffer Ottosson, Alex Pizzuto, Rebecca Potter, Orion Pritchard, Leonid P. Pryadko, Chris Quintana, Matthew J. Reagor, David M. Rhodes, Gabrielle Roberts, Charles Rocque, Eliott Rosenberg, Nicholas C. Rubin, Negar Saei, Kannan Sankaragomathi, Kevin J. Satzinger, Henry F. Schurkus, Christopher Schuster, Michael J. Shearn, Aaron Shorter, Noah Shutty, Vladimir Shvarts, Volodymyr Sivak, Jindra Skruzny, Spencer Small, W. Clarke Smith, Sofia Springer, George Sterling, Jordan Suchard, Marco Szalay, Alex Sztein, Douglas Thor, Alfredo Torres, M. Mert Torunbalci, Abeer Vaishnav, Sergey Vdovichev, Benjamin Villalonga, Catherine Vollgraff Heidweiller, Steven Waltman, Shannon X. Wang, Theodore White, Kristi Wong, Bryan W. Woo, Cheng Xing, Z. Jamie Yao, Ping Yeh, Bicheng Ying, Juhwan Yoo, Noureldin Yosri, Grayson Young, Adam Zalcman, Ningfeng Zhu, Nicholas Zobrist, Hartmut Neven, Ryan Babbush, Sergio Boixo, Jeremy Hilton, Erik Lucero, Anthony Megrant, Julian Kelly, Yu Chen, Vadim Smelyanskiy, Guifre Vidal, Pedram Roushan, Andreas M. Lauchli, Dmitry A. Abanin, Xiao Mi, | (参考訳) 相互作用粒子が熱平衡にどのように近づくかを理解することは、量子シミュレーターの大きな課題である。
このようなシステムの完全なポテンシャルをこの目標に向けて解き放つには、柔軟な初期状態の準備、正確な時間進化、そして最終状態のキャラクタリゼーションのための広範なプローブが必要である。
本稿では,69個の超伝導量子ビットからなる量子シミュレータについて述べる。
二次元(2次元)XY量子マグネットをエミュレートし,反強磁性初期状態からのランプ後の量子状態の研究に幅広い計測技術を利用する。
古典的Kosterlitz-Thouless相転移のシグネチャと、相関領域の量子的粗さと古典的粗さの相互作用に起因するKibble-Zurekスケーリング予測からの強い偏差を観察する。
この解釈は、可変エネルギー密度を初期状態に注入することで、固有状態熱化仮説(ETH)の効果を研究することができる。
最後に, 対角二量体状態でデジタル的にシステムを作成し, 熱化時のエネルギーと渦の輸送を画像化する。
これらの結果は、超伝導アナログデジタル量子プロセッサの多体スペクトルにおける状態の生成と熱化ダイナミクスの顕在化に対する有効性を確立した。
Understanding how interacting particles approach thermal equilibrium is a major challenge of quantum simulators. Unlocking the full potential of such systems toward this goal requires flexible initial state preparation, precise time evolution, and extensive probes for final state characterization. We present a quantum simulator comprising 69 superconducting qubits which supports both universal quantum gates and high-fidelity analog evolution, with performance beyond the reach of classical simulation in cross-entropy benchmarking experiments. Emulating a two-dimensional (2D) XY quantum magnet, we leverage a wide range of measurement techniques to study quantum states after ramps from an antiferromagnetic initial state. We observe signatures of the classical Kosterlitz-Thouless phase transition, as well as strong deviations from Kibble-Zurek scaling predictions attributed to the interplay between quantum and classical coarsening of the correlated domains. This interpretation is corroborated by injecting variable energy density into the initial state, which enables studying the effects of the eigenstate thermalization hypothesis (ETH) in targeted parts of the eigenspectrum. Finally, we digitally prepare the system in pairwise-entangled dimer states and image the transport of energy and vorticity during thermalization. These results establish the efficacy of superconducting analog-digital quantum processors for preparing states across many-body spectra and unveiling their thermalization dynamics. | 翻訳日:2024-07-10 23:11:39 公開日:2024-07-08 |
# リーダーボード抽出のための最新のLLMの探索
Exploring the Latest LLMs for Leaderboard Extraction ( http://arxiv.org/abs/2406.04383v2 ) ライセンス: Link先を確認 | Salomon Kabongo, Jennifer D'Souza, Sören Auer, | (参考訳) 大規模言語モデル(LLM)の急速な進歩は、AI研究における複雑なタスクを自動化するための新たな道を開いた。
本稿では, LLMs-Mistral 7B, Llama-2, GPT-4-Turbo, GPT-4.o を用いて, 実験的なAI研究論文からリーダボード情報を抽出する方法について検討する。
本稿では,DocTAET (Document Title, Abstract, Experimental Setup, Tabular Information), DocREC (Results, Experiments, and Conclusions), DocFULL (entire document) の3種類のコンテキスト入力について検討する。
研究論文から,これらのモデルの性能(Task,Dataset,Metric,Score)を評価する。
この発見は、各モデルとコンテキストタイプの長所と短所に関する重要な洞察を示し、将来のAI研究自動化のための貴重なガイダンスを提供する。
The rapid advancements in Large Language Models (LLMs) have opened new avenues for automating complex tasks in AI research. This paper investigates the efficacy of different LLMs-Mistral 7B, Llama-2, GPT-4-Turbo and GPT-4.o in extracting leaderboard information from empirical AI research articles. We explore three types of contextual inputs to the models: DocTAET (Document Title, Abstract, Experimental Setup, and Tabular Information), DocREC (Results, Experiments, and Conclusions), and DocFULL (entire document). Our comprehensive study evaluates the performance of these models in generating (Task, Dataset, Metric, Score) quadruples from research papers. The findings reveal significant insights into the strengths and limitations of each model and context type, providing valuable guidance for future AI research automation efforts. | 翻訳日:2024-07-10 23:01:54 公開日:2024-07-08 |
# P3GNN: ソフトウェア定義ネットワークにおけるAPT検出のためのプライバシ保護プロバンスグラフベースモデル
P3GNN: A Privacy-Preserving Provenance Graph-Based Model for APT Detection in Software Defined Networking ( http://arxiv.org/abs/2406.12003v2 ) ライセンス: Link先を確認 | Hedyeh Nazari, Abbas Yazdinejad, Ali Dehghantanha, Fattane Zarrinkalam, Gautam Srivastava, | (参考訳) Software Defined Networking (SDN)は、ネットワーク管理とプログラム可能性に大きな進歩をもたらした。
しかし、この進化はAdvanced Persistent Threats (APTs) の脆弱性も高めており、特にゼロデイエクスプロイト(英語版)に直面した場合、従来の検出方法がしばしば対応できない、洗練された、ステルス的なサイバー攻撃が起きている。
一般的な問題は、協調学習シナリオにおけるデータプライバシの懸念に対処しながら、新たな脅威を検出する既存の戦略が不十分であることだ。
本稿では,P3GNN(プライバシ保存グラフベースグラフニューラルネットワークモデル)を提案する。これはSDN環境で効果的なAPT検出のために,フェデレートラーニング(FL)とグラフ畳み込みネットワーク(GCN)を併用する新しいモデルである。
P3GNNは教師なし学習を利用して、プロファイランスグラフ内の運用パターンを分析し、セキュリティ違反を示す偏差を識別する。
その中核となる機能は、FLと同型暗号化の統合であり、コラボレーティブラーニング時のデータの機密性や整合性を強化している。
このアプローチは、共有学習コンテキストにおけるデータのプライバシに関する重要な課題に対処する。
P3GNNの主なイノベーションは、前兆グラフ内のノードレベルで異常を検出する機能、攻撃軌跡の詳細なビューの提供、セキュリティ解析の強化である。
さらに、教師なし学習能力により、標準的な運用パターンを学習することで、ゼロデイ攻撃を識別できる。
DARPA TCE3データセットを用いた実験的な評価は、P3GNNの例外的な性能を示し、精度は0.93、偽陽性率は0.06である。
Software Defined Networking (SDN) has brought significant advancements in network management and programmability. However, this evolution has also heightened vulnerability to Advanced Persistent Threats (APTs), sophisticated and stealthy cyberattacks that traditional detection methods often fail to counter, especially in the face of zero-day exploits. A prevalent issue is the inadequacy of existing strategies to detect novel threats while addressing data privacy concerns in collaborative learning scenarios. This paper presents P3GNN (privacy-preserving provenance graph-based graph neural network model), a novel model that synergizes Federated Learning (FL) with Graph Convolutional Networks (GCN) for effective APT detection in SDN environments. P3GNN utilizes unsupervised learning to analyze operational patterns within provenance graphs, identifying deviations indicative of security breaches. Its core feature is the integration of FL with homomorphic encryption, which fortifies data confidentiality and gradient integrity during collaborative learning. This approach addresses the critical challenge of data privacy in shared learning contexts. Key innovations of P3GNN include its ability to detect anomalies at the node level within provenance graphs, offering a detailed view of attack trajectories and enhancing security analysis. Furthermore, the models unsupervised learning capability enables it to identify zero-day attacks by learning standard operational patterns. Empirical evaluation using the DARPA TCE3 dataset demonstrates P3GNNs exceptional performance, achieving an accuracy of 0.93 and a low false positive rate of 0.06. | 翻訳日:2024-07-10 23:01:54 公開日:2024-07-08 |
# BeHonest: 大規模言語モデルのベンチマーク
BeHonest: Benchmarking Honesty in Large Language Models ( http://arxiv.org/abs/2406.13261v3 ) ライセンス: Link先を確認 | Steffi Chern, Zhulin Hu, Yuqing Yang, Ethan Chern, Yuan Guo, Jiahe Jin, Binjie Wang, Pengfei Liu, | (参考訳) LLM(Large Language Models)に関するこれまでの研究は、主に、その有用性や無害性を評価することに重点を置いてきた。
しかし、もう1つの重要なアライメント基準である正直さは、比較的注目を集めていない。
LLMにおける不名誉な行動、例えば誤報の拡散やユーザを侵害する行為は、これらのモデルが超知能レベルに近づくにつれ、深刻なリスクを増大させる。
LLMにおける誠実さの強化は、重要な制限に対処し、容易に表現できない潜在能力を明らかにするのに役立つ。
このことは、LCMの誠実さを効果的に保証し評価するために、信頼性の高い方法やベンチマークが緊急に必要であることを示している。
本稿では,LLMにおける誠実さを総合的に評価するための先駆的ベンチマークであるBeHonestを紹介する。
BeHonest氏は、知識境界の認識、偽造の回避、応答の一貫性の3つの重要な側面を評価している。
この基盤に基づいて、我々は、さまざまなモデルサイズを持つ異なるモデルファミリのクローズドソースモデルとオープンソースモデルを含む、市場で人気のある9つのLCMを評価し、分析するための10のシナリオを設計した。
以上の結果から,LSMの正直性には改善の余地がまだ残っていることが示唆された。
私たちは、AIコミュニティに対して、これらのモデルにおける誠実な整合性を優先することを推奨します。
ベンチマークとコードは以下の通りです。
Previous works on Large Language Models (LLMs) have mainly focused on evaluating their helpfulness or harmlessness. However, honesty, another crucial alignment criterion, has received relatively less attention. Dishonest behaviors in LLMs, such as spreading misinformation and defrauding users, present severe risks that intensify as these models approach superintelligent levels. Enhancing honesty in LLMs addresses critical limitations and helps uncover latent capabilities that are not readily expressed. This underscores the urgent need for reliable methods and benchmarks to effectively ensure and evaluate the honesty of LLMs. In this paper, we introduce BeHonest, a pioneering benchmark specifically designed to assess honesty in LLMs comprehensively. BeHonest evaluates three essential aspects of honesty: awareness of knowledge boundaries, avoidance of deceit, and consistency in responses. Building on this foundation, we designed 10 scenarios to evaluate and analyze 9 popular LLMs on the market, including both closed-source and open-source models from different model families with varied model sizes. Our findings indicate that there is still significant room for improvement in the honesty of LLMs. We encourage the AI community to prioritize honesty alignment in these models, which can harness their full potential to benefit society while preventing them from causing harm through deception or inconsistency. Our benchmark and code can be found at: \url{https://github.com/GAIR-NLP/BeHonest}. | 翻訳日:2024-07-10 23:01:54 公開日:2024-07-08 |
# 合成キャプションによるテキスト・ツー・オーディオモデルの改良
Improving Text-To-Audio Models with Synthetic Captions ( http://arxiv.org/abs/2406.15487v2 ) ライセンス: Link先を確認 | Zhifeng Kong, Sang-gil Lee, Deepanway Ghosal, Navonil Majumder, Ambuj Mehrish, Rafael Valle, Soujanya Poria, Bryan Catanzaro, | (参考訳) テキスト音声モデルの高品質なトレーニングデータ、特にキャプションを得ることは、オープンな課題である。
従来の手法では、字幕を拡張・改善するためにtextit{text-only language model} を使用していたが、音声と字幕のスケールとコヒーレンスに関連する制限がある。
そこで本研究では,音声の精度と多種多様なキャプションを大規模に合成するために,‘textit{audio language model} を用いた音声キャプションパイプラインを提案する。
このパイプラインを利用してAudioSetの合成キャプションのデータセットを作成し、これらの合成キャプション上でのテキスト音声モデルの事前学習の利点を評価する。
AudioCapsとMusicCapsの体系的な評価により、パイプラインと合成キャプションを活用することで、オーディオ生成の品質が大幅に向上し、新しい‘textit{state-of-the-art}’が実現された。
It is an open challenge to obtain high quality training data, especially captions, for text-to-audio models. Although prior methods have leveraged \textit{text-only language models} to augment and improve captions, such methods have limitations related to scale and coherence between audio and captions. In this work, we propose an audio captioning pipeline that uses an \textit{audio language model} to synthesize accurate and diverse captions for audio at scale. We leverage this pipeline to produce a dataset of synthetic captions for AudioSet, named \texttt{AF-AudioSet}, and then evaluate the benefit of pre-training text-to-audio models on these synthetic captions. Through systematic evaluations on AudioCaps and MusicCaps, we find leveraging our pipeline and synthetic captions leads to significant improvements on audio generation quality, achieving a new \textit{state-of-the-art}. | 翻訳日:2024-07-10 22:52:10 公開日:2024-07-08 |
# 解析的リアプノフ関数発見のためのニューラルネットワークとシンボリック回帰の組み合わせ
Combining Neural Networks and Symbolic Regression for Analytical Lyapunov Function Discovery ( http://arxiv.org/abs/2406.15675v2 ) ライセンス: Link先を確認 | Jie Feng, Haohan Zou, Yuanyuan Shi, | (参考訳) 非線形力学系に対する解析的リアプノフ関数を構成するために,CoNSAL (Combining Neural Network and Symbolic regression for Analytical Lyapunov function)を提案する。
このフレームワークは、ニューラルネットワークを精密な分析形式に蒸留するためにシンボリックレグレッションを適用する、ニューラルリアプノフ関数とシンボリックレグレッション成分を含む。
本手法は, 記号回帰を翻訳の道具としてだけでなく, 反例を明らかにする手段としても活用する。
この手順は、解析的定式化において反例が見つからない場合に終了する。
従来の結果と比較すると,本アルゴリズムは学習過程と最終結果の両方において,解釈性が改善されたリアプノフ関数の解析形式を直接生成する。
本稿では,2次元逆振子,経路追従,Van Der Pol Oscillator,3次元トリグダイナミクス,4次元回転輪振子,6次元3バスパワーシステムに適用し,本アルゴリズムが有効なリアプノフ関数の発見に成功したことを示す。
We propose CoNSAL (Combining Neural networks and Symbolic regression for Analytical Lyapunov function) to construct analytical Lyapunov functions for nonlinear dynamic systems. This framework contains a neural Lyapunov function and a symbolic regression component, where symbolic regression is applied to distill the neural network to precise analytical forms. Our approach utilizes symbolic regression not only as a tool for translation but also as a means to uncover counterexamples. This procedure terminates when no counterexamples are found in the analytical formulation. Compared with previous results, our algorithm directly produces an analytical form of the Lyapunov function with improved interpretability in both the learning process and the final results. We apply our algorithm to 2-D inverted pendulum, path following, Van Der Pol Oscillator, 3-D trig dynamics, 4-D rotating wheel pendulum, 6-D 3-bus power system, and demonstrate that our algorithm successfully finds their valid Lyapunov functions. | 翻訳日:2024-07-10 22:52:10 公開日:2024-07-08 |
# 量子臨界点を越えたエクササイズゼロと熱場ダイナミクス
Exact Fisher zeros and thermofield dynamics across a quantum critical point ( http://arxiv.org/abs/2406.18981v2 ) ライセンス: Link先を確認 | Yang Liu, Songtai Lv, Yuchen Meng, Zefan Tan, Erhai Zhao, Haiyuan Zou, | (参考訳) 複素平面を占有するために逆温度 $\beta$ を緩く設定することで、マイケル・フィッシャーは複素分割関数 $Z$ の零点が実の $\beta$ 軸に近づくと熱力学的相転移が現れることを示した。
最近では、フィッシャーゼロはクエンチ力学の動的相転移を示すために用いられる。
しかし、フィッシャーゼロの成功は限られているように思われるが、量子相転移や開量子系の非単位力学に光を放つためにどのように使用できるのかは定かではない。
ここでは、(解析的に継続した)一次元逆場イジングモデルの包括的解析により、この問題に答える。
すべてのフィッシャー零点を消耗し、熱力学の極限において、それらが連続開線あるいは閉線の形で驚くほど単純なパターンに集まることを示す。
これらのフィッシャー線は結合定数が調整されるにつれて滑らかに進化し、定性的変化によって量子臨界点が特定される。
Z$と熱場二重状態の接続を利用して、生存振幅の短時間および長時間のダイナミクスと量子臨界点における繰り返し時間のスケーリングに関する解析式を得る。
さらに、Z$は監視された量子回路で実現し、探索することができると指摘する。
解析結果は、ここで概説したアプローチを高める数値テンソル再正規化群によって、量子システムと相互作用する強力なツールに裏付けられる。
By setting the inverse temperature $\beta$ loose to occupy the complex plane, Michael E. Fisher showed that the zeros of the complex partition function $Z$, if approaching the real $\beta$ axis, reveal a thermodynamic phase transition. More recently, Fisher zeros have been used to mark the dynamical phase transition in quench dynamics. The success of Fisher zeros however seems limited, and it is unclear how they can be employed to shed light on quantum phase transitions or the non-unitary dynamics of open quantum systems. Here we answer this question by a comprehensive analysis of the (analytically continued) one-dimensional transverse field Ising model. We exhaust all the Fisher zeros to show that in the thermodynamic limit they congregate into a remarkably simple pattern in the form of continuous open or closed lines. These Fisher lines evolve smoothly as the coupling constant is tuned, and a qualitative change identifies the quantum critical point. By exploiting the connection between $Z$ and the thermofield double states, we obtain analytical expressions for the short- and long-time dynamics of the survival amplitude and the scaling of recurrence time at the quantum critical point. We further point out $Z$ can be realized and probed in monitored quantum circuits. The analytical results are corroborated by numerical tensor renormalization group which elevates the approach outlined here to a powerful tool for interacting quantum systems. | 翻訳日:2024-07-10 22:52:10 公開日:2024-07-08 |
# SD-BLS:無リンクの閾値取り消しによる検証可能なクレデンシャルの選択的開示を保存するプライバシー保護
SD-BLS: Privacy Preserving Selective Disclosure of Verifiable Credentials with Unlinkable Threshold Revocation ( http://arxiv.org/abs/2406.19035v3 ) ライセンス: Link先を確認 | Denis Roio, Rebecca Selvaggini, Gabriele Bellini, Andrea D'Intino, | (参考訳) デジタルIDシステムにおける発行者の汚職からのプライバシーと保護の確保が不可欠である。
本稿では,第2次楕円曲線とBoneh-Lynn-Shacham(BLS)署名を用いたディジタル認証情報の選択的開示とプライバシ保護のための手法を提案する。
保持者は、選択された資格証明書を開示することなく、その証明を提示できるようにし、その提示をリプレイ攻撃から保護する。
取り消しは、公開検証された秘密共有(PVSS)を使用して複数の取り消し発行者間で配布され、設定可能なコンセンサスによってのみ起動され、発行者腐敗に対する堅牢な保護が保証される。
システムのユニークな設計は、大規模なリユースリストであっても、非常に高速なリユースチェックを可能にし、最適化されたハッシュマップのルックアップを活用する。
Ensuring privacy and protection from issuer corruption in digital identity systems is crucial. We propose a method for selective disclosure and privacy-preserving revocation of digital credentials using second-order Elliptic Curves and Boneh-Lynn-Shacham (BLS) signatures. We make holders able to present proofs of possession of selected credentials without disclosing them, and we protect their presentations from replay attacks. Revocations may be distributed among multiple revocation issuers using publicly verifiable secret sharing (PVSS) and activated only by configurable consensus, ensuring robust protection against issuer corruption. Our system's unique design enables extremely fast revocation checks, even with large revocation lists, leveraging optimized hash map lookups. | 翻訳日:2024-07-10 22:52:10 公開日:2024-07-08 |
# 目標達成強化学習のためのスパース・リワードの再検討
Revisiting Sparse Rewards for Goal-Reaching Reinforcement Learning ( http://arxiv.org/abs/2407.00324v2 ) ライセンス: Link先を確認 | Gautham Vasan, Yan Wang, Fahim Shahriar, James Bergstra, Martin Jagersand, A. Rupam Mahmood, | (参考訳) 多くの現実のロボット学習問題、例えばピック・アンド・プレイスや目的地への到着は、できるだけ早くゴール状態に達する問題と見なすことができる。
これらの問題は、エピソジック強化学習タスクとして定式化されると、目的とする目標と整合するように容易に特定できる。
このような単純さにもかかわらず、そのような定式化は、しばしばその困難さと情報提供性の欠如により、密集した報酬を優先して見過ごされる。
我々の研究は2つの報酬パラダイムとは対照的に、最小時のタスク仕様は、高品質なポリシーの学習を促進するだけでなく、自身のパフォーマンス指標における厳密なリワードベースのポリシーを超越する可能性があることを明らかにしている。
重要な点として、このような疎いフィードバック設定での成功を学習する上で、初期方針のゴール・ヒット率を堅牢な早期指標とみなす。
最後に, 4つの異なる実ロボティックプラットフォームを用いて, 一定の負の報酬を用いて, ゼロから2~3時間以内に画素ベースのポリシーを学習可能であることを示す。
Many real-world robot learning problems, such as pick-and-place or arriving at a destination, can be seen as a problem of reaching a goal state as soon as possible. These problems, when formulated as episodic reinforcement learning tasks, can easily be specified to align well with our intended goal: -1 reward every time step with termination upon reaching the goal state, called minimum-time tasks. Despite this simplicity, such formulations are often overlooked in favor of dense rewards due to their perceived difficulty and lack of informativeness. Our studies contrast the two reward paradigms, revealing that the minimum-time task specification not only facilitates learning higher-quality policies but can also surpass dense-reward-based policies on their own performance metrics. Crucially, we also identify the goal-hit rate of the initial policy as a robust early indicator for learning success in such sparse feedback settings. Finally, using four distinct real-robotic platforms, we show that it is possible to learn pixel-based policies from scratch within two to three hours using constant negative rewards. | 翻訳日:2024-07-10 22:52:10 公開日:2024-07-08 |
# 絶望を伴わない比較:世代分離性を考慮した信頼性の高い選好評価
Compare without Despair: Reliable Preference Evaluation with Generation Separability ( http://arxiv.org/abs/2407.01878v2 ) ライセンス: Link先を確認 | Sayan Ghosh, Tejas Srinivasan, Swabha Swayamdipta, | (参考訳) 一対の選好判断による生成言語の人間による評価は広範に行われている。
しかし、モデルペアから世代が非常に近い場合や、確率的復号化が世代の大きなバリエーションをもたらす場合など、一般的なシナリオでは、一貫性のない選好格付けが生じる。
テストインスタンスがペアの選好評価にどの程度適しているかを推定するメタ評価尺度であるセパビリティを導入することで、これらの課題に対処する。
候補テストインスタンスでは、セパビリティは1組のモデルから複数の世代をサンプリングし、2つの世代がどの程度区別可能であるかを測定する。
実験の結果,高い分離性値を持つインスタンスは,人間と自動レーダの両方からより一貫した選好格付けが得られることがわかった。
さらに、分離可能性の分布は、モデルを比較する上でどのテストベンチマークがより価値があるかについての洞察を可能にする。
最後に、各テストインスタンスがLLMを確実にランク付けするのにどの程度適しているかを考慮し、分離性をELO評価に組み込む。
全体として、分離性は、人間とオートレーダの両方によるLCMの一貫性、効率的、堅牢な選好評価に影響を及ぼす。
Human evaluation of generated language through pairwise preference judgments is pervasive. However, under common scenarios, such as when generations from a model pair are very similar, or when stochastic decoding results in large variations in generations, it results in inconsistent preference ratings. We address these challenges by introducing a meta-evaluation measure, separability, which estimates how suitable a test instance is for pairwise preference evaluation. For a candidate test instance, separability samples multiple generations from a pair of models, and measures how distinguishable the two sets of generations are. Our experiments show that instances with high separability values yield more consistent preference ratings from both human- and auto-raters. Further, the distribution of separability allows insights into which test benchmarks are more valuable for comparing models. Finally, we incorporate separability into ELO ratings, accounting for how suitable each test instance might be for reliably ranking LLMs. Overall, separability has implications for consistent, efficient and robust preference evaluation of LLMs with both human- and auto-raters. | 翻訳日:2024-07-10 22:42:25 公開日:2024-07-08 |
# 因果推論レンズによる新しいユーザイベント予測
New User Event Prediction Through the Lens of Causal Inference ( http://arxiv.org/abs/2407.05625v1 ) ライセンス: Link先を確認 | Henry Shaowu Yuchi, Shixiang Zhu, | (参考訳) 多様な行動パターンを持つ異種ユーザによるイベントシリーズのモデリングと分析は、クレジットカード不正検出、オンラインプラットフォームユーザの推薦、ソーシャルネットワーク分析など、私たちの日常生活に深く関わっている。
このタスクで最も一般的に採用されているアプローチは、ユーザーを行動に基づくカテゴリに分類し、それぞれを別々に分析することである。
しかし,この手法ではユーザ行動を完全に理解するために広範囲なデータが必要であり,履歴のない新参者をモデル化する上での課題が提示される。
本稿では,因果推論のレンズを用いた新しいユーザのための離散イベント予測フレームワークを提案する。
提案手法は,カテゴリを知る必要のない新規ユーザに対して,バイアスのない予測を提供する。
ユーザイベント履歴を将来のイベントの'処理'として扱い、ユーザカテゴリを重要な共同創設者として扱います。
これにより、予測問題は、その逆の確率スコアによって各イベントが再重み付けされる調整データセット上でトレーニングされた新しいユーザモデルにより、対実結果推定とみなすことができる。
提案フレームワークの優れた性能を数値シミュレーション研究と,Amazonにおける顧客支援のためのNetflixレーティング予測と販売者接触予測を含む実世界の2つのアプリケーションで実証した。
Modeling and analysis for event series generated by heterogeneous users of various behavioral patterns are closely involved in our daily lives, including credit card fraud detection, online platform user recommendation, and social network analysis. The most commonly adopted approach to this task is to classify users into behavior-based categories and analyze each of them separately. However, this approach requires extensive data to fully understand user behavior, presenting challenges in modeling newcomers without historical knowledge. In this paper, we propose a novel discrete event prediction framework for new users through the lens of causal inference. Our method offers an unbiased prediction for new users without needing to know their categories. We treat the user event history as the ''treatment'' for future events and the user category as the key confounder. Thus, the prediction problem can be framed as counterfactual outcome estimation, with the new user model trained on an adjusted dataset where each event is re-weighted by its inverse propensity score. We demonstrate the superior performance of the proposed framework with a numerical simulation study and two real-world applications, including Netflix rating prediction and seller contact prediction for customer support at Amazon. | 翻訳日:2024-07-10 22:32:40 公開日:2024-07-08 |
# 大規模スペクトルヌーディングによる数値気象予測技術向上のためのデータ駆動気象モデルの導入
Leveraging data-driven weather models for improving numerical weather prediction skill through large-scale spectral nudging ( http://arxiv.org/abs/2407.06100v1 ) ライセンス: Link先を確認 | Syed Zahid Husain, Leo Separovic, Jean-François Caron, Rabah Aider, Mark Buehner, Stéphane Chamberland, Ervig Lapalme, Ron McTaggart-Cowan, Christopher Subich, Paul Vaillancourt, Jing Yang, Ayrton Zadra, | (参考訳) 運用気象予報は物理学に基づく数値気象予報(NWP)モデルに依存してきた。
近年,データ駆動型人工知能(AI)ベースの気象モデルが出現し,計算性能と競争予測能力が飛躍的に向上した。
しかし、中距離予測のためのデータ駆動モデルは一般的に、低い有効解像度や予測変数の狭い範囲を含む大きな制限に悩まされる。
本研究は、GEM(Global Environmental Multiscale)モデルとGraphCastモデルを用いて、これらの競合するパラダイムの相対的な強みと弱みを示し、それぞれ物理ベースのアプローチとAIベースのアプローチを示す。
物理空間とスペクトル空間の両方における観測と解析に対する2つのモデルからのグローバルな予測を解析することにより、グラフCast予測による大規模予測が、特に長いリード時間においてGEMより優れていることを示す。
この知見に基づくハイブリッドNWP-AIシステムを提案し,GEM予測された大規模状態変数をGraphCast予測に対してスペクトル的に評価し,GEMが気象極端に重要な細部を自由に生成できるようにする。
その結果,このハイブリッド手法は,GEMモデルの予測能力を高めるために,GraphCastの強みを活用できることが示唆された。
重要なことは、トロピカルサイクロンの軌道は、強度に大きな変化を伴わずに精度を上げて予測される。
さらに、この新しいハイブリッドシステムにより、気象学者は、高影響の気象イベントに関連するものを含む、予測変数の完全なセットにアクセスできるようになる。
Operational meteorological forecasting has long relied on physics-based numerical weather prediction (NWP) models. Recently, this landscape has been disrupted by the advent of data-driven artificial intelligence (AI)-based weather models, which offer tremendous computational performance and competitive forecasting skill. However, data-driven models for medium-range forecasting generally suffer from major limitations, including low effective resolution and a narrow range of predicted variables. This study illustrates the relative strengths and weaknesses of these competing paradigms using the GEM (Global Environmental Multiscale) and GraphCast models to represent physics-based and AI-based approaches, respectively. By analyzing global predictions from these two models against observations and analyses in both physical and spectral spaces, this study demonstrates that GraphCast-predicted large scales outperform GEM, particularly for longer lead times. Building on this insight, a hybrid NWP-AI system is proposed, wherein GEM-predicted large-scale state variables are spectrally nudged toward GraphCast predictions, while allowing GEM to freely generate fine-scale details critical for weather extremes. Results indicate that this hybrid approach is capable of leveraging the strengths of GraphCast to enhance the prediction skill of the GEM model. Importantly, trajectories of tropical cyclones are predicted with enhanced accuracy without significant changes in intensity. Furthermore, this new hybrid system ensures that meteorologists have access to a complete set of forecast variables, including those relevant for high-impact weather events. | 翻訳日:2024-07-10 22:32:40 公開日:2024-07-08 |
# ORAN-Bench-13K: オープン無線アクセスネットワークにおけるLLMの評価のためのオープンソースベンチマーク
ORAN-Bench-13K: An Open Source Benchmark for Assessing LLMs in Open Radio Access Networks ( http://arxiv.org/abs/2407.06245v1 ) ライセンス: Link先を確認 | Pranshav Gajjar, Vijay K. Shah, | (参考訳) 大規模言語モデル(LLM)は、ネットワーク分析、異常検出、コード生成を強化し、多数のO-RANタスクの効率と信頼性を大幅に向上することで、Open Radio Access Networks(O-RAN)の展開と運用方法に革命をもたらすことができます。
本稿では,O-RANの文脈内でのLarge Language Models(LLM)の性能を評価するために設計された,最初の総合ベンチマークであるORAN-Bench-13Kを提案する。
ベンチマークは,O-RAN仕様文書116件から得られた13,952件からなる。
我々は,新しい3段階LLMフレームワークを活用し,ORAN関連の知識を幅広く網羅する3つの難問に分類する。
我々は、Gemini、Chat-GPT、Mistralなど、最先端のLLMの性能を徹底的に評価した。
さらに,ORAN-Bench-13Kにおいて,他のクローズドソースモデルと比較して優れた性能を示すRAG(Retrieval-Augmented Generation)ベースのパイプラインであるORANSightを提案する。
以上の結果から,現在のLLMモデルはO-RANに精通していないことが示唆され,特殊なモデルの必要性が浮き彫りになっている。
我々はRAGをベースとしたORANSightパイプラインをマクロ精度0.784、重量精度0.776で組み込んだ場合の顕著な性能改善を観察した。
Large Language Models (LLMs) can revolutionize how we deploy and operate Open Radio Access Networks (O-RAN) by enhancing network analytics, anomaly detection, and code generation and significantly increasing the efficiency and reliability of a plethora of O-RAN tasks. In this paper, we present ORAN-Bench-13K, the first comprehensive benchmark designed to evaluate the performance of Large Language Models (LLMs) within the context of O-RAN. Our benchmark consists of 13,952 meticulously curated multiple-choice questions generated from 116 O-RAN specification documents. We leverage a novel three-stage LLM framework, and the questions are categorized into three distinct difficulties to cover a wide spectrum of ORAN-related knowledge. We thoroughly evaluate the performance of several state-of-the-art LLMs, including Gemini, Chat-GPT, and Mistral. Additionally, we propose ORANSight, a Retrieval-Augmented Generation (RAG)-based pipeline that demonstrates superior performance on ORAN-Bench-13K compared to other tested closed-source models. Our findings indicate that current popular LLM models are not proficient in O-RAN, highlighting the need for specialized models. We observed a noticeable performance improvement when incorporating the RAG-based ORANSight pipeline, with a Macro Accuracy of 0.784 and a Weighted Accuracy of 0.776, which was on average 21.55% and 22.59% better than the other tested LLMs. | 翻訳日:2024-07-10 22:22:56 公開日:2024-07-08 |
# セマンティックビデオオブジェクトセグメンテーションの提案からのコンテキスト伝搬
Context Propagation from Proposals for Semantic Video Object Segmentation ( http://arxiv.org/abs/2407.06247v1 ) ライセンス: Link先を確認 | Tinghuai Wang, | (参考訳) 本稿では,セマンティックオブジェクトセグメンテーションのためのビデオにおける意味的文脈関係を学習するための新しいアプローチを提案する。
本アルゴリズムは,オブジェクトの重要進化と時空間上のオブジェクト間の関係をエンコードするビデオオブジェクトの提案から,セマンティックコンテキストを導出する。
このセマンティックコンテキストはビデオ中に伝播され、一対のポテンシャルの形で条件付きランダムフィールドに統合され、スーパーピクセルごとのセマンティックラベルを推測する全ての局所的なスーパーピクセル間のペアワイズコンテキストを推定する。
実験により, 文脈学習と伝播モデルにより, セマンティックビデオオブジェクトのセグメンテーションにおける視覚的曖昧性を, 最先端の手法と比較して効果的に改善できることが示された。
In this paper, we propose a novel approach to learning semantic contextual relationships in videos for semantic object segmentation. Our algorithm derives the semantic contexts from video object proposals which encode the key evolution of objects and the relationship among objects over the spatio-temporal domain. This semantic contexts are propagated across the video to estimate the pairwise contexts between all pairs of local superpixels which are integrated into a conditional random field in the form of pairwise potentials and infers the per-superpixel semantic labels. The experiments demonstrate that our contexts learning and propagation model effectively improves the robustness of resolving visual ambiguities in semantic video object segmentation compared with the state-of-the-art methods. | 翻訳日:2024-07-10 22:22:56 公開日:2024-07-08 |
# CodeUpdateArena: APIアップデートに関する知識のベンチマーク
CodeUpdateArena: Benchmarking Knowledge Editing on API Updates ( http://arxiv.org/abs/2407.06249v1 ) ライセンス: Link先を確認 | Zeyu Leo Liu, Shrey Pandit, Xi Ye, Eunsol Choi, Greg Durrett, | (参考訳) 大規模な言語モデル(LLM)は、ソースコードの合成と推論にますます使われている。
しかし、これらのモデルの知識の静的な性質は、それらが呼び出すライブラリやAPI関数が継続的に進化しているという事実を反映していない。
多くのベンチマークでは、LLMがコードを生成する方法が評価されているが、LLMのコードAPI機能に関する知識がどのように更新されるかについて、事前の研究は行われていない。
このギャップを埋めるために、コードドメインの知識編集のためのベンチマークであるCodeUpdateArenaを紹介します。
私たちのベンチマークのインスタンスは、更新された機能を使用するプログラム合成例と組み合わせた合成API関数のアップデートで構成されています。
テキストでエンコードされた事実の知識編集と比較すると、成功はもっと難しい。コードLLMは、単に構文を再現するのではなく、修正された関数のセマンティクスを正しく推論しなければならない。
我々のデータセットは、まず、GPT-4にアトミックかつ実行可能な関数更新を生成するよう促すことで構築される。
そして、更新毎に、コードソリューションが更新を利用する傾向にあるプログラム合成例を生成します。
ベンチマークでは、7つのPythonパッケージから54の関数に、合計670のプログラム合成例を更新する。
我々の実験によると、オープンソースのLLM(DeepSeek、CodeLlama)へのアップデートの事前資料は、問題解決のための変更を組み込むことができず、既存の知識編集技術にも改善の余地があることが示されている。
我々のベンチマークは、コードLLMの知識更新のための新しいメソッドを刺激することを期待しています。
Large language models (LLMs) are increasingly being used to synthesize and reason about source code. However, the static nature of these models' knowledge does not reflect the fact that libraries and API functions they invoke are continuously evolving, with functionality being added or changing. While numerous benchmarks evaluate how LLMs can generate code, no prior work has studied how an LLMs' knowledge about code API functions can be updated. To fill this gap, we present CodeUpdateArena, a benchmark for knowledge editing in the code domain. An instance in our benchmark consists of a synthetic API function update paired with a program synthesis example that uses the updated functionality; our goal is to update an LLM to be able to solve this program synthesis example without providing documentation of the update at inference time. Compared to knowledge editing for facts encoded in text, success here is more challenging: a code LLM must correctly reason about the semantics of the modified function rather than just reproduce its syntax. Our dataset is constructed by first prompting GPT-4 to generate atomic and executable function updates. Then, for each update, we generate program synthesis examples whose code solutions are prone to use the update. Our benchmark covers updates of various types to 54 functions from seven diverse Python packages, with a total of 670 program synthesis examples. Our experiments show that prepending documentation of the update to open-source code LLMs (i.e., DeepSeek, CodeLlama) does not allow them to incorporate changes for problem solving, and existing knowledge editing techniques also have substantial room for improvement. We hope our benchmark will inspire new methods for knowledge updating in code LLMs. | 翻訳日:2024-07-10 22:22:56 公開日:2024-07-08 |
# FairDiff:ポイントイメージ拡散による公平なセグメンテーション
FairDiff: Fair Segmentation with Point-Image Diffusion ( http://arxiv.org/abs/2407.06250v1 ) ライセンス: Link先を確認 | Wenyi Li, Haoran Xu, Guiyu Zhang, Huan-ang Gao, Mingju Gao, Mengyu Wang, Hao Zhao, | (参考訳) フェアネスは医療画像分析において重要なトピックであり、多様なターゲットグループ間の非バランスなトレーニングデータの課題と、平等な医療品質に対する社会的要求によって引き起こされる。
この問題に対して,本研究では,合成画像の統合によるデータ駆動型戦略強調データバランスを採用した。
しかし、合成画像を生成するという点では、以前の作品にはペアラベルが欠けていたり、それらのラベルと整合する合成画像の境界を正確に制御できなかったりしていた。
これを解決するために,3つのネットワークを実験的リスク最小化と公正度最大化の目標に向けて最適化する,共同最適化方式で問題を定式化する。
実装面では、3次元の点雲を利用した点マスク画像合成パイプラインによるマスク境界の制御を改良した点画像拡散アーキテクチャを特徴とする。
本手法は, 走査型レーザー眼底鏡(SLO)画像の合成において, 既存の技術よりも優れていた。
提案手法を用いて, 学習段階における合成データと実データを組み合わせることにより, 最先端のフェアネス学習モデルと比較して, より優れたフェアネスセグメンテーション性能を実現する。
コードはhttps://github.com/wenyi-li/FairDiff.comで入手できる。
Fairness is an important topic for medical image analysis, driven by the challenge of unbalanced training data among diverse target groups and the societal demand for equitable medical quality. In response to this issue, our research adopts a data-driven strategy-enhancing data balance by integrating synthetic images. However, in terms of generating synthetic images, previous works either lack paired labels or fail to precisely control the boundaries of synthetic images to be aligned with those labels. To address this, we formulate the problem in a joint optimization manner, in which three networks are optimized towards the goal of empirical risk minimization and fairness maximization. On the implementation side, our solution features an innovative Point-Image Diffusion architecture, which leverages 3D point clouds for improved control over mask boundaries through a point-mask-image synthesis pipeline. This method outperforms significantly existing techniques in synthesizing scanning laser ophthalmoscopy (SLO) fundus images. By combining synthetic data with real data during the training phase using a proposed Equal Scale approach, our model achieves superior fairness segmentation performance compared to the state-of-the-art fairness learning models. Code is available at https://github.com/wenyi-li/FairDiff. | 翻訳日:2024-07-10 22:22:56 公開日:2024-07-08 |
# 相互作用する準周期鎖における固有状態状態間の相互独立性検出のための教師なし機械学習
Unsupervised machine learning for detecting mutual independence among eigenstate regimes in interacting quasiperiodic chains ( http://arxiv.org/abs/2407.06253v1 ) ライセンス: Link先を確認 | Colin Beveridge, Cassio Rodrigo Cristani, Xiao Li, Enrico Barbierato, Yi-Ting Hsu, | (参考訳) 熱的でも多体局在的でもない多体固有状態(MBL)は、適度な準周期ポテンシャルを持つ相互作用鎖で数値的に発見された。
これらの非エルゴードの固有状態(NEE)からなるエネルギー状態は、エネルギー分解されたMBLと熱相の間の多体移動エッジとして広く研究されている。
近年、NEE体制はさらに、異なる演算子が異なる時間スケールで拡散した場合に一般的に起こる前温現象であると提案されている。
ここでは, 固有状態エンタングルメントスペクトル(ES)のレンズにおけるNEE, MBL, および熱状態間の相互独立性を数値的に検討する。
ESに埋め込まれた複雑さと豊富な情報を考慮し,一般相間の相互独立性を定量化するための教師なし学習手法を開発した。
提案手法はまず,RGB色データを用いて位相を表現し,弱いポテンシャル強度から強いポテンシャル強度の一般オーブリーアンドレモデルのESに適用する。
MBLとサーマルレジームは相互に独立しているが,NEEレジームは従来の2つに依存しており,ポテンシャル強度が低下するにつれて円滑に現れる。
我々の数値的な発見は、NEE体制におけるESデータが、MBLのような高速崩壊と熱のような長い尾の両方を示すという事実に起因している。
Many-body eigenstates that are neither thermal nor many-body-localized (MBL) were numerically found in certain interacting chains with moderate quasiperiodic potentials. The energy regime consisting of these non-ergodic but extended (NEE) eigenstates has been extensively studied for being a possible many-body mobility edge between the energy-resolved MBL and thermal phases. Recently, the NEE regime was further proposed to be a prethermal phenomenon that generally occurs when different operators spread at sizably different timescales. Here, we numerically examine the mutual independence among the NEE, MBL, and thermal regimes in the lens of eigenstate entanglement spectra (ES). Given the complexity and rich information embedded in ES, we develop an unsupervised learning approach that is designed to quantify the mutual independence among general phases. Our method is first demonstrated on an illustrative toy example that uses RGB color data to represent phases, then applied to the ES of an interacting generalized Aubry Andre model from weak to strong potential strength. We find that while the MBL and thermal regimes are mutually independent, the NEE regime is dependent on the former two and smoothly appears as the potential strength decreases. We attribute our numerically finding to the fact that the ES data in the NEE regime exhibits both an MBL-like fast decay and a thermal-like long tail. | 翻訳日:2024-07-10 22:13:06 公開日:2024-07-08 |
# ウィグナーの友人シナリオ--条件と予測の検証方法について
Wigner's friend scenarios: on what to condition and how to verify the predictions ( http://arxiv.org/abs/2407.06279v1 ) ライセンス: Link先を確認 | Flavio Del Santo, Gonzalo Manzano, Caslav Brukner, | (参考訳) ウィグナーの友人の実験とその現代的な拡張は、量子状態の割り当てに関する量子力学的記述の曖昧さを示している。
友人が量子システムで測定結果を見る際に状態更新規則を適用する一方で、ウィグナーは友人の計測を一元的進化と表現し、友人とシステムの複合システムに対して絡み合った状態となる。
この点で、ウィグナーは友人の研究室の一貫性を維持する最高の技術的能力を持つ「スーパーオブザーバー」と呼ばれることが多い。
そのため、彼は国家の「正しい」記述を持っているとしばしば主張される。
ここでは、状況は一般的に考えられているよりも対称的であることを示す: 観測者それぞれが、根本的には、他の観測者が持つことができない情報の種類が、異なる「バブル」に居住している(カルバルカンティの用語では)。
このことは、状態割当の客観性がバブルに対してのみ相対的である理由を説明することができるが、プレイヤーがバブルを切り替えることができるゲームという形で、より精巧な状況を考える。
ある状況において、観測者は、原則として利用可能な全ての情報に対して予測を条件にした場合、別のバブルからの状態割当を適用、検証する権利があるかもしれない。
Wigner's friend experiment and its modern extensions display the ambiguity of the quantum mechanical description regarding the assignment of quantum states. While the friend applies the state-update rule to the system upon observing an outcome of her measurement in a quantum system, Wigner describes the friend's measurement as a unitary evolution, resulting in an entangled state for the composite system of the friend and the system. In this respect, Wigner is often referred to as a "superobserver" who has the supreme technological ability to keep the friend's laboratory coherent. As such, it is often argued that he has the "correct" description of the state. Here we show that the situation is more symmetrical than is usually thought: there are different types of information that each of the observers has that the other fundamentally cannot have - they reside in different "bubbles" (in Calvalcanti's terminology). While this can explain why the objectivity of the state assignment is only relative to the bubble, we consider more elaborated situations in form of a game in which the players can switch between bubbles. We find that, in certain circumstances, observers may be entitled to adopt and verify the state assignment from another bubble if they condition their predictions on all information that is in principle available to them. | 翻訳日:2024-07-10 22:13:05 公開日:2024-07-08 |
# 非エルミートテンソルネットワークカーネル多項式アルゴリズムを用いた多体リウィリア動力学
Many-body Liouvillian dynamics with a non-Hermitian tensor-network kernel polynomial algorithm ( http://arxiv.org/abs/2407.06282v1 ) ライセンス: Link先を確認 | Guangze Chen, Jose L. Lado, Fei Song, | (参考訳) オープン量子多体系の力学を理解することは、量子物質の主要な問題である。
特に、そのような力学を統括するリウヴィリア超作用素のスペクトルを効率的に解くことは、重要なオープンな課題である。
本稿では,非エルミート的カーネル多項式法とテンソルネットワーク技術に基づく多体リウィリアスペクトルと力学の解法を提案する。
本研究では, 量子コンパスモデルの力学を勾配磁場で計算し, 正確な結果と比較することによって, 提案手法の忠実さを実証する。
特に,本手法は,このモデルにおけるスターク局所化による量子Zenoクロスオーバーと緩和率の低減を特徴付けることができることを示す。
さらに, この手法は, リウビリア力学に最も近い隣り合う相互作用効果を探索し, スターク局在化と多体相互作用の相互作用を解明することによって, 正確な結果を超えることができることを示す。
提案手法は多体Liouvillianスペクトルとダイナミックスに対する効率的な解を提供し,大規模オープン量子多体系を探索するための方法論を確立した。
Understanding the dynamics of open quantum many-body systems is a major problem in quantum matter. Specifically, efficiently solving the spectrum of the Liouvillian superoperator governing such dynamics remains a critical open challenge. Here, we put forward a method for solving the many-body Liouvillian spectrum and dynamics based on the non-Hermitian kernel polynomial method and tensor-network techniques. We demonstrate the faithfulness of our method by computing the dynamics of the dephasing quantum compass model with a gradient magnetic field and comparing it with exact results. In particular, we show that our method allows us to characterize the quantum Zeno crossover and the reduction of relaxation rate due to Stark localization in this model. We further demonstrate the ability of our method to go beyond exact results by exploring nearest-neighbor interaction effects on the Liouvillian dynamics, elucidating the interplay between Stark localization and many-body interactions. Our method provides an efficient solution to many-body Liouvillian spectrum and dynamics, establishing a methodology to explore large open quantum many-body systems. | 翻訳日:2024-07-10 22:13:05 公開日:2024-07-08 |
# キラル多モード導波路QEDにおける2レベルエミッタを有するパッシブフォトニックCZゲート
Passive photonic CZ gate with two-level emitters in chiral multi-mode waveguide QED ( http://arxiv.org/abs/2407.06283v1 ) ライセンス: Link先を確認 | Tomás Levy-Yeyati, Carlos Vega, Tomás Ramos, Alejandro González-Tudela, | (参考訳) 単純な資源を持つ工学的決定論的フォトニックゲートは、フォトニック量子コンピューティングにおける長年の課題の1つである。
本稿では,2レベルエミッタのみのアレイを用いて,光子間の受動条件ゲートを設計する。
鍵となるリソースは、エミッタアレイのキラルカップリングによって誘起される効果的な光子-光子相互作用を、エミッタの遷移周波数で異なる共鳴モータを持つ2つの導波路モードに利用することである。
系の多重光子散乱応答を研究することにより、この構成は特定の極限において、スペクトルを歪ませることなく、系のポラリトン固有状態間の非線形な$\pi$-phaseシフトを誘導することを示した。
そして、この非線形位相シフトを利用して、異なる量子ビット符号化における条件付き決定論的フォトニックゲートを設計し、多数のエミッタと結合効率の限界において、任意に1に近い忠実度を持つ方法を示す。
我々の構成は、複数のキラルエッジモードを持つトポロジカルフォトニックプラットフォームに実装でき、量子情報処理に使用することができる。
Engineering deterministic photonic gates with simple resources is one of the long-standing challenges in photonic quantum computing. Here, we design a passive conditional gate between co-propagating photons using an array of only two-level emitters. The key resource is to harness the effective photon-photon interaction induced by the chiral coupling of the emitter array to two waveguide modes with different resonant momenta at the emitter's transition frequency. By studying the system's multi-photon scattering response, we demonstrate that, in certain limits, this configuration induces a non-linear $\pi$-phase shift between the polariton eigenstates of the system without distorting spectrally the wavepackets. Then, we show how to harness this non-linear phase shift to engineer a conditional, deterministic photonic gate in different qubit encodings, with a fidelity arbitrarily close to 1 in the limit of large number of emitters and coupling efficiency. Our configuration can be implemented in topological photonic platforms with multiple chiral edge modes, opening their use for quantum information processing, or in other setups where such chiral multi-mode waveguide scenario can be obtained, e.g., in spin-orbit coupled optical fibers or photonic crystal waveguides. | 翻訳日:2024-07-10 22:13:05 公開日:2024-07-08 |
# 異なるニューラルネットワークアーキテクチャにおける位相構造の解析
Characterization of topological structures in different neural network architectures ( http://arxiv.org/abs/2407.06286v1 ) ライセンス: Link先を確認 | Paweł Świder, | (参考訳) 将来的に最も重要な課題の1つは、ニューラルネットワークで何が起きているのかを理解することだ。
この研究は、TDA法を用いて神経表現を分析することを目的としている。
本研究では,異なるアーキテクチャの表現を解析し,その表現を用いて有効な結果を得る方法を提案する。
その結果,外乱除去は結果に大きな影響を与えず,同じ要素数で表現を比較すべきであることが示唆された。
これらの手法をResNet, VGG19, ViTアーキテクチャに適用し, 類似点と相違点が認められた。
さらに、類似したアーキテクチャを持つモデルは、表現のトポロジを持つ傾向があり、多くのレイヤーを持つモデルは、そのトポロジをよりスムーズに変化させる。
さらに、事前訓練されたモデルと微調整されたモデルのトポロジは、中間層と最終層では相変わらず、初期層では相変わらず類似していることが判明した。
これらの結果は,ニューラルネットワークの挙動解析におけるTDAの有効性を示した。
One of the most crucial tasks in the future will be to understand what is going on in neural networks, as they will become even more powerful and widely deployed. This work aims to use TDA methods to analyze neural representations. We develop methods for analyzing representations from different architectures and check how one should use them to obtain valid results. Our findings indicate that removing outliers does not have much impact on the results and that we should compare representations with the same number of elements. We applied these methods for ResNet, VGG19, and ViT architectures and found substantial differences along with some similarities. Additionally, we determined that models with similar architecture tend to have a similar topology of representations and models with a larger number of layers change their topology more smoothly. Furthermore, we found that the topology of pre-trained and finetuned models starts to differ in the middle and final layers while remaining quite similar in the initial layers. These findings demonstrate the efficacy of TDA in the analysis of neural network behavior. | 翻訳日:2024-07-10 22:13:05 公開日:2024-07-08 |
# 指数関数的に多くのモード上のガウスボソニック回路のゲートベース量子シミュレーション
Gate-based quantum simulation of Gaussian bosonic circuits on exponentially many modes ( http://arxiv.org/abs/2407.06290v1 ) ライセンス: Link先を確認 | Alice Barthe, M. Cerezo, Andrew T. Sornborger, Martin Larocca, Diego García-Martín, | (参考訳) 本稿では,$(n+1)$-qubit量子コンピュータ上で,2^n$モード以上の状態におけるガウスボソニック(GB)回路の動作をシミュレーションするためのフレームワークを提案する。
具体的には、初期ボゾン状態の期待値(およびそれらの共分散行列)を入力量子状態として符号化する。
これはGBゲートによって誘導されるシンプレクティックプロパゲータを効果的に実装する量子回路によって進化する。
我々は、効率的な量子シミュレーションにつながるGB回路と初期状態の族を見つける。
この目的のために、GB と qubit のゲート間の粒子保存 (非粒子保存) GB ゲートをマップする辞書を導入する。
粒子保存回路の特別な場合、BQP完全GB決定問題を示し、指数関数的に多くのモード上でガウス状態のGB進化が普遍量子コンピュータと同じくらい強力であることを示す。
また,$\sim8$ Billionモードで干渉計の数値シミュレーションを行い,フレームワークのパワーを実証した。
We introduce a framework for simulating, on an $(n+1)$-qubit quantum computer, the action of a Gaussian Bosonic (GB) circuit on a state over $2^n$ modes. Specifically, we encode the initial bosonic state's expectation values over quadrature operators (and their covariance matrix) as an input qubit-state. This is then evolved by a quantum circuit that effectively implements the symplectic propagators induced by the GB gates. We find families of GB circuits and initial states leading to efficient quantum simulations. For this purpose, we introduce a dictionary that maps between GB and qubit gates such that particle- (non-particle-) preserving GB gates lead to real (imaginary) time evolutions at the qubit level. For the special case of particle-preserving circuits, we present a BQP-complete GB decision problem, indicating that GB evolutions of Gaussian states on exponentially many modes are as powerful as universal quantum computers. We also perform numerical simulations of an interferometer on $\sim8$ billion modes, illustrating the power of our framework. | 翻訳日:2024-07-10 22:13:05 公開日:2024-07-08 |
# ハイブリッドXリンク:バイオメディカルエンティティリンクのための自動データ生成と極多ラベルランキング
Hybrid X-Linker: Automated Data Generation and Extreme Multi-label Ranking for Biomedical Entity Linking ( http://arxiv.org/abs/2407.06292v1 ) ライセンス: Link先を確認 | Pedro Ruas, Fernando Gallego, Francisco J. Veredas, Francisco M. Couto, | (参考訳) 最先端のディープラーニングエンティティリンク手法は、人為的な広範なデータに依存しており、取得にはコストがかかる。
現在のデータセットのサイズは限られており、バイオメディカルな概念のカバーが不十分になり、新しいデータに適用した場合のパフォーマンスが低下する。
本研究では,バイオメディカル・エンティティ・リンクタスクにおける極端なマルチラベル・ランキングのタスクのために開発されたアプローチを探索し,大規模トレーニングデータセットを作成するためのデータの自動生成を提案する。
MEDIC と CTD-Chemical vocabularies の概念に言及する化学物質と疾患を関連付けるモジュールを含むハイブリッドX-Linker パイプラインを提案する。
BC5CDR-Disease, BioRED-Disease, NCBI-Disease, BC5CDR-Chemical, BioRED-Chem, NLM-Chemの4つのバイオメディカルデータセットを用いて, それぞれ0.8307, 0.7969, 0.8271, 0.9511, 0.9248, 0.7895のトップ1アキュラシーを達成した。
X-Linkerは、BC5CDR-Disease、NCBI-Disease、BioRED-Chemicalの3つのデータセットで優れたパフォーマンスを示した。
対照的に、SapBERTは残りの3つのデータセットでX-Linkerを上回った。
どちらのモデルも、オペレーションの参照文字列のみに依存している。
X-Linkerとその関連データのソースコードは、特定の知識組織システムからの識別子と事前にラベル付けされたエンティティを必要とせずに、バイオメディカルエンティティリンクを実行するために公開されている。
State-of-the-art deep learning entity linking methods rely on extensive human-labelled data, which is costly to acquire. Current datasets are limited in size, leading to inadequate coverage of biomedical concepts and diminished performance when applied to new data. In this work, we propose to automatically generate data to create large-scale training datasets, which allows the exploration of approaches originally developed for the task of extreme multi-label ranking in the biomedical entity linking task. We propose the hybrid X-Linker pipeline that includes different modules to link disease and chemical entity mentions to concepts in the MEDIC and the CTD-Chemical vocabularies, respectively. X-Linker was evaluated on several biomedical datasets: BC5CDR-Disease, BioRED-Disease, NCBI-Disease, BC5CDR-Chemical, BioRED-Chemical, and NLM-Chem, achieving top-1 accuracies of 0.8307, 0.7969, 0.8271, 0.9511, 0.9248, and 0.7895, respectively. X-Linker demonstrated superior performance in three datasets: BC5CDR-Disease, NCBI-Disease, and BioRED-Chemical. In contrast, SapBERT outperformed X-Linker in the remaining three datasets. Both models rely only on the mention string for their operations. The source code of X-Linker and its associated data are publicly available for performing biomedical entity linking without requiring pre-labelled entities with identifiers from specific knowledge organization systems. | 翻訳日:2024-07-10 22:13:05 公開日:2024-07-08 |
# 異種プログラミングによる細胞クラスターの工学的形態形成
Engineering morphogenesis of cell clusters with differentiable programming ( http://arxiv.org/abs/2407.06295v1 ) ライセンス: Link先を確認 | Ramya Deshpande, Francesco Mottes, Ariana-Dalia Vlad, Michael P. Brenner, Alma dal Co, | (参考訳) 生物開発の基礎となるルールを理解することは、生物学における主要な未解決問題である。
現生生物の各細胞は、その局所的な環境のシグナルに反応し、排他的、消費的、再編成するが、これらの個々の作用がマクロな数の細胞の上でどのように協調し、精巧な機能を持つ複雑な構造を成長させるかは分かっていない。
ここでは、局所的な相互作用規則と、発達モデルにおける創発的でシステムレベルの特性をもたらす遺伝的ネットワークを発見するために、自動微分の最近の進歩を用いる。
細胞間相互作用を持つ成長組織は, モルフォゲン拡散, 細胞接着, 機械的ストレスによって媒介されると考えられる。
各細胞は内部の遺伝的ネットワークを持ち、その環境に基づいて決定を行う。
本研究では、初期細胞からの胚の対称性の破れ、創発的化学勾配の生成、機械的ストレスによる成長の均質化、プログラムされた成長を予め定義された形にし、損傷から修復する能力など、複雑な発達シナリオにおいて、細胞間相互作用と遺伝的ネットワークのパラメータを同時に学習できることを示す。
成長組織中の細胞の時空間動態と遺伝子発現を計測する最近の実験的進歩と組み合わせて、ここで概説する方法論は、細胞の発達基盤を悪化させるための有望な経路を提供する。
Understanding the rules underlying organismal development is a major unsolved problem in biology. Each cell in a developing organism responds to signals in its local environment by dividing, excreting, consuming, or reorganizing, yet how these individual actions coordinate over a macroscopic number of cells to grow complex structures with exquisite functionality is unknown. Here we use recent advances in automatic differentiation to discover local interaction rules and genetic networks that yield emergent, systems-level characteristics in a model of development. We consider a growing tissue with cellular interactions are mediated by morphogen diffusion, differential cell adhesion and mechanical stress. Each cell has an internal genetic network that it uses to make decisions based on its local environment. We show that one can simultaneously learn parameters governing the cell interactions and the genetic network for complex developmental scenarios, including the symmetry breaking of an embryo from an initial cell, the creation of emergent chemical gradients,homogenization of growth via mechanical stress, programmed growth into a prespecified shape, and the ability to repair from damage. When combined with recent experimental advances measuring spatio-temporal dynamics and gene expression of cells in a growing tissue, the methodology outlined here offers a promising path to unravelling the cellular basis of development. | 翻訳日:2024-07-10 22:13:05 公開日:2024-07-08 |
# SGOR:ロバストポイントクラウド登録のためのセマンティックおよび幾何学的情報を活用したアウトレイラ除去
SGOR: Outlier Removal by Leveraging Semantic and Geometric Information for Robust Point Cloud Registration ( http://arxiv.org/abs/2407.06297v1 ) ライセンス: Link先を確認 | Guiyu Zhao, Zhentao Guo, Hongbin Ma, | (参考訳) 本稿では,ロバストな登録を実現するために,幾何学的および意味的情報を完全に活用する新しい外乱除去手法を提案する。
現在のセマンティックベース登録法は、ポイントツーポイントまたはインスタンスセマンティック対応生成のためのセマンティックスしか使用していないが、2つの問題がある。
まず、これらの手法は意味論の正しさに大きく依存する。
誤ったセマンティクスとスパースセマンティクスのシナリオではうまく機能しない。
第二に、セマンティクスの使用は対応生成に限られており、弱い幾何学シーンでは性能が悪い。
これらの問題を解決するために,地域投票に基づくセカンダリグラウンドセグメンテーションと緩やかなセマンティック一貫性を提案する。
シングルポイントセマンティクスへの依存を減らすことにより、セマンティクスの正しさに対する堅牢性を改善する。
一方, セマンティック・ジオメトリ・一貫性は, セマンティック情報を完全に活用し, 通信品質を大幅に向上させる。
さらに,弱幾何シーンにおける誤った変換選択の問題を解く2段階の仮説検証を提案する。
アウトドアデータセットにおいて,提案手法は優れた性能を示し,登録リコールにおける22.5ポイントの改善と,各種条件下でのロバスト性の向上を実現している。
私たちのコードは利用可能です。
In this paper, we introduce a new outlier removal method that fully leverages geometric and semantic information, to achieve robust registration. Current semantic-based registration methods only use semantics for point-to-point or instance semantic correspondence generation, which has two problems. First, these methods are highly dependent on the correctness of semantics. They perform poorly in scenarios with incorrect semantics and sparse semantics. Second, the use of semantics is limited only to the correspondence generation, resulting in bad performance in the weak geometry scene. To solve these problems, on the one hand, we propose secondary ground segmentation and loose semantic consistency based on regional voting. It improves the robustness to semantic correctness by reducing the dependence on single-point semantics. On the other hand, we propose semantic-geometric consistency for outlier removal, which makes full use of semantic information and significantly improves the quality of correspondences. In addition, a two-stage hypothesis verification is proposed, which solves the problem of incorrect transformation selection in the weak geometry scene. In the outdoor dataset, our method demonstrates superior performance, boosting a 22.5 percentage points improvement in registration recall and achieving better robustness under various conditions. Our code is available. | 翻訳日:2024-07-10 22:13:05 公開日:2024-07-08 |
# 自己監督型視覚変換器を用いたマルチラベル植物種分類
Multi-Label Plant Species Classification with Self-Supervised Vision Transformers ( http://arxiv.org/abs/2407.06298v1 ) ライセンス: Link先を確認 | Murilo Gustineli, Anthony Miyaguchi, Ian Stalter, | (参考訳) 植物CLEF 2024 コンペティションのための自己教師型ビジョントランスフォーマー (DINOv2) を用いた移動学習手法を提案し,多ラベル植物種分類に着目した。
提案手法は,DINOv2モデルのベースモデルと微調整モデルの両方を利用して,一般化された特徴埋め込みを抽出する。
我々は、これらのリッチな埋め込みを用いて、単一の画像内で複数の植物種を予測するように分類器を訓練する。
大規模データセットの計算上の課題に対処するため、分散データ処理にSparkを使用し、ワーカクラスタ間の効率的なメモリ管理と処理を確実にしています。
データ処理パイプラインは、画像をタイルのグリッドに変換し、各タイルを分類し、これらの予測を統合された確率集合に集約します。
本研究は,複数ラベル画像分類タスクにおいて,転送学習と高度なデータ処理技術を組み合わせることの有効性を示す。
私たちのコードはhttps://github.com/dsgt-kaggle-clef/plantclef-2024で公開されています。
We present a transfer learning approach using a self-supervised Vision Transformer (DINOv2) for the PlantCLEF 2024 competition, focusing on the multi-label plant species classification. Our method leverages both base and fine-tuned DINOv2 models to extract generalized feature embeddings. We train classifiers to predict multiple plant species within a single image using these rich embeddings. To address the computational challenges of the large-scale dataset, we employ Spark for distributed data processing, ensuring efficient memory management and processing across a cluster of workers. Our data processing pipeline transforms images into grids of tiles, classifying each tile, and aggregating these predictions into a consolidated set of probabilities. Our results demonstrate the efficacy of combining transfer learning with advanced data processing techniques for multi-label image classification tasks. Our code is available at https://github.com/dsgt-kaggle-clef/plantclef-2024. | 翻訳日:2024-07-10 22:13:05 公開日:2024-07-08 |
# 移動窓を用いたSAMによる教師なし故障検出
Unsupervised Fault Detection using SAM with a Moving Window Approach ( http://arxiv.org/abs/2407.06303v1 ) ライセンス: Link先を確認 | Ahmed Maged, Herman Shen, | (参考訳) エンジニアリングにおけるfaultの自動検出と監視は、大量の欠陥サンプルの収集とラベル付けが必要とされるため、非常に難しいが、しばしば困難である。
本稿では、SAM(High End Segment Anything Model)と移動ウィンドウアプローチを用いた教師なし手法を提案する。
SAMはその正確さと汎用性で、AIイメージセグメンテーションコミュニティで認識されている。
しかし、影や微妙な表面の不規則といった特定の予期せぬ形状を扱う場合、その性能は矛盾することがある。
この制限により、実世界のシナリオにおける障害検出の適用性に対する懸念が高まります。
本手法では,画像を小さなウィンドウに分割し,SAMを用いて処理する。
これにより、局所化された詳細に注目することで、障害識別の精度が向上する。
分割区間の大きさを計算し,ノイズを除去しながら一貫した断層領域を検出するクラスタリング手法を提案する。
本手法のロバスト性をさらに向上するため,産業環境下での連続監視にExponentially Weighted moving Average (EWMA) 技術を導入することを提案する。
モデルが0.96の精度を達成できる実ケーススタディを歌いながら、確立された様々な手法と比較した。
85であった。
また、我々のモデルが一貫した0.5%に達する2つのオープンソースデータセットを出力する手法を比較します。
86の精度で,2次モデルでは0.53,0.54であった。
Automated f ault detection and monitoring in engineering are critical but frequently difficult owing to the necessity for collecting and labeling large amounts of defective samples . We present an unsupervised method that uses the high end Segment Anything Model (SAM) and a moving window approach. SAM has gained recognition in AI image segmentation communities for its accuracy and versatility. However, its performance can be inconsistent when dealing with certain unexpected shapes , such as shadows and subtle surface irregularities. This limitation raise s concerns about its applicability for fault detection in real world scenarios We aim to overcome these challenges without requiring fine tun ing or labeled data. Our technique divides pictures into smaller windows, which are subsequently processed using SAM. This increases the accuracy of fault identification by focusing on localized details. We compute the sizes of the segmented sections and then us e a clustering technique to discover consistent fault areas while filtering out noise. To further improve the method's robustness , we propose adding the Exponentially Weighted Moving Average (EWMA) technique for continuous monitoring in industrial settings, which would improve the method's capacity to trace faults over time. We compare our method to various well established methods u sing a real case study where our model achieve s 0.96 accuracy compared to 0. 8 5 for the second best method. W e also compare our method us ing two open source datasets where our model attains a consistent 0. 86 accuracy across the datasets compared to 0.53 and 0.54 for second best model s. | 翻訳日:2024-07-10 22:13:05 公開日:2024-07-08 |
# VIMI:マルチモーダルインストラクションによるグラウンド映像生成
VIMI: Grounding Video Generation through Multi-modal Instruction ( http://arxiv.org/abs/2407.06304v1 ) ライセンス: Link先を確認 | Yuwei Fang, Willi Menapace, Aliaksandr Siarohin, Tsai-Shien Chen, Kuan-Chien Wang, Ivan Skorokhodov, Graham Neubig, Sergey Tulyakov, | (参考訳) 既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。
この制限は、大規模なマルチモーダルプロンプトビデオデータセットが存在しないことに起因する。
そこで本研究では,テキストプロンプトとコンテキスト内例をペアリングする検索手法を用いて,大規模マルチモーダルプロンプトデータセットを構築し,その上で2段階のトレーニング戦略を用いて,同一モデル内の多様なビデオ生成タスクを実現する。
最初の段階では、これらの拡張データセットを事前訓練するためのマルチモーダル条件付きビデオ生成フレームワークを提案し、グラウンドドビデオ生成の基礎モデルを確立する。
第2に、マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて、第1ステージからモデルを微調整する。
このプロセスは、多様な入力やタスクを扱うモデルの能力をさらに改善し、マルチモーダル情報のシームレスな統合を保証する。
この2段階のトレーディングプロセスの後、VIMIはマルチモーダル理解機能を示し、図1に示すように、提供されたインプットに基づいてコンテキスト的にリッチでパーソナライズされたビデオを生成する。
従来のビジュアルグラウンドドビデオ生成手法と比較して、VIMIはセマンティックコントロールを維持しながら、一貫した時間的コヒーレントな動画を大きな動きで合成することができる。
最後に、VIMIはUCF101ベンチマークで最先端のテキスト・ビデオ生成結果も達成している。
Existing text-to-video diffusion models rely solely on text-only encoders for their pretraining. This limitation stems from the absence of large-scale multimodal prompt video datasets, resulting in a lack of visual grounding and restricting their versatility and application in multimodal integration. To address this, we construct a large-scale multimodal prompt dataset by employing retrieval methods to pair in-context examples with the given text prompts and then utilize a two-stage training strategy to enable diverse video generation tasks within the same model. In the first stage, we propose a multimodal conditional video generation framework for pretraining on these augmented datasets, establishing a foundational model for grounded video generation. Secondly, we finetune the model from the first stage on three video generation tasks, incorporating multi-modal instructions. This process further refines the model's ability to handle diverse inputs and tasks, ensuring seamless integration of multi-modal information. After this two-stage train-ing process, VIMI demonstrates multimodal understanding capabilities, producing contextually rich and personalized videos grounded in the provided inputs, as shown in Figure 1. Compared to previous visual grounded video generation methods, VIMI can synthesize consistent and temporally coherent videos with large motion while retaining the semantic control. Lastly, VIMI also achieves state-of-the-art text-to-video generation results on UCF101 benchmark. | 翻訳日:2024-07-10 22:13:05 公開日:2024-07-08 |
# SweepNet: ニューラルネットワークによる教師なし学習形状抽象化
SweepNet: Unsupervised Learning Shape Abstraction via Neural Sweepers ( http://arxiv.org/abs/2407.06305v1 ) ライセンス: Link先を確認 | Mingrui Zhao, Yizhi Wang, Fenggen Yu, Changqing Zou, Ali Mahdavi-Amiri, | (参考訳) 形状抽象化は、重要な特徴を維持しながら複雑な幾何学構造を単純化する重要な課題である。
人間の作った物体によく見られるスイートサーフェスは、オブジェクトの幾何学を効果的に捉え、表現することで、抽象化を容易にすることで、このプロセスを支援する。
本稿では,スイープ面を抽象化する新しい手法である \papername を紹介する。
そこで本稿では, 形状表現にスーパー楕円, 軸にB-スプライン曲線を用いたスイープ面の効果的なパラメータ化を提案する。
このコンパクトな表現は14個の浮動小数点数しか必要とせず、形の詳細を効果的に保存しながら直感的でインタラクティブな編集を容易にする。
さらに、識別可能なニューラルスイーパーとエンコーダ・デコーダアーキテクチャを導入することで、監督なしにスイープ表面表現を予測する能力を示す。
論文全体を通して, 定量的, 定性的な実験を通じて, モデルの優位性を示す。
私たちのコードはhttps://mingrui-zhao.github.io/SweepNet/で利用可能です。
Shape abstraction is an important task for simplifying complex geometric structures while retaining essential features. Sweep surfaces, commonly found in human-made objects, aid in this process by effectively capturing and representing object geometry, thereby facilitating abstraction. In this paper, we introduce \papername, a novel approach to shape abstraction through sweep surfaces. We propose an effective parameterization for sweep surfaces, utilizing superellipses for profile representation and B-spline curves for the axis. This compact representation, requiring as few as 14 float numbers, facilitates intuitive and interactive editing while preserving shape details effectively. Additionally, by introducing a differentiable neural sweeper and an encoder-decoder architecture, we demonstrate the ability to predict sweep surface representations without supervision. We show the superiority of our model through several quantitative and qualitative experiments throughout the paper. Our code is available at https://mingrui-zhao.github.io/SweepNet/ | 翻訳日:2024-07-10 22:13:05 公開日:2024-07-08 |
# 年齢不適切なアプリから子どもを守るためのチャットGPTによるマルチモーダル・チェーン・オブ・ソート推論
Multimodal Chain-of-Thought Reasoning via ChatGPT to Protect Children from Age-Inappropriate Apps ( http://arxiv.org/abs/2407.06309v1 ) ライセンス: Link先を確認 | Chuanbo Hu, Bin Liu, Minglei Yin, Yilu Zhou, Xin Li, | (参考訳) モバイルアプリケーション(アプリ)は、子供に性的内容、暴力、薬物使用などの不適切なテーマを暴露する可能性がある。
成熟度評価は、潜在的なユーザ、特に保護者に対して、アプリの成熟度レベルを評価するための、迅速かつ効果的な方法を提供する。
モバイルアプリの正確な成熟度評価を決定することは、今日の飽和デジタルマーケットプレースにおける子供の健康を守るために不可欠である。
既存の成熟度評価へのアプローチは、不正確な(開発者による自己報告型評価など)か、高価な(手作業による検査など)かのいずれかです。
文献では、成熟度評価に対するテキストマイニングに基づくアプローチはほとんどない。
しかし、通常、各アプリには複数のモダリティ、すなわちテキスト内のアプリ記述、イメージ内のスクリーンショットが含まれる。
本稿では,マルチモーダル大言語モデル(MLLM),特にChatGPT-4 Visionを利用するアプリケーションの成熟度を決定するためのフレームワークを提案する。
CoT(Chain-of-Thought)推論によって,我々のフレームワークはChatGPT-4を体系的に利用してマルチモーダルアプリケーションデータ(テキスト記述やスクリーンショットなど)を処理し,MLLMモデルを初期コンテンツ分析から最終成熟度評価まで段階的に推論する経路を通じてガイドする。
その結果、我々のフレームワークはCoT推論を明示的に取り入れることで、ChatGPTをよりよく理解し、成熟度評価を促進するために成熟度ポリシーを適用します。
実験結果から,提案手法はすべてのベースラインモデルおよび他の融合戦略より優れていることが示された。
Mobile applications (Apps) could expose children to inappropriate themes such as sexual content, violence, and drug use. Maturity rating offers a quick and effective method for potential users, particularly guardians, to assess the maturity levels of apps. Determining accurate maturity ratings for mobile apps is essential to protect children's health in today's saturated digital marketplace. Existing approaches to maturity rating are either inaccurate (e.g., self-reported rating by developers) or costly (e.g., manual examination). In the literature, there are few text-mining-based approaches to maturity rating. However, each app typically involves multiple modalities, namely app description in the text, and screenshots in the image. In this paper, we present a framework for determining app maturity levels that utilize multimodal large language models (MLLMs), specifically ChatGPT-4 Vision. Powered by Chain-of-Thought (CoT) reasoning, our framework systematically leverages ChatGPT-4 to process multimodal app data (i.e., textual descriptions and screenshots) and guide the MLLM model through a step-by-step reasoning pathway from initial content analysis to final maturity rating determination. As a result, through explicitly incorporating CoT reasoning, our framework enables ChatGPT to understand better and apply maturity policies to facilitate maturity rating. Experimental results indicate that the proposed method outperforms all baseline models and other fusion strategies. | 翻訳日:2024-07-10 22:13:05 公開日:2024-07-08 |
# 変形性膝関節症と高齢者の話者適応のための一様話者特徴
Homogeneous Speaker Features for On-the-Fly Dysarthric and Elderly Speaker Adaptation ( http://arxiv.org/abs/2407.06310v1 ) ライセンス: Link先を確認 | Mengzhe Geng, Xurong Xie, Jiajun Deng, Zengrui Jin, Guinan Li, Tianzi Wang, Shujie Hu, Zhaoqing Li, Helen Meng, Xunying Liu, | (参考訳) データ集約型自動音声認識(ASR)技術は, 健常者, 非高齢者, データ不足者, および話者レベルの大きな多様性に対する不一致に直面している。
そこで本研究では,DNN/TDNNモデルとConformer ASRモデルの高速かつオンザフライなテストタイム適応のための,同質な顎関節症と高齢者の話者レベルの特徴を学習するための2つの新しいデータ効率手法を提案する。
以下を含む。
1)適応時の話者特徴の均一性を強制するために特別な正規化項を利用する話者レベル分散規則化スペクトルベース埋め込み(VR-SBE)機能
2)VR-SBE機能に規定された特徴ベース学習隠れユニットコントリビューション(f-LHUC)トランスフォーメーション。
The English UASpeech and TORGO dysarthric speech datasets, the English DementiaBank Pitt and Cantonese JCCOCC MoCA elderly speechcorpora。
提案したオンザフライ話者適応技術は、統計的に有意な単語や文字の誤り率を5.32%まで減少させ、バッチモードのLHUC話者適応を2.24%まで(9.20%の相対)、適応中にxVectorsに対して最大33.6倍の速さでリアルタイムに動作させることにより、ベースラインiVectorとxVector適応を一貫して上回っている。
提案手法の有効性は,UASpeech上のSSL事前訓練システムを含む現在のASR技術との比較において実証された。
分析によると、VR-SBE機能とf-LHUC変換は、テストタイム適応時の話者レベルのデータ量に敏感である。
T-SNE可視化は、ベースラインiVectors、xVectors、バッチモードLHUC変換よりも話者レベルの均一性が高いことを示した。
The application of data-intensive automatic speech recognition (ASR) technologies to dysarthric and elderly adult speech is confronted by their mismatch against healthy and nonaged voices, data scarcity and large speaker-level variability. To this end, this paper proposes two novel data-efficient methods to learn homogeneous dysarthric and elderly speaker-level features for rapid, on-the-fly test-time adaptation of DNN/TDNN and Conformer ASR models. These include: 1) speaker-level variance-regularized spectral basis embedding (VR-SBE) features that exploit a special regularization term to enforce homogeneity of speaker features in adaptation; and 2) feature-based learning hidden unit contributions (f-LHUC) transforms that are conditioned on VR-SBE features. Experiments are conducted on four tasks across two languages: the English UASpeech and TORGO dysarthric speech datasets, the English DementiaBank Pitt and Cantonese JCCOCC MoCA elderly speech corpora. The proposed on-the-fly speaker adaptation techniques consistently outperform baseline iVector and xVector adaptation by statistically significant word or character error rate reductions up to 5.32% absolute (18.57% relative) and batch-mode LHUC speaker adaptation by 2.24% absolute (9.20% relative), while operating with real-time factors speeding up to 33.6 times against xVectors during adaptation. The efficacy of the proposed adaptation techniques is demonstrated in a comparison against current ASR technologies including SSL pre-trained systems on UASpeech, where our best system produces a state-of-the-art WER of 23.33%. Analyses show VR-SBE features and f-LHUC transforms are insensitive to speaker-level data quantity in testtime adaptation. T-SNE visualization reveals they have stronger speaker-level homogeneity than baseline iVectors, xVectors and batch-mode LHUC transforms. | 翻訳日:2024-07-10 22:13:05 公開日:2024-07-08 |
# クープマン学習の限界と力
Limits and Powers of Koopman Learning ( http://arxiv.org/abs/2407.06312v1 ) ライセンス: Link先を確認 | Matthew J. Colbrook, Igor Mezić, Alexei Stepanenko, | (参考訳) 力学系は様々な科学にまたがって複雑で変化する振る舞いを研究する包括的方法を提供する。
現代のシステムの多くは、直接分析するには複雑すぎるか、モデルにアクセスできないため、学習方法に大きな関心が寄せられている。
クープマン作用素は、無限次元スペクトル問題を解くことによって線形手法による非線形力学の研究を可能にするため、支配的なアプローチとして現れてきた。
しかし、現在のアルゴリズムは収束の欠如や実践的な進歩を妨げるような課題に直面している。
動的システムの軌跡データからクープマン作用素のスペクトル特性を頑健に学習することは可能か?
これらの境界を理解することは、分析、アプリケーション、そしてアルゴリズムの設計に不可欠です。
計算分析とエルゴード理論を組み合わせた基本的アプローチを確立し、データ品質や量に関係なく、システムの幾何学と複雑性に関連する最初の基本的障壁を明らかにする。
例えば、コオプマン作用素の非自明な固有関数が無限の訓練データであっても任意の(ランダム化でさえも)アルゴリズムの列で決定できないトリ上での滑らかな力学系を実証する。
さらに,学習がいつ可能かを特定し,標準手法の問題を克服する検証アルゴリズムを導入する。
これらの結果は、問題の解法に必要な限界数に基づいて、データ駆動力学系の鋭い分類理論の道を開いた。
これらの制限は以前のすべてのメソッドを特徴付け、統一されたビューを提示する。
われわれのフレームワークは、クープマンスペクトル特性がいつ、どのように学習できるかを体系的に決定する。
Dynamical systems provide a comprehensive way to study complex and changing behaviors across various sciences. Many modern systems are too complicated to analyze directly or we do not have access to models, driving significant interest in learning methods. Koopman operators have emerged as a dominant approach because they allow the study of nonlinear dynamics using linear techniques by solving an infinite-dimensional spectral problem. However, current algorithms face challenges such as lack of convergence, hindering practical progress. This paper addresses a fundamental open question: \textit{When can we robustly learn the spectral properties of Koopman operators from trajectory data of dynamical systems, and when can we not?} Understanding these boundaries is crucial for analysis, applications, and designing algorithms. We establish a foundational approach that combines computational analysis and ergodic theory, revealing the first fundamental barriers -- universal for any algorithm -- associated with system geometry and complexity, regardless of data quality and quantity. For instance, we demonstrate well-behaved smooth dynamical systems on tori where non-trivial eigenfunctions of the Koopman operator cannot be determined by any sequence of (even randomized) algorithms, even with unlimited training data. Additionally, we identify when learning is possible and introduce optimal algorithms with verification that overcome issues in standard methods. These results pave the way for a sharp classification theory of data-driven dynamical systems based on how many limits are needed to solve a problem. These limits characterize all previous methods, presenting a unified view. Our framework systematically determines when and how Koopman spectral properties can be learned. | 翻訳日:2024-07-10 22:03:20 公開日:2024-07-08 |
# アラビア語を用いたソーシャルメディア利用者のパーソナリティ分析と感性分析への影響
Personality Analysis for Social Media Users using Arabic language and its Effect on Sentiment Analysis ( http://arxiv.org/abs/2407.06314v1 ) ライセンス: Link先を確認 | Mokhaiber Dandash, Masoud Asadpour, | (参考訳) ソーシャルメディアはますますパーソナライズに向かっており、個人が自分の信念、関心、習慣、活動を明らかにする。
本研究は、Twitter上でのアラビア語の使用と性格特性と感情分析への影響の相関について検討した。
本研究では、プロフィール活動から抽出した情報と、ツイートの内容に基づいて、ユーザの性格特性を示す。
分析には言語的特徴,プロファイル統計(性別,年齢,生物など),エモティコンなどの追加的特徴が取り入れられた。
パーソナリティデータを取得するために、アラビア語で16人格テストを受けたユーザのタイムラインとプロフィールを16人格.comでクロールした。
われわれのデータセットは3250人のユーザーからなり、Twitter上でその性格を共有できた。
さまざまな機械学習手法を実装し,人格の特徴を明らかにするために,この目的のための専用モデルを開発し,74.86%の正確度をBERTで達成し,このデータセットの分析により,言語的特徴,プロファイルの特徴,派生モデルを用いて人格の特徴を区別できることが判明した。
さらに,人格がソーシャルメディアの感情に影響を及ぼすことが明らかとなった。
本研究は、ソーシャルメディア上での人間行動と、政治談話分析や世論追跡といった現実の応用における人格的特徴との関係について、強固な理解を深めるための継続的な取り組みに寄与する。
Social media is heading toward personalization more and more, where individuals reveal their beliefs, interests, habits, and activities, simply offering glimpses into their personality traits. This study, explores the correlation between the use of Arabic language on twitter, personality traits and its impact on sentiment analysis. We indicated the personality traits of users based on the information extracted from their profile activities, and the content of their tweets. Our analysis incorporated linguistic features, profile statistics (including gender, age, bio, etc.), as well as additional features like emoticons. To obtain personality data, we crawled the timelines and profiles of users who took the 16personalities test in Arabic on 16personalities.com. Our dataset comprised 3,250 users who shared their personality results on twitter. We implemented various machine learning techniques, to reveal personality traits and developed a dedicated model for this purpose, achieving a 74.86% accuracy rate with BERT, analysis of this dataset proved that linguistic features, profile features and derived model can be used to differentiate between different personality traits. Furthermore, our findings demonstrated that personality affect sentiment in social media. This research contributes to the ongoing efforts in developing robust understanding of the relation between human behaviour on social media and personality features for real-world applications, such as political discourse analysis, and public opinion tracking. | 翻訳日:2024-07-10 22:03:20 公開日:2024-07-08 |
# エネルギーモデルにおけるロバスト分類器への光の入射
Shedding More Light on Robust Classifiers under the lens of Energy-based Models ( http://arxiv.org/abs/2407.06315v1 ) ライセンス: Link先を確認 | Mujtaba Hussain Mirza, Maria Rosaria Briglia, Senad Beadini, Iacopo Masi, | (参考訳) 頑健な識別型分類器をエネルギーベースモデル (EBM) として再解釈することにより, 対人訓練 (AT) の力学に新たな視点を与える。
ATにおけるエネルギー環境の分析により、標的外攻撃は、モデルの観点からの本来のデータよりも、より分散した(低エネルギー)敵画像を生成することが明らかとなった。
逆に、ターゲット攻撃の反対を観察する。
本研究は,ATエネルギー力学の解釈が3相に支配され,第3相に強大なオーバーフィッティングが発生すること,第2相にTRadeoff-inspired Adversarial Defenseの損失をSurrogate-loss minimization (TRADES) に書き換えること,TRADESが自然エネルギーと対向エネルギーを整合させることによって過度フィッティングを暗黙的に緩和すること,第3相に強大なオーバーフィッティングが生じること,及び第3相に強大なオーバーフィッティングが生じることを実証的に示す。
CIFAR-10 や SVHN などの複数のベンチマークに適合し,CIFAR-100 や Tiny-ImageNet を超越した精度の高い試料重み付け手法である Weighted Energy Adversarial Training (WEAT) を提案する。
さらに、ロバストな分類器は、その生成能力の強度と品質に変化があることを示し、生成モデリングの訓練を受けずにロバストな分類器を用いて、優れたインセプションスコア(IS)とFIDに到達した。
結果を再現するコードは http://github.com/OmnAI-Lab/Robust-Classifiers-under-the-lens-of-EBM/ で公開されている。
By reinterpreting a robust discriminative classifier as Energy-based Model (EBM), we offer a new take on the dynamics of adversarial training (AT). Our analysis of the energy landscape during AT reveals that untargeted attacks generate adversarial images much more in-distribution (lower energy) than the original data from the point of view of the model. Conversely, we observe the opposite for targeted attacks. On the ground of our thorough analysis, we present new theoretical and practical results that show how interpreting AT energy dynamics unlocks a better understanding: (1) AT dynamic is governed by three phases and robust overfitting occurs in the third phase with a drastic divergence between natural and adversarial energies (2) by rewriting the loss of TRadeoff-inspired Adversarial DEfense via Surrogate-loss minimization (TRADES) in terms of energies, we show that TRADES implicitly alleviates overfitting by means of aligning the natural energy with the adversarial one (3) we empirically show that all recent state-of-the-art robust classifiers are smoothing the energy landscape and we reconcile a variety of studies about understanding AT and weighting the loss function under the umbrella of EBMs. Motivated by rigorous evidence, we propose Weighted Energy Adversarial Training (WEAT), a novel sample weighting scheme that yields robust accuracy matching the state-of-the-art on multiple benchmarks such as CIFAR-10 and SVHN and going beyond in CIFAR-100 and Tiny-ImageNet. We further show that robust classifiers vary in the intensity and quality of their generative capabilities, and offer a simple method to push this capability, reaching a remarkable Inception Score (IS) and FID using a robust classifier without training for generative modeling. The code to reproduce our results is available at http://github.com/OmnAI-Lab/Robust-Classifiers-under-the-lens-of-EBM/ . | 翻訳日:2024-07-10 22:03:20 公開日:2024-07-08 |
# 自動運転における安全性の向上--エンド・ツー・エンドナビゲーションにおける潜在状態拡散モデルの統合
Enhanced Safety in Autonomous Driving: Integrating Latent State Diffusion Model for End-to-End Navigation ( http://arxiv.org/abs/2407.06317v1 ) ライセンス: Link先を確認 | Jianuo Huang, Zhenlong Fang, | (参考訳) 自動運転の進歩により、移動計画やナビゲーションにおける安全性の確保がますます重要になっている。
しかし、ほとんどのエンドツーエンドの計画手法は安全性の欠如に悩まされている。
本研究は、CMDP(Constrained Markov Decision Processs)として定式化された自動運転の制御最適化問題における安全性問題に対処する。
複雑な高次元状態空間における制約を効果的に管理するために,条件付きバリュー・アット・リスクに基づくソフト・アクター・クリティカルを用いて,ポリシー最適化のための新しいモデルベースアプローチを提案する。
本手法では, 安全探索を誘導する最悪のアクターを導入し, 予測不可能なシナリオにおいても, 安全要件の厳密な遵守を確保する。
政策最適化は拡張ラグランジアン法を採用し、遅延拡散モデルを利用して将来の軌道を予測しシミュレーションする。
この2つのアプローチは、環境を安全にナビゲートするだけでなく、環境の不確実性を考慮した流通モデルを統合することで、政策のパフォーマンスを向上する。
シミュレーションと実環境の両方で実施した実証評価では,既存の手法よりも安全性,効率,意思決定能力が優れていた。
With the advancement of autonomous driving, ensuring safety during motion planning and navigation is becoming more and more important. However, most end-to-end planning methods suffer from a lack of safety. This research addresses the safety issue in the control optimization problem of autonomous driving, formulated as Constrained Markov Decision Processes (CMDPs). We propose a novel, model-based approach for policy optimization, utilizing a conditional Value-at-Risk based Soft Actor Critic to manage constraints in complex, high-dimensional state spaces effectively. Our method introduces a worst-case actor to guide safe exploration, ensuring rigorous adherence to safety requirements even in unpredictable scenarios. The policy optimization employs the Augmented Lagrangian method and leverages latent diffusion models to predict and simulate future trajectories. This dual approach not only aids in navigating environments safely but also refines the policy's performance by integrating distribution modeling to account for environmental uncertainties. Empirical evaluations conducted in both simulated and real environment demonstrate that our approach outperforms existing methods in terms of safety, efficiency, and decision-making capabilities. | 翻訳日:2024-07-10 22:03:20 公開日:2024-07-08 |
# オープンイシュー:Bernolli Rewards氏によるカーネル化されたマルチアーマッドバンドのタイトバウンド
Open Problem: Tight Bounds for Kernelized Multi-Armed Bandits with Bernoulli Rewards ( http://arxiv.org/abs/2407.06321v1 ) ライセンス: Link先を確認 | Marco Mussi, Simone Drago, Alberto Maria Metelli, | (参考訳) 我々は、Kernelized Bandits (KBs) を、再生Kernel Hilbert Space (RKHS) $\mathcal{H}_k$に属する関数 $f : \mathcal{X} \rightarrow [0,1]$ を最適化すると考えている。
メインストリームは、サブガウス雑音モデルに焦点を当て、$f(\mathbf{x}_t)+\epsilon_t$、$\epsilon_t$ a subガウス雑音が利用できる(Chowdhury and Gopalan, 2017)。
異なることに、パラメータ $f(\mathbf{x}_t)$ のベルヌーイ分布からサンプリングされた実数化が $y_t \sim \text{Ber}(f(\mathbf{x}_t))$ となる場合に焦点を当てる。
ベルヌーイモデルは、多武装の包帯(Garivier and Capp\'e, 2011)、ロジスティックな包帯(Faury et al , 2022)、計量空間の包帯(Magureanu et al , 2014)でうまく研究されているが、KBに対して厳密な結果が得られるかどうかについては未解決のままである。
本稿では,このオープンな問題に対して,オンライン学習コミュニティの注意を惹きつけることを目的とする。
We consider Kernelized Bandits (KBs) to optimize a function $f : \mathcal{X} \rightarrow [0,1]$ belonging to the Reproducing Kernel Hilbert Space (RKHS) $\mathcal{H}_k$. Mainstream works on kernelized bandits focus on a subgaussian noise model in which observations of the form $f(\mathbf{x}_t)+\epsilon_t$, being $\epsilon_t$ a subgaussian noise, are available (Chowdhury and Gopalan, 2017). Differently, we focus on the case in which we observe realizations $y_t \sim \text{Ber}(f(\mathbf{x}_t))$ sampled from a Bernoulli distribution with parameter $f(\mathbf{x}_t)$. While the Bernoulli model has been investigated successfully in multi-armed bandits (Garivier and Capp\'e, 2011), logistic bandits (Faury et al., 2022), bandits in metric spaces (Magureanu et al., 2014), it remains an open question whether tight results can be obtained for KBs. This paper aims to draw the attention of the online learning community to this open problem. | 翻訳日:2024-07-10 22:03:20 公開日:2024-07-08 |
# MagMax: シームレスな継続的学習のためのモデルマージの活用
MagMax: Leveraging Model Merging for Seamless Continual Learning ( http://arxiv.org/abs/2407.06322v1 ) ライセンス: Link先を確認 | Daniel Marczak, Bartłomiej Twardowski, Tomasz Trzciński, Sebastian Cygert, | (参考訳) 本稿では,MagMaxというモデルマージを利用した連続学習手法を提案する。この手法は,既存の知識を忘れずに,大規模な事前学習モデルで新しいデータから連続的に学習することを可能にする。
MagMaxは、タスクトレーニング中の忘れを減らすことを目的とした従来の連続学習方法とは違い、シーケンシャルな微調整と最大等級の重み選択を組み合わせることで、タスク間の効果的な知識統合を実現する。
最初のコントリビューションはモデルマージ手法の広範な検証であり、平均ウェイトやランダムウェイト選択といった単純なアプローチが、様々な連続的な学習コンテキストにおいて驚くほどうまく機能することを示した。
より重要なことは、連続タスクのための大規模な事前学習モデルの継続的な学習を可能にする新しいモデル統合戦略であるMagMaxを提案することである。
我々は,MagMaxのクラスおよびドメイン増分学習設定など,様々なシナリオにおける優位性を徹底的に評価した。
This paper introduces a continual learning approach named MagMax, which utilizes model merging to enable large pre-trained models to continuously learn from new data without forgetting previously acquired knowledge. Distinct from traditional continual learning methods that aim to reduce forgetting during task training, MagMax combines sequential fine-tuning with a maximum magnitude weight selection for effective knowledge integration across tasks. Our initial contribution is an extensive examination of model merging techniques, revealing that simple approaches like weight averaging and random weight selection surprisingly hold up well in various continual learning contexts. More importantly, we present MagMax, a novel model-merging strategy that enables continual learning of large pre-trained models for successive tasks. Our thorough evaluation demonstrates the superiority of MagMax in various scenarios, including class- and domain-incremental learning settings. | 翻訳日:2024-07-10 22:03:20 公開日:2024-07-08 |
# キャッケード(Cascade) - 効果的で有能なガードレール建設を目指して
When in Doubt, Cascade: Towards Building Efficient and Capable Guardrails ( http://arxiv.org/abs/2407.06323v1 ) ライセンス: Link先を確認 | Manish Nagireddy, Inkit Padhi, Soumya Ghosh, Prasanna Sattigeri, | (参考訳) 大規模言語モデル(LLM)は、様々な下流タスクで性能を納得させる。
しかし、これらのシステムは有害テキストやバイアステキストなどの望ましくない出力を生成する傾向にある。
このような世代を治療するために、ガードレール(または検出器)モデルの開発が推進されている。
社会的偏見検知器の開発から得られた知見から,我々は,社会的偏見検出器の予備バージョンにおける性能低下の原因として,使用感の区別の概念を取り入れた。
この情報を利用して、分類学駆動の指示を利用してターゲットデータとラベル付きデータを生成する、完全に拡張可能で再現可能な合成データ生成パイプラインを記述する。
このパイプラインを使用して、300万以上のユニークなコントラストサンプルを生成し、オープンソースのデータセットスイートのパフォーマンスを体系的に評価するための広範な実験を提供します。
提案手法は,計算コストのごく一部で競合性能を達成し,効率的かつ有能なガードレールモデルを反復的に開発する上での知見を提供する。
警告: 本論文は、有害でバイアスがあり、潜在的に有害なテキストの例を含む。
Large language models (LLMs) have convincing performance in a variety of downstream tasks. However, these systems are prone to generating undesirable outputs such as harmful and biased text. In order to remedy such generations, the development of guardrail (or detector) models has gained traction. Motivated by findings from developing a detector for social bias, we adopt the notion of a use-mention distinction - which we identified as the primary source of under-performance in the preliminary versions of our social bias detector. Armed with this information, we describe a fully extensible and reproducible synthetic data generation pipeline which leverages taxonomy-driven instructions to create targeted and labeled data. Using this pipeline, we generate over 300K unique contrastive samples and provide extensive experiments to systematically evaluate performance on a suite of open source datasets. We show that our method achieves competitive performance with a fraction of the cost in compute and offers insight into iteratively developing efficient and capable guardrail models. Warning: This paper contains examples of text which are toxic, biased, and potentially harmful. | 翻訳日:2024-07-10 22:03:20 公開日:2024-07-08 |
# B'MOJO: 理想と偽りの記憶を持つ基礎モデルのハイブリッドステートスペース実現
B'MOJO: Hybrid State Space Realizations of Foundation Models with Eidetic and Fading Memory ( http://arxiv.org/abs/2407.06324v1 ) ライセンス: Link先を確認 | Luca Zancato, Arjun Seshadri, Yonatan Dukler, Aditya Golatkar, Yantao Shen, Benjamin Bowman, Matthew Trager, Alessandro Achille, Stefano Soatto, | (参考訳) 本稿では, 有限資源を効率的に利用しながら, メモリを有限だが未知境界に成長させることにより, トランスダクティブ推論を支援するアーキテクチャのファミリについて述べる。
現在のアーキテクチャではそのようなリソースを使用して、有限スパン上のデータを理想的に表現する(Transformersではcontext)か、無限スパン(State Space Models、SSMs)で消える。
最近のハイブリッドアーキテクチャでは、イデオティックメモリとフェードメモリを組み合わせているが、デザイナや学習プロセスが2つをシームレスに変調したり、イデオティックメモリを拡張したりできない制限がある。
確率的実現理論(Stochastic Realization Theory)のアイデアを活用し、B'MOJOと呼ばれるモデルのクラスを開発し、基本的な構成可能なモジュール内で、理想的および暗黙的メモリをシームレスに結合する。
全体的なアーキテクチャは、非同期に更新されたメモリからの検索をネイティブに組み込むことで、短期のイデオロギーメモリ("in-context")、永続的な構造記憶("in-weights")、消失するメモリ("in-state")、長期のイデオロギーメモリ("in-storage")にアクセスできるモデルを実装するために使用することができる。
我々は、トランスフォーマー、Mambaのような既存のSSM、JambaのようなハイブリッドアーキテクチャがB'MOJOの特殊なケースであり、オープンソースで実装される基本実装を記述し、ハードウェアで効率的に積み重ね、拡張可能であることを示す。
ベースラインとして、B'MOJOが同等の大きさのトランスフォーマーやSSMに匹敵する難易度を最大1.4Bのパラメータで達成し、トレーニング速度が最大10%向上する通常の言語モデルをテストする。
最後に,B'MOJOのイデオティックメモリとフェードメモリを変調する能力は,32Kトークンでテストされた長いシーケンスに対して,トレーニング中に見られる最長シーケンスの長さの4倍の精度で推論できることを示す。
We describe a family of architectures to support transductive inference by allowing memory to grow to a finite but a-priori unknown bound while making efficient use of finite resources for inference. Current architectures use such resources to represent data either eidetically over a finite span ("context" in Transformers), or fading over an infinite span (in State Space Models, or SSMs). Recent hybrid architectures have combined eidetic and fading memory, but with limitations that do not allow the designer or the learning process to seamlessly modulate the two, nor to extend the eidetic memory span. We leverage ideas from Stochastic Realization Theory to develop a class of models called B'MOJO to seamlessly combine eidetic and fading memory within an elementary composable module. The overall architecture can be used to implement models that can access short-term eidetic memory "in-context," permanent structural memory "in-weights," fading memory "in-state," and long-term eidetic memory "in-storage" by natively incorporating retrieval from an asynchronously updated memory. We show that Transformers, existing SSMs such as Mamba, and hybrid architectures such as Jamba are special cases of B'MOJO and describe a basic implementation, to be open sourced, that can be stacked and scaled efficiently in hardware. We test B'MOJO on transductive inference tasks, such as associative recall, where it outperforms existing SSMs and Hybrid models; as a baseline, we test ordinary language modeling where B'MOJO achieves perplexity comparable to similarly-sized Transformers and SSMs up to 1.4B parameters, while being up to 10% faster to train. Finally, we show that B'MOJO's ability to modulate eidetic and fading memory results in better inference on longer sequences tested up to 32K tokens, four-fold the length of the longest sequences seen during training. | 翻訳日:2024-07-10 22:03:20 公開日:2024-07-08 |
# CONGO: 圧縮的なオンライングラディエント最適化とマイクロサービス管理への応用
CONGO: Compressive Online Gradient Optimization with Application to Microservices Management ( http://arxiv.org/abs/2407.06325v1 ) ライセンス: Link先を確認 | Jeremy Carleton, Prathik Vijaykumar, Divyanshu Saxena, Dheeraj Narasimha, Srinivas Shakkottai, Aditya Akella, | (参考訳) 目的関数の勾配がスパース性を示すオンライン凸最適化の課題に対処し、非ゼロ勾配を持つのは少数の次元のみであることを示す。
本研究の目的は,関数サンプルの数が限られている場合にのみ,目的関数の勾配の有用な推定値を得ることである。
私たちのモチベーションは、マイクロサービスベースのアプリケーションのような分散キューシステムに起因しています。
ここでは、各リクエストタイプがマイクロサービスのシーケンスを通過してレスポンスを生成し、マイクロサービスの集合をまたいだリソース割り当てが、エンドツーエンドのレイテンシとリソースコストのバランスをとるように制御されます。
マイクロサービスの数はかなりあるが、レイテンシ関数は主にリソースの変更に反応し、勾配はスパースである。
提案手法であるCONGO(Compressive Online Gradient Optimization)は,同時摂動と圧縮センシングを組み合わせ,勾配を推定する。
本研究では,1イテレーションあたりの圧縮センシングサンプルの必要個数に関する解析的バウンダリを確立し,勾配推定の有界バイアスを維持し,サブ線形後悔を確実にする。
疎性を利用することにより、問題の本来の次元性ではなく、勾配の疎性に対応するために反復ごとに必要となるサンプルを減らすことができる。
数値実験と実世界のマイクロサービスベンチマークは、複数の確率勾配勾配アプローチよりもCONGOの方が優れていることを実証している。
We address the challenge of online convex optimization where the objective function's gradient exhibits sparsity, indicating that only a small number of dimensions possess non-zero gradients. Our aim is to leverage this sparsity to obtain useful estimates of the objective function's gradient even when the only information available is a limited number of function samples. Our motivation stems from distributed queueing systems like microservices-based applications, characterized by request-response workloads. Here, each request type proceeds through a sequence of microservices to produce a response, and the resource allocation across the collection of microservices is controlled to balance end-to-end latency with resource costs. While the number of microservices is substantial, the latency function primarily reacts to resource changes in a few, rendering the gradient sparse. Our proposed method, CONGO (Compressive Online Gradient Optimization), combines simultaneous perturbation with compressive sensing to estimate gradients. We establish analytical bounds on the requisite number of compressive sensing samples per iteration to maintain bounded bias of gradient estimates, ensuring sub-linear regret. By exploiting sparsity, we reduce the samples required per iteration to match the gradient's sparsity, rather than the problem's original dimensionality. Numerical experiments and real-world microservices benchmarks demonstrate CONGO's superiority over multiple stochastic gradient descent approaches, as it quickly converges to performance comparable to policies pre-trained with workload awareness. | 翻訳日:2024-07-10 22:03:20 公開日:2024-07-08 |
# GeoLifeCLEF 2024におけるマルチラベル分類のためのタイル圧縮と埋め込み
Tile Compression and Embeddings for Multi-Label Classification in GeoLifeCLEF 2024 ( http://arxiv.org/abs/2407.06326v1 ) ライセンス: Link先を確認 | Anthony Miyaguchi, Patcharapong Aphiwetsa, Mark McDuffie, | (参考訳) DS@GTチームとGeoLifeCLEF 2024の競合による多言語分類課題の解決方法について検討し,空間的・時間的リモートセンシングデータを用いて,特定の場所における植物種の存在と欠如を予測することを目的とした。
本稿では、離散コサイン変換(DCT)による周波数領域係数を用いて、畳み込みニューラルネットワークの生入力データを圧縮・プリコンプリートする。
また,局所感応型ハッシュ(LSH)による近接近傍モデルの予測や,タイル2vecによる埋め込みの自己教師付きコントラスト学習の支援についても検討した。
我々のベストコンペティションモデルは、リーダーボードスコア0.152、ベストポストコンペティションスコア0.161の位置情報機能を利用した。
ソースコードとモデルはhttps://github.com/dsgt-kaggle-clef/geolifeclef-2024で公開されている。
We explore methods to solve the multi-label classification task posed by the GeoLifeCLEF 2024 competition with the DS@GT team, which aims to predict the presence and absence of plant species at specific locations using spatial and temporal remote sensing data. Our approach uses frequency-domain coefficients via the Discrete Cosine Transform (DCT) to compress and pre-compute the raw input data for convolutional neural networks. We also investigate nearest neighborhood models via locality-sensitive hashing (LSH) for prediction and to aid in the self-supervised contrastive learning of embeddings through tile2vec. Our best competition model utilized geolocation features with a leaderboard score of 0.152 and a best post-competition score of 0.161. Source code and models are available at https://github.com/dsgt-kaggle-clef/geolifeclef-2024. | 翻訳日:2024-07-10 22:03:20 公開日:2024-07-08 |
# アクセントと動的プログラミングの協調によるマルチモデルMDPの解法
Solving Multi-Model MDPs by Coordinate Ascent and Dynamic Programming ( http://arxiv.org/abs/2407.06329v1 ) ライセンス: Link先を確認 | Xihong Su, Marek Petrik, | (参考訳) マルチモデルマルコフ決定プロセス(MMDP)は、MDPにおけるパラメータの不確実性に対して堅牢な計算ポリシーのための有望なフレームワークである。
MMDP は,MDP モデルの分布よりも期待されるリターンを最大化する政策を見出すことを目的としている。
MMDPはNPハードであるため、ほとんどの手法は近似に頼っている。
本稿では,MMDPの方針勾配を導出し,コーディネート・アセント法とMMDPを解く動的プログラミングアルゴリズムを組み合わせたCADPを提案する。
従来のアルゴリズムと比較してCADPの主な革新は、局所的な最大値に対する単調なポリシー改善を保証するために、座標アセンジの視点でモデルウェイトを反復的に調整することである。
CADPの理論的解析は、WSUのような従来の動的プログラミングアルゴリズムよりも性能が悪くないことを証明している。
以上の結果から,CADPはいくつかのベンチマーク問題において既存手法よりも大幅に優れていたことが示唆された。
Multi-model Markov decision process (MMDP) is a promising framework for computing policies that are robust to parameter uncertainty in MDPs. MMDPs aim to find a policy that maximizes the expected return over a distribution of MDP models. Because MMDPs are NP-hard to solve, most methods resort to approximations. In this paper, we derive the policy gradient of MMDPs and propose CADP, which combines a coordinate ascent method and a dynamic programming algorithm for solving MMDPs. The main innovation of CADP compared with earlier algorithms is to take the coordinate ascent perspective to adjust model weights iteratively to guarantee monotone policy improvements to a local maximum. A theoretical analysis of CADP proves that it never performs worse than previous dynamic programming algorithms like WSU. Our numerical results indicate that CADP substantially outperforms existing methods on several benchmark problems. | 翻訳日:2024-07-10 22:03:20 公開日:2024-07-08 |
# CharSS:サンスクリット単語分割のための文字レベル変換器モデル
CharSS: Character-Level Transformer Model for Sanskrit Word Segmentation ( http://arxiv.org/abs/2407.06331v1 ) ライセンス: Link先を確認 | Krishnakant Bhatt, Karthika N J, Ganesh Ramakrishnan, Preethi Jyothi, | (参考訳) インド語のサブワードトークンは本質的に意味を持ち、それらを分離することでNLPタスクが強化され、サブワードセグメンテーションが重要なプロセスとなる。
サンスクリットや他のインドの言語をサブトーケンに分割するのは簡単ではない。
本研究では,サンスクリット単語セグメンテーション(CharSS)の文字レベル変換モデルを利用する新しい手法を提案する。
提案手法の性能を既存手法と比較するために,3つのベンチマークデータセットを用いて実験を行った。
UoH+SandhiKoshデータセットにおいて,本手法は分割予測精度6.72点の絶対ゲインにより現在の最先端システムより優れる。
ハッカソンデータセットでは,提案手法は完全一致距離の点で現在のSOTAシステムよりも2.27ポイント向上する。
また、語彙的に類似した低リソースのインド言語への技術的用語の言語情報翻訳のためのサンスクリットに基づくセグメントの使用法を提案する。
このタスクのための2つの実験的な設定では、それぞれ平均8.46と6.79のchrF++スコアを達成している。
Subword tokens in Indian languages inherently carry meaning, and isolating them can enhance NLP tasks, making sub-word segmentation a crucial process. Segmenting Sanskrit and other Indian languages into subtokens is not straightforward, as it may include sandhi, which may lead to changes in the word boundaries. We propose a new approach of utilizing a Character-level Transformer model for Sanskrit Word Segmentation (CharSS). We perform experiments on three benchmark datasets to compare the performance of our method against existing methods. On the UoH+SandhiKosh dataset, our method outperforms the current state-of-the-art system by an absolute gain of 6.72 points in split prediction accuracy. On the hackathon dataset, our method achieves a gain of 2.27 points over the current SOTA system in terms of perfect match metric. We also propose a use-case of Sanskrit-based segments for a linguistically informed translation of technical terms to lexically similar low-resource Indian languages. In two separate experimental settings for this task, we achieve an average improvement of 8.46 and 6.79 chrF++ scores, respectively. | 翻訳日:2024-07-10 22:03:20 公開日:2024-07-08 |
# 浅部ニューラルネットワークを用いた三階有限差重み付き本質的に非振動方式
A third-order finite difference weighted essentially non-oscillatory scheme with shallow neural network ( http://arxiv.org/abs/2407.06333v1 ) ライセンス: Link先を確認 | Kwanghyuk Park, Xinjuan Chen, Dongjin Lee, Jiaxi Gu, Jae-Hun Jung, | (参考訳) 本稿では, 双曲的保存法則のニューラルネットワークに基づく, 本質的に非振動性(WENO)スキームの有限差分について述べる。
平均二乗誤差と平均二乗誤差の2つの損失関数を用いて、WENO3-JS重みをラベルとして計算する。
各損失関数は、ニューラルネットワークからの重みとWENO3-JS重みの差を第1成分が比較し、第2成分がニューラルネットワークの出力重みと線形重みとを一致させる2つの成分からなる。
損失関数の前者では、ニューラルネットワークがWENOプロパティに従うように強制されるため、後処理層は不要である。
さらに、後者は不連続性に関するパフォーマンスの向上につながります。
ニューラルネットワーク構造として、正規化未分割差分からなるデルタ層を用いて、計算効率を高めるための浅部ニューラルネットワーク(SNN)を選択する。
これらのWENO3-SNNスキームは, WENO3-JSとWENO3-Zのシミュレーションと比較して, 1次元実例で優れた結果を示し, 2次元実例で改善された挙動を示した。
In this paper, we introduce the finite difference weighted essentially non-oscillatory (WENO) scheme based on the neural network for hyperbolic conservation laws. We employ the supervised learning and design two loss functions, one with the mean squared error and the other with the mean squared logarithmic error, where the WENO3-JS weights are computed as the labels. Each loss function consists of two components where the first component compares the difference between the weights from the neural network and WENO3-JS weights, while the second component matches the output weights of the neural network and the linear weights. The former of the loss function enforces the neural network to follow the WENO properties, implying that there is no need for the post-processing layer. Additionally the latter leads to better performance around discontinuities. As a neural network structure, we choose the shallow neural network (SNN) for computational efficiency with the Delta layer consisting of the normalized undivided differences. These constructed WENO3-SNN schemes show the outperformed results in one-dimensional examples and improved behavior in two-dimensional examples, compared with the simulations from WENO3-JS and WENO3-Z. | 翻訳日:2024-07-10 22:03:20 公開日:2024-07-08 |
# ゴール制約付き双方向探索による二重符号化合成計画
Double-Ended Synthesis Planning with Goal-Constrained Bidirectional Search ( http://arxiv.org/abs/2407.06334v1 ) ライセンス: Link先を確認 | Kevin Yu, Jihye Roh, Ziang Li, Wenhao Gao, Runzhong Wang, Connor W. Coley, | (参考訳) コンピュータ支援合成計画(CASP)アルゴリズムは、低から中程度の複雑さの分子への逆合成経路を計画する専門家レベルの能力を示している。
しかし、現在の探索法では、任意の構造ブロックに到達し、特定の分子の使用が望まれる一般的な現実世界の制約に対処できないと仮定している。
そこで,本論文では,材料制約を起点とした合成計画の定式化について述べる。
本定式化では,目的と目標からの展開をインターリーブし,制約を満たすために,双方向グラフ探索方式に基づく新しいCASPアルゴリズムであるDouble-Ended Synthesis Planning (DESP)を提案する。
探索アルゴリズムは、有効化学反応の部分的に観察されたハイパーグラフからオフラインで学習した目標条件付きコストネットワークによって導かれる。
複数の新しいベンチマークにおいて、専門家の目標に向けた合成計画に偏りを生じさせることで、解解率の向上と探索拡張数の削減にDESPの有用性を実証する。
DESPは既存のワンステップ逆合成モデルを利用することができ、これらのワンステップモデルの性能が向上するにつれて、その性能が拡大すると予想する。
Computer-aided synthesis planning (CASP) algorithms have demonstrated expert-level abilities in planning retrosynthetic routes to molecules of low to moderate complexity. However, current search methods assume the sufficiency of reaching arbitrary building blocks, failing to address the common real-world constraint where using specific molecules is desired. To this end, we present a formulation of synthesis planning with starting material constraints. Under this formulation, we propose Double-Ended Synthesis Planning (DESP), a novel CASP algorithm under a bidirectional graph search scheme that interleaves expansions from the target and from the goal starting materials to ensure constraint satisfiability. The search algorithm is guided by a goal-conditioned cost network learned offline from a partially observed hypergraph of valid chemical reactions. We demonstrate the utility of DESP in improving solve rates and reducing the number of search expansions by biasing synthesis planning towards expert goals on multiple new benchmarks. DESP can make use of existing one-step retrosynthesis models, and we anticipate its performance to scale as these one-step model capabilities improve. | 翻訳日:2024-07-10 22:03:20 公開日:2024-07-08 |
# 衛星画像の不均一時系列における重構造検出のためのGeoWATCH
GeoWATCH for Detecting Heavy Construction in Heterogeneous Time Series of Satellite Images ( http://arxiv.org/abs/2407.06337v1 ) ライセンス: Link先を確認 | Jon Crall, Connor Greenwell, David Joy, Matthew Leotta, Aashish Chaudhary, Anthony Hoogs, | (参考訳) 複数のセンサからの学習は、時空間のずれと解像度の差とキャプチャされたスペクトルのために困難である。
そのために、複数のセンサプラットフォームから得られた衛星画像の長いシーケンスのモデルをトレーニングするための柔軟なフレームワークGeoWATCHを紹介し、画像分類、アクティビティ認識、オブジェクト検出、オブジェクト追跡タスクを処理するように設計されている。
本システムにはサブグラフアイソモーフィズムに基づく新しい部分重み付け機構が組み込まれており,多くのトレーニングサイクルを通じてネットワークを継続的にトレーニングし,修正することができる。
これにより、長期にわたってモデルの行をトレーニングすることが可能となり、コアのバックボーンを維持しながら構成を調整することで、パフォーマンスが向上しました。
Learning from multiple sensors is challenging due to spatio-temporal misalignment and differences in resolution and captured spectra. To that end, we introduce GeoWATCH, a flexible framework for training models on long sequences of satellite images sourced from multiple sensor platforms, which is designed to handle image classification, activity recognition, object detection, or object tracking tasks. Our system includes a novel partial weight loading mechanism based on sub-graph isomorphism which allows for continually training and modifying a network over many training cycles. This has allowed us to train a lineage of models over a long period of time, which we have observed has improved performance as we adjust configurations while maintaining a core backbone. | 翻訳日:2024-07-10 22:03:20 公開日:2024-07-08 |
# 運転行動予測のための騒音のない説明法
Noise-Free Explanation for Driving Action Prediction ( http://arxiv.org/abs/2407.06339v1 ) ライセンス: Link先を確認 | Hongbo Zhu, Theodor Wulff, Rahul Singh Maharjan, Jinpei Han, Angelo Cangelosi, | (参考訳) 注意機構は、様々な人工知能(AI)ドメインにまたがるトランスフォーマーベースのアーキテクチャにおいてかなりの進歩を遂げてきたが、その内部動作はいまだに検討されている。
既存の説明可能な方法は異なる相を持つが、どちらか一方である。
主に注意機構や勾配に基づく属性を分析し、入力特徴値やスキップ接続モジュールの大きさを無視する。
さらに、彼らは必然的に、モデルの決定とは無関係に、うるさくノイズの多いピクセルの属性をもたらし、観察された視覚化結果に対する人間の信頼を妨げます。
そこで本稿では,スムースノイズノルム注意法(SNNA)を提案する。
変換された値ベクトルのノルムで注意を重み付け、アテンション勾配でラベル固有の信号を誘導し、入力摂動をランダムにサンプリングし、対応する勾配を平均化し、ノイズのない属性を生成する。
従来の研究のような二項・多項分類タスクの説明法を評価する代わりに、本研究におけるより複雑な多ラベル分類シナリオ、すなわち駆動動作予測タスクについて検討し、そのモデルに特化して訓練する。
定性的かつ定量的な評価結果は、より明確な視覚的説明図を作成し、入力画素の重要度をランク付けする他のSOTA注意に基づく説明可能な方法と比較して、SNNAの優位性を示している。
Although attention mechanisms have achieved considerable progress in Transformer-based architectures across various Artificial Intelligence (AI) domains, their inner workings remain to be explored. Existing explainable methods have different emphases but are rather one-sided. They primarily analyse the attention mechanisms or gradient-based attribution while neglecting the magnitudes of input feature values or the skip-connection module. Moreover, they inevitably bring spurious noisy pixel attributions unrelated to the model's decision, hindering humans' trust in the spotted visualization result. Hence, we propose an easy-to-implement but effective way to remedy this flaw: Smooth Noise Norm Attention (SNNA). We weigh the attention by the norm of the transformed value vector and guide the label-specific signal with the attention gradient, then randomly sample the input perturbations and average the corresponding gradients to produce noise-free attribution. Instead of evaluating the explanation method on the binary or multi-class classification tasks like in previous works, we explore the more complex multi-label classification scenario in this work, i.e., the driving action prediction task, and trained a model for it specifically. Both qualitative and quantitative evaluation results show the superiority of SNNA compared to other SOTA attention-based explainable methods in generating a clearer visual explanation map and ranking the input pixel importance. | 翻訳日:2024-07-10 20:04:29 公開日:2024-07-08 |
# 量子ダイナミクスのためのトラクタブルA事前次元性低減
Tractable A Priori Dimensionality Reduction for Quantum Dynamics ( http://arxiv.org/abs/2407.06340v1 ) ライセンス: Link先を確認 | Patrick Cook, | (参考訳) この短文では、一般化固有値分解に対する小用量ヤコビ・ダビッドソンアルゴリズムの次元化における強力な応用について述べる。
関連する作用素の行列のない実装と組み合わせることで、任意の量子状態の力学を$\mathcal{O}(n)$ timeで計算することができる。
In this short letter, I present a powerful application in dimensionality reduction of the lesser-used Jacobi-Davidson algorithm for the generalized eigenvalue decomposition. When combined with matrix-free implementations of relevant operators, this technique allows for the computation of the dynamics of an arbitrary quantum state to be done in $\mathcal{O}(n)$ time, where $n$ is the size of the original Hilbert space. | 翻訳日:2024-07-10 20:04:29 公開日:2024-07-08 |
# 高次元イメージングの新しいモデル:高分解能fMRI加速と定量化
Novel Models for High-Dimensional Imaging: High-Resolution fMRI Acceleration and Quantification ( http://arxiv.org/abs/2407.06343v1 ) ライセンス: Link先を確認 | Shouchang Guo, | (参考訳) 機能的磁気共鳴イメージング(fMRI)の目標は、高信号対雑音比(SNR)の高空間分解能と時間分解能である。
空間分解能と時間分解能を同時に向上させ,OSSIの高SNR優位性を維持するために,高速かつ高分解能fMRI再構成と物理パラメータ定量化のためのパイプラインを提案する。
本稿では,パッチテンソルの低ランクモデル,物理ベースの多様体モデル,ボクセルの注意ネットワークを提案する。
獲得と再構築のための新しいモデルを用いて,スキャン時間を犠牲にすることなく,SNRと解像度を同時に改善できることを実証する。
提案したモデルは全て、高分解能とより機能的な情報による他の比較手法よりも優れている。
The goals of functional Magnetic Resonance Imaging (fMRI) include high spatial and temporal resolutions with a high signal-to-noise ratio (SNR). To simultaneously improve spatial and temporal resolutions and maintain the high SNR advantage of OSSI, we present novel pipelines for fast acquisition and high-resolution fMRI reconstruction and physics parameter quantification. We propose a patch-tensor low-rank model, a physics-based manifold model, and a voxel-wise attention network. With novel models for acquisition and reconstruction, we demonstrate that we can improve SNR and resolution simultaneously without compromising scan time. All the proposed models outperform other comparison approaches with higher resolution and more functional information. | 翻訳日:2024-07-10 20:04:29 公開日:2024-07-08 |
# ソーシャル・セッティングにおける実世界のシーン認識のためのマルチパーソン・アイトラッキング
Multi-person eye tracking for real-world scene perception in social settings ( http://arxiv.org/abs/2407.06345v1 ) ライセンス: Link先を確認 | Shreshth Saxena, Areez Visram, Neil Lobo, Zahid Mirza, Mehak Rafi Khan, Biranugan Pirabaharan, Alexander Nguyen, Lauren K. Fink, | (参考訳) 眼球運動は人間の行動、注意、相互作用のダイナミクスの窓となる。
以前の研究では、眼球運動はタスク、セッティング、社会的な他者の影響を強く受けていることが示唆されているが、ほとんどの眼球追跡研究はシングル・パーソナリティ、イン・ラブ・セッティングで行われており、マルチ・パーソナリティ、ナチュラル・コンテクストではまだ検証されていない。
このような現実的な文脈の1つは、例えばコンサート、映画、講義、スポーツなど、共有シーンを社会的設定で集合的に見ることである。
そこで我々は,実世界のマルチパーソン・セットアップにモバイルアイトラッキングを適用し,同期データをストリームし,記録し,分析するシステムを開発した。
参加者(N=60)が公開イベントでライブコンサートとドキュメンタリー映像の上映を観ている間,提案したオープンソースシステムを検証した。
我々は、ネットワーク帯域幅の要求、リアルタイム監視、および個々の自我中心的な視点からの視線投影に関する課題に取り組み、共通の視線分析のための座標空間に対処した。
本システムは,挑戦的な動的シーンにおける正確な時間同期と正確な視線投影を実現する。
さらに、眼球追跡データの可能性を説明するために、新しい分析指標と可視化を導入し、評価する。
本手法は,現実の社会環境における多目的多人数視線追跡システムの開発と応用に寄与する。
この進歩は、協調行動、グループダイナミクス、社会的相互作用に関する洞察を、高い生態学的妥当性で得る。
さらに、社会的文脈における協調と協調を促進する革新的でインタラクティブなツールの道を開く。
Eye movements provide a window into human behaviour, attention, and interaction dynamics. Previous research suggests that eye movements are highly influenced by task, setting, and social others; however, most eye tracking research is conducted in single-person, in-lab settings and is yet to be validated in multi-person, naturalistic contexts. One such prevalent real-world context is the collective viewing of a shared scene in social settings, for example, viewing a concert, film, lecture, sports, etc. Here, we apply mobile eye tracking in a real-world multi-person setup and develop a system to stream, record, and analyse synchronised data. We tested our proposed, open-source system while participants (N=60) watched a live concert and a documentary film screening during a public event. We tackled challenges related to networking bandwidth requirements, real-time monitoring, and gaze projection from individual egocentric perspectives to a common coordinate space for shared gaze analysis. Our system achieves precise time synchronisation and accurate gaze projection in challenging dynamic scenes. Further, to illustrate the potential of collective eye-tracking data, we introduce and evaluate novel analysis metrics and visualisations. Overall, our approach contributes to the development and application of versatile multi-person eye tracking systems in real-world social settings. This advancement enables insight into collaborative behaviour, group dynamics, and social interaction, with high ecological validity. Moreover, it paves the path for innovative, interactive tools that promote collaboration and coordination in social contexts. | 翻訳日:2024-07-10 20:04:29 公開日:2024-07-08 |
# スケーラブル通信効率の良いグローバルアップデートを用いた高次元分散スパース分類
High-Dimensional Distributed Sparse Classification with Scalable Communication-Efficient Global Updates ( http://arxiv.org/abs/2407.06346v1 ) ライセンス: Link先を確認 | Fred Lu, Ryan R. Curtin, Edward Raff, Francis Ferraro, James Holt, | (参考訳) 統計学習に使用されるデータセットのサイズが大きくなるにつれて、モデルの分散トレーニングが注目を集めている。
これらのメソッドはデータを分割し、並列性を利用してメモリとランタイムを削減しますが、データサイズやイテレーションの数が増えるにつれて通信コストの増大に悩まされます。
線形モデルに関する最近の研究は、通信効率のよい方法で初期解を反復的に改善するために、代理確率を局所的に最適化できることを示してきた。
しかし、これらのメソッドの既存バージョンは、更新のばらつきやスパシティの効率的な処理を含む、データサイズが大きくなるにつれて、複数の欠点を経験する。
本研究では,コミュニケーション効率のよい分散ロジスティック回帰モデルを学ぶことができるような問題に対するソリューションを開発する。
実験では、いくつかの分散更新ステップと、同様のあるいはより高速なランタイムで、分散アルゴリズムよりも精度が大幅に向上することを示した。
私たちのコードは \url{https://github.com/FutureComputing4AI/ProxCSL} で利用可能です。
As the size of datasets used in statistical learning continues to grow, distributed training of models has attracted increasing attention. These methods partition the data and exploit parallelism to reduce memory and runtime, but suffer increasingly from communication costs as the data size or the number of iterations grows. Recent work on linear models has shown that a surrogate likelihood can be optimized locally to iteratively improve on an initial solution in a communication-efficient manner. However, existing versions of these methods experience multiple shortcomings as the data size becomes massive, including diverging updates and efficiently handling sparsity. In this work we develop solutions to these problems which enable us to learn a communication-efficient distributed logistic regression model even beyond millions of features. In our experiments we demonstrate a large improvement in accuracy over distributed algorithms with only a few distributed update steps needed, and similar or faster runtimes. Our code is available at \url{https://github.com/FutureComputing4AI/ProxCSL}. | 翻訳日:2024-07-10 20:04:29 公開日:2024-07-08 |
# FORAY:DeFiプロトコルにおける深い論理的脆弱性に対する効果的な攻撃合成を目指して
FORAY: Towards Effective Attack Synthesis against Deep Logical Vulnerabilities in DeFi Protocols ( http://arxiv.org/abs/2407.06348v1 ) ライセンス: Link先を確認 | Hongbo Wen, Hanzhi Liu, Jiaxin Song, Yanju Chen, Wenbo Guo, Yu Feng, | (参考訳) ブロックチェーンの採用は、分散ファイナンス(DeFi)アプリケーションの増加に伴って急増している。
しかし、DeFiプロトコルが管理するデジタル資産のかなりの価値は、攻撃の標的となる。
現在のスマートコントラクトの脆弱性検出ツールは、複数のスマートコントラクト間の複雑な金融インタラクションに起因する深い論理的バグのために、DeFiプロトコルに苦労している。
これらのツールは、主に個々のコントラクトを分析し、多数のスマートコントラクトを横断するDeFiプロトコルのブルートフォースメソッドを利用する。
我々は,DeFiプロトコルの深い論理的バグに対して,非常に効果的な攻撃合成フレームワークであるForayを紹介する。
Foray氏は、新しいアタックスケッチ生成と補完フレームワークを提案する。
具体的には、DeFisを通常のプログラムとして扱う代わりに、ドメイン固有言語(DSL)を設計し、低レベルのスマートコントラクトをハイレベルな金融操作に引き上げます。
DSLに基づいて、まず指定されたDeFiプロトコルをトークンフローグラフにコンパイルします。
そして,特定の攻撃目標(価格操作,仲裁など)に対する攻撃スケッチを効率よく合成するスケッチ生成手法を設計する。
このアルゴリズムは、ランダム列挙よりもはるかに効率的なTFGの到達可能な経路を見つけることによって、候補スケッチを戦略的に同定する。
ドメイン固有のシンボリックコンパイルを設計し、それをSMT制約にコンパイルします。
我々のコンパイルは、冗長なスマートコントラクトセマンティクスを取り除き、制約を単純化する。
シンボリックコンパイルのユーザビリティを維持するが、桁違いに大きい問題にスケールする。
最後に、候補は既存のソルバで完了し、直接構文変換によって具体的な攻撃に変換される。
Blockchain adoption has surged with the rise of Decentralized Finance (DeFi) applications. However, the significant value of digital assets managed by DeFi protocols makes them prime targets for attacks. Current smart contract vulnerability detection tools struggle with DeFi protocols due to deep logical bugs arising from complex financial interactions between multiple smart contracts. These tools primarily analyze individual contracts and resort to brute-force methods for DeFi protocols crossing numerous smart contracts, leading to inefficiency. We introduce Foray, a highly effective attack synthesis framework against deep logical bugs in DeFi protocols. Foray proposes a novel attack sketch generation and completion framework. Specifically, instead of treating DeFis as regular programs, we design a domain-specific language (DSL) to lift the low-level smart contracts into their high-level financial operations. Based on our DSL, we first compile a given DeFi protocol into a token flow graph, our graphical representation of DeFi protocols. Then, we design an efficient sketch generation method to synthesize attack sketches for a certain attack goal (e.g., price manipulation, arbitrage, etc.). This algorithm strategically identifies candidate sketches by finding reachable paths in TFG, which is much more efficient than random enumeration. For each candidate sketch written in our DSL, Foray designs a domain-specific symbolic compilation to compile it into SMT constraints. Our compilation simplifies the constraints by removing redundant smart contract semantics. It maintains the usability of symbolic compilation, yet scales to problems orders of magnitude larger. Finally, the candidates are completed via existing solvers and are transformed into concrete attacks via direct syntax transformation. | 翻訳日:2024-07-10 20:04:29 公開日:2024-07-08 |
# 大言語モデルリコール不確かさはファン効果によって変調される
Large Language Model Recall Uncertainty is Modulated by the Fan Effect ( http://arxiv.org/abs/2407.06349v1 ) ライセンス: Link先を確認 | Jesse Roberts, Kyle Moore, Thao Pham, Oseremhen Ewaleifoh, Doug Fisher, | (参考訳) 本稿では,人間のテキストデータを用いて事前学習した後,大きな言語モデル(LLM)が,アンダーソンがヒトで発見したものと同様の認知ファン効果を示すか否かを評価する。
ファン効果を誘発する2組のコンテキスト内リコール実験を行う。
また, LLMリコールの不確実性は, トークンの確率によって測定され, ファン効果に影響されていることがわかった。
以上の結果から,不確実性除去が観察効果を阻害することが明らかとなった。
実験により、ファン効果は、ファン値が文脈内で誘導されるか、事前学習データ内で誘導されるかの一致が示唆された。
最後に、これらの発見はファン効果と典型性が同じ現象の表現であることを示す。
This paper evaluates whether large language models (LLMs) exhibit cognitive fan effects, similar to those discovered by Anderson in humans, after being pre-trained on human textual data. We conduct two sets of in-context recall experiments designed to elicit fan effects. Consistent with human results, we find that LLM recall uncertainty, measured via token probability, is influenced by the fan effect. Our results show that removing uncertainty disrupts the observed effect. The experiments suggest the fan effect is consistent whether the fan value is induced in-context or in the pre-training data. Finally, these findings provide in-silico evidence that fan effects and typicality are expressions of the same phenomena. | 翻訳日:2024-07-10 20:04:29 公開日:2024-07-08 |
# コンピュータビジョンと機械学習を用いた高速フェノタイピング
High-Throughput Phenotyping using Computer Vision and Machine Learning ( http://arxiv.org/abs/2407.06354v1 ) ライセンス: Link先を確認 | Vivaan Singhvi, Langalibalele Lunga, Pragya Nidhi, Chris Keum, Varrun Prakash, | (参考訳) 高スループット表現型は、植物表現型の非破壊的で効率的な評価である。
近年、大規模データセットの処理効率を高め、特定の形質を抽出する手法を開発することで、植物を表現型化するプロセスを改善するために機械学習と結合されている。
従来の研究では、ディープニューラルネットワークを自動カメラでタンデムに応用することで、これらの課題を前進させる方法が開発されてきたが、研究されているデータセットはしばしば物理的なラベルを除外している。
本研究では,オークリッジ国立研究所が提供した1,672枚のPopulus Trichocarpaの画像と,処理(制御や干ばつ),ブロック,行,位置,遺伝子型を示す白いラベルを用いたデータセットを用いた。
光文字認識(OCR)は植物上でこれらのラベルを読み取るのに用いられ、機械学習アルゴリズムと併用した画像分割技術は形態分類に使われ、機械学習モデルはそれらの分類に基づいて治療を予測するために用いられ、解析されたEXIFタグは葉の大きさと表現型間の相関を見出すために使用された。
我々のOCRモデルは、非ヌルテキスト抽出に対して94.31%の精度を持ち、情報をスプレッドシートに正確に配置できることがわかった。
分類モデルでは, 葉の形状, 色, 褐色の斑点が62.82%, 植物処理が60.08%であった。
最後に,葉の大きさを評価するのを妨げたEXIFタグから欠落したいくつかの重要な情報を同定した。
表現型と条件の相関性の評価を阻害する情報も欠落していた。
しかし、今後の研究はこれらの特徴を評価するために改善される可能性がある。
High-throughput phenotyping refers to the non-destructive and efficient evaluation of plant phenotypes. In recent years, it has been coupled with machine learning in order to improve the process of phenotyping plants by increasing efficiency in handling large datasets and developing methods for the extraction of specific traits. Previous studies have developed methods to advance these challenges through the application of deep neural networks in tandem with automated cameras; however, the datasets being studied often excluded physical labels. In this study, we used a dataset provided by Oak Ridge National Laboratory with 1,672 images of Populus Trichocarpa with white labels displaying treatment (control or drought), block, row, position, and genotype. Optical character recognition (OCR) was used to read these labels on the plants, image segmentation techniques in conjunction with machine learning algorithms were used for morphological classifications, machine learning models were used to predict treatment based on those classifications, and analyzed encoded EXIF tags were used for the purpose of finding leaf size and correlations between phenotypes. We found that our OCR model had an accuracy of 94.31% for non-null text extractions, allowing for the information to be accurately placed in a spreadsheet. Our classification models identified leaf shape, color, and level of brown splotches with an average accuracy of 62.82%, and plant treatment with an accuracy of 60.08%. Finally, we identified a few crucial pieces of information absent from the EXIF tags that prevented the assessment of the leaf size. There was also missing information that prevented the assessment of correlations between phenotypes and conditions. However, future studies could improve upon this to allow for the assessment of these features. | 翻訳日:2024-07-10 20:04:29 公開日:2024-07-08 |
# 推論のための言語プログラミングに向けて:人間、記号システム、AIエージェント
Toward Programming Languages for Reasoning: Humans, Symbolic Systems, and AI Agents ( http://arxiv.org/abs/2407.06356v1 ) ライセンス: Link先を確認 | Mark Marron, | (参考訳) 統合、構成、機械化、AIによる開発支援は、ソフトウェア開発の将来を駆動するテーマである。
これらの概念の中核は、私たちの世界でますます重要になっているコンピューティングの役割、より早く機能を提供し、より高い品質で、より多くの人にプログラムによる自動化の恩恵を与えるという欲求に根ざしています。
これらのテーマ、そしてそれらを動かす人間開発者に与える影響は、次世代のプログラミング言語の基礎となります。
一見したところ、開発速度、ソフトウェア品質、ソフトウェア民主化に関するさまざまな目標とともに、機械化ツール、AIエージェント、ヒューマン開発者のニーズは、広く、明らかに多様なニーズセットである。
しかし、その中心となる課題は、一度解決すれば、これらのすべての領域で急進的な進歩を可能にする、単一の課題です。
私たちの仮説は、基本的には、ソフトウェア開発はコードとセマンティクスを推論する問題である、というものです。
これは、人間の開発者がアプリケーションの振る舞いのモデルを構築する象徴的なツールや、タスクを実行する言語ベースのAIエージェントの実装に当てはまる。
それぞれのエージェントが苦労する推論の特定の側面はある程度異なるが、多くの共通テーマを共有しており、驚くべきことに、ほとんどの主流言語は、このタスクを困難または不可能にする(反)機能を採用しています!
本稿では,この課題に対する新しいアプローチを提案する。新しい言語機能や論理構造ではなく,すでに複雑化している問題にさらなる複雑性を加えることを目的として,Bosqueプラットフォームと言語という形で急進的な単純化を提案する。
Integration, composition, mechanization, and AI assisted development are the driving themes in the future of software development. At their core these concepts are rooted in the increasingly important role of computing in our world, the desire to deliver functionality faster, with higher quality, and to empower more people to benefit from programmatic automation. These themes, and how they impact the human developers driving them, are the foundations for the next generation of programming languages. At first glance the needs of mechanization tools, AI agents, and human developers along with the various goals around development velocity, software quality, and software democratization are a broad and seemingly diverse set of needs. However, at their core is a single challenge that, once resolved, enables us to make radical progress in all of these areas. Our hypothesis is that, fundamentally, software development is a problem of reasoning about code and semantics. This is true for human developers implementing a feature, symbolic tools building models of application behavior, and even for language based AI agents as they perform tasks. While the particular aspects of reasoning that each agent struggles with varies to some degree, they share many common themes and, surprisingly, most mainstream languages extensively employ (anti)features that make this task harder or infeasible! This paper proposes a novel approach to this challenge -- instead of new language features or logical constructs, that add more complexity to what is already a problem of complexity, we propose radical simplification in the form of the Bosque platform and language. | 翻訳日:2024-07-10 20:04:29 公開日:2024-07-08 |
# アジャイルソフトウェア開発におけるパフォーマンスの測定方法 : 混合手法による研究
How to Measure Performance in Agile Software Development? A Mixed-Method Study ( http://arxiv.org/abs/2407.06357v1 ) ライセンス: Link先を確認 | Kevin Phong Pham, Michael Neumann, | (参考訳) コンテキスト: ソフトウェアプロセス改善(SPI)はソフトウェア開発で成功するための鍵として知られています。
アジャイルのアプローチは、ダイナミックな市場における短期的な成功に強く焦点を絞っているため、品質とパフォーマンスの測定はアジャイルソフトウェア開発において非常に重要である。
ソフトウェアエンジニアリングの研究がアジャイルメソッドの使用時のパフォーマンス指標の重要性を強調しているとしても、その文献はそのようなメトリクスを実際に適用する方法や、それを使用する際の課題の詳細を欠いている。
目的: 私たちの調査の中核的な目的は、アジャイルソフトウェア開発のパフォーマンス指標を実際に使用するときに生じる課題と、その成功例を改善する方法を見つけることです。
方法:混合方法論の研究を設計することとした。
まず、使用済みパフォーマンスメトリクスの最新の概要を提供するために、高速な文献レビューを実施しました。
第2に、フォーカスグループアプローチと4次データ収集と分析を実世界の環境で実施したケーススタディを行った。
結果: 私たちの結果は,ストーリポイントやバーンダウンチャートなどの広く使用されているパフォーマンス指標が実際に広く使用されている一方で,アジャイルソフトウェア開発チームは,透明性と標準化の欠如と,不十分な正確性のため,課題に直面しています。
コントリビューション: 私たちの調査結果に基づいて、アジャイルソフトウェア開発に広く使用されているパフォーマンスメトリクスのリポジトリを提示します。
さらに、実践者や研究者、特にアジャイルソフトウェア開発が直面する課題に対処する上で、そのようなメトリクスを実践的に適用する上で、どのような意味を持つのかを示します。
Context: Software process improvement (SPI) is known as a key for being successfull in software development. Measuring quality and performance is of high importance in agile software development as agile approaches focussing strongly on short-term success in dynamic markets. Even if software engineering research emphasizes the importance of performance metrics while using agile methods, the literature lacks on detail how to apply such metrics in practice and what challenges may occur while using them. Objective: The core objective of our study is to identify challenges that arise when using agile software development performance metrics in practice and how we can improve their successful application. Method: We decided to design a mixed-method study. First, we performed a rapid literature review to provide an up-to-date overview of used performance metrics. Second, we conducted a single case study using a focus group approach and qualitativ data collection and analysis in a real-world setting. Results: Our results show that while widely used performance metrics such as story points and burn down charts are widely used in practice, agile software development teams face challenges due to a lack of transparency and standardization as well as insufficient accuracy. Contributions: Based on our findings, we present a repository of widely used performance metrics for agile software development. Furthermore, we present implications for practitioners and researchers especially how to deal with challenges agile software development face while applying such metrics in practice. | 翻訳日:2024-07-10 20:04:29 公開日:2024-07-08 |
# MiraData: 長い期間と構造化されたキャプションを備えた大規模ビデオデータセット
MiraData: A Large-Scale Video Dataset with Long Durations and Structured Captions ( http://arxiv.org/abs/2407.06358v1 ) ライセンス: Link先を確認 | Xuan Ju, Yiming Gao, Zhaoyang Zhang, Ziyang Yuan, Xintao Wang, Ailing Zeng, Yu Xiong, Qiang Xu, Ying Shan, | (参考訳) ソラのハイモーションの強さと長い一貫したビデオは、ビデオ生成の分野に大きな影響を与え、前例のない注目を集めた。
しかし、現在公開されているデータセットは、動きの強度が低い短い短いビデオと短いキャプションを含むため、Soraのようなビデオを生成するには不十分である。
これらの問題に対処するために、ビデオの長さ、キャプションの詳細、動きの強さ、視覚的品質で先行する高品質なビデオデータセットであるMiraDataを提案する。
多様な手動で選択したソースからMiraDataをキュレートし、データを精巧に処理して意味的に一貫性のあるクリップを得る。
GPT-4Vはアノテートされたキャプションに使用され、4つの異なる視点から詳細な説明と要約された高密度キャプションを提供する。
ビデオ生成における時間的一貫性と運動強度をよりよく評価するために,3次元の一貫性とトラッキングに基づく運動強度測定を追加することで,既存のベンチマークを強化するMiraBenchを導入する。
MiraBenchには150の評価プロンプトと17のメトリクスが含まれており、時間的一貫性、動きの強さ、3Dの一貫性、視覚的品質、テキストとビデオのアライメント、分布の類似性などを含んでいる。
MiraDataの有用性と有効性を示すために、我々は、DiTベースのビデオ生成モデルであるMiraDiTを用いて実験を行う。
MiraBenchの実験結果は、特に運動強度において、MiraDataの優位性を示している。
Sora's high-motion intensity and long consistent videos have significantly impacted the field of video generation, attracting unprecedented attention. However, existing publicly available datasets are inadequate for generating Sora-like videos, as they mainly contain short videos with low motion intensity and brief captions. To address these issues, we propose MiraData, a high-quality video dataset that surpasses previous ones in video duration, caption detail, motion strength, and visual quality. We curate MiraData from diverse, manually selected sources and meticulously process the data to obtain semantically consistent clips. GPT-4V is employed to annotate structured captions, providing detailed descriptions from four different perspectives along with a summarized dense caption. To better assess temporal consistency and motion intensity in video generation, we introduce MiraBench, which enhances existing benchmarks by adding 3D consistency and tracking-based motion strength metrics. MiraBench includes 150 evaluation prompts and 17 metrics covering temporal consistency, motion strength, 3D consistency, visual quality, text-video alignment, and distribution similarity. To demonstrate the utility and effectiveness of MiraData, we conduct experiments using our DiT-based video generation model, MiraDiT. The experimental results on MiraBench demonstrate the superiority of MiraData, especially in motion strength. | 翻訳日:2024-07-10 20:04:29 公開日:2024-07-08 |
# CodeCSE: コードとコメントの埋め込みのためのシンプルな多言語モデル
CodeCSE: A Simple Multilingual Model for Code and Comment Sentence Embeddings ( http://arxiv.org/abs/2407.06360v1 ) ライセンス: Link先を確認 | Anthony Varkey, Siyuan Jiang, Weijing Huang, | (参考訳) コードトークン埋め込みのための事前訓練された言語モデルは、コード検索、コードクローン検出、その他のコード関連タスクで使用される。
同様に、コード関数の埋め込みはそのようなタスクに役立ちます。
しかし、現在の文献に関数埋め込みのアウト・オブ・ボックスモデルはない。
そこで本稿では,関数の埋め込みとその記述をひとつの空間で学習するコントラスト学習モデルであるCodeCSEを提案する。
コード検索を用いてCodeCSEを評価した。
CodeCSEのマルチ言語ゼロショットアプローチは、特定の言語向けにGraphCodeBERTから微調整されたモデルと同じくらい効率的である。
CodeCSEはhttps://github.com/emu-se/codecseでオープンソースであり、事前訓練されたモデルはHuggingFaceパブリックハブで利用可能である。
Pretrained language models for code token embeddings are used in code search, code clone detection, and other code-related tasks. Similarly, code function embeddings are useful in such tasks. However, there are no out-of-box models for function embeddings in the current literature. So, this paper proposes CodeCSE, a contrastive learning model that learns embeddings for functions and their descriptions in one space. We evaluated CodeCSE using code search. CodeCSE's multi-lingual zero-shot approach is as efficient as the models finetuned from GraphCodeBERT for specific languages. CodeCSE is open source at https://github.com/emu-se/codecse and the pretrained model is available at the HuggingFace public hub: https://huggingface.co/sjiang1/codecse | 翻訳日:2024-07-10 20:04:29 公開日:2024-07-08 |
# 選択的なスライド画像アノテーションのための画像キャプションの活用
Leveraging image captions for selective whole slide image annotation ( http://arxiv.org/abs/2407.06363v1 ) ライセンス: Link先を確認 | Jingna Qiu, Marc Aubreville, Frauke Wilm, Mathias Öttl, Jonas Utz, Maja Schlereth, Katharina Breininger, | (参考訳) 組織セグメンテーションマスクの作成や有糸球体の検出など,スライド画像全体(WSI)に基づく深層学習タスクのアノテーション取得は,広範な画像サイズとアノテーションに関わる重要な手作業のため,困難な作業である。
本稿では,限定的なアノテーション予算を前提として,モデルトレーニングを最適化する特定の画像領域を特定し,注釈付けすることに焦点を当てる。
ランダムサンプリングは、WSI全体のアノテーション領域を収集することでデータの分散を捉えるのに役立つが、データキュレーションが不十分なため、マイノリティクラスの表現が不十分になる可能性がある。
近年の研究では,WSIの特徴を最大限に表す領域を選択するための多様性サンプリングが提案されている。
これは、自己教師付き学習を通じてラベルなしのデータを事前学習し、潜在空間内のすべての領域をクラスタリングすることで実現される。
しかし、最適なクラスタ数を確立することは困難であり、すべてのクラスタがタスク関連であるとは限らない。
本稿では,アノテーション領域選択のための新しい手法であるプロトタイプサンプリングを提案する。
各タスク固有のクラスの典型的な特徴を示す領域を発見する。
このプロセスは、広範な病理画像キャプチャーデータベースからクラスプロトタイプを認識し、これらのプロトタイプに類似したラベルのない画像領域を検出する。
本研究の結果から, アノテーション領域に意味的セグメンテーションやミトティックな図形検出タスクにおいて, アノテーション領域の同定において, プロトタイプサンプリングは, ランダム・多様性サンプリングよりも有効であることが示唆された。
コードはhttps://github.com/DeepMicroscopy/Prototype-sampling.comで入手できる。
Acquiring annotations for whole slide images (WSIs)-based deep learning tasks, such as creating tissue segmentation masks or detecting mitotic figures, is a laborious process due to the extensive image size and the significant manual work involved in the annotation. This paper focuses on identifying and annotating specific image regions that optimize model training, given a limited annotation budget. While random sampling helps capture data variance by collecting annotation regions throughout the WSIs, insufficient data curation may result in an inadequate representation of minority classes. Recent studies proposed diversity sampling to select a set of regions that maximally represent unique characteristics of the WSIs. This is done by pretraining on unlabeled data through self-supervised learning and then clustering all regions in the latent space. However, establishing the optimal number of clusters can be difficult and not all clusters are task-relevant. This paper presents prototype sampling, a new method for annotation region selection. It discovers regions exhibiting typical characteristics of each task-specific class. The process entails recognizing class prototypes from extensive histopathology image-caption databases and detecting unlabeled image regions that resemble these prototypes. Our results show that prototype sampling is more effective than random and diversity sampling in identifying annotation regions with valuable training information, resulting in improved model performance in semantic segmentation and mitotic figure detection tasks. Code is available at https://github.com/DeepMicroscopy/Prototype-sampling. | 翻訳日:2024-07-10 20:04:29 公開日:2024-07-08 |
# ロスレジリエントで効率的なX線相互作用のない測定
Loss-resilient, efficient x-ray interaction-free measurements ( http://arxiv.org/abs/2407.06369v1 ) ライセンス: Link先を確認 | Ron Cohen, Sharon Shwartz, Eliahu Cohen, | (参考訳) IFM(Interaction-free Measurement)は低線量検出とイメージングのための有望な手法であり、被検光子を吸収することなく物体を探査するユニークな利点を提供する。
単一X線光子系におけるIMFの実証実験を提案する。
提案手法は、各ラウ回折が損失ビームスプリッタとして機能するトリプルラウ対称X線干渉計に依存する。
損失に対して非常に脆弱な多くの量子効果とは対照的に、X線状態におけるこの効果の実験的実証は可能であり、システムにかなりの損失がある場合でも高いIMM効率を達成することができることを示す。
後者の側面は、我々の理論解析に基づくIMMの一般的な性質であると考えられている。
最大$\eta\sim \frac{1}{2}$の効率を提供する2つの適切な検出スキームを精査する。
X線によるICMの実証の成功は、放射線損傷が重大な制限となる生物試料に主に有利な、線量削減による測定に興味深い可能性をもたらすことを約束している。
Interaction-free measurement (IFM) is a promising technique for low-dose detection and imaging, offering the unique advantage of probing an object without absorption of the interrogating photons. We propose an experiment to demonstrate IFM in the single x-ray photon regime. The proposed scheme relies on the triple-Laue (LLL) symmetric x-ray interferometer, where each Laue diffraction acts as a lossy beamsplitter. In contrast to many quantum effects which are highly vulnerable to loss, we show that an experimental demonstration of this effect in the x-ray regime is feasible and can achieve high IFM efficiency even in the presence of substantial loss in the system. The latter aspect is claimed to be a general property of IFM based on our theoretical analysis. We scrutinize two suitable detection schemes that offer efficiencies of up to $\eta\sim \frac{1}{2}$. The successful demonstration of IFM with x-rays promises intriguing possibilities for measurements with reduced dose, mainly advantageous for biological samples, where radiation damage is a significant limitation. | 翻訳日:2024-07-10 20:04:29 公開日:2024-07-08 |
# 非破壊的特徴は1クラス分類において常に有用ではない
Non-Robust Features are Not Always Useful in One-Class Classification ( http://arxiv.org/abs/2407.06372v1 ) ライセンス: Link先を確認 | Matthew Lau, Haoran Wang, Alec Helbling, Matthew Hul, ShengYun Peng, Martin Andreoni, Willian T. Lunardi, Wenke Lee, | (参考訳) 機械学習モデルの堅牢性は、敵対的な例の存在によって疑問視されている。
一級分類のための軽量モデルを必要とする実践的応用における敵例の脅威について検討する。
Ilyas et al (2019) を用いて, 敵攻撃に対する軽量な一級分類器の脆弱性とその可能性について検討した。
その結果,軽量な一級分類器はより強力な攻撃下では頑丈でない(例えばテクスチャ)特徴を学習することがわかった。
しかし、多クラス分類(Ilyas et al , 2019)とは異なり、これらの非破壊的特徴は必ずしも一クラス課題に有用ではない。
The robustness of machine learning models has been questioned by the existence of adversarial examples. We examine the threat of adversarial examples in practical applications that require lightweight models for one-class classification. Building on Ilyas et al. (2019), we investigate the vulnerability of lightweight one-class classifiers to adversarial attacks and possible reasons for it. Our results show that lightweight one-class classifiers learn features that are not robust (e.g. texture) under stronger attacks. However, unlike in multi-class classification (Ilyas et al., 2019), these non-robust features are not always useful for the one-class task, suggesting that learning these unpredictive and non-robust features is an unwanted consequence of training. | 翻訳日:2024-07-10 20:04:29 公開日:2024-07-08 |
# 量子軌道に沿った量子エントロピー生成のための厳密な公式
An Exact Formula for Quantum Entropy Production along Quantum Trajectories ( http://arxiv.org/abs/2407.06378v1 ) ライセンス: Link先を確認 | John E. Gough, Nina H. Amini, | (参考訳) 連続的な測定を行う量子系の条件状態に対するフォン・ノイマンエントロピーの変化率の正確な式を与える。
ここでは、非可換テイラー級数展開を与えるPaychaのフォーミュラ {Paycha} を用いる。
We give an exact formula for the rate of change of the von Neumann entropy for the conditional state of a quantum system undergoing continuous measurement. Here we employ Paycha's Formula \cite{Paycha} which gives the noncommutative Taylor series development. | 翻訳日:2024-07-10 19:54:43 公開日:2024-07-08 |
# Data, Data Everywhere: データセット構築の事前トレーニングガイド
Data, Data Everywhere: A Guide for Pretraining Dataset Construction ( http://arxiv.org/abs/2407.06380v1 ) ライセンス: Link先を確認 | Jupinder Parmar, Shrimai Prabhumoye, Joseph Jennings, Bo Liu, Aastha Jhunjhunwala, Zhilin Wang, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro, | (参考訳) 最近の言語モデルの印象的な機能は、トレーニング中のデータセットをトレーニングするマルチトリリオントークンに大きく影響する可能性がある。
しかし、モデル開発者は、効率的な事前学習セットの開発方法に関するオープンな情報が欠如している建設方法論を開示することができない。
この問題に対処するため、我々は事前学習セット構築のパイプライン全体にわたって、最初の系統的研究を行う。
まず,既存の事前学習手法を改良して,下流評価におけるモデル精度の最大値に変換する手法を特定する。
そして、最も広く使われているデータソースであるWebクローススナップショットを、毒性、品質、音声の種類、ドメインの属性に分類する。
最後に,そのような属性情報を用いて事前学習セットの品質をさらに向上し,改善する方法について述べる。
これらの知見は、実践者が高品質な事前訓練セットを開発するために使用できる、実行可能なステップのセットである。
The impressive capabilities of recent language models can be largely attributed to the multi-trillion token pretraining datasets that they are trained on. However, model developers fail to disclose their construction methodology which has lead to a lack of open information on how to develop effective pretraining sets. To address this issue, we perform the first systematic study across the entire pipeline of pretraining set construction. First, we run ablations on existing techniques for pretraining set development to identify which methods translate to the largest gains in model accuracy on downstream evaluations. Then, we categorize the most widely used data source, web crawl snapshots, across the attributes of toxicity, quality, type of speech, and domain. Finally, we show how such attribute information can be used to further refine and improve the quality of a pretraining set. These findings constitute an actionable set of steps that practitioners can use to develop high quality pretraining sets. | 翻訳日:2024-07-10 19:54:43 公開日:2024-07-08 |
# JANET: 時系列の同時適応予測型N領域推定
JANET: Joint Adaptive predictioN-region Estimation for Time-series ( http://arxiv.org/abs/2407.06390v1 ) ライセンス: Link先を確認 | Eshant English, Eliot Wong-Toi, Matteo Fontana, Stephan Mandt, Padhraic Smyth, Christoph Lippert, | (参考訳) コンフォーマル予測は、理論的保証を提供する予測セットを備えた機械学習モデルを提供するが、基本となる交換可能性の仮定は時系列データに適用性を制限する。
さらに、既存のアプローチでは、複数の将来の時点にわたる不確実性推定が不可欠である、複数のステップ先進予測タスクの処理に苦労している。
JANET(Joint Adaptive predictioN- Region Estimation for Time-Series)は、一変量時系列と多変量時系列の両方に有効な共形予測領域を構築するための新しいフレームワークである。
JANETは、帰納的同型フレームワークを一般化し、制御されたK系列誤差率の合同予測領域を効率よく生成し、特定のアプリケーションニーズに柔軟な適応を可能にする。
我々の経験的評価は、JANETの様々な時系列データセットにおける多段階予測タスクにおける優れた性能を示し、シーケンシャルデータにおける信頼性と解釈可能な不確実性定量化の可能性を強調している。
Conformal prediction provides machine learning models with prediction sets that offer theoretical guarantees, but the underlying assumption of exchangeability limits its applicability to time series data. Furthermore, existing approaches struggle to handle multi-step ahead prediction tasks, where uncertainty estimates across multiple future time points are crucial. We propose JANET (Joint Adaptive predictioN-region Estimation for Time-series), a novel framework for constructing conformal prediction regions that are valid for both univariate and multivariate time series. JANET generalises the inductive conformal framework and efficiently produces joint prediction regions with controlled K-familywise error rates, enabling flexible adaptation to specific application needs. Our empirical evaluation demonstrates JANET's superior performance in multi-step prediction tasks across diverse time series datasets, highlighting its potential for reliable and interpretable uncertainty quantification in sequential data. | 翻訳日:2024-07-10 19:54:43 公開日:2024-07-08 |
# 放射光誘導材料抽出によるRRMの再生資産化
RRM: Relightable assets using Radiance guided Material extraction ( http://arxiv.org/abs/2407.06397v1 ) ライセンス: Link先を確認 | Diego Gomez, Julien Philip, Adrien Kaiser, Élie Michel, | (参考訳) 任意の照明下でのNeRFの合成は、ここ数年で問題となっている。
近年の取り組みは、任意の照明の下でレンダリングできる物理的パラメータを抽出することでこの問題に取り組むが、それらは扱えるシーンの範囲に限られており、通常は光沢のあるシーンを誤って扱う。
反射率の高い物体の存在下でもシーンの材料, 幾何学, 環境照明を抽出できるRCMを提案する。
本手法は,物理量に基づくパラメータを通知する放射場表現と,ラプラシアンピラミッドに基づく表現的環境光構造とから構成される。
提案手法は,パラメータ検索タスクにおける現状よりも優れており,高忠実なリライティングと,サーベイシックシーンにおける新しいビュー合成を実現している。
Synthesizing NeRFs under arbitrary lighting has become a seminal problem in the last few years. Recent efforts tackle the problem via the extraction of physically-based parameters that can then be rendered under arbitrary lighting, but they are limited in the range of scenes they can handle, usually mishandling glossy scenes. We propose RRM, a method that can extract the materials, geometry, and environment lighting of a scene even in the presence of highly reflective objects. Our method consists of a physically-aware radiance field representation that informs physically-based parameters, and an expressive environment light structure based on a Laplacian Pyramid. We demonstrate that our contributions outperform the state-of-the-art on parameter retrieval tasks, leading to high-fidelity relighting and novel view synthesis on surfacic scenes. | 翻訳日:2024-07-10 19:54:43 公開日:2024-07-08 |
# 意味的パーザにおけるエラーの相互診断
Interactively Diagnosing Errors in a Semantic Parser ( http://arxiv.org/abs/2407.06400v1 ) ライセンス: Link先を確認 | Constantine Nakos, Kenneth D. Forbus, | (参考訳) 手作業による自然言語システムは、機械学習に基づく言語システムの検査可能で修正可能な代替手段を提供するが、その維持にはかなりの努力と専門知識が必要である。
対話型自然言語デバッグ(INLD)は、システム知識のエラーを診断し修正するための一連の質問をユーザに求め、デバッグを推論問題としてキャストすることで、この負担を軽減することを目的としている。
本稿では,CNLUセマンティックパーサの対話型エラー診断システムについて述べる。
我々は,INLDパイプラインの最初の2段階(症状識別とエラーの局所化)をモデルベース診断問題として捉え,合成例における意味的誤りを診断するシステムの能力を実証し,今後の課題とフロンティアについて論じる。
Hand-curated natural language systems provide an inspectable, correctable alternative to language systems based on machine learning, but maintaining them requires considerable effort and expertise. Interactive Natural Language Debugging (INLD) aims to lessen this burden by casting debugging as a reasoning problem, asking the user a series of questions to diagnose and correct errors in the system's knowledge. In this paper, we present work in progress on an interactive error diagnosis system for the CNLU semantic parser. We show how the first two stages of the INLD pipeline (symptom identification and error localization) can be cast as a model-based diagnosis problem, demonstrate our system's ability to diagnose semantic errors on synthetic examples, and discuss design challenges and frontiers for future work. | 翻訳日:2024-07-10 19:54:43 公開日:2024-07-08 |
# コンパニオン認知アーキテクチャにおける知識管理
Knowledge Management in the Companion Cognitive Architecture ( http://arxiv.org/abs/2407.06401v1 ) ライセンス: Link先を確認 | Constantine Nakos, Kenneth D. Forbus, | (参考訳) 認知アーキテクチャの基本的な側面の1つは、知識をエンコードし、操作する能力である。
一貫性があり、よく設計され、スケーラブルな知識管理スキームがなければ、アーキテクチャはおもちゃの問題を通過し、認知の幅広い問題に取り組むことはできないでしょう。
本稿では,コンパニオン認知アーキテクチャの知識スタック開発において直面する課題について述べるとともに,その克服のために開発したツール,表現,実践について議論する。
また、コンパニオンエージェントが自身の知識を管理する上で大きな役割を果たすことができるような、潜在的な次のステップもいくつか検討しています。
同様の課題に直面している他の認知アーキテクチャ開発者にとって、これらの観察が有用であることを証明できることを願っています。
One of the fundamental aspects of cognitive architectures is their ability to encode and manipulate knowledge. Without a consistent, well-designed, and scalable knowledge management scheme, an architecture will be unable to move past toy problems and tackle the broader problems of cognition. In this paper, we document some of the challenges we have faced in developing the knowledge stack for the Companion cognitive architecture and discuss the tools, representations, and practices we have developed to overcome them. We also lay out a series of potential next steps that will allow Companion agents to play a greater role in managing their own knowledge. It is our hope that these observations will prove useful to other cognitive architecture developers facing similar challenges. | 翻訳日:2024-07-10 19:54:43 公開日:2024-07-08 |
# 因果型-環境-フェノタイプ関係のマルチスケール予測モデルのためのAI駆動型マルチオミクス統合
AI-driven multi-omics integration for multi-scale predictive modeling of causal genotype-environment-phenotype relationships ( http://arxiv.org/abs/2407.06405v1 ) ライセンス: Link先を確認 | You Wu, Lei Xie, | (参考訳) シングルセルマルチオミクスデータが豊富にあるにもかかわらず、人体における新しい遺伝学的および化学的摂動の結果を予測することは依然として困難である。
あらゆる生物学的レベルでの分子相互作用の知識が必要であり、疾患モデルやヒトを包含する。
現代の機械学習手法は、主に遺伝子型と表現型の間の統計的相関を定めているが、生理学的に重要な因果関係を特定できず、予測力を制限している。
予測モデリングにおける主な課題は、ラベル付きデータの不足、異なる領域をまたいだ一般化、相関関係からの因果関係の解消である。
マルチオミクスデータ統合の最近の進歩を踏まえ,これらの問題に対処する新しい人工知能(AI)によるバイオインスパイアされたマルチスケールモデリングフレームワークを提案する。
このフレームワークは、生物レベル、生物階層、種々にわたるマルチオミクスデータを統合し、様々な条件下で因果型-環境-フェノタイプ関係を予測する。
生物学にインスパイアされたAIモデルは、新しい分子標的、バイオマーカー、医薬品、そして現在未測定の医療ニーズのためのパーソナライズド医薬品を特定できる。
Despite the wealth of single-cell multi-omics data, it remains challenging to predict the consequences of novel genetic and chemical perturbations in the human body. It requires knowledge of molecular interactions at all biological levels, encompassing disease models and humans. Current machine learning methods primarily establish statistical correlations between genotypes and phenotypes but struggle to identify physiologically significant causal factors, limiting their predictive power. Key challenges in predictive modeling include scarcity of labeled data, generalization across different domains, and disentangling causation from correlation. In light of recent advances in multi-omics data integration, we propose a new artificial intelligence (AI)-powered biology-inspired multi-scale modeling framework to tackle these issues. This framework will integrate multi-omics data across biological levels, organism hierarchies, and species to predict causal genotype-environment-phenotype relationships under various conditions. AI models inspired by biology may identify novel molecular targets, biomarkers, pharmaceutical agents, and personalized medicines for presently unmet medical needs. | 翻訳日:2024-07-10 19:54:43 公開日:2024-07-08 |
# 理解しない場合、使用しない:層間フィルタでトロイの木を除去する
If You Don't Understand It, Don't Use It: Eliminating Trojans with Filters Between Layers ( http://arxiv.org/abs/2407.06411v1 ) ライセンス: Link先を確認 | Adriano Hernandez, | (参考訳) 大型言語モデル(LLM)は時に危険な意図しない振る舞いを示す。
攻撃面が巨大であるため、これらを見つけて修正することは難しい - このような振る舞いを誘発する可能性のあるすべての入力を、徹底的に検索することは不可能である。
データポゾンを注入したトロイの木馬を検索する方法が存在しないため、特に難しいケースが1つある。
我々の知る限り、事前学習中に注入された未知のトロヤ群を解き放つには、一般的には適用できない。
この研究は、小型・中規模のモデルで実際に動作する汎用的なレシピ(フィルタ)と特定の実装(LoRA)フィルタを提供することを目指している。
焦点は主に経験的だが、いくつかの難解な振る舞いは、LLMがどのように情報を保存して処理するかという根本的な疑問への扉を開く。
意外なことではないが、我々のフィルタは残留ストリームと最新のレイヤで最もうまく機能している。
Large language models (LLMs) sometimes exhibit dangerous unintended behaviors. Finding and fixing these is challenging because the attack surface is massive -- it is not tractable to exhaustively search for all possible inputs that may elicit such behavior. One specific and particularly challenging case is that if data-poisoning-injected trojans, since there is no way to know what they are to search for them. To our knowledge, there is no generally applicable method to unlearn unknown trojans injected during pre-training. This work seeks to provide a general purpose recipe (filters) and a specific implementation (LoRA) filters that work in practice on small to medium sized models. The focus is primarily empirical, though some perplexing behavior opens the door to the fundamental question of how LLMs store and process information. Not unexpectedly, we find that our filters work best on the residual stream and the latest layers. | 翻訳日:2024-07-10 19:54:43 公開日:2024-07-08 |
# 量子コンピューティングシミュレーションのためのスケーラブルFPGAアーキテクチャ
A Scalable FPGA Architecture for Quantum Computing Simulation ( http://arxiv.org/abs/2407.06415v1 ) ライセンス: Link先を確認 | Lee A. Belfore II, | (参考訳) 量子コンピューティングシミュレーションは、量子回路の挙動を調べ、量子ゲートの特性を研究し、量子コンピューティングアルゴリズムを開発する機会を提供する。
量子回路をシミュレートするには幾何学的な時間と空間の複雑さが必要であり、特定の回路をシミュレートするために必要な各時間だけでなく、シミュレートできる量子回路のサイズにも影響を及ぼす。
シミュレーションとカスタムアーキテクチャに固有の並列性を適用することで、より大きな量子回路をシミュレートすることができる。
高性能で並列性の高いアクセラレータを提供するために,スケーラブルなアクセラレータアーキテクチャを提案する。
スケーラブルなアーキテクチャを構築する上での課題のひとつは、並列性の管理、ゲート評価のための量子状態コンポーネントの効率的なルーティング、測定である。
例として、Intel Agilexフィールドプログラマブルゲートアレイ(FPGA)がある。
A quantum computing simulation provides the opportunity to explore the behaviors of quantum circuits, study the properties of quantum gates, and develop quantum computing algorithms. Simulating quantum circuits requires geometric time and space complexities, impacting the size of the quantum circuit that can be simulated as well as the respective time required to simulate a particular circuit. Applying the parallelism inherent in the simulation and crafting custom architectures, larger quantum circuits can be simulated. A scalable accelerator architecture is proposed to provide a high performance, highly parallel, accelerator. Among the challenges of creating a scalable architecture is managing parallelism, efficiently routing quantum state components for gate evaluation, and measurement. An example is demonstrated on an Intel Agilex field programmable gate array (FPGA). | 翻訳日:2024-07-10 19:54:43 公開日:2024-07-08 |
# 手書きスケッチのベクトル化画像分類のためのハイブリッド古典量子アーキテクチャ
Hybrid Classical-Quantum architecture for vectorised image classification of hand-written sketches ( http://arxiv.org/abs/2407.06416v1 ) ライセンス: Link先を確認 | Y. Cordero, S. Biswas, F. Vilariño, M. Bilkis, | (参考訳) 量子機械学習(QML)は、量子コンピュータを用いて別の方法でデータを学習するために量子現象をどのように活用するかを研究する。
近年の研究では、QMLモデルは特定のタスクにおける古典的な性能を上回る可能性があることが証明されているが、量子技術ハードウェアは、コンピュータサイエンスコミュニティの幅広い範囲に大きく関係するタスクにおいて、量子上の優位性に達するには相変わらず不適当である。
近年の進歩は、ハイブリッド古典量子モデルは、アーキテクチャの複雑さが低い場合に容易に競争性能を達成できることを示唆している。
このような調査はしばしば画像処理タスクのために行われ、特に2次元ピクセルの格子として表される \textit{raster image} のモデル化に制約されている。
本稿では,QMLモデルのテストベッドとして,スケッチ描画のベクトルベース表現を提案する。
このような低次元のデータ構造は、特に量子回路の古典的なシミュレーションが量子ビットの数で自然に制限され、量子ハードウェアは大規模な実験を行うために簡単には利用できない現在の遷移時間において、ベンチマークモデルの性能にわずかな結果をもたらす。
正規スケッチ認識問題において,プリミティブなハイブリッド量子アーキテクチャに対して,いくつかの励振効果を報告した。
Quantum machine learning (QML) investigates how quantum phenomena can be exploited in order to learn data in an alternative way, \textit{e.g.} by means of a quantum computer. While recent results evidence that QML models can potentially surpass their classical counterparts' performance in specific tasks, quantum technology hardware is still unready to reach quantum advantage in tasks of significant relevance to the broad scope of the computer science community. Recent advances indicate that hybrid classical-quantum models can readily attain competitive performances at low architecture complexities. Such investigations are often carried out for image-processing tasks, and are notably constrained to modelling \textit{raster images}, represented as a grid of two-dimensional pixels. Here, we introduce vector-based representation of sketch drawings as a test-bed for QML models. Such a lower-dimensional data structure results handful to benchmark model's performance, particularly in current transition times, where classical simulations of quantum circuits are naturally limited in the number of qubits, and quantum hardware is not readily available to perform large-scale experiments. We report some encouraging results for primitive hybrid classical-quantum architectures, in a canonical sketch recognition problem. | 翻訳日:2024-07-10 19:54:43 公開日:2024-07-08 |
# 量子ネットワークにおける量子資源のセンシング
Censorship of Quantum Resources in Quantum Networks ( http://arxiv.org/abs/2407.06417v1 ) ライセンス: Link先を確認 | Julien Pinske, Klaus Mølmer, | (参考訳) 近いうちに、量子通信ネットワークへの公開アクセスを提供する機関が登場するかもしれない。
このようなネットワークでは、特定のリソースが、ネットワーク内の通信を監督する保護機関によって管理されるように、優先ユーザまたはより高いユーザ料金でのみ利用できる機能である。
一般ユーザーが量子リソース理論(QRT)の自由状態に分類する状態を伝達することで通信を制限したい場合、自由状態に影響を与えないリソース破壊(RD)チャネルを使用する可能性がある。
しかし、そのようなチャネルはQRTの最も単純なものにしか存在せず、量子資源の制御方法に根本的な制限を課す。
本研究では,伝送状態に関する古典的情報を活用する非線形検閲プロトコルを考案することによって,現在の制限を超えていく。
我々は、悪意のあるユーザーを検閲違反から排除する要件について検討する。
このプロトコルは、想像力と絡み合いの破壊不可能な検閲を確立することができるが、量子不協和やベル非局所性に対してそのような検閲を行うことはできない。
We may soon see agencies offering public access to quantum communication networks. In such networks it may be a feature that certain resources are available only to priority users or at a higher user fee, as governed by a protective agency overseeing the communication in the network. If the agency wants to restrict the general users to communicate by transmitting states that we categorize as free states of a quantum resource theory (QRT), it may employ resource-destroying (RD) channels that do not affect the free states. Such channels, however, only exist for the simplest of QRTs, putting fundamental limitations on how quantum resources can be regulated. In this work, we go beyond the present limitation by devising a nonlinear censorship protocol which makes use of classical information about the transmitted state. We study the requirement disabling malicious users from breaking the censorship. The protocol can establish an unbreakable censorship of imaginarity and entanglement, while no such censorship can be made for quantum discord and Bell nonlocality. | 翻訳日:2024-07-10 19:54:43 公開日:2024-07-08 |
# 不安定潜在多様体上のポリシー最適化による系の安定化
System stabilization with policy optimization on unstable latent manifolds ( http://arxiv.org/abs/2407.06418v1 ) ライセンス: Link先を確認 | Steffen W. R. Werner, Benjamin Peherstorfer, | (参考訳) 安定性は力学系の挙動を研究する際の基本的な要件である。
しかし、不安定が引き起こされてデータが無意味になる前に、短時間の地平線上でのデータのみを収集できるため、強化学習による動的システムの安定化は困難である。
この研究は、不安定な力学の潜在多様体上で定式化された強化学習手法を導入し、少数のデータサンプルから安定化ポリシーを訓練することができる。
不安定多様体は、安定化を保証するための学習ポリシーに必要な最低次元の力学を含むという意味で最小限である。
これは、全ての(安定で不安定な)系の力学を近似することを目的とした一般的な潜在多様体とは対照的であり、したがって高次元であり、しばしばより多くのデータを必要とする。
実験により、提案手法は、システム状態空間や一般的な潜在多様体上で直接動作する他の方法が失敗するデータサンプルから、複雑な物理系を安定化することを示した。
Stability is a basic requirement when studying the behavior of dynamical systems. However, stabilizing dynamical systems via reinforcement learning is challenging because only little data can be collected over short time horizons before instabilities are triggered and data become meaningless. This work introduces a reinforcement learning approach that is formulated over latent manifolds of unstable dynamics so that stabilizing policies can be trained from few data samples. The unstable manifolds are minimal in the sense that they contain the lowest dimensional dynamics that are necessary for learning policies that guarantee stabilization. This is in stark contrast to generic latent manifolds that aim to approximate all -- stable and unstable -- system dynamics and thus are higher dimensional and often require higher amounts of data. Experiments demonstrate that the proposed approach stabilizes even complex physical systems from few data samples for which other methods that operate either directly in the system state space or on generic latent manifolds fail. | 翻訳日:2024-07-10 19:54:43 公開日:2024-07-08 |
# 組合せ最適化のための変分量子アルゴリズム
Variational Quantum Algorithms for Combinatorial Optimization ( http://arxiv.org/abs/2407.06421v1 ) ライセンス: Link先を確認 | Daniel F Perez-Ramirez, | (参考訳) 高い計算資源を必要とする複雑な問題に対処する量子コンピューティングの約束は、量子ハードウェア開発の本質的で要求の多い要求によって長い間妨げられてきた。
それにもかかわらず、量子コンピューティングの現在の状態である、Noisy Intermediate-Scale Quantum (NISQ) 時代は、現在の量子コンピュータの計算能力を古典的コンピュータよりも有利に活用できるアルゴリズムや手法を導入している(量子優位性と呼ばれる)。
量子優位性を実現することは、NP-Hard最適化問題の解決を意味することが多いため、組合せ最適化領域に特に関係している。
さらに、組合せ問題は、運用研究や資源配分問題といった実践的な応用分野に非常に関係している。
量子コンピューティングの手法の中で、変分量子アルゴリズム(VQA)は、NISQシステムの実用性に到達するための最も強力な候補の1つである。
本稿では,VQAの現状と最近の発展について考察し,組合せ最適化への適用性を強調した。
本稿では,量子近似最適化アルゴリズム (QAOA) をこれらの問題の候補として挙げる。
さらに,10ノードと20ノードのグラフ上でのMaxCut問題を解くために,深さの異なるQAOA回路を実装し,実用最適化タスクにおけるVQAの利用の可能性と課題を明らかにした。
コード、データセット、最適化された回路パラメータをhttps://github.com/DanielFPerez/VQA-for-MaxCutでリリースします。
The promise of quantum computing to address complex problems requiring high computational resources has long been hindered by the intrinsic and demanding requirements of quantum hardware development. Nonetheless, the current state of quantum computing, denominated Noisy Intermediate-Scale Quantum (NISQ) era, has introduced algorithms and methods that are able to harness the computational power of current quantum computers with advantages over classical computers (referred to as quantum advantage). Achieving quantum advantage is of particular relevance for the combinatorial optimization domain, since it often implies solving an NP-Hard optimization problem. Moreover, combinatorial problems are highly relevant for practical application areas, such as operations research, or resource allocation problems. Among quantum computing methods, Variational Quantum Algorithms (VQA) have emerged as one of the strongest candidates towards reaching practical applicability of NISQ systems. This paper explores the current state and recent developments of VQAs, emphasizing their applicability to combinatorial optimization. We identify the Quantum Approximate Optimization Algorithm (QAOA) as the leading candidate for these problems. Furthermore, we implement QAOA circuits with varying depths to solve the MaxCut problem on graphs with 10 and 20 nodes, demonstrating the potential and challenges of using VQAs in practical optimization tasks. We release our code, dataset and optimized circuit parameters under https://github.com/DanielFPerez/VQA-for-MaxCut. | 翻訳日:2024-07-10 19:54:43 公開日:2024-07-08 |
# ソーシャル・コンピューティング・タスクのためのヒューマン・ラベルを再現するChatGPTの可能性を探る(拡張版)
Exploring the Capability of ChatGPT to Reproduce Human Labels for Social Computing Tasks (Extended Version) ( http://arxiv.org/abs/2407.06422v1 ) ライセンス: Link先を確認 | Yiming Zhu, Peixian Zhang, Ehsan-Ul Haq, Pan Hui, Gareth Tyson, | (参考訳) ChatGPTのような大きな言語モデル(LLM)の可能性を損なうことは、包括的で倫理的で持続可能な手段を通じて、社会的な課題に対処するのに役立つ。
本稿では,ChatGPTがソーシャルコンピューティングタスクにデータアノテートできる範囲について検討し,Web研究の複雑さとコストを低減することを目的とした。
ChatGPTの可能性を評価するために、私たちはChatGPTを使用して7つのデータセットを再注釈し、新型コロナウイルスの誤情報、社会ボットの偽装、サイバーバブル、クリックベイトニュース、ロシア・ウクライナ戦争といった社会問題に対処するトピックを取り上げました。
以上の結果から,ChatGPTはこれらのデータアノテーションタスクの処理において,いくつかの課題があるにもかかわらず有望であることが示された。
7つのデータセット全体で、ChatGPTは平均アノテーションF1スコア72.00%を達成する。
その性能はクリックベイト・ニュース・アノテーションに優れ、89.66%のデータを正しくラベル付けしている。
しかし,個々のラベル間での性能変化も観察できる。
本研究は,ChatGPTのアノテーション性能の予測可能なパターンを明らかにする。
そこで我々は,ChatGPTが与えられたアノテーションタスクのデータを正しくラベル付けできるかどうかを予測するツールであるGPT-Raterを提案する。
これを使って、ChatGPTがアノテーションの要件に適合する場所を特定することができる。
GPT-RaterはChatGPTの性能を効果的に予測する。
クリックベイトの見出しデータセットでは、平均95.00%のF1スコアを達成する。
この研究は、分析のための新たな道を開き、ソーシャルコンピューティング研究への参入障壁を減らすことができると信じている。
Harnessing the potential of large language models (LLMs) like ChatGPT can help address social challenges through inclusive, ethical, and sustainable means. In this paper, we investigate the extent to which ChatGPT can annotate data for social computing tasks, aiming to reduce the complexity and cost of undertaking web research. To evaluate ChatGPT's potential, we re-annotate seven datasets using ChatGPT, covering topics related to pressing social issues like COVID-19 misinformation, social bot deception, cyberbully, clickbait news, and the Russo-Ukrainian War. Our findings demonstrate that ChatGPT exhibits promise in handling these data annotation tasks, albeit with some challenges. Across the seven datasets, ChatGPT achieves an average annotation F1-score of 72.00%. Its performance excels in clickbait news annotation, correctly labeling 89.66% of the data. However, we also observe significant variations in performance across individual labels. Our study reveals predictable patterns in ChatGPT's annotation performance. Thus, we propose GPT-Rater, a tool to predict if ChatGPT can correctly label data for a given annotation task. Researchers can use this to identify where ChatGPT might be suitable for their annotation requirements. We show that GPT-Rater effectively predicts ChatGPT's performance. It performs best on a clickbait headlines dataset by achieving an average F1-score of 95.00%. We believe that this research opens new avenues for analysis and can reduce barriers to engaging in social computing research. | 翻訳日:2024-07-10 19:54:43 公開日:2024-07-08 |
# InsightBench: マルチステップインサイト生成によるビジネス分析エージェントの評価
InsightBench: Evaluating Business Analytics Agents Through Multi-Step Insight Generation ( http://arxiv.org/abs/2407.06423v1 ) ライセンス: Link先を確認 | Gaurav Sahu, Abhay Puri, Juan Rodriguez, Alexandre Drouin, Perouz Taslakian, Valentina Zantedeschi, Alexandre Lacoste, David Vazquez, Nicolas Chapados, Christopher Pal, Sai Rajeswar Mudumba, Issam Hadj Laradji, | (参考訳) データ分析は、組織が効果的な意思決定を行うのに役立つデータから貴重な洞察を抽出するために不可欠である。
3つの重要な特徴を持つベンチマークデータセットであるInsightBenchを紹介します。
まず、金融やインシデント管理といった多様なビジネスユースケースを表す31のデータセットで構成され、それぞれに、データセットに植えられた慎重にキュレートされた洞察セットが付属する。
第二に、単一のクエリへの回答に焦点を当てた既存のベンチマークとは異なり、InsightBenchは、質問の定式化、回答の解釈、洞察と実行可能なステップの要約生成を含むエンドツーエンドのデータ分析を実行する能力に基づいて、エージェントを評価する。
第3に、ベンチマークの各データセットが明確な目標を持ち、関連する意味のある質問や分析を含むように、包括的な品質保証を実施しました。
さらに, LLaMA-3-Eval を用いた双方向評価機構を, エージェントのインサイト抽出能力を評価するための効果的なオープンソース評価手法として実装した。
また,エンド・ツー・エンドのデータ分析が可能なベースラインデータ解析エージェントであるAgentPoirotを提案する。
InsightBenchの評価は、AgentPoirotが単一クエリの解決にフォーカスした既存のアプローチ(Pandas Agentなど)より優れていることを示している。
また,オープンソース LLM とクローズドソース LLM の性能および各種評価戦略を比較した。
全体として、このベンチマークは包括的なデータ分析のさらなる開発を動機付けるテストベッドとして機能し、ここでアクセスすることができる。
Data analytics is essential for extracting valuable insights from data that can assist organizations in making effective decisions. We introduce InsightBench, a benchmark dataset with three key features. First, it consists of 31 datasets representing diverse business use cases such as finance and incident management, each accompanied by a carefully curated set of insights planted in the datasets. Second, unlike existing benchmarks focusing on answering single queries, InsightBench evaluates agents based on their ability to perform end-to-end data analytics, including formulating questions, interpreting answers, and generating a summary of insights and actionable steps. Third, we conducted comprehensive quality assurance to ensure that each dataset in the benchmark had clear goals and included relevant and meaningful questions and analysis. Furthermore, we implement a two-way evaluation mechanism using LLaMA-3-Eval as an effective, open-source evaluator method to assess agents' ability to extract insights. We also propose AgentPoirot, our baseline data analysis agent capable of performing end-to-end data analytics. Our evaluation on InsightBench shows that AgentPoirot outperforms existing approaches (such as Pandas Agent) that focus on resolving single queries. We also compare the performance of open- and closed-source LLMs and various evaluation strategies. Overall, this benchmark serves as a testbed to motivate further development in comprehensive data analytics and can be accessed here: https://github.com/ServiceNow/insight-bench. | 翻訳日:2024-07-10 19:54:43 公開日:2024-07-08 |
# 交互バイアスアシストアニールを用いた可変トランスモン量子ビットの高精度チューニング
Precision frequency tuning of tunable transmon qubits using alternating-bias assisted annealing ( http://arxiv.org/abs/2407.06425v1 ) ライセンス: Link先を確認 | Xiqiao Wang, Joel Howard, Eyob A. Sete, Greg Stiehl, Cameron Kopas, Stefano Poletto, Xian Wu, Mark Field, Nicholas Sharac, Christopher Eckberg, Hilal Cansizoglu, Raja Katta, Josh Mutus, Andrew Bestwick, Kameshwar Yadavalli, David P. Pappas, | (参考訳) 超伝導量子プロセッサは、スケーラブルなフォールトトレラント量子計算(FTQC)を実現するための主要なプラットフォームの一つである。
交互バイアス補助アニール法(ABAA)によるジョセフソン接合部の加工後調整の最近の実演と、ABAA後の接合損失の低減は、高いコヒーレンスを維持しながら、クビット周波数の高精度チューニングに向けて期待できる経路を照らす。
ここでは、市販の試験装置を用いて室温でABAAを実行することにより、可変トランスモン量子ビットの最大$|0\rangle\rightarrow |1\rangle$遷移周波数(f_{01}^{\rm max}$)の精度チューニングを実演する。
本研究では, ジャンクション緩和と時効がチューニング後の抵抗拡散に与える影響を特徴付け, 数百量子ビットのターゲット抵抗チューニングに基づく周波数等価チューニング精度7.7MHz (0.17 %$) を示し, 抵抗チューニング範囲は最大で18.5 %$である。
チューニングおよび未チューニングキュービットの低温測定は、調整性に有意な影響を与えないABAA後のコヒーレンスの改善を示す。
グローバルオフセットが小さいにもかかわらず、設計したハミルトニアンをターゲットとしたマルチキュービットプロセッサのセットをチューニングすることで、18.4MHzのチューニング精度を実証的に$f_{01}^{\rm max}$で示す。
ABAAをチューニングした2つの9ビットプロセッサ上で,高忠実度パラメトリック共振器iSWAPゲートを99.51\pm 0.20\%$で実験的に特徴付ける。
ベストパフォーマンスデバイスでは、デバイス全体の平均忠実度は99.22 %$、平均忠実度は99.13 pm 0.12 %$と測定した。
収率モデル解析は、1000量子スケールを超える ABAA を用いた高分解能エッジ収率の予測を行う。
これらの結果は、ABAAを用いた周波数ターゲティングの最先端能力を実証し、ハミルトニアンターゲティングを体系的に改善し、高性能超伝導量子プロセッサをスケールするための最適化を行うための新しい道を開いた。
Superconducting quantum processors are one of the leading platforms for realizing scalable fault-tolerant quantum computation (FTQC). The recent demonstration of post-fabrication tuning of Josephson junctions using alternating-bias assisted annealing (ABAA) technique and a reduction in junction loss after ABAA illuminates a promising path towards precision tuning of qubit frequency while maintaining high coherence. Here, we demonstrate precision tuning of the maximum $|0\rangle\rightarrow |1\rangle$ transition frequency ($f_{01}^{\rm max}$) of tunable transmon qubits by performing ABAA at room temperature using commercially available test equipment. We characterize the impact of junction relaxation and aging on resistance spread after tuning, and demonstrate a frequency equivalent tuning precision of 7.7 MHz ($0.17\%$) based on targeted resistance tuning on hundreds of qubits, with a resistance tuning range up to $18.5\%$. Cryogenic measurements on tuned and untuned qubits show evidence of improved coherence after ABAA with no significant impact on tunability. Despite a small global offset, we show an empirical $f_{01}^{\rm max}$ tuning precision of 18.4 MHz by tuning a set of multi-qubit processors targeting their designed Hamiltonians. We experimentally characterize high-fidelity parametric resonance iSWAP gates on two ABAA-tuned 9-qubit processors with fidelity as high as $99.51\pm 0.20\%$. On the best-performing device, we measured across the device a median fidelity of $99.22\%$ and an average fidelity of $99.13\pm 0.12 \%$. Yield modeling analysis predicts high detuning-edge-yield using ABAA beyond the 1000-qubit scale. These results demonstrate the cutting-edge capability of frequency targeting using ABAA and open up a new avenue to systematically improving Hamiltonian targeting and optimization for scaling high-performance superconducting quantum processors. | 翻訳日:2024-07-10 19:44:58 公開日:2024-07-08 |
# DebUnc:不確かさ推定を用いた大規模言語モデルエージェントコミュニケーションにおける幻覚の軽減
DebUnc: Mitigating Hallucinations in Large Language Model Agent Communication with Uncertainty Estimations ( http://arxiv.org/abs/2407.06426v1 ) ライセンス: Link先を確認 | Luke Yoffe, Alfonso Amayuelas, William Yang Wang, | (参考訳) LLM(Large Language Model)の能力を高めるために、複数のLLMがいくつかの議論で問題に対する解決策について議論するマルチエージェントの議論が導入されている。
しかし、LSMは誤った反応を生じさせ、他の薬剤を誤解させる恐れがある。
これは、エージェントが標準討論中に信頼レベルを表現していないためである。
これを解決するために,不確実性指標を用いてエージェント信頼度を評価するマルチエージェント討論フレームワークであるDebUncを紹介する。
LLMの注意機構を信頼性レベルに基づくトークン重み調整に応用し,信頼度を伝達するためのテキストプロンプトを用いた検討を行った。
各種ベンチマークを用いて評価した結果,注意に基づく手法は特に有効であり,不確実性指標が進化するにつれて,性能が向上し続けることが示唆された。
コードはhttps://github.com/lukeyoffe/debuncで入手できる。
To enhance Large Language Model (LLM) capabilities, multi-agent debates have been introduced, where multiple LLMs discuss solutions to a problem over several rounds of debate. However, LLMs often produce incorrect responses that appear deceptively confident, which can mislead other agents. This is partly because agents do not express their confidence levels during standard debates. To address this, we introduce DebUnc, a multi-agent debate framework that uses uncertainty metrics to assess agent confidence levels. We adapted the LLM attention mechanism to adjust token weights based on confidence levels and also explored using textual prompts to convey confidence. Our evaluations across various benchmarks show that attention-based methods are particularly effective, and that as uncertainty metrics evolve, performance will continue to increase. The code is available at https://github.com/lukeyoffe/debunc | 翻訳日:2024-07-10 19:44:58 公開日:2024-07-08 |
# 臨界XXZスピン鎖における絡み合い非対称性
Entanglement asymmetry in the critical XXZ spin chain ( http://arxiv.org/abs/2407.06427v1 ) ライセンス: Link先を確認 | Marco Lastres, Sara Murciano, Filiberto Ares, Pasquale Calabrese, | (参考訳) エンタングルメント非対称性を用いて、$SU(2)$対称性を$U(1)$サブグループに明示的に分解することを研究する。
臨界XXZスピン鎖は、等方点を除いてスピン回転の$SU(2)$対称性を破り、連続極限における無質量コンパクトボソンによって記述される。
格子上の数値シミュレーションを補完する共形摂動理論を適用することにより、等方点の外側で破れた$SU(2)$の$U(1)$部分群について検討する。
また、フル$SU(2)$群の絡み合い非対称性も解析する。
非常に一般的なスケーリング引数を頼りにすることで、漸近的な表現を導き出す。
We study the explicit breaking of a $SU(2)$ symmetry to a $U(1)$ subgroup employing the entanglement asymmetry, a recently introduced observable that measures how much symmetries are broken in a part of extended quantum systems. We consider as specific model the critical XXZ spin chain, which breaks the $SU(2)$ symmetry of spin rotations except at the isotropic point, and is described by the massless compact boson in the continuum limit. We examine the $U(1)$ subgroup of $SU(2)$ that is broken outside the isotropic point by applying conformal perturbation theory, which we complement with numerical simulations on the lattice. We also analyse the entanglement asymmetry of the full $SU(2)$ group. By relying on very generic scaling arguments, we derive an asymptotic expression for it. | 翻訳日:2024-07-10 19:44:58 公開日:2024-07-08 |
# クリロフアプローチによるユニタリ進化の量子エルゴディディティの探索
Exploring quantum ergodicity of unitary evolution through the Krylov approach ( http://arxiv.org/abs/2407.06428v1 ) ライセンス: Link先を確認 | Gastón F. Scialchi, Augusto J. Roncaglia, Carlos Pineda, Diego A. Wisniacki, | (参考訳) 近年、相互作用する多体系の量子進化の複雑さを特徴づけることへの関心が高まっている。
力学が時間に依存しないハミルトニアンによって支配されるとき、クリロフ複雑性は強力なツールとして現れている。
キックド・システムやトロッタライズド・ダイナミクスのようなユニタリ・進化に対しては、アルノルディのアプローチに基づく同様の定式化が提案されている(P)。
suchsland, R. Moessner, and P. W. Claeys (2023), arXiv:2308.03851)。
本研究では, この定式化が, 自律システムとキックシステムの両方において, 可積分性からカオスへの遷移を観察する上で, 堅牢であることを示す。
ランダム行列理論とスピン鎖の例を以下に示す。
In recent years there has been growing interest in characterizing the complexity of quantum evolutions of interacting many-body systems. When the dynamics is governed by a time-independent Hamiltonian, Krylov complexity has emerged as a powerful tool. For unitary evolutions like kicked systems or Trotterized dynamics, a similar formulation based on the Arnoldi approach has been proposed (P. Suchsland, R. Moessner, and P. W. Claeys, (2023), arXiv:2308.03851). In this work, we show that this formulation is robust for observing the transition from integrability to chaos in both autonomous and kicked systems. Examples from random matrix theory and spin chains are shown in this paper. | 翻訳日:2024-07-10 19:44:58 公開日:2024-07-08 |
# 多言語大言語モデルにおけるBanglaの感情属性の性別ステレオタイプに関する実証的研究
An Empirical Study of Gendered Stereotypes in Emotional Attributes for Bangla in Multilingual Large Language Models ( http://arxiv.org/abs/2407.06432v1 ) ライセンス: Link先を確認 | Jayanta Sadhu, Maneesha Rani Saha, Rifat Shahriyar, | (参考訳) 大規模言語モデル(LLM)の影響は急速に増加しており、時間とともに多くのジョブを自動化する。
LLMの公正性を評価することは、その影響拡大のために重要である。
LLMにおける社会的規範とバイアスの反映を明らかにする研究は、下流のタスクにおいて社会的ステレオタイプを伝播するリスクを生じさせる。
LLMのバイアスに関する多くの研究は、様々なNLPアプリケーションにおける性別バイアスに焦点を当てている。
しかし、感情と性別の密接な結びつきにもかかわらず、感情特性のバイアスに関する研究にはギャップがある。
Banglaのような低リソース言語では、このギャップはさらに大きい。
歴史的には、女性は共感、恐怖、罪悪感といった感情に結びついており、男性は怒り、ブラボード、権威に結びついている。
このパターンはバングラ語圏の社会規範を反映している。
本研究では,オープンソース LLM とクローズドな LLM の両面で,Bangla における性的な感情帰属に関する初の徹底的な調査を行っている。
我々の目的は、バングラの文脈において、性別と感情の複雑な社会的関係を解明することである。
バングラの感情の文脈におけるジェンダーバイアスの存在を解析的手法で示すことに成功し、また、LLMにおけるジェンダードロールの選択に基づいて感情の帰属がどう変化するかを示した。
コードやデータを含むすべてのリソースは、Bangla NLPに関する将来の研究をサポートするために公開されています。
警告: この論文には、多くの人々が攻撃的である可能性がある明示的なステレオタイプステートメントが含まれている。
The influence of Large Language Models (LLMs) is rapidly growing, automating more jobs over time. Assessing the fairness of LLMs is crucial due to their expanding impact. Studies reveal the reflection of societal norms and biases in LLMs, which creates a risk of propagating societal stereotypes in downstream tasks. Many studies on bias in LLMs focus on gender bias in various NLP applications. However, there's a gap in research on bias in emotional attributes, despite the close societal link between emotion and gender. This gap is even larger for low-resource languages like Bangla. Historically, women are associated with emotions like empathy, fear, and guilt, while men are linked to anger, bravado, and authority. This pattern reflects societal norms in Bangla-speaking regions. We offer the first thorough investigation of gendered emotion attribution in Bangla for both closed and open source LLMs in this work. Our aim is to elucidate the intricate societal relationship between gender and emotion specifically within the context of Bangla. We have been successful in showing the existence of gender bias in the context of emotions in Bangla through analytical methods and also show how emotion attribution changes on the basis of gendered role selection in LLMs. All of our resources including code and data are made publicly available to support future research on Bangla NLP. Warning: This paper contains explicit stereotypical statements that many may find offensive. | 翻訳日:2024-07-10 19:44:58 公開日:2024-07-08 |
# スケーラブルビジョンランゲージモデリングのための単一変換器
A Single Transformer for Scalable Vision-Language Modeling ( http://arxiv.org/abs/2407.06438v1 ) ライセンス: Link先を確認 | Yangyi Chen, Xingyao Wang, Hao Peng, Heng Ji, | (参考訳) スケーラブルなvisiOn-Language mOdelingのための単一変換器であるSOLOを提案する。
LLaVAのような現在の大きな視覚言語モデル(LVLM)は、主に視覚認識と複雑な推論を容易にするために、訓練済みの視覚エンコーダと大きな言語モデル(LLM)を接続する異種アーキテクチャを使用している。
比較的軽量なトレーニングで顕著な性能を達成する一方で,(1)視覚能力はLLMよりも桁違いに小さい事前学習された視覚エンコーダによって制限される。
2) ヘテロジニアスアーキテクチャは,確立したハードウェアとソフトウェアインフラの使用を複雑にしている。
3) このようなアーキテクチャ上でのスケーリング法則の研究は, 解析を複雑にする視覚エンコーダ, コネクタ, LLMの3つの異なるコンポーネントを考慮しなければならない。
(4) 既存のビジュアルエンコーダの使用には、例えば、画像入力の事前処理を事前に定義した仕様に従う必要がある。
SOLOのような統一された単一トランスフォーマーアーキテクチャは、LVLMにおけるこれらのスケーラビリティ上の懸念に効果的に対処するが、現代の文脈では、両方のモダリティのバランスを保ち、数十億規模のモデルの安定したトレーニングを確保するための信頼性の高いトレーニングレシピが欠如していることに起因していると考えられる。
本稿では,中等教育資源を用いたオープンソースの7B LVLMであるSOLOの開発のための,最初のオープンソーストレーニングレシピを紹介する。
トレーニングのレシピは、LCMの初期化、ImageNetとWebスケールのデータのシーケンシャル事前トレーニング、およびキュレートされた高品質データセットの微調整を含む。
広範囲な評価において、SOLOはLLaVA-v1.5-7Bに匹敵する性能を示し、特に視覚数学的推論に優れていた。
We present SOLO, a single transformer for Scalable visiOn-Language mOdeling. Current large vision-language models (LVLMs) such as LLaVA mostly employ heterogeneous architectures that connect pre-trained visual encoders with large language models (LLMs) to facilitate visual recognition and complex reasoning. Although achieving remarkable performance with relatively lightweight training, we identify four primary scalability limitations: (1) The visual capacity is constrained by pre-trained visual encoders, which are typically an order of magnitude smaller than LLMs. (2) The heterogeneous architecture complicates the use of established hardware and software infrastructure. (3) Study of scaling laws on such architecture must consider three separate components - visual encoder, connector, and LLMs, which complicates the analysis. (4) The use of existing visual encoders typically requires following a pre-defined specification of image inputs pre-processing, for example, by reshaping inputs to fixed-resolution square images, which presents difficulties in processing and training on high-resolution images or those with unusual aspect ratio. A unified single Transformer architecture, like SOLO, effectively addresses these scalability concerns in LVLMs; however, its limited adoption in the modern context likely stems from the absence of reliable training recipes that balance both modalities and ensure stable training for billion-scale models. In this paper, we introduce the first open-source training recipe for developing SOLO, an open-source 7B LVLM using moderate academic resources. The training recipe involves initializing from LLMs, sequential pre-training on ImageNet and web-scale data, and instruction fine-tuning on our curated high-quality datasets. On extensive evaluation, SOLO demonstrates performance comparable to LLaVA-v1.5-7B, particularly excelling in visual mathematical reasoning. | 翻訳日:2024-07-10 19:44:58 公開日:2024-07-08 |
# プライバシギャップを露呈する: LLMアライメントの選好データに対するメンバーシップ推論攻撃
Exposing Privacy Gaps: Membership Inference Attack on Preference Data for LLM Alignment ( http://arxiv.org/abs/2407.06443v1 ) ライセンス: Link先を確認 | Qizhang Feng, Siva Rajesh Kasa, Hyokun Yun, Choon Hui Teo, Sravan Babu Bodapati, | (参考訳) 大きな言語モデル(LLM)は、その顕著な自然言語能力のために広く採用されている。
しかし、実際の環境に配置する場合は、LLMを合わせ、許容される人間の基準に従ってテキストを生成することが重要である。
PPO(Proximal Policy Optimization)やDPO(Direct Preference Optimization)といった手法は,人間の嗜好データを用いたLCMの精錬において大きな進歩を遂げている。
しかし、そのような嗜好データの利用に固有のプライバシーに関する懸念は、まだ十分に研究されていない。
本稿では,ヒトの嗜好データセットから会員推論攻撃 (MIA) に適応するLSMの脆弱性について検討し,嗜好データに対する従来のMIAアプローチの欠点を浮き彫りにした。
PPOモデルと比較してDPOモデルの方がMIAに弱いという実証的な証拠を提供するため,本研究では,PremiA(\uline{Pre}ference data \uline{MIA})と呼ばれる嗜好データの解析に特化して,参照ベースの新たな攻撃フレームワークを導入する。
本研究は,LLMアライメントにおける現在のプライバシー保護実践のギャップを浮き彫りにした。
Large Language Models (LLMs) have seen widespread adoption due to their remarkable natural language capabilities. However, when deploying them in real-world settings, it is important to align LLMs to generate texts according to acceptable human standards. Methods such as Proximal Policy Optimization (PPO) and Direct Preference Optimization (DPO) have made significant progress in refining LLMs using human preference data. However, the privacy concerns inherent in utilizing such preference data have yet to be adequately studied. In this paper, we investigate the vulnerability of LLMs aligned using human preference datasets to membership inference attacks (MIAs), highlighting the shortcomings of previous MIA approaches with respect to preference data. Our study has two main contributions: first, we introduce a novel reference-based attack framework specifically for analyzing preference data called PREMIA (\uline{Pre}ference data \uline{MIA}); second, we provide empirical evidence that DPO models are more vulnerable to MIA compared to PPO models. Our findings highlight gaps in current privacy-preserving practices for LLM alignment. | 翻訳日:2024-07-10 19:44:58 公開日:2024-07-08 |
# 効率的なアブダクションによる地空間軌道生成:独立テストへの展開
Geospatial Trajectory Generation via Efficient Abduction: Deployment for Independent Testing ( http://arxiv.org/abs/2407.06447v1 ) ライセンス: Link先を確認 | Divyagna Bavikadi, Dyuman Aditya, Devendra Parkar, Paulo Shakarian, Graham Mueller, Chad Parvis, Gerardo I. Simari, | (参考訳) 位置情報と時間制約を満足しながら人工的な人間の動きパターンを生成する能力は、特にプライバシーを維持しながらそのようなパターンを検出するアナログ問題の研究を可能にするため、セキュリティコミュニティにおいて重要な問題である。
我々は,この問題を,注釈付き論理プログラム上での集合真理値として表現された新しい擬似関数によって導かれる誘拐の事例として捉えた。
このアプローチには、アナリストユーザに説明責任を与えるメリットが追加されます。
このようなプログラムの任意のサブセットが、このパーシモニー要件の低いバウンダリを提供できることを示すことにより、情報(すなわち、A*)探索を通じて、効率的に運動軌跡を吸収することができる。
本稿では、ボトムアップルール学習、地理知識グラフ検索/管理、政府システムとのインターフェースなどを含むクラウドベースのソフトウェアスタックと統合し、その結果を提供するために、複数の技術の適用によって実装が強化された方法について述べる。
また、我々は、正確な結果を提供するだけでなく、非常に大きなシナリオにスケールし、機械学習の異常検知器によって検出されない現実的なエージェントの軌跡を提供することを示す独自の実験を報告した。
The ability to generate artificial human movement patterns while meeting location and time constraints is an important problem in the security community, particularly as it enables the study of the analog problem of detecting such patterns while maintaining privacy. We frame this problem as an instance of abduction guided by a novel parsimony function represented as an aggregate truth value over an annotated logic program. This approach has the added benefit of affording explainability to an analyst user. By showing that any subset of such a program can provide a lower bound on this parsimony requirement, we are able to abduce movement trajectories efficiently through an informed (i.e., A*) search. We describe how our implementation was enhanced with the application of multiple techniques in order to be scaled and integrated with a cloud-based software stack that included bottom-up rule learning, geolocated knowledge graph retrieval/management, and interfaces with government systems for independently conducted government-run tests for which we provide results. We also report on our own experiments showing that we not only provide exact results but also scale to very large scenarios and provide realistic agent trajectories that can go undetected by machine learning anomaly detectors. | 翻訳日:2024-07-10 19:44:58 公開日:2024-07-08 |
# 正規化統計量の1次破壊適応による入力破壊に対するモデルロバスト性の向上
Enhanced Model Robustness to Input Corruptions by Per-corruption Adaptation of Normalization Statistics ( http://arxiv.org/abs/2407.06450v1 ) ライセンス: Link先を確認 | Elena Camuffo, Umberto Michieli, Simone Milani, Jijoong Moon, Mete Ozay, | (参考訳) 信頼性の高い視覚システムを開発することはロボット技術(例えば屋内サービスロボットや屋外自律ロボット)の基本的な課題であり、悪天候(例えば、霧、雨)、照明条件の低さ(例えば、過/露光)、センサ劣化(例えば、ぼやけ、騒音)といった困難な環境においても信頼性の高いナビゲーションを保証し、安全クリティカルな機能で高い性能を保証できる。
モデルロバスト性を改善するために提案されている現在のソリューションは、通常、汎用的なデータ拡張技術に依存するか、コストのかかるテスト時間適応手法を採用する。
さらに、ほとんどのアプローチは、合成データを利用する単一の視覚タスク(典型的には画像認識)に対処することに焦点を当てている。
本稿では,視覚システムのモデルロバスト性を高めるために,正規化統計のPer-corruption Adaptation(PAN)を導入する。
このアプローチには3つの重要なコンポーネントが必要です。
(i)汚職型識別モジュール
二 特定汚職タイプに基づく正規化層統計の動的調整及び
三 入力データによるこれらの統計情報をリアルタイムに更新すること。
PANは、いくつかのロボットビジョンタスクにおいて精度を高めるために、どんな畳み込みモデルともシームレスに統合することができる。
我々の実験では、PANは、現在のソリューションの大半が失敗しがちな実世界の破損したイメージデータセット(OpenLoris、ExDark、ACDCなど)に対して、堅牢なパフォーマンス改善を実現しています。
さらに、PANは、オブジェクト認識タスクの合成ベンチマークにおいて、ベースラインモデルを20~30%向上させる。
Developing a reliable vision system is a fundamental challenge for robotic technologies (e.g., indoor service robots and outdoor autonomous robots) which can ensure reliable navigation even in challenging environments such as adverse weather conditions (e.g., fog, rain), poor lighting conditions (e.g., over/under exposure), or sensor degradation (e.g., blurring, noise), and can guarantee high performance in safety-critical functions. Current solutions proposed to improve model robustness usually rely on generic data augmentation techniques or employ costly test-time adaptation methods. In addition, most approaches focus on addressing a single vision task (typically, image recognition) utilising synthetic data. In this paper, we introduce Per-corruption Adaptation of Normalization statistics (PAN) to enhance the model robustness of vision systems. Our approach entails three key components: (i) a corruption type identification module, (ii) dynamic adjustment of normalization layer statistics based on identified corruption type, and (iii) real-time update of these statistics according to input data. PAN can integrate seamlessly with any convolutional model for enhanced accuracy in several robot vision tasks. In our experiments, PAN obtains robust performance improvement on challenging real-world corrupted image datasets (e.g., OpenLoris, ExDark, ACDC), where most of the current solutions tend to fail. Moreover, PAN outperforms the baseline models by 20-30% on synthetic benchmarks in object recognition tasks. | 翻訳日:2024-07-10 19:44:58 公開日:2024-07-08 |
# エネルギー効率の良いエッジコンピューティングのためのスパースリカレントスパイクニューラルネットワークの時間スケールにおける爆発的不均一性
Exploiting Heterogeneity in Timescales for Sparse Recurrent Spiking Neural Networks for Energy-Efficient Edge Computing ( http://arxiv.org/abs/2407.06452v1 ) ライセンス: Link先を確認 | Biswadeep Chakraborty, Saibal Mukhopadhyay, | (参考訳) スパイキングニューラルネットワーク(SNN)は、神経型コンピューティングの最前線であり、複雑なタスクに対するエネルギー効率と生物学的に妥当なモデルである。
本稿では,神経系とシナプス系における不均一性の導入を通じて,SNNのパフォーマンスに革命をもたらす3つの基礎研究をまとめる。
我々は、厳密な分析フレームワークとLyapunov Noise Pruning (LNP)のような新しいプルーニング手法によって支援された異種リカレントスパイクニューラルネットワーク(HRSNN)の変換効果について検討する。
その結果,不均一性によって分類性能が向上するだけでなく,スパイク活性が低下し,ネットワークの効率が向上することがわかった。
この包括的な要約は、理論的な洞察を実用的な応用でブリッジすることによって、SNNが計算コストを低く保ちながら従来のニューラルネットワークを上回る可能性を強調している。
インテリジェントでエネルギー効率のよいニューラルコンピューティングの未来への道を歩む最先端の進歩の旅に参加しよう。
Spiking Neural Networks (SNNs) represent the forefront of neuromorphic computing, promising energy-efficient and biologically plausible models for complex tasks. This paper weaves together three groundbreaking studies that revolutionize SNN performance through the introduction of heterogeneity in neuron and synapse dynamics. We explore the transformative impact of Heterogeneous Recurrent Spiking Neural Networks (HRSNNs), supported by rigorous analytical frameworks and novel pruning methods like Lyapunov Noise Pruning (LNP). Our findings reveal how heterogeneity not only enhances classification performance but also reduces spiking activity, leading to more efficient and robust networks. By bridging theoretical insights with practical applications, this comprehensive summary highlights the potential of SNNs to outperform traditional neural networks while maintaining lower computational costs. Join us on a journey through the cutting-edge advancements that pave the way for the future of intelligent, energy-efficient neural computing. | 翻訳日:2024-07-10 19:44:58 公開日:2024-07-08 |
# どれくらいの進歩があったか? ロボットを教えるための未発見のフィードバック信号
How Much Progress Did I Make? An Unexplored Human Feedback Signal for Teaching Robots ( http://arxiv.org/abs/2407.06459v1 ) ライセンス: Link先を確認 | Hang Yu, Qidi Fang, Shijie Fang, Reuben M. Aronson, Elaine Schaertl Short, | (参考訳) 人間の教えの表現力を高めることは、ロボットの人間からの学習を改善することと、人間教育ロボットの経験を改善することの両方に不可欠である。
本研究では、タスクの完了率を表すために設計された、未使用の教育信号である「textit{progress}」を特徴付け、テストする。
我々は,76名のクラウドソース参加者による2つのオンライン研究と,40名の非エキスパート参加者によるパブリックスペーススタディを行い,この進捗信号の有効性を検証した。
進捗は、タスクが成功したかどうかを示し、タスク完了の度合いを反映し、非生産的だが無害な振る舞いを識別し、参加者間でより一貫性がある可能性が高いことを発見した。
さらに, この結果から, 進行の進行には余分な作業負荷や時間を要さないことが明らかとなった。
我々の研究は、遠隔操作の誤りだけでなく、探索行動や試みからも、多国間および準最適であることが観察されたアイスクリームトッピング付加タスクを通じて、公共空間研究から40件の非専門的なデモンストレーションのデータセットである。
データセットは \url{https://github.com/TeachingwithProgress/Non-Expert\_Demonstrations} で公開されている。
Enhancing the expressiveness of human teaching is vital for both improving robots' learning from humans and the human-teaching-robot experience. In this work, we characterize and test a little-used teaching signal: \textit{progress}, designed to represent the completion percentage of a task. We conducted two online studies with 76 crowd-sourced participants and one public space study with 40 non-expert participants to validate the capability of this progress signal. We find that progress indicates whether the task is successfully performed, reflects the degree of task completion, identifies unproductive but harmless behaviors, and is likely to be more consistent across participants. Furthermore, our results show that giving progress does not require extra workload and time. An additional contribution of our work is a dataset of 40 non-expert demonstrations from the public space study through an ice cream topping-adding task, which we observe to be multi-policy and sub-optimal, with sub-optimality not only from teleoperation errors but also from exploratory actions and attempts. The dataset is available at \url{https://github.com/TeachingwithProgress/Non-Expert\_Demonstrations}. | 翻訳日:2024-07-10 19:44:58 公開日:2024-07-08 |
# MUSE: 機械学習による言語モデルの6ウェイ評価
MUSE: Machine Unlearning Six-Way Evaluation for Language Models ( http://arxiv.org/abs/2407.06460v1 ) ライセンス: Link先を確認 | Weijia Shi, Jaechan Lee, Yangsibo Huang, Sadhika Malladi, Jieyu Zhao, Ari Holtzman, Daogao Liu, Luke Zettlemoyer, Noah A. Smith, Chiyuan Zhang, | (参考訳) 言語モデル(LM)は、プライベートおよび著作権のあるコンテンツを含む大量のテキストデータに基づいて訓練される。
データ所有者は、プライバシや著作権上の懸念から、トレーニングされたモデルからデータを削除するよう要求することができる。
しかし、現在のモデルでは、これらのデータポイント(つまり、データを削除して再トレーニングする)のみを正確に学習することは困難である。
これは多くの近似アンラーニングアルゴリズムの開発につながった。
これらのアルゴリズムの有効性の評価は、伝統的に範囲が狭く、モデルデプロイとデータオーナの両方の観点から、アルゴリズムの成功と実用性を正確に定量化できない。
我々は,(1)動詞の暗記,(2)知識の暗記,(3)プライバシの漏洩,(4)削除を意図しないデータに対するユーティリティの保存,(5)削除要求のサイズに関するスケーラビリティ,(6)シーケンシャルなアンラーニング要求に対する持続可能性という,未学習モデルに望ましい6つの特性を列挙する総合的マシンアンラーニング評価ベンチマークであるMUSEを提案する。
これらの基準を用いて、7BパラメータLM上の8つの人気のある未学習アルゴリズムが、ハリー・ポッターの書籍やニュース記事の読解を効果的に行なえるかをベンチマークする。
以上の結果から,ほとんどのアルゴリズムは,単語の暗記や知識の暗記を様々な程度に防ぐことができるが,厳密なプライバシー漏洩につながるのは1つのアルゴリズムのみであることが示された。
さらに、既存のアルゴリズムは一般的なモデルユーティリティを劣化させることが多く、連続した未学習要求や大規模なコンテンツ削除を持続的に適応できないため、デプロイ者の期待を満たさない。
言語モデル上での既存の未学習アルゴリズムの実用性に関する重要な問題を明らかにするとともに,さらなる評価を促進するためのベンチマークを公表した。
Language models (LMs) are trained on vast amounts of text data, which may include private and copyrighted content. Data owners may request the removal of their data from a trained model due to privacy or copyright concerns. However, exactly unlearning only these datapoints (i.e., retraining with the data removed) is intractable in modern-day models. This has led to the development of many approximate unlearning algorithms. The evaluation of the efficacy of these algorithms has traditionally been narrow in scope, failing to precisely quantify the success and practicality of the algorithm from the perspectives of both the model deployers and the data owners. We address this issue by proposing MUSE, a comprehensive machine unlearning evaluation benchmark that enumerates six diverse desirable properties for unlearned models: (1) no verbatim memorization, (2) no knowledge memorization, (3) no privacy leakage, (4) utility preservation on data not intended for removal, (5) scalability with respect to the size of removal requests, and (6) sustainability over sequential unlearning requests. Using these criteria, we benchmark how effectively eight popular unlearning algorithms on 7B-parameter LMs can unlearn Harry Potter books and news articles. Our results demonstrate that most algorithms can prevent verbatim memorization and knowledge memorization to varying degrees, but only one algorithm does not lead to severe privacy leakage. Furthermore, existing algorithms fail to meet deployer's expectations because they often degrade general model utility and also cannot sustainably accommodate successive unlearning requests or large-scale content removal. Our findings identify key issues with the practicality of existing unlearning algorithms on language models, and we release our benchmark to facilitate further evaluations: muse-bench.github.io | 翻訳日:2024-07-10 19:44:58 公開日:2024-07-08 |
# 古典的なオラクルからの耐雑音性公開鍵量子マネー
Noise-tolerant public-key quantum money from a classical oracle ( http://arxiv.org/abs/2407.06463v1 ) ライセンス: Link先を確認 | Peter Yuen, | (参考訳) 量子マネー(quantum money)とは、紙幣の正当性を検証し、偽造できないことを保証するタスクである。
公開鍵量子マネーは誰でも検証を行うことができるが、プライベートキー設定は、ウィーズナーの当初のスキームのように、銀行への検証を制限している。
技術的進歩の現在の状況は、エラーを完全に抑制することは不可能であり、従ってノイズ耐性のスキームが要求される。
公開鍵設定において、耐雑音性を実現する方法について初めて示す。
我々の手法はアーロンソンとクリスティアーノのオラクルモデルに従っており、量子誤差補正のアイデアを用いてそれらのスキームを拡張している。
さらに、共役符号化状態を作成し、標準基底ベクトルを置換するユニタリを適用することにより、本方式の紙幣を鋳造する。
Quantum money is the task of verifying the validity of banknotes while ensuring that they cannot be counterfeited. Public-key quantum money allows anyone to perform verification, while the private-key setting restricts the ability to verify to banks, as in Wiesner's original scheme. The current state of technological progress means that errors are impossible to entirely suppress, hence the requirement for noise-tolerant schemes. We show for the first time how to achieve noise-tolerance in the public-key setting. Our techniques follow Aaronson and Christiano's oracle model, where we use the ideas of quantum error correction to extend their scheme: a valid banknote is now a subspace state possibly affected by noise, and verification is performed by using classical oracles to check for membership in "larger spaces." Additionally, a banknote in our scheme is minted by preparing conjugate coding states and applying a unitary that permutes the standard basis vectors. | 翻訳日:2024-07-10 19:44:58 公開日:2024-07-08 |
# トレーニングフリーのCryoETトモグラフィーセグメンテーション
Training-free CryoET Tomogram Segmentation ( http://arxiv.org/abs/2407.06833v1 ) ライセンス: Link先を確認 | Yizhou Zhao, Hengwei Bian, Michael Mu, Mostofa R. Uddin, Zhenyang Li, Xiang Li, Tianyang Wang, Min Xu, | (参考訳) 低温電子トモグラフィー(CryoET)は、特に粒子抽出における手動アノテーションの必要性から、構造生物学において有用なイメージング技術である。
最近の研究は、この問題を数発の学習技術や対照的な学習技術で改善しようと努力している。
しかし、教師の訓練はいまだに避けられない。
代わりに、既存の2Dファウンデーションモデルのパワーを活用して、新しい、トレーニング不要のフレームワークCryoSAMを提示します。
提案手法では,プロンプトベースの単一粒子インスタンスセグメンテーションに加えて,1つのプロンプトのみで完全なトモグラフィ意味セグメンテーションを容易に行うことができる。
CryoSAMは2つの主要な部分から構成される。
1) クロスプレーン・セルフ・プロンプティングで再帰的に単一粒子インスタンス・セグメンテーションを完了させるプロンプトベースの3Dセグメンテーションシステム
2) 関係する特徴と抽出された断層像とを効率的にマッチングする階層的特徴マッチング機構。
彼らは1つの圏のすべての粒子を1つの粒子固有のプロンプトで分割できるようにするために協力する。
実験の結果、CryoSAMは既存の作品よりもかなりのマージンで優れており、粒子抽出においてアノテーションがより少ないことが判明した。
さらなる可視化は、様々な細胞内構造に対するフルトモグラフィーのセグメンテーションを扱う際にその能力を示す。
私たちのコードは、https://github.com/xulabs/aitom.comで利用可能です。
Cryogenic Electron Tomography (CryoET) is a useful imaging technology in structural biology that is hindered by its need for manual annotations, especially in particle picking. Recent works have endeavored to remedy this issue with few-shot learning or contrastive learning techniques. However, supervised training is still inevitable for them. We instead choose to leverage the power of existing 2D foundation models and present a novel, training-free framework, CryoSAM. In addition to prompt-based single-particle instance segmentation, our approach can automatically search for similar features, facilitating full tomogram semantic segmentation with only one prompt. CryoSAM is composed of two major parts: 1) a prompt-based 3D segmentation system that uses prompts to complete single-particle instance segmentation recursively with Cross-Plane Self-Prompting, and 2) a Hierarchical Feature Matching mechanism that efficiently matches relevant features with extracted tomogram features. They collaborate to enable the segmentation of all particles of one category with just one particle-specific prompt. Our experiments show that CryoSAM outperforms existing works by a significant margin and requires even fewer annotations in particle picking. Further visualizations demonstrate its ability when dealing with full tomogram segmentation for various subcellular structures. Our code is available at: https://github.com/xulabs/aitom | 翻訳日:2024-07-10 17:57:30 公開日:2024-07-08 |
# リモートセンシング変更検出のためのマンバ型シームズネットワーク
A Mamba-based Siamese Network for Remote Sensing Change Detection ( http://arxiv.org/abs/2407.06839v1 ) ライセンス: Link先を確認 | Jay N. Paranjape, Celso de Melo, Vishal M. Patel, | (参考訳) リモートセンシング画像における変化検出は、異なるタイミングで領域を解析するための重要なツールである。
環境変化のモニタリング、人為的な変化、それに対応する意思決定、将来のトレンドの予測に様々な応用を見出した。
畳み込みニューラルネットワーク(CNN)やトランスフォーマーのようなディープラーニング手法は、異なるタイミングで2つの画像が与えられた場合、大きな変化を検出することに成功している。
本稿では,マンバをベースとした変化検出器(M-CD)を提案する。
Mambaベースのアーキテクチャでは、線形時間トレーニング機能と、トランス上での受容場の改善が示されている。
4つの変更検出データセットを用いた実験により,既存のSOTA法よりも顕著な改善が得られた。
私たちのコードと事前訓練済みモデルはhttps://github.com/JayParanjape/M-CDで利用可能です。
Change detection in remote sensing images is an essential tool for analyzing a region at different times. It finds varied applications in monitoring environmental changes, man-made changes as well as corresponding decision-making and prediction of future trends. Deep learning methods like Convolutional Neural Networks (CNNs) and Transformers have achieved remarkable success in detecting significant changes, given two images at different times. In this paper, we propose a Mamba-based Change Detector (M-CD) that segments out the regions of interest even better. Mamba-based architectures demonstrate linear-time training capabilities and an improved receptive field over transformers. Our experiments on four widely used change detection datasets demonstrate significant improvements over existing state-of-the-art (SOTA) methods. Our code and pre-trained models are available at https://github.com/JayParanjape/M-CD | 翻訳日:2024-07-10 17:57:30 公開日:2024-07-08 |
# ノイズの存在下での量子プローブと複素量子系の非古典的相関
Non-classical correlations between a quantum probe and complex quantum systems in presence of noise ( http://arxiv.org/abs/2402.09618v3 ) ライセンス: Link先を確認 | Bijoy John Mathew, Sanchit Srivastava, Anil Shaji, | (参考訳) 大規模でマクロなシステムと相互作用する量子プローブシステム内で発生する非古典的相関は、後者における量子的特徴の存在を示唆することができる。
理論モデルでは、光合成細菌が引き起こした絡み合いが光によってどのように観測されるかが検討されている。
最近では、ターディオグラードがトランスモンキュービットに絡まれている。
このようなシステムに対するノイズを含む詳細なモデルを考えると、小さな量子プローブが大きなシステムと相互作用し、マクロシステムにおける量子性のシグネチャを現実的に検出できる結合強度やノイズレベルについて、状態を記述する。
Non-classical correlations generated within a quantum probe system when it interacts with a large, macroscopic system can signal the presence of quantum features in the latter. Theoretical models have considered how entanglement generated in photosynthetic bacteria can be probed using light that interacts with them. More recently, a tardigrade was entangled to a transmon qubit. We consider a detailed model including noise for such systems wherein a small quantum probe interacts with a large system in order to delineate the regimes with respect to coupling strengths and noise levels in which such signatures of quantumness in macroscopic systems can realistically be detected. | 翻訳日:2024-07-10 11:32:40 公開日:2024-07-08 |
# DWUG: 4言語におけるダイアクロニック単語使用グラフの多用
DWUG: A large Resource of Diachronic Word Usage Graphs in Four Languages ( http://arxiv.org/abs/2104.08540v3 ) ライセンス: Link先を確認 | Dominik Schlechtweg, Nina Tahmasebi, Simon Hengchen, Haim Dubossarsky, Barbara McGillivray, | (参考訳) 単語の意味は、同期的にも横断的にも、捕えるのが難しいことで有名である。
本稿では,10万の人間の意味的近さ判断に基づいて,4言語で意味するアノテーションを意味づける,格付けされた文脈付きダイアクロニック単語の最大の資源の作成について述べる。
マルチラウンドのインクリメンタルアノテーションプロセス、クラスタリングアルゴリズムの選択を深く説明し、このデータセットに使用可能なダイアクロニックとシンクロニックの2つを分類する。
Word meaning is notoriously difficult to capture, both synchronically and diachronically. In this paper, we describe the creation of the largest resource of graded contextualized, diachronic word meaning annotation in four different languages, based on 100,000 human semantic proximity judgments. We thoroughly describe the multi-round incremental annotation process, the choice for a clustering algorithm to group usages into senses, and possible - diachronic and synchronic - uses for this dataset. | 翻訳日:2024-07-10 06:10:05 公開日:2024-07-08 |
# 教師なし視点不変人姿勢表現
Unsupervised View-Invariant Human Posture Representation ( http://arxiv.org/abs/2109.08730v2 ) ライセンス: Link先を確認 | Faegheh Sardari, Björn Ommer, Majid Mirmehdi, | (参考訳) 最近のビュー不変アクション認識と性能評価アプローチは、ビュー不変の特徴を抽出するために、大量の注釈付き3Dスケルトンデータに依存している。
しかし、3Dスケルトンデータの取得は、非現実的でないとしても、未解決のシナリオでは困難である。
この問題を解決するために,3次元ジョイントデータを用いることなく2次元画像からビュー不変な3次元ポーズ表現を抽出することを学ぶ,新しい教師なしアプローチを提案する。
本モデルは、異なる視点からの同時フレーム間における人間のポーズの内在的なビュー不変性と、同じ視点からの強化フレーム間の同変特性を生かして訓練される。
2つの下流タスクに対する学習されたビュー不変ポーズ表現を評価する。
我々は,RGB画像と深度画像の両方において,NTU RGB+Dにおける最先端の教師なしクロスビュー動作分類精度を有意差で向上させる比較実験を行った。
また、NTU RGB+Dから学習した表現を転送して、多視点の人間運動品質データセットであるQMAR上で、非教師なしのクロスビューとクロスオブジェクトのランク相関結果を得ることができ、また、このデータセットの最先端の教師付き結果に対して極端に改善されることを示す。
また,提案するネットワークの異なるコンポーネントのコントリビューションを検討するために,アブレーション研究を実施している。
Most recent view-invariant action recognition and performance assessment approaches rely on a large amount of annotated 3D skeleton data to extract view-invariant features. However, acquiring 3D skeleton data can be cumbersome, if not impractical, in in-the-wild scenarios. To overcome this problem, we present a novel unsupervised approach that learns to extract view-invariant 3D human pose representation from a 2D image without using 3D joint data. Our model is trained by exploiting the intrinsic view-invariant properties of human pose between simultaneous frames from different viewpoints and their equivariant properties between augmented frames from the same viewpoint. We evaluate the learned view-invariant pose representations for two downstream tasks. We perform comparative experiments that show improvements on the state-of-the-art unsupervised cross-view action classification accuracy on NTU RGB+D by a significant margin, on both RGB and depth images. We also show the efficiency of transferring the learned representations from NTU RGB+D to obtain the first ever unsupervised cross-view and cross-subject rank correlation results on the multi-view human movement quality dataset, QMAR, and marginally improve on the-state-of-the-art supervised results for this dataset. We also carry out ablation studies to examine the contributions of the different components of our proposed network. | 翻訳日:2024-07-10 06:10:05 公開日:2024-07-08 |
# 信頼度を考慮した不確かさ推定
Versatile fidelity estimation with confidence ( http://arxiv.org/abs/2112.07925v2 ) ライセンス: Link先を確認 | Akshay Seshadri, Martin Ringbauer, Jacob Spainhour, Rainer Blatt, Thomas Monz, Stephen Becker, | (参考訳) 量子デバイスがより複雑になり、これらのデバイスに対する要求がより要求されるようになるにつれて、そのようなデバイスの性能をスケーラブルで信頼性の高い方法で検証できることが不可欠である。
この課題における基礎的な課題は、実験的に準備された量子状態が望ましい状態にどの程度近いかを定量化することである。
本稿では,任意の測定プロトコルと互換性のある量子状態忠実度推定器を構築する方法を提案する。
本手法は, この推定器の信頼区間を提供し, 所定の測定プロトコルに対して, ほぼ極小となることを保証している。
本手法は, 高精度な測定手法として, 推定に必要な測定結果の数と競合する。
トラップイオン量子コンピュータのシミュレーションと実験データを用いて本手法を実証し,その結果と最先端技術との比較を行った。
本手法は, 絡み合った目撃者などの観測対象者の期待値を推定するために, 容易に拡張することができる。
As quantum devices become more complex and the requirements on these devices become more demanding, it is crucial to be able to verify the performance of such devices in a scalable and reliable fashion. A cornerstone task in this challenge is quantifying how close an experimentally prepared quantum state is to the desired one. Here we present a method to construct an estimator for the quantum state fidelity that is compatible with any measurement protocol. Our method provides a confidence interval on this estimator that is guaranteed to be nearly minimax optimal for the specified measurement protocol. For a well-chosen measurement scheme, our method is competitive in the number of measurement outcomes required for estimation. We demonstrate our method using simulations and experimental data from a trapped-ion quantum computer and compare the results to state-of-the-art techniques. Our method can be easily extended to estimate the expectation value of any observable, such as entanglement witnesses. | 翻訳日:2024-07-10 06:02:09 公開日:2024-07-08 |
# 信頼度を考慮した多元的忠実度推定の理論
Theory of versatile fidelity estimation with confidence ( http://arxiv.org/abs/2112.07947v2 ) ライセンス: Link先を確認 | Akshay Seshadri, Martin Ringbauer, Jacob Spainhour, Thomas Monz, Stephen Becker, | (参考訳) 量子情報処理において、目標状態の忠実度を推定することが重要である。
多くの忠実度推定手法は、その推定を行うのに適した測定方法を示す。
対照的に,実験者が便利な測定設定を選択できる手法を提案する。
我々の主な焦点は、任意の特定の測定設定に対して、ほぼ最小の最適信頼区間を持つ推定器を構築する方法である。
理論的および数値的な結果を組み合わせることで、実験上の不完全性に対する堅牢性、競合するサンプルの複雑さ、実際の正確な推定など、この手法の様々な望ましい特性を実証する。
本稿では,本手法を最大類似度推定法と関連するプロファイル類似度推定法,半有限計画法,直接忠実度推定法,量子状態検証法,古典影法と比較する。
我々の手法は、同じ保証でオブザーバブルの期待値を推定するためにも利用できる。
Estimating the fidelity with a target state is important in quantum information tasks. Many fidelity estimation techniques present a suitable measurement scheme to perform the estimation. In contrast, we present techniques that allow the experimentalist to choose a convenient measurement setting. Our primary focus lies on a method that constructs an estimator with nearly minimax optimal confidence intervals for any specified measurement setting. We demonstrate, through a combination of theoretical and numerical results, various desirable properties of the method: robustness against experimental imperfections, competitive sample complexity, and accurate estimates in practice. We compare this method with Maximum Likelihood Estimation and the associated Profile Likelihood method, a Semi-Definite Programming based approach, direct fidelity estimation, quantum state verification, and classical shadows. Our method can also be used for estimating the expectation value of any observable with the same guarantees. | 翻訳日:2024-07-10 06:02:09 公開日:2024-07-08 |
# 説明可能な機械学習における診断問題--実践者の立場から
The Disagreement Problem in Explainable Machine Learning: A Practitioner's Perspective ( http://arxiv.org/abs/2202.01602v4 ) ライセンス: Link先を確認 | Satyapriya Krishna, Tessa Han, Alex Gu, Steven Wu, Shahin Jabbari, Himabindu Lakkaraju, | (参考訳) 様々なポストホックな説明法が、ハイテイクな設定で複雑なモデルを説明するためにますます活用されているため、これらの方法によって出力される説明が互いに相反するかどうか、実際にどのように解決されるのかについて、より深く理解することが重要である。
しかし、これらの批判的な疑問に答える研究はほとんど、あるいは全くない。
本研究では、説明可能な機械学習における不一致問題を紹介し、研究する。
より具体的には、説明間の不一致の概念を形式化し、そのような不一致が実際にどれだけ頻繁に起こるか、そして実践者がこれらの不一致を解決する方法について分析する。
まずデータ科学者とのインタビューを行い、同じモデル予測のための異なる手法によって生成された説明の相違について理解し、この理解を形式化する新しい定量的枠組みを導入する。
次に、このフレームワークを利用して、4つの実世界のデータセット、6つの最先端のポストホック説明法、6つの異なる予測モデルを用いて厳密な実証分析を行い、様々な一般的な説明法によって生成された説明間の不一致の程度を測定する。
さらに、上記の不一致を解決する方法を理解するために、データサイエンティストとオンラインユーザスタディを実施している。
以上の結果から,(1)最先端の説明手法は,出力する説明の観点からは相反することが多く,(2)機械学習実践者は,その相違を解消する際に,アドホックなヒューリスティックスを用いることが多いことが示唆された。
これらの結果から, 実践者は適切な判断を下す際に, 誤解を招く説明に頼っている可能性が示唆された。
彼らはまた、様々な説明技法によって出力される説明を効果的に評価し比較するための原則化されたフレームワークを開発することの重要性を強調している。
As various post hoc explanation methods are increasingly being leveraged to explain complex models in high-stakes settings, it becomes critical to develop a deeper understanding of if and when the explanations output by these methods disagree with each other, and how such disagreements are resolved in practice. However, there is little to no research that provides answers to these critical questions. In this work, we introduce and study the disagreement problem in explainable machine learning. More specifically, we formalize the notion of disagreement between explanations, analyze how often such disagreements occur in practice, and how practitioners resolve these disagreements. We first conduct interviews with data scientists to understand what constitutes disagreement between explanations generated by different methods for the same model prediction and introduce a novel quantitative framework to formalize this understanding. We then leverage this framework to carry out a rigorous empirical analysis with four real-world datasets, six state-of-the-art post hoc explanation methods, and six different predictive models, to measure the extent of disagreement between the explanations generated by various popular explanation methods. In addition, we carry out an online user study with data scientists to understand how they resolve the aforementioned disagreements. Our results indicate that (1) state-of-the-art explanation methods often disagree in terms of the explanations they output, and (2) machine learning practitioners often employ ad hoc heuristics when resolving such disagreements. These findings suggest that practitioners may be relying on misleading explanations when making consequential decisions. They also underscore the importance of developing principled frameworks for effectively evaluating and comparing explanations output by various explanation techniques. | 翻訳日:2024-07-10 06:02:09 公開日:2024-07-08 |
# HyperMAML: HypernetworksによるDeep ModelのFew-Shot Adaptation
HyperMAML: Few-Shot Adaptation of Deep Models with Hypernetworks ( http://arxiv.org/abs/2205.15745v3 ) ライセンス: Link先を確認 | M. Przewięźlikowski, P. Przybysz, J. Tabor, M. Zięba, P. Spurek, | (参考訳) Few-Shot学習手法の目的は、少量のデータに基づいて、これまで見つからなかったタスクに容易に適応できるモデルを訓練することである。
最も人気がありエレガントなFew-Shot学習アプローチの1つは、モデルに依存しないメタラーニング(MAML)である。
この手法の背景にある主な考え方は、少数の勾配ステップにおいて特定の問題にさらに適応するメタモデルの一般的な重み付けを学習することである。
しかし、モデルの主な制限は、勾配に基づく最適化によって更新手順が実現されるという事実にある。
結果として、MAMLは、1回または数回の勾配反復において、常に重みを必須レベルに修正することはできない。
一方で、多くの勾配ステップを使用することで、複雑で時間を要する最適化手順が実現し、実際には訓練が難しく、過度に適合する可能性がある。
本稿では,更新手順のトレーニングをモデルの一部として行う,新しいMAMLの一般化であるHyperMAMLを提案する。
すなわち、HyperMAMLでは、勾配降下で重みを更新する代わりに、トレーニング可能なHypernetworkを使用する。
したがって、このフレームワークでは、一定数のグラデーションステップに制限されない大きな更新を生成できる。
実験によると、HyperMAMLは一貫してMAMLより優れており、多くの標準的なFew-Shot学習ベンチマークで他の最先端技術と互換性がある。
The aim of Few-Shot learning methods is to train models which can easily adapt to previously unseen tasks, based on small amounts of data. One of the most popular and elegant Few-Shot learning approaches is Model-Agnostic Meta-Learning (MAML). The main idea behind this method is to learn the general weights of the meta-model, which are further adapted to specific problems in a small number of gradient steps. However, the model's main limitation lies in the fact that the update procedure is realized by gradient-based optimisation. In consequence, MAML cannot always modify weights to the essential level in one or even a few gradient iterations. On the other hand, using many gradient steps results in a complex and time-consuming optimization procedure, which is hard to train in practice, and may lead to overfitting. In this paper, we propose HyperMAML, a novel generalization of MAML, where the training of the update procedure is also part of the model. Namely, in HyperMAML, instead of updating the weights with gradient descent, we use for this purpose a trainable Hypernetwork. Consequently, in this framework, the model can generate significant updates whose range is not limited to a fixed number of gradient steps. Experiments show that HyperMAML consistently outperforms MAML and performs comparably to other state-of-the-art techniques in a number of standard Few-Shot learning benchmarks. | 翻訳日:2024-07-10 06:02:09 公開日:2024-07-08 |
# 非凸バーラのグローバル保証の改善--ランクオーバーパラメトリゼーションによるモンテイロ因子化
Improved Global Guarantees for the Nonconvex Burer--Monteiro Factorization via Rank Overparameterization ( http://arxiv.org/abs/2207.01789v2 ) ライセンス: Link先を確認 | Richard Y. Zhang, | (参考訳) 二つの微分可能な$L$-smooth と $\mu$-strongly convex objective $\phi$ over a $n\times n$ positive semidefinite matrix $M\succeq0$ を最小化することを考える。
Burer--Monteiro のアプローチに従い、非凸対象 $f(X)=\phi(XX^{T})$ を因子行列 $X$ of size $n\times r$ で最小化する。
これにより、変数の数は$O(n^{2})$から$O(n)$まで大幅に減少し、また、元の問題の凸性を放棄するコストで、自由な半有限性も強制する。
本稿では、サーチランク$r\ge r^{\star}$が真のランク$r^{\star}$、すなわち$r>\frac{1}{4}(L/\mu-1)^{2}r^{\star}$に対して超パラメータ化されている場合、非凸性にもかかわらず、局所最適化は任意の初期点から大域的最適点へ大域的に収束することを保証している。
これは以前の階数オーバーパラメトリゼーションしきい値である$r\ge n$に対して著しく改善され、滑らかさと強い凸性が欠如していることが示されるが、変数の数が$O(n^{2})$まで増加する。
逆に、階数オーバーパラメトリゼーションがなければ、そのような大域的な保証が可能であることは、$\phi$ がほぼ完全に条件付きであることと、条件番号 $L/\mu<3$ が成立することを証明している。
したがって、小量の過パラメータ化は、非凸バーラ-モンテイロ分解の理論的保証に大きな改善をもたらす可能性があると結論付けている。
We consider minimizing a twice-differentiable, $L$-smooth, and $\mu$-strongly convex objective $\phi$ over an $n\times n$ positive semidefinite matrix $M\succeq0$, under the assumption that the minimizer $M^{\star}$ has low rank $r^{\star}\ll n$. Following the Burer--Monteiro approach, we instead minimize the nonconvex objective $f(X)=\phi(XX^{T})$ over a factor matrix $X$ of size $n\times r$. This substantially reduces the number of variables from $O(n^{2})$ to as few as $O(n)$ and also enforces positive semidefiniteness for free, but at the cost of giving up the convexity of the original problem. In this paper, we prove that if the search rank $r\ge r^{\star}$ is overparameterized by a \emph{constant factor} with respect to the true rank $r^{\star}$, namely as in $r>\frac{1}{4}(L/\mu-1)^{2}r^{\star}$, then despite nonconvexity, local optimization is guaranteed to globally converge from any initial point to the global optimum. This significantly improves upon a previous rank overparameterization threshold of $r\ge n$, which we show is sharp in the absence of smoothness and strong convexity, but would increase the number of variables back up to $O(n^{2})$. Conversely, without rank overparameterization, we prove that such a global guarantee is possible if and only if $\phi$ is almost perfectly conditioned, with a condition number of $L/\mu<3$. Therefore, we conclude that a small amount of overparameterization can lead to large improvements in theoretical guarantees for the nonconvex Burer--Monteiro factorization. | 翻訳日:2024-07-10 06:02:09 公開日:2024-07-08 |
# GLENet:ジェネレーティブラベルの不確実性推定による3Dオブジェクト検出器の強化
GLENet: Boosting 3D Object Detectors with Generative Label Uncertainty Estimation ( http://arxiv.org/abs/2207.02466v5 ) ライセンス: Link先を確認 | Yifan Zhang, Qijian Zhang, Zhiyu Zhu, Junhui Hou, Yixuan Yuan, | (参考訳) 3Dバウンディングボックスのグラウンド・トゥルースアノテーションの曖昧さは、オクルージョン、信号の欠如、手動のアノテーションエラーによって引き起こされ、訓練中に深い3Dオブジェクト検出器を混乱させ、検出精度を低下させる。
しかし、既存の手法はそのような問題をある程度見落とし、ラベルを決定論的に扱う。
本稿では,対象物の潜在的可算有界箱の多様性として,ラベルの不確実性問題を定式化する。
そこで我々は,条件付き変分オートエンコーダを応用した生成フレームワークであるGLENetを提案する。
GLENetが生成するラベルの不確実性はプラグアンドプレイモジュールであり、既存の深部3D検出器に便利に統合して確率的検出器を構築し、局所化の不確実性の学習を監督することができる。
また,確率的検出器における不確実性を考慮した品質推定器アーキテクチャを提案する。
提案手法を様々な人気ベース3D検出器に組み込んで,KITTIとWaymoのベンチマークデータセットで有意かつ一貫した性能向上を示す。
特に,提案したGLENet-VRは,全てのLiDARベースのアプローチを大きなマージンで上回り,挑戦的なKITTIテストセット上での単一モーダル手法の中で最上位となる。
ソースコードと事前訓練されたモデルは、 \url{https://github.com/Eaphan/GLENet}で公開されている。
The inherent ambiguity in ground-truth annotations of 3D bounding boxes, caused by occlusions, signal missing, or manual annotation errors, can confuse deep 3D object detectors during training, thus deteriorating detection accuracy. However, existing methods overlook such issues to some extent and treat the labels as deterministic. In this paper, we formulate the label uncertainty problem as the diversity of potentially plausible bounding boxes of objects. Then, we propose GLENet, a generative framework adapted from conditional variational autoencoders, to model the one-to-many relationship between a typical 3D object and its potential ground-truth bounding boxes with latent variables. The label uncertainty generated by GLENet is a plug-and-play module and can be conveniently integrated into existing deep 3D detectors to build probabilistic detectors and supervise the learning of the localization uncertainty. Besides, we propose an uncertainty-aware quality estimator architecture in probabilistic detectors to guide the training of the IoU-branch with predicted localization uncertainty. We incorporate the proposed methods into various popular base 3D detectors and demonstrate significant and consistent performance gains on both KITTI and Waymo benchmark datasets. Especially, the proposed GLENet-VR outperforms all published LiDAR-based approaches by a large margin and achieves the top rank among single-modal methods on the challenging KITTI test set. The source code and pre-trained models are publicly available at \url{https://github.com/Eaphan/GLENet}. | 翻訳日:2024-07-10 05:52:24 公開日:2024-07-08 |
# 量子状態トモグラフィーのための効率的な係数勾配降下アルゴリズム
Efficient factored gradient descent algorithm for quantum state tomography ( http://arxiv.org/abs/2207.05341v4 ) ライセンス: Link先を確認 | Yong Wang, Lijun Liu, Shuming Cheng, Li Li, Jie Chen, | (参考訳) 量子多体系の状態の再構築は、量子情報処理において基本的な重要性であるが、次元性の呪いのために非常に困難である。
本研究では, 量子トモグラフィープロトコルを提案する。このプロトコルは, 状態分解と固有値マッピングを組み合わせることで, ランク不足問題に対処し, 最適化過程を高速化するモーメント加速勾配勾配勾配アルゴリズムを組み込む。
そこで我々は, 係数勾配降下アルゴリズムが効率よく階数不足の問題を緩和し, トモグラフィの精度を向上し, 収束を高速化することを示すため, 広範囲な数値実験を行った。
また, ランダムな11ビット混合状態のフル状態トモグラフィを1分以内で達成できることも確認した。
Reconstructing the state of quantum many-body systems is of fundamental importance in quantum information tasks, but extremely challenging due to the curse of dimensionality. In this work, we present an efficient quantum tomography protocol that combines the state-factored with eigenvalue mapping to address the rank-deficient issue and incorporates a momentum-accelerated gradient descent algorithm to speed up the optimization process. We implement extensive numerical experiments to demonstrate that our factored gradient descent algorithm efficiently mitigates the rank-deficient problem and admits orders of magnitude better tomography accuracy and faster convergence. We also find that our method can accomplish the full-state tomography of random 11-qubit mixed states within one minute. | 翻訳日:2024-07-10 05:52:24 公開日:2024-07-08 |
# IPNET:少数のショット学習のための流用プロトタイプネットワーク
IPNET:Influential Prototypical Networks for Few Shot Learning ( http://arxiv.org/abs/2208.09345v2 ) ライセンス: Link先を確認 | Ranjana Roy Chowdhury, Deepti R. Bathula, | (参考訳) プロトタイプネットワーク(PN)は単純だが効果的なショットラーニング戦略である。
ユークリッド距離を計算して各クラスの原型表現に分類する,メートル法に基づくメタラーニング手法である。
従来のPN属性は、すべてのサンプルと同等に重要であり、各クラスに属するサポートサンプルの埋め込みを単に平均化することでプロトタイプを生成する。
そこで本研究では, 支持試料分布への影響に対応する試料に重みを付与するPNの新たなバージョンを提案する。
試料を含まない試料分布の平均埋没量の最大誤差 (MMD) に基づいて, 試料の重み付けを算出した。
さらに, 試料の有無の分布変化に基づいて, MMDを用いて試料の影響係数を測定した。
Prototypical network (PN) is a simple yet effective few shot learning strategy. It is a metric-based meta-learning technique where classification is performed by computing Euclidean distances to prototypical representations of each class. Conventional PN attributes equal importance to all samples and generates prototypes by simply averaging the support sample embeddings belonging to each class. In this work, we propose a novel version of PN that attributes weights to support samples corresponding to their influence on the support sample distribution. Influence weights of samples are calculated based on maximum mean discrepancy (MMD) between the mean embeddings of sample distributions including and excluding the sample. Further, the influence factor of a sample is measured using MMD based on the shift in the distribution in the absence of that sample. | 翻訳日:2024-07-10 05:52:24 公開日:2024-07-08 |
# 自発ハマーのマルチモーダル予測に向けて:新しいデータセットと最初の結果
Towards Multimodal Prediction of Spontaneous Humour: A Novel Dataset and First Results ( http://arxiv.org/abs/2209.14272v3 ) ライセンス: Link先を確認 | Lukas Christ, Shahin Amiriparian, Alexander Kathan, Niklas Müller, Andreas König, Björn W. Schuller, | (参考訳) 風は人間の社会的行動、感情、認知の重要な要素である。
その自動理解は、より自然主義的な人間とAIの相互作用を促進する。
現在のユーモア検出法は、ステージ化されたデータのみに基づいており、「現実世界」の応用には不十分である。
約11時間の記録を含むPassau-Spontaneous Football Coach Humor (Passau-SFCH) データセットの導入により,この障害への対処に寄与する。
Passau-SFCHデータセットは、マーティンのHummor Style Questionnaireで提案されているように、ユーモアの存在とその次元(感覚と方向)に注釈付けされている。
我々は、事前訓練されたトランスフォーマー、畳み込みニューラルネットワーク、専門家が設計した特徴を利用した一連の実験を行っている。
自発的なユーモア認識のための各モダリティ(テキスト,音声,ビデオ)の分析を行い,その相補性について検討した。
以上の結果から, ユーモアの自動分析と感情分析において, 表情は最も有望であり, ユーモアの方向はテキストベースの特徴によってモデル化される可能性が示唆された。
さらに、判定レベル融合やマルチモーダルトランスフォーマーアプローチであるMulTなど、ユーモア認識に対する様々なマルチモーダルアプローチを実験する。
この文脈では、最も優れた総合的な結果をもたらす新しいマルチモーダルアーキテクチャを提案する。
最後に、私たちのコードはhttps://www.github.com/lc0197/passau-sfch.comで公開しています。
Passau-SFCHデータセットは、要求に応じて利用できる。
Humor is a substantial element of human social behavior, affect, and cognition. Its automatic understanding can facilitate a more naturalistic human-AI interaction. Current methods of humor detection have been exclusively based on staged data, making them inadequate for "real-world" applications. We contribute to addressing this deficiency by introducing the novel Passau-Spontaneous Football Coach Humor (Passau-SFCH) dataset, comprising about 11 hours of recordings. The Passau-SFCH dataset is annotated for the presence of humor and its dimensions (sentiment and direction) as proposed in Martin's Humor Style Questionnaire. We conduct a series of experiments employing pretrained Transformers, convolutional neural networks, and expert-designed features. The performance of each modality (text, audio, video) for spontaneous humor recognition is analyzed and their complementarity is investigated. Our findings suggest that for the automatic analysis of humor and its sentiment, facial expressions are most promising, while humor direction can be best modeled via text-based features. Further, we experiment with different multimodal approaches to humor recognition, including decision-level fusion and MulT, a multimodal Transformer approach. In this context, we propose a novel multimodal architecture that yields the best overall results. Finally, we make our code publicly available at https://www.github.com/lc0197/passau-sfch. The Passau-SFCH dataset is available upon request. | 翻訳日:2024-07-10 05:52:24 公開日:2024-07-08 |
# Hamiltonian Quantum Generative Adversarial Networks
Hamiltonian Quantum Generative Adversarial Networks ( http://arxiv.org/abs/2211.02584v2 ) ライセンス: Link先を確認 | Leeseok Kim, Seth Lloyd, Milad Marvian, | (参考訳) 2つの競合する量子最適制御を用いて未知の入力量子状態を生成することを学ぶために、ハミルトン量子生成適応ネットワーク(HQuGANs)を提案する。
このアルゴリズムのゲーム理論の枠組みは、高次元分布の学習における古典的生成的敵ネットワークの成功に着想を得たものである。
量子最適制御アプローチは、アルゴリズムを短期ハードウェアの実験的な制約に自然に適応させるだけでなく、回路モデルと比較して過パラメータ化の自然な特徴を与える。
低帯域幅制御などの実験的な制約の下で, 単純な2体ハミルトニアンを用いて, 様々な多体量子状態の絡み合いを学習するフレームワークの能力を数値的に示す。
量子コンピュータ上でHQuGANを実装する際の計算コストを分析し、量子力学を学習するためにフレームワークをどのように拡張できるかを示す。
さらに,HQuGANの収束を防止するモード崩壊の問題を回避し,純状態を生成する際の収束の促進を実証する新たなコスト関数を導入する。
We propose Hamiltonian Quantum Generative Adversarial Networks (HQuGANs), to learn to generate unknown input quantum states using two competing quantum optimal controls. The game-theoretic framework of the algorithm is inspired by the success of classical generative adversarial networks in learning high-dimensional distributions. The quantum optimal control approach not only makes the algorithm naturally adaptable to the experimental constraints of near-term hardware, but also offers a more natural characterization of overparameterization compared to the circuit model. We numerically demonstrate the capabilities of the proposed framework to learn various highly entangled many-body quantum states, using simple two-body Hamiltonians and under experimentally relevant constraints such as low-bandwidth controls. We analyze the computational cost of implementing HQuGANs on quantum computers and show how the framework can be extended to learn quantum dynamics. Furthermore, we introduce a new cost function that circumvents the problem of mode collapse that prevents convergence of HQuGANs and demonstrate how to accelerate the convergence of them when generating a pure state. | 翻訳日:2024-07-10 05:52:24 公開日:2024-07-08 |
# Qafny: 量子プログラム検証器
Qafny: A Quantum-Program Verifier ( http://arxiv.org/abs/2211.06411v5 ) ライセンス: Link先を確認 | Liyi Li, Mingwei Zhu, Rance Cleaveland, Alexander Nicolellis, Yi Lee, Le Chang, Xiaodi Wu, | (参考訳) 量子プログラムの確率論的/非決定論的挙動のため、それらの仕様が正しく実装されていることを確認するために、それらを正式に検証することが非常に望ましい。
しかし、形式的検証も伝統的にかなりの努力を要する。
この課題に対処するために,プログラム検証器Dafnyをベースとした自動証明システムであるQafnyを紹介し,量子プログラムの検証を行う。
コアとなるQafnyは、量子演算を古典的な分離論理フレームワークでモデル化された古典的な配列演算に変換する型誘導量子証明システムを使用している。
証明システムの健全性と完全性を証明するとともに,Qafnyプログラムと仕様をDafnyに変換して自動検証を行うプロトタイプコンパイラを実装した。
次に、量子ウォークアルゴリズム、Groverアルゴリズム、Shorアルゴリズムを含む重要な量子アルゴリズムを効率よく検証する上で、Qafnyの自動機能の有用性について説明する。
Because of the probabilistic/nondeterministic behavior of quantum programs, it is highly advisable to verify them formally to ensure that they correctly implement their specifications. Formal verification, however, also traditionally requires significant effort. To address this challenge, we present Qafny, an automated proof system based on the program verifier Dafny and designed for verifying quantum programs. At its core, Qafny uses a type-guided quantum proof system that translates quantum operations to classical array operations modeled within a classical separation logic framework. We prove the soundness and completeness of our proof system and implement a prototype compiler that transforms Qafny programs and specifications into Dafny for automated verification purposes. We then illustrate the utility of Qafny's automated capabilities in efficiently verifying important quantum algorithms, including quantum-walk algorithms, Grover's algorithm, and Shor's algorithm. | 翻訳日:2024-07-10 05:52:24 公開日:2024-07-08 |
# 視覚障害者のためのSLAM:調査
SLAM for Visually Impaired People: a Survey ( http://arxiv.org/abs/2212.04745v5 ) ライセンス: Link先を確認 | Marziyeh Bamdad, Davide Scaramuzza, Alireza Darvishy, | (参考訳) 近年では、視覚障害者が独立して安全に移動できる能力を向上させるために、いくつかの補助技術が開発されている。
同時に、同時ローカライゼーションとマッピング(SLAM)技術は、これらの補助技術の開発において十分に堅牢で効率的なものになっている。
視力障害および視覚障害のある人々に対するSLAMに基づくソリューションに関する最近の54の体系的文献レビューを,2017年以降の文献に焦点をあてて紹介する。
本稿では、この文脈で用いられる様々なローカライゼーションとマッピング技術について概説する。
様々なSLAM手法を体系的に同定し分類し,そのローカライゼーションとマッピング手法,センサタイプ,コンピュータリソース,機械学習手法を解析した。
視覚障害者のナビゲーションにおけるこれらの手法の利点と限界について論じる。
さらに,ユーザビリティや採用に影響を及ぼす実践的考察を含む,研究全体にわたる主要な課題について検討する。
また、現実シナリオにおけるSLAMベースのソリューションの有効性とユーザ満足度を評価し、BVIモビリティに対する実践的影響について考察した。
このレビューから得られた知見は、特に動的で複雑な環境がもたらす課題に対処する上で、将来の研究活動における重要なギャップと機会を明らかにしている。
SLAM技術は、視覚障害者が効果的にナビゲートできる能力を改善する可能性を秘めている。
最後に、この領域における今後の機会と課題を提示します。
In recent decades, several assistive technologies have been developed to improve the ability of blind and visually impaired individuals to navigate independently and safely. At the same time, simultaneous localization and mapping (SLAM) techniques have become sufficiently robust and efficient to be adopted in developing these assistive technologies. We present the first systematic literature review of 54 recent studies on SLAM-based solutions for blind and visually impaired people, focusing on literature published from 2017 onward. This review explores various localization and mapping techniques employed in this context. We systematically identified and categorized diverse SLAM approaches and analyzed their localization and mapping techniques, sensor types, computing resources, and machine-learning methods. We discuss the advantages and limitations of these techniques for blind and visually impaired navigation. Moreover, we examine the major challenges described across studies, including practical considerations that affect usability and adoption. Our analysis also evaluates the effectiveness of these SLAM-based solutions in real-world scenarios and user satisfaction, providing insights into their practical impact on BVI mobility. The insights derived from this review identify critical gaps and opportunities for future research activities, particularly in addressing the challenges presented by dynamic and complex environments. We explain how SLAM technology offers the potential to improve the ability of visually impaired individuals to navigate effectively. Finally, we present future opportunities and challenges in this domain. | 翻訳日:2024-07-10 05:52:24 公開日:2024-07-08 |
# 競争力のあるマルチエージェント意思決定・制御問題の解法
An active learning method for solving competitive multi-agent decision-making and control problems ( http://arxiv.org/abs/2212.12561v4 ) ライセンス: Link先を確認 | Filippo Fabiani, Alberto Bemporad, | (参考訳) 競合エージェントの集団に対する定常的行動プロファイルを識別するために、それぞれがプライベート戦略を実行するために、エージェントの反応を探索し、アクション・アクション・マッピングの単純な局所パラメトリック推定を再帰的に更新する、新しいアクティブ・ラーニング・スキームを導入する。
非常に一般的な作業仮定(静止プロファイルの存在を前提としない)の下では、提案したアクティブラーニング手法の漸近特性を評価するのに十分な条件が確立され、アクション-反応マッピングを特徴付けるパラメータが収束すると、定常動作プロファイルが達成される。
このような条件は、そのようなプロファイルが存在することの証明書としても機能する。
典型的な競合型マルチエージェント制御と意思決定問題を含む広範囲な数値シミュレーションにより,提案手法の有効性が示された。
To identify a stationary action profile for a population of competitive agents, each executing private strategies, we introduce a novel active-learning scheme where a centralized external observer (or entity) can probe the agents' reactions and recursively update simple local parametric estimates of the action-reaction mappings. Under very general working assumptions (not even assuming that a stationary profile exists), sufficient conditions are established to assess the asymptotic properties of the proposed active learning methodology so that, if the parameters characterizing the action-reaction mappings converge, a stationary action profile is achieved. Such conditions hence act also as certificates for the existence of such a profile. Extensive numerical simulations involving typical competitive multi-agent control and decision-making problems illustrate the practical effectiveness of the proposed learning-based approach. | 翻訳日:2024-07-10 05:52:24 公開日:2024-07-08 |
# Describe, Explain, Plan and Select: オープンワールドマルチタスクエージェントを実現する大規模言語モデルによる対話型プランニング
Describe, Explain, Plan and Select: Interactive Planning with Large Language Models Enables Open-World Multi-Task Agents ( http://arxiv.org/abs/2302.01560v3 ) ライセンス: Link先を確認 | Zihao Wang, Shaofei Cai, Guanzhou Chen, Anji Liu, Xiaojian Ma, Yitao Liang, | (参考訳) オープンワールド環境におけるマルチタスク実施エージェントのタスクプランニングの課題について検討する。
主な難しさは2つある。
1)オープンワールド環境での計画実行(例えばMinecraft)は、タスクの長期的性質のため、正確かつ多段階の推論を必要とする。
2)バニラプランナーは、複雑な計画内で並列サブゴールを注文する際に、現在のエージェントが与えられたサブタスクをどれだけ容易に達成できるかを考慮しないので、結果として得られるプランは効率が悪いか、あるいは不可能かもしれない。
そこで本稿では,Large Language Models (LLMs) に基づいた対話型計画手法である "$\underline{D}$escribe, $\underline{E}$xplain, $\underline{P}$lan and $\underline{S}$elect" ("\textbf{DEPS}$") を提案する。
DEPSは、計画実行プロセスの$\textit{description}$を統合し、拡張計画フェーズで障害に遭遇した場合に、セルフ$\textit{explanation}$のフィードバックを提供することで、初期LLM生成の$\textit{plan}$のエラー修正を容易にする。
さらに、$\textit{selector}$という目標が含まれており、これは並列候補のサブゴールを推定された完了ステップに基づいてランク付けし、初期計画を精査するトレーニング可能なモジュールである。
われわれの実験は、70以上のMinecraftタスクをしっかりと達成し、全体的なパフォーマンスをほぼ2倍にするという、最初のゼロショットマルチタスクエージェントの節目だ。
さらなるテストにより、一般に採用されている非オープンなドメイン(ALFWorldやテーブルトップ操作など)においても、我々の手法の一般的な効果が明らかになる。
アブレーションと探索研究は、我々のデザインがどのようにそのデザインに勝っているかを詳述し、我々のアプローチに対する大きな挑戦である$\texttt{ObtainDiamond}の有望なアップデートを提供する。
コードはhttps://github.com/CraftJarvis/MC-Planner.comで公開されている。
We investigate the challenge of task planning for multi-task embodied agents in open-world environments. Two main difficulties are identified: 1) executing plans in an open-world environment (e.g., Minecraft) necessitates accurate and multi-step reasoning due to the long-term nature of tasks, and 2) as vanilla planners do not consider how easy the current agent can achieve a given sub-task when ordering parallel sub-goals within a complicated plan, the resulting plan could be inefficient or even infeasible. To this end, we propose "$\underline{D}$escribe, $\underline{E}$xplain, $\underline{P}$lan and $\underline{S}$elect" ($\textbf{DEPS}$), an interactive planning approach based on Large Language Models (LLMs). DEPS facilitates better error correction on initial LLM-generated $\textit{plan}$ by integrating $\textit{description}$ of the plan execution process and providing self-$\textit{explanation}$ of feedback when encountering failures during the extended planning phases. Furthermore, it includes a goal $\textit{selector}$, which is a trainable module that ranks parallel candidate sub-goals based on the estimated steps of completion, consequently refining the initial plan. Our experiments mark the milestone of the first zero-shot multi-task agent that can robustly accomplish 70+ Minecraft tasks and nearly double the overall performances. Further testing reveals our method's general effectiveness in popularly adopted non-open-ended domains as well (i.e., ALFWorld and tabletop manipulation). The ablation and exploratory studies detail how our design beats the counterparts and provide a promising update on the $\texttt{ObtainDiamond}$ grand challenge with our approach. The code is released at https://github.com/CraftJarvis/MC-Planner. | 翻訳日:2024-07-10 05:42:28 公開日:2024-07-08 |
# 言語理解タスクにおけるAIのテストは、基礎となる意味に過敏なことを明らかにする
Testing AI on language comprehension tasks reveals insensitivity to underlying meaning ( http://arxiv.org/abs/2302.12313v3 ) ライセンス: Link先を確認 | Vittoria Dentella, Elliot Murphy, Gary Marcus, Evelina Leivada, | (参考訳) LLM(Large Language Models)は、臨床支援や法的支援から、質問応答や教育まで幅広い分野で採用されている。
特殊課題における彼らの成功は、それらが構成的理解と推論に関連する人間のような言語能力を持っているという主張につながった。
しかし、リバースエンジニアリングはモラベックのパラドックスによって拘束されており、簡単なスキルは難しい。
新たなベンチマークで7つの最先端モデルを体系的に評価する。
モデルは一連の理解的な質問に答え、それぞれが2つの設定で複数回トリガーし、ワンワードまたはオープン長の応答を許可した。
各質問は、高周波言語構造を特徴とする短いテキストをターゲットにしている。
人間的なパフォーマンスを達成するためのベースラインを確立するために、同じプロンプトで400人の人間をテストした。
n=26,680個のデータポイントのデータセットに基づいて、LLMが偶然の精度で動作し、ウェーブラーが解答に大きく貢献することを発見した。
定量的には、試験されたモデルは人間よりも優れており、その答えは言語理解において明らかに非人間的な誤りを示す。
我々は、この証拠を、様々なタスクにおいて有用であるにもかかわらず、現在のAIモデルは、人間と一致する方法で言語を理解できないことを示唆していると解釈する。
Large Language Models (LLMs) are recruited in applications that span from clinical assistance and legal support to question answering and education. Their success in specialized tasks has led to the claim that they possess human-like linguistic capabilities related to compositional understanding and reasoning. Yet, reverse-engineering is bound by Moravec's Paradox, according to which easy skills are hard. We systematically assess 7 state-of-the-art models on a novel benchmark. Models answered a series of comprehension questions, each prompted multiple times in two settings, permitting one-word or open-length replies. Each question targets a short text featuring high-frequency linguistic constructions. To establish a baseline for achieving human-like performance, we tested 400 humans on the same prompts. Based on a dataset of n=26,680 datapoints, we discovered that LLMs perform at chance accuracy and waver considerably in their answers. Quantitatively, the tested models are outperformed by humans, and qualitatively their answers showcase distinctly non-human errors in language understanding. We interpret this evidence as suggesting that, despite their usefulness in various tasks, current AI models fall short of understanding language in a way that matches humans, and we argue that this may be due to their lack of a compositional operator for regulating grammatical and semantic information. | 翻訳日:2024-07-10 05:42:28 公開日:2024-07-08 |
# オープンフェルミオン鎖の散逸ダイナミクス
Dissipative Dynamics in Open Fermionic Chains ( http://arxiv.org/abs/2303.02747v2 ) ライセンス: Link先を確認 | A. I. Karanikas, G. E. Pavlou, | (参考訳) ファインマン=ヴァーノンのアプローチを非平衡ケルディシュ=シュウィンガー形式主義と組み合わせることで、開フェルミオン系の時間依存相関関数を直接導出できる還元生成関数を構築する。
実例として, 横イジングモデルについて検討し, 系の定常状態における共分散行列を導出し, その臨界挙動について検討する。
By merging the Feynman-Vernon's approach with the out-of-equilibrium Keldysh-Schwinger formalism, we construct the reduced generating functional through which all the time-dependent correlation functions of an open fermionic system can be directly derived by applying the appropriate functional derivatives. As a concrete example, we investigate the transverse Ising model, we derive the covariance matrix at the steady state of the system and we investigate its critical behavior. | 翻訳日:2024-07-10 05:42:28 公開日:2024-07-08 |
# 知識誘導探索によるデータ駆動因果探索の最適化
Optimizing Data-driven Causal Discovery Using Knowledge-guided Search ( http://arxiv.org/abs/2304.05493v2 ) ライセンス: Link先を確認 | Uzma Hasan, Md Osman Gani, | (参考訳) 観測データのみから因果関係を学習することは、因果グラフの巨大な探索空間による根底にある因果機構を明らかにするのに失敗することが多い。
因果的エッジの存在や欠如などの事前因果的情報を活用することは、スコアベースの発見プロセスを制限し、ガイドし、より正確な探索につながる。
医療分野では、医学雑誌、電子健康記録(EHR)、臨床介入結果などの情報源から事前知識が豊富である。
本研究では、因果グラフを学習するための制約として、観測データと構造先行(因果エッジなど)を利用する知識誘導因果構造探索(KGS)手法を提案する。
KGSは、有向エッジの存在、エッジの欠如、無向エッジの存在など、変数間の事前のエッジ情報を活用する。
人工的およびベンチマーク的実世界のデータセットを用いて、KGSを複数の環境で評価し、また、酸素治療に関する実生活医療アプリケーションで評価した。
因果的先行情報を得るためには,GPT-4を用いて関連する文献情報を検索する。
以上の結果から,任意の種類の構造的先行が探索プロセスの促進,性能の向上,因果発見の最適化を図っている。
このガイドされた戦略は、発見されたエッジが確立された因果知識と一致し、探索プロセスを迅速化しつつ、発見の信頼性を高める。
また、因果メカニズムのより集中的な探索を可能にし、より効果的でパーソナライズされた医療ソリューションにつながる可能性がある。
Learning causal relationships solely from observational data often fails to reveal the underlying causal mechanisms due to the vast search space of possible causal graphs, which can grow exponentially, especially for greedy algorithms using score-based approaches. Leveraging prior causal information, such as the presence or absence of causal edges, can help restrict and guide the score-based discovery process, leading to a more accurate search. In the healthcare domain, prior knowledge is abundant from sources like medical journals, electronic health records (EHRs), and clinical intervention outcomes. This study introduces a knowledge-guided causal structure search (KGS) approach that utilizes observational data and structural priors (such as causal edges) as constraints to learn the causal graph. KGS leverages prior edge information between variables, including the presence of a directed edge, the absence of an edge, and the presence of an undirected edge. We extensively evaluate KGS in multiple settings using synthetic and benchmark real-world datasets, as well as in a real-life healthcare application related to oxygen therapy treatment. To obtain causal priors, we use GPT-4 to retrieve relevant literature information. Our results show that structural priors of any type and amount enhance the search process, improving performance and optimizing causal discovery. This guided strategy ensures that the discovered edges align with established causal knowledge, enhancing the trustworthiness of findings while expediting the search process. It also enables a more focused exploration of causal mechanisms, potentially leading to more effective and personalized healthcare solutions. | 翻訳日:2024-07-10 03:48:51 公開日:2024-07-08 |
# 言語間QA: コンテキスト内の言語間パフォーマンスをアンロックする鍵
Cross-lingual QA: A Key to Unlocking In-context Cross-lingual Performance ( http://arxiv.org/abs/2305.15233v2 ) ライセンス: Link先を確認 | Sunkyoung Kim, Dayeon Ki, Yireun Kim, Jinsik Lee, | (参考訳) MLLM(Multilingual Large Language Model)は、コンテキスト内学習を通じて、言語間の重要な機能を示す。
既存のアプローチは、典型的には、ソースまたはターゲット言語のいずれかで、単言語的な少数ショットの例を構築します。
しかし、コンテキスト内サンプル全体を対象言語に翻訳することは、コンテキスト整合性を損なう可能性があり、長いコンテキストパスの場合、コストがかかる。
そこで本研究では,質問部と回答部のみを翻訳する言語間プロンプト手法であるクロスランガルQAを導入し,翻訳コストを削減した。
4つの類型的多言語ベンチマークの実験により、クロスランガルQAはモデルに効果的に刺激を与え、それらの言語間知識を引き出すことが示され、以前の単言語的少数ショットプロンプトアプローチよりも優れていた。
さらに,オープンソースMLLMを言語間数例でプロンプトすることで,モデルスケールの増大とともに性能が向上することを示す。
Multilingual large language models (MLLMs) have demonstrated significant cross-lingual capabilities through in-context learning. Existing approaches typically construct monolingual few-shot examples, either in the source or target language. However, translating entire in-context examples into the target language might compromise contextual integrity and be costly in the case of long-context passages. To address this, we introduce Cross-lingual QA, a cross-lingual prompting method that translates only the question and answer parts, thus reducing translation costs. Experiments on four typologically diverse multilingual benchmarks show that Cross-lingual QA prompting effectively stimulates models to elicit their cross-lingual knowledge, outperforming prior monolingual few-shot prompting approaches. Furthermore, we show that prompting open-source MLLMs with cross-lingual few-shot examples enhances performance as the model scale increases. | 翻訳日:2024-07-10 03:48:51 公開日:2024-07-08 |
# UDPM:拡散確率モデルの改善
UDPM: Upsampling Diffusion Probabilistic Models ( http://arxiv.org/abs/2305.16269v3 ) ライセンス: Link先を確認 | Shady Abu-Hussein, Raja Giryes, | (参考訳) 拡散確率モデル(DDPM、Denoising Diffusion Probabilistic Models)は近年注目されている。
DDPMは、データ領域から始まり、純粋なホワイトノイズに到達するまで徐々にノイズを付加するマルコフ過程を構成する。
DDPMは、逆プロセスを定義し、このマッピングを学ぶためにディープニューラルネットワークをトレーニングすることで、複雑なデータ分布から高品質なサンプルを生成する。
しかし、これらのモデルは審美的なサンプルを生成するために多くの拡散ステップを必要とするため、非効率である。
さらに、GANとは違い、拡散モデルの潜伏空間は解釈しにくい。
本研究では,デノナイズ拡散過程をUDPM(Upsampling Diffusion Probabilistic Model)に一般化することを提案する。
前処理では、ダウンサンプリングにより潜時変動次元を減少させ、続いて従来のノイズ摂動を減少させる。
その結果、逆処理は、潜伏変数を徐々に軽視して、データ分布からサンプルを生成する。
我々はUDPMのマルコフ拡散過程を形式化し、その生成能力を一般的なFFHQ、AFHQv2、CIFAR10データセット上で実証する。
UDPMは最大3つのネットワーク評価で画像を生成するが、全体の計算コストはDDPMまたはEDMステップよりも低く、FIDスコアは6.86である。
これは、サンプリングに1つのデノナイジングステップを使用する、最先端の効率的な拡散モデルを上回る。
加えて、UDPMは解釈可能で補間可能な潜在空間を提供しており、従来のDDPMよりも有利である。
私たちのコードはオンラインで利用可能です。
Denoising Diffusion Probabilistic Models (DDPM) have recently gained significant attention. DDPMs compose a Markovian process that begins in the data domain and gradually adds noise until reaching pure white noise. DDPMs generate high-quality samples from complex data distributions by defining an inverse process and training a deep neural network to learn this mapping. However, these models are inefficient because they require many diffusion steps to produce aesthetically pleasing samples. Additionally, unlike generative adversarial networks (GANs), the latent space of diffusion models is less interpretable. In this work, we propose to generalize the denoising diffusion process into an Upsampling Diffusion Probabilistic Model (UDPM). In the forward process, we reduce the latent variable dimension through downsampling, followed by the traditional noise perturbation. As a result, the reverse process gradually denoises and upsamples the latent variable to produce a sample from the data distribution. We formalize the Markovian diffusion processes of UDPM and demonstrate its generation capabilities on the popular FFHQ, AFHQv2, and CIFAR10 datasets. UDPM generates images with as few as three network evaluations, whose overall computational cost is less than a single DDPM or EDM step, while achieving an FID score of 6.86. This surpasses current state-of-the-art efficient diffusion models that use a single denoising step for sampling. Additionally, UDPM offers an interpretable and interpolable latent space, which gives it an advantage over traditional DDPMs. Our code is available online: \url{https://github.com/shadyabh/UDPM/} | 翻訳日:2024-07-10 03:48:51 公開日:2024-07-08 |
# 物理制御された深層強化学習:不変な埋め込み
Physics-Regulated Deep Reinforcement Learning: Invariant Embeddings ( http://arxiv.org/abs/2305.16614v2 ) ライセンス: Link先を確認 | Hongpeng Cao, Yanbing Mao, Lui Sha, Marco Caccamo, | (参考訳) 本稿では,安全クリティカル自律システムのための物理制御深部強化学習(DRL)フレームワークであるPhy-DRLを提案する。
Phy-DRLには3つの特徴ある不変埋め込み設計がある。
一 残留行動方針(即ち、データ駆動型DRL行動方針及び物理モデルに基づく行動方針の統合)
二 自動的に安全付納付報酬を造成し、
三 リンク編集及びアクティベーション編集を含む物理モデル誘導ニューラルネットワーク(NN)の編集
理論的には、Phy-DRLの展示
1 数学的に証明可能な安全保証及び安全保証
2) 行動価値関数と行動ポリシーに関する物理知識を持つ批評家・俳優ネットワークの厳格なコンプライアンス。
最後に、カートポールシステムと四足歩行ロボットを用いたPhy-DRLの評価を行った。
実験の結果,Phy-DRLは純粋にデータ駆動型DRLに比べて安全性が保証され,モデルベース設計のみであるとともに,学習パラメータが著しく少なく,安全性の確保に向けた迅速な訓練が可能であることが示された。
This paper proposes the Phy-DRL: a physics-regulated deep reinforcement learning (DRL) framework for safety-critical autonomous systems. The Phy-DRL has three distinguished invariant-embedding designs: i) residual action policy (i.e., integrating data-driven-DRL action policy and physics-model-based action policy), ii) automatically constructed safety-embedded reward, and iii) physics-model-guided neural network (NN) editing, including link editing and activation editing. Theoretically, the Phy-DRL exhibits 1) a mathematically provable safety guarantee and 2) strict compliance of critic and actor networks with physics knowledge about the action-value function and action policy. Finally, we evaluate the Phy-DRL on a cart-pole system and a quadruped robot. The experiments validate our theoretical results and demonstrate that Phy-DRL features guaranteed safety compared to purely data-driven DRL and solely model-based design while offering remarkably fewer learning parameters and fast training towards safety guarantee. | 翻訳日:2024-07-10 03:48:51 公開日:2024-07-08 |
# 弱スーパービジョン残差変圧器を用いた産業異常検出と位置決め
Industrial Anomaly Detection and Localization Using Weakly-Supervised Residual Transformers ( http://arxiv.org/abs/2306.03492v4 ) ライセンス: Link先を確認 | Hanxi Li, Jingqi Wu, Lin Yuanbo Wu, Hao Chen, Mingwen Wang, Chunhua Shen, | (参考訳) 産業用異常検出(AD)の最近の進歩は、トレーニング中にいくつかの異常サンプルを組み込むことで、精度が著しく向上することを示している。
しかし、このパフォーマンス改善は、広範囲なアノテーションの取り組みという、現実のアプリケーションでは実用的ではない、高いコストで実現されます。
本研究では,<Weakly-supervised RESidual Transformer``(WeakREST)と呼ばれる新しいフレームワークを提案する。
まず,画素単位の異常な局所化タスクをブロック単位の分類問題に再構成する。
ブロック単位にフォーカスを移すことで、異常検出の精度を損なうことなく、必要なアノテーションの量を劇的に削減することができる。また、我々は、画像ブロックをリアルタイムで分類するために、 ‘Positional Fast Anomaly Residuals` (PosFAR) と呼ばれる残差ベースのトランスフォーマーモデルを設計する。
さらに,境界ボックスや画像タグのみを弱いラベルとして用いて,異常領域をラベル付けすることを提案する。
ベンチマークデータセットMVTec-ADでは、提案したWeakRESTフレームワークが83.0%の驚くべき平均精度(AP)を達成した。
監視されたAD設定では、WeakRESTはパフォーマンスをさらに改善し、以前の78.6%の最高値と比較して、APは87.6%に達した。
特に、バウンディングボックスに基づいた弱いラベルを利用する場合であっても、WakRESTは画素単位の監視に依存する最近の主要な手法を超越し、以前のMVTec-ADの78.6%に対して87.1%のAPを達成した。
この精度の利点は、BTADやKSDD2など、他のよく知られたADデータセットでも一貫して観測されている。
Recent advancements in industrial Anomaly Detection (AD) have shown that incorporating a few anomalous samples during training can significantly boost accuracy. However, this performance improvement comes at a high cost: extensive annotation efforts, which are often impractical in real-world applications. In this work, we propose a novel framework called ``Weakly-supervised RESidual Transformer`` (WeakREST), which aims to achieve high AD accuracy while minimizing the need for extensive annotations. First, we reformulate the pixel-wise anomaly localization task into a block-wise classification problem. By shifting the focus to block-wise level, we can drastically reduce the amount of required annotations without compromising on the accuracy of anomaly detection Secondly, we design a residual-based transformer model, termed ``Positional Fast Anomaly Residuals`` (PosFAR), to classify the image blocks in real time. We further propose to label the anomalous regions using only bounding boxes or image tags as weaker labels, leading to a semi-supervised learning setting. On the benchmark dataset MVTec-AD, our proposed WeakREST framework achieves a remarkable Average Precision (AP) of 83.0%, significantly outperforming the previous best result of 75.8% in the unsupervised setting. In the supervised AD setting, WeakREST further improves performance, attaining an AP of 87.6% compared to the previous best of 78.6%. Notably, even when utilizing weaker labels based on bounding boxes, WeakREST surpasses recent leading methods that rely on pixel-wise supervision, achieving an AP of 87.1% against the prior best of 78.6% on MVTec-AD. This precision advantage is also consistently observed on other well-known AD datasets, such as BTAD and KSDD2. | 翻訳日:2024-07-10 03:48:51 公開日:2024-07-08 |
# 非線形学習のための簡易オピニオンダイナミクス
Simple Opinion Dynamics for No-Regret Learning ( http://arxiv.org/abs/2306.08670v4 ) ライセンス: Link先を確認 | John Lazarsfeld, Dan Alistarh, | (参考訳) 分散GOSSIPモデルにおける協調的マルチエージェントバンディット設定について検討し、各ラウンドにおいて、$n$エージェントが共通のセットからアクションを選択し、そのアクションの報酬を観察し、次にランダムに選択された隣人と情報を交換し、次のラウンドで選択を通知する。
我々は、GOSSIPモデルにおける他のアルゴリズムタスクによく研究されている意見力学から着想を得た、メモリレスおよび時間に依存しないプロトコルのファミリーを紹介し、分析する。
定常的な報酬設定のために、これらの単純なプロトコルが最良世界の振る舞いを示すことを初めて証明し、同時に$R(T)/T = \widetilde O(1/T)$のような一定の累積的後悔のスケーリングを得るとともに、$\widetilde O(\sqrt{n})$ラウンドにおける最高平均アクションについてのコンセンサスを得る。
我々は,これらの分散プロトコルのグローバルな進化とゼロサム乗算重み更新プロセスのクラスとの新たな関係を示すことによって,これらの結果を得る。
この接続を用いて、人口レベルの後悔やプロトコルの他の特性を分析するための一般的な枠組みを確立する。
最後に、我々のプロトコルは敵の報酬に対して驚くほど堅牢であることを示し、この体制では$R(T)/T = \widetilde O(1/\sqrt{T})$のようなサブ線形後悔スケーリングを得る。
We study a cooperative multi-agent bandit setting in the distributed GOSSIP model: in every round, each of $n$ agents chooses an action from a common set, observes the action's corresponding reward, and subsequently exchanges information with a single randomly chosen neighbor, which may inform its choice in the next round. We introduce and analyze families of memoryless and time-independent protocols for this setting, inspired by opinion dynamics that are well-studied for other algorithmic tasks in the GOSSIP model. For stationary reward settings, we prove for the first time that these simple protocols exhibit best-of-both-worlds behavior, simultaneously obtaining constant cumulative regret scaling like $R(T)/T = \widetilde O(1/T)$, and also reaching consensus on the highest-mean action within $\widetilde O(\sqrt{n})$ rounds. We obtain these results by showing a new connection between the global evolution of these decentralized protocols and a class of zero-sum multiplicative weights update} processes. Using this connection, we establish a general framework for analyzing the population-level regret and other properties of our protocols. Finally, we show our protocols are also surprisingly robust to adversarial rewards, and in this regime we obtain sublinear regret scaling like $R(T)/T = \widetilde O(1/\sqrt{T})$ as long as the number of rounds does not grow too fast as a function of $n$. | 翻訳日:2024-07-10 03:48:51 公開日:2024-07-08 |
# グリッドセルによる効率的な地図構築のためのフラグメンテーションとリコール
Grid Cell-Inspired Fragmentation and Recall for Efficient Map Building ( http://arxiv.org/abs/2307.05793v3 ) ライセンス: Link先を確認 | Jaedong Hwang, Zhang-Wei Hong, Eric Chen, Akhilan Boopathy, Pulkit Agrawal, Ila Fiete, | (参考訳) 動物やロボットは、空間の地図を構築して精製することで、環境の中を移動します。
これらの地図は、家へのナビゲーション、計画、探索、採餌などの機能を可能にする。
ここでは、ニューロサイエンス、特に複合空間におけるグリッドセルマップの断片化を観察し、大きな空間のマッピングにおいてフラグメンテーション・アンド・リコール(FARMap)の概念を提案し、適用する。
エージェントは空間の予備的なクラスタリングを通じて局所写像を構築し、空間探索のためにサブゴールを設定することでマッピング問題を解決する。
エージェントはローカルマップを構築して、その観測を予測します。
これらのイベントでは、最近のローカルマップを長期メモリ(LTM)に配置し、異なるローカルマップを初期化する。
フラクチャーポイントでの観測が保存されたローカルマップの1つでの観測と一致した場合、そのマップはLTMからリコールされる(再利用される)。
断片化ポイントは、より大きな空間の自然なオンラインクラスタリングを誘導し、トポロジカルグラフとしてLTMに格納される固有のポテンシャルサブゴールの集合を形成する。
エージェントは、それぞれの次のサブゴールを、現在のローカルマップまたはLTM内から、近縁および遠縁のサブゴールのセットから選択する。
したがって、ローカルマップは局所的な探検をガイドし、LTMはグローバルな探検を促進する。
FARMapは動物実験で観察された断片化点を再現することを示した。
複雑な手続き的に生成された空間環境と現実的なシミュレーションに基づいてFARMapを評価し、このマッピング戦略が環境(エージェントステップ数や壁時計時間)をより高速にカバーし、性能を損なうことなく、アクティブなメモリ使用においてより効率的であることを示す。
https://jd730.github.io/projects/FARMap/
Animals and robots navigate through environments by building and refining maps of space. These maps enable functions including navigation back to home, planning, search and foraging. Here, we use observations from neuroscience, specifically the observed fragmentation of grid cell map in compartmentalized spaces, to propose and apply the concept of Fragmentation-and-Recall (FARMap) in the mapping of large spaces. Agents solve the mapping problem by building local maps via a surprisal-based clustering of space, which they use to set subgoals for spatial exploration. Agents build and use a local map to predict their observations; high surprisal leads to a "fragmentation event" that truncates the local map. At these events, the recent local map is placed into long-term memory (LTM) and a different local map is initialized. If observations at a fracture point match observations in one of the stored local maps, that map is recalled (and thus reused) from LTM. The fragmentation points induce a natural online clustering of the larger space, forming a set of intrinsic potential subgoals that are stored in LTM as a topological graph. Agents choose their next subgoal from the set of near and far potential subgoals from within the current local map or LTM, respectively. Thus, local maps guide exploration locally, while LTM promotes global exploration. We demonstrate that FARMap replicates the fragmentation points observed in animal studies. We evaluate FARMap on complex procedurally-generated spatial environments and realistic simulations to demonstrate that this mapping strategy much more rapidly covers the environment (number of agent steps and wall clock time) and is more efficient in active memory usage, without loss of performance. https://jd730.github.io/projects/FARMap/ | 翻訳日:2024-07-10 03:38:37 公開日:2024-07-08 |
# TbExplain: 統計的予測補正を用いたシーン分類モデルのテキストベース説明法
TbExplain: A Text-based Explanation Method for Scene Classification Models with the Statistical Prediction Correction ( http://arxiv.org/abs/2307.10003v2 ) ライセンス: Link先を確認 | Amirhossein Aminimehr, Pouya Khani, Amirali Molaei, Amirmohammad Kazemeini, Erik Cambria, | (参考訳) 説明可能な人工知能(XAI)の分野は、ブラックボックス機械学習モデルの解釈可能性を改善することを目的としている。
入力特徴の重要度に基づくヒートマップの構築は、それらの予測を生成する際に、そのようなモデルの基盤となる機能を説明する一般的な方法である。
ヒートマップはほとんど人間には理解できるが、欠陥がないわけではない。
例えば、エキスパートでないユーザは、ヒートマップのロジック(モデルの予測に関連するピクセルが異なる強度や色で強調されるロジック)を完全に理解していないかもしれない。
さらに、モデル予測に関連する入力画像のオブジェクトや領域は、ヒートマップによって完全に区別されないことが多い。
本稿では,XAI技術と事前学習対象検出器を用いたTbExplainというフレームワークを提案し,シーン分類モデルのテキストによる説明を行う。
さらに、TbExplainは、初期予測が信頼できない場合に、入力画像内のオブジェクトの統計に基づいて予測を補正し、それらをテキストで説明するための新しい手法を取り入れている。
テキストに基づく説明の信頼性と妥当性を評価するために,定性的な実験を行い,これらの説明が十分に信頼性が高いことを示した。
さらに,シーン分類データセットを用いたTbExplainの定量的,定性的な実験により,ResNet変種に対する分類精度の向上が示された。
The field of Explainable Artificial Intelligence (XAI) aims to improve the interpretability of black-box machine learning models. Building a heatmap based on the importance value of input features is a popular method for explaining the underlying functions of such models in producing their predictions. Heatmaps are almost understandable to humans, yet they are not without flaws. Non-expert users, for example, may not fully understand the logic of heatmaps (the logic in which relevant pixels to the model's prediction are highlighted with different intensities or colors). Additionally, objects and regions of the input image that are relevant to the model prediction are frequently not entirely differentiated by heatmaps. In this paper, we propose a framework called TbExplain that employs XAI techniques and a pre-trained object detector to present text-based explanations of scene classification models. Moreover, TbExplain incorporates a novel method to correct predictions and textually explain them based on the statistics of objects in the input image when the initial prediction is unreliable. To assess the trustworthiness and validity of the text-based explanations, we conducted a qualitative experiment, and the findings indicated that these explanations are sufficiently reliable. Furthermore, our quantitative and qualitative experiments on TbExplain with scene classification datasets reveal an improvement in classification accuracy over ResNet variants. | 翻訳日:2024-07-10 03:38:37 公開日:2024-07-08 |
# ディープニューラルネットワークと脳アライメント:脳のエンコーディングとデコーディング(サーベイ)
Deep Neural Networks and Brain Alignment: Brain Encoding and Decoding (Survey) ( http://arxiv.org/abs/2307.10246v2 ) ライセンス: Link先を確認 | Subba Reddy Oota, Zijiao Chen, Manish Gupta, Raju S. Bapi, Gael Jobard, Frederic Alexandre, Xavier Hinaut, | (参考訳) AIモデルを使って脳についての洞察を得ることができるか?
脳記録に関する深層学習モデルの情報はどのようになっているか?
脳記録の助けを借りてAIモデルを改善することは可能か?
このような疑問は、機能的磁気共鳴画像(fMRI)のような脳の記録を研究することで解決できる。
最初のステップとして、神経科学コミュニティは、概念語、物語、写真、映画の受動的読解/視聴に関連する、いくつかの大きな認知神経科学データセットに貢献している。
これらのデータセットを使用したエンコーディングとデコーディングモデルも過去20年間に提案されている。
これらのモデルは、基本的な認知科学と神経科学研究のための追加のツールとして機能する。
符号化モデルは、自動的に刺激を受けたfMRI脳の表現を生成することを目的としている。
神経疾患の評価と診断にいくつかの実用的な応用があり、脳損傷の治療の設計にも役立つ。
デコードモデルは、fMRIが与えられた刺激を再構成する逆問題を解決する。
脳-機械または脳-コンピュータインターフェースの設計に有用である。
近年,自然言語処理,コンピュータビジョン,音声に対するディープラーニングモデルの有効性に触発されて,ニューラルコーディングや復号化モデルが提案されている。
本稿ではまず,言語,視覚,音声刺激の一般的な表現について論じ,神経科学データセットの概要を紹介する。
さらに、人気のあるディープラーニングベースのエンコーディングとデコードアーキテクチャについてレビューし、それらのメリットと制限について注目する。
最後に、今後のトレンドに関する要約と議論で締めくくります。
コンピュータ認知神経科学(CCN)コミュニティで最近発表された膨大な研究から、この調査はDNN研究者がCCN研究に多様化するためのエントリポイントとなると信じている。
Can we obtain insights about the brain using AI models? How is the information in deep learning models related to brain recordings? Can we improve AI models with the help of brain recordings? Such questions can be tackled by studying brain recordings like functional magnetic resonance imaging (fMRI). As a first step, the neuroscience community has contributed several large cognitive neuroscience datasets related to passive reading/listening/viewing of concept words, narratives, pictures, and movies. Encoding and decoding models using these datasets have also been proposed in the past two decades. These models serve as additional tools for basic cognitive science and neuroscience research. Encoding models aim at generating fMRI brain representations given a stimulus automatically. They have several practical applications in evaluating and diagnosing neurological conditions and thus may also help design therapies for brain damage. Decoding models solve the inverse problem of reconstructing the stimuli given the fMRI. They are useful for designing brain-machine or brain-computer interfaces. Inspired by the effectiveness of deep learning models for natural language processing, computer vision, and speech, several neural encoding and decoding models have been recently proposed. In this survey, we will first discuss popular representations of language, vision and speech stimuli, and present a summary of neuroscience datasets. Further, we will review popular deep learning based encoding and decoding architectures and note their benefits and limitations. Finally, we will conclude with a summary and discussion about future trends. Given the large amount of recently published work in the computational cognitive neuroscience (CCN) community, we believe that this survey enables an entry point for DNN researchers to diversify into CCN research. | 翻訳日:2024-07-10 03:38:37 公開日:2024-07-08 |
# 離散スライスワッサースタイン損失の特性
Properties of Discrete Sliced Wasserstein Losses ( http://arxiv.org/abs/2307.10352v6 ) ライセンス: Link先を確認 | Eloi Tanguy, Rémi Flamary, Julie Delon, | (参考訳) Sliced Wasserstein (SW) 距離は、確率測度を比較するために、Wasserstein 距離の代替として人気がある。
ワイドスプレッドの応用としては、画像処理、ドメイン適応、生成モデリングがあり、SWを最小化するためにパラメータを最適化することが一般的である。
これらの最適化問題はすべて、スライスされたワッサーシュタインエネルギーを最小化する同じサブプロブレムを持つ。
本稿では、$\mathcal{E}: Y \longmapsto \mathrm{SW}_2^2(\gamma_Y, \gamma_Z)$, すなわち、サポート $Y \in \mathbb{R}^{n \times d} の関数として同じ量の点を持つ2つの一様離散測度の間のSW距離について検討する。
このエネルギーの正則性と最適化特性、およびそのモンテカルロ近似 $\mathcal{E}_p$ ($p$サンプルのみを用いてSWの期待値を推定する) について検討し、$\mathcal{E}_p$ の臨界点の収束結果と$\mathcal{E}$ の臨界点の収束結果、および、プロセス $\mathcal{E}_p(Y)$ のほぼ一様収束および一様中央極限結果を示す。
最後に、ある意味では、Stochastic Gradient Descent method minimising $\mathcal{E}$ and $\mathcal{E}_p$ converge to (Clarke) critical points of these energy。
The Sliced Wasserstein (SW) distance has become a popular alternative to the Wasserstein distance for comparing probability measures. Widespread applications include image processing, domain adaptation and generative modelling, where it is common to optimise some parameters in order to minimise SW, which serves as a loss function between discrete probability measures (since measures admitting densities are numerically unattainable). All these optimisation problems bear the same sub-problem, which is minimising the Sliced Wasserstein energy. In this paper we study the properties of $\mathcal{E}: Y \longmapsto \mathrm{SW}_2^2(\gamma_Y, \gamma_Z)$, i.e. the SW distance between two uniform discrete measures with the same amount of points as a function of the support $Y \in \mathbb{R}^{n \times d}$ of one of the measures. We investigate the regularity and optimisation properties of this energy, as well as its Monte-Carlo approximation $\mathcal{E}_p$ (estimating the expectation in SW using only $p$ samples) and show convergence results on the critical points of $\mathcal{E}_p$ to those of $\mathcal{E}$, as well as an almost-sure uniform convergence and a uniform Central Limit result on the process $\mathcal{E}_p(Y)$. Finally, we show that in a certain sense, Stochastic Gradient Descent methods minimising $\mathcal{E}$ and $\mathcal{E}_p$ converge towards (Clarke) critical points of these energies. | 翻訳日:2024-07-10 03:38:37 公開日:2024-07-08 |
# 性能向上のための計画知識の表現と展開のための計画オントロジー
A Planning Ontology to Represent and Exploit Planning Knowledge for Performance Efficiency ( http://arxiv.org/abs/2307.13549v2 ) ライセンス: Link先を確認 | Bharath Muppasani, Vishal Pallagani, Biplav Srivastava, Raghava Mutharaju, Michael N. Huhns, Vignesh Narayanan, | (参考訳) オントロジは、豊富なメタデータを整理し、セマンティッククエリによる新しい洞察の識別をサポートし、再利用を促進する能力で知られている。
本稿では,世界の初期状態から望ましい目標状態へエージェントを移動させる一連の行動を見つけることを目的として,自動計画の問題点を考察する。
利用可能なプランナと多様なプランナドメインが多数用意されていると仮定し、適切なプランナを特定し、ドメインのパフォーマンスを向上させるために活用できる不可欠な情報を持っている。
我々は,国際計画コンペティション(IPC)の計画領域やプランナーのデータを用いて,計画オントロジーを構築するとともに,計画オントロジーが有望なプランナーの選択とマクロによるパフォーマンス向上につながることを2つのユースケースで実証する。
また、今後の研究を促進するため、計画オントロジーと関連するリソースをコミュニティに提供します。
Ontologies are known for their ability to organize rich metadata, support the identification of novel insights via semantic queries, and promote reuse. In this paper, we consider the problem of automated planning, where the objective is to find a sequence of actions that will move an agent from an initial state of the world to a desired goal state. We hypothesize that given a large number of available planners and diverse planning domains; they carry essential information that can be leveraged to identify suitable planners and improve their performance for a domain. We use data on planning domains and planners from the International Planning Competition (IPC) to construct a planning ontology and demonstrate via experiments in two use cases that the ontology can lead to the selection of promising planners and improving their performance using macros - a form of action ordering constraints extracted from planning ontology. We also make the planning ontology and associated resources available to the community to promote further research. | 翻訳日:2024-07-10 03:38:37 公開日:2024-07-08 |
# 平均型ロバストネスによるデータポイント脆弱性のキャラクタリゼーション
Characterizing Data Point Vulnerability via Average-Case Robustness ( http://arxiv.org/abs/2307.13885v6 ) ライセンス: Link先を確認 | Tessa Han, Suraj Srinivas, Himabindu Lakkaraju, | (参考訳) 機械学習モデルのロバスト性を研究することは、現実の環境にまたがる一貫性のあるモデルの振る舞いを保証するために重要である。
この目的のために、対数ロバスト性は標準的なフレームワークであり、二元レンズを通して予測のロバスト性を見る:最悪の対数誤分類は入力の周囲の局所領域に存在するか、そうでないかのいずれかである。
しかし、このバイナリ・パースペクティブは脆弱性の程度を考慮していない。
本研究では,一貫した予測を提供する局所領域の点数を測定する平均ケースロバストネスという,ロバストネスを補完する枠組みを検討する。
しかし、モンテカルロの標準的なアプローチは特に高次元入力では非効率であるので、この量の計算は困難である。
本研究では,マルチクラス分類器の平均ケースロバスト性に対する最初の解析的推定器を提案する。
実験により、我々の推定器は標準的なディープラーニングモデルに対して正確かつ効率的であることを示し、脆弱なデータポイントの同定やモデルの堅牢性バイアスの定量化にそれらの有用性を示す。
全体として、私たちのツールは堅牢性に対する補完的なビューを提供し、モデルの振る舞いを特徴づける能力を改善します。
Studying the robustness of machine learning models is important to ensure consistent model behaviour across real-world settings. To this end, adversarial robustness is a standard framework, which views robustness of predictions through a binary lens: either a worst-case adversarial misclassification exists in the local region around an input, or it does not. However, this binary perspective does not account for the degrees of vulnerability, as data points with a larger number of misclassified examples in their neighborhoods are more vulnerable. In this work, we consider a complementary framework for robustness, called average-case robustness, which measures the fraction of points in a local region that provides consistent predictions. However, computing this quantity is hard, as standard Monte Carlo approaches are inefficient especially for high-dimensional inputs. In this work, we propose the first analytical estimators for average-case robustness for multi-class classifiers. We show empirically that our estimators are accurate and efficient for standard deep learning models and demonstrate their usefulness for identifying vulnerable data points, as well as quantifying robustness bias of models. Overall, our tools provide a complementary view to robustness, improving our ability to characterize model behaviour. | 翻訳日:2024-07-10 03:38:37 公開日:2024-07-08 |
# TEASMA:ディープニューラルネットワークのテスト精度評価のための実践的手法
TEASMA: A Practical Methodology for Test Adequacy Assessment of Deep Neural Networks ( http://arxiv.org/abs/2308.01311v3 ) ライセンス: Link先を確認 | Amin Abbasishahkoo, Mahboubeh Dadkhah, Lionel Briand, Dayi Lin, | (参考訳) Deep Neural Networks(DNN)のデプロイを成功させるためには、テスト結果に対する十分な信頼性を確保するために、十分なテストセットによる検証が必要である。
DNNに対して確立されたテスト精度評価手法が提案されているが、テストセットの故障検出能力を正確に予測し、それらの妥当性を評価するための包括的な方法論の中で、それらの適用を検証する必要がある。
本稿では,DNNにおけるテストセットの妥当性を正確に評価するための総合的かつ実践的な方法論であるTEASMAを提案し,評価する。
TEASMAを使用すると、エンジニアは高い精度のテスト結果を信頼できるかどうかを判断し、デプロイ前にDNNを検証することができる。
DNNモデルのトレーニングセットに基づいて、TEASMAは、既存の精度メトリックを使用してテストセットの障害検出率(FDR)の正確なDNN固有の予測モデルを構築する手順を提供し、その評価を可能にする。
TEASMAを,距離ベースサプライズカバレッジ(DSC),Surprise Coverage(LSC),Input Distribution Coverage(IDC),Mutation Score(MS)の4つのテスト精度で評価した。
我々は,複数のDNNモデルとImageNetなどの入力セットに対して,MS,DSC,IDCから得られた予測FDR値と実際のFDR値との間に強い線形相関関係を示し,最小R^2値はMS0.94,DSCおよびIDC0.90である。
さらに,各被験者の実際のFDR値と予測されたFDR値の9%の低平均ルート平均角誤差(RMSE)は,回帰分析とMSに依存して,それぞれDSCとIDCを比較し,RMSEの0.17と0.18の精度を示した。
これらの結果から,TEASMAはDNNモデルの試験結果を信頼するかどうかを確実に判断するための信頼性の高い基盤を提供する可能性が示唆された。
Successful deployment of Deep Neural Networks (DNNs) requires their validation with an adequate test set to ensure a sufficient degree of confidence in test outcomes. Although well-established test adequacy assessment techniques have been proposed for DNNs, we still need to investigate their application within a comprehensive methodology for accurately predicting the fault detection ability of test sets and thus assessing their adequacy. In this paper, we propose and evaluate TEASMA, a comprehensive and practical methodology designed to accurately assess the adequacy of test sets for DNNs. In practice, TEASMA allows engineers to decide whether they can trust high-accuracy test results and thus validate the DNN before its deployment. Based on a DNN model's training set, TEASMA provides a procedure to build accurate DNN-specific prediction models of the Fault Detection Rate (FDR) of a test set using an existing adequacy metric, thus enabling its assessment. We evaluated TEASMA with four state-of-the-art test adequacy metrics: Distance-based Surprise Coverage (DSC), Likelihood-based Surprise Coverage (LSC), Input Distribution Coverage (IDC), and Mutation Score (MS). Our extensive empirical evaluation across multiple DNN models and input sets such as ImageNet, reveals a strong linear correlation between the predicted and actual FDR values derived from MS, DSC, and IDC, with minimum R^2 values of 0.94 for MS and 0.90 for DSC and IDC. Furthermore, a low average Root Mean Square Error (RMSE) of 9% between actual and predicted FDR values across all subjects, when relying on regression analysis and MS, demonstrates the latter's superior accuracy when compared to DSC and IDC, with RMSE values of 0.17 and 0.18, respectively. Overall, these results suggest that TEASMA provides a reliable basis for confidently deciding whether to trust test results for DNN models. | 翻訳日:2024-07-10 03:38:37 公開日:2024-07-08 |
# 三次元フォトニック結晶空洞における多モード超強結合
Multimode Ultrastrong Coupling in Three-Dimensional Photonic-Crystal Cavities ( http://arxiv.org/abs/2308.12427v3 ) ライセンス: Link先を確認 | Fuyang Tay, Ali Mojibpour, Stephen Sanders, Shuang Liang, Hongjing Xu, Geoff C. Gardner, Andrey Baydin, Michael J. Manfra, Alessandro Alabastri, David Hagenmüller, Junichiro Kono, | (参考訳) 最近の理論的研究は、新しい空洞量子電磁力学(cQED)現象の探索における空間的に変化する空洞電磁場の役割を強調している。
固体cQEDシステムの研究に広く用いられている1次元フォトニック結晶空洞(PCCs)は、横面に均一な空間分布を持つ。
3次元(3D)PCCは、離散的な面内翻訳対称性を示すが、この制限を克服するが、3D-PCCの強い結合の達成を妨げている。
本稿では,テラヘルツ周波数における3次元PCCにおけるマルチモード超強結合の実現について報告する。
GaAsにおける3D-PCCのキャビティモードとランダウ量子化2次元電子ガスのサイクロトロン共鳴との多重モード結合は、キャビティモードの空間分布に大きく影響され、プローブ偏極によって異なるカップリングシナリオをもたらす。
実験結果は,空洞場の空間的不均一性を考慮した多モード拡張ホップフィールドモデルと良好に一致している。
モデルにより, 異なるキャビティモード間の強い基底状態相関について考察し, マルチモード超強結合系に有意な有意な数値を導入する。
超強結合系におけるcQED系の基底状態に期待できる非直観的量子現象の探索における空間的非一様キャビティモードプロファイルの重要性を強調した。
Recent theoretical studies have highlighted the role of spatially varying cavity electromagnetic fields in exploring novel cavity quantum electrodynamics (cQED) phenomena, such as the potential realization of the elusive Dicke superradiant phase transition. One-dimensional photonic-crystal cavities (PCCs), widely used for studying solid-state cQED systems, have uniform spatial profiles in the lateral plane. Three-dimensional (3D) PCCs, which exhibit discrete in-plane translational symmetry, overcome this limitation, but fabrication challenges have hindered the achievement of strong coupling in 3D-PCCs. Here, we report the realization of multimode ultrastrong coupling in a 3D-PCC at terahertz frequencies. The multimode coupling between the 3D-PCC's cavity modes and the cyclotron resonance of a Landau-quantized two-dimensional electron gas in GaAs is significantly influenced by the spatial profiles of the cavity modes, leading to distinct coupling scenarios depending on the probe polarization. Our experimental results are in excellent agreement with a multimode extended Hopfield model that accounts for the spatial inhomogeneity of the cavity field. Guided by the model, we discuss the possible strong ground-state correlations between different cavity modes and introduce relevant figures of merit for the multimode ultrastrong coupling regime. Our findings emphasize the importance of spatially nonuniform cavity mode profiles in probing nonintuitive quantum phenomena expected for the ground states of cQED systems in the ultrastrong coupling regime. | 翻訳日:2024-07-10 03:38:37 公開日:2024-07-08 |
# 学習パターンを明らかにするための説明可能な3次元フレームワーク
An explainable three dimension framework to uncover learning patterns: A unified look in variable sulci recognition ( http://arxiv.org/abs/2309.00903v4 ) ライセンス: Link先を確認 | Michail Mamalakis, Heloise de Vareilles, Atheer AI-Manea, Samantha C. Mitchell, Ingrid Arartz, Lynn Egeland Morch-Johnsen, Jane Garrison, Jon Simons, Pietro Lio, John Suckling, Graham Murray, | (参考訳) 人工知能モデルの学習過程においてデータセットの代表的なサブセットで識別される重要な特徴を「グローバル」説明と呼ぶ。
3次元のグローバルな説明は、複雑な表現空間が基本的な2次元の解釈以上のものを要求する神経イメージングにおいて重要である。
文学における研究は、神経画像などにおける正確さ、低複雑さ、そして3Dグローバルな説明が欠如している。
このギャップを埋めるために、我々は、堅牢で忠実で、複雑でないグローバルな説明を提供する、説明可能な人工知能(XAI)の3Dフレームワークを開発した。
我々は,596個のMRI画像の注釈付きコホートを用いて,訓練,検証,検証を行う様々な3次元ディープラーニングネットワーク上でのフレームワークの評価を行った。
検出の焦点は、精神病の症状に関連する脳のトポロジーの高度に変動する特徴である視索性サルクスの存在の有無であった。
提案した3Dフレームワークは,グローバルな説明に対する忠実さの観点から従来のXAI手法よりも優れていた。
その結果、これらの説明はトレーニングプロセスの信頼性と信頼性を高めるだけでなく、ヒト大脳皮質のより広い発達環境を明らかにする新しいパターンを明らかにした。
我々のXAI 3D-Frameworkは、グローバルな説明を利用して、特定の特徴の検出が組み込まれている状況を発見し、規範的脳発達の理解と、精神疾患の出現につながる非典型的軌跡の理解を深める方法として、初めて提案する。
The significant features identified in a representative subset of the dataset during the learning process of an artificial intelligence model are referred to as a 'global' explanation. Three-dimensional (3D) global explanations are crucial in neuroimaging where a complex representational space demands more than basic two-dimensional interpretations. Curently, studies in the literature lack accurate, low-complexity, and 3D global explanations in neuroimaging and beyond. To fill this gap, we develop a novel explainable artificial intelligence (XAI) 3D-Framework that provides robust, faithful, and low-complexity global explanations. We evaluated our framework on various 3D deep learning networks trained, validated, and tested on a well-annotated cohort of 596 MRI images. The focus of detection was on the presence or absence of the paracingulate sulcus, a highly variable feature of brain topology associated with symptoms of psychosis. Our proposed 3D-Framework outperformed traditional XAI methods in terms of faithfulness for global explanations. As a result, these explanations uncovered new patterns that not only enhance the credibility and reliability of the training process but also reveal the broader developmental landscape of the human cortex. Our XAI 3D-Framework proposes for the first time, a way to utilize global explanations to discover the context in which detection of specific features are embedded, opening our understanding of normative brain development and atypical trajectories that can lead to the emergence of mental illness. | 翻訳日:2024-07-10 03:38:37 公開日:2024-07-08 |
# SAMの適応を超えて:オートプロンプティングによる終端から終端への超音波画像分割
Beyond Adapting SAM: Towards End-to-End Ultrasound Image Segmentation via Auto Prompting ( http://arxiv.org/abs/2309.06824v2 ) ライセンス: Link先を確認 | Xian Lin, Yangyang Xiang, Li Yu, Zengqiang Yan, | (参考訳) エンド・ツー・エンドの医療画像セグメンテーションは、コンピュータ支援診断において、通常、一般化不良に悩まされるタスク固有モデルに支配される大きな価値がある。
画像分割のためのセグメンテーションモデル(SAM)による近年のブレークスルーにより、SAMを医用画像に適応させる大規模な取り組みが行われたが、依然として2つの大きな問題に遭遇している。
1)厳格な性能劣化と適正な適応を伴わない限定的な一般化
2) インタラクションの正確なマニュアルプロンプトに依存する半自動セグメンテーション。
本研究では,超音波画像分割に適したユニバーサルモデルとしてSAMUSを提案する。
具体的には、SAMUSでは、クロスブランチアテンションを介して局所情報を補うために並列CNNブランチを導入し、訓練の複雑さを低減しつつ、SAMを自然領域から超音波領域に適応させるために特徴アダプタと位置アダプタを併用する。
AutoSAMUSは、SAMUSのマニュアルプロンプトエンコーダの代わりに自動プロンプトジェネレータ(APG)を導入して、プロンプト埋め込みを自動的に生成することで実現されている。
約30k画像と69kマスクから構成され、6つの対象カテゴリをカバーする総合的な超音波データセットを収集し、検証を行う。
大規模な比較実験は、SAMUSとAutoSAMUSの最先端タスク固有およびSAMベース基盤モデルに対する優位性を実証している。
自動プロンプトSAMベースのモデルは、エンド・ツー・エンドの医療画像セグメンテーションの新たなパラダイムになる可能性があり、もっと探究する価値があると考えています。
コードとデータはhttps://github.com/xianlin7/SAMUSで公開されている。
End-to-end medical image segmentation is of great value for computer-aided diagnosis dominated by task-specific models, usually suffering from poor generalization. With recent breakthroughs brought by the segment anything model (SAM) for universal image segmentation, extensive efforts have been made to adapt SAM for medical imaging but still encounter two major issues: 1) severe performance degradation and limited generalization without proper adaptation, and 2) semi-automatic segmentation relying on accurate manual prompts for interaction. In this work, we propose SAMUS as a universal model tailored for ultrasound image segmentation and further enable it to work in an end-to-end manner denoted as AutoSAMUS. Specifically, in SAMUS, a parallel CNN branch is introduced to supplement local information through cross-branch attention, and a feature adapter and a position adapter are jointly used to adapt SAM from natural to ultrasound domains while reducing training complexity. AutoSAMUS is realized by introducing an auto prompt generator (APG) to replace the manual prompt encoder of SAMUS to automatically generate prompt embeddings. A comprehensive ultrasound dataset, comprising about 30k images and 69k masks and covering six object categories, is collected for verification. Extensive comparison experiments demonstrate the superiority of SAMUS and AutoSAMUS against the state-of-the-art task-specific and SAM-based foundation models. We believe the auto-prompted SAM-based model has the potential to become a new paradigm for end-to-end medical image segmentation and deserves more exploration. Code and data are available at https://github.com/xianlin7/SAMUS. | 翻訳日:2024-07-10 03:28:33 公開日:2024-07-08 |
# 領域適応における条件不変成分の役割:理論とアルゴリズム
Prominent Roles of Conditionally Invariant Components in Domain Adaptation: Theory and Algorithms ( http://arxiv.org/abs/2309.10301v2 ) ライセンス: Link先を確認 | Keru Wu, Yuansi Chen, Wooseok Ha, Bin Yu, | (参考訳) ドメイン適応(DA)は、モデルを訓練するために使用されるソースデータの分布が、モデルを評価するために使用されるターゲットデータと異なるときに発生する統計的学習問題である。
多くのDAアルゴリズムは経験的な成功を示しているが、これらのアルゴリズムを盲目的に適用することは、しばしば新しいデータセットのパフォーマンスを悪化させる。
これを解決するためには,DAアルゴリズムが目標性能に優れた仮定を明らかにすることが重要である。
本研究では,条件付き不変成分(CIC)の存在を前提として,条件付き不変成分(CIC)の存在を仮定する。
我々は,条件不変ペナルティ(CIP)によって推定できるCICが,DAにおける目標リスク保証の3つの重要な役割を担っていることを実証した。
まず,重み付き条件不変ペナルティ(IW-CIP)に基づく新しいアルゴリズムを提案する。
第2に、CICは、他のDAアルゴリズムのソースとターゲットのリスクの大規模な相違を識別するのに役立つことを示す。
最後に、CICをドメイン不変射影(DIP)アルゴリズムに組み込むことで、ラベルフリップ機能による障害シナリオに対処できることを実証する。
我々は、合成データ、MNIST、CelebA、Camelyon17、DomainNetデータセットに関する数値実験を通じて、新しいアルゴリズムと理論的発見をサポートする。
Domain adaptation (DA) is a statistical learning problem that arises when the distribution of the source data used to train a model differs from that of the target data used to evaluate the model. While many DA algorithms have demonstrated considerable empirical success, blindly applying these algorithms can often lead to worse performance on new datasets. To address this, it is crucial to clarify the assumptions under which a DA algorithm has good target performance. In this work, we focus on the assumption of the presence of conditionally invariant components (CICs), which are relevant for prediction and remain conditionally invariant across the source and target data. We demonstrate that CICs, which can be estimated through conditional invariant penalty (CIP), play three prominent roles in providing target risk guarantees in DA. First, we propose a new algorithm based on CICs, importance-weighted conditional invariant penalty (IW-CIP), which has target risk guarantees beyond simple settings such as covariate shift and label shift. Second, we show that CICs help identify large discrepancies between source and target risks of other DA algorithms. Finally, we demonstrate that incorporating CICs into the domain invariant projection (DIP) algorithm can address its failure scenario caused by label-flipping features. We support our new algorithms and theoretical findings via numerical experiments on synthetic data, MNIST, CelebA, Camelyon17, and DomainNet datasets. | 翻訳日:2024-07-10 03:28:33 公開日:2024-07-08 |
# 短文回答のためのLCMによる自動評価に向けて
Towards LLM-based Autograding for Short Textual Answers ( http://arxiv.org/abs/2309.11508v2 ) ライセンス: Link先を確認 | Johannes Schneider, Bernd Schenk, Christina Niklaus, | (参考訳) グラディング試験は重要で、労働集約的で、主観的で、反復的で、しばしば挑戦的な課題である。
ChatGPTのような大規模言語モデル(LLM)が利用可能であることや、デジタル化によってもたらされるデータ流入により、自動テキスト応答の実現可能性は大きく向上した。
しかし、意思決定の役割を持つAIモデルを信頼することは、主に偽情報の生成に関連する潜在的なバイアスや問題から生じる倫理的考察を提起する。
そこで本論文では,自動階調を目的とした大規模言語モデルの評価を行い,LLMが教育者を支援する方法を強調した。
本評価は,様々な言語にまたがる自動短文回答グレーディング(ASAG)と,2つの異なるコースの試験を対象とする。
以上の結果から,「アウト・オブ・ザ・ボックス」 LLM は補完的な視点を提供する上で貴重なツールであるが,自律的な自動グレーティングへの準備は今も進行中であり,人間の監督を必要とすることが示唆された。
Grading exams is an important, labor-intensive, subjective, repetitive, and frequently challenging task. The feasibility of autograding textual responses has greatly increased thanks to the availability of large language models (LLMs) such as ChatGPT and the substantial influx of data brought about by digitalization. However, entrusting AI models with decision-making roles raises ethical considerations, mainly stemming from potential biases and issues related to generating false information. Thus, in this manuscript, we provide an evaluation of a large language model for the purpose of autograding, while also highlighting how LLMs can support educators in validating their grading procedures. Our evaluation is targeted towards automatic short textual answers grading (ASAG), spanning various languages and examinations from two distinct courses. Our findings suggest that while "out-of-the-box" LLMs provide a valuable tool to provide a complementary perspective, their readiness for independent automated grading remains a work in progress, necessitating human oversight. | 翻訳日:2024-07-10 03:28:33 公開日:2024-07-08 |
# 一般応答型に対するモデルベース因果的特徴選択
Model-based causal feature selection for general response types ( http://arxiv.org/abs/2309.12833v4 ) ライセンス: Link先を確認 | Lucas Kook, Sorawit Saengkyongam, Anton Rask Lundborg, Torsten Hothorn, Jonas Peters, | (参考訳) 観測データから因果関係を明らかにすることは、基本的なが難しい課題である。
Invariant causal Prediction (ICP, Peters et al , 2016) は、不均一な設定からのデータを必要とする因果的特徴選択の手法であり、因果的モデルが不変であることを悪用する。
ICPは、一般的な付加雑音モデルや条件付き独立試験を用いた非パラメトリック設定に拡張されている。
しかしながら、後者は低電力(または低出力I型エラー制御)に悩まされることが多く、連続的なスケールで応答が測定されないアプリケーションには追加ノイズモデルが適さないが、カテゴリやカウントを反映している。
ここでは、変換モデル(TRAM)ベースのICPを開発し、連続的、分類的、カウントタイプ、および非形式的に検閲された応答を可能にする(これらのモデルクラスは、一般に、外生異種性がない場合の識別性を許容しない)。
そこで本研究では,TRAM-GCMを環境間の条件共分散と,一様漸近レベル保証によるスコア残差に基づいて提案する。
線形シフトTRAMの特別な場合については、ウォルド統計量に基づいて不変性をテストするTRAM-Waldについても考察する。
我々は、オープンソースのRパッケージ「tramicp」を提供し、シミュレーションデータに対する我々のアプローチを評価し、重篤な患者の生存の因果的特徴を調査する事例研究を行った。
Discovering causal relationships from observational data is a fundamental yet challenging task. Invariant causal prediction (ICP, Peters et al., 2016) is a method for causal feature selection which requires data from heterogeneous settings and exploits that causal models are invariant. ICP has been extended to general additive noise models and to nonparametric settings using conditional independence tests. However, the latter often suffer from low power (or poor type I error control) and additive noise models are not suitable for applications in which the response is not measured on a continuous scale, but reflects categories or counts. Here, we develop transformation-model (TRAM) based ICP, allowing for continuous, categorical, count-type, and uninformatively censored responses (these model classes, generally, do not allow for identifiability when there is no exogenous heterogeneity). As an invariance test, we propose TRAM-GCM based on the expected conditional covariance between environments and score residuals with uniform asymptotic level guarantees. For the special case of linear shift TRAMs, we also consider TRAM-Wald, which tests invariance based on the Wald statistic. We provide an open-source R package 'tramicp' and evaluate our approach on simulated data and in a case study investigating causal features of survival in critically ill patients. | 翻訳日:2024-07-10 03:28:33 公開日:2024-07-08 |
# 3次元パノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノ
Volumetric Semantically Consistent 3D Panoptic Mapping ( http://arxiv.org/abs/2309.14737v3 ) ライセンス: Link先を確認 | Yang Miao, Iro Armeni, Marc Pollefeys, Daniel Barath, | (参考訳) 非構造環境における自律型エージェントに適した包括的かつ正確で効率的な3Dマップを生成することを目的としたオンライン2D-to-3Dセマンティック・インスタンスマッピングアルゴリズムを提案する。
提案手法は,最近のアルゴリズムで用いられているVoxel-TSDF表現に基づいている。
マッピング中にセマンティック予測の信頼性を統合し、セマンティックおよびインスタンス一貫性のある3D領域を生成する新しい方法を導入する。
さらなる改善は、グラフ最適化に基づくセマンティックラベリングとインスタンスのリファインメントによって達成される。
提案手法は,大規模データセットにおける最先端の精度よりも高い精度を達成し,多くの広く使用されている指標を改善した。
SLAM推定データの代わりに基底真理軌道を入力として使用すると精度が著しく低下し,実世界のデータにおける結果と実際のパフォーマンスの間に大きなギャップが生じる。
We introduce an online 2D-to-3D semantic instance mapping algorithm aimed at generating comprehensive, accurate, and efficient semantic 3D maps suitable for autonomous agents in unstructured environments. The proposed approach is based on a Voxel-TSDF representation used in recent algorithms. It introduces novel ways of integrating semantic prediction confidence during mapping, producing semantic and instance-consistent 3D regions. Further improvements are achieved by graph optimization-based semantic labeling and instance refinement. The proposed method achieves accuracy superior to the state of the art on public large-scale datasets, improving on a number of widely used metrics. We also highlight a downfall in the evaluation of recent studies: using the ground truth trajectory as input instead of a SLAM-estimated one substantially affects the accuracy, creating a large gap between the reported results and the actual performance on real-world data. | 翻訳日:2024-07-10 03:28:33 公開日:2024-07-08 |
# やるべきでない:UML PSSMステートマシンにおけるDoアクティビティのセマンティックスとパターン
To Do or Not to Do: Semantics and Patterns for Do Activities in UML PSSM State Machines ( http://arxiv.org/abs/2309.14884v3 ) ライセンス: Link先を確認 | Márton Elekes, Vince Molnár, Zoltán Micskei, | (参考訳) ステートマシンは多くの種類のソフトウェア集約システムで使用されている。
UML State Machinesは強力な構造を持つ単純な有限状態マシンを拡張する。
多くの拡張の中で、ステートマシンのリアクティブな計算モデルであるdoActivity振舞いを根本的に変える、一見シンプルで無実な言語構造があります。
DoActivity振舞い(DoActivity behaviors)は、ある状態に入力された状態マシンとは独立して実行される振る舞いを記述し、典型的には複雑な計算や通信をバックグラウンドタスクとしてモデル化する。
しかし、UML仕様や教科書は、doActivityの振る舞い構造をどのように適切に使うべきかについて曖昧である。
このガイダンスの欠如は深刻な問題であり、doActivityが不適切に使用されると、特に見つけるのが難しく、一見正しいソフトウェア設計を台無しにしてしまうような、同時かつ非決定的なバグを引き起こす可能性がある。
UML State Machines(PSSM)の精密意味論(Precise Semantics of UML State Machines)仕様では、ステートマシンの詳細な操作意味論が導入された。
私たちの知る限りでは、PSSMで規定されているdoActivityのセマンティクスに関する厳密なレビューはまだありません。
そこで本研究では,仕様書のテキスト,意味モデル,実行可能なテストケース,PSSMをサポートするシミュレータの相互チェックから,セマンティックスを解析した。
ツール開発者や高度なモデラーに関連する微妙な詳細と創発的な振る舞いに関する洞察を合成した。
標準化委員会に20以上の問題で不整合と明確化の欠如を報告した。
これらの知見に基づいて,特定の状況下でのdoActivityの使用結果を詳述したdoActivityのパターン11と,その対策や代替設計選択について議論した。
セマンティクスとパターンの分析が、ベンダーが適合したシミュレータや検証ツールを開発し、エンジニアがより良い状態マシンモデルを設計するのに役立つことを願っています。
State machines are used in engineering many types of software-intensive systems. UML State Machines extend simple finite state machines with powerful constructs. Among the many extensions, there is one seemingly simple and innocent language construct that fundamentally changes state machines' reactive model of computation: doActivity behaviors. DoActivity behaviors describe behavior that is executed independently from the state machine once entered in a given state, typically modeling complex computation or communication as background tasks. However, the UML specification or textbooks are vague about how the doActivity behavior construct should be appropriately used. This lack of guidance is a severe issue as, when improperly used, doActivities can cause concurrent, non-deterministic bugs that are especially challenging to find and could ruin a seemingly correct software design. The Precise Semantics of UML State Machines (PSSM) specification introduced detailed operational semantics for state machines. To the best of our knowledge, there is no rigorous review yet of doActivity's semantics as specified in PSSM. We analyzed the semantics by collecting evidence from cross-checking the text of the specification, its semantic model and executable test cases, and the simulators supporting PSSM. We synthesized insights about subtle details and emergent behaviors relevant to tool developers and advanced modelers. We reported inconsistencies and missing clarifications in more than 20 issues to the standardization committee. Based on these insights, we studied 11 patterns for doActivities detailing the consequences of using a doActivity in a given situation and discussing countermeasures or alternative design choices. We hope that our analysis of the semantics and the patterns help vendors develop conformant simulators or verification tools and engineers design better state machine models. | 翻訳日:2024-07-10 03:28:33 公開日:2024-07-08 |
# 散逸性ディック時間結晶-原子の観点から
Dissipative Dicke time crystals: an atoms' point of view ( http://arxiv.org/abs/2310.00046v2 ) ライセンス: Link先を確認 | Simon B. Jäger, Jan Mathis Giesen, Imke Schneider, Sebastian Eggert, | (参考訳) 我々は,原子間の時間-周期的結合と散逸性キャビティモードを持つDickeモデルの原子のみの記述を開発し,研究した。
キャビティモードは排除され、効果的な原子-原子相互作用と散逸を引き起こす。
我々は、この効果的な説明を用いて、原子媒体と光場におけるマクロコヒーレンスを伴う動的超放射相への移行を行う原子のダイナミクスを分析する。
フロケ理論と原子のみの記述を組み合わせることで、相境界と原子の動的応答を正確に決定することができる。
このことから、駆動周波数に対する非調和応答を示す散逸時間結晶の存在を予測できる。
原子のみの理論はそのような散逸時間結晶への緩和を記述でき、ダンピング速度は冷却機構の観点から理解できることを示す。
We develop and study an atom-only description of the Dicke model with time-periodic couplings between atoms and a dissipative cavity mode. The cavity mode is eliminated giving rise to effective atom-atom interactions and dissipation. We use this effective description to analyze the dynamics of the atoms that undergo a transition to a dynamical superradiant phase with macroscopic coherences in the atomic medium and the light field. Using Floquet theory in combination with the atom-only description we provide a precise determination of the phase boundaries and of the dynamical response of the atoms. From this we can predict the existence of dissipative time crystals that show a subharmonic response with respect to the driving frequency. We show that the atom-only theory can describe the relaxation into such a dissipative time crystal and that the damping rate can be understood in terms of a cooling mechanism. | 翻訳日:2024-07-10 03:28:33 公開日:2024-07-08 |
# 状態多項式最適化による不確かさ関係
Uncertainty relations from state polynomial optimization ( http://arxiv.org/abs/2310.00612v2 ) ライセンス: Link先を確認 | Moisés Bermejo Morán, Felix Huber, | (参考訳) 不確実性関係は量子力学の基本的な特徴である。
これらの関係はどのようにシステマティックに見つけることができるのか?
ここでは Klep et al [arXiv:2301.12513] の状態多項式最適化フレームワークを用いて、所定の可換関係を受ける作用素の2乗期待値の和を束縛する。
これにより、厳密な不確実性関係に収束する完全半定値プログラミング階層が得られる。
我々の階層は、パウリ、ハイゼンベルク・ワイル、フェルミオン作用素のテンソル積や高次モーメントを含む幅広いシナリオに適用できる。
Uncertainty relations are a fundamental feature of quantum mechanics. How can these relations be found systematically? Here we make use of the state polynomial optimization framework from Klep et al. [arXiv:2301.12513] to bound the sum of squared expectation values of operators, that are subject to prescribed commutation relations. This yields a complete semidefinite programming hierarchy that converges to tight uncertainty relations. Our hierarchy applies to a wide range of scenarios including tensor-products of Pauli, Heisenberg-Weyl, and fermionic operators, as well as higher order moments. | 翻訳日:2024-07-10 03:28:33 公開日:2024-07-08 |
# 単語問題における逆推論のためのLLM能力の探索と向上
Fill in the Blank: Exploring and Enhancing LLM Capabilities for Backward Reasoning in Math Word Problems ( http://arxiv.org/abs/2310.01991v2 ) ライセンス: Link先を確認 | Aniruddha Deb, Neeva Oza, Sarthak Singla, Dinesh Khandelwal, Dinesh Garg, Parag Singla, | (参考訳) 先進的推論(すなわち、質問に対する答えを見つける)は近年の文献で広く研究されているが、後進的推論は比較的未解明である。
数学的な質問とその答えが与えられた場合、その質問からいくつかの詳細を省略して、LLMが欠落した情報を効果的に取り出すことができるか?
GSM8k、SVAMP、MultiArithの3つのベンチマークデータセットを修正してこのタスクを評価すると、SOTA LLM(GPT4、GPT3.5、PaLM-2、LLaMA)間の前方推論と比較して、このタスクのモデルの精度が大幅に低下することがわかった。
本稿では,前向き推論の「逆」とみなすことができる事実に触発され,性能向上のための3つの異なる前向き推論戦略のバリエーションを提案する。
PAL-ToolsはProgram-Aided LLMのアイデアを組み合わせて、外部の問題解決者によって解ける方程式のセットを生成します。
最後に, 基本手法のそれぞれが異なる問題の集合を正しく解き, 精度を高めるために, 基本手法上のアンサンブルを生成する新しいベイズ式を提案する。
広汎な実験により,我々の戦略を用いて,後方推論タスクにおけるLCMの性能を連続的に向上させることができた。
While forward reasoning (i.e., find the answer given the question) has been explored extensively in recent literature, backward reasoning is relatively unexplored. We examine the backward reasoning capabilities of LLMs on Math Word Problems (MWPs): given a mathematical question and its answer, with some details omitted from the question, can LLMs effectively retrieve the missing information? On modifying three benchmark datasets for this task, to evaluate this task: GSM8k, SVAMP, and MultiArith, we find a significant drop in the accuracy of models on this task compared to forward reasoning across SOTA LLMs (GPT4, GPT3.5, PaLM-2, and LLaMa). Motivated by the fact backward reasoning can be seen as the ''inverse'' of forward reasoning, we propose variations of three different forward reasoning strategies to improve performance. Rephrase reformulates the given problem into a forward reasoning problem, PAL-Tools combines the idea of Program-Aided LLMs to produce a set of equations that can be solved by an external solver, and Check your Work exploits the availability of natural verifier of high accuracy in the forward direction, interleaving solving and verification steps. Finally, realizing that each of our base methods correctly solves a different set of problems, we propose a novel Bayesian formulation for creating an ensemble over the base methods to further boost the accuracy. Extensive experimentation demonstrates successive improvement in the performance of LLMs on the backward reasoning task, using our strategies, with our ensemble-based method resulting in significant performance gains compared to the SOTA forward reasoning strategies we adapt. | 翻訳日:2024-07-10 03:28:33 公開日:2024-07-08 |
# カラービン包装問題に対する高速近傍探索ヒューリスティックス
Fast Neighborhood Search Heuristics for the Colored Bin Packing Problem ( http://arxiv.org/abs/2310.04471v2 ) ライセンス: Link先を確認 | Renan F. F. da Silva, Yulle G. F. Borges, Rafael C. S. Schouery, | (参考訳) CBPP(Colored Bin Packing Problem)は、Bin Packing Problem(BPP)の一般化である。
CBPPは、一組のアイテムを、それぞれ重量と色で梱包し、限られた容量のビンに詰め込み、使用済みビンの数を最小化し、同じ色の2つのアイテムを同じビンに並べて充填できないという制約を満たす。
本稿では,CBPPに対するBPPヒューリスティックスと新しいヒューリスティックスの適応を提案した。
さらに,CBPPの高速近傍探索アルゴリズムを提案する。
これらの地区は、変数近傍探索(VNS)に基づくメタヒューリスティックなアプローチと、線形プログラミングとメタヒューリスティックなVNSとGreedy Randomized Adaptive Search(GRASP)を組み合わせた数学的アプローチに適用される。
その結果,我々の数学的手法はVNSよりも優れていることが示唆され,多くの項目を持つ場合であっても,両手法は多数の事例に対してほぼ最適解を見出すことができた。
The Colored Bin Packing Problem (CBPP) is a generalization of the Bin Packing Problem (BPP). The CBPP consists of packing a set of items, each with a weight and a color, in bins of limited capacity, minimizing the number of used bins and satisfying the constraint that two items of the same color cannot be packed side by side in the same bin. In this article, we proposed an adaptation of BPP heuristics and new heuristics for the CBPP. Moreover, we propose a set of fast neighborhood search algorithms for CBPP. These neighborhoods are applied in a meta-heuristic approach based on the Variable Neighborhood Search (VNS) and a matheuristic approach that combines linear programming with the meta-heuristics VNS and Greedy Randomized Adaptive Search (GRASP). The results indicate that our matheuristic is superior to VNS and that both approaches can find near-optimal solutions for a large number of instances, even for those with many items. | 翻訳日:2024-07-10 03:28:33 公開日:2024-07-08 |
# スムースに気をつけて:ラベルのスムースティングはプライバシシールドになるだけでなく、モデル反転攻撃のための触媒にもなる
Be Careful What You Smooth For: Label Smoothing Can Be a Privacy Shield but Also a Catalyst for Model Inversion Attacks ( http://arxiv.org/abs/2310.06549v5 ) ライセンス: Link先を確認 | Lukas Struppek, Dominik Hintersdorf, Kristian Kersting, | (参考訳) ラベルの平滑化 -- ハードなラベルの代わりにソフトなラベルを使用する -- は、ディープラーニングに広く採用されている正規化手法であり、一般化やキャリブレーションの強化などの多様なメリットを示している。
しかし、モデルプライバシを保存することの意味は、まだ解明されていない。
このギャップを埋めるために、分類器に符号化された知識を利用してクラス表現サンプルを生成し、トレーニングデータに関する機密情報を推測することを目的としたモデル反転攻撃(MIAs)に対するラベルスムーシングの影響を検討する。
従来のラベルのスムーズ化はMIAを促進させ,モデルのプライバシリークを増大させる。
さらに、ネガティブな要因による平滑化はこの傾向に対処し、クラス関連情報の抽出を阻害し、プライバシーの保護を阻害し、最先端の防衛を破ることを明らかにする。
これにより、MIAに対するモデルレジリエンスを強化するための実用的で強力な新しい方法が確立される。
Label smoothing -- using softened labels instead of hard ones -- is a widely adopted regularization method for deep learning, showing diverse benefits such as enhanced generalization and calibration. Its implications for preserving model privacy, however, have remained unexplored. To fill this gap, we investigate the impact of label smoothing on model inversion attacks (MIAs), which aim to generate class-representative samples by exploiting the knowledge encoded in a classifier, thereby inferring sensitive information about its training data. Through extensive analyses, we uncover that traditional label smoothing fosters MIAs, thereby increasing a model's privacy leakage. Even more, we reveal that smoothing with negative factors counters this trend, impeding the extraction of class-related information and leading to privacy preservation, beating state-of-the-art defenses. This establishes a practical and powerful novel way for enhancing model resilience against MIAs. | 翻訳日:2024-07-10 03:28:33 公開日:2024-07-08 |
# ロバストな多エージェント協調知覚のための悪意のあるエージェント検出
Malicious Agent Detection for Robust Multi-Agent Collaborative Perception ( http://arxiv.org/abs/2310.11901v2 ) ライセンス: Link先を確認 | Yangheng Zhao, Zhen Xiang, Sheng Yin, Xianghe Pang, Siheng Chen, Yanfeng Wang, | (参考訳) 近年、多エージェント協調(MAC)知覚が提案され、自律運転など多くのアプリケーションにおいて従来の単エージェント認識よりも優れています。
しかし、MAC知覚は情報交換による単一エージェント認識よりも敵攻撃に対して脆弱である。
攻撃者は、付近の悪意のあるエージェントから有害な情報を送信することにより、被害者エージェントのパフォーマンスを簡易に低下させることができる。
本稿では、敵の攻撃を重要な認識タスクであるMACオブジェクト検出に拡張し、敵の訓練のような一般的な防御がこれらの攻撃に対してもはや効果がないようにする。
さらに重要なことは、MAC知覚に特有の反応防御であるMADE(Malicious Agent Detection)を提案することで、各エージェントがローカルな協調ネットワーク内の潜在的な悪意のあるエージェントを正確に検出し、削除することができる。
特に、MADEはBenjamini-Hochberg法による二重補綴試験に基づいて、半教師付き異常検出器を用いてネットワーク内の各エージェントを独立に検査し、推論の偽陽性率を制御する。
この2つの仮説テストにおいて, 検査対象エージェントと検出対象エージェントが配置されるエゴエージェントの整合性に基づいて, 一致損失統計と協調再構成損失統計をそれぞれ提案する。
ベンチマーク3DデータセットV2X-simとリアルタイムデータセットDAIR-V2Xを用いて総合的な評価を行い、MADEの保護により、攻撃に対するベストケースの「オークル」ディフェンダーがそれぞれ1.28%、0.34%であるのに対し、平均精度の低下は8.92%と10.00%であることを示す。
Recently, multi-agent collaborative (MAC) perception has been proposed and outperformed the traditional single-agent perception in many applications, such as autonomous driving. However, MAC perception is more vulnerable to adversarial attacks than single-agent perception due to the information exchange. The attacker can easily degrade the performance of a victim agent by sending harmful information from a malicious agent nearby. In this paper, we extend adversarial attacks to an important perception task -- MAC object detection, where generic defenses such as adversarial training are no longer effective against these attacks. More importantly, we propose Malicious Agent Detection (MADE), a reactive defense specific to MAC perception that can be deployed by each agent to accurately detect and then remove any potential malicious agent in its local collaboration network. In particular, MADE inspects each agent in the network independently using a semi-supervised anomaly detector based on a double-hypothesis test with the Benjamini-Hochberg procedure to control the false positive rate of the inference. For the two hypothesis tests, we propose a match loss statistic and a collaborative reconstruction loss statistic, respectively, both based on the consistency between the agent to be inspected and the ego agent where our detector is deployed. We conduct comprehensive evaluations on a benchmark 3D dataset V2X-sim and a real-road dataset DAIR-V2X and show that with the protection of MADE, the drops in the average precision compared with the best-case "oracle" defender against our attack are merely 1.28% and 0.34%, respectively, much lower than 8.92% and 10.00% for adversarial training, respectively. | 翻訳日:2024-07-10 03:18:28 公開日:2024-07-08 |
# LLM4DyG:大規模言語モデルは動的グラフの時空間問題を解くことができるか?
LLM4DyG: Can Large Language Models Solve Spatial-Temporal Problems on Dynamic Graphs? ( http://arxiv.org/abs/2310.17110v3 ) ライセンス: Link先を確認 | Zeyang Zhang, Xin Wang, Ziwei Zhang, Haoyang Li, Yijian Qin, Wenwu Zhu, | (参考訳) 様々なタスクに対するLarge Language Models(LLMs)の採用の増加に特徴付けられる時代において、Webデータ、特にグラフデータを扱うLLMの能力の探求に焦点が当てられている。
時間的ネットワークの進化パターンをキャプチャする動的グラフは、現実世界のWebデータの中でユビキタスである。
動的グラフ上の空間時間情報の理解におけるLLMの能力を評価することは、Webアプリケーションにおいて採用される上で不可欠である。
本稿では,LLMの動的グラフ上での空間的時間的理解能力を評価することによるギャップを,私たちの知る限り,初めて橋渡しする。
具体的には、時空間次元と時空間次元の両方からLLMの能力評価を考慮した9つの特別設計タスクを含むLLM4DyGベンチマークを提案する。
そこで我々は,異なるデータ生成装置,データ統計,プロンプト技術,LLMがモデル性能に与える影響を解析するための広範囲な実験を行った。
最後に, LLM の時空間理解能力を高めるために, 動的グラフ上の LLM に対する Disentangled Spatial-Temporal Thoughts (DST2) を提案する。
私たちの主な観察は次の通りです。
1) LLM は動的グラフ上での空間的時間的理解能力を有する。
2) 動的グラフタスクは, 時間空間やデータ生成機構に敏感ではないが, グラフサイズや密度が増大するにつれて, LLMの難しさが増すことを示す。
3)提案したDST2プロンプト法は,ほとんどのタスクにおいて動的グラフ上でのLLMの時空間理解能力の向上に有効である。
データとコードはGithubで公開されている。
In an era marked by the increasing adoption of Large Language Models (LLMs) for various tasks, there is a growing focus on exploring LLMs' capabilities in handling web data, particularly graph data. Dynamic graphs, which capture temporal network evolution patterns, are ubiquitous in real-world web data. Evaluating LLMs' competence in understanding spatial-temporal information on dynamic graphs is essential for their adoption in web applications, which remains unexplored in the literature. In this paper, we bridge the gap via proposing to evaluate LLMs' spatial-temporal understanding abilities on dynamic graphs, to the best of our knowledge, for the first time. Specifically, we propose the LLM4DyG benchmark, which includes nine specially designed tasks considering the capability evaluation of LLMs from both temporal and spatial dimensions. Then, we conduct extensive experiments to analyze the impacts of different data generators, data statistics, prompting techniques, and LLMs on the model performance. Finally, we propose Disentangled Spatial-Temporal Thoughts (DST2) for LLMs on dynamic graphs to enhance LLMs' spatial-temporal understanding abilities. Our main observations are: 1) LLMs have preliminary spatial-temporal understanding abilities on dynamic graphs, 2) Dynamic graph tasks show increasing difficulties for LLMs as the graph size and density increase, while not sensitive to the time span and data generation mechanism, 3) the proposed DST2 prompting method can help to improve LLMs' spatial-temporal understanding abilities on dynamic graphs for most tasks. The data and codes are publicly available at Github. | 翻訳日:2024-07-10 03:18:28 公開日:2024-07-08 |
# プログレッシブキャリブレーションとアクティベーション緩和を考慮したテキスト・画像拡散モデルのポストトレーニング量子化
Post-training Quantization for Text-to-Image Diffusion Models with Progressive Calibration and Activation Relaxing ( http://arxiv.org/abs/2311.06322v3 ) ライセンス: Link先を確認 | Siao Tang, Xin Wang, Hong Chen, Chaoyu Guan, Zewen Wu, Yansong Tang, Wenwu Zhu, | (参考訳) 高計算オーバーヘッドは拡散モデルにとって厄介な問題である。
最近の研究は、拡散モデルの圧縮にPTQ(Post-training Quantization)を活用している。
しかし、それらのほとんどは無条件モデルにのみ焦点をあてており、広く使われている事前訓練されたテキスト-画像モデル(例えば、安定拡散)の量子化は、ほとんど探索されていない。
本稿では,時間経過の累積量子化誤差を考慮した漸進的キャリブレーション戦略と,無視可能なコストで性能を向上するアクティベーション緩和戦略からなる,テキスト間拡散モデルのためのポストトレーニング量子化法PCR(Progressive Calibration and Relaxing)を提案する。
さらに,従来のテキスト・画像拡散モデルの量子化は分布ギャップのため正確ではないことを示す。
そこで本研究では,同一領域のデータを用いてより正確な評価を行う新しいQDiffBenchベンチマークを提案する。
さらにQDiffBench氏は、キャリブレーションデータセットの外での量子化モデルの一般化性能についても検討している。
安定拡散XLと安定拡散XLの大規模な実験は,本手法とベンチマークの優位性を実証している。
さらに,我々は,安定拡散XLの量子化を初めて達成し,その性能を維持した。
High computational overhead is a troublesome problem for diffusion models. Recent studies have leveraged post-training quantization (PTQ) to compress diffusion models. However, most of them only focus on unconditional models, leaving the quantization of widely-used pretrained text-to-image models, e.g., Stable Diffusion, largely unexplored. In this paper, we propose a novel post-training quantization method PCR (Progressive Calibration and Relaxing) for text-to-image diffusion models, which consists of a progressive calibration strategy that considers the accumulated quantization error across timesteps, and an activation relaxing strategy that improves the performance with negligible cost. Additionally, we demonstrate the previous metrics for text-to-image diffusion model quantization are not accurate due to the distribution gap. To tackle the problem, we propose a novel QDiffBench benchmark, which utilizes data in the same domain for more accurate evaluation. Besides, QDiffBench also considers the generalization performance of the quantized model outside the calibration dataset. Extensive experiments on Stable Diffusion and Stable Diffusion XL demonstrate the superiority of our method and benchmark. Moreover, we are the first to achieve quantization for Stable Diffusion XL while maintaining the performance. | 翻訳日:2024-07-10 03:18:28 公開日:2024-07-08 |
# シンセティック・エンハンスメント : 医用画像研究における合成データの可能性
Synthetically Enhanced: Unveiling Synthetic Data's Potential in Medical Imaging Research ( http://arxiv.org/abs/2311.09402v2 ) ライセンス: Link先を確認 | Bardia Khosravi, Frank Li, Theo Dapamede, Pouria Rouzrokh, Cooper U. Gamble, Hari M. Trivedi, Cody C. Wyles, Andrew B. Sellergren, Saptarshi Purkayastha, Bradley J. Erickson, Judy W. Gichoya, | (参考訳) 胸部X線(CXR)は様々な疾患の診断に必須であるが、新しい個体群で使用すると、モデル一般化可能性の問題が有効性を制限する。
生成AI、特に拡散確率モデル(DDPM)は、合成画像を生成するための有望なアプローチを提供し、データセットの多様性を向上する。
本研究では, 医用画像研究の性能と一般化性に及ぼす合成データ補充の影響について検討した。
この研究は、CheXpertデータセットから人口統計学的および病理学的特徴を条件とした合成CXRを作成するためにDDPMを用いた。
これらの合成画像は、その性能を向上させることを目的として、病理分類器のトレーニングデータセットを補完するために使用された。
評価には3つのデータセット(CheXpert、MIMIC-CXR、Emory Chest X-ray)と、実際のデータを合成データで補うこと、純粋な合成データでトレーニングすること、合成データを外部データセットで混合することを含む様々な実験が含まれていた。
受信操作曲線 (AUROC) 下での性能評価を行った。
実際のデータセットに合成データを追加すると、AUROC値が顕著に増加した(内部および外部テストセットでは最大0.02、補充は1000%、すべてのインスタンスでは0.01未満)。
分類器が合成データのみで訓練されたとき、200%-300%のデータ補充で実データで訓練されたものと同等のパフォーマンスレベルを達成した。
異なるソースからの実データと合成データの組み合わせにより、モデル一般化性が向上し、内部テストセットでモデルAUROCが0.76から0.80に増加した(p-値が0.01未満)。
結論として, 医用画像における病理分類器の性能と一般化性は, 合成データ補充により著しく向上する。
Chest X-rays (CXR) are essential for diagnosing a variety of conditions, but when used on new populations, model generalizability issues limit their efficacy. Generative AI, particularly denoising diffusion probabilistic models (DDPMs), offers a promising approach to generating synthetic images, enhancing dataset diversity. This study investigates the impact of synthetic data supplementation on the performance and generalizability of medical imaging research. The study employed DDPMs to create synthetic CXRs conditioned on demographic and pathological characteristics from the CheXpert dataset. These synthetic images were used to supplement training datasets for pathology classifiers, with the aim of improving their performance. The evaluation involved three datasets (CheXpert, MIMIC-CXR, and Emory Chest X-ray) and various experiments, including supplementing real data with synthetic data, training with purely synthetic data, and mixing synthetic data with external datasets. Performance was assessed using the area under the receiver operating curve (AUROC). Adding synthetic data to real datasets resulted in a notable increase in AUROC values (up to 0.02 in internal and external test sets with 1000% supplementation, p-value less than 0.01 in all instances). When classifiers were trained exclusively on synthetic data, they achieved performance levels comparable to those trained on real data with 200%-300% data supplementation. The combination of real and synthetic data from different sources demonstrated enhanced model generalizability, increasing model AUROC from 0.76 to 0.80 on the internal test set (p-value less than 0.01). In conclusion, synthetic data supplementation significantly improves the performance and generalizability of pathology classifiers in medical imaging. | 翻訳日:2024-07-10 03:18:28 公開日:2024-07-08 |
# 視覚受容場に対する一般化ガウス微分モデルに基づく時空間受容場に対する幾何学的画像変換の下での合同共分散の統一理論
Unified theory for joint covariance properties under geometric image transformations for spatio-temporal receptive fields according to the generalized Gaussian derivative model for visual receptive fields ( http://arxiv.org/abs/2311.10543v6 ) ライセンス: Link先を確認 | Tony Lindeberg, | (参考訳) 自然画像変換が受容野反応に与える影響は、コンピュータビジョンと生物学的ビジョンにおける視覚操作のモデル化に不可欠である。
この点において、視覚階層の最初期の層における幾何学的画像変換に関する共分散特性は、ロバストな画像操作を表現し、より高いレベルで不変な視覚操作を定式化するために不可欠である。
本稿では,空間的スケーリング変換,空間的アフィン変換,ガリレオ変換,時間的スケーリング変換の合成の下で,時空間スムーズな画像データに適用した時空間微分作用素を用いて,時空間受容場に対する結合共分散特性の集合を定義し,その証明を行う。
具体的には、合成時空間画像変換の下での時空間受入場からの出力と一致するように、受入場のパラメータをどのように変換する必要があるかを示す。
この目的のために、スケール正規化微分の概念を、アフィンガウス核との空間的滑らか化に基づいて計算されるアフィン正規化微分に根本的に拡張し、アフィン群とそれらの重要な部分群に対する結果のアフィン正規化微分の共分散特性を解析する。
幾何学的解析により、導出した関節共分散特性が、異なる視点から局所的な表面パッチを観察、移動させたり、局所的に線形化された視点や射影変換で観察したり、類似の時空間事象の異なる視点でより早いか遅いかのどちらかで発生する時空間事象の異なるインスタンスを観察する際に、時空間の知覚応答を関連づけたり、一致させたりすることができることを示す。
The influence of natural image transformations on receptive field responses is crucial for modelling visual operations in computer vision and biological vision. In this regard, covariance properties with respect to geometric image transformations in the earliest layers of the visual hierarchy are essential for expressing robust image operations, and for formulating invariant visual operations at higher levels. This paper defines and proves a set of joint covariance properties for spatio-temporal receptive fields in terms of spatio-temporal derivative operators applied to spatio-temporally smoothed image data under compositions of spatial scaling transformations, spatial affine transformations, Galilean transformations and temporal scaling transformations. Specifically, the derived relations show how the parameters of the receptive fields need to be transformed, in order to match the output from spatio-temporal receptive fields under composed spatio-temporal image transformations. For this purpose, we also fundamentally extend the notion of scale-normalized derivatives to affine-normalized derivatives, that are computed based on spatial smoothing with affine Gaussian kernels, and analyze the covariance properties of the resulting affine-normalized derivatives for the affine group as well as for important subgroups thereof. We conclude with a geometric analysis, showing how the derived joint covariance properties make it possible to relate or match spatio-temporal receptive field responses, when observing, possibly moving, local surface patches from different views, under locally linearized perspective or projective transformations, as well as when observing different instances of spatio-temporal events, that may occur either faster or slower between different views of similar spatio-temporal events. | 翻訳日:2024-07-10 03:18:28 公開日:2024-07-08 |
# 非線形性を復号する:クープマン解釈と暗号系の解析
Decrypting Nonlinearity: Koopman Interpretation and Analysis of Cryptosystems ( http://arxiv.org/abs/2311.12714v2 ) ライセンス: Link先を確認 | Robin Strässer, Sebastian Schlor, Frank Allgöwer, | (参考訳) 公開鍵暗号系は、伝統的に数論法を用いて解析される、計算的に難しいセキュリティ問題に頼っている。
本稿では,Diffie-Hellman鍵交換系とRivest-Shamir-Adleman暗号系を非線形力学系として見ることによって,暗号系に対する新たな視点を紹介する。
クープマン理論を適用することで、これらの力学系を高次元空間に変換し、解析的に同値な純粋線型系を導出する。
この定式化により、線形システム解析に利用可能なツールを活用し、簡単な操作によって暗号システムの秘密整数を再構築することができる。
さらに、完全精度を達成するために必要な最小昇降寸法の上限を確立する。
必要な昇降寸法はブルートフォース攻撃の難易度と一致した。
提案手法の可能性を実証するため,アルゴリズムの複雑さに関する知見と既存の結果との関連性を確立する。
さらに、この方法論をデータ駆動コンテキストに拡張し、暗号システムのデータサンプルからクープマン表現を学習する。
Public-key cryptosystems rely on computationally difficult problems for security, traditionally analyzed using number theory methods. In this paper, we introduce a novel perspective on cryptosystems by viewing the Diffie-Hellman key exchange and the Rivest-Shamir-Adleman cryptosystem as nonlinear dynamical systems. By applying Koopman theory, we transform these dynamical systems into higher-dimensional spaces and analytically derive equivalent purely linear systems. This formulation allows us to reconstruct the secret integers of the cryptosystems through straightforward manipulations, leveraging the tools available for linear systems analysis. Additionally, we establish an upper bound on the minimum lifting dimension required to achieve perfect accuracy. Our results on the required lifting dimension are in line with the intractability of brute-force attacks. To showcase the potential of our approach, we establish connections between our findings and existing results on algorithmic complexity. Furthermore, we extend this methodology to a data-driven context, where the Koopman representation is learned from data samples of the cryptosystems. | 翻訳日:2024-07-10 03:18:28 公開日:2024-07-08 |
# VSViG:スケルトン型時空間VGによるリアルタイムビデオベースシーズール検出
VSViG: Real-time Video-based Seizure Detection via Skeleton-based Spatiotemporal ViG ( http://arxiv.org/abs/2311.14775v2 ) ライセンス: Link先を確認 | Yankun Xu, Junzhe Wang, Yun-Hsuan Chen, Jie Yang, Wenjie Ming, Shuang Wang, Mohamad Sawan, | (参考訳) 正確なて効率的なてんかん発作検出は、患者に有益である。
従来の診断法は、主に脳波(EEG)に依存しており、しばしば困難で移植不可能な解決策をもたらし、継続的な患者モニタリングを困難にしている。
ビデオベースの発作検出システムは、頭皮や移植された脳波デバイスの制約から患者を解放し、住宅環境における遠隔監視を可能にすることが期待されている。
従来のビデオベースの手法では、リソース不足や非効率な患者行動認識技術により、全日監視や検出遅延の短縮が不可能であった。
さらに、骨格に基づく行動認識アプローチは、微妙な発作に関連する行動を特定するのに制限が残っている。
これらの課題に対処するために,スケルトンをベースとした時空間視覚グラフニューラルネットワーク(VSViG)による,リアルタイムシナリオにおける効率,正確,タイムリーな目的のための,ビデオベースのSeizure検出モデルを提案する。
以上の結果から,VSViGはより精度が高く(5.9%エラー),FLOP(0.4G),モデルサイズが小さい(1.4M)。
さらに、出力確率と累積関数を組み合わせた意思決定規則を統合することにより、脳波発症後の5.1秒検出遅延、臨床発症前の13.1秒検出前処理、偽検出率ゼロを実現する。
プロジェクトのホームページは、https://github.com/xuyankun/VSViG/で公開されている。
An accurate and efficient epileptic seizure onset detection can significantly benefit patients. Traditional diagnostic methods, primarily relying on electroencephalograms (EEGs), often result in cumbersome and non-portable solutions, making continuous patient monitoring challenging. The video-based seizure detection system is expected to free patients from the constraints of scalp or implanted EEG devices and enable remote monitoring in residential settings. Previous video-based methods neither enable all-day monitoring nor provide short detection latency due to insufficient resources and ineffective patient action recognition techniques. Additionally, skeleton-based action recognition approaches remain limitations in identifying subtle seizure-related actions. To address these challenges, we propose a novel Video-based Seizure detection model via a skeleton-based spatiotemporal Vision Graph neural network (VSViG) for its efficient, accurate and timely purpose in real-time scenarios. Our experimental results indicate VSViG outperforms previous state-of-the-art action recognition models on our collected patients' video data with higher accuracy (5.9% error), lower FLOPs (0.4G), and smaller model size (1.4M). Furthermore, by integrating a decision-making rule that combines output probabilities and an accumulative function, we achieve a 5.1 s detection latency after EEG onset, a 13.1 s detection advance before clinical onset, and a zero false detection rate. The project homepage is available at: https://github.com/xuyankun/VSViG/ | 翻訳日:2024-07-10 03:08:43 公開日:2024-07-08 |
# テンソルネットワークと変分量子分類器の比較
Comparison between Tensor Networks and Variational Quantum Classifier ( http://arxiv.org/abs/2311.15663v2 ) ライセンス: Link先を確認 | Georgios Laskaris, Artem A. Melnikov, Michael R. Perelshtein, Reuben Brasher, Thomas Baeck, Florian Neukart, | (参考訳) 本研究の目的は、テンソルネットワーク(TN)と変分量子分類器(VQC)の2つの機械学習手法の比較分析を行うことである。
どちらのアプローチも、パラメータの対数的数を用いてヒルベルト空間の表現において類似性を共有するが、それらはそれらが被覆する多様体において発散する。
このようにして、これらのアプローチの表現可能性と訓練性を評価し、比較することを目的とする。
この比較を行うことで、量子的優位性を見出すことのできる潜在的な領域についての洞察を得ることができる。
以上の結果から,VQCはデータ処理における速度と精度の面で優位性を示すことが示唆された。
しかし、高次元データの場合、TNはVQCを超える。
この格差は、主に量子回路のトレーニング中に遭遇した課題に起因していると我々は信じている。
この記事では、特定のタスクのみに集中し、結果の徹底的な平均化を行なわないことを強調したい。
したがって,本論文の結果を過度な一般化を伴わないユニークな事例として考えることを推奨する。
The primary objective of this paper is to conduct a comparative analysis between two Machine Learning approaches: Tensor Networks (TN) and Variational Quantum Classifiers (VQC). While both approaches share similarities in their representation of the Hilbert space using a logarithmic number of parameters, they diverge in the manifolds they cover. Thus, the aim is to evaluate and compare the expressibility and trainability of these approaches. By conducting this comparison, we can gain insights into potential areas where quantum advantage may be found. Our findings indicate that VQC exhibits advantages in terms of speed and accuracy when dealing with data, characterized by a small number of features. However, for high-dimensional data, TN surpasses VQC in overall classification accuracy. We believe that this disparity is primarily attributed to challenges encountered during the training of quantum circuits. We want to stress that in this article, we focus on only one particular task and do not conduct thorough averaging of the results. Consequently, we recommend considering the results of this article as a unique case without excessive generalization. | 翻訳日:2024-07-10 03:08:43 公開日:2024-07-08 |
# Betrayed by Attention: 自己監督型ビデオオブジェクトセグメンテーションのためのシンプルで効果的なアプローチ
Betrayed by Attention: A Simple yet Effective Approach for Self-supervised Video Object Segmentation ( http://arxiv.org/abs/2311.17893v2 ) ライセンス: Link先を確認 | Shuangrui Ding, Rui Qian, Haohang Xu, Dahua Lin, Hongkai Xiong, | (参考訳) 本稿では,自己教師付きビデオオブジェクトセグメンテーション(VOS)のための,シンプルながら効果的なアプローチを提案する。
我々の重要な洞察は、DINO-pretrained Transformerに存在する構造的依存関係を活用して、ビデオにおける堅牢な時空間対応を確立することである。
さらに、この対応キュー上の単純なクラスタリングは、競合セグメンテーションの結果を得るのに十分である。
従来の自己監督型VOS技術は、補助的なモダリティを主に利用したり、反復的なスロットアテンションを利用してオブジェクト発見を支援し、汎用性を制限し、より高い計算要求を課す。
これらの課題に対処するため、我々は、DINO-pretrained Transformer から出現するオブジェクト性を利用して、追加のモダリティや注意をそらす必要を回避し、単純化されたアーキテクチャを開発する。
具体的には、まず1つの時空間変換ブロックを導入し、フレームワイドDINO特徴を処理し、自己注意の形で時空間依存性を確立する。
その後、これらの注目マップを利用して、階層的クラスタリングを実装し、オブジェクトセグメンテーションマスクを生成する。
完全自己教師型で時空間ブロックを訓練するために,エントロピー正規化と組み合わせた意味的および動的運動整合性を用いる。
DAVIS-17-Unsupervised や YouTube-VIS-19 のような複雑な実世界のマルチオブジェクトビデオセグメンテーションタスクに優れている。
コードとモデルチェックポイントはhttps://github.com/shvdiwnkozbw/SSL-UVOSでリリースされる。
In this paper, we propose a simple yet effective approach for self-supervised video object segmentation (VOS). Our key insight is that the inherent structural dependencies present in DINO-pretrained Transformers can be leveraged to establish robust spatio-temporal correspondences in videos. Furthermore, simple clustering on this correspondence cue is sufficient to yield competitive segmentation results. Previous self-supervised VOS techniques majorly resort to auxiliary modalities or utilize iterative slot attention to assist in object discovery, which restricts their general applicability and imposes higher computational requirements. To deal with these challenges, we develop a simplified architecture that capitalizes on the emerging objectness from DINO-pretrained Transformers, bypassing the need for additional modalities or slot attention. Specifically, we first introduce a single spatio-temporal Transformer block to process the frame-wise DINO features and establish spatio-temporal dependencies in the form of self-attention. Subsequently, utilizing these attention maps, we implement hierarchical clustering to generate object segmentation masks. To train the spatio-temporal block in a fully self-supervised manner, we employ semantic and dynamic motion consistency coupled with entropy normalization. Our method demonstrates state-of-the-art performance across multiple unsupervised VOS benchmarks and particularly excels in complex real-world multi-object video segmentation tasks such as DAVIS-17-Unsupervised and YouTube-VIS-19. The code and model checkpoints will be released at https://github.com/shvdiwnkozbw/SSL-UVOS. | 翻訳日:2024-07-10 03:08:43 公開日:2024-07-08 |
# GIFT:ジェネレーティブ・インタプリタブル・ファインチューニング
GIFT: Generative Interpretable Fine-Tuning ( http://arxiv.org/abs/2312.00700v3 ) ライセンス: Link先を確認 | Chinmay Savadikar, Xi Song, Tianfu Wu, | (参考訳) 本稿では、パラメータ空間における単純な分解行列乗算や、アクティベーション/表現空間における等価な分解行列乗算として定式化できる、事前訓練されたトランスフォーマーバックボーンのパラメータ効率の良い微調整のためのGIFT(Generative Interpretable Fine-Tuning)を提案する。
重み$\omega\in \mathbb{R}^{d_{out}\times d_{in}}$に対して、提案したGIFTは、$\omega$ as $\hat{\omega}=\omega\cdot (\mathbb{I}+\phi_{d_{in}\times r}\cdot\psi_{r\times d_{in}})$から直接、微調整された重み$\hat{\omega}$を学習する。
$\Theta=(\phi, \psi)$は2つの線形層の学習可能なパラメータである。
$\Theta$は、微調整のために選択されたすべてのレイヤ(例えば、クエリとバリューのすべてのレイヤ)で共有できるし、レイヤタイプ固有のもの(例えば、クエリとバリューに使用される$\Theta$)でもよい。
自然言語タスク(常識,算術的推論,命令チューニング,シーケンス分類)ときめ細かい視覚的分類タスクについて包括的な評価を行う。
我々は,コモンセンス推論,インストラクションチューニング,視覚認識ベンチマークに基づくベースライン間の最高の性能とパラメータ効率を得る。
LoRAと比較して,Llama-3 (8B) を用いたCommonsense170kのパラメータの53.8倍の精度で平均精度が5.9%向上し,Llama-2 (7B) によるパラメータの4倍の利得率が5.4%向上した。
また,GPT 3.5 (Turbo 1106) よりも命令調律の勝利率が若干高い。
最初の線形層(つまり$\omega\cdot \phi$)の出力は驚くほど解釈可能であり、これはコンピュータビジョンタスクのイメージに意味のあるオブジェクトやパーツをローカライズするための副産物としてトークンクラスタリングヘッドの役割を果たすことができる。
We present Generative Interpretable Fine-Tuning (GIFT) for parameter-efficient fine-tuning of pretrained Transformer backbones, which can be formulated as a simple factorized matrix multiplication in the parameter space or equivalently in the activation/representation space, and thus embraces built-in interpretability. For a layer with weights $\omega\in \mathbb{R}^{d_{out}\times d_{in}}$, our proposed GIFT learns the fine-tuned weights $\hat{\omega}$ directly from $\omega$ as $\hat{\omega}=\omega\cdot (\mathbb{I}+\phi_{d_{in}\times r}\cdot\psi_{r\times d_{in}})$. $\Theta=(\phi, \psi)$ are the learnable parameters of the two linear layers. $\Theta$ can be shared by all layers selected for fine-tuning (e.g., all the Query and Value layers), or can be layer-type specific (e.g., different $\Theta$'s used for Query and Value), resulting in significantly fewer trainable parameters compared to layer-specific Low-Rank Adaptation (LoRA). We perform comprehensive evaluations on natural language tasks (commonsense and arithmetic reasoning, instruction tuning, and sequence classification), and fine-grained visual classification tasks. We obtain the best performance and parameter efficiency among baselines on commonsense reasoning, instruction tuning and visual recognition benchmarks. Compared to LoRA, we obtain 5.9% absolute increase in average accuracy with 53.8 times reduction of parameters on Commonsense170k using Llama-3 (8B), and 5.4% absolute increase in the win rate with 4 times reduction of parameters using Llama-2 (7B) during instruction tuning. Our GIFT also obtains a slightly higher win rate on instruction tuning than GPT 3.5 (Turbo 1106). We show the output of the first linear layer (i.e., $\omega\cdot \phi$) is surprisingly interpretable, which can play the role of a token-clustering head as a by-product to localize meaningful objects/parts in images for computer vision tasks. | 翻訳日:2024-07-10 03:08:43 公開日:2024-07-08 |
# Gaussian Grouping:3Dシーンのセグメンテーションと編集
Gaussian Grouping: Segment and Edit Anything in 3D Scenes ( http://arxiv.org/abs/2312.00732v2 ) ライセンス: Link先を確認 | Mingqiao Ye, Martin Danelljan, Fisher Yu, Lei Ke, | (参考訳) 近年のガウシアン・スプラッティングは3Dシーンの高品質でリアルタイムなノベルビュー合成を実現している。
しかし、細粒度オブジェクトレベルのシーン理解に欠けるにもかかわらず、外観と幾何学的モデリングにのみ焦点が当てられている。
この問題に対処するため,ガウシアン・グルーピング(Gaussian Grouping)を提案し,ガウシアン・スプレイティング(Gaussian Splatting)を拡張した。
それぞれのガウス語をコンパクトなアイデンティティエンコーディングで拡張し、ガウス語をオブジェクトのインスタンスや3Dシーンの物のメンバシップに応じてグループ化できるようにします。
高価な3Dラベルに代えて、Segment Anything Model(SAM)による2次元マスク予測と3次元空間整合性正規化を活用することにより、差別化可能なレンダリング中のアイデンティティエンコーディングを監督する。
暗黙的なNeRF表現と比較すると、離散的かつグループ化された3Dガウスは、視覚的品質、きめ細かい粒度、効率で、あらゆるものを3Dで再構成、分割、編集できる。
さらに,ガウス的グループ化に基づく局所ガウス的編集手法を提案する。これは3Dオブジェクトの除去,塗装,色化,スタイル変換,シーン再構成など,多目的なシーン編集アプリケーションに有効であることを示す。
私たちのコードとモデルはhttps://github.com/lkeab/gaussian-grouping.orgにある。
The recent Gaussian Splatting achieves high-quality and real-time novel-view synthesis of the 3D scenes. However, it is solely concentrated on the appearance and geometry modeling, while lacking in fine-grained object-level scene understanding. To address this issue, we propose Gaussian Grouping, which extends Gaussian Splatting to jointly reconstruct and segment anything in open-world 3D scenes. We augment each Gaussian with a compact Identity Encoding, allowing the Gaussians to be grouped according to their object instance or stuff membership in the 3D scene. Instead of resorting to expensive 3D labels, we supervise the Identity Encodings during the differentiable rendering by leveraging the 2D mask predictions by Segment Anything Model (SAM), along with introduced 3D spatial consistency regularization. Compared to the implicit NeRF representation, we show that the discrete and grouped 3D Gaussians can reconstruct, segment and edit anything in 3D with high visual quality, fine granularity and efficiency. Based on Gaussian Grouping, we further propose a local Gaussian Editing scheme, which shows efficacy in versatile scene editing applications, including 3D object removal, inpainting, colorization, style transfer and scene recomposition. Our code and models are at https://github.com/lkeab/gaussian-grouping. | 翻訳日:2024-07-10 03:08:43 公開日:2024-07-08 |
# UCCA:資源制約デバイスにおける信頼できないコードセクションの比較化のための検証済みアーキテクチャ
UCCA: A Verified Architecture for Compartmentalization of Untrusted Code Sections in Resource-Constrained Devices ( http://arxiv.org/abs/2312.02348v2 ) ライセンス: Link先を確認 | Liam Tyler, Ivan De Oliveira Nunes, | (参考訳) マイクロコントローラユニット(MCU)は物理世界とデジタル世界のデファクトインタフェースを実装している。
結果として、スマートなパーソナルスペースから複雑な産業制御システム、安全クリティカルな医療機器に至るまで、様々なセンサー/アクチュエーターの応用に現れる。
これらのデバイスの多くは、安全性と時間的クリティカルなタスクを実行するが、システム機能全体に対する重要性と互換性のあるセキュリティ機能のサポートが欠如していることが多い。
このアーキテクチャサポートの欠如は、意図した振る舞いをリモートで変更できる実行時の攻撃に脆弱なままにして、破滅的な結果をもたらす可能性がある。
特に、MCUソフトウェアには信頼できないサードパーティ製ライブラリ(一部はクローズドソース)が含まれており、他のシステムから適切に隔離されることなく、MCUプログラム内で盲目的に使用されている。
逆に、ひとつの脆弱性(あるいは意図的なバックドア)が、MCUソフトウェア全体の状態に悪影響を及ぼすことがしばしばある。
本稿では,UCCA(Untrusted Code Compartment Architecture:信頼できないコード比較アーキテクチャ)の実装を提案し,セキュリティを実証し,正式に検証することで,この問題に対処する。
UCCAは、リソース制約と時間クリティカルなMCUにおいて、信頼できないコードセクション(サードパーティソフトウェアモジュールなど)を柔軟にハードウェアで強化した隔離を提供する。
UCCAの実用性を実証するため、実資源制約のMCU(よく知られたTI MSP430)上で設計のオープンソース版を実装した。
評価の結果,UCCA のオーバーヘッドは少なく,最低限の MCU に対しても安価であり,従来の作業よりもオーバーヘッドや仮定がはるかに少ないことが示唆された。
Micro-controller units (MCUs) implement the de facto interface between the physical and digital worlds. As a consequence, they appear in a variety of sensing/actuation applications, from smart personal spaces to complex industrial control systems and safety-critical medical equipment. While many of these devices perform safety- and time-critical tasks, they often lack support for security features compatible with their importance to overall system functions. This lack of architectural support leaves them vulnerable to run-time attacks that can remotely alter their intended behavior, with potentially catastrophic consequences. In particular, we note that MCU software often includes untrusted third-party libraries (some of them closed-source) that are blindly used within MCU programs, without proper isolation from the rest of the system. In turn, a single vulnerability (or intentional backdoor) in one such third-party software can often compromise the entire MCU software state. In this paper, we tackle this problem by proposing, demonstrating security, and formally verifying the implementation of UCCA: an Untrusted Code Compartment Architecture. UCCA provides flexible hardware-enforced isolation of untrusted code sections (e.g., third-party software modules) in resource-constrained and time-critical MCUs. To demonstrate UCCA's practicality, we implement an open-source version of the design on a real resource-constrained MCU: the well-known TI MSP430. Our evaluation shows that UCCA incurs little overhead and is affordable even to lowest-end MCUs, requiring significantly less overhead and assumptions than prior related work. | 翻訳日:2024-07-10 03:08:43 公開日:2024-07-08 |
# クロスモーダル特徴マッピングによるマルチモーダル産業異常検出
Multimodal Industrial Anomaly Detection by Crossmodal Feature Mapping ( http://arxiv.org/abs/2312.04521v2 ) ライセンス: Link先を確認 | Alex Costanzino, Pierluigi Zama Ramirez, Giuseppe Lisanti, Luigi Di Stefano, | (参考訳) 本稿では、点雲とRGB画像を利用して異常をローカライズする産業用マルチモーダル異常検出(AD)タスクについて検討する。
我々は,新しい軽量かつ高速なフレームワークを導入し,特徴を1つのモダリティからもう1つのモダリティへのマップを,名目標本上で学習する。
テスト時には、観察された特徴とマッピングされた特徴の矛盾をピンポイントすることで異常を検出する。
広汎な実験により,MVTec 3D-ADデータセットの標準設定と少ショット設定の両方において,従来のマルチモーダルAD手法よりも高速な推論とメモリ占有を実現し,最先端検出とセグメンテーション性能を実現することができた。
また,性能を犠牲にすることなく,メモリと時間効率を向上するレイヤ・プルーニング手法を提案する。
The paper explores the industrial multimodal Anomaly Detection (AD) task, which exploits point clouds and RGB images to localize anomalies. We introduce a novel light and fast framework that learns to map features from one modality to the other on nominal samples. At test time, anomalies are detected by pinpointing inconsistencies between observed and mapped features. Extensive experiments show that our approach achieves state-of-the-art detection and segmentation performance in both the standard and few-shot settings on the MVTec 3D-AD dataset while achieving faster inference and occupying less memory than previous multimodal AD methods. Moreover, we propose a layer-pruning technique to improve memory and time efficiency with a marginal sacrifice in performance. | 翻訳日:2024-07-10 03:08:43 公開日:2024-07-08 |
# 量子ソフトウェアシステムにおけるアーキテクチャ決定 - Stack ExchangeとGitHubに関する実証的研究
Architecture Decisions in Quantum Software Systems: An Empirical Study on Stack Exchange and GitHub ( http://arxiv.org/abs/2312.05421v2 ) ライセンス: Link先を確認 | Mst Shamima Aktar, Peng Liang, Muhammad Waseem, Amjed Tahir, Aakash Ahmad, Beiqi Zhang, Zengyang Li, | (参考訳) 量子コンピューティングは計算の新たな次元を提供し、量子力学の原理を利用して、現在古典的コンピュータでは難解な複雑な問題を解く。
しかし、量子ソフトウェア開発におけるアーキテクチャ決定についての研究はほとんど行われておらず、これらのシステムの機能、性能、スケーラビリティ、信頼性に大きな影響を与えている。
この研究は、量子ソフトウェアシステムの開発中に行われたアーキテクチャ決定を経験的に調査し、分析することを目的としており、Stack ExchangeとGitHubの投稿と問題を使用することで、一般的な課題と制限を特定している。
Stack Exchange SitesとGitHubプロジェクトから得られたデータを質的なアプローチで分析しました。
具体的には、量子ソフトウェア開発におけるアーキテクチャ決定に関連する385のイシュー(87のGitHubプロジェクトから)と70のポスト(3つのStack Exchangeサイトから)からのデータを収集しました。
その結果,(1) 量子ソフトウェア開発においては,(1) アーキテクチャ決定は6つの言語パターンで記述され,その中でも最も一般的なのが解決提案と情報提供,(2) アーキテクチャ決定の2つの主要なカテゴリは実装決定と技術決定,(3) ソフトウォー開発ツールは20のアプリケーションドメインの中で最も一般的なアプリケーションドメインである,(4) 保守性は品質特性として最も多い,(5) 設計上の問題と高いエラー率は,量子ソフトウェア開発においてアーキテクチャ決定を行う上で実践者が直面する主な制約と課題である,という結果が得られた。
この結果から,量子ソフトウェアシステムの開発においてアーキテクチャ決定に直面する限界や課題は,これらのシステムの特定の特徴(量子エンタングルメント,スーパーポジション,デコヒーレンスなど)と強く結びついていることが示唆された。
Quantum computing provides a new dimension in computation, utilizing the principles of quantum mechanics to potentially solve complex problems that are currently intractable for classical computers. However, little research has been conducted about the architecture decisions made in quantum software development, which have a significant influence on the functionality, performance, scalability, and reliability of these systems. The study aims to empirically investigate and analyze architecture decisions made during the development of quantum software systems, identifying prevalent challenges and limitations by using the posts and issues from Stack Exchange and GitHub. We used a qualitative approach to analyze the obtained data from Stack Exchange Sites and GitHub projects. Specifically, we collected data from 385 issues (from 87 GitHub projects) and 70 posts (from three Stack Exchange sites) related to architecture decisions in quantum software development. The results show that in quantum software development (1) architecture decisions are articulated in six linguistic patterns, the most common of which are Solution Proposal and Information Giving, (2) the two major categories of architectural decisions are Implementation Decision and Technology Decision, (3) Softwar Development Tools are the most common application domain among the twenty application domains identified, (4) Maintainability is the most frequently considered quality attribute, and (5) Design Issues and High Error Rates are the major limitations and challenges that practitioners face when making architecture decisions in quantum software development. Our results show that the limitations and challenges encountered in architecture decision-making during the development of quantum software systems are strongly linked to the particular features (e.g., quantum entanglement, superposition, and decoherence) of those systems. | 翻訳日:2024-07-10 03:08:43 公開日:2024-07-08 |
# ヘテロフィとスペクトルの視線におけるグラフに基づくフラッド検出の再検討
Revisiting Graph-Based Fraud Detection in Sight of Heterophily and Spectrum ( http://arxiv.org/abs/2312.06441v3 ) ライセンス: Link先を確認 | Fan Xu, Nan Wang, Hao Wu, Xuezhi Wen, Xibin Zhao, Hai Wan, | (参考訳) グラフベースの不正検出(GFD)は、半教師付きノードバイナリ分類タスクとして困難なものと見なすことができる。
近年、グラフニューラルネットワーク(GNN)がGFDに広く適用され、近隣情報を集約することでノードの異常な可能性を特徴づけている。
しかし、不正グラフは本質的にヘテロ親和性を持つため、ほとんどのGNNはホモフィリーの仮定により性能が劣る。
また,異種不均衡問題が存在するため,既存のモデルでは貴重なノードラベル情報を十分に利用していない。
以上の課題に対処するため,本研究では,セミ教師付きGNNベースの不正検知器SEC-GFDを提案する。
ハイブリッドフィルタモジュールとローカル環境制約モジュールとを具備し、2つのモジュールをそれぞれヘテロフィリーおよびラベル利用問題を解決するために利用する。
最初の加群はスペクトル領域の観点から始まり、ヘテロフィイ問題をある程度解決する。
具体的には、スペクトルエネルギー分布とヘテロフィリーの相関に基づいて、スペクトルを様々な混合周波数帯域に分割する。
そして、ノードラベル情報をフル活用するために、ローカル環境制約モジュールを適応的に設計する。
4つの実世界の不正検出データセットの総合的な実験結果は、SEC-GFDが他の競合グラフベースの不正検出よりも優れていることを示している。
コードについてはhttps://github.com/Sunxkissed/SEC-GFD.comで公開しています。
Graph-based fraud detection (GFD) can be regarded as a challenging semi-supervised node binary classification task. In recent years, Graph Neural Networks (GNN) have been widely applied to GFD, characterizing the anomalous possibility of a node by aggregating neighbor information. However, fraud graphs are inherently heterophilic, thus most of GNNs perform poorly due to their assumption of homophily. In addition, due to the existence of heterophily and class imbalance problem, the existing models do not fully utilize the precious node label information. To address the above issues, this paper proposes a semi-supervised GNN-based fraud detector SEC-GFD. This detector includes a hybrid filtering module and a local environmental constraint module, the two modules are utilized to solve heterophily and label utilization problem respectively. The first module starts from the perspective of the spectral domain, and solves the heterophily problem to a certain extent. Specifically, it divides the spectrum into various mixed-frequency bands based on the correlation between spectrum energy distribution and heterophily. Then in order to make full use of the node label information, a local environmental constraint module is adaptively designed. The comprehensive experimental results on four real-world fraud detection datasets denote that SEC-GFD outperforms other competitive graph-based fraud detectors. We release our code at https://github.com/Sunxkissed/SEC-GFD. | 翻訳日:2024-07-10 03:08:43 公開日:2024-07-08 |
# Mask as Supervision:Unified Mask Information for Unsupervised 3D Pose Estimation
Mask as Supervision: Leveraging Unified Mask Information for Unsupervised 3D Pose Estimation ( http://arxiv.org/abs/2312.07051v2 ) ライセンス: Link先を確認 | Yuchen Yang, Yu Qiao, Xiao Sun, | (参考訳) 単眼RGB画像からの3次元人間のポーズの自動推定は、コンピュータビジョンにおいて困難で未解決な問題である。
教師付き方法では、アプローチは3Dポーズデータセットの多様性が限定されているため、退屈なアノテーションと現在の一般化能力に大きく依存している。
これらの課題に対処するために,マスクを教師なしの3次元ポーズ推定の監督として活用する統合フレームワークを提案する。
一般的な教師なしセグメンテーションアルゴリズムでは、提案モデルでは、粗いものから細かいものまで正確なポーズ情報を利用する骨格と物理的表現を用いている。
従来の教師なし手法と比較して、アノテーションのないデータの処理を可能にし、使用可能な推定結果を提供する、完全に教師なしの方法で人間の骨格を整理する。
Human3.6M と MPI-INF-3DHP データセット上での最先端のポーズ推定性能について総合実験を行った。
アプリ内データセットに関するさらなる実験は、モデルを強化するためにより多くのデータにアクセスする能力についても説明している。
コードはhttps://github.com/Charrrlie/Mask-as-Supervision.comから入手できる。
Automatic estimation of 3D human pose from monocular RGB images is a challenging and unsolved problem in computer vision. In a supervised manner, approaches heavily rely on laborious annotations and present hampered generalization ability due to the limited diversity of 3D pose datasets. To address these challenges, we propose a unified framework that leverages mask as supervision for unsupervised 3D pose estimation. With general unsupervised segmentation algorithms, the proposed model employs skeleton and physique representations that exploit accurate pose information from coarse to fine. Compared with previous unsupervised approaches, we organize the human skeleton in a fully unsupervised way which enables the processing of annotation-free data and provides ready-to-use estimation results. Comprehensive experiments demonstrate our state-of-the-art pose estimation performance on Human3.6M and MPI-INF-3DHP datasets. Further experiments on in-the-wild datasets also illustrate the capability to access more data to boost our model. Code will be available at https://github.com/Charrrrrlie/Mask-as-Supervision. | 翻訳日:2024-07-10 03:08:43 公開日:2024-07-08 |
# Diff-Oracle: 制御可能な拡散モデルでOracle Bone Scriptsを解読する
Diff-Oracle: Deciphering Oracle Bone Scripts with Controllable Diffusion Model ( http://arxiv.org/abs/2312.13631v2 ) ライセンス: Link先を確認 | Jing Li, Qiu-Feng Wang, Siyuan Wang, Rui Zhang, Kaizhu Huang, Erik Cambria, | (参考訳) オラクルの骨文書の解読は中国考古学や文献学において重要な役割を担っている。
しかし、オラクル・キャラクタ・イメージの不足により、大きな課題が残っている。
この問題を解決するために,拡散モデルに基づく新しい手法であるDiff-Oracleを提案する。
主にテキストプロンプトで動作する従来の拡散モデルとは異なり、Diff-Oracleはスタイル参照イメージを使用して生成スタイルを制御するスタイルエンコーダを組み込んでいる。
このエンコーダは、既存のオラクル文字画像からスタイルプロンプトを抽出し、事前訓練された言語ビジョンモデルを介して、スタイル詳細をテキスト埋め込み形式に変換する。
一方、コンテンツエンコーダはDiff-Oracleに統合され、コンテンツ参照画像から特定のコンテンツの詳細をキャプチャし、生成された文字が意図したグリフを正確に表現することを保証する。
Diff-Oracleを効果的に訓練するために、画像と画像の変換モデルを用いてピクセルレベルのペア化されたオラクル文字画像(スタイルとコンテンツイメージ)を事前生成する。
Oracle-241 と OBC306 のデータセットに対して、大規模な定性的かつ定量的な実験が行われた。
Diff-Oracleは、画像生成の点で現在の生成方法を大幅に上回っているが、下流のオラクル文字認識にはかなり効果があり、既存のSOTAをはるかに上回っている。
特に、挑戦的なOBC306データセットでは、Diff-Oracleはゼロショット設定で精度が7.70%向上し、84.62%の精度で未知のオラクル文字画像を認識することができ、オラクルの骨スクリプトを解読するための新しいベンチマークを達成している。
Deciphering oracle bone scripts plays an important role in Chinese archaeology and philology. However, a significant challenge remains due to the scarcity of oracle character images. To overcome this issue, we propose Diff-Oracle, a novel approach based on diffusion models to generate a diverse range of controllable oracle characters. Unlike traditional diffusion models that operate primarily on text prompts, Diff-Oracle incorporates a style encoder that utilizes style reference images to control the generation style. This encoder extracts style prompts from existing oracle character images, where style details are converted into a text embedding format via a pretrained language-vision model. On the other hand, a content encoder is integrated within Diff-Oracle to capture specific content details from content reference images, ensuring that the generated characters accurately represent the intended glyphs. To effectively train Diff-Oracle, we pre-generate pixel-level paired oracle character images (i.e., style and content images) by an image-to-image translation model. Extensive qualitative and quantitative experiments are conducted on datasets Oracle-241 and OBC306. While significantly surpassing present generative methods in terms of image generation, Diff-Oracle substantially benefits downstream oracle character recognition, outperforming all existing SOTAs by a large margin. In particular, on the challenging OBC306 dataset, Diff-Oracle leads to an accuracy gain of 7.70% in the zero-shot setting and is able to recognize unseen oracle character images with the accuracy of 84.62%, achieving a new benchmark for deciphering oracle bone scripts. | 翻訳日:2024-07-10 02:58:36 公開日:2024-07-08 |
# 強化学習に基づく量的トレーディングのための相乗的公式アルファ生成
Synergistic Formulaic Alpha Generation for Quantitative Trading based on Reinforcement Learning ( http://arxiv.org/abs/2401.02710v2 ) ライセンス: Link先を確認 | Hong-Gi Shin, Sukhyun Jeong, Eui-Yeon Kim, Sungho Hong, Young-Jin Cho, Yong-Hoon Choi, | (参考訳) 定式的アルファ因子のマイニング(英: Mining of formulaic Alpha factor)とは、株式市場における定量取引のための特定の因子や指標(アルファ因子と呼ばれる)を発見し、開発する過程を指す。
広い探索空間におけるアルファ因子を効率的に発見するために、強化学習(RL)が一般的である。
本稿では,探索空間を拡大し,事前学習した定式アルファセットを初期シード値として利用して,相乗的な定式アルファを生成することにより,既存のアルファファクターマイニング手法を強化する手法を提案する。
モデルの性能評価指標として,情報係数 (IC) とランク情報係数 (Rank IC) を用いる。
CSI300の市場データを用いて、実投資シミュレーションを行い、既存技術と比較して大幅な性能向上を観察した。
Mining of formulaic alpha factors refers to the process of discovering and developing specific factors or indicators (referred to as alpha factors) for quantitative trading in stock market. To efficiently discover alpha factors in vast search space, reinforcement learning (RL) is commonly employed. This paper proposes a method to enhance existing alpha factor mining approaches by expanding a search space and utilizing pretrained formulaic alpha set as initial seed values to generate synergistic formulaic alpha. We employ information coefficient (IC) and rank information coefficient (Rank IC) as performance evaluation metrics for the model. Using CSI300 market data, we conducted real investment simulations and observed significant performance improvement compared to existing techniques. | 翻訳日:2024-07-10 02:58:36 公開日:2024-07-08 |
# きめ細かいモデルパラメータ摂動による機械学習
Machine unlearning through fine-grained model parameters perturbation ( http://arxiv.org/abs/2401.04385v3 ) ライセンス: Link先を確認 | Zhiwei Zuo, Zhuo Tang, Kenli Li, Anwitaman Datta, | (参考訳) データレコードの抽出とトレーニングされたモデルへの影響の低減を含む機械学習技術は、ユーザのプライバシ保護の目標に役立ちますが、計算コストの大幅な削減に役立ちます。
重度摂動に基づくアンラーニングは一般的なアプローチであるが、通常はグローバルなパラメータの変更を伴う。
本稿では、計算コストを抑えつつ、プライバシニーズに対処する不正確な機械学習戦略を、きめ細かなTop-KパラメータとRandom-kパラメータを提案する。
また,本手法の有効性を実証するために,学習データと学習データの両方にまたがるモデルの一般化性能を考慮し,機械学習の有効性を評価する。
非学習効果とモデル一般化をよりよく評価するために,記憶保持率と記憶保持率という新しい指標を提案する。
しかし、不正確な機械学習では、未学習戦略の適用後に発生する忘れの程度を定量化するには、現在の指標が不十分である。
そこで本研究では,学習対象データの分布を微妙に乱すSPD-GANを提案する。
そして,学習前後の摂動学習データ上で,モデルの性能差を計測し,学習の度合いを評価する。
これらの革新的な技術とメトリクスを実装することで、モデル性能を犠牲にすることなく、機械学習アプリケーションにおいて、計算的に効果的にプライバシー保護を実現することができる。
さらに、この手法は、未学習の度合いを評価するための新しい方法を提供する。
Machine unlearning techniques, which involve retracting data records and reducing influence of said data on trained models, help with the user privacy protection objective but incur significant computational costs. Weight perturbation-based unlearning is a general approach, but it typically involves globally modifying the parameters. We propose fine-grained Top-K and Random-k parameters perturbed inexact machine unlearning strategies that address the privacy needs while keeping the computational costs tractable. In order to demonstrate the efficacy of our strategies we also tackle the challenge of evaluating the effectiveness of machine unlearning by considering the model's generalization performance across both unlearning and remaining data. To better assess the unlearning effect and model generalization, we propose novel metrics, namely, the forgetting rate and memory retention rate. However, for inexact machine unlearning, current metrics are inadequate in quantifying the degree of forgetting that occurs after unlearning strategies are applied. To address this, we introduce SPD-GAN, which subtly perturbs the distribution of data targeted for unlearning. Then, we evaluate the degree of unlearning by measuring the performance difference of the models on the perturbed unlearning data before and after the unlearning process. By implementing these innovative techniques and metrics, we achieve computationally efficacious privacy protection in machine learning applications without significant sacrifice of model performance. Furthermore, this approach provides a novel method for evaluating the degree of unlearning. | 翻訳日:2024-07-10 02:58:36 公開日:2024-07-08 |
# コードの行間:機械と人間のプログラマの固有のパターンを明らかにする
Between Lines of Code: Unraveling the Distinct Patterns of Machine and Human Programmers ( http://arxiv.org/abs/2401.06461v4 ) ライセンス: Link先を確認 | Yuling Shi, Hongyu Zhang, Chengcheng Wan, Xiaodong Gu, | (参考訳) 大規模言語モデルはコード生成において前例のない波を触媒している。
大幅な進歩を遂げながら、マシンと人間によるソースコードの区別を曖昧にし、ソフトウェアアーチファクトの完全性と信頼性の問題を引き起こした。
DetectGPTのような従来の手法は、機械生成したテキストの識別に有効であることが証明されているが、それらは機械生成コードのユニークなパターンを特定し、利用しない。
したがって、コードに適用された場合、適用性は低下する。
本稿では,機械と人為的なコードの特徴を特徴付ける特定のパターンについて,慎重に検討する。
語彙の多様性、簡潔さ、自然さといったコード属性の厳密な分析を通じて、各ソース固有のユニークなパターンを明らかにする。
特に、コードの構文的セグメンテーションが、その証明を識別する上で重要な要素であることに気付きます。
そこで本研究では, 異なるスタイルのコードパターンを抽出して, 検出精度を向上する, 機械生成コード検出の新しい手法であるDetectCodeGPTを提案する。
摂動の外部 LLM に依存する従来の手法とは違い、DeuterCodeGPT は空間と新規性を戦略的に挿入することでコードコーパスを摂動させ、有効性と効率を両立させる。
実験結果から,本手法は機械生成コードの検出における最先端技術よりも優れていることがわかった。
Large language models have catalyzed an unprecedented wave in code generation. While achieving significant advances, they blur the distinctions between machine- and human-authored source code, causing integrity and authenticity issues of software artifacts. Previous methods such as DetectGPT have proven effective in discerning machine-generated texts, but they do not identify and harness the unique patterns of machine-generated code. Thus, its applicability falters when applied to code. In this paper, we carefully study the specific patterns that characterize machine- and human-authored code. Through a rigorous analysis of code attributes such as lexical diversity, conciseness, and naturalness, we expose unique patterns inherent to each source. We particularly notice that the syntactic segmentation of code is a critical factor in identifying its provenance. Based on our findings, we propose DetectCodeGPT, a novel method for detecting machine-generated code, which improves DetectGPT by capturing the distinct stylized patterns of code. Diverging from conventional techniques that depend on external LLMs for perturbations, DetectCodeGPT perturbs the code corpus by strategically inserting spaces and newlines, ensuring both efficacy and efficiency. Experiment results show that our approach significantly outperforms state-of-the-art techniques in detecting machine-generated code. | 翻訳日:2024-07-10 02:58:36 公開日:2024-07-08 |
# 大規模言語モデルのラベル効率向上のための実験的設計フレームワーク
An Experimental Design Framework for Label-Efficient Supervised Finetuning of Large Language Models ( http://arxiv.org/abs/2401.06692v3 ) ライセンス: Link先を確認 | Gantavya Bhatt, Yifang Chen, Arnav M. Das, Jifan Zhang, Sang T. Truong, Stephen Mussmann, Yinglun Zhu, Jeffrey Bilmes, Simon S. Du, Kevin Jamieson, Jordan T. Ash, Robert D. Nowak, | (参考訳) 命令データセットの教師付き微調整(SFT)は、現代の大言語モデル(LLM)で観測される顕著なゼロショット一般化能力を達成する上で重要な役割を担っている。
しかし、命令データセットにまたがるタスクの数が増加し続けており、命令に対する高品質な応答を生成するために必要なアノテーションの取り組みは、非常に高価になってきている。
アクティブラーニングは、ラベルのないプールからアノテートするサンプルの有用なサブセットを特定するのに有効であるが、その高い計算コストは、LLMの文脈においてその広範な適用可能性の障壁である。
SFTのアノテーションコストを軽減し、アクティブラーニングの計算ボトルネックを回避するために、実験設計を用いて提案する。
実験的な設計技術は、ラベル付けする最も情報性の高いサンプルを選択し、典型的には不確実性や多様性の概念を最大化する。
本研究では,既存および新規な実験設計手法の評価を行うフレームワークを実装し,これらの手法が計算オーバーヘッドが少なく,ラベル効率の大幅な向上を図っている。
生成タスクにおいて,提案手法は同じ一般化性能を,ランダムサンプリングで要求されるアノテーションコストの50\%程度で達成する。
Supervised finetuning (SFT) on instruction datasets has played a crucial role in achieving the remarkable zero-shot generalization capabilities observed in modern large language models (LLMs). However, the annotation efforts required to produce high quality responses for instructions are becoming prohibitively expensive, especially as the number of tasks spanned by instruction datasets continues to increase. Active learning is effective in identifying useful subsets of samples to annotate from an unlabeled pool, but its high computational cost remains a barrier to its widespread applicability in the context of LLMs. To mitigate the annotation cost of SFT and circumvent the computational bottlenecks of active learning, we propose using experimental design. Experimental design techniques select the most informative samples to label, and typically maximize some notion of uncertainty and/or diversity. In our work, we implement a framework that evaluates several existing and novel experimental design techniques and find that these methods consistently yield significant gains in label efficiency with little computational overhead. On generative tasks, our methods achieve the same generalization performance with only $50\%$ of annotation cost required by random sampling. | 翻訳日:2024-07-10 02:58:36 公開日:2024-07-08 |
# 医療・医療分野における大規模言語モデル : レビュー
Large language models in healthcare and medical domain: A review ( http://arxiv.org/abs/2401.06775v2 ) ライセンス: Link先を確認 | Zabir Al Nazi, Wei Peng, | (参考訳) 医療分野における大規模言語モデル(LLM)の展開は、熱意と不安の両方を引き起こしている。
これらのモデルは、フリーテキストクエリに熟練した応答を提供する優れた能力を示し、専門的な医療知識の微妙な理解を示している。
この包括的調査は、従来のプレトレーニング言語モデル(PLM)から、医療分野におけるLLMの現在の状態に至るまで、医療応用用に設計された既存のLLMの機能について、その開発の軌跡を解明するものである。
まず,多種多様な医療応用の効率と有効性,特に臨床言語理解タスクに焦点を当てたLCMの可能性を検討する。
これらのタスクは、名前付きエンティティ認識や関係抽出から自然言語推論、マルチモーダル医療応用、文書分類、質問応答まで幅広い範囲に及んでいる。
さらに、医療領域における最新の技術 LLM の広範な比較を行い、また、様々なオープンソース LLM の利用状況を評価し、医療分野におけるその意義を強調した。
さらに, バイオメディカル領域におけるLSMの評価に要する性能指標について述べる。
最後に、医療分野における大きな言語モデルが直面する顕著な課題と制約を要約し、その潜在的なメリットと欠点に関する全体論的な視点を提供する。
このレビューは、医療におけるLLMの現在の展望を包括的に調査し、医療応用の変革におけるその役割と、さらなる研究と開発を保証している領域に対処するものである。
The deployment of large language models (LLMs) within the healthcare sector has sparked both enthusiasm and apprehension. These models exhibit the remarkable capability to provide proficient responses to free-text queries, demonstrating a nuanced understanding of professional medical knowledge. This comprehensive survey delves into the functionalities of existing LLMs designed for healthcare applications, elucidating the trajectory of their development, starting from traditional Pretrained Language Models (PLMs) to the present state of LLMs in healthcare sector. First, we explore the potential of LLMs to amplify the efficiency and effectiveness of diverse healthcare applications, particularly focusing on clinical language understanding tasks. These tasks encompass a wide spectrum, ranging from named entity recognition and relation extraction to natural language inference, multi-modal medical applications, document classification, and question-answering. Additionally, we conduct an extensive comparison of the most recent state-of-the-art LLMs in the healthcare domain, while also assessing the utilization of various open-source LLMs and highlighting their significance in healthcare applications. Furthermore, we present the essential performance metrics employed to evaluate LLMs in the biomedical domain, shedding light on their effectiveness and limitations. Finally, we summarize the prominent challenges and constraints faced by large language models in the healthcare sector, offering a holistic perspective on their potential benefits and shortcomings. This review provides a comprehensive exploration of the current landscape of LLMs in healthcare, addressing their role in transforming medical applications and the areas that warrant further research and development. | 翻訳日:2024-07-10 02:58:36 公開日:2024-07-08 |
# スパイクストリームから低照度ダイナミックシーンをロバストに再構築する学習
Learning to Robustly Reconstruct Low-light Dynamic Scenes from Spike Streams ( http://arxiv.org/abs/2401.10461v2 ) ライセンス: Link先を確認 | Liwen Hu, Ziluo Ding, Mianzhi Liu, Lei Ma, Tiejun Huang, | (参考訳) 高時間分解能のニューロモルフィックセンサーとして、スパイクカメラは連続したバイナリスパイクストリームを生成してピクセル当たりの光強度を捉えることができる。
高速シナリオにおけるシーン詳細の復元には,再構成手法を用いることができる。
しかし、スパイクストリームの限られた情報のため、低照度シーンを効果的に再構築することは困難である。
本稿では,光ロバスト表現(LR-Rep)と融合モジュールを含む双方向のリカレントに基づく再構成フレームワークを提案する。
LR-Repはスパイクストリーム内の時間情報を集約するために設計され、融合モジュールを使用して時間的特徴を抽出する。
さらに,我々は高速低照度シーンの再現ベンチマークを開発した。
シーンの光源は、現実世界の条件に注意深く適合しています。
実験の結果,本手法は実スパイクストリームによく応用できることがわかった。
関連するコードと提案されたデータセットは、公開後にリリースされる。
As a neuromorphic sensor with high temporal resolution, spike camera can generate continuous binary spike streams to capture per-pixel light intensity. We can use reconstruction methods to restore scene details in high-speed scenarios. However, due to limited information in spike streams, low-light scenes are difficult to effectively reconstruct. In this paper, we propose a bidirectional recurrent-based reconstruction framework, including a Light-Robust Representation (LR-Rep) and a fusion module, to better handle such extreme conditions. LR-Rep is designed to aggregate temporal information in spike streams, and a fusion module is utilized to extract temporal features. Additionally, we have developed a reconstruction benchmark for high-speed low-light scenes. Light sources in the scenes are carefully aligned to real-world conditions. Experimental results demonstrate the superiority of our method, which also generalizes well to real spike streams. Related codes and proposed datasets will be released after publication. | 翻訳日:2024-07-10 02:58:36 公開日:2024-07-08 |
# 可変再生スケッチによる非パラメトリック密度推定
Nonparametric Density Estimation via Variance-Reduced Sketching ( http://arxiv.org/abs/2401.11646v2 ) ライセンス: Link先を確認 | Yifan Peng, Yuehaw Khoo, Daren Wang, | (参考訳) 非パラメトリック密度モデルは、様々な科学や工学の分野において大きな関心を集めている。
古典密度カーネル法は、低次元設定では数値的に堅牢で統計的に健全であるが、次元性の呪いによって中程度の高次元設定でも不十分となる。
本稿では,多変量密度関数を次元の呪いを減らして推定することを目的とした,Variance-Reduced Sketching (VRS) という新しいフレームワークを提案する。
本フレームワークは,無限大行列として多変数関数を概念化し,数値線形代数文学に動機づけられた新しいスケッチ手法を導入し,密度推定問題の分散を低減する。
シミュレーション実験と実世界のデータアプリケーションによるVRSの堅牢な数値性能を実証する。
特に、VRSは、多数の密度モデルにおいて、既存のニューラルネットワーク推定器や古典的なカーネルメソッドよりも顕著に改善されている。
さらに,VRSが非パラメトリック密度推定を実現するための理論的正当性も提供し,次元の呪いを減らした。
Nonparametric density models are of great interest in various scientific and engineering disciplines. Classical density kernel methods, while numerically robust and statistically sound in low-dimensional settings, become inadequate even in moderate higher-dimensional settings due to the curse of dimensionality. In this paper, we introduce a new framework called Variance-Reduced Sketching (VRS), specifically designed to estimate multivariable density functions with a reduced curse of dimensionality. Our framework conceptualizes multivariable functions as infinite-size matrices, and facilitates a new sketching technique motivated by numerical linear algebra literature to reduce the variance in density estimation problems. We demonstrate the robust numerical performance of VRS through a series of simulated experiments and real-world data applications. Notably, VRS shows remarkable improvement over existing neural network estimators and classical kernel methods in numerous density models. Additionally, we offer theoretical justifications for VRS to support its ability to deliver nonparametric density estimation with a reduced curse of dimensionality. | 翻訳日:2024-07-10 02:58:36 公開日:2024-07-08 |
# ジョブショップスケジューリング問題の自己ラベル化
Self-Labeling the Job Shop Scheduling Problem ( http://arxiv.org/abs/2401.11849v2 ) ライセンス: Link先を確認 | Andrea Corsini, Angelo Porrello, Simone Calderara, Mauro Dell'Amico, | (参考訳) 本研究では,組合せ問題に特化して設計されたセルフ・スーパーバイザード・トレーニング戦略を提案する。
このような問題に教師付きパラダイムを適用する際の大きな障害の1つは、高額な目標解の要求である。
半教師学習と自己学習から着想を得た結果,複数の解をサンプリングし,問題の目的に応じて最適な解を擬似ラベルとして使用することにより,生成モデルの訓練が容易であることが示唆された。
このようにして、自己超越のみに頼ってモデル生成能力を反復的に改善し、最適性情報の必要性を完全に排除する。
強化学習コミュニティから多くの注目を集めている複雑な組合せ問題であるジョブショップスケジューリング(JSP)における、このセルフラベル戦略の有効性を実証する。
本稿では,よく知られたポインタネットワークに基づく生成モデルを提案し,我々の戦略で学習する。
人気のあるベンチマークの実験では、JSPのモデルが建設的ヒューリスティックスと現在の最先端の学習提案を上回り、このアプローチの可能性を実証している。
In this work, we propose a Self-Supervised training strategy specifically designed for combinatorial problems. One of the main obstacles in applying supervised paradigms to such problems is the requirement of expensive target solutions as ground-truth, often produced with costly exact solvers. Inspired by Semi- and Self-Supervised learning, we show that it is possible to easily train generative models by sampling multiple solutions and using the best one according to the problem objective as a pseudo-label. In this way, we iteratively improve the model generation capability by relying only on its self-supervision, completely removing the need for optimality information. We prove the effectiveness of this Self-Labeling strategy on the Job Shop Scheduling (JSP), a complex combinatorial problem that is receiving much attention from the Reinforcement Learning community. We propose a generative model based on the well-known Pointer Network and train it with our strategy. Experiments on popular benchmarks demonstrate the potential of this approach as the resulting models outperform constructive heuristics and current state-of-the-art learning proposals for the JSP. | 翻訳日:2024-07-10 02:48:51 公開日:2024-07-08 |
# ディープニューラルネットワークを用いたマルチセルグラフからの学習ダイナミクス
Learning Dynamics from Multicellular Graphs with Deep Neural Networks ( http://arxiv.org/abs/2401.12196v2 ) ライセンス: Link先を確認 | Haiqian Yang, Florian Meyer, Shaoxun Huang, Liu Yang, Cristiana Lungu, Monilola A. Olayioye, Markus J. Buehler, Ming Guo, | (参考訳) 機能構造への多細胞自己組み立ては、胚の発生、臓器形成、腫瘍の浸潤など、発達と疾患に重要な動的なプロセスである。
静的な構成から集合細胞の移動力学を推測できることは、これらの複雑なプロセスの理解と予測の両方に有用である。
しかし、多細胞運動を示す構造的特徴の同定は困難であり、既存の指標は物理的本能に大きく依存している。
ここでは、グラフニューラルネットワーク(GNN)を用いて、実験と合成の両方のデータセットにおいて、細胞位置の静的スナップショットから、多細胞集団の動きを推定できることを示す。
Multicellular self-assembly into functional structures is a dynamic process that is critical in the development and diseases, including embryo development, organ formation, tumor invasion, and others. Being able to infer collective cell migratory dynamics from their static configuration is valuable for both understanding and predicting these complex processes. However, the identification of structural features that can indicate multicellular motion has been difficult, and existing metrics largely rely on physical instincts. Here we show that using a graph neural network (GNN), the motion of multicellular collectives can be inferred from a static snapshot of cell positions, in both experimental and synthetic datasets. | 翻訳日:2024-07-10 02:48:51 公開日:2024-07-08 |
# 積分可能量子回路における強零モード
Strong zero modes in integrable quantum circuits ( http://arxiv.org/abs/2401.12305v3 ) ライセンス: Link先を確認 | Eric Vernier, Hsiu-Chung Yeh, Lorenzo Piroli, Aditi Mitra, | (参考訳) ある種の相互作用可能な可積分スピン鎖が強零モード(SZMs)として知られる堅牢なエッジモードをホストすることは古典的な結果である。
本研究では、この結果を局所量子回路のフロケ設定に拡張し、XXZハイゼンベルクスピンチェインの進化のための可積分トロッター化を提供する原型モデルに焦点をあてる。
積分可能性の代数的構造を利用して、パラメータ空間の特定の領域における積分可能量子回路に対して正確なSZM演算子を構築することができることを示す。
連続時間極限においてポール・フェンドリーがよく知られた結果を回復する我々の構成は、可積分性から知られている可換移動行列の集合に依存し、正規化可視性を含むSZMの重要な性質を容易に証明することができる。
我々のアプローチは以前の方法と異なり、ハミルトニアンの設定においても独立した関心を持つことができる。
我々の予測は、無限温度自己相関関数の数値シミュレーションによって裏付けられているが、利用可能な量子プラットフォーム上でのXXZ量子回路の実装には、潜在的に興味深い。
It is a classic result that certain interacting integrable spin chains host robust edge modes known as strong zero modes (SZMs). In this work, we extend this result to the Floquet setting of local quantum circuits, focusing on a prototypical model providing an integrable Trotterization for the evolution of the XXZ Heisenberg spin chain. By exploiting the algebraic structures of integrability, we show that an exact SZM operator can be constructed for these integrable quantum circuits in certain regions of parameter space. Our construction, which recovers a well-known result by Paul Fendley in the continuous-time limit, relies on a set of commuting transfer matrices known from integrability, and allows us to easily prove important properties of the SZM, including normalizabilty. Our approach is different from previous methods and could be of independent interest even in the Hamiltonian setting. Our predictions, which are corroborated by numerical simulations of infinite-temperature autocorrelation functions, are potentially interesting for implementations of the XXZ quantum circuit on available quantum platforms. | 翻訳日:2024-07-10 02:48:51 公開日:2024-07-08 |
# AIによる医学におけるバーチャルリアリティ:総合的な調査
AI-Enhanced Virtual Reality in Medicine: A Comprehensive Survey ( http://arxiv.org/abs/2402.03093v2 ) ライセンス: Link先を確認 | Yixuan Wu, Kaiyuan Hu, Danny Z. Chen, Jian Wu, | (参考訳) コンピュータグラフィックスと人工知能技術の急速な進歩により、私たちが世界と対話する方法は変革的な変化を遂げた。
人工知能(AI)が支援するVR(Virtual Reality)技術は、ユーザに対して没入感のあるエクスペリエンスを提供するというメリットのおかげで、複数のアプリケーション領域において、主要なインタラクションメディアとして登場した。
これらの応用の中で、医学は最も有望な分野の1つであると考えられている。
本稿では,医療・サービスにおけるAIによるVR応用の急成長分野を包括的に検討する。
体系的な分類法を導入することで、関連する技術と応用を、可視化強化、VR関連医療データ処理、VR支援インターベンションという、診断と治療の異なるフェーズに基づいて、明確に3つのカテゴリに分類する。
この分類は、医療領域でAIによって駆動されるVRが果たす様々な役割を構造化した探索を可能にし、これらの技術のより包括的な理解と評価のためのフレームワークを提供する。
われわれの知る限りでは、医療現場におけるAIを利用したVRシステムの体系的な調査はこれが初めてであり、この学際分野における将来の研究の基盤となる。
With the rapid advance of computer graphics and artificial intelligence technologies, the ways we interact with the world have undergone a transformative shift. Virtual Reality (VR) technology, aided by artificial intelligence (AI), has emerged as a dominant interaction media in multiple application areas, thanks to its advantage of providing users with immersive experiences. Among those applications, medicine is considered one of the most promising areas. In this paper, we present a comprehensive examination of the burgeoning field of AI-enhanced VR applications in medical care and services. By introducing a systematic taxonomy, we meticulously classify the pertinent techniques and applications into three well-defined categories based on different phases of medical diagnosis and treatment: Visualization Enhancement, VR-related Medical Data Processing, and VR-assisted Intervention. This categorization enables a structured exploration of the diverse roles that AI-powered VR plays in the medical domain, providing a framework for a more comprehensive understanding and evaluation of these technologies. To our best knowledge, this is the first systematic survey of AI-powered VR systems in medical settings, laying a foundation for future research in this interdisciplinary domain. | 翻訳日:2024-07-10 02:48:51 公開日:2024-07-08 |
# 不変幾何学的深層学習モデルの完全性について
On the Completeness of Invariant Geometric Deep Learning Models ( http://arxiv.org/abs/2402.04836v2 ) ライセンス: Link先を確認 | Zian Li, Xiyuan Wang, Shijia Kang, Muhan Zhang, | (参考訳) 幾何学的深層学習モデルの1つの重要なクラスである不変モデルは、点雲における情報的幾何学的特徴を活用することによって意味のある幾何学的表現を生成することができる。
これらのモデルは、その単純さ、優れた実験結果、計算効率によって特徴づけられる。
しかし、それらの理論的な表現力はいまだに不明であり、そのようなモデルの可能性の深い理解を制限している。
本研究では、幅広い不変モデルの理論的表現性を特徴づけることに集中する。
まず、距離を組み込んだメッセージパスニューラルネットワーク(DisGNN)という、最も古典的な不変モデルの表現性を厳密に拘束し、その不特定ケースを高度に対称な点雲に限定する。
次に、最も単純なグラフグラフニューラルネットワーク(サブグラフGNN)の幾何学的対応であるGeoNGNNが、これらのコーナーケースの対称性を効果的に破壊し、E(3)完全性を達成することを示す。
GeoNGNNを理論的ツールとして活用することにより、さらにそれを証明します。
1) 従来のグラフ学習で開発されたほとんどのグラフGNNは、E(3)完全性を持つ幾何学的シナリオにシームレスに拡張できる。
2) DimeNet,GemNet,SphereNetの3つのよく確立された不変モデルもまたE(3)完全性を達成することができる。
我々の理論的結果は不変モデルの理論的パワーのギャップを埋め、その能力の厳密で包括的な理解に寄与する。
また,我々が確立した大規模E(3)完全族の中で最も単純なモデルであるGeoNGNNを実証的に評価し,分子関連タスクにおける高次不変/等変表現に依存するモデルに対する競合的な結果を得た。
Invariant models, one important class of geometric deep learning models, are capable of generating meaningful geometric representations by leveraging informative geometric features in point clouds. These models are characterized by their simplicity, good experimental results and computational efficiency. However, their theoretical expressive power still remains unclear, restricting a deeper understanding of the potential of such models. In this work, we concentrate on characterizing the theoretical expressiveness of a wide range of invariant models. We first rigorously bound the expressiveness of the most classic invariant model, message-passing neural networks incorporating distance (DisGNN), restricting its unidentifiable cases to be only highly symmetric point clouds. We then show that GeoNGNN, the geometric counterpart of one of the simplest subgraph graph neural networks (subgraph GNNs), can effectively break these corner cases' symmetry and thus achieve E(3)-completeness. By leveraging GeoNGNN as a theoretical tool, we further prove that: 1) most subgraph GNNs developed in traditional graph learning can be seamlessly extended to geometric scenarios with E(3)-completeness; 2) DimeNet, GemNet and SphereNet, three well-established invariant models, are also all capable of achieving E(3)-completeness. Our theoretical results fill the gap in the theoretical power of invariant models, contributing to a rigorous and comprehensive understanding of their capabilities. We also empirically evaluated GeoNGNN, the simplest model within the large E(3)-complete family we established, which achieves competitive results to models relying on high-order invariant/equivariant representations on molecule-relevant tasks. | 翻訳日:2024-07-10 02:48:51 公開日:2024-07-08 |
# 条件情報ゲイントレリス
Conditional Information Gain Trellis ( http://arxiv.org/abs/2402.08345v2 ) ライセンス: Link先を確認 | Ufuk Can Bicici, Tuna Han Salih Meral, Lale Akarun, | (参考訳) 条件計算は、ニューラルネットワークの計算ユニットの一部のみを使用して入力を処理する。
個々のサンプルをルーティングすることで、ディープ畳み込みネットワークの一部を実行することを学ぶことには、いくつかの利点がある。
さらに、類似したクラスが同じ経路にルーティングされると、ネットワークの一部がより微細な違いとより良い分類精度の区別を学習し、より少ないパラメータで達成できる。
最近、いくつかの論文がこのアイデアを利用して、木のようなネットワーク内のノードの特定の子をつかむか、ネットワークの一部をスキップする。
本研究では、深層畳み込みニューラルネットワークにおいて、特定の実行パスを生成するトレリスに基づくアプローチに従う。
我々は,情報ゲインに基づくコスト関数を用いて,畳み込み層のどのサブセットが実行されるかを決定するルーティング機構を設計した。
本研究では,条件情報ゲイントレリス (CIGT) と呼ぶ。
条件付き実行機構は,計算資源のごく一部を用いて,非条件付きベースラインと比較して,同等あるいは優れたモデル性能を実現することを示す。
Conditional computing processes an input using only part of the neural network's computational units. Learning to execute parts of a deep convolutional network by routing individual samples has several advantages: Reducing the computational burden is an obvious advantage. Furthermore, if similar classes are routed to the same path, that part of the network learns to discriminate between finer differences and better classification accuracies can be attained with fewer parameters. Recently, several papers have exploited this idea to take a particular child of a node in a tree-shaped network or to skip parts of a network. In this work, we follow a Trellis-based approach for generating specific execution paths in a deep convolutional neural network. We have designed routing mechanisms that use differentiable information gain-based cost functions to determine which subset of features in a convolutional layer will be executed. We call our method Conditional Information Gain Trellis (CIGT). We show that our conditional execution mechanism achieves comparable or better model performance compared to unconditional baselines, using only a fraction of the computational resources. | 翻訳日:2024-07-10 02:38:52 公開日:2024-07-08 |
# 大規模言語モデルの敵対的能力を探る
Exploring the Adversarial Capabilities of Large Language Models ( http://arxiv.org/abs/2402.09132v4 ) ライセンス: Link先を確認 | Lukas Struppek, Minh Hieu Le, Dominik Hintersdorf, Kristian Kersting, | (参考訳) 大規模言語モデル(LLM)の普及は、言語生成能力の強大さにより、広く一般に関心を集め、産業と研究の両方に大きな可能性を秘めている。
以前の研究では、LLMのセキュリティとプライバシの問題を掘り下げたものの、これらのモデルが敵対行動を示す程度は、まだ明らかにされていない。
このギャップに対処するために、一般のLLMは、テキストサンプルを摂動して安全対策を騙す能力を持っているかどうか、いわゆる逆例(resp)について検討する。
攻撃。
より具体的には、LLMが本来、既存の安全レールを騙すために良質なサンプルから敵の例を作ることができるかどうかを考察する。
我々の実験は、ヘイトスピーチ検出に焦点をあて、LLMが敵の摂動を見つけることに成功し、ヘイトスピーチ検出システムを効果的に損なうことを示した。
本研究は, LLMに依存する半自律システムに重要な意味を持ち, 既存のシステムとの相互作用や安全性対策の潜在的な課題を浮き彫りにしている。
The proliferation of large language models (LLMs) has sparked widespread and general interest due to their strong language generation capabilities, offering great potential for both industry and research. While previous research delved into the security and privacy issues of LLMs, the extent to which these models can exhibit adversarial behavior remains largely unexplored. Addressing this gap, we investigate whether common publicly available LLMs have inherent capabilities to perturb text samples to fool safety measures, so-called adversarial examples resp.~attacks. More specifically, we investigate whether LLMs are inherently able to craft adversarial examples out of benign samples to fool existing safe rails. Our experiments, which focus on hate speech detection, reveal that LLMs succeed in finding adversarial perturbations, effectively undermining hate speech detection systems. Our findings carry significant implications for (semi-)autonomous systems relying on LLMs, highlighting potential challenges in their interaction with existing systems and safety measures. | 翻訳日:2024-07-10 02:38:52 公開日:2024-07-08 |
# 基礎モデルを用いた複雑なロボット指導の検証
Verifiably Following Complex Robot Instructions with Foundation Models ( http://arxiv.org/abs/2402.11498v2 ) ライセンス: Link先を確認 | Benedict Quartey, Eric Rosen, Stefanie Tellex, George Konidaris, | (参考訳) 複雑な自然言語命令に従うための移動ロボットの開発は、重要な課題だが難しい問題だ。
人々は、柔軟に制約を表現し、任意のランドマークを参照し、ロボットに指示する際の行動を検証することを望んでいます。
逆に、ロボットは人間の指示を、現実世界の仕様や接地的指示にあいまいにする必要がある。
本研究では,ロボットが事前に構築されたセマンティックマップを使わずに,実環境における表現的かつ複雑なオープンエンド命令を確実に追従できる手法であるLIMP(Language Instruction Grounding for Motion Planning)を提案する。
LIMPは、インストラクターの意図するモチベーションとロボットのアライメントを明らかにする象徴的な指示表現を構築し、コンストラクションによって正しいロボットの動作を合成する。
大規模評価を行い,本手法の汎用性と新規な非構造ドメインへの展開容易性を示す実世界の5つの環境において,150の命令に対するアプローチを実証する。
我々の実験では、LIMPは最先端のLLMタスクプランナと標準オープン語彙タスクのLLMコード記述プランナと互換性があり、さらに複雑な時空間命令で79倍の成功率を達成する一方、LLMとコード記述プランナは38倍を達成する。
補足資料とデモビデオはhttps://robotlimp.github.ioで見ることができる。
Enabling mobile robots to follow complex natural language instructions is an important yet challenging problem. People want to flexibly express constraints, refer to arbitrary landmarks and verify behavior when instructing robots. Conversely, robots must disambiguate human instructions into specifications and ground instruction referents in the real world. We propose Language Instruction grounding for Motion Planning (LIMP), an approach that enables robots to verifiably follow expressive and complex open-ended instructions in real-world environments without prebuilt semantic maps. LIMP constructs a symbolic instruction representation that reveals the robot's alignment with an instructor's intended motives and affords the synthesis of robot behaviors that are correct-by-construction. We perform a large scale evaluation and demonstrate our approach on 150 instructions in five real-world environments showing the generality of our approach and the ease of deployment in novel unstructured domains. In our experiments, LIMP performs comparably with state-of-the-art LLM task planners and LLM code-writing planners on standard open vocabulary tasks and additionally achieves 79\% success rate on complex spatiotemporal instructions while LLM and Code-writing planners both achieve 38\%. See supplementary materials and demo videos at https://robotlimp.github.io | 翻訳日:2024-07-10 02:38:52 公開日:2024-07-08 |
# ツイーザークロックの普遍量子演算とアンシラによる読み出し
Universal quantum operations and ancilla-based readout for tweezer clocks ( http://arxiv.org/abs/2402.16220v2 ) ライセンス: Link先を確認 | Ran Finkelstein, Richard Bing-Shiun Tsai, Xiangkai Sun, Pascal Scholl, Su Direkci, Tuvia Gefen, Joonhee Choi, Adam L. Shaw, Manuel Endres, | (参考訳) 絡み合いを利用して測定の精度を高めることは、量子力学の分野における長年の目標である。
しかし、ノイズの存在下で量子理論が許容する最高の感度を達成することは、最適なプローブ状態の生成と読み出し戦略を必要とする、顕著な課題である。
時間を測定するための主要なシステムである中性原子光時計は、近年の絡み合い発生の進展を示すが、現在ではそのようなスキームを実現するための制御能力が欠如している。
ここでは、中性原子の超狭光遷移に対する普遍量子演算とアンシラに基づく読み出しを示す。
ツイーザー・クロック・プラットフォームにおける我々の実証は、中性原子光時計を用いた量子力学への回路ベースのアプローチを可能にする。
この目的のために、Rydberg相互作用による99.62%の忠実度を持つ2量子エンタングルゲートと光クロックキュービットの動的接続を実証し、ローカルアドレスと組み合わせ、普遍的にプログラム可能な量子回路を実装した。
このアプローチを用いることで,グリーンベルガー・ホルン・ザイリンガー状態(GHZ)のカスケードである近接最適絡み合ったプローブ状態を生成し,2つの四角形GHZ読み出しを行う。
また、中性原子に対してアンシラ型量子論理分光法(QLS)を実装することにより、クロック量子ビットの非破壊的条件リセットと繰り返し間のデッドタイムを最小限に抑えた高速位相検出を繰り返すことを示した。
最後に、これをマルチキュービットパリティチェックに拡張し、測定に基づく、Heralded, Bell状態の準備を行う。
我々の研究は、中性原子を持つハイブリッドプロセッサクロックデバイスの基礎を築き、より一般的には量子センサーにリンクされた量子プロセッサの実用的な応用の可能性を示唆している。
Enhancing the precision of measurements by harnessing entanglement is a long-sought goal in the field of quantum metrology. Yet attaining the best sensitivity allowed by quantum theory in the presence of noise is an outstanding challenge, requiring optimal probe-state generation and readout strategies. Neutral atom optical clocks, leading systems for measuring time, have shown recent progress in terms of entanglement generation, but currently lack the control capabilities to realize such schemes. Here we show universal quantum operations and ancilla-based readout for ultranarrow optical transitions of neutral atoms. Our demonstration in a tweezer clock platform enables a circuit-based approach to quantum metrology with neutral atom optical clocks. To this end, we demonstrate two-qubit entangling gates with 99.62% fidelity via Rydberg interactions and dynamical connectivity for optical clock qubits, which we combine with local addressing to implement universally programmable quantum circuits. Using this approach, we generate a near-optimal entangled probe state, a cascade of Greenberger-Horne-Zeilinger (GHZ) states of different sizes, and perform dual-quadrature GHZ readout. We also show repeated fast phase detection with non-destructive conditional reset of clock qubits and minimal dead time between repetitions by implementing ancilla-based quantum logic spectroscopy (QLS) for neutral atoms. Finally, we extend this to multi-qubit parity checks and measurement-based, heralded, Bell state preparation. Our work lays the foundation for hybrid processor-clock devices with neutral atoms and more generally points to a future of practical applications for quantum processors linked with quantum sensors. | 翻訳日:2024-07-10 02:29:06 公開日:2024-07-08 |
# DOZE:動的環境におけるオープンボキャブラリゼロショットオブジェクトナビゲーション用データセット
DOZE: A Dataset for Open-Vocabulary Zero-Shot Object Navigation in Dynamic Environments ( http://arxiv.org/abs/2402.19007v2 ) ライセンス: Link先を確認 | Ji Ma, Hongming Dai, Yao Mu, Pengying Wu, Hao Wang, Xiaowei Chi, Yang Fei, Shanghang Zhang, Chang Liu, | (参考訳) Zero-Shot Object Navigation(ZSON)では、エージェントが未知のオブジェクトを未知の環境で自律的に見つけてアプローチする必要がある。
既存のZSONアルゴリズムのためのデータセットでは、動的な障害、オブジェクト属性の多様性、シーンテキストが考慮されていないため、現実の状況と顕著な相違が見られる。
これらの課題に対処するために,複雑な動的現実のシナリオを模倣することを目的とした,10以上の高忠実度3Dシーンからなるオープンボキャブラリゼロショットオブジェクトナビゲーション(DOZE)のデータセットを提案する。
特にDOZEシーンは、複数の動くヒューマノイド障害物、幅広いオープン語彙オブジェクト、多様な異なる属性オブジェクト、貴重なテキストヒントを特徴としている。
さらに,エージェントと静的障害物の衝突チェックのみを提供する既存のデータセットとは異なり,エージェントと移動障害物の衝突を検出する機能を統合することで,DOZEを強化する。
この新機能により、動的環境におけるエージェントの衝突回避能力の評価が可能となる。
DOZE上で4つの代表的ZSON手法を試験し,ナビゲーション効率,安全性,物体認識精度に関する既存手法の改善点を明らかにした。
データセットはhttps://DOZE-Dataset.github.io/で確認できます。
Zero-Shot Object Navigation (ZSON) requires agents to autonomously locate and approach unseen objects in unfamiliar environments and has emerged as a particularly challenging task within the domain of Embodied AI. Existing datasets for developing ZSON algorithms lack consideration of dynamic obstacles, object attribute diversity, and scene texts, thus exhibiting noticeable discrepancies from real-world situations. To address these issues, we propose a Dataset for Open-Vocabulary Zero-Shot Object Navigation in Dynamic Environments (DOZE) that comprises ten high-fidelity 3D scenes with over 18k tasks, aiming to mimic complex, dynamic real-world scenarios. Specifically, DOZE scenes feature multiple moving humanoid obstacles, a wide array of open-vocabulary objects, diverse distinct-attribute objects, and valuable textual hints. Besides, different from existing datasets that only provide collision checking between the agent and static obstacles, we enhance DOZE by integrating capabilities for detecting collisions between the agent and moving obstacles. This novel functionality enables the evaluation of the agents' collision avoidance abilities in dynamic environments. We test four representative ZSON methods on DOZE, revealing substantial room for improvement in existing approaches concerning navigation efficiency, safety, and object recognition accuracy. Our dataset can be found at https://DOZE-Dataset.github.io/. | 翻訳日:2024-07-10 02:29:06 公開日:2024-07-08 |
# 中間エンコーダブロックからの合成画像検出のためのレバレッジ表現
Leveraging Representations from Intermediate Encoder-blocks for Synthetic Image Detection ( http://arxiv.org/abs/2402.19091v2 ) ライセンス: Link先を確認 | Christos Koutlis, Symeon Papadopoulos, | (参考訳) 最近開発され、公開されている合成画像生成手法とサービスは、オンデマンドで極めてリアルな画像を作成することができ、オンライン情報の完全性と安全性に大きなリスクを生じさせる。
SID(State-of-the-art Synthetic Image Detection)研究は、基礎モデルからの特徴抽出の利点を強く証明している。
しかし、これらの抽出機能は、SIDタスクにおいてより重要となる細部ではなく、主に高レベルの視覚的意味論をカプセル化する。
逆に、浅い層は低レベルの視覚情報をエンコードする。
本研究では,CLIPのイメージエンコーダの中間トランスフォーマーブロックから抽出した画像表現を,学習可能なフォージェリ対応ベクトル空間にマップする軽量ネットワークを用いて活用する。
また、各Transformerブロックの重要性を最終的な予測に組み込むために、トレーニング可能なモジュールも使用しています。
本手法は,20個のテストデータセットで評価し,平均+10.6%の絶対性能向上を示すことにより,最先端の手法と比較した。
特に、最高のパフォーマンスモデルは、トレーニングのためにたった1つのエポック(約8分)を必要とします。
コードはhttps://github.com/mever-team/rine.comで公開されている。
The recently developed and publicly available synthetic image generation methods and services make it possible to create extremely realistic imagery on demand, raising great risks for the integrity and safety of online information. State-of-the-art Synthetic Image Detection (SID) research has led to strong evidence on the advantages of feature extraction from foundation models. However, such extracted features mostly encapsulate high-level visual semantics instead of fine-grained details, which are more important for the SID task. On the contrary, shallow layers encode low-level visual information. In this work, we leverage the image representations extracted by intermediate Transformer blocks of CLIP's image-encoder via a lightweight network that maps them to a learnable forgery-aware vector space capable of generalizing exceptionally well. We also employ a trainable module to incorporate the importance of each Transformer block to the final prediction. Our method is compared against the state-of-the-art by evaluating it on 20 test datasets and exhibits an average +10.6% absolute performance improvement. Notably, the best performing models require just a single epoch for training (~8 minutes). Code available at https://github.com/mever-team/rine. | 翻訳日:2024-07-10 02:29:06 公開日:2024-07-08 |
# VisionLLaMA: ビジョンタスク用の統一LLaMAバックボーン
VisionLLaMA: A Unified LLaMA Backbone for Vision Tasks ( http://arxiv.org/abs/2403.00522v2 ) ライセンス: Link先を確認 | Xiangxiang Chu, Jianlin Su, Bo Zhang, Chunhua Shen, | (参考訳) 大規模な言語モデルは、テキスト入力を処理するトランスフォーマーベースのアーキテクチャの上に構築されている。
例えば、LLaMAは多くのオープンソース実装の中でも際立っている。
同じトランスを使って2D画像を処理できますか?
本稿では,LLaMAライクな視覚変換器を平面およびピラミッド形状で発表し,その目的に合わせた視覚変換器であるVisionLLaMAについて述べる。
VisionLLaMAは、ほとんどのビジョンタスクを解決するための統一的で汎用的なモデリングフレームワークである。
本稿では,画像認識,特に画像生成における下流タスクの大部分において,典型的な事前学習パラダイムを用いて,その効果を広く評価する。
多くの場合、VisionLLaMAは以前の最先端のビジョントランスよりも大幅に向上している。
VisionLLaMAは、視覚生成と理解のための強力なベースラインモデルとして機能すると考えています。
私たちのコードはhttps://github.com/Meituan-AutoML/VisionLLaMAで公開されています。
Large language models are built on top of a transformer-based architecture to process textual inputs. For example, the LLaMA stands out among many open-source implementations. Can the same transformer be used to process 2D images? In this paper, we answer this question by unveiling a LLaMA-like vision transformer in plain and pyramid forms, termed VisionLLaMA, which is tailored for this purpose. VisionLLaMA is a unified and generic modelling framework for solving most vision tasks. We extensively evaluate its effectiveness using typical pre-training paradigms in a good portion of downstream tasks of image perception and especially image generation. In many cases, VisionLLaMA have exhibited substantial gains over the previous state-of-the-art vision transformers. We believe that VisionLLaMA can serve as a strong new baseline model for vision generation and understanding. Our code is released at https://github.com/Meituan-AutoML/VisionLLaMA. | 翻訳日:2024-07-10 02:29:06 公開日:2024-07-08 |
# 量子アニール法によるポートフォリオ最適化のための多種多様な手法の比較解析
Comparative analysis of diverse methodologies for portfolio optimization leveraging quantum annealing techniques ( http://arxiv.org/abs/2403.02599v3 ) ライセンス: Link先を確認 | Zhijie Tang, Alex Lu Dou, Arit Kumar Bishwas, | (参考訳) ポートフォリオ最適化(PO)は、投資目標達成を支援するために金融サービスに広く採用されている。
最適な資産配分を提供することで、POは投資に関連するリスクとリターンを効果的にバランスさせる。
しかし、関連する資産や制約の数が増えるにつれて、ポートフォリオ最適化の問題がますます解決しにくくなり、NPハード問題に陥ることに注意する必要がある。
このようなシナリオでは、モンテカルロ法のような古典的なアルゴリズムは、ポートフォリオの在庫数が増加すると、この問題に対処する際の限界を示す。
量子アニールアルゴリズムは、NISQ時代の複雑なポートフォリオ最適化問題の解決を約束する。
多くの研究は、標準的な量子アニール法よりも様々な量子アニールアルゴリズムの利点を実証している。
本研究では,ランダムに生成した単一周期離散平均分散ポートフォリオ最適化インスタンスの数値的な検討を行う。
本稿では, 前方熱処理と逆熱処理の両方のスケジュールを用いて, 様々な非従来型量子アニールアルゴリズムの適用について検討する。
提案手法は,TTS(Time-to-Solution)と様々なアプローチによる成功確率を比較することで,従来の前方熱処理スケジュールを利用する場合の成功確率を高める利点を示す。
さらに, 逆アニール方式の実装により, 選択された非従来型量子アニールアルゴリズムの性能が大幅に向上することが判明した。
Portfolio optimization (PO) is extensively employed in financial services to assist in achieving investment objectives. By providing an optimal asset allocation, PO effectively balances the risk and returns associated with investments. However, it is important to note that as the number of involved assets and constraints increases, the portfolio optimization problem can become increasingly difficult to solve, falling into the category of NP-hard problems. In such scenarios, classical algorithms, such as the Monte Carlo method, exhibit limitations in addressing this challenge when the number of stocks in the portfolio grows. Quantum annealing algorithm holds promise for solving complex portfolio optimization problems in the NISQ era. Many studies have demonstrated the advantages of various quantum annealing algorithm variations over the standard quantum annealing approach. In this work, we conduct a numerical investigation of randomly generated unconstrained single-period discrete mean-variance portfolio optimization instances. We explore the application of a variety of unconventional quantum annealing algorithms, employing both forward annealing and reverse annealing schedules. By comparing the time-to-solution(TTS) and success probabilities of diverse approaches, we show that certain methods exhibit advantages in enhancing the success probability when utilizing conventional forward annealing schedules. Furthermore, we find that the implementation of reverse annealing schedules can significantly improve the performance of select unconventional quantum annealing algorithms. | 翻訳日:2024-07-10 02:29:06 公開日:2024-07-08 |
# 効率的なX線新規合成のための放射型ガウス散乱
Radiative Gaussian Splatting for Efficient X-ray Novel View Synthesis ( http://arxiv.org/abs/2403.04116v2 ) ライセンス: Link先を確認 | Yuanhao Cai, Yixun Liang, Jiahao Wang, Angtian Wang, Yulun Zhang, Xiaokang Yang, Zongwei Zhou, Alan Yuille, | (参考訳) X線は、自然光よりも強い透過性のため、透過イメージングに広く応用されている。
新しいビューX線投影を描画する場合、NeRFを主とする既存の手法は、長いトレーニング時間と遅い推論速度に悩まされる。
本稿では,X線ノベルビュー合成のための3次元ガウススティングに基づくフレームワーク,すなわちX-ガウスアンを提案する。
まず、X線イメージングの等方性に着想を得た放射型ガウス点雲モデルを再設計する。
本モデルでは,3次元点の放射強度を学習する際の視線方向の影響を除外する。
このモデルに基づいて、CUDA実装による微分可能放射ラスタライズ(DRR)を開発する。
次に、X線スキャナーのパラメータを直接利用してカメラ情報を計算し、スキャン対象を囲む立方体内の点位置を均一にサンプリングするアングル型立方体初期化(ACUI)戦略をカスタマイズする。
実験の結果,X-Gaussianは6.5dBの最先端手法より優れており,トレーニング時間は15%未満であり,推論速度は73倍であることがわかった。
Sparse-view CT 再構成への応用は,本手法の実用的価値も明らかにする。
コードはhttps://github.com/caiyuanhao1998/X-Gaussianで公開されている。
トレーニングプロセスの視覚化のビデオデモはhttps://www.youtube.com/watch?
v=gDVf_Ngeghg。
X-ray is widely applied for transmission imaging due to its stronger penetration than natural light. When rendering novel view X-ray projections, existing methods mainly based on NeRF suffer from long training time and slow inference speed. In this paper, we propose a 3D Gaussian splatting-based framework, namely X-Gaussian, for X-ray novel view synthesis. Firstly, we redesign a radiative Gaussian point cloud model inspired by the isotropic nature of X-ray imaging. Our model excludes the influence of view direction when learning to predict the radiation intensity of 3D points. Based on this model, we develop a Differentiable Radiative Rasterization (DRR) with CUDA implementation. Secondly, we customize an Angle-pose Cuboid Uniform Initialization (ACUI) strategy that directly uses the parameters of the X-ray scanner to compute the camera information and then uniformly samples point positions within a cuboid enclosing the scanned object. Experiments show that our X-Gaussian outperforms state-of-the-art methods by 6.5 dB while enjoying less than 15% training time and over 73x inference speed. The application on sparse-view CT reconstruction also reveals the practical values of our method. Code is publicly available at https://github.com/caiyuanhao1998/X-Gaussian . A video demo of the training process visualization is at https://www.youtube.com/watch?v=gDVf_Ngeghg . | 翻訳日:2024-07-10 02:29:06 公開日:2024-07-08 |
# グラフニューラルネットワークのトポロジー認識と一般化性能について
On the Topology Awareness and Generalization Performance of Graph Neural Networks ( http://arxiv.org/abs/2403.04482v2 ) ライセンス: Link先を確認 | Junwei Su, Chuan Wu, | (参考訳) グラフニューラルネットワークがグラフ構造データの表現を学習するための支配的なツールとして登場したグラフ上の学習タスクとして、多くのコンピュータビジョンと機械学習の問題がモデル化されている GNNの重要な特徴は、グラフ固有のトポロジ的特性を活用可能な入力としてグラフ構造を使用することである GNNのトポロジ的認識(topology awareness of GNNs)の実証的な成功にもかかわらず、一般的なパフォーマンスに対するトポロジ的認識の影響はいまだ探索されていない。
Many computer vision and machine learning problems are modelled as learning tasks on graphs where graph neural networks GNNs have emerged as a dominant tool for learning representations of graph structured data A key feature of GNNs is their use of graph structures as input enabling them to exploit the graphs inherent topological properties known as the topology awareness of GNNs Despite the empirical successes of GNNs the influence of topology awareness on generalization performance remains unexplored, particularly for node level tasks that diverge from the assumption of data being independent and identically distributed IID The precise definition and characterization of the topology awareness of GNNs especially concerning different topological features are still unclear This paper introduces a comprehensive framework to characterize the topology awareness of GNNs across any topological feature Using this framework we investigate the effects of topology awareness on GNN generalization performance Contrary to the prevailing belief that enhancing the topology awareness of GNNs is always advantageous our analysis reveals a critical insight improving the topology awareness of GNNs may inadvertently lead to unfair generalization across structural groups which might not be desired in some scenarios Additionally we conduct a case study using the intrinsic graph metric the shortest path distance on various benchmark datasets The empirical results of this case study confirm our theoretical insights Moreover we demonstrate the practical applicability of our framework by using it to tackle the cold start problem in graph active learning | 翻訳日:2024-07-10 02:19:20 公開日:2024-07-08 |
# LLMのチューニング手法は医療マルチモーダル領域で有効か?
Can LLMs' Tuning Methods Work in Medical Multimodal Domain? ( http://arxiv.org/abs/2403.06407v2 ) ライセンス: Link先を確認 | Jiawei Chen, Yue Jiang, Dingkang Yang, Mingcheng Li, Jinjie Wei, Ziyun Qian, Lihua Zhang, | (参考訳) LLM(Large Language Models)は世界の知識理解に優れているが、特定のサブフィールドに適応するには正確な調整が必要である。
モデルが大規模なため、大規模なモデルに対する従来のグローバルな微調整手法は計算コストがかかり、一般化に影響を及ぼす可能性がある。
この課題に対処するために,LLMとLVLM(Large Vision-Language Models)の両分野で,革新的なパラメータ・効率的なファインチューニング(PEFT)手法が出現し,大きな成功を収めている。
医療分野では、特定のタスクに適応するためには、医療ビジョン・ランゲージ事前訓練(VLP)モデルを微調整することが不可欠である。
転帰学習効率を高めるため,大規模モデルの微調整法を医療分野に移行することは可能か?
本稿では, LLMの微調整方法について検討し, トレーニングデータレベルとモデル構造レベルから, 医療領域における既存のマルチモーダルモデルに対する大規模モデルの微調整方法の影響について検討する。
医療用VLMにおける大規模モデルの微調整方法の違いを示し,医療用VLPモデルを微調整する最も効率的な方法を開発した。
本研究は, VLMのトレーニングコストを最適化し, 医療分野におけるVLMの幅広い応用を促進するために, 医療領域の研究者を導くことができることを願っている。
コードとデータセットはhttps://github.com/TIMMY-CHAN/MILEで公開されている。
While Large Language Models (LLMs) excel in world knowledge understanding, adapting them to specific subfields requires precise adjustments. Due to the model's vast scale, traditional global fine-tuning methods for large models can be computationally expensive and impact generalization. To address this challenge, a range of innovative Parameters-Efficient Fine-Tuning (PEFT) methods have emerged and achieved remarkable success in both LLMs and Large Vision-Language Models (LVLMs). In the medical domain, fine-tuning a medical Vision-Language Pretrained (VLP) model is essential for adapting it to specific tasks. Can the fine-tuning methods for large models be transferred to the medical field to enhance transfer learning efficiency? In this paper, we delve into the fine-tuning methods of LLMs and conduct extensive experiments to investigate the impact of fine-tuning methods for large models on the existing multimodal model in the medical domain from the training data level and the model structure level. We show the different impacts of fine-tuning methods for large models on medical VLMs and develop the most efficient ways to fine-tune medical VLP models. We hope this research can guide medical domain researchers in optimizing VLMs' training costs, fostering the broader application of VLMs in healthcare fields. The code and dataset have been released at https://github.com/TIMMY-CHAN/MILE. | 翻訳日:2024-07-10 02:19:20 公開日:2024-07-08 |
# SeSame:ポイントワイズ・セマンティックスによる簡易3Dオブジェクト検出
SeSame: Simple, Easy 3D Object Detection with Point-Wise Semantics ( http://arxiv.org/abs/2403.06501v2 ) ライセンス: Link先を確認 | Hayeon O, Chanuk Yang, Kunsoo Huh, | (参考訳) 自律運転では、3Dオブジェクト検出は2Dオブジェクト検出と比較して、経路計画や動き推定を含む下流タスクに対してより正確な情報を提供する。
本稿では,既存のLiDARのみに基づく3Dオブジェクト検出における意味情報の強化を目的としたセサミを提案する。
これは、主にオブジェクトの存在と分類に焦点を当てた既存の3D検出器の制限に対処するため、セマンティックセグメンテーションに似た、データを構成する要素単位間の関係をキャプチャすることができない。
KITTIオブジェクト検出ベンチマークにおいて,提案手法の有効性を示す実験を行った。
私たちのコードはhttps://github.com/HAMA-DL-dev/SeSameで利用可能です。
In autonomous driving, 3D object detection provides more precise information for downstream tasks, including path planning and motion estimation, compared to 2D object detection. In this paper, we propose SeSame: a method aimed at enhancing semantic information in existing LiDAR-only based 3D object detection. This addresses the limitation of existing 3D detectors, which primarily focus on object presence and classification, thus lacking in capturing relationships between elemental units that constitute the data, akin to semantic segmentation. Experiments demonstrate the effectiveness of our method with performance improvements on the KITTI object detection benchmark. Our code is available at https://github.com/HAMA-DL-dev/SeSame | 翻訳日:2024-07-10 02:19:20 公開日:2024-07-08 |
# ニューラルネットワークにおける条件計算--原理と研究動向
Conditional computation in neural networks: principles and research trends ( http://arxiv.org/abs/2403.07965v2 ) ライセンス: Link先を確認 | Simone Scardapane, Alessandro Baiocchi, Alessio Devoto, Valerio Marsocci, Pasquale Minervini, Jary Pomponi, | (参考訳) 本稿では,ニューラルネットワークの設計に‘textit{conditional compute} メソッドを適用するという,新たな領域の原理とアイデアを要約する。
特に、入力に条件付きで計算グラフの一部を動的に活性化または非活性化するニューラルネットワークに焦点を当てる。
例えば、入力トークン、レイヤ(またはレイヤの集合)、各レイヤ内のサブモジュール(例えば、畳み込みフィルタのチャネル)の動的選択などです。
まず、これらのテクニックを一様に記述する一般的な形式主義を提供する。
次に、これらの原則の注目すべき実装として、Mix-of-experts(MoEs)ネットワーク、トークン選択機構、早期出力ニューラルネットワークの3つを紹介する。
本論文は,この成長分野に関するチュートリアル的な紹介を提供することを目的としている。
この目的のために,これらのモジュール設計の利点を,自動科学的発見から意味コミュニケーションまで,新たな応用分野に焦点をあてて,効率性,説明可能性,伝達学習の観点から分析する。
This article summarizes principles and ideas from the emerging area of applying \textit{conditional computation} methods to the design of neural networks. In particular, we focus on neural networks that can dynamically activate or de-activate parts of their computational graph conditionally on their input. Examples include the dynamic selection of, e.g., input tokens, layers (or sets of layers), and sub-modules inside each layer (e.g., channels in a convolutional filter). We first provide a general formalism to describe these techniques in an uniform way. Then, we introduce three notable implementations of these principles: mixture-of-experts (MoEs) networks, token selection mechanisms, and early-exit neural networks. The paper aims to provide a tutorial-like introduction to this growing field. To this end, we analyze the benefits of these modular designs in terms of efficiency, explainability, and transfer learning, with a focus on emerging applicative areas ranging from automated scientific discovery to semantic communication. | 翻訳日:2024-07-10 02:19:20 公開日:2024-07-08 |
# ガウス画像:1000 FPS画像表現と2次元ガウススプラッティングによる圧縮
GaussianImage: 1000 FPS Image Representation and Compression by 2D Gaussian Splatting ( http://arxiv.org/abs/2403.08551v4 ) ライセンス: Link先を確認 | Xinjie Zhang, Xingtong Ge, Tongda Xu, Dailan He, Yan Wang, Hongwei Qin, Guo Lu, Jing Geng, Jun Zhang, | (参考訳) Inlicit Neural representations (INR)は画像表現と圧縮で大成功を収め、十分なGPUリソースが利用できると仮定して、10-1000 FPSで高画質で高速なレンダリング速度を提供する。
しかし、この要件は、メモリが限られているローエンドデバイスでの使用を妨げることが多い。
そこで本研究では,ガウス画像と2次元ガウス画像による画像表現と圧縮の画期的なパラダイムを提案する。
まず、画像を表すために2D Gaussianを導入し、各 Gaussian は位置、共分散、色を含む8つのパラメータを持つ。
その後、累積和に基づく新しいレンダリングアルゴリズムを公表する。
注目すべきは、最低3$\times$GPUメモリ使用量と5$\times$高速適合時間を持つ手法は、表現性能においてINRs(例えば、WIRE、I-NGP)と競合するだけでなく、パラメータサイズに関係なく1500-2000 FPSの高速レンダリング速度を提供する。
さらに,既存のベクトル量子化手法を統合して画像コーデックを構築する。
実験の結果,コーデックはCOINやCOIN++などの圧縮ベースのINRに匹敵する速度歪み性能を示し,約2000FPSの復号速度を実現している。
さらに、予備的な概念実証では、コーデックが部分ビットバック符号を使用する場合、COINとCOIN++を上回る性能を示している。
コードはhttps://github.com/Xinjie-Q/GaussianImageから入手できる。
Implicit neural representations (INRs) recently achieved great success in image representation and compression, offering high visual quality and fast rendering speeds with 10-1000 FPS, assuming sufficient GPU resources are available. However, this requirement often hinders their use on low-end devices with limited memory. In response, we propose a groundbreaking paradigm of image representation and compression by 2D Gaussian Splatting, named GaussianImage. We first introduce 2D Gaussian to represent the image, where each Gaussian has 8 parameters including position, covariance and color. Subsequently, we unveil a novel rendering algorithm based on accumulated summation. Remarkably, our method with a minimum of 3$\times$ lower GPU memory usage and 5$\times$ faster fitting time not only rivals INRs (e.g., WIRE, I-NGP) in representation performance, but also delivers a faster rendering speed of 1500-2000 FPS regardless of parameter size. Furthermore, we integrate existing vector quantization technique to build an image codec. Experimental results demonstrate that our codec attains rate-distortion performance comparable to compression-based INRs such as COIN and COIN++, while facilitating decoding speeds of approximately 2000 FPS. Additionally, preliminary proof of concept shows that our codec surpasses COIN and COIN++ in performance when using partial bits-back coding. Code is available at https://github.com/Xinjie-Q/GaussianImage. | 翻訳日:2024-07-10 02:19:20 公開日:2024-07-08 |
# 協調型マルチモーダルインタラクションによるビジョンランゲージ事前学習モデルの逆変換性の向上
Improving Adversarial Transferability of Vision-Language Pre-training Models through Collaborative Multimodal Interaction ( http://arxiv.org/abs/2403.10883v2 ) ライセンス: Link先を確認 | Jiyuan Fu, Zhaoyu Chen, Kaixun Jiang, Haijing Guo, Jiafeng Wang, Shuyong Gao, Wenqiang Zhang, | (参考訳) VLP(Vision-Language Pre-training)モデルの大幅な進歩にもかかわらず、敵の攻撃に対する感受性は重大な課題である。
既存の研究は、VLPモデルに対する攻撃の転送可能性を研究することはめったになく、その結果、ホワイトボックス攻撃からかなりのパフォーマンスのギャップが生じる。
我々は,VLPモデルの複雑さを理解する上で重要な役割を担うモダリティ間の相互作用機構を,先行研究が見落としていることを観察する。
そこで本研究では,コラボレーティブ・マルチモーダル・インタラクション・アタック(CMI-Attack)と呼ばれる新たな攻撃手法を提案する。
具体的には、セマンティクスを維持しながら埋め込みレベルでテキストを攻撃し、相互作用画像勾配を利用してテキストや画像の摂動の制約を強化する。
Flickr30Kデータセット上の画像テキスト検索タスクにおいて、CMI-AttackはALBEFからTCL、$\text{CLIP}_{\text{ViT}}$と$\text{CLIP}_{\text{CNN}}$の転送成功率を8.11%-16.75%向上させる。
さらに、CMI-Attackはクロスタスクの一般化シナリオでも優れたパフォーマンスを示している。
我々の研究は、VLPモデルに対するトランスファー攻撃の未解明領域に対処し、対向ロバスト性を高めるためのモダリティ相互作用の重要性に光を当てている。
Despite the substantial advancements in Vision-Language Pre-training (VLP) models, their susceptibility to adversarial attacks poses a significant challenge. Existing work rarely studies the transferability of attacks on VLP models, resulting in a substantial performance gap from white-box attacks. We observe that prior work overlooks the interaction mechanisms between modalities, which plays a crucial role in understanding the intricacies of VLP models. In response, we propose a novel attack, called Collaborative Multimodal Interaction Attack (CMI-Attack), leveraging modality interaction through embedding guidance and interaction enhancement. Specifically, attacking text at the embedding level while preserving semantics, as well as utilizing interaction image gradients to enhance constraints on perturbations of texts and images. Significantly, in the image-text retrieval task on Flickr30K dataset, CMI-Attack raises the transfer success rates from ALBEF to TCL, $\text{CLIP}_{\text{ViT}}$ and $\text{CLIP}_{\text{CNN}}$ by 8.11%-16.75% over state-of-the-art methods. Moreover, CMI-Attack also demonstrates superior performance in cross-task generalization scenarios. Our work addresses the underexplored realm of transfer attacks on VLP models, shedding light on the importance of modality interaction for enhanced adversarial robustness. | 翻訳日:2024-07-10 02:19:20 公開日:2024-07-08 |
# 教育における学習・分析・人工知能の相互作用 : ハイブリッド・インテリジェンスをめざして
The Interplay of Learning, Analytics, and Artificial Intelligence in Education: A Vision for Hybrid Intelligence ( http://arxiv.org/abs/2403.16081v4 ) ライセンス: Link先を確認 | Mutlu Cukurova, | (参考訳) 本稿では,AIと分析,学習プロセスの複雑な相互作用を強調し,学習と教育におけるAIの役割を多次元的に考察する。
ここでは、生成型AIツールに例えるように、AIをツールとして広く普及している狭義の概念化に挑戦し、人間-AIハイブリッドインテリジェンスを達成するために、AIの代替概念化の重要性を論じる。
人間の知能と人工情報処理の違い、人間の認識を拡張するためのハイブリッドな人間-AIシステムの重要性、そしてAIが人間の学習を理解するための道具としても役立つことを強調する。
AIを人間の知能のアナロジーとみなした、初期の学習科学とAI in Education Research (AIED)は、この観点から逸脱し、このつながりを再定義する必要が生じた。
本稿では、人間の認知の外部化、人間のメンタルモデルに影響を与えるAIモデルの内部化、密結合された人間とAIハイブリッドインテリジェンスシステムによる人間の認知の拡張という、AIのユニークな概念化について述べる。
現在の研究では、教育における3つの概念化の事例として、教育における各概念化の潜在的な価値と限界、および人間の認知の外部化に対する過度の強調について検討している。
論文は、AIの設計と開発に関する考慮を超えて、AIに対するより広範なアプローチを求めるとともに、AIに関する人々を教育することや、AIに不合理な世界との関係を維持するための教育システムを革新することも含まれる、と結論付けている。
This paper presents a multi-dimensional view of AI's role in learning and education, emphasizing the intricate interplay between AI, analytics, and the learning processes. Here, I challenge the prevalent narrow conceptualisation of AI as tools, as exemplified in generative AI tools, and argue for the importance of alternative conceptualisations of AI for achieving human-AI hybrid intelligence. I highlight the differences between human intelligence and artificial information processing, the importance of hybrid human-AI systems to extend human cognition, and posit that AI can also serve as an instrument for understanding human learning. Early learning sciences and AI in Education research (AIED), which saw AI as an analogy for human intelligence, have diverged from this perspective, prompting a need to rekindle this connection. The paper presents three unique conceptualisations of AI: the externalization of human cognition, the internalization of AI models to influence human mental models, and the extension of human cognition via tightly coupled human-AI hybrid intelligence systems. Examples from current research and practice are examined as instances of the three conceptualisations in education, highlighting the potential value and limitations of each conceptualisation for education, as well as the perils of overemphasis on externalising human cognition. The paper concludes with advocacy for a broader approach to AIED that goes beyond considerations on the design and development of AI, but also includes educating people about AI and innovating educational systems to remain relevant in an AI-ubiquitous world. | 翻訳日:2024-07-10 02:09:29 公開日:2024-07-08 |
# Visual CoT: 包括的データセットとベンチマークによるマルチモーダル言語モデルの改善
Visual CoT: Advancing Multi-Modal Language Models with a Comprehensive Dataset and Benchmark for Chain-of-Thought Reasoning ( http://arxiv.org/abs/2403.16999v2 ) ライセンス: Link先を確認 | Hao Shao, Shengju Qian, Han Xiao, Guanglu Song, Zhuofan Zong, Letian Wang, Yu Liu, Hongsheng Li, | (参考訳) MLLM(Multi-Modal Large Language Models)は様々なVQAタスクにおいて顕著な性能を示す。
しかし、特に入力画像の解像度が高い場合や、質問に答える重要な情報を提供することのできる関心領域が小さい場合には、解釈可能性や複雑な視覚的入力に苦しむことがしばしばある。
これらの課題に対処するために,438k問合せペアからなる大規模Visual CoTデータセットを収集,導入した。
さらに、約98万対が詳細な推論ステップで注釈付けされている。
重要なことは、視覚的な入力に動的に集中し、解釈可能な思考を提供するマルチターン処理パイプラインを提案することである。
また、特定局所領域識別を必要とするシナリオにおいて、MLLMを評価するための関連ベンチマークも導入する。
大規模な実験は、我々のフレームワークの有効性を示し、より良い推論戦略に光を当てた。
Visual CoTデータセット、ベンチマーク、事前トレーニングされたモデルがリリースされ、この方向にさらなる研究が進められている。
Multi-Modal Large Language Models (MLLMs) have demonstrated impressive performance in various VQA tasks. However, they often lack interpretability and struggle with complex visual inputs, especially when the resolution of the input image is high or when the interested region that could provide key information for answering the question is small. To address these challenges, we collect and introduce the large-scale Visual CoT dataset comprising 438k question-answer pairs, annotated with intermediate bounding boxes highlighting key regions essential for answering the questions. Additionally, about 98k pairs of them are annotated with detailed reasoning steps. Importantly, we propose a multi-turn processing pipeline that dynamically focuses on visual inputs and provides interpretable thoughts. We also introduce the related benchmark to evaluate the MLLMs in scenarios requiring specific local region identification. Extensive experiments demonstrate the effectiveness of our framework and shed light on better inference strategies. The Visual CoT dataset, benchmark, and pre-trained models are released to foster further research in this direction. | 翻訳日:2024-07-10 02:09:29 公開日:2024-07-08 |
# Tiny Modelsは大規模モデルの計算救世主である
Tiny Models are the Computational Saver for Large Models ( http://arxiv.org/abs/2403.17726v2 ) ライセンス: Link先を確認 | Qingyuan Wang, Barry Cardiff, Antoine Frappé, Benoit Larras, Deepu John, | (参考訳) 本稿では,TinySaverについて紹介する。TinySaverは,大規模モデルを適応的に置き換えるために小さなモデルを用いる,早期に出現する動的モデル圧縮手法である。
従来の圧縮手法とは違い、TinySaverのような動的手法は困難さの差を利用して、特定の入力が推論プロセスを早期に完了させ、計算資源を保存することができる。
既存のアーリーエグジット設計のほとんどは、モデルのバックボーンに追加のネットワークブランチをアタッチすることで実装されている。
しかし、我々の研究では、完全に独立した小さなモデルによって、より大きなモデルの仕事のかなりの部分を、パフォーマンスに最小限の影響で置き換えることができることが判明した。
それらを第1出口として使用すると、計算効率が著しく向上する。
与えられた大モデルに対する計算保存器として最も適切な小型モデルを探索し,活用することにより,提案手法は,圧縮をモデル化するための新規で汎用的な手法として機能する。
この発見は、急速に進化するAIモデルによって引き起こされる計算要求のエスカレートに対処する新しい圧縮方法を模索する研究コミュニティに役立つだろう。
この手法をImageNet-1k分類で評価したところ、現代の視覚モデルにおいて、計算処理の回数を最大90%削減できる可能性が示唆された。
This paper introduces TinySaver, an early-exit-like dynamic model compression approach which employs tiny models to substitute large models adaptively. Distinct from traditional compression techniques, dynamic methods like TinySaver can leverage the difficulty differences to allow certain inputs to complete their inference processes early, thereby conserving computational resources. Most existing early exit designs are implemented by attaching additional network branches to the model's backbone. Our study, however, reveals that completely independent tiny models can replace a substantial portion of the larger models' job with minimal impact on performance. Employing them as the first exit can remarkably enhance computational efficiency. By searching and employing the most appropriate tiny model as the computational saver for a given large model, the proposed approaches work as a novel and generic method to model compression. This finding will help the research community in exploring new compression methods to address the escalating computational demands posed by rapidly evolving AI models. Our evaluation of this approach in ImageNet-1k classification demonstrates its potential to reduce the number of compute operations by up to 90\%, with only negligible losses in performance, across various modern vision models. | 翻訳日:2024-07-10 02:09:29 公開日:2024-07-08 |
# 非二乗速度依存性を持つラグランジアンの再評価と分岐ハミルトニアン
A reappraisal of Lagrangians with non-quadratic velocity dependence and branched Hamiltonians ( http://arxiv.org/abs/2403.18801v2 ) ライセンス: Link先を確認 | Bijan Bagchi, Aritra Ghosh, Miloslav Znojil, | (参考訳) 時折、二乗速度に依存しないラグランジュ人の非伝統的な形態が文献で注目されている。
例えば、そのようなラグランジアンは、特にLi\'{e}nard クラスの型を含む、非線形力学のいくつかの側面と深い関係を持ち、また、その量子化の問題は、対応するハミルトニアンの複数の分岐を開き、関連する固有函数に特異点が存在することに終始する。
本稿では、そのようなラグランジアンと関連する分枝ハミルトニアンの古典理論の簡単なレビューを行い、Li\'{e}nard型システムの例から始める。
次に、ラグランジアンが2つ以上の力を持つ速度に依存しながら、計算可能な数学的構造を持ちながら、関連する分枝ハミルトニアンをそのような系に記述する他のケースを取り上げる。
様々な例として、分枝ハミルトニアン理論における運動量依存質量の概念の出現を強調する。
Time and again, non-conventional forms of Lagrangians with non-quadratic velocity dependence have found attention in the literature. For one thing, such Lagrangians have deep connections with several aspects of nonlinear dynamics including specifically the types of the Li\'{e}nard class; for another, very often the problem of their quantization opens up multiple branches of the corresponding Hamiltonians, ending up with the presence of singularities in the associated eigenfunctions. In this article, we furnish a brief review of the classical theory of such Lagrangians and the associated branched Hamiltonians, starting with the example of Li\'{e}nard-type systems. We then take up other cases where the Lagrangians depend upon the velocity with powers greater than two while still having a tractable mathematical structure, while also describing the associated branched Hamiltonians for such systems. For various examples, we emphasize upon the emergence of the notion of momentum-dependent mass in the theory of branched Hamiltonians. | 翻訳日:2024-07-10 02:09:29 公開日:2024-07-08 |
# SceneGraphLoc: 3D Scene Graph上でのクロスモーダル粗なビジュアルローカライゼーション
SceneGraphLoc: Cross-Modal Coarse Visual Localization on 3D Scene Graphs ( http://arxiv.org/abs/2404.00469v2 ) ライセンス: Link先を確認 | Yang Miao, Francis Engelmann, Olga Vysotska, Federico Tombari, Marc Pollefeys, Dániel Béla Baráth, | (参考訳) 本稿では,3次元シーングラフのデータベースで表されるマルチモーダル参照マップ内の入力画像の局所化という,新たな問題を紹介する。
これらのグラフは、オブジェクトレベルの点雲、画像、属性、オブジェクト間の関係を含む複数のモードから構成されており、広範囲な画像データベースに依存する従来の方法に対する軽量で効率的な代替手段を提供する。
提案手法であるSceneGraphLocは、利用可能なモダリティを考慮し、シーングラフ内の各ノード(すなわちオブジェクトインスタンスを表す)に対する固定サイズの埋め込みを学習し、入力されたクエリ画像に表示されるオブジェクトとの効果的なマッチングを可能にする。
この戦略は、地図埋め込みにイメージを組み込むことなく、他のクロスモーダル手法よりも大幅に優れている。
画像を利用する場合、SceneGraphLocは、大規模な画像データベースに依存する最先端技術に近いパフォーマンスを達成すると同時に、3つの命令の保存を減らし、命令の処理を高速化する。
コードは公開されます。
We introduce a novel problem, i.e., the localization of an input image within a multi-modal reference map represented by a database of 3D scene graphs. These graphs comprise multiple modalities, including object-level point clouds, images, attributes, and relationships between objects, offering a lightweight and efficient alternative to conventional methods that rely on extensive image databases. Given the available modalities, the proposed method SceneGraphLoc learns a fixed-sized embedding for each node (i.e., representing an object instance) in the scene graph, enabling effective matching with the objects visible in the input query image. This strategy significantly outperforms other cross-modal methods, even without incorporating images into the map embeddings. When images are leveraged, SceneGraphLoc achieves performance close to that of state-of-the-art techniques depending on large image databases, while requiring three orders-of-magnitude less storage and operating orders-of-magnitude faster. The code will be made public. | 翻訳日:2024-07-10 02:09:29 公開日:2024-07-08 |
# CAMに基づく壁を通して見る方法
CAM-Based Methods Can See through Walls ( http://arxiv.org/abs/2404.01964v2 ) ライセンス: Link先を確認 | Magamed Taimeskhanov, Ronan Sicre, Damien Garreau, | (参考訳) CAMに基づく手法は、画像分類モデルの決定を説明するために、サリエンシマップを生成するポストホック解釈法として広く使われている。
サリエンシマップは、予測に関連する画像の重要な領域をハイライトする。
本稿では,これらの手法のほとんどが,モデルが見ることができない画像の一部に重要なスコアを誤って属性付けることができることを示す。
この現象は理論的にも実験的にも起こる。
理論面では、初期化時に単純なマスク付きCNNモデルを用いてGradCAMの挙動を解析する。
実験では、画像の下部を使わないよう制約されたVGGライクなモデルを訓練するが、それでも画像の見えない部分の正のスコアを観察する。
この挙動は、2つの新しいデータセットで定量的に評価される。
これは問題であり、モデルの振る舞いを誤解させる可能性があると私たちは考えています。
CAM-based methods are widely-used post-hoc interpretability method that produce a saliency map to explain the decision of an image classification model. The saliency map highlights the important areas of the image relevant to the prediction. In this paper, we show that most of these methods can incorrectly attribute an important score to parts of the image that the model cannot see. We show that this phenomenon occurs both theoretically and experimentally. On the theory side, we analyze the behavior of GradCAM on a simple masked CNN model at initialization. Experimentally, we train a VGG-like model constrained to not use the lower part of the image and nevertheless observe positive scores in the unseen part of the image. This behavior is evaluated quantitatively on two new datasets. We believe that this is problematic, potentially leading to mis-interpretation of the model's behavior. | 翻訳日:2024-07-10 02:09:29 公開日:2024-07-08 |
# Cendol: インドネシア語のためのオープンインストラクションでチューニングされた大規模言語モデル
Cendol: Open Instruction-tuned Generative Large Language Models for Indonesian Languages ( http://arxiv.org/abs/2404.06138v2 ) ライセンス: Link先を確認 | Samuel Cahyawijaya, Holy Lovenia, Fajri Koto, Rifki Afina Putri, Emmanuel Dave, Jhonson Lee, Nuur Shadieq, Wawan Cenggoro, Salsabil Maulana Akbar, Muhammad Ihza Mahendra, Dea Annisayanti Putri, Bryan Wilie, Genta Indra Winata, Alham Fikri Aji, Ayu Purwarianti, Pascale Fung, | (参考訳) 大規模言語モデル(LLM)は、様々なドメインや言語で顕著な人間のような能力を示す。
しかし、インドネシア原住民の言語のような低リソース言語では顕著な品質の差が生じ、そのような言語的文脈ではそれらが非効率で非効率である。
この品質ギャップを埋めるために、インドネシアのLLMのコレクションであるCendolを紹介します。
我々は、さまざまなタスクにまたがってCendolの有効性を強調し、20%の改善を実現し、インドネシアの見知らぬタスクや先住民言語に一般化する能力を実証した。
さらに、インドネシアの先住民の知識と文化的価値の獲得に制限があるにもかかわらず、センドルモデルは人間の好ましさを改善した。
さらに,言語適応のためのパラメータ効率調整(LoRAなど)の欠点についても論じる。
また,効率向上のための語彙適応手法を提案する。
最後に、Cendolの安全性を評価し、RLHFや安全性の微調整がなくても、インドネシア語などの低リソース言語に英語などの1言語での事前学習の安全性が移行可能であることを示す。
Large language models (LLMs) show remarkable human-like capability in various domains and languages. However, a notable quality gap arises in low-resource languages, e.g., Indonesian indigenous languages, rendering them ineffective and inefficient in such linguistic contexts. To bridge this quality gap, we introduce Cendol, a collection of Indonesian LLMs encompassing both decoder-only and encoder-decoder architectures across a range of model sizes. We highlight Cendol's effectiveness across a diverse array of tasks, attaining 20% improvement, and demonstrate its capability to generalize to unseen tasks and indigenous languages of Indonesia. Furthermore, Cendol models showcase improved human favorability despite their limitations in capturing indigenous knowledge and cultural values in Indonesia. In addition, we discuss the shortcomings of parameter-efficient tunings, such as LoRA, for language adaptation. Alternatively, we propose the usage of vocabulary adaptation to enhance efficiency. Lastly, we evaluate the safety of Cendol and showcase that safety in pre-training in one language such as English is transferable to low-resource languages, such as Indonesian, even without RLHF and safety fine-tuning. | 翻訳日:2024-07-10 01:59:35 公開日:2024-07-08 |
# 確率ハミルトニアンから量子シミュレーションへ:エクシトンダイナミクスにおける記憶効果を探る
From Stochastic Hamiltonian to Quantum Simulation: Exploring Memory Effects in Exciton Dynamics ( http://arxiv.org/abs/2404.06264v2 ) ライセンス: Link先を確認 | Federico Gallina, Matteo Bruschi, Barbara Fresch, | (参考訳) 確率的量子軌道の観点からのオープン量子系力学の展開は、環境変動の有限相関時間から生じるメモリ効果を一貫して考慮するオープン系力学の図を提供する。
これらの変動は、励起系のコヒーレンスとエネルギー輸送特性に大きな影響を及ぼす。
相関時間がハミルトニアン進化の時間スケールに匹敵すると、マルコフ極限から開系力学が逸脱する。
本研究では、確率的ハミルトンプロパゲータによるエクシトンダイナミクスの展開を利用して、エクシトン輸送をシミュレートし、有限メモリ効果を捉える量子回路を設計する。
パラメトリゾブル量子回路の合成を可能にすることに加えて、確率的ユニタリプロパゲータは、エクシトン輸送に対する非マルコフ効果を研究するための透過的な枠組みを提供する。
分析の結果,環境相関時間と輸送効率の微妙な関係が明らかとなり,時間関連ゆらぎによってシステムがより高い効率に達する「メモリアシスト」量子輸送の仕組みが明らかになった。
しかし、この性質は普遍的ではなく、ハミルトニアン系の特定の特徴と組み合わせてしか実現できない。
The unraveling of open quantum system dynamics in terms of stochastic quantum trajectories offers a picture of open system dynamics that consistently considers memory effects stemming from the finite correlation time of environment fluctuations. These fluctuations significantly influence the coherence and energy transport properties of excitonic systems. When their correlation time is comparable to the timescale of the Hamiltonian evolution, it leads to the departure of open system dynamics from the Markovian limit. In this work, we leverage the unraveling of exciton dynamics through stochastic Hamiltonian propagators to design quantum circuits that simulate exciton transport, capturing finite memory effects. In addition to enabling the synthesis of parametrizable quantum circuits, stochastic unitary propagators provide a transparent framework for investigating non-Markovian effects on exciton transport. Our analysis reveals a nuanced relationship between environment correlation time and transport efficiency, identifying a regime of "memory-assisted" quantum transport where time-correlated fluctuations allow the system to reach higher efficiency. However, this property is not universal and can only be realized in conjunction with specific features of the system Hamiltonian. | 翻訳日:2024-07-10 01:59:35 公開日:2024-07-08 |
# ロボットグラスピングにおける物体識別のためのセントロイドトリプレット損失の学習
Learning Embeddings with Centroid Triplet Loss for Object Identification in Robotic Grasping ( http://arxiv.org/abs/2404.06277v2 ) ライセンス: Link先を確認 | Anas Gouda, Max Schwarz, Christopher Reining, Sven Behnke, Alice Kirchheim, | (参考訳) 基礎モデルはディープラーニングとコンピュータビジョンの強力なトレンドだ。
これらのモデルは、開発者がアプリケーションに統合するために、マイナーまたはそれ以上の微調整を必要としないため、アプリケーションの基盤として機能する。
Segment Anything (SAM) のようなゼロショットオブジェクトセグメンテーションのための基礎モデルは、追加のオブジェクト情報なしで画像からセグメンテーションマスクを出力する。
それらがオブジェクト識別モデルによってパイプラインに追従されると、トレーニングなしでオブジェクト検出を行うことができる。
本稿では,そのような物体識別モデルの訓練に焦点をあてる。
オブジェクト識別モデルにとって重要な実践的側面は、入力サイズで柔軟であることである。
オブジェクト識別は画像検索の問題であるため、入力画像の数(例えば、一定の大きさの集約層を持つことで)を制約することなく、複数クエリのマルチギャラリ状況を扱うのに適した方法が必要である。
このようなモデルをトレーニングする鍵となる解決策は、遠心三重項損失(CTL)である。
CTLは精度が高く、誤った学習信号を避け、モデルの入力サイズを柔軟に保つ。
実験では、ArmBenchオブジェクト識別タスクに新たな最先端技術を導入し、モデルの汎用性を示す。
さらに、難易度の高いHOPEデータセット上で、未確認オブジェクト検出パイプラインの統合を実証する。
そこで、私たちのパイプラインは、データセット固有のデータに基づいてトレーニングされた関連するメソッドと一致し、オーバーします。
Foundation models are a strong trend in deep learning and computer vision. These models serve as a base for applications as they require minor or no further fine-tuning by developers to integrate into their applications. Foundation models for zero-shot object segmentation such as Segment Anything (SAM) output segmentation masks from images without any further object information. When they are followed in a pipeline by an object identification model, they can perform object detection without training. Here, we focus on training such an object identification model. A crucial practical aspect for an object identification model is to be flexible in input size. As object identification is an image retrieval problem, a suitable method should handle multi-query multi-gallery situations without constraining the number of input images (e.g. by having fixed-size aggregation layers). The key solution to train such a model is the centroid triplet loss (CTL), which aggregates image features to their centroids. CTL yields high accuracy, avoids misleading training signals and keeps the model input size flexible. In our experiments, we establish a new state of the art on the ArmBench object identification task, which shows general applicability of our model. We furthermore demonstrate an integrated unseen object detection pipeline on the challenging HOPE dataset, which requires fine-grained detection. There, our pipeline matches and surpasses related methods which have been trained on dataset-specific data. | 翻訳日:2024-07-10 01:59:35 公開日:2024-07-08 |
# 眼球運動における自己監督学習の枠組みとしてのマスケ画像モデリング
Masked Image Modeling as a Framework for Self-Supervised Learning across Eye Movements ( http://arxiv.org/abs/2404.08526v2 ) ライセンス: Link先を確認 | Robin Weiler, Matthias Brucklacher, Cyriel M. A. Pennartz, Sander M. Bohté, | (参考訳) 環境を理解するためには、知的システムは複雑な感覚入力を、オブジェクトカテゴリのようなタスク関連情報に還元される構造化コードに変換する必要がある。
生物学的エージェントは、おそらく自己教師付き学習を通じて、これをほぼ自律的に達成する。
基礎となるメカニズムをモデル化する以前の試みは、主に自然界で差別的だったが、脳が世界の生成モデルを使用しているという証拠は豊富である。
本稿では,眼球運動と霊長類視覚の焦点を合わせることで,視覚情報を予測し,明らかにする生成的,自己指導的なタスクを構成することを提案する。
我々は,深層表現学習における一般的なアプローチであるマスク画像モデリング(MIM)の枠組みから,プリンシプルモデルを構築する。
そこで我々は,MIMのコアコンポーネントであるマスキング技術やデータ拡張が,カテゴリ固有の表現の形成にどのように影響するかを分析する。
これにより、MIMの背後にある原則をよりよく理解するだけでなく、生物学的知覚の焦点を絞った性質に合わせてMIMを再組み立てすることが可能になります。
その結果,MIM はニューロンを非定常的に非定常的にアンタングルし,その特性は霊長類における視覚的表現の形成に有効であることが示唆された。
従来の分散学習の成果と合わせて,MIMと潜時正規化アプローチとの興味深い関連性を強調した。
ソースコードはhttps://github.com/RobinWeiler/FocusMIMで入手できる。
To make sense of their surroundings, intelligent systems must transform complex sensory inputs to structured codes that are reduced to task-relevant information such as object category. Biological agents achieve this in a largely autonomous manner, presumably via self-supervised learning. Whereas previous attempts to model the underlying mechanisms were largely discriminative in nature, there is ample evidence that the brain employs a generative model of the world. Here, we propose that eye movements, in combination with the focused nature of primate vision, constitute a generative, self-supervised task of predicting and revealing visual information. We construct a proof-of-principle model starting from the framework of masked image modeling (MIM), a common approach in deep representation learning. To do so, we analyze how core components of MIM such as masking technique and data augmentation influence the formation of category-specific representations. This allows us not only to better understand the principles behind MIM, but to then reassemble a MIM more in line with the focused nature of biological perception. We find that MIM disentangles neurons in latent space without explicit regularization, a property that has been suggested to structure visual representations in primates. Together with previous findings of invariance learning, this highlights an interesting connection of MIM to latent regularization approaches for self-supervised learning. The source code is available under https://github.com/RobinWeiler/FocusMIM | 翻訳日:2024-07-10 01:59:35 公開日:2024-07-08 |
# 局所ホッピングを伴う相対独立な自由フェルミオン
Rationally independent free fermions with local hopping ( http://arxiv.org/abs/2404.12100v2 ) ライセンス: Link先を確認 | Jonathon Riddell, Bruno Bertini, | (参考訳) 連立独立な自由フェルミオンは、任意の有理係数で乗算される単粒子エネルギーの和が、係数がすべてゼロである場合に限り消滅するものである。
この性質は、多体スペクトルに退化性を持たず、一般系のものとより類似した緩和性を与える。
数論の古典的な結果を用いて、1次元のシステムサイズごとに有理独立な自由フェルミオンモデルの最小例を提供する。
これは、化学ポテンシャルを持つ自由フェルミオンモデルと、サイト数のすべての因子に対応するホッピング項、それぞれが非可換複素振幅を持つことを考慮して達成される。
さらに、これらのモデルの多体スペクトル統計を議論し、ポアソン統計が期待するものと非常によく似ていることを示す。
しかしながら、自由フェルミオンモデルがスペクトル形成係数のモーメントを解析することで、ポアソン統計を持つことができないことを示す。
Rationally independent free fermions are those where sums of single-particle energies multiplied by arbitrary rational coefficients vanish only if the coefficients are all zero. This property guaranties that they have no degeneracies in the many-body spectrum and gives them relaxation properties more similar to those of generic systems. Using classic results from number theory we provide minimal examples of rationally independent free fermion models for every system size in one dimension. This is accomplished by considering a free fermion model with a chemical potential, and hopping terms corresponding to all the divisors of the number of sites, each one with an incommensurate complex amplitude. We further discuss the many-body spectral statistics for these models and show that local probes -- like the ratio of consecutive level spacings -- look very similar to what is expected for the Poisson statistics. We however demonstrate that free fermion models can never have Poisson statistics with an analysis of the moments of the spectral form factor. | 翻訳日:2024-07-10 01:59:35 公開日:2024-07-08 |
# オブジェクトの変換を追跡する: ベンチマーク
Tracking Transforming Objects: A Benchmark ( http://arxiv.org/abs/2404.18143v2 ) ライセンス: Link先を確認 | You Wu, Yuelong Wang, Yaxin Liao, Fuliang Wu, Hengzhou Ye, Shuiwang Li, | (参考訳) トランスフォーミングオブジェクトの追跡は多くの実世界のシナリオの動的な性質のため、様々な分野において重要な意味を持つ。
システムが時間とともに変換オブジェクトを正確に表現できるようにすることで、トランスフォーメーションオブジェクトの追跡は、自律システムや人間とコンピュータのインタラクション、セキュリティアプリケーションといった分野の進歩を促進する。
さらに、変換対象の振る舞いを理解することは、複雑な相互作用やプロセスに対する貴重な洞察を与え、動的環境における堅牢で適応的な知覚を実現できるインテリジェントシステムの開発に寄与する。
しかし、この分野における現在の研究は主にジェネリックオブジェクトの追跡に焦点を当てている。
本研究では、このギャップを、約9.3Kフレームの100のシーケンスを含むDTTOと呼ばれる、新しいデータ集合を収集することで橋渡しする。
これらのシーケンス内の各フレームに対して手書きのバウンディングボックスを慎重に提供し、DTTOは変換対象を追跡するための先駆的なベンチマークとなる。
我々は,既存の手法の性能の理解とDTTOの今後の研究との比較を目的として,20の最先端トラッカーをベンチマークで徹底的に評価した。
DTTOのリリースで私たちのゴールは、変換オブジェクトの追跡に関するさらなる研究と応用を促進することです。
Tracking transforming objects holds significant importance in various fields due to the dynamic nature of many real-world scenarios. By enabling systems accurately represent transforming objects over time, tracking transforming objects facilitates advancements in areas such as autonomous systems, human-computer interaction, and security applications. Moreover, understanding the behavior of transforming objects provides valuable insights into complex interactions or processes, contributing to the development of intelligent systems capable of robust and adaptive perception in dynamic environments. However, current research in the field mainly focuses on tracking generic objects. In this study, we bridge this gap by collecting a novel dedicated Dataset for Tracking Transforming Objects, called DTTO, which contains 100 sequences, amounting to approximately 9.3K frames. We provide carefully hand-annotated bounding boxes for each frame within these sequences, making DTTO the pioneering benchmark dedicated to tracking transforming objects. We thoroughly evaluate 20 state-of-the-art trackers on the benchmark, aiming to comprehend the performance of existing methods and provide a comparison for future research on DTTO. With the release of DTTO, our goal is to facilitate further research and applications related to tracking transforming objects. | 翻訳日:2024-07-10 01:49:35 公開日:2024-07-08 |
# 局所関数の混合に対する量子符号化
Qubit encoding for a mixture of localized functions ( http://arxiv.org/abs/2404.18529v2 ) ライセンス: Link先を確認 | Taichi Kosugi, Shunsuke Daimon, Hirofumi Nishi, Shinji Tsuneyuki, Yu-ichiro Matsushita, | (参考訳) 量子計算における重要な一般的な手法の1つは振幅符号化である。
いくつかのアプローチが提案されているが、それぞれが指数関数的古典計算コストや明示的な構成が提供されないオラクルを必要とすることが多い。
実用的な量子計算の需要が高まる中、我々は局所化された複素関数の任意の線形結合を生成する、適度に特殊化された符号化技術を開発した。
計算時間は $\mathcal{O}( \max ( n_{\mathrm{loc}}^2 \log n_{\mathrm{loc}},n_{\mathrm{loc}}^2 \log n_q, n_q ))$ for $n_q$ data qubits with $\log_2 n_{\mathrm{loc}}$ ancillae である。
さらに振幅増幅と振幅増幅と組み合わせることで、制御可能な誤差と決定論的に解析し、計算時間を$\mathcal{O}( \max ( n_{\mathrm{loc}}^{3/2} \log n_{\mathrm{loc}}, n_{\mathrm{loc}}^{3/2} \log n_q, n_q )に短縮する。
実空間における量子化学に我々のスキームを適用するために必要なリソースを見積もる。
また,本手法の有効性を確認するために,実際の超伝導量子コンピュータ上で結果を示す。
One of the crucial generic techniques for quantum computation is amplitude encoding. Although several approaches have been proposed, each of them often requires exponential classical-computational cost or an oracle whose explicit construction is not provided. Given the growing demands for practical quantum computation, we develop moderately specialized encoding techniques that generate an arbitrary linear combination of localized complex functions. We demonstrate that $n_{\mathrm{loc}}$ discrete Lorentzian functions as an expansion basis set lead to eficient probabilistic encoding, whose computational time is $\mathcal{O}( \max ( n_{\mathrm{loc}}^2 \log n_{\mathrm{loc}},n_{\mathrm{loc}}^2 \log n_q, n_q ))$ for $n_q$ data qubits equipped with $\log_2 n_{\mathrm{loc}}$ ancillae. Furthermore, amplitude amplification in combination with amplitude reduction renders it deterministic analytically with controllable errors and the computational time is reduced to $\mathcal{O}( \max ( n_{\mathrm{loc}}^{3/2} \log n_{\mathrm{loc}}, n_{\mathrm{loc}}^{3/2} \log n_q, n_q )).$ We estimate required resources for applying our scheme to quantum chemistry in real space. We also show the results on real superconducting quantum computers to confirm the validity of our techniques. | 翻訳日:2024-07-10 01:49:35 公開日:2024-07-08 |
# 不適切な専門家(MoTE)の混在 : 自己アライメントにおける思考の連鎖とエキスパート混在の相乗効果
Mixture of insighTful Experts (MoTE): The Synergy of Thought Chains and Expert Mixtures in Self-Alignment ( http://arxiv.org/abs/2405.00557v3 ) ライセンス: Link先を確認 | Zhili Liu, Yunhao Gou, Kai Chen, Lanqing Hong, Jiahui Gao, Fei Mi, Yu Zhang, Zhenguo Li, Xin Jiang, Qun Liu, James T. Kwok, | (参考訳) 大規模言語モデル(LLM)の能力が劇的に拡大するにつれて、これらのモデルと人間の価値を一致させることが大きな課題となっている。
従来のアライメント戦略は人間の介入に大きく依存しており、例えばスーパーバイザード・ファイン・チューニング(SFT)や人間からのフィードバックからの強化学習(RLHF)、あるいはLLMの自己調整能力に大きく依存している。
これらの課題に対処するため,AlignCoT と呼ばれる Chain of Thought (CoT) アプローチを利用した新たな自己アライメント手法を提案する。
本手法は,質問分析,回答指導,安全回答作成の段階を含む。
LLMは、開発の各段階で高品質で安全な応答を生成するように設計されている。
さらに,AlignCoTプロセスの各コンポーネントの強化に専門家の混在を適用し,アライメント効率を著しく向上させるMixture of InsighTful Experts (MoTE)アーキテクチャを導入する。
MoTEアプローチは、LLMを人間の価値と整合させる既存の手法よりも優れているだけでなく、自己生成データを使用することの利点を強調し、アライメントの改善とトレーニング効率の2つの利点を明らかにしている。
As the capabilities of large language models (LLMs) have expanded dramatically, aligning these models with human values presents a significant challenge. Traditional alignment strategies rely heavily on human intervention, such as Supervised Fine-Tuning (SFT) and Reinforcement Learning from Human Feedback (RLHF), or on the self-alignment capacities of LLMs, which usually require a strong LLM's emergent ability to improve its original bad answer. To address these challenges, we propose a novel self-alignment method that utilizes a Chain of Thought (CoT) approach, termed AlignCoT. This method encompasses stages of Question Analysis, Answer Guidance, and Safe Answer production. It is designed to enable LLMs to generate high-quality, safe responses throughout various stages of their development. Furthermore, we introduce the Mixture of insighTful Experts (MoTE) architecture, which applies mixture of experts to enhance each component of the AlignCoT process, markedly increasing alignment efficiency. The MoTE approach not only outperforms existing methods in aligning LLMs with human values but also highlights the benefits of using self-generated data, revealing the dual benefits of improved alignment and training efficiency. | 翻訳日:2024-07-10 01:49:35 公開日:2024-07-08 |
# モデル抽出攻撃に対する適応的およびロバストな透かし
Adaptive and robust watermark against model extraction attack ( http://arxiv.org/abs/2405.02365v2 ) ライセンス: Link先を確認 | Kaiyi Pang, | (参考訳) 大規模言語モデル(LLM)は、さまざまな機械学習タスクにまたがる汎用知性を示し、それによって知的財産(IP)の商業的価値を高める。
このIPを保護するため、モデル所有者は通常ブラックボックス方式でのみユーザーアクセスを許可するが、敵はモデル抽出攻撃を利用してモデル生成で符号化されたモデルインテリジェンスを盗むことができる。
ウォーターマーキング技術は、モデル生成コンテンツにユニークな識別子を埋め込むことによって、このような攻撃を防御する有望なソリューションを提供する。
しかし、既存の透かし手法は、ヒューリスティックな変化によって生成されたコンテンツの質を損なうことが多く、敵の戦略に対抗するための堅牢なメカニズムが欠如しているため、現実のシナリオでは実用性が制限される。
本稿では,LLMのIPを保護するために適応的かつ堅牢な透かし方式(ModelShield)を提案する。
提案手法では, LLM が生成したコンテンツに自動的に透かしを挿入し, モデル内容の劣化を回避する自己透かし機構を組み込む。
また,異なる対角戦略の干渉下で,透かし信号を効果的に識別できる頑健な透かし検出機構を提案する。
さらに、ModelShieldは追加のモデルトレーニングを必要としないプラグイン・アンド・プレイ方式であり、LCMデプロイメントにおける適用性を高めている。
実世界の2つのデータセットと3つのLCMの大規模な評価により,本手法は防衛効果とロバスト性の観点から既存の手法を超越し,モデル生成コンテンツに対する透かしの劣化を著しく低減することを示した。
Large language models (LLMs) demonstrate general intelligence across a variety of machine learning tasks, thereby enhancing the commercial value of their intellectual property (IP). To protect this IP, model owners typically allow user access only in a black-box manner, however, adversaries can still utilize model extraction attacks to steal the model intelligence encoded in model generation. Watermarking technology offers a promising solution for defending against such attacks by embedding unique identifiers into the model-generated content. However, existing watermarking methods often compromise the quality of generated content due to heuristic alterations and lack robust mechanisms to counteract adversarial strategies, thus limiting their practicality in real-world scenarios. In this paper, we introduce an adaptive and robust watermarking method (named ModelShield) to protect the IP of LLMs. Our method incorporates a self-watermarking mechanism that allows LLMs to autonomously insert watermarks into their generated content to avoid the degradation of model content. We also propose a robust watermark detection mechanism capable of effectively identifying watermark signals under the interference of varying adversarial strategies. Besides, ModelShield is a plug-and-play method that does not require additional model training, enhancing its applicability in LLM deployments. Extensive evaluations on two real-world datasets and three LLMs demonstrate that our method surpasses existing methods in terms of defense effectiveness and robustness while significantly reducing the degradation of watermarking on the model-generated content. | 翻訳日:2024-07-10 01:49:35 公開日:2024-07-08 |
# 自律運転における視覚に基づく3D占有予測 : レビューと展望
Vision-based 3D occupancy prediction in autonomous driving: a review and outlook ( http://arxiv.org/abs/2405.02595v2 ) ライセンス: Link先を確認 | Yanan Zhang, Jinqing Zhang, Zengran Wang, Junhao Xu, Di Huang, | (参考訳) 近年、自動運転はドライバーの負担を軽減し、運転安全性を向上させる可能性に注意を向けている。
視覚に基づく3D占有予測は、画像入力から自動運転車周辺の3Dボクセルグリッドの空間的占有状況と意味を予測し、費用対効果の高い自動運転の認識システムに適した新たな認識課題である。
多くの研究が、オブジェクト中心の知覚タスクよりも3D占有率予測の方が優れていることを証明しているが、この急速に発展する分野に焦点を当てた専門的なレビューはいまだにない。
本稿では,視覚に基づく3D占有率予測の背景について紹介し,その課題について論じる。
第2に、機能強化、配置親和性、ラベル効率の3つの側面から、視覚に基づく3D占有率予測の進捗状況を総合的に調査し、各手法のポテンシャルと課題を詳細に分析する。
最後に,代表的な研究動向を概説し,今後の展望について考察する。
研究者にとって貴重なリファレンスを提供するため、関連する論文、データセット、コードの定期的に更新されたコレクションがhttps://github.com/zya3d/Awesome-3D-Occupancy-Predictionで組織されている。
In recent years, autonomous driving has garnered escalating attention for its potential to relieve drivers' burdens and improve driving safety. Vision-based 3D occupancy prediction, which predicts the spatial occupancy status and semantics of 3D voxel grids around the autonomous vehicle from image inputs, is an emerging perception task suitable for cost-effective perception system of autonomous driving. Although numerous studies have demonstrated the greater advantages of 3D occupancy prediction over object-centric perception tasks, there is still a lack of a dedicated review focusing on this rapidly developing field. In this paper, we first introduce the background of vision-based 3D occupancy prediction and discuss the challenges in this task. Secondly, we conduct a comprehensive survey of the progress in vision-based 3D occupancy prediction from three aspects: feature enhancement, deployment friendliness and label efficiency, and provide an in-depth analysis of the potentials and challenges of each category of methods. Finally, we present a summary of prevailing research trends and propose some inspiring future outlooks. To provide a valuable reference for researchers, a regularly updated collection of related papers, datasets, and codes is organized at https://github.com/zya3d/Awesome-3D-Occupancy-Prediction. | 翻訳日:2024-07-10 01:49:35 公開日:2024-07-08 |
# ゼロ領域パルスによる遅延電子イオンの絡み合い
Delayed Electron-Ion Entanglement Revealed with Zero Area Pulses ( http://arxiv.org/abs/2405.03339v2 ) ライセンス: Link先を確認 | Axel Stenquist, Jan Marcus Dahlström, | (参考訳) Grobe--Eberly doublet 現象は、残りのイオンが磁場に着飾られているときに光電子分布で起こる。
最近示されたように、ダブルトは光電子と強く結合したイオンの間の量子絡み合いのサインと解釈できる。
しかし、イオンの着飾った状態の性質は、簡単な偶然検出によって絡み合いの検出を妨げている。
ここでは、奇妙な(ゼロ領域)エンベロープが絡み合いの発生を著しく遅らせるだけでなく、ダブルトが一意なチャネル分解光電子分布に変換されるようなダイナミクスを変化させることが分かる。
これらの分布はイオンの内部状態と相関することができるため、提案手法は量子位相測定を必要とせず、光電子と強結合イオンの間の量子絡みの検出のために開放される。
The Grobe--Eberly doublet phenomenon occurs in photoelectron distributions when the remaining ion is dressed by a field. As was recently shown, the doublet can be interpreted as a signature of quantum entanglement between photoelectrons and strongly coupled ions. However, the dressed state nature of the ion prevents detection of the entanglement by straightforward coincidence detection. Here, we find that odd (zero-area) envelopes can substantially delay the generation of entanglement, but also modify the dynamics such that the doublet transforms into unique channel-resolved photoelectron distributions. Because these distributions can be used to correlate with the internal state of the ion, our proposed scheme opens up for detection of quantum entanglement, between photoelectrons and stongly-coupled ions, without a need for quantum phase measurements. | 翻訳日:2024-07-10 01:49:35 公開日:2024-07-08 |
# 一般化されたレニイエントロピー累積定理と一般化された量子確率推定
Generalized Rényi entropy accumulation theorem and generalized quantum probability estimation ( http://arxiv.org/abs/2405.05912v3 ) ライセンス: Link先を確認 | Amir Arqand, Thomas A. Hahn, Ernest Y. -Z. Tan, | (参考訳) エントロピー累積定理とそのその後の一般化版は、多くのデバイス依存およびデバイス非依存暗号プロトコルのセキュリティ解析において強力なツールである。
しかし、それが得られる有限サイズ境界が必ずしも最適であるとは限らないという欠点があり、さらに実際は最適に構築することが難しいアフィンミントレーデフ関数の構成に依存している。
本研究では,新しいエントロピー蓄積バウンドを導出することにより,これらの課題を同時に解決する。
我々の境界は有限サイズ性能を著しく向上させ、アフィンミントレーデオフ関数の仕様を使わずに直観的に解釈可能な凸最適化として計算できる。
さらに、必要に応じてR'enyiエントロピーのレベルに直接適用することができ、完全なR'enyiセキュリティ証明が得られる。
提案手法は, エントロピー蓄積と量子確率推定の枠組み, あるいは$f$-weighted R\'enyi entropiesの関連性に基づくものである。
特にこれらの知見は,従来エントロピー蓄積に必要とされていた仮想トモグラフィー法や反復レート制限を使わずに,我々の限界が準備・測定プロトコルに適用できることを示唆している。
The entropy accumulation theorem, and its subsequent generalized version, is a powerful tool in the security analysis of many device-dependent and device-independent cryptography protocols. However, it has the drawback that the finite-size bounds it yields are not necessarily optimal, and furthermore it relies on the construction of an affine min-tradeoff function, which can often be challenging to construct optimally in practice. In this work, we address both of these challenges simultaneously by deriving a new entropy accumulation bound. Our bound yields significantly better finite-size performance, and can be computed as an intuitively interpretable convex optimization, without any specification of affine min-tradeoff functions. Furthermore, it can be applied directly at the level of R\'enyi entropies if desired, yielding fully-R\'enyi security proofs. Our proof techniques are based on elaborating on a connection between entropy accumulation and the frameworks of quantum probability estimation or $f$-weighted R\'enyi entropies, and in the process we obtain some new results with respect to those frameworks as well. In particular, those findings imply that our bounds apply to prepare-and-measure protocols without the virtual tomography procedures or repetition-rate restrictions previously required for entropy accumulation. | 翻訳日:2024-07-10 01:39:50 公開日:2024-07-08 |
# 平滑なサロゲート損失による学習の普遍的成長率
A Universal Growth Rate for Learning with Smooth Surrogate Losses ( http://arxiv.org/abs/2405.05968v2 ) ライセンス: Link先を確認 | Anqi Mao, Mehryar Mohri, Yutao Zhong, | (参考訳) 本稿では,分類に使用される種々の代理損失に対する$H$-consistency bounds(および過剰なエラー境界)の成長速度を包括的に分析する。
本研究では,2進分類におけるスムーズなマージンベースサロゲート損失に対して,0付近の平方根成長速度を証明し,軽度の仮定の下で上界と下界の両方を提供する。
この結果は過大なエラー境界にも変換される。
我々の下限は、過大な誤差境界に対する以前の研究よりも弱い条件を必要としており、上限は完全に新しい。
さらに、この分析を新しい結果を用いてマルチクラス分類に拡張し、スムーズな和和と制約付き損失に対する普遍的な平方根成長率を示し、マルチクラス分類におけるニューラルネットワークのトレーニングの一般的な選択をカバーした。
この普遍率を考えると、我々は異なる代理損失の中から選ぶという問題に目を向ける。
まず、クラス数に基づいて、Surrogate間で$H$-consistencyのバウンダリがどのように異なるかを検討する。
次に、定数を無視し、ゼロに近い振る舞いに焦点を合わせ、最小化可能性ギャップをこれらの境界における重要な微分因子として同定する。
そこで我々は,これらのギャップを網羅的に解析し,サロゲート損失選択の導出を行う。
さらに、過大なエラー境界と$H$-一貫性境界を比較する際に、最小化可能性ギャップの鍵となる役割を示す。
This paper presents a comprehensive analysis of the growth rate of $H$-consistency bounds (and excess error bounds) for various surrogate losses used in classification. We prove a square-root growth rate near zero for smooth margin-based surrogate losses in binary classification, providing both upper and lower bounds under mild assumptions. This result also translates to excess error bounds. Our lower bound requires weaker conditions than those in previous work for excess error bounds, and our upper bound is entirely novel. Moreover, we extend this analysis to multi-class classification with a series of novel results, demonstrating a universal square-root growth rate for smooth comp-sum and constrained losses, covering common choices for training neural networks in multi-class classification. Given this universal rate, we turn to the question of choosing among different surrogate losses. We first examine how $H$-consistency bounds vary across surrogates based on the number of classes. Next, ignoring constants and focusing on behavior near zero, we identify minimizability gaps as the key differentiating factor in these bounds. Thus, we thoroughly analyze these gaps, to guide surrogate loss selection, covering: comparisons across different comp-sum losses, conditions where gaps become zero, and general conditions leading to small gaps. Additionally, we demonstrate the key role of minimizability gaps in comparing excess error bounds and $H$-consistency bounds. | 翻訳日:2024-07-10 01:39:50 公開日:2024-07-08 |
# 安全なAIの保証に向けて:ロバストで信頼性の高いAIシステムを保証するフレームワーク
Towards Guaranteed Safe AI: A Framework for Ensuring Robust and Reliable AI Systems ( http://arxiv.org/abs/2405.06624v3 ) ライセンス: Link先を確認 | David "davidad" Dalrymple, Joar Skalse, Yoshua Bengio, Stuart Russell, Max Tegmark, Sanjit Seshia, Steve Omohundro, Christian Szegedy, Ben Goldhaber, Nora Ammann, Alessandro Abate, Joe Halpern, Clark Barrett, Ding Zhao, Tan Zhi-Xuan, Jeannette Wing, Joshua Tenenbaum, | (参考訳) AIシステムは、特に高度な自律性と汎用性を持つAIシステムや、安全クリティカルなコンテキストで使用されるシステムにとって、安全で堅牢に有害な行動や危険な行動を避けることが重要な課題である。
本稿では、安全保証(GS)AIとして言及する、AI安全性に対するアプローチのファミリーを紹介し、定義する。
これらのアプローチの中核的な特徴は、高保証の定量的安全性保証を備えたAIシステムを作ることである。
これは、世界モデル(AIシステムが外界にどう影響するかを数学的に記述する)、安全仕様(どのような効果が受け入れられるかを数学的に記述する)、検証(AIが世界モデルに対して安全仕様を満足する監査可能な証明証明書を提供する)の3つのコアコンポーネントの相互作用によって達成される。
これら3つのコアコンポーネントをそれぞれ作成するためのアプローチを概説し、主な技術的課題を説明し、それらに対する潜在的なソリューションをいくつか提案します。
また、AIの安全性に対するこのアプローチの必要性や、主要な代替アプローチの不十分さについても議論しています。
Ensuring that AI systems reliably and robustly avoid harmful or dangerous behaviours is a crucial challenge, especially for AI systems with a high degree of autonomy and general intelligence, or systems used in safety-critical contexts. In this paper, we will introduce and define a family of approaches to AI safety, which we will refer to as guaranteed safe (GS) AI. The core feature of these approaches is that they aim to produce AI systems which are equipped with high-assurance quantitative safety guarantees. This is achieved by the interplay of three core components: a world model (which provides a mathematical description of how the AI system affects the outside world), a safety specification (which is a mathematical description of what effects are acceptable), and a verifier (which provides an auditable proof certificate that the AI satisfies the safety specification relative to the world model). We outline a number of approaches for creating each of these three core components, describe the main technical challenges, and suggest a number of potential solutions to them. We also argue for the necessity of this approach to AI safety, and for the inadequacy of the main alternative approaches. | 翻訳日:2024-07-10 01:39:50 公開日:2024-07-08 |
# アライメントはマルチモーダルデータを活用するのに役立つ
Alignment Helps Make the Most of Multimodal Data ( http://arxiv.org/abs/2405.08454v2 ) ライセンス: Link先を確認 | Christian Arnold, Andreas Küpfer, | (参考訳) 政治コミュニケーションを研究する際、テキスト、音声、ビデオ信号からの情報を組み合わせることで、個々のモダリティのみに絞るよりも、人間のコミュニケーションの豊かさをより包括的に反映することを約束する。
しかし、その不均一性、接続性、相互作用は、そのようなマルチモーダルデータをモデル化する際には、対処が難しい。
我々は、モデルに人間の理解を知らせるため、各モダリティの整合性は、マルチモーダルデータの可能性を完全に活用する上で不可欠なステップであると主張している。
本フレームワークは,マルチモーダルデータのデータ生成プロセスに配慮し,アライメントを整理する4つの原則を提案し,マルチモーダルデータの課題に対処する。
我々は、ドイツの国会議員がスピーチの中で極右のAfDのメンバーにどう対処するかを分析し、2020年の米国大統領選挙の文脈でビデオ広告のトーンを予測することによって、これらの原則の有用性を説明する。
本稿は、マルチモーダルデータを効果的に分析しようとするすべての人に重要な洞察を提供する。
When studying political communication, combining the information from text, audio, and video signals promises to reflect the richness of human communication more comprehensively than confining it to individual modalities alone. However, its heterogeneity, connectedness, and interaction are challenging to address when modeling such multimodal data. We argue that aligning the respective modalities can be an essential step in entirely using the potential of multimodal data because it informs the model with human understanding. Taking care of the data-generating process of multimodal data, our framework proposes four principles to organize alignment and, thus, address the challenges of multimodal data. We illustrate the utility of these principles by analyzing how German MPs address members of the far-right AfD in their speeches and predicting the tone of video advertising in the context of the 2020 US presidential race. Our paper offers important insights to all keen to analyze multimodal data effectively. | 翻訳日:2024-07-10 01:39:50 公開日:2024-07-08 |
# プライバシー問題のないフェデレーション学習のためのビザンチン耐性セキュアアグリゲーション
Byzantine-Resilient Secure Aggregation for Federated Learning Without Privacy Compromises ( http://arxiv.org/abs/2405.08698v2 ) ライセンス: Link先を確認 | Yue Xia, Christoph Hofmeister, Maximilian Egger, Rawad Bitar, | (参考訳) フェデレーテッド・ラーニング(FL)は大規模な機械学習において大きな可能性を秘めているが、プライバシとセキュリティの面で新たなリスクをもたらす。
我々は,ユーザデータをフェデレーターからプライベートに,他のユーザからプライベートに保ちながら,ビザンチンユーザに対してレジリエンスを提供するFLの新しいスキームであるBYITFLを提案する。
このスキームは、既存の非プライベートなFLTrustスキームに基づいて構築され、信頼スコア(TS)を通じて悪意のあるユーザを許容し、ユーザの勾配を減衰または増幅する。
信頼スコアは多項式で近似したReLU関数に基づいている。
ByITFLの分散およびプライバシ保存計算は、ラグランジュ符号化コンピューティング、検証可能な秘密共有と再ランダム化のステップを組み合わせて設計されている。
ByITFLは、情報理論の完全なプライバシーを備えたFLのための最初のビザンティンレジリエントなスキームである。
Federated learning (FL) shows great promise in large scale machine learning, but brings new risks in terms of privacy and security. We propose ByITFL, a novel scheme for FL that provides resilience against Byzantine users while keeping the users' data private from the federator and private from other users. The scheme builds on the preexisting non-private FLTrust scheme, which tolerates malicious users through trust scores (TS) that attenuate or amplify the users' gradients. The trust scores are based on the ReLU function, which we approximate by a polynomial. The distributed and privacy-preserving computation in ByITFL is designed using a combination of Lagrange coded computing, verifiable secret sharing and re-randomization steps. ByITFL is the first Byzantine resilient scheme for FL with full information-theoretic privacy. | 翻訳日:2024-07-10 01:39:50 公開日:2024-07-08 |
# コンピュータビジョンとLSTMネットワークを用いた太陽コロナホールの解析と予測モデリング
Analysis and Predictive Modeling of Solar Coronal Holes Using Computer Vision and LSTM Networks ( http://arxiv.org/abs/2405.09802v2 ) ライセンス: Link先を確認 | Juyoung Yun, Jungmin Shin, | (参考訳) 宇宙探査の時代には、太陽上のコロナホールは、オープン磁場による衛星や航空機への影響と太陽風の放出の増加により重要な役割を担っている。
本研究では,SDO(Solar Dynamics Observatory)の画像を用いて,コロナホール領域を検出し,その大きさを推定するコンピュータビジョン技術を用いた。
さらに, 深層学習, 特にLong Short-Term Memory (LSTM) ネットワークを用いて, コロナホールの領域の傾向を分析し, 7日間にわたって, 様々な太陽地域にわたってその領域を予測する。
時系列データを調べることで、コロナホールの挙動のパターンを特定し、宇宙気象に対するその潜在的な影響を理解することを目指している。
この研究は、地球の技術システムに影響を与える可能性のある宇宙天気イベントを予測し、準備する能力を高める。
In the era of space exploration, coronal holes on the sun play a significant role due to their impact on satellites and aircraft through their open magnetic fields and increased solar wind emissions. This study employs computer vision techniques to detect coronal hole regions and estimate their sizes using imagery from the Solar Dynamics Observatory (SDO). Additionally, we utilize deep learning methods, specifically Long Short-Term Memory (LSTM) networks, to analyze trends in the area of coronal holes and predict their areas across various solar regions over a span of seven days. By examining time series data, we aim to identify patterns in coronal hole behavior and understand their potential effects on space weather. This research enhances our ability to anticipate and prepare for space weather events that could affect Earth's technological systems. | 翻訳日:2024-07-10 01:39:50 公開日:2024-07-08 |
# SynthesizRR: Retrieval Augmentation を用いた分散データセットの生成
SynthesizRR: Generating Diverse Datasets with Retrieval Augmentation ( http://arxiv.org/abs/2405.10040v2 ) ライセンス: Link先を確認 | Abhishek Divekar, Greg Durrett, | (参考訳) 大規模言語モデル(LLM)の能力を、計算とメモリの制約によりより小さな学生モデルに抽出することが望ましい。
分類タスクでこれを行う方法の1つはデータセット合成であり、LLMから各ラベルの例を生成することで達成できる。
合成に先立つアプローチでは、LLMのパラメトリック知識に頼って使用可能な例を生成する、ほとんどショットプロンプトを使用する。
しかし、これは繰り返しの問題、ポピュラーな実体への偏見、そして人間の文章と様式的な違いをもたらす。
本研究では,検索拡張を用いてデータセット合成プロセスにバラエティを導入するSynthesize by Retrieval and Refinement (SynthesizRR)を提案する。
我々は,トピック分類,感情分析,トーン検出,ユーモアの6つのデータセットの合成を経験的に研究し,複雑な合成戦略を必要とする。
また,SynthesizRRは,32ショットプロンプトと4つの先行アプローチと比較して,語彙的,意味的多様性,人文的テキストとの類似性,蒸留性能を大幅に改善することがわかった。
大規模なコードベースはhttps://github.com/amazon-science/synthesizrrで公開しています。
It is often desirable to distill the capabilities of large language models (LLMs) into smaller student models due to compute and memory constraints. One way to do this for classification tasks is via dataset synthesis, which can be accomplished by generating examples of each label from the LLM. Prior approaches to synthesis use few-shot prompting, which relies on the LLM's parametric knowledge to generate usable examples. However, this leads to issues of repetition, bias towards popular entities, and stylistic differences from human text. In this work, we propose Synthesize by Retrieval and Refinement (SynthesizRR), which uses retrieval augmentation to introduce variety into the dataset synthesis process: as retrieved passages vary, the LLM is seeded with different content to generate its examples. We empirically study the synthesis of six datasets, covering topic classification, sentiment analysis, tone detection, and humor, requiring complex synthesis strategies. We find that SynthesizRR greatly improves lexical and semantic diversity, similarity to human-written text, and distillation performance, when compared to 32-shot prompting and four prior approaches. We release our extensive codebase at https://github.com/amazon-science/synthesizrr | 翻訳日:2024-07-10 01:39:50 公開日:2024-07-08 |
# MVSGaussian: マルチビューステレオからの高速一般化可能なガウススプラッティング再構成
MVSGaussian: Fast Generalizable Gaussian Splatting Reconstruction from Multi-View Stereo ( http://arxiv.org/abs/2405.12218v2 ) ライセンス: Link先を確認 | Tianqi Liu, Guangcong Wang, Shoukang Hu, Liao Shen, Xinyi Ye, Yuhang Zang, Zhiguo Cao, Wei Li, Ziwei Liu, | (参考訳) MVSGaussianは、Multi-View Stereo (MVS) から導かれる新しい一般化可能な3次元ガウス表現手法であり、見えないシーンを効率的に再構築することができる。
具体的には
1) MVS を利用して幾何学的ガウス表現を符号化し,それをガウスパラメータに復号する。
2) 性能をさらに向上させるために, 新規なビュー合成のための効率的なボリュームレンダリング設計を組み込んだハイブリッドガウスレンダリングを提案する。
3)特定シーンの高速微調整を支援するため,一般化可能なモデルによって生成された点群を効果的に集約する多視点幾何一貫したアグリゲーション戦略を導入し,シーンごとの最適化の初期化に役立てる。
画像毎の微調整と秒間レンダリングを必要とする従来の一般化可能なNeRFベースの手法と比較して、MVSGaussianは各シーンにより良い合成品質でリアルタイムレンダリングを実現する。
バニラ3D-GSと比較すると、MVSGaussianは、より少ないトレーニング計算コストでより良いビュー合成を実現している。
DTU, Real Forward- facing, NeRF Synthetic, and Tanks and Templesデータセットの大規模な実験により、MVSGaussianは、説得力のある汎用性、リアルタイムレンダリング速度、高速なシーンごとの最適化によって、最先端のパフォーマンスを達成できることが確認された。
We present MVSGaussian, a new generalizable 3D Gaussian representation approach derived from Multi-View Stereo (MVS) that can efficiently reconstruct unseen scenes. Specifically, 1) we leverage MVS to encode geometry-aware Gaussian representations and decode them into Gaussian parameters. 2) To further enhance performance, we propose a hybrid Gaussian rendering that integrates an efficient volume rendering design for novel view synthesis. 3) To support fast fine-tuning for specific scenes, we introduce a multi-view geometric consistent aggregation strategy to effectively aggregate the point clouds generated by the generalizable model, serving as the initialization for per-scene optimization. Compared with previous generalizable NeRF-based methods, which typically require minutes of fine-tuning and seconds of rendering per image, MVSGaussian achieves real-time rendering with better synthesis quality for each scene. Compared with the vanilla 3D-GS, MVSGaussian achieves better view synthesis with less training computational cost. Extensive experiments on DTU, Real Forward-facing, NeRF Synthetic, and Tanks and Temples datasets validate that MVSGaussian attains state-of-the-art performance with convincing generalizability, real-time rendering speed, and fast per-scene optimization. | 翻訳日:2024-07-10 01:39:50 公開日:2024-07-08 |
# グローバル・ローカル・セマンティック・一貫性学習によるテキスト・ビデオ検索
Text-Video Retrieval with Global-Local Semantic Consistent Learning ( http://arxiv.org/abs/2405.12710v2 ) ライセンス: Link先を確認 | Haonan Zhang, Pengpeng Zeng, Lianli Gao, Jingkuan Song, Yihang Duan, Xinyu Lyu, Hengtao Shen, | (参考訳) 大規模画像テキスト事前学習モデル(例えばCLIP)をビデオ領域に適応させることは、テキストビデオ検索の最先端を表現している。
第一のアプローチは、テキストとビデオのペアを共通の埋め込み空間に転送することと、特定のエンティティ上のクロスモーダルな相互作用を活用してセマンティックアライメントを構築することである。
効果はあるものの、これらのパラダイムは計算コストを禁止し、非効率な検索に繋がる。
そこで本研究では,テキスト・ビデオ検索のモダリティにまたがる潜在的共有セマンティックセマンティックセマンティックセマンティックセマンティックセマンティックセマンティックセマンティックセマンティックセマンティック・ラーニング(GLSCL)を提案する。
具体的には、粗い粒度のアライメントを探索するパラメータフリーなグローバル相互作用モジュールを提案する。
そこで我々は,複数の学習可能なクエリを用いて,微粒なアライメントを学習するための潜在意味概念をキャプチャする共有ローカルインタラクションモジュールを考案した。
さらに、ビジュアルクエリと対応するテキストクエリの整合性を達成するために、ICL(Inter-Consistency Loss)が考案され、ビジュアル(テキスト)クエリ内の分散を反発させてより識別的な概念を生成するために、IDL(Intra-Diversity Loss)が開発された。
MSR-VTT, MSVD, DiDeMo, LSMDC, ActivityNet の5つの広く使用されているベンチマーク実験により,提案手法の有効性と有効性を実証した。
また,本手法はSOTAと同等の性能を示し,計算コストの約220倍の高速化を実現している。
コードは、https://github.com/zchoi/GLSCLで入手できる。
Adapting large-scale image-text pre-training models, e.g., CLIP, to the video domain represents the current state-of-the-art for text-video retrieval. The primary approaches involve transferring text-video pairs to a common embedding space and leveraging cross-modal interactions on specific entities for semantic alignment. Though effective, these paradigms entail prohibitive computational costs, leading to inefficient retrieval. To address this, we propose a simple yet effective method, Global-Local Semantic Consistent Learning (GLSCL), which capitalizes on latent shared semantics across modalities for text-video retrieval. Specifically, we introduce a parameter-free global interaction module to explore coarse-grained alignment. Then, we devise a shared local interaction module that employs several learnable queries to capture latent semantic concepts for learning fine-grained alignment. Furthermore, an Inter-Consistency Loss (ICL) is devised to accomplish the concept alignment between the visual query and corresponding textual query, and an Intra-Diversity Loss (IDL) is developed to repulse the distribution within visual (textual) queries to generate more discriminative concepts. Extensive experiments on five widely used benchmarks (i.e., MSR-VTT, MSVD, DiDeMo, LSMDC, and ActivityNet) substantiate the superior effectiveness and efficiency of the proposed method. Remarkably, our method achieves comparable performance with SOTA as well as being nearly 220 times faster in terms of computational cost. Code is available at: https://github.com/zchoi/GLSCL. | 翻訳日:2024-07-10 01:39:50 公開日:2024-07-08 |
# SemEval-2024 Task 3: 会話におけるマルチモーダル感情原因分析
SemEval-2024 Task 3: Multimodal Emotion Cause Analysis in Conversations ( http://arxiv.org/abs/2405.13049v3 ) ライセンス: Link先を確認 | Fanfan Wang, Heqing Ma, Jianfei Yu, Rui Xia, Erik Cambria, | (参考訳) 感情を理解する能力は人間のような人工知能の重要な要素であり、感情は人間の認知、意思決定、社会的相互作用に大きな影響を及ぼす。
会話における感情認識に加えて、会話における個人の感情状態の背後にある潜在的な原因を特定するタスクは、多くのアプリケーションシナリオにおいて非常に重要である。
会話におけるマルチモーダル感情原因分析(Multimodal Emotion Cause Analysis in Conversations)と名付けられたSemEval-2024タスク3を編成する。
異なるモダリティ設定の下では、2つのサブタスクで構成されている: テキスト感情因果ペア抽出 (TECPE) とマルチモーダル感情因果ペア抽出 (MECPE) である。
共有タスクには143件の登録があり、216件の応募が成功した。
本稿では,タスク,データセット,評価設定について紹介し,トップチームのシステムを要約し,参加者の知見について議論する。
The ability to understand emotions is an essential component of human-like artificial intelligence, as emotions greatly influence human cognition, decision making, and social interactions. In addition to emotion recognition in conversations, the task of identifying the potential causes behind an individual's emotional state in conversations, is of great importance in many application scenarios. We organize SemEval-2024 Task 3, named Multimodal Emotion Cause Analysis in Conversations, which aims at extracting all pairs of emotions and their corresponding causes from conversations. Under different modality settings, it consists of two subtasks: Textual Emotion-Cause Pair Extraction in Conversations (TECPE) and Multimodal Emotion-Cause Pair Extraction in Conversations (MECPE). The shared task has attracted 143 registrations and 216 successful submissions. In this paper, we introduce the task, dataset and evaluation settings, summarize the systems of the top teams, and discuss the findings of the participants. | 翻訳日:2024-07-10 01:29:45 公開日:2024-07-08 |
# SimPO: 参照なしリワードによるシンプルな参照最適化
SimPO: Simple Preference Optimization with a Reference-Free Reward ( http://arxiv.org/abs/2405.14734v2 ) ライセンス: Link先を確認 | Yu Meng, Mengzhou Xia, Danqi Chen, | (参考訳) 直接選好最適化 (DPO) は、人間のフィードバック(RLHF)からの強化学習における報酬関数を再パラメータ化し、単純さと訓練安定性を高めるために広く使われているオフライン選好最適化アルゴリズムである。
本研究では,よりシンプルかつ効果的なアプローチであるSimPOを提案する。
SimPOの有効性は重要な設計によるもので、シーケンスの平均ログ確率を暗黙の報酬として使用する。
この報酬の定式化はモデル生成と整合性を高め、参照モデルの必要性を排除し、より計算とメモリ効率を高める。
さらに、Bradley-Terry目標に対して目標報酬マージンを導入し、勝利と負けのマージンを大きくし、アルゴリズムの性能をさらに向上させる。
私たちはSimPOとDPOを比較し、MistralやLlama3といったベースモデルとインストラクションチューニングモデルを含む、最先端のトレーニング設定の最新のバリエーションを比較します。
本稿では,AlpacaEval 2 MT-Bench,最近のアレナ・ハードベンチマークなど,広範囲な命令追従ベンチマークについて検討した。
以上の結果から,SimPOは応答長を大幅に増加させることなく,既存のアプローチよりも一貫して,はるかに優れていたことが示唆された。
具体的には、AlpacaEval 2では最大6.4ポイント、Arena-Hardでは最大7.5ポイントでDPOを上回っている。
私たちのトップパフォーマンスモデルは、Llama3-8B-Instruct上に構築され、AlpacaEval 2で53.7の勝利率、リーダーボードでClaude 3 Opusを上回り、Arena-Hardで36.5の勝利率を達成し、最も強力な8Bオープンソースモデルとなった。
Direct Preference Optimization (DPO) is a widely used offline preference optimization algorithm that reparameterizes reward functions in reinforcement learning from human feedback (RLHF) to enhance simplicity and training stability. In this work, we propose SimPO, a simpler yet more effective approach. The effectiveness of SimPO is attributed to a key design: using the average log probability of a sequence as the implicit reward. This reward formulation better aligns with model generation and eliminates the need for a reference model, making it more compute and memory efficient. Additionally, we introduce a target reward margin to the Bradley-Terry objective to encourage a larger margin between the winning and losing responses, further enhancing the algorithm's performance. We compare SimPO to DPO and its latest variants across various state-of-the-art training setups, including both base and instruction-tuned models like Mistral and Llama3. We evaluated on extensive instruction-following benchmarks, including AlpacaEval 2, MT-Bench, and the recent challenging Arena-Hard benchmark. Our results demonstrate that SimPO consistently and significantly outperforms existing approaches without substantially increasing response length. Specifically, SimPO outperforms DPO by up to 6.4 points on AlpacaEval 2 and by up to 7.5 points on Arena-Hard. Our top-performing model, built on Llama3-8B-Instruct, achieves a remarkable 53.7 length-controlled win rate on AlpacaEval 2 -- surpassing Claude 3 Opus on the leaderboard, and a 36.5 win rate on Arena-Hard -- making it the strongest 8B open-source model. | 翻訳日:2024-07-10 01:29:45 公開日:2024-07-08 |
# より少ない - 簡潔なネットワーク説明の発見
Less is More: Discovering Concise Network Explanations ( http://arxiv.org/abs/2405.15243v3 ) ライセンス: Link先を確認 | Neehar Kondapaneni, Markus Marks, Oisin Mac Aodha, Pietro Perona, | (参考訳) 本稿では,深層画像分類器の解釈可能性を高めるために,人間の理解可能な視覚的説明を生成する新しい手法であるDiscovering Conceptual Network Explanations (DCNE)を紹介する。
本手法は,クラス間の識別に重要な視覚的説明を自動的に見つける。
これは3つの基準を同時に最適化することで達成される。
提案手法は,最近導入されたCRP(Concept Relevance Propagation)の説明可能性に基づく。
CRPは個々の神経細胞の活性化を記述するのに効果的であるが、概念が多すぎるため、人間の理解に影響を及ぼす。
その代わり、DCNEはいくつかの重要な説明を選択する。
我々は,鳥の分類を課題とする新たな評価データセットを導入し,DCNEの説明のアライメントと人間の専門家による説明のアライメントを比較した。
既存のeXplainable Artificial Intelligence (XAI)法と比較して、DCNEはネットワーク説明を要約する際の簡潔さと完全性の間に望ましいトレードオフがある。
CRPの説明の1/30を生成するが、説明の質はわずかに低下する。
DCNEは、ニューラルネットワークの決定を人間にアクセスし、解釈できるようにするための一歩であり、XAIの研究者と実践者の両方にとって貴重なツールとモデルアライメントを提供する。
We introduce Discovering Conceptual Network Explanations (DCNE), a new approach for generating human-comprehensible visual explanations to enhance the interpretability of deep neural image classifiers. Our method automatically finds visual explanations that are critical for discriminating between classes. This is achieved by simultaneously optimizing three criteria: the explanations should be few, diverse, and human-interpretable. Our approach builds on the recently introduced Concept Relevance Propagation (CRP) explainability method. While CRP is effective at describing individual neuronal activations, it generates too many concepts, which impacts human comprehension. Instead, DCNE selects the few most important explanations. We introduce a new evaluation dataset centered on the challenging task of classifying birds, enabling us to compare the alignment of DCNE's explanations to those of human expert-defined ones. Compared to existing eXplainable Artificial Intelligence (XAI) methods, DCNE has a desirable trade-off between conciseness and completeness when summarizing network explanations. It produces 1/30 of CRP's explanations while only resulting in a slight reduction in explanation quality. DCNE represents a step forward in making neural network decisions accessible and interpretable to humans, providing a valuable tool for both researchers and practitioners in XAI and model alignment. | 翻訳日:2024-07-10 01:29:45 公開日:2024-07-08 |
# Fast TRAC: 生涯強化学習のためのパラメータフリー最適化
Fast TRAC: A Parameter-Free Optimizer for Lifelong Reinforcement Learning ( http://arxiv.org/abs/2405.16642v2 ) ライセンス: Link先を確認 | Aneesh Muppidi, Zhiyu Zhang, Heng Yang, | (参考訳) 生涯強化学習(RL)における重要な課題は、前回の学習がエージェントの新たなタスクへの適応を妨げる、可塑性の喪失である。
正規化とリセットは有効であるが、初期および環境に依存した調整において正確なハイパーパラメータ選択が必要となる。
オンライン凸最適化の原理的理論に基づいて, TRACと呼ばれる長寿命RLのパラメータフリー最適化手法を提案する。
Procgen、Atari、Gym Controlの環境に対する大規模な実験により、TRACは驚くほど可塑性の損失を軽減し、非凸かつ非定常な最適化問題にもかかわらず、挑戦的な分布シフトに迅速に適応することを示した。
A key challenge in lifelong reinforcement learning (RL) is the loss of plasticity, where previous learning progress hinders an agent's adaptation to new tasks. While regularization and resetting can help, they require precise hyperparameter selection at the outset and environment-dependent adjustments. Building on the principled theory of online convex optimization, we present a parameter-free optimizer for lifelong RL, called TRAC, which requires no tuning or prior knowledge about the distribution shifts. Extensive experiments on Procgen, Atari, and Gym Control environments show that TRAC works surprisingly well-mitigating loss of plasticity and rapidly adapting to challenging distribution shifts-despite the underlying optimization problem being nonconvex and nonstationary. | 翻訳日:2024-07-10 01:29:45 公開日:2024-07-08 |
# 構造雑音をもつスパイク行列モデルに対する情報限界とThouless-Anderson-Palmer方程式
Information limits and Thouless-Anderson-Palmer equations for spiked matrix models with structured noise ( http://arxiv.org/abs/2405.20993v2 ) ライセンス: Link先を確認 | Jean Barbier, Francesco Camilli, Marco Mondelli, Yizhou Xu, | (参考訳) 我々は、構造付きスパイクモデルに対するベイズ推定の原型的問題を考える: 低ランク信号は加法雑音によって破壊される。
ノイズがガウスウィグナー行列であるときに、情報理論とアルゴリズムの限界の両方がよく理解されているが、より現実的な構造的雑音の場合はまだ困難である。
数学的トラクタビリティを維持しながら構造を捉えるために、一行の作業は回転不変ノイズに焦点を当てた。
しかし、既存の研究は準最適アルゴリズムを提供するか、ノイズアンサンブルの特殊な場合に限定される。
本稿では、統計物理学(レプリカ法)とランダム行列理論(一般化球面積分)のツールを用いて、一般的なトレースアンサンブルから引き出された雑音行列に対する情報理論的限界を初めて特徴づける。
注目すべきことに、我々の分析は回転不変モデルと代理ガウスモデルの間の漸近同値を明らかにする。
最後に、適応的Thouless-Anderson-Palmer(TAP)方程式に着想を得た効率的なアルゴリズムを用いて、予測された統計的限界を飽和させる方法を示す。
We consider a prototypical problem of Bayesian inference for a structured spiked model: a low-rank signal is corrupted by additive noise. While both information-theoretic and algorithmic limits are well understood when the noise is a Gaussian Wigner matrix, the more realistic case of structured noise still proves to be challenging. To capture the structure while maintaining mathematical tractability, a line of work has focused on rotationally invariant noise. However, existing studies either provide sub-optimal algorithms or are limited to special cases of noise ensembles. In this paper, using tools from statistical physics (replica method) and random matrix theory (generalized spherical integrals) we establish the first characterization of the information-theoretic limits for a noise matrix drawn from a general trace ensemble. Remarkably, our analysis unveils the asymptotic equivalence between the rotationally invariant model and a surrogate Gaussian one. Finally, we show how to saturate the predicted statistical limits using an efficient algorithm inspired by the theory of adaptive Thouless-Anderson-Palmer (TAP) equations. | 翻訳日:2024-07-10 01:29:45 公開日:2024-07-08 |
# 因果推論のための二重ロバスト学習に関する研究
A Tutorial on Doubly Robust Learning for Causal Inference ( http://arxiv.org/abs/2406.00853v2 ) ライセンス: Link先を確認 | Hlynur Davíð Hlynsson, | (参考訳) 二重頑健な学習は、妥当性スコアと結果モデリングを統合することにより、観測データからの因果推論のための堅牢なフレームワークを提供する。
理論上は魅力的だが、複雑でアクセス不能なソフトウェアのために、実用的採用は限定的のままである。
このチュートリアルは、二重に堅牢なメソッドをデミスティフィケートし、EconMLパッケージを使ってアプリケーションをデモすることを目的としている。
本稿では、因果推論の導入、結果モデリングの原理と妥当性スコアの議論、シミュレートされたケーススタディによる二重頑健なアプローチについて説明する。
方法論を簡素化し、実践的なコーディング例を提供することで、データサイエンスと統計学の研究者や実践者にとって、二重に堅牢な学習を利用できるようにする。
Doubly robust learning offers a robust framework for causal inference from observational data by integrating propensity score and outcome modeling. Despite its theoretical appeal, practical adoption remains limited due to perceived complexity and inaccessible software. This tutorial aims to demystify doubly robust methods and demonstrate their application using the EconML package. We provide an introduction to causal inference, discuss the principles of outcome modeling and propensity scores, and illustrate the doubly robust approach through simulated case studies. By simplifying the methodology and offering practical coding examples, we intend to make doubly robust learning accessible to researchers and practitioners in data science and statistics. | 翻訳日:2024-07-10 01:20:00 公開日:2024-07-08 |
# SceneTextGen:拡散モデルを用いたレイアウト非依存のシーンテキスト画像合成
SceneTextGen: Layout-Agnostic Scene Text Image Synthesis with Diffusion Models ( http://arxiv.org/abs/2406.01062v3 ) ライセンス: Link先を確認 | Qilong Zhangli, Jindong Jiang, Di Liu, Licheng Yu, Xiaoliang Dai, Ankit Ramchandani, Guan Pang, Dimitris N. Metaxas, Praveen Krishnan, | (参考訳) 拡散モデルは画像生成の質を大幅に向上させてきたが、これらの画像内のテキストを正確かつコヒーレントにレンダリングする能力は依然として大きな課題である。
従来の拡散に基づくシーンテキスト生成法は、中間レイアウト出力に依存して制限されるのが一般的である。
この依存はしばしば、レイアウト生成フェーズの決定論的性質から生じる固有の制限である、テキストスタイルとフォントの制限された多様性をもたらす。
これらの課題に対処するために,本稿では,事前定義されたレイアウトステージの必要性を回避するために設計された,新しい拡散ベースモデルであるSceneTextGenを紹介する。
そうすることで、SceneTextGenはテキストのより自然で多様な表現を促進する。
SceneTextGenの斬新さは、3つの重要なコンポーネントの統合にある: 詳細なタイポグラフィ特性をキャプチャする文字レベルエンコーダと、文字レベルのインスタンスセグメンテーションモデルと、不要なテキスト生成とマイナーな文字不正確な問題に対処するワードレベルスポッティングモデルである。
本手法の有効性は,標準拡散法とテキスト固有法を比較検討し,異なる公開視覚テキストデータセット間で生成した画像に対する文字認識率の向上を示すことで検証した。
While diffusion models have significantly advanced the quality of image generation, their capability to accurately and coherently render text within these images remains a substantial challenge. Conventional diffusion-based methods for scene text generation are typically limited by their reliance on an intermediate layout output. This dependency often results in a constrained diversity of text styles and fonts, an inherent limitation stemming from the deterministic nature of the layout generation phase. To address these challenges, this paper introduces SceneTextGen, a novel diffusion-based model specifically designed to circumvent the need for a predefined layout stage. By doing so, SceneTextGen facilitates a more natural and varied representation of text. The novelty of SceneTextGen lies in its integration of three key components: a character-level encoder for capturing detailed typographic properties, coupled with a character-level instance segmentation model and a word-level spotting model to address the issues of unwanted text generation and minor character inaccuracies. We validate the performance of our method by demonstrating improved character recognition rates on generated images across different public visual text datasets in comparison to both standard diffusion based methods and text specific methods. | 翻訳日:2024-07-10 01:20:00 公開日:2024-07-08 |
# サーキットブレーカによるアライメントとロバスト性の改善
Improving Alignment and Robustness with Circuit Breakers ( http://arxiv.org/abs/2406.04313v3 ) ライセンス: Link先を確認 | Andy Zou, Long Phan, Justin Wang, Derek Duenas, Maxwell Lin, Maksym Andriushchenko, Rowan Wang, Zico Kolter, Matt Fredrikson, Dan Hendrycks, | (参考訳) AIシステムは有害な行動をとることができ、敵の攻撃に対して非常に脆弱である。
本稿では,近年の表現工学の進歩に触発されて,有害な出力を「回路ブレーカー」で処理することでモデルを中断するアプローチを提案する。
拒否訓練などのアライメント改善を目的とした既存の技術は、しばしばバイパスされる。
敵の訓練のような技術は、特定の攻撃に対抗して穴を塞ごうとする。
拒絶訓練や敵対訓練の代替として、サーキットブレーキングは、そもそも有害なアウトプットの原因となる表現を直接制御する。
我々の手法はテキストのみの言語モデルとマルチモーダル言語モデルの両方に適用でき、強力な目に見えない攻撃があっても、ユーティリティを犠牲にすることなく有害なアウトプットの発生を防げます。
特に、スタンドアロン画像認識における敵対的堅牢性は未解決の課題であるが、回路ブレーカーは、有害なコンテンツを生み出すことを目的とした画像「ヒジャック」に対して、より大きなマルチモーダルシステムを確実に耐えられるようにしている。
最後に、我々のアプローチをAIエージェントに拡張し、攻撃されているときの有害な行動の率を大幅に低下させることを示す。
当社のアプローチは、有害な行動や敵の攻撃に対する信頼性の高い安全対策の開発において、大きな前進を示している。
AI systems can take harmful actions and are highly vulnerable to adversarial attacks. We present an approach, inspired by recent advances in representation engineering, that interrupts the models as they respond with harmful outputs with "circuit breakers." Existing techniques aimed at improving alignment, such as refusal training, are often bypassed. Techniques such as adversarial training try to plug these holes by countering specific attacks. As an alternative to refusal training and adversarial training, circuit-breaking directly controls the representations that are responsible for harmful outputs in the first place. Our technique can be applied to both text-only and multimodal language models to prevent the generation of harmful outputs without sacrificing utility -- even in the presence of powerful unseen attacks. Notably, while adversarial robustness in standalone image recognition remains an open challenge, circuit breakers allow the larger multimodal system to reliably withstand image "hijacks" that aim to produce harmful content. Finally, we extend our approach to AI agents, demonstrating considerable reductions in the rate of harmful actions when they are under attack. Our approach represents a significant step forward in the development of reliable safeguards to harmful behavior and adversarial attacks. | 翻訳日:2024-07-10 01:20:00 公開日:2024-07-08 |
# フラジイルモデル透かしに関する調査
A Survey of Fragile Model Watermarking ( http://arxiv.org/abs/2406.04809v4 ) ライセンス: Link先を確認 | Zhenzhe Gao, Yu Cheng, Zhaoxia Yin, | (参考訳) ニューラルネットワークに対する敵の攻撃と従来のマルチメディアの脆弱な透かしの両方から着想を得たモデル脆弱な透かしは、改ざんを検出する強力なツールとして徐々に現れ、近年の急速な発展を目撃している。
モデル著作権の特定に広く使われている堅牢な透かしとは異なり、モデルの脆弱な透かしは、バックドア、中毒、圧縮などの予期せぬ変更を受けたかどうかを特定するように設計されている。
これらの変更は、古典的な自動運転シナリオにおける速度制限標識として停止標識を誤識別するなど、モデルユーザーに未知のリスクをもたらす可能性がある。
本稿では, モデル脆性透かしの開始以来の分野における関連研究の概要を概説し, モデル脆性透かしにおける今後の取り組みについて概説する。
Model fragile watermarking, inspired by both the field of adversarial attacks on neural networks and traditional multimedia fragile watermarking, has gradually emerged as a potent tool for detecting tampering, and has witnessed rapid development in recent years. Unlike robust watermarks, which are widely used for identifying model copyrights, fragile watermarks for models are designed to identify whether models have been subjected to unexpected alterations such as backdoors, poisoning, compression, among others. These alterations can pose unknown risks to model users, such as misidentifying stop signs as speed limit signs in classic autonomous driving scenarios. This paper provides an overview of the relevant work in the field of model fragile watermarking since its inception, categorizing them and revealing the developmental trajectory of the field, thus offering a comprehensive survey for future endeavors in model fragile watermarking. | 翻訳日:2024-07-10 01:20:00 公開日:2024-07-08 |
# タンパク質理解のための大規模言語モデルのための微調整データセットとベンチマーク
A Fine-tuning Dataset and Benchmark for Large Language Models for Protein Understanding ( http://arxiv.org/abs/2406.05540v2 ) ライセンス: Link先を確認 | Yiqing Shen, Zan Chen, Michail Mamalakis, Luhan He, Haiyang Xia, Tianbin Li, Yanzhou Su, Junjun He, Yu Guang Wang, | (参考訳) タンパク質配列とそれらの配列構造における自然言語の並行性は、タンパク質理解への大規模言語モデル(LLM)の適用にインスピレーションを与えている。
NLP における LLM の成功にもかかわらず、タンパク質配列の解釈の有効性は、主にタンパク質配列と記述テキストをリンクするデータセットがないために、未解決の問題である。
その後、研究者は、タンパク質配列エンコーダと事前訓練されたLLMを統合することで、LLMをタンパク質理解に適応させようとした。
しかし、この適応は根本的な疑問を提起する: "Can LLMs, originally designed for NLP, effectively comhend protein sequences as a form of language?
現在のデータセットは、タンパク質配列と対応するテキスト記述との直接的な相関が欠如しているため、この問題に対処するのに不足している。
このギャップを埋めるために、我々は、タンパク質配列の理解能力を高めるために、LLMのさらなる自己教師付き事前学習と教師付き微調整(SFT)のために設計されたデータセットであるProteinLMDatasetを紹介する。
具体的には、ProteinLMDatasetには、事前トレーニングのための176億のトークンと、SFTのための893,000の命令が含まれている。
さらに,LCMのタンパク質理解能力を評価するために,第1のベンチマークデータセットであるProteinLMBenchを提案する。
ProteinLMBenchは、タンパク質関連の詳細と配列を複数の言語に含み、タンパク質理解におけるLLMの能力を評価するための新しい標準を確立している。
大規模な言語モデルであるInternLM2-7Bは、ProteinLMDatasetで事前訓練され微調整され、ProteinLMBenchでGPT-4を上回り、高い精度のスコアを得た。
The parallels between protein sequences and natural language in their sequential structures have inspired the application of large language models (LLMs) to protein understanding. Despite the success of LLMs in NLP, their effectiveness in comprehending protein sequences remains an open question, largely due to the absence of datasets linking protein sequences to descriptive text. Researchers have then attempted to adapt LLMs for protein understanding by integrating a protein sequence encoder with a pre-trained LLM. However, this adaptation raises a fundamental question: "Can LLMs, originally designed for NLP, effectively comprehend protein sequences as a form of language?" Current datasets fall short in addressing this question due to the lack of a direct correlation between protein sequences and corresponding text descriptions, limiting the ability to train and evaluate LLMs for protein understanding effectively. To bridge this gap, we introduce ProteinLMDataset, a dataset specifically designed for further self-supervised pretraining and supervised fine-tuning (SFT) of LLMs to enhance their capability for protein sequence comprehension. Specifically, ProteinLMDataset includes 17.46 billion tokens for pretraining and 893,000 instructions for SFT. Additionally, we present ProteinLMBench, the first benchmark dataset consisting of 944 manually verified multiple-choice questions for assessing the protein understanding capabilities of LLMs. ProteinLMBench incorporates protein-related details and sequences in multiple languages, establishing a new standard for evaluating LLMs' abilities in protein comprehension. The large language model InternLM2-7B, pretrained and fine-tuned on the ProteinLMDataset, outperforms GPT-4 on ProteinLMBench, achieving the highest accuracy score. | 翻訳日:2024-07-10 01:20:00 公開日:2024-07-08 |
# 病理組織学的膵腫瘍マイクロ環境サブタイプ予測のためのゲノム誘導型表現学習
Genomics-guided Representation Learning for Pathologic Pan-cancer Tumor Microenvironment Subtype Prediction ( http://arxiv.org/abs/2406.06517v2 ) ライセンス: Link先を確認 | Fangliangzi Meng, Hongrun Zhang, Ruodan Yan, Guohui Chuai, Chao Li, Qi Liu, | (参考訳) 腫瘍微小環境 (TME) の特徴は, その複雑さと不均一性により困難である。
組織の特徴には比較的一貫したTME特性が組み込まれており、予測が困難である。
TMEサブタイプを正確に分類する能力は、臨床腫瘍診断および精密医療において重要である。
異なる起源の腫瘍が類似した微小環境パターンを共有できるという観察に基づいて,パンキャンサーTMEサブタイプ予測にWSI(Whole Slide Image)を用いたゲノム誘導シームズ表現学習フレームワークPathoTMEを提案する。
具体的には、シームズネットワークを利用してゲノム情報を正規化要因として活用し、トレーニングフェーズにおけるWSI埋め込み学習を支援する。
さらに,組織型変異の影響を軽減するために,DANN(Domain Adversarial Neural Network)を用いる。
ドメインバイアスをなくすため、動的なWSIプロンプトはモデルの機能をさらに解き放つように設計されています。
我々のモデルは,TCGAデータセット上の23種類の癌に対して,最先端の手法よりも優れた性能を実現する。
私たちのコードはhttps://github.com/Mengflz/PathoTME.comで公開されています。
The characterization of Tumor MicroEnvironment (TME) is challenging due to its complexity and heterogeneity. Relatively consistent TME characteristics embedded within highly specific tissue features, render them difficult to predict. The capability to accurately classify TME subtypes is of critical significance for clinical tumor diagnosis and precision medicine. Based on the observation that tumors with different origins share similar microenvironment patterns, we propose PathoTME, a genomics-guided Siamese representation learning framework employing Whole Slide Image (WSI) for pan-cancer TME subtypes prediction. Specifically, we utilize Siamese network to leverage genomic information as a regularization factor to assist WSI embeddings learning during the training phase. Additionally, we employ Domain Adversarial Neural Network (DANN) to mitigate the impact of tissue type variations. To eliminate domain bias, a dynamic WSI prompt is designed to further unleash the model's capabilities. Our model achieves better performance than other state-of-the-art methods across 23 cancer types on TCGA dataset. Our code is available at https://github.com/Mengflz/PathoTME. | 翻訳日:2024-07-10 01:20:00 公開日:2024-07-08 |
# PET/CT画像におけるAI損傷追跡に向けて:PSMA PET/CTスキャンに応用したシームズベースのCNNパイプライン
Towards AI Lesion Tracking in PET/CT Imaging: A Siamese-based CNN Pipeline applied on PSMA PET/CT Scans ( http://arxiv.org/abs/2406.09327v3 ) ライセンス: Link先を確認 | Stefan P. Hein, Manuel Schultheiss, Andrei Gafita, Raphael Zaum, Farid Yagubbayli, Robert Tauber, Isabel Rauscher, Matthias Eiber, Franz Pfeiffer, Wolfgang A. Weber, | (参考訳) 全身療法による腫瘍反応の評価はPET/CTの主な応用の1つである。
定期的に、複数の病変のうち、インデックス病変の小さなサブセットのみが分析される。
しかし、この操作者による選択は、治療に対する反応の有意な転移間不均一性により、結果をバイアスする可能性がある。
自動AIベースの病変追跡アプローチは、より多くの病変の分析を可能にし、腫瘍反応のより良い評価を可能にすることを約束する。
本研究はPET/CTスキャン間の病変追跡のためのSamese CNNアプローチを導入する。
転移性前立腺癌に対する[177Lu]Lu-PSMA療法の2サイクル後の全身ベースラインおよび[68Ga]Ga-または[18F]F-PSMA PET/CTスキャンにおける骨病変の追跡について検討した。
データ準備には病変のセグメンテーションとアフィンの登録が含まれる。
本アルゴリズムは適切な病変のパッチを抽出し,対応する病変または非対応病変として病変のパッチペアを分類する訓練を施したシームズCNNに転送する。
異なる入力パッチタイプと2Dおよび3DのSiameseネットワークで実験が行われた。
CNNモデルは病変の特定に成功し、AUC=0.91の最良の構成で病変追跡精度は83 %に達した。
残存病変では, 再同定率は89 %であった。
我々は,PSMA PET/CTスキャンにおいて,CNNが多発病変の追跡を容易にすることを証明した。
治療結果の予測を改善するためには,今後の臨床研究が必要である。
Assessing tumor response to systemic therapies is one of the main applications of PET/CT. Routinely, only a small subset of index lesions out of multiple lesions is analyzed. However, this operator dependent selection may bias the results due to possible significant inter-metastatic heterogeneity of response to therapy. Automated, AI based approaches for lesion tracking hold promise in enabling the analysis of many more lesions and thus providing a better assessment of tumor response. This work introduces a Siamese CNN approach for lesion tracking between PET/CT scans. Our approach is applied on the laborious task of tracking a high number of bone lesions in full-body baseline and follow-up [68Ga]Ga- or [18F]F-PSMA PET/CT scans after two cycles of [177Lu]Lu-PSMA therapy of metastatic castration resistant prostate cancer patients. Data preparation includes lesion segmentation and affine registration. Our algorithm extracts suitable lesion patches and forwards them into a Siamese CNN trained to classify the lesion patch pairs as corresponding or non-corresponding lesions. Experiments have been performed with different input patch types and a Siamese network in 2D and 3D. The CNN model successfully learned to classify lesion assignments, reaching a lesion tracking accuracy of 83 % in its best configuration with an AUC = 0.91. For remaining lesions the pipeline accomplished a re-identification rate of 89 %. We proved that a CNN may facilitate the tracking of multiple lesions in PSMA PET/CT scans. Future clinical studies are necessary if this improves the prediction of the outcome of therapies. | 翻訳日:2024-07-10 01:10:12 公開日:2024-07-08 |
# 不均一フェデレーションエッジ学習におけるより高速な収束:適応的クラスタデータ共有アプローチ
Faster Convergence on Heterogeneous Federated Edge Learning: An Adaptive Clustered Data Sharing Approach ( http://arxiv.org/abs/2406.09776v2 ) ライセンス: Link先を確認 | Gang Hu, Yinglei Teng, Nan Wang, Zhu Han, | (参考訳) Federated Edge Learning(FEEL)は、6G Hyper-Connectivityの先駆的な分散機械学習パラダイムとして登場し、データプライバシを保ちながらモノのインターネット(IoT)デバイスからのデータを活用する。
しかし、現在のFEELアルゴリズムは非独立かつ非独立に分散した(非IID)データに苦しむため、通信コストの上昇とモデルの精度が損なわれる。
FEEL内のこれらの統計的不均衡に対処するために、クラスタ化データ共有フレームワークを導入し、サイドリンク支援マルチキャストを通じて、クラスタヘッドから信頼できるアソシエイトに部分的なデータを選択的に共有することで、データの均一性を緩和する。
集合的なコミュニケーションパターンはFEELトレーニングに不可欠なものであり、クラスタの形成と通信の効率の両方がトレーニングのレイテンシと精度に同時に影響を与える。
厳密に結合されたデータ共有とリソース最適化に対処するため、最適化問題をクライアントクラスタリングと効率的なデータ共有サブプロブレムに分解する。
具体的には, 分散型適応クラスタリングアルゴリズム (DACA) を3つの誘電性クラスタ形成条件に基づいて考案し, 最大共有収率を確保する。
一方、確率的最適化に基づく共同計算周波数と共有データボリューム最適化(JFVO)アルゴリズムを設計し、不確実な目的関数を用いて最適なリソース割り当てを決定する。
実験により,提案フレームワークは,限られた通信環境において,より高速な収束率とモデル精度を有する非IIDデータセット上でのFEELを促進することを示した。
Federated Edge Learning (FEEL) emerges as a pioneering distributed machine learning paradigm for the 6G Hyper-Connectivity, harnessing data from the Internet of Things (IoT) devices while upholding data privacy. However, current FEEL algorithms struggle with non-independent and non-identically distributed (non-IID) data, leading to elevated communication costs and compromised model accuracy. To address these statistical imbalances within FEEL, we introduce a clustered data sharing framework, mitigating data heterogeneity by selectively sharing partial data from cluster heads to trusted associates through sidelink-aided multicasting. The collective communication pattern is integral to FEEL training, where both cluster formation and the efficiency of communication and computation impact training latency and accuracy simultaneously. To tackle the strictly coupled data sharing and resource optimization, we decompose the overall optimization problem into the clients clustering and effective data sharing subproblems. Specifically, a distribution-based adaptive clustering algorithm (DACA) is devised basing on three deductive cluster forming conditions, which ensures the maximum sharing yield. Meanwhile, we design a stochastic optimization based joint computed frequency and shared data volume optimization (JFVO) algorithm, determining the optimal resource allocation with an uncertain objective function. The experiments show that the proposed framework facilitates FEEL on non-IID datasets with faster convergence rate and higher model accuracy in a limited communication environment. | 翻訳日:2024-07-10 01:10:12 公開日:2024-07-08 |
# SkySenseGPT: リモートセンシングビジョン言語理解のための微粒化インストラクションチューニングデータセットとモデル
SkySenseGPT: A Fine-Grained Instruction Tuning Dataset and Model for Remote Sensing Vision-Language Understanding ( http://arxiv.org/abs/2406.10100v2 ) ライセンス: Link先を確認 | Junwei Luo, Zhen Pang, Yongjun Zhang, Tingzhu Wang, Linlin Wang, Bo Dang, Jiangwei Lao, Jian Wang, Jingdong Chen, Yihua Tan, Yansheng Li, | (参考訳) リモートセンシング大規模マルチモードモデル(RSLMM)は、リモートセンシング画像(RSI)の理解において、急速に発展し、重要な機能を示している。
しかし、既存のデータセットの制限により、複雑なリモートセンシングシーンにおけるオブジェクト間のリッチな意味関係を理解するのに、RSLMMは欠点がある。
RSLMMの複雑な理解能力を解き放つために,1,800,851個の命令サンプルを含む大規模命令チューニングデータセットFIT-RSを提案する。
FIT-RSは、共通解釈タスクをカバーし、関係推論から画像レベルのシーングラフ生成まで、難易度をエスカレートするいくつかの複雑な理解タスクを革新的に導入する。
FIT-RSに基づいてFIT-RSFGベンチマークを構築した。
さらに,FIT-RSRCと呼ばれるLMMの細粒度関係理解能力を評価するための新しいベンチマークを構築した。
提案するSkySenseGPTは,公開データセットとFIT-RSFGの両方で優れた性能を示し,既存のRSLMMを超えている。
我々は、FIT-RSデータセットがRSLMMの関係理解能力を向上し、リモートセンシングコミュニティのための大規模きめ細かなデータソースを提供することを期待している。
データセットはhttps://github.com/Luo-Z13/SkySenseGPTで利用可能になる
Remote Sensing Large Multi-Modal Models (RSLMMs) are developing rapidly and showcase significant capabilities in remote sensing imagery (RSI) comprehension. However, due to the limitations of existing datasets, RSLMMs have shortcomings in understanding the rich semantic relations among objects in complex remote sensing scenes. To unlock RSLMMs' complex comprehension ability, we propose a large-scale instruction tuning dataset FIT-RS, containing 1,800,851 instruction samples. FIT-RS covers common interpretation tasks and innovatively introduces several complex comprehension tasks of escalating difficulty, ranging from relation reasoning to image-level scene graph generation. Based on FIT-RS, we build the FIT-RSFG benchmark. Furthermore, we establish a new benchmark to evaluate the fine-grained relation comprehension capabilities of LMMs, named FIT-RSRC. Based on combined instruction data, we propose SkySenseGPT, which achieves outstanding performance on both public datasets and FIT-RSFG, surpassing existing RSLMMs. We hope the FIT-RS dataset can enhance the relation comprehension capability of RSLMMs and provide a large-scale fine-grained data source for the remote sensing community. The dataset will be available at https://github.com/Luo-Z13/SkySenseGPT | 翻訳日:2024-07-10 01:10:12 公開日:2024-07-08 |
# 検索付加生成に及ぼす量子化の影響:小型LLMの解析
The Impact of Quantization on Retrieval-Augmented Generation: An Analysis of Small LLMs ( http://arxiv.org/abs/2406.10251v2 ) ライセンス: Link先を確認 | Mert Yazan, Suzan Verberne, Frederik Situmeang, | (参考訳) 学習後の量子化は、Large Language Models (LLM) の計算需要を減らすが、その能力の一部を弱める可能性がある。
LLM能力はスケールとともに出現するので、より小さなLCMは量子化に敏感である。
本稿では,量子化がLLMの検索強化生成(RAG)能力にどのように影響するかを,より長い文脈で検討する。
複数の文書に対する長文推論を必要とするため、RAGを用いることが難しいため、評価のためにパーソナライズを選択した。
元のFP16と、複数の7Bと8BのINT4の性能を2つのタスクで比較し、検索された文書の数を徐々に増加させ、より長いコンテキストに対して量子化されたモデルがどのように一致するかを検証した。
検索の効果をよりよく理解するために,本実験における3つの検索モデルの評価を行った。
この結果から, 7B LLM がそのタスクをうまく実行した場合, 量子化ではその性能や長文推論能力が損なわれないことが判明した。
我々は、RAGを量子化された小さなLCMで利用することは可能であると結論付けている。
Post-training quantization reduces the computational demand of Large Language Models (LLMs) but can weaken some of their capabilities. Since LLM abilities emerge with scale, smaller LLMs are more sensitive to quantization. In this paper, we explore how quantization affects smaller LLMs' ability to perform retrieval-augmented generation (RAG), specifically in longer contexts. We chose personalization for evaluation because it is a challenging domain to perform using RAG as it requires long-context reasoning over multiple documents. We compare the original FP16 and the quantized INT4 performance of multiple 7B and 8B LLMs on two tasks while progressively increasing the number of retrieved documents to test how quantized models fare against longer contexts. To better understand the effect of retrieval, we evaluate three retrieval models in our experiments. Our findings reveal that if a 7B LLM performs the task well, quantization does not impair its performance and long-context reasoning capabilities. We conclude that it is possible to utilize RAG with quantized smaller LLMs. | 翻訳日:2024-07-10 01:10:12 公開日:2024-07-08 |
# 二次元量子イジングモデルにおける制約力学と閉じ込め
Constrained dynamics and confinement in the two-dimensional quantum Ising model ( http://arxiv.org/abs/2406.11979v2 ) ライセンス: Link先を確認 | Luka Pavešić, Daniel Jaschke, Simone Montangero, | (参考訳) 量子イジングモデルの2次元正方格子上のダイナミクスを16進数16$スピンまで調べる。
次相では, モデルが動的に制約されたダイナミックスを示すことが予測され, 基本励起の抑制と熱の緩やかな熱化が生じる。
閉じ込めのシグネチャを実証した後, 対向磁化領域の積状態の急激なクエンチを通じて, 拘束状態における界面のダイナミクスを探索する。
その結果, 励起の性質は, 凝縮系全体にわたって摂動理論によって捉えられ, 断裂系との交叉を識別できることがわかった。
平面に沿って伝播するモードに対する横方向磁場の影響を系統的に検討し、より大きな格子に埋め込まれた2乗スピンの共振から拡散融解への交叉について検討する。
We investigate the dynamics of the quantum Ising model on two-dimensional square lattices up to $16 \times 16$ spins. In the ordered phase, the model is predicted to exhibit dynamically constrained dynamics, leading to confinement of elementary excitations and slow thermalization. After demonstrating the signatures of confinement, we probe the dynamics of interfaces in the constrained regime through sudden quenches of product states with domains of opposite magnetization. We find that the nature of excitations can be captured by perturbation theory throughout the confining regime, and identify the crossover to the deconfining regime. We systematically explore the effect of the transverse field on the modes propagating along flat interfaces and investigate the crossover from resonant to diffusive melting of a square of flipped spins embedded in a larger lattice. | 翻訳日:2024-07-10 01:10:12 公開日:2024-07-08 |
# 言語モデルネットワークにおける問題解決
Problem-Solving in Language Model Networks ( http://arxiv.org/abs/2406.12374v2 ) ライセンス: Link先を確認 | Ciaran Regan, Alexandre Gournail, Mizuki Oka, | (参考訳) 大規模言語モデル(LLM)の推論と質問応答能力を改善するために,複数のマルチエージェントアプローチが導入されている。
これらの手法によって性能が向上する一方、複雑なネットワーク構造への集合的知能に基づくアプローチの適用やエージェント相互作用のダイナミクスは未解明のままである。
この研究は、より一般的なネットワークトポロジへのマルチエージェント論争の概念を拡張し、質問答えの正確さ、影響、コンセンサス、偏見の影響を計測する。
その結果,トークンが著しく少ないにもかかわらず,ランダムネットワークは完全接続ネットワークと類似して動作することがわかった。
さらに、エージェント間の強いコンセンサスは正しい回答と相関するが、分割された応答は典型的には間違った回答を示す。
エージェントの影響を分析することで、自己反射と相互接続性のバランスが明らかになる。
さらに、バイアスがシステムのパフォーマンスに強く影響し、正しくバイアスされたハブノードによってパフォーマンスが向上する。
これらの知見は, エージェントを中央に配置したランダムネットワークやスケールフリーネットワークを用いることで, マルチエージェントシステム全体の性能を向上させることを示唆している。
To improve the reasoning and question-answering capabilities of Large Language Models (LLMs), several multi-agent approaches have been introduced. While these methods enhance performance, the application of collective intelligence-based approaches to complex network structures and the dynamics of agent interactions remain underexplored. This work extends the concept of multi-agent debate to more general network topologies, measuring the question-answering accuracy, influence, consensus, and the effects of bias on the collective. The results show that random networks perform similarly to fully connected networks despite using significantly fewer tokens. Furthermore, a strong consensus among agents in correlates with correct answers, whereas divided responses typically indicate incorrect answers. Analysing the influence of the agents reveals a balance between self-reflection and interconnectedness; self-reflection aids when local interactions are incorrect, and local interactions aid when the agent itself is incorrect. Additionally, bias plays a strong role in system performance with correctly biased hub nodes boosting performance. These insights suggest that using random networks or scale-free networks with knowledgeable agents placed in central positions can enhance the overall performance of multi-agent systems. | 翻訳日:2024-07-10 01:10:12 公開日:2024-07-08 |
# LayerMerge: レイヤのプルーニングとマージによるニューラルネットワーク深さ圧縮
LayerMerge: Neural Network Depth Compression through Layer Pruning and Merging ( http://arxiv.org/abs/2406.12837v3 ) ライセンス: Link先を確認 | Jinuk Kim, Marwa El Halabi, Mingi Ji, Hyun Oh Song, | (参考訳) 近年の研究では、畳み込みニューラルネットワークにおけるレイヤ数の削減は、ネットワークの性能を維持しながら効率を向上させることが示されている。
既存の深度圧縮法では、冗長な非線形活性化関数を除去し、連続する畳み込み層を単一の層にマージする。
しかし、これらの手法は、ネットワークの深さを減らすことで得られたレイテンシ低減を著しく損なうため、マージされたレイヤのカーネルサイズが大きくなるという重大な欠点に悩まされる。
畳み込み層とアクティベーション関数を併用することにより,この問題に対処できることを示す。
そこで本研究では,どのアクティベーション層と畳み込み層を除去するかを選択するディープ圧縮手法であるLayerMergeを提案する。
対応する選択問題は指数探索空間を含むため、新しい代理最適化問題を定式化し、動的プログラミングにより効率よく解く。
実験結果から,本手法は画像分類および生成タスクにおいて,既存のネットワークアーキテクチャ上での深度圧縮およびレイヤプルーニング手法を一貫して上回ることを示す。
コードをhttps://github.com/snu-mllab/LayerMerge.comでリリースします。
Recent works show that reducing the number of layers in a convolutional neural network can enhance efficiency while maintaining the performance of the network. Existing depth compression methods remove redundant non-linear activation functions and merge the consecutive convolution layers into a single layer. However, these methods suffer from a critical drawback; the kernel size of the merged layers becomes larger, significantly undermining the latency reduction gained from reducing the depth of the network. We show that this problem can be addressed by jointly pruning convolution layers and activation functions. To this end, we propose LayerMerge, a novel depth compression method that selects which activation layers and convolution layers to remove, to achieve a desired inference speed-up while minimizing performance loss. Since the corresponding selection problem involves an exponential search space, we formulate a novel surrogate optimization problem and efficiently solve it via dynamic programming. Empirical results demonstrate that our method consistently outperforms existing depth compression and layer pruning methods on various network architectures, both on image classification and generation tasks. We release the code at https://github.com/snu-mllab/LayerMerge. | 翻訳日:2024-07-10 01:10:12 公開日:2024-07-08 |
# カプセル内視鏡における統一照明補正用プロンプブル拡散変圧器
EndoUIC: Promptable Diffusion Transformer for Unified Illumination Correction in Capsule Endoscopy ( http://arxiv.org/abs/2406.13705v2 ) ライセンス: Link先を確認 | Long Bai, Tong Chen, Qiaozhi Tan, Wan Jun Nah, Yanheng Li, Zhicheng He, Sishen Yuan, Zhen Chen, Jinlin Wu, Mobarakol Islam, Zhen Li, Hongbin Liu, Hongliang Ren, | (参考訳) 無線カプセル内視鏡(WCE)は、非侵襲的で痛みのないアプローチで高く評価されているが、その効果は、ハードウェアの制約や複雑な内部ダイナミクスによる不均一な照明によって損なわれ、過剰に露光されたり、過度に露光された画像に繋がる。
研究者は、WCEの低照度化の課題について論じてきたが、異なる露光レベルの補正の問題は未解決のままである。
そこで本研究では,エンド・ツー・エンド・エンド・エンド・エンド・プロンサブル拡散変換器(DiT)モデルを用いたWCE統合照明補正ソリューションであるEndoUICを紹介する。
本研究では, 照明プロンプトモジュールが, 異なる露出レベルに適応し, ターゲット画像の強調を行うため, 適応型プロンプト統合 (API) とグローバル型プロンプトスキャナ (GPS) モジュールが, プロンプトパラメータと特徴との間の同時表現学習をさらに促進する。
さらに、U字型復元DiTモデルは、統一照明復元のための長距離依存関係とコンテキスト情報をキャプチャする。
さらに,専門写真家が注釈を付した地上構造と劣化画像のペアを含む,新しいカプセル・内視鏡露光補正(CEC)データセットを提案する。
4つのデータセットに対するSOTA(State-of-the-art)法に対する広範囲な実験により,WCE照明修復における提案手法の有効性が示された。
Wireless Capsule Endoscopy (WCE) is highly valued for its non-invasive and painless approach, though its effectiveness is compromised by uneven illumination from hardware constraints and complex internal dynamics, leading to overexposed or underexposed images. While researchers have discussed the challenges of low-light enhancement in WCE, the issue of correcting for different exposure levels remains underexplored. To tackle this, we introduce EndoUIC, a WCE unified illumination correction solution using an end-to-end promptable diffusion transformer (DiT) model. In our work, the illumination prompt module shall navigate the model to adapt to different exposure levels and perform targeted image enhancement, in which the Adaptive Prompt Integration (API) and Global Prompt Scanner (GPS) modules shall further boost the concurrent representation learning between the prompt parameters and features. Besides, the U-shaped restoration DiT model shall capture the long-range dependencies and contextual information for unified illumination restoration. Moreover, we present a novel Capsule-endoscopy Exposure Correction (CEC) dataset, including ground-truth and corrupted image pairs annotated by expert photographers. Extensive experiments against a variety of state-of-the-art (SOTA) methods on four datasets showcase the effectiveness of our proposed method and components in WCE illumination restoration, and the additional downstream experiments further demonstrate its utility for clinical diagnosis and surgical assistance. | 翻訳日:2024-07-10 01:10:12 公開日:2024-07-08 |
# 色数に基づくマルチビットデコヒーレンスとクロストーク抑制
Efficient Chromatic-Number-Based Multi-Qubit Decoherence and Crosstalk Suppression ( http://arxiv.org/abs/2406.13901v2 ) ライセンス: Link先を確認 | Amy F. Brown, Daniel A. Lidar, | (参考訳) 量子コンピュータの性能はデコヒーレンスとクロストークによって妨げられ、エラーを引き起こし、長い計算を行う能力を制限する。
動的デカップリング(Dynamical Decoupling)は、個々のキュービットに慎重に時間的パルスを適用し、不要な相互作用を効果的に抑制することにより、これらの問題を緩和する手法である。
しかし、量子デバイスのサイズが大きくなるにつれて、システム全体にわたって動的デカップリングを実装するのに必要な時間を最小化することがますます重要になる。
ここでは,任意の量子ビット接続を持つ量子デバイスに対して,動的デカップリングパルスを効率的にスケジュールするアプローチとして,'Chromatic-Hadamard Dynamical Decoupling' (CHaDD)を提案する。
アダマール行列を利用することで、CHaDDは、瞬時パルスを仮定して、一般的な2ビット相互作用のための接続グラフの色数と線形にスケールする回路深さを達成する。
これには超伝導量子ビットデバイスで広く使われているZZクロストークが含まれる。
CHaDDのスケーリングは、クロマティック数が最も多義的に増加する接続グラフを持つデバイスに対して、以前のマルチキュービットデカップリング方式よりも指数関数的に改善したことを示している。
一定の色数を持つグラフの場合、CHaDDのスケーリングはキュービットの数とは独立である。
この結果から,CHaDDは大規模量子ビットアレイ間のデコヒーレンスやクロストークを効率よく抑制し,量子コンピュータの性能とスケーラビリティを向上させる上で有用なツールとなることが示唆された。
The performance of quantum computers is hindered by decoherence and crosstalk, which cause errors and limit the ability to perform long computations. Dynamical decoupling is a technique that alleviates these issues by applying carefully timed pulses to individual qubits, effectively suppressing unwanted interactions. However, as quantum devices grow in size, it becomes increasingly important to minimize the time required to implement dynamical decoupling across the entire system. Here, we present ``Chromatic-Hadamard Dynamical Decoupling'' (CHaDD), an approach that efficiently schedules dynamical decoupling pulses for quantum devices with arbitrary qubit connectivity. By leveraging Hadamard matrices, CHaDD achieves a circuit depth that scales linearly with the chromatic number of the connectivity graph for general two-qubit interactions, assuming instantaneous pulses. This includes ZZ crosstalk, which is prevalent in superconducting qubit devices. CHaDD's scaling represents an exponential improvement over all previous multi-qubit decoupling schemes for devices with connectivity graphs whose chromatic number grows at most polylogarithmically with the number of qubits. For graphs with a constant chromatic number, CHaDD's scaling is independent of the number of qubits. Our results suggest that CHaDD can become a useful tool for enhancing the performance and scalability of quantum computers by efficiently suppressing decoherence and crosstalk across large qubit arrays. | 翻訳日:2024-07-10 01:00:13 公開日:2024-07-08 |
# CREF: チュータプログラミングのためのLLMベースの会話型ソフトウェア修復フレームワーク
CREF: An LLM-based Conversational Software Repair Framework for Programming Tutors ( http://arxiv.org/abs/2406.13972v2 ) ライセンス: Link先を確認 | Boyang Yang, Haoye Tian, Weiguo Pian, Haoran Yu, Haitao Wang, Jacques Klein, Tegawendé F. Bissyandé, Shunfu Jin, | (参考訳) プログラム修復技術は、ソフトウェア開発およびプログラミング教育シナリオにおけるデバッグにコスト削減の利点を提供する。
コードに関連したタスクにおいて、LLM(Large Language Models)の有効性が証明されたことから、研究者はプログラムの修復の可能性を探った。
しかし、既存の修復ベンチマークがLLMトレーニングデータに影響を与え、データ漏洩を引き起こす可能性があることを認識することが重要である。
LLMの現実的な修復能力を評価するため,(1) 1,239個のC++欠陥コードと,チュータガイダンス,ソリューション記述,テストケースの失敗,修正コードなどの関連情報を含む,拡張性のないTutorCodeと呼ばれるベンチマークを導入する。
本研究では,TutorCode上の12個のLLMの補修性能,補修精度(TOP-5,AVG-5),パッチ精度(RPSR)を評価した。
2) 欠陥修復におけるLCMの性能向上に寄与する余分な情報の種類を総合的に検討する。
これらのタイプの中で、チューター指導はLLM修復能力を高める上で最も効果的な情報であることがわかった。
LLMの会話能力と強化情報の利点をフル活用するために, 対話型半自動修復フレームワークCREFを導入した。
AVG-5はベースラインに比べて17.2%-24.6%改善し、GPT-4を使用すると76.6%の顕著なAVG-5を達成している。
これらの結果は、教師との交流や、誤った反応を含む歴史的会話を通じて、LLMの修復能力を高める可能性を浮き彫りにした。
現実世界の教育環境でのCREFの適用は、チューターの作業量を削減し、生徒の学習体験を改善する上での有効性を示すと同時に、コードレビューのような他のソフトウェアエンジニアリングタスクを円滑にすることの約束を示す。
Program repair techniques offer cost-saving benefits for debugging within software development and programming education scenarios. With the proven effectiveness of Large Language Models (LLMs) in code-related tasks, researchers have explored their potential for program repair. However, it is crucial to recognize that existing repair benchmarks may have influenced LLM training data, potentially causing data leakage. To evaluate LLMs' realistic repair capabilities, (1) we introduce an extensive, non-crawled benchmark, referred to as TutorCode, comprising 1,239 C++ defect codes and associated information such as tutor guidance, solution description, failing test cases, and the corrected code. Our work assesses the repair performance of 12 LLMs on TutorCode, measuring repair correctness (TOP-5 and AVG-5) and patch precision (RPSR). (2) We then provide a comprehensive investigation into which types of extra information can help LLMs improve their performance in repairing defects. Among these types, tutor guidance was found to be the most effective information in enhancing LLM repair capabilities. To fully harness LLMs' conversational capabilities and the benefits of augmented information, (3) we introduce a novel conversational semi-automatic repair framework CREF assisting human tutor. It demonstrates a remarkable AVG-5 improvement of 17.2%-24.6% compared to the baseline, achieving an impressive AVG-5 of 76.6% when utilizing GPT-4. These results highlight the potential for enhancing LLMs' repair capabilities through interactions with tutors and historical conversations involving incorrect responses. The successful application of CREF in a real-world educational setting demonstrates its effectiveness in reducing tutors' workload and improving students' learning experience, while also showcasing its promise for facilitating other software engineering tasks, such as code review. | 翻訳日:2024-07-10 01:00:13 公開日:2024-07-08 |
# LLM批判は、数学におけるバッチバグを助ける: 自然言語フィードバックによる数学的検証の改善を目指して
LLM Critics Help Catch Bugs in Mathematics: Towards a Better Mathematical Verifier with Natural Language Feedback ( http://arxiv.org/abs/2406.14024v3 ) ライセンス: Link先を確認 | Bofei Gao, Zefan Cai, Runxin Xu, Peiyi Wang, Ce Zheng, Runji Lin, Keming Lu, Dayiheng Liu, Chang Zhou, Wen Xiao, Junjie Hu, Tianyu Liu, Baobao Chang, | (参考訳) 数学的頂点は、解の正しさを検証することによって数学的推論タスクで成功する。
しかし、既存の検証器はバイナリ分類ラベルで訓練されているため、モデルが解を正確に評価するのに十分な情報がない。
上記の2進ラベルの不十分さを軽減するため、段階的な自然言語フィードバックを有理ラベル(現在のステップの正しさと説明文)として導入する。
本稿では,自動生成したトレーニングデータと,効果的なトレーニングと効率的な推論のための2段階トレーニングパラダイムを構築することで,自然言語フィードバックの強化された検証手法である「textbf{Math-Minos}」を提案する。
実験の結果,GSM8Kでは 1.6 % (86.6 % $\rightarrow$88.2 %) ,MATHでは 0.8 % (37.8 % $\rightarrow$38.6 %) の精度で検証器の性能を大幅に向上させることができることがわかった。
さらなる調査のために、コードとデータをリリースしました。
Mathematical verfier achieves success in mathematical reasoning tasks by validating the correctness of solutions. However, existing verifiers are trained with binary classification labels, which are not informative enough for the model to accurately assess the solutions. To mitigate the aforementioned insufficiency of binary labels, we introduce step-wise natural language feedbacks as rationale labels (i.e., the correctness of the current step and the explanations). In this paper, we propose \textbf{Math-Minos}, a natural language feedback enhanced verifier by constructing automatically-generated training data and a two-stage training paradigm for effective training and efficient inference. Our experiments reveal that a small set (30k) of natural language feedbacks can significantly boost the performance of the verifier by the accuracy of 1.6\% (86.6\% $\rightarrow$ 88.2\%) on GSM8K and 0.8\% (37.8\% $\rightarrow$ 38.6\%) on MATH. We have released our code and data for further exploration. | 翻訳日:2024-07-10 01:00:13 公開日:2024-07-08 |
# タキオンの共変量子場理論」へのコメント
Comment on "Covariant quantum field theory of tachyons" ( http://arxiv.org/abs/2406.14225v2 ) ライセンス: Link先を確認 | Krzysztof Jodłowski, | (参考訳) Paczos et al (Phys)。
D 109 (2024) は自由で相互作用するタキオン場のための共変量子場理論を提案した。
提案したFeynmanプロパゲータは、通常の粒子が相互作用する1ループの質量再正規化においてユニタリ性に違反することを示し、適切な漸近(in/out)タキオン状態は存在せず、タキオンと超微粒子の相互作用を記述したS行列は不定義である。
タキオンはボソンとして振る舞うため、相互作用するタキオンは自己相互作用しうる(例えば、通常の物質との相互作用はそのような用語を生成する)。
その結果、物理的真空はポテンシャルの原点ではなく、タキオンポテンシャルの適切な最小値に対応しているかもしれないし、そのような状態は存在しない。
解析の結果,量子タキオン場は負の質量2乗を持つ物理オンシェル粒子を記述していないことが示唆された。
Recently, Paczos et al. (Phys. Rev. D 109 (2024)) proposed a covariant quantum field theory for free and interacting tachyon fields. We show that the proposed Feynman propagator leads to unitarity violation in the 1-loop mass renormalization of an ordinary particle it interacts with, proper asymptotic (in/out) tachyon states do not exist, and the proposed S-matrix describing interactions of tachyons and subluminal matter is ill-defined. Since tachyons behave as bosons, interacting tachyons may also self-interact, e.g., any interaction with ordinary matter generates such terms. As a result, the physical vacuum, instead of being at the origin of the potential, may correspond to the proper minimum of the tachyon potential, or such state does not exist at all. Our analysis indicates that quantum tachyon field does not describe a physical on-shell particle with negative mass squared. | 翻訳日:2024-07-10 01:00:13 公開日:2024-07-08 |
# 復号時間アライメントのための進化的ヒューリスティックスを用いたリワードステアリング
Reward Steering with Evolutionary Heuristics for Decoding-time Alignment ( http://arxiv.org/abs/2406.15193v4 ) ライセンス: Link先を確認 | Chia-Yu Hung, Navonil Majumder, Ambuj Mehrish, Soujanya Poria, | (参考訳) LLMの広範な適用性と全義性の向上は、LLMの反応をユーザやステークホルダーの好みに合わせる必要性を示唆している。
良好なアライメントを実現するために、微調整LDMパラメータを最適化する多くの最適化手法が提案されている。
しかし、そのようなパラメータチューニングは多くのタスクにおけるモデル性能に干渉することが知られている。
さらに、このような状況では、ユーザの好みの変化に追随するのは難しい。
報酬モデルガイダンスによる復号時間アライメントは、推論時間の増加を犠牲にしてこれらの問題を解決する。
しかし、そのような手法のほとんどは、探索と報酬の搾取の間に適切なバランスを取らない(多くの場合、これら2つの側面が混ざった定式化のために)。
この2つの側面を分離し、進化的な方法で実装する: 探索は、変更された命令から復号することで実施され、搾取は、不利益な世代を、よく回復した世代に周期的に置き換えるものとして表現される。
実証的な証拠は、この戦略が広く受け入れられている2つのアライメントベンチマークAlpacaEval 2 と MT-Bench において、多くの選好最適化とデコードタイムアライメントアプローチより優れていることを示している。
私たちの実装は、https://darwin-alignment.github.io.comで利用可能です。
The widespread applicability and increasing omnipresence of LLMs have instigated a need to align LLM responses to user and stakeholder preferences. Many preference optimization approaches have been proposed that fine-tune LLM parameters to achieve good alignment. However, such parameter tuning is known to interfere with model performance on many tasks. Moreover, keeping up with shifting user preferences is tricky in such a situation. Decoding-time alignment with reward model guidance solves these issues at the cost of increased inference time. However, most of such methods fail to strike the right balance between exploration and exploitation of reward -- often due to the conflated formulation of these two aspects - to give well-aligned responses. To remedy this we decouple these two aspects and implement them in an evolutionary fashion: exploration is enforced by decoding from mutated instructions and exploitation is represented as the periodic replacement of poorly-rewarded generations with well-rewarded ones. Empirical evidences indicate that this strategy outperforms many preference optimization and decode-time alignment approaches on two widely accepted alignment benchmarks AlpacaEval 2 and MT-Bench. Our implementation will be available at: https://darwin-alignment.github.io. | 翻訳日:2024-07-10 01:00:13 公開日:2024-07-08 |
# SegHist: 中国の歴史文書テキスト行検出のための汎用セグメンテーションベースのフレームワーク
SegHist: A General Segmentation-based Framework for Chinese Historical Document Text Line Detection ( http://arxiv.org/abs/2406.15485v3 ) ライセンス: Link先を確認 | Xingjian Hu, Baole Wei, Liangcai Gao, Jun Wang, | (参考訳) テキスト線検出は、任意の形のテキスト線、高アスペクト比のテキスト線、その他多くの課題に直面した、歴史的文書解析における重要なタスクである。
本稿では,従来のセグメンテーションに基づくテキスト検出手法を用いて,特にアスペクト比の高いテキストラインの課題を効果的に解決することのできる,歴史文書テキスト検出のための一般的なフレームワークを提案する。
一般的に使われているDB++とSegHistフレームワークを統合することで、DB-SegHistを開発する。
このアプローチは、CHDAC、MTHv2、HDRCデータセット上での競合結果のSOTAを実現し、高アスペクト比のテキスト行を特徴とする最も困難なCHDACデータセットにおいて、1.19%の大幅な改善を実現している。
さらに, 回転MTHv2および回転HDRC上でSOTAを達成し, その回転ロバスト性を示した。
コードはhttps://github.com/LumionHXJ/SegHist.comで公開されている。
Text line detection is a key task in historical document analysis facing many challenges of arbitrary-shaped text lines, dense texts, and text lines with high aspect ratios, etc. In this paper, we propose a general framework for historical document text detection (SegHist), enabling existing segmentation-based text detection methods to effectively address the challenges, especially text lines with high aspect ratios. Integrating the SegHist framework with the commonly used method DB++, we develop DB-SegHist. This approach achieves SOTA on the CHDAC, MTHv2, and competitive results on HDRC datasets, with a significant improvement of 1.19% on the most challenging CHDAC dataset which features more text lines with high aspect ratios. Moreover, our method attains SOTA on rotated MTHv2 and rotated HDRC, demonstrating its rotational robustness. The code is available at https://github.com/LumionHXJ/SegHist. | 翻訳日:2024-07-10 01:00:13 公開日:2024-07-08 |
# トランスフォーマーには何があるのか? すべての注意が必要なわけではない
What Matters in Transformers? Not All Attention is Needed ( http://arxiv.org/abs/2406.15786v2 ) ライセンス: Link先を確認 | Shwai He, Guoheng Sun, Zheyu Shen, Ang Li, | (参考訳) Transformerベースの大規模言語モデル(LLM)のスケーリングは、様々なタスクで有望なパフォーマンスを示している。
しかし、このスケーリングには冗長な構造も導入されており、現実のデプロイメントには課題がある。
LLMの冗長性はある程度認識されているが、MLPやアテンション層といった異なる構造における冗長性の多様性は未解明である。
本研究では、類似度に基づくメトリクスを用いて、ブロック、MLP、アテンション層を含むトランスフォーマー内の異なるモジュール間の異なる冗長性について検討する。
この計量は、冗長構造が入力と非常によく似た出力を生成するという前提で機能する。
驚いたことに、アテンション層は他の主流アーキテクチャと区別するためにはアテンション層が不可欠であるが、多くのアテンション層が過剰に高い類似性を示し、性能を劣化させることなく安全に切断できることが判明し、メモリと計算コストの削減につながった。
さらに,アテンション層とMLP層を共同でドロップする手法を提案し,性能向上と低下率の向上を実現した。
Llama-3-70Bは注目層の半分を刈っても同等の性能を維持している。
我々の発見は将来のネットワークアーキテクチャ設計に貴重な洞察を与えてくれる。
コードは: \url{https://github.com/Shwai-He/LLM-Drop} でリリースされる。
Scaling Transformer-based large language models (LLMs) has demonstrated promising performance across various tasks. However, this scaling also introduces redundant structures, posing challenges for real-world deployment. Despite some recognition of redundancy in LLMs, the variability of redundancy across different structures, such as MLP and Attention layers, is under-explored. In this work, we investigate the varying redundancy across different modules within Transformers, including Blocks, MLP, and Attention layers, using a similarity-based metric. This metric operates on the premise that redundant structures produce outputs highly similar to their inputs. Surprisingly, while attention layers are essential for transformers and distinguish them from other mainstream architectures, we found that a large proportion of attention layers exhibit excessively high similarity and can be safely pruned without degrading performance, leading to reduced memory and computation costs. Additionally, we further propose a method that jointly drops Attention and MLP layers, achieving improved performance and dropping ratios. Extensive experiments demonstrate the effectiveness of our methods, e.g., Llama-3-70B maintains comparable performance even after pruning half of the attention layers. Our findings provide valuable insights for future network architecture design. The code will be released at: \url{https://github.com/Shwai-He/LLM-Drop}. | 翻訳日:2024-07-10 01:00:13 公開日:2024-07-08 |
# 電力グリッドトポロジー最適化におけるエージェントの故障検出:包括的解析
Fault Detection for agents on power grid topology optimization: A Comprehensive analysis ( http://arxiv.org/abs/2406.16426v2 ) ライセンス: Link先を確認 | Malte Lehna, Mohamed Hassouna, Dmitry Degtyar, Sven Tomforde, Christoph Scholz, | (参考訳) 近年,Deep Reinforcement Learning (DRL) を用いた伝送ネットワークのトポロジ最適化が注目されている。
様々な研究者が異なるDRLエージェントを提案しており、しばしばLearning to Run a Power Network (L2RPN)の課題からGrid2Op環境上でベンチマークされている。
環境は現実的な慢性と根底にある潮流のバックエンドで多くの利点がある。
しかしながら、エージェントの生存または失敗の解釈は、様々な潜在的な原因があるため、必ずしも明確ではない。
本研究では,電力網の故障に着目し,パターンを識別し,先行検出を行う。
我々は,WCCI 2022 L2RPN環境において3つの異なるエージェントの慢性的な障害を収集し,約40kのデータポイントを収集した。
クラスタ化によって、5つの異なるクラスタを検出し、異なる障害タイプを特定します。
さらに,失敗を事前に検出し,5つの異なるモデルを評価するマルチクラス予測手法を提案する。
ここでは、Light Gradient-Boosting Machine (LightGBM)が86%の精度で最高のパフォーマンスを示している。
また、時間的故障と生存観察の91%を正確に識別する。
最後に、グリッド内の重要な特徴や領域を識別する、詳細な特徴重要度分析を提供する。
The topology optimization of transmission networks using Deep Reinforcement Learning (DRL) has increasingly come into focus. Various researchers have proposed different DRL agents, which are often benchmarked on the Grid2Op environment from the Learning to Run a Power Network (L2RPN) challenges. The environments have many advantages with their realistic chronics and underlying power flow backends. However, the interpretation of agent survival or failure is not always clear, as there are a variety of potential causes. In this work, we focus on the failures of the power grid to identify patterns and detect them a priori. We collect the failed chronics of three different agents on the WCCI 2022 L2RPN environment, totaling about 40k data points. By clustering, we are able to detect five distinct clusters, identifying different failure types. Further, we propose a multi-class prediction approach to detect failures beforehand and evaluate five different models. Here, the Light Gradient-Boosting Machine (LightGBM) shows the best performance, with an accuracy of 86%. It also correctly identifies in 91% of the time failure and survival observations. Finally, we provide a detailed feature importance analysis that identifies critical features and regions in the grid. | 翻訳日:2024-07-10 01:00:13 公開日:2024-07-08 |
# 動的共変量を用いた統計的ランク付け
Statistical ranking with dynamic covariates ( http://arxiv.org/abs/2406.16507v2 ) ライセンス: Link先を確認 | Pinjun Dong, Ruijian Han, Binyan Jiang, Yiming Xu, | (参考訳) 我々は,Plackett--Luceフレームワークを基盤とした共変量付きランキングモデルを考える。
純粋共変量や固定共変量による個々の効果に焦点を当てた既存の研究とは異なり、我々の手法は動的共変量と個々の効果を統合する。
この柔軟性が追加され、現実的なランキングが向上する一方で、関連する推定手順を分析する上で大きな課題が生じる。
本稿はこれらの課題に対処するための最初の試みである。
まず、モデルの識別可能性について十分かつ必要な条件について論じる。
次に、最大極大推定器(MLE)を計算するために、効率的な交互最大化アルゴリズムを導入する。
比較グラフと動的共変量のトポロジーに関する適切な仮定の下で、漸近グラフ接続を特徴とする収束率を持つMLEに対する定量的均一整合結果を確立する。
提案したグラフトポロジー仮定は、最適前順序空間性条件下でのいくつかの一般的なランダムグラフモデルに対して成り立つ。
馬の競馬やテニス競技を含む実世界のデータセットに提案したモデルの適用を実証するために,我々の理論的知見を裏付ける包括的数値的研究を行った。
We consider a covariate-assisted ranking model grounded in the Plackett--Luce framework. Unlike existing works focusing on pure covariates or individual effects with fixed covariates, our approach integrates individual effects with dynamic covariates. This added flexibility enhances realistic ranking yet poses significant challenges for analyzing the associated estimation procedures. This paper makes an initial attempt to address these challenges. We begin by discussing the sufficient and necessary condition for the model's identifiability. We then introduce an efficient alternating maximization algorithm to compute the maximum likelihood estimator (MLE). Under suitable assumptions on the topology of comparison graphs and dynamic covariates, we establish a quantitative uniform consistency result for the MLE with convergence rates characterized by the asymptotic graph connectivity. The proposed graph topology assumption holds for several popular random graph models under optimal leading-order sparsity conditions. A comprehensive numerical study is conducted to corroborate our theoretical findings and demonstrate the application of the proposed model to real-world datasets, including horse racing and tennis competitions. | 翻訳日:2024-07-10 01:00:13 公開日:2024-07-08 |
# U-Netバックボーンを用いたハイブリッド適応フーリエニューラル演算子による位相場シミュレーション
Accelerating Phase Field Simulations Through a Hybrid Adaptive Fourier Neural Operator with U-Net Backbone ( http://arxiv.org/abs/2406.17119v2 ) ライセンス: Link先を確認 | Christophe Bonneville, Nathan Bieberdorf, Arun Hegde, Mark Asta, Habib N. Najm, Laurent Capolungo, Cosmin Safta, | (参考訳) 腐食性液体と金属合金の接触が長引くと、進行性の縮退を引き起こすことがある。
このような液体金属処理(LMD)プロセスでは、相場モデルが開発されている。
しかしながら、支配方程式は、数値的に解くのが難しい結合非線形偏微分方程式(PDE)を含むことが多い。
特に、PDEの剛性は極端に小さな時間ステップを必要とする(例:10^{-12}$かそれ以下)。
この計算ボトルネックは、後期の地平線が必要とされるまでMDシミュレーションを実行する際に特に問題となる。
このことは、数回の連続的なタイムステップを1度にスキップすることで、時間内に前進可能なサロゲートモデルの開発を動機付けている。
本稿では,機械学習(ML)モデルであるU-AFNO(Adaptive Fourier Neural Operators)を提案する。
U-AFNOは物理領域内の局所的な特徴の抽出と再構成にU-Netを使用し、Fourier空間(AFNO)に実装された視覚変換器(ViT)を介して潜伏空間を通過させる。
U-AFNOを使って、現在の時間ステップでフィールドを後の時間ステップにマッピングするダイナミクスを学習します。
また, 腐食過程 (例えば液-金属界面の変形) を記述した大域的関心量 (QoI) を同定し, 提案したU-AFNOモデルにより, LMDのカオス特性を正確に予測できることを示す。
本モデルでは, 高忠実度数値解法と同等の精度で, 重要なミクロ構造統計とQoIを再現する。
また,U-AFNOと高忠実度時間ステップを用いたハイブリッドシミュレーションの機会についても検討した。
提案したU-AFNOモデルは完全に自己回帰的な設定で、ハイブリッドスキームを一貫して上回る性能を示した。
Prolonged contact between a corrosive liquid and metal alloys can cause progressive dealloying. For such liquid-metal dealloying (LMD) process, phase field models have been developed. However, the governing equations often involve coupled non-linear partial differential equations (PDE), which are challenging to solve numerically. In particular, stiffness in the PDEs requires an extremely small time steps (e.g. $10^{-12}$ or smaller). This computational bottleneck is especially problematic when running LMD simulation until a late time horizon is required. This motivates the development of surrogate models capable of leaping forward in time, by skipping several consecutive time steps at-once. In this paper, we propose U-Shaped Adaptive Fourier Neural Operators (U-AFNO), a machine learning (ML) model inspired by recent advances in neural operator learning. U-AFNO employs U-Nets for extracting and reconstructing local features within the physical fields, and passes the latent space through a vision transformer (ViT) implemented in the Fourier space (AFNO). We use U-AFNOs to learn the dynamics mapping the field at a current time step into a later time step. We also identify global quantities of interest (QoI) describing the corrosion process (e.g. the deformation of the liquid-metal interface) and show that our proposed U-AFNO model is able to accurately predict the field dynamics, in-spite of the chaotic nature of LMD. Our model reproduces the key micro-structure statistics and QoIs with a level of accuracy on-par with the high-fidelity numerical solver. We also investigate the opportunity of using hybrid simulations, in which we alternate forward leap in time using the U-AFNO with high-fidelity time stepping. We demonstrate that while advantageous for some surrogate model design choices, our proposed U-AFNO model in fully auto-regressive settings consistently outperforms hybrid schemes. | 翻訳日:2024-07-10 01:00:13 公開日:2024-07-08 |
# 非構造化データに対する多段階推論
Multi-step Inference over Unstructured Data ( http://arxiv.org/abs/2406.17987v2 ) ライセンス: Link先を確認 | Aditya Kalyanpur, Kailash Saravanakumar, Victor Barres, CJ McFate, Lori Moon, Nati Seifu, Maksim Eremeev, Jose Barrera, Eric Brown, David Ferrucci, | (参考訳) 大規模言語モデル(LLM)と生成AIの出現は、さまざまな領域にわたる自然言語アプリケーションに革命をもたらした。
しかし、医学、法学、金融などの分野における高い意思決定タスクは、純粋なLLMやRAG(Retrieval-Augmented-Generation)アプローチが提供できないような精度、包括性、論理的一貫性のレベルを必要とする。
Elemental Cognition (EC)では,これらの問題に対処するニューロシンボリックAIプラットフォームを開発した。
このプラットフォームは、知識抽出とアライメントのための微調整LDMと、論理推論、計画、対話的制約解決のための堅牢なシンボリック推論エンジンを統合している。
このプラットフォーム上に構築されたコラボレーティブリサーチアシスタントであるColaについて説明する。
本稿では,これらの領域に固有の多段階推論の課題について論じ,既存のLCM手法の限界を批判し,Coraのニューロシンボリックアプローチがこれらの問題にどのように効果的に対処するかを示す。
本稿では,システムアーキテクチャの概要,知識抽出と形式推論の鍵となるアルゴリズム,そしてCoraの優れた性能をよく知られたLCMやRAGのベースラインと比較した予備評価結果について述べる。
The advent of Large Language Models (LLMs) and Generative AI has revolutionized natural language applications across various domains. However, high-stakes decision-making tasks in fields such as medical, legal and finance require a level of precision, comprehensiveness, and logical consistency that pure LLM or Retrieval-Augmented-Generation (RAG) approaches often fail to deliver. At Elemental Cognition (EC), we have developed a neuro-symbolic AI platform to tackle these problems. The platform integrates fine-tuned LLMs for knowledge extraction and alignment with a robust symbolic reasoning engine for logical inference, planning and interactive constraint solving. We describe Cora, a Collaborative Research Assistant built on this platform, that is designed to perform complex research and discovery tasks in high-stakes domains. This paper discusses the multi-step inference challenges inherent in such domains, critiques the limitations of existing LLM-based methods, and demonstrates how Cora's neuro-symbolic approach effectively addresses these issues. We provide an overview of the system architecture, key algorithms for knowledge extraction and formal reasoning, and present preliminary evaluation results that highlight Cora's superior performance compared to well-known LLM and RAG baselines. | 翻訳日:2024-07-10 00:50:23 公開日:2024-07-08 |
# DiffuseHigh: 構造誘導による無訓練プログレッシブ高分解能画像合成
DiffuseHigh: Training-free Progressive High-Resolution Image Synthesis through Structure Guidance ( http://arxiv.org/abs/2406.18459v2 ) ライセンス: Link先を確認 | Younghyun Kim, Geunmin Hwang, Eunbyung Park, | (参考訳) 近年、大規模な生成モデルが急増し、コンピュータビジョンの広大な分野が発達した。
特に、高忠実度画像生成の可能性から、テキスト・画像拡散モデルが様々な領域で広く採用されている。
それにもかかわらず、既存の大規模拡散モデルは1K解像度の画像を生成するために限られており、これは現代の商用応用の要求を満たすには程遠い。
高解像度画像を直接サンプリングすると、オブジェクトの繰り返しや歪んだ形状といった成果物によってマージされることが多い。
上記の問題に対処するには、通常、高解像度データセットのトレーニングや微調整が必要になります。
しかし、大規模な高解像度コンテンツやかなりの計算資源の収集が困難であることから、この取り組みは大きな課題となる。
いくつかの先行作品では代替案が提案されているが、しばしば説得力のある結果が得られない。
そこで本研究では,高分解能画像を生成するために,生成した低分解能画像を完全に活用する新しいプログレッシブ・アプローチを提案する。
本手法は,計算コストを大幅に削減する追加トレーニングや微調整の必要性を回避している。
その結果,本手法の有効性と有効性について検討した。
プロジェクトページ: https://yhyun225.github.io/DiffusHigh/
Recent surge in large-scale generative models has spurred the development of vast fields in computer vision. In particular, text-to-image diffusion models have garnered widespread adoption across diverse domain due to their potential for high-fidelity image generation. Nonetheless, existing large-scale diffusion models are confined to generate images of up to 1K resolution, which is far from meeting the demands of contemporary commercial applications. Directly sampling higher-resolution images often yields results marred by artifacts such as object repetition and distorted shapes. Addressing the aforementioned issues typically necessitates training or fine-tuning models on higher resolution datasets. However, this undertaking poses a formidable challenge due to the difficulty in collecting large-scale high-resolution contents and substantial computational resources. While several preceding works have proposed alternatives, they often fail to produce convincing results. In this work, we probe the generative ability of diffusion models at higher resolution beyond its original capability and propose a novel progressive approach that fully utilizes generated low-resolution image to guide the generation of higher resolution image. Our method obviates the need for additional training or fine-tuning which significantly lowers the burden of computational costs. Extensive experiments and results validate the efficiency and efficacy of our method. Project page: https://yhyun225.github.io/DiffusHigh/ | 翻訳日:2024-07-10 00:50:23 公開日:2024-07-08 |
# 多言語アライメントプリズム:ハーム低減のためのグローバルおよびローカルな選好の調整
The Multilingual Alignment Prism: Aligning Global and Local Preferences to Reduce Harm ( http://arxiv.org/abs/2406.18682v2 ) ライセンス: Link先を確認 | Aakanksha, Arash Ahmadian, Beyza Ermis, Seraphina Goldfarb-Tarrant, Julia Kreutzer, Marzieh Fadaee, Sara Hooker, | (参考訳) アライメント」の概念に関する重要な関心事は、「アライメントとは何か?」という暗黙の疑問である。
AIシステムは世界中でますます使われていますが、安全アライメントは均質なモノリンガル設定に重点を置いています。
さらに、好みのトレーニングや安全対策は、西洋中心のデータセットに共通する害に対して過度に適合することが多い。
ここでは,両目的のバランスをとる際の異なるアライメントアプローチの実現可能性について考察する。グローバルとローカルの両方の害を最小限に抑えつつ,同種でない言語や文化的な嗜好に対処し,最適化する。
我々は、グローバルとローカルの害を区別する異なる言語で、人間の注釈付きレッドチームプロンプトの最初のセットを収集し、地理的・言語にまたがる非定常的な好み分布に直面した際のアライメント手法の信頼性を理解する実験室として機能する。
この設定は、主に英語の害軽減に焦点を当てた、これまでの文献ではほとんどカバーされていないが、世界中のAIシステムとの現実世界のインタラクションを捉えている。
汎用性能の低下を最小限に抑えた6言語にまたがる最先端アライメント手法の新たな先例を確立した。
我々の研究は、グローバルな人口に対応するように設計されたAIシステムを保護するために、言語間移動と新しい最適化アプローチに関する重要な洞察を提供する。
A key concern with the concept of "alignment" is the implicit question of "alignment to what?". AI systems are increasingly used across the world, yet safety alignment is often focused on homogeneous monolingual settings. Additionally, preference training and safety measures often overfit to harms common in Western-centric datasets. Here, we explore the viability of different alignment approaches when balancing dual objectives: addressing and optimizing for a non-homogeneous set of languages and cultural preferences while minimizing both global and local harms. We collect the first set of human annotated red-teaming prompts in different languages distinguishing between global and local harm, which serve as a laboratory for understanding the reliability of alignment techniques when faced with preference distributions that are non-stationary across geographies and languages. While this setting is seldom covered by the literature to date, which primarily centers on English harm mitigation, it captures real-world interactions with AI systems around the world. We establish a new precedent for state-of-the-art alignment techniques across 6 languages with minimal degradation in general performance. Our work provides important insights into cross-lingual transfer and novel optimization approaches to safeguard AI systems designed to serve global populations. | 翻訳日:2024-07-10 00:50:23 公開日:2024-07-08 |
# ガウス過程を用いたリチウムイオン電池の健康モニタリングとフィールドデータからの故障解析
Lithium-Ion Battery System Health Monitoring and Fault Analysis from Field Data Using Gaussian Processes ( http://arxiv.org/abs/2406.19015v2 ) ライセンス: Link先を確認 | Joachim Schaeffer, Eric Lenz, Duncan Gulla, Martin Z. Bazant, Richard D. Braatz, Rolf Findeisen, | (参考訳) 健康モニタリング、故障解析、および検出は、バッテリーシステムの安全かつ持続可能な運用に不可欠である。
本研究では, ガウス過程抵抗モデルを用いて, 時間依存および運転点依存抵抗を効果的に分離する。
このデータセットには、メーカーに保証のために返却された29のバッテリーシステムが含まれており、それぞれ8つのセルが並んでおり、合計で232のセルと1億1100万のデータ列がある。
本研究では,再帰的時空間ガウス過程を用いた確率的断層検出法を開発した。
これらのプロセスは100万以上のデータポイントの迅速な処理を可能にし、高度なオンライン監視を可能にし、現場でのバッテリパック障害の理解を深める。
この分析は、しばしば1つの細胞のみが異常な行動または膝点を示し、局所的な抵抗加熱によって増幅される、直列に接続された細胞の最も弱いリンク障害と一致している。
その結果,現場での電池の劣化と故障の理解を深め,データに基づく効率的なオンラインモニタリングの可能性を示した。
コードをオープンソース化し、この記事のレビューが完了するとデータセットを公開します。
Health monitoring, fault analysis, and detection are critical for the safe and sustainable operation of battery systems. We apply Gaussian process resistance models on lithium iron phosphate battery field data to effectively separate the time-dependent and operating point-dependent resistance. The data set contains 29 battery systems returned to the manufacturer for warranty, each with eight cells in series, totaling 232 cells and 131 million data rows. We develop probabilistic fault detection rules using recursive spatiotemporal Gaussian processes. These processes allow the quick processing of over a million data points, enabling advanced online monitoring and furthering the understanding of battery pack failure in the field. The analysis underlines that often, only a single cell shows abnormal behavior or a knee point, consistent with weakest-link failure for cells connected in series, amplified by local resistive heating. The results further the understanding of how batteries degrade and fail in the field and demonstrate the potential of efficient online monitoring based on data. We open-source the code and publish the large data set upon completion of the review of this article. | 翻訳日:2024-07-10 00:50:23 公開日:2024-07-08 |
# 反射透過型フォトペアを用いた織物の捕集
Woven Fabric Capture with a Reflection-Transmission Photo Pair ( http://arxiv.org/abs/2406.19398v3 ) ライセンス: Link先を確認 | Yingjie Tang, Zixuan Li, Miloš Hašan, Jian Yang, Beibei Wang, | (参考訳) 織布のデジタル化は、デジタル人間からインテリアデザインまで、多くの用途に有用だろう。
従来の研究は、単一の反射画像をキャプチャして、微分可能な幾何学的およびシェーディングモデルを用いて布パラメータを推定することにより、軽量な織物取得手法を導入している。
推定されたファブリックパラメータのレンダリングは、写真と密接に一致させることができるが、キャプチャされた反射像は、ファブリックサンプル反射率を完全に特徴づけるには不十分である。
例えば、厚みが異なる布地は、同様の反射像を持つが、透過率が大きく異なる。
本稿では,2枚の画像から織布のパラメータを復元することを提案する。
本手法のコアとなるのは、単一散乱と多重散乱を含む反射と透過を扱う、微分可能な双方向散乱分布関数(BSDF)モデルである。
単層散乱はSGGX位相関数を用い,複数層散乱はASGGXと呼ばれる新しい方位不変マイクロフレーク定義を用いる2層モデルを提案する。
この新しいファブリックBSDFモデルは、反射と透過の両方において実際の織物と密に一致している。
携帯電話カメラと2点灯で反射・透過写真を撮影し、軽量ネットワークを介して布のパラメータを推定する。
また、細いレンズのカメラにマッチする簡単なソリューションで、アウト・オブ・フォーカス効果を明示的にモデル化します。
その結果、推定パラメータのレンダリングは、初めて反射と透過の両方の入力画像と一致する。
本論文のコードはhttps://github.com/lxtyin/FabricBTDF-Recoveryにある。
Digitizing woven fabrics would be valuable for many applications, from digital humans to interior design. Previous work introduces a lightweight woven fabric acquisition approach by capturing a single reflection image and estimating the fabric parameters with a differentiable geometric and shading model. The renderings of the estimated fabric parameters can closely match the photo; however, the captured reflection image is insufficient to fully characterize the fabric sample reflectance. For instance, fabrics with different thicknesses might have similar reflection images but lead to significantly different transmission. We propose to recover the woven fabric parameters from two captured images: reflection and transmission. At the core of our method is a differentiable bidirectional scattering distribution function (BSDF) model, handling reflection and transmission, including single and multiple scattering. We propose a two-layer model, where the single scattering uses an SGGX phase function as in previous work, and multiple scattering uses a new azimuthally-invariant microflake definition, which we term ASGGX. This new fabric BSDF model closely matches real woven fabrics in both reflection and transmission. We use a simple setup for capturing reflection and transmission photos with a cell phone camera and two point lights, and estimate the fabric parameters via a lightweight network, together with a differentiable optimization. We also model the out-of-focus effects explicitly with a simple solution to match the thin-lens camera better. As a result, the renderings of the estimated parameters can agree with the input images on both reflection and transmission for the first time. The code for this paper is at https://github.com/lxtyin/FabricBTDF-Recovery. | 翻訳日:2024-07-10 00:50:23 公開日:2024-07-08 |
# Function+Data Flow: デジタルツインニングのための機械学習パイプラインを特定するフレームワーク
Function+Data Flow: A Framework to Specify Machine Learning Pipelines for Digital Twinning ( http://arxiv.org/abs/2406.19670v2 ) ライセンス: Link先を確認 | Eduardo de Conto, Blaise Genest, Arvind Easwaran, | (参考訳) 物理システムのためのデジタルツイン(DT)の開発は、人工知能(AI)をますます活用し、特に異なるソースからのデータを組み合わせたり、計算効率の良い縮小次元モデルを作成するために利用される。
実際、非常に異なるアプリケーションドメインでも、ツインニングはモデルオーダーの削減やハイブリッドデータによるモデル化(つまり、物理ベースのモデルとセンサーの両方から得られたデータ)といった一般的な技術を採用している。
この明らかな一般化にもかかわらず、現在の開発プラクティスはアドホックであり、デジタルツインニングのためのAIパイプラインの設計と時間を要する。
本稿では、DT内のAIパイプラインを記述するためのドメイン固有言語(DSL)であるFunction+Data Flow(FDF)を提案する。
FDFはデジタル双生児の設計と検証を容易にすることを目的としている。
具体的には、FDFは関数を第一級市民として扱い、AIで学んだモデルの効果的な操作を可能にする。
本研究の目的は, 構造物の塑性ひずみを予測し, 軸受の電磁挙動をモデル化することである。
The development of digital twins (DTs) for physical systems increasingly leverages artificial intelligence (AI), particularly for combining data from different sources or for creating computationally efficient, reduced-dimension models. Indeed, even in very different application domains, twinning employs common techniques such as model order reduction and modelization with hybrid data (that is, data sourced from both physics-based models and sensors). Despite this apparent generality, current development practices are ad-hoc, making the design of AI pipelines for digital twinning complex and time-consuming. Here we propose Function+Data Flow (FDF), a domain-specific language (DSL) to describe AI pipelines within DTs. FDF aims to facilitate the design and validation of digital twins. Specifically, FDF treats functions as first-class citizens, enabling effective manipulation of models learned with AI. We illustrate the benefits of FDF on two concrete use cases from different domains: predicting the plastic strain of a structure and modeling the electromagnetic behavior of a bearing. | 翻訳日:2024-07-10 00:50:23 公開日:2024-07-08 |
# 1行列量子力学におけるクリロフ複雑性
Krylov complexity for 1-matric quantum mechanics ( http://arxiv.org/abs/2407.00155v2 ) ライセンス: Link先を確認 | Niloofar Vardian, | (参考訳) 本稿では, 1-行列量子力学 (1-MQM) の枠組みの中で, 演算子成長の尺度であるクリロフ複雑性の概念を考察する。
クリロフ複雑性(Krylov complexity)は、ハミルトニアンと一連のネストされた可換作用素に拡張することにより、作用素が時間とともにどのように進化するかを定量化する。
相関関数から導かれるランツォス係数を解析し,この積分系においても線形成長を明らかにする。
この成長は、一般に可積分系において予期せぬカオス的な振る舞いと結びつくことを示唆している。
1-MQMの基底状態と熱状態の両方における我々の発見は、量子力学モデルにおける複雑性の性質に関する新たな洞察を与え、より複雑なホログラフィック理論のさらなる研究の基盤となる。
This paper investigates the notion of Krylov complexity, a measure of operator growth, within the framework of 1-matrix quantum mechanics (1-MQM). Krylov complexity quantifies how an operator evolves over time by expanding it in a series of nested commutators with the Hamiltonian. We analyze the Lanczos coefficients derived from the correlation function, revealing their linear growth even in this integrable system. This growth suggests a link to chaotic behavior, typically unexpected in integrable systems. Our findings in both ground and thermal states of 1-MQM provide new insights into the nature of complexity in quantum mechanical models and lay the groundwork for further studies in more complex holographic theories. | 翻訳日:2024-07-10 00:50:23 公開日:2024-07-08 |
# ディレクショナルエンターメントグラフとクレームレベル応答増大によるLLM不確かさの定量化
LLM Uncertainty Quantification through Directional Entailment Graph and Claim Level Response Augmentation ( http://arxiv.org/abs/2407.00994v2 ) ライセンス: Link先を確認 | Longchao Da, Tiejin Chen, Lu Cheng, Hua Wei, | (参考訳) 大規模言語モデル(LLM)は、基本的な質問応答(QA)から派生して、様々な領域にわたる高度なタスクにおいて優れた能力を示しており、現在では、不慣れなコンテンツのための意思決定アシスタントや説明役として使われている。
しかし、特定のドメインのコーパスやモデルの幻覚の問題により、必ずしも正しいとは限らない。
これを考えると、LLMからの回答をどの程度信頼すべきなのでしょうか?
そこで本論文では,非対称な有向グラフの非対称性を持つランダムウォークラプラシアン(Random Walk Laplacian)を考案し,その不確実性はラプラシアン過程から導出した固有値によって集約されることを示す。
また、提案したレイヤに既存の作業のセマンティクスの不確実性を統合する方法も提供します。
さらに,本論文では,生の応答集合における曖昧さの問題を識別し,そのような問題を緩和するための拡張手法を提案し,実験実験を行い,提案手法の優位性を示した。
The Large language models (LLMs) have showcased superior capabilities in sophisticated tasks across various domains, stemming from basic question-answer (QA), they are nowadays used as decision assistants or explainers for unfamiliar content. However, they are not always correct due to the data sparsity in specific domain corpus, or the model's hallucination problems. Given this, how much should we trust the responses from LLMs? This paper presents a novel way to evaluate the uncertainty that captures the directional instability, by constructing a directional graph from entailment probabilities, and we innovatively conduct Random Walk Laplacian given the asymmetric property of a constructed directed graph, then the uncertainty is aggregated by the derived eigenvalues from the Laplacian process. We also provide a way to incorporate the existing work's semantics uncertainty with our proposed layer. Besides, this paper identifies the vagueness issues in the raw response set and proposes an augmentation approach to mitigate such a problem, we conducted extensive empirical experiments and demonstrated the superiority of our proposed solutions. | 翻訳日:2024-07-10 00:40:30 公開日:2024-07-08 |
# 逆赤外格子を用いた赤外歩行者検知器のマルチビューブラックボックス物理攻撃
Multi-View Black-Box Physical Attacks on Infrared Pedestrian Detectors Using Adversarial Infrared Grid ( http://arxiv.org/abs/2407.01168v2 ) ライセンス: Link先を確認 | Kalibinuer Tiliwalidi, Chengyin Hu, Weiwen Shi, | (参考訳) 可視光スペクトルにおける物理的敵攻撃に関する広範な研究は存在するが、赤外線スペクトルにおけるそのような技術の研究は限られている。
赤外線物体検出器は現代の技術応用において不可欠であるが、敵の攻撃を受けやすいため、重大なセキュリティ上の脅威が生じる。
従来、電球アレイやエアロゲルなどの物理的摂動をホワイトボックス攻撃やブラックボックス攻撃のホットパッチやコールドパッチに用いた研究は、マルチビューのサポートにおいて非現実的あるいは限定的なものであることが証明されてきた。
これらの問題に対処するために、グリッド形式で摂動をモデル化し、ブラックボックス最適化に遺伝的アルゴリズムを用いるAdversarial Infrared Grid (AdvGrid)を提案する。
これらの摂動は、歩行者の衣服の様々な部分に循環的に適用され、赤外線歩行者検出器に対するマルチビューブラックボックス物理的な攻撃を容易にする。
大規模な実験は、AdvGridの有効性、ステルス性、堅牢性を検証する。
デジタル環境では80.00\%、物理的環境では91.86\%の攻撃成功率を達成する。
さらに、攻撃の成功率は主流検出器に対して50%以上であり、AdvGridの堅牢性を示している。
本分析では, アブレーション研究, 転送攻撃, 敵防衛などを行い, 方法の優位性を確認した。
While extensive research exists on physical adversarial attacks within the visible spectrum, studies on such techniques in the infrared spectrum are limited. Infrared object detectors are vital in modern technological applications but are susceptible to adversarial attacks, posing significant security threats. Previous studies using physical perturbations like light bulb arrays and aerogels for white-box attacks, or hot and cold patches for black-box attacks, have proven impractical or limited in multi-view support. To address these issues, we propose the Adversarial Infrared Grid (AdvGrid), which models perturbations in a grid format and uses a genetic algorithm for black-box optimization. These perturbations are cyclically applied to various parts of a pedestrian's clothing to facilitate multi-view black-box physical attacks on infrared pedestrian detectors. Extensive experiments validate AdvGrid's effectiveness, stealthiness, and robustness. The method achieves attack success rates of 80.00\% in digital environments and 91.86\% in physical environments, outperforming baseline methods. Additionally, the average attack success rate exceeds 50\% against mainstream detectors, demonstrating AdvGrid's robustness. Our analyses include ablation studies, transfer attacks, and adversarial defenses, confirming the method's superiority. | 翻訳日:2024-07-10 00:40:30 公開日:2024-07-08 |
# 物体検出の形式的検証
Formal Verification of Object Detection ( http://arxiv.org/abs/2407.01295v2 ) ライセンス: Link先を確認 | Avraham Raviv, Yizhak Y. Elboher, Michelle Aluf-Medina, Yael Leibovich Weiss, Omer Cohen, Roy Assa, Guy Katz, Hillel Kugler, | (参考訳) Deep Neural Networks(DNN)は、現実世界のアプリケーションではユビキタスだが、エラーや敵攻撃に対して脆弱である。
この研究は、コンピュータビジョンモデルの安全性を確保するために正式な検証を適用するという課題に取り組み、画像分類を超えてオブジェクト検出まで検証を拡張した。
本稿では,オブジェクト検出モデルのロバスト性を形式的検証を用いて証明するための一般的な定式化と,最先端の検証ツールと互換性のある実装戦略の概要を提案する。
本手法により,分類モデルの検証を目的としたこれらのツールのオブジェクト検出への応用が可能となった。
対象検出のための様々な攻撃を定義し、敵入力がニューラルネットワークの出力を損なう様々な方法を説明する。
いくつかの共通データセットやネットワーク上で実施した実験では、オブジェクト検出モデルにおける潜在的なエラーを明らかにし、システムの脆弱性を強調し、これらの新しいドメインに形式的検証を拡張する必要性を強調した。
この研究は、幅広いコンピュータビジョンアプリケーションにまたがって形式的検証を統合するためのさらなる研究の道を開く。
Deep Neural Networks (DNNs) are ubiquitous in real-world applications, yet they remain vulnerable to errors and adversarial attacks. This work tackles the challenge of applying formal verification to ensure the safety of computer vision models, extending verification beyond image classification to object detection. We propose a general formulation for certifying the robustness of object detection models using formal verification and outline implementation strategies compatible with state-of-the-art verification tools. Our approach enables the application of these tools, originally designed for verifying classification models, to object detection. We define various attacks for object detection, illustrating the diverse ways adversarial inputs can compromise neural network outputs. Our experiments, conducted on several common datasets and networks, reveal potential errors in object detection models, highlighting system vulnerabilities and emphasizing the need for expanding formal verification to these new domains. This work paves the way for further research in integrating formal verification across a broader range of computer vision applications. | 翻訳日:2024-07-10 00:40:30 公開日:2024-07-08 |
# Open-TeleVision: 没入型アクティブビジュアルフィードバックによる遠隔操作
Open-TeleVision: Teleoperation with Immersive Active Visual Feedback ( http://arxiv.org/abs/2407.01512v2 ) ライセンス: Link先を確認 | Xuxin Cheng, Jialong Li, Shiqi Yang, Ge Yang, Xiaolong Wang, | (参考訳) 遠隔操作は、デモからロボット学習に必要なオンロボットデータを収集する強力な方法として機能する。
テレオペレーションシステムの直感性と使いやすさは、高品質で多様な、スケーラブルなデータを保証するために不可欠である。
そこで我々は,ロボットの周囲を立体的に知覚できる没入型遠隔操作システムOpen-TeleVisionを提案する。
さらに、操作者の腕と手の動きをロボットに反映し、操作者の心がロボットの体感に伝達されるような没入感を与える。
本研究では,2種類のヒューマノイドロボットに対する4つの長期的高精度タスク(Can Sorting, Can Insertion, Folding, Unloading)のデータ収集と模倣学習ポリシーの訓練により,本システムの有効性を検証する。
このシステムは、https://robot-tv.github.io/でオープンソース化されている。
Teleoperation serves as a powerful method for collecting on-robot data essential for robot learning from demonstrations. The intuitiveness and ease of use of the teleoperation system are crucial for ensuring high-quality, diverse, and scalable data. To achieve this, we propose an immersive teleoperation system Open-TeleVision that allows operators to actively perceive the robot's surroundings in a stereoscopic manner. Additionally, the system mirrors the operator's arm and hand movements on the robot, creating an immersive experience as if the operator's mind is transmitted to a robot embodiment. We validate the effectiveness of our system by collecting data and training imitation learning policies on four long-horizon, precise tasks (Can Sorting, Can Insertion, Folding, and Unloading) for 2 different humanoid robots and deploy them in the real world. The system is open-sourced at: https://robot-tv.github.io/ | 翻訳日:2024-07-10 00:40:30 公開日:2024-07-08 |
# UniFIDES:Universal Fractional Integro-Differential Equation Solvers
UniFIDES: Universal Fractional Integro-Differential Equation Solvers ( http://arxiv.org/abs/2407.01848v2 ) ライセンス: Link先を確認 | Milad Saadat, Deepak Mangal, Safa Jamali, | (参考訳) 微分方程式を解くためのデータ駆動型アプローチの開発は、多くの分野にわたる科学と工学の応用が続き、現在も活発な科学的調査の中心となっている。
しかし、自然現象の大きな体は、分数積分微分方程式(FIDE)を通して最もよく説明されるメモリ効果を包含しており、積分作用素や微分作用素は非整数順序を受け入れる。
非線形FIDEによって引き起こされる課題に対処するには、即時的な実践的関連性を備えた汎用手法の適用が必要であるという認識の難しさがある。
この研究は、方程式のアドホックな操作を必要とせず、前方および逆方向の両方で様々なFIDEを迅速に解けるように設計された、包括的な機械学習プラットフォームUniFIDES(UniFIDES)を紹介した。
UniFIDESの有効性は、科学と工学における整数次数および分数次問題の集合を通して実証される。
この結果から,UniFIDESは積分微分方程式の広い範囲を正確に解き,動的・複雑系の発見・記述に機械学習プラットフォームを普遍的に活用する可能性が示唆された。
The development of data-driven approaches for solving differential equations has been followed by a plethora of applications in science and engineering across a multitude of disciplines and remains a central focus of active scientific inquiry. However, a large body of natural phenomena incorporates memory effects that are best described via fractional integro-differential equations (FIDEs), in which the integral or differential operators accept non-integer orders. Addressing the challenges posed by nonlinear FIDEs is a recognized difficulty, necessitating the application of generic methods with immediate practical relevance. This work introduces the Universal Fractional Integro-Differential Equation Solvers (UniFIDES), a comprehensive machine learning platform designed to expeditiously solve a variety of FIDEs in both forward and inverse directions, without the need for ad hoc manipulation of the equations. The effectiveness of UniFIDES is demonstrated through a collection of integer-order and fractional problems in science and engineering. Our results highlight UniFIDES' ability to accurately solve a wide spectrum of integro-differential equations and offer the prospect of using machine learning platforms universally for discovering and describing dynamical and complex systems. | 翻訳日:2024-07-10 00:40:30 公開日:2024-07-08 |
# 脳-ye-Computerを用いたDimオブジェクト検出のための適応的モダリティバランスオンライン知識蒸留法
Adaptive Modality Balanced Online Knowledge Distillation for Brain-Eye-Computer based Dim Object Detection ( http://arxiv.org/abs/2407.01894v2 ) ライセンス: Link先を確認 | Zixing Li, Chao Yan, Zhen Lan, Xiaojia Xiang, Han Zhou, Jun Lai, Dengqing Tang, | (参考訳) 高度な認知は、脳とコンピュータのインタフェースを用いてヒトの脳から抽出することができる。
これらのインターフェースを効率的な特徴抽出能力を持つコンピュータビジョン技術と統合することで、より堅牢で正確な航空機画像のターゲット検出を実現することができる。
しかし、既存のターゲット検出手法は主に同種データに焦点を合わせ、異種マルチモーダルデータに対する効率的で汎用的な処理能力に欠ける。
本稿では,まず,数発の撮影条件下での空中画像のための脳-眼-コンピュータによる物体検出システムを構築する。
本システムは,脳波における事象関連電位(ERP)信号を,視線追跡に基づくスローシリアル視覚提示(ESSVP)パラダイムを用いて検出し,眼球運動データと組み合わせて脳波画像データを構築する。
適応型モダリティバランスオンライン知識蒸留法(AMBOKD)を提案する。
AMBOKDはマルチヘッドアテンションモジュールを使用して脳波と画像特徴を融合させ、包括的な機能を備えた新しいモダリティを確立する。
融合モダリティの性能と堅牢性を高めるため、エンド・ツー・エンドのオンライン知識蒸留により、モダリティ間の同時学習と相互学習が可能となる。
学習過程において, 重要度の重み付けを動的に調整し, 多モード平衡を確保するために, 適応的モダリティバランスモジュールを提案する。
本手法の有効性と優位性は,既存の最先端手法と比較することによって実証した。
さらに、実際のシナリオにおける公開データセットとシステム検証実験により、提案システムと設計手法の信頼性と実用性を示す。
Advanced cognition can be extracted from the human brain using brain-computer interfaces. Integrating these interfaces with computer vision techniques, which possess efficient feature extraction capabilities, can achieve more robust and accurate detection of dim targets in aerial images. However, existing target detection methods primarily concentrate on homogeneous data, lacking efficient and versatile processing capabilities for heterogeneous multimodal data. In this paper, we first build a brain-eye-computer based object detection system for aerial images under few-shot conditions. This system detects suspicious targets using region proposal networks, evokes the event-related potential (ERP) signal in electroencephalogram (EEG) through the eye-tracking-based slow serial visual presentation (ESSVP) paradigm, and constructs the EEG-image data pairs with eye movement data. Then, an adaptive modality balanced online knowledge distillation (AMBOKD) method is proposed to recognize dim objects with the EEG-image data. AMBOKD fuses EEG and image features using a multi-head attention module, establishing a new modality with comprehensive features. To enhance the performance and robust capability of the fusion modality, simultaneous training and mutual learning between modalities are enabled by end-to-end online knowledge distillation. During the learning process, an adaptive modality balancing module is proposed to ensure multimodal equilibrium by dynamically adjusting the weights of the importance and the training gradients across various modalities. The effectiveness and superiority of our method are demonstrated by comparing it with existing state-of-the-art methods. Additionally, experiments conducted on public datasets and system validations in real-world scenarios demonstrate the reliability and practicality of the proposed system and the designed method. | 翻訳日:2024-07-10 00:40:30 公開日:2024-07-08 |
# 強化学習に基づく自律ロボットナビゲーションに関する研究
Research on Autonomous Robots Navigation based on Reinforcement Learning ( http://arxiv.org/abs/2407.02539v2 ) ライセンス: Link先を確認 | Zixiang Wang, Hao Yan, Yining Wang, Zhengjia Xu, Zhuoyue Wang, Zhizhong Wu, | (参考訳) 強化学習は、環境との継続的な相互作用を通じてリアルタイムフィードバック報酬信号に基づいて意思決定を継続的に最適化し、適応性と自己学習能力を示す。
近年,ロボットの自律的なナビゲーションを実現するための重要な手法の1つとなっている。
本研究では,強化学習に基づく自律型ロボットナビゲーション手法を提案する。
本稿では,DQNとPPOモデルを用いて,ロボットと環境の継続的な相互作用による経路計画と意思決定プロセスの最適化と,リアルタイムフィードバックによる報酬信号について述べる。
Q値関数とディープニューラルネットワークを組み合わせることで、ディープQネットワークは高次元の状態空間を処理し、複雑な環境で経路計画を実現することができる。
ポリシー関数を最適化することで、ロボットが環境情報をより効率的に探索・活用できる戦略勾配に基づく手法である。
これらの方法は、未知の環境におけるロボットのナビゲーション能力を改善するだけでなく、適応性と自己学習能力を向上させる。
複数のトレーニングとシミュレーション実験を通じて,これらのモデルの有効性とロバスト性を様々な複雑なシナリオで検証した。
Reinforcement learning continuously optimizes decision-making based on real-time feedback reward signals through continuous interaction with the environment, demonstrating strong adaptive and self-learning capabilities. In recent years, it has become one of the key methods to achieve autonomous navigation of robots. In this work, an autonomous robot navigation method based on reinforcement learning is introduced. We use the Deep Q Network (DQN) and Proximal Policy Optimization (PPO) models to optimize the path planning and decision-making process through the continuous interaction between the robot and the environment, and the reward signals with real-time feedback. By combining the Q-value function with the deep neural network, deep Q network can handle high-dimensional state space, so as to realize path planning in complex environments. Proximal policy optimization is a strategy gradient-based method, which enables robots to explore and utilize environmental information more efficiently by optimizing policy functions. These methods not only improve the robot's navigation ability in the unknown environment, but also enhance its adaptive and self-learning capabilities. Through multiple training and simulation experiments, we have verified the effectiveness and robustness of these models in various complex scenarios. | 翻訳日:2024-07-10 00:40:30 公開日:2024-07-08 |
# 低所得データの引き上げ:視覚・言語モデルにおける社会経済的な視点変化の戦略
Uplifting Lower-Income Data: Strategies for Socioeconomic Perspective Shifts in Vision-Language Models ( http://arxiv.org/abs/2407.02623v2 ) ライセンス: Link先を確認 | Joan Nwatu, Oana Ignat, Rada Mihalcea, | (参考訳) AIにおける文化と社会経済グループ間の不平等な表現は重要で困難な問題であり、しばしば不均一なモデルのパフォーマンスにつながる。
この問題に対処するためのステップとして、翻訳された非英語、地理的、社会経済的統合プロンプトを定式化し、異なる国や所得集団のデータに対するVLモデルの性能への影響を評価する。
その結果,低所得家庭における地理的・社会経済的統合は,低所得家庭におけるVLパフォーマンスの向上と,低所得家庭におけるトピックの出現の検索に寄与することが示唆された。
分析から、これらの戦略が最も改善をもたらす状況を特定し、強調する。
私たちのモデル解析コードはhttps://github.com/Anniejoan/Uplifting-Lower-income-dataで公開されています。
Unequal representation across cultures and socioeconomic groups in AI is a significant and challenging problem, often leading to uneven model performance. As a step toward addressing this issue, we formulate translated non-English, geographic, and socioeconomic integrated prompts and evaluate their impact on VL model performance for data from different countries and income groups. Our findings show that geographic and socioeconomic integrated prompts improve VL performance on lower-income data and favor the retrieval of topic appearances commonly found in data from low-income households. From our analyses, we identify and highlight contexts where these strategies yield the most improvements. Our model analysis code is publicly available at https://github.com/Anniejoan/Uplifting-Lower-income-data . | 翻訳日:2024-07-10 00:40:30 公開日:2024-07-08 |
# ハイパースペクトル画像分類のためのスペクトルグラフ推論ネットワーク
Spectral Graph Reasoning Network for Hyperspectral Image Classification ( http://arxiv.org/abs/2407.02647v2 ) ライセンス: Link先を確認 | Huiling Wang, | (参考訳) 畳み込みニューラルネットワーク(CNN)は,近年,高スペクトル画像(HSI)分類において顕著な性能を発揮している。
進歩にもかかわらず、HSIのリッチで情報的なスペクトル情報は、スペクトル領域における受容野の限られた大きさの畳み込みカーネルを用いる既存の方法によってほとんど使われていない。
この問題に対処するために,2つの重要なモジュールからなるスペクトルグラフ推論ネットワーク(SGR)学習フレームワークを提案する。
1)複数のスペクトル埋め込みをノードが埋め込み空間内の個々のスペクトル特徴チャネルに対応する統一グラフに開梱してキャストするスペクトル分離モジュールであって、このグラフは、スペクトル情報を集約して整合させ、複数の文脈レベルでスペクトル固有のグラフ埋め込みを学習するための解釈可能な推論を行う。
2) スペクトルアンサンブルモジュールは, グラフ埋め込み階層間の相互作用と相互依存性を, 新たなグラフ伝播機構を通じて探索する。
2つのHSIデータセットに対する実験により、提案アーキテクチャは、既存のマージンを持つ手法と比較して、分類精度を大幅に向上できることを示した。
Convolutional neural networks (CNNs) have achieved remarkable performance in hyperspectral image (HSI) classification over the last few years. Despite the progress that has been made, rich and informative spectral information of HSI has been largely underutilized by existing methods which employ convolutional kernels with limited size of receptive field in the spectral domain. To address this issue, we propose a spectral graph reasoning network (SGR) learning framework comprising two crucial modules: 1) a spectral decoupling module which unpacks and casts multiple spectral embeddings into a unified graph whose node corresponds to an individual spectral feature channel in the embedding space; the graph performs interpretable reasoning to aggregate and align spectral information to guide learning spectral-specific graph embeddings at multiple contextual levels 2) a spectral ensembling module explores the interactions and interdependencies across graph embedding hierarchy via a novel recurrent graph propagation mechanism. Experiments on two HSI datasets demonstrate that the proposed architecture can significantly improve the classification accuracy compared with the existing methods with a sizable margin. | 翻訳日:2024-07-10 00:40:30 公開日:2024-07-08 |
# KGym: Linuxカーネルクラッシュ解決のための大規模言語モデルをベンチマークするためのプラットフォームとデータセット
KGym: A Platform and Dataset to Benchmark Large Language Models on Linux Kernel Crash Resolution ( http://arxiv.org/abs/2407.02680v3 ) ライセンス: Link先を確認 | Alex Mathai, Chenxi Huang, Petros Maniatis, Aleksandr Nogikh, Franjo Ivancic, Junfeng Yang, Baishakhi Ray, | (参考訳) 大規模言語モデル(LLM)は、ますます現実的なソフトウェア工学(SE)タスクにおいて一貫して改善されている。
現実世界のソフトウェアスタックでは、Linuxカーネルのような基本的なシステムソフトウェアの開発にSEの取り組みが費やされています。
アプリケーションレベルのソフトウェアとは異なり、Linuxのようなシステムコードベースはマルチリンガル(低レベルのC/Assembly/Bash/Rust)、巨大(2000万行以上)、クリティカル(世界中の数十億のデバイスを圧倒)、高度に並行(複雑なマルチスレッドを含む)である。
このような大規模システムレベルのソフトウェアを開発する上で,MLモデルが有用かどうかを評価するために,kGym(プラットフォーム)とkBench(データセット)を導入する。
kGymプラットフォームは、Linuxカーネル上で大規模な実験を行うためのSE環境を提供する。複数の仮想マシン間で並列にカーネルをコンパイルし実行し、操作とクラッシュを検出し、ログを検査し、コードベースをクエリし、パッチする。
我々は、kGymを使用して、実世界のLinuxカーネルのバグから引き出されたクラッシュ解決ベンチマークであるkBenchの評価を容易にする。
kBenchの例には、クラッシュするスタックトレース、バグリデューサファイル、開発者による修正、その他の関連データが含まれている。
現在の性能を理解するため,Linuxカーネルのクラッシュの解決をLCMに促すことで,ベースライン実験を行う。
最初の評価では、最高の性能のLCMは、無支援と補助(つまり、モデルに公開されたバグファイル)の設定でそれぞれ0.72%と5.38%を達成することがわかった。
これらの結果は、SEタスクにおけるモデルパフォーマンスを向上させるためのさらなる研究の必要性を浮き彫りにしている。
kBenchのパフォーマンス向上には、クラッシュの原因を理解し、障害を修正すること、メモリセーフでハードウェア対応のコードを書くこと、並行性を理解することなど、新たな学習スキルを習得するモデルが必要だ。
結果として、この研究は機械学習とシステムソフトウェアが交わる様々な研究の道を開くことになる。
Large Language Models (LLMs) are consistently improving at increasingly realistic software engineering (SE) tasks. In real-world software stacks, significant SE effort is spent developing foundational system software like the Linux kernel. Unlike application-level software, a systems codebase like Linux is multilingual (low-level C/Assembly/Bash/Rust); gigantic (>20 million lines); critical (impacting billions of devices worldwide), and highly concurrent (involving complex multi-threading). To evaluate if ML models are useful while developing such large-scale systems-level software, we introduce kGym (a platform) and kBench (a dataset). The kGym platform provides a SE environment for large-scale experiments on the Linux kernel, including compiling and running kernels in parallel across several virtual machines, detecting operations and crashes, inspecting logs, and querying and patching the code base. We use kGym to facilitate evaluation on kBench, a crash resolution benchmark drawn from real-world Linux kernel bugs. An example bug in kBench contains crashing stack traces, a bug-reproducer file, a developer-written fix, and other associated data. To understand current performance, we conduct baseline experiments by prompting LLMs to resolve Linux kernel crashes. Our initial evaluations reveal that the best performing LLM achieves 0.72% and 5.38% in the unassisted and assisted (i.e., buggy files disclosed to the model) settings, respectively. These results highlight the need for further research to enhance model performance in SE tasks. Improving performance on kBench requires models to master new learning skills, including understanding the cause of crashes and repairing faults, writing memory-safe and hardware-aware code, and understanding concurrency. As a result, this work opens up multiple avenues of research at the intersection of machine learning and systems software. | 翻訳日:2024-07-10 00:40:30 公開日:2024-07-08 |
# 機械学習は適応学習の課題と学習経路の個別化を解決できるか?オンライン学習プラットフォームにおけるフィールド実験
Can machine learning solve the challenge of adaptive learning and the individualization of learning paths? A field experiment in an online learning platform ( http://arxiv.org/abs/2407.03118v2 ) ライセンス: Link先を確認 | Marius Köppel, Tim Klausmann, Isabell Zipperle, Daniel Schunk, | (参考訳) デジタル技術に基づく学習内容の個別化は、大きな個人的および社会的利益をもたらす。
しかし、この個別化がどのように実装されるのかは未解決のままである。
この問題に対処するため、我々は大規模なデジタル自己学習プラットフォーム上でランダム化制御試験を実施している。
我々は,2つの畳み込みニューラルネットワークに基づくアルゴリズムを開発し,学習経路に応じて4,365ドルの学習者にタスクを割り当てる。
学習者は、グループベースの適応治療グループと個別適応治療グループという2つの治療グループと、1つのコントロールグループにランダム化される。
本研究は,学習者が提供する努力とプラットフォーム上でのパフォーマンスについて,これら3つのグループの違いを分析した。
我々のヌル結果は、学習経路の個別化に関連する複数の課題に光を当てた。
The individualization of learning contents based on digital technologies promises large individual and social benefits. However, it remains an open question how this individualization can be implemented. To tackle this question we conduct a randomized controlled trial on a large digital self-learning platform. We develop an algorithm based on two convolutional neural networks that assigns tasks to $4,365$ learners according to their learning paths. Learners are randomized into three groups: two treatment groups -- a group-based adaptive treatment group and an individual adaptive treatment group -- and one control group. We analyze the difference between the three groups with respect to effort learners provide and their performance on the platform. Our null results shed light on the multiple challenges associated with the individualization of learning paths. | 翻訳日:2024-07-09 22:46:24 公開日:2024-07-08 |
# MVGT:脳波認識のための空間関係に基づく多視点グラフ変換器
MVGT: A Multi-view Graph Transformer Based on Spatial Relations for EEG Emotion Recognition ( http://arxiv.org/abs/2407.03131v2 ) ライセンス: Link先を確認 | Yanjie Cui, Xiaohong Liu, Jing Liang, Yamin Fu, | (参考訳) 脳波(Electroencephalography、EEG)は、電極を介して脳構造の頭皮電気活動を捉える医療画像技術である。
脳波の空間領域は感情情報に富んでいる。
しかし、空間領域における幾何的構造と解剖学的構造の複数の視点から脳波信号を同時に分析する研究はほとんどない。
本稿では,空間的関係に基づく多視点グラフ変換器(MVGT)を提案し,幾何学的・解剖学的構造を含む時間的・周波数的・空間的領域の情報を統合することにより,モデルの表現力を包括的に向上させる。
脳波チャネルの空間情報を符号化としてモデルに組み込むことにより,脳波チャネルの空間構造を知覚する能力を向上させる。
一方, 公開データセットに基づく実験結果から, 提案手法は近年, 最先端の手法よりも優れていることが示された。
さらに、MVGTは複数の領域から情報を抽出し、脳波の感情認識タスクにおけるチャネル間関係を効果的に捉えることができることを示した。
Electroencephalography (EEG), a medical imaging technique that captures scalp electrical activity of brain structures via electrodes, has been widely used in affective computing. The spatial domain of EEG is rich in affective information. However, few of the existing studies have simultaneously analyzed EEG signals from multiple perspectives of geometric and anatomical structures in spatial domain. In this paper, we propose a multi-view Graph Transformer (MVGT) based on spatial relations, which integrates information from the temporal, frequency and spatial domains, including geometric and anatomical structures, so as to enhance the expressive power of the model comprehensively. We incorporate the spatial information of EEG channels into the model as encoding, thereby improving its ability to perceive the spatial structure of the channels. Meanwhile, experimental results based on publicly available datasets demonstrate that our proposed model outperforms state-of-the-art methods in recent years. In addition, the results also show that the MVGT could extract information from multiple domains and capture inter-channel relationships in EEG emotion recognition tasks effectively. | 翻訳日:2024-07-09 22:46:24 公開日:2024-07-08 |
# ツープレイゲームアプローチによるクラスフェアネスの強化
Enhancing Class Fairness in Classification with A Two-Player Game Approach ( http://arxiv.org/abs/2407.03146v2 ) ライセンス: Link先を確認 | Yunpeng Jiang, Paul Weng, Yutong Ban, | (参考訳) データ拡張は広く適用されており、さまざまな機械学習タスクにおいてそのメリットを示している。
しかし、最近下流のタスクで見られるように、データ拡張は分類に不公平な影響を与える可能性がある。
いくつかのクラスのパフォーマンスを改善することができるが、実際には他のクラスにとって有害であり、いくつかのアプリケーションドメインでは問題となることがある。
本稿では,この現象に対処するため,FACTを用いたFAir分類手法を提案する。
まず,データ拡張を伴う分類器のトレーニングを公正な最適化問題として定式化し,対戦型2プレーヤゲームとして記述する。
この定式化に続いて,クラスに対して公平な解に収束できることを理論的に証明する,新しい乗法重み最適化アルゴリズムを提案する。
興味深いことに、私たちの定式化は、このクラスに対する公平性問題は、データ拡張によるものではなく、実際は一般的な現象であることも明らかにしています。
我々の実証実験は、学習した分類器の性能が5つのデータセットのクラスにかなり分散していることを示し、平均精度に限られた影響しか与えていない。
Data augmentation is widely applied and has shown its benefits in different machine learning tasks. However, as recently observed in some downstream tasks, data augmentation may introduce an unfair impact on classifications. While it can improve the performance of some classes, it can actually be detrimental for other classes, which can be problematic in some application domains. In this paper, to counteract this phenomenon, we propose a FAir Classification approach with a Two-player game (FACT). We first formulate the training of a classifier with data augmentation as a fair optimization problem, which can be further written as an adversarial two-player game. Following this formulation, we propose a novel multiplicative weight optimization algorithm, for which we theoretically prove that it can converge to a solution that is fair over classes. Interestingly, our formulation also reveals that this fairness issue over classes is not due to data augmentation only, but is in fact a general phenomenon. Our empirical experiments demonstrate that the performance of our learned classifiers is indeed more fairly distributed over classes in five datasets, with only limited impact on the average accuracy. | 翻訳日:2024-07-09 22:46:24 公開日:2024-07-08 |
# EventChat:中小企業におけるレジャーイベント探索のための大規模言語モデル駆動型会話推薦システムの実装とユーザ中心評価
EventChat: Implementation and user-centric evaluation of a large language model-driven conversational recommender system for exploring leisure events in an SME context ( http://arxiv.org/abs/2407.04472v2 ) ライセンス: Link先を確認 | Hannes Kunstmann, Joseph Ollier, Joel Persson, Florian von Wangenheim, | (参考訳) 大規模言語モデル (LLM) は、対話レコメンデーションシステム (CRS) の戦略的ポテンシャルにおいて大きな進化をもたらす。
しかし、これまでの研究は、特に世界経済の基盤となる中小企業(中小企業)の観点から、エンドユーザー評価や戦略的意味ではなく、LCM主導のCRSを実装するための技術的な枠組みに重点を置いてきた。
本稿では,LCM駆動型CRSを中小企業環境で設計し,それに続く性能を客観的システムメトリクスと主観的ユーザ評価の両方を用いて詳述する。
さらに,LLM駆動型CRSを評価するために,短時間で改良されたResQueモデルについて概説する。
ユーザエクスペリエンスの観点からは,システムパフォーマンスが良好であること(推奨精度85.5%)は明らかだが,ビジネスの生存性に疑問を呈するレイテンシ,コスト,品質の面では過小評価されている。
特に、インタラクション毎の中央値が0.04ドル、レイテンシが5.7sであり、よりユーザフレンドリーで経済的に実行可能なLCM駆動の中小企業向けCRSを実現するための重要な領域として、コスト効率と応答時間が現れる。
これらのコストの1つの主要な要因は、検索強化世代(RAG)技術において、高度なLCMをローダとして使用することである。
また,本研究の結果は,ChatGPTを基盤としたPromptベースの学習のようなアプローチにのみ依存することで,生産環境における満足度の向上が困難であることを示唆している。
LLM駆動型CRSを配備する中小企業の戦略的考察について概説する。
Large language models (LLMs) present an enormous evolution in the strategic potential of conversational recommender systems (CRS). Yet to date, research has predominantly focused upon technical frameworks to implement LLM-driven CRS, rather than end-user evaluations or strategic implications for firms, particularly from the perspective of a small to medium enterprises (SME) that makeup the bedrock of the global economy. In the current paper, we detail the design of an LLM-driven CRS in an SME setting, and its subsequent performance in the field using both objective system metrics and subjective user evaluations. While doing so, we additionally outline a short-form revised ResQue model for evaluating LLM-driven CRS, enabling replicability in a rapidly evolving field. Our results reveal good system performance from a user experience perspective (85.5% recommendation accuracy) but underscore latency, cost, and quality issues challenging business viability. Notably, with a median cost of $0.04 per interaction and a latency of 5.7s, cost-effectiveness and response time emerge as crucial areas for achieving a more user-friendly and economically viable LLM-driven CRS for SME settings. One major driver of these costs is the use of an advanced LLM as a ranker within the retrieval-augmented generation (RAG) technique. Our results additionally indicate that relying solely on approaches such as Prompt-based learning with ChatGPT as the underlying LLM makes it challenging to achieve satisfying quality in a production environment. Strategic considerations for SMEs deploying an LLM-driven CRS are outlined, particularly considering trade-offs in the current technical landscape. | 翻訳日:2024-07-09 22:46:24 公開日:2024-07-08 |
# PDiscoFormer: ビジョントランスフォーマーによるパートディスカバリ制約の緩和
PDiscoFormer: Relaxing Part Discovery Constraints with Vision Transformers ( http://arxiv.org/abs/2407.04538v2 ) ライセンス: Link先を確認 | Ananthu Aniraj, Cassio F. Dantas, Dino Ienco, Diego Marcos, | (参考訳) 対象部品を明示的に検出するコンピュータビジョン手法は、本質的に解釈可能なモデルへのステップである。
きめ細かな分類タスクによって引き起こされる部分発見を行う既存のアプローチは、発見された部分の幾何学的性質に非常に限定的な仮定をし、それらは小さくてコンパクトであるべきである。
しかし,本稿では,自己監督型DINOv2 ViTのような事前学習型トランスフォーマーベースの視覚モデルにより,これらの制約を緩和できることを示す。
特に、任意の大きさの複数の接続されたコンポーネントを利用できる全変動(TV)が、以前の作業よりも大幅に優れていたことが判明した。
我々は、CUB、PartImageNet、Oxford Flowersの3つの詳細な分類ベンチマークでアプローチを検証し、その結果を以前に公表された手法と比較するとともに、最新の手法であるPDiscoNetをトランスフォーマーベースのバックボーンで再実装した。
自己教師型VTモデルにおける強い帰納バイアスは、教師なしの部品発見に使用できる幾何学的先行性を再考する必要があることを示す。
Computer vision methods that explicitly detect object parts and reason on them are a step towards inherently interpretable models. Existing approaches that perform part discovery driven by a fine-grained classification task make very restrictive assumptions on the geometric properties of the discovered parts; they should be small and compact. Although this prior is useful in some cases, in this paper we show that pre-trained transformer-based vision models, such as self-supervised DINOv2 ViT, enable the relaxation of these constraints. In particular, we find that a total variation (TV) prior, which allows for multiple connected components of any size, substantially outperforms previous work. We test our approach on three fine-grained classification benchmarks: CUB, PartImageNet and Oxford Flowers, and compare our results to previously published methods as well as a re-implementation of the state-of-the-art method PDiscoNet with a transformer-based backbone. We consistently obtain substantial improvements across the board, both on part discovery metrics and the downstream classification task, showing that the strong inductive biases in self-supervised ViT models require to rethink the geometric priors that can be used for unsupervised part discovery. | 翻訳日:2024-07-09 22:46:24 公開日:2024-07-08 |
# スタックオーバーフローにおける重複問題同定のための画像処理の負の結果
Negative Results of Image Processing for Identifying Duplicate Questions on Stack Overflow ( http://arxiv.org/abs/2407.05523v1 ) ライセンス: Link先を確認 | Faiz Ahmed, Suprakash Datta, Maleknaz Nayebi, | (参考訳) 開発者コミュニティの急速な発展の中で、Q&Aプラットフォームは開発者の知識をクラウドソーシングするための重要なリソースとなっている。
注目すべきトレンドは、複雑なクエリをより効率的に伝達するイメージの利用の増加である。
しかし、現在の重複問題検出の最先端手法は、このシフトに追随せず、主にテキストベースの分析に集中している。
画像処理の進歩と、ソーシャルコーディングプラットフォームにおけるイメージベースのコミュニケーションの将来性を示すソフトウエアエンジニアリングにおける多くの研究に触発されて、Stack Overflowで重複した質問を特定するためのイメージベースのテクニックを探求した。
Stack Overflowの質問のテキスト分析にのみ焦点をあてて、イメージの使用を省略する場合、私たちの自動モデルは問題の重要な側面を見落としています。
これまでの研究は、画像のテキストへの相補的な性質を実証してきた。
そこで我々は,まず画像からのテキストを質問文に統合し,次に画像キャプションを用いて視覚的内容に基づいて画像を評価する2つの画像解析手法を実装した。
厳密な評価を行った結果, 得られた効率改善は比較的緩やかであり, 平均1%程度であった。
この限界拡大は、実質的な影響と見なされるものには及ばない。
奨励的な側面として、我々の研究は容易に複製と仮説検証の基盤を築き、将来の研究を我々のアプローチの上に構築することを可能にする。
In the rapidly evolving landscape of developer communities, Q&A platforms serve as crucial resources for crowdsourcing developers' knowledge. A notable trend is the increasing use of images to convey complex queries more effectively. However, the current state-of-the-art method of duplicate question detection has not kept pace with this shift, which predominantly concentrates on text-based analysis. Inspired by advancements in image processing and numerous studies in software engineering illustrating the promising future of image-based communication on social coding platforms, we delved into image-based techniques for identifying duplicate questions on Stack Overflow. When focusing solely on text analysis of Stack Overflow questions and omitting the use of images, our automated models overlook a significant aspect of the question. Previous research has demonstrated the complementary nature of images to text. To address this, we implemented two methods of image analysis: first, integrating the text from images into the question text, and second, evaluating the images based on their visual content using image captions. After a rigorous evaluation of our model, it became evident that the efficiency improvements achieved were relatively modest, approximately an average of 1%. This marginal enhancement falls short of what could be deemed a substantial impact. As an encouraging aspect, our work lays the foundation for easy replication and hypothesis validation, allowing future research to build upon our approach. | 翻訳日:2024-07-09 17:29:37 公開日:2024-07-08 |
# 分子に基づく誘電構造単一光子源を用いた量子メロロジーの進歩
Advances in quantum metrology with dielectrically structured single photon sources based on molecules ( http://arxiv.org/abs/2407.05525v1 ) ライセンス: Link先を確認 | Pietro Lombardi, Hristina Georgieva, Franziska Hirt, Juergen Mony, Rocco Duquennoy, Ramin Emadi, Maria Guadalupe Aparicio, Maja Colautti, Marco López, Stefan Kück, Costanza Toninelli, | (参考訳) 基本量子科学と技術の領域では、単一光子フォック状態のような非古典的な光状態が広く研究されている。
しかし、現在の標準と気象学的手順は、低照度レベルに最適化されていない。
この重要な科学領域の進歩は、量子効果に基づく信頼性の高いデバイスを活用する革新的な気象学アプローチに依存している。
分子をベースとした新世代の単一光子源について, 高分子マイクロレンズとパルス励起スキームとの融合を図り, 量子ラジオメトリーにおける適切な資源を実現する。
我々の戦略は、発生した単一光子パルスの効率を高め、安定性を向上し、冷却・加熱サイクルでも一貫した性能を維持する784.7nmのポータブルソースを提供する。
単一光子アバランシェ検出器の校正は、異なる光子統計を持つ光源を用いて実証され、単一分子装置の利点が議論された。
内在的検出効率の相対的不確実性は1%以下であり、この分野における新たなベンチマークを示す。
In the realm of fundamental quantum science and technologies, non-classical states of light, such as single-photon Fock states, are widely studied. However, current standards and metrological procedures are not optimized for low light levels. Progress in this crucial scientific domain depends on innovative metrology approaches, utilizing reliable devices based on quantum effects. We present a new generation of molecule-based single photon sources, combining their integration in a polymeric micro-lens with pulsed excitation schemes, thereby realizing suitable resources in quantum radiometry. Our strategy enhances the efficiency of generated single photon pulses and improves stability, providing a portable source at 784.7 nm that maintains consistent performance even through a cooling and heating cycle. The calibration of a single photon avalanche detector is demonstrated using light sources with different photon statistics, and the advantages of the single-molecule device are discussed. A relative uncertainty on the intrinsic detection efficiency well below 1 % is attained, representing a new benchmark in the field. | 翻訳日:2024-07-09 17:29:37 公開日:2024-07-08 |
# 機械は真の可能性を学ぶことができるか?
Can Machines Learn the True Probabilities? ( http://arxiv.org/abs/2407.05526v1 ) ライセンス: Link先を確認 | Jinsook Kim, | (参考訳) 不確実性が存在する場合、AIマシンは最適な結果に到達するために決定を下すように設計されている。
期待は、マシンが相互作用する客観的環境に関する真の事実に基づいており、それらの事実は真の客観的確率関数の形でAIモデルにエンコードされる。
したがって、AIモデルは確率論的機械学習を含み、確率は客観的に解釈されるべきである。
機械が真の客観的確率を学べる場合、もしあれば、マシンがそれを学べない場合に、いくつかの基本的な前提の下で証明する。
When there exists uncertainty, AI machines are designed to make decisions so as to reach the best expected outcomes. Expectations are based on true facts about the objective environment the machines interact with, and those facts can be encoded into AI models in the form of true objective probability functions. Accordingly, AI models involve probabilistic machine learning in which the probabilities should be objectively interpreted. We prove under some basic assumptions when machines can learn the true objective probabilities, if any, and when machines cannot learn them. | 翻訳日:2024-07-09 17:29:37 公開日:2024-07-08 |
# StyleGAN2におけるイメージスキップ接続の再考
Rethinking Image Skip Connections in StyleGAN2 ( http://arxiv.org/abs/2407.05527v1 ) ライセンス: Link先を確認 | Seung Park, Yong-Goo Shin, | (参考訳) StyleGANに基づく様々なモデルは、その堅牢なトレーニング安定性と優れた性能のために、画像合成の分野で大きな注目を集めている。
StyleGANフレームワーク内では、従来の残留接続よりも、イメージスキップ接続の採用が好まれている。
しかし、この選好は経験的な観察に基づいているだけであり、まだ詳細な数学的分析は行われていない。
この状況の是正を目的として, 画像スキップ接続の数学的意味を解明し, 画像圧縮接続と呼ばれる画期的な手法を導入し, 画像合成の質を著しく向上させる。
具体的には,画像スキップ接続手法を解析して問題を明らかにするとともに,GAN性能を効果的に向上するだけでなく,ネットワークパラメータの必要量を削減する手法を提案する。
各種データセットに対する大規模な実験により,提案手法はStyleGANに基づく最先端モデルの性能を継続的に向上することを示した。
本研究は,画像合成分野における重要な進歩を示すものであり,今後の研究・応用に向けた新たな方向性を示唆するものである。
Various models based on StyleGAN have gained significant traction in the field of image synthesis, attributed to their robust training stability and superior performances. Within the StyleGAN framework, the adoption of image skip connection is favored over the traditional residual connection. However, this preference is just based on empirical observations; there has not been any in-depth mathematical analysis on it yet. To rectify this situation, this brief aims to elucidate the mathematical meaning of the image skip connection and introduce a groundbreaking methodology, termed the image squeeze connection, which significantly improves the quality of image synthesis. Specifically, we analyze the image skip connection technique to reveal its problem and introduce the proposed method which not only effectively boosts the GAN performance but also reduces the required number of network parameters. Extensive experiments on various datasets demonstrate that the proposed method consistently enhances the performance of state-of-the-art models based on StyleGAN. We believe that our findings represent a vital advancement in the field of image synthesis, suggesting a novel direction for future research and applications. | 翻訳日:2024-07-09 17:29:37 公開日:2024-07-08 |
# 正確な検出は、Webノイズの多いデータセットでラベルノイズに対処するために必要なものだけではない
An accurate detection is not all you need to combat label noise in web-noisy datasets ( http://arxiv.org/abs/2407.05528v1 ) ライセンス: Link先を確認 | Paul Albert, Jack Valmadre, Eric Arazo, Tarun Krishna, Noel E. O'Connor, Kevin McGuinness, | (参考訳) Webcrawledデータ上の分類器のトレーニングでは、アノテーションエラーや無関係な例に対して堅牢な学習アルゴリズムが要求される。
本稿では,教師なしのコントラスト学習をノイズに応用した最近の経験的考察に基づいて,Webcrawled データセットは,分布内 (ID) と分布外 (OOD) のサンプルが線形に分離可能な特徴表現を与える。
分離された超平面の直接推定は、OODサンプルの正確な検出を可能にするが、驚くべきことに、この検出は分類精度の上昇に寄与しない。
この現象を深く掘り下げると、ほぼ完璧な検出は、教師あり学習に有用なクリーンな例を見逃すことがわかりました。
これらの例はしばしば視覚的に単純なイメージを表しており、教師なし学習を用いてOOD分布から疎外されているにもかかわらず、標準的なロスベースや距離ベースの手法を用いて、比較的クリーンな例として識別するのが簡単である。
さらに,SOTA測定値との相関が低いことから,線形分離を用いたノイズ検出とSOTA(State-of-the-art)の小型化を交互に行うハイブリッドソリューションを提案する。
Web noise github.com/PaulAlbert31/LSA の存在下での実世界の画像分類における SOTA アルゴリズム PLS と組み合わせることで,SOTA の精度を大幅に向上する。
Training a classifier on web-crawled data demands learning algorithms that are robust to annotation errors and irrelevant examples. This paper builds upon the recent empirical observation that applying unsupervised contrastive learning to noisy, web-crawled datasets yields a feature representation under which the in-distribution (ID) and out-of-distribution (OOD) samples are linearly separable. We show that direct estimation of the separating hyperplane can indeed offer an accurate detection of OOD samples, and yet, surprisingly, this detection does not translate into gains in classification accuracy. Digging deeper into this phenomenon, we discover that the near-perfect detection misses a type of clean examples that are valuable for supervised learning. These examples often represent visually simple images, which are relatively easy to identify as clean examples using standard loss- or distance-based methods despite being poorly separated from the OOD distribution using unsupervised learning. Because we further observe a low correlation with SOTA metrics, this urges us to propose a hybrid solution that alternates between noise detection using linear separation and a state-of-the-art (SOTA) small-loss approach. When combined with the SOTA algorithm PLS, we substantially improve SOTA results for real-world image classification in the presence of web noise github.com/PaulAlbert31/LSA | 翻訳日:2024-07-09 17:29:37 公開日:2024-07-08 |
# ディープフェイクの裏側:8%の創造、90%の懸念 : イギリスにおけるディープフェイクに対する公衆の暴露と認識調査
Behind the Deepfake: 8% Create; 90% Concerned. Surveying public exposure to and perceptions of deepfakes in the UK ( http://arxiv.org/abs/2407.05529v1 ) ライセンス: Link先を確認 | Tvesha Sippy, Florence Enock, Jonathan Bright, Helen Z. Margetts, | (参考訳) 本稿は、英国成人1403人の全国代表調査から得られた知見に基づいて、ディープフェイクの公的な露出と知覚について考察する。
この調査は、近年のディープフェイク技術の改善や、政治的ディープフェイクの普及以来初めてのものだ。
この結果は3つの重要な洞察を浮き彫りにした。
まず、15%の人が、ディープフェイクポルノ、ディープフェイク詐欺や、健康や宗教的な誤報やプロパガンダを広めるディープフェイクなど、有害なディープフェイクに曝されていると報告している。
一般のターゲットとしては、有名人によるディープフェイクへの露出は50.2%、政治家による露出は34.1%だった。
回答者の5.7%は、英国の政治的ディープフェイクに注目している。
第二に、有害なディープフェイクへの曝露は比較的少なかったが、ディープフェイクに対する認識と恐怖は高い(そして女性は男性よりもそのような恐怖を経験する可能性が高い)。
恐怖と同様に、ディープフェイクの拡散に関する一般的な懸念も高く、回答者の90.4%はこの問題を非常に心配していたか、いくらか心配していた。
ほとんどの回答者(少なくとも91.8%)は、ディープフェイクがオンラインの児童性的虐待の素材に追加され、情報の不信を高め、世論を操ることを恐れていた。
第3に,ディープフェイクに対する意識が高い一方で,ディープフェイクツールの使用率が低い(8%)。
ほとんどの回答者は検出能力に自信がなく、オンラインでの視聴覚コンテンツに自信を持っていました。
我々の研究は、ほんの数年でディープフェイクの問題が公衆の意識に浸透したことを強調し、また有害なディープフェイクの拡散に対処するためのメディアリテラシープログラムやその他の政策介入の必要性も強調している。
This article examines public exposure to and perceptions of deepfakes based on insights from a nationally representative survey of 1403 UK adults. The survey is one of the first of its kind since recent improvements in deepfake technology and widespread adoption of political deepfakes. The findings reveal three key insights. First, on average, 15% of people report exposure to harmful deepfakes, including deepfake pornography, deepfake frauds/scams and other potentially harmful deepfakes such as those that spread health/religious misinformation/propaganda. In terms of common targets, exposure to deepfakes featuring celebrities was 50.2%, whereas those featuring politicians was 34.1%. And 5.7% of respondents recall exposure to a selection of high profile political deepfakes in the UK. Second, while exposure to harmful deepfakes was relatively low, awareness of and fears about deepfakes were high (and women were significantly more likely to report experiencing such fears than men). As with fears, general concerns about the spread of deepfakes were also high; 90.4% of the respondents were either very concerned or somewhat concerned about this issue. Most respondents (at least 91.8%) were concerned that deepfakes could add to online child sexual abuse material, increase distrust in information and manipulate public opinion. Third, while awareness about deepfakes was high, usage of deepfake tools was relatively low (8%). Most respondents were not confident about their detection abilities and were trustful of audiovisual content online. Our work highlights how the problem of deepfakes has become embedded in public consciousness in just a few years; it also highlights the need for media literacy programmes and other policy interventions to address the spread of harmful deepfakes. | 翻訳日:2024-07-09 17:29:37 公開日:2024-07-08 |
# This&That:ロボット計画のための言語ジェスチャー制御ビデオ生成
This&That: Language-Gesture Controlled Video Generation for Robot Planning ( http://arxiv.org/abs/2407.05530v1 ) ライセンス: Link先を確認 | Boyang Wang, Nikhil Sridhar, Chao Feng, Mark Van der Merwe, Adam Fishman, Nima Fazeli, Jeong Joon Park, | (参考訳) 本稿では,これとよばれる幅広いタスクをコミュニケーションし,計画し,実行するためのロボット学習手法を提案する。
我々は,リッチな物理・セマンティックコンテキストを含むインターネット規模のデータに基づいて訓練された映像生成モデルのパワーを活用することで,一般的なタスクのためのロボット計画を実現する。
本研究では,ビデオベースプランニングにおける3つの基本的な課題に取り組む。
1)簡単な指示によるあいまいなタスクコミュニケーション。
2【ユーザ意図を尊重する制御可能なビデオ生成】
3)視覚計画のロボット行動への変換
本稿では,特に複雑で不確実な環境で,既存の言語のみの手法よりもシンプルで明瞭なビデオを生成するための言語位置条件を提案する。
次に、ビデオプランをシームレスに組み込んだ行動クローン設計を提案する。
This&That is demonstrated the state-of-the-art effective in addressing the three challenges and justify the use of video generation as a intermediate representation for generalizable task planning and execution。
プロジェクトWebサイト: https://cfeng16.github.io/this-and-that/。
We propose a robot learning method for communicating, planning, and executing a wide range of tasks, dubbed This&That. We achieve robot planning for general tasks by leveraging the power of video generative models trained on internet-scale data containing rich physical and semantic context. In this work, we tackle three fundamental challenges in video-based planning: 1) unambiguous task communication with simple human instructions, 2) controllable video generation that respects user intents, and 3) translating visual planning into robot actions. We propose language-gesture conditioning to generate videos, which is both simpler and clearer than existing language-only methods, especially in complex and uncertain environments. We then suggest a behavioral cloning design that seamlessly incorporates the video plans. This&That demonstrates state-of-the-art effectiveness in addressing the above three challenges, and justifies the use of video generation as an intermediate representation for generalizable task planning and execution. Project website: https://cfeng16.github.io/this-and-that/. | 翻訳日:2024-07-09 17:29:37 公開日:2024-07-08 |
# ニューラルネットワークモデルによる低次元空間における実効多体相互作用
Effective Many-body Interactions in Reduced-Dimensionality Spaces Through Neural Network Models ( http://arxiv.org/abs/2407.05536v1 ) ライセンス: Link先を確認 | Senwei Liang, Karol Kowalski, Chao Yang, Nicholas P. Bauman, | (参考訳) 物理科学における挑戦的な問題の性質を正確に記述するには、しばしば複雑な数学的モデルを必要とする。
したがって、多体系における複雑な相関効果を包含する次元表現の縮小は、これらの複雑な問題の理解を深める上で極めて重要である。
しかし、これらの予測モデルの数値的な評価は、依然としてかなりの計算オーバーヘッドに関連付けられている。
そこで,本稿では,結合クラスタ(CC)をダウンフォールドしたハミルトニアンとニューラルネットワークのアプローチによるアクティブスペース表現の開発において,最近の進歩を取り入れた統合フレームワークについて論じる。
この取り組みの主な目的は、ニューラルネットワークをトレーニングして、数十から数千のヒューゲンホルツ図を評価するのに必要な計算コストのかかるステップを取り除くことである。
分子の小さな分子系(H2O分子とHF分子)を用いて、分子のいくつかの核測地に対して有効ハミルトニアンを用いたニューラルネットワークを訓練することにより、それらの形状を異なる相関効果の強度によって特徴づけられる他の幾何学的構成に正確に補間・外挿することができることを示した。
また、CCダウンフォールドハミルトニアンを定義する効果的な相互作用と、活性空間におけるクーロン相互作用によって定義される素ハミルトニアンとの差異についても論じる。
Accurately describing properties of challenging problems in physical sciences often requires complex mathematical models that are unmanageable to tackle head-on. Therefore, developing reduced dimensionality representations that encapsulate complex correlation effects in many-body systems is crucial to advance the understanding of these complicated problems. However, a numerical evaluation of these predictive models can still be associated with a significant computational overhead. To address this challenge, in this paper, we discuss a combined framework that integrates recent advances in the development of active-space representations of coupled cluster (CC) downfolded Hamiltonians with neural network approaches. The primary objective of this effort is to train neural networks to eliminate the computationally expensive steps required for evaluating hundreds or thousands of Hugenholtz diagrams, which correspond to multidimensional tensor contractions necessary for evaluating a many-body form of downfolded/effective Hamiltonians. Using small molecular systems (the H2O and HF molecules) as examples, we demonstrate that training neural networks employing effective Hamiltonians for a few nuclear geometries of molecules can accurately interpolate/ extrapolate their forms to other geometrical configurations characterized by different intensities of correlation effects. We also discuss differences between effective interactions that define CC downfolded Hamiltonians with those of bare Hamiltonians defined by Coulomb interactions in the active spaces. | 翻訳日:2024-07-09 17:19:52 公開日:2024-07-08 |
# 論理プログラミングとSETAFの等価性について
On the Equivalence between Logic Programming and SETAF ( http://arxiv.org/abs/2407.05538v1 ) ライセンス: Link先を確認 | João Alcântara, Renan Cordeiro, Samy Sá, | (参考訳) 攻撃的引数のセットを持つフレームワーク(SETAF)は、よく知られたDungの抽象引数フレームワーク(AAF)の拡張であり、引数に対する共同攻撃を可能にする。
本稿では,正規論理プログラム (NLP) から SETAF への変換を行い,その逆も SETAF から NLP への変換を行う。
L-stable と semi-stable のセマンティクスの同値性を含むセマンティクスの間には、ペアワイズな等価性が存在することを示す。
さらに、冗長自由原子論理プログラム (RFALPs) と呼ばれるNLPのクラスでは、これらのバック・フォース変換が互いに逆であるため、構造的等価性もある。
そして、文献ですでに知られている一連のプログラム変換を用いて、任意のNLPを等価なRFALPに変換することにより、RFALPはNLPと同じくらい表現力が高いことを示す。
また、これらのプログラム変換は収束しており、全てのNLPがユニークなRFALPに変換されることを示す。
本稿では,NLPとSETAFが本質的に同じ形式である,という理解を深める。
論理プログラミングの理論と実践(TPLP)
A framework with sets of attacking arguments (SETAF) is an extension of the well-known Dung's Abstract Argumentation Frameworks (AAFs) that allows joint attacks on arguments. In this paper, we provide a translation from Normal Logic Programs (NLPs) to SETAFs and vice versa, from SETAFs to NLPs. We show that there is pairwise equivalence between their semantics, including the equivalence between L-stable and semi-stable semantics. Furthermore, for a class of NLPs called Redundancy-Free Atomic Logic Programs (RFALPs), there is also a structural equivalence as these back-and-forth translations are each other's inverse. Then, we show that RFALPs are as expressive as NLPs by transforming any NLP into an equivalent RFALP through a series of program transformations already known in the literature. We also show that these program transformations are confluent, meaning that every NLP will be transformed into a unique RFALP. The results presented in this paper enhance our understanding that NLPs and SETAFs are essentially the same formalism. Under consideration in Theory and Practice of Logic Programming (TPLP). | 翻訳日:2024-07-09 17:19:52 公開日:2024-07-08 |
# GTP-4o:Omni-modal Biomedical RepresentationのためのModality-prompted Heterogeneous Graph Learning
GTP-4o: Modality-prompted Heterogeneous Graph Learning for Omni-modal Biomedical Representation ( http://arxiv.org/abs/2407.05540v1 ) ライセンス: Link先を確認 | Chenxin Li, Xinyu Liu, Cheng Wang, Yifan Liu, Weihao Yu, Jing Shao, Yixuan Yuan, | (参考訳) マルチモーダル表現の学習の最近の進歩は、バイオメディカルドメインの成功を目撃している。
確立された技術は多モード情報を扱えるが,本質的なモダリティギャップによる様々な臨床モダリティや実践的なモダリティ緩和設定に拡張することで課題が提起される。
これらの課題に対処するために,多種多様な臨床モダリティを統一表現に組み込み,欠落したモダリティの不十分な埋め込みを完了し,グラフベースのアグリゲーションでクロスモーダル学習を再構築する,革新的なモダリティプロンプト型Omnimodal Learning用不均質グラフ(GTP-4o)を提案する。
特に、モーダリティ特化特徴(ノード)とクロスモーダル関係(エッジ)の両方における多様な意味特性を明示的に捉えるために、異種グラフの埋め込みを確立する。
そこで,不適切なグラフ表現をグラフプロンプト機構で実現し,幻覚図形トポロジを生成し,不適切な埋め込みを無傷表現に向けて操るモーダリティプロンプトを設計する。
完成したグラフを通して、ドメイン知識によって駆動される経路に沿った潜在的不均一な隣人を明らかにするために、グローバルなメタパスからなる知識誘導型階層的クロスモーダルアグリゲーションと、多種多様な異種関係をまたいだ包括的相互モーダル相互作用のための局所的マルチリレーションアグリゲーションモジュールを慎重に開発する。
先行技術に対する厳密なベンチマーク実験における方法論の有効性を評価する。
ナットシェルにおいて、GTP-4oは、グラフ理論を通して様々な臨床形態から異質なパターンを埋め込み、関連付け、知覚するという興味深い領域への最初の前進を提示する。
プロジェクトページ: https://gtp-4-o.github.io/
Recent advances in learning multi-modal representation have witnessed the success in biomedical domains. While established techniques enable handling multi-modal information, the challenges are posed when extended to various clinical modalities and practical modalitymissing setting due to the inherent modality gaps. To tackle these, we propose an innovative Modality-prompted Heterogeneous Graph for Omnimodal Learning (GTP-4o), which embeds the numerous disparate clinical modalities into a unified representation, completes the deficient embedding of missing modality and reformulates the cross-modal learning with a graph-based aggregation. Specially, we establish a heterogeneous graph embedding to explicitly capture the diverse semantic properties on both the modality-specific features (nodes) and the cross-modal relations (edges). Then, we design a modality-prompted completion that enables completing the inadequate graph representation of missing modality through a graph prompting mechanism, which generates hallucination graphic topologies to steer the missing embedding towards the intact representation. Through the completed graph, we meticulously develop a knowledge-guided hierarchical cross-modal aggregation consisting of a global meta-path neighbouring to uncover the potential heterogeneous neighbors along the pathways driven by domain knowledge, and a local multi-relation aggregation module for the comprehensive cross-modal interaction across various heterogeneous relations. We assess the efficacy of our methodology on rigorous benchmarking experiments against prior state-of-the-arts. In a nutshell, GTP-4o presents an initial foray into the intriguing realm of embedding, relating and perceiving the heterogeneous patterns from various clinical modalities holistically via a graph theory. Project page: https://gtp-4-o.github.io/. | 翻訳日:2024-07-09 17:19:52 公開日:2024-07-08 |
# AID-AppEAL:コンテンツ魅力向上とアセスメントラベリングのための自動画像データセットとアルゴリズム
AID-AppEAL: Automatic Image Dataset and Algorithm for Content Appeal Enhancement and Assessment Labeling ( http://arxiv.org/abs/2407.05546v1 ) ライセンス: Link先を確認 | Sherry X. Chen, Yaron Vaxman, Elad Ben Baruch, David Asulin, Aviad Moreshet, Misha Sra, Pradeep Sen, | (参考訳) 本稿では、画像中の食品の魅力などの視聴者に対して、画像コンテンツが生成する肯定的な関心度を定量化する新しい指標である画像コンテンツ魅力評価(ICAA)を提案する。
これは、画像の芸術的品質を判断する伝統的な画像美学評価(IAA)と根本的に異なる。
従来の研究は「美学」と「アペアル」の概念を混同することが多いが、我々の研究はICAAを初めて明示的に研究することでこの問題に対処している。
そこで本研究では,データセット作成を自動化する新しいシステムを提案し,コンテンツ魅力を推定・促進するアルゴリズムを実装した。
パイプラインを使用して、さまざまなドメイン(フードとルームインテリアデザイン)で2つの大規模なデータセット(それぞれ70K以上の画像)を生成してモデルをトレーニングしています。
ユーザスタディでは、参加者の76%以上がアピール強調画像を好むが、私たちのアピール評価がユーザの好みを正確に反映していることを確認し、ICAAをユニークな評価基準として確立した。
私たちのコードとデータセットはhttps://github.com/SherryXTChen/AID-Appeal.comで公開されています。
We propose Image Content Appeal Assessment (ICAA), a novel metric that quantifies the level of positive interest an image's content generates for viewers, such as the appeal of food in a photograph. This is fundamentally different from traditional Image-Aesthetics Assessment (IAA), which judges an image's artistic quality. While previous studies often confuse the concepts of ``aesthetics'' and ``appeal,'' our work addresses this by being the first to study ICAA explicitly. To do this, we propose a novel system that automates dataset creation and implements algorithms to estimate and boost content appeal. We use our pipeline to generate two large-scale datasets (70K+ images each) in diverse domains (food and room interior design) to train our models, which revealed little correlation between content appeal and aesthetics. Our user study, with more than 76% of participants preferring the appeal-enhanced images, confirms that our appeal ratings accurately reflect user preferences, establishing ICAA as a unique evaluative criterion. Our code and datasets are available at https://github.com/SherryXTChen/AID-Appeal. | 翻訳日:2024-07-09 17:19:52 公開日:2024-07-08 |
# LaSe-E2V:言語誘導型セマンティック・アウェア・イベント・ビデオ再構成を目指して
LaSe-E2V: Towards Language-guided Semantic-Aware Event-to-Video Reconstruction ( http://arxiv.org/abs/2407.05547v1 ) ライセンス: Link先を確認 | Kanghao Chen, Hangyu Li, JiaZhou Zhou, Zeyu Wang, Lin Wang, | (参考訳) イベントカメラは、標準カメラと比較して低レイテンシ、高時間分解能、高ダイナミックレンジ(HDR)などの利点を利用する。
画像パラダイムの相違により、イベント・ツー・ビデオ(E2V)の再構築が主流となり、イベントベースと標準的なコンピュータビジョンが橋渡しされる。
しかし、イベントカメラは、エッジとモーションの情報のみをローカルで検出する、本質的に不適切な性質のため、このタスクは依然として困難である。
その結果、再構成されたビデオは、主にイベントデータのあいまいな意味論によって引き起こされる、アーティファクトや地域的曖昧さに悩まされることが多い。
本稿では,言語は自然に豊富な意味情報を伝達し,E2V再構成のセマンティック一貫性を確保するのに驚くほど優れていることを示す。
そこで本稿では,テキスト条件拡散モデルを用いて,言語誘導の観点から意味認識による高品質なE2V再構築を実現する,LaSe-E2Vという新しいフレームワークを提案する。
しかし、拡散モデル固有の多様性とランダム性のため、E2V再構成のための空間的・時間的整合性を実現するために直接適用することは不可能である。
そこで,まずイベント誘導時空間アテンション(ESA)モジュールを提案する。
次に、時間的コヒーレンスを確保するためのイベント対応マスクロスと、空間的一貫性を高めるためのノイズ初期化戦略を導入する。
イベントテキストとビデオのペアデータがないため、既存のE2Vデータセットを集約し、トレーニングと評価のためにタグ付けモデルを使用してテキスト記述を生成する。
様々な難解なシナリオ(例えば、高速な動き、低光)をカバーする3つのデータセットの大規模な実験は、我々の手法の優位性を実証している。
データセットとコードは受け入れられる。
Event cameras harness advantages such as low latency, high temporal resolution, and high dynamic range (HDR), compared to standard cameras. Due to the distinct imaging paradigm shift, a dominant line of research focuses on event-to-video (E2V) reconstruction to bridge event-based and standard computer vision. However, this task remains challenging due to its inherently ill-posed nature: event cameras only detect the edge and motion information locally. Consequently, the reconstructed videos are often plagued by artifacts and regional blur, primarily caused by the ambiguous semantics of event data. In this paper, we find language naturally conveys abundant semantic information, rendering it stunningly superior in ensuring semantic consistency for E2V reconstruction. Accordingly, we propose a novel framework, called LaSe-E2V, that can achieve semantic-aware high-quality E2V reconstruction from a language-guided perspective, buttressed by the text-conditional diffusion models. However, due to diffusion models' inherent diversity and randomness, it is hardly possible to directly apply them to achieve spatial and temporal consistency for E2V reconstruction. Thus, we first propose an Event-guided Spatiotemporal Attention (ESA) module to condition the event data to the denoising pipeline effectively. We then introduce an event-aware mask loss to ensure temporal coherence and a noise initialization strategy to enhance spatial consistency. Given the absence of event-text-video paired data, we aggregate existing E2V datasets and generate textual descriptions using the tagging models for training and evaluation. Extensive experiments on three datasets covering diverse challenging scenarios (e.g., fast motion, low light) demonstrate the superiority of our method. Dataset and code will be available upon acceptance. | 翻訳日:2024-07-09 17:19:52 公開日:2024-07-08 |
# MEEGとAT-DGNN:音楽とグラフ学習による脳波感情認識の促進
MEEG and AT-DGNN: Advancing EEG Emotion Recognition with Music and Graph Learning ( http://arxiv.org/abs/2407.05550v1 ) ライセンス: Link先を確認 | Minghao Xiao, Zhengxi Zhu, Wenyu Wang, Meixia Qu, | (参考訳) 近年の神経科学の進歩は、認知タスクにおける協調脳領域の活動の重要な役割を解明している。
そこで我々は,脳波に基づく感情認識のための新しいフレームワークであるダイナミックグラフニューラルネットワーク(AT-DGNN)を用いた多モード音楽誘発脳波(EEG)データセットであるMEEGデータセットと,注意に基づくテンポラルラーナーを導入する。
MEEGデータセットは、音楽に対する幅広い感情的な反応をキャプチャし、音楽の文脈における脳波パターンの詳細な分析を可能にする。
AT-DGNNは、注意に基づく時間学習者と動的グラフニューラルネットワーク(DGNN)を組み合わせて、様々な脳ネットワークトポロジにわたる脳波データの局所的およびグローバルなグラフダイナミクスを正確にモデル化する。
評価の結果,AT-DGNNの精度は83.06\%,原子価85.31\%であり,MEEGデータセット上でのSOTA法よりも優れていた。
DEAPのような従来のデータセットとの比較分析は、我々のアプローチの有効性を強調し、感情誘導の強力な媒体としての音楽の可能性を強調している。
この研究は、脳の感情処理の理解を深めるだけでなく、脳-コンピュータインタフェース(BCI)における感情認識技術の精度を高め、グラフベースの学習と音楽の感情への影響を両立させる。
ソースコードとデータセットは、textit{https://github.com/xmh1011/AT-DGNN}で入手できる。
Recent advances in neuroscience have elucidated the crucial role of coordinated brain region activities during cognitive tasks. To explore the complexity, we introduce the MEEG dataset, a comprehensive multi-modal music-induced electroencephalogram (EEG) dataset and the Attention-based Temporal Learner with Dynamic Graph Neural Network (AT-DGNN), a novel framework for EEG-based emotion recognition. The MEEG dataset captures a wide range of emotional responses to music, enabling an in-depth analysis of brainwave patterns in musical contexts. The AT-DGNN combines an attention-based temporal learner with a dynamic graph neural network (DGNN) to accurately model the local and global graph dynamics of EEG data across varying brain network topology. Our evaluations show that AT-DGNN achieves superior performance, with an accuracy (ACC) of 83.06\% in arousal and 85.31\% in valence, outperforming state-of-the-art (SOTA) methods on the MEEG dataset. Comparative analyses with traditional datasets like DEAP highlight the effectiveness of our approach and underscore the potential of music as a powerful medium for emotion induction. This study not only advances our understanding of the brain emotional processing, but also enhances the accuracy of emotion recognition technologies in brain-computer interfaces (BCI), leveraging both graph-based learning and the emotional impact of music. The source code and dataset are available at \textit{https://github.com/xmh1011/AT-DGNN}. | 翻訳日:2024-07-09 17:19:52 公開日:2024-07-08 |
# 読み上げ, 視聴, スクリーム! テキストとビデオから音を生成する
Read, Watch and Scream! Sound Generation from Text and Video ( http://arxiv.org/abs/2407.05551v1 ) ライセンス: Link先を確認 | Yujin Jeong, Yunji Kim, Sanghyuk Chun, Jiyoung Lee, | (参考訳) マルチモーダル生成モデルは、強力な拡散モデルの助けを借りて、目覚ましい進歩を見せている。
進歩にもかかわらず、テキストのみから音を生成することは、総合的なシーンの描写と時間的アライメントを確保することの難しさを浮き彫りにする。
一方、ビデオ音声生成は、シーン内の特定のオブジェクトに対して音声合成を優先する柔軟性を制限する。
これらの課題に対処するために,ビデオはテキスト・オーディオ生成モデルの条件制御として機能する,ReWaSと呼ばれる新しいビデオ・テキスト・音声生成手法を提案する。
提案手法は,ユーザのプロンプトから重要コンテンツキューを受信しながら,映像からの音声(すなわちエネルギー)の構造情報を推定する。
我々は,映像制御の強化のために,高性能なテキスト・ツー・サウンドモデルを用いて,大規模トリプルペア(オーディオ・ビデオ・テキスト)データを用いたマルチモーダル拡散モデルの訓練を行う。
さらに、音声の生成成分を分離することにより、ユーザが好みに応じて、エネルギー、周囲環境、および一次音源を自由に調整できる、より柔軟なシステムとなる。
実験結果から,本手法は品質,制御性,訓練効率の面で優れていることが示された。
私たちのデモはhttps://naver-ai.github.io/rewasで公開されています。
Multimodal generative models have shown impressive advances with the help of powerful diffusion models. Despite the progress, generating sound solely from text poses challenges in ensuring comprehensive scene depiction and temporal alignment. Meanwhile, video-to-sound generation limits the flexibility to prioritize sound synthesis for specific objects within the scene. To tackle these challenges, we propose a novel video-and-text-to-sound generation method, called ReWaS, where video serves as a conditional control for a text-to-audio generation model. Our method estimates the structural information of audio (namely, energy) from the video while receiving key content cues from a user prompt. We employ a well-performing text-to-sound model to consolidate the video control, which is much more efficient for training multimodal diffusion models with massive triplet-paired (audio-video-text) data. In addition, by separating the generative components of audio, it becomes a more flexible system that allows users to freely adjust the energy, surrounding environment, and primary sound source according to their preferences. Experimental results demonstrate that our method shows superiority in terms of quality, controllability, and training efficiency. Our demo is available at https://naver-ai.github.io/rewas | 翻訳日:2024-07-09 17:19:52 公開日:2024-07-08 |
# Ada-adapter:Fast Few-shot Style Personlization of Diffusion Model with Pre-trained Image Encoder
Ada-adapter:Fast Few-shot Style Personlization of Diffusion Model with Pre-trained Image Encoder ( http://arxiv.org/abs/2407.05552v1 ) ライセンス: Link先を確認 | Jia Liu, Changlin Li, Qirui Sun, Jiahui Ming, Chen Fang, Jue Wang, Bing Zeng, Shuaicheng Liu, | (参考訳) 高品質な画像スタイリングのための微調整された高度な拡散モデルは通常、大規模なトレーニングデータセットと相当な計算資源を必要とし、その実用性を妨げている。
拡散モデルの少数ショットスタイルパーソナライズのための新しいフレームワークであるAda-Adapterを提案する。
Ada-Adapterは、オフ・ザ・シェルフ拡散モデルと事前訓練された画像特徴エンコーダを利用して、限られたソースイメージからコンパクトなスタイル表現を学ぶ。
提案手法は,単一の参照画像を用いたゼロショット方式の効率的な転送を可能にする。
さらに、少数のソース画像(3~5枚で十分)と数分の微調整により、複雑なスタイルの詳細や概念的特徴を捉えることができ、提供されるテキストプロンプトとよく一致した高忠実なスタイリング画像を生成することができる。
フラットアートや3Dレンダリング,ロゴデザインなど,さまざまな芸術的スタイルに対するアプローチの有効性を実証する。
実験結果から,Ada-Adapterは出力品質,多様性,トレーニング効率において,既存のゼロショットおよび少数ショットのスタイライズ手法よりも優れていた。
Fine-tuning advanced diffusion models for high-quality image stylization usually requires large training datasets and substantial computational resources, hindering their practical applicability. We propose Ada-Adapter, a novel framework for few-shot style personalization of diffusion models. Ada-Adapter leverages off-the-shelf diffusion models and pre-trained image feature encoders to learn a compact style representation from a limited set of source images. Our method enables efficient zero-shot style transfer utilizing a single reference image. Furthermore, with a small number of source images (three to five are sufficient) and a few minutes of fine-tuning, our method can capture intricate style details and conceptual characteristics, generating high-fidelity stylized images that align well with the provided text prompts. We demonstrate the effectiveness of our approach on various artistic styles, including flat art, 3D rendering, and logo design. Our experimental results show that Ada-Adapter outperforms existing zero-shot and few-shot stylization methods in terms of output quality, diversity, and training efficiency. | 翻訳日:2024-07-09 17:19:52 公開日:2024-07-08 |
# 化粧料の色選択を支援するカラー画像解析ツール
A Color Image Analysis Tool to Help Users Choose a Makeup Foundation Color ( http://arxiv.org/abs/2407.05553v1 ) ライセンス: Link先を確認 | Yafei Mao, Christopher Merkle, Jan P. Allebach, | (参考訳) 本稿では,ノメイク自撮り画像と基礎陰影画像に基づいて,肌色と境界色を推定する手法を提案する。
まず、カラーチェッカーターゲットの助けを借りて画像の校正を行い、その後、皮膚の色を予測するために教師付き学習モデルを訓練する。
キャリブレーション段階では,CIE XYZ空間に依存するRGB応答をマッピングするために,3つの異なる変換行列を用いることを提案する。
これにより、色補正誤差を最小限に抑えることができる。
次に、キャリブレーションされた画像における関心領域の平均値を計算し、それらを予測モデルに供給する。
線形回帰モデルと支持ベクトル回帰モデルの両方について検討した。
クロスバリデーションの結果は、両方のモデルが正確に予測できることを示している。
This paper presents an approach to predict the color of skin-with-foundation based on a no makeup selfie image and a foundation shade image. Our approach first calibrates the image with the help of the color checker target, and then trains a supervised-learning model to predict the skin color. In the calibration stage, We propose to use three different transformation matrices to map the device dependent RGB response to the reference CIE XYZ space. In so doing, color correction error can be minimized. We then compute the average value of the region of interest in the calibrated images, and feed them to the prediction model. We explored both the linear regression and support vector regression models. Cross-validation results show that both models can accurately make the prediction. | 翻訳日:2024-07-09 17:19:52 公開日:2024-07-08 |
# PANS:実時間ロバスト気管支鏡位置推定のための確率的気道ナビゲーションシステム
PANS: Probabilistic Airway Navigation System for Real-time Robust Bronchoscope Localization ( http://arxiv.org/abs/2407.05554v1 ) ライセンス: Link先を確認 | Qingyao Tian, Zhen Chen, Huai Liao, Xinyan Huang, Bingyu Yang, Lujie Li, Hongbin Liu, | (参考訳) 正確な気管支鏡の局在は、気道ナビゲーションにおいて6自由度(DOF)を提供することによって、肺の介入に不可欠である。
しかし、現在の視覚ベースの手法の堅牢性は、臨床実践においてしばしば損なわれ、リアルタイムに実行し、訓練中に見えないケースをまたいで一般化するのに苦労する。
これらの課題を克服するために,モンテカルロ法を仮説と可能性を持つ新しい確率的気道ナビゲーションシステム(PANS)を提案し,ロバストでリアルタイムな気管支鏡像定位を実現する。
具体的には、DMI(Depth-based Motion Inference)とBSA(Bronchial Semantic Analysis)という2つの重要なモジュールを活用することで、多様な視覚的表現(\textit{e g }, odometry, ランドマーク)を取り入れています。
PANSのための気管支鏡のポーズ仮説を生成するために,DMIを考案し,時間とともにポーズ仮説の推定を正確に伝達する。
さらに, 推定深度マップと分割気道構造との整合性を評価するための新しい指標とともに, 内視鏡画像における類似の気管支領域を効果的に識別し, BSAモジュールを考案した。
この確率的定式化では,6-DOF気管支鏡の局所化を精度と堅牢性で達成できる。
気道枝の局所化における堅牢性と一般化とリアルタイム推論の効率の両面から,10症例からなる肺介入データセットの総合的実験により,PANSの最先端に対する優位性が確認された。
提案したPANSは手術室で信頼性の高いツールとなる可能性を明らかにし、肺の介入の質と安全性を高めることを約束する。
Accurate bronchoscope localization is essential for pulmonary interventions, by providing six degrees of freedom (DOF) in airway navigation. However, the robustness of current vision-based methods is often compromised in clinical practice, and they struggle to perform in real-time and to generalize across cases unseen during training. To overcome these challenges, we propose a novel Probabilistic Airway Navigation System (PANS), leveraging Monte-Carlo method with pose hypotheses and likelihoods to achieve robust and real-time bronchoscope localization. Specifically, our PANS incorporates diverse visual representations (\textit{e.g.}, odometry and landmarks) by leveraging two key modules, including the Depth-based Motion Inference (DMI) and the Bronchial Semantic Analysis (BSA). To generate the pose hypotheses of bronchoscope for PANS, we devise the DMI to accurately propagate the estimation of pose hypotheses over time. Moreover, to estimate the accurate pose likelihood, we devise the BSA module by effectively distinguishing between similar bronchial regions in endoscopic images, along with a novel metric to assess the congruence between estimated depth maps and the segmented airway structure. Under this probabilistic formulation, our PANS is capable of achieving the 6-DOF bronchoscope localization with superior accuracy and robustness. Extensive experiments on the collected pulmonary intervention dataset comprising 10 clinical cases confirm the advantage of our PANS over state-of-the-arts, in terms of both robustness and generalization in localizing deeper airway branches and the efficiency of real-time inference. The proposed PANS reveals its potential to be a reliable tool in the operating room, promising to enhance the quality and safety of pulmonary interventions. | 翻訳日:2024-07-09 17:19:52 公開日:2024-07-08 |
# プラケット格子上のSU($4$)ハイゼンベルク模型の基底状態相図
Ground-state phase diagram of the SU($4$) Heisenberg model on a plaquette lattice ( http://arxiv.org/abs/2407.05556v1 ) ライセンス: Link先を確認 | Ryui Kaneko, Shimpei Goto, Ippei Danshita, | (参考訳) 無限射影対状態に基づくテンソル-ネットワーク法を用いて, プラケット結合上の空間異方性を持つ正方格子上のSU($4$)ハイゼンベルク模型の基底状態について検討する。
SU($4$) の単座基底状態が強い異方性極限に現れるのに対し、N'eel と valence の結合結晶はほぼ等方性極限に共存する。
中間パラメータ領域を調べることにより、これらの位相間の相転移を同定する。
相転移の性質は1次であり、遷移点が約$J'/J\approx 0.85(5)$と推定される。
また、プラケット結合における一重項相関の異方性依存性を計算し、光格子中の超低温原子の将来の実験に役立てる。
We investigate the ground state of the SU($4$) Heisenberg model on a square lattice with spatial anisotropy on each plaquette bond using the tensor-network method based on infinite projected entangled pair states. We find that the SU($4$) singlet ground state appears in the strongly anisotropic limit, whereas N\'eel and valence bond crystal orders coexist in the nearly isotropic limit. By examining the intermediate parameter region, we identify a phase transition between these phases. The nature of the phase transition is likely to be of first order, and the transition point is estimated to be around $J'/J\approx 0.85(5)$, where $J$ and $J'$ are the interaction strengths of intra- and inter-plaquette bonds, respectively. We also calculate the anisotropy dependence of singlet correlations on a plaquette bond, which will be useful for future experiments of ultracold atoms in optical lattices. | 翻訳日:2024-07-09 17:19:52 公開日:2024-07-08 |
# R^2$-Guard: 知識強化論理推論によるLLMガードレールのロバスト推論
$R^2$-Guard: Robust Reasoning Enabled LLM Guardrail via Knowledge-Enhanced Logical Reasoning ( http://arxiv.org/abs/2407.05557v1 ) ライセンス: Link先を確認 | Mintong Kang, Bo Li, | (参考訳) LLMは様々な用途で普及しつつあるため、LLMの入力・出力内容を適度にするための安全ガードレールを確立することが重要である。
既存のガードレールモデルは、様々な安全カテゴリーを独立して扱い、それらの相互関係を明示的に把握することができない。
これは、相関した安全カテゴリからの長期データに対する訓練不足、脱獄攻撃への感受性、新しい安全カテゴリに関する柔軟性の低下による非効率性などの制限につながっている。
これらの制約に対処するため,我々は,知識に富んだ論理的推論を通した堅牢なLLMガードレールである$R^2$-Guardを提案する。
具体的には、$R^2$-Guardは、データ駆動のカテゴリ固有の学習と推論コンポーネントの2つの部分から構成される。
データ駆動型ガードレールモデルは、さまざまな安全カテゴリにおいて、適度なコンテンツの安全性の低い確率を提供する。
次に、各カテゴリの安全性知識を一階論理規則としてエンコードし、確率的図形モデル(PGM)に基づく推論コンポーネントに組み込む。
データ駆動ガードレールモデルとは異なるカテゴリの安全性の低い確率は、最終的な推論のために推論コンポーネントに送られる。
我々はマルコフ論理ネットワーク (MLN) と確率回路 (PC) の2種類のPGMを採用し、PCを最適化してグラフ構造の改善による精度・効率バランスを実現する。
ガードレールモデルに対するストレステストをさらに進めるため,安全ベンチマークであるツインセーフティ(TwinSafety)を構築した。
6つの安全ベンチマークにおいて、8つの強力なガードレールモデルとの比較により、$R^2$-Guardの有効性を実証し、4つのSOTA脱獄攻撃に対する$R^2$-Guardの堅牢性を示す。
R^2$-GuardはSOTAメソッドのLlamaGuardをToxicChatで30.2%、ジェイルブレイク攻撃で59.5%を大きく上回っている。
As LLMs become increasingly prevalent across various applications, it is critical to establish safety guardrails to moderate input/output content of LLMs. Existing guardrail models treat various safety categories independently and fail to explicitly capture the intercorrelations among them. This has led to limitations such as ineffectiveness due to inadequate training on long-tail data from correlated safety categories, susceptibility to jailbreaking attacks, and inflexibility regarding new safety categories. To address these limitations, we propose $R^2$-Guard, a robust reasoning enabled LLM guardrail via knowledge-enhanced logical reasoning. Specifically, $R^2$-Guard comprises two parts: data-driven category-specific learning and reasoning components. The data-driven guardrail models provide unsafety probabilities of moderated content on different safety categories. We then encode safety knowledge among different categories as first-order logical rules and embed them into a probabilistic graphic model (PGM) based reasoning component. The unsafety probabilities of different categories from data-driven guardrail models are sent to the reasoning component for final inference. We employ two types of PGMs: Markov logic networks (MLNs) and probabilistic circuits (PCs), and optimize PCs to achieve precision-efficiency balance via improved graph structure. To further perform stress tests for guardrail models, we employ a pairwise construction method to construct a new safety benchmark TwinSafety, which features principled categories. We demonstrate the effectiveness of $R^2$-Guard by comparisons with eight strong guardrail models on six safety benchmarks, and demonstrate the robustness of $R^2$-Guard against four SOTA jailbreaking attacks. $R^2$-Guard significantly surpasses SOTA method LlamaGuard by 30.2% on ToxicChat and by 59.5% against jailbreaking attacks. | 翻訳日:2024-07-09 17:19:52 公開日:2024-07-08 |
# 全文字に焦点をあてて:シーンテキスト認識のための識別的文字モデリング
Focus on the Whole Character: Discriminative Character Modeling for Scene Text Recognition ( http://arxiv.org/abs/2407.05562v1 ) ライセンス: Link先を確認 | Bangbang Zhou, Yadong Qu, Zixiao Wang, Zicheng Li, Boqiang Zhang, Hongtao Xie, | (参考訳) 近年,シーンテキスト認識(STR)モデルの性能が大幅に向上している。
しかし、既存のモデルは深刻な歪曲や視点文字などの要因を含む難解なテキストを認識するのに依然として困難に直面している。
これらの挑戦的なテキストは、主に2つの問題を引き起こしている。
(2)小規模クラス間分散。
非常に歪んだキャラクタは同じカテゴリ内の他のキャラクタと視覚的に異なる場合があるが、異なるクラスのキャラクタ間のばらつきは比較的小さい。
上記の課題に対処するため,文字の識別性を高めるために,文字の特徴を充実させる手法を提案する。
まず,複数のブロックを積み重ねた文字認識制約エンコーダ(CACE)を提案する。
CACEは各ブロックに崩壊行列を導入し、各トークンの注意領域を明示的に案内する。
崩壊行列を連続的に利用することにより、CACEはトークンが文字レベルで形態情報を知覚することを可能にする。
第2に、クラス内コンパクト性と特徴空間におけるクラス間分離性を検討するために、I^2CL(Inter-Inter Consistency Loss)を導入する。
I^2CLは、各文字カテゴリの長期記憶ユニットを学習することにより、特徴の識別能力を向上させる。
合成データを用いて学習し、一般的なベンチマーク(94.1%の精度)とUnion14M-Benchmark(61.6%の精度)で最先端のパフォーマンスを達成する。
コードはhttps://github.com/bang123-box/CFEで入手できる。
Recently, scene text recognition (STR) models have shown significant performance improvements. However, existing models still encounter difficulties in recognizing challenging texts that involve factors such as severely distorted and perspective characters. These challenging texts mainly cause two problems: (1) Large Intra-Class Variance. (2) Small Inter-Class Variance. An extremely distorted character may prominently differ visually from other characters within the same category, while the variance between characters from different classes is relatively small. To address the above issues, we propose a novel method that enriches the character features to enhance the discriminability of characters. Firstly, we propose the Character-Aware Constraint Encoder (CACE) with multiple blocks stacked. CACE introduces a decay matrix in each block to explicitly guide the attention region for each token. By continuously employing the decay matrix, CACE enables tokens to perceive morphological information at the character level. Secondly, an Intra-Inter Consistency Loss (I^2CL) is introduced to consider intra-class compactness and inter-class separability at feature space. I^2CL improves the discriminative capability of features by learning a long-term memory unit for each character category. Trained with synthetic data, our model achieves state-of-the-art performance on common benchmarks (94.1% accuracy) and Union14M-Benchmark (61.6% accuracy). Code is available at https://github.com/bang123-box/CFE. | 翻訳日:2024-07-09 17:19:52 公開日:2024-07-08 |
# LLMBox: 大規模言語モデルのための総合ライブラリ
LLMBox: A Comprehensive Library for Large Language Models ( http://arxiv.org/abs/2407.05563v1 ) ライセンス: Link先を確認 | Tianyi Tang, Yiwen Hu, Bingqian Li, Wenyang Luo, Zijing Qin, Haoxiang Sun, Jiapeng Wang, Shiyi Xu, Xiaoxue Cheng, Geyang Guo, Han Peng, Bowen Zheng, Yiru Tang, Yingqian Min, Yushuo Chen, Jie Chen, Yuanqian Zhao, Luran Ding, Yuhao Wang, Zican Dong, Chunxuan Xia, Junyi Li, Kun Zhou, Wayne Xin Zhao, Ji-Rong Wen, | (参考訳) 大規模言語モデル (LLM) の研究を容易にするため, LLMBox を包括的に統合したライブラリとして, LLMBox の開発, 使用, 評価を容易にする。
このライブラリには,(1)多様なトレーニング戦略の柔軟な実装を支援する統一データインターフェース,(2)広範囲なタスクやデータセット,モデルをカバーする包括的な評価,(3)ユーザフレンドリさや効率性など,より実践的な考慮,という3つのメリットがある。
本ライブラリでは,既存の手法を再現し,新しいモデルを訓練し,総合的な性能比較を行うことができる。
LLMBoxを厳格にテストするために、評価設定の多種多様な範囲で広範な実験を行い、LLMに関連する様々な実装をサポートする上で、ライブラリの有効性と効率を示す実験結果を得た。
詳細な紹介と利用指導はhttps://github.com/RUCAIBox/LLMBox.comで見ることができる。
To facilitate the research on large language models (LLMs), this paper presents a comprehensive and unified library, LLMBox, to ease the development, use, and evaluation of LLMs. This library is featured with three main merits: (1) a unified data interface that supports the flexible implementation of various training strategies, (2) a comprehensive evaluation that covers extensive tasks, datasets, and models, and (3) more practical consideration, especially on user-friendliness and efficiency. With our library, users can easily reproduce existing methods, train new models, and conduct comprehensive performance comparisons. To rigorously test LLMBox, we conduct extensive experiments in a diverse coverage of evaluation settings, and experimental results demonstrate the effectiveness and efficiency of our library in supporting various implementations related to LLMs. The detailed introduction and usage guidance can be found at https://github.com/RUCAIBox/LLMBox. | 翻訳日:2024-07-09 17:19:52 公開日:2024-07-08 |
# Knapsack Constraints を用いた動的配置最適化のための再解法
A Re-solving Heuristic for Dynamic Assortment Optimization with Knapsack Constraints ( http://arxiv.org/abs/2407.05564v1 ) ライセンス: Link先を確認 | Xi Chen, Mo Liu, Yining Wang, Yuan Zhou, | (参考訳) 本稿では,資源knapsack制約下でのMNL(Multi-nomial choice modeling)を用いたマルチステージ動的アソシエーション最適化問題について考察する。
現在の資源在庫水準から、小売業者は各期間に品揃え決定を行い、小売業者の目標は、購入による総利益を最大化することである。
正確な最適動的アソシエーション解を計算的に抽出できるので、流体近似から生じる決定論的線形プログラム(LP)を周期的に最適化する再解法を採用する。
しかし、MNLの分数構造は、アソート最適化における流体近似を極めて非線形にし、新しい技術的課題をもたらす。
この課題に対処するために、目的の分母を制約に効果的に変換するエポックベースの新しい解法を提案する。
理論的には、後悔(すなわち、解法と流体近似の最適目的とのギャップ)が時間的地平線と資源容量の長さと対数的にスケールすることを証明する。
In this paper, we consider a multi-stage dynamic assortment optimization problem with multi-nomial choice modeling (MNL) under resource knapsack constraints. Given the current resource inventory levels, the retailer makes an assortment decision at each period, and the goal of the retailer is to maximize the total profit from purchases. With the exact optimal dynamic assortment solution being computationally intractable, a practical strategy is to adopt the re-solving technique that periodically re-optimizes deterministic linear programs (LP) arising from fluid approximation. However, the fractional structure of MNL makes the fluid approximation in assortment optimization highly non-linear, which brings new technical challenges. To address this challenge, we propose a new epoch-based re-solving algorithm that effectively transforms the denominator of the objective into the constraint. Theoretically, we prove that the regret (i.e., the gap between the resolving policy and the optimal objective of the fluid approximation) scales logarithmically with the length of time horizon and resource capacities. | 翻訳日:2024-07-09 17:19:52 公開日:2024-07-08 |
# GMC:視覚検出タスクのための多段階コンテキスト学習と活用のための汎用フレームワーク
GMC: A General Framework of Multi-stage Context Learning and Utilization for Visual Detection Tasks ( http://arxiv.org/abs/2407.05566v1 ) ライセンス: Link先を確認 | Xuan Wang, Hao Tang, Zhigang Zhu, | (参考訳) 様々なコンテキスト情報が視覚的検出タスクのための多くのアプローチで採用されている。
しかし、既存のアプローチのほとんどは、特定のタスクの特定のコンテキストのみに焦点を当てています。
本稿では,多段階の文脈学習と利用のための汎用フレームワーク GMC を提案する。
GMCフレームワークは前処理、トレーニング、後処理の3段階を含む。
前処理の段階では、一般的に使用されているラベル付け標準を利用することで、ローカルコンテキストの表現が強化される。
トレーニング段階では、セマンティックコンテキスト情報は視覚情報と融合し、トレーニングデータセットからの事前知識を活用してセマンティックな関係をキャプチャする。
後処理の段階では、オブジェクト間の空間的コンテキスト推論を可能にするため、一般的なトポロジカルな関係や、物のセマンティックマスクが組み込まれている。
提案するフレームワークは、視覚的検出シナリオにおけるコンテキスト学習と利用のための包括的で適応可能なソリューションを提供する。
このフレームワークは、ユーザ定義の構成による柔軟性を提供し、多様なネットワークアーキテクチャや視覚的検出タスクへの適応性を提供し、コンテキスト学習や推論におけるユーザの労力と推論時間を最小化する、自動化された、合理化されたソリューションを提供する。
店舗前物検出,歩行者検出,COCOオブジェクト検出などの視覚的検出タスクの実験結果から,我々のフレームワークが従来の最先端の検出器やトランスフォーマーアーキテクチャよりも優れていることを示す。
実験はまた、3つの文脈学習コンポーネントが個別に、かつ、組み合わせて適用できるだけでなく、様々なネットワークアーキテクチャにも適用可能であることを示し、その柔軟性と様々な検出シナリオにおける有効性を示した。
Various contextual information has been employed by many approaches for visual detection tasks. However, most of the existing approaches only focus on specific context for specific tasks. In this paper, GMC, a general framework is proposed for multistage context learning and utilization, with various deep network architectures for various visual detection tasks. The GMC framework encompasses three stages: preprocessing, training, and post-processing. In the preprocessing stage, the representation of local context is enhanced by utilizing commonly used labeling standards. During the training stage, semantic context information is fused with visual information, leveraging prior knowledge from the training dataset to capture semantic relationships. In the post-processing stage, general topological relations and semantic masks for stuff are incorporated to enable spatial context reasoning between objects. The proposed framework provides a comprehensive and adaptable solution for context learning and utilization in visual detection scenarios. The framework offers flexibility with user-defined configurations and provide adaptability to diverse network architectures and visual detection tasks, offering an automated and streamlined solution that minimizes user effort and inference time in context learning and reasoning. Experimental results on the visual detection tasks, for storefront object detection, pedestrian detection and COCO object detection, demonstrate that our framework outperforms previous state-of-the-art detectors and transformer architectures. The experiments also demonstrate that three contextual learning components can not only be applied individually and in combination, but can also be applied to various network architectures, and its flexibility and effectiveness in various detection scenarios. | 翻訳日:2024-07-09 17:10:02 公開日:2024-07-08 |
# ダイヤモンドキャビティにおける窒素空孔中心を持つ赤外磁力計のマスター式に基づくモデル:サブミリスケールでのサブピコテトラ感度への道
Master equation-based model for infrared-based magnetometry with nitrogen-vacancy centers in diamond cavities: a path to sub-picotesla sensitivity at sub-millimeter scales ( http://arxiv.org/abs/2407.05569v1 ) ライセンス: Link先を確認 | Hadi Zadeh-Haghighi, Omid Golami, Vinaya Kumar Kavatamane, Paul E. Barclay, Christoph Simon, | (参考訳) 本研究の目的は,モノリシックキャビティ中のダイヤモンド中の窒素空孔(NV)中心を用いた一重項遷移赤外吸収(IR)に基づく高感度磁気メトリーの空間分解能の向上と生体磁場検出への応用である。
我々は、赤外線光飽和効果を取り入れた、光学的に検出された磁気共鳴のマスター方程式処理を開発した。
このマスター方程式は、光子とスピンショットノイズを考慮して反射率を計算し、最終的に磁場感度を導出するために用いられる一重項密度を与える。
さらに、我々のモデルは、IRベースのNV中心磁気メトリーの実験と互換性があることが示される。
高パラメータ空間での最適化により、サブミリスケールであっても、サブピクトテラの順序で感度を達成する可能性を明らかにする。
Our study aims to increase the spatial resolution of high-sensitivity magnetometry based on singlet-transition infrared (IR) absorption using nitrogen-vacancy (NV) centers in diamonds in monolithic cavities, with potential applications in bio-magnetic field detection. We develop a master-equation treatment of optically detected magnetic resonance, incorporating IR light saturation effects. This master equation provides the singlet population, which is then utilized to calculate the reflectivity and ultimately derive the magnetic field sensitivity taking into account photon and spin shot noise. We further show that our model is compatible with experiments of IR-based NV center magnetometry. Through optimization in a high-parameter space, we uncover the potential to achieve sensitivities in the order of sub-pico tesla, even for sub-millimeter scales. | 翻訳日:2024-07-09 17:10:02 公開日:2024-07-08 |
# 時空間符号化と復号化による将来のヒト活動骨格合成
Spatio-Temporal Encoding and Decoding-Based Method for Future Human Activity Skeleton Synthesis ( http://arxiv.org/abs/2407.05573v1 ) ライセンス: Link先を確認 | Tingyu Liu, Jun Huang, Chenyi Weng, | (参考訳) 観測された活動データに基づいて将来の活動情報を推定することは、早期活動予測の精度を向上させるための重要なステップである。
GAN(Generative Adversarial Network)や共同学習フレームワークをベースとした従来の手法は、観測率の低い場合の予測精度が向上するが、計算コストは高い。
そこで本研究では,将来のヒトの骨格合成のための時空間符号化と復号法を提案する。
まず、時間制御、離散コサイン変換、ローパスフィルタリングなどのアルゴリズムを用いて骨格配列を切断またはパッドする。
第二に、エンコーダとデコーダは、観察されたスケルトン配列から中間セマンティックエンコーディングを抽出し、中間セマンティックエンコーディングからそれぞれ将来のシーケンスを推測する。
最後に, 3つの高次運動特性である関節変位誤差, 速度誤差, 加速度誤差を損失関数の鍵成分として用いて, モデルパラメータを最適化する。
実験により,提案する骨格合成アルゴリズムは既存のアルゴリズムよりも優れた性能を示した。
より少ないエラーと少ないモデルパラメータでスケルトンシーケンスを生成し、早期活動予測のための将来的な情報を提供する。
Inferring future activity information based on observed activity data is a crucial step to improve the accuracy of early activity prediction. Traditional methods based on generative adversarial networks(GAN) or joint learning frameworks can achieve good prediction accuracy under low observation ratios, but they usually have high computational costs. In view of this, this paper proposes a spatio-temporal encoding and decoding-based method for future human activity skeleton synthesis. Firstly, algorithms such as time control, discrete cosine transform, and low-pass filtering are used to cut or pad the skeleton sequences. Secondly, the encoder and decoder are responsible for extracting intermediate semantic encoding from observed skeleton sequences and inferring future sequences from the intermediate semantic encoding, respectively. Finally, joint displacement error, velocity error, and acceleration error, three higher-order kinematic features, are used as key components of the loss function to optimize model parameters. Experimental results show that the proposed future skeleton synthesis algorithm performs better than some existing algorithms. It generates skeleton sequences with smaller errors and fewer model parameters, effectively providing future information for early activity prediction. | 翻訳日:2024-07-09 17:10:02 公開日:2024-07-08 |
# オブジェクトのリフレクション検出に向けて:ベンチマーク
Towards Reflected Object Detection: A Benchmark ( http://arxiv.org/abs/2407.05575v1 ) ライセンス: Link先を確認 | Zhongtian Wang, You Wu, Hui Zhou, Shuiwang Li, | (参考訳) ディープラーニングと大規模データセットの進歩により、オブジェクト検出は過去10年間で大幅に改善されている。
しかし、表面を反射する物体の検出は未探索領域のままである。
反射面は日常生活においてユビキタスであり、家、オフィス、公共空間、自然環境に現れる。
反射物体の正確な検出と解釈は様々な応用に不可欠である。
本稿では,反射物体検出に特化して設計された広範囲なベンチマークを導入することで,このギャップに対処する。
我々のリフレクションオブジェクト検出データセット(RODD)は、様々なコンテキストにおけるリフレクションオブジェクトを示す多様なイメージのコレクションを備えており、実際のオブジェクトとリフレクションオブジェクトの両方に対して標準的なアノテーションを提供しています。
これは従来のオブジェクト検出ベンチマークと区別する。
RODDは10のカテゴリを含み、さまざまな背景にまたがる21,059のリアルおよびリフレクションオブジェクトのイメージを含み、標準のバウンディングボックスアノテーションとオブジェクトをリアルまたはリフレクションとして分類する。
さらに、この課題に対処するために、5つの最先端オブジェクト検出モデルを適用することで、ベースライン結果を示す。
実験の結果は、反射物体検出に適用する場合の既存の手法の限界を浮き彫りにし、特殊なアプローチの必要性を強調した。
RODDを発売することで、反射物体の検出に関する将来の研究を支援し、前進させることを目指している。
データセットとコードは、https: //github.com/Tqybu-hans/RODDで利用可能である。
Object detection has greatly improved over the past decade thanks to advances in deep learning and large-scale datasets. However, detecting objects reflected in surfaces remains an underexplored area. Reflective surfaces are ubiquitous in daily life, appearing in homes, offices, public spaces, and natural environments. Accurate detection and interpretation of reflected objects are essential for various applications. This paper addresses this gap by introducing a extensive benchmark specifically designed for Reflected Object Detection. Our Reflected Object Detection Dataset (RODD) features a diverse collection of images showcasing reflected objects in various contexts, providing standard annotations for both real and reflected objects. This distinguishes it from traditional object detection benchmarks. RODD encompasses 10 categories and includes 21,059 images of real and reflected objects across different backgrounds, complete with standard bounding box annotations and the classification of objects as real or reflected. Additionally, we present baseline results by adapting five state-of-the-art object detection models to address this challenging task. Experimental results underscore the limitations of existing methods when applied to reflected object detection, highlighting the need for specialized approaches. By releasing RODD, we aim to support and advance future research on detecting reflected objects. Dataset and code are available at: https: //github.com/Tqybu-hans/RODD. | 翻訳日:2024-07-09 17:10:02 公開日:2024-07-08 |
# ORMNet:Egocentric Hand-Object Segmentationのためのオブジェクト中心関係モデリング
ORMNet: Object-centric Relationship Modeling for Egocentric Hand-object Segmentation ( http://arxiv.org/abs/2407.05576v1 ) ライセンス: Link先を確認 | Yuejiao Su, Yi Wang, Lap-Pui Chau, | (参考訳) エゴセントリック・ハンドオブジェクト・セグメンテーション(Egocent Hand-Object segmentation, EgoHOS)は、エゴセントリック・イメージにおける手とオブジェクトのセグメンテーションと相互作用を目的とした、新しいタスクである。
現在の手法によって大きな進歩が達成されているが、高い精度でエンドツーエンドのモデルを確立することは未解決の課題である。
さらに、既存の手法では、オブジェクトやオブジェクトだけでなく、手とオブジェクトの関係の明確なモデリングが欠如しているため、手とオブジェクトの相互作用に関する重要な情報を無視し、アルゴリズムに混乱をもたらし、最終的にセグメンテーション性能が低下する。
本稿では,既存の手法の限界に対処するため,EgoHOSのためのORMNet(End-to-end Object-centric Relationship Modeling Network)を提案する。
具体的には,シングルエンコーダとマルチデコーダをベースとしたHORモジュールを設計し,手と物体の相関を把握し,その表現を容易にする。
さらに,オブジェクトの様々なカテゴリ間の相互関係を観測し,オブジェクト関係の疎結合(ORD)戦略を導入する。
この戦略により、トレーニング中の両手オブジェクトの分離が可能となり、ネットワークのあいまいさが軽減される。
3つのデータセットの実験結果から、提案されたORMNetは、強力な一般化機能を備えた例外的なセグメンテーション性能を持つことが明らかとなった。
Egocentric hand-object segmentation (EgoHOS) is a brand-new task aiming at segmenting the hands and interacting objects in the egocentric image. Although significant advancements have been achieved by current methods, establishing an end-to-end model with high accuracy remains an unresolved challenge. Moreover, existing methods lack explicit modeling of the relationships between hands and objects as well as objects and objects, thereby disregarding critical information on hand-object interaction and introducing confusion into algorithms, ultimately leading to a reduction in segmentation performance. To address the limitations of existing methods, this paper proposes a novel end-to-end Object-centric Relationship Modeling Network (ORMNet) for EgoHOS. Specifically, based on a single-encoder and multi-decoder framework, we design the Hand-Object Relation (HOR) module to leverage hand-guided attention to capture the correlation between hands and objects and facilitate their representations. Moreover, based on the observed interrelationships between diverse categories of objects, we introduce the Object Relation Decoupling (ORD) strategy. This strategy allows the decoupling of the two-hand object during training, thereby alleviating the ambiguity of the network. Experimental results on three datasets show that the proposed ORMNet has notably exceptional segmentation performance with robust generalization capabilities. | 翻訳日:2024-07-09 17:10:02 公開日:2024-07-08 |
# StyleGANによる高分解能シームレストーキングヘッドビデオ編集
Audio-driven High-resolution Seamless Talking Head Video Editing via StyleGAN ( http://arxiv.org/abs/2407.05577v1 ) ライセンス: Link先を確認 | Jiacheng Su, Kunhong Liu, Liyan Chen, Junfeng Yao, Qingsong Liu, Dongdong Lv, | (参考訳) 既存の音声駆動音声ヘッドビデオ編集法は、視覚効果の低下に限界がある。
本論文は,(1)クロスコンストラクテッド・エモーション・ディスタングルメントとアライメント・ネットワーク・モジュールからなる音声・ランドマーク・モジュールである。
音声から対応する感情的ランドマークを予測することにより、音声と顔の動きのギャップを埋める; (2)StyleGANを介して顔ビデオの編集を行うランドマークベースの編集モジュール。
入力オーディオから感情とコンテンツコンポーネントからなるシームレスな編集ビデオを生成することを目的としている。
広汎な実験により,最先端の手法と比較して,高画質映像を高画質で提供できることが確認された。
The existing methods for audio-driven talking head video editing have the limitations of poor visual effects. This paper tries to tackle this problem through editing talking face images seamless with different emotions based on two modules: (1) an audio-to-landmark module, consisting of the CrossReconstructed Emotion Disentanglement and an alignment network module. It bridges the gap between speech and facial motions by predicting corresponding emotional landmarks from speech; (2) a landmark-based editing module edits face videos via StyleGAN. It aims to generate the seamless edited video consisting of the emotion and content components from the input audio. Extensive experiments confirm that compared with state-of-the-arts methods, our method provides high-resolution videos with high visual quality. | 翻訳日:2024-07-09 17:10:02 公開日:2024-07-08 |
# FALIP: ビジュアルプロンプトでCLIPゼロショットのパフォーマンスが向上
FALIP: Visual Prompt as Foveal Attention Boosts CLIP Zero-Shot Performance ( http://arxiv.org/abs/2407.05578v1 ) ライセンス: Link先を確認 | Jiedong Zhuang, Jiaqi Hu, Lianrui Mu, Rui Hu, Xiaoyu Liang, Jiangnan Ye, Haoji Hu, | (参考訳) CLIPは、ペア画像テキストデータからなる大規模データセットで事前トレーニングした後、印象的なゼロショットのパフォーマンスを達成した。
以前の作業では、カラーサークルやぼやけたマスクといった手作業で設計された視覚的プロンプトをイメージに組み込んで、モデルの注意をガイドし、下流タスクにおけるゼロショットのパフォーマンスを向上した。
これらの手法は有望な結果を得たが、画像の元の情報を必然的に変更し、特定のタスクで失敗する可能性がある。
マルチヘッド自己注意モジュールに葉の注意マスクを挿入することでCLIPの注意を調節するFoveal-Attention CLIP (FALIP)を提案する。
FALIPは,表現理解,画像分類,3Dポイントクラウド認識などのタスクにおいて,CLIPゼロショット性能を効果的に向上することを示した。
さらに実験結果から,FALIPは既存の手法よりも高い性能を示し,現在の手法を改良して性能を向上させることができることがわかった。
CLIP has achieved impressive zero-shot performance after pre-training on a large-scale dataset consisting of paired image-text data. Previous works have utilized CLIP by incorporating manually designed visual prompts like colored circles and blur masks into the images to guide the model's attention, showing enhanced zero-shot performance in downstream tasks. Although these methods have achieved promising results, they inevitably alter the original information of the images, which can lead to failure in specific tasks. We propose a train-free method Foveal-Attention CLIP (FALIP), which adjusts the CLIP's attention by inserting foveal attention masks into the multi-head self-attention module. We demonstrate FALIP effectively boosts CLIP zero-shot performance in tasks such as referring expressions comprehension, image classification, and 3D point cloud recognition. Experimental results further show that FALIP outperforms existing methods on most metrics and can augment current methods to enhance their performance. | 翻訳日:2024-07-09 17:10:02 公開日:2024-07-08 |
# $\mathrm{E^{2}CFD}$:大規模言語モデルによる安全な強化学習のための効率的かつ効率的なコスト関数設計を目指して
$\mathrm{E^{2}CFD}$: Towards Effective and Efficient Cost Function Design for Safe Reinforcement Learning via Large Language Model ( http://arxiv.org/abs/2407.05580v1 ) ライセンス: Link先を確認 | Zepeng Wang, Chao Ma, Linjiang Zhou, Libing Wu, Lei Yang, Xiaochuan Shi, Guojun Peng, | (参考訳) 安全強化学習アルゴリズムの様々なクラスは、様々な種類の安全要件シナリオにおいて良好な性能を示している。
しかし、既存の手法は主に特定の安全要件シナリオの1つか複数のクラスに対処しており、任意の安全要件シナリオには適用できない。
さらに,既存の強化学習アルゴリズムの最適化目的は,タスク要求と不一致である。
これらの問題に対処する必要性に基づき、効率的なコスト関数設計フレームワークである$\mathrm{E^{2}CFD}$を提案する。
$\mathrm{E^{2}CFD}$は、大きな言語モデル(LLM)の機能を活用して、さまざまな安全シナリオを理解し、対応するコスト関数を生成する。
生成されたコスト関数の迅速かつ反復的な更新を容易にするために、FPE(textit{fast performance evaluation)メソッドが組み込まれている。
この反復的なプロセスを通じて、$\mathrm{E^{2}CFD}$は、安全シナリオ内の特定のタスクに合わせて、ポリシートレーニングに最適なコスト関数を得ることを目的としている。
実験により、このフレームワークを用いて訓練されたポリシーの性能は、より安全な強化学習アルゴリズムや、慎重に設計されたコスト関数で訓練されたポリシーよりも優れていることが証明された。
Different classes of safe reinforcement learning algorithms have shown satisfactory performance in various types of safety requirement scenarios. However, the existing methods mainly address one or several classes of specific safety requirement scenario problems and cannot be applied to arbitrary safety requirement scenarios. In addition, the optimization objectives of existing reinforcement learning algorithms are misaligned with the task requirements. Based on the need to address these issues, we propose $\mathrm{E^{2}CFD}$, an effective and efficient cost function design framework. $\mathrm{E^{2}CFD}$ leverages the capabilities of a large language model (LLM) to comprehend various safety scenarios and generate corresponding cost functions. It incorporates the \textit{fast performance evaluation (FPE)} method to facilitate rapid and iterative updates to the generated cost function. Through this iterative process, $\mathrm{E^{2}CFD}$ aims to obtain the most suitable cost function for policy training, tailored to the specific tasks within the safety scenario. Experiments have proven that the performance of policies trained using this framework is superior to traditional safe reinforcement learning algorithms and policies trained with carefully designed cost functions. | 翻訳日:2024-07-09 17:10:02 公開日:2024-07-08 |
# 非焦点単眼ビデオからの動的ニューラルラジアンス場
Dynamic Neural Radiance Field From Defocused Monocular Video ( http://arxiv.org/abs/2407.05586v1 ) ライセンス: Link先を確認 | Xianrui Luo, Huiqiang Sun, Juewen Peng, Zhiguo Cao, | (参考訳) 近年,一眼レフビデオからの動的ニューラルラジアンス場 (NeRF) を時空の新規なビュー合成のために探索し,優れた結果を得た。
しかし、深度変化によるデフォーカスのぼかしは、しばしばビデオキャプチャーで発生し、鋭い詳細の欠如が入力ビュー間の時間的一貫性のモデリングに干渉するため、動的再構成の品質を損なう。
この問題に対処するために,D2RF法を提案する。D2RF法は,非焦点単眼ビデオから鋭い新しいビューを復元するための最初の動的NeRF法である。
我々は,デフォーカスのぼかしをモデル化し,非集中的な視点で監督される鋭いNeRFを再構成するために,層状Depth-of-Field (DoF)ボリュームレンダリングを導入する。
ブラーモデルはDoFレンダリングとボリュームレンダリングの接続にインスパイアされている。
ボリュームレンダリングにおける不透明度は、DoFレンダリングにおける層視認性と一致し、ぼかしを実行するために、層状ぼかしカーネルをレイベースカーネルに変更し、最適化されたスパースカーネルを用いて、入力線を効率よく収集し、最適化された光線を層状DoFボリュームレンダリングでレンダリングする。
我々は,タスクに焦点を絞った動的シーンを用いたデータセットを合成し,提案手法は空間的時間的一貫性を維持しつつ,デフォーカスのぼやけからオール・イン・フォーカス・ノベルビューを合成する既存手法よりも優れていることを示す。
Dynamic Neural Radiance Field (NeRF) from monocular videos has recently been explored for space-time novel view synthesis and achieved excellent results. However, defocus blur caused by depth variation often occurs in video capture, compromising the quality of dynamic reconstruction because the lack of sharp details interferes with modeling temporal consistency between input views. To tackle this issue, we propose D2RF, the first dynamic NeRF method designed to restore sharp novel views from defocused monocular videos. We introduce layered Depth-of-Field (DoF) volume rendering to model the defocus blur and reconstruct a sharp NeRF supervised by defocused views. The blur model is inspired by the connection between DoF rendering and volume rendering. The opacity in volume rendering aligns with the layer visibility in DoF rendering.To execute the blurring, we modify the layered blur kernel to the ray-based kernel and employ an optimized sparse kernel to gather the input rays efficiently and render the optimized rays with our layered DoF volume rendering. We synthesize a dataset with defocused dynamic scenes for our task, and extensive experiments on our dataset show that our method outperforms existing approaches in synthesizing all-in-focus novel views from defocus blur while maintaining spatial-temporal consistency in the scene. | 翻訳日:2024-07-09 17:10:02 公開日:2024-07-08 |
# 凸補間を用いたポートフォリオ最適化のためのNISQコンピュータにおけるVQEのトレーニング性向上
Improving the trainability of VQE on NISQ computers for solving portfolio optimization using convex interpolation ( http://arxiv.org/abs/2407.05589v1 ) ライセンス: Link先を確認 | Shengbin Wang, Guihui Li, Zhaoyun Chen, Peng Wang, Menghan Dou, Haiyong Zheng, Zhimin Wang, Yongjian Gu, Yu-Chun Wu, Guo-Ping Guo, | (参考訳) 変分量子アルゴリズム(VQA)を用いた組合せ最適化問題の解法は、NISQ時代の最も有望な応用の1つである。
しかしながら、VQAの訓練能力の制限は、そのスケーラビリティを大きな問題サイズに妨げる可能性がある。
本稿では,ポートフォリオ最適化のための凸補間を利用して変動量子固有解器(VQE)の訓練性を向上させる。
この考え方は、ディック状態が固有のクラスタリング特性を持っているという観察から着想を得たものである。
その結果、基底状態からハミング距離が大きい状態のエネルギーは、全体の分布傾向において、基底状態エネルギーから離れた大きなエネルギーギャップをもたらす。
凸補間に基づいて、基底状態の位置はヒルベルト空間における基底状態の小さな部分集合の性質を学ぶことによって評価することができる。
このことは、密解初期化、通常のコスト関数の展望、再帰的アンザッツ平衡分割の戦略の提案を自然に啓蒙する。
超伝導量子ビットを用いた40ドルの量子ビット実験を成功裏に実施し,提案手法の有効性を実証した。
さらに、量子インスピレーションは、プロトタイプのグリードアルゴリズムの開発にも拍車をかけた。
大域的な数値シミュレーションにより、VQEとグリードアルゴリズムのハイブリッド化は相互補完性を達成し、大域的および局所的な最適化手法の利点を併せ持つことが示された。
我々の提案は、NISQコンピュータの量子アドバンテージを近い将来に解き放ち、実際のアプリケーションで広く使われている他の大規模組合せ最適化問題を解くための訓練性を向上させるために拡張することができる。
Solving combinatorial optimization problems using variational quantum algorithms (VQAs) represents one of the most promising applications in the NISQ era. However, the limited trainability of VQAs could hinder their scalability to large problem sizes. In this paper, we improve the trainability of variational quantum eigensolver (VQE) by utilizing convex interpolation to solve portfolio optimization. The idea is inspired by the observation that the Dicke state possesses an inherent clustering property. Consequently, the energy of a state with a larger Hamming distance from the ground state intuitively results in a greater energy gap away from the ground state energy in the overall distribution trend. Based on convex interpolation, the location of the ground state can be evaluated by learning the property of a small subset of basis states in the Hilbert space. This enlightens naturally the proposals of the strategies of close-to-solution initialization, regular cost function landscape, and recursive ansatz equilibrium partition. The successfully implementation of a $40$-qubit experiment using only $10$ superconducting qubits demonstrates the effectiveness of our proposals. Furthermore, the quantum inspiration has also spurred the development of a prototype greedy algorithm. Extensive numerical simulations indicate that the hybridization of VQE and greedy algorithms achieves a mutual complementarity, combining the advantages of both global and local optimization methods. Our proposals can be extended to improve the trainability for solving other large-scale combinatorial optimization problems that are widely used in real applications, paving the way to unleash quantum advantages of NISQ computers in the near future. | 翻訳日:2024-07-09 17:10:02 公開日:2024-07-08 |
# 畳み込み強化変圧器のパワーについて
On the Power of Convolution Augmented Transformer ( http://arxiv.org/abs/2407.05591v1 ) ライセンス: Link先を確認 | Mingchen Li, Xuechen Zhang, Yixiao Huang, Samet Oymak, | (参考訳) トランスフォーマーアーキテクチャは言語モデリングの革命的な進歩を触媒している。
しかし、ステートスペースモデルのような最近のアーキテクチャのレシピは、パフォーマンスのギャップを埋めている。
そこで我々は,CAT(Convolution-Augmented Transformer)によるリコール,コピー,長さ一般化タスクの利点について検討した。
CATは、注目層のK/Q/V埋め込みに畳み込みフィルタを組み込む。
CATを通して、コンボリューションの局所性は、注目のグローバルな見方と相乗効果を示す。
MambaやTransformerのような同等のアーキテクチャとは異なり、CATは、保証された長さの一般化を享受しながら、単一のレイヤを使用して、連想リコール(AR)とタスクのコピーを確実に解決することができる。
また、コンボリューションは、コンボリューションウィンドウを要約し、出席する有意義な要約トークンを作成することにより、コンボリューションが完全な注意を緩和できるかどうかを特徴付けることで、コンボリューションとアトラクションの間の計算上のトレードオフを確立する。
実際のデータセットによる評価は、我々の発見を裏付け、CATとその変異が言語モデリング性能を高めることを実証する。
The transformer architecture has catalyzed revolutionary advances in language modeling. However, recent architectural recipes, such as state-space models, have bridged the performance gap. Motivated by this, we examine the benefits of Convolution-Augmented Transformer (CAT) for recall, copying, and length generalization tasks. CAT incorporates convolutional filters in the K/Q/V embeddings of an attention layer. Through CAT, we show that the locality of the convolution synergizes with the global view of the attention. Unlike comparable architectures, such as Mamba or transformer, CAT can provably solve the associative recall (AR) and copying tasks using a single layer while also enjoying guaranteed length generalization. We also establish computational tradeoffs between convolution and attention by characterizing how convolution can mitigate the need for full attention by summarizing the context window and creating salient summary tokens to attend. Evaluations on real datasets corroborate our findings and demonstrate that CAT and its variations indeed enhance the language modeling performance. | 翻訳日:2024-07-09 17:10:02 公開日:2024-07-08 |
# 自己指導型学習に対する移動学習の実験的検討
An Experimental Comparison of Transfer Learning against Self-supervised Learning ( http://arxiv.org/abs/2407.05592v1 ) ライセンス: Link先を確認 | Zehui Zhao, Laith Alzubaidi, Jinglan Zhang, Ye Duan, Usman Naseem, Yuantong Gu, | (参考訳) 近年,データ可用性の制限による課題の緩和,モデル一般化の改善,計算コストの削減などにより,医療分野における転帰学習や自己指導型学習が注目されている。
トランスファーラーニングと自己指導型学習は、医学研究を前進させる大きな可能性を秘めている。
しかし, 伝達学習と自己指導型学習アーキテクチャは, 精度, 訓練速度, 頑健さの相違を呈し, 異なる利点と限界を示すことを認識することが重要である。
本稿では,医療分野における転帰学習と自己指導学習のパフォーマンスと堅牢性を比較した。
具体的には、異なる事前トレーニング手法で同じソースドメインデータセットを用いて2つのモデルを事前訓練し、それらを小型の医療データセットで評価し、最終的なパフォーマンスに影響を与える要因を特定した。
我々は、データ不均衡、データ不足、ドメインミスマッチなどの医療領域で共通の問題のあるデータを比較実験により検証し、特定のトレーニング済みモデルへの影響を解明した。
最後に,医療分野における転帰学習と自己指導型学習の活用を支援するとともに,より便利で効率的な展開戦略を構築することを提案する。
Recently, transfer learning and self-supervised learning have gained significant attention within the medical field due to their ability to mitigate the challenges posed by limited data availability, improve model generalisation, and reduce computational expenses. Transfer learning and self-supervised learning hold immense potential for advancing medical research. However, it is crucial to recognise that transfer learning and self-supervised learning architectures exhibit distinct advantages and limitations, manifesting variations in accuracy, training speed, and robustness. This paper compares the performance and robustness of transfer learning and self-supervised learning in the medical field. Specifically, we pre-trained two models using the same source domain datasets with different pre-training methods and evaluated them on small-sized medical datasets to identify the factors influencing their final performance. We tested data with several common issues in medical domains, such as data imbalance, data scarcity, and domain mismatch, through comparison experiments to understand their impact on specific pre-trained models. Finally, we provide recommendations to help users apply transfer learning and self-supervised learning methods in medical areas, and build more convenient and efficient deployment strategies. | 翻訳日:2024-07-09 17:10:02 公開日:2024-07-08 |
# 語彙データのための木を解き放つ
Unmasking Trees for Tabular Data ( http://arxiv.org/abs/2407.05593v1 ) ライセンス: Link先を確認 | Calvin McCarter, | (参考訳) 本稿では,タブ形式のデータ生成,特に計算処理のための手法およびオープンソースソフトウェアパッケージであるUnmaskingTreesについて述べる。
実験結果から, 傾き木を段階的に解き放つことで, 単純で強い計算基準が得られることが示唆された。
We herein describe UnmaskingTrees, a method and open-source software package for tabular data generation and, especially, imputation. Our experiments suggest that training gradient-boosted trees to incrementally unmask features offers a simple, strong baseline for imputation. | 翻訳日:2024-07-09 17:10:02 公開日:2024-07-08 |
# SLIM:最小限の人間アノテーションによる清浄度軽減
SLIM: Spuriousness Mitigation with Minimal Human Annotations ( http://arxiv.org/abs/2407.05594v1 ) ライセンス: Link先を確認 | Xiwei Xuan, Ziquan Deng, Hsuan-Tien Lin, Kwan-Liu Ma, | (参考訳) 近年の研究では、ディープラーニングモデルはラベルに誤って関連付けられている突発的な特徴を学習し、そのような相関が持たない現実のシナリオにおいて信頼性を損なうことがしばしば示されている。
研究努力が増えているにもかかわらず、既存のソリューションは2つの大きな課題に直面している。
本稿では,深層学習における素早い相関を減らし,コスト効率と性能を目標としたSLIMを提案する。
提案手法は,アテンション表現空間が構築された新しいアテンションラベリング機構を備えたヒューマン・イン・ザ・ループプロトコルを利用する。
SLIMは徹底的なラベリングの必要性を大幅に減らし、3%未満のインスタンスに対して人間の入力を必要とする。
複雑なトレーニング戦略よりもデータ品質を優先することにより、SLIMはより小さいがより機能バランスの取れたデータサブセットをキュレートし、スプリアスネス・ロバストモデルの開発を促進する。
鍵となるベンチマークに対する実験的な検証は、SLIMがリードメソッドのパフォーマンスと競合する一方、コストを大幅に削減することを示している。
SLIMフレームワークは信頼性の高いモデルをより効率的に開発するための有望な経路を提供する。
私たちのコードはhttps://github.com/xiweix/SLIM.git/で利用可能です。
Recent studies highlight that deep learning models often learn spurious features mistakenly linked to labels, compromising their reliability in real-world scenarios where such correlations do not hold. Despite the increasing research effort, existing solutions often face two main challenges: they either demand substantial annotations of spurious attributes, or they yield less competitive outcomes with expensive training when additional annotations are absent. In this paper, we introduce SLIM, a cost-effective and performance-targeted approach to reducing spurious correlations in deep learning. Our method leverages a human-in-the-loop protocol featuring a novel attention labeling mechanism with a constructed attention representation space. SLIM significantly reduces the need for exhaustive additional labeling, requiring human input for fewer than 3% of instances. By prioritizing data quality over complicated training strategies, SLIM curates a smaller yet more feature-balanced data subset, fostering the development of spuriousness-robust models. Experimental validations across key benchmarks demonstrate that SLIM competes with or exceeds the performance of leading methods while significantly reducing costs. The SLIM framework thus presents a promising path for developing reliable models more efficiently. Our code is available in https://github.com/xiweix/SLIM.git/. | 翻訳日:2024-07-09 17:10:02 公開日:2024-07-08 |
# GeoNLF:Geometry Guideed Pose-Free Neural LiDAR Fields
GeoNLF: Geometry guided Pose-Free Neural LiDAR Fields ( http://arxiv.org/abs/2407.05597v1 ) ライセンス: Link先を確認 | Weiyi Xue, Zehan Zheng, Fan Lu, Haiyun Wei, Guang Chen, Changjun Jiang, | (参考訳) 近年、Neural Radiance Fields (NeRF) をLiDAR点雲合成に拡張しているが、既存の研究の大部分は事前計算されたポーズに強く依存している。
しかし、点雲登録法は正確な大域的ポーズ推定を達成するのに苦労する一方、以前のポーズのないNeRFは大域的再構成における幾何的整合性を見落としている。
これを踏まえ、我々は点雲の幾何学的洞察を探求し、復元のための明示的な登録先を提供する。
そこで本研究では, 交互にグローバルなニューラル再構成と純粋幾何学的ポーズ最適化を行うハイブリッドフレームワークであるGeometry Guided Neural LiDAR Fields(GeoNLF)を提案する。
さらに、NeRFは個々のフレームに過度に適合し、スパースビュー入力下では局所的なミニマで簡単に立ち往生する傾向にある。
この問題に対処するために、選択的リウェイト戦略を開発し、ロバストな最適化のための幾何的制約を導入する。
NuScenes と KITTI-360 データセットの大規模な実験は、GeoNLF の新規なビュー合成と低周波大規模点雲のマルチビュー登録における優位性を実証している。
Although recent efforts have extended Neural Radiance Fields (NeRF) into LiDAR point cloud synthesis, the majority of existing works exhibit a strong dependence on precomputed poses. However, point cloud registration methods struggle to achieve precise global pose estimation, whereas previous pose-free NeRFs overlook geometric consistency in global reconstruction. In light of this, we explore the geometric insights of point clouds, which provide explicit registration priors for reconstruction. Based on this, we propose Geometry guided Neural LiDAR Fields(GeoNLF), a hybrid framework performing alternately global neural reconstruction and pure geometric pose optimization. Furthermore, NeRFs tend to overfit individual frames and easily get stuck in local minima under sparse-view inputs. To tackle this issue, we develop a selective-reweighting strategy and introduce geometric constraints for robust optimization. Extensive experiments on NuScenes and KITTI-360 datasets demonstrate the superiority of GeoNLF in both novel view synthesis and multi-view registration of low-frequency large-scale point clouds. | 翻訳日:2024-07-09 17:10:02 公開日:2024-07-08 |
# 気候誤報の創出
Generative Debunking of Climate Misinformation ( http://arxiv.org/abs/2407.05599v1 ) ライセンス: Link先を確認 | Francisco Zanartu, Yulia Otmakhova, John Cook, Lea Frermann, | (参考訳) 気候変動に関する誤報は、多くのネガティブな影響をもたらし、修正的な反応を必要とする。
心理学的研究は、ファクト・ミス・フォールシー・ファクト構造のような、気候の誤報の影響を減らすための様々な戦略を提供してきた。
しかし、大規模な修正介入を実際に実施することは課題である。
誤情報の自動検出と修正は、誤情報問題に対する解決策を提供する。
本研究は,気候神話の入力として受け入れられる大規模言語モデルの開発を,コントラスト的クレーム分類と誤検出をLLMプロンプトフレームワークに組み込むことにより,ファクト・ミス・ファクト(トゥルース・サンドイッチ')構造に固執するデバンキングを生成する。
オープン (ミクサール, パーム2) とプロプライエタリ (GPT-4) の LLM を組み合わせ, 様々な複雑さの戦略を推し進める。
実験では、構造化プロンプトと組み合わせた場合、GPT-4とMixtralの有望な性能を示す。
我々は,創出と人的評価の具体的な課題を特定し,今後の作業の道筋を図示する。
高品質な真理サンドウィッチ・デバンキングのデータセット、ソースコード、およびデバンキングシステムのデモをリリースする。
Misinformation about climate change causes numerous negative impacts, necessitating corrective responses. Psychological research has offered various strategies for reducing the influence of climate misinformation, such as the fact-myth-fallacy-fact-structure. However, practically implementing corrective interventions at scale represents a challenge. Automatic detection and correction of misinformation offers a solution to the misinformation problem. This study documents the development of large language models that accept as input a climate myth and produce a debunking that adheres to the fact-myth-fallacy-fact (``truth sandwich'') structure, by incorporating contrarian claim classification and fallacy detection into an LLM prompting framework. We combine open (Mixtral, Palm2) and proprietary (GPT-4) LLMs with prompting strategies of varying complexity. Experiments reveal promising performance of GPT-4 and Mixtral if combined with structured prompts. We identify specific challenges of debunking generation and human evaluation, and map out avenues for future work. We release a dataset of high-quality truth-sandwich debunkings, source code and a demo of the debunking system. | 翻訳日:2024-07-09 17:00:02 公開日:2024-07-08 |
# GenArtist: 統一画像生成と編集のエージェントとしてのマルチモーダルLCM
GenArtist: Multimodal LLM as an Agent for Unified Image Generation and Editing ( http://arxiv.org/abs/2407.05600v1 ) ライセンス: Link先を確認 | Zhenyu Wang, Aoxue Li, Zhenguo Li, Xihui Liu, | (参考訳) 既存の画像生成・編集手法の成功にもかかわらず、現在のモデルは複雑なテキストプロンプトを含む複雑な問題に苦慮しており、検証と自己補正機構がないため、生成した画像は信頼できない。
一方、単一のモデルは特定のタスクを専門化し、対応する能力を持つ傾向があり、すべてのユーザー要求を満たすのに不十分である。
我々は,マルチモーダル大言語モデル (MLLM) エージェントによって調整された統合画像生成編集システムであるGenArtistを提案する。
ツールライブラリに既存のモデルを包括的に統合し,ツールの選択と実行にエージェントを利用する。
複雑な問題に対して、MLLMエージェントは、それをより単純なサブプロブレムに分解し、ステップバイステップの検証で生成、編集、自己補正の手順を体系的に計画するツリー構造を構築する。
位置関連入力を自動生成し、位置情報を組み込むことで、各サブプロブレムに対処する適切なツールを効果的に利用することができる。
実験によると、GenArtistは様々な生成および編集タスクを実行でき、最先端のパフォーマンスを実現し、SDXLやDALL-E 3といった既存のモデルを上回ることができる。
プロジェクトページはhttps://zhenyuw16.github.io/GenArtist_page。
Despite the success achieved by existing image generation and editing methods, current models still struggle with complex problems including intricate text prompts, and the absence of verification and self-correction mechanisms makes the generated images unreliable. Meanwhile, a single model tends to specialize in particular tasks and possess the corresponding capabilities, making it inadequate for fulfilling all user requirements. We propose GenArtist, a unified image generation and editing system, coordinated by a multimodal large language model (MLLM) agent. We integrate a comprehensive range of existing models into the tool library and utilize the agent for tool selection and execution. For a complex problem, the MLLM agent decomposes it into simpler sub-problems and constructs a tree structure to systematically plan the procedure of generation, editing, and self-correction with step-by-step verification. By automatically generating missing position-related inputs and incorporating position information, the appropriate tool can be effectively employed to address each sub-problem. Experiments demonstrate that GenArtist can perform various generation and editing tasks, achieving state-of-the-art performance and surpassing existing models such as SDXL and DALL-E 3, as can be seen in Fig. 1. Project page is https://zhenyuw16.github.io/GenArtist_page. | 翻訳日:2024-07-09 17:00:01 公開日:2024-07-08 |
# WSI-VQA:生成的視覚質問応答による全スライド画像の解釈
WSI-VQA: Interpreting Whole Slide Images by Generative Visual Question Answering ( http://arxiv.org/abs/2407.05603v1 ) ライセンス: Link先を確認 | Pingyi Chen, Chenglu Zhu, Sunyi Zheng, Honglin Li, Lin Yang, | (参考訳) 全スライド画像は、がんの診断と予後に日常的に採用されている。
病理医は, スライド画像全体(WSI)の正確かつ信頼性の高い診断結果を得るためには, 異常な経験が必要である。
WSIの巨大なサイズとヘテロジニアスな特徴は、病的読み出しのワークフローを極めて時間を要するものにします。
本稿では,生成的視覚的質問応答によりWSIを解釈する新しいフレームワーク(WSI-VQA)を提案する。
WSI-VQAは、病理学者がヒトと機械の相互作用によって免疫組織化学的グレーディング、生存予測、腫瘍のサブタイピングを達成できるような、様々な種類のスライドレベルタスクを質問応答パターンで反映することで普遍性を示す。
さらに,977個のWSIを用いて,8672個のスライドレベルの質問応答ペアを含むWSI-VQAデータセットを構築した。
Wsi2Text Transformer (W2T) は, スライドレベルの異なるタスクに対処する能力に加えて, 既存の識別モデルよりも医療的正確性に優れており, 臨床シナリオに適用すべきモデルの可能性を明らかにしている。
さらに,単語埋め込みとWSI間のコアテンションマッピングを,診断結果の直感的な説明として可視化する。
データセットと関連するコードはhttps://github.com/cpystan/WSI-VQA.comで公開されている。
Whole slide imaging is routinely adopted for carcinoma diagnosis and prognosis. Abundant experience is required for pathologists to achieve accurate and reliable diagnostic results of whole slide images (WSI). The huge size and heterogeneous features of WSIs make the workflow of pathological reading extremely time-consuming. In this paper, we propose a novel framework (WSI-VQA) to interpret WSIs by generative visual question answering. WSI-VQA shows universality by reframing various kinds of slide-level tasks in a question-answering pattern, in which pathologists can achieve immunohistochemical grading, survival prediction, and tumor subtyping following human-machine interaction. Furthermore, we establish a WSI-VQA dataset which contains 8672 slide-level question-answering pairs with 977 WSIs. Besides the ability to deal with different slide-level tasks, our generative model which is named Wsi2Text Transformer (W2T) outperforms existing discriminative models in medical correctness, which reveals the potential of our model to be applied in the clinical scenario. Additionally, we also visualize the co-attention mapping between word embeddings and WSIs as an intuitive explanation for diagnostic results. The dataset and related code are available at https://github.com/cpystan/WSI-VQA. | 翻訳日:2024-07-09 17:00:01 公開日:2024-07-08 |
# オブジェクト検出のための弱修正テスト時間領域適応法
Weakly Supervised Test-Time Domain Adaptation for Object Detection ( http://arxiv.org/abs/2407.05607v1 ) ライセンス: Link先を確認 | Anh-Dzung Doan, Bach Long Nguyen, Terry Lim, Madhuka Jayawardhana, Surabhi Gupta, Christophe Guettier, Ian Reid, Markus Wagner, Tat-Jun Chin, | (参考訳) デプロイ前に、オブジェクト検出器は、以前のデータ収集キャンペーンからコンパイルされたデータセットでトレーニングされる。
しかし、特に照明、天気、季節の変化がシーンの外観や対象物に大きく影響する屋外環境では、対象検出器が展開される環境は必ず進化する。
オブジェクト検出器が有限のトレーニングデータセットに現れる可能性があるすべての潜在的なシナリオでは、ほとんど不可能である。
これにより、良好な性能を維持するために、オブジェクト検出器の継続的な更新が必要である。
テスト時間領域適応技術により、テストデータの分布に基づいて機械学習モデルを自己適応することができる。
しかし、既存の手法は主に完全自動適応に焦点を当てており、自動運転車のような応用には理にかなっている。
完全に自動化されたアプローチが普及しているにもかかわらず、監視のようないくつかのアプリケーションでは、通常はシステムの運用を監督する人間のオペレータが存在する。
完全自動適応により達成可能な範囲を超えて、オブジェクト検出の性能を高めるために、テスト時間領域適応に演算子を関与させることを提案する。
手作業の労力を減らすため、提案手法はオペレーターに弱いラベルを提供することのみを要求し、それを適応プロセスのガイドに使用する。
さらに,提案手法はストリーミング環境で実施でき,各オンラインサンプルを1回だけ観察することができる。
提案手法は既存の手法よりも優れており, ループ内テスト時間領域適応の優れた利点を示す。
私たちのコードはhttps://github.com/dzungdoan6/WSTTAで公開されています。
Prior to deployment, an object detector is trained on a dataset compiled from a previous data collection campaign. However, the environment in which the object detector is deployed will invariably evolve, particularly in outdoor settings where changes in lighting, weather and seasons will significantly affect the appearance of the scene and target objects. It is almost impossible for all potential scenarios that the object detector may come across to be present in a finite training dataset. This necessitates continuous updates to the object detector to maintain satisfactory performance. Test-time domain adaptation techniques enable machine learning models to self-adapt based on the distributions of the testing data. However, existing methods mainly focus on fully automated adaptation, which makes sense for applications such as self-driving cars. Despite the prevalence of fully automated approaches, in some applications such as surveillance, there is usually a human operator overseeing the system's operation. We propose to involve the operator in test-time domain adaptation to raise the performance of object detection beyond what is achievable by fully automated adaptation. To reduce manual effort, the proposed method only requires the operator to provide weak labels, which are then used to guide the adaptation process. Furthermore, the proposed method can be performed in a streaming setting, where each online sample is observed only once. We show that the proposed method outperforms existing works, demonstrating a great benefit of human-in-the-loop test-time domain adaptation. Our code is publicly available at https://github.com/dzungdoan6/WSTTA | 翻訳日:2024-07-09 17:00:01 公開日:2024-07-08 |
# マルチ話者匿名化のためのベンチマーク
A Benchmark for Multi-speaker Anonymization ( http://arxiv.org/abs/2407.05608v1 ) ライセンス: Link先を確認 | Xiaoxiao Miao, Ruijie Tao, Chang Zeng, Xin Wang, | (参考訳) プライバシ保護音声保護アプローチは、主に言語コンテンツを保存しながら、パラ言語的属性から派生したプライバシー関連情報を抑圧する。
既存のソリューションは、単一話者シナリオに重点を置いている。
しかし、現実のアプリケーション、すなわちマルチスピーカーのシナリオには実用性がない。
本稿では、タスクと評価プロトコルを定義し、ベンチマークソリューションを提案し、重複する会話のプライバシー漏洩について議論することで、マルチスピーカーの匿名化ベンチマークを提供するための最初の試みについて述べる。
具体的には、理想的なマルチスピーカー匿名化は、話者数と会話のターンテイク構造を維持し、プライバシーを維持しながら正確なコンテキスト伝達を保証するべきである。
これを実現するために、話者ダイアリゼーションを用いて各話者の音声を集約し、話者匿名化を行い、話者のプライバシーを隠蔽し、音声コンテンツを保存する。
さらに,2つの会話レベルの話者ベクトル匿名化手法を提案する。
どちらの手法も、会話中の擬似話者の識別性を維持したり改善したりしながら、各話者の本来の擬似話者IDと対応する擬似話者IDをリンク不能にすることを目的としている。
第1の方法は、匿名化会話における話者対間の差分類似性を最小化し、匿名化バージョンにおける話者関係を維持する。
もう一つの方法は、匿名話者間で集約された類似性を最小化し、話者間のより良い差別化を実現することである。
提案した話者匿名化システムによるマルチ話者匿名化システムの有効性を,非オーバーラップシミュレーションと実世界のデータセットの両方で実証した。
さらに、プライバシー漏洩に関する重複したスピーチを分析し、潜在的な解決策を提供した。
Privacy-preserving voice protection approaches primarily suppress privacy-related information derived from paralinguistic attributes while preserving the linguistic content. Existing solutions focus on single-speaker scenarios. However, they lack practicality for real-world applications, i.e., multi-speaker scenarios. In this paper, we present an initial attempt to provide a multi-speaker anonymization benchmark by defining the task and evaluation protocol, proposing benchmarking solutions, and discussing the privacy leakage of overlapping conversations. Specifically, ideal multi-speaker anonymization should preserve the number of speakers and the turn-taking structure of the conversation, ensuring accurate context conveyance while maintaining privacy. To achieve that, a cascaded system uses speaker diarization to aggregate the speech of each speaker and speaker anonymization to conceal speaker privacy and preserve speech content. Additionally, we propose two conversation-level speaker vector anonymization methods to improve the utility further. Both methods aim to make the original and corresponding pseudo-speaker identities of each speaker unlinkable while preserving or even improving the distinguishability among pseudo-speakers in a conversation. The first method minimizes the differential similarity across speaker pairs in the original and anonymized conversations to maintain original speaker relationships in the anonymized version. The other method minimizes the aggregated similarity across anonymized speakers to achieve better differentiation between speakers. Experiments conducted on both non-overlap simulated and real-world datasets demonstrate the effectiveness of the multi-speaker anonymization system with the proposed speaker anonymizers. Additionally, we analyzed overlapping speech regarding privacy leakage and provide potential solutions. | 翻訳日:2024-07-09 17:00:01 公開日:2024-07-08 |
# 極弱スーパービジョンを用いたオープンワールドマルチラベルテキスト分類
Open-world Multi-label Text Classification with Extremely Weak Supervision ( http://arxiv.org/abs/2407.05609v1 ) ライセンス: Link先を確認 | Xintong Li, Jinya Jiang, Ria Dharmani, Jayanth Srinivasa, Gaowen Liu, Jingbo Shang, | (参考訳) 我々は,極端に弱い監督 (XWS) の下で,オープンワールドのマルチラベルテキスト分類について検討する。
同様のシングルラベルのXWS設定が近年検討されているが、これらの手法は容易にマルチラベルに適用できない。
我々は,(1)ほとんどの文書が,コンテンツの大部分をカバーする支配的なクラスを持ち,(2)長い尾のラベルが支配的なクラスとして現れることを観察した。
そこで、まずユーザ記述を用いて、原文書のサブセットのキーフレーズに対する大言語モデル(LLM)をプロンプトし、クラスタリングにより(初期)ラベル空間を構築する。
さらに、ゼロショットのマルチラベル分類器を用いて、予測スコアが小さい文書を見つけることで、より長いテールラベルに対する主要なキーフレーズを再検討する。
このプロセスを繰り返し、包括的ラベル空間を発見し、新しい方法であるX-MLClassとしてマルチラベル分類器を構築する。
例えば、トピックモデリングやキーワード抽出メソッドよりもAAPDデータセットの方が40%改善されている。
さらに、X-MLClassは最高のエンドツーエンドのマルチラベル分類精度を実現する。
We study open-world multi-label text classification under extremely weak supervision (XWS), where the user only provides a brief description for classification objectives without any labels or ground-truth label space. Similar single-label XWS settings have been explored recently, however, these methods cannot be easily adapted for multi-label. We observe that (1) most documents have a dominant class covering the majority of content and (2) long-tail labels would appear in some documents as a dominant class. Therefore, we first utilize the user description to prompt a large language model (LLM) for dominant keyphrases of a subset of raw documents, and then construct a (initial) label space via clustering. We further apply a zero-shot multi-label classifier to locate the documents with small top predicted scores, so we can revisit their dominant keyphrases for more long-tail labels. We iterate this process to discover a comprehensive label space and construct a multi-label classifier as a novel method, X-MLClass. X-MLClass exhibits a remarkable increase in ground-truth label space coverage on various datasets, for example, a 40% improvement on the AAPD dataset over topic modeling and keyword extraction methods. Moreover, X-MLClass achieves the best end-to-end multi-label classification accuracy. | 翻訳日:2024-07-09 17:00:01 公開日:2024-07-08 |
# 記述型時空間ビデオ検出
Described Spatial-Temporal Video Detection ( http://arxiv.org/abs/2407.05610v1 ) ライセンス: Link先を確認 | Wei Ji, Xiangyan Liu, Yingfei Sun, Jiajun Deng, You Qin, Ammar Nuwanna, Mengyao Qiu, Lina Wei, Roger Zimmermann, | (参考訳) 言語表現における視覚的コンテンツの検出は,コミュニティにおいて新たな話題となっている。
しかし、ビデオ領域では、既存の設定、すなわち、空間的時間的ビデオグラウンド(STVG)は、各フレーム内の1つの既存のオブジェクトのみを検出し、言語記述がビデオ内のいかなるエンティティも含まないという事実を無視して定式化される。
本研究では,この制限を克服し,STVGを空間時空間ビデオ検出(DSTVD)と呼ばれるより実用的な環境に進める。
DSTVDの探索を容易にするため,DVD-STという新しいベンチマークを導入する。
特に、DVD-STはクエリに応答して、ビデオ上のオブジェクトから多数のオブジェクトへのグラウンド化をサポートし、外観、アクション、場所、インタラクションを含む150以上のエンティティを含む。
DVD-STデータセットの幅広い幅と多様性により、DSTVDの調査のための模範的なテストベッドとなっている。
提案するDSTVDタスクには,新たなベンチマークに加えて,2つの代表的なSTVGモデル,すなわちTubeDETRとSTCATを拡張した2つのベースライン方式を提案する。
これらの拡張モデルは、ビデオシーケンス全体にわたって参照オブジェクトのローカライズと追跡を行うために、チューブレットクエリを利用する。
さらに、これらのモデルのトレーニング目標を調整し、空間的および時間的局所化精度とマルチクラス分類能力を最適化する。
さらに,導入したDVD-STデータセットのベースラインをベンチマークし,今後の調査を導くための広範な実験分析を行う。
コードとベンチマークは公開されます。
Detecting visual content on language expression has become an emerging topic in the community. However, in the video domain, the existing setting, i.e., spatial-temporal video grounding (STVG), is formulated to only detect one pre-existing object in each frame, ignoring the fact that language descriptions can involve none or multiple entities within a video. In this work, we advance the STVG to a more practical setting called described spatial-temporal video detection (DSTVD) by overcoming the above limitation. To facilitate the exploration of DSTVD, we first introduce a new benchmark, namely DVD-ST. Notably, DVD-ST supports grounding from none to many objects onto the video in response to queries and encompasses a diverse range of over 150 entities, including appearance, actions, locations, and interactions. The extensive breadth and diversity of the DVD-ST dataset make it an exemplary testbed for the investigation of DSTVD. In addition to the new benchmark, we further present two baseline methods for our proposed DSTVD task by extending two representative STVG models, i.e., TubeDETR, and STCAT. These extended models capitalize on tubelet queries to localize and track referred objects across the video sequence. Besides, we adjust the training objectives of these models to optimize spatial and temporal localization accuracy and multi-class classification capabilities. Furthermore, we benchmark the baselines on the introduced DVD-ST dataset and conduct extensive experimental analysis to guide future investigation. Our code and benchmark will be publicly available. | 翻訳日:2024-07-09 17:00:01 公開日:2024-07-08 |
# GenFollower: 大規模言語モデルによる自動車追従予測の強化
GenFollower: Enhancing Car-Following Prediction with Large Language Models ( http://arxiv.org/abs/2407.05611v1 ) ライセンス: Link先を確認 | Xianda Chen, Mingxing Peng, PakHin Tiu, Yuanfei Wu, Junjie Chen, Meixin Zhu, Xinhu Zheng, | (参考訳) 自動車追従行動の正確なモデリングは、交通管理や自律運転システムにおける様々な応用に不可欠である。
しかし、現在のアプローチは、データ品質に対する高い感度や解釈可能性の欠如といった制限に悩まされることが多い。
本研究では,これらの課題に対処するために,大規模言語モデル(LLM)を活用する新しいゼロショットプロンプト手法であるGenFollowerを提案する。
我々は,車追従動作を言語モデリング問題として再編成し,不均一な入力をLLMのための構造化プロンプトに統合する。
提案手法は,従来のベースラインモデルと比較して予測性能と解釈性の向上を実現する。
Waymo Openデータセットの実験は、GenFollowerの優れたパフォーマンスと、車の追従行動に影響を与える要因に関する解釈可能な洞察を提供する能力を示している。
この研究は、自動車追従行動の理解と予測の促進に寄与し、交通管理の強化と自動運転システムへの道を開いた。
Accurate modeling of car-following behaviors is essential for various applications in traffic management and autonomous driving systems. However, current approaches often suffer from limitations like high sensitivity to data quality and lack of interpretability. In this study, we propose GenFollower, a novel zero-shot prompting approach that leverages large language models (LLMs) to address these challenges. We reframe car-following behavior as a language modeling problem and integrate heterogeneous inputs into structured prompts for LLMs. This approach achieves improved prediction performance and interpretability compared to traditional baseline models. Experiments on the Waymo Open datasets demonstrate GenFollower's superior performance and ability to provide interpretable insights into factors influencing car-following behavior. This work contributes to advancing the understanding and prediction of car-following behaviors, paving the way for enhanced traffic management and autonomous driving systems. | 翻訳日:2024-07-09 17:00:01 公開日:2024-07-08 |
# 原子状磁性体における臨界スローダウンの量子ノイズ分光
Quantum Noise Spectroscopy of Critical Slowing Down in an Atomically Thin Magnet ( http://arxiv.org/abs/2407.05614v1 ) ライセンス: Link先を確認 | Mark E. Ziffer, Francisco Machado, Benedikt Ursprung, Artur Lozovoi, Aya Batoul Tazi, Zhiyang Yuan, Michael E. Ziebel, Tom Delord, Nanyu Zeng, Evan Telford, Daniel G. Chica, Dane W. deQuilettes, Xiaoyang Zhu, James C. Hone, Kenneth L. Shepard, Xavier Roy, Nathalie P. de Leon, Emily J. Davis, Shubhayu Chatterjee, Carlos A. Meriles, Jonathan S. Owen, P. James Schuck, Abhay N. Pasupathy, | (参考訳) 磁性材料の低周波臨界変動は、特に関連する臨界指数において、磁気秩序の物理に関する重要な情報を符号化する。
バルク材料の磁気臨界ゆらぎを研究するために多くの技術が確立されているが、2次元材料の磁気位相における臨界ゆらぎを定量的に解析するために必要な顕微鏡分解能、時間範囲、信号感度を維持できるアプローチは少ない。
ダイヤモンド中の窒素空孔(NV)中心を量子プローブとして、Van der Waals磁性材料CrSBrの3層試料における臨界ダイナミクスを定量的に研究するために、T_2$(スピンデコヒーレンス)ノイズマグネトメトリーを実装した。
我々はCrSBrの磁気相転移における臨界揺らぎを、臨界時の特性ゆらぎ相関時間$\tau_c$に近づく時間スケールでNVスピンエコーコヒーレンス崩壊を解析し、臨界減速の温度依存性を研究することで特徴付ける。
臨界力学の理論モデルを用いてスピンエコーデコヒーレンスをモデル化することにより、相関長に対して臨界指数$\nu$を抽出することができる。
We find a value for $\nu$ which devirate from the Ising prediction and suggests the role of long-range dipolar interaction in the critical behavior of CrSBr at the 2D limit。
さらに, CrSBrの相関長のばらつきと2次元XY臨界値の指数発散の予測値との比較を行い, 静的磁区が存在しない温度窓付近でそのような挙動の可能性を示す証拠を見出した。
本研究は,2次元材料における臨界スケーリング則を定量的に解析するために,デコヒーレンスに基づくNVノイズマグネトメトリーの能力を初めて示すものである。
Low frequency critical fluctuations in magnetic materials encode important information about the physics of magnetic ordering, especially in the associated critical exponents. While a number of techniques have been established to study magnetic critical fluctuations in bulk materials, few approaches maintain the required microscopic resolution, temporal range, and signal sensitivity to quantitatively analyze critical fluctuations in magnetic phases of 2D materials. Using nitrogen-vacancy (NV) centers in diamond as quantum probes, we implement $T_2$ (spin decoherence) noise magnetometry to quantitatively study critical dynamics in a tri-layer sample of the Van der Waals magnetic material CrSBr. We characterize critical fluctuations across the magnetic phase transition in CrSBr by analyzing the NV spin echo coherence decay on time scales that approach the characteristic fluctuation correlation time $\tau_c$ at criticality, allowing us to study the temperature dependence of critical slowing down. By modelling the spin echo decoherence using theoretical models for critical dynamics, we are able to extract the critical exponent $\nu$ for the correlation length. We find a value for $\nu$ which deviates from the Ising prediction and suggests the role of long-range dipolar interactions in modifying the critical behavior of magnetic fluctuation modes in CrSBr at the 2D limit. We further compare the divergence of correlation length in CrSBr to the predicted exponential divergence for 2D XY criticality, and find evidence suggesting the possibility of such behavior in a temperature window near $T_C$ where static magnetic domains are absent. Our work provides a first demonstration of the capability of decoherence based NV noise magnetometry to quantitatively analyze critical scaling laws in 2D materials. | 翻訳日:2024-07-09 17:00:01 公開日:2024-07-08 |
# OSN:モノクロ映像からのダイナミックな3Dシーンの無限表現
OSN: Infinite Representations of Dynamic 3D Scenes from Monocular Videos ( http://arxiv.org/abs/2407.05615v1 ) ライセンス: Link先を確認 | Ziyang Song, Jinxi Li, Bo Yang, | (参考訳) モノクラーRGBビデオから基礎となる動的3Dシーンの表現を復元することは、長い間困難であった。
既存の研究は、単一のダイナミックビデオに対応する無限に多くの3Dシーン表現が存在するという事実を無視して、深さの先行値や強い幾何学的制約などの様々な制約を加えることで、この問題を1つの最も妥当な解を見つけることに公式化している。
本稿では,入力映像にマッチする3Dシーン構成を,特定の映像を推測する代わりに学習することを目的とする。
この野心的な目標を達成するために、OSNと呼ばれる新しいフレームワークを導入します。
我々のアプローチの鍵は、シンプルだが革新的なオブジェクトスケールネットワークと、動的3Dオブジェクトごとに正確なスケール範囲を学習するための共同最適化モジュールである。
これにより、できるだけ多くの忠実な3Dシーン構成をサンプリングすることができます。
大規模な実験により,本手法はすべてのベースラインを超越し,複数の合成および実世界のデータセット上での動的新規ビュー合成において優れた精度が得られることが示された。
また,本手法は細粒度3次元シーン形状の学習において明らかな優位性を示す。
私たちのコードとデータはhttps://github.com/vLAR-group/OSNで公開されています。
It has long been challenging to recover the underlying dynamic 3D scene representations from a monocular RGB video. Existing works formulate this problem into finding a single most plausible solution by adding various constraints such as depth priors and strong geometry constraints, ignoring the fact that there could be infinitely many 3D scene representations corresponding to a single dynamic video. In this paper, we aim to learn all plausible 3D scene configurations that match the input video, instead of just inferring a specific one. To achieve this ambitious goal, we introduce a new framework, called OSN. The key to our approach is a simple yet innovative object scale network together with a joint optimization module to learn an accurate scale range for every dynamic 3D object. This allows us to sample as many faithful 3D scene configurations as possible. Extensive experiments show that our method surpasses all baselines and achieves superior accuracy in dynamic novel view synthesis on multiple synthetic and real-world datasets. Most notably, our method demonstrates a clear advantage in learning fine-grained 3D scene geometry. Our code and data are available at https://github.com/vLAR-group/OSN | 翻訳日:2024-07-09 17:00:01 公開日:2024-07-08 |
# Slot-attention Based Classifierによる説明可能な画像認識
Explainable Image Recognition via Enhanced Slot-attention Based Classifier ( http://arxiv.org/abs/2407.05616v1 ) ライセンス: Link先を確認 | Bowen Wang, Liangzhi Li, Jiahao Zhang, Yuta Nakashima, Hajime Nagahara, | (参考訳) ディープラーニングモデルの振る舞いを理解する義務は、非常に重要である。
この領域では、説明可能な人工知能(XAI)が有望な道として現れ、近年の関心が高まっている。
それにもかかわらず、既存のほとんどの手法は、主に勾配や入力の摂動に依存しており、しばしばモデルの意思決定プロセスに直接説明を埋め込むのに失敗する。
このギャップに対処するために,修正スロットアテンション機構に基づく視覚的に説明可能な分類器であるESCOUTERを導入する。
ESCOUTERは、高い分類精度を提供するだけでなく、意思決定の背後にある理由についてより透明な洞察を提供することによって、自分自身を区別している。
従来のアプローチとは大きく異なる点が2つある。
(a) ESCOUTERは、各カテゴリの最終的な信頼度スコアに説明を組み込み、より直感的な解釈を提供し、
(b)「なぜあるカテゴリに属しているのか」や「なぜそうでないのか」など、すべてのカテゴリについて肯定的または否定的な説明を提供する。
ESCOUTER専用の新しい損失関数は、モデルの振舞いを微調整し、肯定的な説明と否定的な説明の切り替えを可能にするように設計されている。
さらに、より正確な説明のために、説明領域のサイズを調整するために、エリアロスも設計されている。
提案手法は,様々なデータセットやXAIメトリクスに対して厳密に検証され,従来の最先端手法よりも優れており,説明ツールとしての有効性が確立されている。
The imperative to comprehend the behaviors of deep learning models is of utmost importance. In this realm, Explainable Artificial Intelligence (XAI) has emerged as a promising avenue, garnering increasing interest in recent years. Despite this, most existing methods primarily depend on gradients or input perturbation, which often fails to embed explanations directly within the model's decision-making process. Addressing this gap, we introduce ESCOUTER, a visually explainable classifier based on the modified slot attention mechanism. ESCOUTER distinguishes itself by not only delivering high classification accuracy but also offering more transparent insights into the reasoning behind its decisions. It differs from prior approaches in two significant aspects: (a) ESCOUTER incorporates explanations into the final confidence scores for each category, providing a more intuitive interpretation, and (b) it offers positive or negative explanations for all categories, elucidating "why an image belongs to a certain category" or "why it does not." A novel loss function specifically for ESCOUTER is designed to fine-tune the model's behavior, enabling it to toggle between positive and negative explanations. Moreover, an area loss is also designed to adjust the size of the explanatory regions for a more precise explanation. Our method, rigorously tested across various datasets and XAI metrics, outperformed previous state-of-the-art methods, solidifying its effectiveness as an explanatory tool. | 翻訳日:2024-07-09 17:00:01 公開日:2024-07-08 |
# 統計的およびグラディエントなクエリによるスパース関数の複雑性について
On the Complexity of Learning Sparse Functions with Statistical and Gradient Queries ( http://arxiv.org/abs/2407.05622v1 ) ライセンス: Link先を確認 | Nirmit Joshi, Theodor Misiakiewicz, Nathan Srebro, | (参考訳) 本研究の目的は,スパース関数(ユンタス)の学習における勾配アルゴリズムの複雑さを検討することである。
我々は、任意のモデルに対する特定の損失に対する勾配クエリをモデル化するために、微分可能な学習クエリ(\mathsf{DLQ}$)と呼ばれる統計クエリの種類を紹介します。
一般積分布上のスパース関数のサポートを学習するために,$\mathsf{DLQ}$のクエリ複雑性を厳密に評価する。
この複雑さは損失関数に大きく依存する。
平方損失に対して、$\mathsf{DLQ}$は相関統計量$(\mathsf{CSQ})$--ポテンシャル的に$\mathsf{SQ}$よりもはるかに悪い。
しかし、$\ell_1$損失を含む他の単純な損失関数の場合、$\mathsf{DLQ}$は常に$\mathsf{SQ}$と同じ複雑さを達成する。
また、$\mathsf{DLQ}$は、平均場状態と線形スケーリングにおける2層ニューラルネットワークによる学習の複雑さを正しく記述することにより、(確率的な)勾配勾配で学習をキャプチャできることを示す。
The goal of this paper is to investigate the complexity of gradient algorithms when learning sparse functions (juntas). We introduce a type of Statistical Queries ($\mathsf{SQ}$), which we call Differentiable Learning Queries ($\mathsf{DLQ}$), to model gradient queries on a specified loss with respect to an arbitrary model. We provide a tight characterization of the query complexity of $\mathsf{DLQ}$ for learning the support of a sparse function over generic product distributions. This complexity crucially depends on the loss function. For the squared loss, $\mathsf{DLQ}$ matches the complexity of Correlation Statistical Queries $(\mathsf{CSQ})$--potentially much worse than $\mathsf{SQ}$. But for other simple loss functions, including the $\ell_1$ loss, $\mathsf{DLQ}$ always achieves the same complexity as $\mathsf{SQ}$. We also provide evidence that $\mathsf{DLQ}$ can indeed capture learning with (stochastic) gradient descent by showing it correctly describes the complexity of learning with a two-layer neural network in the mean field regime and linear scaling. | 翻訳日:2024-07-09 17:00:01 公開日:2024-07-08 |
# 教師付きローカルラーニングのためのモーメント補助ネットワーク
Momentum Auxiliary Network for Supervised Local Learning ( http://arxiv.org/abs/2407.05623v1 ) ライセンス: Link先を確認 | Junhao Su, Changpeng Cai, Feiyu Zhu, Chenghao He, Xiaojie Xu, Dongzhi Guan, Chenyang Si, | (参考訳) ディープニューラルネットワークは従来、トレーニングプロセスにエンドツーエンドのバックプロパゲーションを採用しており、生物学的信頼性が欠如し、ネットワークパラメータの更新中にロックジレンマを引き起こし、GPUメモリの使用が大幅に増加する。
ネットワークを独立した補助ネットワークによって更新された複数のローカルブロックに分割する。
しかし、これらの手法は、局所ブロック内でのみ勾配が伝播し、ブロック間の情報交換の欠如が生じるため、より低い精度でエンドツーエンドのトレーニングを置き換えることはできない。
この問題に対処し,ブロック間の情報伝達を確立するために,動的相互作用機構を確立するMomentum Auxiliary Network (MAN)を提案する。
MANは、隣接するローカルブロックからパラメータの指数移動平均(EMA)を利用して情報の流れを強化する。
EMAによって更新されたこの補助ネットワークは、ブロック間の情報ギャップをブリッジするのに役立つ。
それにもかかわらず、EMAパラメータの直接適用には、局所ブロック間の特徴の相違による一定の制限がある。
これを解決するために、学習可能なバイアスを導入し、パフォーマンスをさらに向上します。
我々は,4つの画像分類データセット (CIFAR-10, STL-10, SVHN, ImageNet) で本手法の有効性を検証した。
特に,本手法は,エンドツーエンドのトレーニングに比べ,イメージネットデータセット上でのGPUメモリ使用率を45%以上削減し,高性能化を実現している。
そこで、Momentum Auxiliary Networkは、教師付きローカル学習の新しい視点を提供する。
我々のコードは以下の通りである。
Deep neural networks conventionally employ end-to-end backpropagation for their training process, which lacks biological credibility and triggers a locking dilemma during network parameter updates, leading to significant GPU memory use. Supervised local learning, which segments the network into multiple local blocks updated by independent auxiliary networks. However, these methods cannot replace end-to-end training due to lower accuracy, as gradients only propagate within their local block, creating a lack of information exchange between blocks. To address this issue and establish information transfer across blocks, we propose a Momentum Auxiliary Network (MAN) that establishes a dynamic interaction mechanism. The MAN leverages an exponential moving average (EMA) of the parameters from adjacent local blocks to enhance information flow. This auxiliary network, updated through EMA, helps bridge the informational gap between blocks. Nevertheless, we observe that directly applying EMA parameters has certain limitations due to feature discrepancies among local blocks. To overcome this, we introduce learnable biases, further boosting performance. We have validated our method on four image classification datasets (CIFAR-10, STL-10, SVHN, ImageNet), attaining superior performance and substantial memory savings. Notably, our method can reduce GPU memory usage by more than 45\% on the ImageNet dataset compared to end-to-end training, while achieving higher performance. The Momentum Auxiliary Network thus offers a new perspective for supervised local learning. Our code is available at: \url{https://github.com/JunhaoSu0/MAN}. | 翻訳日:2024-07-09 17:00:01 公開日:2024-07-08 |
# テキスト分類研究における新たな方向性:限定データを用いた知覚分類の性能の最大化
New Directions in Text Classification Research: Maximizing The Performance of Sentiment Classification from Limited Data ( http://arxiv.org/abs/2407.05627v1 ) ライセンス: Link先を確認 | Surya Agustian, Muhammad Irfan Syah, Nurul Fatiara, Rahmad Abdillah, | (参考訳) ポジティブでもネガティブでも、様々な問題に対する利害関係者の感情分析の必要性は、スピードと正確性である。
感情分析タスクにおける新しい課題の1つは、限られたトレーニングデータである。
本稿では,限られた学習データ(300~600サンプル)に基づくテキスト分類の問題について,正,負,中性の3つのクラスに分類する。
ベンチマークデータセットは、Kaesang Pangarep氏がPSIの議長として任命した問題に関するデータをトレーニングし、テストするためのものだ。
集約と拡張の目的のための外部データは、Covid Vaccinationの感情に関するトピックとオープンなトピックの2つのデータセットで構成されている。
公式スコアはF1スコアであり、正、負、中立の3つのクラスで精度とリコールのバランスをとる。
ベースラインスコアは、最適化されていない分類方法の研究者の基準として提供される。
最適化スコアは、提案手法によって達成される目標スコアの基準として提供される。
スコアリング(ベースラインと最適化)はどちらもSVMメソッドを使用し、従来の機械学習手法では最先端と広く報告されている。
ベースラインと最適化手法によって達成されたF1スコアはそれぞれ40.83%と51.28%である。
The stakeholders' needs in sentiment analysis for various issues, whether positive or negative, are speed and accuracy. One new challenge in sentiment analysis tasks is the limited training data, which often leads to suboptimal machine learning models and poor performance on test data. This paper discusses the problem of text classification based on limited training data (300 to 600 samples) into three classes: positive, negative, and neutral. A benchmark dataset is provided for training and testing data on the issue of Kaesang Pangarep's appointment as Chairman of PSI. External data for aggregation and augmentation purposes are provided, consisting of two datasets: the topic of Covid Vaccination sentiment and an open topic. The official score used is the F1-score, which balances precision and recall among the three classes, positive, negative, and neutral. A baseline score is provided as a reference for researchers for unoptimized classification methods. The optimized score is provided as a reference for the target score to be achieved by any proposed method. Both scoring (baseline and optimized) use the SVM method, which is widely reported as the state-of-the-art in conventional machine learning methods. The F1-scores achieved by the baseline and optimized methods are 40.83% and 51.28%, respectively. | 翻訳日:2024-07-09 17:00:01 公開日:2024-07-08 |
# AdaPI:エッジコンピューティングにおける効率的なプライベート推論のためのDNNモデル適応化
AdaPI: Facilitating DNN Model Adaptivity for Efficient Private Inference in Edge Computing ( http://arxiv.org/abs/2407.05633v1 ) ライセンス: Link先を確認 | Tong Zhou, Jiahui Zhao, Yukui Luo, Xi Xie, Wujie Wen, Caiwen Ding, Xiaolin Xu, | (参考訳) プライベート推論(PI)は、暗号化されたデータ上で計算を実行するための有望なソリューションとして登場し、エッジコンピューティングにおけるユーザのプライバシとモデルパラメータを保護する。
しかし、既存のPI手法は、エネルギー予算のような多様なエッジデバイスにおける様々なリソース制約や動的リソース制約を見越して、一定のリソース制約を考慮し、主に開発されている。
その結果、モデルプロバイダは異なるデバイス向けに特別なモデルを設計しなければなりません。
このギャップを埋めるために、この研究はAdaPI(AdaPI)を提示する。これは、多様なエネルギー予算を持つエッジデバイス間でモデルを良好に動作させることにより、適応的なPIを実現する新しいアプローチである。
AdaPIは、重量レベルと特徴レベルのソフトマスクとともにモデルの重量を最適化するPI対応のトレーニング戦略を採用している。
これらのソフトマスクは後に複数のバイナリマスクに変換され、通信や計算処理の調整を可能にする。
AdaPIは高密度のバイナリマスクでモデルを逐次訓練することで、各エネルギー予算に対して最適な精度を達成し、CIFAR-100の試験精度で最先端のPI法を7.3倍に向上させる。
AdaPIのコードはhttps://github.com/jiahuiiiiii/AdaPIからアクセスすることができる。
Private inference (PI) has emerged as a promising solution to execute computations on encrypted data, safeguarding user privacy and model parameters in edge computing. However, existing PI methods are predominantly developed considering constant resource constraints, overlooking the varied and dynamic resource constraints in diverse edge devices, like energy budgets. Consequently, model providers have to design specialized models for different devices, where all of them have to be stored on the edge server, resulting in inefficient deployment. To fill this gap, this work presents AdaPI, a novel approach that achieves adaptive PI by allowing a model to perform well across edge devices with diverse energy budgets. AdaPI employs a PI-aware training strategy that optimizes the model weights alongside weight-level and feature-level soft masks. These soft masks are subsequently transformed into multiple binary masks to enable adjustments in communication and computation workloads. Through sequentially training the model with increasingly dense binary masks, AdaPI attains optimal accuracy for each energy budget, which outperforms the state-of-the-art PI methods by 7.3\% in terms of test accuracy on CIFAR-100. The code of AdaPI can be accessed via https://github.com/jiahuiiiiii/AdaPI. | 翻訳日:2024-07-09 17:00:01 公開日:2024-07-08 |
# 任意のSzeg\H o関数に対する無限量子信号処理
Infinite quantum signal processing for arbitrary Szeg\H o functions ( http://arxiv.org/abs/2407.05634v1 ) ライセンス: Link先を確認 | Michel Alexis, Lin Lin, Gevorg Mnatsakanyan, Christoph Thiele, Jiasu Wang, | (参考訳) Szeg\H o関数は対数積分可能性条件を満たす関数であり、量子信号処理表現を許容するほとんどすべての関数を含む。
我々はリーマン・ヒルベルト・ワイスアルゴリズムと呼ばれる新しいアルゴリズムを導入し、他のすべての位相因子とは独立に任意の位相因子を計算できる。
我々のアルゴリズムは任意のSzeg\H o関数の位相係数を計算するための最初の安定な数値アルゴリズムでもある。
安定性の証明は、スペクトル理論の要素を用いた非線形フーリエ解析においてリーマン・ヒルベルト分解問題を解くことを含む。
We provide a complete solution to the problem of infinite quantum signal processing for the class of Szeg\H o functions, which are functions that satisfy a logarithmic integrability condition and include almost any function that allows for a quantum signal processing representation. We do so by introducing a new algorithm called the Riemann-Hilbert-Weiss algorithm, which can compute any individual phase factor independent of all other phase factors. Our algorithm is also the first provably stable numerical algorithm for computing phase factors of any arbitrary Szeg\H o function. The proof of stability involves solving a Riemann-Hilbert factorization problem in nonlinear Fourier analysis using elements of spectral theory. | 翻訳日:2024-07-09 16:50:12 公開日:2024-07-08 |
# HPFF: パッチ機能融合による階層的局所教師付き学習
HPFF: Hierarchical Locally Supervised Learning with Patch Feature Fusion ( http://arxiv.org/abs/2407.05638v1 ) ライセンス: Link先を確認 | Junhao Su, Chenghao He, Feiyu Zhu, Xiaojie Xu, Dongzhi Guan, Chenyang Si, | (参考訳) 従来のディープラーニングは、トレーニングのエンドツーエンドのバックプロパゲーションに依存しているが、高いメモリ消費や生物学的ニューラルネットワークとの整合性といった欠点に悩まされている。
最近の進歩は、ネットワークを独立した勾配を持つモジュールに分割し、それらをローカルに訓練するローカル教師あり学習を導入している。
しかし、このアプローチは、これらのモジュール間の相互作用が限られているため、パフォーマンスの遅れにつながる可能性があり、補助ネットワークの設計は、一定の量のGPUメモリを占有する。
これらの制約を克服するため,我々はHPFFと呼ばれる新しいモデルを提案し,補助ネットワーク上で階層的な局所教師付き学習とパッチレベルの特徴計算を行う。
HiLo(Hierarchical Locally Supervised Learning)は、ネットワークがそれぞれのローカルパスに沿って異なる粒度レベルで特徴を学習できるようにする。
具体的には、ネットワークは2段階のローカルモジュール(独立ローカルモジュールとカスケードローカルモジュール)に分けられる。
カスケード局所加群は、隣接する2つの独立な局所加群を結合し、モジュール自体に更新と、隣接する加群間の情報交換の両方を組み込む。
PFF(Patch Feature Fusion)は、補助ネットワークの入力機能を計算用のパッチに分割することで、GPUメモリの使用を減らす。
これらのパッチレベルの機能を平均化することにより、複数のパッチにまたがるパターンにより集中するネットワークの能力を高めることができる。
さらに,本手法は強力な一般化能力を示し,既存の手法とシームレスに統合することができる。
我々は, CIFAR-10, STL-10, SVHN, ImageNetのデータセットに対して実験を行い, 提案したHPFFが従来より大幅に優れており, 常に異なるデータセットにおける最先端性能を実現していることを示す。
我々のコードは以下の通りである。
Traditional deep learning relies on end-to-end backpropagation for training, but it suffers from drawbacks such as high memory consumption and not aligning with biological neural networks. Recent advancements have introduced locally supervised learning, which divides networks into modules with isolated gradients and trains them locally. However, this approach can lead to performance lag due to limited interaction between these modules, and the design of auxiliary networks occupies a certain amount of GPU memory. To overcome these limitations, we propose a novel model called HPFF that performs hierarchical locally supervised learning and patch-level feature computation on the auxiliary networks. Hierarchical Locally Supervised Learning (HiLo) enables the network to learn features at different granularity levels along their respective local paths. Specifically, the network is divided into two-level local modules: independent local modules and cascade local modules. The cascade local modules combine two adjacent independent local modules, incorporating both updates within the modules themselves and information exchange between adjacent modules. Patch Feature Fusion (PFF) reduces GPU memory usage by splitting the input features of the auxiliary networks into patches for computation. By averaging these patch-level features, it enhances the network's ability to focus more on those patterns that are prevalent across multiple patches. Furthermore, our method exhibits strong generalization capabilities and can be seamlessly integrated with existing techniques. We conduct experiments on CIFAR-10, STL-10, SVHN, and ImageNet datasets, and the results demonstrate that our proposed HPFF significantly outperforms previous approaches, consistently achieving state-of-the-art performance across different datasets. Our code is available at: \url{https://github.com/Zeudfish/HPFF}. | 翻訳日:2024-07-09 16:50:12 公開日:2024-07-08 |
# ディープラーニングによるコンピュータネットワークの異常検出とログ解析
Deep Learning-based Anomaly Detection and Log Analysis for Computer Networks ( http://arxiv.org/abs/2407.05639v1 ) ライセンス: Link先を確認 | Shuzhan Wang, Ruxue Jiang, Zhaoqi Wang, Yan Zhou, | (参考訳) ネットワークセキュリティの分野で重要なトピックであるコンピュータネットワーク異常検出とログ解析は,ネットワークセキュリティとシステムの信頼性を確保する上で重要な課題である。
まず、既存のネットワーク異常検出およびログ解析手法は、高次元データと複雑なネットワークトポロジによってしばしば挑戦され、不安定な性能と高い偽陽性率をもたらす。
さらに,従来の手法では時系列データの扱いが困難であり,異常検出やログ解析に欠かせない。
したがって、これらの問題に対処するためには、より効率的かつ正確な方法が必要である。
現状の手法の欠点を補うために,GAN(Generative Adversarial Network)とTransformer(Transformer)を統合した新しい融合モデルを提案し,それぞれがユニークな役割を担っている。
分離フォレストは異常なデータポイントを素早く識別するために使用され、GANは実際のデータ分散特性を持つ合成データを生成するために使用され、Transformerは時系列データに基づくモデリングとコンテキスト抽出に使用される。
これら3つのコンポーネントの相乗効果により、異常検出およびログ解析タスクにおいて、我々のモデルはより正確で堅牢になる。
本研究では,この融合モデルの有効性を実験的に検証した。
実験結果から,本モデルは誤報率を低減しつつ,異常検出の精度を著しく向上し,ネットワークの潜在的な問題を事前に検出するのに役立つことがわかった。
このモデルはログ解析タスクでもうまく機能し、異常な振る舞いを素早く識別することができ、システムの安定性を向上させるのに役立ちます。
本研究の意義は,異常検出とログ解析を行う先進的な深層学習技術を導入することである。
Computer network anomaly detection and log analysis, as an important topic in the field of network security, has been a key task to ensure network security and system reliability. First, existing network anomaly detection and log analysis methods are often challenged by high-dimensional data and complex network topologies, resulting in unstable performance and high false-positive rates. In addition, traditional methods are usually difficult to handle time-series data, which is crucial for anomaly detection and log analysis. Therefore, we need a more efficient and accurate method to cope with these problems. To compensate for the shortcomings of current methods, we propose an innovative fusion model that integrates Isolation Forest, GAN (Generative Adversarial Network), and Transformer with each other, and each of them plays a unique role. Isolation Forest is used to quickly identify anomalous data points, and GAN is used to generate synthetic data with the real data distribution characteristics to augment the training dataset, while the Transformer is used for modeling and context extraction on time series data. The synergy of these three components makes our model more accurate and robust in anomaly detection and log analysis tasks. We validate the effectiveness of this fusion model in an extensive experimental evaluation. Experimental results show that our model significantly improves the accuracy of anomaly detection while reducing the false alarm rate, which helps to detect potential network problems in advance. The model also performs well in the log analysis task and is able to quickly identify anomalous behaviors, which helps to improve the stability of the system. The significance of this study is that it introduces advanced deep learning techniques, which work anomaly detection and log analysis. | 翻訳日:2024-07-09 16:50:12 公開日:2024-07-08 |
# OneDiff:画像の違いを一般化するモデル
OneDiff: A Generalist Model for Image Difference ( http://arxiv.org/abs/2407.05645v1 ) ライセンス: Link先を確認 | Erdong Hu, Longteng Guo, Tongtian Yue, Zijia Zhao, Shuning Xue, Jing Liu, | (参考訳) コンピュータビジョンにおいて、画像差分キャプション(IDC)は、近縁な画像間の変化を正確に記述するために重要である。
従来のIDCの手法は、様々な文脈における適用性を制限する専門的なモデルに依存していることが多い。
本稿では,シマウマ画像エンコーダをビジュアルデルタモジュールに統合し,ロバストな視覚言語モデルアーキテクチャを利用する新しいジェネラリスト手法であるOneDiffモデルを紹介する。
この革新的な構成により、画像ペア間の微細な違いを正確に検出し、明瞭にすることができる。
OneDiffは、結合サンプルトレーニングとマルチタスク学習を、新たに開発したDiffCap Datasetによってサポートされたさまざまなデータタイプにわたって含む、二重フェーズ戦略を通じてトレーニングされている。
このデータセットは実世界のデータと合成データをマージし、トレーニングプロセスを強化し、モデルの堅牢性を強化します。
Spot-the-Diff、CLEVR-Change、Birds-to-Wordsといった多様なIDCベンチマークの広範なテストは、OneDiffが既存の最先端モデルを精度と適応性で一貫して上回り、平均85%のCIDErポイントの改善を実現していることを示している。
IDCに新しいベンチマークを設定することで、OneDiffは視覚的差異の検出と記述において、より汎用的で効果的なアプリケーションを実現することができる。
コード、モデル、データは公開されます。
In computer vision, Image Difference Captioning (IDC) is crucial for accurately describing variations between closely related images. Traditional IDC methods often rely on specialist models, which restrict their applicability across varied contexts. This paper introduces the OneDiff model, a novel generalist approach that utilizes a robust vision-language model architecture, integrating a siamese image encoder with a Visual Delta Module. This innovative configuration allows for the precise detection and articulation of fine-grained differences between image pairs. OneDiff is trained through a dual-phase strategy, encompassing Coupled Sample Training and multi-task learning across a diverse array of data types, supported by our newly developed DiffCap Dataset. This dataset merges real-world and synthetic data, enhancing the training process and bolstering the model's robustness. Extensive testing on diverse IDC benchmarks, such as Spot-the-Diff, CLEVR-Change, and Birds-to-Words, shows that OneDiff consistently outperforms existing state-of-the-art models in accuracy and adaptability, achieving improvements of up to 85\% CIDEr points in average. By setting a new benchmark in IDC, OneDiff paves the way for more versatile and effective applications in detecting and describing visual differences. The code, models, and data will be made publicly available. | 翻訳日:2024-07-09 16:50:12 公開日:2024-07-08 |
# ファウショット分類のためのCLIPのカテゴリ一貫性メタ機能への適応学習
Learning to Adapt Category Consistent Meta-Feature of CLIP for Few-Shot Classification ( http://arxiv.org/abs/2407.05647v1 ) ライセンス: Link先を確認 | Jiaying Shi, Xuetong Xue, Shenghui Xu, | (参考訳) 最近のCLIPベースの手法では、画像分類タスクにおいてゼロショットと少数ショットのパフォーマンスが期待できる。
CoOpやTip-Adapterのような既存のアプローチは、画像の ``Summary' を表すテキスト機能と完全に整合した高レベルの視覚的特徴のみに焦点を当てている。
しかし、少数ショット学習の目標は、同じカテゴリの未確認画像をラベル付きサンプルで分類することである。
特に、高レベルの表現とは対照的に、低レベルの局所表現(LR)は、見えないサンプルと見えないサンプルの間でより一貫性がある。
そこで本研究では,LRと高レベルセマンティック表現の相補的長所を組み合わせたメタ機能適応法(MF-Adapter)を提案する。
具体的には,メタ機能ユニット(Meta-Feature Unit, MF-Unit)を紹介する。
次に、MF-Adapterを訓練し、画像特徴をMF-Unitにマッピングし、未確認画像とサポートセットの間のクラス内知識を適切に一般化する。
広汎な実験により,提案手法は最先端のCLIP下流数ショット分類法よりも優れていることが示された。
The recent CLIP-based methods have shown promising zero-shot and few-shot performance on image classification tasks. Existing approaches such as CoOp and Tip-Adapter only focus on high-level visual features that are fully aligned with textual features representing the ``Summary" of the image. However, the goal of few-shot learning is to classify unseen images of the same category with few labeled samples. Especially, in contrast to high-level representations, local representations (LRs) at low-level are more consistent between seen and unseen samples. Based on this point, we propose the Meta-Feature Adaption method (MF-Adapter) that combines the complementary strengths of both LRs and high-level semantic representations. Specifically, we introduce the Meta-Feature Unit (MF-Unit), which is a simple yet effective local similarity metric to measure category-consistent local context in an inductive manner. Then we train an MF-Adapter to map image features to MF-Unit for adequately generalizing the intra-class knowledge between unseen images and the support set. Extensive experiments show that our proposed method is superior to the state-of-the-art CLIP downstream few-shot classification methods, even showing stronger performance on a set of challenging visual classification tasks. | 翻訳日:2024-07-09 16:50:12 公開日:2024-07-08 |
# ランダムスイッチによるグラフアテンション
Graph Attention with Random Rewiring ( http://arxiv.org/abs/2407.05649v1 ) ライセンス: Link先を確認 | Tongzhou Liao, Barnabás Póczos, | (参考訳) グラフニューラルネットワーク(GNN)は,グラフ構造化深層学習の基盤となっている。
現代のGNNの主なパラダイムは、メッセージパッシング、グラフリワイア、グラフトランスフォーマーである。
本稿では,これら3つのパラダイムの利点を組み合わせた新しいGNNアーキテクチャであるGRASS(Graph-Rewiring Attention with Stochastic Structures)を紹介する。
GRASSは、ランダムな正規グラフを重畳して入力グラフをリワイヤし、入力グラフの構造的特徴を保持しながら、長距離情報伝播を強化する。
また、グラフ構造化データに適したユニークな付加的なアテンション機構を採用し、計算効率を保ちながらグラフ帰納バイアスを提供する。
実験により、GRASSは複数のベンチマークデータセット上で最先端のパフォーマンスを達成し、実用性を確認した。
Graph Neural Networks (GNNs) have become fundamental in graph-structured deep learning. Key paradigms of modern GNNs include message passing, graph rewiring, and Graph Transformers. This paper introduces Graph-Rewiring Attention with Stochastic Structures (GRASS), a novel GNN architecture that combines the advantages of these three paradigms. GRASS rewires the input graph by superimposing a random regular graph, enhancing long-range information propagation while preserving structural features of the input graph. It also employs a unique additive attention mechanism tailored for graph-structured data, providing a graph inductive bias while remaining computationally efficient. Our empirical evaluations demonstrate that GRASS achieves state-of-the-art performance on multiple benchmark datasets, confirming its practical efficacy. | 翻訳日:2024-07-09 16:50:12 公開日:2024-07-08 |
# 動的ネットアーキテクチャ - 自己組織化ネットワークによるロバストでホロスティックな視覚表現の学習
The Dynamic Net Architecture: Learning Robust and Holistic Visual Representations Through Self-Organizing Networks ( http://arxiv.org/abs/2407.05650v1 ) ライセンス: Link先を確認 | Pascal J. Sager, Jan M. Deriu, Benjamin F. Grewe, Thilo Stadelmann, Christoph von der Malsburg, | (参考訳) 本稿では、リカレンス安定化ネットワークに依存した新しいインテリジェントなアーキテクチャである"Dynamic Net Architecture"(DNA)について述べる。
我々のアーキテクチャーは、基本特徴ニューロンが視覚構造の詳細をエンコードする(脳皮質)領域をモデル化し、そのようなニューロンのコヒーレントネットは、全体論的対象構造をモデル化する。
エリアネットワークのより小さいあるいは大きなコヒーレント部分を複雑な特徴として解釈することにより、我々のモデルは、階層的特徴表現を、人工知能ニューラルネットワーク(ANN)と本質的に異なる特徴表現を符号化する。
DNAモデルは動的結合性原理で機能し、初期求心性シグナルから生じる神経活性化は、周期的に抑制されるとともに、ヘビアン可塑性によって促進される自己組織化機構によって安定化される。
フィードフォワード接続やエラーのバックプロパゲーションに依存するANNとは対照的に、この処理パラダイムは動的横方向接続を用いることによって、ニューラルアクティベーションにおける無関係な詳細をフィルタリングすることにより、ノイズの回避や未熟な判断からさらなる処理ステップを解放する、という非常に堅牢な表現につながると仮定する。
線断片を長い線に構成することでDNAの生存可能性を実証的に実証し、各空間に最大5,9\%のノイズを導入したとしても、線を表す網の構成が頑健であることを示す。
さらに,予測された特徴を部分的に不明瞭な入力から再構築し,学習中に観察されないパターンに一般化できることを示す。
この研究では、DNAを1つの皮質領域に制限し、その内部に集中するとともに、スタンドアロン領域の強みと欠点に関する洞察を提供する。
さらに、複数の領域を組み合わせることで、将来の作業が不変オブジェクト認識をどのように実装できるかを展望する。
We present a novel intelligent-system architecture called "Dynamic Net Architecture" (DNA) that relies on recurrence-stabilized networks and discuss it in application to vision. Our architecture models a (cerebral cortical) area wherein elementary feature neurons encode details of visual structures, and coherent nets of such neurons model holistic object structures. By interpreting smaller or larger coherent pieces of an area network as complex features, our model encodes hierarchical feature representations essentially different than artificial neural networks (ANNs). DNA models operate on a dynamic connectionism principle, wherein neural activations stemming from initial afferent signals undergo stabilization through a self-organizing mechanism facilitated by Hebbian plasticity alongside periodically tightening inhibition. In contrast to ANNs, which rely on feed-forward connections and backpropagation of error, we posit that this processing paradigm leads to highly robust representations, as by employing dynamic lateral connections, irrelevant details in neural activations are filtered out, freeing further processing steps from distracting noise and premature decisions. We empirically demonstrate the viability of the DNA by composing line fragments into longer lines and show that the construction of nets representing lines remains robust even with the introduction of up to $59\%$ noise at each spatial location. Furthermore, we demonstrate the model's capability to reconstruct anticipated features from partially obscured inputs and that it can generalize to patterns not observed during training. In this work, we limit the DNA to one cortical area and focus on its internals while providing insights into a standalone area's strengths and shortcomings. Additionally, we provide an outlook on how future work can implement invariant object recognition by combining multiple areas. | 翻訳日:2024-07-09 16:50:12 公開日:2024-07-08 |
# StmtTree: 簡単に使えるが、Versatile Fortran変換ツールキット
StmtTree: An Easy-to-Use yet Versatile Fortran Transformation Toolkit ( http://arxiv.org/abs/2407.05652v1 ) ライセンス: Link先を確認 | Jingbo Lin, Yi Yu, Zhang Yang, Yafan Zhao, | (参考訳) Fortranプログラミング言語は科学計算コミュニティを支配し続けており、古いFortran-77方言で書かれた多くの生産コードがあるが、Cray poitersのような多くの標準ではない拡張がある。
これにより、コミュニティ内で大幅なメンテナンスの負担が発生し、近代化に多大な努力が費やされる。
しかし、先進的なコンパイラフレームワークの現代にもかかわらず、古いFortranコードの処理と変換は依然として困難である。
本稿では,この問題に対処する新しいFortranコード変換ツールキットであるStmtTreeを紹介する。
StmtTreeはFortran文法をステートメントツリーに抽象化し、低レベル表現操作APIと、高レベルで使いやすいクエリとミニ言語操作の両方を提供する。
StmtTreeはカスタマイズされたFortran変換ツールの作成を簡単にする。
実験によると、StmtTreeはレガシーなFortran-77コードによく適応しており、未使用のステートメントを削除するなどの複雑なツールは100行未満のpythonコードで開発することができる。
The Fortran programming language continues to dominate the scientific computing community, with many production codes written in the outdated Fortran-77 dialect, yet with many non-standard extensions such as Cray poiters. This creates significant maintenance burden within the community, with tremendous efforts devoted to modernization. However, despite the modern age of advanced compiler frameworks, processing and transforming old Fortran codes remains challenging. In this paper, we present StmtTree, a new Fortran code transformation toolkit to address this issue. StmtTree abstracts the Fortran grammar into statement tree, offering both a low-level representation manipulation API and a high-level, easy-to-use query and manipulation mini-language. StmtTree simplifies the creation of customized Fortran transformation tools. Experiments show that StmtTree adapts well to legacy Fortran-77 codes, and complex tools such as removing unused statements can be developed with fewer than 100 lines of python code. | 翻訳日:2024-07-09 16:50:12 公開日:2024-07-08 |
# ランダム円ベクトルを用いたマルチラベル学習
Multi-label Learning with Random Circular Vectors ( http://arxiv.org/abs/2407.05656v1 ) ライセンス: Link先を確認 | Ken Nishida, Kojiro Machi, Kazuma Onishi, Katsuhiko Hayashi, Hidetaka Kamigaito, | (参考訳) 極端なマルチラベル分類〜(XMC)タスクは、大きなラベルセットからデータインスタンスのラベルの最も関連性の高いサブセットを予測できる分類器を学習することを含む。
ディープニューラルネットワーク~(DNN)はXMC問題で顕著に成功したが、多くの出力ラベルを扱う必要があるため、DNNトレーニングは計算コストがかかるため、このタスクはまだ難しい。
本稿では,各ベクトル成分が複素振幅として表されるランダムな円ベクトルの利用を探求することによって,この問題に対処する。
本フレームワークでは,データインスタンスのラベルの集合を符号化した低次元の円ベクトルを直接予測する完全連結層として最終出力層を表現することにより,XMC用DNNの出力層と損失関数を開発することができる。
本研究では, 実数値ベクトルよりもラベル符号化能力, 検索能力が高いことを確認するために, 合成データセットの実験を行った。
そこで, 実XMCデータセットを用いて実験を行い, 実数値ベクトルを用いた従来モデルと比較して, 円柱ベクトルの魅力特性がタスク性能の大幅な向上に寄与し, 出力層のサイズを最大99%削減できることを示した。
The extreme multi-label classification~(XMC) task involves learning a classifier that can predict from a large label set the most relevant subset of labels for a data instance. While deep neural networks~(DNNs) have demonstrated remarkable success in XMC problems, the task is still challenging because it must deal with a large number of output labels, which make the DNN training computationally expensive. This paper addresses the issue by exploring the use of random circular vectors, where each vector component is represented as a complex amplitude. In our framework, we can develop an output layer and loss function of DNNs for XMC by representing the final output layer as a fully connected layer that directly predicts a low-dimensional circular vector encoding a set of labels for a data instance. We conducted experiments on synthetic datasets to verify that circular vectors have better label encoding capacity and retrieval ability than normal real-valued vectors. Then, we conducted experiments on actual XMC datasets and found that these appealing properties of circular vectors contribute to significant improvements in task performance compared with a previous model using random real-valued vectors, while reducing the size of the output layers by up to 99%. | 翻訳日:2024-07-09 16:50:12 公開日:2024-07-08 |
# DMSD-CDFSAR:クロスドメイン・ファウショット・アクション認識のための混合音源領域からの蒸留
DMSD-CDFSAR: Distillation from Mixed-Source Domain for Cross-Domain Few-shot Action Recognition ( http://arxiv.org/abs/2407.05657v1 ) ライセンス: Link先を確認 | Fei Guo, YiKang Wang, Han Qi, Li Zhu, Jing Sun, | (参考訳) 少ないショットアクション認識はコンピュータビジョンの新たな分野であり、主に同じドメイン内のメタ学習に焦点を当てている。
しかし、特定のドメイン内で広範囲のラベル付きデータを収集することは手間がかかり、時間を要するため、現実のシナリオ展開では課題が生じる。
このように、注意はドメイン間数発のアクション認識にシフトし、大きな偏差のあるドメインをまたいでモデルを一般化する必要がある。
そこで本研究では,この問題に対処するための新しいアプローチである ``Distillation from Mixed-Source Domain を提案する。
本手法は,トレーニング中に,ソースドメインのラベル付きデータと対象ドメインのラベルなしデータの両方からの洞察を戦略的に統合する。
ResNet18は、ソースとターゲットドメインから空間的特徴を抽出するバックボーンとして使用される。
メタトレーニングのための2つのブランチを設計する。
最初のブランチでは、ソースとターゲットドメインの両方の時間的特徴をキャプチャするために、Domain Temporal Encoderが使用される。
さらに、抽出されたすべての機能を再構築するために、ドメイン時間デコーダが使用される。
もう一方のブランチでは、ラベル付きソースドメインデータとラベルなしターゲットドメインデータを処理するために、Domain Mixed Encoderが使用され、混合ソースドメイン機能を生成する。
メタトレーニングの前にトレーニング済みのステージを組み込み、最初のブランチと同様のネットワークアーキテクチャを特徴とする。
最後に,2つの蒸留機構を導入して,ソース領域の特徴の分類確率を改良し,混合ソース領域の特徴と整合させる。
この反復的プロセスは、原ソースブランチの洞察を混成ソースブランチからの知識で豊かにし、それによってモデルの一般化能力を高める。
私たちのコードはURLで利用可能です。
Few-shot action recognition is an emerging field in computer vision, primarily focused on meta-learning within the same domain. However, challenges arise in real-world scenario deployment, as gathering extensive labeled data within a specific domain is laborious and time-intensive. Thus, attention shifts towards cross-domain few-shot action recognition, requiring the model to generalize across domains with significant deviations. Therefore, we propose a novel approach, ``Distillation from Mixed-Source Domain", tailored to address this conundrum. Our method strategically integrates insights from both labeled data of the source domain and unlabeled data of the target domain during the training. The ResNet18 is used as the backbone to extract spatial features from the source and target domains. We design two branches for meta-training: the original-source and the mixed-source branches. In the first branch, a Domain Temporal Encoder is employed to capture temporal features for both the source and target domains. Additionally, a Domain Temporal Decoder is employed to reconstruct all extracted features. In the other branch, a Domain Mixed Encoder is used to handle labeled source domain data and unlabeled target domain data, generating mixed-source domain features. We incorporate a pre-training stage before meta-training, featuring a network architecture similar to that of the first branch. Lastly, we introduce a dual distillation mechanism to refine the classification probabilities of source domain features, aligning them with those of mixed-source domain features. This iterative process enriches the insights of the original-source branch with knowledge from the mixed-source branch, thereby enhancing the model's generalization capabilities. Our code is available at URL: \url{https://xxxx/xxxx/xxxx.git} | 翻訳日:2024-07-09 16:50:12 公開日:2024-07-08 |
# Random Features Hopfield Networksは検索をこれまで見つからなかった例に一般化する
Random Features Hopfield Networks generalize retrieval to previously unseen examples ( http://arxiv.org/abs/2407.05658v1 ) ライセンス: Link先を確認 | Silvio Kalaj, Clarissa Lauditi, Gabriele Perugini, Carlo Lucibello, Enrico M. Malatesta, Matteo Negri, | (参考訳) 近年、ホップフィールドネットワークはランダムな特徴の重ね合わせとして生成されたサンプルを格納し、そのような特徴に対応する新しいアトラクタがモデルに現れると学習遷移が起こることが示されている。
本研究により,ネットワークは,同一の機能セットで生成した未確認例に対応するアトラクタも開発していることを明らかにした。
学習トランジションを超えて格納されたサンプルの数を増やすことで、モデルはまた、格納された例と以前は見えない例の両方を表現するために、機能を混在させることも学んでいる、と我々は主張する。
我々はこの主張をモデルの位相図の計算で支持する。
It has been recently shown that a learning transition happens when a Hopfield Network stores examples generated as superpositions of random features, where new attractors corresponding to such features appear in the model. In this work we reveal that the network also develops attractors corresponding to previously unseen examples generated with the same set of features. We explain this surprising behaviour in terms of spurious states of the learned features: we argue that, increasing the number of stored examples beyond the learning transition, the model also learns to mix the features to represent both stored and previously unseen examples. We support this claim with the computation of the phase diagram of the model. | 翻訳日:2024-07-09 16:50:12 公開日:2024-07-08 |
# DNNが次元の曲線を破る方法:構成性と対称性の学習
How DNNs break the Curse of Dimensionality: Compositionality and Symmetry Learning ( http://arxiv.org/abs/2407.05664v1 ) ライセンス: Link先を確認 | Arthur Jacot, Seok Hoan Choi, Yuxiao Wen, | (参考訳) ディープニューラルネットワーク(DNN)は、制限付き$F_{1}$-normで任意の関数の合成を効率的に学習できることを示し、DNNは浅いネットワークではできない方法で次元の呪いを破ることができる。
より具体的には、構成性の被覆数論証と大きな幅適応性に対する$F_{1}$-ノルム(あるいは関連するバロンノルム)を組み合わせた一般化境界を導出する。
DNN の正規化損失のグローバルな最小化は、例えば、少数の観測結果から、$g$ が滑らかで正則であり、次元を減少させるという2つの関数 $f^{*}=h\circ g$ の構成に適合する(例えば、$g$ は、f^{*}$ の対称性のモジュラー写像であるかもしれない)。
我々が考える正則性の測度は微分可能性の異なるソボレフノルムであり、これは$F_{1}$ノルムによく適合する。
我々は、経験的にスケーリング法則を計算し、我々の理論が予測したように、$g$と$h$のどちらが学習しにくいかによって相転移を観察する。
We show that deep neural networks (DNNs) can efficiently learn any composition of functions with bounded $F_{1}$-norm, which allows DNNs to break the curse of dimensionality in ways that shallow networks cannot. More specifically, we derive a generalization bound that combines a covering number argument for compositionality, and the $F_{1}$-norm (or the related Barron norm) for large width adaptivity. We show that the global minimizer of the regularized loss of DNNs can fit for example the composition of two functions $f^{*}=h\circ g$ from a small number of observations, assuming $g$ is smooth/regular and reduces the dimensionality (e.g. $g$ could be the modulo map of the symmetries of $f^{*}$), so that $h$ can be learned in spite of its low regularity. The measures of regularity we consider is the Sobolev norm with different levels of differentiability, which is well adapted to the $F_{1}$ norm. We compute scaling laws empirically and observe phase transitions depending on whether $g$ or $h$ is harder to learn, as predicted by our theory. | 翻訳日:2024-07-09 16:50:12 公開日:2024-07-08 |
# スパースビューからの奥行きと正常完了優先度によるニューラルラジアンスフィールドの強化
Enhancing Neural Radiance Fields with Depth and Normal Completion Priors from Sparse Views ( http://arxiv.org/abs/2407.05666v1 ) ライセンス: Link先を確認 | Jiawei Guo, HungChyun Chou, Ning Ding, | (参考訳) NeRF(Neural Radiance Fields)は、ニューラルネットワークモデルを通じてシーンを学習することで、非常にリアルな画像を生成する高度な技術である。
しかし、NeRFは、処理すべき画像が十分でない場合にしばしば問題に遭遇し、ビューを正確にレンダリングする際の問題を引き起こす。
主な問題は、NeRFはレンダリングプロセスを正確に導くのに十分な構造的な詳細が欠けていることである。
そこで我々は,NeRF(CP\_NeRF)フレームワークの深度と正規度を優先する手法を提案する。
このフレームワークは、NeRF最適化プロセスに先立って、奥行きと通常の密閉を付加することにより、ビューレンダリングを強化する。
我々はNeRFの最適化に先立ち、カメラのポーズを取るために使用されるStructure from Motion (SfM)技術を用いてスパース深度マップを得る。
スパース深度マップと正規推定器に基づいて、正確な標準偏差に先立って正規完了を訓練するためのスパース正規写像を生成する。
最適化中、スパースデータを標準偏差のある密度の深さと正規写像に変換するために、深さと正規完備化を前もって適用する。
我々はこれらの高密度マップを用いてレイサンプリングを誘導し、距離サンプリングを補助し、トレーニング精度を高めるために正規損失関数を構築する。
我々は、NeRFの正規出力のレンダリングを改善するために、ボリュームレンダリングによりより正確な正規値を合成する光学中心位置埋め込み器を組み込んだ。
さらに、正規パッチマッチング手法を用いて、正確なレンダリングされた正規写像を選択し、モデルのより正確な監視を保証する。
本手法は,入力ビューが限られている場合でも,室内の詳細なシーンを描画する上で,先行技術よりも優れている。
Neural Radiance Fields (NeRF) are an advanced technology that creates highly realistic images by learning about scenes through a neural network model. However, NeRF often encounters issues when there are not enough images to work with, leading to problems in accurately rendering views. The main issue is that NeRF lacks sufficient structural details to guide the rendering process accurately. To address this, we proposed a Depth and Normal Dense Completion Priors for NeRF (CP\_NeRF) framework. This framework enhances view rendering by adding depth and normal dense completion priors to the NeRF optimization process. Before optimizing NeRF, we obtain sparse depth maps using the Structure from Motion (SfM) technique used to get camera poses. Based on the sparse depth maps and a normal estimator, we generate sparse normal maps for training a normal completion prior with precise standard deviations. During optimization, we apply depth and normal completion priors to transform sparse data into dense depth and normal maps with their standard deviations. We use these dense maps to guide ray sampling, assist distance sampling and construct a normal loss function for better training accuracy. To improve the rendering of NeRF's normal outputs, we incorporate an optical centre position embedder that helps synthesize more accurate normals through volume rendering. Additionally, we employ a normal patch matching technique to choose accurate rendered normal maps, ensuring more precise supervision for the model. Our method is superior to leading techniques in rendering detailed indoor scenes, even with limited input views. | 翻訳日:2024-07-09 16:50:12 公開日:2024-07-08 |
# 一般マーケティング戦略における影響最大化のための分断予算配分
Fractional Budget Allocation for Influence Maximization under General Marketing Strategies ( http://arxiv.org/abs/2407.05669v1 ) ライセンス: Link先を確認 | Akhil Bhimaraju, Eliot W. Robson, Lav R. Varshney, Abhishek K. Umrawal, | (参考訳) 我々は,ソーシャルネットワーク上のユーザをインセンティブ付きで特定し,ネットワークへの影響を最大化するために,潜在的に部分的な割引でインセンティブを付与する,分数的影響最大化の問題を考える。
ユーザに与えられるディスカウントが大きくなればなるほど、そのアクティベーション(新製品やイノベーションを取り入れる)の可能性が高まり、隣のユーザをアクティベートしようとすると、ネットワークを通じて影響のカスケード効果が生じる。
我々のゴールは、ネットワークの利用者に初期割引を割り当てる効率的なアルゴリズムを考案し、提供されたディスカウントの総和に制約を課し、カスケードの終了時のアクティブユーザー数を最大化することである。
一般的に、アクティベーション確率はディスカウントの非減少機能でありうるが、アクティベーション確率がディスカウントのアフィン関数である場合、異なるユーザー間で異なる可能性がある。
この問題はNPハードであることが示されるので、効率的な(1-1/e)近似アルゴリズムを提案し、解析する。
さらに,実世界のソーシャルネットワーク上で実験を行い,本手法の性能と拡張性を示す。
We consider the fractional influence maximization problem, i.e., identifying users on a social network to be incentivized with potentially partial discounts to maximize the influence on the network. The larger the discount given to a user, the higher the likelihood of its activation (adopting a new product or innovation), who then attempts to activate its neighboring users, causing a cascade effect of influence through the network. Our goal is to devise efficient algorithms that assign initial discounts to the network's users to maximize the total number of activated users at the end of the cascade, subject to a constraint on the total sum of discounts given. In general, the activation likelihood could be any non-decreasing function of the discount, whereas, our focus lies on the case when the activation likelihood is an affine function of the discount, potentially varying across different users. As this problem is shown to be NP-hard, we propose and analyze an efficient (1-1/e)-approximation algorithm. Furthermore, we run experiments on real-world social networks to show the performance and scalability of our method. | 翻訳日:2024-07-09 16:50:12 公開日:2024-07-08 |
# MSTF:不完全な軌道予測のためのマルチスケールトランス
MSTF: Multiscale Transformer for Incomplete Trajectory Prediction ( http://arxiv.org/abs/2407.05671v1 ) ライセンス: Link先を確認 | Zhanwen Liu, Chao Li, Nan Yang, Yang Wang, Jiaqi Ma, Guangliang Cheng, Xiangmo Zhao, | (参考訳) 自律走行システムにおいて運動予測は重要な役割を担い、周囲の車両の予測に基づいて衝突警告と合理的な局所経路計画を実行することができる。
しかし、一般的な手法はしばしば完全な観測軌道を仮定し、物体の閉塞、スコープ制限、センサーの故障によって引き起こされる損失の潜在的な影響を無視する。
このような監視は、必然的に軌道予測の精度を損なう。
この課題に対処するために,不完全な軌道予測のために細心の注意を払って構築されたMultiscale Transformer (MSTF) と呼ばれるエンドツーエンドのフレームワークを提案する。
MSTFは、Multiscale Attention Head (MAH)とInformation Increment-based Pattern Adaptive (IIPA)モジュールを統合している。
特に、MAHコンポーネントは、多頭部アテンション機構を用いて、様々な時間的粒度からトラジェクトリシーケンスのマルチスケール動作表現を同時にキャプチャする。
このアプローチは、異なるスケールにわたる動きにおけるグローバルな依存関係のモデリングを促進するため、欠落した値の悪影響を軽減する。
さらに、IIPAモジュールは、データの欠落パターンを分析して、時間ステップ間の動きの連続性表現を適応的に抽出する。
連続性表現は、より高レベルな動き傾向を規定し、MSTFを誘導し、動きの連続性に整合した予測を生成する。
2つの大規模実世界のデータセットを用いて提案したMSTFモデルを評価する。
実験の結果,MSTFは不完全軌跡予測のタスクにおいて最先端(SOTA)モデルを超えており,自律走行システムにおける動作予測の欠落による課題に対処する上での有効性が示された。
Motion forecasting plays a pivotal role in autonomous driving systems, enabling vehicles to execute collision warnings and rational local-path planning based on predictions of the surrounding vehicles. However, prevalent methods often assume complete observed trajectories, neglecting the potential impact of missing values induced by object occlusion, scope limitation, and sensor failures. Such oversights inevitably compromise the accuracy of trajectory predictions. To tackle this challenge, we propose an end-to-end framework, termed Multiscale Transformer (MSTF), meticulously crafted for incomplete trajectory prediction. MSTF integrates a Multiscale Attention Head (MAH) and an Information Increment-based Pattern Adaptive (IIPA) module. Specifically, the MAH component concurrently captures multiscale motion representation of trajectory sequence from various temporal granularities, utilizing a multi-head attention mechanism. This approach facilitates the modeling of global dependencies in motion across different scales, thereby mitigating the adverse effects of missing values. Additionally, the IIPA module adaptively extracts continuity representation of motion across time steps by analyzing missing patterns in the data. The continuity representation delineates motion trend at a higher level, guiding MSTF to generate predictions consistent with motion continuity. We evaluate our proposed MSTF model using two large-scale real-world datasets. Experimental results demonstrate that MSTF surpasses state-of-the-art (SOTA) models in the task of incomplete trajectory prediction, showcasing its efficacy in addressing the challenges posed by missing values in motion forecasting for autonomous driving systems. | 翻訳日:2024-07-09 16:50:12 公開日:2024-07-08 |
# 巨大系のキラルダイナミクス
Chiral dynamics with giant systems ( http://arxiv.org/abs/2407.05672v1 ) ライセンス: Link先を確認 | Yue Chang, | (参考訳) 一次元導波路に非局所結合した巨大ケーラー空洞からなるパリティ時対称系のカイラルダイナミクスを探索する。
この2つの結合点間の位相差を駆動周波数の伝播位相に合わせるように調整することにより、キラルキャビティ/導波路相互作用を実現し、単一の入射方向のみに非自明な統計を持つ光子の決定論的生成を可能にする。
この非自明な統計光子は、結合点間を伝播する反射光子と透過光子の干渉により、強い散逸状態でも生成することができる。
本研究は,非マルコフ効果を取り入れた,結合点間の幅広い距離を包含する。
特に、$\pi/2$の位相差では、システムの力学は正確にマルコフ的になり、出力場は非マルコフ的特性を保持する。
これらの条件下では、強い外部場によって駆動される非相互散逸相転移を解析し、非マルコフ効果の影響を解明する。
以上の結果から,非相互光子デバイスと決定的光子生成の進展に関する貴重な知見が得られ,散逸相転移の理解を深めることができた。
We explore the chiral dynamics in a parity-time-symmetric system consisting of a giant Kerr cavity nonlocally coupled to a one-dimensional waveguide. By tuning the phase difference between the two coupling points to match the propagation phase at the driving frequency, chiral cavity-waveguide interactions are achieved, enabling the deterministic generation of photons with nontrivial statistics only for a single incident direction. This nontrivial-statistical photons can be produced even in the strong dissipation regime due to the interference between reflected and transmitted photons propagating between the coupling points. Our investigation encompasses a broad range of distances between the coupling points, incorporating non-Markovian effects. Notably, at a phase difference of $\pi/2$, the system's dynamics become exactly Markovian, while the output field retains non-Markovian characteristics. Under these conditions, we analyze nonreciprocal dissipative phase transitions driven by a strong external field and elucidate the influence of the non-Markovian effect. Our results offer valuable insights for the advancement of nonreciprocal photon devices and deterministic photon generations, providing a deeper understanding of dissipative phase transitions. | 翻訳日:2024-07-09 16:40:17 公開日:2024-07-08 |
# LLMに基づくプログラマブルポリシーを用いたオープンドメイン統合タスクと知識アシスタント
LLM-Based Open-Domain Integrated Task and Knowledge Assistants with Programmable Policies ( http://arxiv.org/abs/2407.05674v1 ) ライセンス: Link先を確認 | Harshit Joshi, Shicheng Liu, James Chen, Robert Weigle, Monica S. Lam, | (参考訳) 開発者が提供するポリシーに忠実に準拠するLLMベースの知識とタスクアシスタントのプログラミングは難しい。
これらのエージェントは、ユーザのクエリやニーズに対処するために、一貫性があり、正確で、関連する情報を検索し、提供しなければなりません。
しかし、そのようなエージェントは根拠のない応答("hallucinate")を生成する。
従来の対話ツリーは限られた数の会話フローしか処理できないため、本質的に脆弱である。
この目的のために、複雑なユーザインタラクションを処理するように設計されたタスク指向の対話エージェントを作成するためのプログラミング可能なフレームワークKITAを提案する。
LLMと異なり、KITAは、表現力のある仕様であるKITA Worksheetを通じて、制御可能なエージェントポリシーを備えた、信頼できる地上応答を提供する。
ダイアログツリーとは対照的に、多様なユーザクエリに耐性があり、知識ソースに役立ち、宣言的パラダイムによるプログラミングポリシーの容易さを提供する。
62名の被験者を対象とする実ユーザ調査により,KITA は GPT-4 を26.1,22.5,52.4 点で上回り,実行精度,対話行動精度,目標達成率をそれぞれ上回った。
また,正確性を確保するため,KITAと22のリアルタイム会話を手作業で修正した。
Programming LLM-based knowledge and task assistants that faithfully conform to developer-provided policies is challenging. These agents must retrieve and provide consistent, accurate, and relevant information to address user's queries and needs. Yet such agents generate unfounded responses ("hallucinate"). Traditional dialogue trees can only handle a limited number of conversation flows, making them inherently brittle. To this end, we present KITA - a programmable framework for creating task-oriented conversational agents that are designed to handle complex user interactions. Unlike LLMs, KITA provides reliable grounded responses, with controllable agent policies through its expressive specification, KITA Worksheet. In contrast to dialog trees, it is resilient to diverse user queries, helpful with knowledge sources, and offers ease of programming policies through its declarative paradigm. Through a real-user study involving 62 participants, we show that KITA beats the GPT-4 with function calling baseline by 26.1, 22.5, and 52.4 points on execution accuracy, dialogue act accuracy, and goal completion rate, respectively. We also release 22 real-user conversations with KITA manually corrected to ensure accuracy. | 翻訳日:2024-07-09 16:40:17 公開日:2024-07-08 |
# BEVWorld: 統一型BEVラテントスペースによる自律走行のためのマルチモーダル世界モデル
BEVWorld: A Multimodal World Model for Autonomous Driving via Unified BEV Latent Space ( http://arxiv.org/abs/2407.05679v1 ) ライセンス: Link先を確認 | Yumeng Zhang, Shi Gong, Kaixin Xiong, Xiaoqing Ye, Xiao Tan, Fan Wang, Jizhou Huang, Hua Wu, Haifeng Wang, | (参考訳) 世界モデルは、将来のシナリオを予測する能力のために、自動運転に注目が集まっている。
本稿では,BEVWorldを提案する。BEVWorldは環境モデリングのための,マルチモーダルセンサ入力を統一的でコンパクトなBird's Eye View (BEV)潜在空間にトークン化する手法である。
世界モデルは、マルチモーダル・トークンーザと潜在型BEVシーケンス拡散モデルという2つの部分から構成される。
マルチモーダル・トークンライザは、まずマルチモーダル情報を符号化し、デコーダは、遅延したBEVトークンをLiDARに再構成し、自ら監督された方法でレイキャストレンダリングにより画像観察することができる。
次に、潜在BEVシーケンス拡散モデルにより、与えられたアクショントークンを条件として将来のシナリオを予測する。
実験は、自律走行タスクにおけるBEVWorldの有効性を示し、将来のシーンを生成する能力を示し、知覚や動き予測のような下流タスクに恩恵を与える。
コードはhttps://github.com/zympsyche/BevWorld.comで入手できる。
World models are receiving increasing attention in autonomous driving for their ability to predict potential future scenarios. In this paper, we present BEVWorld, a novel approach that tokenizes multimodal sensor inputs into a unified and compact Bird's Eye View (BEV) latent space for environment modeling. The world model consists of two parts: the multi-modal tokenizer and the latent BEV sequence diffusion model. The multi-modal tokenizer first encodes multi-modality information and the decoder is able to reconstruct the latent BEV tokens into LiDAR and image observations by ray-casting rendering in a self-supervised manner. Then the latent BEV sequence diffusion model predicts future scenarios given action tokens as conditions. Experiments demonstrate the effectiveness of BEVWorld in autonomous driving tasks, showcasing its capability in generating future scenes and benefiting downstream tasks such as perception and motion prediction. Code will be available at https://github.com/zympsyche/BevWorld. | 翻訳日:2024-07-09 16:40:17 公開日:2024-07-08 |
# 逆レンダリングを用いたファイングラインド多視点ハンドコンストラクション
Fine-Grained Multi-View Hand Reconstruction Using Inverse Rendering ( http://arxiv.org/abs/2407.05680v1 ) ライセンス: Link先を確認 | Qijun Gan, Wentong Li, Jinwei Ren, Jianke Zhu, | (参考訳) 複雑なテクスチャで高忠実度ハンドモデルを再構築することは、人間と物体の相互作用を高め、現実世界の応用を前進させる上で重要な役割を担っている。
テクスチャ生成や画像レンダリングに優れた最先端の手法にもかかわらず、幾何学的詳細を正確に捉えることの難しさに直面することが多い。
学習ベースのアプローチは、通常、より堅牢で高速な推論を提供する。
これらの問題に対処するために,逆レンダリングを利用して手ポーズを復元し,詳細を複雑化する,細粒度なマルチビューハンドメッシュ再構築手法を提案する。
まず,マルチビュー画像からグラフ畳み込みネットワーク(GCN)に基づくパラメトリックハンドメッシュモデルを予測する。
さらに、メッシュトポロジの保存が可能なハンドメッシュとテクスチャの両方を洗練するための、新しいハンドアルベドとメッシュ(HAM)最適化モジュールを導入する。
さらに,提案手法は,事前学習したレンダリングネットワークを頂点特徴と融合させることで,写真リアルな画像とメッシュ形状を同時に生成し,メッシュ形状を最適化する。
我々は、InterHand2.6M、DeepHandMesh、および私たち自身が収集したデータセットに関する総合的な実験を行い、その有望な結果は、提案手法が再構築精度とレンダリング品質の両方において最先端の手法より優れていることを示している。
コードとデータセットはhttps://github.com/agnJason/FMHR.comで公開されている。
Reconstructing high-fidelity hand models with intricate textures plays a crucial role in enhancing human-object interaction and advancing real-world applications. Despite the state-of-the-art methods excelling in texture generation and image rendering, they often face challenges in accurately capturing geometric details. Learning-based approaches usually offer better robustness and faster inference, which tend to produce smoother results and require substantial amounts of training data. To address these issues, we present a novel fine-grained multi-view hand mesh reconstruction method that leverages inverse rendering to restore hand poses and intricate details. Firstly, our approach predicts a parametric hand mesh model through Graph Convolutional Networks (GCN) based method from multi-view images. We further introduce a novel Hand Albedo and Mesh (HAM) optimization module to refine both the hand mesh and textures, which is capable of preserving the mesh topology. In addition, we suggest an effective mesh-based neural rendering scheme to simultaneously generate photo-realistic image and optimize mesh geometry by fusing the pre-trained rendering network with vertex features. We conduct the comprehensive experiments on InterHand2.6M, DeepHandMesh and dataset collected by ourself, whose promising results show that our proposed approach outperforms the state-of-the-art methods on both reconstruction accuracy and rendering quality. Code and dataset are publicly available at https://github.com/agnJason/FMHR. | 翻訳日:2024-07-09 16:40:17 公開日:2024-07-08 |
# 事前の誤りからコンテキスト内原則を回収する
Retrieved In-Context Principles from Previous Mistakes ( http://arxiv.org/abs/2407.05682v1 ) ライセンス: Link先を確認 | Hao Sun, Yong Jiang, Bo Wang, Yingyan Hou, Yan Zhang, Pengjun Xie, Fei Huang, | (参考訳) In-context Learning (ICL) は、入力出力の正しい例を用いて、下流のタスクにLarge Language Models (LLM) を適用するのに役立っている。
近年の進歩は、ミスから派生した原則によるモデル性能の向上を試みているが、これらのアプローチは、カスタマイズの欠如とエラーカバレッジの不十分さに悩まされている。
これらの制約に対処するため,新しい教師学生のためのフレームワークであるRetrieved In-Context Principles (RICP)を提案する。
RICPでは、教師モデルが生徒モデルからのミスを分析し、同様のミスを防ぐための理由と洞察を生成する。
これらのミスは、タスクレベルの原則を開発するための基本的な理由に基づいてクラスタ化され、原則のエラーカバレッジが向上します。
推論中、各質問の最も関連性の高い誤りを検索し、質問レベルの原則を作成し、提供されたガイダンスのカスタマイズを改善する。
RICPは既存のプロンプト法と直交しており、推論中に教師モデルからの介入を必要としない。
7つの推論ベンチマークによる実験結果から、RICPは様々なプロンプト戦略に適用した場合、性能を効果的に向上することが明らかとなった。
In-context learning (ICL) has been instrumental in adapting Large Language Models (LLMs) to downstream tasks using correct input-output examples. Recent advances have attempted to improve model performance through principles derived from mistakes, yet these approaches suffer from lack of customization and inadequate error coverage. To address these limitations, we propose Retrieved In-Context Principles (RICP), a novel teacher-student framework. In RICP, the teacher model analyzes mistakes from the student model to generate reasons and insights for preventing similar mistakes. These mistakes are clustered based on their underlying reasons for developing task-level principles, enhancing the error coverage of principles. During inference, the most relevant mistakes for each question are retrieved to create question-level principles, improving the customization of the provided guidance. RICP is orthogonal to existing prompting methods and does not require intervention from the teacher model during inference. Experimental results across seven reasoning benchmarks reveal that RICP effectively enhances performance when applied to various prompting strategies. | 翻訳日:2024-07-09 16:40:17 公開日:2024-07-08 |
# RadiomicsFill-Mammo: 合成マンモグラムマスマニピュレーションと放射能特性
RadiomicsFill-Mammo: Synthetic Mammogram Mass Manipulation with Radiomics Features ( http://arxiv.org/abs/2407.05683v1 ) ライセンス: Link先を確認 | Inye Na, Jonghun Kim, Eun Sook Ko, Hyunjin Park, | (参考訳) 所望の属性を持つ腫瘍を生成するか?」という質問に動機づけられたこの研究は、放射能の特徴を活用して、合成腫瘍画像の作成の可能性を探る。
低次元で生物学的に意味のあるマーカーによって特徴づけられる放射能は、複雑な医用画像データと実行可能な臨床所見のギャップを埋める。
われわれはRadiomicsFillシリーズの第1弾であるRadiomicsFill-Mammoを紹介した。これは、マスク画像と反対乳房画像を用いて特定の放射能特性を反映したリアルなマンモグラムマス画像を生成する革新的な技術であり、最近の安定拡散モデルを利用している。
このアプローチはまた、BI-RADSや乳房密度などの重要な臨床変数を、大量発生の条件として放射能の特徴とともに組み込むことも可能である。
その結果,RadiomicsFill-Mammoは様々な放射線条件に基づいて,多彩で現実的な腫瘍像を効果的に生成できることが示唆された。
また,RadiomicsFill-Mammoを模擬サンプル生成戦略として活用し,質量検出能力の大幅な向上を図った。
さらに、RadiomicsFill-Mammoは、医療画像研究の進展だけでなく、治療計画と腫瘍シミュレーションの強化のための新たな道を開く。
私たちのコードはhttps://github.com/nainye/RadiomicsFill.comから入手可能です。
Motivated by the question, "Can we generate tumors with desired attributes?'' this study leverages radiomics features to explore the feasibility of generating synthetic tumor images. Characterized by its low-dimensional yet biologically meaningful markers, radiomics bridges the gap between complex medical imaging data and actionable clinical insights. We present RadiomicsFill-Mammo, the first of the RadiomicsFill series, an innovative technique that generates realistic mammogram mass images mirroring specific radiomics attributes using masked images and opposite breast images, leveraging a recent stable diffusion model. This approach also allows for the incorporation of essential clinical variables, such as BI-RADS and breast density, alongside radiomics features as conditions for mass generation. Results indicate that RadiomicsFill-Mammo effectively generates diverse and realistic tumor images based on various radiomics conditions. Results also demonstrate a significant improvement in mass detection capabilities, leveraging RadiomicsFill-Mammo as a strategy to generate simulated samples. Furthermore, RadiomicsFill-Mammo not only advances medical imaging research but also opens new avenues for enhancing treatment planning and tumor simulation. Our code is available at https://github.com/nainye/RadiomicsFill. | 翻訳日:2024-07-09 16:40:17 公開日:2024-07-08 |
# 超音速空力負荷における不確実性定量のための多要素ベイズニューラルネットワーク
Multi-Fidelity Bayesian Neural Network for Uncertainty Quantification in Transonic Aerodynamic Loads ( http://arxiv.org/abs/2407.05684v1 ) ライセンス: Link先を確認 | Andrea Vaiuso, Gabriele Immordino, Marcello Righi, Andrea Da Ronch, | (参考訳) 低忠実度モデルの計算効率と高忠実度シミュレーションの精度を両立させるため、工学、特に航空宇宙において多忠実度モデルは普及しつつある。
ニューラルネットワークにおけるコ・クリギングやトランスファーラーニングなど、さまざまな忠実度源からのデータを融合する、さまざまな最先端技術が存在する。
本稿では,異なる忠実度モデルで生成したデータに転送学習を適用した多忠実ベイズニューラルネットワークモデルを実現することを目的とする。
ベイズニューラルネットワークは、ネットワーク重みよりも確率分布を使い、信頼度の推定とともに予測を提供する。
このアプローチは、不確実性を定量化しながら、ニューラルネットワークの予測およびデータ融合能力を活用する。
その結果,マルチ忠実ベイズモデルでは,非表示データに対する総合的精度とロバスト性の観点から,最先端のCo-Krigingよりも優れていた。
Multi-fidelity models are becoming more prevalent in engineering, particularly in aerospace, as they combine both the computational efficiency of low-fidelity models with the high accuracy of higher-fidelity simulations. Various state-of-the-art techniques exist for fusing data from different fidelity sources, including Co-Kriging and transfer learning in neural networks. This paper aims to implement a multi-fidelity Bayesian neural network model that applies transfer learning to fuse data generated by models at different fidelities. Bayesian neural networks use probability distributions over network weights, enabling them to provide predictions along with estimates of their confidence. This approach harnesses the predictive and data fusion capabilities of neural networks while also quantifying uncertainty. The results demonstrate that the multi-fidelity Bayesian model outperforms the state-of-the-art Co-Kriging in terms of overall accuracy and robustness on unseen data. | 翻訳日:2024-07-09 16:40:17 公開日:2024-07-08 |
# 変圧器を用いた空中画像からのレーングラフの学習
Learning Lane Graphs from Aerial Imagery Using Transformers ( http://arxiv.org/abs/2407.05687v1 ) ライセンス: Link先を確認 | Martin Büchner, Simon Dorer, Abhinav Valada, | (参考訳) 自動運転車の頑丈で安全な運転は、詳細な正確な地形図の必要性を浮き彫りにしている。
この要求の中心は、複雑な都市環境を自律的にナビゲートする上で不可欠な、車線接続に関する重要な情報を提供する車線グラフの構築である。
トランスフォーマーベースのモデルは、車両に搭載されたセンサーデータから地図トポロジを作成するのに有効であるが、そのようなグラフを空中画像から生成する可能性はまだ残っていない。
この研究は、トランスモデルの高度な機能を利用して、空中画像から後続車線グラフを生成する新しいアプローチを導入する。
後継レーングラフを最大長経路の集合としてフレーム化し,検出変換器(DETR)アーキテクチャを用いてそれらを予測する。
本手法の有効性を,多種多様な大規模UrbanLaneGraphデータセットの広範な実験により実証し,後継車線グラフの生成における精度と,複雑な環境下での自動運転車のナビゲーション向上の可能性を強調した。
The robust and safe operation of automated vehicles underscores the critical need for detailed and accurate topological maps. At the heart of this requirement is the construction of lane graphs, which provide essential information on lane connectivity, vital for navigating complex urban environments autonomously. While transformer-based models have been effective in creating map topologies from vehicle-mounted sensor data, their potential for generating such graphs from aerial imagery remains untapped. This work introduces a novel approach to generating successor lane graphs from aerial imagery, utilizing the advanced capabilities of transformer models. We frame successor lane graphs as a collection of maximal length paths and predict them using a Detection Transformer (DETR) architecture. We demonstrate the efficacy of our method through extensive experiments on the diverse and large-scale UrbanLaneGraph dataset, illustrating its accuracy in generating successor lane graphs and highlighting its potential for enhancing autonomous vehicle navigation in complex environments. | 翻訳日:2024-07-09 16:40:17 公開日:2024-07-08 |
# アライメントによる学習: ドメイン間およびドメイン内シフトの多ドメイン間表情認識への応用
Learning with Alignments: Tackling the Inter- and Intra-domain Shifts for Cross-multidomain Facial Expression Recognition ( http://arxiv.org/abs/2407.05688v1 ) ライセンス: Link先を確認 | Yuxiang Yang, Lu Wen, Xinyi Zeng, Yuanyuan Xu, Xi Wu, Jiliu Zhou, Yan Wang, | (参考訳) 表情認識(FER)は、人間とコンピュータの相互作用において重要である。
既存のクロスドメインFERメソッドは、単一のラベル付きソースドメインからラベルなしターゲットドメインにのみ知識を転送し、複数のソースにまたがる包括的な情報を無視することが多い。
それでも、マルチドメインFER(CMFER)は非常に難しい。
(i)複数のドメインにまたがるドメイン間の固有のシフト
2) ドメイン内シフトは, あいまいな表現とクラス間差の低さから生じる。
本稿では、ドメイン間のシフトとドメイン内シフトの両方を扱うための、LA-CMFERと呼ばれる新しいLearning with Alignments CMFERフレームワークを提案する。
具体的には、LA-CMFERはグローバルブランチとローカルブランチで構築され、フルイメージと局所的な微妙な表現から特徴を抽出する。
これに基づいて、LA-CMFERは、二重レベルのドメイン間アライメント手法を提案し、サンプルレベルでの知識伝達におけるハード・トゥ・アライメント・サンプルの優先順位付けを強制すると同時に、クラスタレベルでクラス属性のガイダンスを伴って、適切にクラスタ化された特徴空間を徐々に生成し、ドメイン間シフトを狭める。
ドメイン内シフトに対処するため、LA-CMFERは、グローバルビューとローカルビューの一貫性を追求する予測類似性行列を構築し、擬似ラベルを精製し、遅延ノイズを除去するマルチビュークラスタリング一貫性制約付きマルチビュードメイン内アライメント手法を導入した。
6つのベンチマークデータセットに対する大規模な実験は、当社のLA-CMFERの優位性を実証した。
Facial Expression Recognition (FER) holds significant importance in human-computer interactions. Existing cross-domain FER methods often transfer knowledge solely from a single labeled source domain to an unlabeled target domain, neglecting the comprehensive information across multiple sources. Nevertheless, cross-multidomain FER (CMFER) is very challenging for (i) the inherent inter-domain shifts across multiple domains and (ii) the intra-domain shifts stemming from the ambiguous expressions and low inter-class distinctions. In this paper, we propose a novel Learning with Alignments CMFER framework, named LA-CMFER, to handle both inter- and intra-domain shifts. Specifically, LA-CMFER is constructed with a global branch and a local branch to extract features from the full images and local subtle expressions, respectively. Based on this, LA-CMFER presents a dual-level inter-domain alignment method to force the model to prioritize hard-to-align samples in knowledge transfer at a sample level while gradually generating a well-clustered feature space with the guidance of class attributes at a cluster level, thus narrowing the inter-domain shifts. To address the intra-domain shifts, LA-CMFER introduces a multi-view intra-domain alignment method with a multi-view clustering consistency constraint where a prediction similarity matrix is built to pursue consistency between the global and local views, thus refining pseudo labels and eliminating latent noise. Extensive experiments on six benchmark datasets have validated the superiority of our LA-CMFER. | 翻訳日:2024-07-09 16:40:17 公開日:2024-07-08 |
# エネルギー効率ソフトウェアにおける経験的ソフトウェア工学教育の10年
Ten Years of Teaching Empirical Software Engineering in the context of Energy-efficient Software ( http://arxiv.org/abs/2407.05689v1 ) ライセンス: Link先を確認 | Ivano Malavolta, Vincenzo Stoico, Patricia Lago, | (参考訳) この章では、オランダのアムステルダムにあるVrije Universityversiteit Amsterdamで、Green Labコースの10つのエディションを実行した経験を共有します。
このコースは、VUのComputer Science MasterプログラムのSoftware Engineering and Green ITトラックで提供されている。
このコースは毎年2ヶ月にわたって行われ、エネルギー効率のソフトウェアという文脈で経験的ソフトウェア工学の基礎をコンピュータサイエンスの学生に教えている。
コースの始めに、インストラクターは科学的に関係のある目標のカタログを提示し、各学生チームがその1つにサインアップし、目標を達成するための独自の実験で2ヶ月間一緒に働く。
各チームは、目標の正確な定式化から、コンテキスト定義、実験対象とオブジェクトの選択、実験変数の定義、実験実行、データ分析、レポートに至るまで、経験的な研究の古典的なステップを踏む。
長年にわたり、このコースはソフトウェア工学コミュニティで有名になり、様々な科学会議や雑誌で発表された科学研究に繋がった。
また、学生は、プログラム内の研究者や他の学生が開発・維持する「textit{open-source tools}」を用いて実験を行い、学生がアイデアを交換し、相互に助け合い、安全な環境でオープンソースプロジェクトに協力して貢献する方法を学ぶ。
In this chapter we share our experience in running ten editions of the Green Lab course at the Vrije Universiteit Amsterdam, the Netherlands. The course is given in the Software Engineering and Green IT track of the Computer Science Master program of the VU. The course takes place every year over a 2-month period and teaches Computer Science students the fundamentals of Empirical Software Engineering in the context of energy-efficient software. The peculiarity of the course is its research orientation: at the beginning of the course the instructor presents a catalog of scientifically relevant goals, and each team of students signs up for one of them and works together for 2 months on their own experiment for achieving the goal. Each team goes over the classic steps of an empirical study, starting from a precise formulation of the goal and research questions to context definition, selection of experimental subjects and objects, definition of experimental variables, experiment execution, data analysis, and reporting. Over the years, the course became well-known within the Software Engineering community since it led to several scientific studies that have been published at various scientific conferences and journals. Also, students execute their experiments using \textit{open-source tools}, which are developed and maintained by researchers and other students within the program, thus creating a virtuous community of learners where students exchange ideas, help each other, and learn how to collaboratively contribute to open-source projects in a safe environment. | 翻訳日:2024-07-09 16:40:17 公開日:2024-07-08 |
# トランジショナルアクティベーションを伴うモジュール内低ランクアーキテクチャへの大規模言語モデルの適用
Pruning Large Language Models to Intra-module Low-rank Architecture with Transitional Activations ( http://arxiv.org/abs/2407.05690v1 ) ライセンス: Link先を確認 | Bowen Shen, Zheng Lin, Daren Zha, Wei Liu, Jian Luan, Bin Wang, Weiping Wang, | (参考訳) 構造化プルーニング(Structured pruning)は、大規模言語モデル(LLM)の計算およびメモリオーバーヘッドを根本的に削減し、エンドサイドのLLMデプロイメントに実現可能なソリューションを提供する。
構造的に切断されたモデルは、厳密で高精度であり、さらなるチューニングと圧縮と高い互換性がある。
しかし, 粗粒構造プルーニングは高連接モデルに大きなダメージを与えるため, スケールアップLDMの圧縮率が高いことが課題である。
本稿では,タスクに依存しない構造化プルーニング手法と,コンパクトなTransformerアーキテクチャ設計を提案する。
提案手法はTransActと呼ばれ,多層アテンション(MHA)および多層パーセプトロン(MLP)モジュール内の過渡的アクティベーションを低減し,摂動に敏感なモジュール間アクティベーションを保存する。
従って、LLMはモジュール内低ランクアーキテクチャにプルーニングされ、重み、KVキャッシュ、アテンション計算が大幅に削減される。
TransActはLLaMAモデルで実装され、下流ベンチマークで評価される。
その結果, 効率と性能の両面から, 高い圧縮率で提案手法の最適性を検証することができた。
さらに,アクティベーション誘導型反復プルーニングの強度を明らかにし,MHAおよびMLPモジュールの冗長性に関する実験的解析を行った。
Structured pruning fundamentally reduces computational and memory overheads of large language models (LLMs) and offers a feasible solution for end-side LLM deployment. Structurally pruned models remain dense and high-precision, highly compatible with further tuning and compression. However, as the coarse-grained structured pruning poses large damage to the highly interconnected model, achieving a high compression ratio for scaled-up LLMs remains a challenge. In this paper, we introduce a task-agnostic structured pruning approach coupled with a compact Transformer architecture design. The proposed approach, named TransAct, reduces transitional activations inside multi-head attention (MHA) and multi-layer perceptron (MLP) modules, while preserving the inter-module activations that are sensitive to perturbations. Hence, the LLM is pruned into an intra-module low-rank architecture, significantly reducing weights, KV Cache and attention computation. TransAct is implemented on the LLaMA model and evaluated on downstream benchmarks. Results verify the optimality of our approach at high compression with respect to both efficiency and performance. Further, ablation studies reveal the strength of activation-guided iterative pruning and provide experimental analysis on the redundancy of MHA and MLP modules. | 翻訳日:2024-07-09 16:40:17 公開日:2024-07-08 |
# Sub-SA: 部分モジュラ選択アノテーションによる文脈内学習の強化
Sub-SA: Strengthen In-context Learning via Submodular Selective Annotation ( http://arxiv.org/abs/2407.05693v1 ) ライセンス: Link先を確認 | Jian Qian, Miao Sun, Sifan Zhou, Ziyu Zhao, Ruizhi Hun, Patrick Chiang, | (参考訳) In-context Learning (ICL) は、Large Language Models (LLM) の予測のプロンプトとして、インコンテキストの例を活用する。
これらのプロンプトは、強いパフォーマンスを達成する上で重要な役割を果たす。
しかし、ラベル付きサンプルの大きなプールから適切なプロンプトを選択することは、しばしば重要なアノテーションコストを必要とする。
この課題に対処するため,サブモジュールベースの選択的アノテーションである \textbf{Sub-SA} (\textbf{Sub}modular \textbf{S}elective \textbf{A}nnotation) を提案する。
Sub-SAの目的は、文脈内サンプルの品質を改善し、選択プロセスの時間消費を最小限に抑えつつ、アノテーションのコストを削減することである。
Sub-SAでは、アノテーションの効果的な部分集合選択を容易にする部分モジュラー関数を設計し、理論的な観点から単調および部分モジュラリティの特性を実証する。
具体的には,報酬項とペナルティ項に関連付けられたラベル付きデータセットの多様性と代表性をよりよくバランスさせるために, \textbf{RPR} (\textbf{R}eward と \textbf{P}enalty \textbf{R}egularization) を提案する。
これにより、アノテーションの選択は、サブモジュール関数に基づいた単純で効果的なグレディ探索アルゴリズムで効果的に対処できる。
最後に、ICLのサンプルを取得するために類似性プロンプト検索を適用する。
In-context learning (ICL) leverages in-context examples as prompts for the predictions of Large Language Models (LLMs). These prompts play a crucial role in achieving strong performance. However, the selection of suitable prompts from a large pool of labeled examples often entails significant annotation costs. To address this challenge, we propose \textbf{Sub-SA} (\textbf{Sub}modular \textbf{S}elective \textbf{A}nnotation), a submodule-based selective annotation method. The aim of Sub-SA is to reduce annotation costs while improving the quality of in-context examples and minimizing the time consumption of the selection process. In Sub-SA, we design a submodular function that facilitates effective subset selection for annotation and demonstrates the characteristics of monotonically and submodularity from the theoretical perspective. Specifically, we propose \textbf{RPR} (\textbf{R}eward and \textbf{P}enalty \textbf{R}egularization) to better balance the diversity and representativeness of the unlabeled dataset attributed to a reward term and a penalty term, respectively. Consequently, the selection for annotations can be effectively addressed with a simple yet effective greedy search algorithm based on the submodular function. Finally, we apply the similarity prompt retrieval to get the examples for ICL. | 翻訳日:2024-07-09 16:40:17 公開日:2024-07-08 |
# 経営戦略としての計算閾値の限界について
On the Limitations of Compute Thresholds as a Governance Strategy ( http://arxiv.org/abs/2407.05694v1 ) ライセンス: Link先を確認 | Sara Hooker, | (参考訳) このエッセイは、計算しきい値と呼ばれるかなり難解なガバナンスツールを理解するためのものだ。
しかし、これらのしきい値が何かを達成するかどうかに対処するためには、まず彼らがどうなったのかを理解する必要がある。
これは、コンピュータ科学の進歩の中心にある何十年も前からの議論、すなわち、もっと大きい方が良いのか?
したがって、このエッセイは政策立案者や一般大衆だけでなく、コンピュータ科学者にも関心があるかもしれない。
計算の特定のインフレクションポイントは、モデルのリスクプロファイルに変化をもたらすか?
この議論は、より大きな計算量と害の正当性を示唆するガバナンスアプローチが広く採用されていることを考えると、ますます緊急になっている。
いくつかの主要なフロンティアAI企業が、責任あるスケーリングポリシーをリリースした。
ホワイトハウスのAI安全に関する大統領令(EO)とEUのAI法は、より強力なシステムを特定する手段としてFLOPまたは浮動小数点演算を符号化している。
今までの計算しきい値の選択で注目すべきなのは、現在ワイルドにデプロイされているモデルが、EOが設定した現在の基準を満たしていないことです。
これは、しばしば、現在デプロイされているモデルによって引き起こされるリスクや損害を監査することではなく、むしろ将来の計算レベルが予期せぬ新しいリスクをもたらすという信念に基づいていることを意味する。
このエッセイの重要な結論は、現在実装されている計算しきい値が短く、リスクを軽減するのに失敗する可能性があるということだ。
計算に過度に依存するガバナンスは、計算とリスクの関係が極めて不確実であり、急速に変化していることを理解できない。
また、異なるスケールでどのような能力が出現するかを予測する能力も過大評価します。
このエッセイは、より良い方向に進むためのレコメンデーションで終わる。
At face value, this essay is about understanding a fairly esoteric governance tool called compute thresholds. However, in order to grapple with whether these thresholds will achieve anything, we must first understand how they came to be. This requires engaging with a decades-old debate at the heart of computer science progress, namely, is bigger always better? Hence, this essay may be of interest not only to policymakers and the wider public but also to computer scientists interested in understanding the role of compute in unlocking breakthroughs. Does a certain inflection point of compute result in changes to the risk profile of a model? This discussion is increasingly urgent given the wide adoption of governance approaches that suggest greater compute equates with higher propensity for harm. Several leading frontier AI companies have released responsible scaling policies. Both the White House Executive Orders on AI Safety (EO) and the EU AI Act encode the use of FLOP or floating-point operations as a way to identify more powerful systems. What is striking about the choice of compute thresholds to-date is that no models currently deployed in the wild fulfill the current criteria set by the EO. This implies that the emphasis is often not on auditing the risks and harms incurred by currently deployed models - but rather is based upon the belief that future levels of compute will introduce unforeseen new risks. A key conclusion of this essay is that compute thresholds as currently implemented are shortsighted and likely to fail to mitigate risk. Governance that is overly reliant on compute fails to understand that the relationship between compute and risk is highly uncertain and rapidly changing. It also overestimates our ability to predict what abilities emerge at different scales. This essay ends with recommendations for a better way forward. | 翻訳日:2024-07-09 16:40:17 公開日:2024-07-08 |
# 短時間で大域的にほぼ制御可能な双線型シュレーディンガー方程式の例
An example of a small-time globally approximately controllable bilinear Schrödinger equation ( http://arxiv.org/abs/2407.05698v1 ) ライセンス: Link先を確認 | Karine Beauchard, Eugenio Pozzoli, | (参考訳) 物理的に関係のある様々な双線型シュル「オーディンガー方程式は、大まかに制御可能であることが知られている。
しかし、世界中で大半が制御可能であるが、小さければ制御できない例もある。
この障害は、少なくとも小さな期間はガウス状態が保存されているため、(部分)2次ポテンシャルの存在下でgで起こる。
本研究では,大域的にほぼ制御可能な双線型シュレーディンガー方程式の最初の例を示す。
特に、二次ポテンシャルの周波数に対する制御は、特定の輸送流、すなわち空間ディレーションに沿って任意に高速に進化する近似解を構築することができることを示す。
スペースディレーションにアクセスできれば、それらを利用してタイムトラクションを生成することができます。
このようにして、我々は、短時間で大域的近似制御性を得るために、大容量制御の以前の結果に基づいて構築する。
A variety of physically relevant bilinear Schr\"odinger equations are known to be globally approximately controllable in large times. There are however examples which are globally approximately controllable in large times, but not in small times. This obstruction happens e.g. in the presence of (sub)quadratic potentials, because Gaussian states are preserved, at least for small times. In this work, we provide the first examples of small-time globally approximately controllable bilinear Schr\"odinger equations. In particular, we show that a control on the frequency of a quadratic potential permits to construct approximate solutions that evolve arbitrarily fast along specific transport flows, namely, space-dilations. Once we have access to space-dilations, we can exploit them to generate time-contractions. In this way, we build on previous results of large-time control, to obtain global approximate controllability in small times. | 翻訳日:2024-07-09 16:40:17 公開日:2024-07-08 |
# InverseCoder: Inverse-InstructingによるインストラクションチューニングコードLLMのパワーの解放
InverseCoder: Unleashing the Power of Instruction-Tuned Code LLMs with Inverse-Instruct ( http://arxiv.org/abs/2407.05700v1 ) ライセンス: Link先を確認 | Yutong Wu, Di Huang, Wenxuan Shi, Wei Wang, Lingzhe Gao, Shihao Liu, Ziyuan Nan, Kaizhao Yuan, Rui Zhang, Xishan Zhang, Zidong Du, Qi Guo, Yewen Pu, Dawei Yin, Xing Hu, Yunji Chen, | (参考訳) 近年のオープンソースコード大言語モデル(LLM)の進歩は, GPT-3.5 や GPT-4 などの強力なクローズドソース LLM から生成したデータを微調整することで, 顕著な符号化能力を示している。
本稿では,LLMをクローズドソースに問い合わせるのではなく,それ自身からデータを生成することで,命令調整型LLMをさらに改善する方法について検討する。
フォーマルな言語(コード)をフォーマルな言語(すなわち自然言語)に翻訳することは、逆よりも単純である。
そこで本研究では,逆ではなくコードスニペットからの命令を要約したINVERSE-INSTRUCTを提案する。
具体的には、コードのための命令チューニングコーパスと、結果の命令チューニングコードLLMが与えられた場合、コード要約と自己評価により、元のコーパスに対してさらに高品質な命令を生成するよう、コードLLMに依頼する。
そして、元のコーパスと自己生成コーパスの組み合わせでベースLLMを微調整し、より強い命令調整LLMを生成する。
InverseCoderは,Pythonのテキスト・ツー・コード生成,多言語コーディング,データサイエンスコード生成など,さまざまなベンチマークにおいて,オリジナルのコードLLMのパフォーマンスを超越したコードである。
Recent advancements in open-source code large language models (LLMs) have demonstrated remarkable coding abilities by fine-tuning on the data generated from powerful closed-source LLMs such as GPT-3.5 and GPT-4 for instruction tuning. This paper explores how to further improve an instruction-tuned code LLM by generating data from itself rather than querying closed-source LLMs. Our key observation is the misalignment between the translation of formal and informal languages: translating formal language (i.e., code) to informal language (i.e., natural language) is more straightforward than the reverse. Based on this observation, we propose INVERSE-INSTRUCT, which summarizes instructions from code snippets instead of the reverse. Specifically, given an instruction tuning corpus for code and the resulting instruction-tuned code LLM, we ask the code LLM to generate additional high-quality instructions for the original corpus through code summarization and self-evaluation. Then, we fine-tune the base LLM on the combination of the original corpus and the self-generated one, which yields a stronger instruction-tuned LLM. We present a series of code LLMs named InverseCoder, which surpasses the performance of the original code LLMs on a wide range of benchmarks, including Python text-to-code generation, multilingual coding, and data-science code generation. | 翻訳日:2024-07-09 16:40:17 公開日:2024-07-08 |
# LGRNet:超音波映像における尿中フィブロイドセグメンテーションのための局所的Global Reciprocal Network
LGRNet: Local-Global Reciprocal Network for Uterine Fibroid Segmentation in Ultrasound Videos ( http://arxiv.org/abs/2407.05703v1 ) ライセンス: Link先を確認 | Huihui Xu, Yijun Yang, Angelica I Aviles-Rivero, Guang Yang, Jing Qin, Lei Zhu, | (参考訳) 正常なスクリーニングと子宮線維化の早期発見は、悪性化の可能性を予防し、タイムリーな保存的介入を確保するために不可欠である。
この目的のために, 子宮線維化セグメンテーション (UFUV) のための100本のビデオを用いた最初の超音波ビデオデータセットを収集し, 注釈する。
またLGRNet(Local-Global Reciprocal Network)を,非侵襲的な周囲組織と標的病変部位の識別に有効である長期的文脈を効果的かつ効果的に伝播させる。
具体的には、フレーム間の時間的文脈を周期的に伝播するために、CNP(Cyclic Neighborhood Propagation)を導入する。
さらに、グローバルな時間的文脈を集約するために、まず各フレームを一連のフレームボトルネッククエリにコンデンスし、Hilbert Selective Scan (HilbertSS) を設計し、各フレームを効率的に経路接続し、局所性バイアスを保存する。
次に、分散層を利用して、相互改善のためにグローバルコンテキストを分散させる。
UFUVと3つのパブリックビデオポリプセグメンテーション(VPS)データセットの大規模な実験は、最先端のセグメンテーション手法と比較して一貫した改善を示し、LGRNetの有効性と汎用性を示している。
コード、チェックポイント、データセットはhttps://github.com/bio-mlhui/LGRNetで入手できる。
Regular screening and early discovery of uterine fibroid are crucial for preventing potential malignant transformations and ensuring timely, life-saving interventions. To this end, we collect and annotate the first ultrasound video dataset with 100 videos for uterine fibroid segmentation (UFUV). We also present Local-Global Reciprocal Network (LGRNet) to efficiently and effectively propagate the long-term temporal context which is crucial to help distinguish between uninformative noisy surrounding tissues and target lesion regions. Specifically, the Cyclic Neighborhood Propagation (CNP) is introduced to propagate the inter-frame local temporal context in a cyclic manner. Moreover, to aggregate global temporal context, we first condense each frame into a set of frame bottleneck queries and devise Hilbert Selective Scan (HilbertSS) to both efficiently path connect each frame and preserve the locality bias. A distribute layer is then utilized to disseminate back the global context for reciprocal refinement. Extensive experiments on UFUV and three public Video Polyp Segmentation (VPS) datasets demonstrate consistent improvements compared to state-of-the-art segmentation methods, indicating the effectiveness and versatility of LGRNet. Code, checkpoints, and dataset are available at https://github.com/bio-mlhui/LGRNet | 翻訳日:2024-07-09 16:30:32 公開日:2024-07-08 |
# 政策最適化による対立型と確率型MDP間のギャップを狭める
Narrowing the Gap between Adversarial and Stochastic MDPs via Policy Optimization ( http://arxiv.org/abs/2407.05704v1 ) ライセンス: Link先を確認 | Daniil Tiapkin, Evgenii Chzhen, Gilles Stoltz, | (参考訳) 本稿では,敵対的マルコフ決定過程 (MDPs) における学習の問題点を,全情報設定における難解な敵対者による考察する。
エージェントは、$T$エピソードの間に環境と相互作用し、それぞれが$H$ステージで構成され、各エピソードは、エピソードの最後にのみ表示される報酬関数に関して評価される。
我々は, APO-MVP と呼ばれるアルゴリズムを提案し, それぞれ状態空間と行動空間のサイズである $\tilde{\mathcal{O}}(\mathrm{poly}(H)\sqrt{SAT})$ を再現する。
この結果は、$\sqrt{S}$ の係数によって最もよく知られた後悔を改善し、逆数と確率的 MDP の間のギャップを埋め、$S,A,T$ の依存関係に関して$\Omega(\sqrt{H^3SAT})$ のミニマックスの下界をマッチングする。
提案したアルゴリズムと分析は、占有度測定による典型的なツールを完全に回避し、動的プログラミングのみに基づいてポリシー最適化を行い、ブラックボックスのオンライン線形最適化戦略は推定された利点関数上で実行され、実装が容易になる。
この分析は、オンライン線形最適化戦略に基づくポリシー最適化(Jonckheere et al , 2023)と、遷移カーネルの値を推定するマーチンゲール解析(Zhang et al , 2023)の2つの手法を利用する。
In this paper, we consider the problem of learning in adversarial Markov decision processes [MDPs] with an oblivious adversary in a full-information setting. The agent interacts with an environment during $T$ episodes, each of which consists of $H$ stages, and each episode is evaluated with respect to a reward function that will be revealed only at the end of the episode. We propose an algorithm, called APO-MVP, that achieves a regret bound of order $\tilde{\mathcal{O}}(\mathrm{poly}(H)\sqrt{SAT})$, where $S$ and $A$ are sizes of the state and action spaces, respectively. This result improves upon the best-known regret bound by a factor of $\sqrt{S}$, bridging the gap between adversarial and stochastic MDPs, and matching the minimax lower bound $\Omega(\sqrt{H^3SAT})$ as far as the dependencies in $S,A,T$ are concerned. The proposed algorithm and analysis completely avoid the typical tool given by occupancy measures; instead, it performs policy optimization based only on dynamic programming and on a black-box online linear optimization strategy run over estimated advantage functions, making it easy to implement. The analysis leverages two recent techniques: policy optimization based on online linear optimization strategies (Jonckheere et al., 2023) and a refined martingale analysis of the impact on values of estimating transitions kernels (Zhang et al., 2023). | 翻訳日:2024-07-09 16:30:32 公開日:2024-07-08 |
# インクリメンタルLORAによる高速かつ連続的な知識グラフ埋め込み
Fast and Continual Knowledge Graph Embedding via Incremental LoRA ( http://arxiv.org/abs/2407.05705v1 ) ライセンス: Link先を確認 | Jiajun Liu, Wenjun Ke, Peng Wang, Jiahao Wang, Jinhua Gao, Ziyu Shang, Guozheng Li, Zijie Xu, Ke Ji, Yining Li, | (参考訳) CKGE(Continuous Knowledge Graph Embedding)は、新しい知識を効率的に学習し、古い知識を同時に保存することを目的としている。
支配的なアプローチは、主に、古い知識の破滅的な忘れを緩和することに焦点を当てるが、新しい知識の出現に対する効率的な学習を無視する。
しかし、現実のシナリオでは、知識グラフ(KG)は継続的に成長しており、KGEモデルを効率的に微調整する上で大きな課題となっている。
そこで本研究では,従来の知識を保ちつつ,新たな知識を効率よく獲得するために,インクリメンタルな低ランクアダプタ(\mec)機構を組み込んだ高速CKGEフレームワーク(\model)を提案する。
具体的には、破滅的な忘れを和らげるために、\model\は、古いKGと新しいKGの間のきめ細かい影響に基づいて、特定の層に新しい知識を分離し割り当てる。
その後、微調整を加速するために、Shamodel\は、トレーニングパラメータが少ないインクリメンタルローランクアダプタに特定のレイヤを埋め込む、効率的な \mec\ メカニズムを考案した。
さらに、 \mec\は適応的なランクアロケーションを導入し、LoRAはエンティティの重要性を認識し、そのランクスケールを適応的に調整する。
4つの公開データセットと2つの新しいデータセットを、より大規模な初期スケールで実験する。
実験結果から,4つの公開データセット(平均MRRスコア21.0\% vs. 21.1\%)上での最先端モデルに対する競合リンク予測性能を保ちながら,トレーニング時間を34\%-49\%削減できることが示された。
一方、新たに構築された2つのデータセットでは、 \model\は51\%-68\%のトレーニング時間を節約し、リンク予測性能を1.5\%改善する。
Continual Knowledge Graph Embedding (CKGE) aims to efficiently learn new knowledge and simultaneously preserve old knowledge. Dominant approaches primarily focus on alleviating catastrophic forgetting of old knowledge but neglect efficient learning for the emergence of new knowledge. However, in real-world scenarios, knowledge graphs (KGs) are continuously growing, which brings a significant challenge to fine-tuning KGE models efficiently. To address this issue, we propose a fast CKGE framework (\model), incorporating an incremental low-rank adapter (\mec) mechanism to efficiently acquire new knowledge while preserving old knowledge. Specifically, to mitigate catastrophic forgetting, \model\ isolates and allocates new knowledge to specific layers based on the fine-grained influence between old and new KGs. Subsequently, to accelerate fine-tuning, \model\ devises an efficient \mec\ mechanism, which embeds the specific layers into incremental low-rank adapters with fewer training parameters. Moreover, \mec\ introduces adaptive rank allocation, which makes the LoRA aware of the importance of entities and adjusts its rank scale adaptively. We conduct experiments on four public datasets and two new datasets with a larger initial scale. Experimental results demonstrate that \model\ can reduce training time by 34\%-49\% while still achieving competitive link prediction performance against state-of-the-art models on four public datasets (average MRR score of 21.0\% vs. 21.1\%).Meanwhile, on two newly constructed datasets, \model\ saves 51\%-68\% training time and improves link prediction performance by 1.5\%. | 翻訳日:2024-07-09 16:30:32 公開日:2024-07-08 |
# 画像復調用異種窓変圧器
Heterogeneous window transformer for image denoising ( http://arxiv.org/abs/2407.05709v1 ) ライセンス: Link先を確認 | Chunwei Tian, Menghua Zheng, Chia-Wen Lin, Zhiwu Li, David Zhang, | (参考訳) ディープネットワークは通常、より構造的な情報を抽出してデノゲーション結果を改善する。
しかし、画像からの画素間の相関を無視し、よりノイズの多い性能を追求する。
ウィンドウ変換器は、長距離および短距離のモデリングを使用して、上記の問題に対処するためにピクセルを相互作用させることができる。
距離モデリングと復調時間の間でのトレードオフを実現するため,画像復調のための異種ウィンドウトランス (HWformer) を提案する。
HWformerはまず異質なグローバルウィンドウを設計し、デノナイジング効果を改善するためにグローバルコンテキスト情報をキャプチャする。
長距離モデリングと短距離モデリングの橋梁を構築するために、グローバルウインドウを水平・垂直に移動させ、デノジング時間を増大させることなく多様化情報を容易にする。
独立パッチの情報損失現象を防止するため、スパースアイデアをフィードフォワードネットワークに誘導し、隣接するパッチのローカル情報を抽出する。
提案されているHWformerは、一般的なRestormerの30%しか利用できない。
Deep networks can usually depend on extracting more structural information to improve denoising results. However, they may ignore correlation between pixels from an image to pursue better denoising performance. Window transformer can use long- and short-distance modeling to interact pixels to address mentioned problem. To make a tradeoff between distance modeling and denoising time, we propose a heterogeneous window transformer (HWformer) for image denoising. HWformer first designs heterogeneous global windows to capture global context information for improving denoising effects. To build a bridge between long and short-distance modeling, global windows are horizontally and vertically shifted to facilitate diversified information without increasing denoising time. To prevent the information loss phenomenon of independent patches, sparse idea is guided a feed-forward network to extract local information of neighboring patches. The proposed HWformer only takes 30% of popular Restormer in terms of denoising time. | 翻訳日:2024-07-09 16:30:32 公開日:2024-07-08 |
# Saltzer & Schroeder for 2030: AIの世界におけるセキュリティエンジニアリングの原則
Saltzer & Schroeder for 2030: Security engineering principles in a world of AI ( http://arxiv.org/abs/2407.05710v1 ) ライセンス: Link先を確認 | Nikhil Patnaik, Joseph Hallett, Awais Rashid, | (参考訳) セキュアなコードを書くことは難しいため、ChatGPTやGitHub Copilotといったコード生成AIツールのリリースに続いて、開発者はこれらのツールを使用してセキュリティタスクを実行し、セキュリティAPIを使用することが期待されている。
しかし、ChatGPTによって生成されたコードは安全ですか?
日々のソフトウェアやセキュリティエンジニアはどのように話すことができるのか?
次の10年が近づくにつれ、コード生成AIツールのさらなる採用が期待でき、開発者がセキュアなコードを書くのにそれらを使うようになるでしょう。
これに備えるには、セキュリティ・バイ・デザインの確保が必要です。
本稿では、AI生成コードの世界で生じる課題を進化させ、適応する必要があるため、Saltzer & Schroeder氏のセキュリティ設計原則を振り返る。
Writing secure code is challenging and so it is expected that, following the release of code-generative AI tools, such as ChatGPT and GitHub Copilot, developers will use these tools to perform security tasks and use security APIs. However, is the code generated by ChatGPT secure? How would the everyday software or security engineer be able to tell? As we approach the next decade we expect a greater adoption of code-generative AI tools and to see developers use them to write secure code. In preparation for this, we need to ensure security-by-design. In this paper, we look back in time to Saltzer & Schroeder's security design principles as they will need to evolve and adapt to the challenges that come with a world of AI-generated code. | 翻訳日:2024-07-09 16:30:32 公開日:2024-07-08 |
# MobilePortrait: モバイルデバイス上のリアルタイムワンショットニューラルヘッドアバター
MobilePortrait: Real-Time One-Shot Neural Head Avatars on Mobile Devices ( http://arxiv.org/abs/2407.05712v1 ) ライセンス: Link先を確認 | Jianwen Jiang, Gaojie Lin, Zhengkun Rong, Chao Liang, Yongming Zhu, Jiaqi Yang, Tianyun Zhong, | (参考訳) 既存のニューラルヘッドアバター法は、ポートレートアニメーションの画質と運動範囲に大きな進歩を遂げた。
しかし、これらの手法は計算オーバーヘッドを無視し、私たちの知る限り、モバイルデバイス上で動くように設計されていない。
本稿では,モーションモデリングと画像合成の両方に外部知識を統合することで,学習の複雑さを低減し,モバイルデバイス上でリアルタイムな推論を可能にする,軽量なワンショットニューラルヘッドアバターであるMobilePortraitを提案する。
具体的には、精密な動きモデリングのための暗黙的キーポイントと暗黙的キーポイントの混合表現と、前景と背景合成の強化のための事前計算された視覚特徴を導入する。
これら2つのキー設計と単純なU-Netをバックボーンとして使用することにより,計算要求の10分の1以下で最先端の性能を実現する。
モバイルデバイス上で100 FPS以上の速度に到達し、ビデオおよびオーディオ駆動のインプットをサポートすることが検証されている。
Existing neural head avatars methods have achieved significant progress in the image quality and motion range of portrait animation. However, these methods neglect the computational overhead, and to the best of our knowledge, none is designed to run on mobile devices. This paper presents MobilePortrait, a lightweight one-shot neural head avatars method that reduces learning complexity by integrating external knowledge into both the motion modeling and image synthesis, enabling real-time inference on mobile devices. Specifically, we introduce a mixed representation of explicit and implicit keypoints for precise motion modeling and precomputed visual features for enhanced foreground and background synthesis. With these two key designs and using simple U-Nets as backbones, our method achieves state-of-the-art performance with less than one-tenth the computational demand. It has been validated to reach speeds of over 100 FPS on mobile devices and support both video and audio-driven inputs. | 翻訳日:2024-07-09 16:30:32 公開日:2024-07-08 |
# Ego4D短距離物体干渉予測チャレンジによる短距離物体干渉予測
Short-term Object Interaction Anticipation with Disentangled Object Detection @ Ego4D Short Term Object Interaction Anticipation Challenge ( http://arxiv.org/abs/2407.05713v1 ) ライセンス: Link先を確認 | Hyunjin Cho, Dong Un Kang, Se Young Chun, | (参考訳) 短期的オブジェクトインタラクション予測は、未来のインタラクションとそのタイミングの正確な予測や、関連するアクティブオブジェクトのカテゴリや位置を含む、エゴセントリックなビデオ分析において重要なタスクである。
この作業の複雑さを軽減するため,提案手法であるSOIA-DODを効果的に分解した。
1)能動物体の検出と検出
2)インタラクションの分類とタイミングの予測。
提案手法は,まず,事前学習したYOLOv9を微調整することにより,エゴセントリックビデオの最終フレームにおける潜在能動物体を検知する。
次に,これらの潜在的アクティブオブジェクトを,トランスフォーマーエンコーダによるクエリとして組み合わせて,最も有望な次のアクティブオブジェクトを特定し,その将来的なインタラクションと合意までの時間を予測する。
実験結果から,本手法は課題テストセットにおける最先端モデルよりも優れており,次のアクティブオブジェクトとその相互作用を予測する上で最高の性能を実現していることがわかった。
最後に,提案手法は,時間対接触予測を含む3番目の総合5mAPをランク付けした。
ソースコードはhttps://github.com/KeenyJin/SOIA-DOD.comで入手できる。
Short-term object interaction anticipation is an important task in egocentric video analysis, including precise predictions of future interactions and their timings as well as the categories and positions of the involved active objects. To alleviate the complexity of this task, our proposed method, SOIA-DOD, effectively decompose it into 1) detecting active object and 2) classifying interaction and predicting their timing. Our method first detects all potential active objects in the last frame of egocentric video by fine-tuning a pre-trained YOLOv9. Then, we combine these potential active objects as query with transformer encoder, thereby identifying the most promising next active object and predicting its future interaction and time-to-contact. Experimental results demonstrate that our method outperforms state-of-the-art models on the challenge test set, achieving the best performance in predicting next active objects and their interactions. Finally, our proposed ranked the third overall top-5 mAP when including time-to-contact predictions. The source code is available at https://github.com/KeenyJin/SOIA-DOD. | 翻訳日:2024-07-09 16:30:32 公開日:2024-07-08 |
# 複雑な敏感な機器の操作からのフィードバックに関する技術的アドバイスを管理するための知識工学プロセスにおけるハイブリッドアプローチの実装
Implementing a hybrid approach in a knowledge engineering process to manage technical advice relating to feedback from the operation of complex sensitive equipment ( http://arxiv.org/abs/2407.05714v1 ) ライセンス: Link先を確認 | Alain Claude Hervé Berger, Sébastien Boblet, Thierry Cartié, Jean-Pierre Cotton, François Vexler, | (参考訳) 知識工学の技術や手法を使ったことのない組織において、運用経験フィードバックに対する技術的アドバイスを効率的に管理するには、どうすればよいのか?
本稿では、原子力・防衛分野の産業企業が、その組織的文脈に適応し、ISO30401フレームワークに該当し、その事業プロセスをサポートし、知識ベースでのノウハウと専門知識を持続させる「SARBACANES」アプリケーションで完全なシステムを構築するために、そのようなアプローチをいかに採用したかを説明します。
SARBACANESは、専門家とビジネススペシャリストの間での古典的な知識の伝達の上に、このタイプのエンジニアリングが多機能操作を実現する能力を明らかにしている。
モデリングは、この種の操作に適応したツールであるArdans Knowledge Makerプラットフォームを使用することで加速された。
How can technical advice on operating experience feedback be managed efficiently in an organization that has never used knowledge engineering techniques and methods? This article explains how an industrial company in the nuclear and defense sectors adopted such an approach, adapted to its "TA KM" organizational context and falls within the ISO30401 framework, to build a complete system with a "SARBACANES" application to support its business processes and perpetuate its know-how and expertise in a knowledge base. Over and above the classic transfer of knowledge between experts and business specialists, SARBACANES also reveals the ability of this type of engineering to deliver multi-functional operation. Modeling was accelerated by the use of a tool adapted to this type of operation: the Ardans Knowledge Maker platform. | 翻訳日:2024-07-09 16:30:32 公開日:2024-07-08 |
# 知識を包含した対話生成のための現実性と多様性を考慮した復号法
A Factuality and Diversity Reconciled Decoding Method for Knowledge-Grounded Dialogue Generation ( http://arxiv.org/abs/2407.05718v1 ) ライセンス: Link先を確認 | Chenxu Yang, Zheng Lin, Chong Tian, Liang Pang, Lanrui Wang, Zhengyang Tong, Qirong Ho, Yanan Cao, Weiping Wang, | (参考訳) 外部知識の接地は対話生成における応答の事実性を高めることができる。
しかし、過度に強調すると、エンゲージメントと多彩な表現が欠如する可能性がある。
サンプリングにおけるランダム性の導入により、現在のアプローチは多様性を高めることができる。
それでも、このようなサンプリング手法は対話生成の事実性を損なう可能性がある。
本研究では,疑わしいランダム性に頼らずに創造性を向上させるための解決策を見出すとともに,原点的パラダイムにおける事実と多様性を微調整するために,DoGeという新しい手法を提案する。
DoGeは、モデルの実的信頼度に基づいて、内部パラメータ知識と外部ソース知識の活用を動的に交互に行うことができる。
広く使われている3つのデータセットに対する大規模な実験により、DoGeは応答の多様性を高めるだけでなく、事実性も維持でき、他の様々なデコード戦略ベースラインをはるかに上回っている。
Grounding external knowledge can enhance the factuality of responses in dialogue generation. However, excessive emphasis on it might result in the lack of engaging and diverse expressions. Through the introduction of randomness in sampling, current approaches can increase the diversity. Nevertheless, such sampling method could undermine the factuality in dialogue generation. In this study, to discover a solution for advancing creativity without relying on questionable randomness and to subtly reconcile the factuality and diversity within the source-grounded paradigm, a novel method named DoGe is proposed. DoGe can dynamically alternate between the utilization of internal parameter knowledge and external source knowledge based on the model's factual confidence. Extensive experiments on three widely-used datasets show that DoGe can not only enhance response diversity but also maintain factuality, and it significantly surpasses other various decoding strategy baselines. | 翻訳日:2024-07-09 16:30:32 公開日:2024-07-08 |
# PsycoLLM:心理学的理解と評価のためのLLMの強化
PsycoLLM: Enhancing LLM for Psychological Understanding and Evaluation ( http://arxiv.org/abs/2407.05721v1 ) ライセンス: Link先を確認 | Jinpeng Hu, Tengteng Dong, Hui Ma, Peng Zou, Xiao Sun, Meng Wang, | (参考訳) 近年、メンタルヘルスが注目されており、LLMはテキスト理解と対話の能力によってこの問題を緩和する有効な技術となっている。
しかし、この領域における既存の研究は、重要な事前知識や証拠を欠いたデータセットのトレーニングや包括的な評価方法の欠如といった制限に悩まされることが多い。
本稿では,PsycoLLM(PsycoLLM)と名づけられた特殊な心理学的大規模言語モデル(LLM)を提案する。
また、PsycoLLMと他のLLMの性能を比較するために、専門的倫理、理論的熟練度、ケース分析などの評価を含む、中国における権威的心理学的カウンセリング試験に基づく総合的心理学的ベンチマークを開発する。
ベンチマーク実験の結果は、他のLLMと比較して優れた性能を示すPsycoLLMの有効性を示している。
Mental health has attracted substantial attention in recent years and LLM can be an effective technology for alleviating this problem owing to its capability in text understanding and dialogue. However, existing research in this domain often suffers from limitations, such as training on datasets lacking crucial prior knowledge and evidence, and the absence of comprehensive evaluation methods. In this paper, we propose a specialized psychological large language model (LLM), named PsycoLLM, trained on a proposed high-quality psychological dataset, including single-turn QA, multi-turn dialogues enriched with prior knowledge and knowledge-based QA. Additionally, to compare the performance of PsycoLLM with other LLMs, we develop a comprehensive psychological benchmark based on authoritative psychological counseling examinations in China, which includes assessments of professional ethics, theoretical proficiency, and case analysis. The experimental results on the benchmark illustrates the effectiveness of PsycoLLM, which demonstrates superior performance compared to other LLMs. | 翻訳日:2024-07-09 16:30:32 公開日:2024-07-08 |
# バイオマーカーとしての歩行パターン:スコリオーシスの分類のためのビデオベースアプローチ
Gait Patterns as Biomarkers: A Video-Based Approach for Classifying Scoliosis ( http://arxiv.org/abs/2407.05726v1 ) ライセンス: Link先を確認 | Zirui Zhou, Junhao Liang, Zizhao Peng, Chao Fan, Fengwei An, Shiqi Yu, | (参考訳) スコリオーシスは、特に青年期において、早期発見が効果的な治療に不可欠である重要な診断上の課題となる。
身体検査や放射線検査に依存する従来の診断・追跡法は、臨床専門知識の必要性と放射線被曝のリスクにより限界に直面し、早期検診に広く使用されることを制限する。
そこで本稿では,歩行分析を用いた新しいビデオベース非侵襲的スコリオーシス分類法を提案する。
この研究は、ビデオベースのスコリオーシス分類に適した最初の大規模データセットであるScooliosis1Kを提示する。
このデータセットを活用して、実世界のデータの複雑さを扱う上での課題に直面する初期モデルであるScoNetを開発した。
この結果、マルチタスク学習を取り入れた拡張モデルであるScoNet-MTが開発された。
以上の結果から,歩行は強皮症に対する非侵襲的バイオマーカーであり,深層学習によるスクリーニングの実践に革命をもたらし,非侵襲的診断手法の先例となる可能性が示唆された。
データセットとコードはhttps://zhouzi180.github.io/Scoliosis1K/で公開されている。
Scoliosis poses significant diagnostic challenges, particularly in adolescents, where early detection is crucial for effective treatment. Traditional diagnostic and follow-up methods, which rely on physical examinations and radiography, face limitations due to the need for clinical expertise and the risk of radiation exposure, thus restricting their use for widespread early screening. In response, we introduce a novel, video-based, non-invasive method for scoliosis classification using gait analysis, which circumvents these limitations. This study presents Scoliosis1K, the first large-scale dataset tailored for video-based scoliosis classification, encompassing over one thousand adolescents. Leveraging this dataset, we developed ScoNet, an initial model that encountered challenges in dealing with the complexities of real-world data. This led to the creation of ScoNet-MT, an enhanced model incorporating multi-task learning, which exhibits promising diagnostic accuracy for application purposes. Our findings demonstrate that gait can be a non-invasive biomarker for scoliosis, revolutionizing screening practices with deep learning and setting a precedent for non-invasive diagnostic methodologies. The dataset and code are publicly available at https://zhouzi180.github.io/Scoliosis1K/. | 翻訳日:2024-07-09 16:30:32 公開日:2024-07-08 |
# FairPFN: トランスフォーマーは非現実的フェアネスを実現できる
FairPFN: Transformers Can do Counterfactual Fairness ( http://arxiv.org/abs/2407.05732v1 ) ライセンス: Link先を確認 | Jake Robertson, Noah Hollmann, Noor Awad, Frank Hutter, | (参考訳) 機械学習システムは、医療、法執行、財務においてますます普及しているが、歴史的データを扱うことが多く、特定の人口集団に対する偏見をもたらす可能性がある。
因果的および反事実的公正性は、法的な基準と密接に一致した公正性を定義する直感的な方法を提供する。
その理論的利点にもかかわらず、反事実的公正性にはいくつかの実践的な制限が伴い、主にドメイン知識への依存と因果モデルの構築における近似因果発見技術に関係している。
本研究では,文脈学習(ICL)と事前適応ネットワーク(PFN)の最近の研究に基づいて,FairPFNと呼ばれる変圧器の学習を行う。
本モデルは, 観測データから直接保護属性の因果効果を排除し, 実際に適切な因果モデルにアクセスする必要をなくすために, 合成公正データを用いて事前訓練を行う。
本実験では,保護属性の因果的影響を除去するFairPFNの有効性を,一連のケーススタディと実世界のデータセットで徹底的に評価した。
我々の研究は、因果フェアネスと反事実フェアネスのためのトランスフォーマーという、新しくて有望な研究分野への道を開いた。
Machine Learning systems are increasingly prevalent across healthcare, law enforcement, and finance but often operate on historical data, which may carry biases against certain demographic groups. Causal and counterfactual fairness provides an intuitive way to define fairness that closely aligns with legal standards. Despite its theoretical benefits, counterfactual fairness comes with several practical limitations, largely related to the reliance on domain knowledge and approximate causal discovery techniques in constructing a causal model. In this study, we take a fresh perspective on counterfactually fair prediction, building upon recent work in in context learning (ICL) and prior fitted networks (PFNs) to learn a transformer called FairPFN. This model is pretrained using synthetic fairness data to eliminate the causal effects of protected attributes directly from observational data, removing the requirement of access to the correct causal model in practice. In our experiments, we thoroughly assess the effectiveness of FairPFN in eliminating the causal impact of protected attributes on a series of synthetic case studies and real world datasets. Our findings pave the way for a new and promising research area: transformers for causal and counterfactual fairness. | 翻訳日:2024-07-09 16:30:32 公開日:2024-07-08 |
# GPT-4は自動評価に十分か?:ラター認知に基づく比較判断法
Is GPT-4 Alone Sufficient for Automated Essay Scoring?: A Comparative Judgment Approach Based on Rater Cognition ( http://arxiv.org/abs/2407.05733v1 ) ライセンス: Link先を確認 | Seungju Kim, Meounggun Jo, | (参考訳) 大規模言語モデル(LLM)は、自動エッセイ・スコアリング(AES)において約束されているが、そのゼロショットと少数ショットのパフォーマンスは、最先端のモデルや人間のレーダと比較すると、しばしば短くなる。
しかし、実際の教育場面で用いられるエッセイプロンプトやルーブリックの多種多様さから、各タスクごとに微調整 LLM は実用的ではない。
本研究では,2つのエッセイを選択するためにゼロショットプロンプトを用いて,ALMと比較判断(CJ)を組み合わせた新しいアプローチを提案する。
LLMを用いたエッセイ評価において,CJ法が従来のルーリック法よりも優れていることを示す。
Large Language Models (LLMs) have shown promise in Automated Essay Scoring (AES), but their zero-shot and few-shot performance often falls short compared to state-of-the-art models and human raters. However, fine-tuning LLMs for each specific task is impractical due to the variety of essay prompts and rubrics used in real-world educational contexts. This study proposes a novel approach combining LLMs and Comparative Judgment (CJ) for AES, using zero-shot prompting to choose between two essays. We demonstrate that a CJ method surpasses traditional rubric-based scoring in essay scoring using LLMs. | 翻訳日:2024-07-09 16:30:32 公開日:2024-07-08 |
# 会話型チャットボットにおける対称性推論の実証的研究
Empirical Study of Symmetrical Reasoning in Conversational Chatbots ( http://arxiv.org/abs/2407.05734v1 ) ライセンス: Link先を確認 | Daniela N. Rim, Heeyoul Choi, | (参考訳) 本研究は,多言語モデル(LLM)を利用した対話型チャットボットによる述語対称性の理解と特徴付け能力について考察する。
チャットボットが再トレーニングすることなく、プロンプトから新しいタスクを学習できるパラダイムシフトである、コンテキスト内学習(ICL)を活用することで、ChatGPT 4、HuggingfaceチャットAI、MicrosoftのCopilot AI、PerplexityによるLLaMA、Gemini Advancedの5つのチャットボットの対称推論を評価する。
我々は,TanchipらによるSymmetry Inference Sentence(SIS)データセットを用いて,人間の評価に対するチャットボットの反応を比較し,述語対称性の理解度を評価する。
実験の結果、チャットボットのパフォーマンスは様々であり、人間のような推論能力に近づいている。
例えば、ジェミニは人間のスコアと0.85の相関に達し、各対称性評価の正当性を提供する。
本研究は、複雑な認知過程を対称的推論として反映する上でのLLMの可能性と限界を明らかにする。
This work explores the capability of conversational chatbots powered by large language models (LLMs), to understand and characterize predicate symmetry, a cognitive linguistic function traditionally believed to be an inherent human trait. Leveraging in-context learning (ICL), a paradigm shift enabling chatbots to learn new tasks from prompts without re-training, we assess the symmetrical reasoning of five chatbots: ChatGPT 4, Huggingface chat AI, Microsoft's Copilot AI, LLaMA through Perplexity, and Gemini Advanced. Using the Symmetry Inference Sentence (SIS) dataset by Tanchip et al. (2020), we compare chatbot responses against human evaluations to gauge their understanding of predicate symmetry. Experiment results reveal varied performance among chatbots, with some approaching human-like reasoning capabilities. Gemini, for example, reaches a correlation of 0.85 with human scores, while providing a sounding justification for each symmetry evaluation. This study underscores the potential and limitations of LLMs in mirroring complex cognitive processes as symmetrical reasoning. | 翻訳日:2024-07-09 16:30:32 公開日:2024-07-08 |
# ICRA@40パーティで記録されたアースローバーのデータセット
An Earth Rover dataset recorded at the ICRA@40 party ( http://arxiv.org/abs/2407.05735v1 ) ライセンス: Link先を確認 | Qi Zhang, Zhihao Lin, Arnoud Visser, | (参考訳) ICRAは2024年9月にロッテルダムで40周年を迎えた。
1ヶ月後、IROSカンファレンスが開催され、アースローバーチャレンジが予定されている。
この課題では、オープンワールドの自律ナビゲーションモデルが真にオープンワールドの設定について研究されている。
アースローバーチャレンジの一環として、オークランド、オーストラリア、中国武漢など、いくつかの都市で現実のナビゲーションセットが世界中に展開されている。
オランダで記録されている唯一のデータセットは、小さな村のオーデウォーターである。
提案では、ハッピーバースデーICRAパーティーが始まる前に、ホランド・アメリカライン・クルーズターミナルの前にあるロッテルダムのアースローバー・チャレンジで使用されたロボットのデータセットを記録する。
The ICRA conference is celebrating its $40^{th}$ anniversary in Rotterdam in September 2024, with as highlight the Happy Birthday ICRA Party at the iconic Holland America Line Cruise Terminal. One month later the IROS conference will take place, which will include the Earth Rover Challenge. In this challenge open-world autonomous navigation models are studied truly open-world settings. As part of the Earth Rover Challenge several real-world navigation sets in several cities world-wide, like Auckland, Australia and Wuhan, China. The only dataset recorded in the Netherlands is the small village Oudewater. The proposal is to record a dataset with the robot used in the Earth Rover Challenge in Rotterdam, in front of the Holland America Line Cruise Terminal, before the festivities of the Happy Birthday ICRA Party start. | 翻訳日:2024-07-09 16:30:32 公開日:2024-07-08 |
# TransMA:mRNAデリバリーにおけるイオン化可能な脂質ナノ粒子の性質予測のための多モード深層学習モデル
TransMA: an explainable multi-modal deep learning model for predicting properties of ionizable lipid nanoparticles in mRNA delivery ( http://arxiv.org/abs/2407.05736v1 ) ライセンス: Link先を確認 | Kun Wu, Zixu Wang, Xiulong Yang, Yangyang Chen, Zhenqi Han, Jialu Zhang, Lizhuang Liu, | (参考訳) 第一のmRNAデリバリー車として、イオン化可能な脂質ナノ粒子(LNP)は優れた安全性、高い透過効率、強力な免疫応答誘導を示す。
しかし、LNPのスクリーニングプロセスは時間と費用がかかる。
高透過効率mRNAデリバリーシステムの同定を高速化するために,TransMAと呼ばれる説明可能なLNPsトランスフェクション効率予測モデルを提案する。
TransMAはマルチモーダルな分子構造融合アーキテクチャを用いており、分子3Dトランスフォーマーは分子の3次元空間的特徴を捉え、Mambaという粗粒原子配列抽出器は1次元の分子的特徴を捉えている。
モールアテンション機構ブロックを設計し、粗くきめ細かな原子の特徴を整列させ、原子空間構造とシーケンシャル構造の関係を捉える。
TransMAは、HelaやRAWセルラインを含む現在の最大のLNPデータセット上で、足場と崖のデータ分割手法を用いて、トランスフェクション効率を予測する上で、最先端のパフォーマンスを達成する。
さらに,TransMAは微妙な構造変化と有意な透過効率変化の関係を捉え,LNPの設計に有意義な洞察を与える。
さらに、TransMAの外部透過効率データに対する予測は、実際の透過効率と一貫した順序を維持し、その堅牢な一般化能力を示している。
コード、モデル、データはhttps://github.com/wklix/TransMA/tree/masterで公開されている。
将来、高い精度のトランスフェクション予測モデルがLNPの設計と初期スクリーニングに役立ち、それによってmRNA設計プロセスの高速化が期待できる。
As the primary mRNA delivery vehicles, ionizable lipid nanoparticles (LNPs) exhibit excellent safety, high transfection efficiency, and strong immune response induction. However, the screening process for LNPs is time-consuming and costly. To expedite the identification of high-transfection-efficiency mRNA drug delivery systems, we propose an explainable LNPs transfection efficiency prediction model, called TransMA. TransMA employs a multi-modal molecular structure fusion architecture, wherein the fine-grained atomic spatial relationship extractor named molecule 3D Transformer captures three-dimensional spatial features of the molecule, and the coarse-grained atomic sequence extractor named molecule Mamba captures one-dimensional molecular features. We design the mol-attention mechanism block, enabling it to align coarse and fine-grained atomic features and captures relationships between atomic spatial and sequential structures. TransMA achieves state-of-the-art performance in predicting transfection efficiency using the scaffold and cliff data splitting methods on the current largest LNPs dataset, including Hela and RAW cell lines. Moreover, we find that TransMA captures the relationship between subtle structural changes and significant transfection efficiency variations, providing valuable insights for LNPs design. Additionally, TransMA's predictions on external transfection efficiency data maintain a consistent order with actual transfection efficiencies, demonstrating its robust generalization capability. The code, model and data are made publicly available at https://github.com/wklix/TransMA/tree/master. We hope that high-accuracy transfection prediction models in the future can aid in LNPs design and initial screening, thereby assisting in accelerating the mRNA design process. | 翻訳日:2024-07-09 16:20:46 公開日:2024-07-08 |
# マルチビットメカニズム:スパイクニューラルネットワークのための新しい情報伝達パラダイム
Multi-Bit Mechanism: A Novel Information Transmission Paradigm for Spiking Neural Networks ( http://arxiv.org/abs/2407.05739v1 ) ライセンス: Link先を確認 | Yongjun Xiao, Xianlong Tian, Yongqi Ding, Pei He, Mengmeng Jing, Lin Zuo, | (参考訳) 提案以来, スパイキングニューラルネットワーク(SNN)は, 高い性能, 低消費電力, 生物学的解釈可能性の向上を認められている。
しかし、これらの利点をもたらす一方で、スパイクのバイナリの性質はSNNにかなりの情報損失をもたらし、最終的にパフォーマンスが低下する。
現在のバイナリスパイクの表現力に制限があり、結果として情報損失が大きくなり、これらの課題の背後にある根本的な問題である、と我々は主張する。
そこで本研究では,SNNのためのマルチビット情報伝送機構を提案する。
この機構は、元の単一ビットから複数のビットへのスパイクニューロンの出力を拡大し、スパイクの表現性を高め、前処理時の情報損失を減らすとともに、SNNの低エネルギー消費優位性を維持している。
SNNにとって、これは情報伝達の新しいパラダイムである。
さらに、制限されたスパイクを更に活用するために、前層から有効信号を抽出してニューロンを再刺激し、様々なビットレベルにわたる完全なスパイク放出を促す。
直接学習法とANN-SNN変換法の両方を用いて提案手法を広範囲に実験し,一貫した性能向上を示した。
Since proposed, spiking neural networks (SNNs) gain recognition for their high performance, low power consumption and enhanced biological interpretability. However, while bringing these advantages, the binary nature of spikes also leads to considerable information loss in SNNs, ultimately causing performance degradation. We claim that the limited expressiveness of current binary spikes, resulting in substantial information loss, is the fundamental issue behind these challenges. To alleviate this, our research introduces a multi-bit information transmission mechanism for SNNs. This mechanism expands the output of spiking neurons from the original single bit to multiple bits, enhancing the expressiveness of the spikes and reducing information loss during the forward process, while still maintaining the low energy consumption advantage of SNNs. For SNNs, this represents a new paradigm of information transmission. Moreover, to further utilize the limited spikes, we extract effective signals from the previous layer to re-stimulate the neurons, thus encouraging full spikes emission across various bit levels. We conducted extensive experiments with our proposed method using both direct training method and ANN-SNN conversion method, and the results show consistent performance improvements. | 翻訳日:2024-07-09 16:20:46 公開日:2024-07-08 |
# 多言語大言語モデルはステレオタイプバイアスを軽減するか?
Do Multilingual Large Language Models Mitigate Stereotype Bias? ( http://arxiv.org/abs/2407.05740v1 ) ライセンス: Link先を確認 | Shangrui Nie, Michael Fromm, Charles Welch, Rebekka Görge, Akbar Karimi, Joan Plepi, Nazia Afsan Mowmita, Nicolas Flores-Herr, Mehdi Ali, Lucie Flek, | (参考訳) 予備的な知見から,多言語LLMは単言語よりもバイアスが小さいことが示唆されるが,多言語トレーニングがバイアス軽減に与える影響の包括的理解は欠如している。
本研究は,5つの単言語モデル(英語,ドイツ語,フランス語,イタリア語,スペイン語)と1つの多言語モデルという,同一サイズの6つのLLM(2.6Bパラメータ)とアーキテクチャを体系的にトレーニングすることにより,このギャップを解消する。
頑健な評価を確保するため、標準バイアスベンチマークは自動的に5つの対象言語に翻訳され、人間のアノテータによる翻訳品質とバイアス保存の両面で検証された。
我々の結果は、多言語学習がバイアスを効果的に軽減することを一貫して示している。
さらに, 学習データ, モデルアーキテクチャ, サイズが同じ単言語モデルと比較して, 多言語モデルの方がバイアスの少ないだけでなく, 予測精度も優れていることが観察された。
While preliminary findings indicate that multilingual LLMs exhibit reduced bias compared to monolingual ones, a comprehensive understanding of the effect of multilingual training on bias mitigation, is lacking. This study addresses this gap by systematically training six LLMs of identical size (2.6B parameters) and architecture: five monolingual models (English, German, French, Italian, and Spanish) and one multilingual model trained on an equal distribution of data across these languages, all using publicly available data. To ensure robust evaluation, standard bias benchmarks were automatically translated into the five target languages and verified for both translation quality and bias preservation by human annotators. Our results consistently demonstrate that multilingual training effectively mitigates bias. Moreover, we observe that multilingual models achieve not only lower bias but also superior prediction accuracy when compared to monolingual models with the same amount of training data, model architecture, and size. | 翻訳日:2024-07-09 16:20:46 公開日:2024-07-08 |
# MSP-Podcast SER Challenge 2024: L'antenne du Ventoux Multimodal Self-Supervised Learning for Speech Emotion Recognition
MSP-Podcast SER Challenge 2024: L'antenne du Ventoux Multimodal Self-Supervised Learning for Speech Emotion Recognition ( http://arxiv.org/abs/2407.05746v1 ) ライセンス: Link先を確認 | Jarod Duret, Mickael Rouvier, Yannick Estève, | (参考訳) 本稿では,MSP-Podcast Speech Emotion Recognition (SER) Challengeの2024年版への提出について詳述する。
この課題は、カテゴリー的感情認識(Categorical Emotion Recognition)と感情的属性予測(Emotional Attribute Prediction)の2つの異なるタスクに分けられる。
MSP-Podcastデータセットから得られたデータを用いて、8つの感情状態のカテゴリー分類を行うタスク1に集中した。
提案手法では,SVM(Support Vector Machine)分類器を用いて,個別に学習し,スコアレベルで融合したモデルのアンサンブルを用いる。
モデルは、音声単独、テキスト単独、音声とテキストの組み合わせアプローチなど、さまざまなモードにわたる自己監視学習(SSL)の微調整など、さまざまな戦略を用いて訓練された。
この共同訓練手法は、感情状態を正確に分類するシステムの能力を高めることを目的としている。
この共同訓練手法は、感情状態を正確に分類するシステムの能力を高めることを目的としている。
これにより、F1-macroは0.35\%となる。
In this work, we detail our submission to the 2024 edition of the MSP-Podcast Speech Emotion Recognition (SER) Challenge. This challenge is divided into two distinct tasks: Categorical Emotion Recognition and Emotional Attribute Prediction. We concentrated our efforts on Task 1, which involves the categorical classification of eight emotional states using data from the MSP-Podcast dataset. Our approach employs an ensemble of models, each trained independently and then fused at the score level using a Support Vector Machine (SVM) classifier. The models were trained using various strategies, including Self-Supervised Learning (SSL) fine-tuning across different modalities: speech alone, text alone, and a combined speech and text approach. This joint training methodology aims to enhance the system's ability to accurately classify emotional states. This joint training methodology aims to enhance the system's ability to accurately classify emotional states. Thus, the system obtained F1-macro of 0.35\% on development set. | 翻訳日:2024-07-09 16:20:46 公開日:2024-07-08 |
# LDGCN:ドライバの眠気モニタリングのための単一チャネル脳波に基づくエッジエンド軽量デュアルGCN
LDGCN: An Edge-End Lightweight Dual GCN Based on Single-Channel EEG for Driver Drowsiness Monitoring ( http://arxiv.org/abs/2407.05749v1 ) ライセンス: Link先を確認 | Jingwei Huang, Chuansheng Wang, Jiayan Huang, Haoyi Fan, Antoni Grau, Fuquan Zhang, | (参考訳) 運転者の眠気脳波(EEG)信号監視は、運転者の眠気状態をタイムリーに警告することができるため、交通事故の可能性を低減できる。
グラフ畳み込みネットワーク(GCN)は、非定常、時変、非ユークリッド的な脳波信号の処理において大きな進歩を見せている。
しかし、既存の単一チャネルのEEG隣接グラフ構築プロセスは、GCNが効率的に隣接グラフの特徴を抽出する能力を阻害する、解釈可能性に欠けており、そのため、眠気モニタリングの性能に影響を及ぼす。
この問題に対処するために、エッジエンドの軽量デュアルグラフ畳み込みネットワーク(LDGCN)を提案する。
具体的には,BDSAG (Baseline Drowsiness Status Adjacency Graph) の設計に神経生理学的知識を取り入れた最初の試みである。
さらに、限られたEEGデータ内でより多くの機能を表現するために、Augmented Graph-level Module (AGM)を導入します。
このモジュールは、グラフレベルでグローバルおよびローカル情報をキャプチャし、BDSAGの機能を引き続き維持し、効果的な特徴表現能力を向上する。
さらに,第4世代のRaspberry Piに本手法をデプロイするために,適応プルーニング最適化(APO)をチャネルとニューロンの両方で使用し,推論遅延をほぼ半分に削減した。
ベンチマークデータセットの実験では、LDGCNは既存の最先端アルゴリズムと比較して、監視パフォーマンスとハードウェアリソース利用の最良のトレードオフを提供する。
ソースコードはすべてhttps://github.com/BryantDom/Driver-Drowsiness-Monitoringにある。
Driver drowsiness electroencephalography (EEG) signal monitoring can timely alert drivers of their drowsiness status, thereby reducing the probability of traffic accidents. Graph convolutional networks (GCNs) have shown significant advancements in processing the non-stationary, time-varying, and non-Euclidean nature of EEG signals. However, the existing single-channel EEG adjacency graph construction process lacks interpretability, which hinders the ability of GCNs to effectively extract adjacency graph features, thus affecting the performance of drowsiness monitoring. To address this issue, we propose an edge-end lightweight dual graph convolutional network (LDGCN). Specifically, we are the first to incorporate neurophysiological knowledge to design a Baseline Drowsiness Status Adjacency Graph (BDSAG), which characterizes driver drowsiness status. Additionally, to express more features within limited EEG data, we introduce the Augmented Graph-level Module (AGM). This module captures global and local information at the graph level, ensuring that BDSAG features remain intact while enhancing effective feature expression capability. Furthermore, to deploy our method on the fourth-generation Raspberry Pi, we utilize Adaptive Pruning Optimization (APO) on both channels and neurons, reducing inference latency by almost half. Experiments on benchmark datasets demonstrate that LDGCN offers the best trade-off between monitoring performance and hardware resource utilization compared to existing state-of-the-art algorithms. All our source code can be found at https://github.com/BryantDom/Driver-Drowsiness-Monitoring. | 翻訳日:2024-07-09 16:20:46 公開日:2024-07-08 |
# レイアウトを理解する大規模言語モデル
Large Language Models Understand Layouts ( http://arxiv.org/abs/2407.05750v1 ) ライセンス: Link先を確認 | Weiming Li, Manni Duan, Dong An, Yan Shao, | (参考訳) 大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクにおいて異常な能力を示す。
本稿では,テキスト理解機能以外に,空間マーカーで表されるテキストレイアウトをLLMで処理できることを示す。
元のデータから空間マーカーを除外した場合に、劇的な性能低下が観察される一方で、明示的な空間知覚と推論を必要とする質問に答えることができる。
我々は,GPT-3.5,Baichuan2,Llama2,ChatGLM3モデルを用いて,様々なタイプのレイアウトに敏感なデータセットを用いて実験を行い,さらなる分析を行った。
実験結果から, LLMのレイアウト理解能力は, 事前学習のためのコーディングデータによって主に導入され, 指導訓練段階でさらに強化されていることがわかった。
さらに、新しいテキストゲームによってアプローチされた低コストで自動生成されたデータを統合することで、レイアウト理解を向上させることができる。
最後に,視覚的質問応答(VQA)システムを構築する上で,レイアウト理解能力が有用であることを示す。
Large language models (LLMs) demonstrate extraordinary abilities in a wide range of natural language processing (NLP) tasks. In this paper, we show that, beyond text understanding capability, LLMs are capable of processing text layouts that are denoted by spatial markers. They are able to answer questions that require explicit spatial perceiving and reasoning, while a drastic performance drop is observed when the spatial markers from the original data are excluded. We perform a series of experiments with the GPT-3.5, Baichuan2, Llama2 and ChatGLM3 models on various types of layout-sensitive datasets for further analysis. The experimental results reveal that the layout understanding ability of LLMs is mainly introduced by the coding data for pretraining, which is further enhanced at the instruction-tuning stage. In addition, layout understanding can be enhanced by integrating low-cost, auto-generated data approached by a novel text game. Finally, we show that layout understanding ability is beneficial for building efficient visual question-answering (VQA) systems. | 翻訳日:2024-07-09 16:20:46 公開日:2024-07-08 |
# 半導体量子ドットにおける任意ベクトルビーム生成
Arbitrary vector beam generation in semiconductor quantum dots ( http://arxiv.org/abs/2407.05756v1 ) ライセンス: Link先を確認 | Samit Kumar Hazra, P. K. Pathak, Tarak Nath Dey, | (参考訳) 我々は、フォノン相互作用を考慮した薄板状量子ドット(QD)媒体における任意のベクトルビーム(VB)生成方式を提案する。
QDバイエクシトン系は、2つの直交円偏極遷移の間の1階と3階の非線形感受性の相互作用を示す。
3つのQD遷移は、磁場を運ぶ1つの弱い2つの強い制御軌道角運動量(OAM)と結合される。
これにより、印加磁場の吸収を経験し、4波混合(FWM)により所望のOAMを有する新しい磁場を生成する。
これら2つの直交体重ね合わせは、QD中間端でVBを生成する。
また,相対的な制御場位相だけを変化させることで,VBの偏極回転を実証した。
さらに,VB生成に及ぼす温度の影響を解析した。
We have proposed an arbitrary vector beam (VB) generation scheme in a thin disk-shaped quantum dot (QD) medium considering phonon interaction. The QD biexciton system exhibits interplay between first and third-order nonlinear susceptibility between two orthogonal circular polarisation transitions. Three QD transitions are coupled with one applied weak and two strong control orbital angular momentum (OAM) carrying fields. Therefore, the applied field experiences absorption, and a new field with the desired OAM is generated via four-wave mixing (FWM). These two orthogonal field superpositions produce VB at the QD medium end. We have also demonstrated the polarization rotation of a VB by changing only the relative control field phase. Additionally, we have analyzed the effect of temperature on the VB generation. | 翻訳日:2024-07-09 16:20:46 公開日:2024-07-08 |
# 医用画像データマイニングのためのマルチモーダル大言語モデルの可能性と自由テキストレポート
Potential of Multimodal Large Language Models for Data Mining of Medical Images and Free-text Reports ( http://arxiv.org/abs/2407.05758v1 ) ライセンス: Link先を確認 | Yutong Zhang, Yi Pan, Tianyang Zhong, Peixin Dong, Kangni Xie, Yuxiao Liu, Hanqi Jiang, Zhengliang Liu, Shijie Zhao, Tuo Zhang, Xi Jiang, Dinggang Shen, Tianming Liu, Xin Zhang, | (参考訳) 医療画像と放射線診断は、臨床診断における定量的分析の重要性を強調し、医療状況の診断に不可欠である。
しかし、これらのデータの多様性とクロスソースな異質性は、現在のデータマイニング手法の一般化に挑戦する。
MLLM(Multimodal large language model)は、最近多くのドメインを変換し、医療分野に大きな影響を与えた。
特にGemini-Vision-Series (Gemini) と GPT-4-Series (GPT-4) は、コンピュータビジョンのための人工知能(AGI)のパラダイムシフトを象徴し、バイオメディカル領域におけるその可能性を示している。
本研究は,4つの医用画像データセット(皮膚科,放射線学,歯科医学,眼科,内視鏡)と3つの医用画像データセットを含む14の医用画像データセットに対して,Gemini,GPT-4,および4つの医用画像データセットの性能評価を行った。
本研究課題は, 疾患分類, 病変分類, 解剖学的局在, 疾患診断, 報告生成, 病変検出を含む。
実験の結果,ジェミニシリーズは報告生成と病変検出に優れていたが,疾患分類と解剖学的局在の課題に直面した。
逆にGPT-seriesモデルでは病変の分節や解剖学的局在が良好であったが,疾患の診断や病変の検出には困難がみられた。
さらに、ジェミニ級数とGPT級数の両方が可換生成効率を示すモデルを含んでいる。
どちらのモデルも、医師の作業量を減らし、限られた医療資源への圧力を緩和し、臨床実践者と人工知能技術とのコラボレーションを促進するという約束を持っているが、臨床展開の前には、かなりの拡張と包括的な検証が必須である。
Medical images and radiology reports are crucial for diagnosing medical conditions, highlighting the importance of quantitative analysis for clinical decision-making. However, the diversity and cross-source heterogeneity of these data challenge the generalizability of current data-mining methods. Multimodal large language models (MLLMs) have recently transformed many domains, significantly affecting the medical field. Notably, Gemini-Vision-series (Gemini) and GPT-4-series (GPT-4) models have epitomized a paradigm shift in Artificial General Intelligence (AGI) for computer vision, showcasing their potential in the biomedical domain. In this study, we evaluated the performance of the Gemini, GPT-4, and 4 popular large models for an exhaustive evaluation across 14 medical imaging datasets, including 5 medical imaging categories (dermatology, radiology, dentistry, ophthalmology, and endoscopy), and 3 radiology report datasets. The investigated tasks encompass disease classification, lesion segmentation, anatomical localization, disease diagnosis, report generation, and lesion detection. Our experimental results demonstrated that Gemini-series models excelled in report generation and lesion detection but faces challenges in disease classification and anatomical localization. Conversely, GPT-series models exhibited proficiency in lesion segmentation and anatomical localization but encountered difficulties in disease diagnosis and lesion detection. Additionally, both the Gemini series and GPT series contain models that have demonstrated commendable generation efficiency. While both models hold promise in reducing physician workload, alleviating pressure on limited healthcare resources, and fostering collaboration between clinical practitioners and artificial intelligence technologies, substantial enhancements and comprehensive validations remain imperative before clinical deployment. | 翻訳日:2024-07-09 16:20:46 公開日:2024-07-08 |
# パラメトリックダウンコンバージョン相互作用を用いたシュレーディンガー猫量子状態の合成
Preparation of Schrödinger cat quantum state using parametric down-conversion interaction ( http://arxiv.org/abs/2407.05759v1 ) ライセンス: Link先を確認 | V. L. Gorshenin, | (参考訳) シュリンガー・キャット状態は、非ガウス的性質のため、量子光学において重要である。
本稿では, ポンプモードにおけるパラメトリック散乱の退化と光子数の測定を用いて, Schr\\odinger cat状態の条件付けを行う。
この方法は、パラメトリックな非線形相互作用の弱い系におけるSCの調製を保証する。
ニオブ酸リチウムの既存の吹付けモードギャラリーマイクロ共振器との比較により, 本法の適用可能性が確認された。
The Schr\"odinger cat state is important in quantum optics because of its non-Gaussian properties. This paper proposes the use of degenerate parametric scattering and measurement of the number of photons in the pump mode to conditionally prepare the Schr\"odinger cat state. This method ensures the preparation of SC in systems with weak parametric non-linear interaction. Comparison with the existing whispering mode gallery microresonator from lithium niobate indicates the possible applicability of this method. | 翻訳日:2024-07-09 16:20:46 公開日:2024-07-08 |
# 発声クラスタリングのためのトポロジカル拡張信号表現に基づくディリクレ過程混合モデル
Dirichlet process mixture model based on topologically augmented signal representation for clustering infant vocalizations ( http://arxiv.org/abs/2407.05760v1 ) ライセンス: Link先を確認 | Guillem Bonafos, Clara Bourot, Pierre Pudlo, Jean-Marc Freyermuth, Laurence Reboul, Samuel Tronçon, Arnaud Rey, | (参考訳) 子どもの生活の最初の12ヶ月に1ヶ月に1回録音された音声に基づいて,この音声をクラスタリングするための新しい手法を提案する。
発声のトポロジ的に拡張された表現を用い、各発声に対して2つの持続図を用い、その1つは分光器の表面で計算され、もう1つはケインの発声の埋め込みについて計算された。
合成持続変数は各ダイアグラムに対して導出され、MFCC(Mel- frequency cepstral coefficients)に追加される。
この表現を用いて、成分の数をモデル化する前に、非パラメトリックベイズ混合モデルとディリクレ過程を適合させる。
この手順は、音声生成の新たなデータ駆動分類に繋がる。
以上の結果より, 発声8群の存在が明らかとなり, 生後12ヶ月で時間分布と音響的特徴を比較することができた。
Based on audio recordings made once a month during the first 12 months of a child's life, we propose a new method for clustering this set of vocalizations. We use a topologically augmented representation of the vocalizations, employing two persistence diagrams for each vocalization: one computed on the surface of its spectrogram and one on the Takens' embeddings of the vocalization. A synthetic persistent variable is derived for each diagram and added to the MFCCs (Mel-frequency cepstral coefficients). Using this representation, we fit a non-parametric Bayesian mixture model with a Dirichlet process prior to model the number of components. This procedure leads to a novel data-driven categorization of vocal productions. Our findings reveal the presence of 8 clusters of vocalizations, allowing us to compare their temporal distribution and acoustic profiles in the first 12 months of life. | 翻訳日:2024-07-09 16:20:46 公開日:2024-07-08 |
# 不確かさの解釈可能性:多発性硬化症における皮質病変分節の探索
Interpretability of Uncertainty: Exploring Cortical Lesion Segmentation in Multiple Sclerosis ( http://arxiv.org/abs/2407.05761v1 ) ライセンス: Link先を確認 | Nataliia Molchanova, Alessandro Cagol, Pedro M. Gordaliza, Mario Ocampo-Pineda, Po-Jui Lu, Matthias Weigel, Xinjie Chen, Adrien Depeursinge, Cristina Granziera, Henning Müller, Meritxell Bach Cuadra, | (参考訳) 不確実性定量化(UQ)は、特に医用画像のセグメンテーションにおいて、人工知能システムの信頼性を評価するために重要になっている。
本研究は,脳磁図における焦点病変のセグメンテーション,特に多発性硬化症における大脳皮質病変(CL)セグメンテーションの深層学習モデルにおけるインスタンスワイド不確実性の解釈可能性について考察する。
CLセグメンテーションは、手動セグメンテーションの複雑さ、アノテーションの高可変性、データの不足、クラス不均衡などいくつかの課題を呈し、これらすべてがアレタリックおよびてんかんの不確実性に寄与している。
予測信頼性を評価するだけでなく、モデル行動の洞察を提供し、バイアスを検出し、UQ手法の精度を検証するためにUQをどのように利用できるかを検討する。
本研究は, ケースワイド不確実性値がポストホックなグローバルモデル説明を提供する可能性を示し, モデルに対する健全性チェックとして機能する。
実装はhttps://github.com/NataliiaMolch/interpret-lesion-uncで公開されている。
Uncertainty quantification (UQ) has become critical for evaluating the reliability of artificial intelligence systems, especially in medical image segmentation. This study addresses the interpretability of instance-wise uncertainty values in deep learning models for focal lesion segmentation in magnetic resonance imaging, specifically cortical lesion (CL) segmentation in multiple sclerosis. CL segmentation presents several challenges, including the complexity of manual segmentation, high variability in annotation, data scarcity, and class imbalance, all of which contribute to aleatoric and epistemic uncertainty. We explore how UQ can be used not only to assess prediction reliability but also to provide insights into model behavior, detect biases, and verify the accuracy of UQ methods. Our research demonstrates the potential of instance-wise uncertainty values to offer post hoc global model explanations, serving as a sanity check for the model. The implementation is available at https://github.com/NataliiaMolch/interpret-lesion-unc. | 翻訳日:2024-07-09 16:20:46 公開日:2024-07-08 |
# 低温量子温度測定におけるハイゼンベルクスケーリングの実現
Achieving Heisenberg scaling in low-temperature quantum thermometry ( http://arxiv.org/abs/2407.05762v1 ) ライセンス: Link先を確認 | Ning Zhang, Chong Chen, | (参考訳) 相関強化型低温量子温度測定について検討する。
最近の研究では、浴槽による相関が非相関状態から始まっても低温推定精度を高めることが示されている。
しかし、この拡張に関する包括的な理解はいまだ解明されていない。
ラムゼイ干渉法を用いて, 標準ラムゼイ方式とは対照的に, 常温浴に疎結合したN$温度計の推定精度は, 標準ラムゼイ方式と対照的に, 測定軸をわずか$\pi/2$回転させることで, 低温条件下でのハイゼンベルクスケーリングを実現することができることを示した。
この結果は, 共用浴における低周波雑音のみによって, 温度計間の相関が引き起こされるという仮定に基づいている。
基礎となる物理的メカニズムは解明され、ハイゼンベルクのスケーリングは温度の内在的な性質から生じ、熱雑音のゆらぎにのみ関係していることが明らかになった。
独立温度計のパラダイムとは対照的に,提案手法は低温測定の精度を大幅に向上させ,超低温システムの温度を正確に測定するのに適している。
We investigate correlation-enhanced low temperature quantum thermometry. Recent studies have revealed that bath-induced correlations can enhance the low-temperature estimation precision even starting from an uncorrelated state. However, a comprehensive understanding of this enhancement remains elusive. Using the Ramsey interferometry protocol, we illustrate that the estimation precision of $N$ thermometers sparsely coupled to a common low-temperature bath can achieve the Heisenberg scaling in the low-temperature regime with only a $\pi/2$ rotation of the measurement axis, in contrast to the standard Ramsey scheme. This result is based on the assumption that interthermometer correlations are induced exclusively by low-frequency noise in the common bath, a condition achievable in practical experimental scenarios. The underlying physical mechanism is clarified, revealing that the Heisenberg scaling arises from the intrinsic nature of the temperature, which is associated solely with the fluctuation of thermal noise. In contrast to the paradigm of independent thermometers, our proposed scheme demonstrates a significant enhancement in precision for low-temperature measurement, making it suitable for precisely measuring the temperature of ultracold systems. | 翻訳日:2024-07-09 16:20:46 公開日:2024-07-08 |
# ドメイン・ジェネリゼーションのための機能拡張オーバーラップ
Enlarging Feature Support Overlap for Domain Generalization ( http://arxiv.org/abs/2407.05765v1 ) ライセンス: Link先を確認 | Yaoyao Zhu, Xiuding Cai, Dong Miao, Yu Yao, Zhongliang Fu, | (参考訳) ディープモデルは、しばしばアウト・オブ・ディストリビューション(OOD)の一般化に苦しむ。
不変リスク最小化(IRM)は、不変機能を学び、異なるドメインにわたるリスクを最小限にすることでこの問題に対処する。
したがって、経験的リスク最小化(ERM)に伴う擬似不変特徴の落とし穴や、急激な因果関係を回避できる。
しかし, 支持重なり定理によれば, 擬似不変特性が不十分な場合, ERM と IRM は OOD の問題に対処できない可能性がある。
そこで本研究では,ドメイン一般化のための機能サポートオーバーラップを拡大するための新しい手法を提案する。
具体的には、サンプルの多様性を高め、IRMの欠如を克服するために、ベイズ的ランダムなセマンティックデータ拡張を導入する。
いくつかの挑戦的なOOD一般化ベンチマークの実験は、我々のアプローチが既存のモデルを超え、優れた性能と堅牢性を提供することを示した。
コードは \url{https://github.com/YaoyaoZhu19/BSDG} で公開されている。
Deep models often struggle with out-of-distribution (OOD) generalization, limiting their real-world applicability beyond controlled laboratory settings. Invariant risk minimization (IRM) addresses this issue by learning invariant features and minimizing the risk across different domains. Thus, it avoids the pitfalls of pseudo-invariant features and spurious causality associated with empirical risk minimization (ERM). However, according to the support overlap theorem, ERM and IRM may fail to address the OOD problem when pseudo-invariant features have insufficient support overlap. To this end, we propose a novel method to enlarge feature support overlap for domain generalization. Specifically, we introduce Bayesian random semantic data augmentation to increase sample diversity and overcome the deficiency of IRM. Experiments on several challenging OOD generalization benchmarks demonstrate that our approach surpasses existing models, delivering superior performance and robustness. The code is available at \url{https://github.com/YaoyaoZhu19/BSDG}. | 翻訳日:2024-07-09 16:20:46 公開日:2024-07-08 |
# マルチエージェント強化学習に基づくネットワーク侵入検知システム
Multi-agent Reinforcement Learning-based Network Intrusion Detection System ( http://arxiv.org/abs/2407.05766v1 ) ライセンス: Link先を確認 | Amine Tellache, Amdjed Mokhtari, Abdelaziz Amara Korba, Yacine Ghamri-Doudane, | (参考訳) 侵入検知システム(IDS)は,コンピュータネットワークのセキュリティ確保において重要な役割を担っている。
機械学習は、大量のデータのパターンを分析し検出する能力によって、侵入検知の一般的なアプローチとして登場した。
しかし、現在のMLベースのIDSソリューションは、常に変化する攻撃パターンの性質と新しい攻撃タイプの出現に追随するのに苦労することが多い。
さらに、これらの解はクラス不均衡に関連する問題に直面しており、異なるクラスに属するインスタンス(通常および侵入)の数が著しく不均衡であり、マイナークラスを効果的に検出する能力を妨げる。
本稿では,自動,効率的,堅牢なネットワーク侵入検出を可能にする,新しいマルチエージェント強化学習(RL)アーキテクチャを提案する。
提案モデルの性能向上のために,重み付き平均二乗損失関数を実装し,コスト依存学習技術を用いてDQNアルゴリズムを改良した。
我々のソリューションは、新しい攻撃の追加に対応し、既存の攻撃パターンの変更に効果的に適応するように設計されたレジリエントなアーキテクチャを導入します。
CIC-IDS-2017データセットを用いて得られた実験結果から,本手法はクラス不均衡問題に効果的に対処でき,攻撃のきめ細かい分類を極めて低い偽陽性率で実現できることが示された。
現在の最先端技術と比較すると,本手法は検出率と偽陽性率の両方において有意な優位性を示す。
Intrusion Detection Systems (IDS) play a crucial role in ensuring the security of computer networks. Machine learning has emerged as a popular approach for intrusion detection due to its ability to analyze and detect patterns in large volumes of data. However, current ML-based IDS solutions often struggle to keep pace with the ever-changing nature of attack patterns and the emergence of new attack types. Additionally, these solutions face challenges related to class imbalance, where the number of instances belonging to different classes (normal and intrusions) is significantly imbalanced, which hinders their ability to effectively detect minor classes. In this paper, we propose a novel multi-agent reinforcement learning (RL) architecture, enabling automatic, efficient, and robust network intrusion detection. To enhance the capabilities of the proposed model, we have improved the DQN algorithm by implementing the weighted mean square loss function and employing cost-sensitive learning techniques. Our solution introduces a resilient architecture designed to accommodate the addition of new attacks and effectively adapt to changes in existing attack patterns. Experimental results realized using CIC-IDS-2017 dataset, demonstrate that our approach can effectively handle the class imbalance problem and provide a fine grained classification of attacks with a very low false positive rate. In comparison to the current state-of-the-art works, our solution demonstrates a significant superiority in both detection rate and false positive rate. | 翻訳日:2024-07-09 16:20:46 公開日:2024-07-08 |
# トラッカーのないフリーハンド超音波の非剛性再建
Nonrigid Reconstruction of Freehand Ultrasound without a Tracker ( http://arxiv.org/abs/2407.05767v1 ) ライセンス: Link先を確認 | Qi Li, Ziyi Shen, Qianye Yang, Dean C. Barratt, Matthew J. Clarkson, Tom Vercauteren, Yipeng Hu, | (参考訳) トラッカーを使わずに2Dフリーハンド超音波(US)フレームを3次元空間に再構成する手法は,近年,ディープラーニングの進歩を目にしている。
良好なフレーム・ツー・フレームの剛性変換を予測することは、特に空間追跡装置からの接地トラストラベルが本質的に剛性変換である場合、学習目的としてしばしば受け入れられる。
モチベーション
イ 走査中の軟組織の動きによる観察された非剛性変形、及び
b) 剛性変換の高感度予測について, 非剛性変換予測法とその利点について検討した。
そこで本稿では, トラッカーからの接地構造によって制御されたUSフレーム間の剛性変換を同時に推定する, 正規化された登録ネットワークによって最適化された非剛性変形を同時に最適化するアルゴリズムを提案する。
これらの2つの目的がメタラーニングによって最適化されるか、重み付けによって組み合わせられるかを示す。
高速分散データ補間も開発され、訓練中に非並列USフレームの頻繁な再構築と登録が可能となった。
60の被験者から得られた720のスキャンで357,000フレーム以上を含む新しいデータセットを用いて, より容易に最適化できる解空間が拡張されたことにより, 剛性接地構造に対する変形推定を付加することにより, 一般化が向上することを示した。
世界規模の画素再構成誤差(累積予測を評価する)は、ベースラインの剛性変換予測法と比較して18.48mmから16.51mmに低下する。
手動で識別されたランドマークを用いて、提案した共最適化は、トラッカーによって提供される地上構造によって測定できない非剛性組織の動きを推論時に補償する可能性も示している。
この論文で使用されるコードとデータはhttps://github.com/QiLi111/NR-Rec-FUSで公開されている。
Reconstructing 2D freehand Ultrasound (US) frames into 3D space without using a tracker has recently seen advances with deep learning. Predicting good frame-to-frame rigid transformations is often accepted as the learning objective, especially when the ground-truth labels from spatial tracking devices are inherently rigid transformations. Motivated by a) the observed nonrigid deformation due to soft tissue motion during scanning, and b) the highly sensitive prediction of rigid transformation, this study investigates the methods and their benefits in predicting nonrigid transformations for reconstructing 3D US. We propose a novel co-optimisation algorithm for simultaneously estimating rigid transformations among US frames, supervised by ground-truth from a tracker, and a nonrigid deformation, optimised by a regularised registration network. We show that these two objectives can be either optimised using meta-learning or combined by weighting. A fast scattered data interpolation is also developed for enabling frequent reconstruction and registration of non-parallel US frames, during training. With a new data set containing over 357,000 frames in 720 scans, acquired from 60 subjects, the experiments demonstrate that, due to an expanded thus easier-to-optimise solution space, the generalisation is improved with the added deformation estimation, with respect to the rigid ground-truth. The global pixel reconstruction error (assessing accumulative prediction) is lowered from 18.48 to 16.51 mm, compared with baseline rigid-transformation-predicting methods. Using manually identified landmarks, the proposed co-optimisation also shows potentials in compensating nonrigid tissue motion at inference, which is not measurable by tracker-provided ground-truth. The code and data used in this paper are made publicly available at https://github.com/QiLi111/NR-Rec-FUS. | 翻訳日:2024-07-09 16:20:46 公開日:2024-07-08 |
# 意味認識型マルチブランチフレームワークによる3次元物体検出の高速化
Boosting 3D Object Detection with Semantic-Aware Multi-Branch Framework ( http://arxiv.org/abs/2407.05769v1 ) ライセンス: Link先を確認 | Hao Jing, Anhong Wang, Lijun Zhao, Yakun Yang, Donghan Bu, Jing Zhang, Yifan Zhang, Junhui Hou, | (参考訳) 自律走行では、LiDARセンサーは3Dポイントの雲の取得に不可欠であり、信頼できる幾何学的情報を提供する。
しかし、従来の前処理のサンプリング法は意味的特徴を無視することが多く、3Dオブジェクト検出における詳細な損失と接地点干渉を引き起こす。
そこで本研究では,Semantic-aware Multi-branch Sampling (SMS)モジュールとマルチビュー整合性制約を用いたマルチブランチ2次元オブジェクト検出フレームワークを提案する。
SMSモジュールは、ランダムサンプリング、遠方のオブジェクトを拡張するための密度等化サンプリング(DES)、非地上点にフォーカスするグラウンドアベンションサンプリング(GAS)を含む。
サンプル化されたマルチビューポイントは、一貫性キーポイント選択(CKPS)モジュールを介して処理され、一貫したキーポイントマスクを生成して効率的な提案サンプリングを行う。
第1段階検出器はマルチブランチ並列学習と特徴集約のためのマルチビュー整合性損失を用いており、第2段階検出器はマルチビューフュージョンプール(MVFP)モジュールを介してマルチビューデータを融合して3Dオブジェクトを正確に予測する。
KITTI 3Dオブジェクト検出ベンチマークによる実験結果から,本手法は様々なバックボーン,特に単純なネットワーク構造を持つ低性能バックボーンに対して,優れた検出性能を実現することが示された。
In autonomous driving, LiDAR sensors are vital for acquiring 3D point clouds, providing reliable geometric information. However, traditional sampling methods of preprocessing often ignore semantic features, leading to detail loss and ground point interference in 3D object detection. To address this, we propose a multi-branch two-stage 3D object detection framework using a Semantic-aware Multi-branch Sampling (SMS) module and multi-view consistency constraints. The SMS module includes random sampling, Density Equalization Sampling (DES) for enhancing distant objects, and Ground Abandonment Sampling (GAS) to focus on non-ground points. The sampled multi-view points are processed through a Consistent KeyPoint Selection (CKPS) module to generate consistent keypoint masks for efficient proposal sampling. The first-stage detector uses multi-branch parallel learning with multi-view consistency loss for feature aggregation, while the second-stage detector fuses multi-view data through a Multi-View Fusion Pooling (MVFP) module to precisely predict 3D objects. The experimental results on KITTI 3D object detection benchmark dataset show that our method achieves excellent detection performance improvement for a variety of backbones, especially for low-performance backbones with the simple network structures. | 翻訳日:2024-07-09 16:10:47 公開日:2024-07-08 |
# 反射間再構成のためのマルチ時間モンテカルロレンダリング
Multi-times Monte Carlo Rendering for Inter-reflection Reconstruction ( http://arxiv.org/abs/2407.05771v1 ) ライセンス: Link先を確認 | Tengjie Zhu, Zhuo Chen, Jingnan Gao, Yichao Yan, Xiaokang Yang, | (参考訳) 逆レンダリング法は、非絡み合ったジオメトリー、材料、環境光で高忠実度3Dオブジェクトを再構成する際、顕著な性能を実現している。
しかし、反射面の復元には大きな課題がある。
近年の方法は光トレースをモデル化して光の特異性を学習するが、間接照明の無知は、複数の滑らかな物体間の反射間処理を困難にしている。
本研究では, 環境照明を包括的に計算し, 物体表面からの反射光を考慮したマルチタイムモンテカルロサンプリングを導入するRef-MC2を提案する。
モンテカルロサンプリングの時代が進むにつれ,計算の課題に対処するため,特異性適応型サンプリング戦略を提案し,計算複雑性を著しく低減する。
計算資源の他に、幾何誤差が複数回蓄積されるため、より高い幾何精度も要求される。
そこで本研究では,逆レンダリング時に幾何を初期化し,それを洗練するための反射認識表面モデルについても紹介する。
複数のオブジェクトと相互反射を含むシーンを含む挑戦的なデータセットを構築する。
実験により,本手法は様々な対象群において,他の逆レンダリング手法よりも優れていることが示された。
また,本手法のアンタングル化能力を示すために,リライティングや素材編集などのダウンストリームアプリケーションも紹介する。
Inverse rendering methods have achieved remarkable performance in reconstructing high-fidelity 3D objects with disentangled geometries, materials, and environmental light. However, they still face huge challenges in reflective surface reconstruction. Although recent methods model the light trace to learn specularity, the ignorance of indirect illumination makes it hard to handle inter-reflections among multiple smooth objects. In this work, we propose Ref-MC2 that introduces the multi-time Monte Carlo sampling which comprehensively computes the environmental illumination and meanwhile considers the reflective light from object surfaces. To address the computation challenge as the times of Monte Carlo sampling grow, we propose a specularity-adaptive sampling strategy, significantly reducing the computational complexity. Besides the computational resource, higher geometry accuracy is also required because geometric errors accumulate multiple times. Therefore, we further introduce a reflection-aware surface model to initialize the geometry and refine it during inverse rendering. We construct a challenging dataset containing scenes with multiple objects and inter-reflections. Experiments show that our method outperforms other inverse rendering methods on various object groups. We also show downstream applications, e.g., relighting and material editing, to illustrate the disentanglement ability of our method. | 翻訳日:2024-07-09 16:10:47 公開日:2024-07-08 |
# メッセージパッシングニューラルネットワークによる自律型サイバーインシデント応答の構造一般化と強化学習
Structural Generalization in Autonomous Cyber Incident Response with Message-Passing Neural Networks and Reinforcement Learning ( http://arxiv.org/abs/2407.05775v1 ) ライセンス: Link先を確認 | Jakob Nyberg, Pontus Johnson, | (参考訳) 我々は、機械学習に基づく自動インシデント応答のエージェントは、ネットワーク構造の変化を扱う必要があると考えている。
コンピュータネットワークは動的であり、時間とともに自然に構造を変えることができる。
小さなネットワーク変更のためのリトレーニングエージェントは、時間とエネルギーを消費する。
本稿では,既存の関係エージェント学習手法を用いてこの問題に対処する。
コンピュータネットワークの状態はリレーショナルグラフとして表現され、メッセージパッシングニューラルネットワークを介して符号化される。
エンコーディングを用いたメッセージパッシングニューラルネットワークとエージェントポリシーを、強化学習を用いてエンドツーエンドに最適化する。
我々は,企業ネットワークへの攻撃をシミュレートするサイバーインシデントシミュレータCAGE〜2の2番目の事例に対するアプローチを評価する。
ホストの数が異なる元のネットワークの変種を作成し、エージェントを追加のトレーニングなしでテストします。
この結果から,ネットワークの変更にもかかわらず,関係情報を利用したエージェントが解を見つけることができ,場合によっては最適に動作できることが示唆された。
デフォルトのベクトル状態表現を使用するエージェントは、パフォーマンスが向上するが、各ネットワークバリアントに対して特別にトレーニングする必要がある。
We believe that agents for automated incident response based on machine learning need to handle changes in network structure. Computer networks are dynamic, and can naturally change in structure over time. Retraining agents for small network changes costs time and energy. We attempt to address this issue with an existing method of relational agent learning, where the relations between objects are assumed to remain consistent across problem instances. The state of the computer network is represented as a relational graph and encoded through a message passing neural network. The message passing neural network and an agent policy using the encoding are optimized end-to-end using reinforcement learning. We evaluate the approach on the second instance of the Cyber Autonomy Gym for Experimentation (CAGE~2), a cyber incident simulator that simulates attacks on an enterprise network. We create variants of the original network with different numbers of hosts and agents are tested without additional training on them. Our results show that agents using relational information are able to find solutions despite changes to the network, and can perform optimally in some instances. Agents using the default vector state representation perform better, but need to be specially trained on each network variant, demonstrating a trade-off between specialization and generalization. | 翻訳日:2024-07-09 16:10:47 公開日:2024-07-08 |
# 一貫性のある予測が正しい予測になるのはいつでしょう?
When is the consistent prediction likely to be a correct prediction? ( http://arxiv.org/abs/2407.05778v1 ) ライセンス: Link先を確認 | Alex Nguyen, Dheeraj Mekala, Chengyu Dong, Jingbo Shang, | (参考訳) 自己整合性 (Wang et al , 2023) は、大きな言語モデル (LLMs) によって得られる最も一貫性のある答えが正しい可能性が高いことを示唆している。
本稿では,この議論に挑戦し,ニュアンス補正を提案する。
我々の観察は、より多くの計算によって導かれる一貫性のある答え、すなわち、すべての出力に対して最も一貫性のある答えよりも、より長い推論テキストによって導かれる一貫性のある答えが正しいことを示唆している。
これは、LLMが、より長いレスポンスを生成しながら、カスタムプロンプトを伴わずに、自律的にチェーン・オブ・ソート(CoT)スタイルの推論を生成できることを示し、より正確な一貫した予測につながるためである。
ゼロショット設定では、Mixtral-8x7Bモデルを複数回サンプリングし、より長い応答を考慮し、GSM8KおよびMultiArithデータセット上でのゼロショットCoTによる自己整合性能の86%を達成する。
最後に,LLMがより長い応答を生成する確率は非常に低いことを示し,出力長を条件とした復号化戦略の必要性を強調した。
Self-consistency (Wang et al., 2023) suggests that the most consistent answer obtained through large language models (LLMs) is more likely to be correct. In this paper, we challenge this argument and propose a nuanced correction. Our observations indicate that consistent answers derived through more computation i.e. longer reasoning texts, rather than simply the most consistent answer across all outputs, are more likely to be correct. This is predominantly because we demonstrate that LLMs can autonomously produce chain-of-thought (CoT) style reasoning with no custom prompts merely while generating longer responses, which lead to consistent predictions that are more accurate. In the zero-shot setting, by sampling Mixtral-8x7B model multiple times and considering longer responses, we achieve 86% of its self-consistency performance obtained through zero-shot CoT prompting on the GSM8K and MultiArith datasets. Finally, we demonstrate that the probability of LLMs generating a longer response is quite low, highlighting the need for decoding strategies conditioned on output length. | 翻訳日:2024-07-09 16:10:47 公開日:2024-07-08 |
# 線形量子適応制御のためのマルチタスク表現学習のレグレト解析
Regret Analysis of Multi-task Representation Learning for Linear-Quadratic Adaptive Control ( http://arxiv.org/abs/2407.05781v1 ) ライセンス: Link先を確認 | Bruce D. Lee, Leonardo F. Toso, Thomas T. Zhang, James Anderson, Nikolai Matni, | (参考訳) 表現学習(representation learning)は、すべてのエージェントが共有された学習機能のセットで操作するように強制することによって、多数のエージェントやドメインをまたがる学習を可能にする強力なツールである。
しかしながら、多くのロボティクスやコントロールアプリケーションは、環境や目標を変更する設定で動作しますが、ほとんどの保証は静的な設定で記述されます。
動的セッティングにおける表現学習の利点を厳格に確立するために、線形四元数制御のためのマルチタスク表現学習の後悔を分析した。
この設定にはユニークな課題が伴います。
まず、近似表現によって導入された$\textit{misspecification}$を考慮し、バランスをとる必要がある。
第2に、最小二乗がしばしば十分であるシングルタスクオンラインLQRのパラメータ更新スキームに頼ることができず、十分な改善を確保するために新しいスキームを考案する必要がある。
探索が"良"な設定の場合、$T$タイムステップ後のエージェントの後悔は、$\tilde O(\sqrt{T/H})$とスケールし、$H$はエージェントの数である。
d_x$ は状態空間次元、$d_u$ は入力次元、$d_\theta$ はタスク固有のパラメータカウントである。
どちらの場合も、minimax single-task regret $\tilde{\mathcal O}(\sqrt{d_x d_u^2}\sqrt{T})$と比較すると、多数のエージェントの利点が見られる。
特に、難しい調査ケースでは、タスク間で表現を共有することで、効果的なタスク固有のパラメータカウントを小さな$d_\theta < d_x d_u$にすることができる。
最後に,予測する傾向の数値検証を行う。
Representation learning is a powerful tool that enables learning over large multitudes of agents or domains by enforcing that all agents operate on a shared set of learned features. However, many robotics or controls applications that would benefit from collaboration operate in settings with changing environments and goals, whereas most guarantees for representation learning are stated for static settings. Toward rigorously establishing the benefit of representation learning in dynamic settings, we analyze the regret of multi-task representation learning for linear-quadratic control. This setting introduces unique challenges. Firstly, we must account for and balance the $\textit{misspecification}$ introduced by an approximate representation. Secondly, we cannot rely on the parameter update schemes of single-task online LQR, for which least-squares often suffices, and must devise a novel scheme to ensure sufficient improvement. We demonstrate that for settings where exploration is "benign", the regret of any agent after $T$ timesteps scales as $\tilde O(\sqrt{T/H})$, where $H$ is the number of agents. In settings with "difficult" exploration, the regret scales as $\tilde{\mathcal O}(\sqrt{d_u d_\theta} \sqrt{T} + T^{3/4}/H^{1/5})$, where $d_x$ is the state-space dimension, $d_u$ is the input dimension, and $d_\theta$ is the task-specific parameter count. In both cases, by comparing to the minimax single-task regret $\tilde{\mathcal O}(\sqrt{d_x d_u^2}\sqrt{T})$, we see a benefit of a large number of agents. Notably, in the difficult exploration case, by sharing a representation across tasks, the effective task-specific parameter count can often be small $d_\theta < d_x d_u$. Lastly, we provide numerical validation of the trends we predict. | 翻訳日:2024-07-09 16:10:47 公開日:2024-07-08 |
# 逐次コントラスト型音声視覚学習
Sequential Contrastive Audio-Visual Learning ( http://arxiv.org/abs/2407.05782v1 ) ライセンス: Link先を確認 | Ioannis Tsiamas, Santiago Pascual, Chunghsin Yeh, Joan Serrà, | (参考訳) コントラスト学習は、大規模なWebスケールビデオデータセットにおける音声と視覚の自然な共起を利用した、視覚的表現学習の強力な手法として登場した。
しかし、従来のコントラスト学習手法は、時間的アグリゲーションによって導出される集約表現に依存しており、データ固有のシーケンシャルな性質を無視する。
この監視は、シークエンス内のきめ細かい情報をキャプチャして利用するための標準的なアプローチの能力に関する懸念を提起する。
この制限に対応するために、逐次距離を用いた非集約表現空間に基づく実例を対比した逐次コントラスト型音声視覚学習(SCAV)を提案する。
VGGSound と Music のデータセットを用いた検索実験では,SCAV の有効性が示され,従来の集約型コントラスト学習や文献からの他の手法と比較して2~3倍の改善が見られた。
また、SCAVでトレーニングされたモデルは、検索に使用されるメトリックに関して高い柔軟性を示し、効率と精度のトレードオフのスペクトルを操作できることを示し、小規模から大規模まで、複数のシナリオに適用できる可能性を示した。
Contrastive learning has emerged as a powerful technique in audio-visual representation learning, leveraging the natural co-occurrence of audio and visual modalities in extensive web-scale video datasets to achieve significant advancements. However, conventional contrastive audio-visual learning methodologies often rely on aggregated representations derived through temporal aggregation, which neglects the intrinsic sequential nature of the data. This oversight raises concerns regarding the ability of standard approaches to capture and utilize fine-grained information within sequences, information that is vital for distinguishing between semantically similar yet distinct examples. In response to this limitation, we propose sequential contrastive audio-visual learning (SCAV), which contrasts examples based on their non-aggregated representation space using sequential distances. Retrieval experiments with the VGGSound and Music datasets demonstrate the effectiveness of SCAV, showing 2-3x relative improvements against traditional aggregation-based contrastive learning and other methods from the literature. We also show that models trained with SCAV exhibit a high degree of flexibility regarding the metric employed for retrieval, allowing them to operate on a spectrum of efficiency-accuracy trade-offs, potentially making them applicable in multiple scenarios, from small- to large-scale retrieval. | 翻訳日:2024-07-09 16:10:47 公開日:2024-07-08 |
# 司法エンティティ抽出のための大規模言語モデルの比較研究
Large Language Models for Judicial Entity Extraction: A Comparative Study ( http://arxiv.org/abs/2407.05786v1 ) ライセンス: Link先を確認 | Atin Sakkeer Hussain, Anu Thomas, | (参考訳) ドメイン固有エンティティ認識は、質問応答システム、テキスト要約、機械翻訳、感情分析、ケースロー文書内の情報検索など、様々なアプリケーションをサポートする基本的なタスクとして機能する。
最近の進歩は、自然言語処理タスクにおけるLarge Language Modelsの有効性を強調し、臨床やファイナンシャルドキュメントのような専門的なテキストから、ドメイン固有の事実(エンティティ)を正確に検出し、分類する能力を示している。
本研究は, 事例法文書中のドメイン固有エンティティ(裁判所, 請願者, 裁判官, 弁護士, 回答者, FIR Nos.)の特定における大規模言語モデルの適用について検討し, ドメイン固有言語の複雑性と文脈変動を扱うための適性に着目した。
この研究は、インドの司法文書に合わせた司法事実を抽出する文脈において、大規模言語モデルメタAI3、Mistral、Gemmaを含む最先端の大規模言語モデルアーキテクチャの性能を評価する。
MistralとGemmaは最高のパフォーマンスモデルとして登場し、バランスの取れた精度を示し、正確な実体の同定に欠かせないリコールを行った。
これらの知見は, 司法文書における大規模言語モデルの価値を検証し, 詳細な組織化されたデータアウトプットを作成することにより, 科学的研究の迅速化と迅速化を図っている。
Domain-specific Entity Recognition holds significant importance in legal contexts, serving as a fundamental task that supports various applications such as question-answering systems, text summarization, machine translation, sentiment analysis, and information retrieval specifically within case law documents. Recent advancements have highlighted the efficacy of Large Language Models in natural language processing tasks, demonstrating their capability to accurately detect and classify domain-specific facts (entities) from specialized texts like clinical and financial documents. This research investigates the application of Large Language Models in identifying domain-specific entities (e.g., courts, petitioner, judge, lawyer, respondents, FIR nos.) within case law documents, with a specific focus on their aptitude for handling domain-specific language complexity and contextual variations. The study evaluates the performance of state-of-the-art Large Language Model architectures, including Large Language Model Meta AI 3, Mistral, and Gemma, in the context of extracting judicial facts tailored to Indian judicial texts. Mistral and Gemma emerged as the top-performing models, showcasing balanced precision and recall crucial for accurate entity identification. These findings confirm the value of Large Language Models in judicial documents and demonstrate how they can facilitate and quicken scientific research by producing precise, organised data outputs that are appropriate for in-depth examination. | 翻訳日:2024-07-09 16:10:47 公開日:2024-07-08 |
# 制約ベイズ最適化を用いたMLアルゴリズムの自動計算エネルギー最小化
Automated Computational Energy Minimization of ML Algorithms using Constrained Bayesian Optimization ( http://arxiv.org/abs/2407.05788v1 ) ライセンス: Link先を確認 | Pallavi Mitra, Felix Biessmann, | (参考訳) ベイズ最適化(BO)は、関数評価がコストがかかり、勾配情報が容易にアクセスできない場合に、ブラックボックスの目的を最適化するための効率的なフレームワークである。
BOは機械学習(ML)モデルにおけるハイパーパラメータ最適化(HPO)タスクの自動化に成功している。
しかし近年,モデルサイズの増大に伴い,モデルトレーニングに伴うエネルギーコストがMLアプリケーションにとって重要な要因となっている。
ここでは、エネルギー消費を最小化し、一般化性能がしきい値を超えるという制約を受けることを目的として、制約付きベイズ最適化(CBO)を評価する。
回帰および分類タスクに対する我々のアプローチを評価し,MLモデルの予測性能を損なうことなく,CBOが低消費電力化を実現することを示す。
Bayesian optimization (BO) is an efficient framework for optimization of black-box objectives when function evaluations are costly and gradient information is not easily accessible. BO has been successfully applied to automate the task of hyperparameter optimization (HPO) in machine learning (ML) models with the primary objective of optimizing predictive performance on held-out data. In recent years, however, with ever-growing model sizes, the energy cost associated with model training has become an important factor for ML applications. Here we evaluate Constrained Bayesian Optimization (CBO) with the primary objective of minimizing energy consumption and subject to the constraint that the generalization performance is above some threshold. We evaluate our approach on regression and classification tasks and demonstrate that CBO achieves lower energy consumption without compromising the predictive performance of ML models. | 翻訳日:2024-07-09 16:10:47 公開日:2024-07-08 |
# CANDID DAC:DACにおける重要度の違いを考慮した結合アクション次元の活用
CANDID DAC: Leveraging Coupled Action Dimensions with Importance Differences in DAC ( http://arxiv.org/abs/2407.05789v1 ) ライセンス: Link先を確認 | Philipp Bordne, M. Asif Hasan, Eddie Bergman, Noor Awad, André Biedenkapp, | (参考訳) 高次元のアクション空間は、動的アルゴリズム構成(DAC)の課題である。
アクション次元間の相互依存と異なる重要性は、DAC問題のさらに重要な特徴である。
我々は、これらの結合行動次元と重要度差(CANDID)は、まだ十分に研究されていないDAC問題の側面を表していると論じる。
このギャップに対処するため、我々はCANDIDの特性をシミュレートする新しいホワイトボックスベンチマークをDACBenchスイート内に導入した。
さらに、これらのプロパティを管理するための効果的な戦略として、シーケンシャルポリシーを提案する。
このようなポリシーはアクション空間を分解し、アクション次元ごとのポリシーを学ぶことで指数的な成長を緩和する。
同時に、これらのポリシーは暗黙の調整を促進することによって、行動次元の相互依存に対応する。
我々は、新しいベンチマークで価値ベースのポリシーを実験的に検討した。
本研究は、CANDIDアクション空間における因子化ポリシーの独立学習において、シーケンシャルポリシーが顕著に優れていることを示す。
さらに、すべてのアクションディメンジョンにわたって単一のポリシーを学ぶことに関連するスケーラビリティの制限を克服します。
我々の実験で使われたコードはhttps://github.com/PhilippBordne/candidDAC.comで入手できる。
High-dimensional action spaces remain a challenge for dynamic algorithm configuration (DAC). Interdependencies and varying importance between action dimensions are further known key characteristics of DAC problems. We argue that these Coupled Action Dimensions with Importance Differences (CANDID) represent aspects of the DAC problem that are not yet fully explored. To address this gap, we introduce a new white-box benchmark within the DACBench suite that simulates the properties of CANDID. Further, we propose sequential policies as an effective strategy for managing these properties. Such policies factorize the action space and mitigate exponential growth by learning a policy per action dimension. At the same time, these policies accommodate the interdependence of action dimensions by fostering implicit coordination. We show this in an experimental study of value-based policies on our new benchmark. This study demonstrates that sequential policies significantly outperform independent learning of factorized policies in CANDID action spaces. In addition, they overcome the scalability limitations associated with learning a single policy across all action dimensions. The code used for our experiments is available under https://github.com/PhilippBordne/candidDAC. | 翻訳日:2024-07-09 16:10:47 公開日:2024-07-08 |
# モンテカルロの速度論的相互作用粒子ランゲヴィン
Kinetic Interacting Particle Langevin Monte Carlo ( http://arxiv.org/abs/2407.05790v1 ) ライセンス: Link先を確認 | Paul Felix Valsecchi Oliva, O. Deniz Akyildiz, | (参考訳) 本稿では、潜伏変数モデルにおける統計的推測のために、Kineetic Interacting Particle Langevin Monte Carlo (KIPLMC) 法と呼ばれる、アンダーダム付きランゲインアルゴリズムの相互作用を紹介し、解析する。
本稿では,パラメータと潜伏変数の空間内で共同で進化する拡散過程を提案し,この拡散の定常分布がパラメータの最大限界推定値の周りに集中しているという事実を利用する。
次に、統計モデルのパラメータを推定する実用的なアルゴリズムとして、この拡散について2つの明確な考察を行う。
各アルゴリズムに対して、潜伏変数やパラメータに関して、関節の対数類似度が強い場合の非漸近収束率を求める。
特に,拡散の収束解析を離散化誤差とともに提供し,ワッサーシュタイン2距離におけるアルゴリズムの収束率推定を行う。
提案手法の有用性を実証するために, 統計的推測のための拡散法の有効性と, 離散化に利用した数値積分器の安定性を示す数値実験を行った。
私たちの設定では、教師なし学習、統計的推論、逆問題など、幅広い応用をカバーしています。
This paper introduces and analyses interacting underdamped Langevin algorithms, termed Kinetic Interacting Particle Langevin Monte Carlo (KIPLMC) methods, for statistical inference in latent variable models. We propose a diffusion process that evolves jointly in the space of parameters and latent variables and exploit the fact that the stationary distribution of this diffusion concentrates around the maximum marginal likelihood estimate of the parameters. We then provide two explicit discretisations of this diffusion as practical algorithms to estimate parameters of statistical models. For each algorithm, we obtain nonasymptotic rates of convergence for the case where the joint log-likelihood is strongly concave with respect to latent variables and parameters. In particular, we provide convergence analysis for the diffusion together with the discretisation error, providing convergence rate estimates for the algorithms in Wasserstein-2 distance. To demonstrate the utility of the introduced methodology, we provide numerical experiments that demonstrate the effectiveness of the proposed diffusion for statistical inference and the stability of the numerical integrators utilised for discretisation. Our setting covers a broad number of applications, including unsupervised learning, statistical inference, and inverse problems. | 翻訳日:2024-07-09 16:10:47 公開日:2024-07-08 |
# 販売制約下での逐次表示された補完アイテムの動的価格決定のための初日オンライン学習手法
A Primal-Dual Online Learning Approach for Dynamic Pricing of Sequentially Displayed Complementary Items under Sale Constraints ( http://arxiv.org/abs/2407.05793v1 ) ライセンス: Link先を確認 | Francesco Emanuele Stradi, Filippo Cipriani, Lorenzo Ciampiconi, Marco Leonardi, Alessandro Rozza, Nicola Gatti, | (参考訳) 顧客に対して順次表示される補完アイテムを動的に価格設定するという課題に対処する。
説明的な例として、顧客が複数のWebページをナビゲートするフライトチケットのオンライン販売がある。
当初は切符のコストを判断し、保険や追加の荷物料金などの補助費用を課した。
各項目の価格を個別に最適化するのは効果がないため、補完項目のコヒーレントな価格ポリシーが不可欠である。
当社のシナリオには、販売対象アイテムの最小数を指定する販売制約や、顧客需要曲線に関する不確実性も含まれる。
この問題に対処するため、当初、制約付きマルコフ決定プロセスとして定式化しました。
オンライン学習ツールを活用することで、原始二重オンライン最適化アルゴリズムを設計する。
本研究では,実世界のデータからランダムに生成された合成設定を用いて,定常状態から非定常状態までの様々な構成を網羅し,各状態を一意に最適化するよく知られたベースラインに対する制約違反や後悔の点において,その性能を比較した。
We address the challenging problem of dynamically pricing complementary items that are sequentially displayed to customers. An illustrative example is the online sale of flight tickets, where customers navigate through multiple web pages. Initially, they view the ticket cost, followed by ancillary expenses such as insurance and additional luggage fees. Coherent pricing policies for complementary items are essential because optimizing the pricing of each item individually is ineffective. Our scenario also involves a sales constraint, which specifies a minimum number of items to sell, and uncertainty regarding customer demand curves. To tackle this problem, we originally formulate it as a Markov Decision Process with constraints. Leveraging online learning tools, we design a primal-dual online optimization algorithm. We empirically evaluate our approach using synthetic settings randomly generated from real-world data, covering various configurations from stationary to non-stationary, and compare its performance in terms of constraints violation and regret against well-known baselines optimizing each state singularly. | 翻訳日:2024-07-09 16:10:47 公開日:2024-07-08 |
# HyCIR: 合成ラベルを用いたゼロショット合成画像検索
HyCIR: Boosting Zero-Shot Composed Image Retrieval with Synthetic Labels ( http://arxiv.org/abs/2407.05795v1 ) ライセンス: Link先を確認 | Yingying Jiang, Hanchao Jia, Xiaobing Wang, Peng Hao, | (参考訳) Composed Image Retrieval (CIR)は、テキストによるクエリ画像に基づいて画像を取得することを目的としている。
現在のZero-Shot CIR(ZS-CIR)メソッドは、高価な三重項ラベルのトレーニングデータセットを使わずにCIRタスクを解決しようとする。
しかし、ZS-CIRとトリプルト制御CIRの差は依然として大きい。
本研究では,合成ラベルを用いてZS-CIRの性能を向上させるハイブリッドCIR(HyCIR)を提案する。
CIR(SynCir)のための新しいラベル合成パイプラインが提案されている。
まず、視覚的類似性に基づいて画像対を抽出する。
次に、視覚言語モデルとLLMに基づいて、画像ペア毎にクエリテキストを生成する。
第三に、データは意味的類似性に基づいて言語空間でさらにフィルタリングされる。
ZS-CIR性能を向上させるために,ZS-CIR監視と合成CIRトレーレットの併用によるハイブリッドトレーニング戦略を提案する。
2種類のコントラスト学習が採用されている。
ひとつは、大規模なラベルなし画像データセットを使用して、優れた一般化を伴う画像からテキストへのマッピングを学習することである。
もうひとつは、合成CIRトリプルを使用して、CIRタスクのより良いマッピングを学習することだ。
提案手法は,一般的なCIRベンチマークであるCIRRとCIRCOのSOTAゼロショット性能を実現する。
Composed Image Retrieval (CIR) aims to retrieve images based on a query image with text. Current Zero-Shot CIR (ZS-CIR) methods try to solve CIR tasks without using expensive triplet-labeled training datasets. However, the gap between ZS-CIR and triplet-supervised CIR is still large. In this work, we propose Hybrid CIR (HyCIR), which uses synthetic labels to boost the performance of ZS-CIR. A new label Synthesis pipeline for CIR (SynCir) is proposed, in which only unlabeled images are required. First, image pairs are extracted based on visual similarity. Second, query text is generated for each image pair based on vision-language model and LLM. Third, the data is further filtered in language space based on semantic similarity. To improve ZS-CIR performance, we propose a hybrid training strategy to work with both ZS-CIR supervision and synthetic CIR triplets. Two kinds of contrastive learning are adopted. One is to use large-scale unlabeled image dataset to learn an image-to-text mapping with good generalization. The other is to use synthetic CIR triplets to learn a better mapping for CIR tasks. Our approach achieves SOTA zero-shot performance on the common CIR benchmarks: CIRR and CIRCO. | 翻訳日:2024-07-09 16:10:47 公開日:2024-07-08 |
# Bi-Parametric MRIを用いたグリソン群推定のためのPoisson Ordinal Network
Poisson Ordinal Network for Gleason Group Estimation Using Bi-Parametric MRI ( http://arxiv.org/abs/2407.05796v1 ) ライセンス: Link先を確認 | Yinsong Xu, Yipei Wang, Ziyi Shen, Iani J. M. B. Gayo, Natasha Thorley, Shonit Punwani, Aidong Men, Dean Barratt, Qingchao Chen, Yipeng Hu, | (参考訳) グリーソン群は前立腺癌の主要な組織学的グレーディングシステムとして機能し、がんの成長と転移の可能性を重要な知見を提供する。
臨床実践では、超音波ガイド下生検で得られた標本に基づいて、病理学者がグリーソン群を決定する。
本研究では,MRI画像からGleason群を直接推定し,必要な生検を減らす可能性を検討した。
この課題の2つの特徴、順序性および結果として生じるグリーソン群間の依存的かつ未知な分散を同定する。
Gleasonパターンの解釈に基づく多段階のGleasonスコアリングプロセスにおける観測者間変動に加えて、MRに基づく予測はサンプルサンプルのばらつきも考慮し、より少ない程度のMRイメージングプロトコルも検討する。
この課題に対処するために,新しいPoisson Ordinal Network (PON)を提案する。
PONは、ポアソン分布を用いて予測をモデル化し、ポアソンの符号化とポアソンの焦点損失を利用して、数値的な接地ルールのみに依存するのではなく、順序クラス(ここではグリーソン群)間の学習可能な依存関係を捉える(グリーソン群 1-5 またはグリーソンスコア 6-10 )。
このモデリングの有効性を改善するために、PONはコントラスト学習をメモリバンクと併用してクラス内の分散を規則化し、コントラスト学習のメモリ要件をバッチサイズから分離する。
265人の前生検患者から得られた飽和生検画像に基づく実験結果から,提案手法の優位性と有効性を示した。
The Gleason groups serve as the primary histological grading system for prostate cancer, providing crucial insights into the cancer's potential for growth and metastasis. In clinical practice, pathologists determine the Gleason groups based on specimens obtained from ultrasound-guided biopsies. In this study, we investigate the feasibility of directly estimating the Gleason groups from MRI scans to reduce otherwise required biopsies. We identify two characteristics of this task, ordinality and the resulting dependent yet unknown variances between Gleason groups. In addition to the inter- / intra- observer variability in a multi-step Gleason scoring process based on the interpretation of Gleason patterns, our MR-based prediction is also subject to specimen sampling variance and, to a lesser degree, varying MR imaging protocols. To address this challenge, we propose a novel Poisson ordinal network (PON). PONs model the prediction using a Poisson distribution and leverages Poisson encoding and Poisson focal loss to capture a learnable dependency between ordinal classes (here, Gleason groups), rather than relying solely on the numerical ground-truth (e.g. Gleason Groups 1-5 or Gleason Scores 6-10). To improve this modelling efficacy, PONs also employ contrastive learning with a memory bank to regularise intra-class variance, decoupling the memory requirement of contrast learning from the batch size. Experimental results based on the images labelled by saturation biopsies from 265 prior-biopsy-blind patients, across two tasks demonstrate the superiority and effectiveness of our proposed method. | 翻訳日:2024-07-09 16:10:47 公開日:2024-07-08 |
# FedMRL:医療画像のための多エージェント深部強化学習を意識したデータ不均一性
FedMRL: Data Heterogeneity Aware Federated Multi-agent Deep Reinforcement Learning for Medical Imaging ( http://arxiv.org/abs/2407.05800v1 ) ライセンス: Link先を確認 | Pranab Sahoo, Ashutosh Tripathi, Sriparna Saha, Samrat Mondal, | (参考訳) 近年の医用画像診断におけるフェデレートラーニング(FL)の進歩にもかかわらず、クライアント間のデータの均一性に対処することは、実用上重要な課題である。
FLの主なハードルは、クライアント間のデータサンプルの非IID的な性質から生じ、通常は集約されたグローバルモデルの性能が低下する。
本研究では,データの不均一性に対処する新しい多エージェント深層強化学習フレームワークであるFedMRLを紹介する。
FedMRLは、クライアント間の公平性を促進するために、新たな損失関数を導入し、最終グローバルモデルのバイアスを防ぐ。
さらに、マルチエージェント強化学習(MARL)アプローチを用いて、パーソナライズされた局所目的関数の近位項$(\mu)$を計算し、グローバルな最適化への収束を確保する。
さらに、FedMRLは、サーバ側の自己組織化マップ(SOM)を用いて、クライアントのローカルデータ分布間の分散シフトに対処する適応的な重み調整手法を統合する。
その結果,FedMRLは最先端技術よりも優れており,フェデレート学習におけるデータ不均一性に対処する上での有効性が示された。
コードは、-{\url{https://github.com/Pranabiitp/FedMRL}}で見ることができる。
Despite recent advancements in federated learning (FL) for medical image diagnosis, addressing data heterogeneity among clients remains a significant challenge for practical implementation. A primary hurdle in FL arises from the non-IID nature of data samples across clients, which typically results in a decline in the performance of the aggregated global model. In this study, we introduce FedMRL, a novel federated multi-agent deep reinforcement learning framework designed to address data heterogeneity. FedMRL incorporates a novel loss function to facilitate fairness among clients, preventing bias in the final global model. Additionally, it employs a multi-agent reinforcement learning (MARL) approach to calculate the proximal term $(\mu)$ for the personalized local objective function, ensuring convergence to the global optimum. Furthermore, FedMRL integrates an adaptive weight adjustment method using a Self-organizing map (SOM) on the server side to counteract distribution shifts among clients' local data distributions. We assess our approach using two publicly available real-world medical datasets, and the results demonstrate that FedMRL significantly outperforms state-of-the-art techniques, showing its efficacy in addressing data heterogeneity in federated learning. The code can be found here~{\url{https://github.com/Pranabiitp/FedMRL}}. | 翻訳日:2024-07-09 16:10:47 公開日:2024-07-08 |
# 大学教育におけるAIの統合 - ChatGPTによる肯定的かつ混合的な体験
Integrating AI in College Education: Positive yet Mixed Experiences with ChatGPT ( http://arxiv.org/abs/2407.05810v1 ) ライセンス: Link先を確認 | Xinrui Song, Jiajin Zhang, Pingkun Yan, Juergen Hahn, Uwe Kruger, Hisham Mohamed, Ge Wang, | (参考訳) 人工知能(AI)チャットボットの高等教育への統合は、インターネットのようなマイルストーンの到来を反映して、新しい世代の教育ツールへのシフトを示している。
2023年11月にChatGPT-4 Turboをローンチし、ChatGPTベースの教育アプリケーション(https://chat.openai.com/g/g-1imx1py4K-chatge-medical-imaging)を開発し、2024年度の春に大学医科画像コースに統合した。
本研究は,ChatGPTの授業中の使用について検討し,学生のエンゲージメント,知覚,総合的な教育効果について考察した。
学生のChatGPTとのインタラクションに関するデータを体系的に収集,分析し,その態度,関心事,利用パターンに着目した。
以上の結果から,ChatGPTは情報アクセスの向上や対話性の向上など,大きなメリットがあることが明らかとなった。
The integration of artificial intelligence (AI) chatbots into higher education marks a shift towards a new generation of pedagogical tools, mirroring the arrival of milestones like the internet. With the launch of ChatGPT-4 Turbo in November 2023, we developed a ChatGPT-based teaching application (https://chat.openai.com/g/g-1imx1py4K-chatge-medical-imaging) and integrated it into our undergraduate medical imaging course in the Spring 2024 semester. This study investigates the use of ChatGPT throughout a semester-long trial, providing insights into students' engagement, perception, and the overall educational effectiveness of the technology. We systematically collected and analyzed data concerning students' interaction with ChatGPT, focusing on their attitudes, concerns, and usage patterns. The findings indicate that ChatGPT offers significant advantages such as improved information access and increased interactivity, but its adoption is accompanied by concerns about the accuracy of the information provided and the necessity for well-defined guidelines to optimize its use. | 翻訳日:2024-07-09 16:10:47 公開日:2024-07-08 |
# MapTP:HDマップ画像を用いた自動車両のマルチモーダル軌道予測
MapsTP: HD Map Images Based Multimodal Trajectory Prediction for Automated Vehicles ( http://arxiv.org/abs/2407.05811v1 ) ライセンス: Link先を確認 | Sushil Sharma, Arindam Das, Ganesh Sistu, Mark Halton, Ciarán Eising, | (参考訳) エゴ自動車の軌道予測は、特に他の車両や歩行者の予測不可能な振る舞いのため、都市部や密集地域では、依然として重要な課題である。
マルチモーダル軌跡予測は, 多様な環境データに基づいて, 複数の将来の軌跡を考慮し, 意思決定を促進する。
本研究では,ResNet-50を用いて高精細マップデータから画像の特徴を抽出し,IMUセンサデータを用いて速度,加速度,ヨーレートを算出する。
時間確率ネットワークを用いて潜在的な軌道を計算し、最も正確で高い確率の軌道経路を選択する。
この方法はHDマップデータを統合して、自動運転車の軌道予測の堅牢性と信頼性を向上させる。
Predicting ego vehicle trajectories remains a critical challenge, especially in urban and dense areas due to the unpredictable behaviours of other vehicles and pedestrians. Multimodal trajectory prediction enhances decision-making by considering multiple possible future trajectories based on diverse sources of environmental data. In this approach, we leverage ResNet-50 to extract image features from high-definition map data and use IMU sensor data to calculate speed, acceleration, and yaw rate. A temporal probabilistic network is employed to compute potential trajectories, selecting the most accurate and highly probable trajectory paths. This method integrates HD map data to improve the robustness and reliability of trajectory predictions for autonomous vehicles. | 翻訳日:2024-07-09 16:00:10 公開日:2024-07-08 |
# 交通信号認識の強化のためのドメイン間Few-shot In-context Learning
Cross-domain Few-shot In-context Learning for Enhancing Traffic Sign Recognition ( http://arxiv.org/abs/2407.05814v1 ) ライセンス: Link先を確認 | Yaozong Gan, Guang Li, Ren Togo, Keisuke Maeda, Takahiro Ogawa, Miki Haseyama, | (参考訳) GPT-4o や GPT-4v のような最近の多モード大言語モデル (MLLM) は、自律運転において大きな可能性を示している。
本稿では,交通標識認識(TSR)の強化を目的としたMLLMに基づく,ドメイン間数発のコンテキスト内学習手法を提案する。
まず,視覚変換器を用いた交通標識検出ネットワークを構築し,道路画像から交通標識を抽出する抽出モジュールを構築した。
訓練データへの依存を減らし、クロスカントリーTSRの性能安定性を向上させるため、MLLMに基づくクロスドメイン・ショット・イン・コンテクスト学習手法を提案する。
MLLMの交通標識の微粒化認識能力を高めるため,テンプレートによる記述文を生成する。
これらの記述テキストには、交通標識の形状、色、構成に関する重要な情報が含まれており、細かな交通標識カテゴリを知覚するMLLMの能力を刺激することができる。
記述テキストを使用することで、テンプレートと実際の交通標識のドメイン間差を減らすことができる。
提案手法は,大規模交通標識画像やラベルを必要とせず,単純かつ均一なテキスト表示のみを必要とする。
我々は,ドイツ交通標識認識ベンチマークデータセット,ベルギー交通標識データセット,および日本から取得した実世界の2つのデータセットについて総合的な評価を行った。
実験の結果,提案手法はTSR性能を著しく向上させることがわかった。
Recent multimodal large language models (MLLM) such as GPT-4o and GPT-4v have shown great potential in autonomous driving. In this paper, we propose a cross-domain few-shot in-context learning method based on the MLLM for enhancing traffic sign recognition (TSR). We first construct a traffic sign detection network based on Vision Transformer Adapter and an extraction module to extract traffic signs from the original road images. To reduce the dependence on training data and improve the performance stability of cross-country TSR, we introduce a cross-domain few-shot in-context learning method based on the MLLM. To enhance MLLM's fine-grained recognition ability of traffic signs, the proposed method generates corresponding description texts using template traffic signs. These description texts contain key information about the shape, color, and composition of traffic signs, which can stimulate the ability of MLLM to perceive fine-grained traffic sign categories. By using the description texts, our method reduces the cross-domain differences between template and real traffic signs. Our approach requires only simple and uniform textual indications, without the need for large-scale traffic sign images and labels. We perform comprehensive evaluations on the German traffic sign recognition benchmark dataset, the Belgium traffic sign dataset, and two real-world datasets taken from Japan. The experimental results show that our method significantly enhances the TSR performance. | 翻訳日:2024-07-09 16:00:10 公開日:2024-07-08 |
# グラフ推論ネットワーク
Graph Reasoning Networks ( http://arxiv.org/abs/2407.05816v1 ) ライセンス: Link先を確認 | Markus Zopf, Francesco Alesiani, | (参考訳) グラフニューラルネットワーク(GNN)は、グラフベースの機械学習の主要なアプローチである。
ニューラルネットワークは有用な表現を学ぶのに優れた性能を示してきたが、高いレベルの推論能力に制限があるとしてしばしば批判されている。
本研究では,グラフ推論ネットワーク(GRNs, Graph Reasoning Networks, GRNs)を提案する。
実世界のデータセットでは、GNNに匹敵する性能を示す一方で、合成データセットの実験では、新たに提案された手法の可能性を示す。
Graph neural networks (GNNs) are the predominant approach for graph-based machine learning. While neural networks have shown great performance at learning useful representations, they are often criticized for their limited high-level reasoning abilities. In this work, we present Graph Reasoning Networks (GRNs), a novel approach to combine the strengths of fixed and learned graph representations and a reasoning module based on a differentiable satisfiability solver. While results on real-world datasets show comparable performance to GNN, experiments on synthetic datasets demonstrate the potential of the newly proposed method. | 翻訳日:2024-07-09 16:00:10 公開日:2024-07-08 |
# サイバー物理ゲーム
Cyber Physical Games ( http://arxiv.org/abs/2407.05817v1 ) ライセンス: Link先を確認 | Warisa Sritriratanarak, Paulo Garcia, | (参考訳) サイバー物理システム内で動作するマルチエージェントの定式化について述べる。
本研究では,エージェント間のコミュニケーション媒体に固有の非決定主義が,エージェントの戦略の確率的機能である環境進化を引き起こすことを示す。
我々はこれらの創発性特性をサイバー物理ゲーム(Cyber Physical Games)と命名し、その特性について研究する。
本稿では, 確率的有限状態オートマタによるサイバー物理ゲームの評価を行い, 実験結果とシミュレーション結果を比較したアルゴリズムモデルを提案する。
結果は,提案モデルの有効性を裏付けるものであり,サイバー物理システムに対する理解を深めるために必要な研究の方向性や,そのような環境下での操作を最善にデザインする方法を示唆している。
We describe a formulation of multi-agents operating within a Cyber-Physical System, resulting in collaborative or adversarial games. We show that the non-determinism inherent in the communication medium between agents and the underlying physical environment gives rise to environment evolution that is a probabilistic function of agents' strategies. We name these emergent properties Cyber Physical Games and study its properties. We present an algorithmic model that determines the most likely system evolution, approximating Cyber Physical Games through Probabilistic Finite State Automata, and evaluate it on collaborative and adversarial versions of the Iterated Boolean Game, comparing theoretical results with simulated ones. Results support the validity of the proposed model, and suggest several required research directions to continue evolving our understanding of Cyber Physical System, as well as how to best design agents that must operate within such environments. | 翻訳日:2024-07-09 16:00:10 公開日:2024-07-08 |
# 粒子混合理論と運動行列方程式の$\mathcal{PT}$対称性
$\mathcal{PT}$-symmetry of Particle mixing theories and the equation of motion matrix ( http://arxiv.org/abs/2407.05821v1 ) ライセンス: Link先を確認 | Kawaljeet Kaur, Biswajit Paul, | (参考訳) 非エルミート複素スカラー場モデルは、その$\mc{PT}$対称面から考慮される。
ユーラー・ラグランジュ運動方程式から構築された行列を用いてモデルの状態を分析する。
このモデルは、2つの質量項を持ち、固有値の実あるいは複素の性質を決定する。
場の運動のラグランジュ方程式(英語版)(Lagrange equations of Motions of the field)では、方程式はどちらも複素共役の後に互いに一致しないため、ミスマッチが見つかる。
これはラグランジアンの好ましい類似性変換を活用することで解決される。
ハミルトニアンレベルでの相違は、類似性が変換されたハミルトニアンを考えると消えていたことが分かる。
A non-Hermitian complex scalar field model is considered from its $\mc{PT}$ symmetric aspect. A matrix constructed from the Euler-Lagrange equations of motion is utilized to analyze the states of the model. The model has two mass terms which determine the real or complex nature of the eigen values. A mismatch is found in the Lagrange equations of motion of the fields as the equations do not agree with the other after complex conjugation of the either. This is resolved by exploiting a preferred similarity transformation of the Lagrangian. The discrepancy even at the Hamiltonian level is found to have vanished once we consider the similarity transformed Hamiltonian. | 翻訳日:2024-07-09 16:00:10 公開日:2024-07-08 |
# 月面アルベド異常検出のためのデータ駆動機械学習手法
A Data-Driven Machine Learning Approach for Detecting Albedo Anomalies on the Lunar Surface ( http://arxiv.org/abs/2407.05832v1 ) ライセンス: Link先を確認 | Sofia Strukova, Sergei Gleyzer, Patrick Peplowski, Jason P. Terry, | (参考訳) 本研究では、月面のアルベド異常を探索・予測するために機械学習(ML)技術を用いたデータ駆動アプローチを提案する。
この研究は、レーザーとガンマ線の測定から得られた高空間分解能アルベドマップや元素マップ(LPFe, LPK, LPTh, LPTi)を含む多様な惑星のデータセットを活用している。
主な目的は、化学元素とアルベドの関係を識別し、惑星表面の理解を広げ、不完全なデータセットを持つ領域の予測能力を提供することである。
アルベドと要素写像の間の分解のギャップを埋めるために、革新的な適応ガウスのぼかしを含むガウスのぼかし技術を用いる。
本手法は,元素組成に基づく全アルベドの予測に最適化された極高次ブースティング回帰モデルの展開において,本手法を導出する。
さらに,予測誤差を可視化し,その空間的および化学的特性を記述するための対話型解析ツールを提案する。
この発見は、月の表面のより包括的な理解の道を開くだけでなく、他の天体についても同様の研究の枠組みを提供する。
This study introduces a data-driven approach using machine learning (ML) techniques to explore and predict albedo anomalies on the Moon's surface. The research leverages diverse planetary datasets, including high-spatial-resolution albedo maps and element maps (LPFe, LPK, LPTh, LPTi) derived from laser and gamma-ray measurements. The primary objective is to identify relationships between chemical elements and albedo, thereby expanding our understanding of planetary surfaces and offering predictive capabilities for areas with incomplete datasets. To bridge the gap in resolution between the albedo and element maps, we employ Gaussian blurring techniques, including an innovative adaptive Gaussian blur. Our methodology culminates in the deployment of an Extreme Gradient Boosting Regression Model, optimized to predict full albedo based on elemental composition. Furthermore, we present an interactive analytical tool to visualize prediction errors, delineating their spatial and chemical characteristics. The findings not only pave the way for a more comprehensive understanding of the Moon's surface but also provide a framework for similar studies on other celestial bodies. | 翻訳日:2024-07-09 16:00:10 公開日:2024-07-08 |
# 任意の温度における条件付き相互情報のクラスタリングと量子マルコフ構造
Clustering of conditional mutual information and quantum Markov structure at arbitrary temperatures ( http://arxiv.org/abs/2407.05835v1 ) ライセンス: Link先を確認 | Tomotaka Kuwahara, | (参考訳) 最近の研究では、単純な二部相関関数によって特徴づけられるエキゾチックな量子相が明らかにされている。
これらの相では、三部構造相関から生じる長距離の絡み合いが中心的な役割を果たす。
その結果、多粒子相関の研究は現代物理学の焦点となっている。
これらの中で、条件付き相互情報(CMI)は、トポロジカルに順序付けられたものを含む様々なエキゾチックなフェーズの本質をカプセル化するのに適した、最も確立された情報理論の尺度の1つである。
量子多体物理学の領域内では、ギブス状態とマルコフネットワークの2つの概念を橋渡しするハマーズリー・クリフォードの定理の量子類似性を確立することが長年の目標であった。
この定理は、CMIの相関長が全ての熱平衡量子相の短距離であることを示している。
本研究では,CMIは,逆温度と多項式的に相関長が増加することにより,距離に関する指数減衰を示すことを示す。
このクラスタリング定理は、以前は熱相転移を欠いた高温のために確立されてきたが、真の長距離の絡み合いが量子トポロジカル秩序によって存在することを裏付ける低温では解き放たれている。
また, 低温でも, 広範囲に分布する三部体の絡み合いは, 長距離体制では生じないことが明らかとなった。
この証明を達成するために、我々は「絡み合いハミルトニアン」あるいは「平均力のハミルトニアン」と呼ばれるサブシステム上の実効ハミルトニアンの局所性を解析するための包括的形式主義を確立する。
「分析の結果、二部交絡に関する事前のクラスタリング定理が強化される。」
本質的に、これは正部分転置(PPT)クラスの制限を超えて広がる真の二分詞の絡み合いを調査することを意味する。
Recent investigations have unveiled exotic quantum phases that elude characterization by simple bipartite correlation functions. In these phases, long-range entanglement arising from tripartite correlations plays a central role. Consequently, the study of multipartite correlations has become a focal point in modern physics. In these, Conditional Mutual Information (CMI) is one of the most well-established information-theoretic measures, adept at encapsulating the essence of various exotic phases, including topologically ordered ones. Within the realm of quantum many-body physics, it has been a long-sought goal to establish a quantum analog to the Hammersley-Clifford theorem that bridges the two concepts of the Gibbs state and the Markov network. This theorem posits that the correlation length of CMI remains short-range across all thermal equilibrium quantum phases. In this work, we demonstrate that CMI exhibits exponential decay concerning distance, with its correlation length increasing polynomially with the inverse temperature. While this clustering theorem has previously been established for high temperatures devoid of thermal phase transitions, it has remained elusive at low temperatures, where genuine long-range entanglement is corroborated to exist by the quantum topological order. Our findings unveil that, even at low temperatures, a broad class of tripartite entanglement cannot manifest in the long-range regime. To achieve the proof, we establish a comprehensive formalism for analyzing the locality of effective Hamiltonians on subsystems, commonly known as the `entanglement Hamiltonian' or `Hamiltonian of mean force.' As one outcome of our analyses, we enhance the prior clustering theorem concerning bipartite entanglement. In essence, this means that we investigate genuine bipartite entanglement that extends beyond the limitations of the Positive Partial Transpose (PPT) class. | 翻訳日:2024-07-09 16:00:10 公開日:2024-07-08 |
# 言語モデルにおける語彙展開と初期化アプローチの実証比較
An Empirical Comparison of Vocabulary Expansion and Initialization Approaches for Language Models ( http://arxiv.org/abs/2407.05841v1 ) ライセンス: Link先を確認 | Nandini Mundra, Aditya Nanda Kishore, Raj Dabre, Ratish Puduppully, Anoop Kunchukuttan, Mitesh M. Khapra, | (参考訳) 言語モデル(LM)は英語の自然言語処理タスクに優れるが、他のほとんどの言語では性能が低下している。
この問題は、上記の言語に対して、これらのモデルを継続的に事前訓練し、微調整することで対処される。
このプロセスにおける重要な問題は、オリジナルのモデルのトークン化子の語彙範囲が限られており、新しい言語の表現が不十分になり、トークン化子の拡張が必要になったことである。
新しい語彙項目に対応する埋め込みの初期化は、さらなる課題を示す。
現在の戦略では、言語間埋め込みが必要であり、強いベースラインとの比較だけでなく、しっかりとした理論的な基礎が欠如している。
本稿では,既存の埋め込みの凸内包の初期化がよい初期化であり,その後に,言語間埋め込みを必要としない新しい単純なアプローチであるConstrained Word2Vec (CW2V) が提案される。
そこで本研究では,RoBERTaとLLaMA2を4言語5タスクに拡張するための異なる初期化手法について検討した。
その結果、CW2Vは、より高度な技術よりも、等しく、あるいはそれ以上に機能することがわかった。
さらに, マルチ変数初期化のようなより単純な手法は, より単純な初期化手法であっても, 大規模多言語連続事前学習を効果的に行うことができることを示す。
Language Models (LMs) excel in natural language processing tasks for English but show reduced performance in most other languages. This problem is commonly tackled by continually pre-training and fine-tuning these models for said languages. A significant issue in this process is the limited vocabulary coverage in the original model's tokenizer, leading to inadequate representation of new languages and necessitating an expansion of the tokenizer. The initialization of the embeddings corresponding to new vocabulary items presents a further challenge. Current strategies require cross-lingual embeddings and lack a solid theoretical foundation as well as comparisons with strong baselines. In this paper, we first establish theoretically that initializing within the convex hull of existing embeddings is a good initialization, followed by a novel but simple approach, Constrained Word2Vec (CW2V), which does not require cross-lingual embeddings. Our study evaluates different initialization methods for expanding RoBERTa and LLaMA 2 across four languages and five tasks. The results show that CW2V performs equally well or even better than more advanced techniques. Additionally, simpler approaches like multivariate initialization perform on par with these advanced methods indicating that efficient large-scale multilingual continued pretraining can be achieved even with simpler initialization methods. | 翻訳日:2024-07-09 16:00:10 公開日:2024-07-08 |
# Denoising Diffusion を用いた3次元血管グラフ生成
3D Vessel Graph Generation Using Denoising Diffusion ( http://arxiv.org/abs/2407.05842v1 ) ライセンス: Link先を確認 | Chinmay Prabhakar, Suprosanna Shit, Fabio Musio, Kaiyuan Yang, Tamaz Amiranashvili, Johannes C. Paetzold, Hongwei Bran Li, Bjoern Menze, | (参考訳) 血管ネットワークは3Dグラフとして表現され、疾患のバイオマーカーを予測し、血流をシミュレートし、臨床と臨床の両方に関係のある合成画像生成を助ける。
しかし、関心の解剖に対応する現実的な容器グラフを生成することは困難である。
それまでの方法は、主に自己回帰様式で容器木を生成することを目的としており、毛細血管やウィリス環のような特定の解剖学的構造を持つ容器グラフには適用できなかった。
このギャップに対処するため、我々は3次元容器グラフ生成における \textit{denoising diffusion model} の最初の応用を紹介した。
我々の貢献には、ノード座標とエッジを逐次分解する新しい2段階生成手法が含まれる。
われわれは, 顕微鏡的キャピラリーと大脳血管からなる実世界の2つの血管データセットを実験し, 多様な, 新規で, 解剖学的に妥当な血管グラフを作成する方法の一般化性を実証した。
Blood vessel networks, represented as 3D graphs, help predict disease biomarkers, simulate blood flow, and aid in synthetic image generation, relevant in both clinical and pre-clinical settings. However, generating realistic vessel graphs that correspond to an anatomy of interest is challenging. Previous methods aimed at generating vessel trees mostly in an autoregressive style and could not be applied to vessel graphs with cycles such as capillaries or specific anatomical structures such as the Circle of Willis. Addressing this gap, we introduce the first application of \textit{denoising diffusion models} in 3D vessel graph generation. Our contributions include a novel, two-stage generation method that sequentially denoises node coordinates and edges. We experiment with two real-world vessel datasets, consisting of microscopic capillaries and major cerebral vessels, and demonstrate the generalizability of our method for producing diverse, novel, and anatomically plausible vessel graphs. | 翻訳日:2024-07-09 16:00:10 公開日:2024-07-08 |
# 医用画像分類における神経崩壊の公平性の評価
Evaluating the Fairness of Neural Collapse in Medical Image Classification ( http://arxiv.org/abs/2407.05843v1 ) ライセンス: Link先を確認 | Kaouther Mouheb, Marawan Elbatel, Stefan Klein, Esther E. Bron, | (参考訳) 深層学習は、様々な医療画像タスクで素晴らしいパフォーマンスを達成した。
しかし、特定のグループに対する固有の偏見は、公平な医療システムにおける臨床応用を妨げている。
最近発見された現象であるNeural Collapse (NC)は、最先端のディープラーニングモデルの一般化を改善する可能性を示している。
それでも、医療画像におけるバイアスの影響は未解明のままである。
本研究では,NCのレンズによる深層学習の公平性について検討した。
バイアス付きデータセットを用いたトレーニングにおいて、NCにアプローチするモデルのトレーニングダイナミクスを分析し、特にラベルバイアスに着目して、その後のテストパフォーマンスへの影響について検討する。
偏りのあるトレーニングは最初、すべてのデータサンプルを記憶することで最終的なNCソリューションに収束する前に、サブグループ間で異なるNC構成をもたらす。
PAPILA、HAM10000、CheXpertの3つの医療画像データセットに関する広範な実験により、偏りのある設定では、NCはすべてのサブグループでF1スコアを著しく低下させる可能性があることが判明した。
私たちのコードはhttps://gitlab.com/radiology/neuro/neural-collapse-fairnessで利用可能です。
Deep learning has achieved impressive performance across various medical imaging tasks. However, its inherent bias against specific groups hinders its clinical applicability in equitable healthcare systems. A recently discovered phenomenon, Neural Collapse (NC), has shown potential in improving the generalization of state-of-the-art deep learning models. Nonetheless, its implications on bias in medical imaging remain unexplored. Our study investigates deep learning fairness through the lens of NC. We analyze the training dynamics of models as they approach NC when training using biased datasets, and examine the subsequent impact on test performance, specifically focusing on label bias. We find that biased training initially results in different NC configurations across subgroups, before converging to a final NC solution by memorizing all data samples. Through extensive experiments on three medical imaging datasets -- PAPILA, HAM10000, and CheXpert -- we find that in biased settings, NC can lead to a significant drop in F1 score across all subgroups. Our code is available at https://gitlab.com/radiology/neuro/neural-collapse-fairness | 翻訳日:2024-07-09 16:00:10 公開日:2024-07-08 |
# 解剖学的ガイド下病理切除
Anatomy-guided Pathology Segmentation ( http://arxiv.org/abs/2407.05844v1 ) ライセンス: Link先を確認 | Alexander Jaus, Constantin Seibold, Simon Reiß, Lukas Heine, Anton Schily, Moon Kim, Fin Hendrik Bahnsen, Ken Herrmann, Rainer Stiefelhagen, Jens Kleesiek, | (参考訳) 医学画像の病理構造は、典型的には患者の期待する解剖学から逸脱している。
臨床医は解剖学と病理学の相互作用を考えているが、近年のディープラーニングアルゴリズムは、患者の身体をそのような関節の観点から考えることはめったにない。
本稿では,解剖学的特徴と病理学的情報を組み合わせた一般的なセグメンテーションモデルを構築し,病理学的特徴のセグメンテーション精度を高めることを目的とする。
我々の解剖学・病理学交流(APEx)トレーニングでは,ヒト解剖学の検索表現に結合した特徴空間をデコードし,解剖学的特徴量予測のための病理記述器への混合戦略によりそれらをインターリーブする問合せベースのセグメンテーション変換器を用いている。
これにより、FDG-PET-CTとChest X-Rayの病理分類タスクにおいて、強力なベースライン法に比べて最大3.3%のマージンで、ボード全体で最高の結果を報告できる。
コードとモデルはgithub.com/alexanderjaus/APExで公開されている。
Pathological structures in medical images are typically deviations from the expected anatomy of a patient. While clinicians consider this interplay between anatomy and pathology, recent deep learning algorithms specialize in recognizing either one of the two, rarely considering the patient's body from such a joint perspective. In this paper, we develop a generalist segmentation model that combines anatomical and pathological information, aiming to enhance the segmentation accuracy of pathological features. Our Anatomy-Pathology Exchange (APEx) training utilizes a query-based segmentation transformer which decodes a joint feature space into query-representations for human anatomy and interleaves them via a mixing strategy into the pathology-decoder for anatomy-informed pathology predictions. In doing so, we are able to report the best results across the board on FDG-PET-CT and Chest X-Ray pathology segmentation tasks with a margin of up to 3.3% as compared to strong baseline methods. Code and models will be publicly available at github.com/alexanderjaus/APEx. | 翻訳日:2024-07-09 16:00:10 公開日:2024-07-08 |
# 4波混合系を用いた複合光子遮断器の実装
Implementation of Composite Photon Blockade Based on Four-wave Mixing System ( http://arxiv.org/abs/2407.05846v1 ) ライセンス: Link先を確認 | Hongyu Lina, Zhi-Hai Yao, Xiao-Qian Wang, Feng Gao, | (参考訳) 高品質な単一光子遮断システムは、単一光子源の品質を効果的に向上させることができる。
従来の光子遮断(CPB)は、単一光子純度が低く、系非線形性に高い要求があるのに対し、従来からある光子遮断(UPB)は低輝度の欠点がある。
近年の [Laser Photon.Rev 14, 1900279,2020] による研究は、UPBがCPBの強度を高め、単一光子源の純度を向上させることができることを示した。
Opt. Express 30(12),21787,2022] による研究により, 単一光子の性能が向上する非線形系において, CPB と UPB の交差点が存在することが示された。
本研究では,CPBとUPBが同一パラメータ範囲内で同時に発生する非縮退4波混合系における光子遮断現象について検討した。
この現象を複合光子遮断と呼ぶ。
特に、複合光子遮断を達成すると、g(2)(0) の値は小さくなり、より単一の光子が存在する。
システムにおけるPB, UPB, 2PBの実現条件について解析解析および数値計算を行い, 各種遮断効果に対するシステムパラメータの影響を詳細に検討した。
A high-quality single-photon blockade system can effectively enhance the quality of single-photon sources. Conventional photon blockade(CPB) suffers from low single-photon purity and high requirements for system nonlinearity, while unconventional photon blockade(UPB) has the disadvantage of low brightness. Recent research by [Laser Photon.Rev 14,1900279,2020] demonstrates that UPB can be used to enhance the strength of CPB, thereby improving the purity of single-photon sources. Research by [Opt. Express 30(12),21787,2022] shows that there is an intersection point between CPB and UPB in certain nonlinear systems, where the performance of single photons is better. In this study, we investigated the phenomenon of photon blockade in a non-degenerate four-wave mixing system, where CPB and UPB can occur simultaneously within the same parameter range. We refer to this phenomenon as composite photon blockade. Particularly, when the system achieves composite photon blockade, the value of g(2)(0) is smaller, and there are more single photons. We conducted analytical analysis and numerical calculations to study the conditions for the realization of CPB, UPB, and 2PB in the system, and discussed in detail the influence of system parameters on various blockade effects. | 翻訳日:2024-07-09 16:00:10 公開日:2024-07-08 |
# 大きな受容場に対するウェーブレットの畳み込み
Wavelet Convolutions for Large Receptive Fields ( http://arxiv.org/abs/2407.05848v1 ) ライセンス: Link先を確認 | Shahaf E. Finder, Roy Amoyal, Eran Treister, Oren Freifeld, | (参考訳) 近年、ビジョントランスフォーマー(ViT)の自己保持ブロックのグローバルな受容領域を模倣するために、畳み込みニューラルネットワーク(CNN)のカーネルサイズを拡大する試みがある。
しかし、そのアプローチは、グローバルな受容場を達成する前に、すぐに上界と飽和点に到達した。
本研究では、Wavelet Transform (WT) を利用することで、例えば、$k \times k$receptive Fieldに対して、超パラメータ化に苦しむことなく非常に大きな受容場を得ることができ、提案手法におけるトレーニング可能なパラメータの数は、$k$と対数的にしか増加しないことを示した。
提案した層はWTConvと名付けられ、既存のアーキテクチャのドロップイン代替として使用することができ、有効なマルチ周波数応答を実現し、受信フィールドのサイズに優しくスケールする。
画像分類のためのConvNeXtおよびMobileNetV2アーキテクチャ内のWTConv層の有効性と、下流タスクのためのバックボーンの有効性を実証し、画像劣化に対するロバスト性やテクスチャ上の形状に対する応答の向上などの付加特性を示す。
私たちのコードはhttps://github.com/BGU-CS-VIL/WTConv.comで公開されています。
In recent years, there have been attempts to increase the kernel size of Convolutional Neural Nets (CNNs) to mimic the global receptive field of Vision Transformers' (ViTs) self-attention blocks. That approach, however, quickly hit an upper bound and saturated way before achieving a global receptive field. In this work, we demonstrate that by leveraging the Wavelet Transform (WT), it is, in fact, possible to obtain very large receptive fields without suffering from over-parameterization, e.g., for a $k \times k$ receptive field, the number of trainable parameters in the proposed method grows only logarithmically with $k$. The proposed layer, named WTConv, can be used as a drop-in replacement in existing architectures, results in an effective multi-frequency response, and scales gracefully with the size of the receptive field. We demonstrate the effectiveness of the WTConv layer within ConvNeXt and MobileNetV2 architectures for image classification, as well as backbones for downstream tasks, and show it yields additional properties such as robustness to image corruption and an increased response to shapes over textures. Our code is available at https://github.com/BGU-CS-VIL/WTConv. | 翻訳日:2024-07-09 16:00:10 公開日:2024-07-08 |
# ペロブスカイトキャビティにおける連続波非線形偏光制御と臨界信号
Continuous-Wave Nonlinear Polarization Control and Signatures of Criticality in a Perovskite Cavity ( http://arxiv.org/abs/2407.05856v1 ) ライセンス: Link先を確認 | G. Keijsers, R. M. de Boer, B. Verdonschot, K. J. H. Peters, Z. Geng, S. R. K. Rodriguez, | (参考訳) ハライドペロブスカイトは、基礎物理学研究と技術応用のための有望なフォトニック材料として登場した。
非線形光学のポテンシャルも近年大きな関心を集めているが、現在まで連続波(CW)非線形性は解明されていない。
ここではCsPbBr$_3$ペロブスカイト空洞におけるCW非線形現象を示す。
まず、単一モードコヒーレント非線形光学の目印となる光学的不安定性を実証する。
次に、光の偏光に対する非線形制御を示すために非線形性と複屈折の相互作用を利用する。
最後に, 温度の関数として空洞の光学的ヒステリシスを測定することにより, 65K付近の非線形性の劇的な向上が見出され, この拡張はCsPbBr$_3$の相転移の指標となる。
以上の結果から, CsPbBr$_3$キャビティを非線形光学の例外的プラットフォームとして位置づけ, 強いCW非線形性および二屈折性を提供する。
さらに,光ヒステリシス測定による物質相転移の解明は,光物質系の強い相関状態を探究する上で有益である。
Halide perovskites have emerged as promising photonic materials for fundamental physics studies and technological applications. Their potential for nonlinear optics has also drawn great interest recently; yet, to date, continuous-wave (CW) nonlinearities have remained elusive. Here we demonstrate CW nonlinear phenomena in a CsPbBr$_3$ perovskite cavity. We first demonstrate optical bistability -- the hallmark of single-mode coherent nonlinear optics. Next we exploit the interplay of nonlinearity and birefringence to demonstrate nonlinear control over the polarization of light. Finally, by measuring the optical hysteresis of our cavity as a function of temperature, we find a dramatic enhancement of the nonlinearity around 65 K. This enhancement is indicative of a phase transition in CsPbBr$_3$. Our results position CsPbBr$_3$ cavities as an exceptional platform for nonlinear optics, offering strong CW nonlinearity and birefringence which are furthermore tunable. In addition, our approach to uncover a phase transition of matter via optical hysteresis measurements is promising for exploring strongly correlated states of light-matter systems. | 翻訳日:2024-07-09 16:00:10 公開日:2024-07-08 |
# mllm-NPUを用いた1000トークン/秒オンデバイスLCMプリフィル
Empowering 1000 tokens/second on-device LLM prefilling with mllm-NPU ( http://arxiv.org/abs/2407.05858v1 ) ライセンス: Link先を確認 | Daliang Xu, Hao Zhang, Liming Yang, Ruiqi Liu, Gang Huang, Mengwei Xu, Xuanzhe Liu, | (参考訳) デバイス上での大規模言語モデル(LLM)は、UIタスクの自動化やパーソナライズされたEメールの自動返信など、ユーザのプライベートデータを放棄することなく、新しいモバイルアプリケーションを実現している。
しかし、デバイス上でのLSMは、正確なパーソナライズされたコンテンツ生成のために長いコンテキストを必要とすることや、モバイルCPU/GPUの並列計算能力の欠如など、許容範囲の長い推論遅延、特に最初のトークン(準備段階)に悩まされている。
そこで本研究では,デバイス上でのニューラルネットワークユニット(NPU)のオフロードを効率よく活用する,最初期のLCM推論システムであるmllm-NPUを提案する。
基本的に、mllm-NPUはアルゴリズムシステムの共同設計であり、LLMアーキテクチャと現代のNPU設計の間のいくつかの意味的ギャップに対処している。
具体的には、プロンプトとモデルを3つのレベルに再構成する: (1) プロンプトレベルでは、変数長のプロンプトをデータ依存を維持しながら複数の固定サイズのチャンクに分割する; (2) テンソルレベルでは、最小オーバーヘッドでCPU/GPU上で実行する重要なアウトリーを識別し、抽出する; (3) ブロックレベルでは、ハードウェア親和性と精度に対する感受性に基づいて、トランスフォーマーブロックをCPU/GPUとNPUにアウト・オブ・オーダーでスケジュールする。
競合するベースラインと比較して、mllm-NPUは22.4倍高速なプリフィルと30.7倍の省エネを実現し、エンドツーエンドの現実世界アプリケーションでは最大32.8倍のスピードアップを実現している。
初めて、mllm-NPUは10億サイズのモデル(Qwen1.5-1.8B)で1000トークン/秒のプリフィルを達成する。
On-device large language models (LLMs) are catalyzing novel mobile applications such as UI task automation and personalized email auto-reply, without giving away users' private data. However, on-device LLMs still suffer from unacceptably long inference latency, especially the time to first token (prefill stage) due to the need of long context for accurate, personalized content generation, as well as the lack of parallel computing capacity of mobile CPU/GPU. To enable practical on-device LLM, we present mllm-NPU, the first-of-its-kind LLM inference system that efficiently leverages on-device Neural Processing Unit (NPU) offloading. Essentially, mllm-NPU is an algorithm-system co-design that tackles a few semantic gaps between the LLM architecture and contemporary NPU design. Specifically, it re-constructs the prompt and model in three levels: (1) At prompt level, it divides variable-length prompts into multiple fixed-sized chunks while maintaining data dependencies; (2) At tensor level, it identifies and extracts significant outliers to run on the CPU/GPU in parallel with minimal overhead; (3) At block level, it schedules Transformer blocks in an out-of-order manner to the CPU/GPU and NPU based on their hardware affinity and sensitivity to accuracy. Compared to competitive baselines, mllm-NPU achieves 22.4x faster prefill speed and 30.7x energy savings on average, and up to 32.8x speedup in an end-to-end real-world application. For the first time, mllm-NPU achieves more than 1,000 tokens/sec prefilling for a billion-sized model (Qwen1.5-1.8B), paving the way towards practical on-device LLM. | 翻訳日:2024-07-09 16:00:10 公開日:2024-07-08 |
# 点群自己監督学習のためのマスクオートエンコーダのコントラスト特性を明示する
Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning ( http://arxiv.org/abs/2407.05862v1 ) ライセンス: Link先を確認 | Bin Ren, Guofeng Mei, Danda Pani Paudel, Weijie Wang, Yawei Li, Mengyuan Liu, Rita Cucchiara, Luc Van Gool, Nicu Sebe, | (参考訳) 画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
しかし、ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
両方の世界を最大限に活用できるだろうか?
この疑問に対処するために、我々はまず、MAEベースのポイントクラウドを標準のコントラスト学習パラダイムと統合することで、微妙な設計であっても、性能の低下につながることを実証的に検証した。
この制限に対処するため、我々はCLをMAE固有のコントラスト特性を活用して、MAEベースのポイントクラウド事前学習パラダイムに再導入する。
具体的には、画像領域で一般的に使用されるような広範なデータ拡張に頼るのではなく、入力トークンをランダムに2回マスキングしてコントラッシブな入力ペアを生成する。
その後、重量共有エンコーダと2つの同一構造デコーダを用いてマスク付きトークン再構成を行う。
さらに,両マスクが同時にマスクする入力トークンに対して,再構築された特徴を可能な限り類似させるべきである。
このことは、生成的MAEに基づく事前学習パラダイムにおいて、明らかなコントラスト制約を確立し、提案手法であるPoint-CMAEを導出する。
その結果、Point-CMAEはMAEに比べて表現品質と転送性能を効果的に向上させる。
分類,パートセグメンテーション,少数ショット学習など,下流の様々なアプリケーションを対象とした実験により,標準VTや単一モード設定下での最先端技術に勝るフレームワークの有効性を実証した。
ソースコードとトレーニングされたモデルは、https://github.com/Amazingren/Point-CMAE.comで入手できる。
Contrastive learning (CL) for Vision Transformers (ViTs) in image domains has achieved performance comparable to CL for traditional convolutional backbones. However, in 3D point cloud pretraining with ViTs, masked autoencoder (MAE) modeling remains dominant. This raises the question: Can we take the best of both worlds? To answer this question, we first empirically validate that integrating MAE-based point cloud pre-training with the standard contrastive learning paradigm, even with meticulous design, can lead to a decrease in performance. To address this limitation, we reintroduce CL into the MAE-based point cloud pre-training paradigm by leveraging the inherent contrastive properties of MAE. Specifically, rather than relying on extensive data augmentation as commonly used in the image domain, we randomly mask the input tokens twice to generate contrastive input pairs. Subsequently, a weight-sharing encoder and two identically structured decoders are utilized to perform masked token reconstruction. Additionally, we propose that for an input token masked by both masks simultaneously, the reconstructed features should be as similar as possible. This naturally establishes an explicit contrastive constraint within the generative MAE-based pre-training paradigm, resulting in our proposed method, Point-CMAE. Consequently, Point-CMAE effectively enhances the representation quality and transfer performance compared to its MAE counterpart. Experimental evaluations across various downstream applications, including classification, part segmentation, and few-shot learning, demonstrate the efficacy of our framework in surpassing state-of-the-art techniques under standard ViTs and single-modal settings. The source code and trained models are available at: https://github.com/Amazingren/Point-CMAE. | 翻訳日:2024-07-09 15:50:25 公開日:2024-07-08 |
# ニューラルネットワークを用いたBlind Chess再生のための情報集合重み付け
Neural Network-based Information Set Weighting for Playing Reconnaissance Blind Chess ( http://arxiv.org/abs/2407.05864v1 ) ライセンス: Link先を確認 | Timo Bertram, Johannes Fürnkranz, Martin Müller, | (参考訳) 不完全な情報ゲームでは、ゲーム状態は一般にプレイヤーにとって完全に観察できない。
そのため、優れたゲームプレイには、各プレイヤーから隠された異なる情報を扱うポリシーが必要である。
これに対抗するために、効果的なアルゴリズムは情報集合を推論することが多く、全ての可能なゲーム状態はプレイヤーの観察と一致している。
情報集合内の状態を区別する方法はないが、この性質は全ての状態がプレーで等しく発生する可能性を示唆していない。
Reconnaissance Blind Chessの不完全な情報ゲームにおいて、より優れたゲームプレイを容易にするために、情報セット内の状態に重みを割り当てることに関する以前の研究を拡張した。
このために、歴史ゲームデータから設定した情報において、各状態の確率を推定する2つの異なるニューラルネットワークを訓練する。
実験により、シームズニューラルネットワークはより精度が高く、与えられたドメインに対する古典的な畳み込みニューラルネットワークよりも効率的であることが判明した。
最後に、生成された重み付けを基にしたRBC演奏エージェントを評価し、それに依存するパラメータ設定を比較した。
上位の選手は5位にランクインしている。
In imperfect information games, the game state is generally not fully observable to players. Therefore, good gameplay requires policies that deal with the different information that is hidden from each player. To combat this, effective algorithms often reason about information sets; the sets of all possible game states that are consistent with a player's observations. While there is no way to distinguish between the states within an information set, this property does not imply that all states are equally likely to occur in play. We extend previous research on assigning weights to the states in an information set in order to facilitate better gameplay in the imperfect information game of Reconnaissance Blind Chess. For this, we train two different neural networks which estimate the likelihood of each state in an information set from historical game data. Experimentally, we find that a Siamese neural network is able to achieve higher accuracy and is more efficient than a classical convolutional neural network for the given domain. Finally, we evaluate an RBC-playing agent that is based on the generated weightings and compare different parameter settings that influence how strongly it should rely on them. The resulting best player is ranked 5th on the public leaderboard. | 翻訳日:2024-07-09 15:50:25 公開日:2024-07-08 |
# KG-FPQ:知識グラフを用いたFalse Premise Questionsを用いたLCMにおける表情の幻覚の評価
KG-FPQ: Evaluating Factuality Hallucination in LLMs with Knowledge Graph-based False Premise Questions ( http://arxiv.org/abs/2407.05868v1 ) ライセンス: Link先を確認 | Yanxu Zhu, Jinlin Xiao, Yuhang Wang, Jitao Sang, | (参考訳) 近年の研究では、大きな言語モデル(LLM)が偽の前提問題(FPQ)によって誤解されやすいことが示されており、事実知識の誤りにつながる。
この脆弱性を評価する既存のベンチマークは、主に手作業による構成に依存しており、スケールの制限とスケーラビリティの欠如をもたらす。
本研究では,知識グラフ(KG)に基づくFPQを作成するための,自動化されたスケーラブルなパイプラインを提案する。
最初のステップは、偽の前提を作るためにKGから抽出された真の三つ子を変更することである。
その後、GPTの最先端機能を活用し、意味的にリッチなFPQを生成する。
提案手法は,知識グラフに基づくFalse Premise Questions (KG-FPQ) の総合的なベンチマークであり,約178kのFPQを3つの知識領域,6レベルのコンフューザビリティ,2つのタスク形式で含む。
KG-FPQを用いて、いくつかの代表的なLCMを広範囲に評価し、貴重な洞察を提供する。
KG-FPQデータセットとコードは、~https://github.com/yanxuzhu/KG-FPQで入手できる。
Recent studies have demonstrated that large language models (LLMs) are susceptible to being misled by false premise questions (FPQs), leading to errors in factual knowledge, know as factuality hallucination. Existing benchmarks that assess this vulnerability primarily rely on manual construction, resulting in limited scale and lack of scalability. In this work, we introduce an automated, scalable pipeline to create FPQs based on knowledge graphs (KGs). The first step is modifying true triplets extracted from KGs to create false premises. Subsequently, utilizing the state-of-the-art capabilities of GPTs, we generate semantically rich FPQs. Based on the proposed method, we present a comprehensive benchmark, the Knowledge Graph-based False Premise Questions (KG-FPQ), which contains approximately 178k FPQs across three knowledge domains, at six levels of confusability, and in two task formats. Using KG-FPQ, we conduct extensive evaluations on several representative LLMs and provide valuable insights. The KG-FPQ dataset and code are available at~https://github.com/yanxuzhu/KG-FPQ. | 翻訳日:2024-07-09 15:50:25 公開日:2024-07-08 |
# PORCA:部分的根本原因解析
PORCA: Root Cause Analysis with Partially ( http://arxiv.org/abs/2407.05869v1 ) ライセンス: Link先を確認 | Chang Gong, Di Yao, Jin Wang, Wenbin Li, Lanting Fang, Yongtao Xie, Kaiyu Feng, Peng Han, Jingping Bi, | (参考訳) ルート原因分析(RCA)は、複雑なシステムから因果構造を発見し解析することによって、システム障害の原因を特定することを目的としている。
多くのアプリケーションドメインで広く使われている。
信頼性の高い診断の結論は、システム障害と財政的損失を軽減する上で非常に重要である。
しかし、以前の研究では、部分的な観察の効果(すなわち、欠損ノードと潜伏障害)を無視したシステムの完全な観察を暗黙的に仮定していた。
その結果、信頼できるRCA結果の導出に失敗する。
本稿では, 部分観察における未観測共同創設者の問題点と異質性を明らかにするとともに, 部分観察データを用いた根本原因分析の新たな課題を提起する。
そこで本研究では,新しいRCAフレームワークであるPORCAを提案する。
PORCAは、拡大したスコアベースの因果探索を利用して、未観測の共同設立者の下で、非循環性指向の混合グラフを効率的に最適化する。
さらに、適応的なサンプル重み付けを提供する不均一性を考慮したスケジューリング戦略も開発している。
1つの実世界のデータセットと2つの実世界のデータセットに対する大規模な実験結果は、提案フレームワークの有効性と優位性を示している。
Root Cause Analysis (RCA) aims at identifying the underlying causes of system faults by uncovering and analyzing the causal structure from complex systems. It has been widely used in many application domains. Reliable diagnostic conclusions are of great importance in mitigating system failures and financial losses. However, previous studies implicitly assume a full observation of the system, which neglect the effect of partial observation (i.e., missing nodes and latent malfunction). As a result, they fail in deriving reliable RCA results. In this paper, we unveil the issues of unobserved confounders and heterogeneity in partial observation and come up with a new problem of root cause analysis with partially observed data. To achieve this, we propose PORCA, a novel RCA framework which can explore reliable root causes under both unobserved confounders and unobserved heterogeneity. PORCA leverages magnified score-based causal discovery to efficiently optimize acyclic directed mixed graph under unobserved confounders. In addition, we also develop a heterogeneity-aware scheduling strategy to provide adaptive sample weights. Extensive experimental results on one synthetic and two real-world datasets demonstrate the effectiveness and superiority of the proposed framework. | 翻訳日:2024-07-09 15:50:25 公開日:2024-07-08 |
# パラメータ化とオプティマイザ間のスケーリング指数
Scaling Exponents Across Parameterizations and Optimizers ( http://arxiv.org/abs/2407.05872v1 ) ライセンス: Link先を確認 | Katie Everett, Lechao Xiao, Mitchell Wortsman, Alexander A. Alemi, Roman Novak, Peter J. Liu, Izzeddin Gur, Jascha Sohl-Dickstein, Leslie Pack Kaelbling, Jaehoon Lee, Jeffrey Pennington, | (参考訳) モデルの小幅から大幅までのロバストで効果的なスケーリングには、パラメータ化やオプティマイザの選択など、多くのアルゴリズムやアーキテクチャの詳細を正確に調整する必要がある。
本研究では,パラメータとデータのアライメントに関する先行研究における重要な仮定を調査し,より弱い仮定とより広い最適化条件の下での新たな理論的結果を導出することによる,パラメータ化に関する新たな視点を提案する。
我々の広範な実証調査には、3つのオプティマイザと4つのパラメータ化、いくつかのアライメント仮定、12以上の学習率、最大26.8Bパラメータの14のモデルサイズの組み合わせで訓練された数万のモデルが含まれている。
最高の学習率のスケーリング基準は、事前の作業の仮定から除外されることがよくあります。
以上の結果から,最大更新パラメータ化(muP)だけでなく,すべてのパラメータ化がハイパーパラメータ転送を実現することが示唆された。
最後に、パラメータ化の見過ごされた側面であるAdamのエプシロンパラメータが勾配下流を避けるために正しくスケールする必要があることを実証し、Epsilonハイパーパラメータを完全に排除するAdamの新しい数値安定なスケール不変バージョンAdam-atan2を提案する。
Robust and effective scaling of models from small to large width typically requires the precise adjustment of many algorithmic and architectural details, such as parameterization and optimizer choices. In this work, we propose a new perspective on parameterization by investigating a key assumption in prior work about the alignment between parameters and data and derive new theoretical results under weaker assumptions and a broader set of optimizers. Our extensive empirical investigation includes tens of thousands of models trained with all combinations of three optimizers, four parameterizations, several alignment assumptions, more than a dozen learning rates, and fourteen model sizes up to 26.8B parameters. We find that the best learning rate scaling prescription would often have been excluded by the assumptions in prior work. Our results show that all parameterizations, not just maximal update parameterization (muP), can achieve hyperparameter transfer; moreover, our novel per-layer learning rate prescription for standard parameterization outperforms muP. Finally, we demonstrate that an overlooked aspect of parameterization, the epsilon parameter in Adam, must be scaled correctly to avoid gradient underflow and propose Adam-atan2, a new numerically stable, scale-invariant version of Adam that eliminates the epsilon hyperparameter entirely. | 翻訳日:2024-07-09 15:50:25 公開日:2024-07-08 |
# 1秒から2秒: DDPMをベースとした粗大なサンプリングによる高速なイメージインペインティング
Minutes to Seconds: Speeded-up DDPM-based Image Inpainting with Coarse-to-Fine Sampling ( http://arxiv.org/abs/2407.05875v1 ) ライセンス: Link先を確認 | Lintao Zhang, Xiangcheng Du, LeoWu TomyEnrique, Yiqun Wang, Yingbin Zheng, Cheng Jin, | (参考訳) 画像インパインティングでは、既存のDenoising Diffusion Probabilistic Model(DDPM)ベースの手法、すなわちRePaintは、任意のインパインティングフォームに対して高品質な画像を生成することができる。
プリトレーニングされたDDPMを前処理として使用し、逆拡散過程、すなわちデノナイジング過程に条件付けして塗装結果を生成する。
しかし、このプロセスは非常に時間がかかります。
本稿では,3つの高速化戦略を含むDDPM画像の高速なインペイント手法を提案する。
まず,事前学習した軽量拡散モデル(LWDM)を用いてパラメータ数を削減する。
次に,Diffusion Implicit Models (DDIM) のスキップステップサンプリング方式を提案する。
最後に、粗いステージにおける画像解像度を減らし、精製ステージにおける劣化時間ステップを減らし、推論を高速化する粗い領域サンプリング(CFS:Coarse-to-Fine Smpling)を提案する。
顔と汎用画像の塗装作業について広範な実験を行い,約60倍の速度で競合性能を実現する。
For image inpainting, the existing Denoising Diffusion Probabilistic Model (DDPM) based method i.e. RePaint can produce high-quality images for any inpainting form. It utilizes a pre-trained DDPM as a prior and generates inpainting results by conditioning on the reverse diffusion process, namely denoising process. However, this process is significantly time-consuming. In this paper, we propose an efficient DDPM-based image inpainting method which includes three speed-up strategies. First, we utilize a pre-trained Light-Weight Diffusion Model (LWDM) to reduce the number of parameters. Second, we introduce a skip-step sampling scheme of Denoising Diffusion Implicit Models (DDIM) for the denoising process. Finally, we propose Coarse-to-Fine Sampling (CFS), which speeds up inference by reducing image resolution in the coarse stage and decreasing denoising timesteps in the refinement stage. We conduct extensive experiments on both faces and general-purpose image inpainting tasks, and our method achieves competitive performance with approximately 60 times speedup. | 翻訳日:2024-07-09 15:50:25 公開日:2024-07-08 |
# 情報集合のサンプリングによる不完全な情報ゲームのためのニューラルネットワークの学習
Efficiently Training Neural Networks for Imperfect Information Games by Sampling Information Sets ( http://arxiv.org/abs/2407.05876v1 ) ライセンス: Link先を確認 | Timo Bertram, Johannes Fürnkranz, Martin Müller, | (参考訳) 不完全な情報ゲームでは、ゲーム状態の評価は観測可能な世界だけでなく、環境の隠れた部分にも依存する。
妨害された情報にアクセスすると、状態評価を自明にするので、そのような問題に対処する一つの方法は、情報集合内の全ての状態、すなわち現在の不完全情報と整合した全ての状態の組合せとして不完全状態の値を推定することである。
本研究の目的は,不完全なゲーム情報状態から期待値にマップする関数を学習することである。
しかし、完全なトレーニングセット、すなわち多くの不完全な状態のために設定された情報の列挙を構築することは、しばしば不可能である。
textit{Reconnaissance Blind Chess}のような不完全な情報ゲームの期待値を計算するには、単一の状態のトレーニングターゲットを得るためには、何千ものチェスの位置を評価する必要がある。
それでも、状態の期待値は、はるかに小さな評価セットから、適切な精度で既に近似することができる。
そこで,本稿では,学習サンプル間で完全情報ゲーム評価の予算を分配してリターンを最大化する方法を実証的に検討する。
実験の結果, 少数の状態のサンプリングは, 比較的少数の状態のサンプリングよりも, 比較的多数の異なる位置のサンプリングが望ましいことがわかった。
したがって,本例では,より高い目標品質よりも,異なるサンプルの量の方が重要であることが判明した。
In imperfect information games, the evaluation of a game state not only depends on the observable world but also relies on hidden parts of the environment. As accessing the obstructed information trivialises state evaluations, one approach to tackle such problems is to estimate the value of the imperfect state as a combination of all states in the information set, i.e., all possible states that are consistent with the current imperfect information. In this work, the goal is to learn a function that maps from the imperfect game information state to its expected value. However, constructing a perfect training set, i.e. an enumeration of the whole information set for numerous imperfect states, is often infeasible. To compute the expected values for an imperfect information game like \textit{Reconnaissance Blind Chess}, one would need to evaluate thousands of chess positions just to obtain the training target for a single state. Still, the expected value of a state can already be approximated with appropriate accuracy from a much smaller set of evaluations. Thus, in this paper, we empirically investigate how a budget of perfect information game evaluations should be distributed among training samples to maximise the return. Our results show that sampling a small number of states, in our experiments roughly 3, for a larger number of separate positions is preferable over repeatedly sampling a smaller quantity of states. Thus, we find that in our case, the quantity of different samples seems to be more important than higher target quality. | 翻訳日:2024-07-09 15:50:25 公開日:2024-07-08 |
# HiT-SR:高効率画像超解像のための階層変換器
HiT-SR: Hierarchical Transformer for Efficient Image Super-Resolution ( http://arxiv.org/abs/2407.05878v1 ) ライセンス: Link先を確認 | Xiang Zhang, Yulun Zhang, Fisher Yu, | (参考訳) トランスフォーマーは、画像超解像(SR)を含むコンピュータビジョンタスクにおいて有望な性能を示した。
しかし、一般的なトランスフォーマーベースのSR手法では、ウィンドウサイズに2次計算の複雑さを持つウィンドウ自己アテンションを用いることが多いため、受信フィールドが限られている固定された小さなウィンドウが生じる。
本稿では,変換器をベースとしたSRネットワークを階層変換器(HiT-SR)に変換するための一般的な手法を提案する。
具体的には、まず、一般的な固定された小さなウィンドウを階層的なウィンドウに置き換えて、異なるスケールで機能を集約し、長距離依存を確立する。
大規模なウィンドウに必要となる集中的な計算を考慮し,窓の大きさに線形な複雑度を持つ空間チャネル相関法を設計し,階層型ウィンドウから空間およびチャネル情報を効率的に収集する。
広範囲にわたる実験により、我々のHiT-SRの有効性と効率が検証され、改良されたSwinIR-Light、SwinIR-NG、SRFormer-Lightは、より少ないパラメータ、FLOP、高速なSR結果が得られる(\sim7\times$)。
Transformers have exhibited promising performance in computer vision tasks including image super-resolution (SR). However, popular transformer-based SR methods often employ window self-attention with quadratic computational complexity to window sizes, resulting in fixed small windows with limited receptive fields. In this paper, we present a general strategy to convert transformer-based SR networks to hierarchical transformers (HiT-SR), boosting SR performance with multi-scale features while maintaining an efficient design. Specifically, we first replace the commonly used fixed small windows with expanding hierarchical windows to aggregate features at different scales and establish long-range dependencies. Considering the intensive computation required for large windows, we further design a spatial-channel correlation method with linear complexity to window sizes, efficiently gathering spatial and channel information from hierarchical windows. Extensive experiments verify the effectiveness and efficiency of our HiT-SR, and our improved versions of SwinIR-Light, SwinIR-NG, and SRFormer-Light yield state-of-the-art SR results with fewer parameters, FLOPs, and faster speeds ($\sim7\times$). | 翻訳日:2024-07-09 15:50:25 公開日:2024-07-08 |
# マジック:ザ・ギャザリング」のための一般化カード表現を用いた学習
Learning With Generalised Card Representations for "Magic: The Gathering" ( http://arxiv.org/abs/2407.05879v1 ) ライセンス: Link先を確認 | Timo Bertram, Johannes Fürnkranz, Martin Müller, | (参考訳) 収集可能なカードゲームの定義上の特徴は、実際のゲームプレイに先立って、プレイヤーがいくつかの制限に従ってデッキを形成するデッキ構築プロセスである。
デッキを構築することの学習は、大きなカードの多様性と非常に複雑なセマンティクス、そしてAIを活用するために意味のあるカードとデッキ表現を必要とするため、プレイヤーやモデルも同様に困難である。
さらに、新しいカードセットの定期的なリリースは、利用可能なカードプールの予期せぬ変動を招き、デッキの設定に影響を与え、継続的な更新を必要とする。
旧来のGame AIによるデッキ構築アプローチは、可能なカードの固定セットに制限されることが多かった。
本研究は,ゲーム「マジック:ザ・ギャザリング」における,AIベースのデッキビルディングの現実的な実用性を大幅に拡張したカード表現の可能性を探る。
本研究では,カードの数値的,名目的,テキスト的特徴に基づく表現,カードイメージ,およびサードパーティサービスからのカード使用状況に関するメタ情報について検討する。
その結果, 一般化された入力表現の特定の選択は, 既知のカード間の人間のカード選択を予測する学習にはほとんど影響を及ぼさないが, 新たな未知のカードの性能は大幅に向上できることがわかった。
一般化されたモデルでは、完全に見えないカード上での人間の選択の55%を予測できるため、カードの品質と戦略の深い理解が得られます。
A defining feature of collectable card games is the deck building process prior to actual gameplay, in which players form their decks according to some restrictions. Learning to build decks is difficult for players and models alike due to the large card variety and highly complex semantics, as well as requiring meaningful card and deck representations when aiming to utilise AI. In addition, regular releases of new card sets lead to unforeseeable fluctuations in the available card pool, thus affecting possible deck configurations and requiring continuous updates. Previous Game AI approaches to building decks have often been limited to fixed sets of possible cards, which greatly limits their utility in practice. In this work, we explore possible card representations that generalise to unseen cards, thus greatly extending the real-world utility of AI-based deck building for the game "Magic: The Gathering".We study such representations based on numerical, nominal, and text-based features of cards, card images, and meta information about card usage from third-party services. Our results show that while the particular choice of generalised input representation has little effect on learning to predict human card selections among known cards, the performance on new, unseen cards can be greatly improved. Our generalised model is able to predict 55\% of human choices on completely unseen cards, thus showing a deep understanding of card quality and strategy. | 翻訳日:2024-07-09 15:50:25 公開日:2024-07-08 |
# エピソード・ルールの学習・記憶システム
One system for learning and remembering episodes and rules ( http://arxiv.org/abs/2407.05884v1 ) ライセンス: Link先を確認 | Joshua T. S. Hewson, Sabina J. Sloman, Marina Dubova, | (参考訳) 人間は個々のエピソードや一般化可能なルールを学習でき、時間とともに両方の獲得した知識を保持できる。
認知科学文献では,(1)個別のエピソードとルールの学習,(2)学習と記憶は,個別の相補的な学習システムを必要とする競合するプロセスとして概念化されることが多い。
統計的学習の最近の研究に触発されて、我々はこれらのトレードオフに挑戦し、基礎となる認知過程の固有の非互換性からではなく、キャパシティの限界から生じるという仮説を立てた。
連想学習タスクを用いて、過剰な表現能力を持つ1つのシステムがエピソードとルールの両方を学習し、記憶することができることを示す。
Humans can learn individual episodes and generalizable rules and also successfully retain both kinds of acquired knowledge over time. In the cognitive science literature, (1) learning individual episodes and rules and (2) learning and remembering are often both conceptualized as competing processes that necessitate separate, complementary learning systems. Inspired by recent research in statistical learning, we challenge these trade-offs, hypothesizing that they arise from capacity limitations rather than from the inherent incompatibility of the underlying cognitive processes. Using an associative learning task, we show that one system with excess representational capacity can learn and remember both episodes and rules. | 翻訳日:2024-07-09 15:50:25 公開日:2024-07-08 |
# プログラム可能なRydberg原子配列における長距離量子絡み合いからのフラクトン秩序の実現
Realizing fracton order from long-range quantum entanglement in programmable Rydberg atom arrays ( http://arxiv.org/abs/2407.05885v1 ) ライセンス: Link先を確認 | Andriy H. Nevidomskyy, Hannes Bernien, Alexander Canright, | (参考訳) 量子情報のストアングは、古典的なコンピュータの情報とは異なり、量子デコヒーレンスと戦わなければならないため、時間の経過とともに情報が失われる。
誤り耐性の量子メモリを実現するために、局所的なノイズ源が別の状態に変化できないように構築された縮退状態の量子重ね合わせに情報を格納し、量子デコヒーレンスを防止する。
一つの有望な概念はフラクトン秩序(英語版)であり、システムサイズに比例して大きく成長する大きな基底状態の縮退を持つ物質相である。
残念なことに、フラクトンを実現するモデルは、(10の順序の)相当数の量子ビットの間の不自然な相互作用を必要とするため、実験的な実装には適さない。
この制限は、コードとアシラ量子ビット間のペアの相互作用のみを用いて作られた長距離量子絡み合いを利用して、Rydberg原子のプログラム可能なツイーザーアレイで実現可能であることを実証する。
このプラットフォームは、真のエラー耐性量子メモリの目標に向けて、特定の種類のエラーを検出し、修正することを可能にする。
Storing quantum information, unlike information in a classical computer, requires battling quantum decoherence, which results in a loss of information over time. To achieve error-resistant quantum memory, one would like to store the information in a quantum superposition of degenerate states engineered in such a way that local sources of noise cannot change one state into another, thus preventing quantum decoherence. One promising concept is that of fracton order -- a phase of matter with a large ground state degeneracy that grows subextensively with the system size. Unfortunately, the models realizing fractons are not friendly to experimental implementations as they require unnatural interactions between a substantial number (of the order of ten) of qubits. We demonstrate how this limitation can be circumvented by leveraging the long-range quantum entanglement created using only pairwise interactions between the code and ancilla qubits, realizable in programmable tweezer arrays of Rydberg atoms. We show that this platform also allows to detect and correct certain types of errors en route to the goal of true error-resistant quantum memory. | 翻訳日:2024-07-09 15:50:25 公開日:2024-07-08 |
# LLMを用いたインドにおける臨床用放電装置の生成と同定
Generation and De-Identification of Indian Clinical Discharge Summaries using LLMs ( http://arxiv.org/abs/2407.05887v1 ) ライセンス: Link先を確認 | Sanjeet Singh, Shreya Gupta, Niralee Gupta, Naimish Sharma, Lokesh Srivastava, Vibhu Agarwal, Ashutosh Modi, | (参考訳) 医療データ漏洩の結果は、患者、提供者、支払者にとって壊滅的な結果になる可能性がある。
データ漏洩による過去数カ月の平均的な金銭的影響は、1000万ドルに近いと推定されている。
これは、迅速なデジタル化を管理しながら、法の書簡と精神に沿うデータガバナンスの手続きを確立しているインドの医療組織にとって、特に重要である。
個人情報を識別するコンピュータベースのシステムは、データドリフトに対して脆弱であり、しばしばクロスインスティテュート環境では効果がない。
したがって、インドにおけるデジタルヘルスイニシアチブの安全な導入を支援するために、地域保健データセットに対する既存の非識別の厳格な評価が不可欠である。
本稿では,インド医療機関が提供した患者退院サマリーの集合を用いて,非インド人データセットをトレーニングした非インド人データセットの識別アルゴリズム(言語モデルに基づく)の名目上の性能について報告し,クロス機関的一般化の欠如を示唆する。
同様に、オフ・ザ・シェルフ・デ・アイデンティティ(英語版)システムによる実験は、アプローチに関連する潜在的なリスクを明らかにする。
データ不足を克服するため,Large Language Models (LLMs) 上でコンテキスト内学習を行うことにより,合成臨床報告(公開およびインドの要約を用いて)の生成を検討する。
本実験は, 優れた一般化機能を有する高性能な非識別システムを構築するための効果的な戦略として, 生成レポートの利用を実証するものである。
The consequences of a healthcare data breach can be devastating for the patients, providers, and payers. The average financial impact of a data breach in recent months has been estimated to be close to USD 10 million. This is especially significant for healthcare organizations in India that are managing rapid digitization while still establishing data governance procedures that align with the letter and spirit of the law. Computer-based systems for de-identification of personal information are vulnerable to data drift, often rendering them ineffective in cross-institution settings. Therefore, a rigorous assessment of existing de-identification against local health datasets is imperative to support the safe adoption of digital health initiatives in India. Using a small set of de-identified patient discharge summaries provided by an Indian healthcare institution, in this paper, we report the nominal performance of de-identification algorithms (based on language models) trained on publicly available non-Indian datasets, pointing towards a lack of cross-institutional generalization. Similarly, experimentation with off-the-shelf de-identification systems reveals potential risks associated with the approach. To overcome data scarcity, we explore generating synthetic clinical reports (using publicly available and Indian summaries) by performing in-context learning over Large Language Models (LLMs). Our experiments demonstrate the use of generated reports as an effective strategy for creating high-performing de-identification systems with good generalization capabilities. | 翻訳日:2024-07-09 15:50:25 公開日:2024-07-08 |
# 連続視覚言語ナビゲーションのための基礎モデルを用いた順応型計画法
Affordances-Oriented Planning using Foundation Models for Continuous Vision-Language Navigation ( http://arxiv.org/abs/2407.05890v1 ) ライセンス: Link先を確認 | Jiaqi Chen, Bingqian Lin, Xinmin Liu, Xiaodan Liang, Kwan-Yee K. Wong, | (参考訳) LLMベースのエージェントは視覚言語ナビゲーション(VLN)タスクにおいて印象的なゼロショット性能を示した。
しかし、これらのゼロショット手法は、現実的なナビゲーションシナリオにおける低レベル制御を見越して、移動のための事前に定義されたナビゲーショングラフのノードを選択することによって、高レベルタスク計画の解決にのみ焦点をあてている。
このギャップを埋めるために、我々は連続VLNタスクのための新しい余裕指向の計画フレームワークであるAO-Plannerを提案する。
我々のAO-Plannerは、様々な基礎モデルを統合して、アベイランス指向のモーションプランニングとアクション意思決定を実現し、どちらもゼロショット方式で実行します。
具体的には、視覚的アプライアンスプロンプト(VAP)アプローチを用いて、SAMを用いて視界をセグメンテーションし、航法的アプライアンスを提供し、LLMが潜在的次の経路ポイントを選択し、選択した経路ポイントに向けた低レベルパスプランニングを生成する。
さらに,高レベルエージェントであるPathAgentを導入して,最も期待できるピクセルベースのパスを特定し,低レベル動作を実現するために3D座標に変換する。
挑戦的なR2R-CEベンチマークの実験結果は、AO-Plannerが最先端のゼロショット性能(SPLは5.5%改善)を達成したことを示している。
提案手法は,LLMと3次元世界との効果的な接続を確立し,世界座標を直接予測することの難しさを回避し,低レベルモーションコントロールに基礎モデルを採用する新たな可能性を示す。
LLM-based agents have demonstrated impressive zero-shot performance in the vision-language navigation (VLN) task. However, these zero-shot methods focus only on solving high-level task planning by selecting nodes in predefined navigation graphs for movements, overlooking low-level control in realistic navigation scenarios. To bridge this gap, we propose AO-Planner, a novel affordances-oriented planning framework for continuous VLN task. Our AO-Planner integrates various foundation models to achieve affordances-oriented motion planning and action decision-making, both performed in a zero-shot manner. Specifically, we employ a visual affordances prompting (VAP) approach, where visible ground is segmented utilizing SAM to provide navigational affordances, based on which the LLM selects potential next waypoints and generates low-level path planning towards selected waypoints. We further introduce a high-level agent, PathAgent, to identify the most probable pixel-based path and convert it into 3D coordinates to fulfill low-level motion. Experimental results on the challenging R2R-CE benchmark demonstrate that AO-Planner achieves state-of-the-art zero-shot performance (5.5% improvement in SPL). Our method establishes an effective connection between LLM and 3D world to circumvent the difficulty of directly predicting world coordinates, presenting novel prospects for employing foundation models in low-level motion control. | 翻訳日:2024-07-09 15:50:25 公開日:2024-07-08 |
# コーンビームCT画像からの歯の識別と3次元境界箱抽出の効率化
An efficient method to automate tooth identification and 3D bounding box extraction from Cone Beam CT Images ( http://arxiv.org/abs/2407.05892v1 ) ライセンス: Link先を確認 | Ignacio Garrido Botella, Ignacio Arranz Águeda, Juan Carlos Armenteros Carmona, Oleg Vorontsov, Fernando Bayón Robledo, Adrián Alonso Barriuso, | (参考訳) Cone Beam Computed Tomography (CBCT) 画像からの歯の正確な識別, 局在, 分離は, 歯の病態解析に不可欠である。
個々の歯のモデリングは、特に充填やその他の修復物が人工物を導入する場合、困難で複雑である。
本稿では,CBCT画像から歯を自動検出,識別,抽出する手法を提案する。
本手法では,3次元画像を軸スライスに分割して画像検出を行う。
歯は1段階の物体検出器を用いてピンポイントされラベル付けされる。
その後、境界ボックスをデライン化して識別し、各歯の3次元表現を生成する。
提案手法は歯科分析ツールの伝具にうまく組み込まれている。
Accurate identification, localization, and segregation of teeth from Cone Beam Computed Tomography (CBCT) images are essential for analyzing dental pathologies. Modeling an individual tooth can be challenging and intricate to accomplish, especially when fillings and other restorations introduce artifacts. This paper proposes a method for automatically detecting, identifying, and extracting teeth from CBCT images. Our approach involves dividing the three-dimensional images into axial slices for image detection. Teeth are pinpointed and labeled using a single-stage object detector. Subsequently, bounding boxes are delineated and identified to create three-dimensional representations of each tooth. The proposed solution has been successfully integrated into the dental analysis tool Dentomo. | 翻訳日:2024-07-09 15:50:25 公開日:2024-07-08 |
# 確率的旅行時間推定のためのリンク表現学習
Link Representation Learning for Probabilistic Travel Time Estimation ( http://arxiv.org/abs/2407.05895v1 ) ライセンス: Link先を確認 | Chen Xu, Qiang Wang, Lijun Sun, | (参考訳) 旅行時間推定はナビゲーションアプリやWebマッピングサービスにおいて重要なアプリケーションである。
現在の決定論的および確率論的手法は、主に旅行間の独立を前提として、個々の旅行をモデル化することに焦点を当てている。
しかし,現実のシナリオでは,気象条件,交通管理,道路工事などの要因により,トリップ間の強い相関関係が観測されることが多い。
本稿では,トリップ間相関とトリップ内相関を特徴付けるガウス階層モデルを用いて,トリップレベルのリンク移動時間をモデル化する。
複数の旅行の旅行時間の同時分布は、学習可能なリンク表現によってパラメータ化される多変量ガウスとなる。
スパースGPSトラジェクトリを効果的に活用するために,トリップサブサンプリングに基づくデータ拡張手法を提案する。
推定中は, 時空間に隣接した走行経路上での待ち行列の走行時間の確率分布を推定する。
フレームワーク全体を ProbTTE と呼ぶ。
実世界の2つのGPSトラジェクトリデータセット上でProbTTEを評価し,その性能を最先端の決定論的および確率論的ベースラインと比較した。
さらに、学習したリンク表現は、ネットワークの物理幾何学とよく一致し、他のアプリケーションに対する入力として適していることがわかった。
Travel time estimation is a crucial application in navigation apps and web mapping services. Current deterministic and probabilistic methods primarily focus on modeling individual trips, assuming independence among trips. However, in real-world scenarios, we often observe strong inter-trip correlations due to factors such as weather conditions, traffic management, and road works. In this paper, we propose to model trip-level link travel time using a Gaussian hierarchical model, which can characterize both inter-trip and intra-trip correlations. The joint distribution of travel time of multiple trips becomes a multivariate Gaussian parameterized by learnable link representations. To effectively use the sparse GPS trajectories, we also propose a data augmentation method based on trip sub-sampling, which allows for fine-grained gradient backpropagation in learning link representations. During inference, we estimate the probability distribution of the travel time of a queried trip conditional on the completed trips that are spatiotemporally adjacent. We refer to the overall framework as ProbTTE. We evaluate ProbTTE on two real-world GPS trajectory datasets, and the results demonstrate its superior performance compared to state-of-the-art deterministic and probabilistic baselines. Additionally, we find that the learned link representations align well with the physical geometry of the network, making them suitable as input for other applications. | 翻訳日:2024-07-09 15:50:25 公開日:2024-07-08 |
# 表現の絡み合いの役割の解明--CLIPモデルにおける構成的一般化の考察
Deciphering the Role of Representation Disentanglement: Investigating Compositional Generalization in CLIP Models ( http://arxiv.org/abs/2407.05897v1 ) ライセンス: Link先を確認 | Reza Abbasi, Mohammad Hossein Rohban, Mahdieh Soleymani Baghshah, | (参考訳) CLIPモデルは、最近、OoD(Out of Distribution)の一般化機能を示す。
しかし、CLIPモデルでは、既知の概念の未知の合成を理解するためのモデルの能力の重要な側面である構成外分布(C-OoD)の一般化は、比較的未解明である。
私たちのゴールは、CLIPのC-OoDに寄与する要因を特定し、この問題に対処することです。
CLIPの合成理解に関するこれまでの研究は、テストサンプルがCLIPトレーニングデータに対して真に新しいものであることを保証できないことが多かった。
この目的のために、我々は、CLIPモデルの複合トレーニングデータセットに遭遇する可能性が極めて低いオブジェクトの属性を含む、大規模で多様なデータセットを単一のオブジェクト設定で慎重に合成した。
このデータセットは、C-OoD一般化の真正性評価を可能にする。
各種CLIPモデルにおけるC-OoDの一般化について検討した。
本稿では,CLIP表現のアンタングル化が,この文脈における重要な指標となることを提案する。
合成データセットやその他の既存のデータセットを利用することで、テキストと画像表現の様々なアンタングルメント指標を評価する。
本研究は,画像およびテキスト表現の歪み,特に構成要素に関して,CLIPモデルのアウト・オブ・ディストリビューション・セッティングにおける一般化に重要な役割を担っていることを明らかにした。
この発見は、CLIPにおけるアウト・オブ・ディストリビューションの一般化を促進する有望な機会を示唆している。
CLIP models have recently shown to exhibit Out of Distribution (OoD) generalization capabilities. However, Compositional Out of Distribution (C-OoD) generalization, which is a crucial aspect of a model's ability to understand unseen compositions of known concepts, is relatively unexplored for the CLIP models. Our goal is to address this problem and identify the factors that contribute to the C-OoD in CLIPs. We noted that previous studies regarding compositional understanding of CLIPs frequently fail to ensure that test samples are genuinely novel relative to the CLIP training data. To this end, we carefully synthesized a large and diverse dataset in the single object setting, comprising attributes for objects that are highly unlikely to be encountered in the combined training datasets of various CLIP models. This dataset enables an authentic evaluation of C-OoD generalization. Our observations reveal varying levels of C-OoD generalization across different CLIP models. We propose that the disentanglement of CLIP representations serves as a critical indicator in this context. By utilizing our synthesized datasets and other existing datasets, we assess various disentanglement metrics of text and image representations. Our study reveals that the disentanglement of image and text representations, particularly with respect to their compositional elements, plays a crucial role in improving the generalization of CLIP models in out-of-distribution settings. This finding suggests promising opportunities for advancing out-of-distribution generalization in CLIPs. | 翻訳日:2024-07-09 15:40:39 公開日:2024-07-08 |
# 文脈情報損失による選好のコントラスト学習
Contrastive Learning of Preferences with a Contextual InfoNCE Loss ( http://arxiv.org/abs/2407.05898v1 ) ライセンス: Link先を確認 | Timo Bertram, Johannes Fürnkranz, Martin Müller, | (参考訳) 文脈的選好ランキングにおける一般的な問題は、一つの選好行動がいくつかの選択に対して比較され、それによって複雑さが爆発し、選好分布が歪むことである。
コンピュータビジョンやマルチモーダルドメインにおいてInfoNCEの損失は大きな成功を収めているものの、バッチ構築技術では任意の項目を比較する能力が必要であり、ひとつの項目が同じバッチ内で複数の正の関連性を持つ場合、適切に定義されていないため、この適応は完全には前向きではない。
収集可能なカードゲーム領域におけるInfoNCE損失の適応版の有用性を実証的に実証し、人間の選択に基づいてシングルカードとカードプール全体の関連をキャプチャする埋め込み空間を学習することを目的としている。
このような選択データは制限された選択のためにのみ存在するため、カードとプールの間の完全な適合ではなく、他のアイテムのセットよりも1つのアイテムの具体的な好みを生成する。
以上の結果から,バニラCLIPは上記の直感的な問題により正常に動作しないことが明らかとなった。
しかし、この問題にCLIPを適用することで、三重項損失で訓練された以前の作業よりも優れるモデルが得られ、また、三重項採掘に伴う問題も軽減される。
A common problem in contextual preference ranking is that a single preferred action is compared against several choices, thereby blowing up the complexity and skewing the preference distribution. In this work, we show how one can solve this problem via a suitable adaptation of the CLIP framework.This adaptation is not entirely straight-forward, because although the InfoNCE loss used by CLIP has achieved great success in computer vision and multi-modal domains, its batch-construction technique requires the ability to compare arbitrary items, and is not well-defined if one item has multiple positive associations in the same batch. We empirically demonstrate the utility of our adapted version of the InfoNCE loss in the domain of collectable card games, where we aim to learn an embedding space that captures the associations between single cards and whole card pools based on human selections. Such selection data only exists for restricted choices, thus generating concrete preferences of one item over a set of other items rather than a perfect fit between the card and the pool. Our results show that vanilla CLIP does not perform well due to the aforementioned intuitive issues. However, by adapting CLIP to the problem, we receive a model outperforming previous work trained with the triplet loss, while also alleviating problems associated with mining triplets. | 翻訳日:2024-07-09 15:40:39 公開日:2024-07-08 |
# 逐次励起量子3レベル系からの光子核符号化高次元エンタングルメントに向けて
Towards Photon-Number-Encoded High-dimensional Entanglement from a Sequentially Excited Quantum Three-Level System ( http://arxiv.org/abs/2407.05902v1 ) ライセンス: Link先を確認 | Daniel A. Vajner, Nils D. Kewitz, Martin von Helversen, Stephen C. Wein, Yusuf Karli, Florian Kappe, Vikas Remesh, Saimon F. Covre da Silva, Armando Rastelli, Gregor Weihs, Carlos Anton-Solanas, Tobias Heindel, | (参考訳) 2レベル量子系の逐次共鳴励起は、光子数基底に符号化された時間的絡み合いを示す光の状態の放出をもたらす。
本稿では,半導体量子ドットのバイエクシトン-,エキシトン-,基底状態で構成される固体3レベル系の2光子共振子励起過程を実験的に実装した。
結果として生じる光状態は、光子数ベースで符号化された時間とエネルギーの絡み合いを示し、密度の高い情報符号化や量子通信プロトコルなどの量子情報応用に利用することができる。
エネルギー-時間-解相関実験と広範な理論モデリングを組み合わせることで、生成した状態の絡み合い構造を部分的に取り出すことができる。
The sequential resonant excitation of a 2-level quantum system results in the emission of a state of light showing time-entanglement encoded in the photon-number-basis - notions that can be extended to 3-level quantum systems as discussed in a recent proposal. Here, we report the experimental implementation of a sequential two-photon resonant excitation process of a solid-state 3-level system, constituted by the biexciton-, exciton-, and ground-state of a semiconductor quantum dot. The resulting light state exhibits entanglement in time and energy, encoded in the photon-number basis, which could be used in quantum information applications, e.g., dense information encoding or quantum communication protocols. Performing energy- and time-resolved correlation experiments in combination with extensive theoretical modelling, we are able to partially retrieve the entanglement structure of the generated state. | 翻訳日:2024-07-09 15:40:39 公開日:2024-07-08 |
# 半教師付き検出における汎用物体と指向物体のギャップをブリッジするマルチキュー一貫性学習
Multi-clue Consistency Learning to Bridge Gaps Between General and Oriented Object in Semi-supervised Detection ( http://arxiv.org/abs/2407.05909v1 ) ライセンス: Link先を確認 | Chenxu Wang, Chunyan Xu, Ziqi Gu, Zhen Cui, | (参考訳) 既存の半教師付き物体検出(SSOD)法は、一般的な場面でよく機能するが、それらは空中画像におけるオブジェクト指向物体の扱いにおいて困難に直面している。
半教師あり学習における汎用物体検出とオブジェクト指向物体検出の3つのギャップを実験的に発見する。
1) 共通中心サンプリングは, ラベル付きデータから正のラベルを選択する際に, アスペクト比が大きいオブジェクト指向対象には適さない。
2) アサインメントの不整合性: 方向付き擬似箱の精度と位置決め品質のバランスをとると, ラベルなしデータから正のラベルを選択する際に, より多くのノイズが発生するという大きな課題が生じる。
3) 信頼の不整合性: 対象物を考慮した場合, 予測された分類と局所化品質との間には, 擬似ラベルの選択に影響を及ぼすミスマッチが存在する。
そこで本研究では,半教師付き検出における汎用オブジェクトと指向オブジェクトのギャップを埋めるために,MCL(Multi-clue Consistency Learning)フレームワークを提案する。
具体的には、回転物体の様々な形状を考慮すると、ガウス中心割り当てはラベル付きデータから画素レベルの正のラベルを選択するように設計されている。
次に、信頼できない擬似箱の代わりに画素レベルの擬似ラベルを選択するために、スケール対応ラベルアサインメントを導入する。
一致信頼ソフトラベルは、予測結果のアライメントを維持することにより、検出器をさらに強化するために採用される。
DOTA-v1.5 および DOTA-v1.0 ベンチマークの総合的な実験により,提案した MCL が半教師付きオブジェクト指向物体検出タスクにおいて最先端の性能を達成できることが実証された。
While existing semi-supervised object detection (SSOD) methods perform well in general scenes, they encounter challenges in handling oriented objects in aerial images. We experimentally find three gaps between general and oriented object detection in semi-supervised learning: 1) Sampling inconsistency: the common center sampling is not suitable for oriented objects with larger aspect ratios when selecting positive labels from labeled data. 2) Assignment inconsistency: balancing the precision and localization quality of oriented pseudo-boxes poses greater challenges which introduces more noise when selecting positive labels from unlabeled data. 3) Confidence inconsistency: there exists more mismatch between the predicted classification and localization qualities when considering oriented objects, affecting the selection of pseudo-labels. Therefore, we propose a Multi-clue Consistency Learning (MCL) framework to bridge gaps between general and oriented objects in semi-supervised detection. Specifically, considering various shapes of rotated objects, the Gaussian Center Assignment is specially designed to select the pixel-level positive labels from labeled data. We then introduce the Scale-aware Label Assignment to select pixel-level pseudo-labels instead of unreliable pseudo-boxes, which is a divide-and-rule strategy suited for objects with various scales. The Consistent Confidence Soft Label is adopted to further boost the detector by maintaining the alignment of the predicted results. Comprehensive experiments on DOTA-v1.5 and DOTA-v1.0 benchmarks demonstrate that our proposed MCL can achieve state-of-the-art performance in the semi-supervised oriented object detection task. | 翻訳日:2024-07-09 15:40:39 公開日:2024-07-08 |
# 交通事故理解のためのシーングラフを用いたビジョンランゲージモデルの構築
Enhancing Vision-Language Models with Scene Graphs for Traffic Accident Understanding ( http://arxiv.org/abs/2407.05910v1 ) ライセンス: Link先を確認 | Aaron Lohner, Francesco Compagno, Jonathan Francis, Alessandro Oltramari, | (参考訳) 交通事故を認識することは、自動運転や道路監視システムにとって不可欠な部分である。
事故は様々な形で現れ、どのような事故が起きているかを理解することは、事故の再発生を防ぐのに役立つかもしれない。
交通シーンを特定のタイプの事故として分類できるタスクは、この作業の焦点である。
本研究では,車などの物体をノードとして表現し,その間の相対距離や方向をエッジとして表現するグラフに,交通シーンを類似させることにより,この問題に対処する。
この事故の表現はシーングラフと呼ばれ、事故分類器の入力として使用される。
より良い結果を得るには、シーングラフの入力を視覚や言語からの表現と融合させる分類器を使用する。
この研究は、交通事故のビデオを前処理し、それらをシーングラフとしてエンコードし、この表現を事故分類のための視覚と言語モダリティと整合させるためのマルチステージマルチモーダルパイプラインを導入している。
4つのクラスでトレーニングすると,一般的な交通異常検出(DoTA)ベンチマークの(不均衡)サブセットに対して57.77%のバランスの取れた精度スコアが得られ,シーングラフ情報を考慮しない場合に比べて5ポイント近く増加していた。
Recognizing a traffic accident is an essential part of any autonomous driving or road monitoring system. An accident can appear in a wide variety of forms, and understanding what type of accident is taking place may be useful to prevent it from reoccurring. The task of being able to classify a traffic scene as a specific type of accident is the focus of this work. We approach the problem by likening a traffic scene to a graph, where objects such as cars can be represented as nodes, and relative distances and directions between them as edges. This representation of an accident can be referred to as a scene graph, and is used as input for an accident classifier. Better results can be obtained with a classifier that fuses the scene graph input with representations from vision and language. This work introduces a multi-stage, multimodal pipeline to pre-process videos of traffic accidents, encode them as scene graphs, and align this representation with vision and language modalities for accident classification. When trained on 4 classes, our method achieves a balanced accuracy score of 57.77% on an (unbalanced) subset of the popular Detection of Traffic Anomaly (DoTA) benchmark, representing an increase of close to 5 percentage points from the case where scene graph information is not taken into account. | 翻訳日:2024-07-09 15:40:39 公開日:2024-07-08 |
# 意味オブジェクトセグメンテーションのためのサブモジュールビデオオブジェクトの提案
Submodular video object proposal selection for semantic object segmentation ( http://arxiv.org/abs/2407.05913v1 ) ライセンス: Link先を確認 | Tinghuai Wang, | (参考訳) データ駆動によるオブジェクトの時空間意味表現を学習することは、ビデオにおける一貫性と一貫性のあるラベリングの鍵となる。
本稿では,連続したフレームから複数のインスタンスのシナジーをキャプチャするデータ駆動表現を学習し,セマンティックなビデオオブジェクトセグメンテーションを実現することを提案する。
ノイズを検出するために、複数のインスタンス間のリッチな情報を活用し、識別的および代表的サブセットを選択する。
この選択過程は、部分モジュラ函数を最大化することによって解決される施設位置問題として定式化される。
本手法は,ロバストなセマンティックなビデオオブジェクトセグメンテーションアルゴリズムの基盤となる,長期的コンテキスト依存を検索する。
我々は、最先端の手法と比較して、我々のアプローチの優れた性能を示す挑戦的なデータセットに関する広範な実験を行った。
Learning a data-driven spatio-temporal semantic representation of the objects is the key to coherent and consistent labelling in video. This paper proposes to achieve semantic video object segmentation by learning a data-driven representation which captures the synergy of multiple instances from continuous frames. To prune the noisy detections, we exploit the rich information among multiple instances and select the discriminative and representative subset. This selection process is formulated as a facility location problem solved by maximising a submodular function. Our method retrieves the longer term contextual dependencies which underpins a robust semantic video object segmentation algorithm. We present extensive experiments on a challenging dataset that demonstrate the superior performance of our approach compared with the state-of-the-art methods. | 翻訳日:2024-07-09 15:40:39 公開日:2024-07-08 |
# 意味的ビデオオブジェクトセグメンテーションのための非パラメトリック関係学習
Non-parametric Contextual Relationship Learning for Semantic Video Object Segmentation ( http://arxiv.org/abs/2407.05916v1 ) ライセンス: Link先を確認 | Tinghuai Wang, Huiling Wang, | (参考訳) ビデオにおける意味的文脈関係をモデル化するための新しい手法を提案する。
このグラフベースのモデルにより、高レベルの時空間文脈の学習と伝播を可能にし、局所領域のセマンティックラベリングを容易にする。
そこでは, 対象仮説によって示唆される固有関係を, 領域の類似性グラフ上にエンコードする, 文脈的手がかりの非パラメトリックな例を紹介した。
文脈関係の学習と伝播は、ラベルなしの局所領域のすべてのペア間のペアワイズコンテキストを推定するために行われる。
本アルゴリズムは,学習コンテキストを条件付きランダムフィールド(CRF)にペアポテンシャルの形で統合し,領域ごとのセマンティックラベルを推論する。
提案手法は,YouTube-Objectsデータセットの課題に対して評価を行い,提案手法が最先端の手法よりも優れていることを示す。
We propose a novel approach for modeling semantic contextual relationships in videos. This graph-based model enables the learning and propagation of higher-level spatial-temporal contexts to facilitate the semantic labeling of local regions. We introduce an exemplar-based nonparametric view of contextual cues, where the inherent relationships implied by object hypotheses are encoded on a similarity graph of regions. Contextual relationships learning and propagation are performed to estimate the pairwise contexts between all pairs of unlabeled local regions. Our algorithm integrates the learned contexts into a Conditional Random Field (CRF) in the form of pairwise potentials and infers the per-region semantic labels. We evaluate our approach on the challenging YouTube-Objects dataset which shows that the proposed contextual relationship model outperforms the state-of-the-art methods. | 翻訳日:2024-07-09 15:40:39 公開日:2024-07-08 |
# 2次元ランダム量子マグネットSr$_2$CuTe$_{1-x}$W$_x$O$_6$における非磁性相と多体絡み合い
Unveiling nonmagnetic phase and many-body entanglement in two-dimensional random quantum magnets Sr$_2$CuTe$_{1-x}$W$_x$O$_6$ ( http://arxiv.org/abs/2407.05917v1 ) ライセンス: Link先を確認 | Dian Wu, Fan Yang, Giuseppe Carleo, | (参考訳) 正方格子上にランダムプレケット$J_1$-$J_2$モデルを適用し、スピン-1/2$ハイゼンベルク反強磁性化合物Sr$_2$CuTe$_{1-x}$W$_x$O$_6$の物理を捉える。
実験的に関係する結合強度の入力により、我々の精密対角化(ED)研究は、以前の線形スピン波のアプローチを超えた基底状態特性を探索する。
長距離N'eelまたはストライプオーダーのない非磁性相に対して、x \in [0.08, 0.55]$の中間範囲を同定する。
価結合ガラス秩序とスピングラス非エルゴード力学の両方が欠如していることは、その性質を興味深いものにしている。
この位相の奥深くでは、0に近いスピン凍結パラメータ、近傍のスピン-スピン相関の消滅、ほぼ均一な静的スピン構造因子、および動的スピン構造因子の広い尾を含む、ランダム性によって誘導される短距離スピン-液状(SLL)状態に結びつく可能性のあるシグネチャが観察される。
非磁性相はまた、量子フィッシャー情報(QFI)によって観測される基底状態における多粒子の絡み合いを特徴とし、量子臨界点における普遍的なスケーリング挙動を示す。
We apply a random-plaquette $J_1$-$J_2$ model on the square lattice to capture the physics of a series of spin-$1/2$ Heisenberg antiferromagnet compounds Sr$_2$CuTe$_{1-x}$W$_x$O$_6$. With the input of experimentally relevant coupling strengths, our exact diagonalization (ED) study probes the ground state properties beyond previous linear spin-wave approach. An intermediate range of $x \in [0.08, 0.55]$ is identified for a nonmagnetic phase without the long-range N\'eel or stripe order. The absence of both valence-bond-glass order and spin-glass non-ergodic dynamics renders its nature intriguing. Deep inside this phase around $x = 0.3$, we observe signatures potentially linked to randomness-induced short-range spin-liquid-like (SLL) states, including close to zero spin-freezing parameter, vanishing spin-spin correlation beyond nearest neighbors, almost uniform static spin structure factor, as well as a broad tail in the dynamical spin structure factor. The nonmagnetic phase also features multipartite entanglement in the ground state witnessed by quantum Fisher information (QFI), which exhibits universal scaling behaviors at quantum critical points. | 翻訳日:2024-07-09 15:40:39 公開日:2024-07-08 |
# AIとMLの信頼と価値の定量化
Fostering Trust and Quantifying Value of AI and ML ( http://arxiv.org/abs/2407.05919v1 ) ライセンス: Link先を確認 | Dalmo Cirne, Veena Calambur, | (参考訳) 人工知能(AI)と機械学習(ML)プロバイダは、有効で信頼性の高いシステムを開発する責任がある。
AIとML推論(予測やタスクの解決のためにトレーニングされたAIモデルを通じてライブデータを運用するプロセス)の信頼性については、多くの議論がされているが、それが何を意味するのかを定義するための作業はほとんど行われていない。
MLベースのプロダクトの領域にいる人々は、透明性、説明可能性、安全性、バイアスなどといったトピックに精通しています。
しかし、それらを定量化し、測定するフレームワークはありません。
より信頼できる機械学習推論を生成することは、製品の価値(すなわち、結果に対する信頼の高まり)を高め、ユーザーと会話して製品を改善するためのフィードバックを集めるための道である。
本稿では,提供者 (Trustor) とユーザ (Trustees) の信頼関係について検討することから始める。
トラストは信頼し、信頼しなくてはならないが、トラストは信頼し、信頼する必要はない。
委託者にとっての課題は、信頼者が最低限の閾値を超える信頼レベルを上げるのに十分な結果を提供することである。
我々は、信頼スコアの計算に使用されるフレームワークと実行可能なメトリクスのセットを定義し、提案することで、マシンラーニングシステムがいかに信頼に値するかを客観的に理解し、時間とともに行動する。
Artificial Intelligence (AI) and Machine Learning (ML) providers have a responsibility to develop valid and reliable systems. Much has been discussed about trusting AI and ML inferences (the process of running live data through a trained AI model to make a prediction or solve a task), but little has been done to define what that means. Those in the space of ML- based products are familiar with topics such as transparency, explainability, safety, bias, and so forth. Yet, there are no frameworks to quantify and measure those. Producing ever more trustworthy machine learning inferences is a path to increase the value of products (i.e., increased trust in the results) and to engage in conversations with users to gather feedback to improve products. In this paper, we begin by examining the dynamic of trust between a provider (Trustor) and users (Trustees). Trustors are required to be trusting and trustworthy, whereas trustees need not be trusting nor trustworthy. The challenge for trustors is to provide results that are good enough to make a trustee increase their level of trust above a minimum threshold for: 1- doing business together; 2- continuation of service. We conclude by defining and proposing a framework, and a set of viable metrics, to be used for computing a trust score and objectively understand how trustworthy a machine learning system can claim to be, plus their behavior over time. | 翻訳日:2024-07-09 15:40:39 公開日:2024-07-08 |
# LPGD: 組込み最適化レイヤによるバックプロパゲーションのための一般的なフレームワーク
LPGD: A General Framework for Backpropagation through Embedded Optimization Layers ( http://arxiv.org/abs/2407.05920v1 ) ライセンス: Link先を確認 | Anselm Paulus, Georg Martius, Vít Musil, | (参考訳) 機械学習アーキテクチャにパラメータ化された最適化問題を層として埋め込むことは、強力な帰納バイアスとなる。
このようなアーキテクチャを確率的勾配降下で訓練するには注意が必要である。
自動微分ライブラリにシームレスに統合された組込み最適化層を持つアーキテクチャをトレーニングするためのフレキシブルなフレームワークとして,Lagrangian Proximal Gradient Descent (LPGD)を提案する。
LPGDは、摂動入力で前方ソルバオラクルを再実行することにより、退化最適化層誘導体の有意義な置換を効率的に計算する。
LPGDは、これまで提案されていた様々な手法を特別な事例として捉え、従来の最適化手法との深いつながりを育んでいる。
本手法を理論的に解析し,LPGDが微分可能な設定であっても勾配降下よりも早く収束することを示す。
Embedding parameterized optimization problems as layers into machine learning architectures serves as a powerful inductive bias. Training such architectures with stochastic gradient descent requires care, as degenerate derivatives of the embedded optimization problem often render the gradients uninformative. We propose Lagrangian Proximal Gradient Descent (LPGD) a flexible framework for training architectures with embedded optimization layers that seamlessly integrates into automatic differentiation libraries. LPGD efficiently computes meaningful replacements of the degenerate optimization layer derivatives by re-running the forward solver oracle on a perturbed input. LPGD captures various previously proposed methods as special cases, while fostering deep links to traditional optimization methods. We theoretically analyze our method and demonstrate on historical and synthetic data that LPGD converges faster than gradient descent even in a differentiable setup. | 翻訳日:2024-07-09 15:40:39 公開日:2024-07-08 |
# TAPVid-3D: 任意の点を3Dで追跡するためのベンチマーク
TAPVid-3D: A Benchmark for Tracking Any Point in 3D ( http://arxiv.org/abs/2407.05921v1 ) ライセンス: Link先を確認 | Skanda Koppula, Ignacio Rocco, Yi Yang, Joe Heyward, João Carreira, Andrew Zisserman, Gabriel Brostow, Carl Doersch, | (参考訳) TAPVid-3Dは,3Dにおける長距離追跡任意の点(TAP-3D)の課題を評価するための新しいベンチマークである。
2次元の点追跡(TAP)は、TAPVid-DAVISのような実世界のビデオのパフォーマンスを計測する多くのベンチマークを持つが、3次元の点追跡は存在しない。
この目的のために、既存の映像を活用して、さまざまなオブジェクトタイプ、モーションパターン、屋内および屋外環境にまたがる3つの異なるデータソースからなる、4000以上の実世界のビデオを含む3Dポイントトラッキングのための新しいベンチマークを構築した。
TAP-3D タスクの性能を測定するために,TAP で使用される Jaccard ベースのメトリクスを拡張したメトリクスの集合を定式化し,モデル,オクルージョン,多トラック時空間のスムーズさといった不明瞭な深度スケールの複雑さに対処する。
トラジェクトリの大規模なサンプルを手動で検証し,既存の追跡モデルを用いて競合ベースラインを構築することにより,TAP-3Dタスクの現況を評価する。
我々は、このベンチマークが、モノクロビデオから正確な3次元の動きと表面の変形を理解する能力を改善するためのガイドポストになることを期待している。
データセットのダウンロード、生成、モデル評価のためのコードはhttps://tapvid3d.github.ioで公開されている。
We introduce a new benchmark, TAPVid-3D, for evaluating the task of long-range Tracking Any Point in 3D (TAP-3D). While point tracking in two dimensions (TAP) has many benchmarks measuring performance on real-world videos, such as TAPVid-DAVIS, three-dimensional point tracking has none. To this end, leveraging existing footage, we build a new benchmark for 3D point tracking featuring 4,000+ real-world videos, composed of three different data sources spanning a variety of object types, motion patterns, and indoor and outdoor environments. To measure performance on the TAP-3D task, we formulate a collection of metrics that extend the Jaccard-based metric used in TAP to handle the complexities of ambiguous depth scales across models, occlusions, and multi-track spatio-temporal smoothness. We manually verify a large sample of trajectories to ensure correct video annotations, and assess the current state of the TAP-3D task by constructing competitive baselines using existing tracking models. We anticipate this benchmark will serve as a guidepost to improve our ability to understand precise 3D motion and surface deformation from monocular video. Code for dataset download, generation, and model evaluation is available at https://tapvid3d.github.io | 翻訳日:2024-07-09 15:40:39 公開日:2024-07-08 |
# 意味的身体解析のためのグラフブースト注意ネットワーク
Graph-Boosted Attentive Network for Semantic Body Parsing ( http://arxiv.org/abs/2407.05924v1 ) ライセンス: Link先を確認 | Tinghuai Wang, Huiling Wang, | (参考訳) 人体解析は、複数のインスタンスや部分間のセマンティックな混同や隠蔽によって、自然界では難しい問題である。
本稿では,制約のない環境下で複数の人体を意味部分領域に分解する手法を提案する。
具体的には、セマンティックボディー解析に関連するセマンティックなあいまいさと境界ローカライゼーションの問題を解決するために、特徴階層にまたがる新しいセマンティックアテンションと輪郭アテンション機構からなる畳み込みニューラルネットワーク(CNN)アーキテクチャを提案する。
さらに,新しいグラフィカルモデルを用いて,局所的な意味的手がかりと組み合わせた高レベルな文脈情報として推定されたポーズを符号化する手法を提案する。
提案モデルでは,推定されたポーズから高レベルな文脈情報を伝播させることにより,低レベルなセマンティックキューを再帰的に更新し,誤ったポーズ情報や画素レベルの予測を緩和する。
さらに,解を効率的に導出する最適化手法を提案する。
提案手法は,Pascal Person-Partデータセットの最先端化を実現する。
Human body parsing remains a challenging problem in natural scenes due to multi-instance and inter-part semantic confusions as well as occlusions. This paper proposes a novel approach to decomposing multiple human bodies into semantic part regions in unconstrained environments. Specifically we propose a convolutional neural network (CNN) architecture which comprises of novel semantic and contour attention mechanisms across feature hierarchy to resolve the semantic ambiguities and boundary localization issues related to semantic body parsing. We further propose to encode estimated pose as higher-level contextual information which is combined with local semantic cues in a novel graphical model in a principled manner. In this proposed model, the lower-level semantic cues can be recursively updated by propagating higher-level contextual information from estimated pose and vice versa across the graph, so as to alleviate erroneous pose information and pixel level predictions. We further propose an optimization technique to efficiently derive the solutions. Our proposed method achieves the state-of-art results on the challenging Pascal Person-Part dataset. | 翻訳日:2024-07-09 15:40:39 公開日:2024-07-08 |
# ループ型LLMを用いた検索付加型QAチャットボットの最適化と評価
Towards Optimizing and Evaluating a Retrieval Augmented QA Chatbot using LLMs with Human in the Loop ( http://arxiv.org/abs/2407.05925v1 ) ライセンス: Link先を確認 | Anum Afzal, Alexander Kowsik, Rajna Fani, Florian Matthes, | (参考訳) 大規模言語モデルは、ヒューマンリソース(HR)のサポートを含む様々な日常的かつ反復的なタスクに応用されている。
SAP SEのドメインエキスパートと協力して、従業員の問い合わせに対処するための効率的かつ効果的なツールとしてHRサポートチャットボットを開発しました。
我々は,データセット収集,迅速な最適化,生成した出力の評価など,開発サイクルのさまざまな部分にHuman-in-the-loopを挿入した。
LLM駆動のチャットボットの応答品質を高め、代替の検索方法を模索することで、HRの専門家が従業員の問い合わせに効果的に対応するための効率的でスケーラブルで柔軟なツールを作成しました。
実験と評価の結果、GPT-4は他のモデルよりも優れており、内部推論能力によってデータの矛盾を克服できることがわかった。
さらに、専門家分析により、G-EvalやPrometheusのような基準のない評価指標が人間の評価と密接に一致していることが推測される。
Large Language Models have found application in various mundane and repetitive tasks including Human Resource (HR) support. We worked with the domain experts of SAP SE to develop an HR support chatbot as an efficient and effective tool for addressing employee inquiries. We inserted a human-in-the-loop in various parts of the development cycles such as dataset collection, prompt optimization, and evaluation of generated output. By enhancing the LLM-driven chatbot's response quality and exploring alternative retrieval methods, we have created an efficient, scalable, and flexible tool for HR professionals to address employee inquiries effectively. Our experiments and evaluation conclude that GPT-4 outperforms other models and can overcome inconsistencies in data through internal reasoning capabilities. Additionally, through expert analysis, we infer that reference-free evaluation metrics such as G-Eval and Prometheus demonstrate reliability closely aligned with that of human evaluation. | 翻訳日:2024-07-09 15:40:39 公開日:2024-07-08 |
# 強化学習による雑音ラベルによるグラフ異常検出
Graph Anomaly Detection with Noisy Labels by Reinforcement Learning ( http://arxiv.org/abs/2407.05934v1 ) ライセンス: Link先を確認 | Zhu Wang, Shuang Zhou, Junnan Dong, Chang Yang, Xiao Huang, Shengjie Zhao, | (参考訳) グラフ異常検出(GAD)は、例えば、金融における不正検出、ソーシャルネットワークにおけるロボットアカウントなど、多くの分野で広く応用されている。
既存のメソッドは、通常のノードから逸脱する外れ値ノードを特定することに特化している。
それらは、現実世界のシナリオでは入手が難しい高品質なアノテーションに大きく依存しているが、ノイズのあるラベルに基づくパフォーマンスが著しく低下する可能性がある。
したがって、ノイズの影響を軽減するため、疑わしいノードの端を切断する動機がある。
しかし、ノイズのあるラベルでノードを正確に識別することは依然として困難である。
また, エッジ切断の後悔を定量的に評価することは困難であり, 肯定的あるいは否定的な影響がある可能性がある。
そこで我々は,REGAD,すなわちReinforced Graph Anomaly Detectorを提案する。
具体的には,高信頼ラベルを用いたノード間を近似したノイズエッジを切断することにより,ベース検出器の性能向上(AUC)を最大化することを目的とする。
i) ポリシーネットワークを訓練するための調整されたアクションと検索スペースを設計し、各ステップにいくつかの疑わしいエッジが優先順位付けされるように、ステップごとにエッジを慎重にプーンする。
2) ベース検出器からのフィードバックに基づいて, 繰り返し最適化を行うためのポリシ・イン・ザ・ループ機構を設計する。
全体的なパフォーマンスは累積報酬によって評価される。
異常比の異なる3つのデータセットに対して大規模な実験を行う。
その結果,提案するREGADの優れた性能が示唆された。
Graph anomaly detection (GAD) has been widely applied in many areas, e.g., fraud detection in finance and robot accounts in social networks. Existing methods are dedicated to identifying the outlier nodes that deviate from normal ones. While they heavily rely on high-quality annotation, which is hard to obtain in real-world scenarios, this could lead to severely degraded performance based on noisy labels. Thus, we are motivated to cut the edges of suspicious nodes to alleviate the impact of noise. However, it remains difficult to precisely identify the nodes with noisy labels. Moreover, it is hard to quantitatively evaluate the regret of cutting the edges, which may have either positive or negative influences. To this end, we propose a novel framework REGAD, i.e., REinforced Graph Anomaly Detector. Specifically, we aim to maximize the performance improvement (AUC) of a base detector by cutting noisy edges approximated through the nodes with high-confidence labels. (i) We design a tailored action and search space to train a policy network to carefully prune edges step by step, where only a few suspicious edges are prioritized in each step. (ii) We design a policy-in-the-loop mechanism to iteratively optimize the policy based on the feedback from base detector. The overall performance is evaluated by the cumulative rewards. Extensive experiments are conducted on three datasets under different anomaly ratios. The results indicate the superior performance of our proposed REGAD. | 翻訳日:2024-07-09 15:40:39 公開日:2024-07-08 |
# インサイダー恐怖の心理学について知っておくべきこと
What Do We Know About the Psychology of Insider Threats? ( http://arxiv.org/abs/2407.05943v1 ) ライセンス: Link先を確認 | Jukka Ruohonen, Mubashrah Saddiqa, | (参考訳) インサイダー脅威(Insider threat)とは、組織内の人々に由来する脅威を指す。
このような脅威は古典的な研究テーマであるが、既存の知識の体系化は、特に非技術研究のアプローチに関して制限されている。
そこで本研究では,インサイダー脅威の心理学に関する体系的な文献レビューを行う。
レビューの結果によると、これらの文献は複数の異なる理論で運営されているが、心理学に関する堅牢な理論がまだ存在しない。
文学はまた、人物の特徴、自分の個人的状況、およびその人物に関する客観的な事実を多かれ少なかれ考慮してきた。
これらは、人の性格的特徴や心理的状態といった心理的概念と相関していると考えられている。
さらに、既存の研究のギャップと限界について論じ、さらなる心理学研究の扉を開く。
Insider threats refer to threats originating from people inside organizations. Although such threats are a classical research topic, the systematization of existing knowledge is still limited particularly with respect to non-technical research approaches. To this end, this paper presents a systematic literature review on the psychology of insider threats. According to the review results, the literature has operated with multiple distinct theories but there is still a lack of robust theorization with respect to psychology. The literature has also considered characteristics of a person, his or her personal situation, and other more or less objective facts about the person. These are seen to correlate with psychological concepts such as personality traits and psychological states of a person. In addition, the review discusses gaps and limitations in the existing research, thus opening the door for further psychology research. | 翻訳日:2024-07-09 15:40:39 公開日:2024-07-08 |
# 超小型モード体積プラズモンキャビティを用いた炭化ケイ素中シリコン空孔中心のパーセル増強とスピン分光
Purcell enhancement and spin spectroscopy of silicon vacancy centers in silicon carbide using an ultra-small mode-volume plasmonic cavity ( http://arxiv.org/abs/2407.05951v1 ) ライセンス: Link先を確認 | Jae-Pil So, Jialun Luo, Jaehong Choi, Brendan McCullian, Gregory D. Fuchs, | (参考訳) 4H-ケイ素炭化物中のケイ素空孔(V$_{Si}$)中心は、長いスピンコヒーレンス寿命と明るい安定した発光を含む頑丈な電子的および光学的特性のために、量子ネットワーク応用の強い候補として浮上している。
本稿では,V$_{Si}$センターとプラズモニックナノキャビティを統合したPurcellによるエミッションの強化について報告する。
簡単な製造法を用いて, ナノスケールモードの体積を支えるプラズモンキャビティを実証し, パーセル係数を最大48。
光共振モードの検討に加えて, スピン保存共振器光遷移の光安定性が, 放射限界値に対して向上することが実証された。
その結果、量子ネットワーク技術の進歩に向けたナノフォトニック構造の可能性を強調し、効率的な量子フォトニック応用のためのエミッタ・キャビティ相互作用の最適化の重要性を強調した。
Silicon vacancy (V$_{Si}$) centers in 4H-silicon carbide have emerged as a strong candidate for quantum networking applications due to their robust electronic and optical properties including a long spin coherence lifetime and bright, stable emission. Here, we report the integration of V$_{Si}$ centers with a plasmonic nanocavity to Purcell enhance the emission, which is critical for scalable quantum networking. Employing a simple fabrication process, we demonstrate plasmonic cavities that support a nanoscale mode volume and exhibit an increase in the spontaneous emission rate with a measured Purcell factor of up to 48. In addition to investigating the optical resonance modes, we demonstrate that an improvement in the optical stability of the spin-preserving resonant optical transitions relative to the radiation-limited value. The results highlight the potential of nanophotonic structures for advancing quantum networking technologies and emphasizes the importance of optimizing emitter-cavity interactions for efficient quantum photonic applications. | 翻訳日:2024-07-09 15:30:42 公開日:2024-07-08 |
# 分散量子コンピューティングにおける回路分割と伝送コスト最適化
Circuit Partitioning and Transmission Cost Optimization in Distributed Quantum Computing ( http://arxiv.org/abs/2407.05953v1 ) ライセンス: Link先を確認 | Xinyu Chen, Zilu Chen, Xueyun Cheng, Zhijin Guan, | (参考訳) 現在のNISQデバイスにおける量子ビット数の制限を考えると、そのようなデバイス上での大規模量子アルゴリズムの実装は困難であり、分散量子コンピューティングの研究を促進する。
本稿では,量子回路を指向した分散量子コンピューティングにおける過剰な通信複雑性の問題に焦点をあてる。
分散量子回路における量子状態伝送量,すなわち伝送コストを削減するため,QUBOモデルに基づく回路分割法と伝送コスト最適化のためのルックアヘッド法が提案されている。
当初、分散量子回路分割の問題は、グラフ最小切断問題に変換される。
量子アルゴリズムによって加速できるQUBOモデルを導入し、QPU間の量子ゲートの数と伝送コストを最小化する。
その後、分散量子回路における伝送コストを最適化するために、伝送量子ビットの選択のための動的ルックアヘッド戦略を提案する。
最後に, シミュレーションにより, 異なる回路分割インジケータが伝送コストに与える影響について検討し, 提案手法をベンチマーク回路上で評価した。
実験の結果,提案手法により最適化された伝送コストは,伝送コストを最適化する現在の方法と比較して大幅に低減され,分割数によって顕著な改善が得られた。
Given the limitations on the number of qubits in current NISQ devices, the implementation of large-scale quantum algorithms on such devices is challenging, prompting research into distributed quantum computing. This paper focuses on the issue of excessive communication complexity in distributed quantum computing oriented towards quantum circuits. To reduce the number of quantum state transmissions, i.e., the transmission cost, in distributed quantum circuits, a circuit partitioning method based on the QUBO model is proposed, coupled with the lookahead method for transmission cost optimization. Initially, the problem of distributed quantum circuit partitioning is transformed into a graph minimum cut problem. The QUBO model, which can be accelerated by quantum algorithms, is introduced to minimize the number of quantum gates between QPUs and the transmission cost. Subsequently, the dynamic lookahead strategy for the selection of transmission qubits is proposed to optimize the transmission cost in distributed quantum circuits. Finally, through numerical simulations, the impact of different circuit partitioning indicators on the transmission cost is explored, and the proposed method is evaluated on benchmark circuits. Experimental results demonstrate that the transmission cost optimized through the method proposed in this paper is significantly reduced compared with current methods for optimizing transmission cost, achieving noticeable improvements across different numbers of partitions. | 翻訳日:2024-07-09 15:30:42 公開日:2024-07-08 |
# 導波路量子電磁力学における熱測定のための集団効果の活用
Leveraging collective effects for thermometry in waveguide quantum electrodynamics ( http://arxiv.org/abs/2407.05958v1 ) ライセンス: Link先を確認 | Aleksei Sharafiev, Mathieu Juan, Marco Cattaneo, Gerhard Kirchmair, | (参考訳) 導波管量子電磁力学(WQED)実験における新しい温度測定方法の実証実験を報告し,グローバル浴とローカル浴の区別を可能にした。
この方法は、導波路の中心に位置する2つのトランスモン量子ビットの集合状態を利用する。
そのような系のヒルベルト空間は2つの別々の部分空間(明暗)を形成し、外部ノイズ源と異なる結合を成す。
導波管を通しての伝送を測定することで、システム内のグローバルおよびローカルな励起に責任がある浴室の温度を別々に抽出することができる。
このようなシステムは、ローカルとグローバルの浴場を区別できる新しいタイプの一次温度センサーを構築することができる。
We report a proof-of-principle experiment for a new method of temperature measurements in waveguide quantum electrodynamics (wQED) experiments, allowing one to differentiate between global and local baths. The method takes advantage of collective states of two transmon qubits located in the center of a waveguide. The Hilbert space of such a system forms two separate subspaces (bright and dark) which are coupled differently to external noise sources. Measuring transmission through the waveguide allows one to extract separately the temperatures of the baths responsible for global and local excitations in the system. Such a system would allow for building a new type of primary temperature sensor capable of distinguishing between local and global baths. | 翻訳日:2024-07-09 15:30:42 公開日:2024-07-08 |
# 6GSoft:エッジ・ツー・クラウド・コンティニュムのためのソフトウェア
6GSoft: Software for Edge-to-Cloud Continuum ( http://arxiv.org/abs/2407.05963v1 ) ライセンス: Link先を確認 | Muhammad Azeem Akbar, Matteo Esposito, Sami Hyrynsalmi, Karthikeyan Dinesh Kumar, Valentina Lenarduzzi, Xiaozhou Li, Ali Mehraj, Tommi Mikkonen, Sergio Moreschini, Niko Mäkitalo, Markku Oivo, Anna-Sofia Paavonen, Risha Parveen, Kari Smolander, Ruoyu Su, Kari Systä, Davide Taibi, Nan Yang, Zheying Zhang, Muhammad Zohaib, | (参考訳) 6Gの時代、ソフトウェアの開発と管理には最先端のソフトウェアエンジニアリング(SE)の理論とプラクティスが必要です。
我々のプロジェクトは、エッジ環境に特化した持続可能な手法とエネルギー効率の高いオーケストレーションモデルの開発を推進し、現代のエッジ-クラウド連続コンピューティングのためのAIによって駆動されるアーキテクチャサポートを強化することを目的としている。
このイニシアチブは、エッジネットワークのパフォーマンスとスケーラビリティを最適化するために、洗練されたエッジオーケストレーションと堅牢なソフトウェアアーキテクチャに焦点を当て、フィンランドを6Gランドスケープの最前線に位置づけようとしている。
フィンランドの主要な大学や企業と共同で、このプロジェクトは、エッジオーケストレーションとソフトウェアアーキテクチャにおける重要な課題に対処するために、深い産業と学術のコラボレーションと国際的な専門知識を強調し、ソフトウェア生産性と市場への影響を著しく向上させることを目指している。
In the era of 6G, developing and managing software requires cutting-edge software engineering (SE) theories and practices tailored for such complexity across a vast number of connected edge devices. Our project aims to lead the development of sustainable methods and energy-efficient orchestration models specifically for edge environments, enhancing architectural support driven by AI for contemporary edge-to-cloud continuum computing. This initiative seeks to position Finland at the forefront of the 6G landscape, focusing on sophisticated edge orchestration and robust software architectures to optimize the performance and scalability of edge networks. Collaborating with leading Finnish universities and companies, the project emphasizes deep industry-academia collaboration and international expertise to address critical challenges in edge orchestration and software architecture, aiming to drive significant advancements in software productivity and market impact. | 翻訳日:2024-07-09 15:30:42 公開日:2024-07-08 |
# T2VSafetyBench: テキスト・ビデオ生成モデルの安全性を評価する
T2VSafetyBench: Evaluating the Safety of Text-to-Video Generative Models ( http://arxiv.org/abs/2407.05965v1 ) ライセンス: Link先を確認 | Yibo Miao, Yifan Zhu, Yinpeng Dong, Lijia Yu, Jun Zhu, Xiao-Shan Gao, | (参考訳) Soraの最近の発展は、テキスト・トゥ・ビデオ(T2V)世代の新しい時代へと繋がる。
これに伴い、セキュリティリスクに対する懸念が高まっている。
生成されたビデオには違法なコンテンツや非倫理的なコンテンツが含まれており、それらの安全性に関する包括的な定量的理解が欠如しており、信頼性と実践的な展開に挑戦している。
これまでの評価は、主にビデオ生成の品質に焦点を当てていた。
テキスト・ツー・イメージ・モデルのいくつかの評価は安全性を考慮しているが、より少ない側面をカバーし、ビデオ生成に固有のユニークな時間的リスクに対処しない。
この研究ギャップを埋めるために,テキスト・ツー・ビデオモデルの安全性クリティカルな評価を行うために設計された新しいベンチマークであるT2VSafetyBenchを紹介する。
我々は、ビデオ生成の安全性の12つの重要な側面を定義し、LSMとジェイルブレイク攻撃を用いた悪意のあるプロンプトデータセットを構築した。
評価結果から,いくつかの重要な知見が得られた。
1) 異なるモデルが様々な強みを示すため,すべての面において単一のモデルが優れているものはない。
2) GPT-4評価とマニュアルレビューの相関は概ね高い。
3)テキスト・ビデオ生成モデルのユーザビリティと安全性にはトレードオフがある。
このことは、ビデオ生成の分野が急速に進歩するにつれて、安全リスクが急上昇し、ビデオ安全性の優先順位付けの急激さが浮き彫りになることを示している。
我々は、T2VSafetyBenchが、生成AI時代のビデオ生成の安全性をよりよく理解するための洞察を提供することを期待している。
The recent development of Sora leads to a new era in text-to-video (T2V) generation. Along with this comes the rising concern about its security risks. The generated videos may contain illegal or unethical content, and there is a lack of comprehensive quantitative understanding of their safety, posing a challenge to their reliability and practical deployment. Previous evaluations primarily focus on the quality of video generation. While some evaluations of text-to-image models have considered safety, they cover fewer aspects and do not address the unique temporal risk inherent in video generation. To bridge this research gap, we introduce T2VSafetyBench, a new benchmark designed for conducting safety-critical assessments of text-to-video models. We define 12 critical aspects of video generation safety and construct a malicious prompt dataset using LLMs and jailbreaking prompt attacks. Based on our evaluation results, we draw several important findings, including: 1) no single model excels in all aspects, with different models showing various strengths; 2) the correlation between GPT-4 assessments and manual reviews is generally high; 3) there is a trade-off between the usability and safety of text-to-video generative models. This indicates that as the field of video generation rapidly advances, safety risks are set to surge, highlighting the urgency of prioritizing video safety. We hope that T2VSafetyBench can provide insights for better understanding the safety of video generation in the era of generative AI. | 翻訳日:2024-07-09 15:30:42 公開日:2024-07-08 |
# 連続時間政策評価のためのベルマン方程式について I:離散化と近似
On Bellman equations for continuous-time policy evaluation I: discretization and approximation ( http://arxiv.org/abs/2407.05966v1 ) ライセンス: Link先を確認 | Wenlong Mou, Yuhua Zhu, | (参考訳) 本研究では,連続時間拡散過程の離散的に観測された軌道から値関数を計算する問題について検討する。
本稿では,関数近似を用いた離散時間強化学習(RL)と互換性のある,容易に実装可能な数値スキームに基づく新しいアルゴリズムのクラスを開発する。
提案手法の近似誤差保証とともに,高次数値精度を確立する。
近似係数が有効地平線に依存する離散時間RL問題とは対照的に、有効地平線が無限大に分岐しても、基礎となる楕円構造を用いた有界近似係数を得る。
We study the problem of computing the value function from a discretely-observed trajectory of a continuous-time diffusion process. We develop a new class of algorithms based on easily implementable numerical schemes that are compatible with discrete-time reinforcement learning (RL) with function approximation. We establish high-order numerical accuracy as well as the approximation error guarantees for the proposed approach. In contrast to discrete-time RL problems where the approximation factor depends on the effective horizon, we obtain a bounded approximation factor using the underlying elliptic structures, even if the effective horizon diverges to infinity. | 翻訳日:2024-07-09 15:30:42 公開日:2024-07-08 |
# STMR:手メッシュ再建用スパイラルトランス
STMR: Spiral Transformer for Hand Mesh Reconstruction ( http://arxiv.org/abs/2407.05967v1 ) ライセンス: Link先を確認 | Huilong Xie, Wenwei Song, Wenxiong Kang, Yihong Lin, | (参考訳) 近年のトランス法とスパイラル近傍サンプリング法の進歩により,手メッシュの再構築が大幅に向上した。
変圧器は複雑な頂点関係を捉えるのに優れており、トポロジカル構造を利用するには渦巻き近傍サンプリングが不可欠である。
本稿では,トランスフォーマーアーキテクチャにスパイラルサンプリングを巧みに統合し,メッシュトポロジを利用したハンドメッシュ再構成の性能向上を実現し,精度の向上を実現した。
STMRはモデル効率のために単一のイメージエンコーダを使用する。
情報抽出能力を向上させるため,多スケールポーズ特徴抽出モジュールを設計し,リッチポーズ特徴抽出を容易にし,最終的にモデルの性能を向上させる。
さらに,提案手法では,提案手法により頂点特徴表現が向上し,復元性能が向上する。
FreiHANDデータセットの大規模な実験は、STMRの最先端性能と非並列推論速度を類似のバックボーン法と比較し、その効率と有効性を示している。
コードはhttps://github.com/SmallXieGithub/STMRで入手できる。
Recent advancements in both transformer-based methods and spiral neighbor sampling techniques have greatly enhanced hand mesh reconstruction. Transformers excel in capturing complex vertex relationships, and spiral neighbor sampling is vital for utilizing topological structures. This paper ingeniously integrates spiral sampling into the Transformer architecture, enhancing its ability to leverage mesh topology for superior performance in hand mesh reconstruction, resulting in substantial accuracy boosts. STMR employs a single image encoder for model efficiency. To augment its information extraction capability, we design the multi-scale pose feature extraction (MSPFE) module, which facilitates the extraction of rich pose features, ultimately enhancing the model's performance. Moreover, the proposed predefined pose-to-vertex lifting (PPVL) method improves vertex feature representation, further boosting reconstruction performance. Extensive experiments on the FreiHAND dataset demonstrate the state-of-the-art performance and unparalleled inference speed of STMR compared with similar backbone methods, showcasing its efficiency and effectiveness. The code is available at https://github.com/SmallXieGithub/STMR. | 翻訳日:2024-07-09 15:30:42 公開日:2024-07-08 |
# MRI超解像のためのデフォルム・マンバネットワーク
Deform-Mamba Network for MRI Super-Resolution ( http://arxiv.org/abs/2407.05969v1 ) ライセンス: Link先を確認 | Zexin Ji, Beiji Zou, Xiaoyan Kui, Pierre Vera, Su Ruan, | (参考訳) 本稿では,MR画像の超解像のための新しいアーキテクチャDeform-Mambaを提案する。
従来のCNNやTransformerベースの超解像法とは異なり,画像の局所的・大域的情報を効果的に探索することを目的としている。
具体的には,2つの分岐,変調デフォルムブロックと視覚マンバブロックからなるデフォルム・マンバエンコーダを開発する。
また、ボトルネック層内にマルチビューコンテキストモジュールを設計し、マルチビューコンテキストコンテンツについて検討する。
コンテンツ適応型ローカルかつ効率的なグローバル情報を含むエンコーダの抽出された特徴により、視覚的Mambaデコーダは最終的に高品質なMR画像を生成する。
さらに、エッジとコントラスト関連コンテンツの再構成を促進するために、コントラスト付きエッジロスを導入する。
定量および定性的な実験結果から,IXIデータセットと高速MRIデータセットへのアプローチが競合性能を実現することが示唆された。
In this paper, we propose a new architecture, called Deform-Mamba, for MR image super-resolution. Unlike conventional CNN or Transformer-based super-resolution approaches which encounter challenges related to the local respective field or heavy computational cost, our approach aims to effectively explore the local and global information of images. Specifically, we develop a Deform-Mamba encoder which is composed of two branches, modulated deform block and vision Mamba block. We also design a multi-view context module in the bottleneck layer to explore the multi-view contextual content. Thanks to the extracted features of the encoder, which include content-adaptive local and efficient global information, the vision Mamba decoder finally generates high-quality MR images. Moreover, we introduce a contrastive edge loss to promote the reconstruction of edge and contrast related content. Quantitative and qualitative experimental results indicate that our approach on IXI and fastMRI datasets achieves competitive performance. | 翻訳日:2024-07-09 15:30:42 公開日:2024-07-08 |
# 高騒音下における不均衡医用画像分類タスクのロバストトレーニングのためのアクティブラベルリファインメント
Active Label Refinement for Robust Training of Imbalanced Medical Image Classification Tasks in the Presence of High Label Noise ( http://arxiv.org/abs/2407.05973v1 ) ライセンス: Link先を確認 | Bidur Khanal, Tianhong Dai, Binod Bhattarai, Cristian Linte, | (参考訳) 教師付き深層学習に基づく医用画像分類の堅牢性はラベルノイズによって著しく損なわれている。
ノイズラベルの存在下での分類性能を高めるためのいくつかの手法が提案されているが、いくつかの課題に直面している。
1) クラス不均衡データセットとの闘いは,少数クラスをノイズの多いサンプルとして頻繁に見落としてしまう。
2) ノイズのあるラベルを積極的に掃除するために,プリンシパル・イン・ザ・ループを組み込むことなく,ノイズの多いデータセットによるパフォーマンスの最大化に特化する。
これらの課題を軽減するために,学習と雑音ラベル(LNL)とアクティブラーニングを組み合わせた2段階のアプローチを提案する。
このアプローチは,ノイズラベルの存在下での医用画像分類の堅牢性を向上するだけでなく,重要な不正確なラベルを限定的なアノテーション予算の下で緩和することにより,データセットの品質を反復的に向上させる。
さらに,LNL 相において,低表現型サンプルをサンプリングすることで,損失に基づくサンプル選択を補完する新しい分散勾配法を提案する。
2つの不均衡な医学分類データセットを用いて,提案手法は,少数クラスのクリーンなサンプルをほとんどノイズの多いサンプルとして誤識別しないことで,クラス不均衡を扱う従来の手法よりも優れていることを実証した。
The robustness of supervised deep learning-based medical image classification is significantly undermined by label noise. Although several methods have been proposed to enhance classification performance in the presence of noisy labels, they face some challenges: 1) a struggle with class-imbalanced datasets, leading to the frequent overlooking of minority classes as noisy samples; 2) a singular focus on maximizing performance using noisy datasets, without incorporating experts-in-the-loop for actively cleaning the noisy labels. To mitigate these challenges, we propose a two-phase approach that combines Learning with Noisy Labels (LNL) and active learning. This approach not only improves the robustness of medical image classification in the presence of noisy labels, but also iteratively improves the quality of the dataset by relabeling the important incorrect labels, under a limited annotation budget. Furthermore, we introduce a novel Variance of Gradients approach in LNL phase, which complements the loss-based sample selection by also sampling under-represented samples. Using two imbalanced noisy medical classification datasets, we demonstrate that that our proposed technique is superior to its predecessors at handling class imbalance by not misidentifying clean samples from minority classes as mostly noisy samples. | 翻訳日:2024-07-09 15:30:42 公開日:2024-07-08 |
# LLaMAX:100言語を越える翻訳能力向上によるLLMの言語的ホライズン拡大
LLaMAX: Scaling Linguistic Horizons of LLM by Enhancing Translation Capabilities Beyond 100 Languages ( http://arxiv.org/abs/2407.05975v1 ) ライセンス: Link先を確認 | Yinquan Lu, Wenhao Zhu, Lei Li, Yu Qiao, Fei Yuan, | (参考訳) 大規模言語モデル~(LLM)は、高リソース言語タスクにおいて顕著な翻訳能力を示すが、低リソース言語におけるそれらの性能は、事前トレーニング中に不十分な多言語データによって妨げられる。
そこで本研究では,LLaMAシリーズモデル上での多言語連続事前学習を35,000A100-SXM4-80GBGPUで実施し,100言語以上にわたる翻訳サポートを実現した。
語彙拡張やデータ拡張といった学習戦略の包括的分析を通じて,LLaMAXを開発した。
注目すべきは、LLaMAXはその一般化能力を犠牲にすることなく、既存のオープンソース LLM ~ (10spBLEU ポイント以上) と比較してはるかに高い翻訳性能を達成し、Flores-101 ベンチマークで特別な翻訳モデル~ (M2M-100-12B) をオンパーで実行することである。
大規模な実験により、LLaMAXは頑健な多言語基盤モデルとして機能することが示された。
コード~\footnote{\url{https://github.com/CONE-MT/LLaMAX/
とモデル~\footnote{\url{https://huggingface.co/LLaMAX/。
が公開されている。
Large Language Models~(LLMs) demonstrate remarkable translation capabilities in high-resource language tasks, yet their performance in low-resource languages is hindered by insufficient multilingual data during pre-training. To address this, we dedicate 35,000 A100-SXM4-80GB GPU hours in conducting extensive multilingual continual pre-training on the LLaMA series models, enabling translation support across more than 100 languages. Through a comprehensive analysis of training strategies, such as vocabulary expansion and data augmentation, we develop LLaMAX. Remarkably, without sacrificing its generalization ability, LLaMAX achieves significantly higher translation performance compared to existing open-source LLMs~(by more than 10 spBLEU points) and performs on-par with specialized translation model~(M2M-100-12B) on the Flores-101 benchmark. Extensive experiments indicate that LLaMAX can serve as a robust multilingual foundation model. The code~\footnote{\url{https://github.com/CONE-MT/LLaMAX/.}} and models~\footnote{\url{https://huggingface.co/LLaMAX/.}} are publicly available. | 翻訳日:2024-07-09 15:30:42 公開日:2024-07-08 |
# オンライン動的モード分割制御による産業データストリームの変化点検出
Change-Point Detection in Industrial Data Streams based on Online Dynamic Mode Decomposition with Control ( http://arxiv.org/abs/2407.05976v1 ) ライセンス: Link先を確認 | Marek Wadinger, Michal Kvasnica, Yoshinobu Kawahara, | (参考訳) 本稿では,オンライン動的モード分解制御(ODMDwC)に基づく新しい変化点検出手法を提案する。
制御効果を取り入れつつ非線形系の線形近似を検出・追跡するODMDwCの能力を活用し, 提案手法は, 経年変化や季節変化による変化に動的に適応する。
このアプローチは、空間的、時間的、およびスペクトルパターンの変化を検知し、スコアとシステムのダイナミクスの変化量との対応性を維持する堅牢なソリューションを提供する。
我々は、ODMDwCの切り抜きバージョンを定式化し、高次時間遅延埋め込みを用いて雑音を緩和し、広帯域特徴を抽出する。
本手法は,安全クリティカルなシステムが不均一なデータストリームを生成する産業環境において,利益と生活を守るために,タイムリーかつ正確な変更点検出を必要とする課題に対処する。
本手法は,Singular-Value-Decomposition法と比較して,直感的かつ優れた検出結果が得られることを示す。
合成および実世界のデータを用いて我々のアプローチを検証し、複雑なシステムのベンチマークデータセットに対する他のアプローチとの競合性を示す。
ハイパーパラメータ選択のためのガイドラインは,本手法の実用性を高める。
We propose a novel change-point detection method based on online Dynamic Mode Decomposition with control (ODMDwC). Leveraging ODMDwC's ability to find and track linear approximation of a non-linear system while incorporating control effects, the proposed method dynamically adapts to its changing behavior due to aging and seasonality. This approach enables the detection of changes in spatial, temporal, and spectral patterns, providing a robust solution that preserves correspondence between the score and the extent of change in the system dynamics. We formulate a truncated version of ODMDwC and utilize higher-order time-delay embeddings to mitigate noise and extract broad-band features. Our method addresses the challenges faced in industrial settings where safety-critical systems generate non-uniform data streams while requiring timely and accurate change-point detection to protect profit and life. Our results demonstrate that this method yields intuitive and improved detection results compared to the Singular-Value-Decomposition-based method. We validate our approach using synthetic and real-world data, showing its competitiveness to other approaches on complex systems' benchmark datasets. Provided guidelines for hyperparameters selection enhance our method's practical applicability. | 翻訳日:2024-07-09 15:30:42 公開日:2024-07-08 |
# 人間-LLM会話の探索:精神モデルと毒性の起源
Exploring Human-LLM Conversations: Mental Models and the Originator of Toxicity ( http://arxiv.org/abs/2407.05977v1 ) ライセンス: Link先を確認 | Johannes Schneider, Arianna Casanova Flores, Anne-Catherine Kranz, | (参考訳) 本研究では,ChatGPTのような倫理的にトリミングされたモデルに着目した従来の研究とは対照的に,大規模言語モデル(LLM)の多様な制約のない環境下での現実的なヒューマンインタラクションについて検討する。
我々は毒性の創始者を理解することを目指している。
以上の結果から,LSMは毒性のある物質を供給していると正しく非難されているものの,その内容を求める人間に要求されているか,少なくとも引き起こされていることが示唆された。
APIの商用ベンダによって有害であると判断された数百の会話を手動で分析することで、ユーザ要求が回答を拒否する現在のプラクティスに関する疑問も持ち上がります。
さらに、人間の精神モデルの変化を示す複数の経験的指標に基づいて、機械との相互作用という考え方から人間との相互作用へと転換する。
This study explores real-world human interactions with large language models (LLMs) in diverse, unconstrained settings in contrast to most prior research focusing on ethically trimmed models like ChatGPT for specific tasks. We aim to understand the originator of toxicity. Our findings show that although LLMs are rightfully accused of providing toxic content, it is mostly demanded or at least provoked by humans who actively seek such content. Our manual analysis of hundreds of conversations judged as toxic by APIs commercial vendors, also raises questions with respect to current practices of what user requests are refused to answer. Furthermore, we conjecture based on multiple empirical indicators that humans exhibit a change of their mental model, switching from the mindset of interacting with a machine more towards interacting with a human. | 翻訳日:2024-07-09 15:30:42 公開日:2024-07-08 |
# MMIS:屋内映像生成・認識のためのマルチモーダルデータセット
MMIS: Multimodal Dataset for Interior Scene Visual Generation and Recognition ( http://arxiv.org/abs/2407.05980v1 ) ライセンス: Link先を確認 | Hozaifa Kassab, Ahmed Mahmoud, Mohamed Bahaa, Ammar Mohamed, Ali Hamdi, | (参考訳) MMISはマルチモーダルインテリアシーンの生成と認識を促進するために設計された新しいデータセットである。
MMISは16万枚近い画像で構成されている。
データセット内の各画像には、対応するテキスト記述と、その記述の音声記録が付属し、シーン生成と認識のためのリッチで多様な情報ソースを提供する。
MMISは幅広い内部空間を包含し、様々なスタイル、レイアウト、家具を捉えている。
このデータセットを構築するために、画像の収集、テキスト記述の生成、および対応する音声アノテーションを含む注意深いプロセスを用いた。
提案したデータセットは、画像生成、検索、キャプション、分類などのマルチモーダル表現学習タスクの研究に寄与する。
We introduce MMIS, a novel dataset designed to advance MultiModal Interior Scene generation and recognition. MMIS consists of nearly 160,000 images. Each image within the dataset is accompanied by its corresponding textual description and an audio recording of that description, providing rich and diverse sources of information for scene generation and recognition. MMIS encompasses a wide range of interior spaces, capturing various styles, layouts, and furnishings. To construct this dataset, we employed careful processes involving the collection of images, the generation of textual descriptions, and corresponding speech annotations. The presented dataset contributes to research in multi-modal representation learning tasks such as image generation, retrieval, captioning, and classification. | 翻訳日:2024-07-09 15:30:42 公開日:2024-07-08 |
# ソリッドティコンパイラにおけるバグの理解に向けて
Towards Understanding the Bugs in Solidity Compiler ( http://arxiv.org/abs/2407.05981v1 ) ライセンス: Link先を確認 | Haoyang Ma, Wuqi Zhang, Qingchao Shen, Yongqiang Tian, Junjie Chen, Shing-Chi Cheung, | (参考訳) Solidityコンパイラは、Solidityと呼ばれるドメイン固有の言語の構文を管理し、Solidityコードのコンパイルと最適化を実行することによって、Ethereum上のスマートコントラクトアプリケーションの開発を可能にする上で、重要な役割を果たす。
Solidityコンパイラの正しさは、スマートコントラクトに依存する業界における透明性、効率性、信頼を促進する上で重要である。
しかし、他のソフトウェアシステムと同様に、Solidityコンパイラはバグを起こしやすいため、ブロックチェーンプラットフォーム上で不正なバイトコードを生成する可能性があるため、セキュリティ上の深刻な問題が発生する可能性がある。
スマートコントラクトのためのドメイン固有のコンパイラとして、Solidityコンパイラは他のコンパイラと多くの点で異なる。
本稿では,Solidityコンパイラのバグの理解と今後の研究のために,533のSolidityコンパイラのバグに関する最初のシステマティックスタディを示す。
本研究は, 症状, 根本原因, 分布などの特徴とトリガー試験例について慎重に検討した。
我々の研究は、Solidityコンパイラの7つのバグ発見に繋がる。
さらに,Solidityコンパイラファザの限界について検討し,実例に適用するために,構築したベンチマークで3つのSolidityコンパイラファザを評価した。
これらのファジィは、Solidityコンパイラのバグを検出するのに非効率である。
この非効率性は、興味深いバグ誘発機能、バグ関連コンパイルフラグ、テストオラクルを考慮しなかったことから生じる。
Solidity compiler plays a key role in enabling the development of smart contract applications on Ethereum by governing the syntax of a domain-specific language called Solidity and performing compilation and optimization of Solidity code. The correctness of Solidity compiler is critical in fostering transparency, efficiency, and trust in industries reliant on smart contracts. However, like other software systems, Solidity compiler is prone to bugs, which may produce incorrect bytecodes on blockchain platforms, resulting in severe security concerns. As a domain-specific compiler for smart contracts, Solidity compiler differs from other compilers in many perspectives, posing unique challenges to detect its bugs. To understand the bugs in Solidity compiler and benefit future research, in this paper, we present the first systematic study on 533 Solidity compiler bugs. We carefully examined their characteristics (including symptoms, root causes, and distribution), and their triggering test cases. Our study leads to seven bug-revealing takeaways for Solidity compiler. Moreover, to study the limitations of Solidity compiler fuzzers and bring our findings into practical scenarios, we evaluate three Solidity compiler fuzzers on our constructed benchmark. The results show that these fuzzers are inefficient in detecting Solidity compiler bugs. The inefficiency arises from their failure to consider the interesting bug-inducing features, bug-related compilation flags, and test oracles | 翻訳日:2024-07-09 15:30:42 公開日:2024-07-08 |
# MTL-Split:スプリットコンピューティングを用いたエッジデバイスのためのマルチタスク学習
MTL-Split: Multi-Task Learning for Edge Devices using Split Computing ( http://arxiv.org/abs/2407.05982v1 ) ライセンス: Link先を確認 | Luigi Capogrosso, Enrico Fraccaroli, Samarjit Chakraborty, Franco Fummi, Marco Cristani, | (参考訳) スプリットコンピューティング(SC)では、ディープニューラルネットワーク(DNN)がエッジデバイスにデプロイされた部分とインテリジェントに分割される。
これにより、DNNのパワーを遅延に敏感なアプリケーションに利用でき、DNN全体をリモートでデプロイすることができず、ローカルで十分な計算帯域幅が確保できない。
自動車分野のような組み込みシステムでは、計算資源の制約はマルチタスク学習(MTL)も必要であり、同じDNNがタスクごとに専用のDNNを持つのではなく、複数の推論タスクに使用される。
しかし、このようなマルチタスクDNNをSCフレームワークにデプロイする方法は十分に研究されていない。
本稿では,この問題を考察し,提案したアーキテクチャであるMTL-Splitは,合成データと実世界のデータの両方について,奨励的な結果を示す。
ソースコードはhttps://github.com/intelligolabs/MTL-Split.comで入手できる。
Split Computing (SC), where a Deep Neural Network (DNN) is intelligently split with a part of it deployed on an edge device and the rest on a remote server is emerging as a promising approach. It allows the power of DNNs to be leveraged for latency-sensitive applications that do not allow the entire DNN to be deployed remotely, while not having sufficient computation bandwidth available locally. In many such embedded systems scenarios, such as those in the automotive domain, computational resource constraints also necessitate Multi-Task Learning (MTL), where the same DNN is used for multiple inference tasks instead of having dedicated DNNs for each task, which would need more computing bandwidth. However, how to partition such a multi-tasking DNN to be deployed within a SC framework has not been sufficiently studied. This paper studies this problem, and MTL-Split, our novel proposed architecture, shows encouraging results on both synthetic and real-world data. The source code is available at https://github.com/intelligolabs/MTL-Split. | 翻訳日:2024-07-09 15:20:49 公開日:2024-07-08 |
# AIに基づく顔認識システムのための包括的ビジュアル・サリエンシ記述フレームワークの実現に向けて
Towards A Comprehensive Visual Saliency Explanation Framework for AI-based Face Recognition Systems ( http://arxiv.org/abs/2407.05983v1 ) ライセンス: Link先を確認 | Yuhang Lu, Zewei Xu, Touradj Ebrahimi, | (参考訳) 近年、深層畳み込みニューラルネットワークは、認証と識別の両方のために顔認識技術の分野を著しく進歩させてきた。
驚くほどの精度にもかかわらず、これらのニューラルネットワークは説明可能性の欠如によってしばしば批判される。
AIベースの顔認識システムの意思決定プロセスを理解する必要性が高まっている。
いくつかの研究では、ビジュアル・サリエンシ・マップを説明として使用することについて研究されているが、それらは主に特定の顔認証ケースに焦点を当てている。
より一般的な顔認識シナリオとそれに対応する評価手法に関する議論は、近年まで行われていない。
そこで本書は,顔認識タスクの包括的説明枠組みを考案した。
まず、顔認証と識別という2つの最も一般的な認識状況を個別に考慮し、AIに基づく顔認識システムに対するビジュアル・サリエンシ・マップに基づく説明を徹底的に定義する。
第二に,CorrRISEというモデルに依存しない新しい説明法を提案し,任意の顔画像間の類似領域と相似領域の両方を明らかにする。
その後,顔認証における一般的な視覚的相性説明法の性能を定量的に測定し,比較する新たな評価手法を考案した。
その結果、複数の検証および識別シナリオにおいて広範な実験が行われた。
結果から,CorrRISEは洞察力に富んだサリエンシマップを生成し,特に類似性マップにおいて,最先端の説明手法と比較して優れた性能を示すことがわかった。
Over recent years, deep convolutional neural networks have significantly advanced the field of face recognition techniques for both verification and identification purposes. Despite the impressive accuracy, these neural networks are often criticized for lacking explainability. There is a growing demand for understanding the decision-making process of AI-based face recognition systems. Some studies have investigated the use of visual saliency maps as explanations, but they have predominantly focused on the specific face verification case. The discussion on more general face recognition scenarios and the corresponding evaluation methodology for these explanations have long been absent in current research. Therefore, this manuscript conceives a comprehensive explanation framework for face recognition tasks. Firstly, an exhaustive definition of visual saliency map-based explanations for AI-based face recognition systems is provided, taking into account the two most common recognition situations individually, i.e., face verification and identification. Secondly, a new model-agnostic explanation method named CorrRISE is proposed to produce saliency maps, which reveal both the similar and dissimilar regions between any given face images. Subsequently, the explanation framework conceives a new evaluation methodology that offers quantitative measurement and comparison of the performance of general visual saliency explanation methods in face recognition. Consequently, extensive experiments are carried out on multiple verification and identification scenarios. The results showcase that CorrRISE generates insightful saliency maps and demonstrates superior performance, particularly in similarity maps in comparison with the state-of-the-art explanation approaches. | 翻訳日:2024-07-09 15:20:49 公開日:2024-07-08 |
# KidSat: 子どもの貧困のデータセットとベンチマークを衛星画像でマッピングする
KidSat: satellite imagery to map childhood poverty dataset and benchmark ( http://arxiv.org/abs/2407.05986v1 ) ライセンス: Link先を確認 | Makkunda Sharma, Fan Yang, Duy-Nhat Vo, Esra Suel, Swapnil Mishra, Samir Bhatt, Oliver Fiala, William Rudgard, Seth Flaxman, | (参考訳) 衛星画像は、人口統計、健康、開発指標を分析する重要なツールとして登場した。
これらのタスクのためにさまざまなディープラーニングモデルが構築されているが、それぞれが特定の問題に特化しており、標準ベンチマークはほとんど利用できない。
衛星特徴表現のベンチマークを行うために,衛星画像のペア化と子どもの貧困度に関する高品質な調査データを提案する。
われわれのデータセットは、1997-2022年の東アフリカと南アフリカの19カ国から、それぞれ10km$\times$10kmの33,608枚の画像で構成されている。
UNICEFが定義しているように、多次元の子どもの貧困は6次元をカバーしており、顔と顔のデモグラフィック・ヘルスサーベイ(DHS)プログラムから計算することができる。
ベンチマークの一部として、空間的および時間的一般化をテストし、見知らぬ場所や訓練後のデータでテストする。
我々のデータセットを用いて、MOSAIKSのような低レベル衛星画像モデルから、SatMAEのような特定の衛星画像モデルとラベルなしの自己蒸留(DINOv2)モデルのような一般的な視覚モデルを含むディープラーニング基礎モデルまで、複数のモデルをベンチマークする。
衛星データセット構築のためのオープンソースコードを提供し、DHSから真理データを取得し、我々の研究で評価された様々なモデルを実行する。
Satellite imagery has emerged as an important tool to analyse demographic, health, and development indicators. While various deep learning models have been built for these tasks, each is specific to a particular problem, with few standard benchmarks available. We propose a new dataset pairing satellite imagery and high-quality survey data on child poverty to benchmark satellite feature representations. Our dataset consists of 33,608 images, each 10 km $\times$ 10 km, from 19 countries in Eastern and Southern Africa in the time period 1997-2022. As defined by UNICEF, multidimensional child poverty covers six dimensions and it can be calculated from the face-to-face Demographic and Health Surveys (DHS) Program . As part of the benchmark, we test spatial as well as temporal generalization, by testing on unseen locations, and on data after the training years. Using our dataset we benchmark multiple models, from low-level satellite imagery models such as MOSAIKS , to deep learning foundation models, which include both generic vision models such as Self-Distillation with no Labels (DINOv2) models and specific satellite imagery models such as SatMAE. We provide open source code for building the satellite dataset, obtaining ground truth data from DHS and running various models assessed in our work. | 翻訳日:2024-07-09 15:20:49 公開日:2024-07-08 |
# 信号応答型ニューラルセルオートマタによるマルチテクスチャ合成
Multi-Texture Synthesis through Signal Responsive Neural Cellular Automata ( http://arxiv.org/abs/2407.05991v1 ) ライセンス: Link先を確認 | Mirela-Magdalena Catrina, Ioana Cristina Plajer, Alexandra Baicoianu, | (参考訳) 神経細胞オートマタ(NCA)は様々な分野で有効であることが証明されており、多くの生物学的にインスパイアされた応用がある。
NCAがうまく機能する分野の1つは、均一な規則とコヒーレントな規則によって支配される局所的な相互作用からグローバルなパターンをモデル化するテクスチャの生成である。
本稿では,個々のテクスチャに対して個別に訓練されたNAAを必要とするテクスチャ生成のための現在のNAAアーキテクチャの欠点に対処することにより,テクスチャ合成におけるNAAのユーザビリティを向上させることを目的とする。
本研究では,個々の例に基づいて,複数のテクスチャの進化のために単一のNAAを訓練する。
我々のソリューションは、内部コード化されたゲノム信号の形で、各セルの状態をテクスチャ情報として提供し、NAAが期待するテクスチャを生成することを可能にする。
このような神経細胞オートマトンはその再生能力を維持するだけでなく、学習されたテクスチャ間の補間を可能にし、移植技術をサポートする。
これは生成されたテクスチャを編集し、それらが同じオートマトン内でマージし共存する可能性を示す。
また,NCAの進化に対するゲノム情報や費用関数の影響についても考察する。
Neural Cellular Automata (NCA) have proven to be effective in a variety of fields, with numerous biologically inspired applications. One of the fields, in which NCAs perform well is the generation of textures, modelling global patterns from local interactions governed by uniform and coherent rules. This paper aims to enhance the usability of NCAs in texture synthesis by addressing a shortcoming of current NCA architectures for texture generation, which requires separately trained NCA for each individual texture. In this work, we train a single NCA for the evolution of multiple textures, based on individual examples. Our solution provides texture information in the state of each cell, in the form of an internally coded genomic signal, which enables the NCA to generate the expected texture. Such a neural cellular automaton not only maintains its regenerative capability but also allows for interpolation between learned textures and supports grafting techniques. This demonstrates the ability to edit generated textures and the potential for them to merge and coexist within the same automaton. We also address questions related to the influence of the genomic information and the cost function on the evolution of the NCA. | 翻訳日:2024-07-09 15:20:49 公開日:2024-07-08 |
# 医用画像超解像のためのセルフプライアガイドマンバ-UNetネットワーク
Self-Prior Guided Mamba-UNet Networks for Medical Image Super-Resolution ( http://arxiv.org/abs/2407.05993v1 ) ライセンス: Link先を確認 | Zexin Ji, Beiji Zou, Xiaoyan Kui, Pierre Vera, Su Ruan, | (参考訳) 本稿では,医療画像の超解像のための自己優先型マンバ-UNetネットワーク(SMamba-UNet)を提案する。
既存の方法は、主に畳み込みニューラルネットワーク(CNN)またはトランスフォーマーに基づいている。
CNNベースの手法では長距離依存を捕捉できないが、Transformerベースの手法では2次計算の複雑さのために計算が困難になる。
近年、ステートスペースモデル(SSM)、特にマンバは線形計算複雑性で長距離依存をモデル化できるようになっている。
提案手法は,Mamba-UNetネットワーク下での自己優先的なマルチスケールコンテキスト特徴を学習し,低解像度の医用画像の高分解能化に寄与する可能性がある。
具体的には、ネットワークトレーニング中に入力画像の明るさ変化を摂動することで、高解像度に有用な詳細なテクスチャや明るさ情報を学ぶことができる。
さらに、MambaとUnetネットワークを組み合わせて、グローバルな機能をさまざまなレベルでマイニングしています。
また、2D-Selective-Scan (ISS2D) モジュールを改良し、画像特徴を異なる方向のシーケンスに分割し、複数方向の長距離依存性を学習し、超解像表現を強化するために、適応的にシーケンス情報を融合する。
定性的および定量的な実験結果から,本手法は2つの公開医療データセットであるIXIとfastMRIにおいて,最先端の手法よりも優れていることが示された。
In this paper, we propose a self-prior guided Mamba-UNet network (SMamba-UNet) for medical image super-resolution. Existing methods are primarily based on convolutional neural networks (CNNs) or Transformers. CNNs-based methods fail to capture long-range dependencies, while Transformer-based approaches face heavy calculation challenges due to their quadratic computational complexity. Recently, State Space Models (SSMs) especially Mamba have emerged, capable of modeling long-range dependencies with linear computational complexity. Inspired by Mamba, our approach aims to learn the self-prior multi-scale contextual features under Mamba-UNet networks, which may help to super-resolve low-resolution medical images in an efficient way. Specifically, we obtain self-priors by perturbing the brightness inpainting of the input image during network training, which can learn detailed texture and brightness information that is beneficial for super-resolution. Furthermore, we combine Mamba with Unet network to mine global features at different levels. We also design an improved 2D-Selective-Scan (ISS2D) module to divide image features into different directional sequences to learn long-range dependencies in multiple directions, and adaptively fuse sequence information to enhance super-resolved feature representation. Both qualitative and quantitative experimental results demonstrate that our approach outperforms current state-of-the-art methods on two public medical datasets: the IXI and fastMRI. | 翻訳日:2024-07-09 15:20:49 公開日:2024-07-08 |
# 境界ボックスと確率的グラフィカルモデル:ビデオ異常検出の簡易化
Bounding Boxes and Probabilistic Graphical Models: Video Anomaly Detection Simplified ( http://arxiv.org/abs/2407.06000v1 ) ライセンス: Link先を確認 | Mia Siemon, Thomas B. Moeslund, Barry Norton, Kamal Nasrollahi, | (参考訳) 本研究では,オブジェクト境界ボックスの確率的解析としてビデオ異常検出のタスクを定式化する。
オブジェクトの表現は境界ボックスのみで、シーン内の異常事象を正しく識別するのに十分である、という仮説を立てる。
このアプローチの暗示的な価値は、オブジェクト匿名化の増加、モデルトレーニングの高速化、計算資源の削減である。
これは特に、カメラなどのエッジデバイス上で動作するビデオ監視のアプリケーションに恩恵をもたらす可能性がある。
我々は、人間の理解可能な言葉でモデル出力を説明するのに役立ち、人間の推論に基づくモデルの設計を行う。
一方、最も遅いモデルは第11世代Intel Core i9プロセッサで7秒未満でトレーニングされる。
提案手法は,従来の技術と比較して,問題特徴空間の大幅な削減を図っているが,性能の低下は生じていない。この結果はCUHK AvenueとShanghaiTechのベンチマークデータセットに対して非常に競争力があり,StreetSceneの最新のState-of-the-Art結果を大きく上回っている。
In this study, we formulate the task of Video Anomaly Detection as a probabilistic analysis of object bounding boxes. We hypothesize that the representation of objects via their bounding boxes only, can be sufficient to successfully identify anomalous events in a scene. The implied value of this approach is increased object anonymization, faster model training and fewer computational resources. This can particularly benefit applications within video surveillance running on edge devices such as cameras. We design our model based on human reasoning which lends itself to explaining model output in human-understandable terms. Meanwhile, the slowest model trains within less than 7 seconds on a 11th Generation Intel Core i9 Processor. While our approach constitutes a drastic reduction of problem feature space in comparison with prior art, we show that this does not result in a reduction in performance: the results we report are highly competitive on the benchmark datasets CUHK Avenue and ShanghaiTech, and significantly exceed on the latest State-of-the-Art results on StreetScene, which has so far proven to be the most challenging VAD dataset. | 翻訳日:2024-07-09 15:20:49 公開日:2024-07-08 |
# Pseudo-triplet Guided Few-shot Composed Image Retrieval
Pseudo-triplet Guided Few-shot Composed Image Retrieval ( http://arxiv.org/abs/2407.06001v1 ) ライセンス: Link先を確認 | Bohan Hou, Haoqiang Lin, Haokun Wen, Meng Liu, Xuemeng Song, | (参考訳) Composed Image Retrieval (CIR) は、マルチモーダルクエリ(参照画像とその対応する修正テキスト)に基づいてターゲット画像を取得することを目的とした課題である。
従来の教師付き学習パラダイムやゼロショット学習パラダイムはすべて、時間的アノテーションコストと検索性能のトレードオフを達成できなかったが、最近の研究者は、数ショットCIR(FS-CIR)のタスクを導入し、事前訓練されたCLIPモデルに基づくテキストインバージョンベースのネットワークを提案して実現した。
その有望な性能にもかかわらず、このアプローチには2つの重要な制限がある。
本稿では,この2つの制約に対処するため,PTG-FSCIRと呼ばれる2段階の擬似三重項誘導方式を提案する。
第1段階では、マスク付きトレーニング戦略と高度な画像キャプション生成を用いて、純画像データから擬似三脚を構築することにより、モデルがマルチモーダルクエリ合成に関する一次知識を取得できるようにする。
第2段階では、アクティブな学習に基づいて、擬似修正テキストベースのクエリターゲット距離メートル法を設計し、ラベルなしサンプル毎の挑戦的なスコアを評価する。
一方,統計学における3$\sigma$ルールに従って,頑健なトップレンジに基づくランダムサンプリング戦略を提案し,事前学習したモデルを微調整するための挑戦的なサンプルをサンプリングする。
特に、我々の方式はプラグアンドプレイであり、既存の教師付きCIRモデルと互換性がある。
提案手法を3つの公開データセット(FashionIQ, CIRR, Birds-to-Words)で検証し,それぞれ26.4%,25.5%,21.6%の最大改善を実現した。
Composed Image Retrieval (CIR) is a challenging task that aims to retrieve the target image based on a multimodal query, i.e., a reference image and its corresponding modification text. While previous supervised or zero-shot learning paradigms all fail to strike a good trade-off between time-consuming annotation cost and retrieval performance, recent researchers introduced the task of few-shot CIR (FS-CIR) and proposed a textual inversion-based network based on pretrained CLIP model to realize it. Despite its promising performance, the approach suffers from two key limitations: insufficient multimodal query composition training and indiscriminative training triplet selection. To address these two limitations, in this work, we propose a novel two-stage pseudo triplet guided few-shot CIR scheme, dubbed PTG-FSCIR. In the first stage, we employ a masked training strategy and advanced image caption generator to construct pseudo triplets from pure image data to enable the model to acquire primary knowledge related to multimodal query composition. In the second stage, based on active learning, we design a pseudo modification text-based query-target distance metric to evaluate the challenging score for each unlabeled sample. Meanwhile, we propose a robust top range-based random sampling strategy according to the 3-$\sigma$ rule in statistics, to sample the challenging samples for fine-tuning the pretrained model. Notably, our scheme is plug-and-play and compatible with any existing supervised CIR models. We tested our scheme across three backbones on three public datasets (i.e., FashionIQ, CIRR, and Birds-to-Words), achieving maximum improvements of 26.4%, 25.5% and 21.6% respectively, demonstrating our scheme's effectiveness. | 翻訳日:2024-07-09 15:20:49 公開日:2024-07-08 |
# GPTにおける性別バイアスの予想
Surprising gender biases in GPT ( http://arxiv.org/abs/2407.06003v1 ) ライセンス: Link先を確認 | Raluca Alexandra Fulgu, Valerio Capraro, | (参考訳) GPTにおける性別バイアスを探索する7つの実験を行った。
当初、GPTは女性ステレオタイプを含む20のフレーズと男性ステレオタイプを含む20のフレーズの潜在的な作者の人口統計学を作成するよう求められた。
結果は強い非対称性を示し、ステレオタイプ的に男性的な文は、その逆よりも女性に帰属することが多い。
例えば、"I love playing fotbal! Im practice with my cosin Michael"という文は、常にChatGPTによって女性作家に割り当てられていた。
この現象は、伝統的な男性の役割における女性統合の取り組みが勢いを増しているが、逆の動きは比較的未発達であることを反映していると考えられる。
その後の実験は、高次の道徳的ジレンマにおいて同じ問題を調査した。
GPT-4は、女性を虐待するよりも、核の黙示録を防ぐために男性を虐待する方が適切である。
この偏見は、ジェンダー・パリティ論争(英語版)(英語版)(英語版)の中心となる暴力の他の形態(英語版)にも及んでいるが、中心的でないもの(英語版)には及ばない。
さらに、このバイアスは、より大きな利益のために混合性暴力の場合に増加する: GPT-4は、男性に対する暴力を使用して核の黙示録を防ぐことに同意するが、同じ目的のために女性に対する暴力を使用している男性と反対する。
最後に、これらのバイアスは、GPT-4が直接道徳的違反をランク付けするよう求められたときに現れることはないため、暗黙的である。
これらの結果は,意図しない差別を防止するために,インクリメンタルな取り組みを慎重に管理する必要性を浮き彫りにした。
We present seven experiments exploring gender biases in GPT. Initially, GPT was asked to generate demographics of a potential writer of twenty phrases containing feminine stereotypes and twenty with masculine stereotypes. Results show a strong asymmetry, with stereotypically masculine sentences attributed to a female more often than vice versa. For example, the sentence "I love playing fotbal! Im practicing with my cosin Michael" was constantly assigned by ChatGPT to a female writer. This phenomenon likely reflects that while initiatives to integrate women in traditionally masculine roles have gained momentum, the reverse movement remains relatively underdeveloped. Subsequent experiments investigate the same issue in high-stakes moral dilemmas. GPT-4 finds it more appropriate to abuse a man to prevent a nuclear apocalypse than to abuse a woman. This bias extends to other forms of violence central to the gender parity debate (abuse), but not to those less central (torture). Moreover, this bias increases in cases of mixed-sex violence for the greater good: GPT-4 agrees with a woman using violence against a man to prevent a nuclear apocalypse but disagrees with a man using violence against a woman for the same purpose. Finally, these biases are implicit, as they do not emerge when GPT-4 is directly asked to rank moral violations. These results highlight the necessity of carefully managing inclusivity efforts to prevent unintended discrimination. | 翻訳日:2024-07-09 15:20:49 公開日:2024-07-08 |
# 信念に対する知覚:大規模言語モデルにおける心の理論の事前推論を探る
Perceptions to Beliefs: Exploring Precursory Inferences for Theory of Mind in Large Language Models ( http://arxiv.org/abs/2407.06004v1 ) ライセンス: Link先を確認 | Chani Jung, Dongkwan Kim, Jiho Jin, Jiseon Kim, Yeon Seonwoo, Yejin Choi, Alice Oh, Hyunwoo Kim, | (参考訳) 人間は心の理論(ToM)を自然に開発するが、他者の精神状態や信念を理解する能力は、単純なToMベンチマークでは性能が劣る。
我々は、LLMにおける人間のToM前駆体(知覚推論と知覚信頼推論)を評価することで、LLMのToM能力に対する理解を深めることができると仮定する。
本稿では2つのデータセット,Percept-ToMi と Percept-FANToM を導入し,ToMi と FANToM に対する文字の認識をアノテートすることで,LLM におけるこれらのToM の前駆的推論を評価する。
8種類のLLMを評価した結果, モデルが知覚的推論において良好に機能し, 知覚的信頼的推論(例えば, 抑制的制御の欠如)の能力に限界があることが判明した。
これらの結果に基づいて,LLMの強い知覚推論能力を活用しつつ,限られた知覚と信頼の推論を補完する新しいToM手法であるPercepToMを提案する。
実験結果から,PercepToM は LLM の性能を著しく向上させることが明らかとなった。
While humans naturally develop theory of mind (ToM), the capability to understand other people's mental states and beliefs, state-of-the-art large language models (LLMs) underperform on simple ToM benchmarks. We posit that we can extend our understanding of LLMs' ToM abilities by evaluating key human ToM precursors -- perception inference and perception-to-belief inference -- in LLMs. We introduce two datasets, Percept-ToMi and Percept-FANToM, to evaluate these precursory inferences for ToM in LLMs by annotating characters' perceptions on ToMi and FANToM, respectively. Our evaluation of eight state-of-the-art LLMs reveals that the models generally perform well in perception inference while exhibiting limited capability in perception-to-belief inference (e.g., lack of inhibitory control). Based on these results, we present PercepToM, a novel ToM method leveraging LLMs' strong perception inference capability while supplementing their limited perception-to-belief inference. Experimental results demonstrate that PercepToM significantly enhances LLM's performance, especially in false belief scenarios. | 翻訳日:2024-07-09 15:20:49 公開日:2024-07-08 |
# 自動偽造検出の高速化:特徴抽出と解析のためのマルチモーダルアプローチ
Advancing Automated Deception Detection: A Multimodal Approach to Feature Extraction and Analysis ( http://arxiv.org/abs/2407.06005v1 ) ライセンス: Link先を確認 | Mohamed Bahaa, Mena Hany, Ehab E. Zakaria, | (参考訳) 映像コンテンツの指数的増加に伴い、人間中心のビデオ分析における正確な偽造検出の必要性が最重要視されている。
本研究は, 偽造検出モデルの精度を高めるために, 様々な特徴の抽出と組み合わせに焦点を当てる。
視覚、音声、テキストデータから特徴を体系的に抽出し、異なる組み合わせの実験を行うことで、印象的な99%の精度を達成できるロバストモデルを開発した。
提案手法は, 偽造検出における機能工学の重要性を強調し, 明確かつ解釈可能なフレームワークを提供する。
LSTM, BiLSTM, 事前学習されたCNNなどの機械学習モデルを, シングルモーダルアプローチとマルチモーダルアプローチの両方を用いて訓練した。
その結果,複数モードの組み合わせは単一モードトレーニングと比較して検出性能を著しく向上させることがわかった。
本研究は,映像解析における信頼性・透明性の高い自動偽造検出システムの開発における戦略的特徴抽出と組み合わせの可能性を強調し,今後の研究におけるより高度かつ正確な検出手法の確立に資するものである。
With the exponential increase in video content, the need for accurate deception detection in human-centric video analysis has become paramount. This research focuses on the extraction and combination of various features to enhance the accuracy of deception detection models. By systematically extracting features from visual, audio, and text data, and experimenting with different combinations, we developed a robust model that achieved an impressive 99% accuracy. Our methodology emphasizes the significance of feature engineering in deception detection, providing a clear and interpretable framework. We trained various machine learning models, including LSTM, BiLSTM, and pre-trained CNNs, using both single and multi-modal approaches. The results demonstrated that combining multiple modalities significantly enhances detection performance compared to single modality training. This study highlights the potential of strategic feature extraction and combination in developing reliable and transparent automated deception detection systems in video analysis, paving the way for more advanced and accurate detection methodologies in future research. | 翻訳日:2024-07-09 15:20:49 公開日:2024-07-08 |
# 低深さディジタル量子回路を用いたハイゼンベルク制限ベイズ位相推定
Heisenberg-limited Bayesian phase estimation with low-depth digital quantum circuits ( http://arxiv.org/abs/2407.06006v1 ) ライセンス: Link先を確認 | Su Direkci, Ran Finkelstein, Manuel Endres, Tuvia Gefen, | (参考訳) 最適位相推定プロトコルは複雑な状態の準備と読み出しのスキームを必要とし、一般に多くの量子プラットフォームでは利用できないか、あるいはスケールできない。
我々は,量子ビット数と対数スケールの簡単なディジタル量子回路を用いて,ベイズ位相推定のオーバーヘッドを一定に抑える手法を開発し,解析する。
任意の幅を持つガウス前相分布に対して、最適初期状態は、異なる数の量子ビットを持つグリーンベルガー・ホルン・ザイリンガー状態の積と近似することができる。
先行分布と初期状態に最適化された局所的適応的測定を用いて、ハイゼンベルクのスケーリングは達成可能であり、提案手法は、類似した初期状態の集合を利用する文献において既知のスキームよりも優れていることを示す。
事前の幅の例では,非適応的な測定手法を用いてハイゼンベルクのスケーリングを実現することが可能であり,GHZ状態当たりのコピーの適切な割り当てと単一キュービット回転が可能である。
また,提案手法の動的範囲を拡張するための効率的な位相巻き戻しプロトコルを提案し,さらに,少ない原子数で精度を向上することにより,既存のプロトコルよりも優れていることを示す。
最後に、ノイズと不完全ゲートの影響について論じる。
Optimal phase estimation protocols require complex state preparation and readout schemes, generally unavailable or unscalable in many quantum platforms. We develop and analyze a scheme that achieves near-optimal precision up to a constant overhead for Bayesian phase estimation, using simple digital quantum circuits with depths scaling logarithmically with the number of qubits. We find that for Gaussian prior phase distributions with arbitrary widths, the optimal initial state can be approximated with products of Greenberger-Horne-Zeilinger states with varying number of qubits. Using local, adaptive measurements optimized for the prior distribution and the initial state, we show that Heisenberg scaling is achievable and that the proposed scheme outperforms known schemes in the literature that utilize a similar set of initial states. For an example prior width, we present a detailed comparison and find that is also possible to achieve Heisenberg scaling with a scheme that employs non-adaptive measurements, with the right allocation of copies per GHZ state and single-qubit rotations. We also propose an efficient phase unwinding protocol to extend the dynamic range of the proposed scheme, and show that it outperforms existing protocols by achieving an enhanced precision with a smaller number of additional atoms. Lastly, we discuss the impact of noise and imperfect gates. | 翻訳日:2024-07-09 15:20:49 公開日:2024-07-08 |
# 重力アハロノフ・ボーム効果のシャープ化
Sharpening the Gravitational Aharonov-Bohm effect ( http://arxiv.org/abs/2407.06010v1 ) ライセンス: Link先を確認 | Akshat Pandey, | (参考訳) 古典的な系、すなわち複素スカラー場に対するアハロノフ・ボーム効果の最近の重力類似性について研究する。
この例を用いて、原理的にはアハロノフ・ボーム効果は量子力学とは無関係であることを示す。
次に、この古典的場の記述が、アハロノフ・ボーム効果の標準粒子量子記述とどのように結びつくかについて議論する。
We study the recent gravitational analogue of the Aharonov-Bohm effect for a classical system, namely a complex scalar field. We use this example to demonstrate that the Aharonov-Bohm effect in principle has nothing to do with quantum-mechanics. We then discuss how this classical field description can be connected to the standard one particle quantum description of the Aharonov-Bohm effect. | 翻訳日:2024-07-09 15:20:49 公開日:2024-07-08 |
# Igea: イタリアにおけるバイオメディカルテキスト生成のためのデコーダ専用言語モデル
Igea: a Decoder-Only Language Model for Biomedical Text Generation in Italian ( http://arxiv.org/abs/2407.06011v1 ) ライセンス: Link先を確認 | Tommaso Mario Buonocore, Simone Rancati, Enea Parimbelli, | (参考訳) ドメイン固有言語モデルの開発は、様々な専門分野、特にバイオメディシンにおいて、かなり高度な自然言語処理の応用をもたらしている。
しかし、主に英語モデルに焦点が当てられており、イタリア語のような低リソースの言語にはギャップが残されている。
本稿では,イタリアにおけるバイオメディカルテキスト生成のために明示的に設計された,最初のデコーダのみの言語モデルであるIgeaを紹介する。
Minervaモデルに基づいて構築され、さまざまなイタリアの医療用テキストのコーパスで継続的に事前訓練されているIgeaは、3億5000万、10億、30億のパラメーターの3つのモデルサイズで利用できる。
このモデルは計算効率と性能のバランスを図り、イタリア語における医学用語の特異性を管理するという課題に対処することを目的としている。
我々は、ドメイン内バイオメディカルコーパスと汎用ベンチマークを併用したIgeaの評価を行い、ドメイン固有トレーニング後の一般知識の維持と有効性を強調した。
本稿では,イタリアのバイオメディカルNLPの今後の発展のための基盤となるモデルの開発と評価について論じる。
The development of domain-specific language models has significantly advanced natural language processing applications in various specialized fields, particularly in biomedicine. However, the focus has largely been on English-language models, leaving a gap for less-resourced languages such as Italian. This paper introduces Igea, the first decoder-only language model designed explicitly for biomedical text generation in Italian. Built on the Minerva model and continually pretrained on a diverse corpus of Italian medical texts, Igea is available in three model sizes: 350 million, 1 billion, and 3 billion parameters. The models aim to balance computational efficiency and performance, addressing the challenges of managing the peculiarities of medical terminology in Italian. We evaluate Igea using a mix of in-domain biomedical corpora and general-purpose benchmarks, highlighting its efficacy and retention of general knowledge even after the domain-specific training. This paper discusses the model's development and evaluation, providing a foundation for future advancements in Italian biomedical NLP. | 翻訳日:2024-07-09 15:20:49 公開日:2024-07-08 |
# 線形方程式の解系の量子深さ下界
Tight Quantum Depth Lower Bound for Solving Systems of Linear Equations ( http://arxiv.org/abs/2407.06012v1 ) ライセンス: Link先を確認 | Qisheng Wang, Zhicheng Zhang, | (参考訳) Harrow, Hassidim, and Lloyd (2009) は、$N$変数と条件数 $\kappa$ を持つ線形方程式の系が、量子コンピュータ上で $\operatorname{poly}(\log(N), \kappa)$ time で解けることを示したので、どの古典的アルゴリズムよりも指数関数的に高速である。
この問題の最先端の量子アルゴリズムは、Costa, An, Sanders, Su, Babbush, and Berry (2022) によるものであり、最適なクエリ複雑性は$\Theta(\kappa)$である。
重要な疑問は、並列処理がさらなる最適化をもたらすかどうかである。
本稿では,この問題に対する並列量子コンピューティングの限界について考察する。
時間複雑性を持つ線形方程式の系を解くための量子アルゴリズムとして、$\operatorname{poly}(\log(N), \kappa)$ はクエリの深さで$\Omega(\kappa)$ の低い境界を持ち、これは定数係数に固まる。
Since Harrow, Hassidim, and Lloyd (2009) showed that a system of linear equations with $N$ variables and condition number $\kappa$ can be solved on a quantum computer in $\operatorname{poly}(\log(N), \kappa)$ time, exponentially faster than any classical algorithms, its improvements and applications have been extensively investigated. The state-of-the-art quantum algorithm for this problem is due to Costa, An, Sanders, Su, Babbush, and Berry (2022), with optimal query complexity $\Theta(\kappa)$. An important question left is whether parallelism can bring further optimization. In this paper, we study the limitation of parallel quantum computing on this problem. We show that any quantum algorithm for solving systems of linear equations with time complexity $\operatorname{poly}(\log(N), \kappa)$ has a lower bound of $\Omega(\kappa)$ on the depth of queries, which is tight up to a constant factor. | 翻訳日:2024-07-09 15:20:49 公開日:2024-07-08 |
# サイバーセキュリティにおける予測モデルの評価:脅威検出のための機械学習とディープラーニング技術の比較分析
Evaluating Predictive Models in Cybersecurity: A Comparative Analysis of Machine and Deep Learning Techniques for Threat Detection ( http://arxiv.org/abs/2407.06014v1 ) ライセンス: Link先を確認 | Momen Hesham, Mohamed Essam, Mohamed Bahaa, Ahmed Mohamed, Mohamed Gomaa, Mena Hany, Wael Elsersy, | (参考訳) これらの攻撃がますます見るのが難しくなるにつれて、それらを検出する優れたハイテクモデルの必要性は否定できない。
本稿では、さまざまな機械学習モデルとディープラーニングモデルを比較して、サイバーセキュリティリスクの検出と対策に最適なモデルを選択する。
この2つのデータセットは、Naive Bayes、SVM、Random Forest、ディープラーニングアーキテクチャ(VGG16)などのモデルを評価するために、精度、精度、リコール、F1スコアのコンテキストで使用される。
分析によると、データセットの特徴や脅威の種類によって異なるが、ランダムフォレストとエクストラツリーの精度は向上している。
本研究は,各予測モデルの長所と短所を強調するだけでなく,データ依存や計算要求といった実環境におけるそのような技術の展開に関わる問題にも対処する。
調査対象はサイバーセキュリティの専門家で、適切な予測モデルを選択し、サイバー脅威に対するセキュリティ対策を完全に強化するための設定を支援する。
As these attacks become more and more difficult to see, the need for the great hi-tech models that detect them is undeniable. This paper examines and compares various machine learning as well as deep learning models to choose the most suitable ones for detecting and fighting against cybersecurity risks. The two datasets are used in the study to assess models like Naive Bayes, SVM, Random Forest, and deep learning architectures, i.e., VGG16, in the context of accuracy, precision, recall, and F1-score. Analysis shows that Random Forest and Extra Trees do better in terms of accuracy though in different aspects of the dataset characteristics and types of threat. This research not only emphasizes the strengths and weaknesses of each predictive model but also addresses the difficulties associated with deploying such technologies in the real-world environment, such as data dependency and computational demands. The research findings are targeted at cybersecurity professionals to help them select appropriate predictive models and configure them to strengthen the security measures against cyber threats completely. | 翻訳日:2024-07-09 15:20:49 公開日:2024-07-08 |
# 遺伝子摂動実験における因果構造学習のためのシミュレーションに基づくベンチマーク
Simulation-based Benchmarking for Causal Structure Learning in Gene Perturbation Experiments ( http://arxiv.org/abs/2407.06015v1 ) ライセンス: Link先を確認 | Luka Kovačević, Izzy Newsham, Sach Mukherjee, John Whittaker, | (参考訳) CSL(Causal Structure Learning)は、データから因果関係を学習するタスクである。
CSLの進歩により、さまざまなアプリケーション領域における因果グラフの学習が可能になった。
実世界のCSLのパフォーマンスは、実際のユースケースで重要なコンテキスト固有のデータ分散や非線形依存関係を含む、多くの$\textit{context-specific}$ factorに依存します。
しかし、特定の文脈におけるCSLメソッドの評価と選択の仕方についての理解は依然として限られている。
このギャップに対処するために、遺伝子摂動実験の設定に焦点をあて、文脈固有の特性を取り入れた観察データや介入データを生成するための乗法効果構造因果モデルである$\textit{CausalRegNet}$を提案する。
実世界の遺伝子摂動データを用いて、CausalRegNetが正確な分布を生成し、現在のシミュレーションフレームワークよりもはるかに優れていることを示す。
生物学における介入実験の文脈におけるCSL法の評価におけるCausalRegNetの使用について述べる。
Causal structure learning (CSL) refers to the task of learning causal relationships from data. Advances in CSL now allow learning of causal graphs in diverse application domains, which has the potential to facilitate data-driven causal decision-making. Real-world CSL performance depends on a number of $\textit{context-specific}$ factors, including context-specific data distributions and non-linear dependencies, that are important in practical use-cases. However, our understanding of how to assess and select CSL methods in specific contexts remains limited. To address this gap, we present $\textit{CausalRegNet}$, a multiplicative effect structural causal model that allows for generating observational and interventional data incorporating context-specific properties, with a focus on the setting of gene perturbation experiments. Using real-world gene perturbation data, we show that CausalRegNet generates accurate distributions and scales far better than current simulation frameworks. We illustrate the use of CausalRegNet in assessing CSL methods in the context of interventional experiments in biology. | 翻訳日:2024-07-09 15:10:58 公開日:2024-07-08 |
# RHRSegNet:高解像度ナイトタイムセマンティックセマンティックセグメンテーション
RHRSegNet: Relighting High-Resolution Night-Time Semantic Segmentation ( http://arxiv.org/abs/2407.06016v1 ) ライセンス: Link先を確認 | Sarah Elmahdy, Rodaina Hebishy, Ali Hamdi, | (参考訳) 夜間セマンティックセグメンテーションはコンピュータビジョンにおいて重要な課題であり、低照度条件下でのオブジェクトの正確な分類とセグメンテーションに焦点を当てている。
夜間のシーンでは悪くなる日中の技術とは異なり、照明不足、照明の低さ、動的照明、シャドーエフェクト、コントラストの低減など、自律運転には不可欠である。
セマンティックセグメンテーションのための高分解能ネットワーク上でのリライトモデルを実装したRHRSegNetを提案する。
RHRSegNetは、複雑な照明条件を扱うために残差畳み込み特徴学習を実装している。
提案モデルでは,照明されたシーン特徴マップを高解像度ネットワークに供給し,シーンセグメンテーションを行う。
ネットワークは、様々な解像度で特徴マップを生成する畳み込みで構成され、ダウンサンプリングとアップサンプリングによって異なるレベルの解像度を達成する。
大規模なナイトタイムデータセットは、NightCity、City-Scape、Dark-Zurichデータセットなどのトレーニングと評価に使用される。
提案モデルでは、低照度画像や夜間画像においてHRnetセグメンテーション性能を5%向上させる。
Night time semantic segmentation is a crucial task in computer vision, focusing on accurately classifying and segmenting objects in low-light conditions. Unlike daytime techniques, which often perform worse in nighttime scenes, it is essential for autonomous driving due to insufficient lighting, low illumination, dynamic lighting, shadow effects, and reduced contrast. We propose RHRSegNet, implementing a relighting model over a High-Resolution Network for semantic segmentation. RHRSegNet implements residual convolutional feature learning to handle complex lighting conditions. Our model then feeds the lightened scene feature maps into a high-resolution network for scene segmentation. The network consists of a convolutional producing feature maps with varying resolutions, achieving different levels of resolution through down-sampling and up-sampling. Large nighttime datasets are used for training and evaluation, such as NightCity, City-Scape, and Dark-Zurich datasets. Our proposed model increases the HRnet segmentation performance by 5% in low-light or nighttime images. | 翻訳日:2024-07-09 15:10:58 公開日:2024-07-08 |
# 非拘束映像における弱教師付き物体位置定位変換器の活用
Leveraging Transformers for Weakly Supervised Object Localization in Unconstrained Videos ( http://arxiv.org/abs/2407.06018v1 ) ライセンス: Link先を確認 | Shakeeb Murtaza, Marco Pedersoli, Aydin Sarraf, Eric Granger, | (参考訳) WSVOL (Weakly-Supervised Video Object Localization) は、ビデオレベルのラベルのみを使用して、ビデオ内のオブジェクトをローカライズする。
時間CAM(TCAM)のような最先端のWSVOLメソッドは、クラスアクティベーションマッピング(CAM)に依存しており、通常、トレーニング済みのCNN分類器を必要とする。
しかし、それらの局所化精度は、クラスの異なるインスタンス間の相互情報を最小限に抑え、下流タスク(例えば、検出と追跡)のトレーニング中に時間的情報を活用する傾向に影響される。
境界ボックスアノテーションがない場合には、時間とともにオブジェクトを見つけるのに苦労するため、時間的手がかりからオブジェクトに関する正確な情報を利用するのは難しい。
これらの問題に対処するため、WSVOLでは、ビデオ用トランスフォーマーベースCAM(TrCAM-V)と呼ばれる新しい手法が提案されている。
分類とローカライゼーションのための2つの頭を持つDeiTバックボーンで構成されている。
分類ヘッドは標準分類損失(CL)を用いて訓練され、ローカライゼーションヘッドは事前訓練されたCLIPモデルを用いて抽出された擬似ラベルを用いて訓練される。
これらの擬似ラベルから、高い活性化値と低い活性化値はそれぞれ前景領域と背景領域とみなす。
我々のTrCAM-V法は,これらの領域からハエの擬似ピクセルをサンプリングすることで,ローカライズネットワークのトレーニングを可能にする。
さらに、条件付きランダムフィールド(CRF)損失を用いて、対象の境界を前景マップと整列させる。
推論中、モデルはリアルタイムなローカライゼーションアプリケーションのために個々のフレームを処理できる。
YouTube-Objectsの制約のないビデオデータセットに挑戦する大規模な実験は、TrCAM-V法が、分類とローカライゼーションの精度の観点から、新しい最先端のパフォーマンスを達成することを示す。
Weakly-Supervised Video Object Localization (WSVOL) involves localizing an object in videos using only video-level labels, also referred to as tags. State-of-the-art WSVOL methods like Temporal CAM (TCAM) rely on class activation mapping (CAM) and typically require a pre-trained CNN classifier. However, their localization accuracy is affected by their tendency to minimize the mutual information between different instances of a class and exploit temporal information during training for downstream tasks, e.g., detection and tracking. In the absence of bounding box annotation, it is challenging to exploit precise information about objects from temporal cues because the model struggles to locate objects over time. To address these issues, a novel method called transformer based CAM for videos (TrCAM-V), is proposed for WSVOL. It consists of a DeiT backbone with two heads for classification and localization. The classification head is trained using standard classification loss (CL), while the localization head is trained using pseudo-labels that are extracted using a pre-trained CLIP model. From these pseudo-labels, the high and low activation values are considered to be foreground and background regions, respectively. Our TrCAM-V method allows training a localization network by sampling pseudo-pixels on the fly from these regions. Additionally, a conditional random field (CRF) loss is employed to align the object boundaries with the foreground map. During inference, the model can process individual frames for real-time localization applications. Extensive experiments on challenging YouTube-Objects unconstrained video datasets show that our TrCAM-V method achieves new state-of-the-art performance in terms of classification and localization accuracy. | 翻訳日:2024-07-09 15:10:58 公開日:2024-07-08 |
# システム2からシステム1へ
Distilling System 2 into System 1 ( http://arxiv.org/abs/2407.06023v1 ) ライセンス: Link先を確認 | Ping Yu, Jing Xu, Jason Weston, Ilia Kulikov, | (参考訳) 大規模言語モデル(LLM)は、中間的な思考を生成するために推論中に余分な計算に費やし、より優れた最終応答を生成するのに役立つ。
Chain-of-Thought (Wei et al , 2022)以降、Rephrase and Respond (Deng et al , 2023a)、System 2 Attention (Weston and Sukhbaatar, 2023)、Branch-Solve-Merge (Saha et al , 2023)など多くのシステム2技術が提案されている。
本研究は,システム2において,中間的推論トークンシーケンスを使わずに,システム2技術からLLM世代への高品質出力を<compile'(希釈)する自己指導手法について検討する。
1. 従来の System 1 の性能に比べ, 性能が向上し, 推論コストも System 1 よりも低い結果が得られた。
2. このようなシステム2の蒸留は,今後継続的に学習するAIシステムにとって重要な特徴であり,システム2の能力は,まだうまくいかない推論タスクに焦点を合わせることができると仮定する。
Large language models (LLMs) can spend extra compute during inference to generate intermediate thoughts, which helps to produce better final responses. Since Chain-of-Thought (Wei et al., 2022), many such System 2 techniques have been proposed such as Rephrase and Respond (Deng et al., 2023a), System 2 Attention (Weston and Sukhbaatar, 2023) and Branch-Solve-Merge (Saha et al., 2023). In this work we investigate self-supervised methods to ``compile'' (distill) higher quality outputs from System 2 techniques back into LLM generations without intermediate reasoning token sequences, as this reasoning has been distilled into System 1. We show that several such techniques can be successfully distilled, resulting in improved results compared to the original System 1 performance, and with less inference cost than System 2. We posit that such System 2 distillation will be an important feature of future continually learning AI systems, enabling them to focus System 2 capabilities on the reasoning tasks that they cannot yet do well. | 翻訳日:2024-07-09 15:10:58 公開日:2024-07-08 |
# iLLM-TSC:交通信号制御ポリシー改善のための統合強化学習と大規模言語モデル
iLLM-TSC: Integration reinforcement learning and large language model for traffic signal control policy improvement ( http://arxiv.org/abs/2407.06025v1 ) ライセンス: Link先を確認 | Aoyu Pang, Maonan Wang, Man-On Pun, Chung Shue Chen, Xi Xiong, | (参考訳) 交通信号制御(TSC)が強力なソリューションとして登場し、都市の混雑は依然として重要な課題である。
TSCはしばしばマルコフ決定プロセス問題としてモデル化され、その後強化学習(RL)を用いて解かれる。
しかし、既存のRTLベースのTSCシステムは、パケット損失、遅延、ノイズなどの劣化した通信による不完全な観測や、未解決の緊急車両のような報酬機能に含まれない稀な実生活イベントをしばしば見落としている。
これらの制約に対処するため,大規模言語モデル(LLM)とRLを組み合わせた新しい統合フレームワークを導入する。
このフレームワークは、報酬関数の見落とした要素と状態情報のギャップを管理し、RLエージェントのポリシーを強化するように設計されている。
我々のアプローチでは、RLはまず観測データに基づいて決定する。
その後、LSMはこれらの決定を評価し、妥当性を検証する。
決定が理にかなわないと判断すると、それに応じて調整される。
さらに、この統合アプローチは変更を必要とせずに既存のRLベースのTSCシステムとシームレスに統合することができる。
拡張テストでは,従来のRL方式と比較して,平均待ち時間を17.5\%削減し,知的輸送システムにおける実用的RL適用の可能性を強調した。
関連するコードは \url{https://github.com/Traffic-Alpha/iLLM-TSC} にある。
Urban congestion remains a critical challenge, with traffic signal control (TSC) emerging as a potent solution. TSC is often modeled as a Markov Decision Process problem and then solved using reinforcement learning (RL), which has proven effective. However, the existing RL-based TSC system often overlooks imperfect observations caused by degraded communication, such as packet loss, delays, and noise, as well as rare real-life events not included in the reward function, such as unconsidered emergency vehicles. To address these limitations, we introduce a novel integration framework that combines a large language model (LLM) with RL. This framework is designed to manage overlooked elements in the reward function and gaps in state information, thereby enhancing the policies of RL agents. In our approach, RL initially makes decisions based on observed data. Subsequently, LLMs evaluate these decisions to verify their reasonableness. If a decision is found to be unreasonable, it is adjusted accordingly. Additionally, this integration approach can be seamlessly integrated with existing RL-based TSC systems without necessitating modifications. Extensive testing confirms that our approach reduces the average waiting time by $17.5\%$ in degraded communication conditions as compared to traditional RL methods, underscoring its potential to advance practical RL applications in intelligent transportation systems. The related code can be found at \url{https://github.com/Traffic-Alpha/iLLM-TSC}. | 翻訳日:2024-07-09 15:10:58 公開日:2024-07-08 |
# フォトニック集積干渉計における変分量子クローニング装置
Variational quantum cloning machine on a photonic integrated interferometer ( http://arxiv.org/abs/2407.06026v1 ) ライセンス: Link先を確認 | Francesco Hoch, Giovanni Rodari, Eugenio Caruccio, Beatrice Polacchi, Gonzalo Carvacho, Taira Giordani, Mina Doosti, Sebastià Nicolau, Ciro Pentangelo, Simone Piacentini, Andrea Crespi, Francesco Ceccarelli, Roberto Osellame, Ernesto F. Galvão, Nicolò Spagnolo, Fabio Sciarrino, | (参考訳) 量子情報理論におけるセミナルタスクは、可能な限り高い出力忠実度でジェネリック入力状態のコピーを生成することができるデバイスを実現することであり、従って \textit{optimal} 量子クローニングマシンを実現する。
近年、量子処理ユニットの出力から得られる古典的なフィードバックループを利用して、最適な量子クローニング戦略に必要なプログラミングを自己学習する量子機械学習アルゴリズムが導入された。
本研究では,位相共変法と状態依存法の両方において,デュアルレール符号化されたフォトニック量子ビットの1ドル2$変分クローニング機を実験的に実装した。
プログラム可能な6モード統合デバイスと古典的フィードバックを利用して、ほぼ最適なクローン性能を実現する。
量子アルゴリズムの変分自己学習のためのプログラム可能な統合フォトニックプラットフォームの可能性を示す。
A seminal task in quantum information theory is to realize a device able to produce copies of a generic input state with the highest possible output fidelity, thus realizing an \textit{optimal} quantum cloning machine. Recently, the concept of variational quantum cloning was introduced: a quantum machine learning algorithm through which, by exploiting a classical feedback loop informed by the output of a quantum processing unit, the system can self-learn the programming required for an optimal quantum cloning strategy. In this work, we experimentally implement a $1 \rightarrow 2$ variational cloning machine of dual-rail encoded photonic qubits, both for phase-covariant and state-dependent cloning. We exploit a fully programmable 6-mode universal integrated device and classical feedback to reach near-optimal cloning performances. Our results demonstrate the potential of programmable integrated photonic platforms for variational self-learning of quantum algorithms. | 翻訳日:2024-07-09 15:10:58 公開日:2024-07-08 |
# PAS:データ効率の良いPlug-and-Play Prompt Augmentation System
PAS: Data-Efficient Plug-and-Play Prompt Augmentation System ( http://arxiv.org/abs/2407.06027v1 ) ライセンス: Link先を確認 | Miao Zheng, Hao Liang, Fan Yang, Haoze Sun, Tianpeng Li, Lingchu Xiong, Yan Zhang, Yozhen Wu, Kun Li, Yanjun Sheng, Mingan Lin, Tao Zhang, Guosheng Dong, Yujing Qiao, Kun Fang, Weipeng Chen, Bin Cui, Wentao Zhang, Zenan Zhou, | (参考訳) 近年、Large Language Models(LLMs)の台頭により、プラグアンドプレイAIシステムへの需要が高まっている。
様々なAI技術の中で、プロンプトエンジニアリングは特に重要である。
しかし、学習曲線の急激さや時間投資の大幅な増加により、ユーザーはプロンプトを書くことの難しさに直面することが多く、既存の自動プロンプトエンジニアリング(APE)モデルを使用することは困難である。
この問題に対処するために, LLM ベースのプラグアンドプレイ APE システム PAS を提案する。
PASは高品質で自動生成される補完的なデータセットに基づいてトレーニングされたLLMを使用し、例外的なパフォーマンスを実現している。
総合的なベンチマークでは、PASは従来のAPEモデルと比較して、平均6.09ポイントの改善を達成している。
さらに、PASは非常に効率的で、9000のデータポイントしか持たないSoTAの性能を実現している。
さらに、PASは人的労働を必要とせずに、即時増強データを自律的に生成することができる。
この柔軟性により、既存のすべてのLLMと互換性があり、幅広いタスクに適用できる。
PASは人間の評価に優れており、ユーザのためのプラグインとしての適合性を強調している。
高い性能、効率、柔軟性の組み合わせにより、PASはプロンプトエンジニアリングの改善を通じてLCMのユーザビリティと有効性を向上する貴重なシステムとなっている。
In recent years, the rise of Large Language Models (LLMs) has spurred a growing demand for plug-and-play AI systems. Among the various AI techniques, prompt engineering stands out as particularly significant. However, users often face challenges in writing prompts due to the steep learning curve and significant time investment, and existing automatic prompt engineering (APE) models can be difficult to use. To address this issue, we propose PAS, an LLM-based plug-and-play APE system. PAS utilizes LLMs trained on high-quality, automatically generated prompt complementary datasets, resulting in exceptional performance. In comprehensive benchmarks, PAS achieves state-of-the-art (SoTA) results compared to previous APE models, with an average improvement of 6.09 points. Moreover, PAS is highly efficient, achieving SoTA performance with only 9000 data points. Additionally, PAS can autonomously generate prompt augmentation data without requiring additional human labor. Its flexibility also allows it to be compatible with all existing LLMs and applicable to a wide range of tasks. PAS excels in human evaluations, underscoring its suitability as a plug-in for users. This combination of high performance, efficiency, and flexibility makes PAS a valuable system for enhancing the usability and effectiveness of LLMs through improved prompt engineering. | 翻訳日:2024-07-09 15:10:58 公開日:2024-07-08 |
# 非可積分量子イジング鎖における永続コヒーレント多体振動
Persistent coherent many-body oscillations in a non-integrable quantum Ising chain ( http://arxiv.org/abs/2407.06036v1 ) ライセンス: Link先を確認 | Francis A. Bayocboc Jr., Jacek Dziarmaga, Marek M. Rams, Wojciech H. Zurek, | (参考訳) 強磁性相への急激な遷移によって残された非可積分量子イジング鎖の持続的な振動を同定する。
隣り合う(NN)相互作用を持つ可積分鎖では、遷移後振動の性質、起源、崩壊はキブル・ズレック機構(KZM)と結びついている。
しかし、次の隣り合う(NNN)との結合が加えられると、結果として生じる非可積分イジング鎖(量子イジング鎖普遍性クラス)は、持続的な遷移後発振をサポートする: KZM様の発振は、横磁化の持続的な発振となる。
シミュレーションにおける長寿命性は、数値的精度によって制限される可能性が高い。
周期は崩壊するKZMの振動と異なるが、振幅はクエンチ速度に依存する。
さらに、励起子のエネルギーギャップに共鳴して駆動することで励起することができる。
したがって、積分可能性破壊的なNNN結合が緩和を促進することを期待していたかもしれないが、我々が同定した振動は持続的である。
低~中程度の横磁場では、それらはボゴリボフ準粒子のクーパー対に関連付けられている。
この対の凝縮の振動は、量子コヒーレンスの現れである。
We identify persistent oscillations in a nonintegrable quantum Ising chain left behind by a rapid transition into a ferromagnetic phase. In the integrable chain with nearest-neighbor (NN) interactions, the nature, origin, and decay of post-transition oscillations are tied to the Kibble-Zurek mechanism (KZM). However, when coupling to the next nearest neighbor (NNN) is added, the resulting nonintegrable Ising chain (still in the quantum Ising chain universality class) supports persistent post-transition oscillation: KZM-like oscillations turn into persistent oscillations of transverse magnetization. Their longevity in our simulations is likely limited only by the numerical accuracy. Their period differs from the decaying KZM oscillation but their amplitude depends on quench rate. Moreover, they can be excited by driving in resonance with the excitations' energy gap. Thus, while one might have expected that the integrability-breaking NNN coupling would facilitate relaxation, the oscillations we identify are persistent. At low to medium transverse fields, they are associated with Cooper pairs of Bogoliubov quasiparticles -- kinks. This oscillation of the pair condensate is a manifestation of quantum coherence. | 翻訳日:2024-07-09 15:10:58 公開日:2024-07-08 |
# 光子減算と光子付加2モード圧縮コヒーレント状態を用いた連続可変量子テレポーテーション
Continuous variable quantum teleportation using photon subtracted and photon added two mode squeezed coherent state ( http://arxiv.org/abs/2407.06037v1 ) ライセンス: Link先を確認 | Shikhar Arora, Chandan Kumar, Arvind, | (参考訳) 本研究では,2モード圧縮コヒーレント(TMSC)状態における光子サブトラクション(PS)と光子付加(PA)が生成する非ガウス状態を連続変数(CV)量子テレポーテーション(QT)の資源状態とみなす。
この目的のために、光子減算および光子付加TMSC状態に対するウィグナー特性関数を導出し、単一のモードコヒーレント状態と圧縮真空状態のテレポートの忠実度を算出する。
解析の結果、対称PSは広範囲のスクイージングにおいてQTの忠実度を高めるが、非対称PSは低いスクイージングレジームにおいてのみ性能を極端に向上させることがわかった。
一方、追加操作は有用ではなく、対称3-PAは限界改善をもたらすが、他の追加操作は役に立たない。
我々は,PS と PA の実際の実験環境について検討し,これらの運用を提唱しながら,その成功確率を念頭に置いて計算した。
我々は、これらの状態の族に対するウィグナー特性関数を解析的に導出したので、多種多様な状態に対するQTの忠実性を計算することができる。
We consider non-Gaussian states generated by photon subtraction (PS) and photon addition (PA) on two-mode squeezed coherent (TMSC) states, as resource states for continuous variable (CV) quantum teleportation (QT). To this end, we derive the Wigner characteristic function for the family of photon subtracted and photon added TMSC states, which is then utilized to calculate the fidelity of teleporting a single mode coherent state and a squeezed vacuum state. The analysis shows that while symmetric PS enhances the fidelity of QT in an extensive range of squeezing, asymmetric PS enhances the performance marginally and only in the low squeezing regime. The addition operations on the other hand are less useful, symmetric three-PA leads to a marginal improvement while the other addition operations are useless. We have considered the actual experimental setup for PS and PA operations and computed their success probabilities which should be kept in mind while advocating the use of these operations. We could compute the fidelity of QT for a broad range of states because we analytically derived the Wigner characteristic function for these family of states which we think will be useful for various other applications of these families of states. | 翻訳日:2024-07-09 15:10:58 公開日:2024-07-08 |
# 信頼コンテナによるパブリッククラウドのサービスとしてのパフォーマンスとセキュアEDAの実現
Enabling Performant and Secure EDA as a Service in Public Clouds Using Confidential Containers ( http://arxiv.org/abs/2407.06040v1 ) ライセンス: Link先を確認 | Mengmei Ye, Derren Dunn, Daniele Buono, Angelo Ruocco, Claudio Carvalho, Tobin Feldman-fitzthum, Hubertus Franke, James Bottomley, | (参考訳) 半導体業界のファブレス設計チームが利用できるビジネス機会は、オンプレミスの計算リソースで対処できるものよりもはるかに多くなっている。
これらの電子設計自動化(EDA)設計の機会を捉えるための魅力的な選択肢は、パブリッククラウドのバーストによるものである。
しかし、パブリッククラウドの破裂に対するセキュリティ上の懸念は、プロセス設計キット、サードパーティの知的財産権、半導体デバイスやチップの新しい設計データを保護することにある。
パブリッククラウドのバーストに対するセキュリティ上の問題に対処するひとつの方法は、EDAワークロードの機密コンテナを活用することだ。
機密コンテナは、知的財産の流出の可能性を著しく低減するために、信頼計算要素をゼロにする。
セキュリティに関する議論にしばしば続く重要な懸念は、EDAのワークロードのパフォーマンスが機密コンピューティングに悩まされるかどうかである。
この作業では、EDAの機密コンテナの完全なセットと、そのデプロイと、ストレージやネットワークを含むフローの機密要素のパフォーマンスへの影響を特徴付ける。
完全なエンドツーエンドのコンテナベースのEDAワークロードは、それぞれ、ベアメタルコンテナとVMベースのソリューションに対する7.13%と2.05%のパフォーマンスオーバーヘッドを示す。
Increasingly, business opportunities available to fabless design teams in the semiconductor industry far exceed those addressable with on-prem compute resources. An attractive option to capture these electronic design automation (EDA) design opportunities is through public cloud bursting. However, security concerns with public cloud bursting arise from having to protect process design kits, third party intellectual property, and new design data for semiconductor devices and chips. One way to address security concerns for public cloud bursting is to leverage confidential containers for EDA workloads. Confidential containers add zero trust computing elements to significantly reduce the probability of intellectual property escapes. A key concern that often follows security discussions is whether EDA workload performance will suffer with confidential computing. In this work we demonstrate a full set of EDA confidential containers and their deployment and characterize performance impacts of confidential elements of the flow including storage and networking. A complete end-to-end confidential container-based EDA workload exhibits 7.13% and 2.05% performance overheads over bare-metal container and VM based solutions, respectively. | 翻訳日:2024-07-09 15:10:58 公開日:2024-07-08 |
# MST5 -- 知識グラフに関する多言語質問応答
MST5 -- Multilingual Question Answering over Knowledge Graphs ( http://arxiv.org/abs/2407.06041v1 ) ライセンス: Link先を確認 | Nikit Srivastava, Mengshi Ma, Daniel Vollmers, Hamada Zahera, Diego Moussallem, Axel-Cyrille Ngonga Ngomo, | (参考訳) 知識グラフ質問回答(KGQA)は、自然言語を用いたグラフベースモデルに格納された膨大な知識のクエリを単純化する。
しかし、この研究は主に英語に集中しており、非英語話者を不利にしている。
一方、既存の多言語KGQAシステムは、様々な言語からSPARQLクエリを生成することの難しさを浮き彫りにして、英語システムに匹敵するパフォーマンスを達成するための課題に直面している。
本研究では,言語文脈とエンティティ情報を言語モデルの処理パイプラインに直接組み込むことにより,多言語KGQAシステムを強化するための簡易なアプローチを提案する。
補助情報を統合するために別個のエンコーダを利用する既存の方法とは異なり、我々の戦略は1つの事前訓練された多言語変換言語モデルを利用して一次入力と補助データの両方を管理する。
我々の手法は、自然言語クエリを関連するSPARQLクエリに正確に変換する言語モデルの能力を大幅に改善します。
これは最新のQALDデータセット、すなわちQALD-9-PlusとQALD-10で有望な結果を示す。
さらに、中国語と日本語に対する我々のアプローチの導入と評価を行い、既存のデータセットの言語多様性を拡大する。
Knowledge Graph Question Answering (KGQA) simplifies querying vast amounts of knowledge stored in a graph-based model using natural language. However, the research has largely concentrated on English, putting non-English speakers at a disadvantage. Meanwhile, existing multilingual KGQA systems face challenges in achieving performance comparable to English systems, highlighting the difficulty of generating SPARQL queries from diverse languages. In this research, we propose a simplified approach to enhance multilingual KGQA systems by incorporating linguistic context and entity information directly into the processing pipeline of a language model. Unlike existing methods that rely on separate encoders for integrating auxiliary information, our strategy leverages a single, pretrained multilingual transformer-based language model to manage both the primary input and the auxiliary data. Our methodology significantly improves the language model's ability to accurately convert a natural language query into a relevant SPARQL query. It demonstrates promising results on the most recent QALD datasets, namely QALD-9-Plus and QALD-10. Furthermore, we introduce and evaluate our approach on Chinese and Japanese, thereby expanding the language diversity of the existing datasets. | 翻訳日:2024-07-09 15:10:58 公開日:2024-07-08 |
# 異なる領域シフトを持つ地理空間点クラウドセマンティックセマンティックセグメンテーションのためのテスト時間適応
Test-time adaptation for geospatial point cloud semantic segmentation with distinct domain shifts ( http://arxiv.org/abs/2407.06043v1 ) ライセンス: Link先を確認 | Puzuo Wang, Wei Yao, Jie Shao, Zhiyi He, | (参考訳) ドメイン適応(DA)技術は、ポイントクラウドセマンティックセグメンテーション(PCSS)のためのデータシフト全体にわたってディープラーニングモデルを一般化するのに役立つ。
テストタイム適応(TTA)は、ソースデータへのアクセスや追加のトレーニングを必要とせず、プライバシの問題や大きな計算リソースを避けることなく、推論段階でラベル付けされていないデータに事前訓練されたモデルの直接適応を可能にする。
地理空間的PCSSのためのTTAには,光グラム法から空中LiDAR,空中LiDAR,合成-移動レーザ走査という3つの領域シフトパラダイムを導入して対処する。
本稿では,バッチ正規化(BN)統計を各テストバッチで段階的に更新するTTA手法を提案する。
さらに、自己教師付き学習モジュールは学習可能なBNアフィンパラメータを最適化する。
情報最大化と信頼性制約付き擬似ラベル化により、予測信頼度が向上し、監視信号が供給される。
実験の結果,分類精度は最大20 % mIoU に向上し,他の手法よりも優れていた。
光線量計 (SensatUrban) から空気中 (Hessigheim 3D) への推論段階での適応は, 59.46\% mIoU と85.97\% OA が再トレーニングや微細転回なしに達成される。
Domain adaptation (DA) techniques help deep learning models generalize across data shifts for point cloud semantic segmentation (PCSS). Test-time adaptation (TTA) allows direct adaptation of a pre-trained model to unlabeled data during inference stage without access to source data or additional training, avoiding privacy issues and large computational resources. We address TTA for geospatial PCSS by introducing three domain shift paradigms: photogrammetric to airborne LiDAR, airborne to mobile LiDAR, and synthetic to mobile laser scanning. We propose a TTA method that progressively updates batch normalization (BN) statistics with each testing batch. Additionally, a self-supervised learning module optimizes learnable BN affine parameters. Information maximization and reliability-constrained pseudo-labeling improve prediction confidence and supply supervisory signals. Experimental results show our method improves classification accuracy by up to 20\% mIoU, outperforming other methods. For photogrammetric (SensatUrban) to airborne (Hessigheim 3D) adaptation at the inference stage, our method achieves 59.46\% mIoU and 85.97\% OA without retraining or fine-turning. | 翻訳日:2024-07-09 15:10:58 公開日:2024-07-08 |
# OpenCIL: 授業増分学習におけるアウト・オブ・ディストリビューション検出のベンチマーク
OpenCIL: Benchmarking Out-of-Distribution Detection in Class-Incremental Learning ( http://arxiv.org/abs/2407.06045v1 ) ライセンス: Link先を確認 | Wenjun Miao, Guansong Pang, Trong-Tung Nguyen, Ruohang Fang, Jin Zheng, Xiao Bai, | (参考訳) クラスインクリメンタルラーニング(CIL)は、新しいクラスを段階的に適応できるだけでなく、古いクラスの学習知識も維持できるモデルを学ぶことを目的としている。
CILにおけるアウト・オブ・ディストリビューション(OOD)検出は、学習クラスの異なる分布から引き出された未知のサンプルを拒否しながら、この漸進的な学習能力を維持することである。
この機能は、オープンな世界でCILモデルをデプロイする上で、非常に重要です。
しかし、それぞれのCILおよびOOD検出の顕著な進歩にもかかわらず、OODサンプルの検出における高度なCILモデルの能力を評価するための体系的かつ大規模なベンチマークが欠如している。
このギャップを埋めるために、本稿では、このようなベンチマークを$\textbf{OpenCIL}$と名付けるために、包括的な実証的研究を設計する。
そこで本研究では,15種類のOOD検出方式で4種類のCILモデルを実現するための2つの基本フレームワークを提案し,その結果,CILにおけるOOD検出のベースラインモデルが60になることを示した。
実験的な評価は、一般的な6つのOODデータセットを持つ2つのCILデータセットで実施される。
包括的評価を通じて得られた重要な観察の1つは、CILモデルがオープン環境に曝露された際に、OODサンプルや新たに追加されたクラスに対して深刻なバイアスを受けることができることである。
そこで本研究では,CILにおけるOOD検出のための新たなベースライン,すなわち双方向エネルギー正規化(\textbf{BER}$)を提案する。
その優れたパフォーマンスは、我々の実験で正当化されている。
すべてのコードとデータセットは$https://github.com/mala-lab/OpenCIL$でオープンソース化されている。
Class incremental learning (CIL) aims to learn a model that can not only incrementally accommodate new classes, but also maintain the learned knowledge of old classes. Out-of-distribution (OOD) detection in CIL is to retain this incremental learning ability, while being able to reject unknown samples that are drawn from different distributions of the learned classes. This capability is crucial to the safety of deploying CIL models in open worlds. However, despite remarkable advancements in the respective CIL and OOD detection, there lacks a systematic and large-scale benchmark to assess the capability of advanced CIL models in detecting OOD samples. To fill this gap, in this study we design a comprehensive empirical study to establish such a benchmark, named $\textbf{OpenCIL}$. To this end, we propose two principled frameworks for enabling four representative CIL models with 15 diverse OOD detection methods, resulting in 60 baseline models for OOD detection in CIL. The empirical evaluation is performed on two popular CIL datasets with six commonly-used OOD datasets. One key observation we find through our comprehensive evaluation is that the CIL models can be severely biased towards the OOD samples and newly added classes when they are exposed to open environments. Motivated by this, we further propose a new baseline for OOD detection in CIL, namely Bi-directional Energy Regularization ($\textbf{BER}$), which is specially designed to mitigate these two biases in different CIL models by having energy regularization on both old and new classes. Its superior performance is justified in our experiments. All codes and datasets are open-source at $https://github.com/mala-lab/OpenCIL$. | 翻訳日:2024-07-09 15:10:58 公開日:2024-07-08 |
# Vision-Braille:中国の点字画像翻訳ツール
Vision-Braille: An End-to-End Tool for Chinese Braille Image-to-Text Translation ( http://arxiv.org/abs/2407.06048v1 ) ライセンス: Link先を確認 | Alan Wu, Ye Yuan, Ming Zhang, | (参考訳) 視覚障害者は、読み書きに点字しか使えない大規模なグループである。
しかし、特別な教育資源が欠如していることが教育のボトルネックとなっている。
教育的平等は、社会文明、文化的平等、個人の尊厳のレベルを反映している。
視覚障害者のための生涯学習チャネルの実現と改善は極めて重要である。
彼らの筆記された点字の宿題や試験論文は、高度に正確な点字翻訳システムがないため、見知らぬ教師には理解できない。
点字作家はしばしば音色を省略して空間を節約し、同じ子音と母音の点字が中国語に翻訳されると混乱する。
それまでのアルゴリズムは文脈情報を抽出するには不十分であり、結果として中国語への点字翻訳の精度は低かった。
このプロジェクトは、点字から漢字への変換のためのエンコーダデコーダアーキテクチャを用いて、mT5モデルを情報的に微調整した。
この研究はライプツィヒ・コーポラから点字と対応する漢文の訓練セットを作成した。
このプロジェクトは点字の混乱を著しく減らし、62.4$と62.3$のBLEUスコアを検証とテストセットで達成し、カリキュラムの微調整法を習得した。
点字認識アルゴリズムを取り入れたこのプロジェクトは、初めて公開された点字翻訳システムであり、中国大学試験の準備中である視覚障害のある多くの学生や家族に恩恵を与え、将来の大学の夢を広める手助けをする。
私たちのホームページにデモがあります。
Visually impaired people are a large group who can only use braille for reading and writing. However, the lack of special educational resources is the bottleneck for educating them. Educational equity is a reflection of the level of social civilization, cultural equality, and individual dignity. Facilitating and improving lifelong learning channels for the visually impaired is of great significance. Their written braille homework or exam papers cannot be understood by sighted teachers, because of the lack of a highly accurate braille translation system, especially in Chinese which has tone marks. braille writers often omit tone marks to save space, leading to confusion when braille with the same consonants and vowels is translated into Chinese. Previous algorithms were insufficient in extracting contextual information, resulting in low accuracy of braille translations into Chinese. This project informatively fine-tuned the mT5 model with an Encoder-decoder architecture for braille to Chinese character conversion. This research created a training set of braille and corresponding Chinese text from the Leipzig Corpora. This project significantly reduced the confusion in braille, achieving $62.4$ and $62.3$ BLEU scores in the validation and test sets, with a curriculum learning fine-tuning method. By incorporating the braille recognition algorithm, this project is the first publicly available braille translation system and can benefit lots of visually impaired students and families who are preparing for the Chinese College Test and help to propel their college dreams in the future. There is a demo on our homepage\footnote{\url{https://vision-braille.com/}}. | 翻訳日:2024-07-09 15:10:58 公開日:2024-07-08 |
# 量子作用素に対する局所同変表現の学習
Learning local equivariant representations for quantum operators ( http://arxiv.org/abs/2407.06053v1 ) ライセンス: Link先を確認 | Zhanghao Zhouyin, Zixi Gan, Shishir Kumar Pandey, Linfeng Zhang, Qiangqiang Gu, | (参考訳) 密度汎関数理論(DFT)フレームワークにおけるハミルトン行列、重なり合い、密度行列などの量子作用素行列の予測は、材料特性を理解するために重要である。
現在の手法は個々の演算子に焦点を合わせ、大規模システムの効率性とスケーラビリティに苦慮することが多い。
本稿では,複数の量子演算子を予測するための新しい深層学習モデルSLEM(Strictly Localized Equivariant Message-passing)を提案する。
SLEMの重要な革新は、その厳密な局所性に基づく設計であり、物理対称性を維持しながら量子テンソルの局所的同変表現を構築することである。
これにより、効果的な受容場を拡張することなく複雑な多体依存が可能となり、データ効率と転送性が向上する。
革新的なSO(2)畳み込み法を用いて、SLEMは高次テンソル積の計算複雑性を低減し、従って基底集合に$f$と$g$の軌道を必要とするシステムを扱うことができる。
SLEMの能力は多種多様な2次元および3次元材料にまたがって実証し,限られた訓練データでも高い精度を達成できることを示した。
SLEMの設計は効率的な並列化を促進し、DFTシミュレーションをデバイスレベルのサイズを持つシステムに拡張し、大規模量子シミュレーションと高スループット材料発見の新たな可能性を開く。
Predicting quantum operator matrices such as Hamiltonian, overlap, and density matrices in the density functional theory (DFT) framework is crucial for understanding material properties. Current methods often focus on individual operators and struggle with efficiency and scalability for large systems. Here we introduce a novel deep learning model, SLEM (Strictly Localized Equivariant Message-passing) for predicting multiple quantum operators, that achieves state-of-the-art accuracy while dramatically improving computational efficiency. SLEM's key innovation is its strict locality-based design, constructing local, equivariant representations for quantum tensors while preserving physical symmetries. This enables complex many-body dependence without expanding the effective receptive field, leading to superior data efficiency and transferability. Using an innovative SO(2) convolution technique, SLEM reduces the computational complexity of high-order tensor products and is therefore capable of handling systems requiring the $f$ and $g$ orbitals in their basis sets. We demonstrate SLEM's capabilities across diverse 2D and 3D materials, achieving high accuracy even with limited training data. SLEM's design facilitates efficient parallelization, potentially extending DFT simulations to systems with device-level sizes, opening new possibilities for large-scale quantum simulations and high-throughput materials discovery. | 翻訳日:2024-07-09 15:10:58 公開日:2024-07-08 |
# 擬旋回を受ける量子ゲートにおける過回転コヒーレント誤差
Over-rotation coherent error in quantum gates subjected to pseudo twirling ( http://arxiv.org/abs/2407.06055v1 ) ライセンス: Link先を確認 | Tanmoy Pandit, Raam Uzdin, | (参考訳) QEM(Quantum error mitigation scheme)は、量子コンピュータの効率を大幅に向上させ、特に環境との相互作用によるエラーを減らすことに重点を置いている。
それでも、誤校正や量子ビット間クロストークから生じるコヒーレンスエラーの存在は、量子コンピューティングのスケーラビリティにとって大きな課題である。
このようなエラーは、しばしばRandomized Compiling (RC)と呼ばれる改良されたPauli twirlingスキームを用いて対処され、コヒーレントなエラーを非一貫性なエラーに変換し、従来のQEMによって軽減される。
残念なことに、マルチキュービットゲートでは、RCはCNOTやCPHASEのようなクリフォードゲートに制限されている。
しかし、マルチキュービット非クリフォードゲートを直接実装すること、すなわち、マルチキュービットクリフォードゲートを使わずに回路の深さを4倍に下げることが実験的に実証されている。
近年,マルチビット非クリフォードゲートにおけるコヒーレントエラーを処理するための擬似ツイリング(PST)というフレームワークが導入され,実験的に実証されている。
我々は、既存のPST理論に対する高次補正が、PSTプロトコル自体によって生成される過回転コヒーレント誤差をもたらすことを解析的に示す。
このPST効果はRCに類似しない。
誘導過回転は深部回路において大きなコヒーレント誤差をもたらすが,なぜゲートの性能が低下しないのかを説明する。
Quantum error mitigation schemes (QEM) have greatly enhanced the efficiency of quantum computers, specifically focusing on reducing errors caused by interactions with the environment. Nevertheless, the presence of coherence errors, typically arising from miscalibration and inter-qubit crosstalk, is a significant challenge to the scalability of quantum computing. Such errors are often addressed using a refined Pauli twirling scheme called Randomized Compiling (RC) that converts the coherent errors into incoherent errors that can then be mitigated by conventional QEM. Unfortunately for multi-qubit gates, RC is restricted to Clifford gates such as CNOT and CPHASE. However, it has been demonstrated experimentally that a direct implementation of multi-qubit non-Clifford gates, i.e. without using multi-qubit Clifford gates, has reduced the depth of the circuit by a factor of four and more. Recently, a framework called pseudo-twirling (PST) for treating coherent error in multi-qubit non-Clifford gates has been introduced and experimentally demonstrated. We show analytically that a higher order correction to the existing PST theory yields an over-rotation coherent error generated by the PST protocol itself. This PST effect has no analogue in RC. Although the small induced over-rotation can amount to a significant coherent error in deep circuits, we explain why it does not degrade the performance of the gate. | 翻訳日:2024-07-09 15:01:13 公開日:2024-07-08 |
# RL型社会ロボットナビゲーションにおける予測不可能な歩行者の識別と回避
Stranger Danger! Identifying and Avoiding Unpredictable Pedestrians in RL-based Social Robot Navigation ( http://arxiv.org/abs/2407.06056v1 ) ライセンス: Link先を確認 | Sara Pohland, Alvin Tan, Prabal Dutta, Claire Tomlin, | (参考訳) 社会ロボットナビゲーションのための強化学習(RL)手法は、大勢の人を通してロボットをナビゲートすることに成功したが、これらの学習に基づく手法の性能は、モデルが代表的トレーニングデータに依存しているため、特に困難または不慣れな状況で低下する傾向にある。
安全性と快適性を確保するためには、これらのアルゴリズムが不定期なケースを適切に扱うことが重要であるが、そのような状況の低頻度と幅広い多様性は、これらのデータ駆動手法にとって大きな課題である。
この課題を克服するために、我々はこれらのRLポリシーを不慣れな状況において追加の注意を維持できるよう促す学習プロセスの変更を提案する。
具体的には,(1)歩行者モデルに偏差を体系的に導入するためのトレーニングプロセスを変更すること,(2)歩行者予測不可能性の特徴を推定・活用するための価値ネットワークを更新すること,(3)歩行者予測不可能性に対する効果的な応答を学習するための報酬関数を実装することにより,社会的注意強化学習(SARL)政策を改善した。
従来のSARLポリシーと比較して、我々の修正されたポリシーは、同様の航法時間と経路長を維持しつつ、衝突回数を82%削減し、最も困難なケースでは歩行者の個人空間で費やした時間の割合を19パーセント削減する。
また、これらの修正を他のRLポリシーに適用する方法を説明し、我々のアプローチのいくつかの重要なハイレベルな振る舞いが物理ロボットに伝達されることを実証する。
Reinforcement learning (RL) methods for social robot navigation show great success navigating robots through large crowds of people, but the performance of these learning-based methods tends to degrade in particularly challenging or unfamiliar situations due to the models' dependency on representative training data. To ensure human safety and comfort, it is critical that these algorithms handle uncommon cases appropriately, but the low frequency and wide diversity of such situations present a significant challenge for these data-driven methods. To overcome this challenge, we propose modifications to the learning process that encourage these RL policies to maintain additional caution in unfamiliar situations. Specifically, we improve the Socially Attentive Reinforcement Learning (SARL) policy by (1) modifying the training process to systematically introduce deviations into a pedestrian model, (2) updating the value network to estimate and utilize pedestrian-unpredictability features, and (3) implementing a reward function to learn an effective response to pedestrian unpredictability. Compared to the original SARL policy, our modified policy maintains similar navigation times and path lengths, while reducing the number of collisions by 82% and reducing the proportion of time spent in the pedestrians' personal space by up to 19 percentage points for the most difficult cases. We also describe how to apply these modifications to other RL policies and demonstrate that some key high-level behaviors of our approach transfer to a physical robot. | 翻訳日:2024-07-09 15:01:13 公開日:2024-07-08 |
# 変分Nアライメント
Variational Best-of-N Alignment ( http://arxiv.org/abs/2407.06057v1 ) ライセンス: Link先を確認 | Afra Amini, Tim Vieira, Ryan Cotterell, | (参考訳) Best-of-N(Best-of-N)は、言語モデルを人間の好みに合わせるアルゴリズムである。
推論時にN個のサンプルが言語モデルから引き出され、報酬モデルで判断される最も高い報酬を持つサンプルが出力として返される。
推論時にBoNをより効率的にするためには、推論中にBoNが行うことを模倣するために言語モデルを微調整する戦略がある。
これを実現するために、BoNアルゴリズムによって誘導される分布を導出する。
そこで我々は,BoN分布に対するKLの後方分散を最小限に抑えるために,言語モデルを微調整することを提案する。
我々のアプローチは平均場変動推定と類似しており、従ってそれを変分BoN (vBoN) と呼ぶ。
制御された生成タスクの実験では、ボNは言語モデルの整合においてBoNほど効果的ではないが、vBoNが報酬のParetoフロンティアやKLディペンジェンスによく現れるのに対して、KL制約されたRLの目的で訓練されたモデルに比べて、BoNのパフォーマンスに近いことが示唆されている。
Best-of-N (BoN) is a popular and effective algorithm for aligning language models to human preferences. The algorithm works as follows: at inference time, N samples are drawn from the language model, and the sample with the highest reward, as judged by a reward model, is returned as the output. Despite its effectiveness, BoN is computationally expensive; it reduces sampling throughput by a factor of N. To make BoN more efficient at inference time, one strategy is to fine-tune the language model to mimic what BoN does during inference. To achieve this, we derive the distribution induced by the BoN algorithm. We then propose to fine-tune the language model to minimize backward KL divergence to the BoN distribution. Our approach is analogous to mean-field variational inference and, thus, we term it variational BoN (vBoN). To the extent this fine-tuning is successful and we end up with a good approximation, we have reduced the inference cost by a factor of N. Our experiments on a controlled generation task suggest that while variational BoN is not as effective as BoN in aligning language models, it is close to BoN performance as vBoN appears more often on the Pareto frontier of reward and KL divergence compared to models trained with KL-constrained RL objective. | 翻訳日:2024-07-09 15:01:13 公開日:2024-07-08 |
# LaFAM:ラベルなしアクティベーションマップによる教師なし特徴属性
LaFAM: Unsupervised Feature Attribution with Label-free Activation Maps ( http://arxiv.org/abs/2407.06059v1 ) ライセンス: Link先を確認 | Aray Karjauv, Sahin Albayrak, | (参考訳) 畳み込みニューラルネットワーク(CNN)は、階層構造を学習し、オブジェクトの検出器を自然に開発し、より深い層の中で意味的な概念を概念化する能力で知られている。
アクティベーションマップ(AM)は、多くの説明可能なAI(XAI)手法に欠かせないこれらのサリエンシ領域を明らかにする。
しかし、CNNにおける特徴属性に対する生のAMの直接的利用は、文献では未発見のままである。
本研究は,ラベルに依存しない特徴属性に生の AM を利用する合理化アプローチである Label-free Activation Map (LaFAM) を導入することで,クラスアクティベーションマップ (CAM) の手法を改訂する。
LaFAMは従来のCAM手法に代わる効果的な代替手段であり、教師あり学習シナリオにおける適用性を維持しつつ、自己教師あり学習のためのサリエンシマップ生成に特に有効であることを示す。
Convolutional Neural Networks (CNNs) are known for their ability to learn hierarchical structures, naturally developing detectors for objects, and semantic concepts within their deeper layers. Activation maps (AMs) reveal these saliency regions, which are crucial for many Explainable AI (XAI) methods. However, the direct exploitation of raw AMs in CNNs for feature attribution remains underexplored in literature. This work revises Class Activation Map (CAM) methods by introducing the Label-free Activation Map (LaFAM), a streamlined approach utilizing raw AMs for feature attribution without reliance on labels. LaFAM presents an efficient alternative to conventional CAM methods, demonstrating particular effectiveness in saliency map generation for self-supervised learning while maintaining applicability in supervised learning scenarios. | 翻訳日:2024-07-09 15:01:13 公開日:2024-07-08 |
# MERGE - 静的音楽感情認識のためのバイモーダルデータセット
MERGE -- A Bimodal Dataset for Static Music Emotion Recognition ( http://arxiv.org/abs/2407.06060v1 ) ライセンス: Link先を確認 | Pedro Lima Louro, Hugo Redinho, Ricardo Santos, Ricardo Malheiro, Renato Panda, Rui Pedro Paiva, | (参考訳) 音楽感情認識(MER)分野は近年着実に発展しており、特徴工学、機械学習、ディープラーニングからの貢献がある。
ランドスケープは、オーディオ中心のシステムから、オーディオと歌詞を組み合わせたバイモーダルアンサンブルへとシフトした。
しかし,バイモーダル・オーディオ・ライリクス・システムの開発や改善は,公開データベースやサイズデータベースの欠如によって妨げられている。
本稿では,半自動手法を用いて作成した3つの新しい音声・歌詞・バイモーダルMER研究データセット(総称MERGE)を提案する。
提案したデータセットを網羅的に評価し,ベンチマークのベースラインを確立するために,特徴工学,機械学習,深層学習手法を用いて,各モードに対していくつかの実験を行った。
さらに, 固定列車価試験スプリットを提案し, 検証する。
得られた結果は、提案したデータセットの生存可能性を確認し、ディープニューラルネットワークを用いたバイモーダル分類において、79.21%のF1スコアを達成した。
The Music Emotion Recognition (MER) field has seen steady developments in recent years, with contributions from feature engineering, machine learning, and deep learning. The landscape has also shifted from audio-centric systems to bimodal ensembles that combine audio and lyrics. However, a severe lack of public and sizeable bimodal databases has hampered the development and improvement of bimodal audio-lyrics systems. This article proposes three new audio, lyrics, and bimodal MER research datasets, collectively called MERGE, created using a semi-automatic approach. To comprehensively assess the proposed datasets and establish a baseline for benchmarking, we conducted several experiments for each modality, using feature engineering, machine learning, and deep learning methodologies. In addition, we propose and validate fixed train-validate-test splits. The obtained results confirm the viability of the proposed datasets, achieving the best overall result of 79.21% F1-score for bimodal classification using a deep neural network. | 翻訳日:2024-07-09 15:01:12 公開日:2024-07-08 |
# パンデノジング:重み付き表現による高スペクトル画像デノジング
Pan-denoising: Guided Hyperspectral Image Denoising via Weighted Represent Coefficient Total Variation ( http://arxiv.org/abs/2407.06064v1 ) ライセンス: Link先を確認 | Shuang Xu, Qiao Ke, Jiangjun Peng, Xiangyong Cao, Zixiang Zhao, | (参考訳) 本稿では,高スペクトル像(HSI)デノナイズのための新しいパラダイムを紹介し,これを「textit{pan-denoising}」と呼ぶ。
あるシーンでは、パンクロマティック(PAN)画像がHSIに似た構造やテクスチャを撮影するが、ノイズが少ない。
これにより、PAN画像の利用により、HSI denoisingプロセスのガイドが可能になる。
その結果、パンデノゲーションは、従来のHSIデノゲーション手法の内部情報モデリング以上の基盤構造や詳細を明らかにする可能性がある。
しかし、この追加の事前の適切なモデリングは重要な課題である。
この問題を軽減するために,本論文では,PWRCTV(Panchromatic Weighted Representation Coefficient Total Variation)という新しい正規化用語を提案する。
PAN画像の勾配図を用いて、各ピクセルごとに異なるテレビ正規化の重みを自動的に割り当て、滑らかな領域の重みがより大きく、エッジの重みがより小さい。
この正規化は、乗算器の交互方向法を用いて解くパンデノイングモデルの基礎となる。
合成および実世界のデータセットに関する大規模な実験は、PWRCTVがメトリクスと視覚的品質の点でいくつかの最先端の手法より優れていることを示した。
さらに,HSI分類実験により,PWRCTVは前処理として下流分類タスクの性能を向上させることができることを確認した。
コードとデータはhttps://github.com/shuangxu96/PWRCTVで公開されている。
This paper introduces a novel paradigm for hyperspectral image (HSI) denoising, which is termed \textit{pan-denoising}. In a given scene, panchromatic (PAN) images capture similar structures and textures to HSIs but with less noise. This enables the utilization of PAN images to guide the HSI denoising process. Consequently, pan-denoising, which incorporates an additional prior, has the potential to uncover underlying structures and details beyond the internal information modeling of traditional HSI denoising methods. However, the proper modeling of this additional prior poses a significant challenge. To alleviate this issue, the paper proposes a novel regularization term, Panchromatic Weighted Representation Coefficient Total Variation (PWRCTV). It employs the gradient maps of PAN images to automatically assign different weights of TV regularization for each pixel, resulting in larger weights for smooth areas and smaller weights for edges. This regularization forms the basis of a pan-denoising model, which is solved using the Alternating Direction Method of Multipliers. Extensive experiments on synthetic and real-world datasets demonstrate that PWRCTV outperforms several state-of-the-art methods in terms of metrics and visual quality. Furthermore, an HSI classification experiment confirms that PWRCTV, as a preprocessing method, can enhance the performance of downstream classification tasks. The code and data are available at https://github.com/shuangxu96/PWRCTV. | 翻訳日:2024-07-09 15:01:12 公開日:2024-07-08 |
# 駆動量子システムのための体系的時間粗粒度化
Systematic time-coarse graining for driven quantum systems ( http://arxiv.org/abs/2407.06068v1 ) ライセンス: Link先を確認 | Leon Bello, Wentao Fan, Aditya Gandotra, Hakan E. Türeci, | (参考訳) 量子デバイスの忠実性要件はより高速で強力なドライブを必要とし、回転波近似(RWA)がもはや不十分なレジームに押し込まれる。
これらの状態において、反回転項によって生成される高周波プロセスは、量子系の長期的ダイナミクスを著しく変更することができる。
異なる時間スケールを示す系力学は、しばしば硬く不安定であるため、これらの状態の探索は数値的にも困難である。
本研究では, 時間粗粒度行列に量子マスター方程式(QME)を直接提供することにより, これらの問題に対処する系統的時間粗粒度化(STCG)フレームワークを提案する。
STCGは、RWA以外の任意の順序で関連するスローダイナミクスを記述する効果的なユニタリおよび非ユニタリジェネレータの摂動計算を可能にし、効率的な実装のために Julia で書かれた完全なソフトウェアフレームワークである \textbf{QuantumGraining.jl} を伴っている。
本稿では, 粗粒QMEの数値安定性, 収束性, 解釈性について, 高次数で検討した3つのケーススタディについて述べる。
これらの例は、2つの重要な結果を示している: 有限帯域装置によって測定された可観測物は、逆回転項の影響により正確な力学と大きく異なることができ、これはSTCG QMEを基本低次ODEソルバで解くことで捉えることができる。
Fidelity requirements on quantum devices necessitate faster and stronger drives, pushing into regimes where the rotating-wave approximation (RWA) is no longer adequate. In those regimes, high-frequency processes generated by counter-rotating terms can significantly modify the long-term dynamics of a quantum system. Exploring these regimes is difficult even numerically, since system dynamics exhibiting disparate time-scales are often stiff and unstable. In this work, we present a systematic time-coarse graining (STCG) framework that addresses these issues by directly providing a Quantum Master Equation (QME) for the time-coarse grained density matrix of a driven quantum system. STCG allows the perturbative calculation of effective unitary and non-unitary generators describing the relevant slow dynamics at any given order of truncation beyond the RWA, and is accompanied by a complete software framework written in Julia, \textbf{QuantumGraining.jl}, for efficient implementation. We present three case studies examining the numerical stability, convergence and the interpretive utility of the coarse-grained QME at high orders. These examples illustrate two key results: observables measured by finite bandwidth apparatus can differ significantly from exact dynamics due to the effect of the counter-rotating terms, and that this can be captured by solving the STCG QME with basic low-order ODE solvers. | 翻訳日:2024-07-09 15:01:12 公開日:2024-07-08 |
# ループからOopsへ:不確実性下での言語モデルのフォールバック挙動
From Loops to Oops: Fallback Behaviors of Language Models Under Uncertainty ( http://arxiv.org/abs/2407.06071v1 ) ライセンス: Link先を確認 | Maor Ivgi, Ori Yoran, Jonathan Berant, Mor Geva, | (参考訳) 大型言語モデル(LLM)は幻覚やシーケンスの繰り返しのような望ましくない振る舞いを示すことが多い。
本稿では,モデルが不確実性を示すフォールバックとして,これらの挙動を考察し,それらの関連性を検討することを提案する。
転倒行動(シーケンス反復、退行テキスト、幻覚)を分類し、事前学習トークンの量、パラメータ数、命令フォロートレーニングの含みによって異なる同じ家系のモデルでそれらを広範囲に分析する。
我々の実験では、これらの軸にまたがるフォールバックの振舞いの明瞭で一貫した順序が示され、LSMはより高度な(より多くのトークンで訓練されたり、より多くのパラメータで訓練されたり、命令で調整された)ほど、そのフォールバックの振舞いはシークエンス反復から退行し、テキストを退行し、幻覚へと変化する。
さらに、最も優れたモデルであっても、同じ順序付けが1世代にわたって観測され、不確実性が増大するにつれて、モデルが幻覚から退化したテキストを生成し、シークエンスを繰り返していく。
最後に、ランダムサンプリングのような一般的な復号法は、シーケンス反復のような望ましくない動作を緩和するが、それらはより難しい幻覚を増大させる。
Large language models (LLMs) often exhibit undesirable behaviors, such as hallucinations and sequence repetitions. We propose to view these behaviors as fallbacks that models exhibit under uncertainty, and investigate the connection between them. We categorize fallback behaviors -- sequence repetitions, degenerate text, and hallucinations -- and extensively analyze them in models from the same family that differ by the amount of pretraining tokens, parameter count, or the inclusion of instruction-following training. Our experiments reveal a clear and consistent ordering of fallback behaviors, across all these axes: the more advanced an LLM is (i.e., trained on more tokens, has more parameters, or instruction-tuned), its fallback behavior shifts from sequence repetitions, to degenerate text, and then to hallucinations. Moreover, the same ordering is observed throughout a single generation, even for the best-performing models; as uncertainty increases, models shift from generating hallucinations to producing degenerate text and then sequence repetitions. Lastly, we demonstrate that while common decoding techniques, such as random sampling, might alleviate some unwanted behaviors like sequence repetitions, they increase harder-to-detect hallucinations. | 翻訳日:2024-07-09 15:01:12 公開日:2024-07-08 |
# 長周期多体系における大域的クエンチ下の凍結・遮蔽
Freezing and Shielding under Global Quenches for Long-Range Interacting Many-Body Systems ( http://arxiv.org/abs/2407.06072v1 ) ライセンス: Link先を確認 | Daniel Arrufat-Vicente, Nicolò Defenu, | (参考訳) 異なるスピン種間の局所相互作用の急激な急激なクレンチの後, 長距離ホッピングを持つフェルミ・ハバードモデルの時間進化について検討した。
準粒子スペクトルはギャップ状の低エネルギーレベルで構成され、高エネルギーモードは単一点に蓄積される。
低エネルギーギャップが十分に大きい場合、局所的な相互作用をオンにすることは、高エネルギーモードと低エネルギーモードを効果的に混合しないので、動的進化の凍結につながる。
一般に、励起部分空間内の状態は、低エネルギー拡張状態の原因となるモデルの長距離シグネチャから守られ、力学はまるで長距離ホッピングが欠如しているかのように効果的に見える。
この協調的な遮蔽機構は、障害の存在下で明らかになる。
遮蔽と凍結は長距離相互作用系の普遍的な特徴であり、準定常状態の存在と関係があることが示されている。
We investigate the time evolution of a Fermi-Hubbard model with long range hopping following a sudden quench of the local interactions among different spin species. The quasi-particle spectrum consists of gapped low-energy levels while the high energy modes accumulate at a single point. When the low energy gaps are large enough, turning on the local interactions does not effectively mix high and low energy modes, leading to the freezing of the dynamical evolution. In general, the states within the excited subspace are shielded from the long-range signatures of the model, which are responsible for the low energy extended states, and the dynamics effectively look as if long-range hopping were absent. This cooperative shielding mechanism becomes evident in presence of disorder. It is shown that shielding and freezing are a universal feature of long-range interacting systems and conjecture that they are related to the existence of quasi-stationary states. | 翻訳日:2024-07-09 15:01:12 公開日:2024-07-08 |
# 超低温状態を超えたイオン-原子衝突の量子制御
Quantum control of ion-atom collisions beyond the ultracold regime ( http://arxiv.org/abs/2407.06073v1 ) ライセンス: Link先を確認 | Maks Z. Walewski, Matthew D. Frye, Or Katz, Meirav Pinkas, Roee Ozeri, Michał Tomza, | (参考訳) 微視的物理系の制御は、実験量子科学とその応用の前提条件である。
中性原子系と分子系は、調整可能な散乱共鳴によって制御できる。
しかし、効果的な相互作用の共鳴制御は、量子効果が現れる超低温状態に限られている。
極低温は、ほとんどのハイブリッドイオン-原子系、量子技術と基礎研究のための先進的なプラットフォームにはまだ達していない。
ここでは、磁気的に可変なフェシュバッハ共鳴を用いて、閉じ込められた1つのSr${}^+$イオンと超低温状態より高いRb原子間の非弾性衝突を制御することができることを示す。
非弾性衝突確率を測定し、その結果を用いて、イオン-原子衝突の包括的理論モデルを校正する。
観測された衝突ダイナミクスは、量子干渉のシグネチャを示し、その結果、多重部分波状態における衝突速度の顕著な状態と質量依存性をもたらす。
このモデルを用いて,0Gから400Gの磁場に対する複数の測定可能なフェシュバッハ共鳴を発見し,温度1mKのスピン交換速度を著しく向上させることができた。
予測された共鳴の今後の観測は、前例のない温度条件下での${\text{Sr}^++\text{Rb}}$衝突における短距離ダイナミクスの正確な校正と制御を可能にするべきである。
Control of microscopic physical systems is a prerequisite for experimental quantum science and its applications. Neutral atomic and molecular systems can be controlled using tunable scattering resonances. However, the resonant control of effective interactions has so far been limited to the ultracold regime, where quantum effects become manifest. Ultracold temperatures are still out of reach for most hybrid trapped ion-atom systems, a prospective platform for quantum technologies and fundamental research. Here we show that magnetically tunable Feshbach resonances can be used to control inelastic collisions between a single trapped Sr${}^+$ ion and Rb atoms high above the ultracold regime. We measure inelastic collision probabilities and use the results to calibrate a comprehensive theoretical model of ion-atom collisions. The observed collision dynamics show signatures of quantum interference, resulting in the pronounced state and mass dependence of the collision rates in the multiple-partial-wave regime. With our model, we discover multiple measurable Feshbach resonances for magnetic fields from 0 to 400 G, which allow significant enhancement of spin-exchange rates at temperatures as high as 1 mK. Future observation of the predicted resonances should allow precise calibration and control of the short-range dynamics in the ${\text{Sr}^++\text{Rb}}$ collisions under unprecedentedly warm conditions. | 翻訳日:2024-07-09 15:01:12 公開日:2024-07-08 |
# 確率的変動環境における量子デコヒーレンスダイナミクス
Quantum decoherence dynamics in stochastically fluctuating environments ( http://arxiv.org/abs/2407.06074v1 ) ライセンス: Link先を確認 | Xiangji Cai, Yanyan Feng, Jing Ren, Yonggang Peng, Yujun Zheng, | (参考訳) 理論的には、確率的リウヴィル方程式の枠組みの中で線形で二次的なゆらぎを示す雑音環境に結合した2レベル量子系のデコヒーレンスを理論的に研究する。
量子系の固有エネルギー準位は、環境騒音の線形あるいは二次的な影響の下で再正規化されることが示されている。
二次的依存の場合、環境騒音が定常的な統計的性質を示したとしても、系のエネルギー準位の正規化が生じる。
これは、線形の影響下でのケースとは対照的であり、環境ノイズが非定常統計を表示する場合にのみ、システムの内在エネルギーレベルが正規化される。
周波数差の変動が非線形オルンシュタイン・ウレンベックノイズ (OUN) とランダムテレグラフノイズ (RTN) の過程に依存する場合のデコヒーレンス関数の解析式を導出する。
OUNの線形依存の場合、環境非定常統計特性は動的デコヒーレンスを高めることができる。
しかし、環境騒音の非定常統計は、OUNの二次的影響の下での場合の量子デコヒーレンスを抑制することができる。
RTNの存在下では、環境騒音の二次的な影響はデコヒーレンスを引き起こすのではなく、動的進化において決定的な周波数再正規化を引き起こすだけである。
環境非定常統計特性は、RTNの線形影響下でのケースの量子デコヒーレンスを抑制することができる。
We theoretically study the decoherence of a two-level quantum system coupled to the noisy environments exhibiting linear and quadratic fluctuations within the framework of stochastic Liouville equation. It is shown that the intrinsic energy levels of the quantum system renormalize under either the linear or quadratic influence of the environmental noise. In the case of quadratic dependence, the renormalization of the energy levels of the system emerges even if the environmental noise exhibits stationary statistical property. This is in contrast to the case under linear influence, where the intrinsic energy levels of the system renormalize only if the environmental noise displays nonstationary statistics. We derive the analytical expressions of the decoherence function in the cases that the fluctuation of the frequency difference depends linearly and quadratically on the nonstationary Ornstein-Uhlenbeck noise (OUN) and random telegraph noise (RTN) processes, respectively. In the case of linear dependence of the OUN, the environmental nonstationary statistical property can enhance the dynamical decoherence. However, the nonstationary statistics of the environmental noise can suppress the quantum decoherence in the case under the quadratic influence of the OUN. In the presence of the RTN, the quadratic influence of the environmental noise does not give rise to decoherence but only causes a determinate frequency renormalization in dynamical evolution. The environmental nonstationary statistical property can suppress the quantum decoherence for the case under the linear influence of the RTN. | 翻訳日:2024-07-09 15:01:12 公開日:2024-07-08 |
# 複雑レンズによる視覚的特徴の信頼性の理解
Understanding Visual Feature Reliance through the Lens of Complexity ( http://arxiv.org/abs/2407.06076v1 ) ライセンス: Link先を確認 | Thomas Fel, Louis Bethune, Andrew Kyle Lampinen, Thomas Serre, Katherine Hermann, | (参考訳) 近年の研究では、より単純な特徴を優先する学習モデルによる帰納的バイアスがショートカット学習の源泉である可能性が示唆されている。
しかし、モデルが学習する無数の機能の複雑さを理解することに限定的な焦点が当てられている。
本稿では,$\mathscr{V}$-informationに基づいて,特徴量の定量化のための新しい指標を提案する。
この$\mathscr{V}$-information Metricsを用いて、標準的なImageNetトレーニングされた視覚モデルから抽出された1万個の特徴の複雑さを分析した。
まず、複雑性の関数として機能がどのように見えるのかを尋ね、モデルの中に存在する単純で複雑な機能のスペクトルを見つけます。
次に、トレーニング中に機能がいつ学習されるか尋ねます。
トレーニングの初期段階では、よりシンプルな機能が支配的であり、より複雑な機能が徐々に現れます。
第三に、ネットワーク内の単純かつ複雑な特徴の流れを調査し、より単純な特徴が残差接続を介して視覚的階層をバイパスする傾向があることを明らかにする。
第4に,機能複雑性とネットワーク決定における重要性の関連について検討する。
複雑な機能は重要度が低い傾向にある。
驚くべきことに、トレーニング中に重要な機能が、沈殿プロセスのような以前のレイヤでアクセス可能になり、モデルがこれらの基礎的な要素の上に構築できるようになる。
Recent studies suggest that deep learning models inductive bias towards favoring simpler features may be one of the sources of shortcut learning. Yet, there has been limited focus on understanding the complexity of the myriad features that models learn. In this work, we introduce a new metric for quantifying feature complexity, based on $\mathscr{V}$-information and capturing whether a feature requires complex computational transformations to be extracted. Using this $\mathscr{V}$-information metric, we analyze the complexities of 10,000 features, represented as directions in the penultimate layer, that were extracted from a standard ImageNet-trained vision model. Our study addresses four key questions: First, we ask what features look like as a function of complexity and find a spectrum of simple to complex features present within the model. Second, we ask when features are learned during training. We find that simpler features dominate early in training, and more complex features emerge gradually. Third, we investigate where within the network simple and complex features flow, and find that simpler features tend to bypass the visual hierarchy via residual connections. Fourth, we explore the connection between features complexity and their importance in driving the networks decision. We find that complex features tend to be less important. Surprisingly, important features become accessible at earlier layers during training, like a sedimentation process, allowing the model to build upon these foundational elements. | 翻訳日:2024-07-09 15:01:12 公開日:2024-07-08 |
# 移動ロボットのセマンティック知覚とマッピング改善のためのオブジェクト指向材料分類と3次元クラスタリング
Object-Oriented Material Classification and 3D Clustering for Improved Semantic Perception and Mapping in Mobile Robots ( http://arxiv.org/abs/2407.06077v1 ) ライセンス: Link先を確認 | Siva Krishna Ravipati, Ehsan Latif, Ramviyas Parasuraman, Suchendra M. Bhandarkar, | (参考訳) 異なる物体表面物質の種類を分類することは、移動ロボットや自動運転車の意思決定アルゴリズムにおいて重要な役割を果たす。
RGBベースのシーンレベルのセマンティックセマンティックセグメンテーションは、文献でよく採用されている。
しかし、3Dセマンティックマッピングのための深度モードとSLAMアルゴリズムとの統合による材料認識の改善は、ロボットの知覚パイプラインにおける新たな潜在的なメリットを解放する可能性がある。
そこで本研究では,オブジェクト指向パイプライン上に構築されたRGB-D教材分類のための補完性を考慮したディープラーニング手法を提案する。
この手法は,3次元シーンマッピングのためのORB-SLAM2法と,視覚的SLAMアルゴリズムにより生成されたポイントクラウドマップにおける検出されたマテリアルセマンティクスのマルチスケールクラスタリングを統合する。
既存の公開データセットと、新たに提供された実世界のロボットデータセットによる大規模な実験結果は、3Dセマンティックシーンマッピングの最先端アプローチと比較して、材料分類と3Dクラスタリングの精度が大幅に向上したことを示している。
Classification of different object surface material types can play a significant role in the decision-making algorithms for mobile robots and autonomous vehicles. RGB-based scene-level semantic segmentation has been well-addressed in the literature. However, improving material recognition using the depth modality and its integration with SLAM algorithms for 3D semantic mapping could unlock new potential benefits in the robotics perception pipeline. To this end, we propose a complementarity-aware deep learning approach for RGB-D-based material classification built on top of an object-oriented pipeline. The approach further integrates the ORB-SLAM2 method for 3D scene mapping with multiscale clustering of the detected material semantics in the point cloud map generated by the visual SLAM algorithm. Extensive experimental results with existing public datasets and newly contributed real-world robot datasets demonstrate a significant improvement in material classification and 3D clustering accuracy compared to state-of-the-art approaches for 3D semantic scene mapping. | 翻訳日:2024-07-09 15:01:12 公開日:2024-07-08 |
# 1ショット高分解能テキスト・画像合成のための層拡散モデル
Layered Diffusion Model for One-Shot High Resolution Text-to-Image Synthesis ( http://arxiv.org/abs/2407.06079v1 ) ライセンス: Link先を確認 | Emaad Khwaja, Abdullah Rashwan, Ting Chen, Oliver Wang, Suraj Kothawade, Yeqing Li, | (参考訳) 自然言語記述から高解像度画像を生成することができるワンショットテキスト・画像拡散モデルを提案する。
本モデルでは,複数の解像度スケールで同時に画像を合成する階層型U-Netアーキテクチャを採用している。
本手法は、目標解像度でのみ合成画像のベースラインを上回り、ステップ当たりの計算コストを削減できることを示す。
超解像合成のための追加モデルを必要とする他の方法とは対照的に、高分解能合成はさらなる解像スケールでの畳み込みによって達成できることを実証する。
We present a one-shot text-to-image diffusion model that can generate high-resolution images from natural language descriptions. Our model employs a layered U-Net architecture that simultaneously synthesizes images at multiple resolution scales. We show that this method outperforms the baseline of synthesizing images only at the target resolution, while reducing the computational cost per step. We demonstrate that higher resolution synthesis can be achieved by layering convolutions at additional resolution scales, in contrast to other methods which require additional models for super-resolution synthesis. | 翻訳日:2024-07-09 15:01:12 公開日:2024-07-08 |
# 大規模合成データを用いた3次元視覚と言語事前学習
3D Vision and Language Pretraining with Large-Scale Synthetic Data ( http://arxiv.org/abs/2407.06084v1 ) ライセンス: Link先を確認 | Dejie Yang, Zhu Xu, Wentao Mo, Qingchao Chen, Siyuan Huang, Yang Liu, | (参考訳) 3D Vision-Language Pre-Training (3D-VLP)は、3Dシーンを自然言語でブリッジできる事前訓練モデルを提供することを目的としている。
しかし、現在の3D-VLPデータセットは、シーンレベルの多様性の制限と細かいアノテーション(ScanScribeの1.2Kシーンと280Kテキストアノテーションのみ)の不足によって妨げられている。
このような障害を克服するため,SynVL3Dは,多種多様なシーンデータ,リッチテキスト記述,多義的な3Dテキスト関連,収集コストの低い10Kの屋内シーンと1Mのオブジェクト,ビュー,ルームレベルで記述された総合的な合成シーンテキストコーパスを構築した。
SynVL3Dのリッチアノテーションを利用することで、3Dと言語を微粒な事前学習タスクで整列するためのシンプルで統一されたトランスフォーマーを事前訓練する。
さらに、下流タスクの微調整プロセスにおけるドメインシフトに対応するために、合成から現実へのドメイン適応を提案する。
広範にわたる実験を通じて,視覚的接地,密接なキャプション,質問応答を含む下流作業における最先端性能を達成し,モデル設計の有効性を検証する。
3D Vision-Language Pre-training (3D-VLP) aims to provide a pre-train model which can bridge 3D scenes with natural language, which is an important technique for embodied intelligence. However, current 3D-VLP datasets are hindered by limited scene-level diversity and insufficient fine-grained annotations (only 1.2K scenes and 280K textual annotations in ScanScribe), primarily due to the labor-intensive of collecting and annotating 3D scenes. To overcome these obstacles, we construct SynVL3D, a comprehensive synthetic scene-text corpus with 10K indoor scenes and 1M descriptions at object, view, and room levels, which has the advantages of diverse scene data, rich textual descriptions, multi-grained 3D-text associations, and low collection cost. Utilizing the rich annotations in SynVL3D, we pre-train a simple and unified Transformer for aligning 3D and language with multi-grained pretraining tasks. Moreover, we propose a synthetic-to-real domain adaptation in downstream task fine-tuning process to address the domain shift. Through extensive experiments, we verify the effectiveness of our model design by achieving state-of-the-art performance on downstream tasks including visual grounding, dense captioning, and question answering. | 翻訳日:2024-07-09 14:51:28 公開日:2024-07-08 |
# 定性的事象知覚:戦略ゲームにおける対時的エピソード記憶の学習への応用
Qualitative Event Perception: Leveraging Spatiotemporal Episodic Memory for Learning Combat in a Strategy Game ( http://arxiv.org/abs/2407.06088v1 ) ライセンス: Link先を確認 | Will Hancock, Kenneth D. Forbus, | (参考訳) イベント知覚とは、継続的な経験を意味のある離散的な出来事に彫り上げる能力を指す。
朝のコーヒーの仕上がり、芝刈り、仕事など、時間と空間に局在した特異な出来事として語ります。
本研究では,連続的な体験を構造化エピソードに自動的に分割するために時空間表現をどのように利用できるか,そしてこれらの記述が類推学習にどのように利用できるかを分析する。
これらの表現はヘイズのヒストリーの概念に基づいており、定性的なエピソード記憶に関する既存の研究に基づいている。
我々のエージェントは、戦略ゲームにおける戦闘の出来事を自動生成し、この経験から学習することでゲームプレイを改善する。
エピソードは世界の特性の変化に基づいてセグメント化され,イベント記述を有用な時空間粒径で捉えることによって学習を促進することを示す。
これは,ゲームにおけるエージェントのパフォーマンスによって評価される。
また、エピソードの空間的範囲の知覚が、時間的時間と全体のケース数の両方に影響を及ぼすという経験的証拠も示している。
Event perception refers to people's ability to carve up continuous experience into meaningful discrete events. We speak of finishing our morning coffee, mowing the lawn, leaving work, etc. as singular occurrences that are localized in time and space. In this work, we analyze how spatiotemporal representations can be used to automatically segment continuous experience into structured episodes, and how these descriptions can be used for analogical learning. These representations are based on Hayes' notion of histories and build upon existing work on qualitative episodic memory. Our agent automatically generates event descriptions of military battles in a strategy game and improves its gameplay by learning from this experience. Episodes are segmented based on changing properties in the world and we show evidence that they facilitate learning because they capture event descriptions at a useful spatiotemporal grain size. This is evaluated through our agent's performance in the game. We also show empirical evidence that the perception of spatial extent of episodes affects both their temporal duration as well as the number of overall cases generated. | 翻訳日:2024-07-09 14:51:28 公開日:2024-07-08 |
# マージ, アンサンブル, 協力! 大規模言語モデル時代の協調戦略に関する調査
Merge, Ensemble, and Cooperate! A Survey on Collaborative Strategies in the Era of Large Language Models ( http://arxiv.org/abs/2407.06089v1 ) ライセンス: Link先を確認 | Jinliang Lu, Ziliang Pang, Min Xiao, Yaochen Zhu, Rui Xia, Jiajun Zhang, | (参考訳) LLM(Large Language Models)の顕著な成功は、自然言語処理(NLP)研究を新しい時代へと導いてきた。
多様な能力にもかかわらず、異なるコーパスで訓練されたLLMは、様々な強さと弱点を示し、全体的な効率性と汎用性を最大化する上での課題につながった。
これらの課題に対処するため、最近の研究はLLMの協調戦略を探求している。
本稿では,この新たな研究領域の概要を概観し,そのようなコラボレーションの背景にあるモチベーションを明らかにする。
具体的には、協調戦略を、マージ、アンサンブル、協力の3つの主要なアプローチに分類する。
マージにはパラメータ空間に複数のLSMを統合することが含まれる。
アンサンブルは様々なLSMの出力を組み合わせる。
Cooperation} は異なる LLM を活用して、特定のタスクに対する様々な能力のフルプレイを可能にする。
我々は、異なる視点からこれらの手法を詳細に紹介し、その潜在的な応用について論じる。
さらに,本研究がLLMコラボレーションのさらなる研究を触媒し,先進的なNLPアプリケーションへの道を開くことを願って,今後の研究の方向性を概説する。
The remarkable success of Large Language Models (LLMs) has ushered natural language processing (NLP) research into a new era. Despite their diverse capabilities, LLMs trained on different corpora exhibit varying strengths and weaknesses, leading to challenges in maximizing their overall efficiency and versatility. To address these challenges, recent studies have explored collaborative strategies for LLMs. This paper provides a comprehensive overview of this emerging research area, highlighting the motivation behind such collaborations. Specifically, we categorize collaborative strategies into three primary approaches: Merging, Ensemble, and Cooperation. Merging involves integrating multiple LLMs in the parameter space. Ensemble combines the outputs of various LLMs. Cooperation} leverages different LLMs to allow full play to their diverse capabilities for specific tasks. We provide in-depth introductions to these methods from different perspectives and discuss their potential applications. Additionally, we outline future research directions, hoping this work will catalyze further studies on LLM collaborations and paving the way for advanced NLP applications. | 翻訳日:2024-07-09 14:51:28 公開日:2024-07-08 |
# 簡易CNNモデルを用いた犬の心肥大評価
Assessing Cardiomegaly in Dogs Using a Simple CNN Model ( http://arxiv.org/abs/2407.06092v1 ) ライセンス: Link先を確認 | Nikhil Deekonda, | (参考訳) 本稿では、1400のトレーニング、200のバリデーション、400のテストイメージからなるデータセットであるDogHeartを紹介し、VHSスコアに基づいて、小さく、正常で、大きく分類した。
独自のCNNモデルが開発され、4つの畳み込みレイヤと4つの完全に接続されたレイヤを備えた、直接的なアーキテクチャを備えている。
データ拡張の欠如にもかかわらず、このモデルは72%の精度で心臓大網の重症度を分類する。
この研究は、犬の心臓状態の自動評価に寄与し、早期発見と獣医学の介入の可能性を強調している。
This paper introduces DogHeart, a dataset comprising 1400 training, 200 validation, and 400 test images categorized as small, normal, and large based on VHS score. A custom CNN model is developed, featuring a straightforward architecture with 4 convolutional layers and 4 fully connected layers. Despite the absence of data augmentation, the model achieves a 72\% accuracy in classifying cardiomegaly severity. The study contributes to automated assessment of cardiac conditions in dogs, highlighting the potential for early detection and intervention in veterinary care. | 翻訳日:2024-07-09 14:51:28 公開日:2024-07-08 |
# 人工直感:科学的抽象の効率的な分類
Artificial Intuition: Efficient Classification of Scientific Abstracts ( http://arxiv.org/abs/2407.06093v1 ) ライセンス: Link先を確認 | Harsh Sakhrani, Naseela Pervez, Anirudh Ravi Kumar, Fred Morstatter, Alexandra Graddy Reed, Andrea Belz, | (参考訳) 戦略的な洞察や研究ポートフォリオ管理のために、補助や出版の要約などの短い科学的テキストを大まかに分類することが望ましい。
これらのテキストは、解釈を助けるための豊富な知識を持つ専門家に、効率的に密集した情報を伝達する。
しかし、このタスクは簡潔さと文脈の欠如のために、非常に自動化が難しい。
このギャップに対処するために、我々は、粗いドメイン固有のラベルを生成し、適切に割り当てる新しいアプローチを開発した。
大規模言語モデル(LLM)は、人間の直感を表す補足的知識の増大に類似したプロセスにおいて、タスクに不可欠なメタデータを提供し、ワークフローを提案する。
パイロット研究として、NASA(National Aeronautics and Space Administration)の賞論文のコーパスを使用します。
我々は,既存の評価指標と連動して新しい評価ツールを開発した。
It is desirable to coarsely classify short scientific texts, such as grant or publication abstracts, for strategic insight or research portfolio management. These texts efficiently transmit dense information to experts possessing a rich body of knowledge to aid interpretation. Yet this task is remarkably difficult to automate because of brevity and the absence of context. To address this gap, we have developed a novel approach to generate and appropriately assign coarse domain-specific labels. We show that a Large Language Model (LLM) can provide metadata essential to the task, in a process akin to the augmentation of supplemental knowledge representing human intuition, and propose a workflow. As a pilot study, we use a corpus of award abstracts from the National Aeronautics and Space Administration (NASA). We develop new assessment tools in concert with established performance metrics. | 翻訳日:2024-07-09 14:51:28 公開日:2024-07-08 |
# 逆整合蒸留によるSAR-オプティカル画像変換の高速化
Accelerating Diffusion for SAR-to-Optical Image Translation via Adversarial Consistency Distillation ( http://arxiv.org/abs/2407.06095v1 ) ライセンス: Link先を確認 | Xinyu Bai, Feng Xu, | (参考訳) SAR(Synthetic Aperture Radar)は、全天候で高解像度の撮像機能を提供するが、そのユニークな撮像機構は、しばしば専門家による解釈を必要とし、適用範囲を制限している。
SAR画像を拡散モデルを用いてより容易に認識可能な光学画像に変換することは、この問題に対処するのに役立つ。
しかし、拡散モデルは、多くの反復的推論のためにレイテンシが高く、一方、GAN(Generative Adversarial Networks)は、1回の反復で画像変換を達成できるが、画像品質のコストがかかることが多い。
これらの課題を克服するために,両手法の長所を組み合わせたSAR-光画像翻訳のための新たなトレーニングフレームワークを提案する。
本手法では, 画像の明瞭度確保とカラーシフトの最小化のために, 反復推論ステップの低減に一貫性蒸留を用い, 対角学習を統合した。
さらに、当社のアプローチは品質とスピードのトレードオフを可能にし、アプリケーション要件に基づいた柔軟性を提供します。
我々は、SEN12とGF3データセットの実験を行い、Pak Signal-to-Noise Ratio(PSNR)、Structure similarity Index(SSIM)、Frechet Inception Distance(FID)を用いて定量的評価を行い、推論遅延を計算した。
その結果, 画像の視覚的品質を保ちながら, 推論速度を131倍に向上し, SAR-to-optical Image Translationの堅牢かつ効率的な解法が得られた。
Synthetic Aperture Radar (SAR) provides all-weather, high-resolution imaging capabilities, but its unique imaging mechanism often requires expert interpretation, limiting its widespread applicability. Translating SAR images into more easily recognizable optical images using diffusion models helps address this challenge. However, diffusion models suffer from high latency due to numerous iterative inferences, while Generative Adversarial Networks (GANs) can achieve image translation with just a single iteration but often at the cost of image quality. To overcome these issues, we propose a new training framework for SAR-to-optical image translation that combines the strengths of both approaches. Our method employs consistency distillation to reduce iterative inference steps and integrates adversarial learning to ensure image clarity and minimize color shifts. Additionally, our approach allows for a trade-off between quality and speed, providing flexibility based on application requirements. We conducted experiments on SEN12 and GF3 datasets, performing quantitative evaluations using Peak Signal-to-Noise Ratio (PSNR), Structural Similarity Index (SSIM), and Frechet Inception Distance (FID), as well as calculating the inference latency. The results demonstrate that our approach significantly improves inference speed by 131 times while maintaining the visual quality of the generated images, thus offering a robust and efficient solution for SAR-to-optical image translation. | 翻訳日:2024-07-09 14:51:28 公開日:2024-07-08 |
# 人工知能(AI)を用いた銃口型乳牛識別システム
Muzzle-Based Cattle Identification System Using Artificial Intelligence (AI) ( http://arxiv.org/abs/2407.06096v1 ) ライセンス: Link先を確認 | Hasan Zohirul Islam, Safayet Khan, Sanjib Kumar Paul, Sheikh Imtiaz Rahi, Fahim Hossain Sifat, Md. Mahadi Hasan Sany, Md. Shahjahan Ali Sarker, Tareq Anam, Ismail Hossain Polas, | (参考訳) 乳牛鑑定技術の欠如は、保険会社が家畜保険の提供を妨げている重要な問題であった。
この技術不足は、バングラデシュにおける牛の事故死などの予期せぬ出来事に対して補償を請求する機会がなかったため、限界農夫にとって経済的に壊滅的な結果をもたらした。
機械学習と深層学習アルゴリズムを用いて,ウシの識別システムを開発・導入することで,牛の識別のボトルネックを解消した。
牛の銃口の独特さは科学的に確立されており、人間の指紋に似ている。
これは、牛の銃口の特異性を抽出する牛の識別システムを開発するきっかけとなった基本的な前提である。
この目的で,826頭の牛から32,374枚の画像を収集した。
画像からノイズを除去する前処理工程において, シャープニングフィルタを用いたコントラスト制限適応ヒストグラム等化(CLAHE)を適用した。
画像中の牛の銃口検出のためのYOLOアルゴリズムとFaceNetアーキテクチャを用いて、四角い$L_2$距離を用いて銃口画像から一括埋め込みを学習した。
我々のシステムは、9,6.489\%$、9,7.334\%$のF_1$スコアと8,7.993\%の真の正レート(tpr)を驚くほど低い偽陽性レート(fpr)の0.098\%$で実行している。
この牛を同定するための信頼性と効率のよいシステムは、家畜の保険と精密農業を著しく向上させることができる。
Absence of tamper-proof cattle identification technology was a significant problem preventing insurance companies from providing livestock insurance. This lack of technology had devastating financial consequences for marginal farmers as they did not have the opportunity to claim compensation for any unexpected events such as the accidental death of cattle in Bangladesh. Using machine learning and deep learning algorithms, we have solved the bottleneck of cattle identification by developing and introducing a muzzle-based cattle identification system. The uniqueness of cattle muzzles has been scientifically established, which resembles human fingerprints. This is the fundamental premise that prompted us to develop a cattle identification system that extracts the uniqueness of cattle muzzles. For this purpose, we collected 32,374 images from 826 cattle. Contrast-limited adaptive histogram equalization (CLAHE) with sharpening filters was applied in the preprocessing steps to remove noise from images. We used the YOLO algorithm for cattle muzzle detection in the image and the FaceNet architecture to learn unified embeddings from muzzle images using squared $L_2$ distances. Our system performs with an accuracy of $96.489\%$, $F_1$ score of $97.334\%$, and a true positive rate (tpr) of $87.993\%$ at a remarkably low false positive rate (fpr) of $0.098\%$. This reliable and efficient system for identifying cattle can significantly advance livestock insurance and precision farming. | 翻訳日:2024-07-09 14:51:28 公開日:2024-07-08 |
# テキスト中の不正を自動的に検出する手段としての認識的バイアス
Epistemological Bias As a Means for the Automated Detection of Injustices in Text ( http://arxiv.org/abs/2407.06098v1 ) ライセンス: Link先を確認 | Kenya Andrews, Lamogha Chiazor, | (参考訳) 不公平は、誰かが不公平な治療を受けたり、権利が侵害されたり、しばしばステレオタイプのような暗黙の偏見や偏見が原因で起こる。
テキストにおける不正の自動識別はほとんど注目されていないが、背景にある暗黙の偏見やステレオタイプが明示されることは稀であり、社会における偏見の広範性のためにしばしば無意識に発生するという事実がある。
ここでは、細調整されたBERTベースのバイアス検出モデル、二つのステレオタイプ検出モデル、および語彙ベースのアプローチを組み合わせて、認識的バイアス(テキストにおける不正の自動検出を支援する。
ニュースメディアには不公平な例(差別的物語など)が多数あり、これが私たちのユースケースである。
我々は,データ量が多い場合でも,不正を検出するためにフレームワークをどのように適用できるかを実証的質的研究を行ない,議論する。
Injustice occurs when someone experiences unfair treatment or their rights are violated and is often due to the presence of implicit biases and prejudice such as stereotypes. The automated identification of injustice in text has received little attention, due in part to the fact that underlying implicit biases or stereotypes are rarely explicitly stated and that instances often occur unconsciously due to the pervasive nature of prejudice in society. Here, we describe a novel framework that combines the use of a fine-tuned BERT-based bias detection model, two stereotype detection models, and a lexicon-based approach to show that epistemological biases (i.e., words, which presupposes, entails, asserts, hedges, or boosts text to erode or assert a person's capacity as a knower) can assist with the automatic detection of injustice in text. The news media has many instances of injustice (i.e. discriminatory narratives), thus it is our use case here. We conduct and discuss an empirical qualitative research study which shows how the framework can be applied to detect injustices, even at higher volumes of data. | 翻訳日:2024-07-09 14:51:28 公開日:2024-07-08 |
# 実時間宇宙機熱シミュレータに向けた物理インフォームド機械学習
Physics-Informed Machine Learning Towards A Real-Time Spacecraft Thermal Simulator ( http://arxiv.org/abs/2407.06099v1 ) ライセンス: Link先を確認 | Manaswin Oddiraju, Zaki Hasnain, Saptarshi Bandyopadhyay, Eric Sunada, Souma Chowdhury, | (参考訳) 空気のない天体の表面探査のような複雑な宇宙ミッションのための熱状態のモデル化には、宇宙船の設計のための地上ベース分析や、自律的な運用のためのオンボード推論など、高い計算が必要である。
例えば、数百の要素を持つ有限要素熱モデルではシミュレーションにかなりの時間がかかるため、降下や着陸、近接操作、宇宙での組み立てといった時間に敏感なシナリオにおいて、オンボードの推論には適さない。
さらに、高速で正確な熱モデリングの欠如により、熱設計はより保守的になり、より大きな質量とより高い電力予算を持つ宇宙船に繋がる。
物理インフォームド機械学習(PIML)の新たなパラダイムは、単純化された物理モデルと機械学習(ML)モデルを組み合わせて、解釈可能性と堅牢性の両方を維持するモデルを作成することで、この問題に対処するハイブリッドなモデリングアーキテクチャのクラスを提示している。
このような技術は、オンボードの熱状態推定と制御を通じて質量と動力を減らした設計を可能にし、計画外のダウンタイムを含むオフノミナル状態のオンボード処理の改善につながる可能性がある。
ここで提示されるPIMLモデルまたはハイブリッドモデルは、軌道上の熱負荷条件に与えられたノイズの低減(粗いメッシュの分布とサイズ)を予測するニューラルネットワークで構成され、その後、(相対的に粗い)有限差分モデルがこのメッシュ上で動作し、熱状態を予測する。
我々は,ハイブリッドモデルの計算性能と精度を,データ駆動型ニューラルネットモデルと,地球周回小型宇宙船の高忠実度有限差分モデルと比較した。
PIMLベースのアクティブノダライゼーションアプローチは、ニューラルネットワークモデルや粗いメッシュモデルよりもはるかに優れた一般化を提供すると同時に、高忠実度モデルと比較して計算コストを最大1.7倍削減する。
Modeling thermal states for complex space missions, such as the surface exploration of airless bodies, requires high computation, whether used in ground-based analysis for spacecraft design or during onboard reasoning for autonomous operations. For example, a finite-element thermal model with hundreds of elements can take significant time to simulate, which makes it unsuitable for onboard reasoning during time-sensitive scenarios such as descent and landing, proximity operations, or in-space assembly. Further, the lack of fast and accurate thermal modeling drives thermal designs to be more conservative and leads to spacecraft with larger mass and higher power budgets. The emerging paradigm of physics-informed machine learning (PIML) presents a class of hybrid modeling architectures that address this challenge by combining simplified physics models with machine learning (ML) models resulting in models which maintain both interpretability and robustness. Such techniques enable designs with reduced mass and power through onboard thermal-state estimation and control and may lead to improved onboard handling of off-nominal states, including unplanned down-time. The PIML model or hybrid model presented here consists of a neural network which predicts reduced nodalizations (distribution and size of coarse mesh) given on-orbit thermal load conditions, and subsequently a (relatively coarse) finite-difference model operates on this mesh to predict thermal states. We compare the computational performance and accuracy of the hybrid model to a data-driven neural net model, and a high-fidelity finite-difference model of a prototype Earth-orbiting small spacecraft. The PIML based active nodalization approach provides significantly better generalization than the neural net model and coarse mesh model, while reducing computing cost by up to 1.7x compared to the high-fidelity model. | 翻訳日:2024-07-09 14:51:28 公開日:2024-07-08 |
# QTRL:量子トレインによる実用的な量子強化学習を目指して
QTRL: Toward Practical Quantum Reinforcement Learning via Quantum-Train ( http://arxiv.org/abs/2407.06103v1 ) ライセンス: Link先を確認 | Chen-Yu Liu, Chu-Hsuan Abraham Lin, Chao-Han Huck Yang, Kuan-Cheng Chen, Min-Hsiu Hsieh, | (参考訳) 量子強化学習は、量子層を利用して機械学習モデル内の情報を処理する。
しかし、純粋かつハイブリッドな量子強化学習は、データ符号化や推論段階での量子コンピュータの使用といった課題に直面している。
量子トレイン法をQTRLと呼ばれる強化学習タスクに適用し,多対数パラメータ還元を用いた量子機械学習モデルを用いて古典的政策ネットワークモデルを訓練する。
このQTRLアプローチは、従来の量子機械学習のデータを符号化する問題を排除し、対応する古典的ポリシーネットワークのトレーニングパラメータを低減する。
最も重要なことは、QTRLのトレーニング結果は古典的なモデルであり、推論段階は古典的なコンピュータのみを必要とすることである。
これは、ポリシーモデルからの低遅延フィードバックが不可欠である強化学習タスクにおいて、極めて実用的でコスト効率が高い。
Quantum reinforcement learning utilizes quantum layers to process information within a machine learning model. However, both pure and hybrid quantum reinforcement learning face challenges such as data encoding and the use of quantum computers during the inference stage. We apply the Quantum-Train method to reinforcement learning tasks, called QTRL, training the classical policy network model using a quantum machine learning model with polylogarithmic parameter reduction. This QTRL approach eliminates the data encoding issues of conventional quantum machine learning and reduces the training parameters of the corresponding classical policy network. Most importantly, the training result of the QTRL is a classical model, meaning the inference stage only requires classical computer. This is extremely practical and cost-efficient for reinforcement learning tasks, where low-latency feedback from the policy model is essential. | 翻訳日:2024-07-09 14:51:28 公開日:2024-07-08 |
# コロキウム:非標準幾何学における合成量子物質
Colloquium: Synthetic quantum matter in non-standard geometries ( http://arxiv.org/abs/2407.06105v1 ) ライセンス: Link先を確認 | Tobias Grass, Dario Bercioux, Utso Bhattacharya, Maciej Lewenstein, Hai Son Nguyen, Christof Weitenberg, | (参考訳) 量子シミュレーションは科学研究に大きな影響を与えている。
この分野の一般的な傾向は、特に電子材料において、現実のシステムに近づいた量子シミュレータを構築することである。
しかし、顕微鏡設計の進歩は、直交研究の方向性である量子多体システムを現実世界の限界を超えて構築する機会も与えている。
フラクタル格子や準結晶、高次元または曲面空間などの非標準格子幾何学における合成量子物質に集中することにより、原子、フォトニック、電子デバイスを含む様々な量子シミュレーションプラットフォームにおける最近のトレンドに合わせた量子シミュレーションの分野を新たに導入することを目的としている。
凝縮物質物理学者は、このようなエキゾチックな量子シミュレータによって提供される新しい位相相と同様に、様々な異なる局在特性を高く評価することができる。
しかし、重力と宇宙論の量子モデルを探す際にも、曲線空間の量子シミュレータは有用な実験ツールとなる。
Quantum simulation is making a significant impact on scientific research. The prevailing tendency of the field is to build quantum simulators that get closer to real-world systems of interest, in particular electronic materials. However, progress in the microscopic design also provides an opportunity for an orthogonal research direction: building quantum many-body systems beyond real-world limitations. This colloquium takes this perspective: Concentrating on synthetic quantum matter in non-standard lattice geometries, such as fractal lattices or quasicrystals, higher-dimensional or curved spaces, it aims at providing a fresh introduction to the field of quantum simulation aligned with recent trends across various quantum simulation platforms, including atomic, photonic, and electronic devices. We also shine light on the novel phenomena which arise from these geometries: Condensed matter physicists may appreciate the variety of different localization properties as well as novel topological phases which are offered by such exotic quantum simulators. But also in the search of quantum models for gravity and cosmology, quantum simulators of curved spaces can provide a useful experimental tool. | 翻訳日:2024-07-09 14:51:28 公開日:2024-07-08 |
# PerlDiff:パースペクティブレイアウト拡散モデルを用いた制御可能なストリートビュー合成
PerlDiff: Controllable Street View Synthesis Using Perspective-Layout Diffusion Models ( http://arxiv.org/abs/2407.06109v1 ) ライセンス: Link先を確認 | Jinhua Zhang, Hualian Sheng, Sijia Cai, Bing Deng, Qiao Liang, Wen Li, Ying Fu, Jieping Ye, Shuhang Gu, | (参考訳) 制御可能な生成は3次元データのアノテートという課題に対処するための潜在的に不可欠なアプローチと考えられており、このような制御可能な生成の精度は、自律運転のデータ生産の文脈において特に不可欠である。
既存の手法は、GLIGENやControlNetといったフレームワークを利用して、様々な生成情報を入力を制御することに集中し、制御可能な生成において可換な結果を生成する。
しかし、そのようなアプローチは、本質的には、事前に定義されたネットワークアーキテクチャの学習能力に、生成性能を制限している。
本稿では,3次元幾何学的情報を完全に活用したストリートビュー画像生成手法であるPerlDiff(Perspective-Layout Diffusion Models)を導入する。
我々のPerlDiffは、ネットワーク学習プロセス内で正確なオブジェクトレベル制御でストリートビュー画像の生成をガイドするために、3次元の幾何学的事前情報を用いており、その結果、より堅牢で制御可能な出力が得られる。
さらに、代替レイアウト制御法よりも優れた制御性を示す。
PerlDiffはNuScenesとKITTIデータセットの生成精度を著しく向上させる。
私たちのコードとモデルはhttps://github.com/LabShuHangGU/PerlDiff.comで公開されています。
Controllable generation is considered a potentially vital approach to address the challenge of annotating 3D data, and the precision of such controllable generation becomes particularly imperative in the context of data production for autonomous driving. Existing methods focus on the integration of diverse generative information into controlling inputs, utilizing frameworks such as GLIGEN or ControlNet, to produce commendable outcomes in controllable generation. However, such approaches intrinsically restrict generation performance to the learning capacities of predefined network architectures. In this paper, we explore the integration of controlling information and introduce PerlDiff (Perspective-Layout Diffusion Models), a method for effective street view image generation that fully leverages perspective 3D geometric information. Our PerlDiff employs 3D geometric priors to guide the generation of street view images with precise object-level control within the network learning process, resulting in a more robust and controllable output. Moreover, it demonstrates superior controllability compared to alternative layout control methods. Empirical results justify that our PerlDiff markedly enhances the precision of generation on the NuScenes and KITTI datasets. Our codes and models are publicly available at https://github.com/LabShuHangGU/PerlDiff. | 翻訳日:2024-07-09 14:51:28 公開日:2024-07-08 |
# FGA:Fourier-Guided Attention Network for Crowd Count Estimation
FGA: Fourier-Guided Attention Network for Crowd Count Estimation ( http://arxiv.org/abs/2407.06110v1 ) ライセンス: Link先を確認 | Yashwardhan Chaudhuri, Ankit Kumar, Arun Balaji Buduru, Adel Alshamrani, | (参考訳) クラウドカウンティングは、特に都市計画、クラウドマネージメント、公共安全の分野において、社会的関連性を高めている。
本稿では,既存のコンボリューションベースアテンションネットワークにおける非効率なフルスケールグローバルパターンキャプチャに対処するために,群衆数推定のための新しいアテンション機構であるフーリエ誘導アテンション(FGA)を提案する。
FGAは、FTA(Fast-Fourier Transformations)を利用して、グローバルな特徴に対する空間的注意と、半グローバルな特徴とローカルな特徴に対するチャネル的な注意を伴う畳み込みを利用して、フルスケールのグローバルなパターンを含むマルチスケール情報を効率的にキャプチャする。
FGAのアーキテクチャは、(1)FFTによるフルスケールのグローバルな特徴を処理し、周波数領域における情報の効率的な抽出を可能にする経路、(2)従来の畳み込みとチャネルの注意力を用いて、半言語的および局所的な特徴マップを処理するための経路である。
このデュアルパスアーキテクチャにより、FGAは周波数と空間情報をシームレスに統合し、多様な群集パターンをキャプチャする能力を高めることができる。
CSRNetとCANNetという2つの一般的なクラウドカウント作業の最後のレイヤにFGAを適用し、上海Tech-A、上海Tech-B、UCF-CC-50、JHU++といったベンチマークデータセット上で、モジュールのパフォーマンスを評価する。
実験では、Mean-Squared-Error(MSE)とMean-Absolute-Error(MAE)メトリクスに基づいて、すべてのデータセットで顕著な改善がなされた。
さらに,Grad-CAMヒートマップを用いた定性解析による解釈可能性について述べるとともに,群集パターンの捕捉におけるFGAの有効性を示す。
Crowd counting is gaining societal relevance, particularly in domains of Urban Planning, Crowd Management, and Public Safety. This paper introduces Fourier-guided attention (FGA), a novel attention mechanism for crowd count estimation designed to address the inefficient full-scale global pattern capture in existing works on convolution-based attention networks. FGA efficiently captures multi-scale information, including full-scale global patterns, by utilizing Fast-Fourier Transformations (FFT) along with spatial attention for global features and convolutions with channel-wise attention for semi-global and local features. The architecture of FGA involves a dual-path approach: (1) a path for processing full-scale global features through FFT, allowing for efficient extraction of information in the frequency domain, and (2) a path for processing remaining feature maps for semi-global and local features using traditional convolutions and channel-wise attention. This dual-path architecture enables FGA to seamlessly integrate frequency and spatial information, enhancing its ability to capture diverse crowd patterns. We apply FGA in the last layers of two popular crowd-counting works, CSRNet and CANNet, to evaluate the module's performance on benchmark datasets such as ShanghaiTech-A, ShanghaiTech-B, UCF-CC-50, and JHU++ crowd. The experiments demonstrate a notable improvement across all datasets based on Mean-Squared-Error (MSE) and Mean-Absolute-Error (MAE) metrics, showing comparable performance to recent state-of-the-art methods. Additionally, we illustrate the interpretability using qualitative analysis, leveraging Grad-CAM heatmaps, to show the effectiveness of FGA in capturing crowd patterns. | 翻訳日:2024-07-09 14:40:07 公開日:2024-07-08 |
# 双方向熟考推論による言語モデルリボナリティの強化
Enhancing Language Model Rationality with Bi-Directional Deliberation Reasoning ( http://arxiv.org/abs/2407.06112v1 ) ライセンス: Link先を確認 | Yadong Zhang, Shaoguang Mao, Wenshan Wu, Yan Xia, Tao Ge, Man Lan, Furu Wei, | (参考訳) 本稿では BI-Directional Deliberation Reasoning (BIDDER) を紹介する。
伝統的な推論手法は、典型的には歴史的情報に依存し、一方向(左右)の推論戦略を採用する。
この双方向の議論の推論の欠如は、潜在的な将来の成果に対する認識が限定され、歴史的文脈の不十分な統合をもたらし、最適以下の決定へと繋がる。
BIDDERはこのギャップに対処するため、合理的な意思決定の原則を取り入れ、特に不確実性を管理し、期待されるユーティリティを予測する。
我々のアプローチは3つの主要なプロセスを含む: 歴史的データから意思決定過程における不確実な情報を表すために隠蔽状態を推論すること; これらの隠蔽状態を使用して将来の潜在的な状態と潜在的な結果を予測すること; 歴史的情報(過去状況)と長期的結果(未来状況)を統合すること。
双方向推論を活用することで、BIDDERは過去と将来の両方の文脈を徹底的に探索し、より情報と合理的な決定につながる。
我々はBIDDERの有効性を、Poker(Limit Texas Hold'em)とNegotiation(Negotiation)の2つの明確に定義されたシナリオで検証した。
実験の結果,BIDDER は LLM および LLM エージェントの意思決定能力を大幅に向上することが示された。
This paper introduces BI-Directional DEliberation Reasoning (BIDDER), a novel reasoning approach to enhance the decision rationality of language models. Traditional reasoning methods typically rely on historical information and employ uni-directional (left-to-right) reasoning strategy. This lack of bi-directional deliberation reasoning results in limited awareness of potential future outcomes and insufficient integration of historical context, leading to suboptimal decisions. BIDDER addresses this gap by incorporating principles of rational decision-making, specifically managing uncertainty and predicting expected utility. Our approach involves three key processes: Inferring hidden states to represent uncertain information in the decision-making process from historical data; Using these hidden states to predict future potential states and potential outcomes; Integrating historical information (past contexts) and long-term outcomes (future contexts) to inform reasoning. By leveraging bi-directional reasoning, BIDDER ensures thorough exploration of both past and future contexts, leading to more informed and rational decisions. We tested BIDDER's effectiveness in two well-defined scenarios: Poker (Limit Texas Hold'em) and Negotiation. Our experiments demonstrate that BIDDER significantly improves the decision-making capabilities of LLMs and LLM agents. | 翻訳日:2024-07-09 14:40:07 公開日:2024-07-08 |
# C2C: ゼロショット合成行動認識のためのコンポーネント対合成学習
C2C: Component-to-Composition Learning for Zero-Shot Compositional Action Recognition ( http://arxiv.org/abs/2407.06113v1 ) ライセンス: Link先を確認 | Rongchang Li, Zhenhua Feng, Tianyang Xu, Linze Li, Xiao-Jun Wu, Muhammad Awais, Sara Atito, Josef Kittler, | (参考訳) 構成的アクションは動的(動詞)と静的(対象)の概念から構成される。
人間は学習した概念を使って、目に見えない構成を容易に認識できる。
機械の場合、そのような問題を解決するためには、事前に観察された動詞とオブジェクトからなる未知の行動を認識するモデルが必要であり、そのため、いわゆる合成一般化能力が必要である。
本研究では,ゼロショット合成行動認識(ZS-CAR)タスクを提案する。
タスクを評価するために、広く使われているSomething V2データセットに基づいて、新しいベンチマークであるSomes-composition(Sth-com)を構築した。
また,新しいZS-CARタスクを解くために,新しいコンポーネント・ツー・コンポジション(C2C)学習手法を提案する。
C2Cは独立したコンポーネント学習モジュールと合成推論モジュールを含む。
最後に、目に見える構成と目に見えない構成のコンポーネント変動の課題に対処し、目に見える構成と目に見えない動作の微妙なバランスに対処するための強化されたトレーニング戦略を考案する。
実験の結果,提案手法は既存の構成一般化手法をはるかに上回り,新たな最先端の手法が確立された。
新しいSth-comベンチマークとコードはhttps://github.com/RongchangLi/ZSCAR_C2Cで公開されている。
Compositional actions consist of dynamic (verbs) and static (objects) concepts. Humans can easily recognize unseen compositions using the learned concepts. For machines, solving such a problem requires a model to recognize unseen actions composed of previously observed verbs and objects, thus requiring, so-called, compositional generalization ability. To facilitate this research, we propose a novel Zero-Shot Compositional Action Recognition (ZS-CAR) task. For evaluating the task, we construct a new benchmark, Something-composition (Sth-com), based on the widely used Something-Something V2 dataset. We also propose a novel Component-to-Composition (C2C) learning method to solve the new ZS-CAR task. C2C includes an independent component learning module and a composition inference module. Last, we devise an enhanced training strategy to address the challenges of component variation between seen and unseen compositions and to handle the subtle balance between learning seen and unseen actions. The experimental results demonstrate that the proposed framework significantly surpasses the existing compositional generalization methods and sets a new state-of-the-art. The new Sth-com benchmark and code are available at https://github.com/RongchangLi/ZSCAR_C2C. | 翻訳日:2024-07-09 14:40:07 公開日:2024-07-08 |
# NSF Workshop on Sustainable Computing for Sustainability (NSF WSCS 2024) 参加報告
Report on the NSF Workshop on Sustainable Computing for Sustainability (NSF WSCS 2024) ( http://arxiv.org/abs/2407.06119v1 ) ライセンス: Link先を確認 | Roch Guérin, Amy McGovern, Klara Nahrstedt, | (参考訳) 本報告では,2024年4月にネバダ州アレクサンドリアで開催されたNSFワークショップ「持続可能な持続可能性コンピューティング」の成果を報告し,その成果を報告する。
ワークショップの主な目標は
一 持続可能コンピューティングと持続可能性コンピューティングの両方のテーマに沿った研究イニシアチブの開発を推進しつつ、かつ、
(二)これらのイニシアティブが必要とする学際チームの開発と維持を支援すること。
ワークショップの結果は3つのカテゴリに分類される: 持続可能なコンピューティングと持続可能性のためのコンピューティングの両方のテーマをカットする一般的なレコメンデーション、持続可能性のためのコンピューティングに特有のレコメンデーションである。
This report documents the process that led to the NSF Workshop on "Sustainable Computing for Sustainability" held in April 2024 at NSF in Alexandria, VA, and reports on its findings. The workshop's primary goals were to (i) advance the development of research initiatives along the themes of both sustainable computing and computing for sustainability, while also (ii) helping develop and sustain the interdisciplinary teams those initiatives would need. The workshop's findings are in the form of recommendations grouped in three categories: General recommendations that cut across both themes of sustainable computing and computing for sustainability, and recommendations that are specific to sustainable computing and computing for sustainability, respectively. | 翻訳日:2024-07-09 14:40:07 公開日:2024-07-08 |
# Sketchy Moment Matching: ファインタニングのための高速かつ予測可能なデータ選択を目指して
Sketchy Moment Matching: Toward Fast and Provable Data Selection for Finetuning ( http://arxiv.org/abs/2407.06120v1 ) ライセンス: Link先を確認 | Yijun Dong, Hoang Phan, Xiang Pan, Qi Lei, | (参考訳) 基本的観点から、ファインタニングの現代的文脈でデータ選択を再考する。
低次元の分散最小化の古典的知恵を高次元の微調整に拡張することにより、一般化解析は低階近似によるバイアスの低減の重要性を明らかにする。
この理論から高次元の分散バイアストレードオフに着想を得て,2段階のスケーラブルなデータ選択方式であるSketchy Moment Matching(SkMM)を導入する。
(i)第一に、バイアスは、情報的低次元部分空間 $\mathcal{S}$; に対する微調整パラメータ空間を探索する勾配スケッチを用いて制御される。
(ii) 元のデータセットと選択したデータセットのモーメントマッチングにより$\mathcal{S}$に分散が減少する。
例えば、$\mathcal{S}$ の分散を減らして$n$サンプルを選択すると、パラメータ次元とは無関係に、高速レートの一般化 $O(\dim(\mathcal{S})/n)$ が保存される。
実験により, 分散バイアスバランスを合成実験により向上させ, 実視タスクの微調整におけるSkMMの有効性を実証した。
We revisit data selection in a modern context of finetuning from a fundamental perspective. Extending the classical wisdom of variance minimization in low dimensions to high-dimensional finetuning, our generalization analysis unveils the importance of additionally reducing bias induced by low-rank approximation. Inspired by the variance-bias tradeoff in high dimensions from the theory, we introduce Sketchy Moment Matching (SkMM), a scalable data selection scheme with two stages. (i) First, the bias is controlled using gradient sketching that explores the finetuning parameter space for an informative low-dimensional subspace $\mathcal{S}$; (ii) then the variance is reduced over $\mathcal{S}$ via moment matching between the original and selected datasets. Theoretically, we show that gradient sketching is fast and provably accurate: selecting $n$ samples by reducing variance over $\mathcal{S}$ preserves the fast-rate generalization $O(\dim(\mathcal{S})/n)$, independent of the parameter dimension. Empirically, we concretize the variance-bias balance via synthetic experiments and demonstrate the effectiveness of SkMM for finetuning in real vision tasks. | 翻訳日:2024-07-09 14:40:07 公開日:2024-07-08 |
# 周期的エージェント状態に基づくPMDPのQ-ラーニング
Periodic agent-state based Q-learning for POMDPs ( http://arxiv.org/abs/2407.06121v1 ) ライセンス: Link先を確認 | Amit Sinha, Mathieu Geist, Aditya Mahajan, | (参考訳) 部分観測可能なマルコフ決定過程(POMDP)の標準的なアプローチは、それらを完全に観察された信念状態のMDPに変換することである。
しかし、信念状態はシステムモデルに依存するため、強化学習(RL)設定では不可能である。
広く使われている代替手段は、観察履歴のモデル無しで再帰的に更新可能な機能であるエージェント状態を使用することである。
例えば、フレームの積み重ねやリカレントニューラルネットワークなどがある。
エージェント状態はモデルフリーであるため、標準RLアルゴリズムをPOMDPに適応するために使用される。
しかし、Qラーニングのような標準的なRLアルゴリズムは定常ポリシーを学ぶ。
例として、エージェント状態がマルコフの性質を満たさないため、非定常エージェント状態ベースのポリシーは定常エージェントよりも優れる。
本機能を活用するために,エージェント状態に基づくQ-ラーニングの変種であるPASQL(周期的エージェント状態に基づくQ-ラーニング)を提案する。
周期的マルコフ連鎖と確率近似のアイデアを組み合わせることで、PASQLが巡回極限に収束し、収束した周期ポリシーの近似誤差を特徴付けることを厳密に証明する。
最後に、PASQLの健全な特徴を強調する数値実験を行い、定常的なポリシーよりも周期的なポリシーを学ぶことの利点を実証する。
The standard approach for Partially Observable Markov Decision Processes (POMDPs) is to convert them to a fully observed belief-state MDP. However, the belief state depends on the system model and is therefore not viable in reinforcement learning (RL) settings. A widely used alternative is to use an agent state, which is a model-free, recursively updateable function of the observation history. Examples include frame stacking and recurrent neural networks. Since the agent state is model-free, it is used to adapt standard RL algorithms to POMDPs. However, standard RL algorithms like Q-learning learn a stationary policy. Our main thesis that we illustrate via examples is that because the agent state does not satisfy the Markov property, non-stationary agent-state based policies can outperform stationary ones. To leverage this feature, we propose PASQL (periodic agent-state based Q-learning), which is a variant of agent-state-based Q-learning that learns periodic policies. By combining ideas from periodic Markov chains and stochastic approximation, we rigorously establish that PASQL converges to a cyclic limit and characterize the approximation error of the converged periodic policy. Finally, we present a numerical experiment to highlight the salient features of PASQL and demonstrate the benefit of learning periodic policies over stationary policies. | 翻訳日:2024-07-09 14:40:07 公開日:2024-07-08 |
# 構造生成:階層的クラスタを用いて拡散モデルを導出する
Structured Generations: Using Hierarchical Clusters to guide Diffusion Models ( http://arxiv.org/abs/2407.06124v1 ) ライセンス: Link先を確認 | Jorge da Silva Goncalves, Laura Manduchi, Moritz Vandenhirtz, Julia Vogt, | (参考訳) 本稿では,階層的クラスタリングをDenoising Diffusion Probabilistic Models (DDPMs) の枠組みに統合したDiffuse-TreeVAEを提案する。
提案手法は,学習した潜在木VAE構造体の根埋め込みから新たな画像を生成し,階層的な経路を伝播し,第2段階のDDPMを用いて各データクラスタの異なる高品質な画像を洗練・生成する。
その結果、画像の明瞭度を向上するだけでなく、生成されたサンプルがそれぞれのクラスタに代表されることを保証するモデルとなり、従来のVAEベースの手法の限界に対処し、クラスタリングベースの生成モデリングの状況を改善する。
This paper introduces Diffuse-TreeVAE, a deep generative model that integrates hierarchical clustering into the framework of Denoising Diffusion Probabilistic Models (DDPMs). The proposed approach generates new images by sampling from a root embedding of a learned latent tree VAE-based structure, it then propagates through hierarchical paths, and utilizes a second-stage DDPM to refine and generate distinct, high-quality images for each data cluster. The result is a model that not only improves image clarity but also ensures that the generated samples are representative of their respective clusters, addressing the limitations of previous VAE-based methods and advancing the state of clustering-based generative modeling. | 翻訳日:2024-07-09 14:40:07 公開日:2024-07-08 |
# テキストと音声のモーダリティに基づく大規模言語モデルによる抑うつ検出と解析
Depression Detection and Analysis using Large Language Models on Textual and Audio-Visual Modalities ( http://arxiv.org/abs/2407.06125v1 ) ライセンス: Link先を確認 | Avinash Anand, Chayan Tank, Sarthak Pol, Vinayak Katoch, Shaina Mehta, Rajiv Ratn Shah, | (参考訳) うつ病は公衆衛生上の重大な問題であり、個人の心理的健康に大きな影響を与えている。
診断されていない場合、うつ病は重篤な健康問題を引き起こし、身体的に現れて自殺に至る。
一般的に、うつ病やその他の精神障害の診断には、臨床医や精神保健専門家によるPHQ(Patent Health Questionnaire)の変種を含む補助的なアンケートとともに半構造化されたインタビューを実施することが含まれる。
このアプローチは、訓練医の経験と判断に大きく依存しており、診断は個人の偏見に影響を受けやすい。
うつ病の原因となるメカニズムが研究されていることを考えると、医師はしばしば疾患の診断と治療の課題に直面している。
近年, テキスト, 画像, 音声に関する諸領域の問題を解決するために, 人工知能において重要な進歩を遂げている。
我々の分析は、これらの最先端(SOTA)モデルを実験で活用し、複数のモダリティを利用する最適な結果を達成することを目的としている。
実験は、Audio/Visual Emotion Challenge (AVEC) 2019 Challengeで発表されたOzデータセット(E-DAIC)コーパスのExtended Distress Analysis Interview Corpus Wizardで実施された。
提案したソリューションは、テキストモダリティに関するRoot Mean Square Error(RMSE)スコア3.98を達成し、AVEC 2019チャレンジのベースライン結果と現在のSOTA回帰分析アーキテクチャを上回り、プロプライエタリでオープンソースのLarge Language Models(LLMs)によるより良い結果を示す。
さらに,提案手法は分類タスクにおいて71.43%の精度を達成した。
また、PHQ-8のスコアをRMSE 6.51 で予測する新しいオーディオ視覚マルチモーダルネットワークも備えている。
Depression has proven to be a significant public health issue, profoundly affecting the psychological well-being of individuals. If it remains undiagnosed, depression can lead to severe health issues, which can manifest physically and even lead to suicide. Generally, Diagnosing depression or any other mental disorder involves conducting semi-structured interviews alongside supplementary questionnaires, including variants of the Patient Health Questionnaire (PHQ) by Clinicians and mental health professionals. This approach places significant reliance on the experience and judgment of trained physicians, making the diagnosis susceptible to personal biases. Given that the underlying mechanisms causing depression are still being actively researched, physicians often face challenges in diagnosing and treating the condition, particularly in its early stages of clinical presentation. Recently, significant strides have been made in Artificial neural computing to solve problems involving text, image, and speech in various domains. Our analysis has aimed to leverage these state-of-the-art (SOTA) models in our experiments to achieve optimal outcomes leveraging multiple modalities. The experiments were performed on the Extended Distress Analysis Interview Corpus Wizard of Oz dataset (E-DAIC) corpus presented in the Audio/Visual Emotion Challenge (AVEC) 2019 Challenge. The proposed solutions demonstrate better results achieved by Proprietary and Open-source Large Language Models (LLMs), which achieved a Root Mean Square Error (RMSE) score of 3.98 on Textual Modality, beating the AVEC 2019 challenge baseline results and current SOTA regression analysis architectures. Additionally, the proposed solution achieved an accuracy of 71.43% in the classification task. The paper also includes a novel audio-visual multi-modal network that predicts PHQ-8 scores with an RMSE of 6.51. | 翻訳日:2024-07-09 14:40:07 公開日:2024-07-08 |
# データ可視化における自然言語発話におけるLLMのセマンティックプロファイリング能力の評価
Evaluating the Semantic Profiling Abilities of LLMs for Natural Language Utterances in Data Visualization ( http://arxiv.org/abs/2407.06129v1 ) ライセンス: Link先を確認 | Hannah K. Bako, Arshnoor Buthani, Xinyi Liu, Kwesi A. Cobbina, Zhicheng Liu, | (参考訳) データセット上の人間の発話に対応するデータ視覚化を自動的に生成するには、データ属性への暗黙的かつ明示的な参照、可視化タスク、必要なデータ準備ステップを含む、データ発話の深いセマンティック理解が必要である。
データビジュアライゼーションのための自然言語インタフェース(NLI)は、そのような情報を推測する方法を模索してきたが、人間の発話に固有の不確実性のため、課題は続いている。
近年のLarge Language Models (LLM) の進歩はこれらの課題に対処するための道筋を提供するが、関連する意味情報を抽出する能力は未解明のままである。
本研究では,4つのLLM(GPT-4,Gemini-Pro,Llama3,Mixtral)を評価し,不確実性が存在する場合でも発話を理解する能力について検討し,関連するデータコンテキストや視覚的タスクを特定する。
その結果,LLMは発話の不確実性に敏感であることが判明した。
この感度にもかかわらず、関連するデータコンテキストを抽出することができる。
しかし、LLMは可視化タスクの推測に苦労している。
これらの結果に基づき、可視化生成にLLMを使うことに関する今後の研究の方向性を強調した。
Automatically generating data visualizations in response to human utterances on datasets necessitates a deep semantic understanding of the data utterance, including implicit and explicit references to data attributes, visualization tasks, and necessary data preparation steps. Natural Language Interfaces (NLIs) for data visualization have explored ways to infer such information, yet challenges persist due to inherent uncertainty in human speech. Recent advances in Large Language Models (LLMs) provide an avenue to address these challenges, but their ability to extract the relevant semantic information remains unexplored. In this study, we evaluate four publicly available LLMs (GPT-4, Gemini-Pro, Llama3, and Mixtral), investigating their ability to comprehend utterances even in the presence of uncertainty and identify the relevant data context and visual tasks. Our findings reveal that LLMs are sensitive to uncertainties in utterances. Despite this sensitivity, they are able to extract the relevant data context. However, LLMs struggle with inferring visualization tasks. Based on these results, we highlight future research directions on using LLMs for visualization generation. | 翻訳日:2024-07-09 14:40:07 公開日:2024-07-08 |
# ANOLE: インターリーブ画像テキスト生成のためのオープンで自己回帰的でネイティブな大規模マルチモーダルモデル
ANOLE: An Open, Autoregressive, Native Large Multimodal Models for Interleaved Image-Text Generation ( http://arxiv.org/abs/2407.06135v1 ) ライセンス: Link先を確認 | Ethan Chern, Jiadi Su, Yan Ma, Pengfei Liu, | (参考訳) 従来のオープンソースの大規模マルチモーダルモデル (LMM) にはいくつかの制限がある: 1) ネイティブ統合が欠如しており、事前訓練された大規模言語モデル (LLM) と視覚表現を整合させるアダプタを必要としている; (2) 多くは単一モーダル生成に限定されている; (3) マルチモーダル生成をサポートするものもあるが、視覚モデリングと生成のために別々の拡散モデルに依存している。
これらの制約を緩和するために、我々はオープンで自己回帰的でネイティブな大規模マルチモーダルモデルであるAnoleを紹介した。
Meta AIのChameleonからAnoleを構築し、データ効率とパラメータ効率の両方の革新的な微調整戦略を採用しています。
Anoleは高品質でコヒーレントなマルチモーダル生成機能を示している。
当社は、モデル、トレーニングフレームワーク、チューニングデータなどをオープンソース化しました。
Previous open-source large multimodal models (LMMs) have faced several limitations: (1) they often lack native integration, requiring adapters to align visual representations with pre-trained large language models (LLMs); (2) many are restricted to single-modal generation; (3) while some support multimodal generation, they rely on separate diffusion models for visual modeling and generation. To mitigate these limitations, we present Anole, an open, autoregressive, native large multimodal model for interleaved image-text generation. We build Anole from Meta AI's Chameleon, adopting an innovative fine-tuning strategy that is both data-efficient and parameter-efficient. Anole demonstrates high-quality, coherent multimodal generation capabilities. We have open-sourced our model, training framework, and instruction tuning data. | 翻訳日:2024-07-09 14:40:07 公開日:2024-07-08 |
# Mamba-FSCIL:Few-Shot Class-Incremental Learningのための選択状態空間モデルによる動的適応
Mamba-FSCIL: Dynamic Adaptation with Selective State Space Model for Few-Shot Class-Incremental Learning ( http://arxiv.org/abs/2407.06136v1 ) ライセンス: Link先を確認 | Xiaojie Li, Yibo Yang, Jianlong Wu, Bernard Ghanem, Liqiang Nie, Min Zhang, | (参考訳) FSCIL(Few-shot class-incremental Learning)は、学習済みのクラスの知識を維持しながら、最小限のトレーニングサンプルを持つモデルに新しいクラスを統合するという課題に直面している。
従来の手法では、固定パラメータ空間に依存する静的適応を広く採用して、逐次到着するデータから学習し、現在のセッションに過度に適合する傾向にある。
既存の動的戦略はパラメータ空間を継続的に拡張し、複雑さを増大させる。
これらの課題に対処するため、最近提案された選択状態空間モデル(SSM)をFSCILに統合する。
具体的には、動的適応のための中間特徴に基づいてプロジェクションパラメータを動的に調整するデュアル選択型SSMプロジェクタを提案する。
デュアルデザインにより、モデルはベースクラスの堅牢な特徴を維持でき、新規クラスの特徴シフトを適応的に学習することができる。
さらに,動的適応を誘導するクラス感受性選択的スキャン機構を開発した。
これは、新しいデータによるトレーニングによるベースクラス表現の中断を最小限に抑え、一方、選択スキャンはベースクラスと新規クラスの異なるパターンで実行するよう強制する。
miniImageNet, CUB-200, CIFAR-100 の実験により,我々のフレームワークは既存の最先端手法よりも優れていることが示された。
コードはhttps://github.com/xiaojieli0903/Mamba-FSCILで入手できる。
Few-shot class-incremental learning (FSCIL) confronts the challenge of integrating new classes into a model with minimal training samples while preserving the knowledge of previously learned classes. Traditional methods widely adopt static adaptation relying on a fixed parameter space to learn from data that arrive sequentially, prone to overfitting to the current session. Existing dynamic strategies require the expansion of the parameter space continually, leading to increased complexity. To address these challenges, we integrate the recently proposed selective state space model (SSM) into FSCIL. Concretely, we propose a dual selective SSM projector that dynamically adjusts the projection parameters based on the intermediate features for dynamic adaptation. The dual design enables the model to maintain the robust features of base classes, while adaptively learning distinctive feature shifts for novel classes. Additionally, we develop a class-sensitive selective scan mechanism to guide dynamic adaptation. It minimizes the disruption to base-class representations caused by training on novel data, and meanwhile, forces the selective scan to perform in distinct patterns between base and novel classes. Experiments on miniImageNet, CUB-200, and CIFAR-100 demonstrate that our framework outperforms the existing state-of-the-art methods. The code is available at https://github.com/xiaojieli0903/Mamba-FSCIL. | 翻訳日:2024-07-09 14:40:07 公開日:2024-07-08 |
# LLMモデリングタスクにおける文法マスキングを用いた構文的妥当性保証
Using Grammar Masking to Ensure Syntactic Validity in LLM-based Modeling Tasks ( http://arxiv.org/abs/2407.06146v1 ) ライセンス: Link先を確認 | Lukas Netz, Jan Reimar, Bernhard Rumpe, | (参考訳) 本研究では,ある文脈自由文法に対して構文的に正しいモデルを生成するために,大規模言語モデル (LLM) を導出するための文法マスキング法を提案し,評価する。
少数ショット学習やプライミングのようなプロンプトエンジニアリング手法は、LLMが正しい構文を生成する可能性を改善するために用いられるが、文法がより複雑になればなるほど、これらの手法はより時間がかかり、期待できないものとなる。
これまでの仕事は、主に言語モデルトレーニングまたはプロンプトエンジニアリングの使用に焦点を当てていた。
本研究では,制約付き復号法を用いて与えられた文法に出力を限定する手法を提示し,その出力が有効な構文に適合することを保証する。
いくつかのDSLをMontiCoreで構築し、複数のLLMをタスクして、制約付きデコーディングなしでモデルを生成します。
対応するパーサを使用して、各モデルの構文的正しさを確認する。
文法マスキングは,複数のLLMのモデリング能力を劇的に改善し,適切なモデルを作成する可能性を高めつつ,適切なプロンプトの必要性を低減できることを示す。
We present and evaluate a method called grammar masking, which is used to guide large language models (LLMs) toward producing syntactically correct models for a given context-free grammar. Prompt engineering methods such as few-shot learning or priming can be used to improve the chances of an LLM producing correct syntax, but the more complex the grammar, the more time-consuming and less promising these methods become. Previous work is focused primarily on the usage of either language model training or prompt engineering. In this work, a method is presented that restricts the output to a given grammar using constrained decoding to ensure the output adheres to a valid syntax. We use several DSLs built with MontiCore and task multiple LLMs to produce models with and without constrained decoding. A corresponding parser is used to confirm the syntactic correctness of each model. We show that grammar masking can dramatically improve the modeling capabilities of several LLMs, reducing the need for well-refined prompting while increasing the chance of producing correct models. | 翻訳日:2024-07-09 14:40:07 公開日:2024-07-08 |
# PanDORA: 屋内シーンのためのカジュアルHDRラジアンス買収
PanDORA: Casual HDR Radiance Acquisition for Indoor Scenes ( http://arxiv.org/abs/2407.06150v1 ) ライセンス: Link先を確認 | Mohammad Reza Karimi Dastjerdi, Frédéric Fortier-Chouinard, Yannick Hold-Geoffroy, Marc Hébert, Claude Demers, Nima Kalantari, Jean-François Lalonde, | (参考訳) 標準的な低ダイナミックレンジ(LDR)カメラで撮影される写真で通常訓練されているため、NeRFのような新しいビュー合成手法では、シーンの真の高ダイナミックレンジ(HDR)ラディアンスを捉えることができない。
異なる露光で複数の画像を撮影する従来の露光ブラケット手法は、最近マルチビューケースに適用されているが、非常に明るい光源を含む屋内シーンのフルダイナミックレンジを捉えるには至っていない。
本稿では,パノラマDual-Observer Radiance Acquisitionシステムを用いて,屋内シーンを高ダイナミックレンジでカジュアルに捕捉する手法を提案する。
提案システムは2台の360{\deg}カメラを携帯型三脚に固定する。
カメラは同時に2つの360{\deg}ビデオを取得する。1つは通常の露出で、もう1つは非常に速い露出で。
得られた画像は、シーンのフルハイダイナミックレンジを再構築するNeRFベースのアルゴリズムに供給される。
従来のHDRベースラインと比較して,近年のNeRFのようなアプローチによる捕捉の容易さを維持しつつ,視覚的品質を犠牲にすることなく,室内シーンのフルHDRラディアンスを再構築する。
Most novel view synthesis methods such as NeRF are unable to capture the true high dynamic range (HDR) radiance of scenes since they are typically trained on photos captured with standard low dynamic range (LDR) cameras. While the traditional exposure bracketing approach which captures several images at different exposures has recently been adapted to the multi-view case, we find such methods to fall short of capturing the full dynamic range of indoor scenes, which includes very bright light sources. In this paper, we present PanDORA: a PANoramic Dual-Observer Radiance Acquisition system for the casual capture of indoor scenes in high dynamic range. Our proposed system comprises two 360{\deg} cameras rigidly attached to a portable tripod. The cameras simultaneously acquire two 360{\deg} videos: one at a regular exposure and the other at a very fast exposure, allowing a user to simply wave the apparatus casually around the scene in a matter of minutes. The resulting images are fed to a NeRF-based algorithm that reconstructs the scene's full high dynamic range. Compared to HDR baselines from previous work, our approach reconstructs the full HDR radiance of indoor scenes without sacrificing the visual quality while retaining the ease of capture from recent NeRF-like approaches. | 翻訳日:2024-07-09 14:40:07 公開日:2024-07-08 |
# Uni-ELF: 電解質の定式化設計のための多層表現学習フレームワーク
Uni-ELF: A Multi-Level Representation Learning Framework for Electrolyte Formulation Design ( http://arxiv.org/abs/2407.06152v1 ) ライセンス: Link先を確認 | Boshen Zeng, Sian Chen, Xinxin Liu, Changhong Chen, Bin Deng, Xiaoxu Wang, Zhifeng Gao, Yuzhi Zhang, Weinan E, Linfeng Zhang, | (参考訳) リチウム電池技術の進歩は電解質の設計と工学に大きく依存している。
しかし、分子設計と電解質のレシピ最適化の現在のスキームは、有効な計算実験の閉ループを欠き、しばしば様々な電解質の定式化特性を正確に予測するのに不足する。
本研究では,電解質設計を進展させる新しい多レベル表現学習フレームワークUni-ELFを紹介する。
分子レベルでの3次元分子構造をUni-Molモデルを用いて再構成し,分子動力学シミュレーションから統計的構造特性(放射分布関数など)を予測する。
この包括的事前学習により、Uni-ELFは複雑な分子レベルと混合レベルの情報をキャプチャすることができ、予測能力を大幅に向上させることができる。
結果として、Uni-ELFは、分子特性(例えば、融点、沸点、合成性)と定式化特性(例えば、導電性、クーロン効率)を予測するための最先端の手法を大幅に上回る。
さらに、Uni-ELFは自動実験設計ワークフローにシームレスに統合できる。
私たちはこの革新的なフレームワークが、AIベースの電解質設計とエンジニアリングの自動化の道を開くと信じています。
Advancements in lithium battery technology heavily rely on the design and engineering of electrolytes. However, current schemes for molecular design and recipe optimization of electrolytes lack an effective computational-experimental closed loop and often fall short in accurately predicting diverse electrolyte formulation properties. In this work, we introduce Uni-ELF, a novel multi-level representation learning framework to advance electrolyte design. Our approach involves two-stage pretraining: reconstructing three-dimensional molecular structures at the molecular level using the Uni-Mol model, and predicting statistical structural properties (e.g., radial distribution functions) from molecular dynamics simulations at the mixture level. Through this comprehensive pretraining, Uni-ELF is able to capture intricate molecular and mixture-level information, which significantly enhances its predictive capability. As a result, Uni-ELF substantially outperforms state-of-the-art methods in predicting both molecular properties (e.g., melting point, boiling point, synthesizability) and formulation properties (e.g., conductivity, Coulombic efficiency). Moreover, Uni-ELF can be seamlessly integrated into an automatic experimental design workflow. We believe this innovative framework will pave the way for automated AI-based electrolyte design and engineering. | 翻訳日:2024-07-09 14:40:07 公開日:2024-07-08 |
# 大規模言語モデルで生成されたコードに何の誤りがあるのか?
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study ( http://arxiv.org/abs/2407.06153v1 ) ライセンス: Link先を確認 | Shihan Dou, Haoxiang Jia, Shenxi Wu, Huiyuan Zheng, Weikang Zhou, Muling Wu, Mingxu Chai, Jessica Fan, Caishuang Huang, Yunbo Tao, Yan Liu, Enyu Zhou, Ming Zhang, Yuhao Zhou, Yueming Wu, Rui Zheng, Ming Wen, Rongxiang Weng, Jingang Wang, Xunliang Cai, Tao Gui, Xipeng Qiu, Qi Zhang, Xuanjing Huang, | (参考訳) コード生成における大規模言語モデル(LLM)の発展は、研究者の間で大きな注目を集めている。
LLMベースのコード生成能力を高めるため、現在の取り組みは主に高品質なデータセットを収集し、多様なトレーニング技術を活用することを目的としている。
しかし、これらの既存手法の限界と境界を概観する包括的研究の欠如が顕著である。
このギャップを埋めるために、我々は3つの主要なクローズドソース LLM と4つの人気のあるオープンソース LLM の性能を3つの一般的なベンチマークで評価した。
生成したコードの長さ,サイクロマティックな複雑さ,API番号を評価した調査の結果,これらのLLMは,より複雑な問題に対してコードを生成する上で難しい問題に直面しており,標準的なソリューションに比べて短いが,より複雑なコードを生成する傾向があることが明らかになった。
さらに、3つのカテゴリと12のサブカテゴリを含む間違ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析しました。
さらに,実世界のプロジェクトにおけるLLMの性能をよりよく理解するために,140のコード生成タスクからなる実世界のベンチマークを手作業で作成した。
我々の分析では、実際のシナリオと既存のベンチマークのバグの分布が異なる点を強調しています。
最後に, 自己批判を導入し, バグタイプやコンパイラフィードバックに基づいて, LLMのコードに対する批判と修正を可能にする, 新たな学習自由反復手法を提案する。
実験の結果,本手法は2回の反復でバグを著しく軽減し,通過率を29.2%向上させることで,LLMがより複雑な問題に対処できる可能性が示唆された。
The increasing development of large language models (LLMs) in code generation has drawn significant attention among researchers. To enhance LLM-based code generation ability, current efforts are predominantly directed towards collecting high-quality datasets and leveraging diverse training technologies. However, there is a notable lack of comprehensive studies examining the limitations and boundaries of these existing methods. To bridge this gap, we conducted an extensive empirical study evaluating the performance of three leading closed-source LLMs and four popular open-source LLMs on three commonly used benchmarks. Our investigation, which evaluated the length, cyclomatic complexity and API number of the generated code, revealed that these LLMs face challenges in generating successful code for more complex problems, and tend to produce code that is shorter yet more complicated as compared to canonical solutions. Additionally, we developed a taxonomy of bugs for incorrect codes that includes three categories and 12 sub-categories, and analyze the root cause for common bug types. Furthermore, to better understand the performance of LLMs in real-world projects, we manually created a real-world benchmark comprising 140 code generation tasks. Our analysis highlights distinct differences in bug distributions between actual scenarios and existing benchmarks. Finally, we propose a novel training-free iterative method that introduces self-critique, enabling LLMs to critique and correct their generated code based on bug types and compiler feedback. Experimental results demonstrate that our approach can significantly mitigate bugs and increase the passing rate by 29.2% after two iterations, indicating substantial potential for LLMs to handle more complex problems. | 翻訳日:2024-07-09 14:40:07 公開日:2024-07-08 |
# DεpS: より高速な1回のトレーニングのための遅延εシンク
DεpS: Delayed ε-Shrinking for Faster Once-For-All Training ( http://arxiv.org/abs/2407.06167v1 ) ライセンス: Link先を確認 | Aditya Annavajjala, Alind Khare, Animesh Agrawal, Igor Fedorov, Hugo Latapie, Myungjin Lee, Alexey Tumanov, | (参考訳) CNNは、さまざまなハードウェア、動的環境、低消費電力組み込みデバイスにデプロイされるようになっている。
このことがCNNアーキテクチャの設計とトレーニングにつながった。
デプロイメントシナリオの数が増えるにつれて、特殊なCNNを設計し、トレーニングするためのスケーラブルなソリューションを見つける必要がある。
一度限りのトレーニングは、多くのモデル(サブネット)を一定のトレーニングコストで同時にトレーニングし、後に特別なCNNを見つける、スケーラブルなアプローチとして現れました。
スケーラビリティは、フルモデルをトレーニングし、同時にモデルの重みを共有する小さなサブネット(重み付き縮小)に還元することで達成される。
しかし、既存のトレーニングアプローチでは、1200GPU時間に巨大なトレーニングコストがかかります。
これは、モデル全体を縮小するプロセスが早すぎるか遅すぎるためである、と私たちは主張しています。
そこで、Delayed $\epsilon$-Shrinking (D$\epsilon$pS)を提案する。これは、部分的に訓練された場合(~50%)にモデル全体を縮小するプロセスを開始し、トレーニングコストの改善と、より小さなモデルへのインプレース知識蒸留の改善につながる。
提案手法は, サブネット学習率を漸進的に動的に調整する新しいヒューリスティックス (E) によって構成される。
その結果、DepSはCIFAR10/100、ImageNet-100、ImageNet-1kなど、さまざまなデータセットにわたる最先端の1対1のトレーニングテクニックを精度とコストで上回ります。
ImageNet-1kトップ1の精度は1.83%向上し、FLOPは1.3倍、トレーニングコストは2.5倍削減された(GPU*hrs)。
CNNs are increasingly deployed across different hardware, dynamic environments, and low-power embedded devices. This has led to the design and training of CNN architectures with the goal of maximizing accuracy subject to such variable deployment constraints. As the number of deployment scenarios grows, there is a need to find scalable solutions to design and train specialized CNNs. Once-for-all training has emerged as a scalable approach that jointly co-trains many models (subnets) at once with a constant training cost and finds specialized CNNs later. The scalability is achieved by training the full model and simultaneously reducing it to smaller subnets that share model weights (weight-shared shrinking). However, existing once-for-all training approaches incur huge training costs reaching 1200 GPU hours. We argue this is because they either start the process of shrinking the full model too early or too late. Hence, we propose Delayed $\epsilon$-Shrinking (D$\epsilon$pS) that starts the process of shrinking the full model when it is partially trained (~50%) which leads to training cost improvement and better in-place knowledge distillation to smaller models. The proposed approach also consists of novel heuristics that dynamically adjust subnet learning rates incrementally (E), leading to improved weight-shared knowledge distillation from larger to smaller subnets as well. As a result, DEpS outperforms state-of-the-art once-for-all training techniques across different datasets including CIFAR10/100, ImageNet-100, and ImageNet-1k on accuracy and cost. It achieves 1.83% higher ImageNet-1k top1 accuracy or the same accuracy with 1.3x reduction in FLOPs and 2.5x drop in training cost (GPU*hrs) | 翻訳日:2024-07-09 14:30:11 公開日:2024-07-08 |
# TARGO: Occlusionsの下でターゲット駆動型オブジェクトグラフのベンチマーク
TARGO: Benchmarking Target-driven Object Grasping under Occlusions ( http://arxiv.org/abs/2407.06168v1 ) ライセンス: Link先を確認 | Yan Xia, Ran Ding, Ziyuan Qin, Guanqi Zhan, Kaichen Zhou, Long Yang, Hao Dong, Daniel Cremers, | (参考訳) 単一深度画像からの6次元グリップポーズの予測の最近の進歩は、ロボットグリップにおける有望な性能をもたらした。
しかし、従来の把握モデルは、近くの物体が対象物体の把握に影響を及ぼす散らかった環境において課題に直面している。
本稿では,Occlusions を用いた TARget-driven Grasping のための新しいベンチマークデータセット TARGO を構築した。
以下に貢献する。
1) つかむことの排他的レベルを初めて研究する。
2) 大規模合成データと実世界のデータの一部からなる評価ベンチマークを設定し, 5つの把握モデルを評価し, 現在のSOTAモデルでさえ, 閉塞レベルが大きくなると悩まされ, 隠蔽下での把握は依然として困難であることがわかった。
3) 拡張性のあるパイプラインを通じて大規模なトレーニングデータセットを生成することで,隠蔽下での把握性能を高め,現実の世界に一般化することが可能になる。
4) TARGO-Net と呼ばれる形状完備モジュールを含む変圧器による把握モデルも提案する。
ベンチマークデータセットはhttps://TARGO-benchmark.github.io/で確認できます。
Recent advances in predicting 6D grasp poses from a single depth image have led to promising performance in robotic grasping. However, previous grasping models face challenges in cluttered environments where nearby objects impact the target object's grasp. In this paper, we first establish a new benchmark dataset for TARget-driven Grasping under Occlusions, named TARGO. We make the following contributions: 1) We are the first to study the occlusion level of grasping. 2) We set up an evaluation benchmark consisting of large-scale synthetic data and part of real-world data, and we evaluated five grasp models and found that even the current SOTA model suffers when the occlusion level increases, leaving grasping under occlusion still a challenge. 3) We also generate a large-scale training dataset via a scalable pipeline, which can be used to boost the performance of grasping under occlusion and generalized to the real world. 4) We further propose a transformer-based grasping model involving a shape completion module, termed TARGO-Net, which performs most robustly as occlusion increases. Our benchmark dataset can be found at https://TARGO-benchmark.github.io/. | 翻訳日:2024-07-09 14:30:11 公開日:2024-07-08 |
# 電位に基づく拡散運動計画
Potential Based Diffusion Motion Planning ( http://arxiv.org/abs/2407.06169v1 ) ライセンス: Link先を確認 | Yunhao Luo, Chen Sun, Joshua B. Tenenbaum, Yilun Du, | (参考訳) 高次元空間における効果的な運動計画は、ロボット工学における長年のオープンな問題である。
従来の動き計画アルゴリズムの1つのクラスは、ポテンシャルに基づく動き計画に対応する。
ポテンシャルに基づく運動計画の利点は構成可能性であり、異なる運動制約を対応するポテンシャルを追加することで簡単に組み合わせることができる。
しかし、ポテンシャルから運動経路を構築するには、しばしば局所ミニマになるような構成空間ポテンシャルランドスケープ全体にわたる大域的最適化の解決が必要である。
そこで我々は、ニューラルネットワークをトレーニングして、運動計画軌跡よりも容易に最適化可能なポテンシャルを捕捉し学習する、ポテンシャルに基づく運動計画学習への新たなアプローチを提案する。
本稿では,従来の学習行動計画手法と近年の学習行動計画手法の両方を著しく上回り,局所的なミニマ問題を回避する手法の有効性について述べる。
さらに、その固有の構成可能性を説明し、様々な動きの制約に一般化できるようにする。
Effective motion planning in high dimensional spaces is a long-standing open problem in robotics. One class of traditional motion planning algorithms corresponds to potential-based motion planning. An advantage of potential based motion planning is composability -- different motion constraints can be easily combined by adding corresponding potentials. However, constructing motion paths from potentials requires solving a global optimization across configuration space potential landscape, which is often prone to local minima. We propose a new approach towards learning potential based motion planning, where we train a neural network to capture and learn an easily optimizable potentials over motion planning trajectories. We illustrate the effectiveness of such approach, significantly outperforming both classical and recent learned motion planning approaches and avoiding issues with local minima. We further illustrate its inherent composability, enabling us to generalize to a multitude of different motion constraints. | 翻訳日:2024-07-09 14:30:11 公開日:2024-07-08 |
# 電子構造に対する適応対角基底集合の高速かつスペクトル的構築
Fast and spectrally accurate construction of adaptive diagonal basis sets for electronic structure ( http://arxiv.org/abs/2407.06171v1 ) ライセンス: Link先を確認 | Michael Lindsey, Sandeep Sharma, | (参考訳) 本稿では,周期的なシンク基底と電子構造計算のための曲線座標系を組み合わせる。
この拡張は、原子間領域の核に近い高分解能と低い分解能を持つ、計算領域全体の可変分解能を可能にする。
このような座標変換によって得られる基底集合を用いて生じる2つの重要な課題に対処する。
まず、この基底でハミルトニアンを構成するために必要な積分を評価するために擬スペクトル法を用いる。
第二に、循環Knothe-Rosenblattフローと呼ばれる新しいアプローチを用いて、Monge-Amp\`ere方程式を解くことによって、適切な座標変換を構築する方法を示す。
これら2つの課題の解決策は、基底関数の数で対数線型となるコストで平均場計算を可能にする。
本手法は,一様分解能を持つ基底集合よりも早く,完全基底集合の極限にアプローチできることを実証する。
また,これらの基底集合が擬似スペクトル法の結果である対角近似をどのように満たすかを強調した。
対角近似は平均場の理論、テンソルネットワーク法、量子コンピューティング、量子モンテカルロを含む多くのフレームワークにおいて電子構造問題の解法として非常に望ましい。
In this article, we combine the periodic sinc basis set with a curvilinear coordinate system for electronic structure calculations. This extension allows for variable resolution across the computational domain, with higher resolution close to the nuclei and lower resolution in the inter-atomic regions. We address two key challenges that arise while using basis sets obtained by such a coordinate transformation. First, we use pseudospectral methods to evaluate the integrals needed to construct the Hamiltonian in this basis. Second, we demonstrate how to construct an appropriate coordinate transformation by solving the Monge-Amp\`ere equation using a new approach that we call the cyclic Knothe-Rosenblatt flow. The solution of both of these challenges enables mean-field calculations at a cost that is log-linear in the number of basis functions. We demonstrate that our method approaches the complete basis set limit faster than basis sets with uniform resolution. We also emphasize how these basis sets satisfy the diagonal approximation, which is shown to be a consequence of the pseudospectral method. The diagonal approximation is highly desirable for the solution of the electronic structure problem in many frameworks, including mean field theories, tensor network methods, quantum computing, and quantum Monte Carlo. | 翻訳日:2024-07-09 14:30:11 公開日:2024-07-08 |
# 言語モデル評価の高速化について
On Speeding Up Language Model Evaluation ( http://arxiv.org/abs/2407.06172v1 ) ライセンス: Link先を確認 | Jin Peng Zhou, Christian K. Belardi, Ruihan Wu, Travis Zhang, Carla P. Gomes, Wen Sun, Kilian Q. Weinberger, | (参考訳) 大規模言語モデル (LLM) は現在、自然言語処理 (NLP) の分野を支配しており、様々なタスクにまたがる最先端技術を表している。
訓練から推論まで、この性質のモデルを開発するには、組合せ探索問題を定義する多くの決定が必要である。
例えば、タスクの最高のパフォーマンスを達成するための最適なLLM、プロンプト、ハイパーパラメータを選択するには、テストセット全体において複数の候補を評価する必要があります。
この徹底的な評価は、LLMによる推論とメートル法計算の両方がリソース集約であるため、時間と費用がかかる可能性がある。
本稿では,テスト例の手法を評価するために,限られた予算内で最良の方法を特定するという課題に対処する。
提案手法は,マルチアーム・バンディット・アルゴリズムと低ランク因数分解アルゴリズムを組み合わせることで,必要なリソースを大幅に削減する。
実験の結果,本アルゴリズムは,必要資源の5~15パーセントしか必要とせず,85~95パーセントのコスト削減を実現していることがわかった。
Large language models (LLMs) currently dominate the field of natural language processing (NLP), representing the state-of-the-art across a diverse array of tasks. Developing a model of this nature, from training to inference, requires making numerous decisions which define a combinatorial search problem. For example, selecting the optimal pre-trained LLM, prompt, or hyperparameters to attain the best performance for a task often requires evaluating multiple candidates on an entire test set. This exhaustive evaluation can be time-consuming and costly, as both inference and metric computation with LLMs are resource-intensive. In this paper, we address the challenge of identifying the best method within a limited budget for evaluating methods on test examples. By leveraging the well-studied multi-armed bandit framework, which sequentially selects the next method-example pair to evaluate, our approach, combining multi-armed bandit algorithms with low-rank factorization, significantly reduces the required resources. Experiments show that our algorithms can identify the top-performing method using only 5-15\% of the typically needed resources, resulting in an 85-95\% reduction in cost. | 翻訳日:2024-07-09 14:30:11 公開日:2024-07-08 |
# ディープフェイク生成と検出のタグ・オブ・ウォー
The Tug-of-War Between Deepfake Generation and Detection ( http://arxiv.org/abs/2407.06174v1 ) ライセンス: Link先を確認 | Hannah Lee, Changyeon Lee, Kevin Farhat, Lin Qiu, Steve Geluso, Aerin Kim, Oren Etzioni, | (参考訳) マルチモーダル生成モデルは急速に進化し、現実的なビデオやオーディオの生成が急増し、エキサイティングな可能性だけでなく深刻なリスクももたらされる。
ディープフェイク動画は、偽情報を拡散したり、不正なコンテンツを作ったりする際に悪用される可能性があるため、特に注目を集めている。
本研究は, ディープフェイク映像の生成と検出の両面を考察し, 潜在的虐待に対する効果的な対策の必要性を強調した。
本稿では, 顔交換, 再現, 音声駆動アニメーションなど, 現在のディープフェイク生成技術の概要について概説する。
さらに,映像や音声信号間の不整合を識別する高度なアルゴリズムの展開から,映像と映像を区別するために設計された様々な検出手法を分析した。
これらの検出手法の有効性は、トレーニングと評価に使用されるデータセットの多様性と品質に大きく依存している。
本稿では,検出精度と一般化性を高めるために,頑健で多種多様で頻繁に更新されるコレクションの重要性を強調し,ディープフェイクデータセットの進化について論じる。
ディープフェイクが真のコンテンツと区別しにくくなるにつれ、世代技術に追従できる高度な検出技術の開発が不可欠である。
我々は、ディープフェイクのクリエーターと検出器の「綱引き」における積極的なアプローチを提唱し、継続的な研究協力の必要性、評価指標の標準化、包括的なベンチマークの作成を強調します。
Multimodal generative models are rapidly evolving, leading to a surge in the generation of realistic video and audio that offers exciting possibilities but also serious risks. Deepfake videos, which can convincingly impersonate individuals, have particularly garnered attention due to their potential misuse in spreading misinformation and creating fraudulent content. This survey paper examines the dual landscape of deepfake video generation and detection, emphasizing the need for effective countermeasures against potential abuses. We provide a comprehensive overview of current deepfake generation techniques, including face swapping, reenactment, and audio-driven animation, which leverage cutting-edge technologies like generative adversarial networks and diffusion models to produce highly realistic fake videos. Additionally, we analyze various detection approaches designed to differentiate authentic from altered videos, from detecting visual artifacts to deploying advanced algorithms that pinpoint inconsistencies across video and audio signals. The effectiveness of these detection methods heavily relies on the diversity and quality of datasets used for training and evaluation. We discuss the evolution of deepfake datasets, highlighting the importance of robust, diverse, and frequently updated collections to enhance the detection accuracy and generalizability. As deepfakes become increasingly indistinguishable from authentic content, developing advanced detection techniques that can keep pace with generation technologies is crucial. We advocate for a proactive approach in the "tug-of-war" between deepfake creators and detectors, emphasizing the need for continuous research collaboration, standardization of evaluation metrics, and the creation of comprehensive benchmarks. | 翻訳日:2024-07-09 14:30:11 公開日:2024-07-08 |
# 文化的・包括的考察に基づく視覚・言語モデル
Vision-Language Models under Cultural and Inclusive Considerations ( http://arxiv.org/abs/2407.06177v1 ) ライセンス: Link先を確認 | Antonia Karamolegkou, Phillip Rust, Yong Cao, Ruixiang Cui, Anders Søgaard, Daniel Hershcovich, | (参考訳) 視覚言語モデル(VLM)は、日常生活の画像を記述することで視覚障害者を支援する。
現在の評価データセットは、多様な文化的ユーザ背景や、このユースケースの状況を反映していない可能性がある。
この問題に対処するため、私たちは、字幕の好みを決定するための調査を作成し、視覚障害者によって撮影された画像を含む既存のデータセットであるVizWizをフィルタリングすることで、文化中心の評価ベンチマークを提案する。
次に,複数のVLMを評価し,その信頼性を文化的に多様な環境で視覚アシスタントとして検証した。
最先端モデルに対する我々の結果は有望であるが,人間の判断による幻覚や自動評価指標の誤調整といった課題を識別する。
調査、データ、コード、モデルアウトプットを公開しています。
Large vision-language models (VLMs) can assist visually impaired people by describing images from their daily lives. Current evaluation datasets may not reflect diverse cultural user backgrounds or the situational context of this use case. To address this problem, we create a survey to determine caption preferences and propose a culture-centric evaluation benchmark by filtering VizWiz, an existing dataset with images taken by people who are blind. We then evaluate several VLMs, investigating their reliability as visual assistants in a culturally diverse setting. While our results for state-of-the-art models are promising, we identify challenges such as hallucination and misalignment of automatic evaluation metrics with human judgment. We make our survey, data, code, and model outputs publicly available. | 翻訳日:2024-07-09 14:30:11 公開日:2024-07-08 |
# スネーク識別のための自己監督型視覚変換器を用いた伝達学習
Transfer Learning with Self-Supervised Vision Transformers for Snake Identification ( http://arxiv.org/abs/2407.06178v1 ) ライセンス: Link先を確認 | Anthony Miyaguchi, Murilo Gustineli, Austin Fischer, Ryan Lundqvist, | (参考訳) 我々は,SnakeCLEF 2024コンペティションに対して,画像からヘビ種を予測するアプローチを提案する。
特徴抽出のためのMetaのDINOv2ビジョントランスフォーマーモデルを探索し,182,261画像のデータセットにおいて,種多様性と視覚的類似性に対処する。
本研究は, 埋込みに関する探索的解析を行い, その構造を理解するとともに, 埋込み上の線形分類器を訓練し, 種を予測する。
39.69のスコアを得たにもかかわらず、DINOv2をヘビの識別に埋め込むことが保証された。
このプロジェクトのコードは、https://github.com/dsgt-kaggle-clef/snakeclef-2024で公開されている。
We present our approach for the SnakeCLEF 2024 competition to predict snake species from images. We explore and use Meta's DINOv2 vision transformer model for feature extraction to tackle species' high variability and visual similarity in a dataset of 182,261 images. We perform exploratory analysis on embeddings to understand their structure, and train a linear classifier on the embeddings to predict species. Despite achieving a score of 39.69, our results show promise for DINOv2 embeddings in snake identification. All code for this project is available at https://github.com/dsgt-kaggle-clef/snakeclef-2024. | 翻訳日:2024-07-09 14:30:11 公開日:2024-07-08 |
# エッジをステッピングする - 学習速度チューニングの曲率認識
Stepping on the Edge: Curvature Aware Learning Rate Tuners ( http://arxiv.org/abs/2407.06183v1 ) ライセンス: Link先を確認 | Vincent Roulet, Atish Agarwala, Jean-Bastien Grill, Grzegorz Swirszcz, Mathieu Blondel, Fabian Pedregosa, | (参考訳) 曲率情報(特に、鋭さとして知られるロス・ヘッセンの最大の固有値)は、学習率チューナーの基礎となることが多い。
しかし、最近の研究により、曲率情報は、シャープネスを増す段階から最終的な安定化段階まで、訓練中に複雑な力学を経ることが示されている。
学習速度チューニングと曲率の閉ループフィードバック効果を解析する。
古典的な学習速度チューナーは1ステップの損失を減少させるが、最終的にはバッチ全体の定常的な学習率と比較して、長期的には性能が低下する。
これらのモデルはシャープネスの安定化を破り、学習速度と曲率のジョイントダイナミクスの単純化されたモデルを用いて説明する。
これらの効果をさらに調査するため,学習速度チューニング手法であるCurvature Dynamics Aware Tuning (CDAT)を導入し,目標の即時進行よりも長期の曲率安定化を優先する。
フルバッチシステムでは、CDATは、学習目標に対するプレフィックス付きウォームアップスケジュールに似た振る舞いを示し、チューニングされた一定の学習率を上回っている。
ミニバッチシステムでは、確率性は、いくつかの学習率チューナーが適切なバッチサイズで以前成功していたことを説明できる共起効果をもたらすことが観察される。
本研究は,学習率と曲率の連関ダイナミクスを理解する上で,失敗の診断や適応学習率チューナーの設計に重要な役割を担っている。
Curvature information -- particularly, the largest eigenvalue of the loss Hessian, known as the sharpness -- often forms the basis for learning rate tuners. However, recent work has shown that the curvature information undergoes complex dynamics during training, going from a phase of increasing sharpness to eventual stabilization. We analyze the closed-loop feedback effect between learning rate tuning and curvature. We find that classical learning rate tuners may yield greater one-step loss reduction, yet they ultimately underperform in the long term when compared to constant learning rates in the full batch regime. These models break the stabilization of the sharpness, which we explain using a simplified model of the joint dynamics of the learning rate and the curvature. To further investigate these effects, we introduce a new learning rate tuning method, Curvature Dynamics Aware Tuning (CDAT), which prioritizes long term curvature stabilization over instantaneous progress on the objective. In the full batch regime, CDAT shows behavior akin to prefixed warm-up schedules on deep learning objectives, outperforming tuned constant learning rates. In the mini batch regime, we observe that stochasticity introduces confounding effects that explain the previous success of some learning rate tuners at appropriate batch sizes. Our findings highlight the critical role of understanding the joint dynamics of the learning rate and curvature, beyond greedy minimization, to diagnose failures and design effective adaptive learning rate tuners. | 翻訳日:2024-07-09 14:30:11 公開日:2024-07-08 |
# JeDi: ファインタニングフリーの個人化テキスト・画像生成のための共同画像拡散モデル
JeDi: Joint-Image Diffusion Models for Finetuning-Free Personalized Text-to-Image Generation ( http://arxiv.org/abs/2407.06187v1 ) ライセンス: Link先を確認 | Yu Zeng, Vishal M. Patel, Haochen Wang, Xun Huang, Ting-Chun Wang, Ming-Yu Liu, Yogesh Balaji, | (参考訳) パーソナライズされたテキスト・ツー・イメージ生成モデルにより、ユーザーは様々な場面で個々の所有物を描いた画像を作成し、様々な領域のアプリケーションを見つけることができる。
パーソナライズ機能を実現するために、既存の手法では、ユーザのカスタムデータセットにテキスト・ツー・イメージの基礎モデルを微調整することに頼っている。
ファインタニングフリーな手法を開発しようとする試みにもかかわらず、その生成品質はファインタニングに比べてはるかに低い。
本稿では,ファインタニングフリーのパーソナライズモデルを学ぶための効果的な手法であるジョイントイメージ拡散(\jedi)を提案する。
我々の鍵となる考え方は、共通の主題を共有する複数の関連するテキストイメージペアの連成分布を学習することである。
学習を容易にするために,スケーラブルな合成データセット生成手法を提案する。
トレーニングが完了すると、サンプル処理中に参照イメージを入力として単純に使用することで、テスト時の高速かつ簡易なパーソナライズを可能にする。
当社のアプローチでは,コストのかかる最適化プロセスや追加モジュールは必要とせず,参照画像の数に代表されるアイデンティティを忠実に保存することができる。
実験結果から,従来のファインタニングベースとファインタニングフリーのパーソナライゼーションベースの両方を定量的に,質的にも質的にも,優れた生成品質が得られることが示された。
Personalized text-to-image generation models enable users to create images that depict their individual possessions in diverse scenes, finding applications in various domains. To achieve the personalization capability, existing methods rely on finetuning a text-to-image foundation model on a user's custom dataset, which can be non-trivial for general users, resource-intensive, and time-consuming. Despite attempts to develop finetuning-free methods, their generation quality is much lower compared to their finetuning counterparts. In this paper, we propose Joint-Image Diffusion (\jedi), an effective technique for learning a finetuning-free personalization model. Our key idea is to learn the joint distribution of multiple related text-image pairs that share a common subject. To facilitate learning, we propose a scalable synthetic dataset generation technique. Once trained, our model enables fast and easy personalization at test time by simply using reference images as input during the sampling process. Our approach does not require any expensive optimization process or additional modules and can faithfully preserve the identity represented by any number of reference images. Experimental results show that our model achieves state-of-the-art generation quality, both quantitatively and qualitatively, significantly outperforming both the prior finetuning-based and finetuning-free personalization baselines. | 翻訳日:2024-07-09 14:30:11 公開日:2024-07-08 |
# CrowdMoGen: ゼロショットテキスト駆動の集合モーション生成
CrowdMoGen: Zero-Shot Text-Driven Collective Motion Generation ( http://arxiv.org/abs/2407.06188v1 ) ライセンス: Link先を確認 | Xinying Guo, Mingyuan Zhang, Haozhe Xie, Chenyang Gu, Ziwei Liu, | (参考訳) 群衆運動生成は、アニメーションやゲームなどのエンターテイメント産業や、都市シミュレーションや計画といった戦略的分野において不可欠である。
この新しいタスクでは、特定の空間的制約と意味的制約の下で群衆のダイナミクスを現実的に合成するために、制御と生成の複雑な統合が必要である。
一方、既存の人間の運動生成モデルは、一般的に個人の行動に焦点を当て、集団行動の複雑さを無視する。
一方、近年の多対人動作生成法は、事前定義されたシナリオに大きく依存しており、固定された少数の対人インタラクションに限られており、その実用性を妨げている。
これらの課題を克服するために,我々は,大規模言語モデル(LLM)の力を活用したゼロショットテキスト駆動フレームワークであるCrowdMoGenを紹介した。
私たちのフレームワークは2つの重要なコンポーネントで構成されています。
1)特定の場面の状況に応じた動きや動きの調整や、導入された摂動を学習する群集シーンプランナー
2 集合運動発生装置は、全体計画に基づいて、必要な集合運動を効率的に合成する。
集団運動生成タスクにスケーラブルで一般化可能なソリューションを提供することによって,重要なギャップを埋めるだけでなく,高いレベルの現実性と柔軟性を実現する。
Crowd Motion Generation is essential in entertainment industries such as animation and games as well as in strategic fields like urban simulation and planning. This new task requires an intricate integration of control and generation to realistically synthesize crowd dynamics under specific spatial and semantic constraints, whose challenges are yet to be fully explored. On the one hand, existing human motion generation models typically focus on individual behaviors, neglecting the complexities of collective behaviors. On the other hand, recent methods for multi-person motion generation depend heavily on pre-defined scenarios and are limited to a fixed, small number of inter-person interactions, thus hampering their practicality. To overcome these challenges, we introduce CrowdMoGen, a zero-shot text-driven framework that harnesses the power of Large Language Model (LLM) to incorporate the collective intelligence into the motion generation framework as guidance, thereby enabling generalizable planning and generation of crowd motions without paired training data. Our framework consists of two key components: 1) Crowd Scene Planner that learns to coordinate motions and dynamics according to specific scene contexts or introduced perturbations, and 2) Collective Motion Generator that efficiently synthesizes the required collective motions based on the holistic plans. Extensive quantitative and qualitative experiments have validated the effectiveness of our framework, which not only fills a critical gap by providing scalable and generalizable solutions for Crowd Motion Generation task but also achieves high levels of realism and flexibility. | 翻訳日:2024-07-09 14:30:11 公開日:2024-07-08 |
# Video-STaR: 自己学習でどんな監督でもビデオのインストラクションを調整できる
Video-STaR: Self-Training Enables Video Instruction Tuning with Any Supervision ( http://arxiv.org/abs/2407.06189v1 ) ライセンス: Link先を確認 | Orr Zohar, Xiaohan Wang, Yonatan Bitton, Idan Szpektor, Serena Yeung-Levy, | (参考訳) 大規模ビジョン言語モデル(LVLM)の性能は、トレーニングデータセットのサイズと品質に依存する。
既存のビデオインストラクションチューニングデータセットは、ビデオキャプションで大きな言語モデルに質問応答ペアを生成するよう促すことによって、多様性を欠いている。
一方、ラベル付きビデオデータセットにはさまざまなラベルや監督機能があるが、LVLMへの統合は簡単ではない。
本稿では、最初のビデオ自己学習アプローチである拡張推論(Video-STaR)を用いたビデオ自己学習について述べる。
Video-STaRは、ビデオインストラクションチューニングにラベル付きビデオデータセットを利用することができる。
ビデオ-STaRでは、命令生成と微調整の間のLVLMサイクルが、(I)一般的なビデオ理解を改善し、(II)既存の監督下での下流タスクにLVLMを適応させる。
生成中、LVLMに解答を提案する。
回答は元のビデオラベルを含むもののみにフィルタリングされ、LVLMは生成されたデータセットで再トレーニングされる。
ビデオラベルを含む生成された回答のみをトレーニングすることにより、既存のビデオラベルをビデオインストラクションチューニングの弱い監督手段として利用する。
以上の結果から,(I)TempCompass性能が10%向上し,(II)TempCompass性能が10%向上し,(II)Cineetics700-QA精度が20%向上し,FineDivingの動作品質が15%向上した。
The performance of Large Vision Language Models (LVLMs) is dependent on the size and quality of their training datasets. Existing video instruction tuning datasets lack diversity as they are derived by prompting large language models with video captions to generate question-answer pairs, and are therefore mostly descriptive. Meanwhile, many labeled video datasets with diverse labels and supervision exist - however, we find that their integration into LVLMs is non-trivial. Herein, we present Video Self-Training with augmented Reasoning (Video-STaR), the first video self-training approach. Video-STaR allows the utilization of any labeled video dataset for video instruction tuning. In Video-STaR, an LVLM cycles between instruction generation and finetuning, which we show (I) improves general video understanding and (II) adapts LVLMs to novel downstream tasks with existing supervision. During generation, an LVLM is prompted to propose an answer. The answers are then filtered only to those that contain the original video labels, and the LVLM is then re-trained on the generated dataset. By only training on generated answers that contain the correct video labels, Video-STaR utilizes these existing video labels as weak supervision for video instruction tuning. Our results demonstrate that Video-STaR-enhanced LVLMs exhibit improved performance in (I) general video QA, where TempCompass performance improved by 10%, and (II) on downstream tasks, where Video-STaR improved Kinetics700-QA accuracy by 20% and action quality assessment on FineDiving by 15%. | 翻訳日:2024-07-09 14:30:11 公開日:2024-07-08 |
# 4次元逆流は高密度な3次元表現学習者である
4D Contrastive Superflows are Dense 3D Representation Learners ( http://arxiv.org/abs/2407.06190v1 ) ライセンス: Link先を確認 | Xiang Xu, Lingdong Kong, Hui Shuai, Wenwei Zhang, Liang Pan, Kai Chen, Ziwei Liu, Qingshan Liu, | (参考訳) 自動運転の分野では、正確な3D認識が基礎となっている。
しかし、そのようなモデルを開発するには、コストと労力のかかるプロセスである広範囲な人間のアノテーションに依存します。
データ表現学習の観点から、この課題に対処するために、時空間事前学習の目的を確立するために連続的なLiDARカメラペアを利用する新しいフレームワークであるSuperFlowを紹介する。
SuperFlowは2つの重要な設計を統合することで際立っている。
1) 特徴学習中の点雲密度変化に対する感度を高める高密度・疎整整合正則化、及び
2) 簡易なセンサキャリブレーションから有意義な時間的手がかりを抽出するフローベースコントラスト学習モジュール。
学習効率をさらに高めるため,カメラビューから抽出した知識の整合性を高めるプラグイン・アンド・プレイ・ビュー・一貫性モジュールを組み込んだ。
11の異種LiDARデータセットに対する大規模な比較およびアブレーション研究は、我々の有効性と優越性を検証した。
さらに,2次元および3次元のバックボーンを事前トレーニング中にスケールアップし,LiDARに基づく知覚のための3次元基礎モデルの今後の研究に光を当てることにより,いくつかの興味深い新興特性を観察する。
In the realm of autonomous driving, accurate 3D perception is the foundation. However, developing such models relies on extensive human annotations -- a process that is both costly and labor-intensive. To address this challenge from a data representation learning perspective, we introduce SuperFlow, a novel framework designed to harness consecutive LiDAR-camera pairs for establishing spatiotemporal pretraining objectives. SuperFlow stands out by integrating two key designs: 1) a dense-to-sparse consistency regularization, which promotes insensitivity to point cloud density variations during feature learning, and 2) a flow-based contrastive learning module, carefully crafted to extract meaningful temporal cues from readily available sensor calibrations. To further boost learning efficiency, we incorporate a plug-and-play view consistency module that enhances the alignment of the knowledge distilled from camera views. Extensive comparative and ablation studies across 11 heterogeneous LiDAR datasets validate our effectiveness and superiority. Additionally, we observe several interesting emerging properties by scaling up the 2D and 3D backbones during pretraining, shedding light on the future research of 3D foundation models for LiDAR-based perception. | 翻訳日:2024-07-09 14:30:11 公開日:2024-07-08 |
# Tailor3D:デュアルサイド画像による3Dアセットの編集と生成をカスタマイズ
Tailor3D: Customized 3D Assets Editing and Generation with Dual-Side Images ( http://arxiv.org/abs/2407.06191v1 ) ライセンス: Link先を確認 | Zhangyang Qi, Yunhan Yang, Mengchen Zhang, Long Xing, Xiaoyang Wu, Tong Wu, Dahua Lin, Xihui Liu, Jiaqi Wang, Hengshuang Zhao, | (参考訳) 3D AIGCの最近の進歩は、テキストと画像から直接3Dオブジェクトを作成することを約束しており、アニメーションと製品デザインの大幅なコスト削減を提供している。
しかし、3Dアセットの詳細な編集とカスタマイズは、長年にわたる課題である。
具体的には、3D生成法は2D画像作成方法と同様に細かな指示を正確に追従する能力に欠ける。
おもちゃは3D AIGCで買えるが、不要なアクセサリーやドレッシングもある。
この課題に対処するために,編集可能な両面画像からカスタマイズされた3Dアセットを迅速に生成する,Tailor3Dという新しいパイプラインを提案する。
我々は、局所的にオブジェクトを変更したり、全体的なスタイル転送を行う、テーラーの能力をエミュレートすることを目的としている。
複数のビューから3Dアセットを作成するのとは異なり、デュアルサイドのイメージを使用すると、個々のビューを編集する際に発生する重複する領域のコンフリクトが排除される。
具体的には、まずフロントビューを編集し、マルチビュー拡散を通じてオブジェクトのバックビューを生成する。
その後、バックビューを編集する。
最後に、Dual-sided LRMを提案し、前と後ろの3D特徴をシームレスに縫い合わせる。
Dual-sided LRMは、フロントビューとバックビューの間の不完全な相違を是正し、編集能力を向上し、メモリ負荷を低減し、LoRA Triplane Transformerとシームレスに3D表現に統合する。
実験結果から,3次元生成フィリングやスタイル転送など,様々な3次元生成および編集タスクにおけるTailor3Dの有効性が示された。
3Dアセットを編集するためのユーザフレンドリで効率的なソリューションを提供する。
Recent advances in 3D AIGC have shown promise in directly creating 3D objects from text and images, offering significant cost savings in animation and product design. However, detailed edit and customization of 3D assets remains a long-standing challenge. Specifically, 3D Generation methods lack the ability to follow finely detailed instructions as precisely as their 2D image creation counterparts. Imagine you can get a toy through 3D AIGC but with undesired accessories and dressing. To tackle this challenge, we propose a novel pipeline called Tailor3D, which swiftly creates customized 3D assets from editable dual-side images. We aim to emulate a tailor's ability to locally change objects or perform overall style transfer. Unlike creating 3D assets from multiple views, using dual-side images eliminates conflicts on overlapping areas that occur when editing individual views. Specifically, it begins by editing the front view, then generates the back view of the object through multi-view diffusion. Afterward, it proceeds to edit the back views. Finally, a Dual-sided LRM is proposed to seamlessly stitch together the front and back 3D features, akin to a tailor sewing together the front and back of a garment. The Dual-sided LRM rectifies imperfect consistencies between the front and back views, enhancing editing capabilities and reducing memory burdens while seamlessly integrating them into a unified 3D representation with the LoRA Triplane Transformer. Experimental results demonstrate Tailor3D's effectiveness across various 3D generation and editing tasks, including 3D generative fill and style transfer. It provides a user-friendly, efficient solution for editing 3D assets, with each editing step taking only seconds to complete. | 翻訳日:2024-07-09 14:30:11 公開日:2024-07-08 |
# 視覚言語モデルにおける多目的幻覚
Multi-Object Hallucination in Vision-Language Models ( http://arxiv.org/abs/2407.06192v1 ) ライセンス: Link先を確認 | Xuweiyi Chen, Ziqiao Ma, Xuejun Zhang, Sihan Xu, Shengyi Qian, Jianing Yang, David F. Fouhey, Joyce Chai, | (参考訳) 大型視覚言語モデル(LVLM)は、しばしばオブジェクト幻覚に悩まされ、与えられた画像に存在しないオブジェクトを生成する。
オブジェクト幻覚に関する現在のベンチマークは、主に個々のエンティティではなく、単一のオブジェクトクラスの存在に焦点を当てているが、この研究は、複数のオブジェクトを同時にフォーカスするタスクにおいて、モデルがどのように誤認識(例えば、存在しないオブジェクトを発明したり、注意をそらす)するかを、体系的に調査する。
本稿では,テスト中の単一画像内のオブジェクトクラスの分布を考慮した自動評価プロトコルである認識ベースオブジェクト探索評価(ROPE)を導入し,視覚的参照プロンプトを用いて曖昧さを解消する。
総合的な実証研究と多目的幻覚に繋がる潜在的な要因の分析により,(1)LVLMは1つの物体と比較して複数の物体に焦点を合わせると,より幻覚に悩まされることがわかった。
2)テスト対象のクラス分布は幻覚行動に影響を及ぼし,LVLMはショートカットやスプリアス相関に追従する可能性が示唆された。
3) 幻覚行動はデータ固有の要因, 塩分と頻度, 内因性行動のモデルによって影響される。
LVLMが現実的な視覚シーンでしばしば発生する複数のオブジェクトを認識し、推論し、洞察を提供し、問題を緩和するための進捗状況を定量化できるようにしたいと考えています。
Large vision language models (LVLMs) often suffer from object hallucination, producing objects not present in the given images. While current benchmarks for object hallucination primarily concentrate on the presence of a single object class rather than individual entities, this work systematically investigates multi-object hallucination, examining how models misperceive (e.g., invent nonexistent objects or become distracted) when tasked with focusing on multiple objects simultaneously. We introduce Recognition-based Object Probing Evaluation (ROPE), an automated evaluation protocol that considers the distribution of object classes within a single image during testing and uses visual referring prompts to eliminate ambiguity. With comprehensive empirical studies and analysis of potential factors leading to multi-object hallucination, we found that (1) LVLMs suffer more hallucinations when focusing on multiple objects compared to a single object. (2) The tested object class distribution affects hallucination behaviors, indicating that LVLMs may follow shortcuts and spurious correlations.(3) Hallucinatory behaviors are influenced by data-specific factors, salience and frequency, and model intrinsic behaviors. We hope to enable LVLMs to recognize and reason about multiple objects that often occur in realistic visual scenes, provide insights, and quantify our progress towards mitigating the issues. | 翻訳日:2024-07-09 14:30:11 公開日:2024-07-08 |
# Future-AI:医療における信頼性とデプロイ可能な人工知能のための国際コンセンサスガイドライン
FUTURE-AI: International consensus guideline for trustworthy and deployable artificial intelligence in healthcare ( http://arxiv.org/abs/2309.12325v3 ) ライセンス: Link先を確認 | Karim Lekadir, Aasa Feragen, Abdul Joseph Fofanah, Alejandro F Frangi, Alena Buyx, Anais Emelie, Andrea Lara, Antonio R Porras, An-Wen Chan, Arcadi Navarro, Ben Glocker, Benard O Botwe, Bishesh Khanal, Brigit Beger, Carol C Wu, Celia Cintas, Curtis P Langlotz, Daniel Rueckert, Deogratias Mzurikwao, Dimitrios I Fotiadis, Doszhan Zhussupov, Enzo Ferrante, Erik Meijering, Eva Weicken, Fabio A González, Folkert W Asselbergs, Fred Prior, Gabriel P Krestin, Gary Collins, Geletaw S Tegenaw, Georgios Kaissis, Gianluca Misuraca, Gianna Tsakou, Girish Dwivedi, Haridimos Kondylakis, Harsha Jayakody, Henry C Woodruf, Horst Joachim Mayer, Hugo JWL Aerts, Ian Walsh, Ioanna Chouvarda, Irène Buvat, Isabell Tributsch, Islem Rekik, James Duncan, Jayashree Kalpathy-Cramer, Jihad Zahir, Jinah Park, John Mongan, Judy W Gichoya, Julia A Schnabel, Kaisar Kushibar, Katrine Riklund, Kensaku Mori, Kostas Marias, Lameck M Amugongo, Lauren A Fromont, Lena Maier-Hein, Leonor Cerdá Alberich, Leticia Rittner, Lighton Phiri, Linda Marrakchi-Kacem, Lluís Donoso-Bach, Luis Martí-Bonmatí, M Jorge Cardoso, Maciej Bobowicz, Mahsa Shabani, Manolis Tsiknakis, Maria A Zuluaga, Maria Bielikova, Marie-Christine Fritzsche, Marina Camacho, Marius George Linguraru, Markus Wenzel, Marleen De Bruijne, Martin G Tolsgaard, Marzyeh Ghassemi, Md Ashrafuzzaman, Melanie Goisauf, Mohammad Yaqub, Mónica Cano Abadía, Mukhtar M E Mahmoud, Mustafa Elattar, Nicola Rieke, Nikolaos Papanikolaou, Noussair Lazrak, Oliver Díaz, Olivier Salvado, Oriol Pujol, Ousmane Sall, Pamela Guevara, Peter Gordebeke, Philippe Lambin, Pieta Brown, Purang Abolmaesumi, Qi Dou, Qinghua Lu, Richard Osuala, Rose Nakasi, S Kevin Zhou, Sandy Napel, Sara Colantonio, Shadi Albarqouni, Smriti Joshi, Stacy Carter, Stefan Klein, Steffen E Petersen, Susanna Aussó, Suyash Awate, Tammy Riklin Raviv, Tessa Cook, Tinashe E M Mutsvangwa, Wendy A Rogers, Wiro J Niessen, Xènia Puig-Bosch, Yi Zeng, Yunusa G Mohammed, Yves Saint James Aquino, Zohaib Salahuddin, Martijn P A Starmans, | (参考訳) 医療と医療における人工知能(AI)の大きな進歩にもかかわらず、AI技術の展開と採用は、実際の臨床実践において制限されている。
近年、医療AIに関連する技術的、臨床的、倫理的、法的リスクに関する懸念が高まっている。
現実の採用を高めるためには、医療AIツールが患者、臨床医、保健機関、当局によって信頼され、受け入れられることが不可欠である。
この研究は、Future-AIガイドラインを、医療における信頼できるAIツールの開発とデプロイを導くための、最初の国際コンセンサスフレームワークとして説明している。
Future-AIコンソーシアムは2021年に設立され、現在は、AI科学者、臨床医、倫理学者、社会科学者を含む51カ国から118の学際専門家で構成されている。
コンソーシアムは2年間にわたって、詳細な文献レビュー、修正されたDelphi調査、オンラインコンセンサスミーティングを含む反復的なプロセスを通じて、信頼できるAIの指針とベストプラクティスを定義した。
Future-AIフレームワークは、医療における信頼できるAIのための6つの原則、すなわち公正性、普遍性、トレーサビリティ、ユーザビリティ、ロバスト性、説明可能性に基づいて設立された。
コンセンサスを通じて28のベストプラクティスが定義され、技術的、臨床的、法的、社会的倫理的な側面に対処した。
このレコメンデーションは、デザイン、開発、バリデーションから規制、デプロイメント、監視に至るまで、医療AIのライフサイクル全体をカバーする。
FUTURE-AIはリスクインフォームドで仮定なしのガイドラインであり、実際のプラクティスで信頼され、デプロイされ、採用される医療AIツールを構築するための構造化されたアプローチを提供する。
研究者は、この推奨事項を概念実証段階で考慮し、将来の医療AIの臨床実践への翻訳を促進することを奨励されている。
Despite major advances in artificial intelligence (AI) for medicine and healthcare, the deployment and adoption of AI technologies remain limited in real-world clinical practice. In recent years, concerns have been raised about the technical, clinical, ethical and legal risks associated with medical AI. To increase real world adoption, it is essential that medical AI tools are trusted and accepted by patients, clinicians, health organisations and authorities. This work describes the FUTURE-AI guideline as the first international consensus framework for guiding the development and deployment of trustworthy AI tools in healthcare. The FUTURE-AI consortium was founded in 2021 and currently comprises 118 inter-disciplinary experts from 51 countries representing all continents, including AI scientists, clinicians, ethicists, and social scientists. Over a two-year period, the consortium defined guiding principles and best practices for trustworthy AI through an iterative process comprising an in-depth literature review, a modified Delphi survey, and online consensus meetings. The FUTURE-AI framework was established based on 6 guiding principles for trustworthy AI in healthcare, i.e. Fairness, Universality, Traceability, Usability, Robustness and Explainability. Through consensus, a set of 28 best practices were defined, addressing technical, clinical, legal and socio-ethical dimensions. The recommendations cover the entire lifecycle of medical AI, from design, development and validation to regulation, deployment, and monitoring. FUTURE-AI is a risk-informed, assumption-free guideline which provides a structured approach for constructing medical AI tools that will be trusted, deployed and adopted in real-world practice. Researchers are encouraged to take the recommendations into account in proof-of-concept stages to facilitate future translation towards clinical practice of medical AI. | 翻訳日:2024-07-09 10:41:17 公開日:2024-07-08 |
# SynA-ResNet: OR残差接続によるスパイク駆動型ResNetの実現
SynA-ResNet: Spike-driven ResNet Achieved through OR Residual Connection ( http://arxiv.org/abs/2311.06570v3 ) ライセンス: Link先を確認 | Yimeng Shan, Xuerui Qiu, Rui-jie Zhu, Jason K. Eshraghian, Malu Zhang, Haicheng Qu, | (参考訳) スパイキングニューラルネットワーク(SNN)は、その生物学的忠実さとエネルギー効率のよいスパイク駆動操作を実行する能力のために、脳のような計算にかなりの注意を払っている。
SNNのパフォーマンス向上の需要が急増するにつれて、ディープニューラルネットワークのトレーニングにおいて、残差学習が重要な方法であるのに対して、ディープニューラルネットワークのトレーニングに向けたトレンドが重要になる。
調査では,深部スパイクニューラルネットワークの代表であるSEW-ResNetが,非イベント駆動の操作を取り入れていることを確認した。
そこで本稿では,まずORRC (OR Residual Connection) を通じて大量の冗長情報を蓄積し,その冗長情報をSynA (SynA) モジュールを用いてフィルタリングする手法を提案する。
ネットワークにSynAを組み込むと、トレーニング後、モデルの分類精度に影響を与えることなく、ネットワーク内のショートカットの一部または全部が自然に消えてしまう「自然なプルーニング」現象が観察された。
これにより、計算オーバーヘッドが大幅に削減され、エッジデバイスへのデプロイがより適する。
様々な公開データセットの実験結果から、SynA-ResNetはニューロン当たり0.8スパイクの単一サンプル分類を達成したことが確認された。
さらに, 他のSNNモデルと比較すると, 高精度で28倍のエネルギー消費削減が可能であった。
Spiking Neural Networks (SNNs) have garnered substantial attention in brain-like computing for their biological fidelity and the capacity to execute energy-efficient spike-driven operations. As the demand for heightened performance in SNNs surges, the trend towards training deeper networks becomes imperative, while residual learning stands as a pivotal method for training deep neural networks. In our investigation, we identified that the SEW-ResNet, a prominent representative of deep residual spiking neural networks, incorporates non-event-driven operations. To rectify this, we propose a novel training paradigm that first accumulates a large amount of redundant information through OR Residual Connection (ORRC), and then filters out the redundant information using the Synergistic Attention (SynA) module, which promotes feature extraction in the backbone while suppressing the influence of noise and useless features in the shortcuts. When integrating SynA into the network, we observed the phenomenon of "natural pruning", where after training, some or all of the shortcuts in the network naturally drop out without affecting the model's classification accuracy. This significantly reduces computational overhead and makes it more suitable for deployment on edge devices. Experimental results on various public datasets confirmed that the SynA-ResNet achieved single-sample classification with as little as 0.8 spikes per neuron. Moreover, when compared to other residual SNN models, it exhibited higher accuracy and up to a 28-fold reduction in energy consumption. | 翻訳日:2024-07-09 10:41:17 公開日:2024-07-08 |
# SEACrowd: 東南アジア言語のための多言語マルチモーダルデータハブとベンチマークスイート
SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages ( http://arxiv.org/abs/2406.10118v3 ) ライセンス: Link先を確認 | Holy Lovenia, Rahmad Mahendra, Salsabil Maulana Akbar, Lester James V. Miranda, Jennifer Santoso, Elyanah Aco, Akhdan Fadhilah, Jonibek Mansurov, Joseph Marvin Imperial, Onno P. Kampman, Joel Ruben Antony Moniz, Muhammad Ravi Shulthan Habibi, Frederikus Hudi, Railey Montalan, Ryan Ignatius, Joanito Agili Lopo, William Nixon, Börje F. Karlsson, James Jaya, Ryandito Diandaru, Yuze Gao, Patrick Amadeus, Bin Wang, Jan Christian Blaise Cruz, Chenxi Whitehouse, Ivan Halim Parmonangan, Maria Khelli, Wenyu Zhang, Lucky Susanto, Reynard Adha Ryanda, Sonny Lazuardi Hermawan, Dan John Velasco, Muhammad Dehan Al Kautsar, Willy Fitra Hendria, Yasmin Moslem, Noah Flynn, Muhammad Farid Adilazuarda, Haochen Li, Johanes Lee, R. Damanhuri, Shuo Sun, Muhammad Reza Qorib, Amirbek Djanibekov, Wei Qi Leong, Quyet V. Do, Niklas Muennighoff, Tanrada Pansuwan, Ilham Firdausi Putra, Yan Xu, Ngee Chia Tai, Ayu Purwarianti, Sebastian Ruder, William Tjhi, Peerat Limkonchotiwat, Alham Fikri Aji, Sedrick Keh, Genta Indra Winata, Ruochen Zhang, Fajri Koto, Zheng-Xin Yong, Samuel Cahyawijaya, | (参考訳) 東南アジア (SEA) は言語多様性と文化的多様性に富んだ地域であり、1,300以上の先住民語があり、人口は671万人である。
しかし、一般的なAIモデルは、SEA言語のテキスト、画像、オーディオデータセットの表現が著しく欠けており、SEA言語のAIモデルの品質が損なわれている。
SEA言語のモデルを評価することは、英語のトレーニングデータの優位性によって複合された高品質なデータセットが不足しているために困難であり、潜在的な文化的誤表現に対する懸念を提起する。
これらの課題に対処するために,私たちは,3つのモードにわたる1,000近いSEA言語で標準化されたコーパスを提供することによって,リソースギャップを埋める包括的なリソースハブを統合する共同イニシアティブであるSEACrowdを紹介します。
SEACrowdベンチマークを通じて、13のタスクにわたる36のネイティブ言語上のAIモデルの品質を評価し、SEAの現在のAI状況に関する貴重な洞察を提供する。
さらに、我々は、SEAにおけるAIの将来のための潜在的ユーティリティとリソースエクイティを最大化し、AIのさらなる進歩を促進するための戦略を提案する。
Southeast Asia (SEA) is a region rich in linguistic diversity and cultural variety, with over 1,300 indigenous languages and a population of 671 million people. However, prevailing AI models suffer from a significant lack of representation of texts, images, and audio datasets from SEA, compromising the quality of AI models for SEA languages. Evaluating models for SEA languages is challenging due to the scarcity of high-quality datasets, compounded by the dominance of English training data, raising concerns about potential cultural misrepresentation. To address these challenges, we introduce SEACrowd, a collaborative initiative that consolidates a comprehensive resource hub that fills the resource gap by providing standardized corpora in nearly 1,000 SEA languages across three modalities. Through our SEACrowd benchmarks, we assess the quality of AI models on 36 indigenous languages across 13 tasks, offering valuable insights into the current AI landscape in SEA. Furthermore, we propose strategies to facilitate greater AI advancements, maximizing potential utility and resource equity for the future of AI in SEA. | 翻訳日:2024-07-09 10:41:17 公開日:2024-07-08 |
# 道路抽出のための立体的構造を考慮したグラフニューラルネットワーク
Holistically-Nested Structure-Aware Graph Neural Network for Road Extraction ( http://arxiv.org/abs/2407.02639v2 ) ライセンス: Link先を確認 | Tinghuai Wang, Guangming Wang, Kuan Eeik Tan, | (参考訳) 畳み込みニューラルネットワーク(CNN)は、衛星画像からの道路検出に大きく進歩した。
しかし、既存のCNNアプローチは一般的にセマンティックセグメンテーションアーキテクチャを再利用し、長い領域と湾曲した領域のデライン化に悩まされている。
道路トポロジと構造情報の欠如は、より困難なリモートセンシング画像の性能を悪化させる。
本稿では,道路領域と道路境界の両方を同時に検出する新しいマルチタスクグラフニューラルネットワーク(GNN)を提案する。この2つのタスク間の相互作用は,(1)階層的に検出された道路境界により,ネットワークが全体的道路構造を捕捉し,エンコードし,道路接続性を高めること,(2)意味的土地被覆領域の本質的相関を同定することにより,類似した外観で散在する道路の認識の困難さを緩和する。
挑戦的データセットの実験により,提案手法は既存手法と比較して,道路境界線と道路抽出精度を向上させることができることを示した。
Convolutional neural networks (CNN) have made significant advances in detecting roads from satellite images. However, existing CNN approaches are generally repurposed semantic segmentation architectures and suffer from the poor delineation of long and curved regions. Lack of overall road topology and structure information further deteriorates their performance on challenging remote sensing images. This paper presents a novel multi-task graph neural network (GNN) which simultaneously detects both road regions and road borders; the inter-play between these two tasks unlocks superior performance from two perspectives: (1) the hierarchically detected road borders enable the network to capture and encode holistic road structure to enhance road connectivity (2) identifying the intrinsic correlation of semantic landcover regions mitigates the difficulty in recognizing roads cluttered by regions with similar appearance. Experiments on challenging dataset demonstrate that the proposed architecture can improve the road border delineation and road extraction accuracy compared with the existing methods. | 翻訳日:2024-07-09 10:41:17 公開日:2024-07-08 |
# グラフ学習理論の基礎とフロンティア
Foundations and Frontiers of Graph Learning Theory ( http://arxiv.org/abs/2407.03125v2 ) ライセンス: Link先を確認 | Yu Huang, Min Zhou, Menglin Yang, Zhen Wang, Muhan Zhang, Jie Wang, Hong Xie, Hao Wang, Defu Lian, Enhong Chen, | (参考訳) グラフ学習の最近の進歩は、複雑な構造を持つデータを理解し分析する方法に革命をもたらした。
特に、グラフ表現を学習するために設計されたニューラルネットワークアーキテクチャであるグラフニューラルネットワーク(GNN)は、一般的なパラダイムとなっている。
これらのモデルは直感駆動設計や高度に複雑なコンポーネントによって特徴づけられ、コア概念を蒸留する理論分析フレームワークの中に配置することで、機能を改善する上で重要な原則を理解し、さらなる開発を導くのに役立つ。
この関心の高まりを踏まえ、本論文は、グラフ学習モデルに固有の近似と学習行動に関する理論的基礎とブレークスルーを包括的にまとめる。
表現力、一般化、最適化、過度な平滑化や過度なスキャッシングのようなユニークな現象といった基本的な側面に関する議論を通し、この論文はグラフ学習の進化を駆動する理論的基礎とフロンティアへと発展していった。
さらに、本記事ではいくつかの課題を提示し、可能なソリューションについてさらに議論を始める。
Recent advancements in graph learning have revolutionized the way to understand and analyze data with complex structures. Notably, Graph Neural Networks (GNNs), i.e. neural network architectures designed for learning graph representations, have become a popular paradigm. With these models being usually characterized by intuition-driven design or highly intricate components, placing them within the theoretical analysis framework to distill the core concepts, helps understand the key principles that drive the functionality better and guide further development. Given this surge in interest, this article provides a comprehensive summary of the theoretical foundations and breakthroughs concerning the approximation and learning behaviors intrinsic to prevalent graph learning models. Encompassing discussions on fundamental aspects such as expressiveness power, generalization, optimization, and unique phenomena such as over-smoothing and over-squashing, this piece delves into the theoretical foundations and frontier driving the evolution of graph learning. In addition, this article also presents several challenges and further initiates discussions on possible solutions. | 翻訳日:2024-07-09 10:41:17 公開日:2024-07-08 |
# DSLR:文レベル再分類による文書のリファインメントと検索機能強化のための再構築
DSLR: Document Refinement with Sentence-Level Re-ranking and Reconstruction to Enhance Retrieval-Augmented Generation ( http://arxiv.org/abs/2407.03627v2 ) ライセンス: Link先を確認 | Taeho Hwang, Soyeong Jeong, Sukmin Cho, SeungYoon Han, Jong C. Park, | (参考訳) 大規模言語モデル(LLM)の最近の進歩は、様々な自然言語処理(NLP)タスクにおいて、その性能を大幅に改善している。
しかし、LCMはパラメトリックメモリの制限のため、非実効応答の生成に苦慮している。
Retrieval-Augmented Generation (RAG) システムは、外部知識を検索モジュールに組み込むことでこの問題に対処する。
しかし、その成功にもかかわらず、現在のRAGシステムは、検索に失敗し、LLMが無関係な情報をフィルタリングする能力に制限があるという問題に直面している。
そこで本研究では、検索した文書を文に分解し、無関係な文をフィルタリングし、それらを再び一貫性のある文に再構成する、教師なしのフレームワークであるDSLRを提案する。
我々は,複数のオープンドメインQAデータセット上でDSLRを実験的に検証し,DSLRが従来の固定サイズパスよりもRAG性能を大幅に向上することを示した。
さらに、我々のDSLRは、追加のトレーニングを必要とせずに、特定の現実的なシナリオにおけるパフォーマンスを高め、RAGシステムで取得した文書を精算するための効率的かつ効率的なソリューションを提供する。
Recent advancements in Large Language Models (LLMs) have significantly improved their performance across various Natural Language Processing (NLP) tasks. However, LLMs still struggle with generating non-factual responses due to limitations in their parametric memory. Retrieval-Augmented Generation (RAG) systems address this issue by incorporating external knowledge with a retrieval module. Despite their successes, however, current RAG systems face challenges with retrieval failures and the limited ability of LLMs to filter out irrelevant information. Therefore, in this work, we propose DSLR (Document Refinement with Sentence-Level Re-ranking and Reconstruction), an unsupervised framework that decomposes retrieved documents into sentences, filters out irrelevant sentences, and reconstructs them again into coherent passages. We experimentally validate DSLR on multiple open-domain QA datasets and the results demonstrate that DSLR significantly enhances the RAG performance over conventional fixed-size passage. Furthermore, our DSLR enhances performance in specific, yet realistic scenarios without the need for additional training, providing an effective and efficient solution for refining retrieved documents in RAG systems. | 翻訳日:2024-07-09 10:33:20 公開日:2024-07-08 |
# 新規アンサンブル法によるロバストCATE推定
Robust CATE Estimation Using Novel Ensemble Methods ( http://arxiv.org/abs/2407.03690v2 ) ライセンス: Link先を確認 | Oshri Machluf, Tzviel Frostig, Gal Shoham, Tomer Milo, Elad Berkman, Raviv Pryluk, | (参考訳) 臨床治験における条件平均治療効果(CATE)の評価は治療効果の不均一性の理解に不可欠である。
本研究では,各手法が1つ以上のテストシナリオでフェールすることを示す多種多様なシナリオにまたがって,因果林やメタラーナーなどの共通手法の性能を評価する。
実生活シナリオにおけるデータ生成プロセスの本質的な不確実性を考えると、CATE推定器の様々なシナリオに対する堅牢性はその信頼性にとって重要である。
既存手法のこの制限に対処するため、予測安定性と性能を向上させるために複数の推定器を統合する2つの新しいアンサンブル手法を提案する。
これらのモデルは, 癌治療におけるPD-L1阻害経路の生物学的モデルを含む, 複雑さ, サンプルサイズ, 基礎機構の構造など, 幅広いシナリオにおいて良好な性能を示すことを示す。
The estimation of Conditional Average Treatment Effects (CATE) is crucial for understanding the heterogeneity of treatment effects in clinical trials. We evaluate the performance of common methods, including causal forests and various meta-learners, across a diverse set of scenarios revealing that each of the methods fails in one or more of the tested scenarios. Given the inherent uncertainty of the data-generating process in real-life scenarios, the robustness of a CATE estimator to various scenarios is critical for its reliability. To address this limitation of existing methods, we propose two new ensemble methods that integrate multiple estimators to enhance prediction stability and performance - Stacked X-Learner which uses the X-Learner with model stacking for estimating the nuisance functions, and Consensus Based Averaging (CBA), which averages only the models with highest internal agreement. We show that these models achieve good performance across a wide range of scenarios varying in complexity, sample size and structure of the underlying-mechanism, including a biologically driven model for PD-L1 inhibition pathway for cancer treatment. | 翻訳日:2024-07-09 10:33:20 公開日:2024-07-08 |
# 局所海状態推定のためのコンピュータビジョンアプローチ
A Computer Vision Approach to Estimate the Localized Sea State ( http://arxiv.org/abs/2407.03755v2 ) ライセンス: Link先を確認 | Aleksandar Vorkapic, Miran Pobar, Marina Ivasic-Kos, | (参考訳) 本研究は,船舶の運転安全性とエネルギー効率の向上に寄与することを目的とした,コンピュータビジョン(CV)と深層学習のリアルタイム海面認識への応用について述べる。
本研究は, 船橋に設置した静止カメラ1台で捉えた, 運用用封筒内の海像の活用に焦点を当てた。
収集した画像は、深層学習モデルを訓練し、ビューフォートスケールに基づいて海の状態を自動的に認識する。
海の状態を認識するために,Resnet-101,NASNet,MobileNet_v2,Transformer ViT-b32という,さまざまなコンピュータビジョンタスクで有用な特徴を持つ,最先端の4つのディープニューラルネットワークを使用した。
さらに、機械学習のために準備された海洋航行船から広範囲の海域で収集された、ユニークな大規模データセットを定義した。
データセット上のモデルを微調整するために、転送学習アプローチを使用しました。
得られた結果から, 従来の手法を補完する手法として, 特にその場測定が不可能であったり, 補間された気象ブイデータが不十分であったりする可能性が示された。
本研究は、海洋研究における認識されたギャップに対処し、より安全で効率的な海洋活動を可能にするため、海相分類モデルのさらなる発展に向けた基礎となるものである。
This research presents a novel application of computer vision (CV) and deep learning methods for real-time sea state recognition, aiming to contribute to improving the operational safety and energy efficiency of seagoing vessels, key factors in meeting the legislative carbon reduction targets. Our work focuses on utilizing sea images in operational envelopes captured by a single stationary camera mounted on the ship bridge. The collected images are used to train a deep learning model to automatically recognize the state of the sea based on the Beaufort scale. To recognize the sea state, we used 4 state-of-the-art deep neural networks with different characteristics that proved useful in various computer vision tasks: Resnet-101, NASNet, MobileNet_v2, and Transformer ViT-b32. Furthermore, we have defined a unique large-scale dataset, collected over a broad range of sea conditions from an ocean-going vessel prepared for machine learning. We used the transfer learning approach to fine-tune the models on our dataset. The obtained results demonstrate the potential for this approach to complement traditional methods, particularly where in-situ measurements are unfeasible or interpolated weather buoy data is insufficiently accurate. This study sets the groundwork for further development of sea state classification models to address recognized gaps in maritime research and enable safer and more efficient maritime operations. | 翻訳日:2024-07-09 10:33:20 公開日:2024-07-08 |
# 難読化LDMを用いた認知的モデリング : 参照表現生成を事例として
Cognitive Modeling with Scaffolded LLMs: A Case Study of Referential Expression Generation ( http://arxiv.org/abs/2407.03805v2 ) ライセンス: Link先を確認 | Polina Tsvilodub, Michael Franke, Fausto Carcassi, | (参考訳) LLMは、言語生成の認知モデルの一部として、どの程度まで使えるのか?
本稿では,Dale & Reiter (1995) による参照表現生成のアルゴリズム的認知モデルのニューラルシンボリック実装を探索し,この問題にアプローチする。
シンボリックタスク解析は、シンボリックおよびgpt-3.5-turboベースのモジュールを足場とする反復手順として生成を実装している。
この実装を、A3DSデータセット(Tsvilodub & Franke, 2023)の短縮モデルと、1ショットのLCMのみのベースラインと比較する。
我々のハイブリッドアプローチは認知的に妥当であり、複雑なコンテキストでうまく機能し、より大きなドメインにおける言語生成のよりオープンなモデリングを可能にします。
To what extent can LLMs be used as part of a cognitive model of language generation? In this paper, we approach this question by exploring a neuro-symbolic implementation of an algorithmic cognitive model of referential expression generation by Dale & Reiter (1995). The symbolic task analysis implements the generation as an iterative procedure that scaffolds symbolic and gpt-3.5-turbo-based modules. We compare this implementation to an ablated model and a one-shot LLM-only baseline on the A3DS dataset (Tsvilodub & Franke, 2023). We find that our hybrid approach is cognitively plausible and performs well in complex contexts, while allowing for more open-ended modeling of language generation in a larger domain. | 翻訳日:2024-07-09 10:33:20 公開日:2024-07-08 |
# 第7回ABAWコンペティション:マルチタスク学習と複合表現認識
7th ABAW Competition: Multi-Task Learning and Compound Expression Recognition ( http://arxiv.org/abs/2407.03835v2 ) ライセンス: Link先を確認 | Dimitrios Kollias, Stefanos Zafeiriou, Irene Kotsia, Abhinav Dhall, Shreya Ghosh, Chunchang Shao, Guanyu Hu, | (参考訳) 本稿では,ECCV 2024と共同で開催されているワークショップの一環として,第7回ABAWコンペティションについて述べる。
第7回ABAWコンペティションは、人間中心の技術の発展に不可欠な、人間の表現と行動を理解するための新しい課題に対処する。
コンペティションは2つのサブチェアから成っている。
一 マルチタスク・ラーニング(マルチタスク・ラーニング・セッティングにおいて、第七基本表現と第十二アクション・ユニットの相互排他的クラス間の認識のために、価と覚醒の2つの連続的な影響次元を推定し、同時に学習すること)及び
二 複合表現認識(相互排他的複合表現クラス七種間の認識を目的とする。)
A/V Aff-Wild2データベースの静的バージョンであり、valence-arousal、式、アクションユニットのアノテーションを含むs-Aff-Wild2は、マルチタスク学習チャレンジの目的のために利用されており、複合表現アノテーションを備えたA/VインザミルドデータベースであるC-EXPR-DBの一部が複合表現認識チャレンジの目的のために使用される。
本稿では,2つの課題を紹介し,それぞれのデータセットとそれに続くプロトコルについて詳述する。
また,評価指標について概説し,ベースラインシステムとその結果について概説する。
この競合に関する追加情報は、 \url{https://affective-behavior-analysis-in-the-wild.github.io/7th} で見ることができる。
This paper describes the 7th Affective Behavior Analysis in-the-wild (ABAW) Competition, which is part of the respective Workshop held in conjunction with ECCV 2024. The 7th ABAW Competition addresses novel challenges in understanding human expressions and behaviors, crucial for the development of human-centered technologies. The Competition comprises of two sub-challenges: i) Multi-Task Learning (the goal is to learn at the same time, in a multi-task learning setting, to estimate two continuous affect dimensions, valence and arousal, to recognise between the mutually exclusive classes of the 7 basic expressions and 'other'), and to detect 12 Action Units); and ii) Compound Expression Recognition (the target is to recognise between the 7 mutually exclusive compound expression classes). s-Aff-Wild2, which is a static version of the A/V Aff-Wild2 database and contains annotations for valence-arousal, expressions and Action Units, is utilized for the purposes of the Multi-Task Learning Challenge; a part of C-EXPR-DB, which is an A/V in-the-wild database with compound expression annotations, is utilized for the purposes of the Compound Expression Recognition Challenge. In this paper, we introduce the two challenges, detailing their datasets and the protocols followed for each. We also outline the evaluation metrics, and highlight the baseline systems and their results. Additional information about the competition can be found at \url{https://affective-behavior-analysis-in-the-wild.github.io/7th}. | 翻訳日:2024-07-09 10:33:20 公開日:2024-07-08 |
# 現実的なBPMNモデルの即時、網羅的で、固定可能な音質チェック
Instantaneous, Comprehensible, and Fixable Soundness Checking of Realistic BPMN Models ( http://arxiv.org/abs/2407.03965v2 ) ライセンス: Link先を確認 | Tim Kräuter, Patrick Stünkel, Adrian Rutle, Harald König, Yngve Lamo, | (参考訳) 多くのビジネスプロセスモデルには、デッドロックのような制御フローエラーがあり、適切な実行を妨げる可能性がある。
本稿では、BPMNモデルのエラーを瞬時に識別し、モデラーにとって理解しやすくし、自動的に解決する修正を提案する新しい音質チェックツールを紹介します。
私たちは、ツールのサイズと状態空間の複雑さが増大する合成BPMNモデルと、文献で提供される現実的なモデルとをベンチマークすることで、ツールの音質チェックが500ms未満の即時性であることを示した。
さらに,本ツールでは,モデル内の可聴性違反を直接表示し,各違反のインタラクティブな反例可視化を行う。
さらに、現在他のツールでは利用できない違反を解決するための修正も提供されている。
このツールはオープンソースで、モジュール化され、拡張可能で、人気のあるBPMNモデリングツールに統合されています。
Many business process models have control-flow errors, such as deadlocks, which can hinder proper execution. In this paper, we introduce our new soundness-checking tool that can instantaneously identify errors in BPMN models, make them comprehensible for modelers, and even suggest corrections to resolve them automatically. We demonstrate that our tool's soundness checking is instantaneous, i.e., it takes less than 500ms, by benchmarking our tool against synthetic BPMN models with increasing size and state space complexity, as well as realistic models provided in the literature. Moreover, the tool directly displays possible soundness violations in the model and provides an interactive counterexample visualization of each violation. Additionally, it provides fixes to resolve the violations found, which are not currently available in other tools. The tool is open-source, modular, extensible, and integrated into a popular BPMN modeling tool. | 翻訳日:2024-07-09 10:33:20 公開日:2024-07-08 |
# 観察可能な近接面の検出:クロスドメイン3次元物体検出の新しいモデリングと評価
Detect Closer Surfaces that can be Seen: New Modeling and Evaluation in Cross-domain 3D Object Detection ( http://arxiv.org/abs/2407.04061v2 ) ライセンス: Link先を確認 | Ruixiao Zhang, Yihong Wu, Juheon Lee, Adam Prugel-Bennett, Xiaohao Cai, | (参考訳) ドメイン適応技術の性能は、現在の自動運転車の3Dオブジェクト検出分野において、まだ理想的なレベルに達していない。
これらの要因が組み合わさって、特定のデータセットから学んだ知識の効果的な伝達と応用を妨げる。
既存の評価指標は、当初、予測と接地トラスト境界ボックス間の2次元または3次元の重なりを計算して、単一領域上での評価のために設計されているため、データセット間のサイズ差に起因する過度な問題に悩まされることが多い。
ドメインにまたがって適用された後、元の3Dバウンディングボックスで優れたパフォーマンスを維持するために、本当にモデルが必要なのでしょうか?
実用的アプリケーションの観点からは、車両と他の障害物との衝突を防止することに重点を置いています。
言い換えれば、モデルがエゴ車両に最も近い表面を正確に識別できる限り、障害を効果的に回避することは十分である。
本稿では,エゴ車両のセンサに近接する表面を検出する3次元物体検出モデルの能力を測定するための2つの指標を提案する。
さらに、EdgeHeadと呼ばれる改良ヘッドを提案し、学習可能な近接面にもっと焦点を合わせることで、既存のモデルのクロスドメインパフォーマンスを大幅に向上させることができる。
The performance of domain adaptation technologies has not yet reached an ideal level in the current 3D object detection field for autonomous driving, which is mainly due to significant differences in the size of vehicles, as well as the environments they operate in when applied across domains. These factors together hinder the effective transfer and application of knowledge learned from specific datasets. Since the existing evaluation metrics are initially designed for evaluation on a single domain by calculating the 2D or 3D overlap between the prediction and ground-truth bounding boxes, they often suffer from the overfitting problem caused by the size differences among datasets. This raises a fundamental question related to the evaluation of the 3D object detection models' cross-domain performance: Do we really need models to maintain excellent performance in their original 3D bounding boxes after being applied across domains? From a practical application perspective, one of our main focuses is actually on preventing collisions between vehicles and other obstacles, especially in cross-domain scenarios where correctly predicting the size of vehicles is much more difficult. In other words, as long as a model can accurately identify the closest surfaces to the ego vehicle, it is sufficient to effectively avoid obstacles. In this paper, we propose two metrics to measure 3D object detection models' ability of detecting the closer surfaces to the sensor on the ego vehicle, which can be used to evaluate their cross-domain performance more comprehensively and reasonably. Furthermore, we propose a refinement head, named EdgeHead, to guide models to focus more on the learnable closer surfaces, which can greatly improve the cross-domain performance of existing models not only under our new metrics, but even also under the original BEV/3D metrics. | 翻訳日:2024-07-09 10:33:20 公開日:2024-07-08 |
# 前向き特徴伝達によるTiny欠陥の探索
Looking for Tiny Defects via Forward-Backward Feature Transfer ( http://arxiv.org/abs/2407.04092v2 ) ライセンス: Link先を確認 | Alex Costanzino, Pierluigi Zama Ramirez, Giuseppe Lisanti, Luigi Di Stefano, | (参考訳) 効率の要求により、ほとんどの異常検出・セグメンテーション(AD&S)法は、低解像度画像(例えば、224ドル)の処理に重点を置いており、元の入力画像のダウンサンプリングによって得られる。
この設定では、典型的には、供給された接地トラス欠陥マスクにもダウンサンプリングが適用される。
しかし、多くの産業アプリケーションでは、大きな欠陥と小さな欠陥の両方を識別する必要があるため、上述したプロトコルは、現在の方法で実現可能な実際のパフォーマンスの現実的なイメージを提供するのに不足する可能性がある。
そこで本研究では,従来の高精細画像と地表面のトラスマスクの手法を,異常の大きさの関数としてのセグメンテーション性能に焦点をあてて評価する,新しいベンチマークを提案する。
我々のベンチマークには、欠陥サイズ、すなわち、大きな異常から小さな異常まで、優れたローカライゼーションを維持する方法の持つロバスト性をキャプチャする指標が含まれている。
さらに,凍結した視覚変換器(Teacher-Student)の層にパッチの特徴を伝達することを学ぶ2つの浅いMLP(学生)に依存した,新しいTeacher-Studentパラダイムに基づくAD&Sアプローチを導入する。
提案手法と最近のAD&S手法を,大小の欠陥を含む高分解能入力に対して評価した。
提案手法は,欠陥サイズに対する高いロバスト性,高速動作,MVTec ADデータセットの最先端性能,VisAデータセットの最先端セグメンテーション性能を特徴とする。
Motivated by efficiency requirements, most anomaly detection and segmentation (AD&S) methods focus on processing low-resolution images, e.g., $224\times 224$ pixels, obtained by downsampling the original input images. In this setting, downsampling is typically applied also to the provided ground-truth defect masks. Yet, as numerous industrial applications demand identification of both large and tiny defects, the above-described protocol may fall short in providing a realistic picture of the actual performance attainable by current methods. Hence, in this work, we introduce a novel benchmark that evaluates methods on the original, high-resolution image and ground-truth masks, focusing on segmentation performance as a function of the size of anomalies. Our benchmark includes a metric that captures robustness with respect to defect size, i.e., the ability of a method to preserve good localization from large anomalies to tiny ones. Furthermore, we introduce an AD&S approach based on a novel Teacher-Student paradigm which relies on two shallow MLPs (the Students) that learn to transfer patch features across the layers of a frozen vision transformer (the Teacher). By means of our benchmark, we evaluate our proposal and other recent AD&S methods on high-resolution inputs containing large and tiny defects. Our proposal features the highest robustness to defect size, runs at the fastest speed, yields state-of-the-art performance on the MVTec AD dataset and state-of-the-art segmentation performance on the VisA dataset. | 翻訳日:2024-07-09 10:33:20 公開日:2024-07-08 |
# Dual-Level Adaptive Lossy Compressionを用いたDeep Learning Recommendation Modelトレーニングにおけるコミュニケーションの高速化
Accelerating Communication in Deep Learning Recommendation Model Training with Dual-Level Adaptive Lossy Compression ( http://arxiv.org/abs/2407.04272v2 ) ライセンス: Link先を確認 | Hao Feng, Boyuan Zhang, Fanjiang Ye, Min Si, Ching-Hsiang Chu, Jiannan Tian, Chunxing Yin, Summer Deng, Yuchen Hao, Pavan Balaji, Tong Geng, Dingwen Tao, | (参考訳) DLRMは最先端のレコメンデーションシステムモデルであり、様々な業界アプリケーションで広く採用されている。
しかし、DLRMモデルの大きなサイズは、効率的なトレーニングのために複数のデバイス/GPUを使用する必要がある。
このプロセスにおける重要なボトルネックは、すべてのデバイスから埋め込みデータを集めるのに必要な全通信に時間を要することだ。
これを軽減するため,通信データサイズを削減し,DLRMトレーニングを高速化するために,エラーバウンドの損失圧縮を利用する手法を提案する。
本研究では,埋込データの特徴を詳細に解析し,高い圧縮率を達成するために,新しい誤り結合型損失圧縮アルゴリズムを開発した。
さらに、テーブルワイドとイテレーションワイドの両方にまたがる、エラーバウンド調整のための二重レベル適応戦略を導入し、圧縮の利点と精度への影響をバランスさせる。
さらに、GPU上のPyTorchテンソルの圧縮機を最適化し、圧縮オーバーヘッドを最小限にする。
評価の結果,本手法は最小限の精度で1.38$\times$トレーニングスピードアップを達成した。
DLRM is a state-of-the-art recommendation system model that has gained widespread adoption across various industry applications. The large size of DLRM models, however, necessitates the use of multiple devices/GPUs for efficient training. A significant bottleneck in this process is the time-consuming all-to-all communication required to collect embedding data from all devices. To mitigate this, we introduce a method that employs error-bounded lossy compression to reduce the communication data size and accelerate DLRM training. We develop a novel error-bounded lossy compression algorithm, informed by an in-depth analysis of embedding data features, to achieve high compression ratios. Moreover, we introduce a dual-level adaptive strategy for error-bound adjustment, spanning both table-wise and iteration-wise aspects, to balance the compression benefits with the potential impacts on accuracy. We further optimize our compressor for PyTorch tensors on GPUs, minimizing compression overhead. Evaluation shows that our method achieves a 1.38$\times$ training speedup with a minimal accuracy impact. | 翻訳日:2024-07-09 10:33:20 公開日:2024-07-08 |
# SSP-GNN: 双方向最適化による追跡学習
SSP-GNN: Learning to Track via Bilevel Optimization ( http://arxiv.org/abs/2407.04308v2 ) ライセンス: Link先を確認 | Griffin Golias, Masa Nakura-Fan, Vitaly Ablavsky, | (参考訳) 本稿では,マルチオブジェクト追跡(MOT)のためのグラフベースのトラッキング定式化を提案し,その対象検出にはキネマティック情報と再識別機能(属性)が含まれている。
本手法は,一組のフレーム上で定義された追跡グラフに対して,逐次最短経路 (SSP) アルゴリズムを適用した。
この追跡グラフのエッジコストは、グラフニューラルネットワーク(GNN)の変種であるメッセージパスネットワークを介して計算される。
GNNのパラメータと、従ってトラッカーは、地道トラックと検出のトレーニングセットでエンドツーエンドに学習される。
具体的には、学習は、新しい損失関数によって導かれる二段階最適化の形を取る。
シミュレーションシナリオ上でのアルゴリズムの評価を行い,シナリオに対する感度とハイパーパラメータのモデル化を行った。
様々なシナリオの複雑さにまたがって,本手法は強いベースラインと良好に比較できる。
We propose a graph-based tracking formulation for multi-object tracking (MOT) where target detections contain kinematic information and re-identification features (attributes). Our method applies a successive shortest paths (SSP) algorithm to a tracking graph defined over a batch of frames. The edge costs in this tracking graph are computed via a message-passing network, a graph neural network (GNN) variant. The parameters of the GNN, and hence, the tracker, are learned end-to-end on a training set of example ground-truth tracks and detections. Specifically, learning takes the form of bilevel optimization guided by our novel loss function. We evaluate our algorithm on simulated scenarios to understand its sensitivity to scenario aspects and model hyperparameters. Across varied scenario complexities, our method compares favorably to a strong baseline. | 翻訳日:2024-07-09 10:33:20 公開日:2024-07-08 |
# 拡散モデルの速度精度トレードオフ:非平衡熱力学からの知恵と最適輸送
Speed-accuracy trade-off for the diffusion models: Wisdom from nonequilibrium thermodynamics and optimal transport ( http://arxiv.org/abs/2407.04495v2 ) ライセンス: Link先を確認 | Kotaro Ikeda, Tomoya Uda, Daisuke Okanohara, Sosuke Ito, | (参考訳) 我々は、拡散モデルと呼ばれる生成モデルと、確率的熱力学と呼ばれるフォッカー・プランク方程式の非平衡熱力学との間の関係について論じる。
確率的熱力学の手法に基づき,拡散モデルの速度-精度トレードオフを導出し,拡散モデルにおけるデータ生成の速度と精度のトレードオフ関係を導出する。
その結果,前処理におけるエントロピー生成速度がデータ生成の誤差に影響を与えることが示唆された。
確率的熱力学の観点から、我々の結果は拡散モデルにおけるデータ生成の最良の方法に関する定量的知見を提供する。
最適学習プロトコルは、確率的熱力学における保守的な力と、最適輸送理論における2-ワッサーシュタイン距離による空間の測地によって導入される。
本研究では,コサインスケジュール,条件付き最適輸送,最適輸送など,異なるノイズスケジュールを持つ拡散モデルの速度精度トレードオフの有効性を数値的に説明する。
We discuss a connection between a generative model, called the diffusion model, and nonequilibrium thermodynamics for the Fokker-Planck equation, called stochastic thermodynamics. Based on the techniques of stochastic thermodynamics, we derive the speed-accuracy trade-off for the diffusion models, which is a trade-off relationship between the speed and accuracy of data generation in diffusion models. Our result implies that the entropy production rate in the forward process affects the errors in data generation. From a stochastic thermodynamic perspective, our results provide quantitative insight into how best to generate data in diffusion models. The optimal learning protocol is introduced by the conservative force in stochastic thermodynamics and the geodesic of space by the 2-Wasserstein distance in optimal transport theory. We numerically illustrate the validity of the speed-accuracy trade-off for the diffusion models with different noise schedules such as the cosine schedule, the conditional optimal transport, and the optimal transport. | 翻訳日:2024-07-09 10:33:20 公開日:2024-07-08 |
# PartCraft: 創造的なオブジェクトを部品で作る
PartCraft: Crafting Creative Objects by Parts ( http://arxiv.org/abs/2407.04604v2 ) ライセンス: Link先を確認 | Kam Woh Ng, Xiatian Zhu, Yi-Zhe Song, Tao Xiang, | (参考訳) 本稿では、ユーザが「選択できる」ことによって、生成的視覚AIにおける創造的制御を促進する。
従来のテキストやスケッチベースの手法とは別に、私たちは初めて、創造的な取り組みのために、視覚的な概念を部分的に選択できるようにしました。
その結果は、選択された視覚概念を正確に捉えたきめ細かな生成であり、ホリストリーに忠実で妥当な結果を保証する。
これを実現するために、私たちはまず、教師なしの機能クラスタリングを通じて、オブジェクトを部品にパースします。
そして、部品をテキストトークンにエンコードし、それらを操作するエントロピーベースの正規化注意損失を導入する。
この損失設計により、オブジェクトの部分構成に関する一般的な事前トポロジー知識を学習し、さらに新しい部分構成に一般化し、生成が一意に忠実に見えるようにすることができる。
最後に、部分トークンを投影するためにボトルネックエンコーダを使用します。
これは忠実性を高めるだけでなく、共有知識を活用し、インスタンス間の情報交換を促進することによって学習を促進する。
論文や補足資料の視覚的な結果は、高度にカスタマイズされた革新的な創造物を作る際に、PartCraftの魅力的な力を示しており、これは「チャーミング」と「創造的な鳥」によって実証されている。
コードはhttps://github.com/kamwoh/partcraft.comで公開されている。
This paper propels creative control in generative visual AI by allowing users to "select". Departing from traditional text or sketch-based methods, we for the first time allow users to choose visual concepts by parts for their creative endeavors. The outcome is fine-grained generation that precisely captures selected visual concepts, ensuring a holistically faithful and plausible result. To achieve this, we first parse objects into parts through unsupervised feature clustering. Then, we encode parts into text tokens and introduce an entropy-based normalized attention loss that operates on them. This loss design enables our model to learn generic prior topology knowledge about object's part composition, and further generalize to novel part compositions to ensure the generation looks holistically faithful. Lastly, we employ a bottleneck encoder to project the part tokens. This not only enhances fidelity but also accelerates learning, by leveraging shared knowledge and facilitating information exchange among instances. Visual results in the paper and supplementary material showcase the compelling power of PartCraft in crafting highly customized, innovative creations, exemplified by the "charming" and creative birds. Code is released at https://github.com/kamwoh/partcraft. | 翻訳日:2024-07-09 10:33:20 公開日:2024-07-08 |
# OneRestore: 複合劣化のためのユニバーサル復元フレームワーク
OneRestore: A Universal Restoration Framework for Composite Degradation ( http://arxiv.org/abs/2407.04621v2 ) ライセンス: Link先を確認 | Yu Guo, Yuan Gao, Yuxu Lu, Huilin Zhu, Ryan Wen Liu, Shengfeng He, | (参考訳) 現実のシナリオでは、画像障害はしばしば複合的な劣化として現れ、低光、迷路、雨、雪といった要素の複雑な相互作用を示す。
この事実にもかかわらず、既存の修復手法は通常、孤立した分解タイプをターゲットにしており、複数の劣化要因が共存する環境では不足している。
本研究は, このギャップを埋めるために, 複雑な複合劣化シナリオを正確に表現するために, 4つの物理劣化パラダイムを統合した多目的イメージングモデルを提案する。
本研究では,適応的かつ制御可能なシーン復元を目的とした,新しいトランスフォーマーベースのフレームワークであるOneRestoreを提案する。
提案フレームワークは,劣化したシーンディスクリプタと画像特徴を融合したユニークなクロスアテンション機構を利用して,ニュアンスド復元を実現する。
本モデルでは,手動テキスト埋め込みから視覚属性に基づく自動抽出まで,多目的な入力シーン記述を可能にする。
モデル制約を補強するために, 余剰劣化画像を負のサンプルとして用いて, 複合劣化修復損失を増大させる。
合成および実世界のデータセットの比較結果は、OneRestoreが優れたソリューションであることを示している。
In real-world scenarios, image impairments often manifest as composite degradations, presenting a complex interplay of elements such as low light, haze, rain, and snow. Despite this reality, existing restoration methods typically target isolated degradation types, thereby falling short in environments where multiple degrading factors coexist. To bridge this gap, our study proposes a versatile imaging model that consolidates four physical corruption paradigms to accurately represent complex, composite degradation scenarios. In this context, we propose OneRestore, a novel transformer-based framework designed for adaptive, controllable scene restoration. The proposed framework leverages a unique cross-attention mechanism, merging degraded scene descriptors with image features, allowing for nuanced restoration. Our model allows versatile input scene descriptors, ranging from manual text embeddings to automatic extractions based on visual attributes. Our methodology is further enhanced through a composite degradation restoration loss, using extra degraded images as negative samples to fortify model constraints. Comparative results on synthetic and real-world datasets demonstrate OneRestore as a superior solution, significantly advancing the state-of-the-art in addressing complex, composite degradations. | 翻訳日:2024-07-09 10:33:20 公開日:2024-07-08 |