このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240914となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 話す前に考える:マインドセットを用いたロールプレイングモデル
Thinking Before Speaking: A Role-playing Model with Mindset ( http://arxiv.org/abs/2409.13752v1 ) ライセンス: Link先を確認 | Baohua Zhang, Yongyi Huang, Wenyao Cui, Huaping Zhang, | (参考訳) ロールプレイングは大きな言語モデル(LLM)にとって簡単なタスクであり、人間の振る舞いをシミュレートする能力がある。
多くの最近の研究で、LLMはモデルを微調整したり、特別なプロンプトを使って特定の役割のトーンで応答を生成できるようになった。
しかし、通常、ある役割がLLMによって演じられていることを認識するのは容易である。
これらのモデルは、仮定された役割が持たない知識や、答える役割の特定の経験や論理を必要とする疑問に直面すると、パフォーマンスが悪くなります。
本稿では,この問題に対処し,LLMを現実の役割として振る舞うために,TBS(Thinking Before Talk)モデルを提案する。
他の研究とは異なり、我々はまずキャラクターの現実のシナリオと過去の対話に基づいてデータを拡張し、キャラクターのマインドセットとの対話を補完する。
そして、ロールの知識以上の要素を含むデータポイントを少数追加し、LLMを微調整します。
このアプローチは、LLMがロールの思考プロセスとロジックを採用し、ロールの知識ベースから外れた応答を避けるのに役立つ。
これらの機能をテストするためのデータセットと評価指標も用意しました。
実験結果から、TBSモデルは、トーン、知識、マインドセットの観点での役割をよりうまくエミュレートできることが示された。
Role-playing is an easy task for Large Language Models (LLMs), as they are skilled at simulating human behaviors. Many current studies have enabled LLMs to generate responses in the tone of a specific role by fine-tuning the models or using specialized prompts. However, it is typically easy to recognize when a role is being played by LLMs. These models tend to perform poorly when confronted with knowledge that the assumed role does not possess, or a question that requires the specific experience or logic of the role to answer. To address this problem and make LLMs act more like real roles, we propose a Thinking Before Speaking (TBS) model in this paper. Unlike other studies, we first extend the data based on the character's real-life scenarios and the historical dialogue, supplementing each pair of dialogue with the character's mindset. Then we add few data points that include elements beyond the role's knowledge, and fine-tune the LLMs. This approach can help LLMs adopt the role's thought process and logic, avoiding responses that fall outside the role's knowledge base. We have also prepared a dataset and evaluation metrics to test these capabilities. Experimental results show that our TBS model can better emulate a role in terms of tone, knowledge, and mindset. | 翻訳日:2024-11-07 05:24:17 公開日:2024-09-14 |
# 相乗的シミュレーション:大規模言語モデルを用いたマルチエージェント問題の解法
Synergistic Simulations: Multi-Agent Problem Solving with Large Language Models ( http://arxiv.org/abs/2409.13753v1 ) ライセンス: Link先を確認 | Asher Sprigler, Alexander Drobek, Keagan Weinstock, Wendpanga Tapsoba, Gavin Childress, Andy Dao, Lucas Gral, | (参考訳) 大規模言語モデル(LLM)は、各個人が生成する思考や行動の解釈を可能にするマルチエージェントシステムの開発を促進する能力をますます示している。
また、LLMをベースとした既存の世界との相互作用、特にシミュレーション環境との相互作用にも進歩がみられた。
本稿では,上記のトピック(エージェントとワールドインタラクション)を,複数のエージェントが協調して問題解決を行うことのできる単一シミュレーションに統合することを目的としている。
LLMが人間の協力の相乗効果を示すかどうかを示すことによって、LLMの応用の進歩につながる可能性がある。
我々は,2人のルームメイトとエージェントが協調してプログラミング作業を行う物理スタジオアパートの2つのシミュレーションを実装した。
マルチエージェントフレームワークを提供し,各シミュレーションにおけるエージェントの性能について議論し,将来的な追加について検討する。
Large Language Models (LLMs) have increasingly demonstrated the ability to facilitate the development of multi-agent systems that allow the interpretation of thoughts and actions generated by each individual. Promising advancements have also been made in LLM-based interaction with existing worlds, particularly in interacting with simulated environments. This paper aims to integrate both aforementioned topics (agents & world interaction) into a single simulation where multiple agents can work together to solve a problem, modeling how groups of humans can often solve problems better than individuals. By showing whether LLMs demonstrate the synergy of human collaboration, it could lead to advancements in the applications of LLMs. We implemented two simulations: a physical studio apartment with two roommates, and another where agents collaborate to complete a programming task. We provide a multi-agent framework, discuss the performance of the agents in each simulation, and discuss potential future additions. | 翻訳日:2024-11-07 05:24:17 公開日:2024-09-14 |
# 不確実な環境における計画中の情報の価値向上
Increasing the Value of Information During Planning in Uncertain Environments ( http://arxiv.org/abs/2409.13754v1 ) ライセンス: Link先を確認 | Gaurab Pokharel, | (参考訳) 以前の研究では、多くの実世界の問題に対して、POMDPはオンラインアルゴリズムによって高速かつほぼ最適に解けることが示されている。
しかし、エージェントが情報を収集できる時と、その情報を使う必要がある時との間に大きな時間的遅延がある重要な問題に対して、これらのソリューションは情報の価値を適切に考慮することができない。
その結果、情報収集行動は、たとえ最適な政策に批判的であったとしても、既存のソリューションによって無視され、エージェントによる準最適決定につながる。
本研究では,情報を収集する行動の価値をよりよく反映して,最先端のオンライン計画を改善する新しいアルゴリズムを導入することにより,この問題を是正する新しいソリューションを開発する。
我々は, POMCPアルゴリズムにおいて, UCB1ヒューリスティックにエントロピーを加えることで実現している。
私たちはこの解決策を廊下の問題でテストする。
結果,新しいアルゴリズムはPOMCPよりも高い性能を示した。
Prior studies have demonstrated that for many real-world problems, POMDPs can be solved through online algorithms both quickly and with near optimality. However, on an important set of problems where there is a large time delay between when the agent can gather information and when it needs to use that information, these solutions fail to adequately consider the value of information. As a result, information gathering actions, even when they are critical in the optimal policy, will be ignored by existing solutions, leading to sub-optimal decisions by the agent. In this research, we develop a novel solution that rectifies this problem by introducing a new algorithm that improves upon state-of-the-art online planning by better reflecting on the value of actions that gather information. We do this by adding Entropy to the UCB1 heuristic in the POMCP algorithm. We test this solution on the hallway problem. Results indicate that our new algorithm performs significantly better than POMCP. | 翻訳日:2024-11-07 05:24:17 公開日:2024-09-14 |
# SEE:Semantically Aligned EEG-to-Text Translation
SEE: Semantically Aligned EEG-to-Text Translation ( http://arxiv.org/abs/2409.16312v1 ) ライセンス: Link先を確認 | Yitian Tao, Yan Liang, Luoyu Wang, Yongqing Li, Qing Yang, Han Zhang, | (参考訳) 神経生理学的信号を言語に復号することは、脳-コンピュータインターフェース(BCI)の応用において非常に興味深い研究である。
脳電図(EEG)は非侵襲性、使いやすさ、費用対効果で知られており、この分野では一般的な方法である。
しかし、現在のEEG-to-Textデコーディングアプローチは、脳波記録と生テキストの間に大きなドメインギャップがあり、固有のデータバイアスがあり、小さなクローズド語彙があるため、課題に直面している。
本稿では,2つのモジュールを事前学習したBART言語モデルにシームレスに統合することにより,脳波からテキストへのデコーディングを改善する新しい手法であるSEEを提案する。
これら2つのモジュールは,(1)機能強化とドメインギャップ軽減のためにクロスモーダル表現を学習するクロスモーダル・コードブック,(2)脳波-テキストペアから抽出されたマルチモーダル特徴,すなわち同様の意味を持つ異なる脳波-テキストペアのデータを考慮したセマンティック・マッチング・モジュールを含む。
チューリッヒ認知言語処理コーパス(ZuCo)の実験結果から,SEEの有効性が示された。
Decoding neurophysiological signals into language is of great research interest within brain-computer interface (BCI) applications. Electroencephalography (EEG), known for its non-invasiveness, ease of use, and cost-effectiveness, has been a popular method in this field. However, current EEG-to-Text decoding approaches face challenges due to the huge domain gap between EEG recordings and raw texts, inherent data bias, and small closed vocabularies. In this paper, we propose SEE: Semantically Aligned EEG-to-Text Translation, a novel method aimed at improving EEG-to-Text decoding by seamlessly integrating two modules into a pre-trained BART language model. These two modules include (1) a Cross-Modal Codebook that learns cross-modal representations to enhance feature consolidation and mitigate domain gap, and (2) a Semantic Matching Module that fully utilizes pre-trained text representations to align multi-modal features extracted from EEG-Text pairs while considering noise caused by false negatives, i.e., data from different EEG-Text pairs that have similar semantic meanings. Experimental results on the Zurich Cognitive Language Processing Corpus (ZuCo) demonstrate the effectiveness of SEE, which enhances the feasibility of accurate EEG-to-Text decoding. | 翻訳日:2024-11-06 17:42:27 公開日:2024-09-14 |
# StressPrompt: ストレスは大規模言語モデルやヒューマンパフォーマンスに同じように影響を与えますか?
StressPrompt: Does Stress Impact Large Language Models and Human Performance Similarly? ( http://arxiv.org/abs/2409.17167v1 ) ライセンス: Link先を確認 | Guobin Shen, Dongcheng Zhao, Aorigele Bao, Xiang He, Yiting Dong, Yi Zeng, | (参考訳) 人間はしばしばストレスを経験し、パフォーマンスに大きな影響を及ぼす。
本研究では,Large Language Models (LLMs) がヒトに類似したストレス応答を示すか,その性能が異なるストレス誘発プロンプトの下で変動するかを検討する。
これを調べるために,ストレスプロンプトと呼ばれる新しいプロンプトを開発した。
これらのプロンプトは、確立された心理学的枠組みから派生し、人間の被験者の格付けに基づいて慎重に校正された。
次に、これらのプロンプトを複数のLSMに適用して、指示追従、複雑な推論、感情的知性など、様々なタスクに対する応答を評価する。
この結果は、LLMが人間と同様に、Yerkes-Dodson法則と一致して、適度なストレスの下で最適に機能することを示唆している。
特に、その性能は、低ストレス条件と高ストレス条件の両方で低下する。
さらに, これらのストレスプロンプットはLLMの内部状態を著しく変化させ, ストレスに対する人間の反応を反映する神経表現の変化をもたらすことが明らかとなった。
この研究は、LLMの運用上の堅牢性と柔軟性に関する重要な洞察を提供し、カスタマーサービス、ヘルスケア、緊急対応状況など、ストレスが頻発する現実のシナリオにおいて、ハイパフォーマンスを維持できるAIシステムを設計することの重要性を実証する。
さらに、この研究は、LLMが異なるシナリオをどのように扱うか、そして人間の認知とどのように類似しているかの新しい視点を提供することによって、幅広いAI研究コミュニティに貢献する。
Human beings often experience stress, which can significantly influence their performance. This study explores whether Large Language Models (LLMs) exhibit stress responses similar to those of humans and whether their performance fluctuates under different stress-inducing prompts. To investigate this, we developed a novel set of prompts, termed StressPrompt, designed to induce varying levels of stress. These prompts were derived from established psychological frameworks and carefully calibrated based on ratings from human participants. We then applied these prompts to several LLMs to assess their responses across a range of tasks, including instruction-following, complex reasoning, and emotional intelligence. The findings suggest that LLMs, like humans, perform optimally under moderate stress, consistent with the Yerkes-Dodson law. Notably, their performance declines under both low and high-stress conditions. Our analysis further revealed that these StressPrompts significantly alter the internal states of LLMs, leading to changes in their neural representations that mirror human responses to stress. This research provides critical insights into the operational robustness and flexibility of LLMs, demonstrating the importance of designing AI systems capable of maintaining high performance in real-world scenarios where stress is prevalent, such as in customer service, healthcare, and emergency response contexts. Moreover, this study contributes to the broader AI research community by offering a new perspective on how LLMs handle different scenarios and their similarities to human cognition. | 翻訳日:2024-11-06 16:50:22 公開日:2024-09-14 |
# IW-Bench:画像からWebへの変換のための大規模マルチモーダルモデルの評価
IW-Bench: Evaluating Large Multimodal Models for Converting Image-to-Web ( http://arxiv.org/abs/2409.18980v1 ) ライセンス: Link先を確認 | Hongcheng Guo, Wei Zhang, Junhao Chen, Yaonan Gu, Jian Yang, Junjia Du, Binyuan Hui, Tianyu Liu, Jianxin Ma, Chang Zhou, Zhoujun Li, | (参考訳) 近年,大規模マルチモーダルモデルの進歩により,画像理解能力が著しく向上している。
これらの進歩にもかかわらず、画像からWebへの変換能力を評価するための堅牢なベンチマークが欠如している。
主に、生成されたWeb要素の整合性を保証することが不可欠である。
これらの要素は可視圏と可視圏から構成される。
従来の評価手法(例えばBLEU)は、Webに目に見えない要素が存在するため、顕著な変化を受けやすい。
さらに,従来見過ごされていた要素間の位置関係を参考に,Webページのレイアウト情報を計測することが重要である。
課題に対処するため、画像と対応するWebコード(IW-Bench)のベンチマークをキュレートし、調整しました。
具体的には、文書オブジェクトモデル(DOM)ツリーを解析することにより、要素の完全性をテストする要素精度を提案する。
また、DOMツリーを共通のサブシーケンスに変換することで、要素の位置関係を分析するためにレイアウト精度も提案されている。
さらに、5ホップのマルチモーダルチェイン・オブ・サード・プロンプティング(Chain-of-Thought Prompting)も設計しました。
1) SoM 即発注射。
2)要素の推測。
3)レイアウトを推測する。
4) Web コードの参照。
5) 反射。
私たちのベンチマークでは、1200対のイメージと、さまざまなレベルの難易度を持つWebコードで構成されています。
我々は、既存の大規模マルチモーダルモデルに関する広範な実験を行い、その性能と領域の洞察を提供し、画像・ウェブ領域の改善を図っている。
Recently advancements in large multimodal models have led to significant strides in image comprehension capabilities. Despite these advancements, there is a lack of the robust benchmark specifically for assessing the Image-to-Web conversion proficiency of these large models. Primarily, it is essential to ensure the integrity of the web elements generated. These elements comprise visible and invisible categories. Previous evaluation methods (e.g., BLEU) are notably susceptible to significant alterations due to the presence of invisible elements in Web. Furthermore, it is crucial to measure the layout information of web pages, referring to the positional relationships between elements, which is overlooked by previous work. To address challenges, we have curated and aligned a benchmark of images and corresponding web codes (IW-Bench). Specifically, we propose the Element Accuracy, which tests the completeness of the elements by parsing the Document Object Model (DOM) tree. Layout Accuracy is also proposed to analyze the positional relationships of elements by converting DOM tree into a common subsequence. Besides, we design a five-hop multimodal Chain-of-Thought Prompting for better performance, which contains five hop: 1) SoM prompt injection. 2) Inferring Elements. 3) Inferring Layout. 4) Inferring Web code. 5) Reflection. Our benchmark comprises 1200 pairs of images and web codes with varying levels of difficulty. We have conducted extensive experiments on existing large multimodal models, offering insights into their performance and areas for improvement in image-to-web domain. | 翻訳日:2024-11-06 05:10:43 公開日:2024-09-14 |
# 強化学習と拡散モデルを統合したハイブリッドアプローチによる脳波信号生成の促進
Enhancing EEG Signal Generation through a Hybrid Approach Integrating Reinforcement Learning and Diffusion Models ( http://arxiv.org/abs/2410.00013v1 ) ライセンス: Link先を確認 | Yang An, Yuhao Tong, Weikai Wang, Steven W. Su, | (参考訳) 本研究では,拡散モデルと強化学習を統合することで脳波信号(EEG)の合成に革新的なアプローチを提案する。
この統合は、患者の負担、プライバシー上の懸念、高忠実度臨床データを取得するための金銭的コストなど、従来の脳波データ取得に関連する重要な課題に対処する。
提案手法は, 時間的・スペクトル的特徴の詳細な脳波信号の生成を促進させ, 合成データセットの信頼性と多様性を向上する。
この手法の独特性は、波形形態やリズム脳波パターンを含む周波数領域の特徴などの時間領域特性を、結合的な生成フレームワーク内で同時にモデル化できることにある。
これは、強化学習モデルのパラメータ更新戦略の自律的選択を通じて実行され、脳波信号に固有の複雑なダイナミクスを正確に反映する拡散過程を操縦する。
我々は,BCIコンペティションIVaデータセットとプロプライエタリデータセットの両方を用いて,厳密な実験条件下で収集したアプローチの有効性を検証する。
提案手法は,生体認証を欠いた合成データを生成することにより,参加者のプライバシを保護し,大規模な注釈付きデータセットへの依存を最小限に抑えてモデルトレーニングの効率を向上することを示す。
この研究は2つのコントリビューションを提供する: まず、データ拡張と機械学習アルゴリズムの進歩のための新しいツールを提供することにより、脳波の研究を前進させる。
本研究は, 神経学的ケアにおける今後の研究の基盤と, 神経リハビリテーションにおける適切な治療プロトコルの開発を総合的に確立するものである。
The present study introduces an innovative approach to the synthesis of Electroencephalogram (EEG) signals by integrating diffusion models with reinforcement learning. This integration addresses key challenges associated with traditional EEG data acquisition, including participant burden, privacy concerns, and the financial costs of obtaining high-fidelity clinical data. Our methodology enhances the generation of EEG signals with detailed temporal and spectral features, enriching the authenticity and diversity of synthetic datasets. The uniqueness of our approach lies in its capacity to concurrently model time-domain characteristics, such as waveform morphology, and frequency-domain features, including rhythmic brainwave patterns, within a cohesive generative framework. This is executed through the reinforcement learning model's autonomous selection of parameter update strategies, which steers the diffusion process to accurately reflect the complex dynamics inherent in EEG signals. We validate the efficacy of our approach using both the BCI Competition IV 2a dataset and a proprietary dataset, each collected under stringent experimental conditions. Our results indicate that the method preserves participant privacy by generating synthetic data that lacks biometric identifiers and concurrently improves the efficiency of model training by minimizing reliance on large annotated datasets. This research offers dual contributions: firstly, it advances EEG research by providing a novel tool for data augmentation and the advancement of machine learning algorithms; secondly, it enhances brain-computer interface technologies by offering a robust solution for training models on diverse and representative EEG datasets. Collectively, this study establishes a foundation for future investigations in neurological care and the development of tailored treatment protocols in neurorehabilitation. | 翻訳日:2024-11-05 15:38:58 公開日:2024-09-14 |
# 線形量子系:極、零点、可逆性と感度
Linear quantum systems: poles, zeros, invertibility and sensitivity ( http://arxiv.org/abs/2410.00014v1 ) ライセンス: Link先を確認 | Zhiyuan Dong, Guofeng Zhang, Heung-wing Joseph Lee, Ian R. Petersen, | (参考訳) 量子力学の非可換性は系の力学に基本的な制約を課し、線形領域では系の行列上の物理的実現可能性条件によって現れる。
これらの制限は、システム行列にユニークな構造を与える。
本稿では,線形量子系の零点と極を求めることによって,この構造を研究することを目的とする。
まず、s_0 が伝達零であることと、s_0 が伝達関数の極であることと、s_0 が線型量子系の A-行列の固有値であることとが一致する。
さらに、s_0 が出力非カップリング零であることと入力非カップリング零であることは同値である。
第二に、これらの零極対応に基づいて、線形量子系が強い漸近的左可逆性であるならば、Hurwitz不安定でなければならないことを示す。
2種類の安定な入力オブザーバが不安定な線形量子系のために構築されている。
最後に、コヒーレントフィードバックネットワークの感度について検討し、特に、システム感度分析に基づいて、理想的な入力スクイーズとシステムロバストネスの基本的なトレードオフについて検討した。
The noncommutative nature of quantum mechanics imposes fundamental constraints on system dynamics, which, in the linear realm, are manifested through the physical realizability conditions on system matrices. These restrictions give system matrices a unique structure. This paper aims to study this structure by investigating the zeros and poles of linear quantum systems. Firstly, it is shown that -s_0 is a transmission zero if and only if s_0 is a pole of the transfer function, and -s_0 is an invariant zero if and only if s_0 is an eigenvalue of the A-matrix, of a linear quantum system. Moreover, s_0 is an output-decoupling zero if and only if -s_0 is an input-decoupling zero. Secondly, based on these zero-pole correspondences, we show that a linear quantum system must be Hurwitz unstable if it is strongly asymptotically left invertible. Two types of stable input observers are constructed for unstable linear quantum systems. Finally, the sensitivity of a coherent feedback network is investigated; in particular, the fundamental tradeoff between ideal input squeezing and system robustness is studied on the basis of system sensitivity analysis. | 翻訳日:2024-11-05 15:38:58 公開日:2024-09-14 |
# 機械学習を用いたインド炭田806施設の運転所熱流量のデータセット
A Dataset of the Operating Station Heat Rate for 806 Indian Coal Plant Units using Machine Learning ( http://arxiv.org/abs/2410.00016v1 ) ライセンス: Link先を確認 | Yifu Ding, Jansen Wong, Serena Patel, Dharik Mallapragada, Guiyan Zang, Robert Stoner, | (参考訳) インドは2070年までに純ゼロ排出量を達成することを目指しており、2030年までに再生可能発電容量500GWという野心的な目標を設定している。
石炭工場は現在、2022年のインドの発電量の60%以上に貢献している。
高エミッション石炭プラントのアップグレードと脱炭はエネルギー問題となった。
石炭プラントの主要な技術パラメータは、石炭プラントの熱効率を表す運転所熱率(SHR)である。
しかし、インドの石炭プラントの運用SHRは異なっており、包括的に文書化されていない。
この研究は、いくつかの既存のデータベースから拡張され、機械学習(ML)を用いた806のインド炭田ユニットのためのSHRデータセットを作成し、これまでで最も包括的なカバレッジを示している。
さらに、水ストレスリスクや石炭価格などの環境要因を予測特徴として取り入れ、精度を向上させる。
当社の可視化プラットフォームから簡単にダウンロード可能なこのデータセットは、インドが再生可能エネルギー目標に向かって移行するにつれて、インドの石炭発電のエネルギー・環境政策を通知する可能性がある。
India aims to achieve net-zero emissions by 2070 and has set an ambitious target of 500 GW of renewable power generation capacity by 2030. Coal plants currently contribute to more than 60\% of India's electricity generation in 2022. Upgrading and decarbonizing high-emission coal plants became a pressing energy issue. A key technical parameter for coal plants is the operating station heat rate (SHR), which represents the thermal efficiency of a coal plant. Yet, the operating SHR of Indian coal plants varies and is not comprehensively documented. This study extends from several existing databases and creates an SHR dataset for 806 Indian coal plant units using machine learning (ML), presenting the most comprehensive coverage to date. Additionally, it incorporates environmental factors such as water stress risk and coal prices as prediction features to improve accuracy. This dataset, easily downloadable from our visualization platform, could inform energy and environmental policies for India's coal power generation as the country transitions towards its renewable energy targets. | 翻訳日:2024-11-05 15:38:58 公開日:2024-09-14 |
# 急激な災害対応と資源配分のためのマルチモーダル停電予測
Multimodal Power Outage Prediction for Rapid Disaster Response and Resource Allocation ( http://arxiv.org/abs/2410.00017v1 ) ライセンス: Link先を確認 | Alejandro Aparcedo, Christian Lopez, Abhinav Kotta, Mengjie Li, | (参考訳) 気候変動のため、極度の気象イベントはますます一般的になり、重大なリスクが生じる。
さらなるダメージを軽減するためには、再生可能エネルギーへのシフトが不可欠である。
残念なことに、最も影響の少ないコミュニティは、最後にインフラの改善を受けることが多い。
本研究では,夜間照明(NTL),停電の重大度,および主要ハリケーン前後の位置を予測するための新しい視覚時空間フレームワークを提案する。
我々のソリューションの中心は、画像から空間的および時間的コヒーレンスを学習する視覚時空間グラフニューラルネットワーク(VST-GNN)である。
我々の研究は、将来の太陽光発電(PV)の展開など、エネルギーインフラの強化を緊急に必要とする場合、未表示領域に認識をもたらします。
停電の深刻度と地域化を特定することで、政策立案者やコミュニティの利害関係者からの意識を高め、行動を促すことを目指しています。
最終的にこの取り組みは、脆弱なエネルギーインフラを持つ地域を活性化し、リスクの高いコミュニティのレジリエンスと信頼性を高めることを目指している。
Extreme weather events are increasingly common due to climate change, posing significant risks. To mitigate further damage, a shift towards renewable energy is imperative. Unfortunately, underrepresented communities that are most affected often receive infrastructure improvements last. We propose a novel visual spatiotemporal framework for predicting nighttime lights (NTL), power outage severity and location before and after major hurricanes. Central to our solution is the Visual-Spatiotemporal Graph Neural Network (VST-GNN), to learn spatial and temporal coherence from images. Our work brings awareness to underrepresented areas in urgent need of enhanced energy infrastructure, such as future photovoltaic (PV) deployment. By identifying the severity and localization of power outages, our initiative aims to raise awareness and prompt action from policymakers and community stakeholders. Ultimately, this effort seeks to empower regions with vulnerable energy infrastructure, enhancing resilience and reliability for at-risk communities. | 翻訳日:2024-11-05 15:38:58 公開日:2024-09-14 |
# ヨルバ・マラヤラム・英語におけるLLMの文化的意識評価
Evaluating Cultural Awareness of LLMs for Yoruba, Malayalam, and English ( http://arxiv.org/abs/2410.01811v1 ) ライセンス: Link先を確認 | Fiifi Dawson, Zainab Mosunmola, Sahil Pocker, Raj Abhijit Dandekar, Rajat Dandekar, Sreedath Panat, | (参考訳) LLMは、多くの複雑なタスクにおいて非常に効果的であるが、地域言語や文化に対する理解と機能はあまり研究されていない。
本稿では,マラヤラム (インド・ケララ州) とヨルバ (西アフリカ) の2つの地域言語における文化的側面を理解するための様々なLLMの能力について考察する。
ホフステデの文化的側面として、パワーディスタンス(PDI)、パーソナリズム(IDV)、達成と成功へのモチベーション(MAS)、不確実性回避(UAV)、長期指向(LTO)、インデュアランス(IVR)の6つを用いて、LCMに基づく応答の文化的認識を定量化する。
LLMは英語に高い文化的類似性を示すが、マラヤラムとヨルバの6つの指標にまたがる文化的ニュアンスを捉えられなかった。
また、文化的に豊かなデータセットを用いた大規模地域言語LLMトレーニングの必要性を強調した。
このことは、チャットベースのLLMのユーザエクスペリエンスの向上や、大規模LLMエージェントベースの市場調査の妥当性向上に大きく影響する。
Although LLMs have been extremely effective in a large number of complex tasks, their understanding and functionality for regional languages and cultures are not well studied. In this paper, we explore the ability of various LLMs to comprehend the cultural aspects of two regional languages: Malayalam (state of Kerala, India) and Yoruba (West Africa). Using Hofstede's six cultural dimensions: Power Distance (PDI), Individualism (IDV), Motivation towards Achievement and Success (MAS), Uncertainty Avoidance (UAV), Long Term Orientation (LTO), and Indulgence (IVR), we quantify the cultural awareness of LLM-based responses. We demonstrate that although LLMs show a high cultural similarity for English, they fail to capture the cultural nuances across these 6 metrics for Malayalam and Yoruba. We also highlight the need for large-scale regional language LLM training with culturally enriched datasets. This will have huge implications for enhancing the user experience of chat-based LLMs and also improving the validity of large-scale LLM agent-based market research. | 翻訳日:2024-11-04 15:04:32 公開日:2024-09-14 |
# 医療におけるエッジインテリジェンスのためのプライバシ保護SAM量子化
Privacy-Preserving SAM Quantization for Efficient Edge Intelligence in Healthcare ( http://arxiv.org/abs/2410.01813v1 ) ライセンス: Link先を確認 | Zhikai Li, Jing Zhang, Qingyi Gu, | (参考訳) 世界中の様々な地域における医療従事者の専門知識と医療資源の格差は、社会的問題である。
人工知能技術はこの問題を緩和する新たな機会を提供する。
画像のセグメンテーションに優れたセグメンテーションモデル (SAM) は, 医療モニタリングや診断支援において極めて優れた性能を示した。
残念なことに、SAMの膨大な計算およびストレージオーバーヘッドは、リソース制限されたエッジデバイスへのデプロイに重大な課題をもたらす。
量子化はモデルの圧縮に有効なソリューションであるが、従来の手法はキャリブレーションのためにオリジナルのデータに大きく依存しているため、医療データのプライバシーやセキュリティに対する懸念が広がる。
本稿では、原データなしで量子化パラメータを学習・校正し、モデル圧縮時のデータプライバシを効果的に保持する、データフリーなSAM用量子化フレームワークDFQ-SAMを提案する。
具体的には、セグメンテーションのための擬陽性ラベルの進化とパッチの類似性を組み合わせて、事前訓練されたモデルにおけるセマンティクスと分布の先行性を完全に活用し、実際のデータの代わりに高品質なデータ合成を容易にする。
さらに、低ビット量子化の精度を確保するため、スケール再パラメータ化を導入する。
我々は様々なデータセットに対して広範囲なセグメンテーション実験を行い、DFQ-SAMは低ビット量子化において一貫した性能を提供する。
DFQ-SAMは、クラウドとエッジのコラボレーションにおけるデータ転送の必要性を排除し、潜在的な攻撃から機密データを保護する。
安全で高速でパーソナライズされた医療サービスをエッジで実現し、システムの効率を向上し、リソース割り当てを最適化する。
The disparity in healthcare personnel expertise and medical resources across different regions of the world is a pressing social issue. Artificial intelligence technology offers new opportunities to alleviate this issue. Segment Anything Model (SAM), which excels in intelligent image segmentation, has demonstrated exceptional performance in medical monitoring and assisted diagnosis. Unfortunately, the huge computational and storage overhead of SAM poses significant challenges for deployment on resource-limited edge devices. Quantization is an effective solution for model compression; however, traditional methods rely heavily on original data for calibration, which raises widespread concerns about medical data privacy and security. In this paper, we propose a data-free quantization framework for SAM, called DFQ-SAM, which learns and calibrates quantization parameters without any original data, thus effectively preserving data privacy during model compression. Specifically, we propose pseudo-positive label evolution for segmentation, combined with patch similarity, to fully leverage the semantic and distribution priors in pre-trained models, which facilitates high-quality data synthesis as a substitute for real data. Furthermore, we introduce scale reparameterization to ensure the accuracy of low-bit quantization. We perform extensive segmentation experiments on various datasets, and DFQ-SAM consistently provides significant performance on low-bit quantization. DFQ-SAM eliminates the need for data transfer in cloud-edge collaboration, thereby protecting sensitive data from potential attacks. It enables secure, fast, and personalized healthcare services at the edge, which enhances system efficiency and optimizes resource allocation, and thus facilitating the pervasive application of artificial intelligence in worldwide healthcare. | 翻訳日:2024-11-04 14:54:47 公開日:2024-09-14 |
# 発達するメタバースを解析するためのグラフ理論的アプローチ
A Graph Theoretic Approach to Analyze the Developing Metaverse ( http://arxiv.org/abs/2410.01814v1 ) ライセンス: Link先を確認 | Anirudh Dash, | (参考訳) 過去数十年で停滞した成長にもかかわらず、メタバースの概念はまだ初期段階にある。
最終的には、すべての個人を繋ぐ共通の媒体になることが期待されている。
空間と時間のあらゆる点で、物理的世界のユーザのものと、仮想世界のリアルタイムデジタルレプリカの2つの異なるパラダイムが存在し、相互にシームレスに作用する、高度なメタバースを定義する必要がある。
したがって、発達するメタバースは現在の状態から、おそらくは高度なメタバースへの遷移周期として定義することができる。
本稿では, メタバースの異なる側面を独立に扱う既存のアプローチとは異なり, 現在のメタバースの構造と, 一つの傘の下で発達・発展するメタバースの鍵となるものについて, グラフィカルな観点からモデル化することを目的とする。
この統合により、ドメイン間相互作用の正確な表現が可能になり、リソース割り当ての最適化、ユーザエンゲージメントの向上、コンテンツ配布の改善につながります。
この研究は、これらの相関関係を捉えるためのそのようなアプローチの有用性を示し、メタバースの分析と将来の発展のための強力なツールを提供する。
Despite staggering growth over the past couple of decades, the concept of the metaverse is still in its early stages. Eventually, it is expected to become a common medium connecting every individual. Considering the complexity of this plausible scenario at hand, there's a need to define an advanced metaverse -- a metaverse in which, at every point in space and time, two distinct paradigms exist: that of the user in the physical world and that of its real-time digital replica in the virtual one, that can engage seamlessly with each other. The developing metaverse can be thus defined as the transitional period from the current state to, possibly, the advanced metaverse. This paper seeks to model, from a graphical standpoint, some of the structures in the current metaverse and ones that might be key to the developing and advanced metaverses under one umbrella, unlike existing approaches that treat different aspects of the metaverse in isolation. This integration allows for the accurate representation of cross-domain interactions, leading to optimized resource allocation, enhanced user engagement, and improved content distribution. This work demonstrates the usefulness of such an approach in capturing these correlations, providing a powerful tool for the analysis and future development of the metaverse. | 翻訳日:2024-11-04 14:54:47 公開日:2024-09-14 |
# 個人化されたレコメンデーションから予測分析への食品マーケティングにおけるAI:従来の広告手法とAI駆動戦略の比較
AI in Food Marketing from Personalized Recommendations to Predictive Analytics: Comparing Traditional Advertising Techniques with AI-Driven Strategies ( http://arxiv.org/abs/2410.01815v1 ) ライセンス: Link先を確認 | Elham Khamoushi, | (参考訳) 人工知能(AI)は、パーソナライズされたレコメンデーション、消費者行動予測、キャンペーン最適化のための高度な技術を提供することで、食品マーケティングに革命をもたらした。
本稿では,テレビ,ラジオ,印刷などの従来の広告手法から,AIによる戦略への移行について検討する。
伝統的なアプローチはブランドの認知を高めることに成功していたが、現代の消費者が求めるパーソナライゼーションのレベルに欠けていた。
AIは、消費者の購入履歴、閲覧行動、ソーシャルメディア活動からのデータを活用して、高度にカスタマイズされたマーケティングキャンペーンを作成する。
これらの戦略により、より正確な製品レコメンデーション、消費者ニーズの予測が可能になり、最終的には顧客満足度とユーザエクスペリエンスが向上します。
AIは労働集約的なプロセスを自動化することでマーケティング活動を強化し、効率性とコスト削減につながる。
また、マーケティングメッセージの継続的適応を可能にし、関連性を維持し、時間とともに関与することを保証します。
AIはパーソナライズと効率の面で大きなメリットを提供する一方で、課題、特に技術や熟練した専門知識に必要な相当な投資も伴う。
本稿では、従来のAI駆動の食品マーケティング技術の長所と短所を比較し、マーケターがAIをどのように活用してより効果的でターゲットを絞ったマーケティング戦略を進化するデジタルランドスケープに構築できるかについての貴重な洞察を提供する。
Artificial Intelligence (AI) has revolutionized food marketing by providing advanced techniques for personalized recommendations, consumer behavior prediction, and campaign optimization. This paper explores the shift from traditional advertising methods, such as TV, radio, and print, to AI-driven strategies. Traditional approaches were successful in building brand awareness but lacked the level of personalization that modern consumers demand. AI leverages data from consumer purchase histories, browsing behaviors, and social media activity to create highly tailored marketing campaigns. These strategies allow for more accurate product recommendations, prediction of consumer needs, and ultimately improve customer satisfaction and user experience. AI enhances marketing efforts by automating labor-intensive processes, leading to greater efficiency and cost savings. It also enables the continuous adaptation of marketing messages, ensuring they remain relevant and engaging over time. While AI presents significant benefits in terms of personalization and efficiency, it also comes with challenges, particularly the substantial investment required for technology and skilled expertise. This paper compares the strengths and weaknesses of traditional and AI-driven food marketing techniques, offering valuable insights into how marketers can leverage AI to create more effective and targeted marketing strategies in the evolving digital landscape. | 翻訳日:2024-11-04 14:54:47 公開日:2024-09-14 |
# 自動シーン生成:最先端技術,モデル,データセット,課題,今後の展望
Automatic Scene Generation: State-of-the-Art Techniques, Models, Datasets, Challenges, and Future Prospects ( http://arxiv.org/abs/2410.01816v1 ) ライセンス: Link先を確認 | Awal Ahmed Fime, Saifuddin Mahmud, Arpita Das, Md. Sunzidul Islam, Hong-Hoon Kim, | (参考訳) 自動シーン生成は、ロボット工学、レクリエーション、視覚表現、訓練とシミュレーション、教育など、研究の不可欠な領域である。
この調査は、機械学習、ディープラーニング、組み込みシステム、自然言語処理(NLP)を活用する技術に焦点を当て、自動シーン生成における現在の最先端技術に関する包括的なレビューを提供する。
モデルを,変分オートエンコーダ(VAE),GAN(Generative Adversarial Networks),トランスフォーマー(Transformer),拡散モデル(Diffusion Models)の4つのタイプに分類する。
各カテゴリは詳細に調べられ、様々なサブモデルとその分野への貢献について議論される。
また、COCO-Stuff、Visual Genome、MS-COCOといった、これらのモデルのトレーニングと評価に欠かせない最も一般的なデータセットについてもレビューする。
画像から3Dへの変換,テキストから3Dへの変換,UI/レイアウト設計,グラフベースの手法,インタラクティブなシーン生成など,シーン生成のための手法を検討する。
モデル性能評価において,Frechet Inception Distance (FID), Kullback-Leibler (KL) Divergence, Inception Score (IS), Intersection over Union (IoU), Mean Average Precision (mAP) などの評価指標について検討した。
この調査では、リアリズムの維持、複雑なシーンを複数のオブジェクトで扱うこと、オブジェクトの関係や空間配置の整合性を確保することなど、この分野における重要な課題と限界を明らかにしている。
本調査は,近年の進歩と改善の要点を要約することにより,自動シーン生成に取り組む研究者や実践者にとって貴重な資源を提供することを目的とする。
Automatic scene generation is an essential area of research with applications in robotics, recreation, visual representation, training and simulation, education, and more. This survey provides a comprehensive review of the current state-of-the-arts in automatic scene generation, focusing on techniques that leverage machine learning, deep learning, embedded systems, and natural language processing (NLP). We categorize the models into four main types: Variational Autoencoders (VAEs), Generative Adversarial Networks (GANs), Transformers, and Diffusion Models. Each category is explored in detail, discussing various sub-models and their contributions to the field. We also review the most commonly used datasets, such as COCO-Stuff, Visual Genome, and MS-COCO, which are critical for training and evaluating these models. Methodologies for scene generation are examined, including image-to-3D conversion, text-to-3D generation, UI/layout design, graph-based methods, and interactive scene generation. Evaluation metrics such as Frechet Inception Distance (FID), Kullback-Leibler (KL) Divergence, Inception Score (IS), Intersection over Union (IoU), and Mean Average Precision (mAP) are discussed in the context of their use in assessing model performance. The survey identifies key challenges and limitations in the field, such as maintaining realism, handling complex scenes with multiple objects, and ensuring consistency in object relationships and spatial arrangements. By summarizing recent advances and pinpointing areas for improvement, this survey aims to provide a valuable resource for researchers and practitioners working on automatic scene generation. | 翻訳日:2024-11-04 14:54:47 公開日:2024-09-14 |
# 侵入的BCI神経信号復号のためのマルチスケール核融合強化スパイクニューラルネットワーク
Multiscale fusion enhanced spiking neural network for invasive BCI neural signal decoding ( http://arxiv.org/abs/2410.03533v1 ) ライセンス: Link先を確認 | Yu Song, Liyuan Han, Bo Xu, Tielin Zhang, | (参考訳) 脳コンピュータインタフェース(BCI)は、神経科学と人工知能の高度な融合であり、神経信号の安定かつ長期の復号を必要とする。
神経力学とスパイクに基づく信号処理を備えたスパイクニューラルネットワーク(SNN)は、このタスクに本質的に適している。
本稿では,MFSNN(Multiscale Fusion enhanced Spiking Neural Network)を用いた新しい手法を提案する。
MFSNNは、人間の視覚知覚に見られる並列処理とマルチスケール機能融合をエミュレートし、リアルタイム、効率的、エネルギーを節約する神経信号復号を可能にする。
当初、MSSNNは時間的畳み込みネットワークとチャネルアテンション機構を使用して、生データから時空間の特徴を抽出していた。
次に、スキップ接続を通じてこれらの機能を統合することでデコードパフォーマンスを向上させる。
さらに、MFSNNは、ミニバッチ教師付き一般化学習を通じて、日次信号復号における一般化性とロバスト性を向上させる。
MFSNNは、シングルハンドのグリップ・アンド・タッチとセンター・アンド・アウトリーチタスクを含む2つのベンチマークによるBCIパラダイムにおいて、MLPやGRUといった従来のニューラルネットワーク手法を精度と計算効率の両方で超越している。
さらに、MFSNNのマルチスケール機能融合フレームワークは、ニューロモルフィックチップの実装に適しており、侵入的BCI信号のオンラインデコードのためのエネルギー効率の高いソリューションを提供する。
Brain-computer interfaces (BCIs) are an advanced fusion of neuroscience and artificial intelligence, requiring stable and long-term decoding of neural signals. Spiking Neural Networks (SNNs), with their neuronal dynamics and spike-based signal processing, are inherently well-suited for this task. This paper presents a novel approach utilizing a Multiscale Fusion enhanced Spiking Neural Network (MFSNN). The MFSNN emulates the parallel processing and multiscale feature fusion seen in human visual perception to enable real-time, efficient, and energy-conserving neural signal decoding. Initially, the MFSNN employs temporal convolutional networks and channel attention mechanisms to extract spatiotemporal features from raw data. It then enhances decoding performance by integrating these features through skip connections. Additionally, the MFSNN improves generalizability and robustness in cross-day signal decoding through mini-batch supervised generalization learning. In two benchmark invasive BCI paradigms, including the single-hand grasp-and-touch and center-and-out reach tasks, the MFSNN surpasses traditional artificial neural network methods, such as MLP and GRU, in both accuracy and computational efficiency. Moreover, the MFSNN's multiscale feature fusion framework is well-suited for the implementation on neuromorphic chips, offering an energy-efficient solution for online decoding of invasive BCI signals. | 翻訳日:2024-11-02 21:39:44 公開日:2024-09-14 |
# コンピュータビジョンインテリジェンステストモデリングと生成:スマートOCRを事例として
Computer Vision Intelligence Test Modeling and Generation: A Case Study on Smart OCR ( http://arxiv.org/abs/2410.03536v1 ) ライセンス: Link先を確認 | Jing Shu, Bing-Jiun Miu, Eugene Chang, Jerry Gao, Jun Liu, | (参考訳) AIベースのシステムは特有の特徴を持ち、品質評価の課題を同時に導入する。
その結果、AIソフトウェアの品質の保証と検証が重要である。
本稿では,この課題に対処する効果的なAIソフトウェア機能テストモデルを提案する。
具体的には、AIソフトウェアテストプロセスの重要な側面を網羅した、以前の研究に関する包括的な文献レビューを最初に提示する。
次に、画像ベースのテキスト抽出AI関数を体系的に評価する3D分類モデルと、テストカバレッジ基準と複雑性を導入する。
提案したAIソフトウェアの品質テストの性能を評価するために,異なる側面をカバーするための4つの評価指標を提案する。
最後に、提案したフレームワークと定義メトリクスに基づいて、AI機能品質を評価するためのフレームワークの有効性と能力を示すために、移動型光学文字認識(OCR)ケーススタディを示す。
AI-based systems possess distinctive characteristics and introduce challenges in quality evaluation at the same time. Consequently, ensuring and validating AI software quality is of critical importance. In this paper, we present an effective AI software functional testing model to address this challenge. Specifically, we first present a comprehensive literature review of previous work, covering key facets of AI software testing processes. We then introduce a 3D classification model to systematically evaluate the image-based text extraction AI function, as well as test coverage criteria and complexity. To evaluate the performance of our proposed AI software quality test, we propose four evaluation metrics to cover different aspects. Finally, based on the proposed framework and defined metrics, a mobile Optical Character Recognition (OCR) case study is presented to demonstrate the framework's effectiveness and capability in assessing AI function quality. | 翻訳日:2024-11-02 21:39:44 公開日:2024-09-14 |
# SEA-ViT:視覚変換器を用いた海面電流予測
GRUに基づく時空間共分散モデリング
SEA-ViT: Sea Surface Currents Forecasting Using Vision Transformer and GRU-Based Spatio-Temporal Covariance Modeling ( http://arxiv.org/abs/2409.16313v1 ) ライセンス: Link先を確認 | Teerapong Panboonyuen | (参考訳) 海洋航行、環境モニタリング、気候分析などの応用、特にタイ湾やアンダマン海などの地域では、海面流の予測が不可欠である。
本稿では,視覚変換器(ViT)を双方向GRU(Gated Recurrent Units)と統合した高度な深層学習モデルSEA-ViTを紹介し,高周波数レーダ(HF)データを用いて海面電流(U,V)の時空間共分散を推定する。
SEA-ViTという名前は '`Sea Surface Currents Forecasting using Vision Transformer' に由来するもので、モデルが海洋力学に重点を置いており、予測能力を高めるためにViTアーキテクチャを使用していることを強調している。
SEA-ViTは、30年以上にわたる豊富なデータセットを活用して、座標座標と気候変動の間の複雑な関係に対処するためにENSO指標(El Ni\~no, La Ni\~na, neutral phases)を組み込むことによって、複雑な依存関係を解き放つように設計されている。
この開発は海流の予測能力を高め、タイの海洋地域の地球情報・宇宙技術開発庁(GISTDA)の努力を支援している。
コードと事前訓練されたモデルは、 \url{https://github.com/kaopanboonyuen/gistda-ai- Surface-currents} で利用可能である。
Forecasting sea surface currents is essential for applications such as maritime navigation, environmental monitoring, and climate analysis, particularly in regions like the Gulf of Thailand and the Andaman Sea. This paper introduces SEA-ViT, an advanced deep learning model that integrates Vision Transformer (ViT) with bidirectional Gated Recurrent Units (GRUs) to capture spatio-temporal covariance for predicting sea surface currents (U, V) using high-frequency radar (HF) data. The name SEA-ViT is derived from ``Sea Surface Currents Forecasting using Vision Transformer,'' highlighting the model's emphasis on ocean dynamics and its use of the ViT architecture to enhance forecasting capabilities. SEA-ViT is designed to unravel complex dependencies by leveraging a rich dataset spanning over 30 years and incorporating ENSO indices (El Ni\~no, La Ni\~na, and neutral phases) to address the intricate relationship between geographic coordinates and climatic variations. This development enhances the predictive capabilities for sea surface currents, supporting the efforts of the Geo-Informatics and Space Technology Development Agency (GISTDA) in Thailand's maritime regions. The code and pretrained models are available at \url{https://github.com/kaopanboonyuen/gistda-ai-sea-surface-currents}. | 翻訳日:2024-09-27 09:03:58 公開日:2024-09-14 |
# 量子コンピューティングと完全同型暗号化によるフェデレートラーニング:プライバシ保護MLにおける新しいコンピューティングパラダイムシフト
Federated Learning with Quantum Computing and Fully Homomorphic Encryption: A Novel Computing Paradigm Shift in Privacy-Preserving ML ( http://arxiv.org/abs/2409.11430v1 ) ライセンス: Link先を確認 | Siddhant Dutta, Pavana P Karanth, Pedro Maciel Xavier, Iago Leal de Freitas, Nouhaila Innan, Sadok Ben Yahia, Muhammad Shafique, David E. Bernal Neira, | (参考訳) 機械学習モデルを利用したプロダクトの広範な展開は、世界中のデータプライバシと情報セキュリティに関する懸念を高めている。
この問題に対処するため、フェデレートラーニングは、複数の学習クライアントがプライベートデータを開示することなくモデル知識を共有できるようにする従来の方法に代わるプライバシー保護手段として最初に提案された。
FHE(Fully Homomorphic Encryption)は、量子セーフな暗号システムであり、暗号化された重みで操作を実行できる。
しかし、このようなメカニズムを実際に実装することは、しばしば計算上のオーバーヘッドが大きくなり、潜在的なセキュリティ脅威を露呈する可能性がある。
アナログ、量子、特殊デジタルハードウェアなどの新しいコンピューティングパラダイムは、セキュリティを強化し、パフォーマンス損失を軽減するとともに、プライバシ保護機械学習システムを実装する機会を提供する。
この研究は、古典層と量子層の両方を統合するフェデレートラーニングニューラルネットワークアーキテクチャにFHEスキームを適用することで、これらのアイデアをインスタンス化する。
The widespread deployment of products powered by machine learning models is raising concerns around data privacy and information security worldwide. To address this issue, Federated Learning was first proposed as a privacy-preserving alternative to conventional methods that allow multiple learning clients to share model knowledge without disclosing private data. A complementary approach known as Fully Homomorphic Encryption (FHE) is a quantum-safe cryptographic system that enables operations to be performed on encrypted weights. However, implementing mechanisms such as these in practice often comes with significant computational overhead and can expose potential security threats. Novel computing paradigms, such as analog, quantum, and specialized digital hardware, present opportunities for implementing privacy-preserving machine learning systems while enhancing security and mitigating performance loss. This work instantiates these ideas by applying the FHE scheme to a Federated Learning Neural Network architecture that integrates both classical and quantum layers. | 翻訳日:2024-09-19 22:12:27 公開日:2024-09-14 |
# エージェントベースモデルにおけるエージェンシーの限界について
On the limits of agency in agent-based models ( http://arxiv.org/abs/2409.10568v1 ) ライセンス: Link先を確認 | Ayush Chopra, Shashank Kumar, Nurullah Giray-Kuru, Ramesh Raskar, Arnau Quera-Bofarull, | (参考訳) エージェント・ベース・モデリング(ABM)は、環境の中で動作し相互作用するエージェントの集合をシミュレートすることで、複雑なシステムの振る舞いを理解しようとする。
その実用性には、現実的な環境動態と適応的なエージェントの挙動を捉えながら、百万の人口を効率的にシミュレートする必要がある。
大規模言語モデル(LLMs)の最近の進歩は、適応的な振る舞いを捉えうるエージェントとしてLLMを使用することで、ABMを強化する機会を与える。
しかし、LLMを多人数で使用するという計算能力の欠如は、その普及を妨げている。
本稿では,AMMを数百万のエージェントに拡張するフレームワークであるAgentTorchを紹介する。
ABMエージェントとしてLLMの実用性をベンチマークし、シミュレーションスケールと個々のエージェンシー間のトレードオフを探索する。
新型コロナウイルス(COVID-19)のパンデミックをケーススタディとして、AgentTorchはニューヨーク市を代表する840万人のエージェントをシミュレートし、孤立と雇用行動が健康と経済に与える影響を捉えている。
我々は, ヒューリスティックエージェントとLCMエージェントをベースとした各種エージェントアーキテクチャの性能を比較し, 疾患波と失業率の予測を行った。
さらに、AgentTorchの振り返り、反ファクト、そして予測分析の能力を紹介し、政策設計における歴史的データの限界を克服する上で、適応的なエージェントの振る舞いがどのように役立つかを強調した。
AgentTorchは、世界中のポリシー作成と科学的発見に積極的に利用されているオープンソースプロジェクトである。
github.com/AgentTorch/AgentTorch。
Agent-based modeling (ABM) seeks to understand the behavior of complex systems by simulating a collection of agents that act and interact within an environment. Their practical utility requires capturing realistic environment dynamics and adaptive agent behavior while efficiently simulating million-size populations. Recent advancements in large language models (LLMs) present an opportunity to enhance ABMs by using LLMs as agents with further potential to capture adaptive behavior. However, the computational infeasibility of using LLMs for large populations has hindered their widespread adoption. In this paper, we introduce AgentTorch -- a framework that scales ABMs to millions of agents while capturing high-resolution agent behavior using LLMs. We benchmark the utility of LLMs as ABM agents, exploring the trade-off between simulation scale and individual agency. Using the COVID-19 pandemic as a case study, we demonstrate how AgentTorch can simulate 8.4 million agents representing New York City, capturing the impact of isolation and employment behavior on health and economic outcomes. We compare the performance of different agent architectures based on heuristic and LLM agents in predicting disease waves and unemployment rates. Furthermore, we showcase AgentTorch's capabilities for retrospective, counterfactual, and prospective analyses, highlighting how adaptive agent behavior can help overcome the limitations of historical data in policy design. AgentTorch is an open-source project actively being used for policy-making and scientific discovery around the world. The framework is available here: github.com/AgentTorch/AgentTorch. | 翻訳日:2024-09-18 21:09:36 公開日:2024-09-14 |
# 医療用事前学習言語モデルの著作権保護:訓練不要のバックドア透かし
Protecting Copyright of Medical Pre-trained Language Models: Training-Free Backdoor Watermarking ( http://arxiv.org/abs/2409.10570v1 ) ライセンス: Link先を確認 | Cong Kong, Rui Xu, Weixi Chen, Jiawei Chen, Zhaoxia Yin, | (参考訳) 特定のタスクを微調整した事前学習言語モデルは、NLPでは標準的なものであるが、医学領域に適用された場合、伝統的なモデルは性能が劣ることが多く、専門的な医学的事前訓練言語モデル(Med-PLMs)の開発につながっている。
これらのモデルは貴重な資産であるが、誤用や盗難に対して脆弱であり、著作権保護を必要とする。
しかし、既存の透かし手法はMed-PLM向けに調整されておらず、一般的なPLMの透かし手法を医療分野に適用することは、タスク不適合性、忠実性の喪失、非効率性といった課題に直面している。
これらの課題に対処するために,Med-PLMのためのトレーニング不要なバックドア透かし手法を提案する。
本手法では, 下流タスクのパフォーマンスに影響を与えないトリガーワードとして稀な特殊シンボルを用い, 元の埋め込みを, Med-PLMs ワード埋め込み層内の特定の医療用語に置き換えることで, 透かしを埋め込む。
様々な医学的下流のタスクで透かしを施したメド-PLMを微調整した後、最終モデル(FM)は、対応する医学用語と同じ方法でトリガーワードに応答した。
この性質を利用して透かしを抽出することができる。
実験により, 種々の下流の医療課題に対して, 透かしを効果的に抽出し, 高い忠実度が得られることを示した。
さらに, 各種攻撃に対するロバスト性を示し, 透かし埋め込みの効率を大幅に向上させ, 埋め込み時間を10時間から10秒に短縮する。
Pre-training language models followed by fine-tuning on specific tasks is standard in NLP, but traditional models often underperform when applied to the medical domain, leading to the development of specialized medical pre-trained language models (Med-PLMs). These models are valuable assets but are vulnerable to misuse and theft, requiring copyright protection. However, no existing watermarking methods are tailored for Med-PLMs, and adapting general PLMs watermarking techniques to the medical domain faces challenges such as task incompatibility, loss of fidelity, and inefficiency. To address these issues, we propose the first training-free backdoor watermarking method for Med-PLMs. Our method uses rare special symbols as trigger words, which do not impact downstream task performance, embedding watermarks by replacing their original embeddings with those of specific medical terms in the Med-PLMs' word embeddings layer. After fine-tuning the watermarked Med-PLMs on various medical downstream tasks, the final models (FMs) respond to the trigger words in the same way they would to the corresponding medical terms. This property can be utilized to extract the watermark. Experiments demonstrate that our method achieves high fidelity while effectively extracting watermarks across various medical downstream tasks. Additionally, our method demonstrates robustness against various attacks and significantly enhances the efficiency of watermark embedding, reducing the embedding time from 10 hours to 10 seconds. | 翻訳日:2024-09-18 21:09:36 公開日:2024-09-14 |
# ASFT:絶対的な姿で見事な微調整を実施
ASFT: Aligned Supervised Fine-Tuning through Absolute Likelihood ( http://arxiv.org/abs/2409.10571v1 ) ライセンス: Link先を確認 | Ruoyu Wang, Jiachen Sun, Shaowei Hua, Quan Fang, | (参考訳) DPO(Direct Preference Optimization)は、従来の損失関数ではなく、結果の選好やランキングを直接最適化することで、モデル性能を向上させる手法である。
このアプローチは、Large Language Models(LLM)と人間の好みを合わせるのに有効であることが証明されている。
様々なタスクで広く使われているにもかかわらず、DPOはスーパーバイザード・ファイン・チューニング(SFT)の有効性に敏感であり、モデルが人間に好まれる応答を学習できる限界があるとして批判され、性能は低下した。
これらの制約に対処するため、我々は、Bradley-Terryモデルではなく、各応答に対して絶対的絶対性を最適化し、LLMとペアワイズデータセットとの整合性を改善する効果的なアプローチであるASFT(Aligned Supervised Fine-Tuning)を提案し、参照モデルの必要性を排除した。
理論的勾配解析により、DPO損失関数が優先するデータを生成する確率を増大させるよりも高速な速度で人為的非参照データを生成する確率を減少させる問題を緩和することを示した。
さらに、UltraFeedbackとHH-RLHFを微調整した最新の命令チューニングモデルであるLlama3を用いて、ASFTとDPOの最新のバージョン、例えばシングルステップアプローチORPOを比較した。
MT-Benchのような命令追従ベンチマークとBLEU-4やROUGE-Lといった従来のテキスト生成指標の性能評価を行った。
大規模な実験により、ASFTは効果的なアライメントアプローチであり、既存の手法より一貫して優れていることが示された。
Direct Preference Optimization (DPO) is a method for enhancing model performance by directly optimizing for the preferences or rankings of outcomes, instead of traditional loss functions. This approach has proven effective in aligning Large Language Models (LLMs) with human preferences. Despite its widespread use across various tasks, DPO has been criticized for its sensitivity to the effectiveness of Supervised Fine-Tuning (SFT) and its limitations in enabling models to learn human-preferred responses, leading to less satisfactory performance. To address these limitations, we propose Aligned Supervised Fine-Tuning (ASFT), an effective approach that better aligns LLMs with pair-wise datasets by optimizing absolute likelihood for each response, rather than using the Bradley-Terry model, and eliminates the need for a reference model. Through theoretical gradient analysis, we demonstrate that ASFT mitigates the issue where the DPO loss function decreases the probability of generating human-dispreferred data at a faster rate than it increases the probability of producing preferred data. Additionally, we compare ASFT to DPO and its latest variants, such as the single-step approach ORPO, using the latest instruction-tuned model Llama3, which has been fine-tuned on UltraFeedback and HH-RLHF. We evaluated performance on instruction-following benchmarks like MT-Bench and traditional text generation metrics such as BLEU-4 and ROUGE-L. Extensive experiments demonstrate that ASFT is an effective alignment approach, consistently outperforming existing methods. | 翻訳日:2024-09-18 21:09:36 公開日:2024-09-14 |
# 依存度法による一貫したKサンプル試験
Universally Consistent K-Sample Tests via Dependence Measures ( http://arxiv.org/abs/1910.08883v5 ) ライセンス: Link先を確認 | Sambit Panda, Cencheng Shen, Ronan Perry, Jelle Zorn, Antoine Lutz, Carey E. Priebe, Joshua T. Vogelstein, | (参考訳) Kサンプルテスト問題は、各データポイントのK群が同じ分布から引き出されるかどうかを決定することである。
分散の解析は、平均差をテストする最も古典的な方法であり、分布差をテストするための最近の方法である。
本稿では,任意の依存度を用いてKサンプル試験を行う変換の存在を実証する。
したがって、距離相関やヒルベルト・シュミット独立基準のような普遍的に一貫した依存度を用いて、普遍的に一貫したKサンプルテストが達成される。
これにより、広範囲の依存度測定がKサンプルテストに容易に適用できる。
The K-sample testing problem involves determining whether K groups of data points are each drawn from the same distribution. Analysis of variance is arguably the most classical method to test mean differences, along with several recent methods to test distributional differences. In this paper, we demonstrate the existence of a transformation that allows K-sample testing to be carried out using any dependence measure. Consequently, universally consistent K-sample testing can be achieved using a universally consistent dependence measure, such as distance correlation and the Hilbert-Schmidt independence criterion. This enables a wide range of dependence measures to be easily applied to K-sample testing. | 翻訳日:2024-09-18 06:00:45 公開日:2024-09-14 |
# GraphMLP: 3Dヒューマンポース推定のためのグラフMLPライクなアーキテクチャ
GraphMLP: A Graph MLP-Like Architecture for 3D Human Pose Estimation ( http://arxiv.org/abs/2206.06420v4 ) ライセンス: Link先を確認 | Wenhao Li, Mengyuan Liu, Hong Liu, Tianyu Guo, Ti Wang, Hao Tang, Nicu Sebe, | (参考訳) 現代の多層パーセプトロン(MLP)モデルは、自己注意なしで視覚表現を学習する際の競合的な結果を示している。
しかし、既存のMLPモデルは、局所的な詳細を捉えるのが得意ではなく、人体構成に関する事前の知識が欠けているため、骨格表現学習のモデリング能力は制限されている。
これらの課題に対処するため,我々は,3次元ポーズ推定のためのグローバル・ローカル・グラフィック統一アーキテクチャにおいて,MPPとGCNを組み合わせたグラフ強化型MLPアーキテクチャーGraphMLPを提案する。
GraphMLPは、人体のグラフ構造をMLPモデルに組み込んで、3D人間のポーズのドメイン固有の要求を満たすとともに、局所的およびグローバルな空間的相互作用を可能にする。
さらに,GraphMLPをビデオ領域に柔軟かつ効率的に拡張し,複雑な時間的ダイナミクスを,列長が無視できる計算コストゲインの簡単な方法で効果的にモデル化できることを提案する。
我々の知る限りでは、これは単一のフレームとビデオシーケンスで3次元のポーズ推定を行う最初のMLPライクなアーキテクチャである。
大規模な実験により、提案したGraphMLPは、Human3.6MとMPI-INF-3DHPの2つのデータセットで最先端のパフォーマンスを達成することが示された。
コードとモデルはhttps://github.com/Vegetebird/GraphMLP.comで公開されている。
Modern multi-layer perceptron (MLP) models have shown competitive results in learning visual representations without self-attention. However, existing MLP models are not good at capturing local details and lack prior knowledge of human body configurations, which limits their modeling power for skeletal representation learning. To address these issues, we propose a simple yet effective graph-reinforced MLP-Like architecture, named GraphMLP, that combines MLPs and graph convolutional networks (GCNs) in a global-local-graphical unified architecture for 3D human pose estimation. GraphMLP incorporates the graph structure of human bodies into an MLP model to meet the domain-specific demand of the 3D human pose, while allowing for both local and global spatial interactions. Furthermore, we propose to flexibly and efficiently extend the GraphMLP to the video domain and show that complex temporal dynamics can be effectively modeled in a simple way with negligible computational cost gains in the sequence length. To the best of our knowledge, this is the first MLP-Like architecture for 3D human pose estimation in a single frame and a video sequence. Extensive experiments show that the proposed GraphMLP achieves state-of-the-art performance on two datasets, i.e., Human3.6M and MPI-INF-3DHP. Code and models are available at https://github.com/Vegetebird/GraphMLP. | 翻訳日:2024-09-18 06:00:45 公開日:2024-09-14 |
# 『IT from BIT』 : 情報は宇宙の構造をどのように形成するか?
"IT FROM BIT": How does information shape the structures in the universe? ( http://arxiv.org/abs/2209.11968v2 ) ライセンス: Link先を確認 | S. Davatolhagh, A. Sheykhi, M. H. Zarei, | (参考訳) 3つの主成分の合成に基づく。
(i)非平衡系におけるシャノン情報
(ii)半古典的エネルギー時間量子化規則、及び
三 準静的情報-エネルギー対応、すなわち、平衡から離れた環境によって支えられる準静的情報状態の量子化に関する新しい一般的な規則は、平衡からの距離を測る自由エネルギーである$T(t)$と$T(t)$が、平衡からの距離を測る$T(t)$が、平衡から離れた環境の平均温度であるときに、その環境の歴史が時間関数として知られていれば導入される。
この新しい準静的な情報時間量子化規則は、宇宙がどのような時代でも支持する永続構造(あるいはその地域の環境)の固有情報を見つけるために、物質支配時代の情報に対する現象力学的熱力学ポテンシャルを用いて膨張する宇宙に適用される。
この理論的な手順は、非平衡熱力学における情報と複雑性の量子論のさらなる研究のための新しい道を開く必要がある。
Based on a synthesis of three main ingredients: (i) the Shannon information in nonequilibrium systems, (ii) the semiclassical energy-time quantization rule, and (iii) the quasistatic information-energy correspondence, a new general rule for the quantization of quasistatic information states supported by an environment away from equilibrium is introduced if the history of the environment is known as a function of time in terms of its thermodynamic potential for information $T(t)\Delta S(t)$ that is a free energy measuring the distance from equilibrium $\Delta S(t)$, and $T(t)$ is the mean temperature of the environment at time $t$. This all new quasistatic information-time quantization rule is applied to the expanding universe using a phenomenological thermodynamic potential for information in the matter dominated era in order to find the eigen-informations of the persistent structures that are supported by the universe (or the local environments therein) at any given epoch, thus providing an information-theoretic foundation for formation of structures and rise of complexity with time that embodies the cosmic evolution as epitomized by the late Wheeler's famous conjecture ``{\it it from bit}". This theoretical procedure must also open new avenues for further research into the quantum theory of information and complexity in nonequilibrium thermodynamics. | 翻訳日:2024-09-18 05:51:14 公開日:2024-09-14 |
# PCKRF:6次元ポース推定のための核融合データによるポイントクラウドの補完とキーポイントリファインメント
PCKRF: Point Cloud Completion and Keypoint Refinement With Fusion Data for 6D Pose Estimation ( http://arxiv.org/abs/2210.03437v3 ) ライセンス: Link先を確認 | Yiheng Han, Irvin Haozhe Zhan, Long Zeng, Yu-Ping Wang, Ran Yi, Minjing Yu, Matthieu Gaetan Lin, Jenny Sheng, Yong-Jin Liu, | (参考訳) 6次元ポーズ推定精度を向上させるために、ICPやその変種など、制御可能なポーズ改善度を持つロバストポイントクラウド登録手法が一般的に用いられている。
しかし、これらの手法の有効性は、深層学習技術の進歩と初期ポーズ精度の向上によって徐々に低下する。
本稿では,6次元ポーズ推定のための新しいポーズ精錬パイプラインであるPoint Cloud Completion and Keypoint Refinement with Fusion Data (PCKRF)を提案する。
パイプラインは2つのステップで構成されています。
まず、新しいポーズ感応点補完ネットワークを介して入力点雲を完成させる。
ネットワークは、ポイント完了時にポーズ情報を持つローカル機能とグローバル機能の両方を使用する。
次に、提案したColor Support Iterative KeyPoint (CIKP) 法により、完了したオブジェクトポイントクラウドを対応するターゲットポイントクラウドに登録する。
CIKP法は、色情報を登録に導入し、各キーポイントの周りに点雲を登録し、安定性を高める。
PCKRFパイプラインは、フルフロー双方向融合ネットワークのような既存の一般的な6Dポーズ推定手法と統合することができ、ポーズ推定精度をさらに向上することができる。
実験により,本手法は比較的高精度な初期ポーズの最適化において,既存手法と比較して優れた安定性を示すことが示された。
特に,提案手法は既存のポーズ推定手法を効果的に補完し,ほとんどの場合,性能が向上することを示す。
さらに, テクスチャレスや対称な物体を含む難解なシナリオにおいても, 提案手法は有望な結果が得られる。
ソースコードはhttps://github.com/zhanhz/KRF.comで公開されています。
Some robust point cloud registration approaches with controllable pose refinement magnitude, such as ICP and its variants, are commonly used to improve 6D pose estimation accuracy. However, the effectiveness of these methods gradually diminishes with the advancement of deep learning techniques and the enhancement of initial pose accuracy, primarily due to their lack of specific design for pose refinement. In this paper, we propose Point Cloud Completion and Keypoint Refinement with Fusion Data (PCKRF), a new pose refinement pipeline for 6D pose estimation. The pipeline consists of two steps. First, it completes the input point clouds via a novel pose-sensitive point completion network. The network uses both local and global features with pose information during point completion. Then, it registers the completed object point cloud with the corresponding target point cloud by our proposed Color supported Iterative KeyPoint (CIKP) method. The CIKP method introduces color information into registration and registers a point cloud around each keypoint to increase stability. The PCKRF pipeline can be integrated with existing popular 6D pose estimation methods, such as the full flow bidirectional fusion network, to further improve their pose estimation accuracy. Experiments demonstrate that our method exhibits superior stability compared to existing approaches when optimizing initial poses with relatively high precision. Notably, the results indicate that our method effectively complements most existing pose estimation techniques, leading to improved performance in most cases. Furthermore, our method achieves promising results even in challenging scenarios involving textureless and symmetrical objects. Our source code is available at https://github.com/zhanhz/KRF. | 翻訳日:2024-09-18 05:51:14 公開日:2024-09-14 |
# 省エネルギー・再利用・リサイクル:エネルギー拡散モデルとMCMCによる構成生成
Reduce, Reuse, Recycle: Compositional Generation with Energy-Based Diffusion Models and MCMC ( http://arxiv.org/abs/2302.11552v6 ) ライセンス: Link先を確認 | Yilun Du, Conor Durkan, Robin Strudel, Joshua B. Tenenbaum, Sander Dieleman, Rob Fergus, Jascha Sohl-Dickstein, Arnaud Doucet, Will Grathwohl, | (参考訳) 導入以来、拡散モデルは、多くの領域における生成的モデリングにおいて、急速に普及したアプローチとなっている。
それらは、ログ確率密度関数の時間変化列の勾配を学ぶものとして解釈できる。
この解釈は、拡散モデルのポストホック制御方法として、分類器ベースおよび分類器フリーガイダンスを動機付けている。
本研究では,これらの概念を,スコアに基づく拡散モデルの解釈を用いて構築し,構成生成と誘導を含むタスクに対する拡散モデルの条件付け,修正,再利用の方法を探究する。
特に, 現状の技術を用いて, ある種の構成が失敗する理由を考察し, 多数の解を提示する。
この失敗の原因はサンプル(モデルではない)であり,MCMCにインスパイアされた新しいサンプルの提案である。
さらに,新しい構成演算子とより洗練されたメトロポリス補正サンプリング器を利用できる拡散モデルのエネルギーベースパラメータ化を提案する。
興味深いことに、これらのサンプルは、分類器誘導画像ネットモデリングや合成テキスト・画像生成など、幅広い問題にまたがって、構成生成の顕著な改善につながっている。
Since their introduction, diffusion models have quickly become the prevailing approach to generative modeling in many domains. They can be interpreted as learning the gradients of a time-varying sequence of log-probability density functions. This interpretation has motivated classifier-based and classifier-free guidance as methods for post-hoc control of diffusion models. In this work, we build upon these ideas using the score-based interpretation of diffusion models, and explore alternative ways to condition, modify, and reuse diffusion models for tasks involving compositional generation and guidance. In particular, we investigate why certain types of composition fail using current techniques and present a number of solutions. We conclude that the sampler (not the model) is responsible for this failure and propose new samplers, inspired by MCMC, which enable successful compositional generation. Further, we propose an energy-based parameterization of diffusion models which enables the use of new compositional operators and more sophisticated, Metropolis-corrected samplers. Intriguingly we find these samplers lead to notable improvements in compositional generation across a wide set of problems such as classifier-guided ImageNet modeling and compositional text-to-image generation. | 翻訳日:2024-09-18 05:51:14 公開日:2024-09-14 |
# 領域間ロバスト性向上のためのパッチ対応バッチ正規化
Patch-aware Batch Normalization for Improving Cross-domain Robustness ( http://arxiv.org/abs/2304.02848v3 ) ライセンス: Link先を確認 | Lei Qi, Dongjia Zhao, Yinghuan Shi, Xin Geng, | (参考訳) コンピュータビジョンタスクにおけるディープラーニングの成功にもかかわらず、クロスドメインタスクは、トレーニングセットとテストセットが異なる分布に従うと、モデルのパフォーマンスが低下する課題をまだ示している。
既存の手法の多くは、この課題を解決するためにデータ拡張を達成するために、逆学習やインスタンス正規化を採用している。
対照的に、バッチ正規化(BN)層は未確認領域では堅牢ではなく、画像の局所パッチの違いがあるため、パッチ対応バッチ正規化(PBN)と呼ばれる新しい手法を提案する。
具体的には、まず、バッチの特徴写像を空間次元に沿って非重なり合うパッチに分割し、その後、各パッチを独立に正規化し、各イテレーションで共有BNパラメータを共同で最適化する。
画像の局所的なパッチの違いを利用して、提案したPBNはモデルパラメータの堅牢性を効果的に向上させることができる。
さらに,各パッチからの統計は,グローバルな特徴マップに比べてサイズが小さいため不正確な場合があるため,各バッチの統計にグローバルに蓄積された統計情報を組み込んで,各パッチの正規化に関する最終的な統計値を得る。
提案されたPBNは典型的なBNを置き換えることができるため、既存のほとんどの最先端の手法に統合することができる。
広範囲な実験と分析により、分類、オブジェクト検出、インスタンス検索、セマンティックセグメンテーションを含む複数のコンピュータビジョンタスクにおけるPBNの有効性が示された。
Despite the significant success of deep learning in computer vision tasks, cross-domain tasks still present a challenge in which the model's performance will degrade when the training set and the test set follow different distributions. Most existing methods employ adversarial learning or instance normalization for achieving data augmentation to solve this task. In contrast, considering that the batch normalization (BN) layer may not be robust for unseen domains and there exist the differences between local patches of an image, we propose a novel method called patch-aware batch normalization (PBN). To be specific, we first split feature maps of a batch into non-overlapping patches along the spatial dimension, and then independently normalize each patch to jointly optimize the shared BN parameter at each iteration. By exploiting the differences between local patches of an image, our proposed PBN can effectively enhance the robustness of the model's parameters. Besides, considering the statistics from each patch may be inaccurate due to their smaller size compared to the global feature maps, we incorporate the globally accumulated statistics with the statistics from each batch to obtain the final statistics for normalizing each patch. Since the proposed PBN can replace the typical BN, it can be integrated into most existing state-of-the-art methods. Extensive experiments and analysis demonstrate the effectiveness of our PBN in multiple computer vision tasks, including classification, object detection, instance retrieval, and semantic segmentation. | 翻訳日:2024-09-18 05:51:13 公開日:2024-09-14 |
# 非対称ネットワークによるクロスドメイン学習の近似
Approximation by non-symmetric networks for cross-domain learning ( http://arxiv.org/abs/2305.03890v3 ) ライセンス: Link先を確認 | Hrushikesh Mhaskar, | (参考訳) 過去30年ほどの間、機械学習は、浅いニューラルネットワークや深いニューラルネットワークによる近似、放射基底関数ネットワーク、および様々なカーネルベースの手法など、様々なプロセスの近似能力(表現力)の研究に多くの研究を刺激してきた。
不変学習,転送学習,合成開口レーダイメージングなどの応用により,非対称カーネルを用いたカーネルネットワークの近似能力の一般研究を開始する。
特異値分解は、そのようなカーネルを研究するための自然な本能であるが、より一般的なアプローチとして、一般化された翻訳ネットワーク(ニューラルネットワークや変換不変カーネルを特殊な場合として含む)や回転した地域関数カーネルなどのカーネル群を用いる方法を考える。
当然、従来のカーネルベースの近似とは異なり、カーネルの正の定式化は要求されない。
特に、$r$が必ずしも整数ではないとき、ReLU$^r$ネットワークにより、ソボレフクラスの関数の均一近似の精度の推定値を得る。
一般の結果は入力空間の次元と比較して滑らかさの小さい関数の近似に適用できる。
For the past 30 years or so, machine learning has stimulated a great deal of research in the study of approximation capabilities (expressive power) of a multitude of processes, such as approximation by shallow or deep neural networks, radial basis function networks, and a variety of kernel based methods. Motivated by applications such as invariant learning, transfer learning, and synthetic aperture radar imaging, we initiate in this paper a general approach to study the approximation capabilities of kernel based networks using non-symmetric kernels. While singular value decomposition is a natural instinct to study such kernels, we consider a more general approach to include the use of a family of kernels, such as generalized translation networks (which include neural networks and translation invariant kernels as special cases) and rotated zonal function kernels. Naturally, unlike traditional kernel based approximation, we cannot require the kernels to be positive definite. In particular, we obtain estimates on the accuracy of uniform approximation of functions in a Sobolev class by ReLU$^r$ networks when $r$ is not necessarily an integer. Our general results apply to the approximation of functions with small smoothness compared to the dimension of the input space. | 翻訳日:2024-09-18 03:58:31 公開日:2024-09-14 |
# 論理推論を用いた解釈可能なマルチモーダル誤情報検出
Interpretable Multimodal Misinformation Detection with Logic Reasoning ( http://arxiv.org/abs/2305.05964v2 ) ライセンス: Link先を確認 | Hui Liu, Wenya Wang, Haoliang Li, | (参考訳) オンラインソーシャルプラットフォーム上でのマルチモーダルな誤報は、従来のテキストのみの情報に比べて、マルチメディアコンテンツによる信頼性の向上と拡散の容易化により、重要な問題となっている。
既存のマルチモーダル検出手法は高い性能を達成しているが、解釈可能性の欠如はこれらのシステムの信頼性と実用的展開を妨げる。
ニューラルネットワークの学習能力と記号学習の説明可能性を組み合わせたニューラルシンボリックAIに着想を得て,解釈可能な論理節を統合し,目的タスクの推論プロセスを表現する,多モーダル誤情報検出のための新しい論理ベースニューラルモデルを提案する。
学習を効果的にするために、ニューラルネットワークを用いて記号論理要素をパラメータ化し、意味のある論理節の自動生成と評価を容易にする。
さらに,様々な誤情報ソースにまたがってフレームワークを一般化するために,異なる相関関係でインスタンス化できる5つのメタ述語を導入する。
Twitter、Weibo、Sarcasmの3つの公開データセットの結果は、我々のモデルの有効性と汎用性を示している。
Multimodal misinformation on online social platforms is becoming a critical concern due to increasing credibility and easier dissemination brought by multimedia content, compared to traditional text-only information. While existing multimodal detection approaches have achieved high performance, the lack of interpretability hinders these systems' reliability and practical deployment. Inspired by NeuralSymbolic AI which combines the learning ability of neural networks with the explainability of symbolic learning, we propose a novel logic-based neural model for multimodal misinformation detection which integrates interpretable logic clauses to express the reasoning process of the target task. To make learning effective, we parameterize symbolic logical elements using neural representations, which facilitate the automatic generation and evaluation of meaningful logic clauses. Additionally, to make our framework generalizable across diverse misinformation sources, we introduce five meta-predicates that can be instantiated with different correlations. Results on three public datasets (Twitter, Weibo, and Sarcasm) demonstrate the feasibility and versatility of our model. | 翻訳日:2024-09-18 03:58:31 公開日:2024-09-14 |
# コンピュータビジョンモデルの共用破壊に対するロバスト性に関する調査
A Survey on the Robustness of Computer Vision Models against Common Corruptions ( http://arxiv.org/abs/2305.06024v4 ) ライセンス: Link先を確認 | Shunxin Wang, Raymond Veldhuis, Christoph Brune, Nicola Strisciuglio, | (参考訳) コンピュータビジョンモデルの性能は、センサエラーによる入力画像の予期せぬ変化や、一般的な汚職(例えばノイズ、ぼかし、照明の変更)と呼ばれる極端な撮像環境の影響を受けやすい。
これらの破損は、現実のシナリオにデプロイする際のモデルの信頼性を著しく損なう可能性があるが、モデルの一般化と堅牢性をテストする場合、しばしば見過ごされる。
本稿では,コンピュータビジョンモデルの汎用汚職に対する堅牢性を改善する手法について概説する。
データ拡張,学習戦略,ネットワークコンポーネントといった,対象とするモデルコンポーネントとトレーニング手法に基づいて,メソッドを3つのグループに分類する。
我々は,複数のデータセット間の堅牢性性能を比較するために,統一ベンチマークフレームワーク( \url{https://github.com/nis-research/CorruptionBenchCV}で利用可能)をリリースし,文献における評価プラクティスの不整合に対処する。
我々の実験的分析は、一般的な視覚バックボーンの基部破壊の堅牢性を強調し、破壊の堅牢性はモデルサイズやデータサイズとともに必ずしもスケールしないことを示した。
大規模モデルは、計算要求の増加を考慮すると、無視できる堅牢性の改善が得られる。
汎用的で堅牢なコンピュータビジョンモデルを実現するためには、限られたデータを効率的に活用し、信頼できない学習行動を緩和する新しい学習戦略を開発する必要がある。
The performance of computer vision models are susceptible to unexpected changes in input images caused by sensor errors or extreme imaging environments, known as common corruptions (e.g. noise, blur, illumination changes). These corruptions can significantly hinder the reliability of these models when deployed in real-world scenarios, yet they are often overlooked when testing model generalization and robustness. In this survey, we present a comprehensive overview of methods that improve the robustness of computer vision models against common corruptions. We categorize methods into three groups based on the model components and training methods they target: data augmentation, learning strategies, and network components. We release a unified benchmark framework (available at \url{https://github.com/nis-research/CorruptionBenchCV}) to compare robustness performance across several datasets, and we address the inconsistencies of evaluation practices in the literature. Our experimental analysis highlights the base corruption robustness of popular vision backbones, revealing that corruption robustness does not necessarily scale with model size and data size. Large models gain negligible robustness improvements, considering the increased computational requirements. To achieve generalizable and robust computer vision models, we foresee the need of developing new learning strategies that efficiently exploit limited data and mitigate unreliable learning behaviors. | 翻訳日:2024-09-18 03:58:31 公開日:2024-09-14 |
# CVXPYを用いたロバストな経験的リスク最小化問題の特定と解決
Specifying and Solving Robust Empirical Risk Minimization Problems Using CVXPY ( http://arxiv.org/abs/2306.05649v3 ) ライセンス: Link先を確認 | Eric Luxenberg, Dhruv Malik, Yuanzhi Li, Aarti Singh, Stephen Boyd, | (参考訳) 本研究では,各データポイントが所定の凸不確実性集合上で変動する場合の最悪の経験的損失を最小限に抑えるために,モデルパラメータが選択される,ロバストな経験的リスク最小化(ERM)について考察する。
いくつかの単純な場合、そのような問題は解析的な形で表すことができる。
一般に、問題は双対化によって引き出すことができ、min-max問題からmin-min問題へと変換される。
二重化には専門知識が必要です。
本稿では,CVXPYを用いて,この二元化手順をユーザフレンドリな方法で自動化する方法を実証する。
当社のフレームワークでは,コンベックス損失の一般的なクラスを用いて,堅牢なERM問題の特定と解決を可能にし,多くの標準回帰および分類問題を捕捉する。
ユーザーは、規律付き凸プログラミング(DCP)制約によって表現可能な複雑な不確実性セットを容易に特定できる。
We consider robust empirical risk minimization (ERM), where model parameters are chosen to minimize the worst-case empirical loss when each data point varies over a given convex uncertainty set. In some simple cases, such problems can be expressed in an analytical form. In general the problem can be made tractable via dualization, which turns a min-max problem into a min-min problem. Dualization requires expertise and is tedious and error-prone. We demonstrate how CVXPY can be used to automate this dualization procedure in a user-friendly manner. Our framework allows practitioners to specify and solve robust ERM problems with a general class of convex losses, capturing many standard regression and classification problems. Users can easily specify any complex uncertainty set that is representable via disciplined convex programming (DCP) constraints. | 翻訳日:2024-09-18 03:58:31 公開日:2024-09-14 |
# DoReMi:計画実行ミスソーシングの検出と復元による接地言語モデル
DoReMi: Grounding Language Model by Detecting and Recovering from Plan-Execution Misalignment ( http://arxiv.org/abs/2307.00329v4 ) ライセンス: Link先を確認 | Yanjiang Guo, Yen-Jen Wang, Lihan Zha, Jianyu Chen, | (参考訳) 大規模言語モデル(LLM)は大量の意味知識を符号化し、顕著な理解と推論能力を持っている。
従来の研究は、ロボット作業でLLMを接地して、実現可能で実行可能なテキストプランを生成する方法を模索してきた。
しかし、物理世界での低レベルの実行は、環境変動や不完全なコントローラ設計のために、高レベルのテキスト計画から逸脱する可能性がある。
本稿では,計画と実行のミスアライメントの即時検出と回復を可能にする,新しい言語モデル基盤フレームワークである \textbf{DoReMi} を提案する。
具体的には、LSMを利用して二重の役割を担い、ハイレベルな計画だけでなく、実行中に不適応を示す制約も生成します。
次に、視覚言語モデル(VLM)を用いて制約違反を継続的に検出する。
パイプラインは、低レベルの実行を監視し、特定の計画実行ミスアライメントが発生した場合、タイムリなリカバリを可能にします。
ロボットアームやヒューマノイドロボットなどの複雑なタスクの実験により,本手法がタスク成功率の向上とタスク完了時間の短縮につながることが実証された。
DoReMiのビデオは \url{https://sites.google.com/view/doremi-paper} で見ることができる。
Large language models (LLMs) encode a vast amount of semantic knowledge and possess remarkable understanding and reasoning capabilities. Previous work has explored how to ground LLMs in robotic tasks to generate feasible and executable textual plans. However, low-level execution in the physical world may deviate from the high-level textual plan due to environmental perturbations or imperfect controller design. In this paper, we propose \textbf{DoReMi}, a novel language model grounding framework that enables immediate Detection and Recovery from Misalignments between plan and execution. Specifically, we leverage LLMs to play a dual role, aiding not only in high-level planning but also generating constraints that can indicate misalignment during execution. Then vision language models (VLMs) are utilized to detect constraint violations continuously. Our pipeline can monitor the low-level execution and enable timely recovery if certain plan-execution misalignment occurs. Experiments on various complex tasks including robot arms and humanoid robots demonstrate that our method can lead to higher task success rates and shorter task completion times. Videos of DoReMi are available at \url{https://sites.google.com/view/doremi-paper}. | 翻訳日:2024-09-18 03:47:44 公開日:2024-09-14 |
# AIOptimizer - コスト最小化のためのソフトウェアパフォーマンス最適化プロトタイプ
AIOptimizer - Software performance optimisation prototype for cost minimisation ( http://arxiv.org/abs/2307.07846v2 ) ライセンス: Link先を確認 | Noopur Zambare, | (参考訳) 本研究では,コスト削減に基づくソフトウェアパフォーマンス最適化ツールのプロトタイプであるAIOptimizerを提案する。
この研究は、ユーザフレンドリさ、スケーラビリティ、正確性、適応性など、AIOptimizerの設計要素に焦点を当てている。
効率的でユーザ中心のパフォーマンス最適化ソリューションを提供するため、堅牢な統合、継続的学習、モジュール設計、データ収集方法の使用を促進する。
また、コラボレーション、効率予測、コスト最適化提案、故障診断などのAIOptimizer機能についても検討する。
さらに、強化学習に基づくコスト最適化のためのレコメンデーションエンジンであるAIOptimizerを導入し、いくつかのソフトウェア開発ライフサイクルモデルを調べている。
本研究の目的は、高度な最適化技術とインテリジェントレコメンデーションシステムを活用することにより、ソフトウェアパフォーマンスを継続的に改善し、コストを削減するプロトタイプとしてAIOptimizerを紹介することである。
Big Bang、V-、ウォーターフォール、イテレーティブ、アジャイルモデルなど、多くのソフトウェア開発ライフサイクルモデルが研究の対象となっている。
どのモデルにもメリットと欠点があり、プロジェクトの機能と要件は、それぞれがどれだけ有用かを決定する。
This study presents AIOptimizer, a prototype for a cost-reduction-based software performance optimisation tool. The study focuses on the design elements of AIOptimizer, including user-friendliness, scalability, accuracy, and adaptability. To deliver efficient and user-focused performance optimisation solutions, it promotes the use of robust integration, continuous learning, modular design, and data collection methods. The paper also looks into AIOptimizer features including collaboration, efficiency prediction, cost optimisation suggestions, and fault diagnosis. Additionally, it introduces AIOptimizer, a recommendation engine for cost optimisation based on reinforcement learning, and examines several software development life cycle models. The goal of this research study is to showcase AIOptimizer as a prototype that continuously improves software performance and reduces costs by utilising sophisticated optimisation techniques and intelligent recommendation systems. Numerous software development life cycle models, including the Big Bang, V-, Waterfall, Iterative, and Agile models are the subject of the study. Every model has benefits and drawbacks, and the features and requirements of the project will decide how useful each is. | 翻訳日:2024-09-18 03:47:44 公開日:2024-09-14 |
# 境界修正型プロトタイプ生成:半教師付きセマンティックセマンティックセグメンテーションのための汎用エンド・ツー・エンドパラダイム
Boundary-Refined Prototype Generation: A General End-to-End Paradigm for Semi-Supervised Semantic Segmentation ( http://arxiv.org/abs/2307.10097v2 ) ライセンス: Link先を確認 | Junhao Dong, Zhu Meng, Delong Liu, Jiaxuan Liu, Zhicheng Zhao, Fei Su, | (参考訳) 半教師付きセマンティックセグメンテーションは、潜在監督を通じてラベルなしデータを活用することを目的として、コンピュータビジョンにおいて注目を集めている。
この目標を達成するため、プロトタイプベースの分類が導入され、多くの成功を収めた。
しかし、現在のアプローチでは、メインのトレーニングフレームワークからプロトタイプ生成を分離し、エンドツーエンドのワークフローを提供する。
さらに、ほとんどのメソッドはK-Meansクラスタリングを直接実行してプロトタイプを生成する。
上記の問題に対処するため、我々は新しい境界修正プロトタイプ生成法(BRPG)を提案する。
具体的には、サンプル機能のオンラインクラスタリングを行い、プロトタイプ生成をトレーニングフレームワーク全体に組み込む。
さらに,分類境界の精度を高めるために,信頼度推定に基づいて高信頼度と低信頼度の特徴を別々にサンプリング・クラスタリングし,クラス境界に近いプロトタイプ生成を容易にする。
さらに,分散した特徴分布を持つカテゴリのプロトタイプ数を増やすための適応型プロトタイプ最適化手法を提案し,クラス境界をさらに洗練する。
広範な実験により、多様なデータセット、セグメンテーションネットワーク、半教師付きフレームワークにわたるメソッドの顕著な堅牢性とスケーラビリティが示され、3つのベンチマークデータセット(PASCAL VOC 2012、Cityscapes、MS COCO)で最先端のアプローチよりも優れています。
コードはhttps://github.com/djh-dzxw/BRPGで入手できる。
Semi-supervised semantic segmentation has attracted increasing attention in computer vision, aiming to leverage unlabeled data through latent supervision. To achieve this goal, prototype-based classification has been introduced and achieved lots of success. However, the current approaches isolate prototype generation from the main training framework, presenting a non-end-to-end workflow. Furthermore, most methods directly perform the K-Means clustering on features to generate prototypes, resulting in their proximity to category semantic centers, while overlooking the clear delineation of class boundaries. To address the above problems, we propose a novel end-to-end boundary-refined prototype generation (BRPG) method. Specifically, we perform online clustering on sampled features to incorporate the prototype generation into the whole training framework. In addition, to enhance the classification boundaries, we sample and cluster high- and low-confidence features separately based on confidence estimation, facilitating the generation of prototypes closer to the class boundaries. Moreover, an adaptive prototype optimization strategy is proposed to increase the number of prototypes for categories with scattered feature distributions, which further refines the class boundaries. Extensive experiments demonstrate the remarkable robustness and scalability of our method across diverse datasets, segmentation networks, and semi-supervised frameworks, outperforming the state-of-the-art approaches on three benchmark datasets: PASCAL VOC 2012, Cityscapes and MS COCO. The code is available at https://github.com/djh-dzxw/BRPG. | 翻訳日:2024-09-18 03:47:44 公開日:2024-09-14 |
# 言語モデル適応のためのハイブリッドアテンションベースエンコーダデコーダモデル
Hybrid Attention-based Encoder-decoder Model for Efficient Language Model Adaptation ( http://arxiv.org/abs/2309.07369v2 ) ライセンス: Link先を確認 | Shaoshi Ling, Guoli Ye, Rui Zhao, Yifan Gong, | (参考訳) 近年,注目型エンコーダデコーダ(AED)音声認識モデルが広く普及している。
しかし, 音素モデルと言語モデルの協調最適化は, テキスト適応の課題を生み出している。
特に、テキスト入力への効果的で迅速で安価な適応は、業界にAEDシステムを展開する上で主要な関心事となっている。
この問題に対処するために,従来のハイブリッド音声認識システムのモジュール性を維持するハイブリッドアテンションベースのエンコーダデコーダ(HAED)音声認識モデルを提案する。
我々のHAEDモデルはアコースティックモデルと言語モデルとを分離し、従来のテキストベース言語モデル適応技術を利用することを可能にした。
提案したHAEDモデルでは,言語モデル適応にドメイン外テキストデータを使用する場合の単語誤り率(WER)が23%向上することが実証された。
The attention-based encoder-decoder (AED) speech recognition model has been widely successful in recent years. However, the joint optimization of acoustic model and language model in end-to-end manner has created challenges for text adaptation. In particular, effective, quick and inexpensive adaptation with text input has become a primary concern for deploying AED systems in the industry. To address this issue, we propose a novel model, the hybrid attention-based encoder-decoder (HAED) speech recognition model that preserves the modularity of conventional hybrid automatic speech recognition systems. Our HAED model separates the acoustic and language models, allowing for the use of conventional text-based language model adaptation techniques. We demonstrate that the proposed HAED model yields 23% relative Word Error Rate (WER) improvements when out-of-domain text data is used for language model adaptation, with only a minor degradation in WER on a general test set compared with the conventional AED model. | 翻訳日:2024-09-18 03:47:44 公開日:2024-09-14 |
# Pre:再パラメータ化エンコーダを用いたビジョンランゲージ・プロンプト学習
PRE: Vision-Language Prompt Learning with Reparameterization Encoder ( http://arxiv.org/abs/2309.07760v3 ) ライセンス: Link先を確認 | Thi Minh Anh Pham, An Duc Nguyen, Cephas Svosve, Vasileios Argyriou, Georgios Tzimiropoulos, | (参考訳) CLIPのような訓練済みの大規模な視覚言語モデルは、下流タスクへのゼロショット転送可能性に大きな可能性を証明している。
しかし、最適な性能を得るためには、下流画像分布とテキストクラス記述との整合性を改善するために、手動によるプロンプトの選択が必要である。
この手動のプロンプトエンジニアリングは、ドメインの専門知識を必要とし、非常に時間がかかるため、そのようなモデルを実際にデプロイする上で大きな課題である。
非自明なプロンプトエンジニアリングを避けるため、最近の作業コンテキスト最適化(CoOp)では、学習可能なテキストトークンを使用して視覚領域にプロンプト学習という概念を導入した。
CoOpは手動のプロンプトよりも大幅に改善できるが、その学習コンテキストは、同じデータセット内のより広い未確認クラスにさらに一般化できる。
本稿では,PRE(Prompt Learning with Reparameterization Encoder)を提案する。学習可能なプロンプトのクラスに対する一般化能力を向上すると同時に,ベースクラスを学習する能力を維持しつつ,学習可能なプロンプトの一般化能力を向上する,シンプルで効率的な手法である。
プロンプトを直接最適化する代わりに、Preはプロンプトエンコーダを使用して入力プロンプトの埋め込みを再パラメータ化し、少数のサンプルからタスク固有の知識を探索する。
8つのベンチマークの実験と広範囲なアブレーション研究は、我々のアプローチが迅速な学習の効率的な方法であることを実証している。
具体的には,新しいクラスの平均精度が5.60%向上し,高調波平均が3%向上した。
Large pre-trained vision-language models such as CLIP have demonstrated great potential in zero-shot transferability to downstream tasks. However, to attain optimal performance, the manual selection of prompts is necessary to improve alignment between the downstream image distribution and the textual class descriptions. This manual prompt engineering is the major challenge for deploying such models in practice since it requires domain expertise and is extremely time-consuming. To avoid non-trivial prompt engineering, recent work Context Optimization (CoOp) introduced the concept of prompt learning to the vision domain using learnable textual tokens. While CoOp can achieve substantial improvements over manual prompts, its learned context is worse generalizable to wider unseen classes within the same dataset. In this work, we present Prompt Learning with Reparameterization Encoder (PRE) - a simple and efficient method that enhances the generalization ability of the learnable prompt to unseen classes while maintaining the capacity to learn Base classes. Instead of directly optimizing the prompts, PRE employs a prompt encoder to reparameterize the input prompt embeddings, enhancing the exploration of task-specific knowledge from few-shot samples. Experiments and extensive ablation studies on 8 benchmarks demonstrate that our approach is an efficient method for prompt learning. Specifically, PRE achieves a notable enhancement of 5.60% in average accuracy on New classes and 3% in Harmonic mean compared to CoOp in the 16-shot setting, all achieved within a good training time. | 翻訳日:2024-09-18 03:47:44 公開日:2024-09-14 |
# 自然, ロバスト, カタストロフィックオーバーフィッティング時の過記憶について
On the Over-Memorization During Natural, Robust and Catastrophic Overfitting ( http://arxiv.org/abs/2310.08847v4 ) ライセンス: Link先を確認 | Runqi Lin, Chaojian Yu, Bo Han, Tongliang Liu, | (参考訳) オーバーフィッティングは、自然と敵対両方のトレーニングにおいて、ディープニューラルネットワーク(DNN)の一般化能力に悪影響を及ぼす。
既存の手法は、異なるタイプのオーバーフィッティングに一貫して対処し、通常、自然なパターンと敵対的なパターンに別々にフォーカスする戦略を設計する。
本研究では,自然パターンにのみ焦点をあてて,異なるタイプのオーバーフィッティングを探求することによって,統一的な視点を採用する。
具体的には、DNNにおける記憶効果を検証し、その一般化能力を損なう「過剰記憶」と呼ばれる共有行動を明らかにする。
この行動は、特定のトレーニングパターンを予測し、永続的なメモリを保持する上で、DNNが突然高信頼になるときに現れます。
さらに、DNNが対向パターンを過度に記憶すると、対応する自然パターンに対する高い信頼度予測が同時に現れる傾向にある。
これらの知見は,DNNを記憶過剰のトレーニングパターンから妨げることによって,さまざまなオーバーフィッティングをホリスティックに緩和する動機となっている。
そこで本研究では,高信頼な自然パターンを削除あるいは強化することにより,過記憶を明示的に防止する一般フレームワークである Distraction Over-Memorization (DOM) を提案する。
様々な訓練パラダイムにまたがるオーバーフィッティングを緩和するために,提案手法の有効性を実証した。
Overfitting negatively impacts the generalization ability of deep neural networks (DNNs) in both natural and adversarial training. Existing methods struggle to consistently address different types of overfitting, typically designing strategies that focus separately on either natural or adversarial patterns. In this work, we adopt a unified perspective by solely focusing on natural patterns to explore different types of overfitting. Specifically, we examine the memorization effect in DNNs and reveal a shared behaviour termed over-memorization, which impairs their generalization capacity. This behaviour manifests as DNNs suddenly becoming high-confidence in predicting certain training patterns and retaining a persistent memory for them. Furthermore, when DNNs over-memorize an adversarial pattern, they tend to simultaneously exhibit high-confidence prediction for the corresponding natural pattern. These findings motivate us to holistically mitigate different types of overfitting by hindering the DNNs from over-memorization training patterns. To this end, we propose a general framework, Distraction Over-Memorization (DOM), which explicitly prevents over-memorization by either removing or augmenting the high-confidence natural patterns. Extensive experiments demonstrate the effectiveness of our proposed method in mitigating overfitting across various training paradigms. | 翻訳日:2024-09-18 03:37:26 公開日:2024-09-14 |
# ビデオ拡散モデルに関する調査
A Survey on Video Diffusion Models ( http://arxiv.org/abs/2310.10647v2 ) ライセンス: Link先を確認 | Zhen Xing, Qijun Feng, Haoran Chen, Qi Dai, Han Hu, Hang Xu, Zuxuan Wu, Yu-Gang Jiang, | (参考訳) AIGC(AI- generated content)の最近の波は、コンピュータビジョンにおいてかなりの成功を収め、拡散モデルがこの達成に重要な役割を果たしている。
その印象的な生成能力のため、拡散モデルは、画像生成や編集だけでなく、ビデオ関連研究の領域においても、徐々に、GANや自動回帰変換器をベースとした手法に取って代わりつつある。
しかし、既存の調査は主に画像生成の文脈における拡散モデルに焦点を当てており、ビデオ領域での応用に関する最新のレビューはほとんどない。
そこで本研究では,AIGC時代の映像拡散モデルの包括的レビューを行う。
具体的には、拡散モデルの基礎と進化の簡潔な紹介から始める。
その後、ビデオ領域における拡散モデルの研究の概要を述べ、映像生成、ビデオ編集、その他のビデオ理解タスクの3つの重要な領域に分類する。
この分野におけるさらなる分類と実践的貢献を含む,これら3つの重要な分野における文献の徹底的なレビューを行う。
最後に,本領域における研究が直面する課題について論じ,今後の発展動向について概説する。
この調査で調査されたビデオ拡散モデルの包括的なリストはhttps://github.com/ChenHsing/Awesome-Video-Diffusion-Modelsで公開されている。
The recent wave of AI-generated content (AIGC) has witnessed substantial success in computer vision, with the diffusion model playing a crucial role in this achievement. Due to their impressive generative capabilities, diffusion models are gradually superseding methods based on GANs and auto-regressive Transformers, demonstrating exceptional performance not only in image generation and editing, but also in the realm of video-related research. However, existing surveys mainly focus on diffusion models in the context of image generation, with few up-to-date reviews on their application in the video domain. To address this gap, this paper presents a comprehensive review of video diffusion models in the AIGC era. Specifically, we begin with a concise introduction to the fundamentals and evolution of diffusion models. Subsequently, we present an overview of research on diffusion models in the video domain, categorizing the work into three key areas: video generation, video editing, and other video understanding tasks. We conduct a thorough review of the literature in these three key areas, including further categorization and practical contributions in the field. Finally, we discuss the challenges faced by research in this domain and outline potential future developmental trends. A comprehensive list of video diffusion models studied in this survey is available at https://github.com/ChenHsing/Awesome-Video-Diffusion-Models. | 翻訳日:2024-09-18 03:37:26 公開日:2024-09-14 |
# SAM-Med3D:ボリューム・メディカル・イメージのための汎用セグメンテーション・モデルに向けて
SAM-Med3D: Towards General-purpose Segmentation Models for Volumetric Medical Images ( http://arxiv.org/abs/2310.15161v3 ) ライセンス: Link先を確認 | Haoyu Wang, Sizheng Guo, Jin Ye, Zhongying Deng, Junlong Cheng, Tianbin Li, Jianpin Chen, Yanzhou Su, Ziyan Huang, Yiqing Shen, Bin Fu, Shaoting Zhang, Junjun He, Yu Qiao, | (参考訳) 既存のボリューム画像セグメンテーションモデルは、典型的にはタスク固有であり、特定のターゲットにおいて優れたが、解剖学的構造やモダリティをまたいだ一般化に苦慮している。
この制限は、より広範な臨床使用を制限する。
本稿では,ボリューム医療画像の汎用セグメンテーションのためのSAM-Med3Dを提案する。
SAM-Med3Dはわずか3Dのプロンプトポイントしか持たないため、様々な解剖学的構造や病変を正確に分類することができる。
そこで我々は,大規模な3次元医用画像データセットSA-Med3D-140Kを公開ソースとライセンスされたプライベートデータセットのブレンドから収集し,処理する。
このデータセットには22Kの3D画像と143K対応の3Dマスクが含まれている。
次に、完全に学習可能な3D構造を特徴とする素早いセグメンテーションモデルSAM-Med3Dを、このデータセット上で2段階のプロシージャを用いてトレーニングし、目に見えないセグメンテーションターゲットと見えないセグメンテーションターゲットの両方に印象的なパフォーマンスを示す。
16のデータセットに対してSAM-Med3Dを包括的に評価し,解剖学的構造,モダリティ,ターゲット,新規/未確認タスクへのゼロショット転送性など,さまざまな医療シナリオを網羅した。
本評価は,SAM-Med3Dの有効性と有効性,および事前学習モデルとしての多様な下流タスクへの適用性を示す。
提案手法は,医療資源を多種多様な応用のための汎用医療AIの開発に活用できることを実証する。
私たちのデータセット、コード、モデルはhttps://github.com/uni-medical/SAM-Med3D.comで公開されています。
Existing volumetric medical image segmentation models are typically task-specific, excelling at specific target but struggling to generalize across anatomical structures or modalities. This limitation restricts their broader clinical use. In this paper, we introduce SAM-Med3D for general-purpose segmentation on volumetric medical images. Given only a few 3D prompt points, SAM-Med3D can accurately segment diverse anatomical structures and lesions across various modalities. To achieve this, we gather and process a large-scale 3D medical image dataset, SA-Med3D-140K, from a blend of public sources and licensed private datasets. This dataset includes 22K 3D images and 143K corresponding 3D masks. Then SAM-Med3D, a promptable segmentation model characterized by the fully learnable 3D structure, is trained on this dataset using a two-stage procedure and exhibits impressive performance on both seen and unseen segmentation targets. We comprehensively evaluate SAM-Med3D on 16 datasets covering diverse medical scenarios, including different anatomical structures, modalities, targets, and zero-shot transferability to new/unseen tasks. The evaluation shows the efficiency and efficacy of SAM-Med3D, as well as its promising application to diverse downstream tasks as a pre-trained model. Our approach demonstrates that substantial medical resources can be utilized to develop a general-purpose medical AI for various potential applications. Our dataset, code, and models are available at https://github.com/uni-medical/SAM-Med3D. | 翻訳日:2024-09-18 03:37:26 公開日:2024-09-14 |
# 自由飛行ロボットによる微小重力場におけるマルチエージェント3次元マップ再構成と変化検出
Multi-Agent 3D Map Reconstruction and Change Detection in Microgravity with Free-Flying Robots ( http://arxiv.org/abs/2311.02558v4 ) ライセンス: Link先を確認 | Holly Dinkel, Julia Di, Jamie Santos, Keenan Albee, Paulo Borges, Marina Moreira, Oleg Alexandrov, Brian Coltin, Trey Smith, | (参考訳) 国際宇宙ステーション(ISS)のNASAのアストローブロボット(Astrobee Robot)など、将来の有人飛行基地を自律的に支援する支援型フリーフライングロボットは、インベントリを追跡し、障害を検出し診断し、ポストの状態を監視しなければならない。
本研究は,宇宙基地のロボット保守を実現するための多エージェント協調マッピングと変更検出のためのフレームワークを提案する。
1つのエージェントは、画像のシーケンスと対応する深度情報から環境の3Dモデルを再構成するために使用される。
別のエージェントは、定期的に環境を3Dモデルに対して不整合としてスキャンするために使用される。
実際の画像を用いて調査を完了し、地上テスト環境およびISS内の微小重力下でアストローブロボットが収集したデータを合成した後、変更検出を検証する。
本研究は, マルチエージェント再構築システムにおける目的, 要件, アルゴリズムモジュールについて概説する。
Assistive free-flyer robots autonomously caring for future crewed outposts -- such as NASA's Astrobee robots on the International Space Station (ISS) -- must be able to detect day-to-day interior changes to track inventory, detect and diagnose faults, and monitor the outpost status. This work presents a framework for multi-agent cooperative mapping and change detection to enable robotic maintenance of space outposts. One agent is used to reconstruct a 3D model of the environment from sequences of images and corresponding depth information. Another agent is used to periodically scan the environment for inconsistencies against the 3D model. Change detection is validated after completing the surveys using real image and pose data collected by Astrobee robots in a ground testing environment and from microgravity aboard the ISS. This work outlines the objectives, requirements, and algorithmic modules for the multi-agent reconstruction system, including recommendations for its use by assistive free-flyers aboard future microgravity outposts. | 翻訳日:2024-09-18 03:27:25 公開日:2024-09-14 |
# 共感の連鎖:心理療法モデルに基づく大規模言語モデルの共感的反応の促進
Chain of Empathy: Enhancing Empathetic Response of Large Language Models Based on Psychotherapy Models ( http://arxiv.org/abs/2311.04915v3 ) ライセンス: Link先を確認 | Yoon Kyung Lee, Inju Lee, Minjung Shin, Seoyeon Bae, Sowon Hahn, | (参考訳) 本稿では,心理療法の知見を活かして,大規模言語モデル(LLM)を誘導し,人間の感情状態を理解する新しい方法である「共感の連鎖(CoE)」を提案する。
この方法は、認知行動療法(CBT)、弁証的行動療法(DBT)、人中心療法(PCT)、現実療法(RT)といった様々な心理療法のアプローチにインスパイアされ、それぞれがクライアントの精神状態を解釈する様々なパターンに導かれる。
推論のないLLMは、主に探索的な応答を生み出した。
しかし, LLMがCoE推論を用いた場合, それぞれの心理療法モデルの異なる推論パターンに沿った, より包括的な共感反応が認められた。
CBTをベースとしたCoEは最もバランスの取れた共感反応を生み出した。
この調査結果は、感情的文脈を理解することの重要性と、それが人間とAIのコミュニケーションにどのように影響するかを浮き彫りにしている。
我々の研究は、精神療法モデルをLLMに組み込む方法の理解に寄与し、文脈固有の、より安全で共感的なAIの開発を促進する。
We present a novel method, the Chain of Empathy (CoE) prompting, that utilizes insights from psychotherapy to induce Large Language Models (LLMs) to reason about human emotional states. This method is inspired by various psychotherapy approaches including Cognitive Behavioral Therapy (CBT), Dialectical Behavior Therapy (DBT), Person Centered Therapy (PCT), and Reality Therapy (RT), each leading to different patterns of interpreting clients' mental states. LLMs without reasoning generated predominantly exploratory responses. However, when LLMs used CoE reasoning, we found a more comprehensive range of empathetic responses aligned with the different reasoning patterns of each psychotherapy model. The CBT based CoE resulted in the most balanced generation of empathetic responses. The findings underscore the importance of understanding the emotional context and how it affects human and AI communication. Our research contributes to understanding how psychotherapeutic models can be incorporated into LLMs, facilitating the development of context-specific, safer, and empathetic AI. | 翻訳日:2024-09-18 03:27:25 公開日:2024-09-14 |
# ゲートを閉じる:超人的な汎用人工知能を開発することを選択して未来の人間を維持する方法
Close the Gates: How we can keep the future human by choosing not to develop superhuman general-purpose artificial intelligence ( http://arxiv.org/abs/2311.09452v3 ) ライセンス: Link先を確認 | Anthony Aguirre, | (参考訳) 人工知能の最近の劇的な進歩は、今後数年のうちに、人間は超人的な汎用AIを作成することによって、しきい値を不可逆的に越える可能性があることを示している。
これは、人間の社会の中核的な側面を上回り、多くの前例のないリスクを生じさせ、いくつかの意味で制御不能になる可能性がある。
ニューラルネットワークのトレーニングと実行に使用可能な計算に対して、まずは、国内外のレベルに置かれ、ハードウェアセキュリティ対策によって検証される、厳しい制限を課すことから、そうしないことを選択できます。
こうした制限がある中で、AIの研究と産業は、人間が理解し制御できる狭義の汎用AIと、そこから大きな利益を享受することのできる汎用AIの両方に焦点を絞ることができる。
Recent dramatic advances in artificial intelligence indicate that in the coming years, humanity may irreversibly cross a threshold by creating superhuman general-purpose AI: AI that is better than humans at cognitive tasks in general in the way that AI is currently unbeatable in certain domains. This would upend core aspects of human society, present many unprecedented risks, and is likely to be uncontrollable in several senses. We can choose to not do so, starting by instituting hard limits - placed at the national and international level, and verified by hardware security measures - on the computation that can be used to train and run neural networks. With these limits in place, AI research and industry can focus on making both narrow and general-purpose AI that humans can understand and control, and from which we can reap enormous benefit. | 翻訳日:2024-09-18 03:27:25 公開日:2024-09-14 |
# MLLM-Bench: サンプルごとの基準によるマルチモーダルLCMの評価
MLLM-Bench: Evaluating Multimodal LLMs with Per-sample Criteria ( http://arxiv.org/abs/2311.13951v3 ) ライセンス: Link先を確認 | Wentao Ge, Shunian Chen, Guiming Hardy Chen, Junying Chen, Zhihong Chen, Nuo Chen, Wenya Xie, Shuo Yan, Chenghao Zhu, Ziyue Lin, Song Dingjie, Xidong Wang, Anningzhe Gao, Zhang Zhiyi, Jianquan Li, Xiang Wan, Benyou Wang, | (参考訳) MLLM(Multimodal large language model)は、AIアプリケーションの範囲を広げている。
既存のMLLMの自動評価手法は主に、ユーザエクスペリエンスを考慮せずにクエリを評価する場合に限られており、創造的かつ連想的なマルチモーダルタスクのニュアンスには不十分である。
しかし、そのようなタスクのオープンで主観的な性質は評価方法論に重大な課題をもたらしており、それらに対して根本的真理的な回答を定義することは困難である。
そこで本論文では,MLLMを判定として,サンプル単位の基準でMLLMを評価可能なMLLMの新しい評価パラダイムを提案する。
このパラダイムの有効性と有効性を検証するため,MLLM-Benchと呼ばれるベンチマークを設計し,6つの包括的認知レベルから評価サンプルを算出した。
我々は,MLLMをペアワイズ方式でベンチマークし,モデル間での多彩な性能を示す。
さらに,本ベンチマークの有効性は,人的評価と88.02%の一致を示した。
提案手法は,サンプルごとの基準の助けを借りて,MLLMを効果的な評価ツールとしての可能性を探究するものである。
オンラインリーダーボードは \url{https://mllm-bench.llmzoo.com} を参照。
Multimodal large language models (MLLMs) have broadened the scope of AI applications. Existing automatic evaluation methodologies for MLLMs are mainly limited in evaluating queries without considering user experiences, inadequately addressing the nuances of creative and associative multimodal tasks. However, the open-ended and subjective nature of such tasks poses a significant challenge to the evaluation methodology, where it is difficult to define the ground-truth answers for them. To this end, in our paper, we propose a new evaluation paradigm for MLLMs, which is evaluating MLLMs with per-sample criteria using potent MLLM as the judge. To validate the feasibility and effectiveness of this paradigm, we design a benchmark, dubbed MLLM-Bench, by curating the evaluation samples across six comprehensive cognitive levels. We benchmark 21 popular MLLMs in a pairwise-comparison fashion, showing diverse performance across models. Moreover, the validity of our benchmark manifests itself in reaching 88.02% agreement with human evaluation. We contend that the proposed paradigm explores the potential of MLLMs as effective evaluation tools with the help of per-sample criteria. See online leaderboard at \url{https://mllm-bench.llmzoo.com}. | 翻訳日:2024-09-18 03:27:25 公開日:2024-09-14 |
# 医用画像解析のための汎用視覚基盤モデルの評価:放射線診断ベンチマークにおけるDINOv2の実験的検討
Evaluating General Purpose Vision Foundation Models for Medical Image Analysis: An Experimental Study of DINOv2 on Radiology Benchmarks ( http://arxiv.org/abs/2312.02366v4 ) ライセンス: Link先を確認 | Mohammed Baharoon, Waseem Qureshi, Jiahong Ouyang, Yanwu Xu, Abdulrhman Aljouie, Wei Peng, | (参考訳) 深層学習システムの医療への統合は、データアノテーションのリソース集約的なプロセスと、これらのシステムが異なるデータ分布に一般化できないことによって妨げられている。
大規模なデータセットで事前トレーニングされたモデルであるファンデーションモデルは、アノテーション付きデータへの依存を減らし、モデルの一般化性と堅牢性を高めるソリューションとして登場した。
DINOv2はオープンソースのファウンデーションモデルで、1億4200万のキュレーションされた自然画像を自己教師付きで学習し、様々なビジョンタスクで有望な能力を示す。
しかしながら、DINOv2の放射線画像への適応性や、その特徴が放射線画像解析に有用であるかどうかについては、重要な疑問が残る。
そこで本研究では,放射線学におけるDINOv2の性能を総合的に評価し,X線,CT,MRIで200以上の評価を行った。
DINOv2の特徴表現の有効性と一般化性を評価するため, 2次元画像と3次元画像の両方における疾患分類と臓器セグメント化を含む医用画像解析作業, kNN, 少数ショット学習, 線形プロブリング, エンドツーエンドファインチューニング, パラメータ効率の微調整などの異なる設定下で, モデルの解析を行った。
確立された教師付き、自己監督型、弱教師付きモデルとの比較分析により、DINOv2の優れた性能とクロスタスクの一般化性が示された。
本研究は,DINOv2が自然画像解析と放射線画像解析のギャップを埋める上で果たす役割の理解を深め,医用画像撮影のための事前訓練戦略の最適化に寄与する可能性が示唆された。
私たちのコードはhttps://github.com/MohammedSB/DINOv2ForRadiologyで利用可能です。
The integration of deep learning systems into healthcare has been hindered by the resource-intensive process of data annotation and the inability of these systems to generalize to different data distributions. Foundation models, which are models pre-trained on large datasets, have emerged as a solution to reduce reliance on annotated data and enhance model generalizability and robustness. DINOv2 is an open-source foundation model pre-trained with self-supervised learning on 142 million curated natural images that exhibits promising capabilities across various vision tasks. Nevertheless, a critical question remains unanswered regarding DINOv2's adaptability to radiological imaging, and whether its features are sufficiently general to benefit radiology image analysis. Therefore, this study comprehensively evaluates the performance DINOv2 for radiology, conducting over 200 evaluations across diverse modalities (X-ray, CT, and MRI). To measure the effectiveness and generalizability of DINOv2's feature representations, we analyze the model across medical image analysis tasks including disease classification and organ segmentation on both 2D and 3D images, and under different settings like kNN, few-shot learning, linear-probing, end-to-end fine-tuning, and parameter-efficient fine-tuning. Comparative analyses with established supervised, self-supervised, and weakly-supervised models reveal DINOv2's superior performance and cross-task generalizability. The findings contribute insights to potential avenues for optimizing pre-training strategies for medical imaging and enhancing the broader understanding of DINOv2's role in bridging the gap between natural and radiological image analysis. Our code is available at https://github.com/MohammedSB/DINOv2ForRadiology | 翻訳日:2024-09-18 03:27:25 公開日:2024-09-14 |
# 連続体における相互作用誘起多粒子境界状態
Interaction-induced multiparticle bound states in the continuum ( http://arxiv.org/abs/2312.15664v2 ) ライセンス: Link先を確認 | Boning Huang, Yongguan Ke, Honghua Zhong, Yuri S. Kivshar, Chaohong Lee, | (参考訳) 連続体(BIC)における境界状態は、放射線連続体に属する局所的なモードである。
これらは最初、単粒子状態に対して予測され、多くの波動系の一般的な特徴となった。
多体量子物理学では、BICの類似点が何であるか、粒子間相互作用がBICを誘導するかどうかはまだ分かっていない。
本稿では,BICの概念に関連付けることができる相互作用変調Bose-Hubbardモデルにおいて,新しい種類の多粒子状態を予測する。
周期的境界条件下では、いわゆる準BICは、第3粒子によって形成された定常波に属する有界対として現れる。
開境界条件下では、そのようなハイブリッド状態は系の固有状態となる。
準BICのThoulessポンプは、空間と時間におけるオンサイト相互作用を変調することで実現可能であることを示す。
驚くべきことに、準BICの質量中心が1サイクルで単位セルによって移動されている間、有界対は定常波と反対方向に移動する。
Bound states in the continuum (BICs) are localized modes residing in the radiation continuum. They were first predicted for single-particle states, and became a general feature of many wave systems. In many-body quantum physics, it is still unclear what would be a close analog of BICs, and whether interparticle interaction may induce BICs. Here, we predict a novel type of multiparticle states in the interaction-modulated Bose-Hubbard model that can be associated with the BIC concept. Under periodic boundary conditions, a so-called quasi-BIC appears as a bound pair residing in a standing wave formed by the third particle. Under open boundary conditions, such a hybrid state becomes an eigenstate of the system. We demonstrate that the Thouless pumping of the quasi-BICs can be realized by modulating the onsite interactions in space and time. Surprisingly, while the center-of-mass of the quasi-BIC is shifted by a unit cell in one cycle, the bound pair moves in the opposite direction with the standing wave. | 翻訳日:2024-09-18 03:17:40 公開日:2024-09-14 |
# GPU位相Foldingとディープラーニング検出システムを用いたケプラーサーベイにおけるKGドワーフを周回する小型超短周期惑星の発見
Discovery of Small Ultra-short-period Planets Orbiting KG Dwarfs in Kepler Survey Using GPU Phase Folding and Deep Learning Detection System ( http://arxiv.org/abs/2312.17382v3 ) ライセンス: Link先を確認 | Kaitlyn Wang, Jian Ge, Kevin Willis, Kevin Wang, Yinan Zhao, Quanquan Hu, | (参考訳) これまでに確認された5,000以上の太陽系外惑星のうち、地球下半径を持つものはわずか数百である。
これらのサブアースの形成過程はいまだ解明されておらず、このユニークな個体群を調査するためには追加のサンプルを取得することが不可欠である。
本研究では,ケプラー測光データに新しいGPU位相Foldingアルゴリズムと畳み込みニューラルネットワークを組み合わせたGPFC法を適用した。
この方法では、従来のBox-fitting Least Squares法よりもトランジット検索速度を大幅に向上し、商用GPUカードを使用して、既知のKepler KOIデータを数日以内に完全に検索することができる。
現在までに、ケプラー-158d、ケプラー963c、ケプラー-879c、ケプラー1489c、KoI-4978.02の5つの新しい超短周期惑星を発見した。
半径0.4R_\oplus$のケプラー-879cは、0.646716日でG小星の周りを公転する。
半径0.43 R_\oplus$のケプラー-158dは、0.645088日ごとにK小星を公転している。
半径0.51 R_\oplus$のケプラー1489cは、0.680741日でG小星を公転する。
半径が0.6 R_\oplus$のケプラー-963cは0.9 19783日、半径が0.7 R_\oplus$の円は0.94 1967日である。
このうちケプラー879c、ケプラー158d、ケプラー963cが第1位、第3位、第4位であった。
特にケプラー-158dはK小星を公転する最小のUSPであり、ケプラー-963c、ケプラー-879c、ケプラー-1489c、KOI-4978.02はG小星を公転する最小のUSPである。
ケプラー879c、ケプラー158d、ケプラー1489c、KoI-4978.02は、主星に最も近い最小の惑星の一つで、5つの恒星半径内を公転している。
さらに、これらの発見は、ケプラー、TESS、および今後の宇宙輸送ミッションであるPLATO、ETからの測光データの中で、GPFCが小型で新しいトランジット系外惑星を識別する有望な能力を強調している。
Of over 5,000 exoplanets identified so far, only a few hundred possess sub-Earth radii. The formation processes of these sub-Earths remain elusive, and acquiring additional samples is essential for investigating this unique population. In our study, we employ the GPFC method, a novel GPU Phase Folding algorithm combined with a Convolutional Neural Network, on Kepler photometry data. This method enhances the transit search speed significantly over the traditional Box-fitting Least Squares method, allowing a complete search of the known Kepler KOI data within days using a commercial GPU card. To date, we have identified five new ultra-short-period planets (USPs): Kepler-158d, Kepler-963c, Kepler-879c, Kepler-1489c, and KOI-4978.02. Kepler-879c with a radius of $0.4 R_\oplus$ completes its orbit around a G dwarf in 0.646716 days. Kepler-158d with a radius of $0.43 R_\oplus$ orbits a K dwarf star every 0.645088 days. Kepler-1489c with a radius of $0.51 R_\oplus$ orbits a G dwarf in 0.680741 days. Kepler-963c with a radius of $0.6 R_\oplus$ revolves around a G dwarf in 0.919783 days, and KOI-4978.02 with a radius of $0.7 R_\oplus$ circles a G dwarf in 0.941967 days. Among our findings, Kepler-879c, Kepler-158d and Kepler-963c rank as the first, the third, the fourth smallest USPs identified to date. Notably, Kepler-158d stands as the smallest USP found orbiting K dwarfs while Kepler-963c, Kepler-879c, Kepler-1489c, and KOI-4978.02 are the smallest USPs found orbiting G dwarfs. Kepler-879c, Kepler-158d, Kepler-1489c, and KOI-4978.02 are among the smallest planets that are closest to their host stars, with orbits within 5 stellar radii. In addition, these discoveries highlight GPFC's promising capability in identifying small, new transiting exoplanets within photometry data from Kepler, TESS, and upcoming space transit missions, PLATO and ET. | 翻訳日:2024-09-18 03:17:40 公開日:2024-09-14 |
# ボルツマン分布の効率的なサンプリングのためのエネルギーベース拡散生成器
Energy based diffusion generator for efficient sampling of Boltzmann distributions ( http://arxiv.org/abs/2401.02080v2 ) ライセンス: Link先を確認 | Yan Wang, Ling Guo, Hao Wu, Tao Zhou, | (参考訳) ボルツマン分布、特に高次元および複素エネルギー関数に結びついているものからサンプリングすることは、多くの分野において重要な課題である。
本研究では,エネルギーベース拡散発生器(EDG, Energy-Based Diffusion Generator)について述べる。
EDGはデコーダを利用して、単純な分布からターゲットボルツマン分布を近似するサンプルに変換する。
特にEDGはシミュレーション不要であり、訓練中に通常の微分方程式や確率微分方程式を解く必要がなくなる。
さらに、デコーダのビジェクティビティなどの制約を取り除くことで、EDGは柔軟なネットワーク設計を可能にする。
実験的な評価を通じて,EDGの様々な複雑な分散タスクにおける優れた性能を示し,既存手法よりも優れた性能を示す。
Sampling from Boltzmann distributions, particularly those tied to high-dimensional and complex energy functions, poses a significant challenge in many fields. In this work, we present the Energy-Based Diffusion Generator (EDG), a novel approach that integrates ideas from variational autoencoders and diffusion models. EDG leverages a decoder to transform latent variables from a simple distribution into samples approximating the target Boltzmann distribution, while the diffusion-based encoder provides an accurate estimate of the Kullback-Leibler divergence during training. Notably, EDG is simulation-free, eliminating the need to solve ordinary or stochastic differential equations during training. Furthermore, by removing constraints such as bijectivity in the decoder, EDG allows for flexible network design. Through empirical evaluation, we demonstrate the superior performance of EDG across a variety of complex distribution tasks, outperforming existing methods. | 翻訳日:2024-09-18 03:17:40 公開日:2024-09-14 |
# Open-Vocabulary SAM:20のクラスを対話的にセグメンテーションと認識
Open-Vocabulary SAM: Segment and Recognize Twenty-thousand Classes Interactively ( http://arxiv.org/abs/2401.02955v2 ) ライセンス: Link先を確認 | Haobo Yuan, Xiangtai Li, Chong Zhou, Yining Li, Kai Chen, Chen Change Loy, | (参考訳) CLIP と Segment Anything Model (SAM) は目覚しい視覚基盤モデル(VFM)である。
SAMはさまざまなドメインにまたがるセグメンテーションタスクに優れており、CLIPはそのゼロショット認識能力で有名である。
本稿では,これら2つのモデルを統合フレームワークに統合する,詳細な検討について述べる。
具体的には、SAM2CLIPとCLIP2SAMの2つのユニークな知識伝達モジュールを活用し、同時対話的なセグメンテーションと認識のためのSAMに着想を得たモデルであるOpen-Vocabulary SAMを紹介する。
前者は蒸留と学習可能なトランスフォーマーアダプターを通じてSAMの知識をCLIPに適応させ、後者はCLIPの知識をSAMに転送し、認識能力を高める。
各種データセットおよび検出器の広範囲にわたる実験により、セグメンテーションと認識タスクの両方においてオープンボキャブラリSAMの有効性が示され、SAMとCLIPを単純に組み合わせたna\"{i}veベースラインを著しく上回った。
さらに,画像分類データトレーニングの支援により,約22,000のクラスを分類・認識することができる。
The CLIP and Segment Anything Model (SAM) are remarkable vision foundation models (VFMs). SAM excels in segmentation tasks across diverse domains, whereas CLIP is renowned for its zero-shot recognition capabilities. This paper presents an in-depth exploration of integrating these two models into a unified framework. Specifically, we introduce the Open-Vocabulary SAM, a SAM-inspired model designed for simultaneous interactive segmentation and recognition, leveraging two unique knowledge transfer modules: SAM2CLIP and CLIP2SAM. The former adapts SAM's knowledge into the CLIP via distillation and learnable transformer adapters, while the latter transfers CLIP knowledge into SAM, enhancing its recognition capabilities. Extensive experiments on various datasets and detectors show the effectiveness of Open-Vocabulary SAM in both segmentation and recognition tasks, significantly outperforming the na\"{i}ve baselines of simply combining SAM and CLIP. Furthermore, aided with image classification data training, our method can segment and recognize approximately 22,000 classes. | 翻訳日:2024-09-18 03:17:40 公開日:2024-09-14 |
# N$不定形粒子のバイパルタイト表現と純状態の多体絡み合い
Bipartite representations and many-body entanglement of pure states of $N$ indistinguishable particles ( http://arxiv.org/abs/2401.06917v2 ) ライセンス: Link先を確認 | J. A. Cianciulli, R. Rossignoli, M. Di Tullio, N. Gigena, F. Petrovich, | (参考訳) 我々は、$M$-および$(N-M)$-粒子状態に基づいて、ボソンとフェルミオンの両方に有効である$N$の任意の純状態の一般のバイパルタイト様表現を分析する。
正確な$(M,N-M)$ Schmidt-like expansions of the state for any $M<N$, and direct related to the isospectral reduced $M$- and $(N-M)$-body density matrices $\rho^{(M)}$ and $\rho^{(N-M)}$.
形式主義はまた、ある単一粒子部分空間に粒子の固定分数を持つ系において、これらの密度のブロックに付随するシュミット様の分解を減少させることもできる。
量子演算の特定の集合の下でのM$-body絡み合いの単調性についても論じる。
ペア相関を持つフェルミオン系とボソニック系の図示的な例が提供され、$\rho^{(M)}$における支配固有値の存在下では、関連するシュミット展開のいくつかの項に基づく近似が状態の信頼できる記述を提供することができることを示す。
関連する1体および2体の絡み合いスペクトルとエントロピーも分析される。
We analyze a general bipartite-like representation of arbitrary pure states of $N$ indistinguishable particles, valid for both bosons and fermions, based on $M$- and $(N-M)$-particle states. It leads to exact $(M,N-M)$ Schmidt-like expansions of the state for any $M<N$ and is directly related to the isospectral reduced $M$- and $(N-M)$-body density matrices $\rho^{(M)}$ and $\rho^{(N-M)}$. The formalism also allows for reduced yet still exact Schmidt-like decompositions associated with blocks of these densities, in systems having a fixed fraction of the particles in some single particle subspace. Monotonicity of the ensuing $M$-body entanglement under a certain set of quantum operations is also discussed. Illustrative examples in fermionic and bosonic systems with pairing correlations are provided, which show that in the presence of dominant eigenvalues in $\rho^{(M)}$, approximations based on a few terms of the pertinent Schmidt expansion can provide a reliable description of the state. The associated one- and two-body entanglement spectrum and entropies are also analyzed. | 翻訳日:2024-09-18 03:17:40 公開日:2024-09-14 |
# 人間の意思決定を評価する実験のための決定理論の基礎
Decision Theoretic Foundations for Experiments Evaluating Human Decisions ( http://arxiv.org/abs/2401.15106v5 ) ライセンス: Link先を確認 | Jessica Hullman, Alex Kale, Jason Hartline, | (参考訳) 意思決定に情報ディスプレイをどのように使うかは、人間中心のAI、モデル説明可能性、データの可視化、関連する領域に主に関心がある。
しかし、決定問題を構成するものや、人間の決定が改善できることを示す研究に必要なものについては、憶測の余地が残されている。
本稿では,HCIにおいて人的意思決定を改善するための基準として,統計的決定理論と情報経済学から合成された意思決定問題の広く適用可能な定義を提案する。
我々は、人間のパフォーマンスの損失をバイアスの形で評価するためには、合理的なエージェントが実用性を最大化する決定を識別する必要があるという情報を参加者に提供する必要があると論じる。
実演として,AIによる意思決定に関する文献からの意思決定の評価が,これらの基準をどの程度達成したかを評価する。
偏見のある行動の特定を主張する39の研究のうち10(26\%)は、その行動が少なくとも1つの治療条件において良い意思決定から逸脱していると特徴付けるのに十分な情報を持っている。
我々は、よく定義された意思決定問題を研究することの価値を、彼らが認識できるパフォーマンス損失の特徴を説明することによって動機づける。
対照的に、コミュニケーションの不十分な決定問題の曖昧さは規範的解釈を妨げる。
私たちは練習の勧告で締めくくります。
How well people use information displays to make decisions is of primary interest in human-centered AI, model explainability, data visualization, and related areas. However, what constitutes a decision problem, and what is required for a study to establish that human decisions could be improved remain open to speculation. We propose a widely applicable definition of a decision problem synthesized from statistical decision theory and information economics as a standard for establishing when human decisions can be improved in HCI. We argue that to attribute loss in human performance to forms of bias, an experiment must provide participants with the information that a rational agent would need to identify the utility-maximizing decision. As a demonstration, we evaluate the extent to which recent evaluations of decision-making from the literature on AI-assisted decisions achieve these criteria. We find that only 10 (26\%) of 39 studies that claim to identify biased behavior present participants with sufficient information to characterize their behavior as deviating from good decision-making in at least one treatment condition. We motivate the value of studying well-defined decision problems by describing a characterization of performance losses they allow us to conceive. In contrast, the ambiguities of a poorly communicated decision problem preclude normative interpretation. We conclude with recommendations for practice. | 翻訳日:2024-09-18 03:05:43 公開日:2024-09-14 |
# InfMAE:赤外線モダリティの基礎モデル
InfMAE: A Foundation Model in the Infrared Modality ( http://arxiv.org/abs/2402.00407v2 ) ライセンス: Link先を確認 | Fangcen Liu, Chenqiang Gao, Yaming Zhang, Junjie Guo, Jinhao Wang, Deyu Meng, | (参考訳) 近年、基礎モデルはコンピュータビジョンの分野を席巻し、様々なモードで様々なタスクの開発を促進している。
しかし、赤外線ファンデーションモデルをどのように設計するかについては、未解決の疑問が残る。
本稿では,赤外線モダリティの基礎モデルであるInfMAEを提案する。
我々は、赤外線ビジョンコミュニティにおける自己教師型学習のための大規模なデータ不足に対処するため、Inf30と呼ばれる赤外線データセットをリリースする。
さらに、赤外線画像に適した情報認識マスキング戦略を設計する。
このマスキング戦略により、一般化された表現の学習に寄与する自己教師付き学習過程において、赤外線画像にリッチな情報を持つ領域をより強調することができる。
さらに,ダウンストリームタスクにおける事前学習エンコーダの性能を向上させるために,マルチスケールエンコーダを採用した。
最後に、赤外線画像には細部やテクスチャ情報が多くないという事実に基づいて、下流タスクの性能をさらに向上させる赤外線デコーダモジュールを設計する。
実験の結果,提案手法は3つの下流タスクにおいて,他の教師付き手法や自己教師付き学習方法よりも優れていた。
In recent years, the foundation models have swept the computer vision field and facilitated the development of various tasks within different modalities. However, it remains an open question on how to design an infrared foundation model. In this paper, we propose InfMAE, a foundation model in infrared modality. We release an infrared dataset, called Inf30 to address the problem of lacking large-scale data for self-supervised learning in the infrared vision community. Besides, we design an information-aware masking strategy, which is suitable for infrared images. This masking strategy allows for a greater emphasis on the regions with richer information in infrared images during the self-supervised learning process, which is conducive to learning the generalized representation. In addition, we adopt a multi-scale encoder to enhance the performance of the pre-trained encoders in downstream tasks. Finally, based on the fact that infrared images do not have a lot of details and texture information, we design an infrared decoder module, which further improves the performance of downstream tasks. Extensive experiments show that our proposed method InfMAE outperforms other supervised methods and self-supervised learning methods in three downstream tasks. | 翻訳日:2024-09-18 03:05:43 公開日:2024-09-14 |
# 大規模言語モデルの推論を用いたパズル解法に関する調査
Puzzle Solving using Reasoning of Large Language Models: A Survey ( http://arxiv.org/abs/2402.11291v3 ) ライセンス: Link先を確認 | Panagiotis Giadikiaroglou, Maria Lymperaiou, Giorgos Filandrianos, Giorgos Stamou, | (参考訳) パズル解決におけるLarge Language Models(LLM)の機能の探索は、AIの可能性と課題に関する重要な洞察を明らかにし、複雑な推論タスクにおけるそれらの適用性を理解するための重要なステップを示す。
この調査では、パズルをルールベースとルールレスのカテゴリに分割するユニークな分類法を活用し、様々な方法論を通じてLSMを批判的に評価する。
関連するデータセットとベンチマークの批判的レビューを通じて、LLMの性能を評価し、複雑なパズルシナリオにおける重要な課題を特定する。
本研究は,高度な論理的推論を必要とする人において,LLM能力と人間ライクな推論の相違を浮き彫りにした。
この調査は、LLMのパズル解決能力を高め、AIの論理的推論と創造的問題解決の進歩に貢献するために、新しい戦略とよりリッチなデータセットの必要性を強調している。
Exploring the capabilities of Large Language Models (LLMs) in puzzle solving unveils critical insights into their potential and challenges in AI, marking a significant step towards understanding their applicability in complex reasoning tasks. This survey leverages a unique taxonomy -- dividing puzzles into rule-based and rule-less categories -- to critically assess LLMs through various methodologies, including prompting techniques, neuro-symbolic approaches, and fine-tuning. Through a critical review of relevant datasets and benchmarks, we assess LLMs' performance, identifying significant challenges in complex puzzle scenarios. Our findings highlight the disparity between LLM capabilities and human-like reasoning, particularly in those requiring advanced logical inference. The survey underscores the necessity for novel strategies and richer datasets to advance LLMs' puzzle-solving proficiency and contribute to AI's logical reasoning and creative problem-solving advancements. | 翻訳日:2024-09-18 02:55:35 公開日:2024-09-14 |
# 連続可変量子鍵分布を用いた未来の証明ネットワーク暗号化技術
Future proofing network encryption technology with continuous-variable quantum key distribution ( http://arxiv.org/abs/2402.18881v2 ) ライセンス: Link先を確認 | Nitin Jain, Hou-Man Chin, Adnan A. E. Hajomer, Dev Null, Henrik Larfort, Naja Lautrup Nysom, Erik Bidstrup, Ulrik L. Andersen, Tobias Gehring, | (参考訳) 我々はデンマークの2か所、リンビーのデンマーク工科大学キャンパスと、オデンセのエネルギネットが所有・運営する電力グリッドノード間のフィールドトライアルにおいて、量子セキュアなデータ転送リンクの概念実証を行う。
光接地線, 地中ファイバおよびそれらの組み合わせを用いて物理的に実装したいくつかの異なるリンクについて検討した。
半自律連続可変量子鍵分布 (CVQKD) を用いて, 1550nmのコヒーレントな「量子」状態を作成し, 測定した。
リアルタイムデータ処理の仮定では、それぞれ4.1、5.5、および6.7dBの損失(約1550nm)を持つ様々なチャネルに対する漸近的限界において、平均秘密鍵レートが434.8、148.6$、78.3$ kbpsと推定される。
デモでは、プロトタイプの厳しいフィールド条件に対する耐性を評価し、CVQKDが安全でないチャネルで伝播する機密性のあるネットワークトラフィックを保護するための追加層として機能できることが示されている。
We demonstrate a proof-of-concept establishment of quantum-secure data transfer links in field trials at two locations in Denmark: on the campus of Technical University of Denmark in Lyngby and between power grid nodes owned and operated by Energinet in Odense. Several different links, implemented physically using optical ground wires, underground fibers as well as their combinations, were investigated. Coherent `quantum' states at 1550 nm, prepared and measured using a semi-autonomous continuous-variable quantum key distribution (CVQKD) prototype, were multiplexed in wavelength with `classical' 100Gbps encrypted data traffic from a pair of commercial layer-2 network encryption devices operating at around 1300 nm. Under the assumptions of real-time data processing, we estimate average secret key rates of $434.8, 148.6$, and $78.3$ kbps in the asymptotic limit for diverse channels with losses (at 1550 nm) of 4.1, 5.5, and 6.7 dB, respectively. The demonstrations permit an evaluation of the prototype's tolerance to harsh field conditions and showcase that CVQKD can serve as an additional layer to protect sensitive network traffic propagating on insecure channels. | 翻訳日:2024-09-18 02:55:35 公開日:2024-09-14 |
# Apollo: 医療AIを60億人に民主化するための軽量多言語医療LLM
Apollo: A Lightweight Multilingual Medical LLM towards Democratizing Medical AI to 6B People ( http://arxiv.org/abs/2403.03640v5 ) ライセンス: Link先を確認 | Xidong Wang, Nuo Chen, Junyin Chen, Yidong Wang, Guorui Zhen, Chunxian Zhang, Xiangbo Wu, Yan Hu, Anningzhe Gao, Xiang Wan, Haizhou Li, Benyou Wang, | (参考訳) 世界的医療知識の膨大な保管場所は英語であるにもかかわらず、現地の言語は、特に限られた医療資源を持つ地域で、適切な医療サービスを提供するために不可欠である。
医療AIの進歩の範囲を広い人口に広げるため、私たちは6つの最も広く話されている言語にわたる医療用LLMの開発を目標としています。
この取り組みは、ApolloCorpora多言語医療データセットとXMedBenchベンチマークの作成で頂点に達した。
マルチリンガル・メディカル・ベンチマークでは、リリースされたApolloモデルは様々な比較的小さなサイズ(0.5B, 1.8B, 2B, 6B, 7B)で、同等の大きさのモデルの中で最高の性能を達成する。
特にアポロ7Bは、最先端の多言語医療用LLMである。
さらに、これらのライトモデルは、プロキシチューニング方式で微調整することなく、より大きなモデルの多言語医療能力を改善するために使用できる。
トレーニングコーパス、コード、モデルの重み付け、評価ベンチマークをオープンソースにします。
Despite the vast repository of global medical knowledge predominantly being in English, local languages are crucial for delivering tailored healthcare services, particularly in areas with limited medical resources. To extend the reach of medical AI advancements to a broader population, we aim to develop medical LLMs across the six most widely spoken languages, encompassing a global population of 6.1 billion. This effort culminates in the creation of the ApolloCorpora multilingual medical dataset and the XMedBench benchmark. In the multilingual medical benchmark, the released Apollo models, at various relatively-small sizes (i.e., 0.5B, 1.8B, 2B, 6B, and 7B), achieve the best performance among models of equivalent size. Especially, Apollo-7B is the state-of-the-art multilingual medical LLMs up to 70B. Additionally, these lite models could be used to improve the multi-lingual medical capabilities of larger models without fine-tuning in a proxy-tuning fashion. We will open-source training corpora, code, model weights and evaluation benchmark. | 翻訳日:2024-09-18 02:55:35 公開日:2024-09-14 |
# 非平衡スピンボソンモデルのダイナミクス:マスター方程式のベンチマークとその妥当性
Dynamics of the Non-equilibrium spin Boson Model: A Benchmark of master equations and their validity ( http://arxiv.org/abs/2403.04488v2 ) ライセンス: Link先を確認 | Gerardo Suárez, Marcin Łobejko, Michał Horodecki, | (参考訳) 近年、マスター方程式のようなオープン量子系の効果的な記述が、オープン量子系の力学を正確に記述できるかどうかの同定に非常に焦点が当てられている。
一つの疑問は、それらが長い時間で正しい定常状態を提供するかどうかである。
過渡的な体制も興味をそそる。
様々なマスター方程式による進化の説明(そのうちのいくつかは完全正ではない)は、正確な解に対してベンチマークされる(e g Hartmann and Strunz, Phys. A 101, 012103)。
真の進化の重要な性質は、その非マルコフ的特徴であり、これは最も単純で完全に正のマスター方程式によって捉えられていない。
本稿では、過剰なドリュー・ローレンツスペクトル密度と任意のカップリングを持つスピン・ボソンモデルに対する非マルコフ的だが完全に正の進化(洗練された弱結合あるいは累積方程式)を考える。
数値的に正確な解と他の主方程式に対してベンチマークし、結合強度と温度が異なるようにした。
有効であると考えられる弱い結合状態において、累積体はより良い記述であることが分かっています。
検討された例では、検討されたすべての例に対して、低温状態における中等度および強結合における優越性を示す。
しかし、高温体制ではその優位性は消滅する。
このことは、累積方程式が弱いカップリングと低温でのシミュレーションのよい候補であることを示している。
我々の計算は、SU(N) 基底における密度行列の表現による累積方程式の簡潔な定式化により、非常に容易である。
In recent years, there has been tremendous focus on identifying whether effective descriptions of open quantum systems such as master equations, can accurately describe the dynamics of open quantum systems. One particular question is whether they provide the correct steady state in the long time limit. Transient regime is also of interest. Description of evolution by various master equations - some of them being not complete positive - is benchmarked against exact solutions (see e.g. Hartmann and Strunz, Phys. Rev. A 101, 012103). An important property of true evolution is its non-Markovian features, which are not captured by the simplest completely positive master equations. In this paper we consider a non-Markovian, yet completely positive evolution (known as refined weak coupling or cumulant equation) for the Spin-Boson model with an Overdamped Drude-Lorentz spectral density and arbitrary coupling. We bench-marked it against numerically exact solution, as well as against other master equations, for different coupling strengths and temperatures. We find the cumulant to be a better description in the weak coupling regime where it is supposed to be valid. For the examples considered it shows superiority at moderate and strong couplings in the low-temperature regime for all examples considered. In the high-temperature regime however its advantage vanishes. This indicates that the cumulant equation is a good candidate for simulations at weak to moderate coupling and low temperature. Our calculations are greatly facilitated due to our concise formulation of the cumulant equation by means of representation of the density matrix in the SU(N) basis. | 翻訳日:2024-09-18 02:55:35 公開日:2024-09-14 |
# ES-FUZZ:ステートフルかつ適応可能なMMIOモデルによるファームウェアファジリングのカバレッジ改善
ES-FUZZ: Improving the Coverage of Firmware Fuzzing with Stateful and Adaptable MMIO Models ( http://arxiv.org/abs/2403.06281v2 ) ライセンス: Link先を確認 | Wei-Lun Huang, Kang G. Shin, | (参考訳) グレーボックスファジングは組み込みシステム(ES)のテストに広く使われている。
ファジィザはESファームウェアを実周辺機器なしで完全にエミュレートされた環境でテストすることが多い。
適切なコードカバレッジを達成するために、ファームウェアバイナリから周辺機器のメモリマップされたI/O(MMIO)挙動を推測するSOTA(State-of-the-art)ファッジャがある。
本研究では,データチャンクの検索のために,ESファームウェアのMMIO読み出し処理において,生成したMMIOモデルをステートレス,固定,貧弱にする。
コードカバレッジを改善する余地は十分残っている。
本研究では,ファジタのカバレッジボトルネックに適応するステートフルなMMIOモデルを用いて,ファームウェアファジテストのカバレッジを向上させるためのES-Fuzzを提案する。
ES-Fuzzは、与えられたファザーと並行して動作し、ファザーのカバレッジが停滞するたびに新しい実行を開始する。
各実行中の最高カバレッジテストケースを活用して、その時のファッザのカバレッジを高めるために、新しいステートフルなMMIOモデルを生成する。
我々は、ファズウェア上でES-Fuzzを実装し、24の人気のあるESファームウェアで評価した。
ES-Fuzzは、Fuzzwareのカバレッジを最大4,7 %改善し、ファームウェアに新しいバグを見つけることが示されている。
Grey-box fuzzing is widely used for testing embedded systems (ESes). The fuzzers often test the ES firmware in a fully emulated environment without real peripherals. To achieve decent code coverage, some state-of-the-art (SOTA) fuzzers infer the memory-mapped I/O (MMIO) behavior of peripherals from the firmware binary. We find the thus-generated MMIO models stateless, fixed, and poor at handling ES firmware's MMIO reads for retrieval of a data chunk. This leaves ample room for improving the code coverage. We propose ES-Fuzz to enhance the coverage of firmware fuzz-testing with stateful MMIO models that adapt to the fuzzer's coverage bottleneck. ES-Fuzz runs concurrently with a given fuzzer and starts a new run whenever the fuzzer's coverage stagnates. It exploits the highest-coverage test case in each run and generates new stateful MMIO models that boost the fuzzer's coverage at that time. We have implemented ES-Fuzz upon Fuzzware and evaluated it with 24 popular ES firmware. ES-Fuzz is shown to improve Fuzzware's coverage by up to $47\%$ and find new bugs in these firmware. | 翻訳日:2024-09-18 02:55:35 公開日:2024-09-14 |
# CodeAttack: コードコンプリートによる大規模言語モデルの安全性向上への挑戦
CodeAttack: Revealing Safety Generalization Challenges of Large Language Models via Code Completion ( http://arxiv.org/abs/2403.07865v5 ) ライセンス: Link先を確認 | Qibing Ren, Chang Gao, Jing Shao, Junchi Yan, Xin Tan, Wai Lam, Lizhuang Ma, | (参考訳) LLM(Large Language Models)の急速な進歩は、顕著な生成能力をもたらしたが、その潜在的な誤用に対する懸念も持ち上がった。
教師付き微調整や人間からのフィードバックからの強化学習といった戦略は安全性を高めてきたが、これらの手法は主に自然言語に焦点を絞っており、他の領域に一般化しない可能性がある。
本稿では,自然言語入力をコード入力に変換するフレームワークであるCodeAttackを紹介する。
GPT-4、Claude-2、Llama-2シリーズを含む最先端のLLMに関する包括的な研究は、コード入力に対するこれらのモデルの新たな、普遍的な安全性の脆弱性を明らかにしている。
CodeAttackと自然言語の分布ギャップが大きくなると、自然言語入力をデータ構造で符号化するなど、安全性が低下することがわかった。
さらに、コードトレーニング中にLLMが取得したミスアライメントバイアス、潜在的な安全性リスクを回避することよりも、コード補完の優先順位付けなど、CodeAttackの成功に関する仮説を述べています。
最後に、潜在的な緩和策を分析する。
これらの知見は、コードドメインにおける新たな安全性リスクと、LLMのコード機能に合わせたより堅牢な安全性アライメントアルゴリズムの必要性を浮き彫りにしている。
The rapid advancement of Large Language Models (LLMs) has brought about remarkable generative capabilities but also raised concerns about their potential misuse. While strategies like supervised fine-tuning and reinforcement learning from human feedback have enhanced their safety, these methods primarily focus on natural languages, which may not generalize to other domains. This paper introduces CodeAttack, a framework that transforms natural language inputs into code inputs, presenting a novel environment for testing the safety generalization of LLMs. Our comprehensive studies on state-of-the-art LLMs including GPT-4, Claude-2, and Llama-2 series reveal a new and universal safety vulnerability of these models against code input: CodeAttack bypasses the safety guardrails of all models more than 80\% of the time. We find that a larger distribution gap between CodeAttack and natural language leads to weaker safety generalization, such as encoding natural language input with data structures. Furthermore, we give our hypotheses about the success of CodeAttack: the misaligned bias acquired by LLMs during code training, prioritizing code completion over avoiding the potential safety risk. Finally, we analyze potential mitigation measures. These findings highlight new safety risks in the code domain and the need for more robust safety alignment algorithms to match the code capabilities of LLMs. | 翻訳日:2024-09-18 02:55:35 公開日:2024-09-14 |
# PreCurious: 未学習の言語モデルがいかにプライバシトラップに変わるか
PreCurious: How Innocent Pre-Trained Language Models Turn into Privacy Traps ( http://arxiv.org/abs/2403.09562v3 ) ライセンス: Link先を確認 | Ruixuan Liu, Tianhao Wang, Yang Cao, Li Xiong, | (参考訳) 事前学習と微調整のパラダイムは、その効果を示し、言語モデルを様々なタスクに合わせるための標準的なアプローチとなっている。
現在、コミュニティベースのプラットフォームは、厳格な検証プロセスなしで公開できるため、トレーニング済みのさまざまなモデルに簡単にアクセスできる。
しかし、事前トレーニングされたモデルのリリースは、慎重に設計されている場合、微調整データセットのプライバシトラップになる可能性がある。
本研究では,攻撃者が事前訓練されたモデルをリリースし,最終調整されたモデルにブラックボックスでアクセスできる新たな攻撃面を明らかにするためのPreCuriousフレームワークを提案する。
PreCuriousは、メンバーシップ推論とデータ抽出の両方の一般的なプライバシーリスクを微調整データセット上でエスカレートすることを目的としている。
PreCuriousの背後にある重要な直感は、事前訓練されたモデルの記憶段階を操作し、正当な構成で微調整をガイドすることである。
パラメータ効率および微分プライベートな微調整技術が、微調整されたモデルにおけるプライバシー攻撃に対して防御できるという実証的および理論的証拠はあるが、PreCuriousは、良心的な事前訓練されたモデルにおける微調整と比較して、この不規則性をステルス的に分割する可能性を実証している。
DPはメンバーシップ推論攻撃を緩和する一方で、さらに衛生化されたデータセットを活用することで、PreCuriousは、厳格なプライバシー予算(例えば$\epsilon=0.05$)で差分プライベートチューニングの下でも、ターゲットデータ抽出の潜在的な脆弱性を示す。
このように、PreCuriousは、トレーニング済みのモデルを未知のソースからダウンロードし、チュートリアルや常識的な防御にのみ依存し、完全にスクラブした後でも衛生化されたデータセットをリリースするという潜在的なリスクについて、ユーザに警告を発している。
The pre-training and fine-tuning paradigm has demonstrated its effectiveness and has become the standard approach for tailoring language models to various tasks. Currently, community-based platforms offer easy access to various pre-trained models, as anyone can publish without strict validation processes. However, a released pre-trained model can be a privacy trap for fine-tuning datasets if it is carefully designed. In this work, we propose PreCurious framework to reveal the new attack surface where the attacker releases the pre-trained model and gets a black-box access to the final fine-tuned model. PreCurious aims to escalate the general privacy risk of both membership inference and data extraction on the fine-tuning dataset. The key intuition behind PreCurious is to manipulate the memorization stage of the pre-trained model and guide fine-tuning with a seemingly legitimate configuration. While empirical and theoretical evidence suggests that parameter-efficient and differentially private fine-tuning techniques can defend against privacy attacks on a fine-tuned model, PreCurious demonstrates the possibility of breaking up this invulnerability in a stealthy manner compared to fine-tuning on a benign pre-trained model. While DP provides some mitigation for membership inference attack, by further leveraging a sanitized dataset, PreCurious demonstrates potential vulnerabilities for targeted data extraction even under differentially private tuning with a strict privacy budget e.g. $\epsilon=0.05$. Thus, PreCurious raises warnings for users on the potential risks of downloading pre-trained models from unknown sources, relying solely on tutorials or common-sense defenses, and releasing sanitized datasets even after perfect scrubbing. | 翻訳日:2024-09-18 02:45:24 公開日:2024-09-14 |
# StateFlow: ステート駆動ワークフローによるLLMタスクソルビングの強化
StateFlow: Enhancing LLM Task-Solving through State-Driven Workflows ( http://arxiv.org/abs/2403.11322v5 ) ライセンス: Link先を確認 | Yiran Wu, Tianwei Yue, Shaokun Zhang, Chi Wang, Qingyun Wu, | (参考訳) 複雑なタスク、例えば一連のアクションや、ツールや外部環境との動的相互作用を必要とするタスクに対処するために、LLM(Large Language Models)を使用することは、注目すべきトレンドである。
本稿では,複雑なタスク解決プロセスをステートマシンとして概念化する,新しいLCMベースのタスク解決パラダイムであるStateFlowを提案する。
StateFlowでは、(状態と状態遷移を介して)「プロセス基盤」と(状態内のアクションを通じて)「サブタスク解決」を区別し、タスク解決手順の制御と解釈性を高めます。
状態は実行中のプロセスの状態を表す。
状態間の遷移は LLM によるヒューリスティックな規則や決定によって制御され、動的かつ適応的な進行を可能にする。
状態に入ると、異なるプロンプトでガイドされたLSMを呼び出すだけでなく、必要に応じて外部ツールの利用を含む一連のアクションが実行される。
その結果, StateFlow は LLM の効率を大幅に向上させることがわかった。
例えば、StateFlowはInterCode SQLとALFWorldベンチマークのReActと比較して13%と28%高い成功率を実現し、それぞれ5倍と3倍のコストがかかる。
また、StateFlowとReflexionのような反復的な精錬メソッドを組み合わせることで、パフォーマンスをさらに向上できることを示す。
It is a notable trend to use Large Language Models (LLMs) to tackle complex tasks, e.g., tasks that require a sequence of actions and dynamic interaction with tools and external environments. In this paper, we propose StateFlow, a novel LLM-based task-solving paradigm that conceptualizes complex task-solving processes as state machines. In StateFlow, we distinguish between "process grounding" (via state and state transitions) and "sub-task solving" (through actions within a state), enhancing control and interpretability of the task-solving procedure. A state represents the status of a running process. The transitions between states are controlled by heuristic rules or decisions made by the LLM, allowing for a dynamic and adaptive progression. Upon entering a state, a series of actions is executed, involving not only calling LLMs guided by different prompts, but also the utilization of external tools as needed. Our results show that StateFlow significantly enhances LLMs' efficiency. For instance, StateFlow achieves 13% and 28% higher success rates compared to ReAct in InterCode SQL and ALFWorld benchmark, with 5x and 3x less cost respectively. We also show that StateFlow can be combined with iterative refining methods like Reflexion to further improve performance. | 翻訳日:2024-09-18 02:45:24 公開日:2024-09-14 |
# Implicit-Explicit (IMEX) による適応モーメント推定(ADAM)確率最適化器の改良
Improving the Adaptive Moment Estimation (ADAM) stochastic optimizer through an Implicit-Explicit (IMEX) time-stepping approach ( http://arxiv.org/abs/2403.13704v2 ) ライセンス: Link先を確認 | Abhinab Bhattacharjee, Andrey A. Popov, Arash Sarshar, Adrian Sandu, | (参考訳) ニューラルネットワークトレーニングで機械学習でよく使用されるアダム最適化器は、非常に少ない学習率の限界における基礎となる常微分方程式(ODE)に対応する。
この研究は、古典的なアダムアルゴリズムが、基礎となるODEのオイラー離散化(IMEX)であることを示している。
本稿では、時間離散化の観点から、高階IMEX法を用いてODEを解いたAdamスキームの新たな拡張を提案する。
提案手法は,従来のAdamよりもいくつかの回帰および分類問題において優れた性能を発揮するニューラルネットワークトレーニングのための新しい最適化アルゴリズムを導出する。
The Adam optimizer, often used in Machine Learning for neural network training, corresponds to an underlying ordinary differential equation (ODE) in the limit of very small learning rates. This work shows that the classical Adam algorithm is a first-order implicit-explicit (IMEX) Euler discretization of the underlying ODE. Employing the time discretization point of view, we propose new extensions of the Adam scheme obtained by using higher-order IMEX methods to solve the ODE. Based on this approach, we derive a new optimization algorithm for neural network training that performs better than classical Adam on several regression and classification problems. | 翻訳日:2024-09-18 02:45:24 公開日:2024-09-14 |
# テキスト記述による接触認識型人間動作生成
Contact-aware Human Motion Generation from Textual Descriptions ( http://arxiv.org/abs/2403.15709v2 ) ライセンス: Link先を確認 | Sihan Ma, Qiong Cao, Jing Zhang, Dacheng Tao, | (参考訳) 本稿では,テキストから3次元対話型人間の動作を生成する問題に対処する。
静的な物体と接触する異なる身体部位の動作を記述したテキスト記述が与えられた場合、視覚的に自然で物理的に妥当な3次元身体ポーズのシーケンスを合成する。
しかし、この課題は、運動とテキスト記述の両方における物理的接触による相互作用の不十分な考慮により、不自然で不可解なシーケンスをもたらすため、重大な課題となる。
この課題に対処するために、RICHデータセットから構築された"Contact-Aware Texts"を表す、RICH-CATという新しいデータセットを作成します。
RICH-CATは、高品質なモーション、正確な人物接触ラベル、詳細なテキスト記述を含み、26の屋内/屋外アクションにまたがる8,500以上のモーションテキストペアを含んでいる。
RICH-CATを活用することで,人体接触をエビデンスとして明示的に統合するテキスト駆動対話型人体動作合成のためのCATMOという新しいアプローチを提案する。
我々は2つのVQ-VAEモデルを用いて、動きと身体の接触配列を相補的な遅延空間に符号化し、人間の動きと接触を相互に条件付きで生成する。
さらに,テキストエンコーダを導入し,テキスト埋め込みを学習し,様々な種類の接触を識別し,合成された動きや接触をより正確に制御できるようにする。
本実験は,既存のテキスト・トゥ・モーション法と比較して,本手法の優れた性能を実証し,安定した接触対応動作系列を生成する。
コードとデータは、https://xymsh.github.io/RICH-CAT/で研究目的で利用可能になる。
This paper addresses the problem of generating 3D interactive human motion from text. Given a textual description depicting the actions of different body parts in contact with static objects, we synthesize sequences of 3D body poses that are visually natural and physically plausible. Yet, this task poses a significant challenge due to the inadequate consideration of interactions by physical contacts in both motion and textual descriptions, leading to unnatural and implausible sequences. To tackle this challenge, we create a novel dataset named RICH-CAT, representing "Contact-Aware Texts" constructed from the RICH dataset. RICH-CAT comprises high-quality motion, accurate human-object contact labels, and detailed textual descriptions, encompassing over 8,500 motion-text pairs across 26 indoor/outdoor actions. Leveraging RICH-CAT, we propose a novel approach named CATMO for text-driven interactive human motion synthesis that explicitly integrates human body contacts as evidence. We employ two VQ-VAE models to encode motion and body contact sequences into distinct yet complementary latent spaces and an intertwined GPT for generating human motions and contacts in a mutually conditioned manner. Additionally, we introduce a pre-trained text encoder to learn textual embeddings that better discriminate among various contact types, allowing for more precise control over synthesized motions and contacts. Our experiments demonstrate the superior performance of our approach compared to existing text-to-motion methods, producing stable, contact-aware motion sequences. Code and data will be available for research purposes at https://xymsh.github.io/RICH-CAT/ | 翻訳日:2024-09-18 02:45:24 公開日:2024-09-14 |
# 振幅・周波数制約パルスを用いたデコヒーレンスを考慮したスピン量子の最適制御
Optimal Control of Spin Qudits Subject to Decoherence Using Amplitude-and-Frequency-Constrained Pulses ( http://arxiv.org/abs/2403.15785v2 ) ライセンス: Link先を確認 | Alonso Hernández-Antón, Fernando Luis, Alberto Castro, | (参考訳) 量子最適制御理論(QOCT)は、量子デバイス上での動作を実装する電磁パルスの形状を設計するために用いられる。
非自明な形状の波形を用いることで、ゲートは単色パルスを連結して作られるものよりもはるかに高速にできる。
近年, この手法をシュリンガー方程式でモデル化した分子スピンキューディットの制御に適用し, 脱コヒーレンスの影響を緩和し, 操作を高速化できることを示した[Phys. Rev. Appl. 17, 064028 (2022)]。
しかし、ゲート時間が短いとパルス振幅が大きくなり、実験ではアクセスできない可能性がある。
振幅へのバウンダリの導入は必然的に長い操作時間をもたらし、デコヒーレンスを無視することができない。
本稿では, 最適化プロセスにおけるデコヒーレンスを考慮した制御パルスの設計にリンドブラッド方程式上にQOCTを適用することにより, この手順を改善する方法について検討する。
さらに、波形発生器の典型的な制限である信号の最大振幅と周波数を拘束できる定式化を導入する。
得られたパルスは、様々な目標ゲートと持続時間にわたってシュリンガー方程式を用いて達成したパルスと比較して連続的に操作の忠実性を高め、この手法の柔軟性と堅牢性を示す。
この改善はスピンコヒーレンス時間を短くするほど大きく、T_{2}$である。
Quantum optimal control theory (QOCT) can be used to design the shape of electromagnetic pulses that implement operations on quantum devices. By using non-trivially shaped waveforms, gates can be made significantly faster than those built by concatenating monochromatic pulses. Recently, we applied this technique to the control of molecular spin qudits modelled with Schr\"odinger's equation and showed it can speed up operations, helping mitigate the effects of decoherence [Phys. Rev. Appl. 17, 064028 (2022)]. However, short gate times result in large optimal pulse amplitudes, which may not be experimentally accessible. Introducing bounds to the amplitudes then unavoidably leads to longer operation times, for which decoherence can no longer be neglected. Here, we study how to improve this procedure by applying QOCT on top of Lindblad's equation, to design control pulses accounting for decoherence already in the optimization process. In addition, we introduce a formulation that allows us to bound the maximum amplitude and frequency of the signals, which are the typical limitations of waveform generators. The pulses we obtain consistently enhance operation fidelities compared to those achieved with Schr\"odinger's equation across various target gates and durations, demonstrating the flexibility and robustness of our method. The improvement is larger the shorter the spin coherence time $T_{2}$. | 翻訳日:2024-09-18 02:45:24 公開日:2024-09-14 |
# 直感的スマートコントラクト監査のためのファインチューニングとLCMベースエージェントの併用
Combining Fine-Tuning and LLM-based Agents for Intuitive Smart Contract Auditing with Justifications ( http://arxiv.org/abs/2403.16073v3 ) ライセンス: Link先を確認 | Wei Ma, Daoyuan Wu, Yuqiang Sun, Tianwen Wang, Shangqing Liu, Jian Zhang, Yue Xue, Yang Liu, | (参考訳) スマートコントラクトはEthereumのようなブロックチェーン上に構築された分散アプリケーションである。
近年の研究では、大きな言語モデル(LLM)がスマートコントラクトを監査する可能性があることが示されているが、現状では、GPT-4でさえ30%の精度しか達成できない(決定と正当化が正しければ)。
これは、既製のLLMが主に一般的なテキスト/コードコーパスで事前訓練されており、Solidityスマートコントラクト監査の特定のドメインで微調整されていないためだろう。
本稿では,直感的なスマートコントラクト監査と正当化のための微調整エージェントとLLMベースのエージェントを組み合わせた汎用フレームワークiAuditを提案する。
特にiAuditは、専門家の人間監査官がまず何が間違っているかを理解し、その原因を特定するためのコードの詳細な分析を行うという観察にインスパイアされている。
iAuditは2段階の微調整アプローチを採用しており、まずはディクタモデルをチューニングし、次にReasonerモデルをチューニングして脆弱性の原因を生成する。
しかし、微調整だけでは、脆弱性の最適な原因を正確に特定することの難しさに直面する。
そこで我々はLLMをベースとした2つのエージェントであるRancherとCricを導入し、微調整されたReasonerモデルの出力に基づいて、脆弱性の最も適切な原因を反復的に選択し、議論する。
iAuditを評価するために,iAuditに1,734の正,負のサンプル1,810のバランスデータセットを収集した。
次に、従来の微調整モデル(CodeBERT、GraphCodeBERT、CodeT5、UnixCoder)と比較し、学習ベースのLCM(GPT4、GPT-3.5、CodeLlama-13b/34b)と比較した。
263の実際のスマートコントラクトの脆弱性のデータセットでは、iAuditはF1スコアが91.21%、精度が91.11%に達する。
iAuditが生成した原因は、根本原因と比較して約38%の整合性を達成した。
Smart contracts are decentralized applications built atop blockchains like Ethereum. Recent research has shown that large language models (LLMs) have potential in auditing smart contracts, but the state-of-the-art indicates that even GPT-4 can achieve only 30% precision (when both decision and justification are correct). This is likely because off-the-shelf LLMs were primarily pre-trained on a general text/code corpus and not fine-tuned on the specific domain of Solidity smart contract auditing. In this paper, we propose iAudit, a general framework that combines fine-tuning and LLM-based agents for intuitive smart contract auditing with justifications. Specifically, iAudit is inspired by the observation that expert human auditors first perceive what could be wrong and then perform a detailed analysis of the code to identify the cause. As such, iAudit employs a two-stage fine-tuning approach: it first tunes a Detector model to make decisions and then tunes a Reasoner model to generate causes of vulnerabilities. However, fine-tuning alone faces challenges in accurately identifying the optimal cause of a vulnerability. Therefore, we introduce two LLM-based agents, the Ranker and Critic, to iteratively select and debate the most suitable cause of vulnerability based on the output of the fine-tuned Reasoner model. To evaluate iAudit, we collected a balanced dataset with 1,734 positive and 1,810 negative samples to fine-tune iAudit. We then compared it with traditional fine-tuned models (CodeBERT, GraphCodeBERT, CodeT5, and UnixCoder) as well as prompt learning-based LLMs (GPT4, GPT-3.5, and CodeLlama-13b/34b). On a dataset of 263 real smart contract vulnerabilities, iAudit achieves an F1 score of 91.21% and an accuracy of 91.11%. The causes generated by iAudit achieved a consistency of about 38% compared to the ground truth causes. | 翻訳日:2024-09-18 02:45:24 公開日:2024-09-14 |
# 量子推定によって返されるビット数
Number of bits returned by a quantum estimation ( http://arxiv.org/abs/2403.17345v2 ) ライセンス: Link先を確認 | Xi Lu, Wojciech Górecki, Chiara Macchiavello, Lorenzo Maccone, | (参考訳) 任意の量子推定戦略において、相互情報に2つの上限を与える。
1つ目は、推定装置のいくつかの単純なフーリエ特性に基づいている。
第2は第1の手法を用いて導出されるが、興味深いことに、パラメータのフィッシャー情報にのみ依存するため、量子推定を越えても有効である。
ノイズの存在下での量子位相推定アルゴリズムを特徴付けることにより,これらの境界の有用性を示す。
また、ノイズレスの場合においても、境界の適用を超えて分析を拡張し、この話題に現れる不正確さを明確にし、最適に絡み合った適応戦略について議論する。
We give two upper bounds to the mutual information in arbitrary quantum estimation strategies. The first is based on some simple Fourier properties of the estimation apparatus. The second is derived using the first but, interestingly, depends only on the Fisher information of the parameter, so it is valid even beyond quantum estimation. We illustrate the usefulness of these bounds by characterizing the quantum phase estimation algorithm in the presence of noise. In addition, for the noiseless case, we extend the analysis beyond applying the bound and we discuss the optimal entangled and adaptive strategies, clarifying inaccuracies appearing on this topic in the literature. | 翻訳日:2024-09-18 02:35:35 公開日:2024-09-14 |
# 深層学習の現状と課題
A Survey on State-of-the-art Deep Learning Applications and Challenges ( http://arxiv.org/abs/2403.17561v4 ) ライセンス: Link先を確認 | Mohd Halim Mohd Noor, Ayokunle Olalekan Ige, | (参考訳) ディープラーニング(Deep Learning)は、人工知能の一分野であり、複数の相互接続されたユニット(ニューロン)を用いて、生の入力データから直接複雑なパターンや表現を学習するデータ駆動方式である。
この学習能力を活用して、複雑な問題を解決する強力なツールとなり、多くの画期的な技術やイノベーションの中核を担っている。
ディープラーニングモデルの構築は、アルゴリズムの複雑さと現実世界の問題の動的な性質のため、難しい。
いくつかの研究はディープラーニングの概念と応用をレビューしている。
しかし、この研究は主にディープラーニングモデルと畳み込みニューラルネットワークアーキテクチャのタイプに注目し、最先端のディープラーニングモデルとその異なるドメインにわたる複雑な問題の解決への応用を限定的にカバーした。
そこで,本研究では,コンピュータビジョン,自然言語処理,時系列解析,広範コンピューティングにおける最先端のディープラーニングモデルを網羅的にレビューすることを目的としている。
モデルの主要な特徴と、各ドメイン内の問題を解決する上での有効性を強調します。
さらに,本研究では,深層学習,各種深層学習モデル,および顕著な畳み込みニューラルネットワークアーキテクチャの基礎について述べる。
最後に、ディープラーニング研究における課題と今後の方向性について論じ、将来の研究者に幅広い視点を提供する。
Deep learning, a branch of artificial intelligence, is a data-driven method that uses multiple layers of interconnected units (neurons) to learn intricate patterns and representations directly from raw input data. Empowered by this learning capability, it has become a powerful tool for solving complex problems and is the core driver of many groundbreaking technologies and innovations. Building a deep learning model is challenging due to the algorithm's complexity and the dynamic nature of real-world problems. Several studies have reviewed deep learning concepts and applications. However, the studies mostly focused on the types of deep learning models and convolutional neural network architectures, offering limited coverage of the state-of-the-art deep learning models and their applications in solving complex problems across different domains. Therefore, motivated by the limitations, this study aims to comprehensively review the state-of-the-art deep learning models in computer vision, natural language processing, time series analysis and pervasive computing. We highlight the key features of the models and their effectiveness in solving the problems within each domain. Furthermore, this study presents the fundamentals of deep learning, various deep learning model types and prominent convolutional neural network architectures. Finally, challenges and future directions in deep learning research are discussed to offer a broader perspective for future researchers. | 翻訳日:2024-09-18 02:35:35 公開日:2024-09-14 |
# 人間中心型建設ロボットを目指して--カーペンエント労働者の文脈支援のための強化学習型コンパニオンロボット-
Towards Human-Centered Construction Robotics: A Reinforcement Learning-Driven Companion Robot for Contextually Assisting Carpentry Workers ( http://arxiv.org/abs/2403.19060v3 ) ライセンス: Link先を確認 | Yuning Wu, Jiaying Wei, Jean Oh, Daniel Cardoso Llach, | (参考訳) 動的建設業界では、従来のロボット統合は主に特定のタスクを自動化することに焦点を当てており、建設ワークフローにおける人間の側面の複雑さと多様性を見越すことが多い。
本稿では,建設作業の熟練した性質を尊重しつつ,安全性とワークフローの流布性を高めることを目的として,既存の作業における作業者を支援する「作業仲間ローバー」による人間中心のアプローチを提案する。
我々は,ロボットシステムを大工のフォームワークに導入するための詳細な研究を行い,コンテキスト強化学習(RL)駆動のモジュラーフレームワークを通じて,動的環境における移動性,安全性,快適な作業ロボットコラボレーションを強調するプロトタイプを紹介した。
我々の研究は建設におけるロボットの応用を前進させ、人間を置き換えるのではなく、適応ロボットが支援するコラボレーティブモデルを提案し、対話的で協調的な人間ロボットの労働力の可能性を強調している。
In the dynamic construction industry, traditional robotic integration has primarily focused on automating specific tasks, often overlooking the complexity and variability of human aspects in construction workflows. This paper introduces a human-centered approach with a "work companion rover" designed to assist construction workers within their existing practices, aiming to enhance safety and workflow fluency while respecting construction labor's skilled nature. We conduct an in-depth study on deploying a robotic system in carpentry formwork, showcasing a prototype that emphasizes mobility, safety, and comfortable worker-robot collaboration in dynamic environments through a contextual Reinforcement Learning (RL)-driven modular framework. Our research advances robotic applications in construction, advocating for collaborative models where adaptive robots support rather than replace humans, underscoring the potential for an interactive and collaborative human-robot workforce. | 翻訳日:2024-09-18 02:35:35 公開日:2024-09-14 |
# PET/MRと深部脳代謝・血行動態・灌流ネットワークを併用した再生性疾患診断
Revolutionizing Disease Diagnosis with simultaneous functional PET/MR and Deeply Integrated Brain Metabolic, Hemodynamic, and Perfusion Networks ( http://arxiv.org/abs/2403.20058v2 ) ライセンス: Link先を確認 | Luoyu Wang, Yitian Tao, Qing Yang, Yan Liang, Siwei Liu, Hongcheng Shi, Dinggang Shen, Han Zhang, | (参考訳) 同時機能PET/MR(sf-PET/MR)は、最先端のマルチモーダル・ニューロイメージング技術を示す。
これは、時空間的に共有された代謝活性、神経活動、脳血流(灌流)によって構築された多面脳ネットワークを同時に監視し統合する前例のない機会を提供する。
PET/MRのハードウェアアクセシビリティが不足しているにもかかわらず、科学的/臨床的な価値は、現代のAIベースのPET/MR融合モデルだけでなく、その応用を妨げる。
本研究の目的は, 単調入力(例, PETのみ)を可能とし, マルチモーダルベース精度を向上すると共に, インジェクション中の総合的なsf-PET/MRデータに基づいて訓練された, 臨床的に実現可能なAIベースの疾患診断モデルを開発することである。
そこで本研究では,マルチモーダルなMiXture-of-expertsアライメント・コンストラクションモデルであるMX-ARMを提案する。
モダリティは分離可能で交換可能であり、異なる多層パーセプトロン(「専門家の混合」)を学習可能な重みを通して動的に割り当て、異なるモダリティからそれぞれの表現を学ぶ。
このような設計は、ユニモーダルな状況下でのモデルパフォーマンスを犠牲にしません。
一様性推論の微細な表現を生成しながら、モダリティの固有の複素および非線形関係を完全に活用するために、その後、補助モダリティ(MR)の表現に支配的なモダリティ(eg, PET)をラインアップするモダリティアライメントモジュールを追加する。
また,学習特徴の質を高めるため,マルチモーダルな再構築も実施している。
軽度認知障害診断のための貴重なマルチモーダルsf-PET/MRデータを用いた実験は,本モデルが臨床的に実現可能な精度医療に有効であることを示す。
Simultaneous functional PET/MR (sf-PET/MR) presents a cutting-edge multimodal neuroimaging technique. It provides an unprecedented opportunity for concurrently monitoring and integrating multifaceted brain networks built by spatiotemporally covaried metabolic activity, neural activity, and cerebral blood flow (perfusion). Albeit high scientific/clinical values, short in hardware accessibility of PET/MR hinders its applications, let alone modern AI-based PET/MR fusion models. Our objective is to develop a clinically feasible AI-based disease diagnosis model trained on comprehensive sf-PET/MR data with the power of, during inferencing, allowing single modality input (e.g., PET only) as well as enforcing multimodal-based accuracy. To this end, we propose MX-ARM, a multimodal MiXture-of-experts Alignment and Reconstruction Model. It is modality detachable and exchangeable, allocating different multi-layer perceptrons dynamically ("mixture of experts") through learnable weights to learn respective representations from different modalities. Such design will not sacrifice model performance in uni-modal situation. To fully exploit the inherent complex and nonlinear relation among modalities while producing fine-grained representations for uni-modal inference, we subsequently add a modal alignment module to line up a dominant modality (e.g., PET) with representations of auxiliary modalities (MR). We further adopt multimodal reconstruction to promote the quality of learned features. Experiments on precious multimodal sf-PET/MR data for Mild Cognitive Impairment diagnosis showcase the efficacy of our model toward clinically feasible precision medicine. | 翻訳日:2024-09-18 02:35:35 公開日:2024-09-14 |
# 言語モデルの不確かさ:ランクキャリブレーションによる評価
Uncertainty in Language Models: Assessment through Rank-Calibration ( http://arxiv.org/abs/2404.03163v2 ) ライセンス: Link先を確認 | Xinmeng Huang, Shuo Li, Mengxin Yu, Matteo Sesia, Hamed Hassani, Insup Lee, Osbert Bastani, Edgar Dobriban, | (参考訳) 言語モデル(LM)は、自然言語生成において有望な性能を示している。
しかし、LMはしばしば誤ったあるいは幻覚的な応答を生成するため、与えられた入力に応答する際の不確かさを正しく定量化することが重要である。
プロンプトによって誘発される言語化された自信に加えて、多くの不確実性対策(例えば、意味エントロピー、親和性グラフに基づく尺度)が提案されている。
しかし、これらの測度は大きな違いがあり、異なる範囲(例えば $, $[0,\infty)$ または $[0,1]$)で値を取るため、どのように比較するかは不明である。
本稿では,LMの確実性と信頼性を評価するために,新規で実用的なフレームワークである$Rank$-$Calibration$を開発し,この問題に対処する。
私たちのキーテットは、高い不確実性(または低い信頼)は、平均して世代品質を低下させるべきだ、ということです。
ランクキャリブレーションは、正当性スコア(例えば、ROUGEやMETEOR)のアドホックな二項しきい値を必要とすることなく、この理想的関係からの偏差を原則的に定量化する。
本手法の広範な適用性と粒度の解釈性について実験的に検証した。
Language Models (LMs) have shown promising performance in natural language generation. However, as LMs often generate incorrect or hallucinated responses, it is crucial to correctly quantify their uncertainty in responding to given inputs. In addition to verbalized confidence elicited via prompting, many uncertainty measures ($e.g.$, semantic entropy and affinity-graph-based measures) have been proposed. However, these measures can differ greatly, and it is unclear how to compare them, partly because they take values over different ranges ($e.g.$, $[0,\infty)$ or $[0,1]$). In this work, we address this issue by developing a novel and practical framework, termed $Rank$-$Calibration$, to assess uncertainty and confidence measures for LMs. Our key tenet is that higher uncertainty (or lower confidence) should imply lower generation quality, on average. Rank-calibration quantifies deviations from this ideal relationship in a principled manner, without requiring ad hoc binary thresholding of the correctness score ($e.g.$, ROUGE or METEOR). The broad applicability and the granular interpretability of our methods are demonstrated empirically. | 翻訳日:2024-09-18 02:35:35 公開日:2024-09-14 |
# 顔認識における外部分布データの正確な分類
Accurately Classifying Out-Of-Distribution Data in Facial Recognition ( http://arxiv.org/abs/2404.03876v4 ) ライセンス: Link先を確認 | Gianluca Barone, Aashrit Cunchala, Rudy Nunez, | (参考訳) 標準分類理論は、テストセットとトレーニングセットにおける画像の分布が同一であると仮定する。
残念なことに、現実のシナリオは一般的に、トレーニングディストリビューション('in-distribution')のデータとは異なる、目に見えないデータ('out-of-distriion data')を特徴とします。
この問題は、未表現のグループからのデータが、トレーニングデータの均等な割合を表現せずにテストデータに現れるという社会正義の問題で最も多い。
この結果、モデルが確実に間違った決定と予測を返却する可能性がある。
ニューラルネットワークの性能は、分布外データの複数のデータセットで同時にトレーニングされたときに、分布外データの顔画像を改善することができるか?
本研究では,外周露光モデルを導入し,他の顔画像のデータセットが実装された際にモデルの性能がどう変化するかを検討する。
モデルの精度およびその他の指標は、アウトレイラ露光を適用し、トレーニング可能な重みパラメータを組み込んで、オフレイラ画像へのマシンの重み付けを強化し、異なるクラスラベルの重要性を再重み付けすることで向上することができる。
また,画像のソートや画像特徴による外れ値の決定が,平均画素値のソートよりも指標に影響を及ぼすかどうかを実験したところ,決定的な結果が得られなかった。
私たちの目標は、モデルをより正確にするだけでなく、より広い範囲の画像をスキャンすることで、より公平にすることでした。
また、バランスの取れた特徴を持つより公平なデータセットがモデルの精度に影響を及ぼすかどうかを確認するために、データセットを逆向きにテストしました。
PythonとPytorchパッケージを利用することで、アウトリーチ露光を利用したモデルの方がモデルをより公平にすることができることが分かりました。
Standard classification theory assumes that the distribution of images in the test and training sets are identical. Unfortunately, real-life scenarios typically feature unseen data (''out-of-distribution data") which is different from data in the training distribution(''in-distribution"). This issue is most prevalent in social justice problems where data from under-represented groups may appear in the test data without representing an equal proportion of the training data. This may result in a model returning confidently wrong decisions and predictions. We are interested in the following question: Can the performance of a neural network improve on facial images of out-of-distribution data when it is trained simultaneously on multiple datasets of in-distribution data? We approach this problem by incorporating the Outlier Exposure model and investigate how the model's performance changes when other datasets of facial images were implemented. We observe that the accuracy and other metrics of the model can be increased by applying Outlier Exposure, incorporating a trainable weight parameter to increase the machine's emphasis on outlier images, and by re-weighting the importance of different class labels. We also experimented with whether sorting the images and determining outliers via image features would have more of an effect on the metrics than sorting by average pixel value, and found no conclusive results. Our goal was to make models not only more accurate but also more fair by scanning a more expanded range of images. We also tested the datasets in reverse order to see whether a more fair dataset with balanced features has an effect on the model's accuracy. Utilizing Python and the Pytorch package, we found that models that utilizing outlier exposure could make models more fair. | 翻訳日:2024-09-18 02:35:35 公開日:2024-09-14 |
# SafeGen: テキスト・ツー・イメージモデルにおける性的に明示的なコンテンツ生成の軽減
SafeGen: Mitigating Sexually Explicit Content Generation in Text-to-Image Models ( http://arxiv.org/abs/2404.06666v2 ) ライセンス: Link先を確認 | Xinfeng Li, Yuchen Yang, Jiangyi Deng, Chen Yan, Yanjiao Chen, Xiaoyu Ji, Wenyuan Xu, | (参考訳) テキスト・ツー・イメージ(T2I)モデルは,近年,テキスト記述から高品質な画像を生成する上で,顕著な性能を発揮している。
しかし、テキスト・ツー・イメージ・モデルは、特に性的に明示的なシナリオにおいて、安全でない作業用コンテンツ(NSFW)を生成するために騙される可能性がある。
既存の対策は主に、不適切な入力や出力のフィルタリングや、性的に明示的な内容(例えば裸)をブロックできる不適切なテキスト埋め込みの抑制に重点を置いている。
本稿では,テキスト・ツー・イメージ・モデルによる性的コンテンツ生成をテキストに依存しない方法で緩和するフレームワークであるSafeGenを提案する。
鍵となる考え方は、テキスト入力にかかわらず、モデルから明示的な視覚的表現を取り除くことである。
このようにして、テキスト・ツー・イメージ・モデルは、そのような安全でない視覚表現が内部から妨げられているため、敵のプロンプトに耐性がある。
4つのデータセットと大規模ユーザスタディで実施された大規模な実験は、良性画像の高忠実性を保ちながら、性的に明示的なコンテンツ生成を緩和するSafeGenの有効性を示している。
SafeGenは8つの最先端のベースラインメソッドを上回り、99.4%の性的なコンテンツ削除パフォーマンスを達成している。
さらに,我々の構築した対向的プロンプトのベンチマークは,抗NSFW生成法の開発と評価の基盤となる。
Text-to-image (T2I) models, such as Stable Diffusion, have exhibited remarkable performance in generating high-quality images from text descriptions in recent years. However, text-to-image models may be tricked into generating not-safe-for-work (NSFW) content, particularly in sexually explicit scenarios. Existing countermeasures mostly focus on filtering inappropriate inputs and outputs, or suppressing improper text embeddings, which can block sexually explicit content (e.g., naked) but may still be vulnerable to adversarial prompts -- inputs that appear innocent but are ill-intended. In this paper, we present SafeGen, a framework to mitigate sexual content generation by text-to-image models in a text-agnostic manner. The key idea is to eliminate explicit visual representations from the model regardless of the text input. In this way, the text-to-image model is resistant to adversarial prompts since such unsafe visual representations are obstructed from within. Extensive experiments conducted on four datasets and large-scale user studies demonstrate SafeGen's effectiveness in mitigating sexually explicit content generation while preserving the high-fidelity of benign images. SafeGen outperforms eight state-of-the-art baseline methods and achieves 99.4% sexual content removal performance. Furthermore, our constructed benchmark of adversarial prompts provides a basis for future development and evaluation of anti-NSFW-generation methods. | 翻訳日:2024-09-18 02:35:35 公開日:2024-09-14 |
# NLPにおける幻覚の展望と課題
An Audit on the Perspectives and Challenges of Hallucinations in NLP ( http://arxiv.org/abs/2404.07461v2 ) ライセンス: Link先を確認 | Pranav Narayanan Venkit, Tatiana Chakravorti, Vipul Gupta, Heidi Biggs, Mukund Srinath, Koustava Goswami, Sarah Rajtmajer, Shomir Wilson, | (参考訳) 大規模言語モデル (LLMs) における幻覚は, NLP研究における103の出版物に対する批判的評価を用いて, ピアレビュー文学においてどのように特徴づけられるかを評価する。
文献の検証を通じて,NLP分野における「幻覚」という用語との一致の欠如を同定した。
さらに、監査を補完するため、NLPとAIの分野から171人の実践者との調査を行い、幻覚に関する様々な視点を捉えた。
本分析では,NLPにおける幻覚の具体的定義と枠組みの必要性,潜在的課題の明確化,および社会における幻覚の影響と影響の主題的理解について考察した。
We audit how hallucination in large language models (LLMs) is characterized in peer-reviewed literature, using a critical examination of 103 publications across NLP research. Through the examination of the literature, we identify a lack of agreement with the term `hallucination' in the field of NLP. Additionally, to compliment our audit, we conduct a survey with 171 practitioners from the field of NLP and AI to capture varying perspectives on hallucination. Our analysis calls for the necessity of explicit definitions and frameworks outlining hallucination within NLP, highlighting potential challenges, and our survey inputs provide a thematic understanding of the influence and ramifications of hallucination in society. | 翻訳日:2024-09-18 02:25:37 公開日:2024-09-14 |
# 異常逆転型正則化による破折性オーバーフィッティングの除去
Eliminating Catastrophic Overfitting Via Abnormal Adversarial Examples Regularization ( http://arxiv.org/abs/2404.08154v2 ) ライセンス: Link先を確認 | Runqi Lin, Chaojian Yu, Tongliang Liu, | (参考訳) SSAT(Single-step adversarial training)は、効率性と堅牢性の両方を達成する可能性を実証している。
しかし、SSATは破滅的なオーバーフィッティング(CO)に悩まされており、これは重度に歪んだ分類器に繋がる現象であり、多段階の敵攻撃に対して脆弱である。
そこで本研究では,SSATトレーニングネットワーク上で発生した逆数例は異常な振る舞いを示し,これらのトレーニングサンプルは内部最大化プロセスによって生成されるが,それに伴う損失は減少し,異常逆数例 (AAE) と命名した。
さらに分析した結果,AAE の数と出力は CO の開始と大きく異なるため,AAE と分類器歪みの密接な関係が明らかとなった。
この観察から, SSAT プロセスを再検討し, CO の出現前には, AAE がほとんどないことから, 分類器はわずかに歪みを示していた。
さらに、これらのAEを直接最適化する分類器は歪みを加速し、その結果、AEの変動が急激に増加する。
このような悪循環では、分類器は急速に歪んでいき、数回の反復でCOとして現れる。
これらの観察は、AAEの発生を妨げることでCOを除去する動機となる。
具体的には、AAEの変動を明示的に規則化し、分類器が歪むのを防ぐ新しい手法、AER(Abnormal Adversarial Examples Regularization)を設計する。
大規模実験により,COを効果的に除去し,さらに計算オーバーヘッドを無視して逆方向の堅牢性を高めることができることが示された。
Single-step adversarial training (SSAT) has demonstrated the potential to achieve both efficiency and robustness. However, SSAT suffers from catastrophic overfitting (CO), a phenomenon that leads to a severely distorted classifier, making it vulnerable to multi-step adversarial attacks. In this work, we observe that some adversarial examples generated on the SSAT-trained network exhibit anomalous behaviour, that is, although these training samples are generated by the inner maximization process, their associated loss decreases instead, which we named abnormal adversarial examples (AAEs). Upon further analysis, we discover a close relationship between AAEs and classifier distortion, as both the number and outputs of AAEs undergo a significant variation with the onset of CO. Given this observation, we re-examine the SSAT process and uncover that before the occurrence of CO, the classifier already displayed a slight distortion, indicated by the presence of few AAEs. Furthermore, the classifier directly optimizing these AAEs will accelerate its distortion, and correspondingly, the variation of AAEs will sharply increase as a result. In such a vicious circle, the classifier rapidly becomes highly distorted and manifests as CO within a few iterations. These observations motivate us to eliminate CO by hindering the generation of AAEs. Specifically, we design a novel method, termed Abnormal Adversarial Examples Regularization (AAER), which explicitly regularizes the variation of AAEs to hinder the classifier from becoming distorted. Extensive experiments demonstrate that our method can effectively eliminate CO and further boost adversarial robustness with negligible additional computational overhead. | 翻訳日:2024-09-18 02:25:37 公開日:2024-09-14 |
# コーススキル・アトラス(Course-Skill Atlas):米国の高等教育カリキュラムで教えられたスキルの全国的縦断的データセット
Course-Skill Atlas: A national longitudinal dataset of skills taught in U.S. higher education curricula ( http://arxiv.org/abs/2404.13163v2 ) ライセンス: Link先を確認 | Alireza Javadian Sabet, Sarah H. Bana, Renzhe Yu, Morgan R. Frank, | (参考訳) 高等教育は、労働者が要求する知識と技能を学生に提供することによって、革新的な経済を推進していく上で重要な役割を担っている。
研究者や実践者は、米国労働省(DOL)が確立したような、詳細な職業スキルを追跡するデータシステムを開発しているが、これらのスキルのどれが同様の粒度で高等教育で開発されているかを文書化する努力は、はるかに少ない。
ここでは、このギャップを補うために、コーススキル・アトラス(Course-Skill Atlas)を紹介します。
コーススキル・アトラスを構築するために,DOLが職業を記述するために用いたコースシラビと詳細な職場活動(DWA)のアライメントの定量化に自然言語処理を適用した。
次に、これらのアライメントスコアを集約して、機関や学術専攻のスキルプロファイルを作成します。
我々のデータセットは、学生の労働市場への準備における大学教育の役割を大規模に表している。
全体として、Course-Skill Atlasは、労働開発におけるスキルの源泉に関する新たな研究を可能にし、特に新しい技術に直面する労働需要に対応するために、高等教育の未来を形作るための実用的な洞察を提供する。
Higher education plays a critical role in driving an innovative economy by equipping students with knowledge and skills demanded by the workforce. While researchers and practitioners have developed data systems to track detailed occupational skills, such as those established by the U.S. Department of Labor (DOL), much less effort has been made to document which of these skills are being developed in higher education at a similar granularity. Here, we fill this gap by presenting Course-Skill Atlas -- a longitudinal dataset of skills inferred from over three million course syllabi taught at nearly three thousand U.S. higher education institutions. To construct Course-Skill Atlas, we apply natural language processing to quantify the alignment between course syllabi and detailed workplace activities (DWAs) used by the DOL to describe occupations. We then aggregate these alignment scores to create skill profiles for institutions and academic majors. Our dataset offers a large-scale representation of college education's role in preparing students for the labor market. Overall, Course-Skill Atlas can enable new research on the source of skills in the context of workforce development and provide actionable insights for shaping the future of higher education to meet evolving labor demands, especially in the face of new technologies. | 翻訳日:2024-09-18 02:25:37 公開日:2024-09-14 |
# SPARO: 視覚のためのロバストおよびコンポジショントランスフォーマーエンコーディングのための選択的注意
SPARO: Selective Attention for Robust and Compositional Transformer Encodings for Vision ( http://arxiv.org/abs/2404.15721v2 ) ライセンス: Link先を確認 | Ankit Vani, Bac Nguyen, Samuel Lavoie, Ranjay Krishna, Aaron Courville, | (参考訳) 選択的な注意は、感覚入力の絶え間ない洪水におけるタスク関連側面に焦点を合わせるのに役立ちます。
この知覚の制約は、注意を散らし、知覚可能な概念の新しい構成にしっかりと一般化することを可能にする。
しかし、CLIPやDINOのようなトランスフォーマーバックボーンを持つ表現学習モデルは、堅牢性や構成性を示すのに失敗することが多い。
人間の知覚とは異なり、トランスフォーマーエンコーディングは個々の概念を別々に扱うものではない。
そこで本研究では,SPAROを提案する。SPAROは1つのアテンションヘッドによって生成され,エンコーディングを別個のアテンションスロットに分割する読み出し機構である。
CLIPによるSPAROの使用は、視覚とテキストのモダリティが同じ概念を持つ共有構成世界の異なる視点であることを示す帰納的バイアスを与える。
SPAROを用いて、CLIPによる下流認識、ロバスト性、検索、構成性ベンチマークの改善(ImageNetは+14%、SugarCrepeは+4%)、およびDINOによるImageNetの近接および線形プローブ(+3%)について示す。
また,各SPARO概念に介入して選択し,下流タスク性能(SugarCrepeでは+4%から+9%まで)をさらに向上させ,SPAROの表現構造の堅牢性について検討する強力な能力についても紹介する。
最後に、アブレーション実験と学習概念の可視化を通して洞察を提供する。
Selective attention helps us focus on task-relevant aspects in the constant flood of our sensory input. This constraint in our perception allows us to robustly generalize under distractions and to new compositions of perceivable concepts. Transformers employ a similar notion of attention in their architecture, but representation learning models with transformer backbones like CLIP and DINO often fail to demonstrate robustness and compositionality. We highlight a missing architectural prior: unlike human perception, transformer encodings do not separately attend over individual concepts. In response, we propose SPARO, a read-out mechanism that partitions encodings into separately-attended slots, each produced by a single attention head. Using SPARO with CLIP imparts an inductive bias that the vision and text modalities are different views of a shared compositional world with the same corresponding concepts. Using SPARO, we demonstrate improvements on downstream recognition, robustness, retrieval, and compositionality benchmarks with CLIP (up to +14% for ImageNet, +4% for SugarCrepe), and on nearest neighbors and linear probe for ImageNet with DINO (+3% each). We also showcase a powerful ability to intervene and select individual SPARO concepts to further improve downstream task performance (up from +4% to +9% for SugarCrepe) and use this ability to study the robustness of SPARO's representation structure. Finally, we provide insights through ablation experiments and visualization of learned concepts. | 翻訳日:2024-09-18 02:25:37 公開日:2024-09-14 |
# 条件拡散モデルを用いた3次元医用画像融合と超解像同時処理
Simultaneous Tri-Modal Medical Image Fusion and Super-Resolution using Conditional Diffusion Model ( http://arxiv.org/abs/2404.17357v3 ) ライセンス: Link先を確認 | Yushen Xu, Xiaosong Li, Yuchan Jie, Haishu Tan, | (参考訳) 臨床実践において、既存のデュアルモーダル技術と比較して、トリモーダル医療画像融合は、疾患の形状、位置、生物学的活動を評価するために医師を支援する、より包括的な病変のビューを提供することができる。
しかし, 画像診断装置の限界や患者安全への配慮により, 医用画像の品質が制限され, 術中核融合性能が低下し, 医用画像解析の深度が低下する。
したがって、画像の解像度を向上し、マルチモーダル情報を統合できる技術が緊急に必要となる。
現在の画像処理手法は画像融合と超解像を個別に効果的に扱うことができるが、両問題を同期的に解くことは極めて困難である。
本稿では,3次元医用画像融合と超解像モデルであるTFS-Diffを提案する。
特にTFS-Diffは、ランダム反復復調過程の拡散モデル生成に基づいている。
また, 単純な目的関数と, 提案した核融合超解像損失も開発し, 核融合の不確かさを効果的に評価し, 最適化プロセスの安定性を確保する。
また,複数の画像処理による情報損失を回避し,異なるモダリティの鍵情報を臨床診断に効果的に統合するチャネルアテンションモジュールを提案する。
ハーバード大学のデータセットに関する大規模な実験によると、TFS-Diffは定量評価と視覚評価の両方で既存の最先端の手法を大幅に上回っている。
コードはhttps://github.com/XylonXu01/TFS-Diff}{https://github.com/XylonXu01/TFS-Diffで入手できる。
In clinical practice, tri-modal medical image fusion, compared to the existing dual-modal technique, can provide a more comprehensive view of the lesions, aiding physicians in evaluating the disease's shape, location, and biological activity. However, due to the limitations of imaging equipment and considerations for patient safety, the quality of medical images is usually limited, leading to sub-optimal fusion performance, and affecting the depth of image analysis by the physician. Thus, there is an urgent need for a technology that can both enhance image resolution and integrate multi-modal information. Although current image processing methods can effectively address image fusion and super-resolution individually, solving both problems synchronously remains extremely challenging. In this paper, we propose TFS-Diff, a simultaneously realize tri-modal medical image fusion and super-resolution model. Specially, TFS-Diff is based on the diffusion model generation of a random iterative denoising process. We also develop a simple objective function and the proposed fusion super-resolution loss, effectively evaluates the uncertainty in the fusion and ensures the stability of the optimization process. And the channel attention module is proposed to effectively integrate key information from different modalities for clinical diagnosis, avoiding information loss caused by multiple image processing. Extensive experiments on public Harvard datasets show that TFS-Diff significantly surpass the existing state-of-the-art methods in both quantitative and visual evaluations. Code is available at https://github.com/XylonXu01/TFS-Diff}{https://github.com/XylonXu01/TFS-Diff. | 翻訳日:2024-09-18 02:25:36 公開日:2024-09-14 |
# 非線形システム推定のためのクープマンに基づくディープラーニング
Koopman-based Deep Learning for Nonlinear System Estimation ( http://arxiv.org/abs/2405.00627v2 ) ライセンス: Link先を確認 | Zexin Sun, Mingyu Chen, John Baillieul, | (参考訳) 非線形微分方程式は、流体の流れ、スパイクニューロン、および多くの実世界への関心のモデルとして用いられる。
これらのシステムの一般的な特徴は、それらの振る舞いを正確に記述することが困難であり、常に非モデル化された力学が正確な予測を行う上での課題を示すことである。
本論文では、複素非線形系の有意な有限次元表現を抽出するために、クープマン作用素理論に基づく新しいデータ駆動線形推定器を提案する。
クープマンモデルは、非線形システムの将来の状態を予測するための最適なステップワイズ動作を学ぶための深い強化ネットワークと共に使用される。
我々の推定器は推定された非線形系の微分同相変換にも適応しており、再学習せずに最適な状態推定を計算できる。
Nonlinear differential equations are encountered as models of fluid flow, spiking neurons, and many other systems of interest in the real world. Common features of these systems are that their behaviors are difficult to describe exactly and invariably unmodeled dynamics present challenges in making precise predictions. In this paper, we present a novel data-driven linear estimator based on Koopman operator theory to extract meaningful finite-dimensional representations of complex non-linear systems. The Koopman model is used together with deep reinforcement networks that learn the optimal stepwise actions to predict future states of nonlinear systems. Our estimator is also adaptive to a diffeomorphic transformation of the estimated nonlinear system, which enables it to compute optimal state estimates without re-learning. | 翻訳日:2024-09-18 02:15:45 公開日:2024-09-14 |
# SCAR: 異種マルチチップモジュールアクセラレータ上でのマルチモデルAIワークロードのスケジューリング
SCAR: Scheduling Multi-Model AI Workloads on Heterogeneous Multi-Chiplet Module Accelerators ( http://arxiv.org/abs/2405.00790v2 ) ライセンス: Link先を確認 | Mohanad Odema, Luke Chen, Hyoukjun Kwon, Mohammad Abdullah Al Faruque, | (参考訳) 最近の大規模言語モデルのような重モデルによるマルチモデルワークロードの創出は、ハードウェアにおける計算とメモリの要求を大幅に増加させた。
このような要求に対処するため、スケーラブルなハードウェアアーキテクチャを設計することが重要な問題となった。
最近のソリューションの中で、2.5D Silicon Interposer Multi-chip Module (MCM)ベースのAIアクセラレータは、エンジニアリングコストと構成性に大きなメリットがあるため、有望なスケーラブルなソリューションとして積極的に検討されている。
しかし、従来のMCMアクセラレータは、データフローが固定された均質アーキテクチャをベースとしており、ワークロード適応性に制限があるため、高度に異質なマルチモデルワークロードによる大きな課題に直面している。
そこで本研究では、異種データフローMCMAIアクセラレーターの機会を探究する。
6x6チップレット上の2モデルワークロードであってもO(10^56)に達するという、その重要性とスケールのため、不均一なデータフローMCM AIアクセラレータ上でのマルチモデルワークロードのスケジューリングは重要かつ困難な問題である。
我々は,巨大なスケジューリング空間をナビゲートし,それらをスケジューラであるSCARに符号化するヒューリスティックスを開発した。
データセンターのマルチテナンシとAR/VRのユースケースに対する10のマルチモデルワークロードシナリオに対する評価では,同質のベースラインと比較して平均27.6%,エネルギー遅延生成物(EDP)が29.6%削減された。
Emerging multi-model workloads with heavy models like recent large language models significantly increased the compute and memory demands on hardware. To address such increasing demands, designing a scalable hardware architecture became a key problem. Among recent solutions, the 2.5D silicon interposer multi-chip module (MCM)-based AI accelerator has been actively explored as a promising scalable solution due to their significant benefits in the low engineering cost and composability. However, previous MCM accelerators are based on homogeneous architectures with fixed dataflow, which encounter major challenges from highly heterogeneous multi-model workloads due to their limited workload adaptivity. Therefore, in this work, we explore the opportunity in the heterogeneous dataflow MCM AI accelerators. We identify the scheduling of multi-model workload on heterogeneous dataflow MCM AI accelerator is an important and challenging problem due to its significance and scale, which reaches O(10^56) even for a two-model workload on 6x6 chiplets. We develop a set of heuristics to navigate the huge scheduling space and codify them into a scheduler, SCAR, with advanced techniques such as inter-chiplet pipelining. Our evaluation on ten multi-model workload scenarios for datacenter multitenancy and AR/VR use-cases has shown the efficacy of our approach, achieving on average 27.6% and 29.6% less energy-delay product (EDP) for the respective applications settings compared to homogeneous baselines. | 翻訳日:2024-09-18 02:15:45 公開日:2024-09-14 |
# ShadowNav:ダークネスにおける月面航法のための自律的グローバルローカライゼーション
ShadowNav: Autonomous Global Localization for Lunar Navigation in Darkness ( http://arxiv.org/abs/2405.01673v3 ) ライセンス: Link先を確認 | Deegan Atha, R. Michael Swan, Abhishek Cauligi, Anne Bettens, Edwin Goh, Dima Kogan, Larry Matthies, Masahiro Ono, | (参考訳) 慣性フレームにおけるローバーのポーズを自律的に決定する能力は、他の惑星の天体上での次世代の表面ローバーミッションに必要な重要な能力である。
現在進行中のローバーのミッションでは、ポーズ推定のドリフトを手動で修正するためにグランド・イン・ザ・ループの介入を使用しており、この人間の監督は、ローバーが自律的に操作できる距離をボトルネックにし、科学的な測定を行う。
本稿では,暗闇や夜間の運転に重点を置いた,月面のグローバルローカライゼーションのための自律的アプローチであるShadowNavを紹介する。
我々のアプローチでは、ルナークレーターの先端をランドマークとして使用し、検出されたクレーターと検出されたクレーターをオフボードマップ上の既知のクレーターに関連付けるために粒子フィルタリング手法を用いています。
ステレオカメラと外部照明源を備えたLunarローバーの概念を用いてShadowNavフレームワークを開発する際の重要な設計決定について論じる。
最後に,アリゾナ州シンダーレイクスにおけるフィールドテストにおいて,Lunarシミュレーション環境とデータの両方において提案手法の有効性を実証した。
The ability to determine the pose of a rover in an inertial frame autonomously is a crucial capability necessary for the next generation of surface rover missions on other planetary bodies. Currently, most on-going rover missions utilize ground-in-the-loop interventions to manually correct for drift in the pose estimate and this human supervision bottlenecks the distance over which rovers can operate autonomously and carry out scientific measurements. In this paper, we present ShadowNav, an autonomous approach for global localization on the Moon with an emphasis on driving in darkness and at nighttime. Our approach uses the leading edge of Lunar craters as landmarks and a particle filtering approach is used to associate detected craters with known ones on an offboard map. We discuss the key design decisions in developing the ShadowNav framework for use with a Lunar rover concept equipped with a stereo camera and an external illumination source. Finally, we demonstrate the efficacy of our proposed approach in both a Lunar simulation environment and on data collected during a field test at Cinder Lakes, Arizona. | 翻訳日:2024-09-18 02:15:45 公開日:2024-09-14 |
# リーブ・ロビンソン境界からの遅いハミルトン力学の安定性
Stability of slow Hamiltonian dynamics from Lieb-Robinson bounds ( http://arxiv.org/abs/2405.05958v2 ) ライセンス: Link先を確認 | Daniele Toniolo, Sougato Bose, | (参考訳) 緩やかなハミルトン力学を生じる局所スピン系が、時間に依存する局所摂動に対して安定であることを示す。
これらの摂動の総和は、システムの大きさのかなりの量をカバーできる。
スローダイナミクスの安定性は、全ハミルトニアンの力学に対するリーブ・ロビンソン境界が、非摂動力学のリーブ・ロビンソン境界と、非摂動ハミルトニアンに関する摂動のリーブ・ロビンソン境界から来る追加項の2つの寄与の総和であることの証明から導かれる。
我々の結果は、多体局所系の安定性の研究の文脈において特に関係しており、いわゆるエルゴディック領域が系内に存在する場合、ある距離に広がるには、そのような距離の指数関数に比例する時間を要することを示唆している。
この結果の非摂動的性質は,システムの力学を二重に記述することを可能にする。
その結果、エルゴード系における障害領域の存在は、その領域の近傍におけるダイナミクスの減速を意味することが証明できる。
We rigorously show that a local spin system giving rise to a slow Hamiltonian dynamics is stable against generic, even time-dependent, local perturbations. The sum of these perturbations can cover a significant amount of the system's size. The stability of the slow dynamics follows from proving that the Lieb-Robinson bound for the dynamics of the total Hamiltonian is the sum of two contributions: the Lieb-Robinson bound of the unperturbed dynamics and an additional term coming from the Lieb-Robinson bound of the perturbations with respect to the unperturbed Hamiltonian. Our results are particularly relevant in the context of the study of the stability of Many-Body-Localized systems, implying that if a so called ergodic region is present in the system, to spread across a certain distance it takes a time proportional to the exponential of such distance. The non-perturbative nature of our result allows us to develop a dual description of the dynamics of a system. As a consequence we are able to prove that the presence of a region of disorder in a ergodic system implies the slowing down of the dynamics in the vicinity of that region. | 翻訳日:2024-09-18 02:15:45 公開日:2024-09-14 |
# 量子スパイラル相による電力-露光相互作用
Power-Law-Exponential Interaction Induced Quantum Spiral Phases ( http://arxiv.org/abs/2405.14243v2 ) ライセンス: Link先を確認 | Guoqing Tian, Ying Wu, Xin-You Lü, | (参考訳) 理論的には、1次元導波管QED系における量子エミッタ間のパワー-ラクト-排他的(ple)双極子-双極子相互作用を理論的に予測する。
この非伝統的な長距離相互作用は、パワー・ロー成長と指数的崩壊結合の組み合わせである。
スピンモデルにpleの相互作用を適用することで、豊富な多体相が明らかになる。
最も顕著なことに、ple相互作用は秩序と臨界スパイラル相を誘導することができる。
これらのスパイラル相は、ple相互作用のパワー・ロー因子によって生じる強いフラストレーションから生じるため、純粋な指数的およびパワー・ローの崩壊相互作用のような他の種類の長距離相互作用には欠落している。
我々の研究は高次元システムにも当てはまる。
多体物理学の領域を根本的に拡張し、強い相関性の物質の量子シミュレーションにおいて重要な応用を持つ。
We theoretically predict a kind of power-law-exponential (PLE) dipole-dipole interaction between quantum emitters in a 1D waveguide QED system. This unconventional long-range interaction is the combination of power-law growth and exponential decay couplings. Applying PLE interaction to a spin model, we uncover the rich many-body phases. Most remarkably, we find that PLE interaction can induce the ordered and critical spiral phases. These spiral phases emerge from the strong frustration generated by the power-law factor of PLE interaction, hence they are absent for other types of long-range interaction, e.g., pure exponential and power-law decay interactions. Our work is also applicable for the higher dimensional systems. It fundamentally broadens the realm of many-body physics and has the significant applications in quantum simulation of strong correlated matters. | 翻訳日:2024-09-18 02:05:48 公開日:2024-09-14 |
# PuzzleAvatar:個人アルバムから3Dアバターを組み立てる
PuzzleAvatar: Assembling 3D Avatars from Personal Albums ( http://arxiv.org/abs/2405.14869v2 ) ライセンス: Link先を確認 | Yuliang Xiu, Yufei Ye, Zhen Liu, Dimitrios Tzionas, Michael J. Black, | (参考訳) パーソナライズされた3Dアバターの生成は、AR/VRにとって不可欠である。
しかし、近年では、有名人や架空のキャラクターのアバターを生成するテキスト・ツー・3D手法が日常の人と争っている。
忠実な復元法は通常、コントロールされた設定でフルボディのイメージを必要とする。
もしユーザーが自分の「OOTD(Outfit Of The Day)」写真をアップロードして、その代わりに忠実なアバターをもらえるとしたらどうだろう?
課題は、このようなカジュアルな写真コレクションには、さまざまなポーズ、挑戦的な視点、収穫された視点、そして(一貫した服装、アクセサリー、ヘアスタイルの)隠蔽が含まれていることだ。
本稿では,OOTDアルバムから忠実な3Dアバター(カノニカルポーズ)を生成する新しいモデルであるPuzzleAvatarを開発し,身体とカメラのポーズの難易度を回避しながら,この課題に対処する。
この目的のために、このような写真に基礎となる視覚言語モデル(VLM)を微調整し、人物の外観、アイデンティティ、衣服、髪型、アクセサリーを学習トークン(別個)に符号化し、これらのキューをVLMに注入する。
事実上、学習したトークンを「パズルピース」として活用し、忠実でパーソナライズされた3Dアバターを組み立てる。
重要なのは、トークンを交換するだけでアバターをカスタマイズできることです。
この新しいタスクのベンチマークとして、PuzzleIOIと呼ばれる新しいデータセットを収集し、41人の被験者が合計で1K OOTD構成をしており、対の地上3Dボディを持つ部分的な写真に挑戦している。
PuzzleAvatarは高い再現精度、TeCHとMVDreamBoothを上回っているだけでなく、アルバム写真に特有のスケーラビリティ、強力な堅牢性を持っている。
私たちのコードとデータは、https://puzzleavatar.is.tue.mpg.de/で公開されています。
Generating personalized 3D avatars is crucial for AR/VR. However, recent text-to-3D methods that generate avatars for celebrities or fictional characters, struggle with everyday people. Methods for faithful reconstruction typically require full-body images in controlled settings. What if a user could just upload their personal "OOTD" (Outfit Of The Day) photo collection and get a faithful avatar in return? The challenge is that such casual photo collections contain diverse poses, challenging viewpoints, cropped views, and occlusion (albeit with a consistent outfit, accessories and hairstyle). We address this novel "Album2Human" task by developing PuzzleAvatar, a novel model that generates a faithful 3D avatar (in a canonical pose) from a personal OOTD album, while bypassing the challenging estimation of body and camera pose. To this end, we fine-tune a foundational vision-language model (VLM) on such photos, encoding the appearance, identity, garments, hairstyles, and accessories of a person into (separate) learned tokens and instilling these cues into the VLM. In effect, we exploit the learned tokens as "puzzle pieces" from which we assemble a faithful, personalized 3D avatar. Importantly, we can customize avatars by simply inter-changing tokens. As a benchmark for this new task, we collect a new dataset, called PuzzleIOI, with 41 subjects in a total of nearly 1K OOTD configurations, in challenging partial photos with paired ground-truth 3D bodies. Evaluation shows that PuzzleAvatar not only has high reconstruction accuracy, outperforming TeCH and MVDreamBooth, but also a unique scalability to album photos, and strong robustness. Our code and data are publicly available for research purpose at https://puzzleavatar.is.tue.mpg.de/ | 翻訳日:2024-09-18 02:05:48 公開日:2024-09-14 |
# 量子重力による古典的極限を保存する非局所量子力学
Quantum gravity inspired nonlocal quantum dynamics preserving the classical limit ( http://arxiv.org/abs/2405.15546v2 ) ライセンス: Link先を確認 | Marzena Ciszak, Alessio Belenchia, Antonello Ortolan, Francesco Marino, | (参考訳) 量子重力に対するいくつかのアプローチは、場の力学の非局所的な修正につながる。
これは逆に、非相対論的エネルギーにおける量子力学の非局所的な修正を引き起こす。
ここでは、量子調和振動子の非局所的Schr\"{o}dinger進化を分析し、摂動理論を使わずに問題に対処できる。
標準的な量子予測からの偏差は、高い精度の実験によって検出または制約される可能性のある低い占有数で発生するが、量子確率密度と自由エネルギーの古典的な限界は、非局所性スケールに匹敵するエネルギーの影響を受けないままである。
これらの結果は、古典的な予測と相容れない非局所量子力学の例を示し、量子重力の現象学的側面をテストするための有望な道として巨大な量子オブジェクトを示唆している。
Several approaches to quantum gravity lead to nonlocal modifications of fields' dynamics. This, in turn, can give rise to nonlocal modifications of quantum mechanics at non-relativistic energies. Here, we analyze the nonlocal Schr\"{o}dinger evolution of a quantum harmonic oscillator in one such scenario, where the problem can be addressed without the use of perturbation theory. We demonstrate that although deviations from standard quantum predictions occur at low occupation numbers, where they could potentially be detected or constrained by high-precision experiments, the classical limits of quantum probability densities and free energy remain unaffected up to energies comparable with the nonlocality scale. These results provide an example of nonlocal quantum dynamics compatible with classical predictions, suggesting massive quantum objects as a promising avenue for testing some phenomenological aspects of quantum gravity. | 翻訳日:2024-09-18 02:05:48 公開日:2024-09-14 |
# MCDFN:CNN,LSTM,GRUを統合した説明可能なマルチチャネルデータフュージョンネットワークモデルによるサプライチェーン需要予測
MCDFN: Supply Chain Demand Forecasting via an Explainable Multi-Channel Data Fusion Network Model Integrating CNN, LSTM, and GRU ( http://arxiv.org/abs/2405.15598v3 ) ライセンス: Link先を確認 | Md Abrar Jahin, Asef Shahriar, Md Al Amin, | (参考訳) サプライチェーン管理の最適化には,正確な需要予測が不可欠だ。
伝統的な手法は季節変動や特別な出来事から複雑なパターンを捉えるのに失敗することが多い。
ディープラーニングの進歩にもかかわらず、解釈可能な予測モデルは依然として課題である。
これを解決するために,畳み込みニューラルネットワーク(CNN),長短期記憶ネットワーク(LSTM),GRU(Gated Recurrent Units)を統合するハイブリッドアーキテクチャであるMCDFNを導入し,時系列データから空間的・時間的特徴を抽出して予測性能を向上させる。
MSE(23.5738)、RMSE(4.8553)、MAE(3.9991)、MAPE(20.1575%)である。
さらに、MCDFNの予測は実際の値と統計的に区別できず、5%のp値と10倍の統計ペアt-testで確認された。
解釈可能性を高めるために、ShapTimeやPermutation Feature Importanceのような説明可能なAI技術を適用します。
本研究は,需要予測手法を推進し,MCDFNをサプライチェーンシステムに統合するための実践的ガイドラインを提供する。
Accurate demand forecasting is crucial for optimizing supply chain management. Traditional methods often fail to capture complex patterns from seasonal variability and special events. Despite advancements in deep learning, interpretable forecasting models remain a challenge. To address this, we introduce the Multi-Channel Data Fusion Network (MCDFN), a hybrid architecture that integrates Convolutional Neural Networks (CNN), Long Short-Term Memory networks (LSTM), and Gated Recurrent Units (GRU) to enhance predictive performance by extracting spatial and temporal features from time series data. Our comparative benchmarking demonstrates that MCDFN outperforms seven other deep-learning models, achieving superior metrics: MSE (23.5738), RMSE (4.8553), MAE (3.9991), and MAPE (20.1575%). Additionally, MCDFN's predictions were statistically indistinguishable from actual values, confirmed by a paired t-test with a 5% p-value and a 10-fold cross-validated statistical paired t-test. We apply explainable AI techniques like ShapTime and Permutation Feature Importance to enhance interpretability. This research advances demand forecasting methodologies and offers practical guidelines for integrating MCDFN into supply chain systems, highlighting future research directions for scalability and user-friendly deployment. | 翻訳日:2024-09-18 02:05:48 公開日:2024-09-14 |
# 破滅的オーバーフィッティングの層別解析:擬似ロバスト短絡依存性の解明
Layer-Aware Analysis of Catastrophic Overfitting: Revealing the Pseudo-Robust Shortcut Dependency ( http://arxiv.org/abs/2405.16262v2 ) ライセンス: Link先を確認 | Runqi Lin, Chaojian Yu, Bo Han, Hang Su, Tongliang Liu, | (参考訳) カタストロフィックオーバーフィッティング(CO)は、多段階の敵攻撃に対して脆弱な、高度に歪んだディープニューラルネットワーク(DNN)として、単段階の敵訓練(AT)において重大な課題を呈している。
しかし、決定境界の歪みにつながる根底にある要因はいまだ不明である。
本研究では、異なるDNN層内の特定の変化を探索し、CO中は、前層がより感受性が高く、より早く大きな歪みを経験し、後者層は相対的な感度を示した。
分析の結果,従来のレイヤーの感度向上は,単一段階の敵攻撃に対して防御できるが,真の不正学習を回避できる擬似不正ショートカットの形成に起因していることが明らかとなった。
これらのショートカットの除去は、CO状態からDNNの堅牢性を部分的に復元し、それらへの依存がCOの発生を引き起こすことを確認する。
この理解は、異なる層にまたがる適応的な重み摂動を実装する動機となり、擬似ロバストショートカットの発生を妨げ、結果としてCOを緩和する。
広汎な実験により,提案手法であるLayer-Aware Adversarial Weight Perturbation (LAP) がCOを効果的に防止し,より堅牢性を高めることができることが示された。
Catastrophic overfitting (CO) presents a significant challenge in single-step adversarial training (AT), manifesting as highly distorted deep neural networks (DNNs) that are vulnerable to multi-step adversarial attacks. However, the underlying factors that lead to the distortion of decision boundaries remain unclear. In this work, we delve into the specific changes within different DNN layers and discover that during CO, the former layers are more susceptible, experiencing earlier and greater distortion, while the latter layers show relative insensitivity. Our analysis further reveals that this increased sensitivity in former layers stems from the formation of pseudo-robust shortcuts, which alone can impeccably defend against single-step adversarial attacks but bypass genuine-robust learning, resulting in distorted decision boundaries. Eliminating these shortcuts can partially restore robustness in DNNs from the CO state, thereby verifying that dependence on them triggers the occurrence of CO. This understanding motivates us to implement adaptive weight perturbations across different layers to hinder the generation of pseudo-robust shortcuts, consequently mitigating CO. Extensive experiments demonstrate that our proposed method, Layer-Aware Adversarial Weight Perturbation (LAP), can effectively prevent CO and further enhance robustness. | 翻訳日:2024-09-18 02:05:48 公開日:2024-09-14 |
# Quest:大規模言語モデルの長文スケーリングのためのクエリ中心のデータ合成手法
Quest: Query-centric Data Synthesis Approach for Long-context Scaling of Large Language Model ( http://arxiv.org/abs/2405.19846v3 ) ライセンス: Link先を確認 | Chaochen Gao, Xing Wu, Qi Fu, Songlin Hu, | (参考訳) 大規模な言語モデルは、最初は限られたコンテキスト長で事前訓練され、拡張されたコンテキストを持つコーパスでのトレーニングを継続することで、より長いテキストを扱うことができる。
しかし、複数のドメインにまたがる長文の不足と不均一な分散のため、有効な長文データを取得することは困難である。
この問題に対処するために,クエストと略されるクエリ中心のデータ合成手法を提案する。
Quest(クエスト)は、類似したクエリによって検索された文書は関連性はあるが、低冗長であり、長文データの合成に適しているという観察に基づく解釈可能な手法である。
この方法はスケーラブルで、大量の長文データを構築することができる。
Questを用いてコンテキスト長128kまでの長文データセットを合成し、複数の長文ベンチマークデータセットにおいて、他のデータ合成方法よりも大幅に優れています。
さらに,法実験のスケーリングによってQuest法が予測可能であることを確認する。
Large language models, initially pre-trained with a limited context length, can better handle longer texts by continuing training on a corpus with extended contexts. However, obtaining effective long-context data is challenging due to the scarcity and uneven distribution of long documents across different domains. To address this issue, we propose a Query-centric data synthesis method, abbreviated as Quest. Quest is an interpretable method based on the observation that documents retrieved by similar queries are relevant but low-redundant, thus well-suited for synthesizing long-context data. The method is also scalable and capable of constructing large amounts of long-context data. Using Quest, we synthesize a long-context dataset up to 128k context length, significantly outperforming other data synthesis methods on multiple long-context benchmark datasets. In addition, we further verify that the Quest method is predictable through scaling law experiments, making it a reliable solution for advancing long-context models. | 翻訳日:2024-09-18 02:05:48 公開日:2024-09-14 |
# 宇宙における冷間原子ジャイロスコープの実現
Realization of cold atom gyroscope in space ( http://arxiv.org/abs/2405.20659v2 ) ライセンス: Link先を確認 | Jinting Li, Xi Chen, Danfang Zhang, Wenzhang Wang, Yang Zhou, Meng He, Jie Fang, Lin Zhou, Chuan He, Junjie Jiang, Huanyao Sun, Qunfeng Chen, Lei Qin, Xiao Li, Yibo Wang, Xiaowei Zhang, Jiaqi Zhong, Runbing Li, Meizhen An, Long Zhang, Shuquan Wang, Zongfeng Li, Jin Wang, Mingsheng Zhan, | (参考訳) 宇宙における高精度ジャイロスコープは、基礎物理学の研究とナビゲーションに不可欠である。
その潜在的な高い精度のため、冷たい原子ジャイロスコープは宇宙における次世代のジャイロスコープになると予想されている。
本稿では,中国宇宙ステーション(CSS)に設置した原子干渉計で観測された冷間ジャイロスコープの初号機について報告する。
内蔵圧電鏡を用いてCSSの高ダイナミック回転率を補正することにより、干渉計の空間干渉縞を得ることに成功した。
その後、ラマンレーザーの角度の最適化比が導出され、圧電鏡の係数が軌道上で自己校正され、様々なシステム効果が補正される。
単発では50*10^-6 rad/s、平均32では17*10^-6 rad/sとなる。
測定された回転は (-1142+/-29)*10^-6 rad/s であり、CSSの古典ジャイロスコープが記録したものと互換性がある。
本研究は、宇宙空間における高精度冷間原子ジャイロスコープの開発方法を明らかにする。
High-precision gyroscopes in space are essential for fundamental physics research and navigation. Due to its potential high precision, the cold atom gyroscope is expected to be the next generation of gyroscopes in space. Here, we report the first realization of a cold atom gyroscope, which was demonstrated by the atom interferometer installed in the China Space Station (CSS) as a payload. By compensating for CSS's high dynamic rotation rate using a built-in piezoelectric mirror, spatial interference fringes in the interferometer are successfully obtained. Then, the optimized ratio of the Raman laser's angles is derived, the coefficients of the piezoelectric mirror are self-calibrated in orbit, and various systemic effects are corrected. We achieve a rotation measurement resolution of 50*10^-6 rad/s for a single shot and 17*10^-6 rad/s for an average number of 32. The measured rotation is (-1142+/-29)*10^-6 rad/s and is compatible with that recorded by the classical gyroscope of the CSS. This study paves the way for developing high-precision cold atom gyroscopes in space. | 翻訳日:2024-09-18 02:05:48 公開日:2024-09-14 |
# SAM-LAD: ゼロショット論理異常検出に対応するセグメント任意のモデル
SAM-LAD: Segment Anything Model Meets Zero-Shot Logic Anomaly Detection ( http://arxiv.org/abs/2406.00625v3 ) ライセンス: Link先を確認 | Yun Peng, Xiao Lin, Nachuan Ma, Jiayuan Du, Chuangwei Liu, Chengju Liu, Qijun Chen, | (参考訳) 視覚異常検出は、産業的欠陥検出や診断など、現実世界の応用において不可欠である。
しかし、既存のほとんどの手法は局所的な構造的異常に焦点を当てており、論理的条件下では高レベルの機能的異常を検出することができない。
近年の研究では、論理的異常検出が研究されているが、それらは欠落や追加のような単純な異常にのみ対処でき、データ駆動性が高いため、一般化性に乏しい。
このギャップを埋めるために,任意のシーンにおける論理的異常検出のためのゼロショット・プラグイン・アンド・プレイフレームワークSAM-LADを提案する。
まず,事前学習したバックボーンを用いて,問合せ画像の特徴マップを取得する。
同時に、クエリ画像の近接探索により、参照画像とその対応する特徴マップを検索する。
次に、クエリと参照画像のオブジェクトマスクを取得するために、SAM(Segment Anything Model)を導入する。
各オブジェクトマスクは、画像全体の特徴マップに乗じて、オブジェクトの特徴マップを取得する。
次に,オブジェクトマッチングモデル(OMM)を提案する。
オブジェクトマッチングを容易にするために,各オブジェクトをキーポイントとして扱い,特徴マップを特徴ベクトルに変換する動的チャネルグラフアテンション(DCGA)モジュールを提案する。
最後に、オブジェクトマッチング関係に基づいて、論理異常のあるオブジェクトを検出するために、異常測定モデル(AMM)を提案する。
物体の構造異常も検出できる。
本稿では,産業用データセット (MVTec Loco AD, MVTec AD) や論理用データセット (DigitAnatomy) など,様々なベンチマークを用いてSAM-LADを検証した。
SAM-LADは既存のSoTA法、特に論理異常の検出において優れていた。
Visual anomaly detection is vital in real-world applications, such as industrial defect detection and medical diagnosis. However, most existing methods focus on local structural anomalies and fail to detect higher-level functional anomalies under logical conditions. Although recent studies have explored logical anomaly detection, they can only address simple anomalies like missing or addition and show poor generalizability due to being heavily data-driven. To fill this gap, we propose SAM-LAD, a zero-shot, plug-and-play framework for logical anomaly detection in any scene. First, we obtain a query image's feature map using a pre-trained backbone. Simultaneously, we retrieve the reference images and their corresponding feature maps via the nearest neighbor search of the query image. Then, we introduce the Segment Anything Model (SAM) to obtain object masks of the query and reference images. Each object mask is multiplied with the entire image's feature map to obtain object feature maps. Next, an Object Matching Model (OMM) is proposed to match objects in the query and reference images. To facilitate object matching, we further propose a Dynamic Channel Graph Attention (DCGA) module, treating each object as a keypoint and converting its feature maps into feature vectors. Finally, based on the object matching relations, an Anomaly Measurement Model (AMM) is proposed to detect objects with logical anomalies. Structural anomalies in the objects can also be detected. We validate our proposed SAM-LAD using various benchmarks, including industrial datasets (MVTec Loco AD, MVTec AD), and the logical dataset (DigitAnatomy). Extensive experimental results demonstrate that SAM-LAD outperforms existing SoTA methods, particularly in detecting logical anomalies. | 翻訳日:2024-09-18 02:05:48 公開日:2024-09-14 |
# 階層型Token-Semantic Audio Transformerアーキテクチャを用いたマルチマイクロホン音声認識
Multi-Microphone Speech Emotion Recognition using the Hierarchical Token-semantic Audio Transformer Architecture ( http://arxiv.org/abs/2406.03272v3 ) ライセンス: Link先を確認 | Ohad Cohen, Gershon Hazan, Sharon Gannot, | (参考訳) ほとんどの感情認識システムの性能は、残響によって音声が汚染される現実の状況(「野生」シナリオ)で劣化する。
本研究では,SERアルゴリズムの性能劣化を緩和し,悪条件に対するより堅牢なシステムを構築するための新しい手法について検討する。
これらの課題に対処し、感情分類精度を向上させるために、マルチマイクロホン信号の処理を提案する。
我々は,マルチチャンネルオーディオ入力を処理するために,最先端のトランスフォーマーモデルであるHTS-ATを採用する。
チャネル間の平均メル-スペクトログラムの評価と,パッチ埋め込み表現の要約の2つの戦略を評価する。
我々のマルチマイクロフォンモデルは,実世界の残響環境での試験において,シングルチャネルベースラインと比較して優れた性能を実現する。
The performance of most emotion recognition systems degrades in real-life situations ('in the wild' scenarios) where the audio is contaminated by reverberation. Our study explores new methods to alleviate the performance degradation of SER algorithms and develop a more robust system for adverse conditions. We propose processing multi-microphone signals to address these challenges and improve emotion classification accuracy. We adopt a state-of-the-art transformer model, the HTS-AT, to handle multi-channel audio inputs. We evaluate two strategies: averaging mel-spectrograms across channels and summing patch-embedded representations. Our multi-microphone model achieves superior performance compared to single-channel baselines when tested on real-world reverberant environments. | 翻訳日:2024-09-18 01:55:54 公開日:2024-09-14 |
# GridPE: グリッドセルにインスパイアされたフレームワークでトランスフォーマーの位置エンコーディングを統合する
GridPE: Unifying Positional Encoding in Transformers with a Grid Cell-Inspired Framework ( http://arxiv.org/abs/2406.07049v2 ) ライセンス: Link先を確認 | Boyang Li, Yulin Wu, Nuoxian Huang, Wenjia Zhang, | (参考訳) 空間的位置と関係を理解することは、現代の人工知能システムの基本的能力である。
人間の空間認知からの洞察は、この領域で貴重なガイダンスを提供する。
神経科学的な発見は、距離計算、経路積分、スケール識別を含む空間表現の基本的な神経成分としてのグリッド細胞の役割を強調している。
本稿では,フーリエ解析にインスパイアされた新しい位置符号化方式とグリッドセルに関する計算神経科学の最新知見を紹介する。
格子セルがフーリエ基底関数の和を通じて空間位置を符号化すると仮定すると、内部積計算における格子表現の変換不変性を示す。
さらに,生物効率の原理に基づく多次元ユークリッド空間に対する最適グリッドスケール比を導出する。
これらの計算原理を利用して、高次元空間内の位置を符号化するための、グリッドセルにインスパイアされた位置エンコーディング技術、GridPEを開発した。
GridPEをPraamid Vision Transformerアーキテクチャに統合しました。
我々の理論解析は、GridPEが任意の高次元空間における位置符号化のための統一的なフレームワークを提供することを示している。
実験により、GridPEはトランスフォーマーの性能を著しく向上させ、人工知能システムの設計に神経科学的な洞察を取り入れることの重要性を強調した。
Understanding spatial location and relationships is a fundamental capability for modern artificial intelligence systems. Insights from human spatial cognition provide valuable guidance in this domain. Neuroscientific discoveries have highlighted the role of grid cells as a fundamental neural component for spatial representation, including distance computation, path integration, and scale discernment. In this paper, we introduce a novel positional encoding scheme inspired by Fourier analysis and the latest findings in computational neuroscience regarding grid cells. Assuming that grid cells encode spatial position through a summation of Fourier basis functions, we demonstrate the translational invariance of the grid representation during inner product calculations. Additionally, we derive an optimal grid scale ratio for multi-dimensional Euclidean spaces based on principles of biological efficiency. Utilizing these computational principles, we have developed a Grid-cell inspired Positional Encoding technique, termed GridPE, for encoding locations within high-dimensional spaces. We integrated GridPE into the Pyramid Vision Transformer architecture. Our theoretical analysis shows that GridPE provides a unifying framework for positional encoding in arbitrary high-dimensional spaces. Experimental results demonstrate that GridPE significantly enhances the performance of transformers, underscoring the importance of incorporating neuroscientific insights into the design of artificial intelligence systems. | 翻訳日:2024-09-18 01:55:54 公開日:2024-09-14 |
# Explore-Go: 深層強化学習における一般化のための探索の活用
Explore-Go: Leveraging Exploration for Generalisation in Deep Reinforcement Learning ( http://arxiv.org/abs/2406.08069v2 ) ライセンス: Link先を確認 | Max Weltevrede, Felix Kaubek, Matthijs T. J. Spaan, Wendelin Böhmer, | (参考訳) 強化学習における残りの課題の1つは、一度デプロイされた場合に遭遇する可能性のある新しいシナリオに一般化可能なエージェントを開発することである。
この課題は、エージェントが一定のタスクセットでトレーニングし、新しいタスクに一般化しなければならない、マルチタスク設定で表されることが多い。
近年の研究では, エージェントの一般化性能を高めるために, トレーニング中の探索量の増加を活用できることが示されている。
これは、テスト中に遭遇した状態が実際にトレーニング中に探索できる場合に意味がある。
本稿では,探索が訓練中に明示的に遭遇できない状態への一般化にも有効である理由を直感的に述べる。
さらに,エージェントが訓練する状態の数を増やすことにより,この直感を生かした探索語法を提案する。
Explore-Goはエージェントの開始状態分布を効果的に増加させ、その結果、既存のほとんどのオン・ポリティクスまたはオフ・ポリティクス・強化学習アルゴリズムと併用することができる。
本稿では,本手法が実演環境やProcgenベンチマーク上での一般化性能を向上させることを実証的に示す。
One of the remaining challenges in reinforcement learning is to develop agents that can generalise to novel scenarios they might encounter once deployed. This challenge is often framed in a multi-task setting where agents train on a fixed set of tasks and have to generalise to new tasks. Recent work has shown that in this setting increased exploration during training can be leveraged to increase the generalisation performance of the agent. This makes sense when the states encountered during testing can actually be explored during training. In this paper, we provide intuition why exploration can also benefit generalisation to states that cannot be explicitly encountered during training. Additionally, we propose a novel method Explore-Go that exploits this intuition by increasing the number of states on which the agent trains. Explore-Go effectively increases the starting state distribution of the agent and as a result can be used in conjunction with most existing on-policy or off-policy reinforcement learning algorithms. We show empirically that our method can increase generalisation performance in an illustrative environment and on the Procgen benchmark. | 翻訳日:2024-09-18 01:46:04 公開日:2024-09-14 |
# 変異検査における大規模言語モデルの適用に関する探索的研究
An Exploratory Study on Using Large Language Models for Mutation Testing ( http://arxiv.org/abs/2406.09843v2 ) ライセンス: Link先を確認 | Bo Wang, Mingda Chen, Youfang Lin, Mike Papadakis, Jie M. Zhang, | (参考訳) 突然変異テスト(英: Mutation Testing)は、突然変異として知られる小さな構文変化を自動的にシード化するソフトウェアテスト分野における基礎的なアプローチである。
高能率突然変異をどうやって生成するかという問題は、突然変異検査の文献において重要な課題となっている。
LLM(Large Language Models)は、コードに関連するタスクにおいて大きな可能性を示しているが、突然変異テストにおけるそれらの有用性は未解明のままである。
そこで本研究では,LLMのユーザビリティ,障害検出可能性,実際のバグとの関係について,有効な突然変異を生成するための性能を体系的に検討する。
特に、最先端のオープンソースモデルとクローズドソースモデルの両方を含む6つのLLMと、2つのJavaベンチマーク(Defects4J 2.0の12プロジェクトの605のバグとCondefectsの246のバグ)の実際のバグを含む、大規模な実証研究を行います。
既存のアプローチと比較して、LSMは実際のバグに近い振る舞いをする多様な突然変異を発生し、現在のアプローチよりも約19%高い障害検出(つまり、93%対74%)をもたらす。
それでも、LLMによって生成された変異体は、ルールベースのアプローチによって生成されたものよりも、コンパイル性、無駄な突然変異率、および同等の突然変異率を有する。
また,本研究では,代替のプロンプト技術戦略を検証し,未コンパイル突然変異の根本原因を同定し,変異検査におけるLLMの性能をさらに向上させる知見を提供する。
Mutation testing is a foundation approach in the software testing field, based on automatically seeded small syntactic changes, known as mutations. The question of how to generate high-utility mutations, to be used for testing purposes, forms a key challenge in mutation testing literature. Large Language Models (LLMs) have shown great potential in code-related tasks but their utility in mutation testing remains unexplored. To this end, we systematically investigate the performance of LLMs in generating effective mutations w.r.t. to their usability, fault detection potential, and relationship with real bugs. In particular, we perform a large-scale empirical study involving six LLMs, including both state-of-the-art open- and closed-source models, and 851 real bugs on two Java benchmarks (i.e., 605 bugs from 12 projects of Defects4J 2.0 and 246 bugs of ConDefects). We find that compared to existing approaches, LLMs generate more diverse mutations that are behaviorally closer to real bugs, which leads to approximately 19% higher fault detection than current approaches (i.e., 93% vs. 74%). Nevertheless, the mutants generated by LLMs have worse compilability rate, useless mutation rate, and equivalent mutation rate than those generated by rule-based approaches. This paper also examines alternative prompt engineering strategies and identifies the root causes of uncompilable mutations, providing insights for researchers to further enhance the performance of LLMs in mutation testing. | 翻訳日:2024-09-18 01:46:04 公開日:2024-09-14 |
# 3次元物体検出のためのシェルフスーパービジョンクロスモーダル事前訓練
Shelf-Supervised Cross-Modal Pre-Training for 3D Object Detection ( http://arxiv.org/abs/2406.10115v2 ) ライセンス: Link先を確認 | Mehar Khurana, Neehar Peri, James Hays, Deva Ramanan, | (参考訳) 最先端の3Dオブジェクト検出器は、しばしば大量のラベル付きデータセットで訓練される。
しかし、3Dバウンディングボックスの注釈付けは、特にLiDARにとって、非常に高価で時間を要する。
代わりに、最近の研究はラベル付きデータによる自己教師付き事前トレーニングがラベル付きラベルによる検出精度を向上させることを実証している。
現代の手法は、画像領域から点雲(対照的な学習など)への自己教師型学習のベストプラクティスに適応する。
しかし、公開されている3Dデータセットは、画像ベースの自己教師付き学習で使用されるデータセットよりもかなり小さく、多様性が低いため、その有効性は制限されている。
しかし、このようなデータは自然にマルチモーダルな方法で収集され、しばしば画像と組み合わせられることに留意する。
インターネット規模の画像データに基づいてトレーニングされた画像ベース基盤モデルを用いて、自己管理対象のみを事前学習するよりも、ポイントクラウド表現をブートストラップする方がよい、と我々は主張する。
具体的には,2組のRGBとLiDARデータからゼロショット3Dバウンディングボックスを生成するためのシェルフ管理手法を提案する。
このような擬似ラベルを持つ事前学習された3D検出器は、事前の自己教師付きプリテキストタスクよりも、半教師付き検出精度が大幅に向上する。
重要なことは、画像ベースシェルフスーパービジョンは、LiDARのみおよびマルチモーダル(RGB + LiDAR)検出器のトレーニングに有用であることを示す。
我々はnuScenesとWADに対するアプローチの有効性を実証し、制限されたデータ設定における以前の作業よりも大幅に改善した。
私たちのコードはhttps://github.com/meharkhurana03/cm3dで利用可能です。
State-of-the-art 3D object detectors are often trained on massive labeled datasets. However, annotating 3D bounding boxes remains prohibitively expensive and time-consuming, particularly for LiDAR. Instead, recent works demonstrate that self-supervised pre-training with unlabeled data can improve detection accuracy with limited labels. Contemporary methods adapt best-practices for self-supervised learning from the image domain to point clouds (such as contrastive learning). However, publicly available 3D datasets are considerably smaller and less diverse than those used for image-based self-supervised learning, limiting their effectiveness. We do note, however, that such data is naturally collected in a multimodal fashion, often paired with images. Rather than pre-training with only self-supervised objectives, we argue that it is better to bootstrap point cloud representations using image-based foundation models trained on internet-scale image data. Specifically, we propose a shelf-supervised approach (e.g. supervised with off-the-shelf image foundation models) for generating zero-shot 3D bounding boxes from paired RGB and LiDAR data. Pre-training 3D detectors with such pseudo-labels yields significantly better semi-supervised detection accuracy than prior self-supervised pretext tasks. Importantly, we show that image-based shelf-supervision is helpful for training LiDAR-only and multi-modal (RGB + LiDAR) detectors. We demonstrate the effectiveness of our approach on nuScenes and WOD, significantly improving over prior work in limited data settings. Our code is available at https://github.com/meharkhurana03/cm3d | 翻訳日:2024-09-18 01:46:04 公開日:2024-09-14 |
# NutmegとSPICE:生体分子機械学習のためのモデルとデータ
Nutmeg and SPICE: Models and Data for Biomolecular Machine Learning ( http://arxiv.org/abs/2406.13112v2 ) ライセンス: Link先を確認 | Peter Eastman, Benjamin P. Pritchard, John D. Chodera, Thomas E. Markland, | (参考訳) 機械学習ポテンシャルを学習するための量子化学計算の集合であるSPICEデータセットのバージョン2について述べる。
これは、化学空間のより多くのサンプリングと非共有相互作用に関するより多くのデータを追加することで、元のデータセットを拡張している。
我々は、その上にNutmegと呼ばれるポテンシャルエネルギー関数のセットを訓練する。
これらはTensorNetアーキテクチャに基づいている。
彼らは、電荷と極性分子のパフォーマンスを改善するために新しいメカニズムを使用し、大規模な電荷分布の基準を提供するために、事前計算された部分電荷をモデルに注入した。
新しいモデルの評価は、高電荷の分子やトレーニングセットの分子よりもかなり大きい分子でも、コンフォメーション間のエネルギー差を再現する優れた仕事をしていることを示している。
また、安定な分子動力学軌道も生成し、小さな分子の定期的なシミュレーションに役立つほど高速である。
We describe version 2 of the SPICE dataset, a collection of quantum chemistry calculations for training machine learning potentials. It expands on the original dataset by adding much more sampling of chemical space and more data on non-covalent interactions. We train a set of potential energy functions called Nutmeg on it. They are based on the TensorNet architecture. They use a novel mechanism to improve performance on charged and polar molecules, injecting precomputed partial charges into the model to provide a reference for the large scale charge distribution. Evaluation of the new models shows they do an excellent job of reproducing energy differences between conformations, even on highly charged molecules or ones that are significantly larger than the molecules in the training set. They also produce stable molecular dynamics trajectories, and are fast enough to be useful for routine simulation of small molecules. | 翻訳日:2024-09-18 01:46:04 公開日:2024-09-14 |
# SSA最適化ResNet50-BiGRUモデルに基づく画像異常検出と予測手法
Image anomaly detection and prediction scheme based on SSA optimized ResNet50-BiGRU model ( http://arxiv.org/abs/2406.13987v3 ) ライセンス: Link先を確認 | Qianhui Wan, Zecheng Zhang, Liheng Jiang, Zhaoqi Wang, Yan Zhou, | (参考訳) 画像異常検出は、コンピュータの急速な進歩により近年多くの手法が登場し、人気のある研究方向である。
画像異常検出における人工知能の利用は、広く研究されている。
スポーツ選手の姿勢や動きのイメージを解析することにより、外傷の状態を予測し、必要な調整を提案することができる。
既存のほとんどの方法は、無関係なピクセルデータから情報を抽出するために畳み込みネットワークに依存しており、モデルの精度を制限している。
本稿では,Residual Network(ResNet)とBidirectional Gated Recurrent Unit(BiGRU)を組み合わせたネットワークを提案する。
このネットワークの複雑さに対処するため、Sparrow Searchアルゴリズムが最適化に使われた。
4つのデータセットで行った実験により、我々のモデルは画像異常検出において他のモデルと比較して最小の誤差を持ち、強い適応性を示した。
これにより、画像の異常検出と予測分析のための新しいアプローチが提供され、人間の健康とパフォーマンスの持続的な発展に寄与する。
Image anomaly detection is a popular research direction, with many methods emerging in recent years due to rapid advancements in computing. The use of artificial intelligence for image anomaly detection has been widely studied. By analyzing images of athlete posture and movement, it is possible to predict injury status and suggest necessary adjustments. Most existing methods rely on convolutional networks to extract information from irrelevant pixel data, limiting model accuracy. This paper introduces a network combining Residual Network (ResNet) and Bidirectional Gated Recurrent Unit (BiGRU), which can predict potential injury types and provide early warnings by analyzing changes in muscle and bone poses from video images. To address the high complexity of this network, the Sparrow search algorithm was used for optimization. Experiments conducted on four datasets demonstrated that our model has the smallest error in image anomaly detection compared to other models, showing strong adaptability. This provides a new approach for anomaly detection and predictive analysis in images, contributing to the sustainable development of human health and performance. | 翻訳日:2024-09-18 01:46:04 公開日:2024-09-14 |
# PoseBench: 崩壊時のポース推定モデルのロバスト性をベンチマークする
PoseBench: Benchmarking the Robustness of Pose Estimation Models under Corruptions ( http://arxiv.org/abs/2406.14367v2 ) ライセンス: Link先を確認 | Sihan Ma, Jing Zhang, Qiong Cao, Dacheng Tao, | (参考訳) ポース推定は、ヒトと動物の解剖学的キーポイントをモノクル画像を用いて正確に識別することを目的としており、これは人間と機械の相互作用、具体化AI、自律運転など様々な用途に不可欠である。
現在のモデルは有望な結果を示しているが、それらは典型的にはクリーンなデータでトレーニングされ、テストされる。
この問題に対処するために、実世界の腐敗に対するポーズ推定モデルの堅牢性を評価するために設計された総合的なベンチマークであるPoseBenchを紹介する。
トップダウン,ボトムアップ,ヒートマップベース,レグレッションベース,分類ベースを含む60の代表的なモデルを,ヒトと動物のポーズ推定のための3つのデータセットで評価した。
評価には4つのカテゴリーで10種類の汚職が関係している。
1)ぼやけと騒音
2)圧縮と色損失
3)厳しい照明、そして
4) マスク。
以上の結果から,現状のモデルでは,一般的な現実世界の腐敗に対して脆弱であり,人間と動物のポーズ推定タスクに対処する際,異なる行動を示すことが明らかとなった。
モデルの堅牢性を改善するため、入力解決、事前トレーニングデータセット、バックボーン容量、後処理、データ拡張など、さまざまな設計上の考慮事項を掘り下げる。
当社のベンチマークが、堅牢なポーズ推定研究の基盤になることを期待しています。
ベンチマークとソースコードはhttps://xymsh.github.io/PoseBenchで公開される。
Pose estimation aims to accurately identify anatomical keypoints in humans and animals using monocular images, which is crucial for various applications such as human-machine interaction, embodied AI, and autonomous driving. While current models show promising results, they are typically trained and tested on clean data, potentially overlooking the corruption during real-world deployment and thus posing safety risks in practical scenarios. To address this issue, we introduce PoseBench, a comprehensive benchmark designed to evaluate the robustness of pose estimation models against real-world corruption. We evaluated 60 representative models, including top-down, bottom-up, heatmap-based, regression-based, and classification-based methods, across three datasets for human and animal pose estimation. Our evaluation involves 10 types of corruption in four categories: 1) blur and noise, 2) compression and color loss, 3) severe lighting, and 4) masks. Our findings reveal that state-of-the-art models are vulnerable to common real-world corruptions and exhibit distinct behaviors when tackling human and animal pose estimation tasks. To improve model robustness, we delve into various design considerations, including input resolution, pre-training datasets, backbone capacity, post-processing, and data augmentations. We hope that our benchmark will serve as a foundation for advancing research in robust pose estimation. The benchmark and source code will be released at https://xymsh.github.io/PoseBench | 翻訳日:2024-09-18 01:36:14 公開日:2024-09-14 |
# 大規模言語モデルのためのエンティティ・レベル・アンラーニングの展開:包括的分析
Unveiling Entity-Level Unlearning for Large Language Models: A Comprehensive Analysis ( http://arxiv.org/abs/2406.15796v2 ) ライセンス: Link先を確認 | Weitao Ma, Xiaocheng Feng, Weihong Zhong, Lei Huang, Yangfan Ye, Xiachong Feng, Bing Qin, | (参考訳) 大規模言語モデルのアンラーニングは、セキュリティとプライバシの懸念に対処する可能性から注目を集めており、この分野での広範な研究につながっている。
しかしながら、この研究の多くは、機密コンテンツを含む事前定義されたインスタンスの削除を対象とする、インスタンスレベルの未学習に集中している。
この焦点は、著作権保護のような現実のシナリオにおいて重要な、完全なエンティティレベルのアンラーニングの探究において、大きなギャップを残しています。
そこで本研究では,対象モデルからエンティティ関連知識を完全に消去することを目的とした,エンティティレベルのアンラーニングの新たなタスクを提案する。
この課題を徹底的に検討するため,非学習アルゴリズムのトレンドを体系的に評価し,現在の手法が効果的なエンティティレベルの非学習を実現するのに苦労していることを明らかにする。
次に,未学習アルゴリズムの性能に影響を及ぼす要因について検討し,知識のカバー範囲と無視セットのサイズが重要な役割を担っていることを確認した。
特に、私たちの分析では、微調整によって導入されたエンティティが、事前訓練されたエンティティよりも学習に弱いことも明らかにしています。
これらの知見は、LCMのためのエンティティレベルのアンラーニングを前進させるための貴重な洞察を提供する。
Large language model unlearning has garnered increasing attention due to its potential to address security and privacy concerns, leading to extensive research in the field. However, much of this research has concentrated on instance-level unlearning, specifically targeting the removal of predefined instances containing sensitive content. This focus has left a significant gap in the exploration of full entity-level unlearning, which is critical in real-world scenarios such as copyright protection. To this end, we propose a novel task of Entity-level unlearning, which aims to erase entity-related knowledge from the target model completely. To thoroughly investigate this task, we systematically evaluate trending unlearning algorithms, revealing that current methods struggle to achieve effective entity-level unlearning. Then, we further explore the factors that influence the performance of the unlearning algorithms, identifying that knowledge coverage and the size of the forget set play pivotal roles. Notably, our analysis also uncovers that entities introduced through fine-tuning are more vulnerable to unlearning than pre-trained entities. These findings collectively offer valuable insights for advancing entity-level unlearning for LLMs. | 翻訳日:2024-09-18 01:36:14 公開日:2024-09-14 |
# 強度パレート進化アルゴリズム(SPEA2)の初走行時間解析
A First Running Time Analysis of the Strength Pareto Evolutionary Algorithm 2 (SPEA2) ( http://arxiv.org/abs/2406.16116v2 ) ライセンス: Link先を確認 | Shengjie Ren, Chao Bian, Miqing Li, Chao Qian, | (参考訳) 進化的アルゴリズム(EA)は、多目的最適化問題に対処する主要なアプローチとして登場した。
しかし、多目的EA(MOEA)の理論的基盤、特に実行時間分析のような基本的な側面は、いまだほとんど探索されていない。
既存の理論研究は主に基本的なMOEAに焦点を当てており、実際的なMOEAにはほとんど注目されていない。
本稿では,Pareto進化アルゴリズム2(SPEA2)の動作時間解析を初めて行う。
具体的には、一般的に使用される3つの多目的問題(例えば$m$OneMinMax, $m$LeadingOnesTrailingZeroes, $m$-OneJumpZeroJump)を解決するためのSPEA2の実行時間は、$O(\mu n\cdot \min\{m\log n, n\})$, $O(\mu n^2)$, $O(\mu n^k \cdot \min\{mn, 3^{m/2}\})$である。
ここで$m$は目的数を表し、人口規模$\mu$は少なくとも$(2n/m+1)^{m/2}$、$(2n/m+1)^{m-1}$、$(2n/m-2k+3)^{m/2}$でなければならない。
これらの証明は、これらの問題に関して他のMOEAの期待される実行時間を分析するのにも適用できる一般的な定理によって達成され、MOEAの将来の理論的解析に役立つ。
Evolutionary algorithms (EAs) have emerged as a predominant approach for addressing multi-objective optimization problems. However, the theoretical foundation of multi-objective EAs (MOEAs), particularly the fundamental aspects like running time analysis, remains largely underexplored. Existing theoretical studies mainly focus on basic MOEAs, with little attention given to practical MOEAs. In this paper, we present a running time analysis of strength Pareto evolutionary algorithm 2 (SPEA2) for the first time. Specifically, we prove that the expected running time of SPEA2 for solving three commonly used multi-objective problems, i.e., $m$OneMinMax, $m$LeadingOnesTrailingZeroes, and $m$-OneJumpZeroJump, is $O(\mu n\cdot \min\{m\log n, n\})$, $O(\mu n^2)$, and $O(\mu n^k \cdot \min\{mn, 3^{m/2}\})$, respectively. Here $m$ denotes the number of objectives, and the population size $\mu$ is required to be at least $(2n/m+1)^{m/2}$, $(2n/m+1)^{m-1}$ and $(2n/m-2k+3)^{m/2}$, respectively. The proofs are accomplished through general theorems which are also applicable for analyzing the expected running time of other MOEAs on these problems, and thus can be helpful for future theoretical analysis of MOEAs. | 翻訳日:2024-09-18 01:36:14 公開日:2024-09-14 |
# ロバスト音声認識のためのクロスモーダルアテンションを用いたビデオ時間ダイナミクスの学習
Learning Video Temporal Dynamics with Cross-Modal Attention for Robust Audio-Visual Speech Recognition ( http://arxiv.org/abs/2407.03563v2 ) ライセンス: Link先を確認 | Sungnyun Kim, Kangwook Jang, Sangmin Bae, Hoirin Kim, Se-Young Yun, | (参考訳) 音声-視覚音声認識(AVSR)は、音声とビデオの両方のモダリティを用いて人間の音声を転写することを目的としている。
音声がノイズを発生させる現実的な環境では,映像情報の役割が重要となる。
しかし、以前の研究は主にAVSRにおける音声機能の向上に焦点を当てており、ビデオ機能の重要性を見越している。
本研究では,映像データ中の3つの時間的ダイナミクス(文脈順,再生方向,映像フレームの速度)を学習することにより,映像の特徴を強化する。
ビデオの時間的ダイナミクスのトレーニングにおいて、音声の可変性を考慮に入れられるように、音声情報で映像特徴を豊かにするクロスモーダルアテンションモジュールが導入された。
提案手法により,ノイズ優先設定のためのRS2およびRS3 AVSRベンチマークの最先端性能を実現する。
提案手法は特にバブルと音声雑音のシナリオにおいて優れており,ビデオモダリティにおける唇の動きと認識すべき音声信号の識別能力を示している。
本稿では,時間的ダイナミクス損失に対するアブレーション実験と,モーダル・アテンション・アーキテクチャの設計を提供することで,方法論の有効性を実証する。
Audio-visual speech recognition (AVSR) aims to transcribe human speech using both audio and video modalities. In practical environments with noise-corrupted audio, the role of video information becomes crucial. However, prior works have primarily focused on enhancing audio features in AVSR, overlooking the importance of video features. In this study, we strengthen the video features by learning three temporal dynamics in video data: context order, playback direction, and the speed of video frames. Cross-modal attention modules are introduced to enrich video features with audio information so that speech variability can be taken into account when training on the video temporal dynamics. Based on our approach, we achieve the state-of-the-art performance on the LRS2 and LRS3 AVSR benchmarks for the noise-dominant settings. Our approach excels in scenarios especially for babble and speech noise, indicating the ability to distinguish the speech signal that should be recognized from lip movements in the video modality. We support the validity of our methodology by offering the ablation experiments for the temporal dynamics losses and the cross-modal attention architecture design. | 翻訳日:2024-09-18 01:36:14 公開日:2024-09-14 |
# AIのように見える: LLMがWikipediaの中立性をいかに適用(そして不適切な)するか
Seeing Like an AI: How LLMs Apply (and Misapply) Wikipedia Neutrality Norms ( http://arxiv.org/abs/2407.04183v3 ) ライセンス: Link先を確認 | Joshua Ashkinaze, Ruijia Guan, Laura Kurek, Eytan Adar, Ceren Budak, Eric Gilbert, | (参考訳) 大規模言語モデル(LLM)は広義のコーパスで訓練され、特殊な規範を持つコミュニティで使用される。
LLMにコミュニティルールを提供することは、モデルがこれらの規範に従うのに十分なのだろうか?
LLMの検知能力(Task)を評価する。
1)と正しい(Task)
2)ウィキペディアのニュートラル・ポイント・オブ・ビュー(NPOV)ポリシーに従って、バイアス付きのウィキペディア編集を行う。
LLMはバイアス検出に苦労し、バランスの取れたデータセットでは64%の精度しか達成できなかった。
モデルは対照的なバイアス(過大な予測バイアスなど)を示し、中立性に関する明確な先行を示唆した。
LLMは世代によって改善され、ウィキペディアの編集者によって削除された単語の79%が削除された。
しかし、LLMsはウィキペディアのエディターの単純な中性化以外の追加変更を行い、高速で精度の低い編集が可能になった。
興味深いことに、クラウドワーカーたちは、AIの書き直しをWikipediaの編集者による書き直しよりも中立的(70%)で流動的(61%)と評価した。
質的な分析により、LLMはウィキペディアの編集者よりも包括的にNPOVを適用したことがあるが、文法のような非NPOV関連の変更がしばしば行われた。
LLMは、一般市民と共鳴するが、コミュニティの専門家と異なる方法で規則を適用することができる。
LLMは生成に有効な可能性があるが、エディターエージェンシーを減らし、モデレーション作業量を増やす可能性がある(例えば、追加の検証)。
ルールが分かりやすくても、LSMを適用することは、コミュニティメンバーのように難しいかもしれません。
Large language models (LLMs) are trained on broad corpora and then used in communities with specialized norms. Is providing LLMs with community rules enough for models to follow these norms? We evaluate LLMs' capacity to detect (Task 1) and correct (Task 2) biased Wikipedia edits according to Wikipedia's Neutral Point of View (NPOV) policy. LLMs struggled with bias detection, achieving only 64% accuracy on a balanced dataset. Models exhibited contrasting biases (some under- and others over-predicted bias), suggesting distinct priors about neutrality. LLMs performed better at generation, removing 79% of words removed by Wikipedia editors. However, LLMs made additional changes beyond Wikipedia editors' simpler neutralizations, resulting in high-recall but low-precision editing. Interestingly, crowdworkers rated AI rewrites as more neutral (70%) and fluent (61%) than Wikipedia-editor rewrites. Qualitative analysis found LLMs sometimes applied NPOV more comprehensively than Wikipedia editors but often made extraneous non-NPOV-related changes (such as grammar). LLMs may apply rules in ways that resonate with the public but diverge from community experts. While potentially effective for generation, LLMs may reduce editor agency and increase moderation workload (e.g., verifying additions). Even when rules are easy to articulate, having LLMs apply them like community members may still be difficult. | 翻訳日:2024-09-18 01:26:30 公開日:2024-09-14 |
# ディープラーニングによるコンピュータネットワークの異常検出とログ解析
Deep Learning-based Anomaly Detection and Log Analysis for Computer Networks ( http://arxiv.org/abs/2407.05639v2 ) ライセンス: Link先を確認 | Shuzhan Wang, Ruxue Jiang, Zhaoqi Wang, Yan Zhou, | (参考訳) ネットワークセキュリティの分野で重要なトピックであるコンピュータネットワーク異常検出とログ解析は,ネットワークセキュリティとシステムの信頼性を確保する上で重要な課題である。
まず、既存のネットワーク異常検出およびログ解析手法は、高次元データと複雑なネットワークトポロジによってしばしば挑戦され、不安定な性能と高い偽陽性率をもたらす。
さらに,従来の手法では時系列データの扱いが困難であり,異常検出やログ解析に欠かせない。
したがって、これらの問題に対処するためには、より効率的かつ正確な方法が必要である。
現状の手法の欠点を補うために,GAN(Generative Adversarial Network)とTransformer(Transformer)を統合した新しい融合モデルを提案し,それぞれがユニークな役割を担っている。
分離フォレストは異常なデータポイントを素早く識別するために使用され、GANは実際のデータ分散特性を持つ合成データを生成するために使用され、Transformerは時系列データに基づくモデリングとコンテキスト抽出に使用される。
これら3つのコンポーネントの相乗効果により、異常検出およびログ解析タスクにおいて、我々のモデルはより正確で堅牢になる。
本研究では,この融合モデルの有効性を実験的に検証した。
実験結果から,本モデルは誤報率を低減しつつ,異常検出の精度を著しく向上し,ネットワークの潜在的な問題を事前に検出するのに役立つことがわかった。
このモデルはログ解析タスクでもうまく機能し、異常な振る舞いを素早く識別することができ、システムの安定性を向上させるのに役立ちます。
本研究の意義は,異常検出とログ解析を行う先進的な深層学習技術を導入することである。
Computer network anomaly detection and log analysis, as an important topic in the field of network security, has been a key task to ensure network security and system reliability. First, existing network anomaly detection and log analysis methods are often challenged by high-dimensional data and complex network topologies, resulting in unstable performance and high false-positive rates. In addition, traditional methods are usually difficult to handle time-series data, which is crucial for anomaly detection and log analysis. Therefore, we need a more efficient and accurate method to cope with these problems. To compensate for the shortcomings of current methods, we propose an innovative fusion model that integrates Isolation Forest, GAN (Generative Adversarial Network), and Transformer with each other, and each of them plays a unique role. Isolation Forest is used to quickly identify anomalous data points, and GAN is used to generate synthetic data with the real data distribution characteristics to augment the training dataset, while the Transformer is used for modeling and context extraction on time series data. The synergy of these three components makes our model more accurate and robust in anomaly detection and log analysis tasks. We validate the effectiveness of this fusion model in an extensive experimental evaluation. Experimental results show that our model significantly improves the accuracy of anomaly detection while reducing the false alarm rate, which helps to detect potential network problems in advance. The model also performs well in the log analysis task and is able to quickly identify anomalous behaviors, which helps to improve the stability of the system. The significance of this study is that it introduces advanced deep learning techniques, which work anomaly detection and log analysis. | 翻訳日:2024-09-18 01:26:30 公開日:2024-09-14 |
# 深部ニューラルネットワークのグラフ展開と拡張限界
Graph Expansions of Deep Neural Networks and their Universal Scaling Limits ( http://arxiv.org/abs/2407.08459v4 ) ライセンス: Link先を確認 | Nicola Muca Cirone, Jad Hamdan, Cristopher Salvi, | (参考訳) 本稿では,乱数行列理論からの属拡大手法を用いて,ニューラルネットワークのスケーリング限界を求める統一的な手法を提案する。
このアプローチは、ODE のブッチャー級数に類似したニューラルネットワークの新たな拡張から始まり、ファ=ア・ディ・ブルーノの公式を任意の数の合成に一般化することで得られる。
この拡張において、単項写像の役割は、辺がランダム行列に対応する有向グラフによってインデックス付けされた無作為な多重線型写像によって演じられ、これは作用素グラフと呼ばれる。
この拡張は活性化関数の効果を線形化し、各項の期待値を計算するウィックの原理を直接適用することができる。
次に、対応するグラフを曲面に埋め込み、それらのオイラー特性を計算することによって、各項への主要な寄与を決定する。
さらに、解析演算とグラフィカル演算の対応性を開発することにより、ニューラルネットワークの入力出力ジャコビアンと同様のグラフ展開を求め、その無限幅限界を相対的容易性で導出する。
特に、ジャコビアンの極限特異値分布のモーメントに対する明示的な公式が見つかる。
すると、これらの結果は、モーメント仮定を満たすエントリ、複素行列、スパース行列など、より一般的な重みを持つネットワークに対して成り立つことを示す。
We present a unified approach to obtain scaling limits of neural networks using the genus expansion technique from random matrix theory. This approach begins with a novel expansion of neural networks which is reminiscent of Butcher series for ODEs, and is obtained through a generalisation of Fa\`a di Bruno's formula to an arbitrary number of compositions. In this expansion, the role of monomials is played by random multilinear maps indexed by directed graphs whose edges correspond to random matrices, which we call operator graphs. This expansion linearises the effect of the activation functions, allowing for the direct application of Wick's principle to compute the expectation of each of its terms. We then determine the leading contribution to each term by embedding the corresponding graphs onto surfaces, and computing their Euler characteristic. Furthermore, by developing a correspondence between analytic and graphical operations, we obtain similar graph expansions for the neural tangent kernel as well as the input-output Jacobian of the original neural network, and derive their infinite-width limits with relative ease. Notably, we find explicit formulae for the moments of the limiting singular value distribution of the Jacobian. We then show that all of these results hold for networks with more general weights, such as general matrices with i.i.d. entries satisfying moment assumptions, complex matrices and sparse matrices. | 翻訳日:2024-09-18 01:26:30 公開日:2024-09-14 |
# 密度連想記憶におけるロバスト性の改善とハイパーパラメータ選択
Improved Robustness and Hyperparameter Selection in the Dense Associative Memory ( http://arxiv.org/abs/2407.08742v3 ) ライセンス: Link先を確認 | Hayden McAlister, Anthony Robins, Lech Szymanski, | (参考訳) Dense Associative Memoryは、よりシャープな相互作用関数を可能にすることでホップフィールドネットワークを一般化する。
これにより、近くの学習されたアトラクションが互いに干渉しないため、自己連想記憶としてのネットワークの容量が増大する。
しかし、ネットワークの実装は、メモリベクトルとプローブベクトルのドット積に大きな指数を適用することに依存している。
データの次元が大きければ、計算は非常に大きくなり、実用的な実装で浮動小数点数を使用する場合、不正確さやオーバーフローが発生する。
計算問題を詳細に記述し、元のネットワーク記述を変更して問題を緩和し、更新やトレーニング中にネットワークのダイナミクスを変更しないことを示す。
我々はまた、Dense Associative Memoryのハイパーパラメータ選択を大幅に改善し、相互作用頂点への依存をなくし、元のネットワークのように相互作用頂点に大きく変化しない最適なハイパーパラメータ領域が得られることを示した。
The Dense Associative Memory generalizes the Hopfield network by allowing for sharper interaction functions. This increases the capacity of the network as an autoassociative memory as nearby learned attractors will not interfere with one another. However, the implementation of the network relies on applying large exponents to the dot product of memory vectors and probe vectors. If the dimension of the data is large the calculation can be very large and result in imprecisions and overflow when using floating point numbers in a practical implementation. We describe the computational issues in detail, modify the original network description to mitigate the problem, and show the modification will not alter the networks' dynamics during update or training. We also show our modification greatly improves hyperparameter selection for the Dense Associative Memory, removing dependence on the interaction vertex and resulting in an optimal region of hyperparameters that does not significantly change with the interaction vertex as it does in the original network. | 翻訳日:2024-09-18 01:26:30 公開日:2024-09-14 |
# コントラスト学習による映像からの視覚的ロバストな敵対的模倣学習
Visually Robust Adversarial Imitation Learning from Videos with Contrastive Learning ( http://arxiv.org/abs/2407.12792v2 ) ライセンス: Link先を確認 | Vittorio Giammarino, James Queeney, Ioannis Ch. Paschalidis, | (参考訳) C-LAIfOは、エージェントとエキスパートドメイン間の視覚的ミスマッチの存在下で、ビデオから学習を模倣するために設計された、計算効率の良いアルゴリズムである。
視覚的不一致を伴う専門家ビデオからの模倣の問題を解析し、コントラスト学習とデータ拡張を用いた頑健な潜在空間推定のためのソリューションを提案する。
視覚的に頑健な潜伏空間を与えるため,我々のアルゴリズムは,非政治的対向的模倣学習を用いて,この空間内で完全に模倣を行う。
我々は,高次元連続ロボット作業におけるC-LAIfOの設計と試験を正当化するために,徹底的なアブレーション研究を行っている。
さらに,C-LAIfOを他の報奨信号と組み合わせて,難易度の高い手操作タスクの学習を容易にする方法を示す。
実験の結果,C-LAIfOの有効性が示された。
再現性を確保するため、コードをオープンソースにしています。
We propose C-LAIfO, a computationally efficient algorithm designed for imitation learning from videos in the presence of visual mismatch between agent and expert domains. We analyze the problem of imitation from expert videos with visual discrepancies, and introduce a solution for robust latent space estimation using contrastive learning and data augmentation. Provided a visually robust latent space, our algorithm performs imitation entirely within this space using off-policy adversarial imitation learning. We conduct a thorough ablation study to justify our design and test C-LAIfO on high-dimensional continuous robotic tasks. Additionally, we demonstrate how C-LAIfO can be combined with other reward signals to facilitate learning on a set of challenging hand manipulation tasks with sparse rewards. Our experiments show improved performance compared to baseline methods, highlighting the effectiveness of C-LAIfO. To ensure reproducibility, we open source our code. | 翻訳日:2024-09-18 01:26:30 公開日:2024-09-14 |
# LAMBDA: 大規模モデルベースデータエージェント
LAMBDA: A Large Model Based Data Agent ( http://arxiv.org/abs/2407.17535v2 ) ライセンス: Link先を確認 | Maojun Sun, Ruijian Han, Binyan Jiang, Houduo Qi, Defeng Sun, Yancheng Yuan, Jian Huang, | (参考訳) 本稿では,LArge Model Based Data Agent (LAMBDA)を紹介する。
LAMBDAは、自然言語を用いて反復的で生成的に動作する革新的なデータエージェントによって、複雑なデータ駆動アプリケーションにおけるデータ分析の課題に対処するように設計されている。
LAMBDAの中核には、プログラマとインスペクタという、2つの重要なエージェントの役割がある。
具体的には、高度なモデルによって強化された、ユーザの指示とドメイン固有の知識に基づいて、プログラマがコードを生成する。
一方、インスペクタは必要に応じてコードをデバッグする。
堅牢性を確保し、有害なシナリオに対処するため、LAMBDAは運用ループに直接ユーザーを介入できるユーザインターフェースを備えている。
さらに、LAMBDAは、我々の提案した知識統合メカニズムを通じて、外部モデルとアルゴリズムを柔軟に統合することができ、カスタマイズされたデータ分析の必要性に対応できる。
LAMBDAは様々なデータ分析タスクで強いパフォーマンスを示している。
それは、人間と人工知能をシームレスに統合することによって、データ分析のパラダイムを強化する可能性を秘めている。
データ解析問題の解決におけるLAMBDAの強い性能は、実世界のデータ例を用いて実証されている。
いくつかのケーススタディのビデオはhttps://xxxlambda.github.io/lambda_webpageで公開されている。
We introduce LArge Model Based Data Agent (LAMBDA), a novel open-source, code-free multi-agent data analysis system that leverages the power of large models. LAMBDA is designed to address data analysis challenges in complex data-driven applications through innovatively designed data agents that operate iteratively and generatively using natural language. At the core of LAMBDA are two key agent roles: the programmer and the inspector, which are engineered to work together seamlessly. Specifically, the programmer generates code based on the user's instructions and domain-specific knowledge, enhanced by advanced models. Meanwhile, the inspector debugs the code when necessary. To ensure robustness and handle adverse scenarios, LAMBDA features a user interface that allows direct user intervention in the operational loop. Additionally, LAMBDA can flexibly integrate external models and algorithms through our proposed Knowledge Integration Mechanism, catering to the needs of customized data analysis. LAMBDA has demonstrated strong performance on various data analysis tasks. It has the potential to enhance data analysis paradigms by seamlessly integrating human and artificial intelligence, making it more accessible, effective, and efficient for users from diverse backgrounds. The strong performance of LAMBDA in solving data analysis problems is demonstrated using real-world data examples. Videos of several case studies are available at https://xxxlambda.github.io/lambda_webpage. | 翻訳日:2024-09-18 01:16:44 公開日:2024-09-14 |
# ファインマン経路積分に基づく量子光コヒーレンス理論
Quantum optical coherence theory based on Feynman's path integral ( http://arxiv.org/abs/2407.18478v2 ) ライセンス: Link先を確認 | Jianbin Liu, Yu Zhou, Hui Chen, Huaibin Zheng, Yuchen He, Fuli Li, Zhuo Xu, | (参考訳) Maxwell\rq{} の電磁理論に基づく古典的光コヒーレンス理論や、量子力学の行列力学の定式化に基づくGlauber\rq{} の量子コヒーレンス理論と比較すると、Feynman\rq{} の量子力学の経路積分の定式化に基づく量子光学コヒーレンス理論は、光コヒーレンスを研究する新しいツールを提供する。
数学的計算と物理解釈の関連性を理解する利点がある。
本稿では、Feynman\rq{}の経路積分に基づく量子光コヒーレンス理論を導入し、レビューする。
2つの独立した光の過渡的な1次干渉の結果から、古典光学教科書で導入された熱光の電界の古典的モデルが正確でないと予測される。
熱光の2光子束と絡み合った光子対のHong-Ou-Mandelディップの物理は、それぞれ構成的および破壊的な2光子干渉によって解釈できる。
Feynman\rq{}の経路積分に基づく量子光コヒーレンス理論は光のコヒーレンス特性を理解するのに役立つ。
Compared to classical optical coherence theory based on Maxwell\rq{}s electromagnetic theory and Glauber\rq{}s quantum optical coherence theory based on matrix mechanics formulation of quantum mechanics, quantum optical coherence theory based on Feynman\rq{}s path integral formulation of quantum mechanics provides a novel tool to study optical coherence. It has the advantage of understanding the connection between mathematical calculations and physical interpretations better. Quantum optical coherence theory based on Feynman\rq{}s path integral is introduced and reviewed in this paper. Based on the results of transient first-order interference of two independent light beams, it is predicted that the classical model for electric field of thermal light introduced by classical optical textbooks may not be accurate. The physics of two-photon bunching of thermal light and Hong-Ou-Mandel dip of entangled photon pairs is the same, which can be interpreted by constructive and destructive two-photon interference, respectively. Quantum optical coherence theory based on Feynman\rq{}s path integral is helpful to understand the coherence properties of light, which may eventually lead us to the answer of the question: what is a photon? | 翻訳日:2024-09-18 01:16:44 公開日:2024-09-14 |
# 外部磁場中における量子高調波発振器の複雑さ
Complexity of Quantum Harmonic Oscillator in External Magnetic Field ( http://arxiv.org/abs/2407.18631v2 ) ライセンス: Link先を確認 | V. Avramov, M. Radomirov, R. C. Rashkov, T. Vetsov, | (参考訳) 本稿では,外部磁場を受ける量子調和振動子の回路複雑性について検討する。
温度場力学(TFD)フレームワークにおけるNielsenのアプローチを用いて、温度場二重状態の複雑さを時間、温度、外部磁場の関数として決定する。
以下の分析により、この複雑さの様々な特徴が明らかになる。
例えば、温度が上がると、複雑さの振動の振幅も上昇し、低温では、複雑性は一定の正の値で安定化する。
さらに、磁場は2つの異なるセクターを生成し、強磁場は周期的な複雑さの振動を示す。
最後に、複雑性の速度がロイド境界に従うことを確認する。
In this paper, we investigate the circuit complexity of a quantum harmonic oscillator subjected to an external magnetic field. Utilizing the Nielsen approach within the thermofield dynamics (TFD) framework, we determine the complexity of thermofield double states as functions of time, temperature, and the external magnetic field. Our subsequent analysis reveals various features of this complexity. For instance, as temperature increases, the amplitude of complexity oscillations also rises, while at low temperatures, complexity stabilizes at a constant positive value. Furthermore, the magnetic field creates two distinct sectors: strong magnetic fields exhibit periodic complexity oscillations, whereas weak magnetic fields induce a beating effect. Finally, we confirm that the rate of complexity obeys the Lloyd bound. | 翻訳日:2024-09-18 01:16:44 公開日:2024-09-14 |
# MSP-MVS: 誘導型マルチビューステレオ以前の多粒度セグメンテーション
MSP-MVS: Multi-granularity Segmentation Prior Guided Multi-View Stereo ( http://arxiv.org/abs/2407.19323v3 ) ライセンス: Link先を確認 | Zhenlong Yuan, Cong Liu, Fei Shen, Zhaoxin Li, Tianlu Mao, Zhaoqi Wang, | (参考訳) MVSにおけるテクスチャレス領域の再構築は、固定パッチ内での信頼性の高いピクセル対応が欠如しているため、課題となる。
特定の方法は受容場を拡張するためにパッチ変形を用いるが、それらのパッチは誤って深度不連続な領域を計算するために深度エッジをスキップし、あいまいさを引き起こす。
その結果,Multi-granularity Segmentation Prior Multi-View Stereo (MSP-MVS)を導入した。
具体的には、まず、均一領域におけるパッチ変形を抑制するために、多重粒度深度エッジを統合することで、多重粒度セグメンテーションを提案する。
さらに,同種領域の適切なカバレッジを確保するために,より均一に分散されたアンカーを用いた変形パッチを提供するアンカー分布について述べる。
さらに、スパース代表候補を持つより大きなパッチを表すために、反復的な局所探索最適化を導入し、各パッチの表現能力を大幅に向上させる。
ETH3D と Tanks & Temples ベンチマークの最先端結果から,提案手法の有効性とロバストな一般化能力が示された。
Reconstructing textureless areas in MVS poses challenges due to the absence of reliable pixel correspondences within fixed patch. Although certain methods employ patch deformation to expand the receptive field, their patches mistakenly skip depth edges to calculate areas with depth discontinuity, thereby causing ambiguity. Consequently, we introduce Multi-granularity Segmentation Prior Multi-View Stereo (MSP-MVS). Specifically, we first propose multi-granularity segmentation prior by integrating multi-granularity depth edges to restrict patch deformation within homogeneous areas. Moreover, we present anchor equidistribution that bring deformed patches with more uniformly distributed anchors to ensure an adequate coverage of their own homogeneous areas. Furthermore, we introduce iterative local search optimization to represent larger patch with sparse representative candidates, significantly boosting the expressive capacity for each patch. The state-of-the-art results on ETH3D and Tanks & Temples benchmarks demonstrate the effectiveness and robust generalization ability of our proposed method. | 翻訳日:2024-09-18 01:16:44 公開日:2024-09-14 |
# 大規模言語モデルを自動抑うつ分類のための3モードアーキテクチャに統合する
Integrating Large Language Models into a Tri-Modal Architecture for Automated Depression Classification ( http://arxiv.org/abs/2407.19340v3 ) ライセンス: Link先を確認 | Santosh V. Patapati, | (参考訳) メジャー・うつ病(Major Depressive Disorder、MDD)は、世界中の3億人に影響を及ぼす広汎な精神疾患である。
本研究は, 臨床面接記録からのうつ病のバイナリ分類のための, BiLSTM に基づくトリモーダルモデルレベルの融合アーキテクチャを提案する。
提案アーキテクチャでは、Mel Frequency Cepstral Coefficients, Facial Action Unitsを組み込み、2ショット学習に基づくGPT-4モデルを用いてテキストデータを処理する。
これは、このタスクのために、大規模な言語モデルをマルチモーダルアーキテクチャに組み込む最初の作業である。
DAIC-WOZ AVEC 2016 Challenge cross-validation splitとLeave-One-Subject-Out cross-validation splitは、すべてのベースラインモデルと複数の最先端モデルを上回っている。
Leave-One-Subject-Outテストでは91.01%の精度、F1スコア85.95%の精度、80%の精度、92.86%のリコールを達成した。
Major Depressive Disorder (MDD) is a pervasive mental health condition that affects 300 million people worldwide. This work presents a novel, BiLSTM-based tri-modal model-level fusion architecture for the binary classification of depression from clinical interview recordings. The proposed architecture incorporates Mel Frequency Cepstral Coefficients, Facial Action Units, and uses a two-shot learning based GPT-4 model to process text data. This is the first work to incorporate large language models into a multi-modal architecture for this task. It achieves impressive results on the DAIC-WOZ AVEC 2016 Challenge cross-validation split and Leave-One-Subject-Out cross-validation split, surpassing all baseline models and multiple state-of-the-art models. In Leave-One-Subject-Out testing, it achieves an accuracy of 91.01%, an F1-Score of 85.95%, a precision of 80%, and a recall of 92.86%. | 翻訳日:2024-09-18 01:16:44 公開日:2024-09-14 |
# 多原子分子のツイスト電子衝突弾性断面積:全活性電子マルチセンターアプローチ
Twisted electron impact elastic cross sections of polyatomic molecules: All active electron multicentered approach ( http://arxiv.org/abs/2407.19801v3 ) ライセンス: Link先を確認 | Raul Sheldon Pinto, Rakesh Choubisa, | (参考訳) ツイスト電子ビーム(ベッセルビーム)衝突による多原子分子の絶対弾性微分・積分断面積の方法論と計算に、CO_2$を例に挙げる。
ターゲット分子は相関整合4重ゼータ基底 cc-pVQZ を持つ多重中心波動関数を用いてモデル化され、Hartree-Fock Coupled Cluster CCSD法により最適化される。
電子密度は空間座標の関数として得られ、分子内の全ての電子の活性な役割を考慮しつつ、弾性的なフォームファクターを計算するために用いられる。
クーロン直接ポテンシャルは、入射ビームと第1ボルン近似における全ての電子と核との相互作用に使用される。
実験条件を模倣するために, 差動断面の配向平均化を行う。
断面は300eVから1keVまでの中間エネルギーで計算される。
提案手法はどんな多原子分子にも適用できる。
ベッセルビーム(ツイスト電子ビーム)と位相電荷$m_l$ = 1, 2, 3の相互作用を解析した。
また、ビームと多数の逆分散分子との相互作用を表す差分断断面積の平均的オーバーインパクトパラメータについて検討し、提示した。
最後に、平面波とツイストビームによる分子の積分弾性断面積(ICS)を計算し、提示する。
The methodology and computation of absolute elastic differential and integral (total) cross-sections of polyatomic molecules by twisted electron beam (Bessel Beam) impact is presented with $CO_2$ as an example. The target molecule is modeled using multicentered wavefunctions with the correlation consistent quadruple zeta basis set cc-pVQZ and optimized by the post-Hartree-Fock Coupled Cluster CCSD method. The electron density is obtained as a function of spatial coordinates and is used to calculate the elastic form factor while considering the active role of all electrons in the molecule. Coulomb direct potentials are used for the interactions of the incident beam with all electrons and nuclei in the First Born Approximation. Orientation averaging of the differential cross-section is performed to mimic experimental situations. The cross sections are calculated at intermediate energies ranging from 300eV to 1keV. The proposed methodology could be applied to any polyatomic molecule. The interactions of Bessel beams (Twisted Electron Beam) with topological charges $m_l$ = 1, 2, and 3 are analyzed. The average over-impact parameters of the differential cross-sections representing the beam's interaction with a large number of uniformly transversely distributed molecules are also studied and presented. Finally, the molecules' Integral elastic cross-section (ICS) by plane waves and twisted beams is calculated and presented. | 翻訳日:2024-09-18 01:16:44 公開日:2024-09-14 |
# オープンウェイトLLMのタンパ抵抗保護
Tamper-Resistant Safeguards for Open-Weight LLMs ( http://arxiv.org/abs/2408.00761v3 ) ライセンス: Link先を確認 | Rishub Tamirisa, Bhrugu Bharathi, Long Phan, Andy Zhou, Alice Gatti, Tarun Suresh, Maxwell Lin, Justin Wang, Rowan Wang, Ron Arel, Andy Zou, Dawn Song, Bo Li, Dan Hendrycks, Mantas Mazeika, | (参考訳) 大規模言語モデル(LLM)の能力の急速な進歩は、悪意のある使用の可能性について、広く懸念されている。
オープンウェイト LLM は、モデルウェイトを変更する攻撃に対して、既存のセーフガードには堅牢性がないため、ユニークな課題を呈している。
例えば、最近の研究は、いくつかの微調整のステップで、拒否と未学習の保護を自明に除去できることを実証している。
これらの脆弱性は、オープンウェイト LLM の安全なリリースを可能にするための新しいアプローチを必要とする。
我々は,数千歩の微調整の後にも,敵が保護を除去できないような,タンパ耐性の保護具をオープンウェイトLLMに組み込む方法TARを開発した。
広汎な評価とレッド・チームリング分析において,本手法は良識を保ちながらタンパー抵抗を大幅に改善することがわかった。
以上の結果から, タンパー抵抗性はトラクタブルな問題であり, オープンウェイトLLMの安全性と安全性を向上させるために, 将来性のある新たな道を開くことが示唆された。
Rapid advances in the capabilities of large language models (LLMs) have raised widespread concerns regarding their potential for malicious use. Open-weight LLMs present unique challenges, as existing safeguards lack robustness to tampering attacks that modify model weights. For example, recent works have demonstrated that refusal and unlearning safeguards can be trivially removed with a few steps of fine-tuning. These vulnerabilities necessitate new approaches for enabling the safe release of open-weight LLMs. We develop a method, called TAR, for building tamper-resistant safeguards into open-weight LLMs such that adversaries cannot remove the safeguards even after thousands of steps of fine-tuning. In extensive evaluations and red teaming analyses, we find that our method greatly improves tamper-resistance while preserving benign capabilities. Our results demonstrate that tamper-resistance is a tractable problem, opening up a promising new avenue to improve the safety and security of open-weight LLMs. | 翻訳日:2024-09-18 01:06:42 公開日:2024-09-14 |
# $\varepsilon$-Constrained Optimization を用いた画像間生成モデルの制御可能なアンラーニング
Controllable Unlearning for Image-to-Image Generative Models via $\varepsilon$-Constrained Optimization ( http://arxiv.org/abs/2408.01689v2 ) ライセンス: Link先を確認 | Xiaohua Feng, Chaochao Chen, Yuyuan Li, Li Zhang, | (参考訳) 近年、生成モデルは大きな進歩を遂げているが、プライバシー侵害や偏見といった懸念も持ち上がっている。
機械学習は、特定のトレーニングデータ、例えばプライベート情報とバイアスを含むデータをモデルから削除することを目的とした、実行可能なソリューションとして登場した。
本稿では,イメージ・ツー・イメージ(I2I)生成モデルにおける機械学習問題について検討する。
従来の研究は主に、単独の目的最適化問題として扱い、孤独なソリューションを提供することで、完全な未学習とモデルユーティリティのトレードオフに対する様々なユーザの期待を無視していた。
この問題に対処するために、制御係数$\varepsilon$を用いてトレードオフを制御する制御可能なアンラーニングフレームワークを提案する。
我々は、I2I生成モデルの未学習問題を$\varepsilon$-constrained optimization問題に再構成し、非学習境界に対する最適解を求める勾配法を用いて解決する。
これらの境界は、制御係数の有効な範囲を定義する。
この範囲内では、すべての帰納解は理論上パレート最適性によって保証される。
また,フレームワークの収束速度を様々な制御関数で解析する。
主要な3つのI2Iモデルにまたがる2つのベンチマークデータセットに対する大規模な実験は、制御不能なアンラーニングフレームワークの有効性を実証している。
While generative models have made significant advancements in recent years, they also raise concerns such as privacy breaches and biases. Machine unlearning has emerged as a viable solution, aiming to remove specific training data, e.g., containing private information and bias, from models. In this paper, we study the machine unlearning problem in Image-to-Image (I2I) generative models. Previous studies mainly treat it as a single objective optimization problem, offering a solitary solution, thereby neglecting the varied user expectations towards the trade-off between complete unlearning and model utility. To address this issue, we propose a controllable unlearning framework that uses a control coefficient $\varepsilon$ to control the trade-off. We reformulate the I2I generative model unlearning problem into a $\varepsilon$-constrained optimization problem and solve it with a gradient-based method to find optimal solutions for unlearning boundaries. These boundaries define the valid range for the control coefficient. Within this range, every yielded solution is theoretically guaranteed with Pareto optimality. We also analyze the convergence rate of our framework under various control functions. Extensive experiments on two benchmark datasets across three mainstream I2I models demonstrate the effectiveness of our controllable unlearning framework. | 翻訳日:2024-09-18 01:06:42 公開日:2024-09-14 |
# 多視点画像からの特徴量によるニューラルサーフェス再構成の改良
Improving Neural Surface Reconstruction with Feature Priors from Multi-View Image ( http://arxiv.org/abs/2408.02079v2 ) ライセンス: Link先を確認 | Xinlin Ren, Chenjie Cao, Yanwei Fu, Xiangyang Xue, | (参考訳) ニューラルサーフェス・コンストラクション(NSR)の最近の進歩は、ボリュームレンダリングと組み合わせることで、マルチビュー・コンストラクションを著しく改善している。
しかし、画像空間における光度整合性のみに依存することは、オクルージョンや非ランベルト面を含む実世界のデータによって引き起こされる複雑さに対処できない。
これらの課題に対処するために,様々な視覚的タスクから価値ある特徴を活用し,現在の制約を克服することを目的とした,特徴レベルの一貫した損失の調査を提案する。
NSRの強化に最も効果的な視覚的タスクを決定するのに、既存のギャップがあることに注意する必要がある。
本研究では,13の手法からなる7つの前文視覚課題から,多視点特徴を包括的に探索する。
我々の主な目標は、幅広い可能性を考慮してNSRトレーニングを強化することです。
さらに,NSRの性能向上のための効果的な戦略について考察し,画素単位でもパッチ的にも一貫した損失も評価する。
MVSFormer と QuadTree の事前学習表現を組み込むことで,MVS-NeuS と Match-NeuS のバリエーションを生成することができる。
DTUとEPFLのデータセットを用いて分析した結果,画像マッチングやマルチビューステレオによる特徴が,他のプリテキストタスクよりも優れていたことが判明した。
さらに,パッチワイド光度一貫性を機能レベルに拡張することで,画素ワイドアプローチの性能を上回ることが判明した。
これらの知見は,NSR成績の向上におけるこれらの手法の有効性を裏付けるものである。
Recent advancements in Neural Surface Reconstruction (NSR) have significantly improved multi-view reconstruction when coupled with volume rendering. However, relying solely on photometric consistency in image space falls short of addressing complexities posed by real-world data, including occlusions and non-Lambertian surfaces. To tackle these challenges, we propose an investigation into feature-level consistent loss, aiming to harness valuable feature priors from diverse pretext visual tasks and overcome current limitations. It is crucial to note the existing gap in determining the most effective pretext visual task for enhancing NSR. In this study, we comprehensively explore multi-view feature priors from seven pretext visual tasks, comprising thirteen methods. Our main goal is to strengthen NSR training by considering a wide range of possibilities. Additionally, we examine the impact of varying feature resolutions and evaluate both pixel-wise and patch-wise consistent losses, providing insights into effective strategies for improving NSR performance. By incorporating pre-trained representations from MVSFormer and QuadTree, our approach can generate variations of MVS-NeuS and Match-NeuS, respectively. Our results, analyzed on DTU and EPFL datasets, reveal that feature priors from image matching and multi-view stereo outperform other pretext tasks. Moreover, we discover that extending patch-wise photometric consistency to the feature level surpasses the performance of pixel-wise approaches. These findings underscore the effectiveness of these techniques in enhancing NSR outcomes. | 翻訳日:2024-09-18 01:06:42 公開日:2024-09-14 |
# LLaVA-OneVision: 簡単なビジュアルタスク転送
LLaVA-OneVision: Easy Visual Task Transfer ( http://arxiv.org/abs/2408.03326v2 ) ライセンス: Link先を確認 | Bo Li, Yuanhan Zhang, Dong Guo, Renrui Zhang, Feng Li, Hao Zhang, Kaichen Zhang, Yanwei Li, Ziwei Liu, Chunyuan Li, | (参考訳) LLaVA-OneVisionは、LLaVA-NeXTブログシリーズにおいて、データ、モデル、視覚表現に関する洞察を集約して開発されたオープンな大規模マルチモーダルモデル(LMM)のファミリーである。
実験の結果、LLaVA-OneVisionは、オープンLMMの性能境界を3つの重要なコンピュータビジョンシナリオ(シングルイメージ、マルチイメージ、ビデオシナリオ)で同時に押し上げることができる最初の単一モデルであることがわかった。
重要なのは、LLaVA-OneVisionの設計により、さまざまなモダリティ/シナリオをまたいだ強力なトランスファー学習が可能となり、新たな能力が得られることだ。
特に、画像からビデオへのタスク転送を通じて、強力なビデオ理解とクロスシナリオ機能を示す。
We present LLaVA-OneVision, a family of open large multimodal models (LMMs) developed by consolidating our insights into data, models, and visual representations in the LLaVA-NeXT blog series. Our experimental results demonstrate that LLaVA-OneVision is the first single model that can simultaneously push the performance boundaries of open LMMs in three important computer vision scenarios: single-image, multi-image, and video scenarios. Importantly, the design of LLaVA-OneVision allows strong transfer learning across different modalities/scenarios, yielding new emerging capabilities. In particular, strong video understanding and cross-scenario capabilities are demonstrated through task transfer from images to videos. | 翻訳日:2024-09-18 01:06:42 公開日:2024-09-14 |
# レジリエントかつ効率的なLCMを目指して:効率性, 性能, 対向ロバスト性の比較研究
Towards Resilient and Efficient LLMs: A Comparative Study of Efficiency, Performance, and Adversarial Robustness ( http://arxiv.org/abs/2408.04585v3 ) ライセンス: Link先を確認 | Xiaojing Fan, Chunliang Tao, | (参考訳) LLM(Large Language Models)の実用的応用に対する需要が高まっているため、性能と計算コストのバランスをとるために多くの注意効率の高いモデルが開発されている。
しかし、これらのモデルの敵対的堅牢性はいまだ探索されていない。
本研究では, LLMの効率性, 性能, 対向ロバスト性の間のトレードオフを調査し, GLUEデータセットとAdvGLUEデータセットを利用して, トランスフォーマー++, Gated Linear Attention (GLA) Transformer, MatMul-Free LMという, 様々な複雑さと効率のレベルを持つ3つの顕著なモデルの広範な実験を行うフレームワークを設計する。
AdvGLUEデータセットはGLUEデータセットを拡張し、モデルの堅牢性に挑戦するために設計された逆サンプルを使用する。
その結果,GLA Transformer と MatMul-Free LM は GLUE タスクではわずかに精度が低いが,AdvGLUE タスクでは,異なる攻撃レベルにおける Transformer++ と比較して高い効率と高いロバスト性を示した。
これらの発見は、効率性、パフォーマンス、および敵の堅牢性の間の説得力のあるバランスを達成するために単純化されたアーキテクチャの可能性を強調し、敵の攻撃に対するリソースの制約とレジリエンスが重要となるアプリケーションに貴重な洞察を提供する。
With the increasing demand for practical applications of Large Language Models (LLMs), many attention-efficient models have been developed to balance performance and computational cost. However, the adversarial robustness of these models remains under-explored. In this work, we design a framework to investigate the trade-off between efficiency, performance, and adversarial robustness of LLMs and conduct extensive experiments on three prominent models with varying levels of complexity and efficiency -- Transformer++, Gated Linear Attention (GLA) Transformer, and MatMul-Free LM -- utilizing the GLUE and AdvGLUE datasets. The AdvGLUE dataset extends the GLUE dataset with adversarial samples designed to challenge model robustness. Our results show that while the GLA Transformer and MatMul-Free LM achieve slightly lower accuracy on GLUE tasks, they demonstrate higher efficiency and either superior or comparative robustness on AdvGLUE tasks compared to Transformer++ across different attack levels. These findings highlight the potential of simplified architectures to achieve a compelling balance between efficiency, performance, and adversarial robustness, offering valuable insights for applications where resource constraints and resilience to adversarial attacks are critical. | 翻訳日:2024-09-18 00:56:51 公開日:2024-09-14 |
# AI駆動のJavaパフォーマンステスト - 結果品質とテスト時間とのバランス
AI-driven Java Performance Testing: Balancing Result Quality with Testing Time ( http://arxiv.org/abs/2408.05100v2 ) ライセンス: Link先を確認 | Luca Traini, Federico Di Menna, Vittorio Cortellessa, | (参考訳) パフォーマンステストは、ソフトウェアシステムの効率性の問題を明らかにすることを目的としている。
効果的かつ実用的なものにするためには、パフォーマンステストの設計は結果の品質とテスト時間の間の合理的なトレードオフを達成しなければなりません。
これは、ジャスト・イン・タイムのコンパイルのため、ソフトウェアが実行のウォームアップフェーズを行うJavaコンテキストで特に困難になる。
この段階では、性能測定は厳しい変動を受け、性能試験結果の品質に悪影響を及ぼす可能性がある。
しかしながら、これらのアプローチは、しばしばウォームアップフェーズの最適以下の見積もりを提供し、結果として不十分または過剰なウォームアップイテレーションが生まれ、結果の品質を低下させるか、テスト時間を増加させる可能性がある。
この問題に適切に対処する方法についてはまだ合意が得られていない。
本稿では,実行時のウォームアップイテレーションを動的に停止するAIベースのフレームワークを提案し,検討する。
具体的には、テスト実行中のウォームアップフェーズの終了を予測するために、最近のAI for Time Series Classification(TSC)を活用している。
JMHマイクロベンチマークの実行から得られた50万の計測セグメントに対して、3つの異なるTSCモデルをトレーニングして実験を行う。
その結果,我々のフレームワークは,最先端および最先端の手法によって提供されるウォームアップ推定の精度を著しく向上させることがわかった。
この高い推定精度により、マイクロベンチマークの最大+35.3%の結果品質またはテスト時間が純改善される。
我々の研究は、ウォームアップフェーズの終了を動的に推定するためにAIを統合することで、Javaのパフォーマンステストのコスト効率が向上することを示した。
Performance testing aims at uncovering efficiency issues of software systems. In order to be both effective and practical, the design of a performance test must achieve a reasonable trade-off between result quality and testing time. This becomes particularly challenging in Java context, where the software undergoes a warm-up phase of execution, due to just-in-time compilation. During this phase, performance measurements are subject to severe fluctuations, which may adversely affect quality of performance test results. However, these approaches often provide suboptimal estimates of the warm-up phase, resulting in either insufficient or excessive warm-up iterations, which may degrade result quality or increase testing time. There is still a lack of consensus on how to properly address this problem. Here, we propose and study an AI-based framework to dynamically halt warm-up iterations at runtime. Specifically, our framework leverages recent advances in AI for Time Series Classification (TSC) to predict the end of the warm-up phase during test execution. We conduct experiments by training three different TSC models on half a million of measurement segments obtained from JMH microbenchmark executions. We find that our framework significantly improves the accuracy of the warm-up estimates provided by state-of-practice and state-of-the-art methods. This higher estimation accuracy results in a net improvement in either result quality or testing time for up to +35.3% of the microbenchmarks. Our study highlights that integrating AI to dynamically estimate the end of the warm-up phase can enhance the cost-effectiveness of Java performance testing. | 翻訳日:2024-09-18 00:56:51 公開日:2024-09-14 |
# Anchored Preference Optimization and Contrastive Revisions: Addressing Underspecification in Alignment
Anchored Preference Optimization and Contrastive Revisions: Addressing Underspecification in Alignment ( http://arxiv.org/abs/2408.06266v5 ) ライセンス: Link先を確認 | Karel D'Oosterlinck, Winnie Xu, Chris Develder, Thomas Demeester, Amanpreet Singh, Christopher Potts, Douwe Kiela, Shikib Mehri, | (参考訳) 大規模言語モデル(LLM)は、しばしばコントラスト的なアライメント目標と選好ペアデータセットを使って整列される。
モデル、ペアデータ、および目的間の相互作用は複雑な手順を作り、時にサブパー結果を生成する。
私たちはこれを研究し、それを見つけます
二 嗜好データにより、基礎となる応答が対照的な場合に、より良い学習信号が得られること。
(ii)アライメントの目的は、トレーニング中にモデルに対するさらなるコントロールを指定すると、パフォーマンスが向上する。
これらの知見に基づき、よりコントラスト的な選好ペアを生み出すデータ生成手法であるContrastive Learning from AI Revisions (CLAIR)と、制御可能でより安定したアライメント目的であるAnchored Preference Optimization (APO)を紹介する。
我々はLlama-3-8B-Instructを、様々な類似したデータセットとアライメント目標を用いて調整し、MixEval-Hardスコアを測定する。
CLAIRの選好はすべてのデータセットの中で最強のパフォーマンスをもたらし、APOは一貫してコントロール可能な目標よりも優れています。
我々の最良のモデルは、APOで32K CLAIRの選好に基づいて訓練され、Llama-3-8B-Instructを7.65%改善し、GPT4-turboとのギャップを45%短縮しました。
私たちのコードはhttps://github.com/ContextualAI/CLAIR_and_APO.orgで公開されています。
Large Language Models (LLMs) are often aligned using contrastive alignment objectives and preference pair datasets. The interaction between model, paired data, and objective makes alignment a complicated procedure, sometimes producing subpar results. We study this and find that (i) preference data gives a better learning signal when the underlying responses are contrastive, and (ii) alignment objectives lead to better performance when they specify more control over the model during training. Based on these insights, we introduce Contrastive Learning from AI Revisions (CLAIR), a data-creation method which leads to more contrastive preference pairs, and Anchored Preference Optimization (APO), a controllable and more stable alignment objective. We align Llama-3-8B-Instruct using various comparable datasets and alignment objectives and measure MixEval-Hard scores, which correlate highly with human judgments. The CLAIR preferences lead to the strongest performance out of all datasets, and APO consistently outperforms less controllable objectives. Our best model, trained on 32K CLAIR preferences with APO, improves Llama-3-8B-Instruct by 7.65%, closing the gap with GPT4-turbo by 45%. Our code is available at https://github.com/ContextualAI/CLAIR_and_APO. | 翻訳日:2024-09-18 00:56:51 公開日:2024-09-14 |
# 大規模言語モデルにおける有害プロンプトの効率的な検出
Efficient Detection of Toxic Prompts in Large Language Models ( http://arxiv.org/abs/2408.11727v2 ) ライセンス: Link先を確認 | Yi Liu, Junzhe Yu, Huijia Sun, Ling Shi, Gelei Deng, Yuqi Chen, Yang Liu, | (参考訳) ChatGPTやGeminiのような大規模言語モデル(LLM)は、自然言語処理を大幅に進歩させ、チャットボットや自動コンテンツ生成といった様々なアプリケーションを可能にしている。
しかし、これらのモデルは有害または非倫理的な反応を誘発する有害なプロンプトを作る悪質な個人によって悪用される可能性がある。
これらの個体は、しばしば安全メカニズムをバイパスするためにジェイルブレイク技術を使用し、堅牢な有毒な迅速検出方法の必要性を強調している。
既存の検出技術であるブラックボックスとホワイトボックスは、有害なプロンプト、スケーラビリティ、計算効率の多様性に関連する課題に直面している。
そこで本研究では,LSMの有害なプロンプトを効率的に検出する軽量グレーボックスであるToxicDetectorを提案する。
ToxicDetectorはLSMを活用して有毒な概念プロンプトを作成し、埋め込みベクトルを使用して特徴ベクトルを形成し、プロンプト分類にMulti-Layer Perceptron(MLP)分類器を使用する。
ToxicDetectorは96.39\%, 偽陽性率は2.00\%であり, 最先端の手法よりも優れていた。
さらに、ToxicDetectorの処理時間は1プロンプトあたり0.0780秒であり、リアルタイムアプリケーションに非常に適している。
ToxicDetectorは高い精度、効率、スケーラビリティを実現し、LSMにおける有害な迅速検出の実用的な方法である。
Large language models (LLMs) like ChatGPT and Gemini have significantly advanced natural language processing, enabling various applications such as chatbots and automated content generation. However, these models can be exploited by malicious individuals who craft toxic prompts to elicit harmful or unethical responses. These individuals often employ jailbreaking techniques to bypass safety mechanisms, highlighting the need for robust toxic prompt detection methods. Existing detection techniques, both blackbox and whitebox, face challenges related to the diversity of toxic prompts, scalability, and computational efficiency. In response, we propose ToxicDetector, a lightweight greybox method designed to efficiently detect toxic prompts in LLMs. ToxicDetector leverages LLMs to create toxic concept prompts, uses embedding vectors to form feature vectors, and employs a Multi-Layer Perceptron (MLP) classifier for prompt classification. Our evaluation on various versions of the LLama models, Gemma-2, and multiple datasets demonstrates that ToxicDetector achieves a high accuracy of 96.39\% and a low false positive rate of 2.00\%, outperforming state-of-the-art methods. Additionally, ToxicDetector's processing time of 0.0780 seconds per prompt makes it highly suitable for real-time applications. ToxicDetector achieves high accuracy, efficiency, and scalability, making it a practical method for toxic prompt detection in LLMs. | 翻訳日:2024-09-18 00:56:51 公開日:2024-09-14 |
# クラッタにおけるマルチセンサフュージョンと追跡のための分散勾配に基づく変分推論
Decentralised Gradient-based Variational Inference for Multi-sensor Fusion and Tracking in Clutter ( http://arxiv.org/abs/2408.13689v2 ) ライセンス: Link先を確認 | Qing Li, Runze Gan, Simon Godsill, | (参考訳) 本稿では,時間変化のある分散マルチセンサネットワーク下でのクラッタ内の複数物体の追跡作業について検討する。
本手法は, 局所処理と近接センサのみとの通信において, 最適な分散化融合を実現する。
鍵となる革新は、局所的に最大化された証拠の低い境界を分散的に構築することであり、通信に必要な情報を大幅に削減する。
従来の勾配の方向を最も急勾配に調整する勾配追従戦略と自然勾配で強化した分散型自然勾配降下変動型多対象トラッカーは,急速な収束を示す。
提案手法は, 追従精度の集中核融合と実証的に等価であり, 比較コストで準最適核融合技術を超え, コンセンサスに基づく多対象トラッカーよりもはるかに低い通信オーバヘッドを実現する。
This paper investigates the task of tracking multiple objects in clutter under a distributed multi-sensor network with time-varying connectivity. Designed with the same objective as the centralised variational multi-object tracker, the proposed method achieves optimal decentralised fusion in performance with local processing and communication with only neighboring sensors. A key innovation is the decentralised construction of a locally maximised evidence lower bound, which greatly reduces the information required for communication. Our decentralised natural gradient descent variational multi-object tracker, enhanced with the gradient tracking strategy and natural gradients that adjusts the direction of traditional gradients to the steepest, shows rapid convergence. Our results verify that the proposed method is empirically equivalent to the centralised fusion in tracking accuracy, surpasses suboptimal fusion techniques with comparable costs, and achieves much lower communication overhead than the consensus-based variational multi-object tracker. | 翻訳日:2024-09-18 00:47:00 公開日:2024-09-14 |
# 計算病理学の新しい時代:基礎モデルと視覚言語モデルに関する調査
A New Era in Computational Pathology: A Survey on Foundation and Vision-Language Models ( http://arxiv.org/abs/2408.14496v2 ) ライセンス: Link先を確認 | Dibaloke Chanda, Milan Aryal, Nasim Yahya Soltani, Masoud Ganji, | (参考訳) 近年のディープラーニングの進歩は、計算病理学(CPath)の領域を完全に変え、その結果、基礎モデル(FM)と視覚言語モデル(VLM)をその評価と意思決定プロセスに統合することで、病理医の診断ワークフローを変化させた。
FMはCPathの既存のディープラーニングアプローチの限界を克服し、明示的な監督なしに様々な下流タスクに適応できる表現空間を学習する。
VLMは、自然言語で書かれた病理報告をリッチな意味情報ソースとして使用し、既存のモデルを改善し、自然言語形式で予測を生成する。
本調査では,近年のFM, VLM, CPathの総合的, 体系的な技術革新について概説する。
さらに、これらのモデルのツール、データセット、トレーニングスキームを要約し、異なるグループに分類する。
この広範な調査は、CPathの現在のトレンドと、将来FMやVLMによって変革される方法を強調している。
Recent advances in deep learning have completely transformed the domain of computational pathology (CPath), which in turn altered the diagnostic workflow of pathologists by integrating foundation models (FMs) and vision-language models (VLMs) in their assessment and decision-making process. FMs overcome the limitations of existing deep learning approaches in CPath by learning a representation space that can be adapted to a wide variety of downstream tasks without explicit supervision. VLMs allow pathology reports written in natural language to be used as a rich semantic information source to improve existing models as well as generate predictions in natural language form. In this survey, a holistic and systematic overview of recent innovations in FMs and VLMs in CPath is presented. Furthermore, the tools, datasets and training schemes for these models are summarized in addition to categorizing them into distinct groups. This extensive survey highlights the current trends in CPath and the way it is going to be transformed through FMs and VLMs in the future. | 翻訳日:2024-09-18 00:47:00 公開日:2024-09-14 |
# SSDM:スケーラブル音声障害モデリング
SSDM: Scalable Speech Dysfluency Modeling ( http://arxiv.org/abs/2408.16221v2 ) ライセンス: Link先を確認 | Jiachen Lian, Xuanru Zhou, Zoe Ezzes, Jet Vonk, Brittany Morin, David Baquirin, Zachary Mille, Maria Luisa Gorno Tempini, Gopala Anumanchipalli, | (参考訳) 音声のディフルエンシ・モデリングは、音声言語学習と音声治療のコアモジュールである。
しかし、課題は3つある。
第一に、最先端のソリューションはスケーラビリティの低下に悩まされている。
第二に、大規模な逆流コーパスがない。
第三に、効果的な学習フレームワークはありません。
本稿では,(1)音節的ジェスチャーをスケーラブルな強制アライメントとして採用する「textit{SSDM: Scalable Speech Dysfluency Modeling」,(2)ディフルアライメントを実現するためのコネクショナサブシーケンスアライメント(CSA)の導入,(3)リブリダイスと呼ばれる大規模シミュレーション型ディフルアライメントコーパスの導入,(4)大規模言語モデル(LLM)のパワーを活用してエンドツーエンドシステムを開発することを提案する。
我々は,Dyfluency Modelingの分野でSSDMが標準となることを期待している。
Demo は \url{https://eureka235.github.io} で公開されている。
Speech dysfluency modeling is the core module for spoken language learning, and speech therapy. However, there are three challenges. First, current state-of-the-art solutions suffer from poor scalability. Second, there is a lack of a large-scale dysfluency corpus. Third, there is not an effective learning framework. In this paper, we propose \textit{SSDM: Scalable Speech Dysfluency Modeling}, which (1) adopts articulatory gestures as scalable forced alignment; (2) introduces connectionist subsequence aligner (CSA) to achieve dysfluency alignment; (3) introduces a large-scale simulated dysfluency corpus called Libri-Dys; and (4) develops an end-to-end system by leveraging the power of large language models (LLMs). We expect SSDM to serve as a standard in the area of dysfluency modeling. Demo is available at \url{https://eureka235.github.io}. | 翻訳日:2024-09-18 00:47:00 公開日:2024-09-14 |
# Jina-ColBERT-v2: 汎用多言語対話レトリバー
Jina-ColBERT-v2: A General-Purpose Multilingual Late Interaction Retriever ( http://arxiv.org/abs/2408.16672v4 ) ライセンス: Link先を確認 | Rohan Jha, Bo Wang, Michael Günther, Georgios Mastrapas, Saba Sturua, Isabelle Mohr, Andreas Koukounas, Mohammad Kalim Akram, Nan Wang, Han Xiao, | (参考訳) ColBERTのような多ベクトル密度モデルは情報検索に非常に有効であることが証明されている。
ColBERTの遅延相互作用評価は、クロスエンコーダで見られる共同クエリ文書の注意を近似し、二エンコーダアーキテクチャと最近のインデックス化と検索の最適化のおかげで、従来の高密度検索モデルに近い推論効率を維持している。
この研究では、より成熟した単一ベクトル埋め込みモデルトレーニングパラダイム、特に異種多言語データに適用されたり、トレードオフの少ない効率を向上する手法を用いて、ColBERTモデルアーキテクチャとトレーニングパイプラインを漸進的に改善することを提案する。
我々の新しいモデルであるJina-ColBERT-v2は、英語および多言語検索タスクで高い性能を示す。
Multi-vector dense models, such as ColBERT, have proven highly effective in information retrieval. ColBERT's late interaction scoring approximates the joint query-document attention seen in cross-encoders while maintaining inference efficiency closer to traditional dense retrieval models, thanks to its bi-encoder architecture and recent optimizations in indexing and search. In this work we propose a number of incremental improvements to the ColBERT model architecture and training pipeline, using methods shown to work in the more mature single-vector embedding model training paradigm, particularly those that apply to heterogeneous multilingual data or boost efficiency with little tradeoff. Our new model, Jina-ColBERT-v2, demonstrates strong performance across a range of English and multilingual retrieval tasks. | 翻訳日:2024-09-17 22:48:25 公開日:2024-09-14 |
# オンデバイス言語モデル: 総合的なレビュー
On-Device Language Models: A Comprehensive Review ( http://arxiv.org/abs/2409.00088v2 ) ライセンス: Link先を確認 | Jiajun Xu, Zhiyuan Li, Wei Chen, Qun Wang, Xin Gao, Qi Cai, Ziyuan Ling, | (参考訳) 大規模言語モデル(LLM)の出現は自然言語処理アプリケーションに革命をもたらし、レイテンシの低減、データローカライゼーション、パーソナライズされたユーザエクスペリエンスといった理由から、エッジデバイス上でのLLMの実行がますます魅力的になっている。
本稿では,資源制約のあるデバイスに計算コストの高いLLMをデプロイする上での課題を概観し,複数の領域にわたる革新的なソリューションを探究する。
本稿では,オンデバイス言語モデルの開発,パラメータ共有やモジュール設計などの効率的なアーキテクチャ,量子化やプルーニング,知識蒸留といった最先端の圧縮技術について検討する。
ハードウェアアクセラレーション戦略とコラボレーティブなエッジクラウドデプロイメントアプローチが分析され、パフォーマンスとリソース利用の複雑なバランスが強調される。
主要モバイルメーカーによるオンデバイス言語モデルのケーススタディは、実世界の応用と潜在的な利益を実証している。
また、適応学習、マルチモーダル能力、パーソナライゼーションといった重要な側面についても論じている。
そこで本研究では,ユビキタスでインテリジェントなコンピューティングの潜在能力を実現するための学際的努力の必要性を強調し,責任と倫理的展開の確保を図っている。
デバイス上での大規模言語モデル(LLMs)の研究成果と教育リソースの総合的なレビューについては、https://github.com/NexaAI/Awesome-LLMs-on-deviceを参照してください。
デバイス上でLLMをダウンロードして実行するには、https://www.nexaai.com/models.comを参照してください。
The advent of large language models (LLMs) revolutionized natural language processing applications, and running LLMs on edge devices has become increasingly attractive for reasons including reduced latency, data localization, and personalized user experiences. This comprehensive review examines the challenges of deploying computationally expensive LLMs on resource-constrained devices and explores innovative solutions across multiple domains. The paper investigates the development of on-device language models, their efficient architectures, including parameter sharing and modular designs, as well as state-of-the-art compression techniques like quantization, pruning, and knowledge distillation. Hardware acceleration strategies and collaborative edge-cloud deployment approaches are analyzed, highlighting the intricate balance between performance and resource utilization. Case studies of on-device language models from major mobile manufacturers demonstrate real-world applications and potential benefits. The review also addresses critical aspects such as adaptive learning, multi-modal capabilities, and personalization. By identifying key research directions and open challenges, this paper provides a roadmap for future advancements in on-device language models, emphasizing the need for interdisciplinary efforts to realize the full potential of ubiquitous, intelligent computing while ensuring responsible and ethical deployment. For a comprehensive review of research work and educational resources on on-device large language models (LLMs), please visit https://github.com/NexaAI/Awesome-LLMs-on-device. To download and run on-device LLMs, visit https://www.nexaai.com/models. | 翻訳日:2024-09-17 22:48:25 公開日:2024-09-14 |
# 音声と音声の同時翻訳における最先端化には,何が必要か?
What does it take to get state of the art in simultaneous speech-to-speech translation? ( http://arxiv.org/abs/2409.00965v2 ) ライセンス: Link先を確認 | Vincent Wilmet, Johnson Du, | (参考訳) 本稿では, 音声合成モデルの性能向上にともなう遅延特性の詳細な解析を行い, 特に幻覚による遅延スパイクに着目した。
様々な入力パラメータや条件を体系的に実験することにより、レイテンシのスパイクを最小限に抑え、全体的な性能を改善する方法を提案する。
この結果から,注意深い入力管理と戦略的パラメータ調整を組み合わせることで,音声合成モデルの遅延挙動を著しく向上させることができることが示唆された。
This paper presents an in-depth analysis of the latency characteristics observed in simultaneous speech-to-speech model's performance, particularly focusing on hallucination-induced latency spikes. By systematically experimenting with various input parameters and conditions, we propose methods to minimize latency spikes and improve overall performance. The findings suggest that a combination of careful input management and strategic parameter adjustments can significantly enhance speech-to-speech model's latency behavior. | 翻訳日:2024-09-17 22:48:25 公開日:2024-09-14 |
# IVGF:Fusion-Guided Infrared and Visible General Framework
IVGF: The Fusion-Guided Infrared and Visible General Framework ( http://arxiv.org/abs/2409.00973v2 ) ライセンス: Link先を確認 | Fangcen Liu, Chenqiang Gao, Fang Chen, Pengcheng Li, Junjie Guo, Deyu Meng, | (参考訳) セマンティックセグメンテーション(セグメンテーション)やオブジェクト検出(オブジェクト検出)といった、赤外線および可視光二重モードタスクは、相補的な情報を融合することにより、極端な場面でも堅牢な性能を達成することができる。
現在のほとんどのメソッドは、複数のタスクにまたがる一般化に制限があるタスク固有のフレームワークを設計している。
本稿では、多くの高レベル視覚タスクに容易に拡張可能な、融合誘導型赤外線可視光一般フレームワークIVGFを提案する。
まず、一般表現を抽出するために、SOTA赤外線および可視基盤モデルを採用する。
そして,高次視覚タスクにおけるこれらの汎用表現のセマンティクス情報を強化するために,特徴マップとトークンのための特徴拡張モジュールとトークン拡張モジュールをそれぞれ設計する。
さらに,2つのモードの相補的な情報を探究し,効果的に融合するための注意誘導核融合モジュールを提案する。
さらに,データ拡張を行うために,カットアウト/ミックス拡張戦略を採用することで,モデルが2つのモダリティ間の地域相補性をマイニングする能力をさらに向上する。
広範囲な実験により、IVGFはセマンティックセグメンテーションやオブジェクト検出タスクにおいて、最先端のデュアルモダリティ手法よりも優れていることが示された。
詳細なアブレーション研究は各モジュールの有効性を実証し、別の実験では、二重モードセマンティックセマンティックセグメンテーションタスクにおいて提案手法の欠落防止能力について検討している。
Infrared and visible dual-modality tasks such as semantic segmentation and object detection can achieve robust performance even in extreme scenes by fusing complementary information. Most current methods design task-specific frameworks, which are limited in generalization across multiple tasks. In this paper, we propose a fusion-guided infrared and visible general framework, IVGF, which can be easily extended to many high-level vision tasks. Firstly, we adopt the SOTA infrared and visible foundation models to extract the general representations. Then, to enrich the semantics information of these general representations for high-level vision tasks, we design the feature enhancement module and token enhancement module for feature maps and tokens, respectively. Besides, the attention-guided fusion module is proposed for effectively fusing by exploring the complementary information of two modalities. Moreover, we also adopt the cutout&mix augmentation strategy to conduct the data augmentation, which further improves the ability of the model to mine the regional complementary between the two modalities. Extensive experiments show that the IVGF outperforms state-of-the-art dual-modality methods in the semantic segmentation and object detection tasks. The detailed ablation studies demonstrate the effectiveness of each module, and another experiment explores the anti-missing modality ability of the proposed method in the dual-modality semantic segmentation task. | 翻訳日:2024-09-17 22:48:25 公開日:2024-09-14 |
# DPD編集:マルチモーダルファッション画像編集のための詳細保存拡散モデル
DPDEdit: Detail-Preserved Diffusion Models for Multimodal Fashion Image Editing ( http://arxiv.org/abs/2409.01086v2 ) ライセンス: Link先を確認 | Xiaolong Wang, Zhi-Qi Cheng, Jue Wang, Xiaojiang Peng, | (参考訳) ファッション画像編集は、デザイン概念をインタラクティブに視覚化することで、デザイナーが創造的なアイデアを伝える上で重要なツールである。
現在のファッション画像編集技術は、マルチモーダルプロンプトと強力な拡散モデルによって進歩しているが、しばしば編集領域を正確に識別し、望ましいテクスチャの詳細を保存するのに苦労する。
これらの課題に対処するために,我々は,Detail-Preserved Diffusion Models (DPDEdit) と呼ばれる潜在拡散モデルに基づく,新しいマルチモーダルなファッション画像編集アーキテクチャを導入する。
DPDEditは、テキストプロンプト、地域マスク、人間のポーズイメージ、衣料品のテクスチャイメージを統合することで、拡散モデルのファッション画像生成をガイドする。
編集領域を正確に特定するために、まず、ユーザのテキスト記述に基づいて編集領域を予測し、他の条件と組み合わせてローカル編集を行う。
テクスチャのテクスチャの詳細を対象のファッションイメージに転送するために,テクスチャ注入と精細化機構を提案する。
具体的には、このメカニズムは、テキスト記述とテクスチャイメージを統合するために分離されたクロスアテンション層を使用し、補助的なU-Netを組み込んで、生成されたテクスチャテクスチャの高周波の詳細を保存する。
さらに,マルチモーダルな言語モデルを用いてVITON-HDデータセットを拡張し,テクスチャ画像とテクスチャ記述を用いたペアサンプルを生成する。
広汎な実験により,DPDEditは与えられたマルチモーダル入力と画像の忠実度とコヒーレンスの観点から,最先端の手法よりも優れていた。
Fashion image editing is a crucial tool for designers to convey their creative ideas by visualizing design concepts interactively. Current fashion image editing techniques, though advanced with multimodal prompts and powerful diffusion models, often struggle to accurately identify editing regions and preserve the desired garment texture detail. To address these challenges, we introduce a new multimodal fashion image editing architecture based on latent diffusion models, called Detail-Preserved Diffusion Models (DPDEdit). DPDEdit guides the fashion image generation of diffusion models by integrating text prompts, region masks, human pose images, and garment texture images. To precisely locate the editing region, we first introduce Grounded-SAM to predict the editing region based on the user's textual description, and then combine it with other conditions to perform local editing. To transfer the detail of the given garment texture into the target fashion image, we propose a texture injection and refinement mechanism. Specifically, this mechanism employs a decoupled cross-attention layer to integrate textual descriptions and texture images, and incorporates an auxiliary U-Net to preserve the high-frequency details of generated garment texture. Additionally, we extend the VITON-HD dataset using a multimodal large language model to generate paired samples with texture images and textual descriptions. Extensive experiments show that our DPDEdit outperforms state-of-the-art methods in terms of image fidelity and coherence with the given multimodal inputs. | 翻訳日:2024-09-17 22:48:25 公開日:2024-09-14 |
# CoLaNET - 分類のためのカラム階層アーキテクチャを備えたスパイクニューラルネットワーク
CoLaNET -- A Spiking Neural Network with Columnar Layered Architecture for Classification ( http://arxiv.org/abs/2409.01230v5 ) ライセンス: Link先を確認 | Mikhail Kiselev, | (参考訳) 本稿では、幅広い教師付き学習分類タスクに使用できるスパイキングニューラルネットワーク(SNN)アーキテクチャについて述べる。
全ての参加信号(分類対象記述、正しいクラスラベル、SNN決定)がスパイクの性質を持つと仮定する。
このアーキテクチャの特徴は、異なるクラスに対応する原型ネットワーク構造と、1つのクラス(=カラム)の顕著な特異なインスタンスと、列(=層)内のニューロンの機能的に異なる個体群の組み合わせである。
もう一つの特徴は、抗ヘビアンとドーパミン修飾可塑性の新規な組み合わせである。
塑性規則は局所的であり、バックプロパゲーション原理を使わない。
それに加えて、以前の研究と同様に、全てのニューロン/塑性モデルが現代の神経チップに容易に実装されるべきという要件に導かれました。
モデルに基づく強化学習,すなわち,外界状態と対象状態との近接性を評価するタスクにおいて,私のネットワークの性能について説明する。
In the present paper, I describe a spiking neural network (SNN) architecture which, can be used in wide range of supervised learning classification tasks. It is assumed, that all participating signals (the classified object description, correct class label and SNN decision) have spiking nature. The distinctive feature of this architecture is a combination of prototypical network structures corresponding to different classes and significantly distinctive instances of one class (=columns) and functionally differing populations of neurons inside columns (=layers). The other distinctive feature is a novel combination of anti-Hebbian and dopamine-modulated plasticity. The plasticity rules are local and do not use the backpropagation principle. Besides that, as in my previous studies, I was guided by the requirement that the all neuron/plasticity models should be easily implemented on modern neurochips. I illustrate the high performance of my network on a task related to model-based reinforcement learning, namely, evaluation of proximity of an external world state to the target state. | 翻訳日:2024-09-17 22:48:25 公開日:2024-09-14 |
# 拡散モデルと近似政策最適化の統合による強化学習におけるサンプル効率の向上と探索
Enhancing Sample Efficiency and Exploration in Reinforcement Learning through the Integration of Diffusion Models and Proximal Policy Optimization ( http://arxiv.org/abs/2409.01427v3 ) ライセンス: Link先を確認 | Gao Tianci, Dmitriev D. Dmitry, Konstantin A. Neusypin, Yang Bo, Rao Shengren, | (参考訳) 強化学習(RL)の最近の進歩は、特に高次元および複雑なタスクにおいて、大規模データとディープニューラルネットワークによって加速されている。
PPO(Proximal Policy Optimization)のようなオンラインRL手法は動的シナリオでは有効であるが、かなりのリアルタイムデータを必要とする。
Offline RLは、大規模なデータセットからの事前学習ポリシーによってこの問題に対処するが、その成功はデータの品質と多様性に依存している。
本研究では,オフラインデータセットのための高品質な仮想トラジェクトリを生成するために拡散モデルを組み込むことにより,PPOアルゴリズムを強化するフレームワークを提案する。
このアプローチは探索とサンプル効率を改善し、複雑なタスクにおける累積報酬、収束速度、戦略安定性を大きく向上させる。
RLにおける拡散モデルの可能性、特にオフラインデータセットについて検討し、オンラインRLをオフライン環境に拡張し、拡散モデルによるPPOの性能改善を実験的に検証する。
これらの知見は、RLを高次元の複雑なタスクに適用するための新しい洞察と方法を提供する。
最後に、私たちはコードをhttps://github.com/TianciGao/DiffPPOでオープンソース化しました。
Recent advancements in reinforcement learning (RL) have been fueled by large-scale data and deep neural networks, particularly for high-dimensional and complex tasks. Online RL methods like Proximal Policy Optimization (PPO) are effective in dynamic scenarios but require substantial real-time data, posing challenges in resource-constrained or slow simulation environments. Offline RL addresses this by pre-learning policies from large datasets, though its success depends on the quality and diversity of the data. This work proposes a framework that enhances PPO algorithms by incorporating a diffusion model to generate high-quality virtual trajectories for offline datasets. This approach improves exploration and sample efficiency, leading to significant gains in cumulative rewards, convergence speed, and strategy stability in complex tasks. Our contributions are threefold: we explore the potential of diffusion models in RL, particularly for offline datasets, extend the application of online RL to offline environments, and experimentally validate the performance improvements of PPO with diffusion models. These findings provide new insights and methods for applying RL to high-dimensional, complex tasks. Finally, we open-source our code at https://github.com/TianciGao/DiffPPO | 翻訳日:2024-09-17 22:48:25 公開日:2024-09-14 |
# スパース・ノイズ画像における表現学習とクラスタリングの二重化
Dual Advancement of Representation Learning and Clustering for Sparse and Noisy Images ( http://arxiv.org/abs/2409.01781v2 ) ライセンス: Link先を確認 | Wenlin Li, Yucheng Xu, Xiaoqing Zheng, Suoya Han, Jun Wang, Xiaobo Sun, | (参考訳) 空間的遺伝子発現データと同様、スパース・ノイズ画像(SNI)は、効率的な表現学習とクラスタリングに重大な課題を生じさせ、完全なデータ解析と解釈に不可欠である。
これらの課題に対応するために、コントラスト学習を利用してマスク画像モデリングから派生した表現を強化する革新的なフレームワークであるDARLC(Dual Advancement of Representation Learning and Clustering)を提案する。
同時に、DARLCはクラスタ割り当てを結合的でエンドツーエンドなアプローチに統合する。
この統合クラスタリング戦略は、対照的な学習に固有の「クラス衝突問題」に対処し、結果として得られる表現の質を向上させる。
コントラスト学習のためのより有効な肯定的なビューを生成するために,画像のデノベートを付加データとして生成するグラフアテンションネットワークに基づく手法を用いる。
このように、我々のフレームワークは、局所的な認識性、識別性、関係意味論の理解を高めることによって、表現の学習を改善する包括的なアプローチを提供する。
さらに,学生のt混合モデルを用いて,より堅牢で適応可能なSNIクラスタリングを実現する。
SNIからなる12種類のデータセットで実施された大規模な実験は、DARLCが画像クラスタリングと遺伝子相互作用を正確にキャプチャする画像表現の両方において最先端の手法を上回ることを実証している。
コードはhttps://github.com/zipging/DARLCで入手できる。
Sparse and noisy images (SNIs), like those in spatial gene expression data, pose significant challenges for effective representation learning and clustering, which are essential for thorough data analysis and interpretation. In response to these challenges, we propose Dual Advancement of Representation Learning and Clustering (DARLC), an innovative framework that leverages contrastive learning to enhance the representations derived from masked image modeling. Simultaneously, DARLC integrates cluster assignments in a cohesive, end-to-end approach. This integrated clustering strategy addresses the "class collision problem" inherent in contrastive learning, thus improving the quality of the resulting representations. To generate more plausible positive views for contrastive learning, we employ a graph attention network-based technique that produces denoised images as augmented data. As such, our framework offers a comprehensive approach that improves the learning of representations by enhancing their local perceptibility, distinctiveness, and the understanding of relational semantics. Furthermore, we utilize a Student's t mixture model to achieve more robust and adaptable clustering of SNIs. Extensive experiments, conducted across 12 different types of datasets consisting of SNIs, demonstrate that DARLC surpasses the state-of-the-art methods in both image clustering and generating image representations that accurately capture gene interactions. Code is available at https://github.com/zipging/DARLC. | 翻訳日:2024-09-17 22:48:25 公開日:2024-09-14 |
# Half-VAE: 明示的な逆マッピングを回避するエンコーダフリーなVAE
Half-VAE: An Encoder-Free VAE to Bypass Explicit Inverse Mapping ( http://arxiv.org/abs/2409.04140v2 ) ライセンス: Link先を確認 | Yuan-Hao Wei, Yan-Jie Sun, Chen Zhang, | (参考訳) 推論と逆問題(inference)と逆問題(inverse problem)は密接に関連する概念であり、どちらも基本的には未知の原因や観測データからのパラメータの推論を含む。
強力な手法であるベイズ推論は、因果推論に関連するものを含む様々な問題を解決するためにしばしば用いられる。
ベイズ予想のサブセットである変分推論は、主に複素後続分布を効率的に近似するために用いられる。
変分推論とディープラーニングを組み合わせた変分オートエンコーダ(VAE)は,様々な領域に広く適用されている。
本研究では,独立成分分析(ICA)のような逆問題に対するVAEの可能性を,明示的な逆写像プロセスに頼らずに検討する。
他のVAEベースのICAメソッドとは異なり、このアプローチはVAEアーキテクチャのエンコーダを捨て、潜在変数を直接トレーニング可能なパラメータとして設定する。
言い換えれば、潜伏変数はもはやエンコーダの出力ではなく、代わりに目的関数から直接最適化され、適切な値に収束する。
適切な事前設定により、トレーニング可能なパラメータで表される潜伏変数は、パラメータが収束するにつれて相互に独立性を示すことができる。
このアプローチはハーフ-VAEと呼ばれ、エンコーダを排除して逆マッピングプロセスをバイパスする。
本研究では,明示的な逆写像処理を必要とせず,半VAEを用いてICAを解く可能性を示す。
Inference and inverse problems are closely related concepts, both fundamentally involving the deduction of unknown causes or parameters from observed data. Bayesian inference, a powerful class of methods, is often employed to solve a variety of problems, including those related to causal inference. Variational inference, a subset of Bayesian inference, is primarily used to efficiently approximate complex posterior distributions. Variational Autoencoders (VAEs), which combine variational inference with deep learning, have become widely applied across various domains. This study explores the potential of VAEs for solving inverse problems, such as Independent Component Analysis (ICA), without relying on an explicit inverse mapping process. Unlike other VAE-based ICA methods, this approach discards the encoder in the VAE architecture, directly setting the latent variables as trainable parameters. In other words, the latent variables are no longer outputs of the encoder but are instead optimized directly through the objective function to converge to appropriate values. We find that, with a suitable prior setup, the latent variables, represented by trainable parameters, can exhibit mutually independent properties as the parameters converge, all without the need for an encoding process. This approach, referred to as the Half-VAE, bypasses the inverse mapping process by eliminating the encoder. This study demonstrates the feasibility of using the Half-VAE to solve ICA without the need for an explicit inverse mapping process. | 翻訳日:2024-09-17 22:38:20 公開日:2024-09-14 |
# HiSC4D:ウェアラブルIMUとLiDARを用いた大規模空間における人間中心インタラクションと4次元シーンキャプチャ
HiSC4D: Human-centered interaction and 4D Scene Capture in Large-scale Space Using Wearable IMUs and LiDAR ( http://arxiv.org/abs/2409.04398v3 ) ライセンス: Link先を確認 | Yudi Dai, Zhiyong Wang, Xiping Lin, Chenglu Wen, Lan Xu, Siqi Shen, Yuexin Ma, Cheng Wang, | (参考訳) 室内外の大規模シーン、多様な人間の動き、豊かな人間と人間の相互作用、人間と環境の相互作用を含む動的デジタル世界を正確かつ効率的に作成することを目的とした、新しいヒューマン中心のインタラクションと4Dシーンキャプチャー手法であるHiSC4Dを紹介した。
ボディマウントのIMUとヘッドマウントのLiDARを利用することで、HiSC4Dは外部デバイスやマップを必要とせずに、非拘束空間における自我中心の人間の動きを捉えることができる。
これにより、人間中心のインタラクションや、さまざまな環境での4Dシーンキャプチャの柔軟性とアクセシビリティが向上する。
IMUが人間の空間的制約のないポーズをキャプチャできるが、長期間の使用は困難であり、LiDARはグローバルなローカライゼーションには適しているが、局所的な位置と向きは粗いが、HiSC4Dは、全てのセンサを調和させ、環境の手がかりを活用する共同最適化手法を採用し、大きなシーンで長期のキャプチャーに有望な結果をもたらす。
4つの大きなシーン(200〜5000$m^2$)に8つのシーケンスを含むデータセットを組み,SMPLアノテーションとダイナミックなシーンによる正確な4次元動作の36kフレーム,収穫された人点雲31kフレーム,環境のメッシュを提供する。
バスケットボールジムや商業通りなどの様々なシナリオは、毎日の挨拶や1対1のバスケットボールの試合、ツアーガイドといった挑戦的な人間の動きとともに、HiSC4Dの有効性と一般化能力を示している。
データセットとコードはwww.lidar Humanmotion.net/hisc4dで公開されている。
We introduce HiSC4D, a novel Human-centered interaction and 4D Scene Capture method, aimed at accurately and efficiently creating a dynamic digital world, containing large-scale indoor-outdoor scenes, diverse human motions, rich human-human interactions, and human-environment interactions. By utilizing body-mounted IMUs and a head-mounted LiDAR, HiSC4D can capture egocentric human motions in unconstrained space without the need for external devices and pre-built maps. This affords great flexibility and accessibility for human-centered interaction and 4D scene capturing in various environments. Taking into account that IMUs can capture human spatially unrestricted poses but are prone to drifting for long-period using, and while LiDAR is stable for global localization but rough for local positions and orientations, HiSC4D employs a joint optimization method, harmonizing all sensors and utilizing environment cues, yielding promising results for long-term capture in large scenes. To promote research of egocentric human interaction in large scenes and facilitate downstream tasks, we also present a dataset, containing 8 sequences in 4 large scenes (200 to 5,000 $m^2$), providing 36k frames of accurate 4D human motions with SMPL annotations and dynamic scenes, 31k frames of cropped human point clouds, and scene mesh of the environment. A variety of scenarios, such as the basketball gym and commercial street, alongside challenging human motions, such as daily greeting, one-on-one basketball playing, and tour guiding, demonstrate the effectiveness and the generalization ability of HiSC4D. The dataset and code will be publicated on www.lidarhumanmotion.net/hisc4d available for research purposes. | 翻訳日:2024-09-17 22:38:20 公開日:2024-09-14 |
# POINTS: Affordable Strategiesで視覚言語モデルを改善する
POINTS: Improving Your Vision-language Model with Affordable Strategies ( http://arxiv.org/abs/2409.04828v2 ) ライセンス: Link先を確認 | Yuan Liu, Zhongyin Zhao, Ziyuan Zhuang, Le Tian, Xiao Zhou, Jie Zhou, | (参考訳) 近年、視覚言語モデルは、光学的文字認識や幾何学的問題解決といったタスクに優れ、大きな進歩を遂げている。
しかし、いくつかの重大な問題が残されている。
1) プロプライエタリモデルはアーキテクチャに関する透明性を欠いていることが多いが、オープンソースモデルはトレーニング戦略のより詳細な説明を必要としている。
2) オープンソースワークにおける事前トレーニングデータには,データセットを経験的に追加することで,プロセスが煩雑になる。
3) 微調整は、しばしばデータセットの追加に焦点を当て、リターンの減少につながる。
これらの問題に対処するため、以下の貢献を提案する。
1) 視覚言語モデルの最新の進歩を生かした頑健なベースラインモデルを訓練し, 効果的な改善を導入し, 各手法の総合的合理化と検証を行った。
2) 大規模言語モデルに関する最近の研究に触発されて, 難易度を用いて事前学習データをフィルタリングし, トレーニング用最下位の難易度データを選択する。
このアプローチによって、キュレートされた1Mデータセットのトレーニングが可能になり、競争力のあるパフォーマンスを実現しました。
3) 視覚的インストラクションチューニングでは,データセットの追加時に異なるデータセットにモデルスープを使用した結果,限界的な改善が得られた。
これらの革新により、9Bパラメータモデルが最先端のモデルと競合する結果となった。
私たちの戦略は効率的で軽量で、コミュニティで簡単に採用できます。
In recent years, vision-language models have made significant strides, excelling in tasks like optical character recognition and geometric problem-solving. However, several critical issues remain: 1) Proprietary models often lack transparency about their architectures, while open-source models need more detailed ablations of their training strategies. 2) Pre-training data in open-source works is under-explored, with datasets added empirically, making the process cumbersome. 3) Fine-tuning often focuses on adding datasets, leading to diminishing returns. To address these issues, we propose the following contributions: 1) We trained a robust baseline model using the latest advancements in vision-language models, introducing effective improvements and conducting comprehensive ablation and validation for each technique. 2) Inspired by recent work on large language models, we filtered pre-training data using perplexity, selecting the lowest perplexity data for training. This approach allowed us to train on a curated 1M dataset, achieving competitive performance. 3) During visual instruction tuning, we used model soup on different datasets when adding more datasets yielded marginal improvements. These innovations resulted in a 9B parameter model that performs competitively with state-of-the-art models. Our strategies are efficient and lightweight, making them easily adoptable by the community. | 翻訳日:2024-09-17 22:38:20 公開日:2024-09-14 |
# マルチモーダル・プロンプトエンジンを応用した地震探査用基礎モデル
A foundation model enpowered by a multi-modal prompt engine for universal seismic geobody interpretation across surveys ( http://arxiv.org/abs/2409.04962v2 ) ライセンス: Link先を確認 | Hang Gao, Xinming Wu, Luming Liang, Hanlin Sheng, Xu Si, Gao Hui, Yaxing Li, | (参考訳) 地震の地体解釈は構造地質学研究や様々な工学的応用に不可欠である。
既存のディープラーニング手法は、将来性を示すが、マルチモーダル入力のサポートが欠如し、異なるジオボディタイプやサーベイへの一般化に苦慮している。
本研究では, 地震探査における地盤構造を解析するための基礎モデルを提案する。
このモデルは、事前訓練された視覚基盤モデル(VFM)と洗練されたマルチモーダルプロンプトエンジンを統合する。
VFMは、巨大な自然画像に基づいて事前訓練され、地震データに基づいて微調整され、クロスサーベイの一般化のための堅牢な特徴抽出を提供する。
プロンプトエンジンは、複数モーダル事前情報を反復的に微調整する。
大規模な実験では、モデルの優れた精度、2Dから3Dへのスケーラビリティ、および訓練中に見えないものを含む様々なジオボディタイプへの一般化性を示す。
我々の知る限り、これは、リアルタイムのインタラクションをサポートしながら、調査全体にわたる任意のジオボディーを解釈できる、スケーラブルで汎用的なマルチモーダル基盤モデルとしては、初めてのものです。
提案手法は地学データ解釈のための新しいパラダイムを確立し,他のタスクへの転送の可能性も広い。
Seismic geobody interpretation is crucial for structural geology studies and various engineering applications. Existing deep learning methods show promise but lack support for multi-modal inputs and struggle to generalize to different geobody types or surveys. We introduce a promptable foundation model for interpreting any geobodies across seismic surveys. This model integrates a pre-trained vision foundation model (VFM) with a sophisticated multi-modal prompt engine. The VFM, pre-trained on massive natural images and fine-tuned on seismic data, provides robust feature extraction for cross-survey generalization. The prompt engine incorporates multi-modal prior information to iteratively refine geobody delineation. Extensive experiments demonstrate the model's superior accuracy, scalability from 2D to 3D, and generalizability to various geobody types, including those unseen during training. To our knowledge, this is the first highly scalable and versatile multi-modal foundation model capable of interpreting any geobodies across surveys while supporting real-time interactions. Our approach establishes a new paradigm for geoscientific data interpretation, with broad potential for transfer to other tasks. | 翻訳日:2024-09-17 22:38:20 公開日:2024-09-14 |
# 巨大高次相関と極多光子事象を持つ超広帯域光
Super-bunching light with giant high-order correlations and extreme multi-photon events ( http://arxiv.org/abs/2409.05419v2 ) ライセンス: Link先を確認 | Chengbing Qin, Yuanyuan Li, Yu Yan, Jiamin Li, Xiangdong Li, Yunrui Song, Xuedong Zhang, Shuangping Han, Zihua Liu, Yanqiang Guo, Guofeng Zhang, Ruiyun Chen, Jianyong Hu, Zhichun Yang, Xinhui Liu, Liantuan Xiao, Suotang Jia, | (参考訳) 強い相関を持つN-光子の束を発光する古典的でない光源は、量子力学の基礎的なテストから量子情報処理まで、分野間重要な汎用的な資源を表現している。
しかし、高次相関、gN(0)量子化光子相関は依然として数百に制限されている。
本稿では,光子数分布の測定により,g2(0)が5.86*104,g5(0)が2.72*108まで到達したフォトニック結晶ファイバの超広帯域光源について報告する。
巨大なg2(0)値の下では、スーパーバンチ光源はアップターンテール光子分布とユビキタス極端多光子事象を呈し、1パルスあたり平均1.99*10-4光子の平均で1つの光パルスから31光子が決定される。
この極端な事象の確率は、ポアソン分布を持つコヒーレントレーザーと比較して10139倍に向上している。
励起レーザーのパワーを変化させることで、この光源の光子数分布とそれに対応する高次相関は、ポアソニアンからスーパーバンチ分布に実質的に調整することができる。
これらの現象は、明るい励起光によって励起されるフォトニック結晶繊維の同期非線形相互作用によるものであり、理論シミュレーションは実験結果とよく一致している。
本研究は,超高次相関や極端多光子現象による非古典的光源の実現,高次相関イメージング,極端非線形光学効果,量子情報処理,多光子物理学との光-物質相互作用の探索などを行う。
Non-classical light sources emitting bundles of N-photons with strong correlation represent versatile resources of interdisciplinary importance with applications ranging from fundamental tests of quantum mechanics to quantum information processing. Yet, high-order correlations, gN(0),quantifying photon correlation, are still limited to hundreds. Here, we report the generation of a super-bunching light source in photonic crystal fiber with g2(0) reaching 5.86*104 and g5(0) up to 2.72*108, through measuring its photon number probability distributions. under giant g2(0) values, the super-bunching light source presents upturned-tail photon distributions and ubiquitous extreme multi-photon events, where 31 photons from a single light pulse at a mean of 1.99*10-4 photons per pulse have been determined. The probability of this extreme event has been enhanced by 10139 folds compared to a coherent laser with Poissonian distribution. By varying the power of the pumping laser, both photon number distributions and corresponding high-order correlations of this light source can be substantially tailored from Poissonian to super-bunching distributions. These phenomena are attributed to the synchronized nonlinear interactions in photonic crystal fibers pumping by bright squeezed light, and the theoretical simulations agree well with the experimental results. Our research showcases the ability to achieve non-classical light sources with giant high-order correlations and extreme multi-photon events, paving the way for high-order correlation imaging, extreme nonlinear optical effects, quantum information processing, and exploring light-matter interactions with multi-photon physics. | 翻訳日:2024-09-17 22:28:35 公開日:2024-09-14 |
# ClarQ-LLM:タスク指向ダイアログにおける情報の明確化と要求のためのベンチマーク
ClarQ-LLM: A Benchmark for Models Clarifying and Requesting Information in Task-Oriented Dialog ( http://arxiv.org/abs/2409.06097v2 ) ライセンス: Link先を確認 | Yujian Gan, Changling Li, Jinxia Xie, Luou Wen, Matthew Purver, Massimo Poesio, | (参考訳) ClarQ-LLMはバイリンガルな英語と中国語の会話タスク、会話エージェント、評価指標からなる評価フレームワークで、タスク指向の対話において、エージェントが明確化を問う能力を評価するための強力なベンチマークとして機能するように設計されている。
ベンチマークには31の異なるタスクタイプが含まれており、それぞれに情報検索者とプロバイダエージェント間の10のユニークな対話シナリオがある。
シナリオでは、不確実性を解決するために質問をし、タスクを完了するために必要な情報を集める必要がある。
固定された対話内容に基づいてエージェントを評価する従来のベンチマークとは異なり、ClarQ-LLMには、ベンチマークで元のヒューマンプロバイダを複製するプロバイダ会話エージェントが含まれている。
これにより、現在の検索エージェントと将来の検索エージェントの両方が、プロバイダエージェントと直接対話することで、対話を通じて情報収集タスクを完了させる機能をテストすることができます。
LLAMA3.1 405B 探索剤は最大成功率は 60.05 % しかなく、ClarQ-LLM が将来の研究に強い挑戦をしていることを示している。
We introduce ClarQ-LLM, an evaluation framework consisting of bilingual English-Chinese conversation tasks, conversational agents and evaluation metrics, designed to serve as a strong benchmark for assessing agents' ability to ask clarification questions in task-oriented dialogues. The benchmark includes 31 different task types, each with 10 unique dialogue scenarios between information seeker and provider agents. The scenarios require the seeker to ask questions to resolve uncertainty and gather necessary information to complete tasks. Unlike traditional benchmarks that evaluate agents based on fixed dialogue content, ClarQ-LLM includes a provider conversational agent to replicate the original human provider in the benchmark. This allows both current and future seeker agents to test their ability to complete information gathering tasks through dialogue by directly interacting with our provider agent. In tests, LLAMA3.1 405B seeker agent managed a maximum success rate of only 60.05\%, showing that ClarQ-LLM presents a strong challenge for future research. | 翻訳日:2024-09-17 22:28:35 公開日:2024-09-14 |
# Autoregressive + Chain of Thought (CoT) $\simeq$ Recurrent: Recurrenceの言語モデルにおける役割とリカレントトランスフォーマーの再検討
Autoregressive + Chain of Thought (CoT) $\simeq$ Recurrent: Recurrence's Role in Language Models and a Revist of Recurrent Transformer ( http://arxiv.org/abs/2409.09239v1 ) ライセンス: Link先を確認 | Xiang Zhang, Muhammad Abdul-Mageed, Laks V. S. Lakshmanan, | (参考訳) Transformerアーキテクチャはさまざまな言語モデリングタスクに優れ、RNNやLSTMといった従来のニューラルネットワークアーキテクチャよりも優れています。
これは部分的には、並列トレーニングと勾配のスムーズな流れを可能にする再帰接続の除去によるものである。
しかし、これは再帰構造から離れて、トランスフォーマーモデルをチョムスキーの計算階層の下端に配置し、計算能力に制限を与える。
その結果、高度なTransformerベースのモデルでさえ、カウント、文字列の反転、ブラケットのペアリング、乗算といったタスクでかなりの困難に直面している。
これらのタスクは、一見初等的なように見えるが、Transformerアーキテクチャの能力を超える計算複雑性のレベルを必要とする。
同時に、 ‘`Chain of Thought' (CoT) プロンプトの出現により、トランスフォーマーベースの言語モデルが、以前は不可能だったり、実行が不十分だったタスクに対処できるようになった。
心理学的観点からCoTを主に解釈する以前の研究にもかかわらず、‘textit{why} CoT’の包括的な理解は推論過程において非常に効果的であることが証明されている。
本研究では,言語モデルにおける繰り返し構造が推論能力に与える影響を徹底的に検討し,CoT手法が繰り返し計算を模倣し,自己回帰と再帰の橋渡しを行う方法について光を当てる。
この近似された再現性は、特にモデルの性能と計算能力を改善する。
さらに,近年のリカレントベーストランスフォーマーモデルの設計を再検討し,提案した「再帰完全性」の概念を通した計算能力に着目し,線形トランスフォーマーやRWKVのようなモデルにおける重要な理論的制約を特定する。
これを通じて、ニューラルモデルアーキテクチャに関する洞察を提供し、より良いモデル設計を促進することを目指している。
The Transformer architecture excels in a variety of language modeling tasks, outperforming traditional neural architectures such as RNN and LSTM. This is partially due to its elimination of recurrent connections, which allows for parallel training and a smoother flow of gradients. However, this move away from recurrent structures places the Transformer model at the lower end of Chomsky's computational hierarchy, imposing limitations on its computational abilities. Consequently, even advanced Transformer-based models face considerable difficulties in tasks like counting, string reversal, bracket pairing, and multiplication. These tasks, though seemingly elementary, require a level of computational complexity that exceeds the capabilities of the Transformer architecture. Concurrently, the emergence of ``Chain of Thought" (CoT) prompting has enabled Transformer-based language models to tackle tasks that were previously impossible or poorly executed. Despite some previous research primarily interpreting CoT from a psychological perspective, a comprehensive understanding of \textit{why} CoT proves so effective in the reasoning process remains elusive. In this work, we thoroughly investigate the influence of recurrent structures in language models on their reasoning abilities, shedding light on how the CoT approach can mimic recurrent computation and act as a bridge between autoregression and recurrence. It is this approximated recurrence that notably improves the model's performance and computational capacity. Moreover, we revisit recent recurrent-based Transformer model designs, focusing on their computational abilities through our proposed concept of ``recurrence-completeness" and identify key theoretical limitations in models like Linear Transformer and RWKV. Through this, we aim to provide insight into the neural model architectures and prompt better model design. | 翻訳日:2024-09-17 21:49:17 公開日:2024-09-14 |
# 確率勾配に基づく深部ニューラルネットワーク学習手法における超パラメータ最適化のためのクロスエントロピー最適化
Cross-Entropy Optimization for Hyperparameter Optimization in Stochastic Gradient-based Approaches to Train Deep Neural Networks ( http://arxiv.org/abs/2409.09240v1 ) ライセンス: Link先を確認 | Kevin Li, Fulu Li, | (参考訳) 本稿では,確率勾配に基づく深層ニューラルネットワークの学習手法におけるハイパーパラメータ最適化のためのクロスエントロピー最適化手法を提案する。
学習アルゴリズムのハイパーパラメータの値は、収束速度や一般化性能指標などのモデルの性能に大きな影響を与えることが多い。
学習アルゴリズムのハイパーパラメータは学習パラメータの一部である場合もあるが、Adam [5] のような確率最適化アルゴリズムのハイパーパラメータは定数として固定されるか、時間とともに単調な方法で変化し続ける。
予測最大化(EM)の枠組みにおいて,提案手法の詳細な解析を行う。
学習アルゴリズム(CEHPO)のハイパーパラメータ最適化のためのクロスエントロピー最適化のアルゴリズムは、ディープラーニングにおける他の最適化問題にも等しく適用可能である。
提案した手法がさまざまな視点を提供し、機械学習のさまざまな領域における最適化問題に対するいくつかの洞察を提供することを期待しています。
In this paper, we present a cross-entropy optimization method for hyperparameter optimization in stochastic gradient-based approaches to train deep neural networks. The value of a hyperparameter of a learning algorithm often has great impact on the performance of a model such as the convergence speed, the generalization performance metrics, etc. While in some cases the hyperparameters of a learning algorithm can be part of learning parameters, in other scenarios the hyperparameters of a stochastic optimization algorithm such as Adam [5] and its variants are either fixed as a constant or are kept changing in a monotonic way over time. We give an in-depth analysis of the presented method in the framework of expectation maximization (EM). The presented algorithm of cross-entropy optimization for hyperparameter optimization of a learning algorithm (CEHPO) can be equally applicable to other areas of optimization problems in deep learning. We hope that the presented methods can provide different perspectives and offer some insights for optimization problems in different areas of machine learning and beyond. | 翻訳日:2024-09-17 21:49:17 公開日:2024-09-14 |
# 分散ディープラーニングにおける作業ノード障害軽減のための動的重み付け戦略
A Dynamic Weighting Strategy to Mitigate Worker Node Failure in Distributed Deep Learning ( http://arxiv.org/abs/2409.09242v1 ) ライセンス: Link先を確認 | Yuesheng Xu, Arielle Carr, | (参考訳) ディープラーニングモデルの複雑さの増大と大量のデータ処理の需要により、大規模分散システムを効率的なトレーニングに活用することが不可欠である。
しかし、これらのシステムは通信のオーバーヘッド、ハードウェアの制限、ノードの障害といった重大な課題に直面している。
本稿では,AdaHessian法とAESGD(Elastic Averaging SGD)を含む分散ディープラーニングにおける最適化手法について検討する。
本稿では,トラグラーノードの故障による問題を軽減するための動的重み付け手法を提案する。
我々は,作業者数とコミュニケーション期間の異なる実験を行い,コンバージェンス率の向上と,我々の戦略を用いたテスト性能の実証を行った。
The increasing complexity of deep learning models and the demand for processing vast amounts of data make the utilization of large-scale distributed systems for efficient training essential. These systems, however, face significant challenges such as communication overhead, hardware limitations, and node failure. This paper investigates various optimization techniques in distributed deep learning, including Elastic Averaging SGD (EASGD) and the second-order method AdaHessian. We propose a dynamic weighting strategy to mitigate the problem of straggler nodes due to failure, enhancing the performance and efficiency of the overall training process. We conduct experiments with different numbers of workers and communication periods to demonstrate improved convergence rates and test performance using our strategy. | 翻訳日:2024-09-17 21:49:17 公開日:2024-09-14 |
# ハイパースペクトル画像の分類のための階層型スペクトル視変換器アーキテクチャの検討
Investigation of Hierarchical Spectral Vision Transformer Architecture for Classification of Hyperspectral Imagery ( http://arxiv.org/abs/2409.09244v1 ) ライセンス: Link先を確認 | Wei Liu, Saurabh Prasad, Melba Crawford, | (参考訳) 過去3年間で、リモートセンシングデータの解析に視覚変換器を用いたハイパースペクトル画像(HSI)分類に大きな関心が寄せられている。
これまでの研究は主に、局所的な特徴情報を抽出するネットワークの能力を強化するために、畳み込みニューラルネットワーク(CNN)の実証的な統合に焦点を当てていた。
しかし、視覚変換器の理論的正当性は、HSI分類においてCNNアーキテクチャよりも優れている。
この問題に対処するため,HSI分類に適した統合階層型スペクトルビジョントランスフォーマーアーキテクチャについて検討した。
この合理化されながらも効果的なビジョントランスフォーマーアーキテクチャでは、複数のミキサーモジュールは戦略的に別々に統合される。
例えば、畳み込み操作を行うCNNミキサー、空間自己保持ミキサー(SSA)ミキサー(CSA)ミキサー(CSA)ミキサー(CSA)ミキサー(CSA)ミキサー(CSA)ミキサー(CSA)ミキサー(CSA+CNNミキサ(CSA+CNNミキサ(CSA+CNN-ミキサ))などである。
この統合により、HSI分類に適したトランスフォーマーベースの広範囲の視覚モデルの開発が容易になる。
学習過程に関して、古典的CNNモデルと視覚変換器をベースとしたモデルとを対比した総合的な分析を行い、特に乱れの堅牢性とヘッセン語における最大の固有値の分布に注目した。
統合アーキテクチャに根ざした様々なミキサーモデルを用いて行った評価から、視覚変換器の独特な強さは、個々のマルチヘッド自己注意(MSA)コンポーネントにのみ依存するのではなく、その全体構造に起因していると結論付けている。
In the past three years, there has been significant interest in hyperspectral imagery (HSI) classification using vision Transformers for analysis of remotely sensed data. Previous research predominantly focused on the empirical integration of convolutional neural networks (CNNs) to augment the network's capability to extract local feature information. Yet, the theoretical justification for vision Transformers out-performing CNN architectures in HSI classification remains a question. To address this issue, a unified hierarchical spectral vision Transformer architecture, specifically tailored for HSI classification, is investigated. In this streamlined yet effective vision Transformer architecture, multiple mixer modules are strategically integrated separately. These include the CNN-mixer, which executes convolution operations; the spatial self-attention (SSA)-mixer and channel self-attention (CSA)-mixer, both of which are adaptations of classical self-attention blocks; and hybrid models such as the SSA+CNN-mixer and CSA+CNN-mixer, which merge convolution with self-attention operations. This integration facilitates the development of a broad spectrum of vision Transformer-based models tailored for HSI classification. In terms of the training process, a comprehensive analysis is performed, contrasting classical CNN models and vision Transformer-based counterparts, with particular attention to disturbance robustness and the distribution of the largest eigenvalue of the Hessian. From the evaluations conducted on various mixer models rooted in the unified architecture, it is concluded that the unique strength of vision Transformers can be attributed to their overarching architecture, rather than being exclusively reliant on individual multi-head self-attention (MSA) components. | 翻訳日:2024-09-17 21:49:17 公開日:2024-09-14 |
# 任意精度と空間性を考慮したニューラルネットワークのロバストトレーニング
Robust Training of Neural Networks at Arbitrary Precision and Sparsity ( http://arxiv.org/abs/2409.09245v1 ) ライセンス: Link先を確認 | Chengxi Ye, Grace Chu, Yanfeng Liu, Yichi Zhang, Lukasz Lew, Andrew Howard, | (参考訳) 量子化とスパーシフィケーションに固有の不連続な操作は、バックプロパゲーションに障害をもたらす。
これは、超低精度とスパースレジームでディープニューラルネットワークをトレーニングする場合、特に困難である。
そこで我々は,これらの困難な条件下でのトレーニングを安定化させる,新しい,頑健で普遍的な解法を提案する。
トレーニング中の摂動として量子化とスパーシフィケーションを定式化することにより、リッジ回帰に基づく摂動-弾性アプローチを導出する。
提案手法では,性能の低下を確実にするため,一貫したバックボーンモデルを用い,摂動による劣化を緩和する固有のノイズ低減機構を特徴とする。
この定式化により、既存のモデルは、市販のレシピで任意に低い精度と空間レベルでトレーニングすることができる。
さらに, 人工ニューラルネットワークと生体ニューラルネットワークのギャップを狭めるために, 時間的二元ニューラルネットワークのトレーニングに新たな視点を提供する。
The discontinuous operations inherent in quantization and sparsification introduce obstacles to backpropagation. This is particularly challenging when training deep neural networks in ultra-low precision and sparse regimes. We propose a novel, robust, and universal solution: a denoising affine transform that stabilizes training under these challenging conditions. By formulating quantization and sparsification as perturbations during training, we derive a perturbation-resilient approach based on ridge regression. Our solution employs a piecewise constant backbone model to ensure a performance lower bound and features an inherent noise reduction mechanism to mitigate perturbation-induced corruption. This formulation allows existing models to be trained at arbitrarily low precision and sparsity levels with off-the-shelf recipes. Furthermore, our method provides a novel perspective on training temporal binary neural networks, contributing to ongoing efforts to narrow the gap between artificial and biological neural networks. | 翻訳日:2024-09-17 21:49:17 公開日:2024-09-14 |
# NovAScore: ドキュメントレベルの新規性を評価するための新しい自動化メトリック
NovAScore: A New Automated Metric for Evaluating Document Level Novelty ( http://arxiv.org/abs/2409.09249v1 ) ライセンス: Link先を確認 | Lin Ai, Ziwei Gong, Harshsaiprasad Deshpande, Alexander Johnson, Emmy Phung, Ahmad Emami, Julia Hirschberg, | (参考訳) オンラインコンテンツの急速な拡大は情報冗長性の問題を強化し、真に新しい情報を識別できるソリューションの必要性を浮き彫りにした。
この課題にもかかわらず、研究コミュニティは、特に大きな言語モデル(LLM)の台頭により、新規性の検出に焦点を絞っている。
さらに、従来のアプローチは人間のアノテーションに大きく依存しており、これは時間がかかり、コストがかかり、特にアノテータがターゲット文書と大量の歴史的文書を比較する必要がある場合、特に困難である。
本研究では,文書レベルのノベルティを評価するための自動尺度であるNovAScore(Novelty Evaluation in Atomicity Score)を紹介する。
NovAScoreは、原子情報の新規性とサリエンススコアを集約し、高い解釈可能性と文書の新規性に関する詳細な分析を提供する。
NovAScoreの動的重量調整スキームでは、柔軟性が向上し、ドキュメント内の新規性レベルと情報の重要性の両方を評価するための追加の次元が提供される。
実験の結果,NovAScoreは新規性判断と強く相関し,TAP-DLND 1.0データセットの0.626点-双対相関,および内部の人間アノテーションデータセットの0.920ピアソン相関が得られた。
The rapid expansion of online content has intensified the issue of information redundancy, underscoring the need for solutions that can identify genuinely new information. Despite this challenge, the research community has seen a decline in focus on novelty detection, particularly with the rise of large language models (LLMs). Additionally, previous approaches have relied heavily on human annotation, which is time-consuming, costly, and particularly challenging when annotators must compare a target document against a vast number of historical documents. In this work, we introduce NovAScore (Novelty Evaluation in Atomicity Score), an automated metric for evaluating document-level novelty. NovAScore aggregates the novelty and salience scores of atomic information, providing high interpretability and a detailed analysis of a document's novelty. With its dynamic weight adjustment scheme, NovAScore offers enhanced flexibility and an additional dimension to assess both the novelty level and the importance of information within a document. Our experiments show that NovAScore strongly correlates with human judgments of novelty, achieving a 0.626 Point-Biserial correlation on the TAP-DLND 1.0 dataset and a 0.920 Pearson correlation on an internal human-annotated dataset. | 翻訳日:2024-09-17 21:49:17 公開日:2024-09-14 |
# ETAGE:ロバストモデルパフォーマンスのための統合エントロピーとグラディエントノルムによるテスト時間適応の強化
ETAGE: Enhanced Test Time Adaptation with Integrated Entropy and Gradient Norms for Robust Model Performance ( http://arxiv.org/abs/2409.09251v1 ) ライセンス: Link先を確認 | Afshar Shamsi, Rejisa Becirovic, Ahmadreza Argha, Ehsan Abbasnejad, Hamid Alinejad-Rokny, Arash Mohammadi, | (参考訳) テスト時間適応(TTA)は、ソースデータがアクセスできない場合でも、トレーニング分布から逸脱する未確認のテストデータを扱うためのディープラーニングモデルを備えている。
従来のTTA手法はしばしばエントロピーを信頼度として依存するが、その効果は特にバイアスのあるシナリオにおいて制限される。
Pseudo Label Probability difference (PLPD) のような既存の手法を拡張して,エントロピー最小化を勾配ノルムとPLPDと統合し,サンプル選択と適応性を向上させる改良TTA法であるETAGEを導入する。
提案手法は,高エントロピーと高勾配ノルムを適応から組み合わせることで,不安定を生じにくいサンプルを優先し,従来の手法でよく見られる雑音への過度適応を回避する。
CIFAR-10-CとCIFAR-100-Cデータセットに関する大規模な実験は、我々のアプローチが既存のTTAテクニック、特に挑戦的で偏りのあるシナリオで優れており、さまざまなテストシナリオでより堅牢で一貫性のあるモデルパフォーマンスを実現していることを示している。
ETAGEのコードベースはhttps://github.com/afsharshamsi/ETAGEで公開されている。
Test time adaptation (TTA) equips deep learning models to handle unseen test data that deviates from the training distribution, even when source data is inaccessible. While traditional TTA methods often rely on entropy as a confidence metric, its effectiveness can be limited, particularly in biased scenarios. Extending existing approaches like the Pseudo Label Probability Difference (PLPD), we introduce ETAGE, a refined TTA method that integrates entropy minimization with gradient norms and PLPD, to enhance sample selection and adaptation. Our method prioritizes samples that are less likely to cause instability by combining high entropy with high gradient norms out of adaptation, thus avoiding the overfitting to noise often observed in previous methods. Extensive experiments on CIFAR-10-C and CIFAR-100-C datasets demonstrate that our approach outperforms existing TTA techniques, particularly in challenging and biased scenarios, leading to more robust and consistent model performance across diverse test scenarios. The codebase for ETAGE is available on https://github.com/afsharshamsi/ETAGE. | 翻訳日:2024-09-17 21:49:17 公開日:2024-09-14 |
# 二層式ダイナミックセマンティックトケ発生器の調整によるレコメンデーションのためのアンリーシュLDMの可能性
Unleash LLMs Potential for Recommendation by Coordinating Twin-Tower Dynamic Semantic Token Generator ( http://arxiv.org/abs/2409.09253v1 ) ライセンス: Link先を確認 | Jun Yin, Zhengxin Zeng, Mingzheng Li, Hao Yan, Chaozhuo Li, Weihao Han, Jianjin Zhang, Ruochen Liu, Allen Sun, Denvy Deng, Feng Sun, Qi Zhang, Shirui Pan, Senzhang Wang, | (参考訳) 意味理解と論理的推論における前例のない能力のため、事前訓練された大規模言語モデル(LLM)は、次世代レコメンデータシステム(RS)の開発において大きな可能性を秘めている。
しかし、現在の手法で採用されている静的インデックスパラダイムは、LLMのキャパシティを推奨に利用することを大幅に制限し、セマンティック知識と協調知識の整合性に欠けるだけでなく、高次ユーザ・イテム相互作用パターンの無視につながる。
本稿では,動的セマンティック・インデックス・パラダイムを採用した最初の生成RSであるTwin-Tower Dynamic Semantic Recommender (TTDS)を提案する。
より具体的には、ツイン・トワー・セマンティック・トークン・ジェネレータをLLMベースのレコメンデータに統合し、アイテムやユーザに対して意味のあるセマンティック・インデックスを階層的に割り当て、対象項目のセマンティック・インデックスを予測する動的知識融合フレームワークを初めて提案する。
さらに、意味的知識と協調的知識の多義的なアライメントを容易にするために、二重モード変分自動エンコーダを提案する。
最終的に、ユーザ・イテム相互作用パターンの高次取得のために特別にカスタマイズされた新しいチューニングタスクが提案され、ユーザ・ヒストリカル・ビヘイビアの利点を生かした。
3つの公開データセットにわたる大規模な実験は、LLMベースの生成RSの開発において提案手法の優位性を実証している。
提案したTTDSレコメンデータは,平均19.41%のヒットレート,20.84%のNDCG測定値を実現している。
Owing to the unprecedented capability in semantic understanding and logical reasoning, the pre-trained large language models (LLMs) have shown fantastic potential in developing the next-generation recommender systems (RSs). However, the static index paradigm adopted by current methods greatly restricts the utilization of LLMs capacity for recommendation, leading to not only the insufficient alignment between semantic and collaborative knowledge, but also the neglect of high-order user-item interaction patterns. In this paper, we propose Twin-Tower Dynamic Semantic Recommender (TTDS), the first generative RS which adopts dynamic semantic index paradigm, targeting at resolving the above problems simultaneously. To be more specific, we for the first time contrive a dynamic knowledge fusion framework which integrates a twin-tower semantic token generator into the LLM-based recommender, hierarchically allocating meaningful semantic index for items and users, and accordingly predicting the semantic index of target item. Furthermore, a dual-modality variational auto-encoder is proposed to facilitate multi-grained alignment between semantic and collaborative knowledge. Eventually, a series of novel tuning tasks specially customized for capturing high-order user-item interaction patterns are proposed to take advantages of user historical behavior. Extensive experiments across three public datasets demonstrate the superiority of the proposed methodology in developing LLM-based generative RSs. The proposed TTDS recommender achieves an average improvement of 19.41% in Hit-Rate and 20.84% in NDCG metric, compared with the leading baseline methods. | 翻訳日:2024-09-17 21:49:17 公開日:2024-09-14 |
# VSFormer:マルチビュー3次元形状理解のためのフレキシブルビューセットのマイニング相関
VSFormer: Mining Correlations in Flexible View Set for Multi-view 3D Shape Understanding ( http://arxiv.org/abs/2409.09254v1 ) ライセンス: Link先を確認 | Hongyu Sun, Yongcai Wang, Peng Wang, Haoran Deng, Xudong Cai, Deying Li, | (参考訳) ビューベース手法は3次元形状理解において有望な性能を示した。
しかし、ビュー間の関係を強く仮定したり、間接的にマルチビュー相関を学習する傾向があるため、ビュー間の相関を探索する柔軟性や、ターゲットタスクの有効性が制限される。
以上の課題を克服するために,複数の視点に対するフレキシブルな組織と明示的な相関学習について検討する。
特に,3次元形状の異なるビューを,厳密な関係の仮定を排除し,ビュー間の適切な情報交換と融合を容易にする,置換不変集合である「emph{View Set}」に組み込むことを提案する。
そこで我々は,集合内のすべての要素のペアワイドおよび高次相関を明示的に捉えるために,ninmble Transformerモデルであるemph{VSFormer}を考案した。
一方,ビューセットのカルト積とアテンション機構の相関行列との自然な対応を理論的に明らかにし,モデル設計を支援する。
包括的な実験では、VSFormerの柔軟性、効率的な推論効率、パフォーマンスが向上している。
特に、VSFormerはModelNet40、ScanObjectNN、RGBDなど、さまざまな3D認識データセットの最先端結果に到達している。
また、SHREC'17検索ベンチマークで新しい記録を樹立した。
コードとデータセットは \url{https://github.com/auniquesun/VSFormer} で公開されている。
View-based methods have demonstrated promising performance in 3D shape understanding. However, they tend to make strong assumptions about the relations between views or learn the multi-view correlations indirectly, which limits the flexibility of exploring inter-view correlations and the effectiveness of target tasks. To overcome the above problems, this paper investigates flexible organization and explicit correlation learning for multiple views. In particular, we propose to incorporate different views of a 3D shape into a permutation-invariant set, referred to as \emph{View Set}, which removes rigid relation assumptions and facilitates adequate information exchange and fusion among views. Based on that, we devise a nimble Transformer model, named \emph{VSFormer}, to explicitly capture pairwise and higher-order correlations of all elements in the set. Meanwhile, we theoretically reveal a natural correspondence between the Cartesian product of a view set and the correlation matrix in the attention mechanism, which supports our model design. Comprehensive experiments suggest that VSFormer has better flexibility, efficient inference efficiency and superior performance. Notably, VSFormer reaches state-of-the-art results on various 3d recognition datasets, including ModelNet40, ScanObjectNN and RGBD. It also establishes new records on the SHREC'17 retrieval benchmark. The code and datasets are available at \url{https://github.com/auniquesun/VSFormer}. | 翻訳日:2024-09-17 21:49:17 公開日:2024-09-14 |
# 高エネルギーにおける変分によるローレンツ非分散違反検出のための幾何学的位相支援
Geometric phase assisted detection of Lorentz-invariance violation from modified dispersion at high energies ( http://arxiv.org/abs/2409.09257v1 ) ライセンス: Link先を確認 | Yihao Wu, Zehua Tian, | (参考訳) 量子重力の多くの理論は、ローレンツ不変量、$\omega_{|\mathbf{k}|}=|\mathbf{k}|f(|\mathbf{k}|/M_\star)$の形のローレンツ違反分散関係を、エネルギースケールにおいて$M_\star$よりもはるかに低い値で提案している。
しかし、そのようなスケールはプランクスケールに近いと仮定されるため、ローレンツ違反理論の特徴は弱く、その実験は極めて難しいものとなる。
幾何学的位相 (GP) は弱い効果に対して累積的かつ敏感な性質を持つため、このようなローレンツ散乱を伴う量子場に結合した慣性原子検出器によって得られたGPを探索する。
ローレンツ振動場理論の場合、GPは検出器の速度に依存しており、GPが検出器の速度に依存しないローレンツ対称性の場合とは全く異なる。
特に、GPは、どこかのユニティよりも低い値のf$に対して、急激な低エネルギーローレンツ違反を示す可能性がある。
本研究では, ループ量子重力による高分子の量子化の検出に応用し, 現在のイオン衝突型加速器の速さより低い検出器の速度を補助して, 実験的に検出可能なGPを得ることを示す。
さらに、GPの累積特性は、関連する検出を著しく促進する可能性がある。
Many theories of quantum gravity propose Lorentz-violating dispersion relations of the form $\omega_{|\mathbf{k}|}=|\mathbf{k}|f(|\mathbf{k}|/M_\star)$, which approximately recover to the Lorentz invariance, $\omega_{|\mathbf{k}|}\approx|\mathbf{k}|$, at the energy scales much below $M_\star$. However, usually such a scale is assumed to be near the Planck scale, thus the feature of the Lorentz-violating theory is weak and its experimental test becomes extremely challenging. Since the geometric phase (GP) is of accumulative and sensitive nature to weak effects, here we explore the GP acquired by an inertial atomic detector that is coupled to a quantum field with this kind of Lorentz-violating dispersion. We show that for the Lorentz-violating field theory case the GP depends on the velocity of the detector, which is quite different from the Lorentz symmetry case where the GP is independent of the detector's velocity. In particular, we show that the GP may present a drastic low-energy Lorentz violation for any $f$ that dips below unity somewhere. We apply our analysis to detecting the polymer quantization motivated by loop quantum gravity, and show the detector acquires an experimentally detectable GP with the assist of detector's velocity that below current ion collider rapidities. Furthermore, the accumulative nature of GP might facilitate the relevant detection significantly. | 翻訳日:2024-09-17 21:38:57 公開日:2024-09-14 |
# 質問の難易度評価のための指導的学習
Active Learning to Guide Labeling Efforts for Question Difficulty Estimation ( http://arxiv.org/abs/2409.09258v1 ) ライセンス: Link先を確認 | Arthur Thuy, Ekaterina Loginova, Dries F. Benoit, | (参考訳) 近年,自然言語処理技術を用いた質問難読度推定(QDE)の研究が急増している。
トランスフォーマーベースのニューラルネットワークは、主に教師なしの手法ではなく、教師なし学習における独立した研究によって、最先端のパフォーマンスを達成する。
教師付き手法は予測性能に重点を置いているが、十分なラベル付きデータが必要である。
一方、教師なしの手法はラベル付きデータを必要としないが、実際には計算コストがかかる別の評価基準に依存している。
この研究は、最先端のモデルの性能に適合しながらラベル付け作業を最小化する、教師付き人間ループアプローチであるQDEのアクティブラーニングを探求することで、研究ギャップを埋める。
アクティブな学習プロセスはラベル付きサブセットを反復的にトレーニングし、最も有意義なラベル付きデータポイントに対してのみ、人間の専門家からラベルを取得する。
さらに,ラベル付き集合に最も情報性の高いサンプルを付加する新たな取得関数PowerVarianceを提案する。
筆者らはDistolBERTをQDEに使用し,モンテカルロ液滴法を用いて未ラベル試料の疫学的不確実性を把握し,情報的サンプルを同定した。
実験により、PowerVarianceの取得によるアクティブラーニングは、トレーニングデータの10%だけをラベル付けした後、完全に教師付きモデルに近いパフォーマンスを達成することが示された。
提案手法は、教育資源の責任ある利用を促進し、QDEツールをコースインストラクターに利用しやすくし、パーソナライズされたサポートシステムや質問応答ツールなど他のアプリケーションにも有望である。
In recent years, there has been a surge in research on Question Difficulty Estimation (QDE) using natural language processing techniques. Transformer-based neural networks achieve state-of-the-art performance, primarily through supervised methods but with an isolated study in unsupervised learning. While supervised methods focus on predictive performance, they require abundant labeled data. On the other hand, unsupervised methods do not require labeled data but rely on a different evaluation metric that is also computationally expensive in practice. This work bridges the research gap by exploring active learning for QDE, a supervised human-in-the-loop approach striving to minimize the labeling efforts while matching the performance of state-of-the-art models. The active learning process iteratively trains on a labeled subset, acquiring labels from human experts only for the most informative unlabeled data points. Furthermore, we propose a novel acquisition function PowerVariance to add the most informative samples to the labeled set, a regression extension to the PowerBALD function popular in classification. We employ DistilBERT for QDE and identify informative samples by applying Monte Carlo dropout to capture epistemic uncertainty in unlabeled samples. The experiments demonstrate that active learning with PowerVariance acquisition achieves a performance close to fully supervised models after labeling only 10% of the training data. The proposed methodology promotes the responsible use of educational resources, makes QDE tools more accessible to course instructors, and is promising for other applications such as personalized support systems and question-answering tools. | 翻訳日:2024-09-17 21:38:57 公開日:2024-09-14 |
# BTZ時空における開量子電池の散逸ダイナミクス
Dissipative dynamics of an open quantum battery in the BTZ spacetime ( http://arxiv.org/abs/2409.09259v1 ) ライセンス: Link先を確認 | Zehua Tian, Xiaobao Liu, Jieci Wang, Jiliang Jing, | (参考訳) 2レベルシステムとしてモデル化された量子電池の充電性能は、BTZ時空におけるディリクレ、透明、ノイマン境界条件を満たす量子場の真空揺らぎの存在によってどのように影響されるかを考える。
量子電池は、充電器として機能する外部の静的駆動を受ける。
一方、量子場は、デコヒーレンスや純粋なデフォーカス機構を含む量子電池の縦方向と横方向のスピン成分に結合していると仮定される。
量子バッテリの充電と放電のダイナミクスは、相対論的フレームワークにおける以前のオープン量子システムアプローチを、駆動と多重結合の両方を含むこのより一般的なシナリオに拡張することで導かれる。
蓄えられたエネルギーの時間的進化に関する解析式を提示する。
駆動振幅が量子バッテリのエネルギーレベル間隔よりも強い/弱い場合、純粋に消耗する消耗性結合は、消長性消耗性結合の場合よりも、より良い/弱い充電性能をもたらすことが判明した。
また, ホーキング温度の上昇は, 閉量子バターの場合と比較して一定の条件下での帯電性能の向上に寄与し, 帯電プロトコルの消散による曲線時空の真空揺らぎからエネルギーを抽出できることが示唆された。
量子場の異なる境界条件は、異なる充電性能をもたらす可能性がある。
また,充電プロトコルのスイッチオフ後のエネルギー挙動をモニタリングすることで,充電安定性にも対処する。
本研究は, 曲がった時空における緩和効果を解明するための一般的な枠組みを示し, 時空特性と磁場境界条件が帯電過程にどのように影響するかを明らかにし, 帯電プロトコルによる時空特性と熱力学の探索に光を当てる可能性がある。
We consider how charging performances of a quantum battery, modeled as a two-level system, are influenced by the presence of vacuum fluctuations of a quantum field satisfying the Dirichlet, transparent, and Neumann boundary conditions in the BTZ spacetime. The quantum battery is subjected to an external static driving which works as a charger. Meanwhile, the quantum field is assumed to be coupled to both longitudinal and transverse spin components of the quantum battery including decoherence and pure dephasing mechanisms. Charging and discharging dynamics of the quantum battery are derived by extending the previous open quantum system approach in the relativistic framework to this more general scenario including both the driving and multiple coupling. Analytic expressions for the time evolution of the energy stored are presented. We find that when the driving amplitude is stronger/weaker than the energy-level spacing of the quantum battery the pure dephasing dissipative coupling results in better/worse charging performances than the decoherence dissipative coupling case. We also find that higher Hawking temperature helps to improve the charging performance under certain conditions compared with the closed quantum buttery case, implying the feasibility of energy extraction from vacuum fluctuations in curved spacetime via dissipation in charging protocol. Different boundary conditions for quantum field may lead to different charging performance. Furthermore, we also address the charging stability by monitoring the energy behaviour after the charging protocol has been switched off. Our study presents a general framework to investigate relaxation effects in curved spacetime, and reveals how spacetime properties and field boundary condition affect the charging process, which in turn may shed light on the exploration of the spacetime properties and thermodynamics via the charging protocol. | 翻訳日:2024-09-17 21:38:57 公開日:2024-09-14 |
# 静的単語埋め込みにおける内因性バイアス量と外因性バイアス量と測定バイアスの相関性の解析
Analyzing Correlations Between Intrinsic and Extrinsic Bias Metrics of Static Word Embeddings With Their Measuring Biases Aligned ( http://arxiv.org/abs/2409.09260v1 ) ライセンス: Link先を確認 | Taisei Katô, Yusuke Miyao, | (参考訳) 本研究では,自然言語処理(NLP)システムがバイアス行動を示すかどうかを予測するために,静的単語埋め込みの固有バイアス指標の有用性について検討する。
単語埋め込みは、実際のベクトルを通して単語の意味を表現する基本的なNLP技術の1つであり、問題として、ステレオタイプのような社会的バイアスも学習する。
固有バイアスメトリックはベクトルの特性を調べることによってバイアスを測定する一方、外在バイアスメトリックは単語埋め込みで訓練されたNLPシステムがバイアスを受けるかどうかを検査する。
以前の研究では、共通の内在バイアス指標は、通常、外在バイアス指標と相関しないことがわかった。
しかし, 内因性および外因性バイアスの指標は, ほとんどの場合同じバイアスを計測しなかったため, 相関の欠如が真であるかどうかが疑問視される。
本稿では,外因性バイアス指標のデータセットから特徴語を抽出し,それらの単語と内因性バイアス指標との相関関係を分析し,両指標が同一バイアスを測定することを保証する。
内因性バイアスの指標と中程度から高い相関性を示したが,他の相関性はほとんど認められなかった。
この結果は、固有のバイアス指標が特定の設定においてバイアスの振る舞いを予測できるが、他の設定では予測できないことを示唆している。
実験コードはGitHubで公開されている。
We examine the abilities of intrinsic bias metrics of static word embeddings to predict whether Natural Language Processing (NLP) systems exhibit biased behavior. A word embedding is one of the fundamental NLP technologies that represents the meanings of words through real vectors, and problematically, it also learns social biases such as stereotypes. An intrinsic bias metric measures bias by examining a characteristic of vectors, while an extrinsic bias metric checks whether an NLP system trained with a word embedding is biased. A previous study found that a common intrinsic bias metric usually does not correlate with extrinsic bias metrics. However, the intrinsic and extrinsic bias metrics did not measure the same bias in most cases, which makes us question whether the lack of correlation is genuine. In this paper, we extract characteristic words from datasets of extrinsic bias metrics and analyze correlations with intrinsic bias metrics with those words to ensure both metrics measure the same bias. We observed moderate to high correlations with some extrinsic bias metrics but little to no correlations with the others. This result suggests that intrinsic bias metrics can predict biased behavior in particular settings but not in others. Experiment codes are available at GitHub. | 翻訳日:2024-09-17 21:38:57 公開日:2024-09-14 |
# 私のモデルに何が間違っているのか?意味的データスライシングによる系統的問題を特定する
What Is Wrong with My Model? Identifying Systematic Problems with Semantic Data Slicing ( http://arxiv.org/abs/2409.09261v1 ) ライセンス: Link先を確認 | Chenyang Yang, Yining Hong, Grace A. Lewis, Tongshuang Wu, Christian Kästner, | (参考訳) 機械学習モデルはミスを犯すが、失敗の背後にある体系的な問題を特定するのは難しい場合もある。
実践者は、エラー分析、テスト、監査、レッドチームなど、さまざまな活動に従事して、モデルに何ができないか(あるいはなくなったか)の仮説を立てます。
これらの仮説を検証するために、実践者はデータスライシングを使用して関連する事例を特定する。
しかし、従来のスライシングは利用可能な機能やプログラムスライシング機能によって制限されている。
本研究では,セマンティックデータスライシングをサポートするフレームワークであるSemSlicerを提案する。
SemSlicerはLarge Language Modelsを使用して、データセットを注釈付けし、ユーザ定義スライシング基準からスライスを生成する。
SemSlicerは、低コストで正確なスライスを生成し、異なる設計次元間の柔軟なトレードオフを可能にし、パフォーマンスの低いデータスライスを確実に識別し、実践者が体系的な問題を反映した有用なデータスライスを特定するのに役立つことを示す。
Machine learning models make mistakes, yet sometimes it is difficult to identify the systematic problems behind the mistakes. Practitioners engage in various activities, including error analysis, testing, auditing, and red-teaming, to form hypotheses of what can go (or has gone) wrong with their models. To validate these hypotheses, practitioners employ data slicing to identify relevant examples. However, traditional data slicing is limited by available features and programmatic slicing functions. In this work, we propose SemSlicer, a framework that supports semantic data slicing, which identifies a semantically coherent slice, without the need for existing features. SemSlicer uses Large Language Models to annotate datasets and generate slices from any user-defined slicing criteria. We show that SemSlicer generates accurate slices with low cost, allows flexible trade-offs between different design dimensions, reliably identifies under-performing data slices, and helps practitioners identify useful data slices that reflect systematic problems. | 翻訳日:2024-09-17 21:38:57 公開日:2024-09-14 |
# 動的グラフにおける自動エンコーダを意識したインフォーマティブなサブグラフ
Informative Subgraphs Aware Masked Auto-Encoder in Dynamic Graphs ( http://arxiv.org/abs/2409.09262v1 ) ライセンス: Link先を確認 | Pengfe Jiao, Xinxun Zhang, Mengzhou Gao, Tianpeng Li, Zhidong Zhao, | (参考訳) 生成的自己教師型学習(SSL)、特にマスク付き自己エンコーダ(MAE)は、グラフ機械学習に多大な研究関心を寄せている。
しかし、動的グラフにおけるMAEの研究はいまだ研究されていない。
このギャップは、主に、トポロジカルな構造情報を持つだけでなく、時間的進化依存をカプセル化した動的グラフによるものである。
多くのMAE法が採用しているランダムマスキング戦略を適用すると、動的グラフの進化を導く重要な部分グラフが取り除かれ、ノード表現において重要な時空間情報が失われる。
本稿では, このギャップを埋めるために, 動的グラフにおける自動エンコーダ, 即ちDyGISを提案する。
具体的には、動的グラフの進化を導く情報的部分グラフを生成するための制約付き確率的生成モデルを導入する。
DyGISによって同定された情報サブグラフは、動的グラフマスキングオートエンコーダ(DGMAE)の入力として機能し、動的グラフ内の進化時空間情報の完全性を確保する。
11のデータセットに対する大規模な実験は、DyGISが複数のタスクにわたって最先端のパフォーマンスを達成することを示した。
Generative self-supervised learning (SSL), especially masked autoencoders (MAE), has greatly succeeded and garnered substantial research interest in graph machine learning. However, the research of MAE in dynamic graphs is still scant. This gap is primarily due to the dynamic graph not only possessing topological structure information but also encapsulating temporal evolution dependency. Applying a random masking strategy which most MAE methods adopt to dynamic graphs will remove the crucial subgraph that guides the evolution of dynamic graphs, resulting in the loss of crucial spatio-temporal information in node representations. To bridge this gap, in this paper, we propose a novel Informative Subgraphs Aware Masked Auto-Encoder in Dynamic Graph, namely DyGIS. Specifically, we introduce a constrained probabilistic generative model to generate informative subgraphs that guide the evolution of dynamic graphs, successfully alleviating the issue of missing dynamic evolution subgraphs. The informative subgraph identified by DyGIS will serve as the input of dynamic graph masked autoencoder (DGMAE), effectively ensuring the integrity of the evolutionary spatio-temporal information within dynamic graphs. Extensive experiments on eleven datasets demonstrate that DyGIS achieves state-of-the-art performance across multiple tasks. | 翻訳日:2024-09-17 21:38:57 公開日:2024-09-14 |
# ハイブリッドMLモデルによるチリ電力セクターの風速予測
Operational Wind Speed Forecasts for Chile's Electric Power Sector Using a Hybrid ML Model ( http://arxiv.org/abs/2409.09263v1 ) ライセンス: Link先を確認 | Dhruv Suri, Praneet Dutta, Flora Xue, Ines Azevedo, Ravi Jain, | (参考訳) チリの電力部門は再生可能エネルギーを動力とする未来に向かって進んでいるため、電力網の運営には再生可能エネルギーの正確な予測が不可欠である。
再生可能エネルギー源の統合は、化石燃料源と比較して非常に変動し、クリーンエネルギーの入手が遅れる、その発電を管理するという運用上の困難のため、特に困難である。
これを軽減するために、チリの火力発電所における風と太陽からの断続的な発電の増加の影響を定量化し、チリの2つのカスタムMLモデルを組み合わせたハイブリッド風速予測手法を導入する。
第1のモデルは短期予測のためのMLモデルであるTiDEをベースとし、第2のモデルはグラフニューラルネットワークであるGraphCastをベースとして、中期予測は最大10日である。
本手法は, 短期予測では4-21%, 中長期予測では5-23%, チリの温暖化, 削減, システムレベルの排出に対する風力発電の影響を直接的に低減できる。
As Chile's electric power sector advances toward a future powered by renewable energy, accurate forecasting of renewable generation is essential for managing grid operations. The integration of renewable energy sources is particularly challenging due to the operational difficulties of managing their power generation, which is highly variable compared to fossil fuel sources, delaying the availability of clean energy. To mitigate this, we quantify the impact of increasing intermittent generation from wind and solar on thermal power plants in Chile and introduce a hybrid wind speed forecasting methodology which combines two custom ML models for Chile. The first model is based on TiDE, an MLP-based ML model for short-term forecasts, and the second is based on a graph neural network, GraphCast, for medium-term forecasts up to 10 days. Our hybrid approach outperforms the most accurate operational deterministic systems by 4-21% for short-term forecasts and 5-23% for medium-term forecasts and can directly lower the impact of wind generation on thermal ramping, curtailment, and system-level emissions in Chile. | 翻訳日:2024-09-17 21:38:57 公開日:2024-09-14 |
# 視覚的質問に対する視覚・言語モデル選択の指導-タスク・ドメイン・知識タイプ間の回答-
Guiding Vision-Language Model Selection for Visual Question-Answering Across Tasks, Domains, and Knowledge Types ( http://arxiv.org/abs/2409.09269v1 ) ライセンス: Link先を確認 | Neelabh Sinha, Vinija Jain, Aman Chadha, | (参考訳) VQA(Visual Question-Answering)は、視覚言語モデル(Vision-Language Models, VLM)がゼロショット推論で良い結果を得た後、ユーザエクスペリエンスを支援するいくつかのアプリケーションにおいて重要なユースケースとなっている。
しかし、実用的な設定で標準化されたフレームワークを使用してアプリケーション要求に対して異なるVLMを評価することは依然として難しいです。
本稿では,VQAタスクに適したVLMを実践的に評価するための総合的なフレームワークを提案する。
本稿では,タスクタイプ,アプリケーションドメイン,知識タイプを付加した,確立されたVQAベンチマークから得られた新しいデータセットを提案する。
また、GPT-4oを用いて開発されたマルチモーダル評価指標であるGoEvalを導入し、人間の判断と56.71%の相関係数を達成した。
10種類の最先端のVLMを用いて行った実験では、単一のモデルが普遍的に優れていることはなく、適切な選択が重要な設計決定となることが判明した。
Gemini-1.5-Pro や GPT-4o-mini といったプロプライエタリなモデルは、InternVL-2-8B や CogVLM-2-Llama-3-19B といったオープンソースモデルは、特定の文脈において競合的な強みを示しながら、他のモデルよりも優れている。
本研究は,特定のタスク要件とリソース制約に基づいてVLMの選択をガイドし,他の視覚言語タスクにも拡張可能である。
Visual Question-Answering (VQA) has become a key use-case in several applications to aid user experience, particularly after Vision-Language Models (VLMs) achieving good results in zero-shot inference. But evaluating different VLMs for an application requirement using a standardized framework in practical settings is still challenging. This paper introduces a comprehensive framework for evaluating VLMs tailored to VQA tasks in practical settings. We present a novel dataset derived from established VQA benchmarks, annotated with task types, application domains, and knowledge types, three key practical aspects on which tasks can vary. We also introduce GoEval, a multimodal evaluation metric developed using GPT-4o, achieving a correlation factor of 56.71% with human judgments. Our experiments with ten state-of-the-art VLMs reveals that no single model excelling universally, making appropriate selection a key design decision. Proprietary models such as Gemini-1.5-Pro and GPT-4o-mini generally outperform others, though open-source models like InternVL-2-8B and CogVLM-2-Llama-3-19B demonstrate competitive strengths in specific contexts, while providing additional advantages. This study guides the selection of VLMs based on specific task requirements and resource constraints, and can also be extended to other vision-language tasks. | 翻訳日:2024-09-17 21:38:57 公開日:2024-09-14 |
# LLMを用いたコード生成によるPythonシンボリック実行
Python Symbolic Execution with LLM-powered Code Generation ( http://arxiv.org/abs/2409.09271v1 ) ライセンス: Link先を確認 | Wenhan Wang, Kaibo Liu, An Ran Chen, Ge Li, Zhi Jin, Gang Huang, Lei Ma, | (参考訳) シンボリック実行はソフトウェアテストにおいて重要な技術であり、シンボリックパスの制約を収集し、SMTソルバで制約を解くことによってテストケースを生成する。
シンボリックな実行は高いカバレッジテストケースを生成する上で有効であることが証明されている。
さらに、シンボリック実行は、Pythonのような動的型付け言語に適用する場合、柔軟性のあるPython文法を厳密なソルバに変換することが極めて難しいため、多くの困難に直面している。
LLM-Symは,SMTソルバ,Z3を自動的に呼び出して実行経路制約を解決する。
LLMエージェントは、入門レベルのシンボリック実行エンジンに基づいて、複雑なデータ型‘list’を持つプログラムに拡張することができる。
LLM-Symのコアコントリビューションは、複雑なPythonパスの制約をZ3コードに変換することだ。
正確なパス・ツー・Z3変換を実現するために,型推論,検索,自己修正を含む複数ステップのコード生成パイプラインを設計する。
実験の結果,LLM-Symは複雑な制御フローとリストデータ構造を持つLeetcode問題の経路制約を解くことができることがわかった。
提案手法は,LLMの生成能力とシンボリック・ソルバの推論能力の融合を図り,LLM拡張テストケース生成における新たな機会を開くものである。
Symbolic execution is a key technology in software testing, which generates test cases by collecting symbolic path constraints and then solving constraints with SMT solvers. Symbolic execution has been proven helpful in generating high-coverage test cases, but its limitations, e.g., the difficulties in solving path constraints, prevent it from broader usage in software testing. Moreover, symbolic execution has encountered many difficulties when applied to dynamically typed languages like Python, because it is extremely challenging to translate the flexible Python grammar into rigid solvers. To overcome the main challenges of applying symbolic execution in Python, we proposed an LLM-empowered agent, LLM-Sym, that automatically calls an SMT solver, Z3, to solve execution path constraints. Based on an introductory-level symbolic execution engine, our LLM agent can extend it to supporting programs with complex data type `list'. The core contribution of LLM-Sym is translating complex Python path constraints into Z3 code. To enable accurate path-to-Z3 translation, we design a multiple-step code generation pipeline including type inference, retrieval and self-refine. Our experiments demonstrate that LLM-Sym is capable of solving path constraints on Leetcode problems with complicated control flows and list data structures, which is impossible for the backbone symbolic execution engine. Our approach paves the way for the combination of the generation ability of LLMs with the reasoning ability of symbolic solvers, and opens up new opportunities in LLM-augmented test case generation. | 翻訳日:2024-09-17 21:38:57 公開日:2024-09-14 |
# SafeEar: コンテンツプライバシ保護によるオーディオディープフェイク検出
SafeEar: Content Privacy-Preserving Audio Deepfake Detection ( http://arxiv.org/abs/2409.09272v1 ) ライセンス: Link先を確認 | Xinfeng Li, Kai Li, Yifan Zheng, Chen Yan, Xiaoyu Ji, Wenyuan Xu, | (参考訳) テキスト音声変換(TTS)モデルとVoice Conversion(VC)モデルは,現実的で自然な音声を生成する上で,優れた性能を示した。
しかし、その暗黒面、オーディオディープフェイクは、社会と個人の両方に重大な脅威をもたらす。
既存の対策は、しばしばプライベートコンテンツを含む完全なオリジナル音声記録に基づいて、音声の真正性を決定することに重点を置いている。
この監視は、特にビジネスシークレットのような機密情報を含むシナリオにおいて、多くのアプリケーションからのディープフェイク検出を妨げます。
本稿では,音声コンテンツにアクセスすることなくディープフェイク音声を検出するための新しいフレームワークであるSafeEarを提案する。
私たちのキーとなるアイデアは、ニューラルオーディオコーデックを新しいデカップリングモデルに設計し、セマンティックおよび音響情報をオーディオサンプルから適切に分離し、ディープフェイク検出に音響情報(例えば、韻律、音色)のみを使用することです。
このようにして、セマンティックな内容が検出器に露出されることはない。
意味的な手がかりのない多様なディープフェイク音声を特定するという課題を克服するため,実世界のコーデック拡張によるディープフェイク検出を強化した。
4つのベンチマークデータセットで実施された大規模な実験は、SafeEarが同等のエラー率 (EER) で様々なディープフェイクテクニックを検出できることを示した。
同時に、93.93%以上の単語誤り率(WER)とユーザスタディにより、機械と人間の聴覚分析の両方で5言語音声コンテンツが解読されるのを防ぐ。
さらに, ディープフェイクとアンチコンテンツ回復評価のためのベンチマークを構築し, 音声のプライバシー保護とディープフェイク検出の領域における今後の研究の基盤を提供する。
Text-to-Speech (TTS) and Voice Conversion (VC) models have exhibited remarkable performance in generating realistic and natural audio. However, their dark side, audio deepfake poses a significant threat to both society and individuals. Existing countermeasures largely focus on determining the genuineness of speech based on complete original audio recordings, which however often contain private content. This oversight may refrain deepfake detection from many applications, particularly in scenarios involving sensitive information like business secrets. In this paper, we propose SafeEar, a novel framework that aims to detect deepfake audios without relying on accessing the speech content within. Our key idea is to devise a neural audio codec into a novel decoupling model that well separates the semantic and acoustic information from audio samples, and only use the acoustic information (e.g., prosody and timbre) for deepfake detection. In this way, no semantic content will be exposed to the detector. To overcome the challenge of identifying diverse deepfake audio without semantic clues, we enhance our deepfake detector with real-world codec augmentation. Extensive experiments conducted on four benchmark datasets demonstrate SafeEar's effectiveness in detecting various deepfake techniques with an equal error rate (EER) down to 2.02%. Simultaneously, it shields five-language speech content from being deciphered by both machine and human auditory analysis, demonstrated by word error rates (WERs) all above 93.93% and our user study. Furthermore, our benchmark constructed for anti-deepfake and anti-content recovery evaluation helps provide a basis for future research in the realms of audio privacy preservation and deepfake detection. | 翻訳日:2024-09-17 21:38:57 公開日:2024-09-14 |
# 資源制限エッジネットワークにおける効果的なフェデレーション学習のための基礎モデルの導入
Leveraging Foundation Models for Efficient Federated Learning in Resource-restricted Edge Networks ( http://arxiv.org/abs/2409.09273v1 ) ライセンス: Link先を確認 | S. Kawa Atapour, S. Jamal SeyedMohammadi, S. Mohammad Sheikholeslami, Jamshid Abouei, Konstantinos N. Plataniotis, Arash Mohammadi, | (参考訳) 最近、FM(Pre-trained Foundation Models)とFederated Learning(FL)が組み合わさって、プライバシーを維持しながら下流タスクのトレーニングを改善している。
しかし、リソース制約のあるIoT(Internet of Things)デバイスによるエッジネットワーク上のFMのデプロイは、あまり探索されていない。
本稿では、エッジデバイスにローカルにデプロイすることなく、視覚言語FMの堅牢な表現能力を活用するための新しいフレームワーク、フェデレート蒸留知識をPrompt(FedD2P)に提案する。
このフレームワークは、IoTデバイスの集約された知識をプロンプトジェネレータに蒸留して、凍ったFMを下流タスクに効率的に適応させる。
パブリックデータセットへの依存を排除するため、当社のフレームワークは、IoTデバイスからのクラスごとのローカル知識と、クラスの言語記述を活用して、プロンプトジェネレータをトレーニングする。
CIFAR,OxfordPets,SVHN,EuroSAT,DTDの多様な画像分類データセットに関する実験により,FedD2Pはモデル性能においてベースラインを上回っていることが示された。
Recently pre-trained Foundation Models (FMs) have been combined with Federated Learning (FL) to improve training of downstream tasks while preserving privacy. However, deploying FMs over edge networks with resource-constrained Internet of Things (IoT) devices is under-explored. This paper proposes a novel framework, namely, Federated Distilling knowledge to Prompt (FedD2P), for leveraging the robust representation abilities of a vision-language FM without deploying it locally on edge devices. This framework distills the aggregated knowledge of IoT devices to a prompt generator to efficiently adapt the frozen FM for downstream tasks. To eliminate the dependency on a public dataset, our framework leverages perclass local knowledge from IoT devices and linguistic descriptions of classes to train the prompt generator. Our experiments on diverse image classification datasets CIFAR, OxfordPets, SVHN, EuroSAT, and DTD show that FedD2P outperforms the baselines in terms of model performance. | 翻訳日:2024-09-17 21:38:57 公開日:2024-09-14 |
# LabellessFace: 属性ラベルのない顔認識のための公正なメトリック学習
LabellessFace: Fair Metric Learning for Face Recognition without Attribute Labels ( http://arxiv.org/abs/2409.09274v1 ) ライセンス: Link先を確認 | Tetsushi Ohki, Yuya Sato, Masakatsu Nishigaki, Koichi Ito, | (参考訳) 画像バイアスは顔認識システムにおける大きな課題の1つだ。
人口統計バイアスに関する既存の研究の大部分は、特定の人口統計学的グループや人口統計学的分類に大きく依存しているため、認識されていない集団のパフォーマンスに対処することは困難である。
本稿では,「LabellessFace'」について紹介する。これは,フェアネスの考慮に通常必要となる人口集団のラベル付けを必要とせずに,顔認識における人口バイアスを改善する新しいフレームワークである。
そこで本研究では,データセット全体にわたる特定のクラスに対する好意の度合いを評価できる,クラス好意度レベルと呼ばれる新しいフェアネス向上尺度を提案する。
このメトリクスを活用することで、既存のマージンベースのメトリック学習の拡張であるフェアクラスマージンペナルティを導入する。
本手法は,クラス嗜好レベルに基づいて学習パラメータを動的に調整し,属性間の公平性を促進させる。
顔認識システムでは,各クラスを個人として扱うことにより,個人間の認証精度のバイアスを最小限に抑える学習を容易にする。
総合的な実験により,本手法は認証精度を維持しながら公平性を高めるのに有効であることが示された。
Demographic bias is one of the major challenges for face recognition systems. The majority of existing studies on demographic biases are heavily dependent on specific demographic groups or demographic classifier, making it difficult to address performance for unrecognised groups. This paper introduces ``LabellessFace'', a novel framework that improves demographic bias in face recognition without requiring demographic group labeling typically required for fairness considerations. We propose a novel fairness enhancement metric called the class favoritism level, which assesses the extent of favoritism towards specific classes across the dataset. Leveraging this metric, we introduce the fair class margin penalty, an extension of existing margin-based metric learning. This method dynamically adjusts learning parameters based on class favoritism levels, promoting fairness across all attributes. By treating each class as an individual in facial recognition systems, we facilitate learning that minimizes biases in authentication accuracy among individuals. Comprehensive experiments have demonstrated that our proposed method is effective for enhancing fairness while maintaining authentication accuracy. | 翻訳日:2024-09-17 21:38:57 公開日:2024-09-14 |
# 古典的-量子確率過程における対称性演算と臨界挙動
Symmetry operations and Critical Behaviour in Classical to Quantum Stochastic Processes ( http://arxiv.org/abs/2409.09277v1 ) ライセンス: Link先を確認 | Gustavo Montes, Soham Biswas, Thomas Gorin, | (参考訳) 古典的確率過程から始まる量子アナログの構成は以前にも紹介されてきた。
本稿では,対称性演算による自己包含量子展開の大規模クラスを生成する。
異なる量子拡大に対する緩和過程が異なることを示し、コヒーレンスの測定、平衡に達する確率、ドメイン壁の崩壊、純度によって支持されることを示す。
しかし、L1ノルムに基づくコヒーレンス測度は緩和過程の速度を捉えない。
また、コヒーレンスの有限サイズスケーリングは、短周期と長周期の両方で存在することを示す。
Construction of quantum analogs starting from classical stochastic processes have been previously introduced. In this paper, we generate a large class of self contained quantum extensions by symmetry operations. We show that the relaxation processes for different quantum extensions are different and that is supported by the measure of coherence, the the probability of reaching the equilibrium, decay of the domain walls and purity. However, the coherence measure based on the L1-norm does not capture the speed of the relaxation process. We also show that the finite size scaling of coherence exists for both short and long times. | 翻訳日:2024-09-17 21:38:57 公開日:2024-09-14 |
# 中国における同様の労働・雇用事例を推奨する論争を要約するためにChatGPTを用いた実証的評価
An empirical evaluation of using ChatGPT to summarize disputes for recommending similar labor and employment cases in Chinese ( http://arxiv.org/abs/2409.09280v1 ) ライセンス: Link先を確認 | Po-Hsien Wu, Chao-Lin Liu, Wei-Jie Li, | (参考訳) 同様の労働・雇用訴訟を推奨するハイブリッドメカニズムを提案する。
分類者は、裁判所が準備した2つの事件の項目化紛争に基づいて類似性を決定する。
我々は、紛争をクラスタ化し、紛争間のコサイン類似性を計算し、その結果を分類タスクの特徴として利用する。
実験結果から, このハイブリッドアプローチは, 紛争のクラスターに関する情報のみを考慮し, これまでのシステムよりも優れていたことが示唆された。
我々は, GPT-3.5 と GPT-4 が生成した項目化紛争に裁判所が準備した紛争を置き換え, 同じ実験を繰り返した。
GPT-4による論争はより良い結果をもたらした。
また,ChatGPTが生成した論争を用いても,分類器の動作は良好ではなかったが,結果は良好であった。
したがって、将来大きな言語モデルが実用的に有用になることを願っている。
We present a hybrid mechanism for recommending similar cases of labor and employment litigations. The classifier determines the similarity based on the itemized disputes of the two cases, that the courts prepared. We cluster the disputes, compute the cosine similarity between the disputes, and use the results as the features for the classification tasks. Experimental results indicate that this hybrid approach outperformed our previous system, which considered only the information about the clusters of the disputes. We replaced the disputes that were prepared by the courts with the itemized disputes that were generated by GPT-3.5 and GPT-4, and repeated the same experiments. Using the disputes generated by GPT-4 led to better results. Although our classifier did not perform as well when using the disputes that the ChatGPT generated, the results were satisfactory. Hence, we hope that the future large-language models will become practically useful. | 翻訳日:2024-09-17 21:38:57 公開日:2024-09-14 |
# コピーのための言語モデル"Grok"
Language Models "Grok" to Copy ( http://arxiv.org/abs/2409.09281v1 ) ライセンス: Link先を確認 | Ang Lv, Ruobing Xie, Xingwu Sun, Zhanhui Kang, Rui Yan, | (参考訳) 言語モデルの事前学習のダイナミクスについて検討し,先行する文脈からテキストをコピーする能力に着目した上で,インコンテキスト学習(ICL)や検索拡張生成(RAG)など,様々なLLMアプリケーションの基本的スキルについて考察する。
本稿では,トランスフォーマーをベースとした言語モデルが,グルーキングと同様の模倣能力を持つという新たな視点を提案する。
実験の結果,(1)事前学習損失は急速に減少し,一方でモデルのコンテキストコピー能力は低下し,突然飽和する,という3つの議論が得られた。
2) 複製能力の発達速度は,データ分布が保存されている限り,データセットサイズによってグルーキング速度が影響を受けないのと同じように,訓練されたトークンの数とは無関係である。
(3) 誘導ヘッド, 模倣に責任を負うアテンションヘッドは, トレーニング中に浅い層から深い層に形成され, グラッキング中に深い層に回路が発達する様子を反映している。
グラッキングとコンテキストコピーの関連性は、より効果的な言語モデルトレーニングのための貴重な洞察を与え、究極的にはコンテキスト内パフォーマンスを向上させることができる、と我々は主張する。
例えば、正規化のようなグラクキングを強化する技術は、文脈コピーの開発を加速または促進することを示した。
We examine the pre-training dynamics of language models, focusing on their ability to copy text from preceding context--a fundamental skill for various LLM applications, including in-context learning (ICL) and retrieval-augmented generation (RAG). We propose a novel perspective that Transformer-based language models develop copying abilities similarly to grokking, which refers to sudden generalization on test set long after the model fit to the training set. Our experiments yield three arguments: (1) The pre-training loss decreases rapidly, while the context copying ability of models initially lags and then abruptly saturates. (2) The speed of developing copying ability is independent of the number of tokens trained, similarly to how grokking speed is unaffected by dataset size as long as the data distribution is preserved. (3) Induction heads, the attention heads responsible for copying, form from shallow to deep layers during training, mirroring the development of circuits in deeper layers during grokking. We contend that the connection between grokking and context copying can provide valuable insights for more effective language model training, ultimately improving in-context performance. For example, we demonstrated that techniques that enhance grokking, such as regularization, either accelerate or enhance the development of context copying. | 翻訳日:2024-09-17 21:38:57 公開日:2024-09-14 |
# コントラスト学習によるマルチモーダル分類のターボ化
Turbo your multi-modal classification with contrastive learning ( http://arxiv.org/abs/2409.09282v1 ) ライセンス: Link先を確認 | Zhiyu Zhang, Da Liu, Shengqiang Liu, Anna Wang, Jie Gao, Yali Li, | (参考訳) コントラスト学習は、マルチモーダル表現学習における最も印象的なアプローチの1つとなっている。
しかし、従来のマルチモーダルな研究は、主にモダリティの表現を制限する非モーダルコントラスト学習を無視して、モダリティ間の理解に焦点を当てていた。
本稿では,共同学習と相互学習によるマルチモーダル理解を促進するために,新たなコントラスト学習戦略である$Turbo$を提案する。
具体的には、マルチモーダルデータペアは、異なる隠されたドロップアウトマスクでフォワードパスを2回送って、各モダリティに対して2つの異なる表現を得る。
これらの表現により、トレーニングのための複数のインモーダルおよびクロスモーダルのコントラスト目的が得られる。
最後に、教師付きマルチモーダル分類と自己教師付きターボを併用し、2つの音声テキスト分類タスクにおいてその効果を示す。
Contrastive learning has become one of the most impressive approaches for multi-modal representation learning. However, previous multi-modal works mainly focused on cross-modal understanding, ignoring in-modal contrastive learning, which limits the representation of each modality. In this paper, we propose a novel contrastive learning strategy, called $Turbo$, to promote multi-modal understanding by joint in-modal and cross-modal contrastive learning. Specifically, multi-modal data pairs are sent through the forward pass twice with different hidden dropout masks to get two different representations for each modality. With these representations, we obtain multiple in-modal and cross-modal contrastive objectives for training. Finally, we combine the self-supervised Turbo with the supervised multi-modal classification and demonstrate its effectiveness on two audio-text classification tasks, where the state-of-the-art performance is achieved on a speech emotion recognition benchmark dataset. | 翻訳日:2024-09-17 21:29:12 公開日:2024-09-14 |
# SAM-OCTA2:微調整セグメンテーションモデル2による層列OCTAセグメンテーション
SAM-OCTA2: Layer Sequence OCTA Segmentation with Fine-tuned Segment Anything Model 2 ( http://arxiv.org/abs/2409.09286v1 ) ライセンス: Link先を確認 | Xinrun Chen, Chengliang Wang, Haojian Ning, Mengzhan Zhang, Mei Shen, Shiying Li, | (参考訳) 光コヒーレンス・トモグラフィー(OCTA)試料の精密解析における目標のセグメンテーション
既存のセグメンテーション法は2次元プロジェクションターゲット上での動作が一般的であり、3次元ボリュームを通してセグメンテーション対象の分散を捉えることは困難である。
この制限に対処するため、ローランク適応手法を用いてSegment Anything Model (SAM) バージョン2を微調整し、OCTAスキャン層シークエンスで特定対象の追跡とセグメンテーションを可能にする。
この研究をさらに進めるために、フレームシーケンスにおけるプロンプトポイント生成戦略と、網膜血管(RV)層マスクを取得するスパースアノテーション手法を提案する。
この手法はSAM-OCTA2と呼ばれ、OCTA-500データセットで実験されている。
正常な2次元の面にFoveal avascular zone(FAZ)を分断し、スキャン層をまたいだ局所血管を効果的に追跡する。
コードは、https://github.com/ShellRedia/SAM-OCTA2.comで入手できる。
Segmentation of indicated targets aids in the precise analysis of optical coherence tomography angiography (OCTA) samples. Existing segmentation methods typically perform on 2D projection targets, making it challenging to capture the variance of segmented objects through the 3D volume. To address this limitation, the low-rank adaptation technique is adopted to fine-tune the Segment Anything Model (SAM) version 2, enabling the tracking and segmentation of specified objects across the OCTA scanning layer sequence. To further this work, a prompt point generation strategy in frame sequence and a sparse annotation method to acquire retinal vessel (RV) layer masks are proposed. This method is named SAM-OCTA2 and has been experimented on the OCTA-500 dataset. It achieves state-of-the-art performance in segmenting the foveal avascular zone (FAZ) on regular 2D en-face and effectively tracks local vessels across scanning layer sequences. The code is available at: https://github.com/ShellRedia/SAM-OCTA2. | 翻訳日:2024-09-17 21:29:12 公開日:2024-09-14 |
# APIミス検出のためのLLMを用いたAPIパラメータセキュリティルールの生成
Generating API Parameter Security Rules with LLM for API Misuse Detection ( http://arxiv.org/abs/2409.09288v1 ) ライセンス: Link先を確認 | Jinghua Liu, Yi Yang, Kai Chen, Miaoqian Lin, | (参考訳) 本稿では,APIソースコードをLLMで解析し,誤パラメータ使用によるAPI誤用を検出することによって,自動APSR生成のためのGPTAidというフレームワークを提案する。
LLM生成したAPSRの正当性を検証するために,セキュリティクリティカルなAPIの誤用がAPSRの違反によってしばしば引き起こされるという観察に基づいて,実行フィードバックチェック手法を提案する。
具体的には、GPTAid は LLM を用いて生の APSR と右呼び出しコードを生成し、次に LLM を使用して右呼び出しコードを変更することで各生の APSR に対して Violation コードを生成する。
その後、GPTAidはViolationコードの各部分で動的に実行し、実行時エラーに基づいて不正なAPSRをフィルタする。
さらに具体的なAPSRを生成するために、GPTAidはコード差分解析を用いてフィルタされたものを洗練する。
特に、プログラミング言語が自然言語よりも正確であるため、GPTAidは、微分分析によってViolationコード内のキー操作を特定し、上記の操作に基づいて対応する具体的なAPSRを生成する。
これらの具体的なAPSRは、適用可能な検出コードに正確に解釈することができ、API誤用検出に有効であることが証明された。
8つの人気のあるライブラリからランダムに選択された200のAPIを含むデータセットに実装され、GPTAidは92.3%の精度を達成する。
さらに、以前に報告されたバグとAPSRの比較データセット上で、最先端の検出器よりも6倍のAPSRを生成する。
我々はさらに、47のアプリケーション上でGPTAidを評価し、210の未知のセキュリティバグが潜在的に深刻なセキュリティ問題(例えば、システムクラッシュ)を引き起こした。
In this paper, we present a new framework, named GPTAid, for automatic APSRs generation by analyzing API source code with LLM and detecting API misuse caused by incorrect parameter use. To validate the correctness of the LLM-generated APSRs, we propose an execution feedback-checking approach based on the observation that security-critical API misuse is often caused by APSRs violations, and most of them result in runtime errors. Specifically, GPTAid first uses LLM to generate raw APSRs and the Right calling code, and then generates Violation code for each raw APSR by modifying the Right calling code using LLM. Subsequently, GPTAid performs dynamic execution on each piece of Violation code and further filters out the incorrect APSRs based on runtime errors. To further generate concrete APSRs, GPTAid employs a code differential analysis to refine the filtered ones. Particularly, as the programming language is more precise than natural language, GPTAid identifies the key operations within Violation code by differential analysis, and then generates the corresponding concrete APSR based on the aforementioned operations. These concrete APSRs could be precisely interpreted into applicable detection code, which proven to be effective in API misuse detection. Implementing on the dataset containing 200 randomly selected APIs from eight popular libraries, GPTAid achieves a precision of 92.3%. Moreover, it generates 6 times more APSRs than state-of-the-art detectors on a comparison dataset of previously reported bugs and APSRs. We further evaluated GPTAid on 47 applications, 210 unknown security bugs were found potentially resulting in severe security issues (e.g., system crashes), 150 of which have been confirmed by developers after our reports. | 翻訳日:2024-09-17 21:29:12 公開日:2024-09-14 |
# 階層型人間の知覚による赤外・可視画像融合
Infrared and Visible Image Fusion with Hierarchical Human Perception ( http://arxiv.org/abs/2409.09291v1 ) ライセンス: Link先を確認 | Guang Yang, Jie Li, Xin Liu, Zhusi Zhong, Xinbo Gao, | (参考訳) 画像融合は、複数のドメインからのイメージを1つのイメージに結合し、ソースドメインからの補完的な情報を含む。
既存の手法では、情報保存の基準として画素強度、テクスチャ、高レベルの視覚タスク情報を採用しており、人間の知覚の強化を欠いている。
画像融合法であるHPFusionを導入し、Large Vision-Language Modelを用いて、人間の視覚系を満たす補完情報を保存する。
画像ペアを見る際に人間が注目する複数の質問を提案し,その回答は画像に応じてLarge Vision-Language Modelを介して生成される。
解答のテキストは融合ネットワークにエンコードされ、その最適化はまた、解答された画像の人間の意味的分布を、人間の知覚領域内で補完的な情報を探索するソース画像とよりよく似ているように導くことを目的としている。
広汎な実験により,HPFusoinは情報保存と人体視力増強の両面で高品質な融合を達成できた。
Image fusion combines images from multiple domains into one image, containing complementary information from source domains. Existing methods take pixel intensity, texture and high-level vision task information as the standards to determine preservation of information, lacking enhancement for human perception. We introduce an image fusion method, Hierarchical Perception Fusion (HPFusion), which leverages Large Vision-Language Model to incorporate hierarchical human semantic priors, preserving complementary information that satisfies human visual system. We propose multiple questions that humans focus on when viewing an image pair, and answers are generated via the Large Vision-Language Model according to images. The texts of answers are encoded into the fusion network, and the optimization also aims to guide the human semantic distribution of the fused image more similarly to source images, exploring complementary information within the human perception domain. Extensive experiments demonstrate our HPFusoin can achieve high-quality fusion results both for information preservation and human visual enhancement. | 翻訳日:2024-09-17 21:29:12 公開日:2024-09-14 |
# StyleTalk++: トーキングヘッドの話し方を制御する統一フレームワーク
StyleTalk++: A Unified Framework for Controlling the Speaking Styles of Talking Heads ( http://arxiv.org/abs/2409.09292v1 ) ライセンス: Link先を確認 | Suzhen Wang, Yifeng Ma, Yu Ding, Zhipeng Hu, Changjie Fan, Tangjie Lv, Zhidong Deng, Xin Yu, | (参考訳) 個人は独自の表情と、パーソナライズされた話し方を反映した頭ポーズスタイルを持っている。
既存のワンショット音声ヘッド方式では、このようなパーソナライズされた特徴を捉えられないため、最終ビデオにおいて多様な話し方を生成することができない。
この課題に対処するために,参照音声ビデオから発話スタイルを取得し,ワンショットのポートレートを駆動し,参照音声スタイルと他の音声と対話するワンショットスタイル制御可能な音声顔生成手法を提案する。
本手法は,顔の表情や頭部の動きを含む3次元形態素モデル(3DMM)のスタイル制御可能な係数を統一的な枠組みで合成することを目的とする。
具体的には、まずスタイルエンコーダを利用して、参照ビデオから所望の発話スタイルを抽出し、それらをスタイルコードに変換する。
そして、このフレームワークは3DMMの係数をオーディオ入力とスタイルコードから合成するためにスタイル認識デコーダを使用する。
復号化の際には2分岐アーキテクチャを採用し,それぞれにスタイリングされた表情係数とスタイリングされた頭部運動係数を生成する。
3DMMの係数を得た後、画像レンダラは、表現係数を特定の人のトーキングヘッドビデオにレンダリングする。
広汎な実験により,1つのポートレート画像と1つの音声クリップのみから,多様な発話スタイルの視覚的発話ヘッドビデオを生成することができた。
Individuals have unique facial expression and head pose styles that reflect their personalized speaking styles. Existing one-shot talking head methods cannot capture such personalized characteristics and therefore fail to produce diverse speaking styles in the final videos. To address this challenge, we propose a one-shot style-controllable talking face generation method that can obtain speaking styles from reference speaking videos and drive the one-shot portrait to speak with the reference speaking styles and another piece of audio. Our method aims to synthesize the style-controllable coefficients of a 3D Morphable Model (3DMM), including facial expressions and head movements, in a unified framework. Specifically, the proposed framework first leverages a style encoder to extract the desired speaking styles from the reference videos and transform them into style codes. Then, the framework uses a style-aware decoder to synthesize the coefficients of 3DMM from the audio input and style codes. During decoding, our framework adopts a two-branch architecture, which generates the stylized facial expression coefficients and stylized head movement coefficients, respectively. After obtaining the coefficients of 3DMM, an image renderer renders the expression coefficients into a specific person's talking-head video. Extensive experiments demonstrate that our method generates visually authentic talking head videos with diverse speaking styles from only one portrait image and an audio clip. | 翻訳日:2024-09-17 21:29:12 公開日:2024-09-14 |
# トラッキング・バイ・ディテクト」で発見されるものすべて
Associate Everything Detected: Facilitating Tracking-by-Detection to the Unknown ( http://arxiv.org/abs/2409.09293v1 ) ライセンス: Link先を確認 | Zimeng Fang, Chao Liang, Xue Zhou, Shuyuan Zhu, Xi Li, | (参考訳) マルチオブジェクトトラッキング(MOT)は、コンピュータビジョンの分野において、重要かつ有望な分岐として現れる。
古典的閉語彙MOT(CV-MOT)法は、予め定義されたカテゴリのオブジェクトを追跡することを目的としている。
近年,OV-MOT (open-vocabulary MOT) 手法が未知のカテゴリの追跡に成功している。
しかし, CV-MOT法とOV-MOT法は, それぞれが他方のタスクに優れていることが判明した。
本稿では,CV-MOT と OV-MOT を併用して,市販の検知器と統合し,未知のカテゴリをサポートする統合型フレームワークであるAssociate Everything Detected (AED)を提案する。
従来のトラッキング・バイ・検出MOT法とは異なり、AEDは事前の知識(例えばモーションキュー)を排除し、CV-MOTタスクにおいて優れた性能を維持しつつ、OV-MOTタスクにおける複雑なトラジェクトリを処理するために、高度に堅牢な特徴学習にのみ依存する。
具体的には、アソシエーションタスクを類似性復号化問題としてモデル化し、アソシエーション中心の学習機構を備えたシムデコーダを提案する。
sim-decoderは、空間、時間、クロスクリップの3つの側面で類似性を計算する。
その後、連想中心学習はこれらの3つの類似性を活用し、抽出された特徴が連続的な追跡に適しており、未知のカテゴリに一般化するのに十分なロバストであることを保証する。
既存の強力なOV-MOT法やCV-MOT法と比較して,AEDはTAO,SportsMOT,DanceTrackにおいて事前の知識なく優れた性能を発揮する。
私たちのコードはhttps://github.com/balabooooo/AED.comで公開されています。
Multi-object tracking (MOT) emerges as a pivotal and highly promising branch in the field of computer vision. Classical closed-vocabulary MOT (CV-MOT) methods aim to track objects of predefined categories. Recently, some open-vocabulary MOT (OV-MOT) methods have successfully addressed the problem of tracking unknown categories. However, we found that the CV-MOT and OV-MOT methods each struggle to excel in the tasks of the other. In this paper, we present a unified framework, Associate Everything Detected (AED), that simultaneously tackles CV-MOT and OV-MOT by integrating with any off-the-shelf detector and supports unknown categories. Different from existing tracking-by-detection MOT methods, AED gets rid of prior knowledge (e.g. motion cues) and relies solely on highly robust feature learning to handle complex trajectories in OV-MOT tasks while keeping excellent performance in CV-MOT tasks. Specifically, we model the association task as a similarity decoding problem and propose a sim-decoder with an association-centric learning mechanism. The sim-decoder calculates similarities in three aspects: spatial, temporal, and cross-clip. Subsequently, association-centric learning leverages these threefold similarities to ensure that the extracted features are appropriate for continuous tracking and robust enough to generalize to unknown categories. Compared with existing powerful OV-MOT and CV-MOT methods, AED achieves superior performance on TAO, SportsMOT, and DanceTrack without any prior knowledge. Our code is available at https://github.com/balabooooo/AED. | 翻訳日:2024-09-17 21:29:12 公開日:2024-09-14 |
# 多次元時系列における異常検出のための行列プロファイル
Matrix Profile for Anomaly Detection on Multidimensional Time Series ( http://arxiv.org/abs/2409.09298v1 ) ライセンス: Link先を確認 | Chin-Chia Michael Yeh, Audrey Der, Uday Singh Saini, Vivian Lai, Yan Zheng, Junpeng Wang, Xin Dai, Zhongfang Zhuang, Yujie Fan, Huiyuan Chen, Prince Osei Aboagye, Liang Wang, Wei Zhang, Eamonn Keogh, | (参考訳) 時系列データマイニングのための汎用ツールであるMatrix Profile (MP) は、時系列異常検出(TSAD)において有効であることが示されている。
本稿では,多次元時系列における異常検出の問題について述べる。
例えば、製造工場では、サイト全体に設置された複数のセンサーが分析のために時間変化のデータを収集します。
行列プロファイル(英: Matrix Profile)は、一変量級数列の列間のペアワイズ距離を格納する行列をプロファイリングする役割から名付けられ、多次元シナリオでは複雑になる。
入力単変量時系列が n の部分列を持つとき、対距離行列は n x n 行列である。
d次元の多次元時系列では、対距離情報は n x n x d テンソルに格納されなければならない。
本稿ではまず,このテンソルをプロファイルベクトルに凝縮するための様々な戦略を解析する。
そこで我々は,MPを拡張して,異常検出のためのk-アネレスト近傍を効率的に見つける可能性について検討した。
最後に、119個の多次元TSADデータセット上で、多次元MPを19個のベースライン法と比較した。
実験では、教師なし、教師なし、半教師なしの3つの学習設定をカバーしている。
MPは、すべてのセットアップで継続的にハイパフォーマンスを提供する唯一の方法です。
The Matrix Profile (MP), a versatile tool for time series data mining, has been shown effective in time series anomaly detection (TSAD). This paper delves into the problem of anomaly detection in multidimensional time series, a common occurrence in real-world applications. For instance, in a manufacturing factory, multiple sensors installed across the site collect time-varying data for analysis. The Matrix Profile, named for its role in profiling the matrix storing pairwise distance between subsequences of univariate time series, becomes complex in multidimensional scenarios. If the input univariate time series has n subsequences, the pairwise distance matrix is a n x n matrix. In a multidimensional time series with d dimensions, the pairwise distance information must be stored in a n x n x d tensor. In this paper, we first analyze different strategies for condensing this tensor into a profile vector. We then investigate the potential of extending the MP to efficiently find k-nearest neighbors for anomaly detection. Finally, we benchmark the multidimensional MP against 19 baseline methods on 119 multidimensional TSAD datasets. The experiments covers three learning setups: unsupervised, supervised, and semi-supervised. MP is the only method that consistently delivers high performance across all setups. | 翻訳日:2024-09-17 21:29:12 公開日:2024-09-14 |
# ManiDext: 連続対応埋め込みと残留誘導拡散による手動操作合成
ManiDext: Hand-Object Manipulation Synthesis via Continuous Correspondence Embeddings and Residual-Guided Diffusion ( http://arxiv.org/abs/2409.09300v1 ) ライセンス: Link先を確認 | Jiajun Zhang, Yuxiang Zhang, Liang An, Mengcheng Li, Hongwen Zhang, Zonghai Hu, Yebin Liu, | (参考訳) 物体の動的かつ厳密な操作は複雑な課題を示し、シームレスで物理的に妥当な相互作用を達成するために、物体の軌跡と手の動きの同期を必要とする。
本研究では,3次元物体軌跡に基づく手操作とポーズの把握のための階層的拡散に基づく統合フレームワークManiDextを紹介する。
私たちの重要な洞察は、相互作用中の物体と手との接触関係を正確にモデル化することが重要であるということです。
そこで,本研究では,物体と手の間にある頂点レベルで細かな手の対応を規定する連続対応埋め込み表現を提案する。
この埋め込みは、ジオデシック距離を反映する埋め込み間の距離を自己監督的にハンドメッシュに直接最適化する。
本フレームワークは,まず,物体表面への接触マップと対応埋め込みを生成する。
これらの微粒な対応に基づいて,手ポーズ生成の第2段階における拡散過程に反復的精細化プロセスを統合する新しいアプローチを導入する。
復調過程の各ステップにおいて、現在の手ポーズ残差を改良対象としてネットワークに組み込み、不正確な手ポーズを補正するネットワークを誘導する。
各デノイングステップに残留物を導入することは、本質的に従来の最適化プロセスと一致し、生成と改善を効果的に単一の統合フレームワークにマージする。
広汎な実験により,本手法は,片手握りや片手握り,剛性物体と関節物体の操作など,様々なタスクに対して,物理的に可塑性かつ高現実的な動作を生成できることが実証された。
コードは研究目的で利用できる。
Dynamic and dexterous manipulation of objects presents a complex challenge, requiring the synchronization of hand motions with the trajectories of objects to achieve seamless and physically plausible interactions. In this work, we introduce ManiDext, a unified hierarchical diffusion-based framework for generating hand manipulation and grasp poses based on 3D object trajectories. Our key insight is that accurately modeling the contact correspondences between objects and hands during interactions is crucial. Therefore, we propose a continuous correspondence embedding representation that specifies detailed hand correspondences at the vertex level between the object and the hand. This embedding is optimized directly on the hand mesh in a self-supervised manner, with the distance between embeddings reflecting the geodesic distance. Our framework first generates contact maps and correspondence embeddings on the object's surface. Based on these fine-grained correspondences, we introduce a novel approach that integrates the iterative refinement process into the diffusion process during the second stage of hand pose generation. At each step of the denoising process, we incorporate the current hand pose residual as a refinement target into the network, guiding the network to correct inaccurate hand poses. Introducing residuals into each denoising step inherently aligns with traditional optimization process, effectively merging generation and refinement into a single unified framework. Extensive experiments demonstrate that our approach can generate physically plausible and highly realistic motions for various tasks, including single and bimanual hand grasping as well as manipulating both rigid and articulated objects. Code will be available for research purposes. | 翻訳日:2024-09-17 21:29:12 公開日:2024-09-14 |
# 双曲空間における一貫したスペクトルクラスタリング
Consistent Spectral Clustering in Hyperbolic Spaces ( http://arxiv.org/abs/2409.09304v1 ) ライセンス: Link先を確認 | Sagar Ghosh, Swagatam Das, | (参考訳) クラスタリングは、教師なしのテクニックとして、さまざまなデータ分析アプリケーションにおいて重要な役割を果たす。
クラスタリングアルゴリズムの中では、ユークリッド空間上のスペクトルクラスタリングが広く研究されている。
しかし、データの複雑さの急速な進化により、ユークリッド空間はアルゴリズムの表現と学習に非効率であることが証明されている。
双曲空間上のディープニューラルネットワークは近年注目を集めているが、クラスタリングアルゴリズムや非ユークリッド空間上の非ディープ機械学習モデルはいまだ探索されていない。
本稿では,このギャップに対処するためのスペクトルクラスタリングアルゴリズムを提案する。
双曲空間は、ユークリッド空間に効率的に埋め込まれない階層構造や木のような構造のような複雑なデータ構造を表現する利点を提供する。
提案アルゴリズムはユークリッド類似度行列を適切な双曲類似度行列に置き換え,ユークリッド空間におけるクラスタリングよりも効率が向上したことを示す。
コントリビューションには、ハイパーボリック空間上のスペクトルクラスタリングアルゴリズムの開発と、その弱い一貫性の証明が含まれている。
このアルゴリズムはユークリッド空間におけるスペクトルクラスタリングと同程度の速度で収束することを示す。
提案手法の有効性を明らかにするため,ウィスコンシン州における乳がんデータセットにおいて,ユークリッド法よりも高ボリックスペクトルクラスタリングが優れていることを示す実験結果を示す。
この作業は、クラスタリングアルゴリズムで非ユークリッド空間を活用するための道を開き、複雑なデータ構造を扱うための新たな視点を提供し、クラスタリング効率を向上させる。
Clustering, as an unsupervised technique, plays a pivotal role in various data analysis applications. Among clustering algorithms, Spectral Clustering on Euclidean Spaces has been extensively studied. However, with the rapid evolution of data complexity, Euclidean Space is proving to be inefficient for representing and learning algorithms. Although Deep Neural Networks on hyperbolic spaces have gained recent traction, clustering algorithms or non-deep machine learning models on non-Euclidean Spaces remain underexplored. In this paper, we propose a spectral clustering algorithm on Hyperbolic Spaces to address this gap. Hyperbolic Spaces offer advantages in representing complex data structures like hierarchical and tree-like structures, which cannot be embedded efficiently in Euclidean Spaces. Our proposed algorithm replaces the Euclidean Similarity Matrix with an appropriate Hyperbolic Similarity Matrix, demonstrating improved efficiency compared to clustering in Euclidean Spaces. Our contributions include the development of the spectral clustering algorithm on Hyperbolic Spaces and the proof of its weak consistency. We show that our algorithm converges at least as fast as Spectral Clustering on Euclidean Spaces. To illustrate the efficacy of our approach, we present experimental results on the Wisconsin Breast Cancer Dataset, highlighting the superior performance of Hyperbolic Spectral Clustering over its Euclidean counterpart. This work opens up avenues for utilizing non-Euclidean Spaces in clustering algorithms, offering new perspectives for handling complex data structures and improving clustering efficiency. | 翻訳日:2024-09-17 21:29:12 公開日:2024-09-14 |
# 2024年VoiceMOSチャレンジのためのT05システム:高音質合成音声の深部画像分類から自然度MOS予測への変換学習
The T05 System for The VoiceMOS Challenge 2024: Transfer Learning from Deep Image Classifier to Naturalness MOS Prediction of High-Quality Synthetic Speech ( http://arxiv.org/abs/2409.09305v1 ) ライセンス: Link先を確認 | Kaito Baba, Wataru Nakata, Yuki Saito, Hiroshi Saruwatari, | (参考訳) 本稿では,VoiceMOS Challenge (VMC) 2024のためのシステム(T05)を提案する。
提案システムは,高品質な合成音声に対する自然度平均評価スコア(MOS)の正確な予測に焦点を当てたVMC 2024トラック1のために設計されている。
本システムでは,事前訓練された自己教師付き学習(SSL)に基づく音声特徴抽出器に加えて,事前訓練された画像特徴抽出器を組み込んで,音声スペクトログラムで観測される合成音声の差を捉えている。
まず、SSLベースまたはスペクトログラムベースの機能を使用する2つのMOS予測器を個別にトレーニングします。
次に,2つの特徴の融合によるMOS予測の精度向上のために,2つの予測器を微調整する。
VMC 2024 Track 1では、私たちのT05システムは、評価指標16点中7点、残りの9点中2点を達成しました。
また, アブレーション研究の結果を報告し, 本システムの本質的要因について検討した。
We present our system (denoted as T05) for the VoiceMOS Challenge (VMC) 2024. Our system was designed for the VMC 2024 Track 1, which focused on the accurate prediction of naturalness mean opinion score (MOS) for high-quality synthetic speech. In addition to a pretrained self-supervised learning (SSL)-based speech feature extractor, our system incorporates a pretrained image feature extractor to capture the difference of synthetic speech observed in speech spectrograms. We first separately train two MOS predictors that use either of an SSL-based or spectrogram-based feature. Then, we fine-tune the two predictors for better MOS prediction using the fusion of two extracted features. In the VMC 2024 Track 1, our T05 system achieved first place in 7 out of 16 evaluation metrics and second place in the remaining 9 metrics, with a significant difference compared to those ranked third and below. We also report the results of our ablation study to investigate essential factors of our system. | 翻訳日:2024-09-17 21:29:12 公開日:2024-09-14 |
# マルチモーダルモデルにおける人文理解の強化のためのキーポイント付き命令追従データ生成
Keypoints-Integrated Instruction-Following Data Generation for Enhanced Human Pose Understanding in Multimodal Models ( http://arxiv.org/abs/2409.09306v1 ) ライセンス: Link先を確認 | Dewen Zhang, Wangpeng An, Hayaru Shouno, | (参考訳) 現在のマルチモーダルモデルは、一般的な視覚的理解タスクに適している。
しかし、人間のポーズや行動に関連する複雑な視覚的タスクを扱う場合、主に特別な指示追従データがないため、不適切な処理を行う。
本研究では,人間のキーポイントとキャプションやバウンディングボックスといった従来の視覚的特徴を統合することで,そのようなデータを生成する新しい手法を提案する。
提案手法は,会話,詳細な説明,複雑な推論という3つのタイプに焦点を絞って,人間中心の活動に優れた微調整モデルを設計したデータセットを生成する。
この新しいデータセットを用いてLLaVA-7Bモデルを微調整し、さまざまな人間のポーズ関連タスクにおいて大幅な改善を実現した。
実験の結果、LLaVA-7Bモデルと比較して21.18%の改善が見られた。
これらの結果から,マルチモーダルモデルの強化におけるキーポイント支援データの有効性が示唆された。
Current multimodal models are well-suited for general visual understanding tasks. However, they perform inadequately when handling complex visual tasks related to human poses and actions, primarily due to the lack of specialized instruction-following data. We introduce a new method for generating such data by integrating human keypoints with traditional visual features like captions and bounding boxes. Our approach produces datasets designed for fine-tuning models to excel in human-centric activities, focusing on three specific types: conversation, detailed description, and complex reasoning. We fine-tuned the LLaVA-7B model with this novel dataset, achieving significant improvements across various human pose-related tasks. Experimental results show an overall improvement of 21.18% compared to the original LLaVA-7B model. These findings demonstrate the effectiveness of keypoints-assisted data in enhancing multimodal models. | 翻訳日:2024-09-17 21:29:12 公開日:2024-09-14 |
# 自律着陸のためのリアルタイム確率地形マッピングと処理
Real-Time Stochastic Terrain Mapping and Processing for Autonomous Safe Landing ( http://arxiv.org/abs/2409.09309v1 ) ライセンス: Link先を確認 | Kento Tomita, Koki Ho, | (参考訳) 安全な惑星着陸のための地形のセンシングとマッピングは、大きな観測範囲と得られた地形データの限られた解像度のために、小さな岩など、不適切な特徴に悩まされることが多い。
そこで本研究では, サンプル点間の地形不確実性や, スパース3次元地形計測による不確実性を考慮した, リアルタイム確率的地形マッピングアルゴリズムを開発した。
Delauney三角法と局所ガウス過程回帰を組み合わせたガウスのディジタル標高マップを効率的に構築する。
地すべりと地すべりの相互作用を幾何学的に検討し, 地すべりのコスト計算を回避しつつ, 地すべりと粗さを効果的に評価する。
その保守性は新聞で証明されている。
開発したリアルタイム不確実性定量化パイプラインは、大規模な観測範囲や限られたセンサー能力などの困難な運用条件下での確率的着陸安全性の評価を可能にする。
背景や関連作品の詳細なレビューも紹介されている。
Onboard terrain sensing and mapping for safe planetary landings often suffer from missed hazardous features, e.g., small rocks, due to the large observational range and the limited resolution of the obtained terrain data. To this end, this paper develops a novel real-time stochastic terrain mapping algorithm that accounts for topographic uncertainty between the sampled points, or the uncertainty due to the sparse 3D terrain measurements. We introduce a Gaussian digital elevation map that is efficiently constructed using the combination of Delauney triangulation and local Gaussian process regression. The geometric investigation of the lander-terrain interaction is exploited to efficiently evaluate the marginally conservative local slope and roughness while avoiding the costly computation of the local plane. The conservativeness is proved in the paper. The developed real-time uncertainty quantification pipeline enables stochastic landing safety evaluation under challenging operational conditions, such as a large observational range or limited sensor capability, which is a critical stepping stone for the development of predictive guidance algorithms for safe autonomous planetary landing. Detailed reviews on background and related works are also presented. | 翻訳日:2024-09-17 21:29:12 公開日:2024-09-14 |
# 点雲列と逐次境界箱のグラディエントDescentによる登録
Registration between Point Cloud Streams and Sequential Bounding Boxes via Gradient Descent ( http://arxiv.org/abs/2409.09312v1 ) ライセンス: Link先を確認 | Xuesong Li, Xinge Zhu, Yuexin Ma, Subhan Khan, Jose Guivant, | (参考訳) 本稿では,ポイントクラウドストリームを用いた逐次境界ボックスの登録アルゴリズムを提案する。
一般的なポイントクラウド登録技術とは異なり、ポイントクラウドとバウンディングボックスのアライメントは、サイズ、形状、時間情報などのバウンディングボックスの特性に依存して、かなりのサポートとパフォーマンス向上を提供する。
そこで本研究では,この問題に対処するための新しいアプローチを提案する。
具体的には、最終目標と全ての制約を含む全体目標関数を通じて、登録プロセスをモデル化する。
次に、勾配勾配勾配を用いて関数を最適化する。
実験の結果,提案手法はIoUの40%改善とともに極めて良好に動作し,ポイントクラウドストリームとシーケンシャルバウンディングボックス間のロバストな登録を示すことがわかった。
In this paper, we propose an algorithm for registering sequential bounding boxes with point cloud streams. Unlike popular point cloud registration techniques, the alignment of the point cloud and the bounding box can rely on the properties of the bounding box, such as size, shape, and temporal information, which provides substantial support and performance gains. Motivated by this, we propose a new approach to tackle this problem. Specifically, we model the registration process through an overall objective function that includes the final goal and all constraints. We then optimize the function using gradient descent. Our experiments show that the proposed method performs remarkably well with a 40\% improvement in IoU and demonstrates more robust registration between point cloud streams and sequential bounding boxes | 翻訳日:2024-09-17 21:29:12 公開日:2024-09-14 |
# ブロック三焦点テンソルのテンソルベース同期と低ランク性
Tensor-Based Synchronization and the Low-Rankness of the Block Trifocal Tensor ( http://arxiv.org/abs/2409.09313v1 ) ライセンス: Link先を確認 | Daniel Miao, Gilad Lerman, Joe Kileel, | (参考訳) 三焦点テンソルのブロックテンソルは、シーンの3次元幾何学に関する重要な幾何学的情報を提供する。
基礎となる同期問題は、ブロック三焦点テンソルからカメラのポーズ(位置と向き)を復元することである。
我々は、このテンソルのタッカー分解を明確にし、適切なスケーリング条件下でのカメラ数とは独立に(6,4,4)$の低い多重線型ランクを明らかにした。
このランク制約は、ノイズレスケースにおけるカメラのリカバリに十分な情報を提供することを示す。
制約は、ブロック三焦点テンソルの高階特異値分解に基づく同期アルゴリズムを動機付けている。
実データセット上での最先端のグローバル同期手法との比較実験により,位置推定精度を大幅に向上させるアルゴリズムの可能性を示した。
全体として、同期問題における高次相互作用は、通常のペアワイズベースのアプローチを超えて、パフォーマンスを改善するために利用することができることを示唆している。
The block tensor of trifocal tensors provides crucial geometric information on the three-view geometry of a scene. The underlying synchronization problem seeks to recover camera poses (locations and orientations up to a global transformation) from the block trifocal tensor. We establish an explicit Tucker factorization of this tensor, revealing a low multilinear rank of $(6,4,4)$ independent of the number of cameras under appropriate scaling conditions. We prove that this rank constraint provides sufficient information for camera recovery in the noiseless case. The constraint motivates a synchronization algorithm based on the higher-order singular value decomposition of the block trifocal tensor. Experimental comparisons with state-of-the-art global synchronization methods on real datasets demonstrate the potential of this algorithm for significantly improving location estimation accuracy. Overall this work suggests that higher-order interactions in synchronization problems can be exploited to improve performance, beyond the usual pairwise-based approaches. | 翻訳日:2024-09-17 21:29:12 公開日:2024-09-14 |
# ODE:マルチモーダル大言語モデルにおける幻覚のオープンセット評価
ODE: Open-Set Evaluation of Hallucinations in Multimodal Large Language Models ( http://arxiv.org/abs/2409.09318v1 ) ライセンス: Link先を確認 | Yahan Tu, Rui Hu, Jitao Sang, | (参考訳) 幻覚はマルチモーダル大言語モデル(MLLM)にとって重要な課題である。
しかし、幻覚を評価するための既存のベンチマークは静的であり、潜在的なデータ汚染につながる可能性がある。
本稿では,MLLMにおけるオブジェクト存在幻覚を評価するためのオープンセット動的プロトコルODEを紹介する。
本フレームワークでは,実単語概念間の関連をモデル化し,汎用シナリオとドメイン固有シナリオの両方に新たなサンプルを生成する。
概念の動的組み合わせは、様々な組み合わせ原理とともに、広いサンプル分布を保証する。
実験の結果, MLLMはODE生成試料よりも高い幻覚率を示し, データ汚染を効果的に回避できることがわかった。
さらに、これらのサンプルは、既存のベンチマーク上でのMLLM性能を改善するための微調整にも使用することができる。
Hallucination poses a significant challenge for multimodal large language models (MLLMs). However, existing benchmarks for evaluating hallucinations are static, which can lead to potential data contamination. This paper introduces ODE, an open-set, dynamic protocol for evaluating object existence hallucinations in MLLMs. Our framework employs graph structures to model associations between real-word concepts and generates novel samples for both general and domain-specific scenarios. The dynamic combination of concepts, along with various combination principles, ensures a broad sample distribution. Experimental results show that MLLMs exhibit higher hallucination rates with ODE-generated samples, effectively avoiding data contamination. Moreover, these samples can also be used for fine-tuning to improve MLLM performance on existing benchmarks. | 翻訳日:2024-09-17 21:29:12 公開日:2024-09-14 |
# ChildPlay-Hand: 野生のハンド操作のデータセット
ChildPlay-Hand: A Dataset of Hand Manipulations in the Wild ( http://arxiv.org/abs/2409.09319v1 ) ライセンス: Link先を確認 | Arya Farkhondeh, Samy Tafasca, Jean-Marc Odobez, | (参考訳) ハンドオブジェクトインタラクション(HOI)は特にAR/VRアプリケーションによって駆動される多数のエゴセントリックデータセットの作成によって注目されている。
しかし、3人称視点 HOI は特にデータセットに関してあまり注目されていない。
ほとんどの3人称ビューデータセットは、アクション認識タスクのためにキュレーションされ、高レベルな日々のアクティビティのプレセグメンテーションされたクリップが特徴であり、Wild内のデータセットのギャップを残している。
このギャップに対処するために、人とオブジェクトのバウンディングボックスと操作アクションを含む新しいデータセットであるChildPlay-Handを提案する。
ChildPlay-Handは、(1)手書きアノテーションの提供、(2)大人と子供の両方が関係する、コントロールされていない設定で動画を特徴付けること、(3)操作と視線を共同でモデル化するためのChildPlay-Gazeデータセットからの視線ラベルを含む。
操作アクションは、把握、保持、操作、および異なるタイプのリリースなど、HOIサイクルのメインステージをカバーする。
本研究は,手指検出(OiH)と操作段階(ManiS)の2つの課題について考察する。
様々な時空間ネットワークと分節ネットワークをベンチマークし、身体と手領域情報を探索し、ポーズとRGBのモダリティを比較した。
以上の結果から,ChildPlay-HandはHOIをモデル化する上で,新たなベンチマークとなることが示唆された。
Hand-Object Interaction (HOI) is gaining significant attention, particularly with the creation of numerous egocentric datasets driven by AR/VR applications. However, third-person view HOI has received less attention, especially in terms of datasets. Most third-person view datasets are curated for action recognition tasks and feature pre-segmented clips of high-level daily activities, leaving a gap for in-the-wild datasets. To address this gap, we propose ChildPlay-Hand, a novel dataset that includes person and object bounding boxes, as well as manipulation actions. ChildPlay-Hand is unique in: (1) providing per-hand annotations; (2) featuring videos in uncontrolled settings with natural interactions, involving both adults and children; (3) including gaze labels from the ChildPlay-Gaze dataset for joint modeling of manipulations and gaze. The manipulation actions cover the main stages of an HOI cycle, such as grasping, holding or operating, and different types of releasing. To illustrate the interest of the dataset, we study two tasks: object in hand detection (OiH), i.e. if a person has an object in their hand, and manipulation stages (ManiS), which is more fine-grained and targets the main stages of manipulation. We benchmark various spatio-temporal and segmentation networks, exploring body vs. hand-region information and comparing pose and RGB modalities. Our findings suggest that ChildPlay-Hand is a challenging new benchmark for modeling HOI in the wild. | 翻訳日:2024-09-17 21:19:23 公開日:2024-09-14 |
# 圧縮記憶に基づくイベント引数抽出のための検索手法
A Compressive Memory-based Retrieval Approach for Event Argument Extraction ( http://arxiv.org/abs/2409.09322v1 ) ライセンス: Link先を確認 | Wanlong Liu, Enqi Zhang, Li Zhou, Dingyi Zeng, Shaohuan Cheng, Chen Zhang, Malu Zhang, Wenyu Chen, | (参考訳) 最近の研究は、イベントアグメント抽出(EAE)タスクにおける検索強化の有効性を実証している。
しかし,既存の検索ベースAE法には,(1)入力長制約と(2)検索器と推論モデルとのギャップという2つの制限がある。
これらの問題は、取得した情報の多様性と品質を制限する。
本稿では,上述の2つの制約に対処するEAEのための圧縮メモリベース検索機構を提案する。
我々の圧縮メモリは、取得した情報を効果的にキャッシュし、継続的な更新をサポートする動的マトリックスとして設計されており、入力長の制限を克服しています。
さらに、すべての候補デモを圧縮メモリにプリロードした後、モデルはさらに、入力クエリに基づいてメモリから関連情報を検索してフィルタリングし、検索者と推論モデルの間のギャップを埋める。
実験の結果,提案手法は3つの公開データセット(RAMS,WikiEvents,ACE05)に対して新たな最先端性能を実現し,既存の検索ベースEAE手法よりも優れていた。
Recent works have demonstrated the effectiveness of retrieval augmentation in the Event Argument Extraction (EAE) task. However, existing retrieval-based EAE methods have two main limitations: (1) input length constraints and (2) the gap between the retriever and the inference model. These issues limit the diversity and quality of the retrieved information. In this paper, we propose a Compressive Memory-based Retrieval (CMR) mechanism for EAE, which addresses the two limitations mentioned above. Our compressive memory, designed as a dynamic matrix that effectively caches retrieved information and supports continuous updates, overcomes the limitations of the input length. Additionally, after pre-loading all candidate demonstrations into the compressive memory, the model further retrieves and filters relevant information from memory based on the input query, bridging the gap between the retriever and the inference model. Extensive experiments show that our method achieves new state-of-the-art performance on three public datasets (RAMS, WikiEvents, ACE05), significantly outperforming existing retrieval-based EAE methods. | 翻訳日:2024-09-17 21:19:23 公開日:2024-09-14 |
# Fourier Kolmogorov-Arnold ネットワークによる入射神経表現
Implicit Neural Representations with Fourier Kolmogorov-Arnold Networks ( http://arxiv.org/abs/2409.09323v1 ) ライセンス: Link先を確認 | Ali Mehrabian, Parsa Mojarad Adi, Moein Heidari, Ilker Hacihaliloglu, | (参考訳) 入射神経表現(INR)は、少数のパラメータを持つ複雑な信号の連続的かつ解像度に依存しない表現を提供するためにニューラルネットワークを使用する。
しかし、既存のINRモデルは、各タスク固有の重要な周波数成分をキャプチャできないことが多い。
本稿では,INRに対するフーリエ・コルモゴロフ・アーノルドネットワーク(FKAN)を提案する。
提案したFKANは、第1層のフーリエ級数としてモデル化された学習可能なアクティベーション関数を用いて、タスク固有の周波数成分を効果的に制御し、学習する。
さらに、学習可能なフーリエ係数を持つアクティベーション関数により、ネットワークの複雑なパターンや詳細をキャプチャする能力が向上し、高解像度で高次元のデータに有用である。
実験結果から,提案したFKANモデルは3つの最先端ベースライン方式より優れており,画像表現タスクのピーク信号対雑音比(PSNR)と構造類似度指数(SSIM)と,3次元占有量表現タスクの結合(IoU)とがそれぞれ向上していることがわかった。
Implicit neural representations (INRs) use neural networks to provide continuous and resolution-independent representations of complex signals with a small number of parameters. However, existing INR models often fail to capture important frequency components specific to each task. To address this issue, in this paper, we propose a Fourier Kolmogorov Arnold network (FKAN) for INRs. The proposed FKAN utilizes learnable activation functions modeled as Fourier series in the first layer to effectively control and learn the task-specific frequency components. In addition, the activation functions with learnable Fourier coefficients improve the ability of the network to capture complex patterns and details, which is beneficial for high-resolution and high-dimensional data. Experimental results show that our proposed FKAN model outperforms three state-of-the-art baseline schemes, and improves the peak signal-to-noise ratio (PSNR) and structural similarity index measure (SSIM) for the image representation task and intersection over union (IoU) for the 3D occupancy volume representation task, respectively. | 翻訳日:2024-09-17 21:19:23 公開日:2024-09-14 |
# 医療文書自動作成のための大規模言語モデルの効率的な微調整
Efficient Fine-Tuning of Large Language Models for Automated Medical Documentation ( http://arxiv.org/abs/2409.09324v1 ) ライセンス: Link先を確認 | Hui Yi Leong, Yi Fan Gao, Ji Shuai, Uktu Pamuksuz, | (参考訳) 科学的な研究によると、直接治療に費やされる1時間ごとに、医師は管理業務、特に電子健康記録(EHR)と机作業に2時間近くを費やしている。
この過剰な管理負担は、患者の治療に使える時間を短縮するだけでなく、医師のバーンアウトや医療提供の非効率に寄与する。
これらの課題に対処するため,医学的対話から医療報告を自動生成する大規模言語モデル(LLM)であるMediGenを紹介した。
LLaMA3-8Bを含むオープンソース事前訓練モデルに最先端の方法論を活用することで、臨床相互作用の転写と要約の精度を向上する。
LLaMA3-8Bモデルでは,ROUGEスコアが58%,BERTScore-F1が72%と有望な結果を示した。
これらの結果から,メディジェンは医師の業務負担を大幅に削減し,医療効率と医師の健康を向上する可能性が示唆された。
Scientific research indicates that for every hour spent in direct patient care, physicians spend nearly two additional hours on administrative tasks, particularly on electronic health records (EHRs) and desk work. This excessive administrative burden not only reduces the time available for patient care but also contributes to physician burnout and inefficiencies in healthcare delivery. To address these challenges, this study introduces MediGen, a fine-tuned large language model (LLM) designed to automate the generation of medical reports from medical dialogues. By leveraging state-of-the-art methodologies for fine-tuning open-source pretrained models, including LLaMA3-8B, MediGen achieves high accuracy in transcribing and summarizing clinical interactions. The fine-tuned LLaMA3-8B model demonstrated promising results, achieving a ROUGE score of 58% and a BERTScore-F1 of 72%, indicating its effectiveness in generating accurate and clinically relevant medical reports. These findings suggest that MediGen has the potential to significantly reduce the administrative workload on physicians, improving both healthcare efficiency and physician well-being. | 翻訳日:2024-09-17 21:19:23 公開日:2024-09-14 |
# LawDNet: 局所アフィンウォーピング変形によるオーディオ駆動型脂質合成の強化
LawDNet: Enhanced Audio-Driven Lip Synthesis via Local Affine Warping Deformation ( http://arxiv.org/abs/2409.09326v1 ) ライセンス: Link先を確認 | Deng Junli, Luo Yihao, Yang Xueting, Li Siyou, Wang Wei, Guo Jinyang, Shi Ping, | (参考訳) 光リアリスティックなアバター生成の分野では、オーディオ駆動型唇運動合成の忠実さは現実的な仮想相互作用に不可欠である。
既存の方法は2つの大きな課題に直面している: 生成した唇のポーズの多様性の制限による視力の欠如と、時間的コヒーレンスの不整合による顕著なアナモルファス運動である。
このような問題に対処するため,我々はLawDNetを提案する。LawDNetは,局所アフィンウォーピング変形機構による唇合成を改良した新しいディープラーニングアーキテクチャである。
このメカニズムは、制御可能な非線形整流場による音声入力に応じて、複雑な唇の動きをモデル化する。
これらの分野は、ディープ・フィーチャーマップ内の抽象キーポイントに焦点をあてた局所アフィン変換から成り、ネットワーク内のフィーチャー・ワープのための新しい普遍的パラダイムを提供する。
加えて、LawDNetはフレーム間連続性を改善するためのデュアルストリーム判別器を導入し、ポーズとシーンのバリエーションを扱うために顔正規化技術を採用している。
広範囲な評価は,従来の方法と比較して,LawDNetの優れた頑健性と唇運動ダイナミズム性能を示す。
本稿では, 方法論, トレーニングデータ, ソースコード, 事前学習モデルなど, 研究コミュニティが利用できるようにする。
In the domain of photorealistic avatar generation, the fidelity of audio-driven lip motion synthesis is essential for realistic virtual interactions. Existing methods face two key challenges: a lack of vivacity due to limited diversity in generated lip poses and noticeable anamorphose motions caused by poor temporal coherence. To address these issues, we propose LawDNet, a novel deep-learning architecture enhancing lip synthesis through a Local Affine Warping Deformation mechanism. This mechanism models the intricate lip movements in response to the audio input by controllable non-linear warping fields. These fields consist of local affine transformations focused on abstract keypoints within deep feature maps, offering a novel universal paradigm for feature warping in networks. Additionally, LawDNet incorporates a dual-stream discriminator for improved frame-to-frame continuity and employs face normalization techniques to handle pose and scene variations. Extensive evaluations demonstrate LawDNet's superior robustness and lip movement dynamism performance compared to previous methods. The advancements presented in this paper, including the methodologies, training data, source codes, and pre-trained models, will be made accessible to the research community. | 翻訳日:2024-09-17 21:19:23 公開日:2024-09-14 |
# VOMTC:ミリ・テラヘルツ通信のための視覚オブジェクト
VOMTC: Vision Objects for Millimeter and Terahertz Communications ( http://arxiv.org/abs/2409.09330v1 ) ライセンス: Link先を確認 | Sunwoo Kim, Yongjun Ahn, Daeyoung Park, Byonghyo Shim, | (参考訳) 近年のセンサーとコンピュータビジョン(CV)技術は、6G無線通信の領域において、ディープラーニング(DL)ベースのCV技術の適用の扉を開いた。
この新興技術の応用が成功するためには、無線アプリケーション(例えば、ラップトップや携帯電話などの無線デバイスを含むRGB画像)に適した、資格あるビジョンデータセットを持つことが不可欠である。
本研究の目的は、ミリメートル・テラヘルツ通信(VOMTC)のための視覚オブジェクトと呼ばれる大規模視覚データセットを提案することである。
VOMTCデータセットは、ベースステーション(BS)に取り付けられたカメラから得られた20,232対のRGBと深度画像で構成され、それぞれに3つの代表的なオブジェクトカテゴリ(人、携帯電話、ラップトップ)とオブジェクトのバウンディングボックスをラベル付けする。
VOMTCデータセットの実験的研究を通じて、VOMTC訓練対象検出器を利用したビームフォーミング技術が従来のビームフォーミング技術より優れていることを示す。
Recent advances in sensing and computer vision (CV) technologies have opened the door for the application of deep learning (DL)-based CV technologies in the realm of 6G wireless communications. For the successful application of this emerging technology, it is crucial to have a qualified vision dataset tailored for wireless applications (e.g., RGB images containing wireless devices such as laptops and cell phones). An aim of this paper is to propose a large-scale vision dataset referred to as Vision Objects for Millimeter and Terahertz Communications (VOMTC). The VOMTC dataset consists of 20,232 pairs of RGB and depth images obtained from a camera attached to the base station (BS), with each pair labeled with three representative object categories (person, cell phone, and laptop) and bounding boxes of the objects. Through experimental studies of the VOMTC datasets, we show that the beamforming technique exploiting the VOMTC-trained object detector outperforms conventional beamforming techniques. | 翻訳日:2024-09-17 21:19:23 公開日:2024-09-14 |
# ステレオエンタングルメントシェアリング
Steganographic Entanglement Sharing ( http://arxiv.org/abs/2409.09335v1 ) ライセンス: Link先を確認 | Bruno Avritzer, Todd A. Brun, | (参考訳) 従来,光チャネルにおける量子フォックとコヒーレント状態を用いた古典的ステガノグラフィの理論的基礎について論じてきたが,この研究は,Wuらによる以前の研究に基づいて,調和振動子の熱状態を模倣する通信を偽装するプロトコルについて議論した。
本研究では、これを量子情報の伝送に拡張し、アクティブな盗聴器が存在する場合でも、非古典的状態のテレポーテーションのような実践的な文脈において、ステガノグラフの絡み合い共有の有用性を実証する。
In a previous work we have discussed a theoretical grounding for classical steganography using quantum Fock and coherent states in an optical channel, building on previous work by Wu et al. In that work, we discussed protocols which disguise communications to mimic the thermal state of a harmonic oscillator. In this work we will extend this to transmission of quantum information, and demonstrate the utility of steganographic entanglement sharing in practical contexts like nonclassical state teleportation, even with the presence of an active eavesdropper. | 翻訳日:2024-09-17 21:19:23 公開日:2024-09-14 |
# 窒化ケイ素マイクロリング共振器を用いたEinstein-Podolsky-Rosen絡み込みによる周波数依存性のスクイージング
Frequency-dependent squeezing via Einstein-Podolsky-Rosen entanglement based on silicon nitride microring resonators ( http://arxiv.org/abs/2409.09336v1 ) ライセンス: Link先を確認 | Haodong Xu, Zijun Shu, Nianqin Li, Yang Shen, Bo Ji, Yongjun Yang, Tengfei Wu, Mingliang Long, Guangqiang He, | (参考訳) 重力波検出器などの量子ノイズに制限された変位センサの性能向上に重要な取り組みがなされている。
周波数依存性のスクイージングのような技術は、光学力の測定における標準的な量子限界を克服し、実質的な全体的な進歩をもたらした。
これらの進歩は、集積フォトニクスの大きな発展と相まって、ケラー量子周波数コム(英語版)(QFC)の出現の道を開いた。
オンチップ窒化ケイ素マイクロリング共振器を用いてEPRエンタングルド量子周波数コムを設計するためのプラットフォームが確立され、エンタングルメント性能の徹底的な解析と最適化、および効果的なノイズ低減調整が可能となった。
このプラットフォームはKerr非線形マイクロ共振器の量子力学を取り入れ、少なくとも12個の連続可変量子モードを6つの同時2モード圧縮ペア(EPRアンタングルペア)の形でサポートしている。
また、アイドラーモードの検出角度を選択することにより、信号モードで単一モード圧縮状態を生成する。
検出角度の周波数依存性の性質を考慮し、周波数依存性のスクイーズを実現する。
また, 異なる分散条件下での比較解析を行った。
Significant efforts have been made to enhance the performance of displacement sensors limited by quantum noise, such as gravitational wave detectors. Techniques like frequency-dependent squeezing have overcome the standard quantum limit in optomechanical force measurements, leading to substantial overall progress. These advancements, coupled with major developments in integrated photonics, have paved the way for the emergence of integrated Kerr quantum frequency combs (QFCs). A platform has been established for designing EPR entangled quantum frequency combs using on-chip silicon nitride microring resonators, enabling thorough analysis and optimization of entanglement performance, as well as effective noise reduction adjustments. This platform, incorporating the quantum dynamics of Kerr nonlinear microresonators, supports at least 12 continuous-variable quantum modes in the form of 6 simultaneous two-mode squeezed pairs (EPR entangled pairs). Additionally, by selecting the detection angle of the idler mode, a single-mode squeezed state is generated in the signal mode. Given the frequency-dependent nature of the detection angle, frequency-dependent squeezing is achieved. A comparative analysis of the results under different dispersion conditions is also conducted. | 翻訳日:2024-09-17 21:19:23 公開日:2024-09-14 |
# Wave-U-Mamba: 高品質で効率的な音声超解像のためのエンドツーエンドフレームワーク
Wave-U-Mamba: An End-To-End Framework For High-Quality And Efficient Speech Super Resolution ( http://arxiv.org/abs/2409.09337v1 ) ライセンス: Link先を確認 | Yongjoon Lee, Chanwoo Kim, | (参考訳) SSR(Speech Super-Resolution)は、高周波数成分の欠如を回復させることにより低分解能音声信号を強化するタスクである。
従来の手法では、通常、対数メルの特徴を再構成し、次いで波形領域で高分解能な音声を生成するボコーダが続く。
しかし、ログメルの特徴は位相情報を欠いているため、このことは再構成フェーズにおける性能劣化をもたらす可能性がある。
SSM(Selective State Spaces Models)の最近の進歩に触発されて、時間領域でSSRを直接実行するWave-U-Mambaと呼ばれる手法を提案する。
WSRGlow、NU-Wave 2、AudioSRなどのモデルを含む比較研究において、Wave-U-Mambaは8kHzから24kHzの低分解能サンプリングレートで最低の対数スペクトル距離(LSD)を達成し、優れた性能を示す。
さらに、平均オピニオンスコア(MOS)を用いて評価した主観評価の結果、本手法が自然および人的品質のSSRを生成することが明らかとなった。
さらに、Wave-U-Mambaは、単一のA100 GPUのベースラインモデルよりも9倍高速な高分解能音声を生成しながら、これらの結果を達成する。
Speech Super-Resolution (SSR) is a task of enhancing low-resolution speech signals by restoring missing high-frequency components. Conventional approaches typically reconstruct log-mel features, followed by a vocoder that generates high-resolution speech in the waveform domain. However, as log-mel features lack phase information, this can result in performance degradation during the reconstruction phase. Motivated by recent advances with Selective State Spaces Models (SSMs), we propose a method, referred to as Wave-U-Mamba that directly performs SSR in time domain. In our comparative study, including models such as WSRGlow, NU-Wave 2, and AudioSR, Wave-U-Mamba demonstrates superior performance, achieving the lowest Log-Spectral Distance (LSD) across various low-resolution sampling rates, ranging from 8 kHz to 24 kHz. Additionally, subjective human evaluations, scored using Mean Opinion Score (MOS) reveal that our method produces SSR with natural and human-like quality. Furthermore, Wave-U-Mamba achieves these results while generating high-resolution speech over nine times faster than baseline models on a single A100 GPU, with parameter sizes less than 2% of those in the baseline models. | 翻訳日:2024-09-17 21:19:23 公開日:2024-09-14 |
# 量子回路設計における抽象層としての量子データ符号化
Quantum data encoding as a distinct abstraction layer in the design of quantum circuits ( http://arxiv.org/abs/2409.09339v1 ) ライセンス: Link先を確認 | Gabriele Agliardi, Enrico Prati, | (参考訳) 複雑な量子回路は、量子サブルーチンの組み合わせによって構成される。
量子データの符号化が回路全体を通して一貫性がある限り、計算は可能である。
基本的な重要性にもかかわらず、量子データ符号化の形式化は、これまで体系的に解決されることはなかった。
我々は、量子データ符号化の概念、すなわち、量子状態を通して設定されたデータの表現を提供する形式を、関連するデータロード回路に関して異なる抽象層として定式化する。
本稿では,従来の符号化手法とその手法について,古典的かつ近似的なデータのロード,状態から情報の量子から古典的抽出,量子から量子への符号化変換について検討する。
次に、主要な量子アルゴリズムが、データローディングの観点から自然な解釈を見出す方法を示す。
例えば、量子フーリエ変換は量子符号化変換器として記述され、量子振幅推定は抽出ルーチンとして記述される。
新しい概念的枠組みは、量子ベースのモンテカルロシミュレーションに応用することを考えると、複素量子回路を記述するために提案された形式主義の力を示す。
実際、このアプローチは複雑な量子回路の構造を明らかにし、その効率的な設計を可能にする。
Complex quantum circuits are constituted by combinations of quantum subroutines. The computation is possible as long as the quantum data encoding is consistent throughout the circuit. Despite its fundamental importance, the formalization of quantum data encoding has never been addressed systematically so far. We formalize the concept of quantum data encoding, namely the format providing a representation of a data set through a quantum state, as a distinct abstract layer with respect to the associated data loading circuit. We survey existing encoding methods and their respective strategies for classical-to-quantum exact and approximate data loading, for the quantum-to-classical extraction of information from states, and for quantum-to-quantum encoding conversion. Next, we show how major quantum algorithms find a natural interpretation in terms of data loading. For instance, the Quantum Fourier Transform is described as a quantum encoding converter, while the Quantum Amplitude Estimation as an extraction routine. The new conceptual framework is exemplified by considering its application to quantum-based Monte Carlo simulations, thus showcasing the power of the proposed formalism for the description of complex quantum circuits. Indeed, the approach clarifies the structure of complex quantum circuits and enables their efficient design. | 翻訳日:2024-09-17 21:19:23 公開日:2024-09-14 |
# 児童・親子間対話における自我中心話者分類 : センシングから計算モデルへ
Egocentric Speaker Classification in Child-Adult Dyadic Interactions: From Sensing to Computational Modeling ( http://arxiv.org/abs/2409.09340v1 ) ライセンス: Link先を確認 | Tiantian Feng, Anfeng Xu, Xuan Shi, Somer Bishop, Shrikanth Narayanan, | (参考訳) 自閉症スペクトラム障害(Autism spectrum disorder、ASD)は、社会的コミュニケーション、反復行動、感覚処理における課題を特徴とする神経発達状態である。
ASDにおける重要な研究領域は、治療中の子供の行動変化を評価することである。
この目的の標準プロトコルはBOSCCであり、事前に定義された活動のセットを実行する子供と臨床医の間のダイアディックな相互作用を含む。
これらの相互作用における子供の行動を理解する基本的な側面は、自動音声理解であり、特に誰が話すか、いつ話すかを特定することである。
この領域における従来のアプローチは、オブザーバーの観点から記録された音声サンプルに大きく依存しており、エゴセントリックな音声モデリングの研究は限られている。
本研究では,ウェアラブルセンサを用いたBOSCCインタビューにおける音声サンプリング実験を設計し,学習前のEgo4D音声サンプルを探索し,子育て話者の対話性を高める。
本研究は, 話者分類精度を向上させるために, エゴセントリック音声収集と事前学習の可能性を強調した。
Autism spectrum disorder (ASD) is a neurodevelopmental condition characterized by challenges in social communication, repetitive behavior, and sensory processing. One important research area in ASD is evaluating children's behavioral changes over time during treatment. The standard protocol with this objective is BOSCC, which involves dyadic interactions between a child and clinicians performing a pre-defined set of activities. A fundamental aspect of understanding children's behavior in these interactions is automatic speech understanding, particularly identifying who speaks and when. Conventional approaches in this area heavily rely on speech samples recorded from a spectator perspective, and there is limited research on egocentric speech modeling. In this study, we design an experiment to perform speech sampling in BOSCC interviews from an egocentric perspective using wearable sensors and explore pre-training Ego4D speech samples to enhance child-adult speaker classification in dyadic interactions. Our findings highlight the potential of egocentric speech collection and pre-training to improve speaker classification accuracy. | 翻訳日:2024-09-17 21:19:23 公開日:2024-09-14 |
# 浅勾配における持続性擬足動物分割は効果的な遊走戦略である
Persistent pseudopod splitting is an effective chemotaxis strategy in shallow gradients ( http://arxiv.org/abs/2409.09342v1 ) ライセンス: Link先を確認 | Albert Alonso, Julius B. Kirkegaard, Robert G. Endres, | (参考訳) 単細胞生物や様々な細胞は、化学勾配に従う際に様々な運動モードを使用するが、どのモードが異なる勾配に最も適しているかは分かっていない。
そこで我々は, 遊走性アモエボイド細胞の方向性決定を, 刺激依存性アクチンリクルートコンテストとしてモデル化した。
細胞体から伸びる擬足動物は、有限のアクチンプールを競い、1つの擬足動物が勝利し、動きの方向を決定するまで細胞をその方向に押し上げる。
我々の最小限のモデルは、細胞が正確な化学反応の物理的限界に達するために使用する戦略を定量的に理解し、明示的な勾配検出や永続性のためのセルメモリのないデータと整合する。
このモデルを一般化するために,我々は擬似ポッド抑制の効果を研究するために強化学習最適化を用いた。
異なる擬足動物に基づく遊走戦略は、環境とその動態によって自然に現れる。
例えば、静的勾配では、細胞は擬似ポッドの精度を犠牲にしてより高速に反応することができる。
対照的に、ダイナミックス勾配では、細胞は擬ポッドを形成する。
本研究は, 細胞制御が最小限に抑えられた, ケモタキシー性能の機械知能を実証する。
Single-cell organisms and various cell types use a range of motility modes when following a chemical gradient, but it is unclear which mode is best suited for different gradients. Here, we model directional decision-making in chemotactic amoeboid cells as a stimulus-dependent actin recruitment contest. Pseudopods extending from the cell body compete for a finite actin pool to push the cell in their direction until one pseudopod wins and determines the direction of movement. Our minimal model provides a quantitative understanding of the strategies cells use to reach the physical limit of accurate chemotaxis, aligning with data without explicit gradient sensing or cellular memory for persistence. To generalize our model, we employ reinforcement learning optimization to study the effect of pseudopod suppression, a simple but effective cellular algorithm by which cells can suppress possible directions of movement. Different pseudopod-based chemotaxis strategies emerge naturally depending on the environment and its dynamics. For instance, in static gradients, cells can react faster at the cost of pseudopod accuracy, which is particularly useful in noisy, shallow gradients where it paradoxically increases chemotactic accuracy. In contrast, in dynamics gradients, cells form \textit{de novo} pseudopods. Overall, our work demonstrates mechanical intelligence for high chemotaxis performance with minimal cellular regulation. | 翻訳日:2024-09-17 21:19:23 公開日:2024-09-14 |
# ステップレベルQ値モデルによるLCMエージェントの意思決定強化
Enhancing Decision-Making for LLM Agents via Step-Level Q-Value Models ( http://arxiv.org/abs/2409.09345v1 ) ライセンス: Link先を確認 | Yuanzhao Zhai, Tingkai Yang, Kele Xu, Feng Dawei, Cheng Yang, Bo Ding, Huaimin Wang, | (参考訳) エージェントは、環境を認識し、決定し、アクションを実行することで、スタンドアロンの大規模言語モデル(LLM)の機能を大幅に強化する。
しかし、LLMエージェントは、複数の意思決定ステップを必要とするタスクにおいて、依然として課題に直面している。
特定のタスクにおけるアクションの価値を推定することは、中間アクションが適切に報酬や罰せられなければ難しい。
本稿では,タスク関連Q値モデルを用いて行動選択を誘導する手法を提案する。
具体的には、まずモンテカルロ木探索(MCTS)を通してステップレベルのQ値に注釈を付けた意思決定トラジェクトリを収集し、選好データを構成する。
次に、Q値モデルとして機能するステップレベルの直接ポリシー最適化(DPO)を通じて、これらの嗜好に適合する別のLCMを使用します。
推論中、各意思決定ステップにおいて、LLMエージェントは環境と対話する前に、最も高いQ値のアクションを選択する。
提案手法を様々なオープンソースおよびAPIベースのLCMエージェントに適用し,Q値モデルによる性能向上を実証した。
特に、Phi-3-mini-4k-インストラクタで構築したエージェントの性能は、WebShopで103%向上し、Q値モデルで強化されたHotPotQAで75%向上し、GPT-4o-miniを上回った。
さらに、Q値モデルには、異なるLLMエージェントへの一般化や既存のプロンプト戦略とのシームレスな統合など、いくつかの利点がある。
Agents significantly enhance the capabilities of standalone Large Language Models (LLMs) by perceiving environments, making decisions, and executing actions. However, LLM agents still face challenges in tasks that require multiple decision-making steps. Estimating the value of actions in specific tasks is difficult when intermediate actions are neither appropriately rewarded nor penalized. In this paper, we propose leveraging a task-relevant Q-value model to guide action selection. Specifically, we first collect decision-making trajectories annotated with step-level Q values via Monte Carlo Tree Search (MCTS) and construct preference data. We then use another LLM to fit these preferences through step-level Direct Policy Optimization (DPO), which serves as the Q-value model. During inference, at each decision-making step, LLM agents select the action with the highest Q value before interacting with the environment. We apply our method to various open-source and API-based LLM agents, demonstrating that Q-value models significantly improve their performance. Notably, the performance of the agent built with Phi-3-mini-4k-instruct improved by 103% on WebShop and 75% on HotPotQA when enhanced with Q-value models, even surpassing GPT-4o-mini. Additionally, Q-value models offer several advantages, such as generalization to different LLM agents and seamless integration with existing prompting strategies. | 翻訳日:2024-09-17 21:19:23 公開日:2024-09-14 |
# 未ペアデータ翻訳のためのシュレーディンガー橋流れ
Schrödinger Bridge Flow for Unpaired Data Translation ( http://arxiv.org/abs/2409.09347v1 ) ライセンス: Link先を確認 | Valentin De Bortoli, Iryna Korshunova, Andriy Mnih, Arnaud Doucet, | (参考訳) 大量輸送問題は、ある分布を別の分布に輸送する地図を計算したいという機械学習の多くの領域で発生する。
GAN(Generative Adversarial Networks)やDDM(Denoising Diffusion Models)といったジェネレーティブモデリング技術は,このようなトランスポート問題の解決に成功しており,それぞれCycleGANとBridge Matchingを実現している。
しかしながら、これらの方法は望ましい性質を持つことが知られている最適輸送(OT)写像を近似しない。
DDMベースのRectified FlowやSchr\"odinger Bridgeなどの高次元データリッチな問題に対して既存のOTマップを近似する手法では、各イテレーションでDDMタイプのモデルを十分に訓練するか、あるいは重大なエラーを起こすミニバッチ技術を使用する必要がある。
我々は,複数のDDM様モデルをトレーニングする必要のない,動的エントロピー規則化されたOTバージョンであるSchr\"odinger Bridgeを計算するための新しいアルゴリズムを提案する。
このアルゴリズムは経路測度の流れの離散化に対応しており、これはSchr\"odinger Bridge Flowと呼ばれ、その静止点はSchr\"odinger Bridgeである。
我々は,不適切なデータ翻訳タスクにおいて,アルゴリズムの性能を実証する。
Mass transport problems arise in many areas of machine learning whereby one wants to compute a map transporting one distribution to another. Generative modeling techniques like Generative Adversarial Networks (GANs) and Denoising Diffusion Models (DDMs) have been successfully adapted to solve such transport problems, resulting in CycleGAN and Bridge Matching respectively. However, these methods do not approximate Optimal Transport (OT) maps, which are known to have desirable properties. Existing techniques approximating OT maps for high-dimensional data-rich problems, such as DDM-based Rectified Flow and Schr\"odinger Bridge procedures, require fully training a DDM-type model at each iteration, or use mini-batch techniques which can introduce significant errors. We propose a novel algorithm to compute the Schr\"odinger Bridge, a dynamic entropy-regularised version of OT, that eliminates the need to train multiple DDM-like models. This algorithm corresponds to a discretisation of a flow of path measures, which we call the Schr\"odinger Bridge Flow, whose only stationary point is the Schr\"odinger Bridge. We demonstrate the performance of our algorithm on a variety of unpaired data translation tasks. | 翻訳日:2024-09-17 21:19:23 公開日:2024-09-14 |
# β-Sigma VAE:ガウス変分オートエンコーダにおけるベータとデコーダの分離
Beta-Sigma VAE: Separating beta and decoder variance in Gaussian variational autoencoder ( http://arxiv.org/abs/2409.09361v1 ) ライセンス: Link先を確認 | Seunghwan Kim, Seungkyu Lee, | (参考訳) 変異オートエンコーダ(VAE)は確立された生成モデルであるが、その曖昧さで有名である。
本研究では、VAEのぼやけた出力問題を調査し、それを解決し、ガウス復号器とベータVAEの$\beta$の分散を利用した。
具体的には、デコーダのばらつきと$\beta$の不明瞭さは、確率的確率値によるモデルの適切な解析を妨げ、$\beta$の利得を省略して性能改善を制限することを明らかにした。
この問題に対処するために、モデルで$\beta$とdecoder variance$\sigma^2_x$を明示的に分離するBeta-Sigma VAE(BS-VAE)を提案する。
本手法は, 自然画像合成における性能だけでなく, 制御可能なパラメータや予測可能な解析も従来のVAEと比較して優れていることを示す。
実験的な評価では,コンピュータビジョンデータセット上での速度歪み曲線とプロキシメトリクスの分析を用いる。
コードはhttps://github.com/overnap/BS-VAEで入手できる。
Variational autoencoder (VAE) is an established generative model but is notorious for its blurriness. In this work, we investigate the blurry output problem of VAE and resolve it, exploiting the variance of Gaussian decoder and $\beta$ of beta-VAE. Specifically, we reveal that the indistinguishability of decoder variance and $\beta$ hinders appropriate analysis of the model by random likelihood value, and limits performance improvement by omitting the gain from $\beta$. To address the problem, we propose Beta-Sigma VAE (BS-VAE) that explicitly separates $\beta$ and decoder variance $\sigma^2_x$ in the model. Our method demonstrates not only superior performance in natural image synthesis but also controllable parameters and predictable analysis compared to conventional VAE. In our experimental evaluation, we employ the analysis of rate-distortion curve and proxy metrics on computer vision datasets. The code is available on https://github.com/overnap/BS-VAE | 翻訳日:2024-09-17 21:19:23 公開日:2024-09-14 |
# QTG-VQA: ビデオQAシステムのための質問型ガイドアーキテクチャ
QTG-VQA: Question-Type-Guided Architectural for VideoQA Systems ( http://arxiv.org/abs/2409.09348v1 ) ライセンス: Link先を確認 | Zhixian He, Pengcheng Zhao, Fuwei Zhang, Shujin Lin, | (参考訳) ビデオ質問応答(VideoQA)の分野では、VQAシステムに対する質問タイプの影響は、その重要さにもかかわらず、現在まで比較的過小評価されている。
しかし、質問型の豊かさは、モデルが学ぶべき概念の範囲を直接決定し、学習能力の上限に影響を与える。
本稿では,VQAシステムにおける異なる質問型の重要性と,その性能への影響を考察し,不均一な質問型分布による学習不足やモデル劣化といった一連の問題を明らかにする。
特に,様々な質問タイプにまたがる時間情報の依存性の有意な変動を考慮し,その表現がImageQAとは対照的に,ビデオQAの主課題と難しさを同時に表している。
これらの課題に対処するため,質問型ガイダンスと適応学習機構を組み込んだ新しいアーキテクチャであるQTG-VQAを提案する。
具体的には、時間的タイプの質問に対して、よりリッチな視覚言語関係を把握し、より複雑な時間的依存関係を管理することを目的として、時間的モデリングを強化するためにマスキングフレームモデリング手法を設計する。
さらに,質問タイプに適した新しい評価基準を導入する。
提案手法の有効性を実験的に検証した。
In the domain of video question answering (VideoQA), the impact of question types on VQA systems, despite its critical importance, has been relatively under-explored to date. However, the richness of question types directly determines the range of concepts a model needs to learn, thereby affecting the upper limit of its learning capability. This paper focuses on exploring the significance of different question types for VQA systems and their impact on performance, revealing a series of issues such as insufficient learning and model degradation due to uneven distribution of question types. Particularly, considering the significant variation in dependency on temporal information across different question types, and given that the representation of such information coincidentally represents a principal challenge and difficulty for VideoQA as opposed to ImageQA. To address these challenges, we propose QTG-VQA, a novel architecture that incorporates question-type-guided attention and adaptive learning mechanism. Specifically, as to temporal-type questions, we design Masking Frame Modeling technique to enhance temporal modeling, aimed at encouraging the model to grasp richer visual-language relationships and manage more intricate temporal dependencies. Furthermore, a novel evaluation metric tailored to question types is introduced. Experimental results confirm the effectiveness of our approach. | 翻訳日:2024-09-17 21:09:38 公開日:2024-09-14 |
# OPUS:スパースセットを用いた作業予測
OPUS: Occupancy Prediction Using a Sparse Set ( http://arxiv.org/abs/2409.09350v1 ) ライセンス: Link先を確認 | Jiabao Wang, Zhaojiang Liu, Qiang Meng, Liujiang Yan, Ke Wang, Jie Yang, Wei Liu, Qibin Hou, Ming-Ming Cheng, | (参考訳) ボクセル化3D環境における占有状況の予測を目的とした職業予測は,自動運転コミュニティ内で急速に勢いを増している。
メインストリーム占有予測は、まず3次元環境をボクセルに識別し、次にそのような高密度グリッドの分類を行う。
しかし、サンプルデータの検査により、ほとんどのボクセルが占有されていないことが明らかとなった。
これらの空のボクセルの分類を行うには、最適化された計算資源の割り当てが必要であり、そのような空のボクセルを減らすことは複雑なアルゴリズム設計を必要とする。
そこで本稿では,空間モデルや複雑なスペーシフィケーション手順を必要とせず,合理化された集合予測パラダイムとして定式化するという,占有率予測タスクの新たな視点を示す。
提案するフレームワークはOPUSと呼ばれ,トランスフォーマー・エンコーダ・デコーダアーキテクチャを用いて,学習可能なクエリセットを用いて,占有位置とクラスを同時に予測する。
第一に、設定から設定までの比較問題を前例のない大きさに拡大するために、チャンファー距離損失を用いて、そのようなモデルのエンド・ツー・エンドを現実にしている。
その後、学習した位置に基づいて近接探索を用いて、セマンティッククラスを適応的に割り当てる。
さらにOPUSは、粗大な学習、一貫した点サンプリング、適応的な再重み付けなど、モデルパフォーマンスを向上させるための非自明な戦略のスイートを組み込んでいる。
最後に、現在の最先端手法と比較して、我々の最も軽量なモデルはOcc3D-nuScenesデータセットの2倍 FPS で優れたRayIoUを達成し、最も重いモデルは6.1 RayIoU を上回ります。
Occupancy prediction, aiming at predicting the occupancy status within voxelized 3D environment, is quickly gaining momentum within the autonomous driving community. Mainstream occupancy prediction works first discretize the 3D environment into voxels, then perform classification on such dense grids. However, inspection on sample data reveals that the vast majority of voxels is unoccupied. Performing classification on these empty voxels demands suboptimal computation resource allocation, and reducing such empty voxels necessitates complex algorithm designs. To this end, we present a novel perspective on the occupancy prediction task: formulating it as a streamlined set prediction paradigm without the need for explicit space modeling or complex sparsification procedures. Our proposed framework, called OPUS, utilizes a transformer encoder-decoder architecture to simultaneously predict occupied locations and classes using a set of learnable queries. Firstly, we employ the Chamfer distance loss to scale the set-to-set comparison problem to unprecedented magnitudes, making training such model end-to-end a reality. Subsequently, semantic classes are adaptively assigned using nearest neighbor search based on the learned locations. In addition, OPUS incorporates a suite of non-trivial strategies to enhance model performance, including coarse-to-fine learning, consistent point sampling, and adaptive re-weighting, etc. Finally, compared with current state-of-the-art methods, our lightest model achieves superior RayIoU on the Occ3D-nuScenes dataset at near 2x FPS, while our heaviest model surpasses previous best results by 6.1 RayIoU. | 翻訳日:2024-09-17 21:09:38 公開日:2024-09-14 |
# コードアシスタントにおける言語障壁の克服--ロシア語のコード記述命令のサポートを改善するQLoRAアダプタの作成
Overcoming linguistic barriers in code assistants: creating a QLoRA adapter to improve support for Russian-language code writing instructions ( http://arxiv.org/abs/2409.09353v1 ) ライセンス: Link先を確認 | C. B. Pronin, A. V. Volosova, A. V. Ostroukh, Yu. N. Strogov, | (参考訳) 本稿では,一般的な言語モデル "zephyr-7b-beta" のアダプタモデルをトレーニングし,評価する手法について述べる。
このアダプタは、ロシア語のプログラミングと理解に関わるタスクにおいて、ベースモデルの性能を向上させるために開発された。
英語のタスクにおける原モデルの高品質さを考えると、研究の目的は言語学的および技術的スペクトルを拡大することであった。
提案したアダプタは,プログラムに関連する質問応答ペアや,ロシア語のコード関連テキストなど,多種多様なデータセットを用いてトレーニングされた。
適用されたトレーニング手法は、ロシア語の命令に基づいてPythonコードを理解して生成する際のモデルの品質の向上を保証する。
本研究では, 各種メトリクスを用いて, ベースモデルと他の最先端モデルとの比較を行い, ベースモデルの性能評価を行った。
結果,Pythonのコード記述やロシア語処理のタスクにおいて,提案したアダプタの有効性を確認し,大幅な改善が得られた。
In this paper, an approach to training and evaluating an adapter model for the popular language model "zephyr-7b-beta" is described. The adapter was developed to improve the performance of the base model in tasks related to programming and understanding the Russian language. Considering the high quality of the original model in tasks in the English language, the goal of the research was to expand its linguistic and technical spectrum. The proposed adapter was trained using a large and diverse dataset, including question-answer pairs related to programming, as well code-related texts in Russian language. The applied training methodology ensures an improvement in the model's quality of answers in understanding and generating Python code based on Russian instructions. We evaluated the performance of the base model with the installed adapter using various metrics, comparing it to the base model as well as other state-of-the-art models in this field. The obtained results showed significant improvement, both in tasks related to writing Python code and in processing the Russian language, confirming the effectiveness of the proposed adapter. | 翻訳日:2024-09-17 21:09:38 公開日:2024-09-14 |
# PeriGuru:GUI画像理解とLLMによるプロンプトに基づく周辺ロボットモバイルアプリ操作アシスタント
PeriGuru: A Peripheral Robotic Mobile App Operation Assistant based on GUI Image Understanding and Prompting with LLM ( http://arxiv.org/abs/2409.09354v1 ) ライセンス: Link先を確認 | Kelin Fu, Yang Tian, Kaigui Bian, | (参考訳) スマートフォンは日々の学習、コミュニケーション、エンターテイメントを著しく強化し、現代生活の重要な要素となった。
しかし、高齢者や障害者を含む一部の人口は、スマートフォンの利用において困難に直面するため、モバイルアプリ操作アシスタント、すなわちモバイルアプリエージェントを必要としている。
プライバシやパーミッション,クロスプラットフォーム互換性の問題を考慮して,GUIイメージ理解とLarge Language Model(LLM)によるプロンプトに基づく周辺ロボットモバイルアプリ操作アシスタントであるPeriGuruの開発と開発に取り組んでいます。
PeriGuruは一連のコンピュータビジョン技術を利用してGUIのスクリーンショット画像を分析し、LLMを使ってアクション決定を通知し、ロボットアームによって実行される。
PeriGuruはテストタスクセットで81.94%の成功率を達成した。
私たちのコードはhttps://github.com/Z2sJ4t/PeriGuru.comで利用可能です。
Smartphones have significantly enhanced our daily learning, communication, and entertainment, becoming an essential component of modern life. However, certain populations, including the elderly and individuals with disabilities, encounter challenges in utilizing smartphones, thus necessitating mobile app operation assistants, a.k.a. mobile app agent. With considerations for privacy, permissions, and cross-platform compatibility issues, we endeavor to devise and develop PeriGuru in this work, a peripheral robotic mobile app operation assistant based on GUI image understanding and prompting with Large Language Model (LLM). PeriGuru leverages a suite of computer vision techniques to analyze GUI screenshot images and employs LLM to inform action decisions, which are then executed by robotic arms. PeriGuru achieves a success rate of 81.94% on the test task set, which surpasses by more than double the method without PeriGuru's GUI image interpreting and prompting design. Our code is available on https://github.com/Z2sJ4t/PeriGuru. | 翻訳日:2024-09-17 21:09:38 公開日:2024-09-14 |
# 産業環境におけるオープンソースソフトウェアサプライチェーン攻撃のロバスト検出に向けて
Towards Robust Detection of Open Source Software Supply Chain Poisoning Attacks in Industry Environments ( http://arxiv.org/abs/2409.09356v1 ) ライセンス: Link先を確認 | Xinyi Zheng, Chen Wei, Shenao Wang, Yanjie Zhao, Peiming Gao, Yuanchao Zhang, Kailong Wang, Haoyu Wang, | (参考訳) オープンソースパッケージエコシステム、特にNPMとPyPIの指数関数的な成長は、ソフトウェアサプライチェーンの毒殺攻撃の急増に繋がった。
既存の静的解析手法は高い偽陽性率に悩まされており、難読化や動的コード実行技術によって容易に回避される。
動的分析アプローチは改善を提供するが、多くの場合、パッケージ以外の振る舞いをキャプチャし、洗練された悪意のある振る舞いを引き起こすのに失敗する簡易なテスト戦略を採用することに苦しむ。
これらの課題に対処するため、NPMおよびPyPIエコシステムのための堅牢な動的コード中毒検出パイプラインであるOSCARを提案する。
OSCARはサンドボックス環境でパッケージを完全に実行し、エクスポートされた関数やクラスに対してファズテストを採用し、APIフックポイントを調整したアスペクトベースの動作監視を実装している。
我々は、現実世界の悪質で良質なパッケージの包括的なベンチマークデータセットを用いて、OSCARを既存の6つのツールと比較した。
OSCARはNPMで0.95点、PyPIで0.91点を獲得し、OSCARが現在の最先端技術と同じくらい有効であることを確認する。
さらに、悪質なパッケージの特徴を示す良質なパッケージの場合、OSCARは他のツールと比較して、NPMで平均32.06%(34.63%から2.57%)、PyPIで39.87%(41.10%から1.23%)の偽陽性率を減少させ、実際のデプロイメントにおいて手動レビューの負荷を大幅に削減する。
主要な金融技術企業であるAnt Groupと協力し、2023年1月からOSCARをNPMおよびPyPIミラーにデプロイし、18ヶ月で10,404個のNPMパッケージと1,235個のPyPIパッケージを特定しました。
この研究は、コード中毒検出における学術研究と産業応用のギャップを埋めるだけでなく、実世界の産業環境で徹底的にテストされた堅牢で実用的なソリューションも提供する。
The exponential growth of open-source package ecosystems, particularly NPM and PyPI, has led to an alarming increase in software supply chain poisoning attacks. Existing static analysis methods struggle with high false positive rates and are easily thwarted by obfuscation and dynamic code execution techniques. While dynamic analysis approaches offer improvements, they often suffer from capturing non-package behaviors and employing simplistic testing strategies that fail to trigger sophisticated malicious behaviors. To address these challenges, we present OSCAR, a robust dynamic code poisoning detection pipeline for NPM and PyPI ecosystems. OSCAR fully executes packages in a sandbox environment, employs fuzz testing on exported functions and classes, and implements aspect-based behavior monitoring with tailored API hook points. We evaluate OSCAR against six existing tools using a comprehensive benchmark dataset of real-world malicious and benign packages. OSCAR achieves an F1 score of 0.95 in NPM and 0.91 in PyPI, confirming that OSCAR is as effective as the current state-of-the-art technologies. Furthermore, for benign packages exhibiting characteristics typical of malicious packages, OSCAR reduces the false positive rate by an average of 32.06% in NPM (from 34.63% to 2.57%) and 39.87% in PyPI (from 41.10% to 1.23%), compared to other tools, significantly reducing the workload of manual reviews in real-world deployments. In cooperation with Ant Group, a leading financial technology company, we have deployed OSCAR on its NPM and PyPI mirrors since January 2023, identifying 10,404 malicious NPM packages and 1,235 malicious PyPI packages over 18 months. This work not only bridges the gap between academic research and industrial application in code poisoning detection but also provides a robust and practical solution that has been thoroughly tested in a real-world industrial setting. | 翻訳日:2024-09-17 21:09:38 公開日:2024-09-14 |
# 完全広帯域音声再生のための統合意味的知識蒸留とマスド音響モデル
Joint Semantic Knowledge Distillation and Masked Acoustic Modeling for Full-band Speech Restoration with Improved Intelligibility ( http://arxiv.org/abs/2409.09357v1 ) ライセンス: Link先を確認 | Xiaoyu Liu, Xu Li, Joan Serrà, Santiago Pascual, | (参考訳) 音声の復元は、様々な歪みのセットを考慮して、高品質で知性の高い全帯域音声を復元することを目的としている。
MaskSRは、最近提案されたこのタスクのための生成モデルである。
この種の他のモデルと同様に、MaskSRは高品質であるが、私たちが示すように、知性は大幅に改善できる。
我々は、事前訓練された教師モデルを用いて、ターゲット音声の意味表現を予測して、MaskSRの音声エンコーダコンポーネントを強化する。
次に,対象音声の低レベルスペクトルを符号化する音響トークンを予測するために,学習した意味的特徴に基づいてマスク付き言語モデルを条件付けする。
提案モデルであるMaskSR2は,同一のMaskSRモデルキャパシティと推定時間を用いて,単語の誤り率を大幅に低減することを示した。
MaskSR2は他のモデルと競合するワードエラー率を実現し、優れた品質を提供する。
アブレーション研究は、様々な意味表現の有効性を示す。
Speech restoration aims at restoring full-band speech with high quality and intelligibility, considering a diverse set of distortions. MaskSR is a recently proposed generative model for this task. As other models of its kind, MaskSR attains high quality but, as we show, intelligibility can be substantially improved. We do so by boosting the speech encoder component of MaskSR with predictions of semantic representations of the target speech, using a pre-trained self-supervised teacher model. Then, a masked language model is conditioned on the learned semantic features to predict acoustic tokens that encode low level spectral details of the target speech. We show that, with the same MaskSR model capacity and inference time, the proposed model, MaskSR2, significantly reduces the word error rate, a typical metric for intelligibility. MaskSR2 also achieves competitive word error rate among other models, while providing superior quality. An ablation study shows the effectiveness of various semantic representations. | 翻訳日:2024-09-17 21:09:38 公開日:2024-09-14 |
# 概念ライブラリを学習したシンボリック回帰
Symbolic Regression with a Learned Concept Library ( http://arxiv.org/abs/2409.09359v1 ) ライセンス: Link先を確認 | Arya Grayeli, Atharva Sehgal, Omar Costilla-Reyes, Miles Cranmer, Swarat Chaudhuri, | (参考訳) 本稿では,データセットを最もよく説明できるコンパクトなプログラム仮説を探索する,記号回帰(SR)手法を提案する。
この問題を遺伝的アルゴリズムを用いて解き、抽象的なテクスチャ概念のライブラリーを誘導することにより、そのような手法を強化することができることを示す。
我々のアルゴリズムはLaSRと呼ばれ、ゼロショットクエリを大言語モデル(LLM)に使用して、既知のハイパフォーマンスな仮説における概念を発見し、進化させます。
我々は、標準進化ステップとLLM誘導ステップ(ゼロショットLLMクエリによって達成される)を混合した新しい仮説を発見し、その概念を定式化した。
一度発見されると、仮説は新しい概念の抽象化と進化のラウンドで使われる。
我々は、一般的なSRベンチマークであるFeynman方程式と合成タスクのセット上でLaSRを検証する。
これらのベンチマークでは、LaSRはディープラーニングと進化的アルゴリズムに基づいて、最先端のSRアプローチを大幅に上回っている。
さらに,LLMの新規かつ強力なスケーリング法則の発見にLaSRを用いることが可能であることを示す。
We present a novel method for symbolic regression (SR), the task of searching for compact programmatic hypotheses that best explain a dataset. The problem is commonly solved using genetic algorithms; we show that we can enhance such methods by inducing a library of abstract textual concepts. Our algorithm, called LaSR, uses zero-shot queries to a large language model (LLM) to discover and evolve concepts occurring in known high-performing hypotheses. We discover new hypotheses using a mix of standard evolutionary steps and LLM-guided steps (obtained through zero-shot LLM queries) conditioned on discovered concepts. Once discovered, hypotheses are used in a new round of concept abstraction and evolution. We validate LaSR on the Feynman equations, a popular SR benchmark, as well as a set of synthetic tasks. On these benchmarks, LaSR substantially outperforms a variety of state-of-the-art SR approaches based on deep learning and evolutionary algorithms. Moreover, we show that LaSR can be used to discover a novel and powerful scaling law for LLMs. | 翻訳日:2024-09-17 21:09:38 公開日:2024-09-14 |
# 手術機器セグメンテーションにおけるステレオ・時間的文脈の展開
LACOSTE: Exploiting stereo and temporal contexts for surgical instrument segmentation ( http://arxiv.org/abs/2409.09360v1 ) ライセンス: Link先を確認 | Qiyuan Wang, Shang Zhao, Zikang Xu, S Kevin Zhou, | (参考訳) 手術器具のセグメンテーションは、最小侵襲の手術と関連する応用に役立つ。
従来の方法では、このタスクを単一フレームベースのインスタンスセグメンテーションとして定式化し、外科的ビデオの自然な時間的特性やステレオ属性を無視した。
その結果、時間的動きや視点の変化による外観変化に対して、これらの手法はより堅牢である。
そこで本研究では,ステレオ画像とテンポラル画像における位置非依存コネクトを利用した新しいLACOSTEモデルを提案し,手術器具のセグメンテーションを改善した。
クエリベースのセグメンテーションモデルをコアとして活用し、3つのパフォーマンス向上モジュールを設計する。
まず,不均一誘導型特徴伝搬モジュールを設計し,奥行き認識機能を明確に向上させる。
モノクロビデオのみに対してさえもうまく一般化するために、擬似ステレオスキームを適用して補完的な右画像を生成する。
第2に,統合された予測を行い,過渡的故障を緩和する普遍的な方法で,ステレオ時間文脈を集約するステレオ時間集合分類器を提案する。
最後に、マスク予測から位置バイアスを分離し、特徴セマンティクスを強化する位置認識型分類器を提案する。
われわれは,EndoVis Challengesの2つのベンチマークと1つの根治的前立腺切除術データセットGraSPを含む3つの公開手術ビデオデータセットに対するアプローチを広範囲に検証した。
実験により提案手法の有望な性能を実証し, 従来手法と同等あるいは好意的な結果が得られることを示した。
Surgical instrument segmentation is instrumental to minimally invasive surgeries and related applications. Most previous methods formulate this task as single-frame-based instance segmentation while ignoring the natural temporal and stereo attributes of a surgical video. As a result, these methods are less robust against the appearance variation through temporal motion and view change. In this work, we propose a novel LACOSTE model that exploits Location-Agnostic COntexts in Stereo and TEmporal images for improved surgical instrument segmentation. Leveraging a query-based segmentation model as core, we design three performance-enhancing modules. Firstly, we design a disparity-guided feature propagation module to enhance depth-aware features explicitly. To generalize well for even only a monocular video, we apply a pseudo stereo scheme to generate complementary right images. Secondly, we propose a stereo-temporal set classifier, which aggregates stereo-temporal contexts in a universal way for making a consolidated prediction and mitigates transient failures. Finally, we propose a location-agnostic classifier to decouple the location bias from mask prediction and enhance the feature semantics. We extensively validate our approach on three public surgical video datasets, including two benchmarks from EndoVis Challenges and one real radical prostatectomy surgery dataset GraSP. Experimental results demonstrate the promising performances of our method, which consistently achieves comparable or favorable results with previous state-of-the-art approaches. | 翻訳日:2024-09-17 21:09:38 公開日:2024-09-14 |
# 2段階プレフィックス強化マルチモーダルLDMによる映画イベント指向属性生成
Generating Event-oriented Attribution for Movies via Two-Stage Prefix-Enhanced Multimodal LLM ( http://arxiv.org/abs/2409.09362v1 ) ライセンス: Link先を確認 | Yuanjie Lyu, Tong Xu, Zihan Niu, Bo Peng, Jing Ke, Enhong Chen, | (参考訳) ソーシャルメディアプラットフォームの繁栄は、イベントやストーリーラインの属性など、セマンティックリッチなサービスに対する緊急の需要を高めている。
しかし、既存の研究のほとんどは、映画全体にわたる出来事の原因を分析することなく、主に基本的なキャプションタスクを通して、クリップレベルのイベント理解に焦点を当てている。
高度なマルチモーダル大規模言語モデル(MLLM)でさえ、コンテキスト長が制限されているため、広範囲なマルチモーダル情報に苦しむため、これは大きな課題である。
この問題に対処するために,ビデオビデオにおけるイベント属性,すなわち関連イベントと因果意味論を結びつけるための2段階事前修正強化MLLM (TSPE) アプローチを提案する。
局所的な段階では、対話対応プレフィックスを導入し、単一のイベントを簡潔に要約して、関連するマルチモーダル情報に集中するようモデルに誘導する。
それに対応して、グローバルな段階では、推論知識グラフを用いて関連するイベント間の接続を強化し、モデルに先行するすべてのクリップではなく関連するイベントにフォーカスするよう指示するイベント認識プレフィックスを設計し、正確なイベント帰属をもたらす。
2つの実世界のデータセットの総合的な評価は、我々のフレームワークが最先端の手法より優れていることを示している。
The prosperity of social media platforms has raised the urgent demand for semantic-rich services, e.g., event and storyline attribution. However, most existing research focuses on clip-level event understanding, primarily through basic captioning tasks, without analyzing the causes of events across an entire movie. This is a significant challenge, as even advanced multimodal large language models (MLLMs) struggle with extensive multimodal information due to limited context length. To address this issue, we propose a Two-Stage Prefix-Enhanced MLLM (TSPE) approach for event attribution, i.e., connecting associated events with their causal semantics, in movie videos. In the local stage, we introduce an interaction-aware prefix that guides the model to focus on the relevant multimodal information within a single clip, briefly summarizing the single event. Correspondingly, in the global stage, we strengthen the connections between associated events using an inferential knowledge graph, and design an event-aware prefix that directs the model to focus on associated events rather than all preceding clips, resulting in accurate event attribution. Comprehensive evaluations of two real-world datasets demonstrate that our framework outperforms state-of-the-art methods. | 翻訳日:2024-09-17 21:09:38 公開日:2024-09-14 |
# MHAD:マルチアングル映像と同期生理信号を用いたマルチモーダルホームアクティビティデータセット
MHAD: Multimodal Home Activity Dataset with Multi-Angle Videos and Synchronized Physiological Signals ( http://arxiv.org/abs/2409.09366v1 ) ライセンス: Link先を確認 | Lei Yu, Jintao Fei, Xinyi Liu, Yang Yao, Jun Zhao, Guoxin Wang, Xin Li, | (参考訳) リモート光胸腺撮影(rPPG)で実証されたビデオベースの生理学は、ビデオ記録の微妙な変化を分析して、パルスや呼吸などの生理的信号を抽出する。
この非接触リアルタイムモニタリング手法はホームセッティングに大きな可能性を秘めている。
この技術に対する公開ベンチマークデータセットの貴重な貢献にもかかわらず、現在、受動的ホーム監視用に特別に設計されたデータセットは存在しない。
既存のデータセットは、しばしばクローズアップ、静的、正面記録に制限され、通常は1-2の生理的信号のみを含む。
実家環境における映像ベース生理学の進歩のために,MHADデータセットを導入する。
40人の被験者から1,440本のビデオで構成され、実家環境の3つの角度から6つの典型的なアクティビティを捉えている。
さらに5つの生理的信号が記録され、包括的なビデオベースの生理的データセットとなった。
MHADはrPPG-toolboxと互換性があり、いくつかの教師なしおよび教師なしの方法を用いて検証されている。
私たちのデータセットはhttps://github.com/jdh-algo/MHAD-Dataset.comで公開されています。
Video-based physiology, exemplified by remote photoplethysmography (rPPG), extracts physiological signals such as pulse and respiration by analyzing subtle changes in video recordings. This non-contact, real-time monitoring method holds great potential for home settings. Despite the valuable contributions of public benchmark datasets to this technology, there is currently no dataset specifically designed for passive home monitoring. Existing datasets are often limited to close-up, static, frontal recordings and typically include only 1-2 physiological signals. To advance video-based physiology in real home settings, we introduce the MHAD dataset. It comprises 1,440 videos from 40 subjects, capturing 6 typical activities from 3 angles in a real home environment. Additionally, 5 physiological signals were recorded, making it a comprehensive video-based physiology dataset. MHAD is compatible with the rPPG-toolbox and has been validated using several unsupervised and supervised methods. Our dataset is publicly available at https://github.com/jdh-algo/MHAD-Dataset. | 翻訳日:2024-09-17 21:09:38 公開日:2024-09-14 |
# モデルはコードである - トレーニング済みのモデルハブ上での攻撃に対する悪意のあるコード攻撃の測定に向けて
Models Are Codes: Towards Measuring Malicious Code Poisoning Attacks on Pre-trained Model Hubs ( http://arxiv.org/abs/2409.09368v1 ) ライセンス: Link先を確認 | Jian Zhao, Shenao Wang, Yanjie Zhao, Xinyi Hou, Kailong Wang, Peiming Gao, Yuanchao Zhang, Chen Wei, Haoyu Wang, | (参考訳) 事前トレーニングされたモデル(PTM)とデータセットの普及により、Hugging Faceのような集中型モデルハブが出現し、共同開発と再利用が容易になった。
しかし、最近のセキュリティレポートは、これらのプラットフォームにおける悪意のある攻撃の脆弱性とインスタンスを明らかにし、セキュリティ上の懸念の高まりを強調している。
本稿では,Hugging Faceプラットフォームに着目した,事前訓練されたモデルハブに対する悪意のあるコード中毒攻撃に関する最初の体系的研究について述べる。
我々は、包括的脅威分析を行い、モデルフォーマットの分類を開発し、脆弱なフォーマットの根本原因分析を行う。
FicklingやModelScanといった既存のツールはいくつかの保護を提供するが、セマンティックレベルの分析と包括的な脅威検出の制限に直面している。
これらの課題に対処するために、Hugging Face用に設計されたエンドツーエンドパイプラインであるMalHugを提案する。これは、データセットの読み込みスクリプト抽出、モデルのデシリアライゼーション、詳細なテナント分析、およびヒューリスティックパターンマッチングを組み合わせて、データセットやモデルにおける悪意のあるコード中毒攻撃を検出し、分類する。
主要な金融技術企業であるAnt Groupと共同で、MalHugをインフラストラクチャ内のミラー化されたHugging Faceインスタンスに実装し、デプロイしました。
この期間にMalHugは705Kモデルと176Kデータセットを監視し、91の悪意のあるモデルと9の悪意のあるデータセットローディングスクリプトを発見した。
これらの結果から,リバースシェル,ブラウザ認証盗難,システム偵察など,さまざまなセキュリティ上の脅威が明らかになった。
この作業は、PTMサプライチェーンのセキュリティを理解する上で重要なギャップを埋めるだけでなく、事前訓練されたモデルハブのセキュリティを強化するための実践的で産業的にテストされたソリューションも提供する。
The proliferation of pre-trained models (PTMs) and datasets has led to the emergence of centralized model hubs like Hugging Face, which facilitate collaborative development and reuse. However, recent security reports have uncovered vulnerabilities and instances of malicious attacks within these platforms, highlighting growing security concerns. This paper presents the first systematic study of malicious code poisoning attacks on pre-trained model hubs, focusing on the Hugging Face platform. We conduct a comprehensive threat analysis, develop a taxonomy of model formats, and perform root cause analysis of vulnerable formats. While existing tools like Fickling and ModelScan offer some protection, they face limitations in semantic-level analysis and comprehensive threat detection. To address these challenges, we propose MalHug, an end-to-end pipeline tailored for Hugging Face that combines dataset loading script extraction, model deserialization, in-depth taint analysis, and heuristic pattern matching to detect and classify malicious code poisoning attacks in datasets and models. In collaboration with Ant Group, a leading financial technology company, we have implemented and deployed MalHug on a mirrored Hugging Face instance within their infrastructure, where it has been operational for over three months. During this period, MalHug has monitored more than 705K models and 176K datasets, uncovering 91 malicious models and 9 malicious dataset loading scripts. These findings reveal a range of security threats, including reverse shell, browser credential theft, and system reconnaissance. This work not only bridges a critical gap in understanding the security of the PTM supply chain but also provides a practical, industry-tested solution for enhancing the security of pre-trained model hubs. | 翻訳日:2024-09-17 21:09:38 公開日:2024-09-14 |
# 直交誘導バイアスによる視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・
Interpretable Vision-Language Survival Analysis with Ordinal Inductive Bias for Computational Pathology ( http://arxiv.org/abs/2409.09369v1 ) ライセンス: Link先を確認 | Pei Liu, Luping Ji, Jiaxiang Gou, Bo Fu, Mao Ye, | (参考訳) 病理組織学的にWSIは,CPATHにおける癌予後を評価する重要なツールである。
既存のサバイバル分析(SA)アプローチは、エキサイティングな進歩を遂げているが、それらは一般的に、ギガピクセルWSIから予後の視覚表現を学ぶために、非常に表現力の高いアーキテクチャを採用し、患者レベルのラベルを粗くするだけに限られている。
このような学習パラダイムは、CPATHで現在少ないトレーニングデータと標準マルチインスタンス学習(MIL)フレームワークに直面している場合、重要なパフォーマンスボトルネックに悩まされる。
そこで本研究では,VLSA(Vision-Language-based SA)パラダイムを提案する。
具体的には、(1)VLSAは病理VL基盤モデルによって駆動される。
もはや高機能ネットワークに依存しておらず、データ効率の利点を示している。
2)視覚終末では,VLSAは前もって予後言語を符号化し,それを補助信号として用いて,インスタンスレベルでの予後視覚特徴の集約を誘導し,MILの弱い監督を補う。
さらに, SAの特性を考慮し, 提案する。
一 連続生存ラベルをテキスト・プロンプトに変換することの学習を経時的に行うこと。
二 標準入射関数を予測対象として、VLに基づく予測との整合性を持たせること。
VLSAの予測は、Shapley値に基づく方法によって直感的に解釈できる。
5つのデータセットに対する広範な実験により,提案手法の有効性が確認された。
我々のVLSAは、弱監督型MILをギガピクセルWSIから貴重な予後の手がかりを学習するための効果的な手段として提供することで、CPATHにおけるSAの新たな道を開くことができる。
ソースコードはhttps://github.com/liupei101/VLSA.comで公開されています。
Histopathology Whole-Slide Images (WSIs) provide an important tool to assess cancer prognosis in computational pathology (CPATH). While existing survival analysis (SA) approaches have made exciting progress, they are generally limited to adopting highly-expressive architectures and only coarse-grained patient-level labels to learn prognostic visual representations from gigapixel WSIs. Such learning paradigm suffers from important performance bottlenecks, when facing present scarce training data and standard multi-instance learning (MIL) framework in CPATH. To break through it, this paper, for the first time, proposes a new Vision-Language-based SA (VLSA) paradigm. Concretely, (1) VLSA is driven by pathology VL foundation models. It no longer relies on high-capability networks and shows the advantage of data efficiency. (2) In vision-end, VLSA encodes prognostic language prior and then employs it as auxiliary signals to guide the aggregating of prognostic visual features at instance level, thereby compensating for the weak supervision in MIL. Moreover, given the characteristics of SA, we propose i) ordinal survival prompt learning to transform continuous survival labels into textual prompts; and ii) ordinal incidence function as prediction target to make SA compatible with VL-based prediction. VLSA's predictions can be interpreted intuitively by our Shapley values-based method. The extensive experiments on five datasets confirm the effectiveness of our scheme. Our VLSA could pave a new way for SA in CPATH by offering weakly-supervised MIL an effective means to learn valuable prognostic clues from gigapixel WSIs. Our source code is available at https://github.com/liupei101/VLSA. | 翻訳日:2024-09-17 21:09:38 公開日:2024-09-14 |
# MotionTTT:3次元運動補正MRIのための2次元テスト時間運動推定
MotionTTT: 2D Test-Time-Training Motion Estimation for 3D Motion Corrected MRI ( http://arxiv.org/abs/2409.09370v1 ) ライセンス: Link先を確認 | Tobit Klug, Kun Wang, Stefan Ruschke, Reinhard Heckel, | (参考訳) 重要な医用画像技術であるMRI(MRI)の長期計測における大きな課題は、患者がデータ取得中に移動する可能性があることである。
これにより、再建された画像や巻物に厳しい運動アーティファクトが生じる。
本論文では,高精度な動き推定のための深層学習に基づくテスト時間学習手法を提案する。
キーとなる考え方は、動きのない再構築のために訓練されたニューラルネットワークは、動きがなければ損失が小さいため、再構成ネットワークに渡される動きパラメータを最適化することで、動きの正確な推定が可能になるということである。
推定された動きパラメータは、動きを補正し、正確な動き補正画像の再構成を可能にする。
本手法は3次元の剛性運動を推定するために2次元再構成ネットワークを用い,3次元運動補正MRIに向けた3次元剛性運動推定のための最初の深部学習法を構成する。
本手法は, 単純な信号とニューラルネットワークモデルに対して, 動作パラメータを確実に再構成できることを示す。
本手法の有効性を遡及的にシミュレーションした動きと,前向きに収集した実動きの破損データの両方に対して示す。
A major challenge of the long measurement times in magnetic resonance imaging (MRI), an important medical imaging technology, is that patients may move during data acquisition. This leads to severe motion artifacts in the reconstructed images and volumes. In this paper, we propose a deep learning-based test-time-training method for accurate motion estimation. The key idea is that a neural network trained for motion-free reconstruction has a small loss if there is no motion, thus optimizing over motion parameters passed through the reconstruction network enables accurate estimation of motion. The estimated motion parameters enable to correct for the motion and to reconstruct accurate motion-corrected images. Our method uses 2D reconstruction networks to estimate rigid motion in 3D, and constitutes the first deep learning based method for 3D rigid motion estimation towards 3D-motion-corrected MRI. We show that our method can provably reconstruct motion parameters for a simple signal and neural network model. We demonstrate the effectiveness of our method for both retrospectively simulated motion and prospectively collected real motion-corrupted data. | 翻訳日:2024-09-17 21:09:38 公開日:2024-09-14 |
# WeatherReal: 気象モデル評価のためのその場観測に基づくベンチマーク
WeatherReal: A Benchmark Based on In-Situ Observations for Evaluating Weather Models ( http://arxiv.org/abs/2409.09371v1 ) ライセンス: Link先を確認 | Weixin Jin, Jonathan Weyn, Pengcheng Zhao, Siqi Xiang, Jiang Bian, Zuliang Fang, Haiyu Dong, Hongyu Sun, Kit Thambiratnam, Qi Zhang, | (参考訳) 近年、AIベースの天気予報モデルは、数値的な天気予報システムに適合し、さらに性能も向上している。
しかしながら、これらのモデルのほとんどは、ERA5のような再分析データセットに基づいてトレーニングされ、評価されている。
これらのデータセットは数値モデルの産物であり、しばしば、地表の温度、風、降水量、雲といったいくつかの重要な変数における実際の観測から大きく分かれる。
この分散に対処するため,気象予報のための新しいベンチマークデータセットであるWeatherRealを紹介した。
WeatherRealは、パブリックアクセス可能な品質管理および評価フレームワークも備えている。
本稿では,データセットの基盤となる情報源と処理手法について詳述し,また,超局地・極寒観測におけるその場観測の利点を,比較分析とケーススタディを通じて明らかにした。
WeatherRealを用いて、複数のデータ駆動モデルを評価し、それらを主要な数値モデルと比較した。
私たちの研究は、AIベースの天気予報研究を、よりアプリケーション中心で運用対応のアプローチへと進めることを目的としています。
In recent years, AI-based weather forecasting models have matched or even outperformed numerical weather prediction systems. However, most of these models have been trained and evaluated on reanalysis datasets like ERA5. These datasets, being products of numerical models, often diverge substantially from actual observations in some crucial variables like near-surface temperature, wind, precipitation and clouds - parameters that hold significant public interest. To address this divergence, we introduce WeatherReal, a novel benchmark dataset for weather forecasting, derived from global near-surface in-situ observations. WeatherReal also features a publicly accessible quality control and evaluation framework. This paper details the sources and processing methodologies underlying the dataset, and further illustrates the advantage of in-situ observations in capturing hyper-local and extreme weather through comparative analyses and case studies. Using WeatherReal, we evaluated several data-driven models and compared them with leading numerical models. Our work aims to advance the AI-based weather forecasting research towards a more application-focused and operation-ready approach. | 翻訳日:2024-09-17 21:09:38 公開日:2024-09-14 |
# 分散結合を有する巨大原子導波路QEDにおける境界状態と原子間相互作用
Bound states and atomic interaction in giant atom waveguide QED with dispersive coupling ( http://arxiv.org/abs/2409.09373v1 ) ライセンス: Link先を確認 | Mingzhu Weng, Zhihai Wang, | (参考訳) 本稿では,結合共振器導波路と結合する一対の巨大原子間の有界状態と有効相互作用をネストした状態で検討する。
導波路への有害な個人や集団の散逸を抑制するため,導波路の伝播帯から巨大原子の周波数が遠ざかる分散結合方式を検討する。
このスキームでは、原子間相互作用はギャップ内の境界状態間の重なりによって引き起こされる。
相対的な位置依存原子結合を実証し,その状態移動への応用を探求する。
重ね合わせ状態の転移忠実度は0.999$に近づくことができる。
そこで本手法は,ロバストな量子情報処理の設計に有用である。
In this paper, we investigate the bound states and the effective interaction between a pair of giant atoms, which couples to the coupled resonator waveguide in a nested configuration. To suppress the harmful individual and collective dissipations to the waveguide, we consider the dispersive coupling scheme, where the frequency of the giant atoms are far away from the propagating band of the waveguide. In our scheme, the atomic interaction can be induced by the overlap between the bound states in the gap. We demonstrate the relative position dependent atomic coupling and explore its application in the state transfer. We find that the transfer fidelity of a superposition state can approach $0.999$. Therefore, our scheme is useful for designing robust quantum information processing. | 翻訳日:2024-09-17 20:57:09 公開日:2024-09-14 |
# BM$^2$: Coupled Schrödinger Bridge Matching
BM$^2$: Coupled Schrödinger Bridge Matching ( http://arxiv.org/abs/2409.09376v1 ) ライセンス: Link先を確認 | Stefano Peluchetti, | (参考訳) Schr\"{o}dinger ブリッジは、2つの対象分布間の動的輸送マップを参照プロセスを介して確立し、関連するエントロピー最適輸送問題を同時に解決する。
対象分布からのサンプルが利用可能となる設定について検討し、参照拡散過程はトラクタブルダイナミクスを許容する。
そこで我々は、ニューラルネットワークを用いてSchr\"{o}dinger Bridgesを学習するための単純な 'emph{non-iterative} アプローチである Coupled Bridge Matching (BM$^2$) を導入する。
BM$^2$の収束特性に関する予備的理論的解析を行い,提案手法の有効性を示す数値実験を行った。
A Schr\"{o}dinger bridge establishes a dynamic transport map between two target distributions via a reference process, simultaneously solving an associated entropic optimal transport problem. We consider the setting where samples from the target distributions are available, and the reference diffusion process admits tractable dynamics. We thus introduce Coupled Bridge Matching (BM$^2$), a simple \emph{non-iterative} approach for learning Schr\"{o}dinger bridges with neural networks. A preliminary theoretical analysis of the convergence properties of BM$^2$ is carried out, supported by numerical experiments that demonstrate the effectiveness of our proposal. | 翻訳日:2024-09-17 20:57:09 公開日:2024-09-14 |
# ファンデーションモデルにおける音楽AI研究の主流
Prevailing Research Areas for Music AI in the Era of Foundation Models ( http://arxiv.org/abs/2409.09378v1 ) ライセンス: Link先を確認 | Megan Wei, Mateusz Modrzejewski, Aswin Sivaraman, Dorien Herremans, | (参考訳) ファンデーションモデル研究の最近の進歩と相まって、ここ数年で生成的音楽AI応用が急増している。
AIが生成し、AIが強化された音楽が主流になるにつれ、音楽のAIコミュニティの多くの研究者は、どんな研究の道が残されているのか疑問に思うかもしれない。
音楽生成モデルに関しては,現在研究対象となっている領域について概説する。
まず、これらの生成モデルの基礎的表現の問題を提起し、説明可能性へのアプローチを検討する。
次に,音楽データセットの現状とその限界について論じる。
次に、異なる生成モデル、これらのモデルの評価形式、およびそれらの計算制約/制限について概説する。
続いて、これらの生成モデルの複数のモダリティ拡張への応用と、アーティストのワークフローと音楽教育システムとの統合を強調した。
最後に、生成音楽の著作権侵害の可能性を調査し、音楽家の権利を守るための戦略について議論する。
本調査では,音楽ファンデーションモデルによる様々な研究の方向性に注目した。
In tandem with the recent advancements in foundation model research, there has been a surge of generative music AI applications within the past few years. As the idea of AI-generated or AI-augmented music becomes more mainstream, many researchers in the music AI community may be wondering what avenues of research are left. With regards to music generative models, we outline the current areas of research with significant room for exploration. Firstly, we pose the question of foundational representation of these generative models and investigate approaches towards explainability. Next, we discuss the current state of music datasets and their limitations. We then overview different generative models, forms of evaluating these models, and their computational constraints/limitations. Subsequently, we highlight applications of these generative models towards extensions to multiple modalities and integration with artists' workflow as well as music education systems. Finally, we survey the potential copyright implications of generative music and discuss strategies for protecting the rights of musicians. While it is not meant to be exhaustive, our survey calls to attention a variety of research directions enabled by music foundation models. | 翻訳日:2024-09-17 20:57:09 公開日:2024-09-14 |
# Midas Touch:RM-APIミス検出のためのLCMの能力向上
The Midas Touch: Triggering the Capability of LLMs for RM-API Misuse Detection ( http://arxiv.org/abs/2409.09380v1 ) ライセンス: Link先を確認 | Yi Yang, Jinghua Liu, Kai Chen, Miaoqian Lin, | (参考訳) 本稿では, RM-API 制約の検索と RM-API の誤用検出を支援する文書理解のための LLM を完全に自動化した RM-API 誤用検出ソリューション ChatDetector を提案する。
RM-APIの制約を正しく取得するためにChatDetectorは、Chain-of-Thought(CoT)に基づいて最適化されたReActフレームワークにインスパイアされている。
まず、APIドキュメントからLLMを通じて取得したRM文に基づいて、アロケーションAPIの意味を検証します。
様々なプロンプト法でLLMのパフォーマンスにインスパイアされたChatDetectorは、クロスバリデーションのための2次元プロンプトアプローチを採用する。
同時に、既製の自然言語処理(NLP)ツールによるアロケーションAPIの確認には、LCMの出力と推論プロセスとの間の矛盾チェックアプローチが採用されている。
RM-APIを正確にペアリングするために、ChatDetectorは再びタスクを分解し、まずRM-オブジェクトタイプを識別する。
幻覚の減少に伴い、ChatDetectorは最先端のAPI検出器と比較して、98.21%の精度で165組のRM-APIを識別する。
静的検出ツールのCodeQLを使用することで、開発者に対して6つの人気のあるライブラリを統合するアプリケーションの115のセキュリティバグを倫理的に報告します。
エンドツーエンドのベンチマーク手法と比較すると、ChatDetectorは少なくとも47%以上のRM文と80.85%以上のRM-API制約を検索できる。
In this paper, we propose an LLM-empowered RM-API misuse detection solution, ChatDetector, which fully automates LLMs for documentation understanding which helps RM-API constraints retrieval and RM-API misuse detection. To correctly retrieve the RM-API constraints, ChatDetector is inspired by the ReAct framework which is optimized based on Chain-of-Thought (CoT) to decompose the complex task into allocation APIs identification, RM-object (allocated/released by RM APIs) extraction and RM-APIs pairing (RM APIs usually exist in pairs). It first verifies the semantics of allocation APIs based on the retrieved RM sentences from API documentation through LLMs. Inspired by the LLMs' performance on various prompting methods,ChatDetector adopts a two-dimensional prompting approach for cross-validation. At the same time, an inconsistency-checking approach between the LLMs' output and the reasoning process is adopted for the allocation APIs confirmation with an off-the-shelf Natural Language Processing (NLP) tool. To accurately pair the RM-APIs, ChatDetector decomposes the task again and identifies the RM-object type first, with which it can then accurately pair the releasing APIs and further construct the RM-API constraints for misuse detection. With the diminished hallucinations, ChatDetector identifies 165 pairs of RM-APIs with a precision of 98.21% compared with the state-of-the-art API detectors. By employing a static detector CodeQL, we ethically report 115 security bugs on the applications integrating on six popular libraries to the developers, which may result in severe issues, such as Denial-of-Services (DoS) and memory corruption. Compared with the end-to-end benchmark method, the result shows that ChatDetector can retrieve at least 47% more RM sentences and 80.85% more RM-API constraints. | 翻訳日:2024-09-17 20:57:09 公開日:2024-09-14 |
# テキスト・プロンプトは十分ではない:ターゲットスタイルのオーディオ・ジェネレーションのためのサウンド・イベント強化・プロンプト・アダプタ
Text Prompt is Not Enough: Sound Event Enhanced Prompt Adapter for Target Style Audio Generation ( http://arxiv.org/abs/2409.09381v1 ) ライセンス: Link先を確認 | Chenxu Xiong, Ruibo Fu, Shuchen Shi, Zhengqi Wen, Jianhua Tao, Tao Wang, Chenxing Li, Chunyu Qiang, Yuankun Xie, Xin Qi, Guanjun Li, Zizheng Yang, | (参考訳) 現在の主流の音声生成法は、主に単純なテキストプロンプトに依存しており、しばしばマルチスタイルの音声生成に必要な微妙な詳細を捉えていない。
この制限に対処するため、Sound Event Enhanced Prompt Adapterを提案する。
従来の静的なグローバルなスタイル転送とは異なり、この方法は適応的なスタイル制御のためにテキストと参照オーディオ間のクロスアテンションを通してスタイル埋め込みを抽出する。
適応層正規化(Adaptive Layer normalization)は、複数のスタイルを表現するためにモデルの能力を高めるために使用される。
さらに、提案したターゲットスタイル音声生成タスクに対して、SERST(Sound Event Reference Style Transfer Dataset)を導入し、テキストおよびオーディオ参照の両方を用いて、デュアルプロンプト音声生成を可能にする。
実験結果から、Tango、AudioLDM、AudioGenを上回り、26.94の最先端Fr'echet Distanceと1.82のKL Divergenceを実現した。
さらに、生成されたオーディオは、対応するオーディオ参照と高い類似性を示す。
デモ、コード、データセットが公開されている。
Current mainstream audio generation methods primarily rely on simple text prompts, often failing to capture the nuanced details necessary for multi-style audio generation. To address this limitation, the Sound Event Enhanced Prompt Adapter is proposed. Unlike traditional static global style transfer, this method extracts style embedding through cross-attention between text and reference audio for adaptive style control. Adaptive layer normalization is then utilized to enhance the model's capacity to express multiple styles. Additionally, the Sound Event Reference Style Transfer Dataset (SERST) is introduced for the proposed target style audio generation task, enabling dual-prompt audio generation using both text and audio references. Experimental results demonstrate the robustness of the model, achieving state-of-the-art Fr\'echet Distance of 26.94 and KL Divergence of 1.82, surpassing Tango, AudioLDM, and AudioGen. Furthermore, the generated audio shows high similarity to its corresponding audio reference. The demo, code, and dataset are publicly available. | 翻訳日:2024-09-17 20:57:09 公開日:2024-09-14 |
# 紙ソーストレースのためのLLMを用いたアンサンブル学習:GPUフリーアプローチ
LLM-Powered Ensemble Learning for Paper Source Tracing: A GPU-Free Approach ( http://arxiv.org/abs/2409.09383v1 ) ライセンス: Link先を確認 | Kunlong Chen, Junjun Wang, Zhaoqun Chen, Kunjin Chen, Yitian Chen, | (参考訳) 我々は,KDD CUP 2024紙ソース追跡コンテストに参加し,第3位を獲得した。
このコンペティションは参加者に対して、与えられた学術論文の基準資料(すなわち、コンペティションの主催者によって言及されるref-sources)を特定するよう指示した。
BERTやChatGLMといったトレーニング済みのニューラルネットワークモデルを微調整することで、この問題に対処しているほとんどのチームとは異なり、私たちの主要なアプローチは、クローズドソースの大規模言語モデル(LLM)を使用していました。
近年のLLM技術の進歩により、ゼロショットや少数ショットのシナリオで複雑な推論タスクに対処できることが、クローズドソースのLLMで実証されている。
その結果,GPUの欠如により,提案した論文から予測された参照ソースを直接生成するために,クローズドソースLLMを用いた。
私たちはさらに、アンサンブル学習を通じてこれらの予測を洗練しました。
特に,モデルトレーニングにGPUを使わなくても,受賞したアプローチの中では,本手法が唯一であった。
コードはhttps://github.com/Cklwanfifa/KDDCUP2024-PSTで公開されている。
We participated in the KDD CUP 2024 paper source tracing competition and achieved the 3rd place. This competition tasked participants with identifying the reference sources (i.e., ref-sources, as referred to by the organizers of the competition) of given academic papers. Unlike most teams that addressed this challenge by fine-tuning pre-trained neural language models such as BERT or ChatGLM, our primary approach utilized closed-source large language models (LLMs). With recent advancements in LLM technology, closed-source LLMs have demonstrated the capability to tackle complex reasoning tasks in zero-shot or few-shot scenarios. Consequently, in the absence of GPUs, we employed closed-source LLMs to directly generate predicted reference sources from the provided papers. We further refined these predictions through ensemble learning. Notably, our method was the only one among the award-winning approaches that did not require the use of GPUs for model training. Code available at https://github.com/Cklwanfifa/KDDCUP2024-PST. | 翻訳日:2024-09-17 20:57:09 公開日:2024-09-14 |
# AMBER -- Multi-Band Image Segmentationのための高度なSegFormer:ハイパースペクトルイメージングへの応用
AMBER -- Advanced SegFormer for Multi-Band Image Segmentation: an application to Hyperspectral Imaging ( http://arxiv.org/abs/2409.09386v1 ) ライセンス: Link先を確認 | Andrea Dosi, Massimo Brescia, Stefano Cavuoti, Mariarca D'Aniello, Michele Delli Veneri, Carlo Donadio, Adriano Ettari, Giuseppe Longo, Alvi Rownok, Luca Sannino, Maria Zampella, | (参考訳) ディープラーニングはハイパースペクトル画像(HSI)解析の分野に革命をもたらし、複雑で階層的な特徴の抽出を可能にした。
畳み込みニューラルネットワーク(CNN)は、HSI分類のバックボーンであるが、グローバルなコンテキスト特徴のキャプチャにおける制限は、ビジョントランスフォーマー(ViT)の探索につながっている。
本稿では,マルチバンド画像セグメンテーション用に設計された高度なSegFormerであるAMBERを紹介する。
AMBERは、ハイパースペクトルデータを処理するために3次元の畳み込みを組み込むことで、オリジナルのSegFormerを強化する。
インドパインズ、パヴィア大学、PRISMAのデータセットを用いて行った実験により、AMBERは、最初の2つのデータセットの総合的精度、カッパ係数、平均精度において従来のCNNベースの手法よりも優れており、PRISMAデータセットの最先端性能を実現していることが示された。
Deep learning has revolutionized the field of hyperspectral image (HSI) analysis, enabling the extraction of complex and hierarchical features. While convolutional neural networks (CNNs) have been the backbone of HSI classification, their limitations in capturing global contextual features have led to the exploration of Vision Transformers (ViTs). This paper introduces AMBER, an advanced SegFormer specifically designed for multi-band image segmentation. AMBER enhances the original SegFormer by incorporating three-dimensional convolutions to handle hyperspectral data. Our experiments, conducted on the Indian Pines, Pavia University, and PRISMA datasets, show that AMBER outperforms traditional CNN-based methods in terms of Overall Accuracy, Kappa coefficient, and Average Accuracy on the first two datasets, and achieves state-of-the-art performance on the PRISMA dataset. | 翻訳日:2024-09-17 20:57:09 公開日:2024-09-14 |
# 高分解能拡散MRIにおける神経方向分布場の推定
Estimating Neural Orientation Distribution Fields on High Resolution Diffusion MRI Scans ( http://arxiv.org/abs/2409.09387v1 ) ライセンス: Link先を確認 | Mohammed Munzer Dwedari, William Consagra, Philip Müller, Özgün Turgut, Daniel Rueckert, Yogesh Rathi, | (参考訳) 配向分布関数(ODF)は、主要な脳の微細構造特性を特徴づけ、脳の構造的接続を理解する上で重要な役割を担っている。
最近の研究はインプリシット・ニューラル・リ表現(INR)に基づく ODF フィールドの空間的認識連続推定法を導入し、従来の離散的アプローチと比較して、重要なタスクにおける有望な結果を示した。
しかし、従来のINR法は、現代の超高解像度MRIスキャン、微細構造学習における課題、トレーニングや推論速度の非効率性など、大規模な画像へのスケーリングにおいて困難に直面している。
本研究では, ODFフィールドのグリッドハッシュ符号化に基づく評価手法であるHashEncを提案し, 構造的およびテクスチャ的特徴を維持する上での有効性を実証する。
本稿では,HashEncが画像品質を10%向上すると同時に,現在の手法よりも3倍少ない計算資源を必要とすることを示す。
私たちのコードはhttps://github.com/MunzerDw/NODF-HashEnc.orgにある。
The Orientation Distribution Function (ODF) characterizes key brain microstructural properties and plays an important role in understanding brain structural connectivity. Recent works introduced Implicit Neural Representation (INR) based approaches to form a spatially aware continuous estimate of the ODF field and demonstrated promising results in key tasks of interest when compared to conventional discrete approaches. However, traditional INR methods face difficulties when scaling to large-scale images, such as modern ultra-high-resolution MRI scans, posing challenges in learning fine structures as well as inefficiencies in training and inference speed. In this work, we propose HashEnc, a grid-hash-encoding-based estimation of the ODF field and demonstrate its effectiveness in retaining structural and textural features. We show that HashEnc achieves a 10% enhancement in image quality while requiring 3x less computational resources than current methods. Our code can be found at https://github.com/MunzerDw/NODF-HashEnc. | 翻訳日:2024-09-17 20:57:09 公開日:2024-09-14 |
# Tran-GCN: ビデオ監視における人物再同定のためのトランスフォーマー強化グラフ畳み込みネットワーク
Tran-GCN: A Transformer-Enhanced Graph Convolutional Network for Person Re-Identification in Monitoring Videos ( http://arxiv.org/abs/2409.09391v1 ) ライセンス: Link先を確認 | Xiaobin Hong, Tarmizi Adam, Masitah Ghazali, | (参考訳) Person Re-Identification (Re-ID) はコンピュータビジョンで人気を博し、クロスカメラの歩行者認識を可能にしている。
ディープ・ラーニングの開発は、人物のRe-ID研究に堅牢な技術基盤を提供してきたが、既存のほとんどの人物のRe-ID手法は、歩行者のポーズのバリエーションと局所的な身体部分の閉塞の影響を適切に解決することができない、地元の人物の特徴間の潜在的な関係を見落としている。
そこで本研究では,トランスフォーマー強化グラフ畳み込みネットワーク(Tran-GCN)モデルを提案する。
このモデルは,(1)歩行者のポーズ情報と固有の骨格構造データを推定し,歩行者のキーポイント情報を抽出するために,(1)トランスフォーマー学習部は,細粒度と意味的に意味のある局所的特徴の間のグローバルな依存関係を学習する,(3)コンフォーメーション学習部は,人の基本ResNetアーキテクチャを用いて,きめ細かい局所的特徴を抽出する,(4)グラフ畳み込みモジュール(GCM)は,局所的特徴情報,グローバルな特徴情報,および身体情報を融合後のより効果的な人物識別のために統合する,という4つのキーコンポーネントから構成される。
3つの異なるデータセット(Market-1501、DukeMTMC-ReID、MSMT17)で行われた定量的および定性的な分析実験は、Tran-GCNモデルがビデオ監視における識別的特徴をより正確に捉え、識別精度を大幅に向上させることができることを示した。
Person Re-Identification (Re-ID) has gained popularity in computer vision, enabling cross-camera pedestrian recognition. Although the development of deep learning has provided a robust technical foundation for person Re-ID research, most existing person Re-ID methods overlook the potential relationships among local person features, failing to adequately address the impact of pedestrian pose variations and local body parts occlusion. Therefore, we propose a Transformer-enhanced Graph Convolutional Network (Tran-GCN) model to improve Person Re-Identification performance in monitoring videos. The model comprises four key components: (1) A Pose Estimation Learning branch is utilized to estimate pedestrian pose information and inherent skeletal structure data, extracting pedestrian key point information; (2) A Transformer learning branch learns the global dependencies between fine-grained and semantically meaningful local person features; (3) A Convolution learning branch uses the basic ResNet architecture to extract the person's fine-grained local features; (4) A Graph Convolutional Module (GCM) integrates local feature information, global feature information, and body information for more effective person identification after fusion. Quantitative and qualitative analysis experiments conducted on three different datasets (Market-1501, DukeMTMC-ReID, and MSMT17) demonstrate that the Tran-GCN model can more accurately capture discriminative person features in monitoring videos, significantly improving identification accuracy. | 翻訳日:2024-09-17 20:57:09 公開日:2024-09-14 |
# データ融合におけるトポロジカルテンソル固有値理論
Topological Tensor Eigenvalue Theorems in Data Fusion ( http://arxiv.org/abs/2409.09392v1 ) ライセンス: Link先を確認 | Ronald Katende, | (参考訳) 本稿では,ベッチ数などの位相不変量を利用して,マルチモーダルデータ融合の文脈でテンソル固有値解析を行う新しいフレームワークを提案する。
テンソル固有値に対する伝統的なアプローチは、行列理論の代数的拡張に依存するが、この研究はテンソル構造の理解を深める位相的視点を提供する。
固有値とトポロジカルな特徴を結びつける新しい定理を確立することにより、提案フレームワークはデータの潜在構造について深い洞察を与え、解釈可能性と堅牢性の両方を高める。
データ融合への応用は、このアプローチの理論的および実践的な重要性を示し、機械学習とデータサイエンス領域にまたがる幅広い影響の可能性を示している。
This paper introduces a novel framework for tensor eigenvalue analysis in the context of multi-modal data fusion, leveraging topological invariants such as Betti numbers. While traditional approaches to tensor eigenvalues rely on algebraic extensions of matrix theory, this work provides a topological perspective that enriches the understanding of tensor structures. By establishing new theorems linking eigenvalues to topological features, the proposed framework offers deeper insights into the latent structure of data, enhancing both interpretability and robustness. Applications to data fusion illustrate the theoretical and practical significance of the approach, demonstrating its potential for broad impact across machine learning and data science domains. | 翻訳日:2024-09-17 20:57:09 公開日:2024-09-14 |
# 弱摂動2次元イジングモデルにおける単位時間進化によるマクロ熱化 ---ルース・チューフェル・トゥルカ・ヴォーゲルの定理の適用-
Macroscopic thermalization by unitary time-evolution in the weakly perturbed two-dimensional Ising model --- An application of the Roos-Teufel-Tumulka-Vogel theorem ( http://arxiv.org/abs/2409.09395v1 ) ライセンス: Link先を確認 | Hal Tasaki, | (参考訳) Roos, Teufel, Tumulka, Vogel [1] による最近の重要な定理を、単純かつ自明な例で示すために、低温相における二次元イジングモデルの熱化について研究する。
我々は、標準強磁性イジングモデルのハミルトニアン$\hat{H}_L$をプラス境界条件で考慮し、ヒルベルト空間全体の自己随伴作用素の空間からランダムに引き出された小さな自己随伴作用素$\lambda\hat{V}$で摂動する。
系は当初、熱平衡から非常に遠い特定のエネルギーを持つ古典的なスピン状態にあると仮定する。
ランダム摂動のほとんどの選択において、単位時間進化 $e^{-i(\hat{H}_L+\lambda\hat{V})t}$ が十分長い典型時間 $t$ の後に初期状態を熱平衡に導くことは、時間 $t$ における磁化密度の測定結果が対応する平衡で期待される自然磁化とほぼ確実に一致することを証明した。
To demonstrate the implication of the recent important theorem by Roos, Teufel, Tumulka, and Vogel [1] in a simple but nontrivial example, we study thermalization in the two-dimensional Ising model in the low-temperature phase. We consider the Hamiltonian $\hat{H}_L$ of the standard ferromagnetic Ising model with the plus boundary conditions and perturb it with a small self-adjoint operator $\lambda\hat{V}$ drawn randomly from the space of self-adjoint operators on the whole Hilbert space. Suppose that the system is initially in a classical spin configuration with a specified energy that may be very far from thermal equilibrium. It is proved that, for most choices of the random perturbation, the unitary time evolution $e^{-i(\hat{H}_L+\lambda\hat{V})t}$ brings the initial state into thermal equilibrium after a sufficiently long and typical time $t$, in the sense that the measurement result of the magnetization density at time $t$ almost certainly coincides with the spontaneous magnetization expected in the corresponding equilibrium. | 翻訳日:2024-09-17 20:57:09 公開日:2024-09-14 |
# 拡散モデルによる広帯域・高能率オーディオキャプションの実現に向けて
Towards Diverse and Efficient Audio Captioning via Diffusion Models ( http://arxiv.org/abs/2409.09401v1 ) ライセンス: Link先を確認 | Manjie Xu, Chenxing Li, Xinyi Tu, Yong Ren, Ruibo Fu, Wei Liang, Dong Yu, | (参考訳) 本稿では,多種多様な効率的な音声キャプションに適した非自己回帰拡散モデルであるDiffusion-based Audio Captioning (DAC)を紹介する。
既存のキャプションモデルは、様々なキャプションタスクにおいて顕著な成功を収めているが、生成速度や多様性は、音声理解やマルチメディア応用の進歩を妨げている。
我々の拡散型フレームワークは、キャプションにおけるその固有の確率性と全体論的文脈モデリングから生じる独特な利点を提供する。
厳密な評価により、DACはキャプション品質の既存のベンチマークと比べてSOTAの性能レベルを達成できるだけでなく、生成速度や多様性の観点からも大幅に向上することを示した。
DACの成功は、テキスト生成が拡散バックボーンを使用して音声および視覚生成タスクとシームレスに統合できることを示し、異なるモードにわたる統一されたオーディオ関連生成モデルへの道を開いた。
We introduce Diffusion-based Audio Captioning (DAC), a non-autoregressive diffusion model tailored for diverse and efficient audio captioning. Although existing captioning models relying on language backbones have achieved remarkable success in various captioning tasks, their insufficient performance in terms of generation speed and diversity impede progress in audio understanding and multimedia applications. Our diffusion-based framework offers unique advantages stemming from its inherent stochasticity and holistic context modeling in captioning. Through rigorous evaluation, we demonstrate that DAC not only achieves SOTA performance levels compared to existing benchmarks in the caption quality, but also significantly outperforms them in terms of generation speed and diversity. The success of DAC illustrates that text generation can also be seamlessly integrated with audio and visual generation tasks using a diffusion backbone, paving the way for a unified, audio-related generative model across different modalities. | 翻訳日:2024-09-17 20:57:09 公開日:2024-09-14 |
# 教育効率向上のためのAI駆動バーチャル教師:自律的エラー分析と補正のための大規模プレトレインモデルを活用する
AI-Driven Virtual Teacher for Enhanced Educational Efficiency: Leveraging Large Pretrain Models for Autonomous Error Analysis and Correction ( http://arxiv.org/abs/2409.09403v1 ) ライセンス: Link先を確認 | Tianlong Xu, Yi-Fan Zhang, Zhendong Chu, Shen Wang, Qingsong Wen, | (参考訳) 学生は数学的な問題を解きながらしばしば間違いを犯し、伝統的な誤り訂正法は時間と労力の両方を消費する。
本稿では,学生の「textbf{V}irtual \textbf{A}I \textbf{T}eacher」システムを紹介し,学生の「textbf{E}rrors(VATE)」を自律的に分析・修正する。
先進的な大規模言語モデル(LLM)を活用することで、学生の学習過程の理解を深める、エラー解析の主源として学生ドラフトを使用する。
高度なプロンプトエンジニアリングを取り入れ、計算オーバーヘッドを減らすためにエラープールを維持する。
AI駆動システムはまた、効率的な学生インタラクションのためのリアルタイム対話コンポーネントも備えている。
提案手法は,教育コストの削減,スケーラビリティの向上,一般化性の向上など,従来型および機械学習ベースの誤り訂正手法に対する大きな利点を示す。
このシステムは小学校数学教育のためのSquirrel AI学習プラットフォーム上に展開され、78.3\%の精度でエラー解析を行い、生徒の学習効率が著しく向上している。
満足度調査は、教育実践を変革するシステムの可能性を浮き彫りにした、強い肯定的な評価を示している。
Students frequently make mistakes while solving mathematical problems, and traditional error correction methods are both time-consuming and labor-intensive. This paper introduces an innovative \textbf{V}irtual \textbf{A}I \textbf{T}eacher system designed to autonomously analyze and correct student \textbf{E}rrors (VATE). Leveraging advanced large language models (LLMs), the system uses student drafts as a primary source for error analysis, which enhances understanding of the student's learning process. It incorporates sophisticated prompt engineering and maintains an error pool to reduce computational overhead. The AI-driven system also features a real-time dialogue component for efficient student interaction. Our approach demonstrates significant advantages over traditional and machine learning-based error correction methods, including reduced educational costs, high scalability, and superior generalizability. The system has been deployed on the Squirrel AI learning platform for elementary mathematics education, where it achieves 78.3\% accuracy in error analysis and shows a marked improvement in student learning efficiency. Satisfaction surveys indicate a strong positive reception, highlighting the system's potential to transform educational practices. | 翻訳日:2024-09-17 20:57:09 公開日:2024-09-14 |
# 拡散モデルに基づくパッチ攻撃に対する現実世界の敵防御
Real-world Adversarial Defense against Patch Attacks based on Diffusion Model ( http://arxiv.org/abs/2409.09406v1 ) ライセンス: Link先を確認 | Xingxing Wei, Caixin Kang, Yinpeng Dong, Zhengyi Wang, Shouwei Ruan, Yubo Chen, Hang Su, | (参考訳) 敵対的パッチは、ディープラーニングモデルの堅牢性に重大な課題をもたらし、現実のアプリケーションにおいて効果的な防御の開発が重要になる。
本稿では,DIFfusionベースの新しいDefenderフレームワークであるDIFFenderを紹介する。
我々のアプローチの核となるのは、分布異常を分析して、拡散モデルを正確に検出し、位置を推定できる、AAP(Adversarial Anomaly Perception)現象の発見である。
DIFFenderは、統一拡散モデルフレームワークにパッチローカライゼーションと復元のタスクをシームレスに統合し、密接な相互作用を通じて防御効果を高める。
さらに、DIFFenderは効率的な数発のプロンプトチューニングアルゴリズムを採用し、広範囲な再訓練を必要とせず、事前訓練された拡散モデルの防御タスクへの適応を容易にする。
画像分類と顔認識タスクの包括的評価は、現実のシナリオと同様に、敵攻撃に対するDIFFenderの堅牢な性能を示すものである。
フレームワークの汎用性と様々な設定、分類器、攻撃方法の汎用性は、敵のパッチ防衛戦略の大幅な進歩を示している。
一般的な可視領域を除いて、私たちはDIFFenderの別の利点を見つけました。
その結果,DIFFenderの優れた柔軟性が示され,赤外線と視界の両敵のパッチ攻撃を防御し,代わりに普遍的な防御フレームワークを用いて防御できることがわかった。
Adversarial patches present significant challenges to the robustness of deep learning models, making the development of effective defenses become critical for real-world applications. This paper introduces DIFFender, a novel DIFfusion-based DeFender framework that leverages the power of a text-guided diffusion model to counter adversarial patch attacks. At the core of our approach is the discovery of the Adversarial Anomaly Perception (AAP) phenomenon, which enables the diffusion model to accurately detect and locate adversarial patches by analyzing distributional anomalies. DIFFender seamlessly integrates the tasks of patch localization and restoration within a unified diffusion model framework, enhancing defense efficacy through their close interaction. Additionally, DIFFender employs an efficient few-shot prompt-tuning algorithm, facilitating the adaptation of the pre-trained diffusion model to defense tasks without the need for extensive retraining. Our comprehensive evaluation, covering image classification and face recognition tasks, as well as real-world scenarios, demonstrates DIFFender's robust performance against adversarial attacks. The framework's versatility and generalizability across various settings, classifiers, and attack methodologies mark a significant advancement in adversarial patch defense strategies. Except for the popular visible domain, we have identified another advantage of DIFFender: its capability to easily expand into the infrared domain. Consequently, we demonstrate the good flexibility of DIFFender, which can defend against both infrared and visible adversarial patch attacks alternatively using a universal defense framework. | 翻訳日:2024-09-17 20:57:09 公開日:2024-09-14 |
# ラベル収束:コントラクショナルアノテーションによるオブジェクト認識における上位性能境界の定義
Label Convergence: Defining an Upper Performance Bound in Object Recognition through Contradictory Annotations ( http://arxiv.org/abs/2409.09412v1 ) ライセンス: Link先を確認 | David Tschirschwitz, Volker Rodehorst, | (参考訳) アノテーションエラーは、機械学習モデルのトレーニング中だけでなく、評価中にも問題となる。
データセットにおけるラベルのバリエーションと不正確さは、しばしば、確立されたラベル付け規則から逸脱する矛盾した例として表される。
このような矛盾は、重要な場合、平均的平均精度(mAP)のようなメトリクス上でモデルが最適なパフォーマンスを達成するのを防ぐ。
本稿では、矛盾するテストアノテーションの制約の下で達成可能な最高の性能を記述するために「ラベル収束」の概念を導入し、基本的にモデル精度の上限を定義する。
LVISデータセットを含む5つの実世界のデータセットを分析し,ラベル収束現象について検討した。
ラベル収束は LVIS の場合 62.63-67.52 mAP@[0.5:0.95:0.05] であり、95% の信頼度を持つ。
LVISデータセットのラベル収束間隔の上端にある現在の最先端(SOTA)モデルでは、モデルキャパシティが現在のオブジェクト検出問題を解決するのに十分である、と結論付けている。
したがって,(1) 問題仕様の更新,(2) 回避不能なラベルノイズを考慮した評価プラクティスの調整,(2) よりクリーンなデータ,特にテストデータの作成,(3) アノテーションの変動を調査し,これらの問題を最初から可視化するマルチアノテートデータを含む,3つの重要な側面に重点を置く必要がある。
Annotation errors are a challenge not only during training of machine learning models, but also during their evaluation. Label variations and inaccuracies in datasets often manifest as contradictory examples that deviate from established labeling conventions. Such inconsistencies, when significant, prevent models from achieving optimal performance on metrics such as mean Average Precision (mAP). We introduce the notion of "label convergence" to describe the highest achievable performance under the constraint of contradictory test annotations, essentially defining an upper bound on model accuracy. Recognizing that noise is an inherent characteristic of all data, our study analyzes five real-world datasets, including the LVIS dataset, to investigate the phenomenon of label convergence. We approximate that label convergence is between 62.63-67.52 mAP@[0.5:0.95:0.05] for LVIS with 95% confidence, attributing these bounds to the presence of real annotation errors. With current state-of-the-art (SOTA) models at the upper end of the label convergence interval for the well-studied LVIS dataset, we conclude that model capacity is sufficient to solve current object detection problems. Therefore, future efforts should focus on three key aspects: (1) updating the problem specification and adjusting evaluation practices to account for unavoidable label noise, (2) creating cleaner data, especially test data, and (3) including multi-annotated data to investigate annotation variation and make these issues visible from the outset. | 翻訳日:2024-09-17 20:57:09 公開日:2024-09-14 |
# クアリア構造と言語創発の双方向因果関係に対する構成的アプローチ
Constructive Approach to Bidirectional Causation between Qualia Structure and Language Emergence ( http://arxiv.org/abs/2409.09413v1 ) ライセンス: Link先を確認 | Tadahiro Taniguchi, Masafumi Oizumi, Noburo Saji, Takato Horii, Naotsugu Tsuchiya, | (参考訳) 本稿では,主観的経験の言語出現と関係構造の双方向因果関係に関する新たな視点を提示し,両者の複雑な依存関係に対する構成的アプローチを概説する。
我々は、個人間の内部表現の整合過程を通じて、分布意味論、例えば統語・意味構造を持つ言語が出現し、内部表現の整合がより構造化された言語を促進すると仮定する。
この相互依存は、AIとシンボル発生ロボティクスの最近の進歩、特に集合予測符号化(CPC)仮説によって示唆されている。
計算学的研究により、ニューラルネットワークに基づく言語モデルは体系的に構造化された内部表現を形成し、マルチモーダル言語モデルは言語と知覚情報の間の表現を共有できることが示されている。
この視点は、言語の出現がコミュニケーションツールを作成するメカニズムとしてだけでなく、人々が質的な経験の共通理解を実現できるメカニズムとしても役立つことを示唆している。
本稿では、意識研究、言語学、認知科学の文脈におけるこの双方向因果関係の意義を論じ、言語出現と準構造とのダイナミックな関係をさらに探求するために、今後の建設研究の方向性を概説する。
This paper presents a novel perspective on the bidirectional causation between language emergence and relational structure of subjective experiences, termed qualia structure, and lays out the constructive approach to the intricate dependency between the two. We hypothesize that languages with distributional semantics, e.g., syntactic-semantic structures, may have emerged through the process of aligning internal representations among individuals, and such alignment of internal representations facilitates more structured language. This mutual dependency is suggested by the recent advancements in AI and symbol emergence robotics, and collective predictive coding (CPC) hypothesis, in particular. Computational studies show that neural network-based language models form systematically structured internal representations, and multimodal language models can share representations between language and perceptual information. This perspective suggests that language emergence serves not only as a mechanism creating a communication tool but also as a mechanism for allowing people to realize shared understanding of qualitative experiences. The paper discusses the implications of this bidirectional causation in the context of consciousness studies, linguistics, and cognitive science, and outlines future constructive research directions to further explore this dynamic relationship between language emergence and qualia structure. | 翻訳日:2024-09-17 20:47:24 公開日:2024-09-14 |
# CNN-LSTMによる時系列解析の天気予報:デリー温度データを用いた事例研究
Weather Prediction Using CNN-LSTM for Time Series Analysis: A Case Study on Delhi Temperature Data ( http://arxiv.org/abs/2409.09414v1 ) ライセンス: Link先を確認 | Bangyu Li, Yang Qian, | (参考訳) 気候変動が拡大するにつれて、農業、エネルギー管理、環境保護といった分野において、正確な天気予報がますます重要になっている。
物理モデルと統計モデルに依存した伝統的な手法は、しばしば複雑で非線形で、時間的に異なるデータに悩まされ、より高度な技術の必要性を浮き彫りにしている。
本研究は1996年から2017年までの歴史的気象データを用いて,デリー地域の温度予測精度を高めるためのハイブリッドCNN-LSTMモデルについて検討した。
モデルの構築とトレーニングには,包括的データ前処理や探索分析など,直接的および間接的手法を併用した。
CNNコンポーネントは空間的特徴を効果的に抽出し、LSTMは時間的依存関係をキャプチャし、予測精度が向上する。
実験結果から,CNN-LSTMモデルは平均二乗誤差(MSE)3.26217,根平均二乗誤差(RMSE)1.80615で従来の予測手法よりも有意に優れていた。
ハイブリッドモデルは、気象予測や関連する分野の貴重な洞察を提供する、気温予測のための堅牢なツールとしての可能性を示している。
今後の研究は、モデルアーキテクチャの最適化、追加の機能抽出手法の探求、過剰適合や計算複雑性といった課題への対処に重点を置くべきである。
このアプローチは温度予測を前進させるだけでなく、他の時系列予測タスクにディープラーニングを適用する基盤も提供する。
As global climate change intensifies, accurate weather forecasting is increasingly crucial for sectors such as agriculture, energy management, and environmental protection. Traditional methods, which rely on physical and statistical models, often struggle with complex, nonlinear, and time-varying data, underscoring the need for more advanced techniques. This study explores a hybrid CNN-LSTM model to enhance temperature forecasting accuracy for the Delhi region, using historical meteorological data from 1996 to 2017. We employed both direct and indirect methods, including comprehensive data preprocessing and exploratory analysis, to construct and train our model. The CNN component effectively extracts spatial features, while the LSTM captures temporal dependencies, leading to improved prediction accuracy. Experimental results indicate that the CNN-LSTM model significantly outperforms traditional forecasting methods in terms of both accuracy and stability, with a mean square error (MSE) of 3.26217 and a root mean square error (RMSE) of 1.80615. The hybrid model demonstrates its potential as a robust tool for temperature prediction, offering valuable insights for meteorological forecasting and related fields. Future research should focus on optimizing model architecture, exploring additional feature extraction techniques, and addressing challenges such as overfitting and computational complexity. This approach not only advances temperature forecasting but also provides a foundation for applying deep learning to other time series forecasting tasks. | 翻訳日:2024-09-17 20:47:24 公開日:2024-09-14 |
# REAPによるLLM問題解決の強化: 反射, 明示的問題解決, 先端プロンプティング
Enhancing LLM Problem Solving with REAP: Reflection, Explicit Problem Deconstruction, and Advanced Prompting ( http://arxiv.org/abs/2409.09415v1 ) ライセンス: Link先を確認 | Ryan Lingo, Martin Arroyo, Rajeev Chhajer, | (参考訳) 大規模言語モデル(LLM)は自然言語処理を変革しているが、特に複雑で推論集約的なタスクにおいて、その問題解決能力は改善されている。
本稿では、動的コンテキスト生成フレームワークにおける革新的なアプローチであるREAP(Reflection, Explicit Problem Deconstruction, and Advanced Prompting)手法を紹介する。
REAPはクエリのリフレクションを通じてLCMをガイドし、それを管理可能なコンポーネントに分解し、関連するコンテキストを生成してソリューションプロセスを強化する。
OpenAIのo1-preview、o1-mini、GPT-4o-mini、GPT-4o-mini、GoogleのGemini 1.5 Pro、Claude 3.5 Sonnetの6つの最先端モデルのREAP強化プロンプトとゼロショットプロンプトを比較して、LLM制限を公開するために設計されたデータセットを用いてREAPを評価した。
その結果、o1-miniは40.97%改善し、GPT-4oは66.26%改善し、GPT-4o-miniは112.93%改善した。
既にOpenAIのo1-previewのベースライン性能が強かったにもかかわらず、控えめな利得が観察された。
例えば、o1-previewの約100倍安いGPT-4o-miniは、競争力のある結果をもたらした。
REAPはまた、モデル出力の明確さを改善し、結果の背後にある推論を理解しやすくし、問題を特定し、対処するプロセスを単純化する。
これらの結果は、REAPがLLMの能力を大幅に向上する可能性を示し、より優れた性能と幅広いアプリケーションにおけるコスト効率の向上を実現している。
Large Language Models (LLMs) have transformed natural language processing, yet improving their problem-solving capabilities, particularly for complex, reasoning-intensive tasks, remains a persistent challenge. This paper introduces the REAP (Reflection, Explicit Problem Deconstruction, and Advanced Prompting) method, an innovative approach within the dynamic context generation framework. REAP guides LLMs through reflection on the query, deconstructing it into manageable components, and generating relevant context to enhance the solution process. We evaluated REAP using a dataset designed to expose LLM limitations, comparing zero-shot prompting with REAP-enhanced prompts across six state-of-the-art models: OpenAI's o1-preview, o1-mini, GPT-4o, GPT-4o-mini, Google's Gemini 1.5 Pro, and Claude 3.5 Sonnet. The results demonstrate notable performance gains, with o1-mini improving by 40.97%, GPT-4o by 66.26%, and GPT-4o-mini by 112.93%. Despite the already strong baseline performance of OpenAI's o1-preview, modest gains were observed. Beyond performance improvements, REAP offers a cost-effective solution; for example, GPT-4o-mini, which is approximately 100 times cheaper than o1-preview, delivered competitive results. REAP also improves the clarity of model outputs, making it easier for humans to understand the reasoning behind the results and simplifying the process of identifying and addressing any issues. These findings demonstrate REAP's potential to greatly improve the capabilities of LLMs, providing both better performance and increased cost-efficiency across a wide range of applications. | 翻訳日:2024-09-17 20:47:24 公開日:2024-09-14 |
# 誤り訂正のための符号化の量子資源理論
Quantum resource theory of coding for error correction ( http://arxiv.org/abs/2409.09416v1 ) ライセンス: Link先を確認 | Dong-Sheng Wang, Yuan-Dong Liu, Yun-Jiang Wang, Shunlong Luo, | (参考訳) エラー訂正符号はフォールトトレラント情報処理の中心となる。
本稿では,超チャネルの量子資源理論に基づく様々な符号化モデルを記述するための厳密な枠組みを開発する。
符号化をスーパーチャネルとして扱うことで、絡み合いや無支援の設定を含む符号化モデルの階層と、それらのローカルバージョンを確立することができる。
これらの符号化モデルは, 誤り訂正符号を分類し, データタイプ, サイドチャネル, プリ/ポスト処理に応じて, 異なる計算・通信設定を適用可能であることを示す。
コーディング階層はまた、新しいコーディングモデルやエラー訂正メソッドを刺激する可能性があると考えています。
Error-correction codes are central for fault-tolerant information processing. Here we develop a rigorous framework to describe various coding models based on quantum resource theory of superchannels. We find, by treating codings as superchannels, a hierarchy of coding models can be established, including the entanglement assisted or unassisted settings, and their local versions. We show that these coding models can be used to classify error-correction codes and accommodate different computation and communication settings depending on the data type, side channels, and pre-/postprocessing. We believe the coding hierarchy could also inspire new coding models and error-correction methods. | 翻訳日:2024-09-17 20:47:24 公開日:2024-09-14 |
# 分散カーネルに基づく分散クラスタリング
Distributed Clustering based on Distributional Kernel ( http://arxiv.org/abs/2409.09418v1 ) ライセンス: Link先を確認 | Hang Zhang, Yang Xu, Lei Gong, Ye Zhu, Kai Ming Ting, | (参考訳) 本稿では、分散クラスタリング(Distributed Clustering)と呼ばれる分散ネットワークにおけるクラスタリングのための新しいフレームワークを紹介し、Kが測定した初期クラスタの分布に関する類似性に基づいて最終クラスタを生成する。
まず、KDCは、すべてのサイトから統合されたクラスタリング結果が、すべてのサイトから統合されたデータセットから中央集権的なクラスタリング結果と等価であることを保証している。
第二に、分散モードの任意のサイトの実行時の最大コストは、集中モードの実行時のコストよりも小さい。
第三に、任意の形状、大きさ、密度のクラスターを発見するように設計されている。
私たちの知る限りでは、これは分散カーネルを使用する最初の分散クラスタリングフレームワークです。
分散クラスタリングは、既存の分散クラスタリング方法よりもはるかに優れたクラスタリング結果をもたらす。
さらに,既存のクラスタリングアルゴリズムの中で,KDCに適用可能なクラスタリングアルゴリズムとして,Kernel境界クラスタコアという新しいクラスタリングアルゴリズムを導入する。
また、KDCは2次時間クラスタリングアルゴリズムで、そうでなければ不可能な大規模なデータセットを処理できる汎用的なフレームワークであることを示す。
This paper introduces a new framework for clustering in a distributed network called Distributed Clustering based on Distributional Kernel (K) or KDC that produces the final clusters based on the similarity with respect to the distributions of initial clusters, as measured by K. It is the only framework that satisfies all three of the following properties. First, KDC guarantees that the combined clustering outcome from all sites is equivalent to the clustering outcome of its centralized counterpart from the combined dataset from all sites. Second, the maximum runtime cost of any site in distributed mode is smaller than the runtime cost in centralized mode. Third, it is designed to discover clusters of arbitrary shapes, sizes and densities. To the best of our knowledge, this is the first distributed clustering framework that employs a distributional kernel. The distribution-based clustering leads directly to significantly better clustering outcomes than existing methods of distributed clustering. In addition, we introduce a new clustering algorithm called Kernel Bounded Cluster Cores, which is the best clustering algorithm applied to KDC among existing clustering algorithms. We also show that KDC is a generic framework that enables a quadratic time clustering algorithm to deal with large datasets that would otherwise be impossible. | 翻訳日:2024-09-17 20:47:24 公開日:2024-09-14 |
# NBBOX:ノイズバウンディングボックスがリモートセンシングオブジェクト検出を改善した
NBBOX: Noisy Bounding Box Improves Remote Sensing Object Detection ( http://arxiv.org/abs/2409.09424v1 ) ライセンス: Link先を確認 | Yechan Kim, SooYeon Kim, Moongu Jeon, | (参考訳) データ拡張は、特に限られたデータと不十分なデータを持つシナリオにおいて、長年にわたってモデルパフォーマンスを改善するためにコンピュータビジョンにおいて大きな進歩を遂げてきた。
現在、ほとんどの研究は、物体検出を含む様々なタスクにおいて、トレーニング中のサイズ、品質、および様々なサンプルを拡大するために、画像またはその特徴を調整することに焦点を当てている。
しかし,画像レベルの変換よりもモデル正規化手法としてのバウンディングボックス変換を検討する必要があると論じる。
そこで,本稿では,リモートセンシング物体検出のための拡張,回転,翻訳の観点から,境界ボックス変換の徹底的な検討を行う。
この拡張戦略を NBBOX (Noise Injection into Bounding Box) と呼ぶ。
DOTAとDIOR-Rはどちらもよく知られたデータセットであり、空中画像に様々な回転するジェネリックオブジェクトを含む。
実験結果から,提案手法はホイッスルやベルを使わずにリモートセンシング対象の検出を著しく改善し,他の最先端の拡張戦略よりも時間効率が向上することが示された。
Data augmentation has seen significant advancements in computer vision to improve model performance over the years, particularly in scenarios with limited and insufficient data. Currently, most studies focus on adjusting the image or its features to expand the size, quality, and variety of samples during training in various tasks including object detection. However, we argue that it is necessary to investigate bounding box transformations as a model regularization technique rather than image-level transformations, especially in aerial imagery due to potentially inconsistent bounding box annotations. Hence, this letter presents a thorough investigation of bounding box transformation in terms of scaling, rotation, and translation for remote sensing object detection. We call this augmentation strategy NBBOX (Noise Injection into Bounding Box). We conduct extensive experiments on DOTA and DIOR-R, both well-known datasets that include a variety of rotated generic objects in aerial images. Experimental results show that our approach significantly improves remote sensing object detection without whistles and bells and it is more time-efficient than other state-of-the-art augmentation strategies. | 翻訳日:2024-09-17 20:47:24 公開日:2024-09-14 |
# PDF暗号化のための軽量暗号のハーネス化
Harnessing Lightweight Ciphers for PDF Encryption ( http://arxiv.org/abs/2409.09428v1 ) ライセンス: Link先を確認 | Aastha Chauhan, Deepa Verma, | (参考訳) Portable Document Format (PDF)は、文書を交換するためのデファクト標準として世界中で使用されているファイルフォーマットである。
実際、あなたが現在読んでいるこの文書はPDFとしてアップロードされています。
機密情報はPDFを通じて交換される。
PDF標準ISO 3000-2:2020によると、PDFは暗号化をサポートし、その中に含まれている情報の機密性とデジタル署名を提供し、認証を保証する。
現在、PDF暗号化は情報暗号化と復号化のためのAdvanced Encryption Standard(AES)のみをサポートしている。
しかし、リソース制約された環境のための暗号と呼ばれるライトウェイト暗号は、2018年に発表されたNISTライトウェイト暗号(LWC)コンペティションによって特に人気を集め、2023年2月にASCONが優勝した。
現在の作業は、現在のPDF暗号化標準AESに対して、NIST LWCの勝者ASCONとファイナリストのXOODYAKのJava実装をベンチマークする最初の試みである。
我々の研究によると、ASCONは、最先端のベンチマークツールYourKitとJMHを使ってプロファイルした時に、スループットに関して明らかな勝者として現れます。
Portable Document Format (PDF) is a file format which is used worldwide as de-facto standard for exchanging documents. In fact this document that you are currently reading has been uploaded as a PDF. Confidential information is also exchanged through PDFs. According to PDF standard ISO 3000-2:2020, PDF supports encryption to provide confidentiality of the information contained in it along with digital signatures to ensure authenticity. At present, PDF encryption only supports Advanced Encryption Standard (AES) to encrypt and decrypt information. However, Lightweight Cryptography, which is referred to as crypto for resource constrained environments has gained lot of popularity specially due to the NIST Lightweight Cryptography (LWC) competition announced in 2018 for which ASCON was announced as the winner in February 2023. The current work constitutes the first attempt to benchmark Java implementations of NIST LWC winner ASCON and finalist XOODYAK against the current PDF encryption standard AES. Our research reveals that ASCON emerges as a clear winner with regards to throughput when profiled using two state-of-the-art benchmarking tools YourKit and JMH. | 翻訳日:2024-09-17 20:47:24 公開日:2024-09-14 |
# コンテンツに基づく医用画像検索のための特徴エクストラクタとしての事前学習型畳み込みニューラルネットワークと基礎モデルの評価
Evaluating Pre-trained Convolutional Neural Networks and Foundation Models as Feature Extractors for Content-based Medical Image Retrieval ( http://arxiv.org/abs/2409.09430v1 ) ライセンス: Link先を確認 | Amirreza Mahbod, Nematollah Saeidi, Sepideh Hatamikia, Ramona Woitek, | (参考訳) 医用画像検索は、診断支援、治療計画、経験の浅い医療従事者のための教育ツールなど、データベースで与えられたクエリ画像に類似した画像を見つけるタスクである。
従来の医用画像検索は臨床メタデータを用いて行われたが、コンテンツベースの医用画像検索(CBMIR)は、色、テクスチャ、形状、空間的特徴などの画像の特徴に依存している。
CBMIRには多くのアプローチが提案されており、その中でも、事前訓練された畳み込みニューラルネットワーク(CNN)が広く利用されている。
しかし、様々なコンピュータビジョンタスクの基礎モデルの開発が最近進んでいることを考えると、CBMIRの応用は、その潜在的に優れた性能についても検討できる。
本研究では、よく知られた訓練済みCNN(VGG19, ResNet-50, DenseNet121, EfficientNetV2M)と事前訓練済み基礎モデル(MedCLIP, BioMedCLIP, OpenCLIP, CONCH, UNI)から抽出したいくつかの特徴抽出器を用いて、MedMNIST V2データセットのサブセットにおけるCBMIRの性能について検討した。
また,画像サイズがCBMIR性能に及ぼす影響についても検討した。
以上の結果から,2次元データセットでは基盤モデルの方がCNNよりも優れた性能を示し,UNIは全データセットと画像サイズで最高の総合的なパフォーマンスを提供することがわかった。
3Dデータセットでは、CNNとファンデーションモデルは、より競争力のあるパフォーマンスを提供する。
さらに, 画像サイズが大きい場合(特に2次元データセットの場合) の性能は若干向上するが, 画像サイズが小さい場合でも競合性のあるCBMIR性能が達成可能であることを確認した。
結果の生成と再生を行うコードについてはGitHubで公開しています。
Medical image retrieval refers to the task of finding similar images for given query images in a database, with applications such as diagnosis support, treatment planning, and educational tools for inexperienced medical practitioners. While traditional medical image retrieval was performed using clinical metadata, content-based medical image retrieval (CBMIR) relies on the characteristic features of the images, such as color, texture, shape, and spatial features. Many approaches have been proposed for CBMIR, and among them, using pre-trained convolutional neural networks (CNNs) is a widely utilized approach. However, considering the recent advances in the development of foundation models for various computer vision tasks, their application for CBMIR can be also investigated for its potentially superior performance. In this study, we used several pre-trained feature extractors from well-known pre-trained CNNs (VGG19, ResNet-50, DenseNet121, and EfficientNetV2M) and pre-trained foundation models (MedCLIP, BioMedCLIP, OpenCLIP, CONCH and UNI) and investigated the CBMIR performance on a subset of the MedMNIST V2 dataset, including eight types of 2D and 3D medical images. Furthermore, we also investigated the effect of image size on the CBMIR performance. Our results show that, overall, for the 2D datasets, foundation models deliver superior performance by a large margin compared to CNNs, with UNI providing the best overall performance across all datasets and image sizes. For 3D datasets, CNNs and foundation models deliver more competitive performance, with CONCH achieving the best overall performance. Moreover, our findings confirm that while using larger image sizes (especially for 2D datasets) yields slightly better performance, competitive CBMIR performance can still be achieved even with smaller image sizes. Our codes to generate and reproduce the results are available on GitHub. | 翻訳日:2024-09-17 20:47:24 公開日:2024-09-14 |
# 衛星画像から発掘された遺跡の発見
Detecting Looted Archaeological Sites from Satellite Image Time Series ( http://arxiv.org/abs/2409.09432v1 ) ライセンス: Link先を確認 | Elliot Vincent, Mehraïl Saroufim, Jonathan Chemla, Yves Ubelmann, Philippe Marquis, Jean Ponce, Mathieu Aubry, | (参考訳) 考古学遺跡は、過去の人間の活動の物理的遺構であり、過去の社会や文化に関する主要な情報源の1つである。
しかし、それらはまた、特に内乱や紛争を経験した国において、悪意ある人間の行動の標的でもある。
宇宙からこれらのサイトをモニタリングすることは、その保存に向けた重要なステップである。DAFA Looted Sites データセットである \datasetname は、アフガニスタンの675の考古学遺跡で毎月8年以上にわたって取得された55,480枚の画像を含む、ラベル付きマルチ時間リモートセンシングデータセットである。
トレーニングサンプルの数が限られていること、クラス不均衡、時系列のレベルでしか利用できない弱いバイナリアノテーション、関連する変更の微妙さと長期間にわたる重要な無関係なものが原因で、特に難しい。
また、衛星画像時系列分類法(SITS)の性能を実例と重要事例で評価するための興味深い遊び場である。
ベースラインの集合を多数評価し,基礎モデルを用いることによる実質的なメリットを概説し,単一の画像ではなく,完全な時系列を用いて提供できる追加の強化を示す。
Archaeological sites are the physical remains of past human activity and one of the main sources of information about past societies and cultures. However, they are also the target of malevolent human actions, especially in countries having experienced inner turmoil and conflicts. Because monitoring these sites from space is a key step towards their preservation, we introduce the DAFA Looted Sites dataset, \datasetname, a labeled multi-temporal remote sensing dataset containing 55,480 images acquired monthly over 8 years across 675 Afghan archaeological sites, including 135 sites looted during the acquisition period. \datasetname~is particularly challenging because of the limited number of training samples, the class imbalance, the weak binary annotations only available at the level of the time series, and the subtlety of relevant changes coupled with important irrelevant ones over a long time period. It is also an interesting playground to assess the performance of satellite image time series (SITS) classification methods on a real and important use case. We evaluate a large set of baselines, outline the substantial benefits of using foundation models and show the additional boost that can be provided by using complete time series instead of using a single image. | 翻訳日:2024-09-17 20:47:24 公開日:2024-09-14 |
# PIP-Loco:四足歩行ロボットロコモーションのための固有受容無限水平計画フレームワーク
PIP-Loco: A Proprioceptive Infinite Horizon Planning Framework for Quadrupedal Robot Locomotion ( http://arxiv.org/abs/2409.09441v1 ) ライセンス: Link先を確認 | Aditya Shirwatkar, Naman Saxena, Kishore Chandra, Shishir Kolathaya, | (参考訳) 四足歩行のためのモデル予測制御(MPC)のコアとなる強みは、制約を強制し、水平線上のコマンド列の解釈可能性を提供する能力である。
しかし、計画できるにもかかわらず、MPCはタスクの複雑さに対処するのに苦労し、しばしば急速に変化する表面における堅牢な振る舞いを達成するのに失敗する。
一方、モデルフリー強化学習(RL)法は、複数の地形においてMPCよりも優れており、創発的な動きを示すが、本質的に制約に対処したり、計画を実行する能力は欠如している。
これらの制約に対処するため、私たちは、RLとプロポロセプティブプランニングを統合し、水平線を通したアジャイルで安全な移動行動を可能にするフレームワークを提案します。
MPCに触発されて、速度推定器とドリーマーモジュールを含む内部モデルを組み込んだ。
トレーニング中、フレームワークは専門家の方針と、共同依存型の内部モデルを学び、移動行動を改善するための探索を促進する。
デプロイ中、Dreamerモジュールは無限水平MPC問題を解決する。
内部モデル成分のアブレーション研究を通じてトレーニングフレームワークのロバスト性を検証し、トレーニングノイズに対するロバスト性の向上を実証した。
最後に,シミュレーションとハードウェアの両方において,マルチテレインシナリオに対するアプローチを評価した。
A core strength of Model Predictive Control (MPC) for quadrupedal locomotion has been its ability to enforce constraints and provide interpretability of the sequence of commands over the horizon. However, despite being able to plan, MPC struggles to scale with task complexity, often failing to achieve robust behavior on rapidly changing surfaces. On the other hand, model-free Reinforcement Learning (RL) methods have outperformed MPC on multiple terrains, showing emergent motions but inherently lack any ability to handle constraints or perform planning. To address these limitations, we propose a framework that integrates proprioceptive planning with RL, allowing for agile and safe locomotion behaviors through the horizon. Inspired by MPC, we incorporate an internal model that includes a velocity estimator and a Dreamer module. During training, the framework learns an expert policy and an internal model that are co-dependent, facilitating exploration for improved locomotion behaviors. During deployment, the Dreamer module solves an infinite-horizon MPC problem, adapting actions and velocity commands to respect the constraints. We validate the robustness of our training framework through ablation studies on internal model components and demonstrate improved robustness to training noise. Finally, we evaluate our approach across multi-terrain scenarios in both simulation and hardware. | 翻訳日:2024-09-17 20:47:24 公開日:2024-09-14 |
# Kan-HyperpointNet for Point Cloud Sequence-based 3D Human Action Recognition
KAN-HyperpointNet for Point Cloud Sequence-Based 3D Human Action Recognition ( http://arxiv.org/abs/2409.09444v1 ) ライセンス: Link先を確認 | Zhaoyu Chen, Xing Li, Qian Huang, Qiang Geng, Tianjin Yang, Shihao Han, | (参考訳) ポイントクラウドシーケンスに基づく3Dアクション認識は、目覚ましいパフォーマンスと効率を達成した。
しかし、既存の点雲列モデリング手法では、脚の微小運動の精度と姿勢のマクロ構造の整合性を適切にバランスできないため、行動推論において重要な情報が失われる。
この制限を克服するために、D-Hyperpoint Embeddingモジュールによって生成された新しいデータ型であるD-Hyperpointを紹介する。
D-Hyperpointは、局所運動とグローバル静置姿勢の両方をカプセル化し、各瞬間における単位人の行動を効果的に要約する。
さらに、D-Hyperpointsのネストしたグループ化に再帰的に適用して行動識別情報を学び、KAN(Kolmogorov-Arnold Networks)を創造的に統合し、D-Hyperpoints内の時空間相互作用を強化するD-HyperpointkansMixerモジュールを提案する。
最後に,3次元動作認識のための時空間分離型ネットワークアーキテクチャであるkan-HyperpointNetを提案する。
MSR Action3D と NTU-RGB+D 60 の2つの公開データセットに対する大規模な実験により,本手法の最先端性能を実証した。
Point cloud sequence-based 3D action recognition has achieved impressive performance and efficiency. However, existing point cloud sequence modeling methods cannot adequately balance the precision of limb micro-movements with the integrity of posture macro-structure, leading to the loss of crucial information cues in action inference. To overcome this limitation, we introduce D-Hyperpoint, a novel data type generated through a D-Hyperpoint Embedding module. D-Hyperpoint encapsulates both regional-momentary motion and global-static posture, effectively summarizing the unit human action at each moment. In addition, we present a D-Hyperpoint KANsMixer module, which is recursively applied to nested groupings of D-Hyperpoints to learn the action discrimination information and creatively integrates Kolmogorov-Arnold Networks (KAN) to enhance spatio-temporal interaction within D-Hyperpoints. Finally, we propose KAN-HyperpointNet, a spatio-temporal decoupled network architecture for 3D action recognition. Extensive experiments on two public datasets: MSR Action3D and NTU-RGB+D 60, demonstrate the state-of-the-art performance of our method. | 翻訳日:2024-09-17 20:47:24 公開日:2024-09-14 |
# MulCPred: 説明可能な歩行者行動予測のためのマルチモーダル概念の学習
MulCPred: Learning Multi-modal Concepts for Explainable Pedestrian Action Prediction ( http://arxiv.org/abs/2409.09446v1 ) ライセンス: Link先を確認 | Yan Feng, Alexander Carballo, Keisuke Fujii, Robin Karlsson, Ming Ding, Kazuya Takeda, | (参考訳) 歩行者の行動予測は、自律運転のような多くのアプリケーションにとって非常に重要である。
しかし、最先端の手法には、信頼できる予測を行うための説明性がない。
本稿では,MulCPredと呼ばれる新しいフレームワークを提案する。
従来の概念に基づく手法には、以下の制限がある。
1) マルチモーダルケースには適用できない。
2 入力の詳細に供する地域性がないこと。
3)モード崩壊に苦しむ。
これらの制限は以下のアプローチによって取り組まれる。
1) 概念の活性化結果を予測に統合する線形集約装置であって,異なるモダリティの概念を関連付け,概念と予測の関係性に関するアンテホックな説明を提供するものである。
2) 局地性の概念を実現するため,局地性時空間に随伴するチャンネルワイド・リカレーションモジュール
3) 多様なパターンを学習するコンセプトを促進する機能正規化の損失。
MulCPredは複数のデータセットとタスクで評価される。
定性的かつ定量的な結果は、MulCPredが明らかな性能劣化を伴わずに歩行者行動予測の説明可能性を向上させることを約束していることを示している。
さらに、認識不能な概念をMulCPredから取り除くことにより、MulCPredのさらなる一般化可能性を示すクロスデータセット予測性能が向上する。
Pedestrian action prediction is of great significance for many applications such as autonomous driving. However, state-of-the-art methods lack explainability to make trustworthy predictions. In this paper, a novel framework called MulCPred is proposed that explains its predictions based on multi-modal concepts represented by training samples. Previous concept-based methods have limitations including: 1) they cannot directly apply to multi-modal cases; 2) they lack locality to attend to details in the inputs; 3) they suffer from mode collapse. These limitations are tackled accordingly through the following approaches: 1) a linear aggregator to integrate the activation results of the concepts into predictions, which associates concepts of different modalities and provides ante-hoc explanations of the relevance between the concepts and the predictions; 2) a channel-wise recalibration module that attends to local spatiotemporal regions, which enables the concepts with locality; 3) a feature regularization loss that encourages the concepts to learn diverse patterns. MulCPred is evaluated on multiple datasets and tasks. Both qualitative and quantitative results demonstrate that MulCPred is promising in improving the explainability of pedestrian action prediction without obvious performance degradation. Furthermore, by removing unrecognizable concepts from MulCPred, the cross-dataset prediction performance is improved, indicating the feasibility of further generalizability of MulCPred. | 翻訳日:2024-09-17 20:47:24 公開日:2024-09-14 |
# 作物型マッピングのための基礎モデルの一般化可能性について
On the Generalizability of Foundation Models for Crop Type Mapping ( http://arxiv.org/abs/2409.09451v1 ) ライセンス: Link先を確認 | Yi-Chia Chang, Adam J. Stewart, Favyen Bastani, Piper Wolters, Shreya Kannan, George R. Huber, Jingtong Wang, Arindam Banerjee, | (参考訳) 自己教師型および弱教師型学習を用いて事前訓練された基礎モデルは、言語理解、テキスト生成、画像認識など、さまざまな下流タスクにおいて強力な伝達学習能力を示している。
近年、地球観測(EO)分野は、精密農業、山火事・干ばつモニタリング、自然災害対応などの応用のために、マルチスペクトル衛星画像(例:Sentinel-2)を直接トレーニングしたいくつかの基礎モデルを作成している。
しかし、これらのモデルが新しい地理的な場所に一般化する能力について研究する研究はほとんどなく、データ豊かな先進国で訓練されたモデルがデータに富む先進国にうまく移行しないという、地理空間バイアスの潜在的な懸念が残っている。
本研究では,農業の実践と階級不均衡の違いが転校学習を特に困難にしている農業領域において,人気のあるEOファンデーションモデルが新たな地域への転校を行う能力について検討する。
まず,5大陸にまたがる6つの作物分類データセットを選択し,大豆,大豆,米,小麦の4大穀物に焦点を合わせるために,データセットサイズと調和クラスを標準化した。
次に、SSL4EO-S12、SatlasPretrain、ImageNetで事前トレーニングされた3つの一般的な基礎モデルを、In-distribution (ID) とout-of-distriion (OOD) 評価を用いて比較する。
実験の結果、SSL4EO-S12のようなSentinel-2用に明示的に設計された事前訓練重量は、ImageNetのような一般的な事前訓練重量よりも優れていた。
さらに、OODデータに対する事前トレーニングの利点は、10-100 IDトレーニングサンプルのみを使用する場合に最も重要なものである。
OODと限定IDデータによるトランスファーラーニングと事前トレーニングは、多くの発展途上国で作物の種類がほとんどないため、有望な応用を示している。
調和したデータセットと実験コードはすべてオープンソースで、ダウンロード可能である。
Foundation models pre-trained using self-supervised and weakly-supervised learning have shown powerful transfer learning capabilities on various downstream tasks, including language understanding, text generation, and image recognition. Recently, the Earth observation (EO) field has produced several foundation models pre-trained directly on multispectral satellite imagery (e.g., Sentinel-2) for applications like precision agriculture, wildfire and drought monitoring, and natural disaster response. However, few studies have investigated the ability of these models to generalize to new geographic locations, and potential concerns of geospatial bias -- models trained on data-rich developed countries not transferring well to data-scarce developing countries -- remain. We investigate the ability of popular EO foundation models to transfer to new geographic regions in the agricultural domain, where differences in farming practices and class imbalance make transfer learning particularly challenging. We first select six crop classification datasets across five continents, normalizing for dataset size and harmonizing classes to focus on four major cereal grains: maize, soybean, rice, and wheat. We then compare three popular foundation models, pre-trained on SSL4EO-S12, SatlasPretrain, and ImageNet, using in-distribution (ID) and out-of-distribution (OOD) evaluation. Experiments show that pre-trained weights designed explicitly for Sentinel-2, such as SSL4EO-S12, outperform general pre-trained weights like ImageNet. Furthermore, the benefits of pre-training on OOD data are the most significant when only 10--100 ID training samples are used. Transfer learning and pre-training with OOD and limited ID data show promising applications, as many developing regions have scarce crop type labels. All harmonized datasets and experimental code are open-source and available for download. | 翻訳日:2024-09-17 20:47:24 公開日:2024-09-14 |
# 連続測定およびフィードバックによる消散量子ビットとモニター間の熱電流と変動
Heat current and fluctuations between a dissipative qubit and a monitor under continuous measurement and feedback ( http://arxiv.org/abs/2409.09452v1 ) ライセンス: Link先を確認 | Tsuyoshi Yamamoto, Yasuhiro Tokura, | (参考訳) 連続量子測定とフィードバックは、測定バックアクションとして、定常状態においても、散逸量子ビットとモニターの間の熱交換を誘導する。
リンドブラッド方程式を用いて, 定常熱電流の最大値と最小値とを測定およびフィードバック状態の相違として同定し, これらのプロセスによって誘導されるクビット冷却を実証した。
連続的な測定とフィードバックの下での量子軌道に注意を向け、熱電流が定常値の周りに変動するのを観察する。
電気回路で典型的に観測される標準ポアソンノイズと区別し, 揺らぎが測定逆作用の影響を強く受けていることを明らかにする。
本研究は, 連続測定およびフィードバックにより制御される量子冷凍機の開発に可能性を与え, 揺らぎの観点からの量子熱力学の深い知見を提供する。
Continuous quantum measurement and feedback induce heat exchange between a dissipative qubit and a monitor even in the steady state, as a measurement backaction. Using the Lindblad equation, we identified the maximum and minimum values of the steady-state heat current as the measurement and feedback states vary, and we demonstrate the qubit cooling induced by these processes. Turning our attention to quantum trajectories under continuous measurement and feedback, we observe that the heat current fluctuates around the steady-state values. We reveal that the fluctuations are strongly influenced by the measurement backaction, distinguishing them from the standard Poisson noise typically observed in electric circuits. Our results offer potential application in the development of quantum refrigerators controlled by continuous measurement and feedback, and provide deep insight into quantum thermodynamics from the perspective of fluctuation. | 翻訳日:2024-09-17 20:47:24 公開日:2024-09-14 |
# Dressed atom revisited: Hamiltonian-independent treatment of the radiationive cascade
Dressed atom revisited: Hamiltonian-independent treatment of the radiative cascade ( http://arxiv.org/abs/2409.09454v1 ) ライセンス: Link先を確認 | Francesco V. Pepe, Karolina Słowik, | (参考訳) 服を着た原子のアプローチは、コヒーレントモードの量子的性質を完全に保持することにより、原子レーザー系の力学を研究するためのツールを提供する。
標準導出では、内部原子レーザーの進化が回転波近似の中で記述され、安定状態におけるスペクトルと特異蛍光三重項の二重構造を決定する。
しかし、回転波近似は、フェムト秒の光パルスを受ける原子系、強い結合状態にある光マター系、永続的な双極子モーメントを持続する原子系に適用できない可能性がある。
本研究の目的は, 定常放射線カスケードの一般的な特徴が, 着飾った原子と伝播する放射モードの相互作用によってどのように影響を受けるかを明らかにすることである。
特定のモデルに焦点をあてるのではなく、一般仮説の集合が満足していることを考えると、これらの特徴が任意の原子レーザー力学において、服装した固有状態を特徴づけるパラメータにどのように依存するかを分析する。
本研究は, 着衣状態間の遷移における放射性カスケードの記述が自己整合である, 一般的な条件を明らかにするものである。
我々は,任意の原子-レーザー相互作用モデルに対する光子放出特性を決定するためのガイドラインを提供する。
本稿では, 永久双極子モーメントを低エネルギー放出源とし, 周波数がRabi結合の次数である場合に適用する。
The dressed atom approach provides a tool to investigate the dynamics of an atom-laser system by fully retaining the quantum nature of the coherent mode. In its standard derivation, the internal atom-laser evolution is described within the rotating-wave approximation, which determines a doublet structure of the spectrum and the peculiar fluorescence triplet in the steady state. However, the rotating wave approximation may fail to apply to atomic systems subject to femtosecond light pulses, light-matter systems in the strong-coupling regime or sustaining permanent dipole moments. This work aims to demonstrate how the general features of the steady-state radiative cascade are affected by the interaction of the dressed atom with propagating radiation modes. Rather than focusing on a specific model, we analyze how these features depend on the parameters characterizing the dressed eigenstates in arbitrary atom-laser dynamics, given that a set of general hypotheses is satisfied. Our findings clarify the general conditions in which a description of the radiative cascade in terms of transition between dressed states is self-consistent. We provide a guideline to determine the properties of photon emission for any atom-laser interaction model, which can be particularly relevant when the model should be tailored to enhance a specific line. We apply the general results to the case in which a permanent dipole moment is a source of low-energy emission, whose frequency is of the order of the Rabi coupling. | 翻訳日:2024-09-17 20:47:24 公開日:2024-09-14 |
# 自己スーパービジョンを用いたマルチエージェント行動分析のための学習キーポイント
Learning Keypoints for Multi-Agent Behavior Analysis using Self-Supervision ( http://arxiv.org/abs/2409.09455v1 ) ライセンス: Link先を確認 | Daniel Khalil, Christina Liu, Pietro Perona, Jennifer J. Sun, Markus Marks, | (参考訳) 多エージェントビデオ分析による社会的相互作用と集団行動の研究は生物学において重要である。
自己監督型キーポイント発見は手動のキーポイントアノテーションの必要性を減らすための有望な解決策として現れてきたが、既存の手法は複数の相互作用するエージェント、特に同じ種と色を含むビデオにしばしば苦労している。
そこで本研究では,B-KinD-multiという,事前学習したビデオセグメンテーションモデルを用いて,マルチエージェントシナリオにおけるキーポイント発見のガイドを行う手法を提案する。
これにより、新しい実験的な設定や生物に関する手作業によるアノテーションが不要になる。
大規模な評価では、ハエ、マウス、ラットのビデオにおいて、キーポイントの回帰と下流の行動分類が改善された。
さらに,本手法は,アリ,ミツバチ,ヒトなどの他の種によく適応し,マルチエージェント行動解析のための自動キーポイントアノテーションの幅広い応用の可能性を強調した。
https://danielpkhalil.github.io/B-KinD-Multi
The study of social interactions and collective behaviors through multi-agent video analysis is crucial in biology. While self-supervised keypoint discovery has emerged as a promising solution to reduce the need for manual keypoint annotations, existing methods often struggle with videos containing multiple interacting agents, especially those of the same species and color. To address this, we introduce B-KinD-multi, a novel approach that leverages pre-trained video segmentation models to guide keypoint discovery in multi-agent scenarios. This eliminates the need for time-consuming manual annotations on new experimental settings and organisms. Extensive evaluations demonstrate improved keypoint regression and downstream behavioral classification in videos of flies, mice, and rats. Furthermore, our method generalizes well to other species, including ants, bees, and humans, highlighting its potential for broad applications in automated keypoint annotation for multi-agent behavior analysis. Code available under: https://danielpkhalil.github.io/B-KinD-Multi | 翻訳日:2024-09-17 20:37:27 公開日:2024-09-14 |
# TX-Gen:Sparse Counterfactal Explanationsのための時系列分類のための多目的最適化
TX-Gen: Multi-Objective Optimization for Sparse Counterfactual Explanations for Time-Series Classification ( http://arxiv.org/abs/2409.09461v1 ) ライセンス: Link先を確認 | Qi Huang, Sofoklis Kitharidis, Thomas Bäck, Niki van Stein, | (参考訳) 時系列分類では、医療や金融といった高度な分野において、モデル決定を理解することが重要である。
モデル予測を変える別の入力を提示することで洞察を提供する対物的説明は、有望な解決策を提供する。
しかしながら、時系列データに対する反実的な説明を生成する既存の方法は、近接性、疎性、妥当性といった主要な目的のバランスに苦慮することが多い。
本稿では,Non-dominated Sorting Genetic Algorithm II (NSGA-II)に基づいて,反実的説明を生成する新しいアルゴリズムであるTX-Genを紹介する。
TX-Genは進化的多目的最適化を利用して、オリジナルの時系列と最小限の相似性を保ちながら、スパースかつ有効である多様な反事実の集合を見つける。
フレキシブルな参照誘導機構を組み込むことにより,事前定義された仮定に頼ることなく,その妥当性と解釈性を向上させる。
ベンチマークデータセットに関する大規模な実験により、TX-Genは、高品質なカウンティファクトを生成する既存の手法よりも優れており、時系列モデルはより透明で解釈可能であることが示されている。
In time-series classification, understanding model decisions is crucial for their application in high-stakes domains such as healthcare and finance. Counterfactual explanations, which provide insights by presenting alternative inputs that change model predictions, offer a promising solution. However, existing methods for generating counterfactual explanations for time-series data often struggle with balancing key objectives like proximity, sparsity, and validity. In this paper, we introduce TX-Gen, a novel algorithm for generating counterfactual explanations based on the Non-dominated Sorting Genetic Algorithm II (NSGA-II). TX-Gen leverages evolutionary multi-objective optimization to find a diverse set of counterfactuals that are both sparse and valid, while maintaining minimal dissimilarity to the original time series. By incorporating a flexible reference-guided mechanism, our method improves the plausibility and interpretability of the counterfactuals without relying on predefined assumptions. Extensive experiments on benchmark datasets demonstrate that TX-Gen outperforms existing methods in generating high-quality counterfactuals, making time-series models more transparent and interpretable. | 翻訳日:2024-09-17 20:37:27 公開日:2024-09-14 |
# ソースコードがテストケース生成に及ぼす影響を再考する
Rethinking the Influence of Source Code on Test Case Generation ( http://arxiv.org/abs/2409.09464v1 ) ライセンス: Link先を確認 | Dong Huang, Jie M. Zhang, Mingzhe Du, Mark Harman, Heming Cui, | (参考訳) 大規模言語モデル(LLM)は、コンテキストとして提供されるテスト対象のソースコードでテスト生成を支援するために広く応用されている。
テスト中のソースコードが間違っていれば、LLMはテストの生成時に誤用されるだろうか?
テストケースの有効性は、その正確さ、カバレッジ、バグ検出の有効性によって測定される。
4つのデータセット上の5つのオープンソースLCMと6つのクローズドソースLCMによる評価結果から、不正なコードは、正しい、高いカバレッジ、バグ修正テストを生成する際に、LLMを著しく誤解させる可能性があることが示された。
例えば、HumanEvalデータセットでは、LLMはタスク記述と正しいコードを備えた場合の80.45%のテスト精度を達成しているが、与えられたタスク記述と誤ったコードの場合は57.12%に過ぎなかった。
APPSデータセットでは、39.85%のバグを検出し、19.61%しか検出していない。
これらの発見は、LSMベースのテストのデプロイに重要な意味を持っている。成熟したコードでそれを使うことは、将来の回帰を防ぐのに役立つかもしれないが、初期未熟なコードでは、単にエラーを発生させるだけである。
また, 信頼性およびバグ検出テストの生成において, 不正コードに対するLDMのレジリエンスを改善するためのさらなる研究の必要性も浮き彫りにした。
Large language models (LLMs) have been widely applied to assist test generation with the source code under test provided as the context. This paper aims to answer the question: If the source code under test is incorrect, will LLMs be misguided when generating tests? The effectiveness of test cases is measured by their accuracy, coverage, and bug detection effectiveness. Our evaluation results with five open- and six closed-source LLMs on four datasets demonstrate that incorrect code can significantly mislead LLMs in generating correct, high-coverage, and bug-revealing tests. For instance, in the HumanEval dataset, LLMs achieve 80.45% test accuracy when provided with task descriptions and correct code, but only 57.12% when given task descriptions and incorrect code. For the APPS dataset, prompts with correct code yield tests that detect 39.85% of the bugs, while prompts with incorrect code detect only 19.61%. These findings have important implications for the deployment of LLM-based testing: using it on mature code may help protect against future regression, but on early-stage immature code, it may simply bake in errors. Our findings also underscore the need for further research to improve LLMs resilience against incorrect code in generating reliable and bug-revealing tests. | 翻訳日:2024-09-17 20:37:27 公開日:2024-09-14 |
# 人間をループに維持する - 生成AIによる人中心の自動アノテーション
Keeping Humans in the Loop: Human-Centered Automated Annotation with Generative AI ( http://arxiv.org/abs/2409.09467v1 ) ライセンス: Link先を確認 | Nicholas Pangakis, Samuel Wolken, | (参考訳) 自動テキストアノテーションは、ソーシャルメディア研究における生成大型言語モデル(LLM)の魅力的なユースケースである。
近年の研究では、LCMはアノテーションタスクにおいて高い性能を発揮することが示唆されているが、これらの研究は、LCMを少数のタスクで評価し、公的なベンチマークデータセットに依存するため、汚染に悩まされる可能性がある。
ここでは、自動アノテーションに使用される人工知能ツールを責任を持って評価するための、人間中心のフレームワークをテストする。
我々はGPT-4を用いて、最近発行された計算社会科学論文から11のパスワード保護データセットに27のアノテーションタスクを複製する。
各タスクについて,人間の注釈付き接地木ラベルに対するGPT-4アノテーションと,人為的ラベルに微調整された教師付き分類モデルからのアノテーションを比較した。
LLMラベルの品質は概して高いが,データセット内であっても,タスク間でのLLM性能は著しく変化している。
自動アノテーションは, アクシデントチューニングなどの最適化戦略にもかかわらず, 様々なシナリオにおいて, 人間の判断とは大きく異なる。
人間によって生成された検証ラベルに自動アノテーションを接地することは、責任ある評価に不可欠である。
Automated text annotation is a compelling use case for generative large language models (LLMs) in social media research. Recent work suggests that LLMs can achieve strong performance on annotation tasks; however, these studies evaluate LLMs on a small number of tasks and likely suffer from contamination due to a reliance on public benchmark datasets. Here, we test a human-centered framework for responsibly evaluating artificial intelligence tools used in automated annotation. We use GPT-4 to replicate 27 annotation tasks across 11 password-protected datasets from recently published computational social science articles in high-impact journals. For each task, we compare GPT-4 annotations against human-annotated ground-truth labels and against annotations from separate supervised classification models fine-tuned on human-generated labels. Although the quality of LLM labels is generally high, we find significant variation in LLM performance across tasks, even within datasets. Our findings underscore the importance of a human-centered workflow and careful evaluation standards: Automated annotations significantly diverge from human judgment in numerous scenarios, despite various optimization strategies such as prompt tuning. Grounding automated annotation in validation labels generated by humans is essential for responsible evaluation. | 翻訳日:2024-09-17 20:37:27 公開日:2024-09-14 |
# ハイパーグラフウェーブレットを用いたハイパーエッジ表現:空間転写学への応用
Hyperedge Representations with Hypergraph Wavelets: Applications to Spatial Transcriptomics ( http://arxiv.org/abs/2409.09469v1 ) ライセンス: Link先を確認 | Xingzhi Sun, Charles Xu, João F. Rocha, Chen Liu, Benjamin Hollander-Bodie, Laney Goldman, Marcello DiStasio, Michael Perlmutter, Smita Krishnaswamy, | (参考訳) 多くのデータ駆動アプリケーションにおいて、複数のオブジェクト間の高次関係は複雑な相互作用を捉えるのに不可欠である。
グラフを一般化するハイパーグラフは、エッジが任意のノードを接続できるようにすることで、高次関係をモデル化するための柔軟で強力なフレームワークを提供する。
本研究では,ハイパーグラフ拡散ウェーブレットを導入し,そのスペクトル特性と空間特性について述べる。
本手法をアルツハイマー病の病原性ニッチの表現に適用することにより, 空間的に解決された転写学におけるバイオメディカル発見の有用性を実証する。
In many data-driven applications, higher-order relationships among multiple objects are essential in capturing complex interactions. Hypergraphs, which generalize graphs by allowing edges to connect any number of nodes, provide a flexible and powerful framework for modeling such higher-order relationships. In this work, we introduce hypergraph diffusion wavelets and describe their favorable spectral and spatial properties. We demonstrate their utility for biomedical discovery in spatially resolved transcriptomics by applying the method to represent disease-relevant cellular niches for Alzheimer's disease. | 翻訳日:2024-09-17 20:37:27 公開日:2024-09-14 |
# 沼地における多足ロボットの学習
Learning to enhance multi-legged robot on rugged landscapes ( http://arxiv.org/abs/2409.09473v1 ) ライセンス: Link先を確認 | Juntao He, Baxi Chong, Zhaochen Xu, Sehoon Ha, Daniel I. Goldman, | (参考訳) 荒れ果てた風景を航行することは足の移動に重大な困難をもたらす。
マルチ脚ロボット(これらは6つ以上のもの)は、そのような地形に対して有望なソリューションを提供する。
このようなシステムはバランスを維持するために最小限の努力を必要とする。
近年の研究では、地形の荒さの変化に応答して多脚ロボットの垂直体屈を調節するリニアコントローラが、挑戦的な地形上での確実な移動性を確保することが示されている。
しかし、地形の不均一性に対応するために複数のパラメータを調整した学習ベースの制御フレームワークの可能性については、未検討のままである。
実験により検証された物理学に基づくロボットシミュレータの開発は,広いパラメータ空間探索を可能とすることで,急速に機能向上できると仮定する。
そこで我々は,このロボットプラットフォームに合わせたMuJoCoベースのシミュレータを開発し,そのシミュレーションを用いて,水平および垂直の身体のゆがみを動的に調整する強化学習に基づく制御フレームワークを開発し,手足の踏み込みをリアルタイムで行う。
本手法は,シミュレーション,実験室実験,屋外試験におけるロボットの性能を向上させる。
特に実世界の実験では,垂直波のみを変調する線形制御器に比べて,学習ベース制御器の速度が30~50倍に向上していることが判明した。
学習ベースコントローラの優れた性能は、手足踏み、水平体波、垂直体波を含む複数のパラメータを同時に調整できることから生じると仮定する。
Navigating rugged landscapes poses significant challenges for legged locomotion. Multi-legged robots (those with 6 and greater) offer a promising solution for such terrains, largely due to their inherent high static stability, resulting from a low center of mass and wide base of support. Such systems require minimal effort to maintain balance. Recent studies have shown that a linear controller, which modulates the vertical body undulation of a multi-legged robot in response to shifts in terrain roughness, can ensure reliable mobility on challenging terrains. However, the potential of a learning-based control framework that adjusts multiple parameters to address terrain heterogeneity remains underexplored. We posit that the development of an experimentally validated physics-based simulator for this robot can rapidly advance capabilities by allowing wide parameter space exploration. Here we develop a MuJoCo-based simulator tailored to this robotic platform and use the simulation to develop a reinforcement learning-based control framework that dynamically adjusts horizontal and vertical body undulation, and limb stepping in real-time. Our approach improves robot performance in simulation, laboratory experiments, and outdoor tests. Notably, our real-world experiments reveal that the learning-based controller achieves a 30\% to 50\% increase in speed compared to a linear controller, which only modulates vertical body waves. We hypothesize that the superior performance of the learning-based controller arises from its ability to adjust multiple parameters simultaneously, including limb stepping, horizontal body wave, and vertical body wave. | 翻訳日:2024-09-17 20:37:27 公開日:2024-09-14 |
# MALADY: グラフ上のオークションダイナミクスを用いたマルチクラスアクティブラーニング
MALADY: Multiclass Active Learning with Auction Dynamics on Graphs ( http://arxiv.org/abs/2409.09475v1 ) ライセンス: Link先を確認 | Gokul Bhusal, Kevin Miller, Ekaterina Merkurjev, | (参考訳) アクティブラーニングは、特に半教師付きケースにおいて、基礎となる分類器の性能を向上させることを目的として、ラベル付けのための限られた数のラベル付きデータポイントを任意に選択することで、機械学習手法の性能を向上させる。
本稿では,類似性グラフ上でのオークションダイナミクスを有効活用し,効率的なアクティブラーニングを実現するためのマルチクラスアクティブラーニング(MALADY)フレームワークを提案する。
特に,[24]における半教師付き学習のための類似性グラフ上のオークションダイナミクスアルゴリズムを一般化し,より汎用的な最適化関数を組み込む。
さらに,オークションアルゴリズムの二重変数を用いて,分類器内の不確実性を測定し,異なるクラス間の決定境界付近のクエリを優先順位付けする,新しい能動的学習獲得関数を導入する。
最後に、分類タスクの実験を用いて、提案手法の性能を評価し、比較アルゴリズムよりも優れていることを示す。
Active learning enhances the performance of machine learning methods, particularly in semi-supervised cases, by judiciously selecting a limited number of unlabeled data points for labeling, with the goal of improving the performance of an underlying classifier. In this work, we introduce the Multiclass Active Learning with Auction Dynamics on Graphs (MALADY) framework which leverages the auction dynamics algorithm on similarity graphs for efficient active learning. In particular, we generalize the auction dynamics algorithm on similarity graphs for semi-supervised learning in [24] to incorporate a more general optimization functional. Moreover, we introduce a novel active learning acquisition function that uses the dual variable of the auction algorithm to measure the uncertainty in the classifier to prioritize queries near the decision boundaries between different classes. Lastly, using experiments on classification tasks, we evaluate the performance of our proposed method and show that it exceeds that of comparison algorithms. | 翻訳日:2024-09-17 20:37:27 公開日:2024-09-14 |
# FDGからPSMAへ:PET/CT画像におけるHitchhiker's Guide to Multitracer, Multicentersion Segmentation
From FDG to PSMA: A Hitchhiker's Guide to Multitracer, Multicenter Lesion Segmentation in PET/CT Imaging ( http://arxiv.org/abs/2409.09478v1 ) ライセンス: Link先を確認 | Maximilian Rokuss, Balint Kovacs, Yannick Kirchhoff, Shuhan Xiao, Constantin Ulrich, Klaus H. Maier-Hein, Fabian Isensee, | (参考訳) PET/CTスキャンにおける病変分割の自動化は、臨床ワークフローの改善とがん診断の進展に不可欠である。
しかし、この課題は生理的多様性、PETイメージングで使用される異なるトレーサ、医療センター全体での多様なイメージングプロトコルによって困難である。
これを解決するために、AutoPETシリーズは、さまざまなPET/CT環境にまたがるアルゴリズムを開発するために研究者に挑戦するために作られた。
本稿では,ResEncL アーキテクチャを用いた nnU-Net フレームワークを用いたマルチトラス,マルチセンタの一般化を目的とした AutoPET III チャレンジの解決策を提案する。
主なテクニックには、CT、MR、PETデータセットをまたいだ誤調整データ拡張とマルチモーダル事前トレーニングがあり、最初の解剖学的理解を提供する。
臓器管理をマルチタスクアプローチとして取り入れることで,生理的摂取とトレーサー特異的パターンの区別が可能となり,病変が存在しない場合に特に有用である。
Diceスコアが57.61、ResEncL(65.31)を達成したデフォルトのnnU-Netと比較して、Diceスコアが68.40、偽陽性(FPvol: 7.82)と偽陰性(FNvol: 10.35)が減少し、パフォーマンスが大幅に向上した。
これらの結果から, PET/CT領域におけるネットワーク設計, 拡張, 事前訓練, マルチタスク学習の併用の有効性が示唆された。
コードはhttps://github.com/MIC-DKFZ/autopet-3-submission.comで公開されている。
Automated lesion segmentation in PET/CT scans is crucial for improving clinical workflows and advancing cancer diagnostics. However, the task is challenging due to physiological variability, different tracers used in PET imaging, and diverse imaging protocols across medical centers. To address this, the autoPET series was created to challenge researchers to develop algorithms that generalize across diverse PET/CT environments. This paper presents our solution for the autoPET III challenge, targeting multitracer, multicenter generalization using the nnU-Net framework with the ResEncL architecture. Key techniques include misalignment data augmentation and multi-modal pretraining across CT, MR, and PET datasets to provide an initial anatomical understanding. We incorporate organ supervision as a multitask approach, enabling the model to distinguish between physiological uptake and tracer-specific patterns, which is particularly beneficial in cases where no lesions are present. Compared to the default nnU-Net, which achieved a Dice score of 57.61, or the larger ResEncL (65.31) our model significantly improved performance with a Dice score of 68.40, alongside a reduction in false positive (FPvol: 7.82) and false negative (FNvol: 10.35) volumes. These results underscore the effectiveness of combining advanced network design, augmentation, pretraining, and multitask learning for PET/CT lesion segmentation. Code is publicly available at https://github.com/MIC-DKFZ/autopet-3-submission. | 翻訳日:2024-09-17 20:37:27 公開日:2024-09-14 |
# MAC-VO:学習型ステレオビジュアルオドメトリーにおけるメトリクス認識の共分散
MAC-VO: Metrics-aware Covariance for Learning-based Stereo Visual Odometry ( http://arxiv.org/abs/2409.09479v1 ) ライセンス: Link先を確認 | Yuheng Qiu, Yutian Chen, Zihao Zhang, Wenshan Wang, Sebastian Scherer, | (参考訳) 本稿では,学習用ステレオVOであるMAC-VOを提案する。鍵点の選択とポーズグラフの残差の重み付けという2つの目的のために,学習用メトリクス認識不確実性を利用した学習用ステレオVOである。
エッジのようなテクスチャに富む特徴を優先する従来の幾何学的手法と比較して、キーポイントセレクタは、学習された不確実性を利用して、グローバル不整合に基づく低品質特徴をフィルタリングする。
共分散のためのスケールに依存しない対角行列をモデル化する学習に基づくアルゴリズムとは対照的に、キーポイント登録時の空間誤差と異なる軸間の相関を捉えるためのメトリクス認識共分散モデルを設計する。
この共分散モデルをポーズグラフ最適化に統合することで、特に様々な照明、特徴密度、動きパターンを持つ挑戦環境において、ポーズ推定の堅牢性と信頼性が向上する。
公開ベンチマークデータセットでは、MAC-VOは既存のVOアルゴリズムや、挑戦的な環境でのSLAMアルゴリズムよりも優れています。
共分散マップはまた、推定されたポーズの信頼性に関する貴重な情報を提供する。
We propose the MAC-VO, a novel learning-based stereo VO that leverages the learned metrics-aware matching uncertainty for dual purposes: selecting keypoint and weighing the residual in pose graph optimization. Compared to traditional geometric methods prioritizing texture-affluent features like edges, our keypoint selector employs the learned uncertainty to filter out the low-quality features based on global inconsistency. In contrast to the learning-based algorithms that model the scale-agnostic diagonal weight matrix for covariance, we design a metrics-aware covariance model to capture the spatial error during keypoint registration and the correlations between different axes. Integrating this covariance model into pose graph optimization enhances the robustness and reliability of pose estimation, particularly in challenging environments with varying illumination, feature density, and motion patterns. On public benchmark datasets, MAC-VO outperforms existing VO algorithms and even some SLAM algorithms in challenging environments. The covariance map also provides valuable information about the reliability of the estimated poses, which can benefit decision-making for autonomous systems. | 翻訳日:2024-09-17 20:37:27 公開日:2024-09-14 |
# ニューマン級数に基づく逆媒質問題の解法用ニューラル演算子
Neumann Series-based Neural Operator for Solving Inverse Medium Problem ( http://arxiv.org/abs/2409.09480v1 ) ライセンス: Link先を確認 | Ziyang Liu, Fukai Chen, Junqing Chen, Lingyun Qiu, Zuoqiang Shi, | (参考訳) 逆媒質問題(本質的に不備で非線形)は、重要な計算課題を提起する。
本研究ではニューマン級数構造をニューラルネットワークフレームワークに統合し,マルチパラメータ入力を効果的に処理する手法を提案する。
実験により,提案手法は計算を高速化するだけでなく,様々な散乱特性やノイズのあるデータであっても,一般化性能を著しく向上することが示された。
フレームワークの堅牢性と適応性は重要な洞察と方法論を提供し、その適用範囲を幅広い散乱問題にまで広げる。
これらの進歩は、伝統的に複雑な逆問題に対するスケーラブルなソリューションを提供する、この分野における重要な一歩である。
The inverse medium problem, inherently ill-posed and nonlinear, presents significant computational challenges. This study introduces a novel approach by integrating a Neumann series structure within a neural network framework to effectively handle multiparameter inputs. Experiments demonstrate that our methodology not only accelerates computations but also significantly enhances generalization performance, even with varying scattering properties and noisy data. The robustness and adaptability of our framework provide crucial insights and methodologies, extending its applicability to a broad spectrum of scattering problems. These advancements mark a significant step forward in the field, offering a scalable solution to traditionally complex inverse problems. | 翻訳日:2024-09-17 20:37:27 公開日:2024-09-14 |
# Scabbard: ラウンドベースキーカプセル化機構を用いた学習のハードウェア・アウェア・デザイン選択に関する探索的研究
Scabbard: An Exploratory Study on Hardware Aware Design Choices of Learning with Rounding-based Key Encapsulation Mechanisms ( http://arxiv.org/abs/2409.09481v1 ) ライセンス: Link先を確認 | Suparna Kundu, Quinten Norga, Angshuman Karmakar, Shreya Gangopadhyay, Jose Maria Bermudo Mera, Ingrid Verbauwhede, | (参考訳) 近年,ハード格子問題に基づく暗号スキームの構築が盛んに行われている。
量子抵抗性は別として、格子ベースの暗号は根底にある問題の幅広いバリエーションを可能にする。
暗号化スキームは、メモリフットプリント、シリコン領域、効率性、電力要求など、さまざまな運用上の制約の下で異なる環境で動作可能であるため、設計者が異なる暗号スキームを構築するのに非常に有用である。
本研究では,格子型暗号の設計選択と実世界の性能への影響について検討する。
特に、格子型暗号の異なる性能面の改善に焦点をあて、丸め問題による学習に基づく鍵カプセル化機構の組を提案する。
私たちのスイートは3つのスキームで構成されています。
最初のスキームはFloreteで、効率性のために設計されています。
第2のスキームは、並列化、柔軟性、メモリフットプリントの改善を目的としたEspadaである。
最後のスキームはSableで、Saborキーカプセル化機構のキーサイズとパラメータの観点から改善されたバージョンと見なすことができる。
本研究では,各スキームの背景にある設計的根拠について述べる。
さらに、設計決定の正当性を実証するために、ソフトウェアとハードウェアの実装を提供しました。
その結果,Floreteはソフトウェアやハードウェアプラットフォーム上での最先端のKEMよりも高速であることがわかった。
Espadaは、ほとんどの最先端のスキームの実装よりもメモリと面積を少なくする。
Sableの実装は、ハードウェアとソフトウェアプラットフォームのパフォーマンスとメモリ要件に関するFloreteとEspadaのトレードオフを維持している。
Recently, the construction of cryptographic schemes based on hard lattice problems has gained immense popularity. Apart from being quantum resistant, lattice-based cryptography allows a wide range of variations in the underlying hard problem. As cryptographic schemes can work in different environments under different operational constraints such as memory footprint, silicon area, efficiency, power requirement, etc., such variations in the underlying hard problem are very useful for designers to construct different cryptographic schemes. In this work, we explore various design choices of lattice-based cryptography and their impact on performance in the real world. In particular, we propose a suite of key-encapsulation mechanisms based on the learning with rounding problem with a focus on improving different performance aspects of lattice-based cryptography. Our suite consists of three schemes. Our first scheme is Florete, which is designed for efficiency. The second scheme is Espada, which is aimed at improving parallelization, flexibility, and memory footprint. The last scheme is Sable, which can be considered an improved version in terms of key sizes and parameters of the Saber key-encapsulation mechanism, one of the finalists in the National Institute of Standards and Technology's post-quantum standardization procedure. In this work, we have described our design rationale behind each scheme. Further, to demonstrate the justification of our design decisions, we have provided software and hardware implementations. Our results show Florete is faster than most state-of-the-art KEMs on software and hardware platforms. The scheme Espada requires less memory and area than the implementation of most state-of-the-art schemes. The implementations of Sable maintain a trade-off between Florete and Espada regarding performance and memory requirements on the hardware and software platform. | 翻訳日:2024-09-17 20:37:27 公開日:2024-09-14 |
# ハイブリッドYolo-SAM 2モデルを用いた大腸内視鏡の自己プロンピングポリプセグメンテーション
Self-Prompting Polyp Segmentation in Colonoscopy using Hybrid Yolo-SAM 2 Model ( http://arxiv.org/abs/2409.09484v1 ) ライセンス: Link先を確認 | Mobina Mansoori, Sajjad Shahabodini, Jamshid Abouei, Konstantinos N. Plataniotis, Arash Mohammadi, | (参考訳) 大腸内視鏡検査におけるポリープの早期診断と治療は大腸癌(CRC)の発生率と死亡率の低下に不可欠である。
しかし, 大腸内視鏡画像やビデオにおけるポリープ特性の変化とアーティファクトの存在は, 正確かつ効率的なポリープ検出とセグメンテーションにおいて重要な課題となっている。
本稿では,Segment Anything Model(SAM2)とYOLOv8モデルを統合することで,ポリプセグメンテーションの新たなアプローチを提案する。
本手法では,YOLOv8のバウンディングボックス予測を利用してSAM 2の入力プロンプトを自動生成することで,手動アノテーションの必要性を軽減している。
われわれは,5つのベンチマーク大腸内視鏡画像データセットと2つの大腸内視鏡ビデオデータセットの徹底的な試験を行い,この手法が画像分割タスクおよびビデオ分割タスクの最先端モデルを上回ることを示した。
特に,本手法は境界ボックスアノテーションのみを用いて高いセグメンテーション精度を実現し,アノテーションの時間と労力を大幅に削減する。
この進歩は、臨床設定 https://github.com/sajjad-sh33/YOLO_SAM2 におけるポリプ検出の効率性とスケーラビリティの向上を約束している。
Early diagnosis and treatment of polyps during colonoscopy are essential for reducing the incidence and mortality of Colorectal Cancer (CRC). However, the variability in polyp characteristics and the presence of artifacts in colonoscopy images and videos pose significant challenges for accurate and efficient polyp detection and segmentation. This paper presents a novel approach to polyp segmentation by integrating the Segment Anything Model (SAM 2) with the YOLOv8 model. Our method leverages YOLOv8's bounding box predictions to autonomously generate input prompts for SAM 2, thereby reducing the need for manual annotations. We conducted exhaustive tests on five benchmark colonoscopy image datasets and two colonoscopy video datasets, demonstrating that our method exceeds state-of-the-art models in both image and video segmentation tasks. Notably, our approach achieves high segmentation accuracy using only bounding box annotations, significantly reducing annotation time and effort. This advancement holds promise for enhancing the efficiency and scalability of polyp detection in clinical settings https://github.com/sajjad-sh33/YOLO_SAM2. | 翻訳日:2024-09-17 20:37:27 公開日:2024-09-14 |
# LTLf式における最小不飽和核の数え上げ
Enumerating Minimal Unsatisfiable Cores of LTLf formulas ( http://arxiv.org/abs/2409.09485v1 ) ライセンス: Link先を確認 | Antonio Ielo, Giuseppe Mazzotta, Rafael Peñaloza, Francesco Ricca, | (参考訳) 有限トレース上の線形時間論理($\text{LTL}_f$)は、AI、プロセスマイニング、モデルチェックなどの応用で広く使われている形式主義である。
$\text{LTL}_f$の主な推論タスクは、満足度チェックである。しかしながら、最近の説明可能なAIへのフォーカスは、一貫性のない公式の分析への関心を高め、不実現性の最小限の説明の列挙も、$\text{LTL}_f$の関連するタスクである。
本稿では,$\text{LTL}_f$仕様の最小不満足コア(MUC)を列挙する新しい手法を提案する。
主なアイデアは、$\text{LTL}_f$式をAnswer Set Programming (ASP)仕様にエンコードすることであり、ASPプログラムの最小不満足なサブセット(MUS)は、オリジナルの$\text{LTL}_f$仕様のMUCと直接対応する。
ASP 解決における最近の進歩を活用すれば、文献から確立されたベンチマークで実施された実験で優れた性能を発揮する MUC 列挙子が得られる。
Linear Temporal Logic over finite traces ($\text{LTL}_f$) is a widely used formalism with applications in AI, process mining, model checking, and more. The primary reasoning task for $\text{LTL}_f$ is satisfiability checking; yet, the recent focus on explainable AI has increased interest in analyzing inconsistent formulas, making the enumeration of minimal explanations for infeasibility a relevant task also for $\text{LTL}_f$. This paper introduces a novel technique for enumerating minimal unsatisfiable cores (MUCs) of an $\text{LTL}_f$ specification. The main idea is to encode a $\text{LTL}_f$ formula into an Answer Set Programming (ASP) specification, such that the minimal unsatisfiable subsets (MUSes) of the ASP program directly correspond to the MUCs of the original $\text{LTL}_f$ specification. Leveraging recent advancements in ASP solving yields a MUC enumerator achieving good performance in experiments conducted on established benchmarks from the literature. | 翻訳日:2024-09-17 20:37:27 公開日:2024-09-14 |
# 繊維結合型NVダイヤモンド温度センサの確率的およびデータ駆動推論モデルの評価
Evaluating probabilistic and data-driven inference models for fiber-coupled NV-diamond temperature sensors ( http://arxiv.org/abs/2409.09487v1 ) ライセンス: Link先を確認 | Shraddha Rajpal, Zeeshan Ahmed, Tyrus Berry, | (参考訳) 連続波光磁気共鳴(ODMR)測定による温度推定における推定モデルが不確実性に与える影響について検討した。
本手法は,自動微分によるODMRスペクトルの観測可能性の最大化を目的として,確率的フィードフォワード推定モデルを利用する。
このモデルでは、スピンハミルトンパラメータの温度依存性を利用して、ODMRデータのスペクトル特徴から温度を推定する。
確率モデルをベンチマークするために、パラメータなしピークフィニング手法と、プリンシパルコンポーネント回帰(PCR)や1D畳み込みニューラルネットワーク(CNN)などのデータ駆動手法を比較した。
トレーニングデータセットと同じ温度範囲を含むサンプル外データセットに対する検証では、分光-温度関係のエキスパートレベルの理解を取り入れることなく、0.67K以下の不確実性を示すことができる。
しかし, この確率モデルは, トレーニングセットの温度範囲を超えて外挿を行う場合, PCRとCNNのどちらよりも優れており, 堅牢性と一般化性を示している。
対照的に、PCRやCNNのようなデータ駆動の手法は、トレーニングデータの範囲外で外挿を行うタスクを行う場合、最大で10倍の不確実性を示す。
We evaluate the impact of inference model on uncertainties when using continuous wave Optically Detected Magnetic Resonance (ODMR) measurements to infer temperature. Our approach leverages a probabilistic feedforward inference model designed to maximize the likelihood of observed ODMR spectra through automatic differentiation. This model effectively utilizes the temperature dependence of spin Hamiltonian parameters to infer temperature from spectral features in the ODMR data. We achieve prediction uncertainty of $\pm$ 1 K across a temperature range of 243 K to 323 K. To benchmark our probabilistic model, we compare it with a non-parametric peak-finding technique and data-driven methodologies such as Principal Component Regression (PCR) and a 1D Convolutional Neural Network (CNN). We find that when validated against out-of-sample dataset that encompasses the same temperature range as the training dataset, data driven methods can show uncertainties that are as much as 0.67 K lower without incorporating expert-level understanding of the spectroscopic-temperature relationship. However, our results show that the probabilistic model outperforms both PCR and CNN when tasked with extrapolating beyond the temperature range used in training set, indicating robustness and generalizability. In contrast, data-driven methods like PCR and CNN demonstrate up to ten times worse uncertainties when tasked with extrapolating outside their training data range. | 翻訳日:2024-09-17 20:37:27 公開日:2024-09-14 |
# ハッキングと怠慢な方法:LLMの強化ペンテスト
Hacking, The Lazy Way: LLM Augmented Pentesting ( http://arxiv.org/abs/2409.09493v1 ) ライセンス: Link先を確認 | Dhruva Goyal, Sitaraman Subramanian, Aditya Peela, | (参考訳) セキュリティ研究者は、急速に進化するサイバーセキュリティの研究、ツール、技術に近づき続ける必要性に常に挑戦している。
この学習、学び、再学習の絶え間ないサイクルは、文書化とデータ分析を繰り返すタスクと相まって、生産性とイノベーションを妨げます。
これは、実質的なリソースを持つ組織だけがトップレベルのセキュリティ専門家にアクセスでき、他の組織は、実際のセキュリティよりもコンプライアンスに重点を置いている、技術に乏しい研究者の会社に依存している、という格差につながっている。
我々は,このギャップに対処するため,"Pentest Copilot"というツールを通じてデモした"LLM Augmented Pentesting"を紹介した。
このアプローチでは,大規模言語モデルを浸透テストワークフローに統合する。
私たちの研究には、トークン使用の合理化とパフォーマンス向上のための"思考の連鎖"メカニズムと、幻覚を最小化し、最新の技術に合わせたモデルを維持するための独自の検索拡張生成実装が含まれています。
さらに,LLMがファイルの理解を可能にする新しいファイル解析手法を提案する。
さらに、実装された場合のサポート、ブラウザ内での侵入テストのサポート、サイバーセキュリティ専門家のための堅牢なプラットフォームの提供など、ユニークなインフラストラクチャシステムを強調します。これらの進歩は、自動化ツールと人間の専門知識のギャップを埋める上で重要なステップであり、現代のサイバーセキュリティチームが直面している課題に対する強力なソリューションを提供します。
Security researchers are continually challenged by the need to stay current with rapidly evolving cybersecurity research, tools, and techniques. This constant cycle of learning, unlearning, and relearning, combined with the repetitive tasks of sifting through documentation and analyzing data, often hinders productivity and innovation. This has led to a disparity where only organizations with substantial resources can access top-tier security experts, while others rely on firms with less skilled researchers who focus primarily on compliance rather than actual security. We introduce "LLM Augmented Pentesting," demonstrated through a tool named "Pentest Copilot," to address this gap. This approach integrates Large Language Models into penetration testing workflows. Our research includes a "chain of thought" mechanism to streamline token usage and boost performance, as well as unique Retrieval Augmented Generation implementation to minimize hallucinations and keep models aligned with the latest techniques. Additionally, we propose a novel file analysis approach, enabling LLMs to understand files. Furthermore, we highlight a unique infrastructure system that supports if implemented, can support in-browser assisted penetration testing, offering a robust platform for cybersecurity professionals, These advancements mark a significant step toward bridging the gap between automated tools and human expertise, offering a powerful solution to the challenges faced by modern cybersecurity teams. | 翻訳日:2024-09-17 20:37:27 公開日:2024-09-14 |
# コンテキスト駆動型合成位置生成による車両位置プライバシ保護
Protecting Vehicle Location Privacy with Contextually-Driven Synthetic Location Generation ( http://arxiv.org/abs/2409.09495v1 ) ライセンス: Link先を確認 | Sourabh Yadav, Chenyang Yu, Xinpeng Xie, Yan Huang, Chenxi Qiu, | (参考訳) ジオ・オブファシケーション(Geo-obfuscation)は、位置情報ベースのサービスで使用される位置プライバシー保護メカニズムで、ユーザーが正確な位置ではなく、難読化された位置を報告できる。
正式なプライバシー基準であるジオインディペンシビリティ(Geo-Ind)は、実際の場所を、その難解な表現に基づいて(攻撃者によって)近くの場所と区別することが困難である。
しかし、Geo-Indは、道路網や車両の交通状況などの状況を考えるのに失敗し、これらの要因に強く影響される車両の位置プライバシーの保護に効果が低下する。
本稿では,Geo-Indの脆弱性を実証する新たな脅威モデルであるVehiTrackを紹介する。
我々の実験は、VehiTrackが難読化データから正確な車の位置を正確に決定できることを示し、ラプラシアンノイズでは平均推定誤差を61.20%、ベイズ攻撃では47.35%削減できることを示した。
道路ネットワークや交通の流れなどのコンテキストデータを使用することで、VehiTrackは車両の実際の位置を探索する際、事実上かなりの数の「不可能」な場所を排除している。
これらの知見に基づいて,現実的な車両運動パターンに難読化を限定する新しいジオ・オブファシケーション手法であるTransProtectを提案する。
以上の結果から,TransProtectはLaplacian noiseで57.75%,LPで27.21%,VehiTrackの推測誤差を57.75%増加させ,これらの攻撃に対する保護を著しく向上させた。
Geo-obfuscation is a Location Privacy Protection Mechanism used in location-based services that allows users to report obfuscated locations instead of exact ones. A formal privacy criterion, geoindistinguishability (Geo-Ind), requires real locations to be hard to distinguish from nearby locations (by attackers) based on their obfuscated representations. However, Geo-Ind often fails to consider context, such as road networks and vehicle traffic conditions, making it less effective in protecting the location privacy of vehicles, of which the mobility are heavily influenced by these factors. In this paper, we introduce VehiTrack, a new threat model to demonstrate the vulnerability of Geo-Ind in protecting vehicle location privacy from context-aware inference attacks. Our experiments demonstrate that VehiTrack can accurately determine exact vehicle locations from obfuscated data, reducing average inference errors by 61.20% with Laplacian noise and 47.35% with linear programming (LP) compared to traditional Bayesian attacks. By using contextual data like road networks and traffic flow, VehiTrack effectively eliminates a significant number of seemingly "impossible" locations during its search for the actual location of the vehicles. Based on these insights, we propose TransProtect, a new geo-obfuscation approach that limits obfuscation to realistic vehicle movement patterns, complicating attackers' ability to differentiate obfuscated from actual locations. Our results show that TransProtect increases VehiTrack's inference error by 57.75% with Laplacian noise and 27.21% with LP, significantly enhancing protection against these attacks. | 翻訳日:2024-09-17 20:27:38 公開日:2024-09-14 |
# 解釈可能なセマンティックセグメンテーションのためのマルチスケールグループプロトタイプ
Multi-Scale Grouped Prototypes for Interpretable Semantic Segmentation ( http://arxiv.org/abs/2409.09497v1 ) ライセンス: Link先を確認 | Hugo Porta, Emanuele Dalsasso, Diego Marcos, Devis Tuia, | (参考訳) 意味的セグメンテーションを解釈可能なものにするための、有望なアプローチとして、プロトタイプ的な部分学習が登場している。
モデルは、トレーニング中にプロトタイプとして見られる実際のパッチを選択し、テスト画像の一部とプロトタイプとの類似性に基づいて、密集した予測マップを構築する。
これにより、予測出力とモデルが学習したパターンとのリンクを原型情報の観点から検査できるため、解釈可能性が改善される。
本稿では,マルチスケール画像表現を利用した解釈可能なセマンティックセマンティックセマンティクスの手法を提案する。
まず,多種多様な原型部分を複数のスケールで明示的に学習するプロトタイプ層を導入し,プロトタイプアクティベーション出力のマルチスケール表現を実現する。
そこで,本研究では,これらの大規模特異な部分のスパース群を生成するスパースグルーピング機構を提案する。
これにより、セグメンテーションモデルの解釈可能性を高めながら、マルチスケールオブジェクト表現間の相互作用をより深く理解することができる。
また,Pascal VOC,Cityscapes,ADE20Kで行った実験により,提案手法はモデルの疎結合性を高め,既存のプロトタイプ手法よりも解釈可能性を高め,非解釈可能なモデルとの性能ギャップを狭めることを示した。
コードはgithub.com/eceo-epfl/ScaleProtoSegで入手できる。
Prototypical part learning is emerging as a promising approach for making semantic segmentation interpretable. The model selects real patches seen during training as prototypes and constructs the dense prediction map based on the similarity between parts of the test image and the prototypes. This improves interpretability since the user can inspect the link between the predicted output and the patterns learned by the model in terms of prototypical information. In this paper, we propose a method for interpretable semantic segmentation that leverages multi-scale image representation for prototypical part learning. First, we introduce a prototype layer that explicitly learns diverse prototypical parts at several scales, leading to multi-scale representations in the prototype activation output. Then, we propose a sparse grouping mechanism that produces multi-scale sparse groups of these scale-specific prototypical parts. This provides a deeper understanding of the interactions between multi-scale object representations while enhancing the interpretability of the segmentation model. The experiments conducted on Pascal VOC, Cityscapes, and ADE20K demonstrate that the proposed method increases model sparsity, improves interpretability over existing prototype-based methods, and narrows the performance gap with the non-interpretable counterpart models. Code is available at github.com/eceo-epfl/ScaleProtoSeg. | 翻訳日:2024-09-17 20:27:38 公開日:2024-09-14 |
# Synthetic4Health: Annotated Synthetic Clinical Lettersの作成
Synthetic4Health: Generating Annotated Synthetic Clinical Letters ( http://arxiv.org/abs/2409.09501v1 ) ライセンス: Link先を確認 | Libo Ren, Samuel Belkadi, Lifeng Han, Warren Del-Pinto, Goran Nenadic, | (参考訳) 臨床手紙には機密情報が含まれているため、モデルトレーニング、医学研究、教育には臨床関連データセットが広く適用できない。
本研究は, 信頼性, 各種, 未同定の総合臨床書面を生成することを目的としている。
この目的を達成するために、マスキングとテキスト生成のための様々な事前学習言語モデル(PLM)を探索した。
その後、ハイパフォーマンスモデルであるBio\_ClinicalBERTを開発し、異なるマスキング戦略の実験を行った。
定性的手法と定量的手法の両方が評価に用いられた。
さらに、これらの合成文字のユーザビリティを評価するために、ダウンストリームタスクである Named Entity Recognition (NER) も実装された。
その結果は
1)エンコーダのみのモデルはエンコーダ-デコーダモデルより優れている。
2) エンコーダのみのモデルでは, 臨床情報を保存した場合に, 一般コーパスで訓練したモデルと臨床データで訓練したモデルとを比較検討した。
3) 臨床組織と文書構造の保存は, 単にモデルを微調整するよりは, 目的と整合する方がよい。
4) 異なるマスキング戦略が臨床用文字の質に影響を及ぼす可能性がある。
マスキングの停止語は肯定的な影響を持ち、マスキングの名詞や動詞は否定的な効果を持つ。
5)評価のためには,BERTScoreが主要な量的評価基準であり,その他の指標が補助的基準として機能するべきである。
6) 文脈情報はモデルの理解に大きく影響しないため, 合成臨床書面は, 下流作業における元の書面を置き換える可能性を秘めている。
Since clinical letters contain sensitive information, clinical-related datasets can not be widely applied in model training, medical research, and teaching. This work aims to generate reliable, various, and de-identified synthetic clinical letters. To achieve this goal, we explored different pre-trained language models (PLMs) for masking and generating text. After that, we worked on Bio\_ClinicalBERT, a high-performing model, and experimented with different masking strategies. Both qualitative and quantitative methods were used for evaluation. Additionally, a downstream task, Named Entity Recognition (NER), was also implemented to assess the usability of these synthetic letters. The results indicate that 1) encoder-only models outperform encoder-decoder models. 2) Among encoder-only models, those trained on general corpora perform comparably to those trained on clinical data when clinical information is preserved. 3) Additionally, preserving clinical entities and document structure better aligns with our objectives than simply fine-tuning the model. 4) Furthermore, different masking strategies can impact the quality of synthetic clinical letters. Masking stopwords has a positive impact, while masking nouns or verbs has a negative effect. 5) For evaluation, BERTScore should be the primary quantitative evaluation metric, with other metrics serving as supplementary references. 6) Contextual information does not significantly impact the models' understanding, so the synthetic clinical letters have the potential to replace the original ones in downstream tasks. | 翻訳日:2024-09-17 20:27:38 公開日:2024-09-14 |
# 視覚と言語に欠けている部分:コミック理解に関する調査
One missing piece in Vision and Language: A Survey on Comics Understanding ( http://arxiv.org/abs/2409.09502v1 ) ライセンス: Link先を確認 | Emanuele Vivoli, Andrey Barsky, Mohamed Ali Souibgui, Artemis LLabres, Marco Bertini, Dimosthenis Karatzas, | (参考訳) 視覚言語モデルは近年、文書理解、視覚的質問応答、グラウンド化など、様々なタスクで高いパフォーマンスを達成できる汎用システムへと進化してきた。
複雑で多面的な分野であるコミック理解は、これらの進歩の大きな恩恵を受けている。
コミックはメディアとして、リッチなビジュアルとテキストの物語、AIモデルの挑戦、イメージ分類、オブジェクト検出、インスタンスセグメンテーション、シーケンシャルパネルによるより深い物語理解といったタスクを組み合わせる。
しかし、スタイル、読み順、非線形ストーリーテリングの創造的なバリエーションを特徴とするコミックのユニークな構造は、他の視覚言語ドメインとは異なる課題の集合を提示する。
本稿では,データセットとタスクの観点から,Comics Understandingの総合的なレビューを行う。
コントリビューションは,(1)コミックメディアの構造を分析し,その特異な構成要素を詳述する;(2)コミック研究において広く使われているデータセットやタスクを調査し,分野の発展における役割を強調した;(3)コミック内の視覚言語タスクを再定義し,将来の作業の基礎を規定する新たな分類体系であるコミック理解層(LoCU)フレームワークを導入する;(4)LoCUフレームワークに続く既存手法の詳細なレビューと分類を行う;(5)最後に,現在研究課題を強調し,今後の研究の方向性を提案する。
この調査は、漫画インテリジェンスのためのタスク指向フレームワークを初めて提案し、データ可用性とタスク定義における重要なギャップに対処し、今後の研究を導くことを目的としている。
この調査に関連するプロジェクトはhttps://github.com/emanuelevivoli/awesome-comics-understanding.comで公開されている。
Vision-language models have recently evolved into versatile systems capable of high performance across a range of tasks, such as document understanding, visual question answering, and grounding, often in zero-shot settings. Comics Understanding, a complex and multifaceted field, stands to greatly benefit from these advances. Comics, as a medium, combine rich visual and textual narratives, challenging AI models with tasks that span image classification, object detection, instance segmentation, and deeper narrative comprehension through sequential panels. However, the unique structure of comics -- characterized by creative variations in style, reading order, and non-linear storytelling -- presents a set of challenges distinct from those in other visual-language domains. In this survey, we present a comprehensive review of Comics Understanding from both dataset and task perspectives. Our contributions are fivefold: (1) We analyze the structure of the comics medium, detailing its distinctive compositional elements; (2) We survey the widely used datasets and tasks in comics research, emphasizing their role in advancing the field; (3) We introduce the Layer of Comics Understanding (LoCU) framework, a novel taxonomy that redefines vision-language tasks within comics and lays the foundation for future work; (4) We provide a detailed review and categorization of existing methods following the LoCU framework; (5) Finally, we highlight current research challenges and propose directions for future exploration, particularly in the context of vision-language models applied to comics. This survey is the first to propose a task-oriented framework for comics intelligence and aims to guide future research by addressing critical gaps in data availability and task definition. A project associated with this survey is available at https://github.com/emanuelevivoli/awesome-comics-understanding. | 翻訳日:2024-09-17 20:27:38 公開日:2024-09-14 |
# 内在的超対称性と類似した形の正確に解ける対流拡散反応方程式の類
A class of exactly solvable Convection-Diffusion-Reaction equations in similarity form with intrinsic supersymmetry ( http://arxiv.org/abs/2409.09503v1 ) ライセンス: Link先を確認 | Choon-Lin Ho, | (参考訳) この研究において、直交超対称性と類似した形で、正確に解ける対流拡散反応方程式のクラスを生成する可能性、すなわち、方程式の解と拡散係数は類似性スケーリング形式を通して超対称性に関連していることを指摘したい。
In this work we would like to point out the possibility of generating a class of exactly solvable convection-diffusion-reaction equation in similarity form with intrinsic supersymmetry, i.e., the solution and the diffusion coefficient of the equation are supersymmetrically related through their similarity scaling forms. | 翻訳日:2024-09-17 20:27:38 公開日:2024-09-14 |
# Uddessho: 低リソースバングラ語におけるマルチモーダルなインテント分類のためのベンチマークデータセット
Uddessho: An Extensive Benchmark Dataset for Multimodal Author Intent Classification in Low-Resource Bangla Language ( http://arxiv.org/abs/2409.09504v1 ) ライセンス: Link先を確認 | Fatema Tuj Johora Faria, Mukaffi Bin Moin, Md. Mahfuzur Rahman, Md Morshed Alam Shanto, Asif Iftekher Fahim, Md. Moinul Hoque, | (参考訳) インターネット上での日次情報共有や買収の普及に伴い,個人が意見や意見を共有するソーシャルメディア投稿に焦点をあてた,バングラ語における意図分類のための革新的なアプローチを導入する。
提案手法は、テキストコンテンツの背後にある基礎的な目的、特にソーシャルメディア上の様々なユーザ生成投稿のコンテキストを理解することを目的として、著者識別に特に重点を置いたマルチモーダルデータを活用する。
現在の手法は、バングラ語のような低リソース言語、特にソーシャルメディアの投稿で見られるように、著者の特徴が意図と複雑に結びついている場合、しばしば課題に直面している。
これを解決するために,マルチモーダルベースの著者Bangla Intent Classification (MABIC) フレームワークを提案する。
ソーシャルメディアから得られた3,048のインスタンスからなるデータセット"Uddessho"を作成しました。
本手法は,テキストの意図と多モーダルな著者意図を分類し,早期融合法と後期融合法を取り入れた2つの手法からなる。
実験では,Banglaテキスト意図の解釈において,単調なアプローチが64.53%の精度を達成した。
対照的に、我々のマルチモーダルアプローチは従来手法よりも有意に優れ、76.19%の精度を実現した。
これは11.66%の改善である。
我々の知る限り、これはマルチモーダルベースの著者意図分類に関する最初の研究であり、低リソースのバングラ語ソーシャルメディア投稿のためのものである。
With the increasing popularity of daily information sharing and acquisition on the Internet, this paper introduces an innovative approach for intent classification in Bangla language, focusing on social media posts where individuals share their thoughts and opinions. The proposed method leverages multimodal data with particular emphasis on authorship identification, aiming to understand the underlying purpose behind textual content, especially in the context of varied user-generated posts on social media. Current methods often face challenges in low-resource languages like Bangla, particularly when author traits intricately link with intent, as observed in social media posts. To address this, we present the Multimodal-based Author Bangla Intent Classification (MABIC) framework, utilizing text and images to gain deeper insights into the conveyed intentions. We have created a dataset named "Uddessho," comprising 3,048 instances sourced from social media. Our methodology comprises two approaches for classifying textual intent and multimodal author intent, incorporating early fusion and late fusion techniques. In our experiments, the unimodal approach achieved an accuracy of 64.53% in interpreting Bangla textual intent. In contrast, our multimodal approach significantly outperformed traditional unimodal methods, achieving an accuracy of 76.19%. This represents an improvement of 11.66%. To our best knowledge, this is the first research work on multimodal-based author intent classification for low-resource Bangla language social media posts. | 翻訳日:2024-09-17 20:27:38 公開日:2024-09-14 |
# ESPnet-EZ: 簡単な微調整と統合のためのPythonのみのESPnet
ESPnet-EZ: Python-only ESPnet for Easy Fine-tuning and Integration ( http://arxiv.org/abs/2409.09506v1 ) ライセンス: Link先を確認 | Masao Someki, Kwanghee Choi, Siddhant Arora, William Chen, Samuele Cornell, Jionghao Han, Yifan Peng, Jiatong Shi, Vaibhav Srivastav, Shinji Watanabe, | (参考訳) 本稿では,オープンソースの音声処理ツールキット ESPnet の拡張である ESPnet-EZ について紹介する。
ESPnet-EZは2つの主要な側面に焦点を当てている。
(i)各種タスクにおける既存のESPnetモデルの微調整と推測を容易にすること。
(ii) PyTorch-Lightning、Hugging Face Transformerとデータセット、Lhotseといった一般的なディープニューラルネットワークフレームワークとの統合が容易である。
Kaldiから受け継いだESPnetの設計選択をPythonのみのBashフリーインターフェースに置き換えることで、新しいモデルの構築、デバッグ、使用に必要な労力を大幅に削減する。
例えば、音声基礎モデルのESPnet-EZをESPnetと比較すると、新たに書かれたコードの数は2.7倍、依存するコードの量は6.7倍、Bashスクリプトの依存関係は劇的に減少する。
ESPnet-EZのコードベースは公開されている。
We introduce ESPnet-EZ, an extension of the open-source speech processing toolkit ESPnet, aimed at quick and easy development of speech models. ESPnet-EZ focuses on two major aspects: (i) easy fine-tuning and inference of existing ESPnet models on various tasks and (ii) easy integration with popular deep neural network frameworks such as PyTorch-Lightning, Hugging Face transformers and datasets, and Lhotse. By replacing ESPnet design choices inherited from Kaldi with a Python-only, Bash-free interface, we dramatically reduce the effort required to build, debug, and use a new model. For example, to fine-tune a speech foundation model, ESPnet-EZ, compared to ESPnet, reduces the number of newly written code by 2.7x and the amount of dependent code by 6.7x while dramatically reducing the Bash script dependencies. The codebase of ESPnet-EZ is publicly available. | 翻訳日:2024-09-17 20:27:38 公開日:2024-09-14 |
# 大規模言語モデルのプライバシ保存パーソナライズのための検索機能強化とパラメータ効率の良いファインタニングの比較
Comparing Retrieval-Augmentation and Parameter-Efficient Fine-Tuning for Privacy-Preserving Personalization of Large Language Models ( http://arxiv.org/abs/2409.09510v1 ) ライセンス: Link先を確認 | Alireza Salemi, Hamed Zamani, | (参考訳) 大規模言語モデル(LLM)をパーソナライズするためのプライバシ保護手法は,比較的未探索である。
1)ユーザの個人情報(RAG-based method)からの検索による入力プロンプトのパーソナライズによるパーソナライズされたアウトプットの生成,2)効率と空間制限(PEFT-based method)を考慮したユーザ毎のLCMのパラメータ効率の微調整,である。
本稿では,7つの多様なデータセットを用いたパーソナライズタスクにおける2つのアプローチの体系的比較を行った。
その結果,RAGベースとPEFTベースのパーソナライズ手法の平均収率14.92%,非パーソナライズLCMが1.07%向上した。
RAGとPEFTを組み合わせることで、これらの改善は15.98%に向上する。
さらに、ユーザデータ量とPEFTの有効性の正の相関関係を同定し、RAGがコールドスタートユーザ(つまり、限られた個人データを持つユーザ)にとってより良い選択であることを示す。
Privacy-preserving methods for personalizing large language models (LLMs) are relatively under-explored. There are two schools of thought on this topic: (1) generating personalized outputs by personalizing the input prompt through retrieval augmentation from the user's personal information (RAG-based methods), and (2) parameter-efficient fine-tuning of LLMs per user that considers efficiency and space limitations (PEFT-based methods). This paper presents the first systematic comparison between two approaches on a wide range of personalization tasks using seven diverse datasets. Our results indicate that RAG-based and PEFT-based personalization methods on average yield 14.92% and 1.07% improvements over the non-personalized LLM, respectively. We find that combining RAG with PEFT elevates these improvements to 15.98%. Additionally, we identify a positive correlation between the amount of user data and PEFT's effectiveness, indicating that RAG is a better choice for cold-start users (i.e., user's with limited personal data). | 翻訳日:2024-09-17 20:27:38 公開日:2024-09-14 |
# 解釈可能な音響特徴の予測による音声感情認識のためのDeep Learning Embeddingの説明
Explaining Deep Learning Embeddings for Speech Emotion Recognition by Predicting Interpretable Acoustic Features ( http://arxiv.org/abs/2409.09511v1 ) ライセンス: Link先を確認 | Satvik Dixit, Daniel M. Low, Gasser Elbanna, Fabio Catania, Satrajit S. Ghosh, | (参考訳) 事前学習したディープラーニング埋め込みは、音声感情認識(SER)において、手作り音響特性よりも優れた性能を示している。
しかし、物理的な意味が明確である音響的特徴とは異なり、これらの埋め込みは明確な解釈可能性を持たない。
これらの埋め込みを説明することは、医療やセキュリティアプリケーションへの信頼の構築と、それらにエンコードされた音響情報の科学的理解を促進するために不可欠である。
本稿では,SER空間の深層学習埋め込みを説明するための改良型探索手法を提案する。
我々は解釈可能な音響特性(例えば、f0、ラウドネス)を推定する。
(i)埋め込みの完全なセット
(i) それぞれの感情を予測する上で最も重要であると認識された埋め込み次元のサブセット。
もし最も重要な次元のサブセットがすべての次元よりも与えられた感情をより正確に予測し、特定の音響的特徴をより正確に予測すれば、これらの音響的特徴は与えられたタスクの埋め込みモデルにとって重要であると推測する。
我々は,WavLM埋め込みとeGeMAPS音響特徴を音響表現として使用し,この手法をRAVDESSおよびSAVEE感情音声データセットに適用した。
この評価に基づき, 音響特徴のエネルギー, 周波数, スペクトル, 時間的カテゴリがSERにその順序で減少することを示すとともに, 埋め込みを解釈可能な音響特徴に関連付けるための探索分類法の有用性を実証する。
Pre-trained deep learning embeddings have consistently shown superior performance over handcrafted acoustic features in speech emotion recognition (SER). However, unlike acoustic features with clear physical meaning, these embeddings lack clear interpretability. Explaining these embeddings is crucial for building trust in healthcare and security applications and advancing the scientific understanding of the acoustic information that is encoded in them. This paper proposes a modified probing approach to explain deep learning embeddings in the SER space. We predict interpretable acoustic features (e.g., f0, loudness) from (i) the complete set of embeddings and (ii) a subset of the embedding dimensions identified as most important for predicting each emotion. If the subset of the most important dimensions better predicts a given emotion than all dimensions and also predicts specific acoustic features more accurately, we infer those acoustic features are important for the embedding model for the given task. We conducted experiments using the WavLM embeddings and eGeMAPS acoustic features as audio representations, applying our method to the RAVDESS and SAVEE emotional speech datasets. Based on this evaluation, we demonstrate that Energy, Frequency, Spectral, and Temporal categories of acoustic features provide diminishing information to SER in that order, demonstrating the utility of the probing classifier method to relate embeddings to interpretable acoustic features. | 翻訳日:2024-09-17 20:27:38 公開日:2024-09-14 |
# プランニング変換器:プランニングトークンを用いた長軸オフライン強化学習
Planning Transformer: Long-Horizon Offline Reinforcement Learning with Planning Tokens ( http://arxiv.org/abs/2409.09513v1 ) ライセンス: Link先を確認 | Joseph Clinton, Robert Lieck, | (参考訳) オフライン強化学習(特にDecision Transformerを利用した)に対する教師付き学習アプローチは、継続的な環境やスパース報酬に有効であることを示した。
しかし、彼らはしばしば自己回帰モデルの複合誤差が高いため、長い水平タスクに苦しむ。
この制限を克服するために,我々は,エージェントの将来について,高レベルかつ長期にわたる情報を含むプランニングトークンを導入する。
一定間隔で2つの時間スケールトークンを予測することにより、これらの長期計画トークンを暗黙の計画形式として使用し、低レベルポリシーを導出し、複合エラーを低減することができる。
このアーキテクチャ変更により、長い水平タスクのパフォーマンスが大幅に向上し、複雑なD4RL環境における新しい最先端技術が確立される。
さらに、計画トークンは、解釈可能な計画可視化とアテンションマップを通じて、モデルのポリシーの解釈可能性を向上させることを実証する。
Supervised learning approaches to offline reinforcement learning, particularly those utilizing the Decision Transformer, have shown effectiveness in continuous environments and for sparse rewards. However, they often struggle with long-horizon tasks due to the high compounding error of auto-regressive models. To overcome this limitation, we go beyond next-token prediction and introduce Planning Tokens, which contain high-level, long time-scale information about the agent's future. Predicting dual time-scale tokens at regular intervals enables our model to use these long-horizon Planning Tokens as a form of implicit planning to guide its low-level policy and reduce compounding error. This architectural modification significantly enhances performance on long-horizon tasks, establishing a new state-of-the-art in complex D4RL environments. Additionally, we demonstrate that Planning Tokens improve the interpretability of the model's policy through the interpretable plan visualisations and attention map. | 翻訳日:2024-09-17 20:27:38 公開日:2024-09-14 |
# 包囲下のディープラーニング: セキュリティの脆弱性とリスク軽減戦略の特定
Deep Learning Under Siege: Identifying Security Vulnerabilities and Risk Mitigation Strategies ( http://arxiv.org/abs/2409.09517v1 ) ライセンス: Link先を確認 | Jamal Al-Karaki, Muhammad Al-Zafar Khan, Mostafa Mohamad, Dababrata Chowdhury, | (参考訳) 社会のほぼすべての面において、ディープラーニング(DL)モデルが全面的に普及するにつれて、ユニークな課題が課せられる。
主にこれらのモデルのアーキテクチャを中心にして、これらのリスクは大きな課題をもたらし、これらの課題に対処することが、将来の実装と使用の成功の鍵となります。
本研究では,現行のDLモデルと関連するセキュリティ上の課題について述べるとともに,コンピューティング,AI,ハードウェア技術の進歩に基づく今後のDL技術の課題を予見する。
さらに、これらの課題を抑制するためのリスク軽減手法を提案し、これらの指標の有効性を測定するための計量評価を提供する。
With the rise in the wholesale adoption of Deep Learning (DL) models in nearly all aspects of society, a unique set of challenges is imposed. Primarily centered around the architectures of these models, these risks pose a significant challenge, and addressing these challenges is key to their successful implementation and usage in the future. In this research, we present the security challenges associated with the current DL models deployed into production, as well as anticipate the challenges of future DL technologies based on the advancements in computing, AI, and hardware technologies. In addition, we propose risk mitigation techniques to inhibit these challenges and provide metrical evaluations to measure the effectiveness of these metrics. | 翻訳日:2024-09-17 20:27:38 公開日:2024-09-14 |
# 皮膚疾患の診断の強化:SAMエンパワーメントによる解釈可能な視覚概念発見
Enhancing Skin Disease Diagnosis: Interpretable Visual Concept Discovery with SAM Empowerment ( http://arxiv.org/abs/2409.09520v1 ) ライセンス: Link先を確認 | Xin Hu, Janet Wang, Jihun Hamm, Rie R Yotsu, Zhengming Ding, | (参考訳) 現在のAIによる皮膚画像診断は、深層学習アーキテクチャの急速な進歩により、皮膚がんの分類における皮膚科レベルのパフォーマンスを達成している。
しかし、従来の視覚タスクとは異なり、一般的な皮膚画像は、十分に注釈付けされたデータセットの可用性の制限、条件の複雑なバリエーション、患者の安全性を確保するための詳細な解釈の必要性など、ユニークな課題を呈している。
従来のセグメンテーション手法では画像ノイズの低減と診断性能の向上が試みられているが,これらの手法は訓練には細粒度でピクセルレベルの地中真実マスクを必要とする。
対照的に、基礎モデルの台頭とともに、素早いセグメンテーションを促進するためにSegment Anything Model (SAM)が導入され、シンプルで効果的なプロンプトによるセグメンテーションプロセスの自動化を可能にした。
SAMを応用する取り組みは主に皮膚内視鏡画像に焦点を当てており、スマートフォンで撮影された臨床写真よりも容易に病変境界を同定できる。
この制限は、現実世界のアプリケーションに対するこれらのアプローチの実用性を制限する。
非標準化プロトコルで取得したノイズの多い臨床写真による課題を克服し、診断のアクセシビリティを向上させるために、皮膚病変診断のための新しいクロス・アテンタティブ・フュージョン・フレームワークを提案する。
本手法はSAMを用いて皮膚疾患の視覚的概念をプロンプトを用いて生成し,局所的な視覚的概念をグローバルな画像特徴と統合し,モデル性能を向上させる。
2つの皮膚疾患データセットの広範囲な評価は,本手法が病変の診断と解釈可能性に与える影響を実証するものである。
Current AI-assisted skin image diagnosis has achieved dermatologist-level performance in classifying skin cancer, driven by rapid advancements in deep learning architectures. However, unlike traditional vision tasks, skin images in general present unique challenges due to the limited availability of well-annotated datasets, complex variations in conditions, and the necessity for detailed interpretations to ensure patient safety. Previous segmentation methods have sought to reduce image noise and enhance diagnostic performance, but these techniques require fine-grained, pixel-level ground truth masks for training. In contrast, with the rise of foundation models, the Segment Anything Model (SAM) has been introduced to facilitate promptable segmentation, enabling the automation of the segmentation process with simple yet effective prompts. Efforts applying SAM predominantly focus on dermatoscopy images, which present more easily identifiable lesion boundaries than clinical photos taken with smartphones. This limitation constrains the practicality of these approaches to real-world applications. To overcome the challenges posed by noisy clinical photos acquired via non-standardized protocols and to improve diagnostic accessibility, we propose a novel Cross-Attentive Fusion framework for interpretable skin lesion diagnosis. Our method leverages SAM to generate visual concepts for skin diseases using prompts, integrating local visual concepts with global image features to enhance model performance. Extensive evaluation on two skin disease datasets demonstrates our proposed method's effectiveness on lesion diagnosis and interpretability. | 翻訳日:2024-09-17 20:27:38 公開日:2024-09-14 |
# ロバスト画像分割のための拡張型モデル再適応フレームワーク
An Augmentation-based Model Re-adaptation Framework for Robust Image Segmentation ( http://arxiv.org/abs/2409.09530v1 ) ライセンス: Link先を確認 | Zheming Zuo, Joseph Smith, Jonathan Stonehouse, Boguslaw Obara, | (参考訳) 画像のセグメンテーションはコンピュータビジョンにおいて重要な課題であり、業界における幅広い応用がある。
SAM(Seegment Anything Model)は近年注目されているが、特に商用の反偽造コードのセグメンテーションにおける産業検査への応用は依然として困難である。
オープンソースのデータセットとは異なり、産業環境はしばしば小さなサンプルサイズや複雑なテクスチャといった問題に直面している。
さらに、トレーニング可能なパラメータの数が異なるため、計算コストが重要な問題となっている。
これらの課題に対処するため、Augmentation-based Model Re-adaptation Framework (AMRF)を提案する。
このフレームワークは、トレーニング中にデータ拡張技術を活用してセグメンテーションモデルの一般化を強化し、時間的差異のある新たにリリースされたデータセットに適応できるようにする。
従来のモデル(FCNとU-Net)と事前訓練されたSAMモデルからセグメント化マスクを観察することにより、トレーニング効率とモデル性能を最適にバランスさせる最小拡張セットを決定する。
その結果,細調整したFCNは収穫精度が3.29%,収穫精度が3.02%,時間連続データセットが5.27%,分類精度が4.04%を超えることがわかった。
同様に、細調整されたU-Netはベースラインを7.34%、収穫で4.94%、分類で8.02%、分類で5.52%改善する。
どちらのモデルも、平均11.75%と9.01%の収穫精度、2.93%と4.83%の分類精度で最高のSAMモデル(ViT-LargeとViT-Base)を上回っている。
Image segmentation is a crucial task in computer vision, with wide-ranging applications in industry. The Segment Anything Model (SAM) has recently attracted intensive attention; however, its application in industrial inspection, particularly for segmenting commercial anti-counterfeit codes, remains challenging. Unlike open-source datasets, industrial settings often face issues such as small sample sizes and complex textures. Additionally, computational cost is a key concern due to the varying number of trainable parameters. To address these challenges, we propose an Augmentation-based Model Re-adaptation Framework (AMRF). This framework leverages data augmentation techniques during training to enhance the generalisation of segmentation models, allowing them to adapt to newly released datasets with temporal disparity. By observing segmentation masks from conventional models (FCN and U-Net) and a pre-trained SAM model, we determine a minimal augmentation set that optimally balances training efficiency and model performance. Our results demonstrate that the fine-tuned FCN surpasses its baseline by 3.29% and 3.02% in cropping accuracy, and 5.27% and 4.04% in classification accuracy on two temporally continuous datasets. Similarly, the fine-tuned U-Net improves upon its baseline by 7.34% and 4.94% in cropping, and 8.02% and 5.52% in classification. Both models outperform the top-performing SAM models (ViT-Large and ViT-Base) by an average of 11.75% and 9.01% in cropping accuracy, and 2.93% and 4.83% in classification accuracy, respectively. | 翻訳日:2024-09-17 20:27:38 公開日:2024-09-14 |
# 合成データを用いた単一ショットフェデレーション学習による不公平の軽減とプライバシ保護
Using Synthetic Data to Mitigate Unfairness and Preserve Privacy through Single-Shot Federated Learning ( http://arxiv.org/abs/2409.09532v1 ) ライセンス: Link先を確認 | Chia-Yuan Wu, Frank E. Curtis, Daniel P. Robinson, | (参考訳) 連邦学習(FL)における不公平性問題に対処するため、現代のアプローチでは、しばしばモデルパラメータの更新とクライアントとサーバ間の送信が使用される。
このようなプロセスでは、クライアント固有の情報(例えば、ローカルデータセットサイズやデータ関連公正度メトリクス)をサーバに送信して、集約重みを計算しなければなりません。
これらの結果、高い送信コストと潜在的なクライアント情報の漏洩が発生します。
代替として,クライアントとサーバ間で情報を反復的に渡すことなく,クライアント間の公正な予測を促進する戦略を提案し,クライアントデータの漏洩を防止する。
各クライアントに対して、まず、学習プロセス中に不公平な懸念に対処する二段階最適化問題を解くことで、それらのローカルデータセットを使用して、合成データセットを得る。
次に、各クライアントの合成データセットをサーバに渡します。そのコレクションは、従来の機械学習技術(フェアネスメトリクスを考慮に入れない)を使用して、サーバモデルをトレーニングするために使用されます。
したがって、クライアントのプライバシを保ちながら、公平性固有の集約重みを扱う必要がなくなる。
当社のアプローチでは、クライアントとサーバ間の通信は1つしか必要とせず、計算コスト効率が向上し、プライバシを維持でき、公平性を確保することができます。
我々は,我々のアプローチの利点を実証するための実証的証拠を提示した。
提案手法は,不公平性を軽減し,クライアントのプライバシを保護する手段として,合成データを効果的に利用することを示す。
To address unfairness issues in federated learning (FL), contemporary approaches typically use frequent model parameter updates and transmissions between the clients and server. In such a process, client-specific information (e.g., local dataset size or data-related fairness metrics) must be sent to the server to compute, e.g., aggregation weights. All of this results in high transmission costs and the potential leakage of client information. As an alternative, we propose a strategy that promotes fair predictions across clients without the need to pass information between the clients and server iteratively and prevents client data leakage. For each client, we first use their local dataset to obtain a synthetic dataset by solving a bilevel optimization problem that addresses unfairness concerns during the learning process. We then pass each client's synthetic dataset to the server, the collection of which is used to train the server model using conventional machine learning techniques (that do not take fairness metrics into account). Thus, we eliminate the need to handle fairness-specific aggregation weights while preserving client privacy. Our approach requires only a single communication between the clients and the server, thus making it computationally cost-effective, able to maintain privacy, and able to ensuring fairness. We present empirical evidence to demonstrate the advantages of our approach. The results illustrate that our method effectively uses synthetic data as a means to mitigate unfairness and preserve client privacy. | 翻訳日:2024-09-17 20:27:38 公開日:2024-09-14 |
# VernaCopter: 形式仕様による不明瞭な自然言語駆動型ロボット
VernaCopter: Disambiguated Natural-Language-Driven Robot via Formal Specifications ( http://arxiv.org/abs/2409.09536v1 ) ライセンス: Link先を確認 | Teun van de Laar, Zengjie Zhang, Shuhao Qi, Sofie Haesaert, Zhiyong Sun, | (参考訳) 自然言語(NL)を用いた複雑なタスクのためにロボットを制御することは、多くの人々の野心であった。
大きな言語モデル(LLM)の台頭は、実現に近づいている。
しかし, LLM は NL 固有の曖昧さや LLM が生み出す不確実性に悩まされている。
本稿では,NLコマンドと特定のタスク目標とのブリッジとして,信号時間論理(STL)仕様を備えた,新しいLLMベースのロボットモーションプランナを提案する。
形式仕様の厳密で抽象的な性質により、プランナーはロボットの動き制御を誘導する高品質で高度に一貫した経路を生成することができる。
従来のNLプロンプティングベースのプランナーと比較して、提案されたVernaCopterプランナーは、曖昧な不確実性が少ないため、より安定で信頼性が高い。
その効果と利点は、2つの小さなが挑戦的な実験シナリオによって検証され、NL駆動ロボットを設計する可能性を示している。
It has been an ambition of many to control a robot for a complex task using natural language (NL). The rise of large language models (LLMs) makes it closer to coming true. However, an LLM-powered system still suffers from the ambiguity inherent in an NL and the uncertainty brought up by LLMs. This paper proposes a novel LLM-based robot motion planner, named \textit{VernaCopter}, with signal temporal logic (STL) specifications serving as a bridge between NL commands and specific task objectives. The rigorous and abstract nature of formal specifications allows the planner to generate high-quality and highly consistent paths to guide the motion control of a robot. Compared to a conventional NL-prompting-based planner, the proposed VernaCopter planner is more stable and reliable due to less ambiguous uncertainty. Its efficacy and advantage have been validated by two small but challenging experimental scenarios, implying its potential in designing NL-driven robots. | 翻訳日:2024-09-17 20:27:38 公開日:2024-09-14 |
# Deep Fast Machine Learning Utils: ストリームされた機械学習プロトタイプのためのPythonライブラリ
Deep Fast Machine Learning Utils: A Python Library for Streamlined Machine Learning Prototyping ( http://arxiv.org/abs/2409.09537v1 ) ライセンス: Link先を確認 | Fabi Prezja, | (参考訳) 機械学習(ML)の研究と応用は、しばしばモデルアーキテクチャのプロトタイピング、特徴選択、データセットの準備のような時間を要するステップを含む。
これらのタスクをサポートするために、我々はDeep Fast Machine Learning Utils (DFMLU)ライブラリを導入しました。
TensorFlow、Keras、Scikit-learnといったフレームワークと互換性のあるDFMLUは、モデル開発とデータ処理をサポートする機能を提供する。
このライブラリには、高密度ニューラルネットワーク検索、高度な特徴選択、データ管理とトレーニング結果の可視化のためのユーティリティが含まれる。
この原稿はDFMLUの機能の概要を示し、各ツールにPythonの例を提供している。
Machine learning (ML) research and application often involve time-consuming steps such as model architecture prototyping, feature selection, and dataset preparation. To support these tasks, we introduce the Deep Fast Machine Learning Utils (DFMLU) library, which provides tools designed to automate and enhance aspects of these processes. Compatible with frameworks like TensorFlow, Keras, and Scikit-learn, DFMLU offers functionalities that support model development and data handling. The library includes methods for dense neural network search, advanced feature selection, and utilities for data management and visualization of training outcomes. This manuscript presents an overview of DFMLU's functionalities, providing Python examples for each tool. | 翻訳日:2024-09-17 20:17:37 公開日:2024-09-14 |
# 強化学習における自律ゴール検出とセッセーション:音源推定を事例として
Autonomous Goal Detection and Cessation in Reinforcement Learning: A Case Study on Source Term Estimation ( http://arxiv.org/abs/2409.09541v1 ) ライセンス: Link先を確認 | Yiwei Shi, Muning Wen, Qi Zhang, Weinan Zhang, Cunjia Liu, Weiru Liu, | (参考訳) 強化学習は動的環境における意思決定プロセスに革命をもたらしたが、明確なフィードバック信号なしで目標を自律的に検出し達成することに苦慮することが多い。
例えば、ソース条件推定問題では、正確な環境情報がないため、明確なフィードバック信号を提供し、ソースの位置がどのように決定されるかを定義し、評価することは困難である。
この課題に対処するため,自律目標検出・シースレーション(AGDC)モジュールが開発され,自律目標検出とタスク完了時の停止のための自己フィードバック機構を組み込むことで,様々なRLアルゴリズムが強化された。
提案手法は,エージェントの信念を近似することにより,未定義の目標を効果的に識別・停止し,限られたフィードバックでRLアルゴリズムの能力を大幅に向上させる。
提案手法の有効性を検証するため,AGDCを深部Q-Network,近性ポリシー最適化,深部決定性ポリシー勾配アルゴリズムと統合し,その性能評価を行った。
実験の結果, AGDCによるRLアルゴリズムは, インフォタキシー, エントロキシー, 二重制御などの従来の統計手法や, 非統計的ランダムな行動選択法よりも優れていた。
これらの改善は成功率、平均走行距離、探索時間の観点から明らかであり、複雑な実世界のシナリオにおけるAGDCの有効性と効率を強調した。
Reinforcement Learning has revolutionized decision-making processes in dynamic environments, yet it often struggles with autonomously detecting and achieving goals without clear feedback signals. For example, in a Source Term Estimation problem, the lack of precise environmental information makes it challenging to provide clear feedback signals and to define and evaluate how the source's location is determined. To address this challenge, the Autonomous Goal Detection and Cessation (AGDC) module was developed, enhancing various RL algorithms by incorporating a self-feedback mechanism for autonomous goal detection and cessation upon task completion. Our method effectively identifies and ceases undefined goals by approximating the agent's belief, significantly enhancing the capabilities of RL algorithms in environments with limited feedback. To validate effectiveness of our approach, we integrated AGDC with deep Q-Network, proximal policy optimization, and deep deterministic policy gradient algorithms, and evaluated its performance on the Source Term Estimation problem. The experimental results showed that AGDC-enhanced RL algorithms significantly outperformed traditional statistical methods such as infotaxis, entrotaxis, and dual control for exploitation and exploration, as well as a non-statistical random action selection method. These improvements were evident in terms of success rate, mean traveled distance, and search time, highlighting AGDC's effectiveness and efficiency in complex, real-world scenarios. | 翻訳日:2024-09-17 20:17:37 公開日:2024-09-14 |
# MANGO: グループ演算子を用いた遠方変換マニフォールド
MANGO: Disentangled Image Transformation Manifolds with Grouped Operators ( http://arxiv.org/abs/2409.09542v1 ) ライセンス: Link先を確認 | Brighton Ancelin, Yenho Chen, Peimeng Guan, Chiraag Kaushik, Belen Martin-Urcelay, Alex Saad-Falcon, Nakul Singh, | (参考訳) 例から直接意味論的に意味のある画像変換(回転、厚み、ぼやけなど)を学ぶことは難しい課題である。
近年,Manifold Autoencoder (MAE) は,実例から画像変換を直接学習するために,一連のリー群演算子を用いて提案されている。
しかし、この手法には制限があり、学習した演算子をアンタングルにすることは保証されておらず、モデルをスケールアップする際にトレーニングルーチンは違法に高価である。
これらの制約に対処するため、我々は、異なる潜在部分空間における画像変換を記述する不整合作用素を学習するためのMANGO(Transformation Manifolds with Grouped Operators)を提案する。
さらに,本手法では,どの変換をモデル化するかを実践者が定義できるので,学習者の意味的意味が向上する。
実験により、MANGOは画像変換の合成を可能にし、従来の100倍のスピードアップをもたらす一相トレーニングルーチンを導入することを実証した。
Learning semantically meaningful image transformations (i.e. rotation, thickness, blur) directly from examples can be a challenging task. Recently, the Manifold Autoencoder (MAE) proposed using a set of Lie group operators to learn image transformations directly from examples. However, this approach has limitations, as the learned operators are not guaranteed to be disentangled and the training routine is prohibitively expensive when scaling up the model. To address these limitations, we propose MANGO (transformation Manifolds with Grouped Operators) for learning disentangled operators that describe image transformations in distinct latent subspaces. Moreover, our approach allows practitioners the ability to define which transformations they aim to model, thus improving the semantic meaning of the learned operators. Through our experiments, we demonstrate that MANGO enables composition of image transformations and introduces a one-phase training routine that leads to a 100x speedup over prior works. | 翻訳日:2024-09-17 20:17:37 公開日:2024-09-14 |
# 残響環境におけるマルチマイクロホンとマルチモーダル感情認識
Multi-Microphone and Multi-Modal Emotion Recognition in Reverbrant Enviroment ( http://arxiv.org/abs/2409.09545v1 ) ライセンス: Link先を確認 | Ohad Cohen, Gershon Hazan, Sharon Gannot, | (参考訳) 本稿では,難聴時の感情認識精度を高めるために,マルチモーダル感情認識(MER)システムを提案する。
提案手法は,マルチチャンネル音声処理のための階層型音声変換器(HTS-AT)とビデオ解析のためのR(2+1)D畳み込みニューラルネットワーク(CNN)モデルを組み合わせたものである。
本稿では,Ryersonによる感情音声・歌声データベース(RAVDESS)の残響バージョンについて,実世界の室内インパルス応答(RIR)を用いて評価した。
以上の結果から,音声とビデオのモダリティの統合は,特に難易度の高い音響条件において,ユニモーダルアプローチよりも優れた性能が得られることが示された。
さらに,複数のマイクロホンを用いたマルチモーダル(音響)アプローチは,マイクロホンの単体よりも優れていることを示す。
This paper presents a Multi-modal Emotion Recognition (MER) system designed to enhance emotion recognition accuracy in challenging acoustic conditions. Our approach combines a modified and extended Hierarchical Token-semantic Audio Transformer (HTS-AT) for multi-channel audio processing with an R(2+1)D Convolutional Neural Networks (CNN) model for video analysis. We evaluate our proposed method on a reverberated version of the Ryerson audio-visual database of emotional speech and song (RAVDESS) dataset using synthetic and real-world Room Impulse Responsess (RIRs). Our results demonstrate that integrating audio and video modalities yields superior performance compared to uni-modal approaches, especially in challenging acoustic conditions. Moreover, we show that the multimodal (audiovisual) approach that utilizes multiple microphones outperforms its single-microphone counterpart. | 翻訳日:2024-09-17 20:17:37 公開日:2024-09-14 |
# COMFORT:消費者医療をターゲットとしたファウンデーションモデルのための継続的微調整フレームワーク
COMFORT: A Continual Fine-Tuning Framework for Foundation Models Targeted at Consumer Healthcare ( http://arxiv.org/abs/2409.09549v1 ) ライセンス: Link先を確認 | Chia-Hao Li, Niraj K. Jha, | (参考訳) ウェアラブル医療センサ(WMS)は、特に消費者向け医療分野において、ユーザーの生理的信号を継続的にリアルタイムにモニタリングすることで、スマートヘルスケアに革命をもたらしている。
WMSと現代の機械学習(ML)の統合は、効率的な早期疾患検出のための前例のない解決策を可能にする。
さまざまな分野でTransformerの成功にもかかわらず、スマートヘルスケアなどのセンシティブなドメインへの応用は、データアクセシビリティの制限とプライバシ上の懸念から、いまだ検討されていない。
トランスフォーマーベースの基盤モデルとWMSベースの疾患検出のギャップを埋めるため,消費者医療を対象とした基盤モデルのための連続的な微調整フレームワークCOMFORTを提案する。
COMFORTは、トランスフォーマーベースの基礎モデルを、市販のWMSを持つ健康な個人からのみ収集された生理的信号の大規模なデータセットに事前学習するための新しいアプローチを導入する。
我々は、この健康基盤モデルを事前訓練するために、マスク付きデータモデリング(MDM)の目的を採用する。
次に、低ランク適応(LoRA)やその変種など、パラメータ効率のよい各種細調整法(PEFT)を用いて、モデルを微調整し、WMSデータに依存する様々な下流疾患検出タスクに適応させる。
さらに、COMFORTはPEFTアルゴリズムから得られた低階分解行列を継続的に保存し、マルチディスリーズ検出のためのライブラリを構築する。
COMFORTライブラリは、エッジデバイス上でスケーラブルでメモリ効率のよい疾患検出を可能にする。
実験の結果,COMFORTは従来の手法と比較してメモリオーバーヘッドを最大52%削減し,高い競争力を発揮することが示された。
このように、COMFORTは、消費者医療において効率的かつ効果的な早期疾患検出のためのパーソナライズされた、プロアクティブなソリューションの道を開く。
Wearable medical sensors (WMSs) are revolutionizing smart healthcare by enabling continuous, real-time monitoring of user physiological signals, especially in the field of consumer healthcare. The integration of WMSs and modern machine learning (ML) enables unprecedented solutions to efficient early-stage disease detection. Despite the success of Transformers in various fields, their application to sensitive domains, such as smart healthcare, remains underexplored due to limited data accessibility and privacy concerns. To bridge the gap between Transformer-based foundation models and WMS-based disease detection, we propose COMFORT, a continual fine-tuning framework for foundation models targeted at consumer healthcare. COMFORT introduces a novel approach for pre-training a Transformer-based foundation model on a large dataset of physiological signals exclusively collected from healthy individuals with commercially available WMSs. We adopt a masked data modeling (MDM) objective to pre-train this health foundation model. We then fine-tune the model using various parameter-efficient fine-tuning (PEFT) methods, such as low-rank adaptation (LoRA) and its variants, to adapt it to various downstream disease detection tasks that rely on WMS data. In addition, COMFORT continually stores the low-rank decomposition matrices obtained from the PEFT algorithms to construct a library for multi-disease detection. The COMFORT library enables scalable and memory-efficient disease detection on edge devices. Our experimental results demonstrate that COMFORT achieves highly competitive performance while reducing memory overhead by up to 52% relative to conventional methods. Thus, COMFORT paves the way for personalized and proactive solutions to efficient and effective early-stage disease detection for consumer healthcare. | 翻訳日:2024-09-17 20:17:37 公開日:2024-09-14 |
# 大規模言語モデルを用いたASR誤り訂正
ASR Error Correction using Large Language Models ( http://arxiv.org/abs/2409.09554v1 ) ライセンス: Link先を確認 | Rao Ma, Mengjie Qian, Mark Gales, Kate Knill, | (参考訳) 誤り訂正(EC)モデルは、自動音声認識(ASR)転写の精製において重要な役割を担い、転写の可読性と品質を高める。
基盤となるコードやモデルの重み付けを必要とせずに、ECはパフォーマンスを改善し、ブラックボックスのASRシステムにドメイン適応を提供する。
本研究は,多種多様なシナリオにおける誤り訂正のための大規模言語モデル (LLM) の使用について検討する。
1-best ASR仮説はECモデルの入力として一般的に用いられる。
本稿では, ASR N-best List を用いた高性能ECモデルの構築を提案する。
さらに、任意の出力シーケンスを生成することができるという意味で、標準ECモデルの生成プロセスは制限されない。
目に見えないドメインのようないくつかのシナリオでは、この柔軟性はパフォーマンスに影響を与えます。
そこで我々は,N-bestリストやASR格子に基づく制約付き復号手法を提案する。
最後に、ほとんどのECモデルは、基礎となるASRシステムを変更するたびに再トレーニングを必要とする特定のASRシステムのために訓練される。
本稿では,異なるASRシステムの出力をECモデルで操作する機能について検討する。
この概念は、ChatGPT などの LLM を用いたゼロショット誤り訂正にも拡張されている。
3つの標準データセットを用いた実験により,Transducer と attention-based encoder-decoder ASR システムにおける提案手法の有効性が示された。
また,提案手法はモデルアンサンブルの効果的な方法として有効である。
Error correction (EC) models play a crucial role in refining Automatic Speech Recognition (ASR) transcriptions, enhancing the readability and quality of transcriptions. Without requiring access to the underlying code or model weights, EC can improve performance and provide domain adaptation for black-box ASR systems. This work investigates the use of large language models (LLMs) for error correction across diverse scenarios. 1-best ASR hypotheses are commonly used as the input to EC models. We propose building high-performance EC models using ASR N-best lists which should provide more contextual information for the correction process. Additionally, the generation process of a standard EC model is unrestricted in the sense that any output sequence can be generated. For some scenarios, such as unseen domains, this flexibility may impact performance. To address this, we introduce a constrained decoding approach based on the N-best list or an ASR lattice. Finally, most EC models are trained for a specific ASR system requiring retraining whenever the underlying ASR system is changed. This paper explores the ability of EC models to operate on the output of different ASR systems. This concept is further extended to zero-shot error correction using LLMs, such as ChatGPT. Experiments on three standard datasets demonstrate the efficacy of our proposed methods for both Transducer and attention-based encoder-decoder ASR systems. In addition, the proposed method can serve as an effective method for model ensembling. | 翻訳日:2024-09-17 20:17:37 公開日:2024-09-14 |
# 組立学習によるプリント基板欠陥検出の強化
Enhancing Printed Circuit Board Defect Detection through Ensemble Learning ( http://arxiv.org/abs/2409.09555v1 ) ライセンス: Link先を確認 | Ka Nam Canaan Law, Mingshuo Yu, Lianglei Zhang, Yiyi Zhang, Peng Xu, Jerry Gao, Jun Liu, | (参考訳) 印刷回路基板(PCB)の品質管理は、電子デバイス技術の進歩において最重要である。
多くの機械学習手法が欠陥検出効率と精度の向上に利用されてきたが、従来の研究では、個々の欠陥タイプを最適化することに集中しており、しばしば異なるアプローチ間の潜在的な相乗効果を見越すことが多かった。
本稿では,このギャップに対処するためのアンサンブル学習戦略を活用した総合的な検査フレームワークを提案する。
EfficientDet, MobileNet SSDv2, Faster RCNN, YOLOv5 の4種類のPCB欠陥検出モデルを利用する。
各方法は個別にPCB欠陥を特定することができる。
次に,これらのモデルをアンサンブル学習フレームワークに統合し,検出性能を向上させる。
比較分析の結果,我々のアンサンブル学習フレームワークは個々の手法よりも優れており,多様なPCB欠陥の検出において95%の精度を実現していることがわかった。
これらの結果は,PCBの品質管理プロセスの強化において,提案するアンサンブル学習フレームワークの有効性を裏付けるものである。
The quality control of printed circuit boards (PCBs) is paramount in advancing electronic device technology. While numerous machine learning methodologies have been utilized to augment defect detection efficiency and accuracy, previous studies have predominantly focused on optimizing individual models for specific defect types, often overlooking the potential synergies between different approaches. This paper introduces a comprehensive inspection framework leveraging an ensemble learning strategy to address this gap. Initially, we utilize four distinct PCB defect detection models utilizing state-of-the-art methods: EfficientDet, MobileNet SSDv2, Faster RCNN, and YOLOv5. Each method is capable of identifying PCB defects independently. Subsequently, we integrate these models into an ensemble learning framework to enhance detection performance. A comparative analysis reveals that our ensemble learning framework significantly outperforms individual methods, achieving a 95% accuracy in detecting diverse PCB defects. These findings underscore the efficacy of our proposed ensemble learning framework in enhancing PCB quality control processes. | 翻訳日:2024-09-17 20:17:37 公開日:2024-09-14 |
# 差分プライバシーの統計的視点:仮説テスト、表現、ブラックウェルの理論
A Statistical Viewpoint on Differential Privacy: Hypothesis Testing, Representation and Blackwell's Theorem ( http://arxiv.org/abs/2409.09558v1 ) ライセンス: Link先を確認 | Weijie J. Su, | (参考訳) 差別化プライバシは、堅牢で厳格な保証のため、プライバシ保護データ分析の正式なプライバシとして広く考えられており、公共サービスやアカデミック、業界で広く採用されている。
暗号の文脈に起源があるにもかかわらず、このレビュー論文では、微分プライバシーは基本的には「textit{pure} 統計概念」とみなすことができると論じている。
David Blackwell氏による定理の活用により、我々の焦点は、差分プライバシーの定義が仮説テストの観点から正式に動機づけられることを示し、仮説テストが単に便利なだけでなく、差分プライバシーを推論するための適切な言語であることを示すことである。
この洞察は、表現定理を通じて他の微分プライバシー定義を拡張する$f$-differential privacyの定義につながる。
我々は、データ分析と機械学習におけるプライバシー境界を解析するための統合フレームワークとして、$f$差分プライバシを描画する手法をレビューする。
この差分プライバシー定義のプライベートディープラーニング、プライベート凸最適化、シャッフル機構、および米国における応用について論じる。
Differential privacy is widely considered the formal privacy for privacy-preserving data analysis due to its robust and rigorous guarantees, with increasingly broad adoption in public services, academia, and industry. Despite originating in the cryptographic context, in this review paper we argue that, fundamentally, differential privacy can be considered a \textit{pure} statistical concept. By leveraging a theorem due to David Blackwell, our focus is to demonstrate that the definition of differential privacy can be formally motivated from a hypothesis testing perspective, thereby showing that hypothesis testing is not merely convenient but also the right language for reasoning about differential privacy. This insight leads to the definition of $f$-differential privacy, which extends other differential privacy definitions through a representation theorem. We review techniques that render $f$-differential privacy a unified framework for analyzing privacy bounds in data analysis and machine learning. Applications of this differential privacy definition to private deep learning, private convex optimization, shuffled mechanisms, and U.S.~Census data are discussed to highlight the benefits of analyzing privacy bounds under this framework compared to existing alternatives. | 翻訳日:2024-09-17 20:17:37 公開日:2024-09-14 |
# 感情分析と意味分析による画像キャプションの信頼性と品質評価
Evaluating authenticity and quality of image captions via sentiment and semantic analyses ( http://arxiv.org/abs/2409.09560v1 ) ライセンス: Link先を確認 | Aleksei Krotov, Alison Tebo, Dylan K. Picart, Aaron Dean Algave, | (参考訳) ディープラーニング(DL)の成長は、自然言語処理やコンピュータビジョンといったタスクにおいて、大量のラベル付きデータに大きく依存している。
具体的には、画像からテキストへのパイプラインや画像へのパイプラインでは、人為的なイメージキャプションからモデルによって意見(感性)が不注意に学習される可能性がある。
さらに、学習は提供されたキャプションの多様性や多様性に影響される可能性がある。
大規模なデータセットのラベル付けはクラウドソーシングやデータワーカープールに大きく依存しているが、そのようなトレーニングデータの質を評価することは極めて重要である。
本研究では,感情と意味的豊かさに着目した評価手法を提案する。
この手法をCOCO-MSデータセットに適用した。
プレトレーニングモデル(Twitter-RoBERTa-baseとBERT-base)を用いて,キャプションから感情スコアとセマンティック埋め込みの多様性を抽出した。
感情スコアと対象カテゴリーのセマンティック・バリアビリティの関係を,複数線形回帰法を用いて検討した。
その結果、ほとんどのキャプションは中立であったが、約6%のキャプションは特定の対象カテゴリーの影響を受けていた。
画像内キャプションのセマンティック変動は, 対象カテゴリーと相関が認められなかった。
モデル生成キャプションは, 対象カテゴリーの影響を受けない強い感情の1.5%以下であり, それぞれの人生成キャプションの感情と相関しなかった。
本研究は,画像コンテンツから得られるクラウドソースキャプションやワーカーソースのキャプションの品質を評価するためのアプローチを示す。
The growth of deep learning (DL) relies heavily on huge amounts of labelled data for tasks such as natural language processing and computer vision. Specifically, in image-to-text or image-to-image pipelines, opinion (sentiment) may be inadvertently learned by a model from human-generated image captions. Additionally, learning may be affected by the variety and diversity of the provided captions. While labelling large datasets has largely relied on crowd-sourcing or data-worker pools, evaluating the quality of such training data is crucial. This study proposes an evaluation method focused on sentiment and semantic richness. That method was applied to the COCO-MS dataset, comprising approximately 150K images with segmented objects and corresponding crowd-sourced captions. We employed pre-trained models (Twitter-RoBERTa-base and BERT-base) to extract sentiment scores and variability of semantic embeddings from captions. The relation of the sentiment score and semantic variability with object categories was examined using multiple linear regression. Results indicate that while most captions were neutral, about 6% of the captions exhibited strong sentiment influenced by specific object categories. Semantic variability of within-image captions remained low and uncorrelated with object categories. Model-generated captions showed less than 1.5% of strong sentiment which was not influenced by object categories and did not correlate with the sentiment of the respective human-generated captions. This research demonstrates an approach to assess the quality of crowd- or worker-sourced captions informed by image content. | 翻訳日:2024-09-17 20:17:37 公開日:2024-09-14 |
# 脳拡散テンソルイメージングにおける方向性エンコーディングと幾何学的制約による角分解能の増強
Enhancing Angular Resolution via Directionality Encoding and Geometric Constraints in Brain Diffusion Tensor Imaging ( http://arxiv.org/abs/2409.07186v2 ) ライセンス: Link先を確認 | Sheng Chen, Zihao Tang, Mariano Cabezas, Xinyi Wang, Arkiev D'Souza, Michael Barnett, Fernando Calamante, Weidong Cai, Chenyu Wang, | (参考訳) 拡散強調画像(DWI)は、水分子の拡散率に敏感な磁気共鳴イメージング(MRI)技術の一種であり、組織微細構造を検査する能力を提供し、非侵襲的に白質繊維の管を再構築する唯一の生体内方法である。
DWI信号は拡散テンソルイメージング(DTI)モデルで解析でき、ボクセル内の水拡散の方向を推定できる。
軸方向拡散率(AD)、平均拡散率(MD)、放射差拡散率(RD)、分画異方性(FA)などのスカラー指標は、DTIからさらに導出され、脳組織の微細構造的整合性を定量的に要約することができる。
これらのスカラー測定は、臨床研究において、脳組織の組織と健康を顕微鏡レベルで理解する上で重要な役割を担っている。
しかし、信頼性の高いDTIメトリクスは、一般的に使用される臨床プロトコルを超えて、高い勾配方向のDWI取得に依存している。
そこで本研究ではDirGeo-DTIを提案する。DirGeo-DTIは,DTIの信頼性を推定する深層学習手法である。DirGeo-DTIは,最小理論的数(6)の勾配方向で取得したDWIからでも,信頼性の高いDTIメトリクスを推定する手法である。
DirGeo-DTIは、トレーニングプロセスを容易にするために方向エンコーディングと幾何学的制約を利用する。
2つの公開DWIデータセットを用いて評価を行い,提案手法の有効性を実証した。
以上の結果から,本手法は既存のDTI拡張法と比較して最高の成績を示し,定期的な臨床的DWIスキャンによりさらなる臨床所見が明らかになる可能性が示唆された。
Diffusion-weighted imaging (DWI) is a type of Magnetic Resonance Imaging (MRI) technique sensitised to the diffusivity of water molecules, offering the capability to inspect tissue microstructures and is the only in-vivo method to reconstruct white matter fiber tracts non-invasively. The DWI signal can be analysed with the diffusion tensor imaging (DTI) model to estimate the directionality of water diffusion within voxels. Several scalar metrics, including axial diffusivity (AD), mean diffusivity (MD), radial diffusivity (RD), and fractional anisotropy (FA), can be further derived from DTI to quantitatively summarise the microstructural integrity of brain tissue. These scalar metrics have played an important role in understanding the organisation and health of brain tissue at a microscopic level in clinical studies. However, reliable DTI metrics rely on DWI acquisitions with high gradient directions, which often go beyond the commonly used clinical protocols. To enhance the utility of clinically acquired DWI and save scanning time for robust DTI analysis, this work proposes DirGeo-DTI, a deep learning-based method to estimate reliable DTI metrics even from a set of DWIs acquired with the minimum theoretical number (6) of gradient directions. DirGeo-DTI leverages directional encoding and geometric constraints to facilitate the training process. Two public DWI datasets were used for evaluation, demonstrating the effectiveness of the proposed method. Extensive experimental results show that the proposed method achieves the best performance compared to existing DTI enhancement methods and potentially reveals further clinical insights with routine clinical DWI scans. | 翻訳日:2024-09-17 12:29:39 公開日:2024-09-14 |
# MiniDrive: 自動運転のためのテキストトークンとしてマルチレベル2D機能を備えた高効率ビジョンランゲージモデル
MiniDrive: More Efficient Vision-Language Models with Multi-Level 2D Features as Text Tokens for Autonomous Driving ( http://arxiv.org/abs/2409.07267v2 ) ライセンス: Link先を確認 | Enming Zhang, Xingyuan Dai, Yisheng Lv, Qinghai Miao, | (参考訳) 視覚言語モデル(VLM)は、自律運転における汎用エンド・ツー・エンド・モデルとして機能し、質問と回答の相互作用を通じて予測、計画、知覚などのサブタスクを実行する。
しかし、既存のほとんどの手法は計算に高価なビジュアルエンコーダと大規模言語モデル(LLM)に依存しており、現実のシナリオやリアルタイムアプリケーションへのデプロイが困難である。
一方、既存のVLMには複数の画像を処理する能力がないため、自律運転におけるマルチカメラの認識に適応することが困難である。
これらの問題に対処するために,提案したFE-MoEモジュールと動的命令適応器(DI-Adapter)を組み込んだMiniDriveという新しいフレームワークを提案する。
FE-MoEは、言語モデルに入力される前に、2D機能を視覚トークンの埋め込みに効果的にマッピングする。
DI-Adapterは、ビジュアルトークンの埋め込みを命令テキストの埋め込みで動的に変更することを可能にし、以前のアプローチで同じイメージに対する静的なビジュアルトークンの埋め込みの問題を解決する。
これまでの作業と比較すると、MiniDriveはパラメータサイズ、浮動小数点演算、レスポンス効率の点で最先端のパフォーマンスを実現しており、最小のバージョンは83Mパラメータのみである。
Vision-language models (VLMs) serve as general-purpose end-to-end models in autonomous driving, performing subtasks such as prediction, planning, and perception through question-and-answer interactions. However, most existing methods rely on computationally expensive visual encoders and large language models (LLMs), making them difficult to deploy in real-world scenarios and real-time applications. Meanwhile, most existing VLMs lack the ability to process multiple images, making it difficult to adapt to multi-camera perception in autonomous driving. To address these issues, we propose a novel framework called MiniDrive, which incorporates our proposed Feature Engineering Mixture of Experts (FE-MoE) module and Dynamic Instruction Adapter (DI-Adapter). The FE-MoE effectively maps 2D features into visual token embeddings before being input into the language model. The DI-Adapter enables the visual token embeddings to dynamically change with the instruction text embeddings, resolving the issue of static visual token embeddings for the same image in previous approaches. Compared to previous works, MiniDrive achieves state-of-the-art performance in terms of parameter size, floating point operations, and response efficiency, with the smallest version containing only 83M parameters. | 翻訳日:2024-09-17 12:29:39 公開日:2024-09-14 |
# リアルな画像シャープネス評価のためのコルモゴロフ・アルノルドネットワークの探索
Exploring Kolmogorov-Arnold networks for realistic image sharpness assessment ( http://arxiv.org/abs/2409.07762v2 ) ライセンス: Link先を確認 | Shaode Yu, Ze Chen, Zhimu Yang, Jiacheng Gu, Bizu Feng, | (参考訳) 情報的特徴が収集された後の現実的な画像のシャープネス評価にはスコア予測が不可欠である。
近年、コルモゴロフ・アルノルドネットワーク(KAN)が開発され、データフィッティングにおいて顕著な成功を収めた。
本研究はテイラー級数に基づくカン(テイラーカン)について述べる。
次に,4つの実写画像データベース(BID2011,CID2013,CLIVE,KonIQ-10k)上で,中間レベル特徴15と高レベル特徴2048を用いてスコア予測を行う。
ベースラインとしてサポートベクター回帰を設定する場合、実験結果から、kansは一般的に優れているか、競争的であることが示され、TaylorKANは中レベルの特徴入力を使用して3つのデータベースで最高であるのに対し、kansは高レベルの特徴を使用する場合、CLIVEより劣っている。
これは、画像品質評価のためのKansを探求する最初の研究である。
関連するタスクでkanを選択して改善する方法に光を当てている。
Score prediction is crucial in realistic image sharpness assessment after informative features are collected. Recently, Kolmogorov-Arnold networks (KANs) have been developed and witnessed remarkable success in data fitting. This study presents Taylor series based KAN (TaylorKAN). Then, different KANs are explored on four realistic image databases (BID2011, CID2013, CLIVE, and KonIQ-10k) for score prediction by using 15 mid-level features and 2048 high-level features. When setting support vector regression as the baseline, experimental results indicate KANs are generally better or competitive, TaylorKAN is the best on three databases using mid-level feature input, while KANs are inferior on CLIVE when high-level features are used. This is the first study that explores KANs for image quality assessment. It sheds lights on how to select and improve KANs on related tasks. | 翻訳日:2024-09-17 12:21:17 公開日:2024-09-14 |
# モバイルアプリのセキュリティトレンドとトピック - Stack Overflowからの質問の検討
Mobile App Security Trends and Topics: An Examination of Questions From Stack Overflow ( http://arxiv.org/abs/2409.07926v2 ) ライセンス: Link先を確認 | Timothy Huo, Ana Catarina Araújo, Jake Imanaka, Anthony Peruma, Rick Kazman, | (参考訳) スマートフォンやタブレットの普及により、社会は様々なリソースやサービスにアクセスするためのモバイルアプリケーション(アプリ)に大きく依存するようになった。
これらのアプリは、機密性の高い個人データ、財務データ、健康データを処理し、アプリのセキュリティを開発者にとって重要な懸念事項にすることが多い。
マルウェアや脆弱性などのソフトウェアセキュリティに関する広範な研究があるが、モバイルアプリ開発者が直面している実践的なセキュリティ課題や、彼らが求めているガイダンスについてはあまり知られていない。
本研究では,モバイルアプリケーションのセキュリティに関する質問に対してStack Overflowを抽出し,定量的および定性的な手法を用いて分析する。
調査結果によると、Stack Overflowはモバイルアプリのセキュリティ、特にAndroidアプリのセキュリティ支援を求める開発者にとって主要なリソースであり、セキュリティに関する7つの主要なカテゴリを特定している。
この調査から得られた洞察は,調査やベンダコミュニティによるツールやテクニック,リソースの開発に対して,開発者によるモバイルアプリのセキュリティ向上を支援するものだ。
The widespread use of smartphones and tablets has made society heavily reliant on mobile applications (apps) for accessing various resources and services. These apps often handle sensitive personal, financial, and health data, making app security a critical concern for developers. While there is extensive research on software security topics like malware and vulnerabilities, less is known about the practical security challenges mobile app developers face and the guidance they seek. In this study, we mine Stack Overflow for questions on mobile app security, which we analyze using quantitative and qualitative techniques. The findings reveal that Stack Overflow is a major resource for developers seeking help with mobile app security, especially for Android apps, and identifies seven main categories of security questions: Secured Communications, Database, App Distribution Service, Encryption, Permissions, File-Specific, and General Security. Insights from this research can inform the development of tools, techniques, and resources by the research and vendor community to better support developers in securing their mobile apps. | 翻訳日:2024-09-17 12:21:17 公開日:2024-09-14 |
# モバイルアプリ開発におけるアクセシビリティのトレンドと課題:スタックオーバーフローに関する調査
Exploring Accessibility Trends and Challenges in Mobile App Development: A Study of Stack Overflow Questions ( http://arxiv.org/abs/2409.07945v2 ) ライセンス: Link先を確認 | Amila Indika, Christopher Lee, Haochen Wang, Justin Lisoway, Anthony Peruma, Rick Kazman, | (参考訳) モバイルアプリケーション(アプリ)の普及は、障害のあるユーザへのアクセシビリティの確保を重要視している。
しかし、モバイルアクセシビリティ機能の実装において開発者が直面する現実的な課題についての研究は不足している。
そこで本研究では,Stack Overflow上でのアクセシビリティに関する議論を大規模に分析し,AndroidとiOS開発者が直面するトレンドと課題を明らかにする。
モバイル開発者が議論する成長パターン,特徴,一般的なトピックについて検討する。
この結果から,スクリーンリーダなどの補助技術の統合,アクセス可能なUI設計の確保,言語間のテキスト合成のサポート,複雑なジェスチャーの処理,アクセシビリティテストの実行など,いくつかの課題が明らかになった。
開発者プラクティス,研究方向,ツールサポート,教育リソースの改善を促進する上で,私たちの発見を期待する。
The proliferation of mobile applications (apps) has made it crucial to ensure their accessibility for users with disabilities. However, there is a lack of research on the real-world challenges developers face in implementing mobile accessibility features. This study presents a large-scale empirical analysis of accessibility discussions on Stack Overflow to identify the trends and challenges Android and iOS developers face. We examine the growth patterns, characteristics, and common topics mobile developers discuss. Our results show several challenges, including integrating assistive technologies like screen readers, ensuring accessible UI design, supporting text-to-speech across languages, handling complex gestures, and conducting accessibility testing. We envision our findings driving improvements in developer practices, research directions, tool support, and educational resources. | 翻訳日:2024-09-17 12:21:17 公開日:2024-09-14 |