論文の概要: ConSensus: Multi-Agent Collaboration for Multimodal Sensing
- arxiv url: http://arxiv.org/abs/2601.06453v1
- Date: Sat, 10 Jan 2026 06:41:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.822247
- Title: ConSensus: Multi-Agent Collaboration for Multimodal Sensing
- Title(参考訳): ConSensus:マルチモーダルセンシングのためのマルチエージェントコラボレーション
- Authors: Hyungjun Yoon, Mohammad Malekzadeh, Sung-Ju Lee, Fahim Kawsar, Lorena Qendro,
- Abstract要約: 大規模言語モデル(LLM)は、人間の生理学と物理世界に対する知覚と推論のために、センサーデータに基礎を置いている。
単一のモノリシックなLLMは、しばしばモダリティ間でコヒーレントに推論できないことを示し、不完全な解釈と事前知識バイアスをもたらす。
ConSensusは、マルチモーダルセンシングタスクを特殊なモダリティ対応エージェントに分解する、トレーニング不要なマルチエージェント協調フレームワークである。
- 参考スコア(独自算出の注目度): 23.56691532782939
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) are increasingly grounded in sensor data to perceive and reason about human physiology and the physical world. However, accurately interpreting heterogeneous multimodal sensor data remains a fundamental challenge. We show that a single monolithic LLM often fails to reason coherently across modalities, leading to incomplete interpretations and prior-knowledge bias. We introduce ConSensus, a training-free multi-agent collaboration framework that decomposes multimodal sensing tasks into specialized, modality-aware agents. To aggregate agent-level interpretations, we propose a hybrid fusion mechanism that balances semantic aggregation, which enables cross-modal reasoning and contextual understanding, with statistical consensus, which provides robustness through agreement across modalities. While each approach has complementary failure modes, their combination enables reliable inference under sensor noise and missing data. We evaluate ConSensus on five diverse multimodal sensing benchmarks, demonstrating an average accuracy improvement of 7.1% over the single-agent baseline. Furthermore, ConSensus matches or exceeds the performance of iterative multi-agent debate methods while achieving a 12.7 times reduction in average fusion token cost through a single-round hybrid fusion protocol, yielding a robust and efficient solution for real-world multimodal sensing tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)は、人間の生理学と物理世界に対する知覚と推論のために、センサーデータに基礎を置いている。
しかし、不均一なマルチモーダルセンサデータの正確な解釈は依然として根本的な課題である。
単一のモノリシックなLLMは、しばしばモダリティ間でコヒーレントに推論できないことを示し、不完全な解釈と事前知識バイアスをもたらす。
ConSensusは、マルチモーダルセンシングタスクを特殊なモダリティ対応エージェントに分解する、トレーニング不要なマルチエージェント協調フレームワークである。
エージェントレベルの解釈を集約するために,モーダル間の合意を通じて堅牢性を提供する統計的コンセンサスと,相互モーダル推論と文脈理解の両立を可能にする,セマンティックアグリゲーションのバランスをとるハイブリッド融合機構を提案する。
それぞれのアプローチには相補的な障害モードがあるが、それらの組み合わせにより、センサノイズと欠落データの下での信頼性の高い推論が可能になる。
本研究では,ConSensusを5種類のマルチモーダルセンシングベンチマークで評価し,単一エージェントベースラインよりも平均精度が7.1%向上したことを示す。
さらに、ConSensusは、1ラウンドのハイブリッド核融合プロトコルを通じて平均核融合トークンコストを12.7倍削減し、実世界のマルチモーダルセンシングタスクに対して堅牢で効率的なソリューションを提供する。
関連論文リスト
- Truth in the Few: High-Value Data Selection for Efficient Multi-Modal Reasoning [71.3533541927459]
アクティベーション推論ポテンシャル(RAP)と呼ばれる新しいデータ選択パラダイムを提案する。
RAPは、真のマルチモーダル推論を刺激する各サンプルのポテンシャルを推定することで、認知サンプルを識別する。
我々のRAP法は、トレーニングデータの9.3%しか使用せず、計算コストを43%以上削減しながら、常に優れた性能を実現している。
論文 参考訳(メタデータ) (2025-06-05T08:40:24Z) - MoCA: Multi-modal Cross-masked Autoencoder for Digital Health Measurements [2.8493802389913694]
マルチモーダル・クロスマスクオートエンコーダ(Multi-modal Cross-masked Autoencoder, MOCA)は,トランスフォーマアーキテクチャとマスク付きオートエンコーダ(MAE)手法を組み合わせた自己教師型学習フレームワークである。
MoCAは、さまざまなベンチマークデータセット上で、再構築と下流分類タスク間で強力なパフォーマンス向上を示す。
当社のアプローチは、デジタルヘルス領域にまたがる幅広い応用で、未ラベルのマルチモーダルウェアラブルデータを活用するための新しいソリューションを提供する。
論文 参考訳(メタデータ) (2025-06-02T21:07:25Z) - Multi-Agent Sampling: Scaling Inference Compute for Data Synthesis with Tree Search-Based Agentic Collaboration [81.45763823762682]
本研究の目的は,マルチエージェントサンプリングによるデータ合成の問題を調べることでギャップを埋めることである。
逐次サンプリングプロセス中にワークフローが反復的に進化する木探索に基づくオーケストレーションエージェント(TOA)を紹介する。
アライメント、機械翻訳、数学的推論に関する実験は、マルチエージェントサンプリングが推論計算スケールとしてシングルエージェントサンプリングを著しく上回ることを示した。
論文 参考訳(メタデータ) (2024-12-22T15:16:44Z) - Towards Rationality in Language and Multimodal Agents: A Survey [23.451887560567602]
この研究は、より合理的な言語とマルチモーダルエージェントを構築する方法について議論する。
合理性は理性によって導かれる性質であり、証拠や論理原理と整合した意思決定によって特徴づけられる。
論文 参考訳(メタデータ) (2024-06-01T01:17:25Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - VERITE: A Robust Benchmark for Multimodal Misinformation Detection
Accounting for Unimodal Bias [17.107961913114778]
マルチモーダルの誤報は ソーシャルメディアのプラットフォームで 増え続けている問題です
本研究では,広範に使用されているMDDベンチマークにおいて,一様偏差の存在を調査・同定する。
リアルな合成学習データを生成するための新しい手法であるCrossmodal HArd Synthetic MisAlignment (CHASMA)を導入する。
論文 参考訳(メタデータ) (2023-04-27T12:28:29Z) - Improving Multimodal fusion via Mutual Dependency Maximisation [5.73995120847626]
マルチモーダル・感情分析は研究のトレンドとなっている分野であり、マルチモーダル・フュージョンは最も活発なトピックの1つである。
本研究では,未探索の罰則を調査し,モダリティ間の依存性を測定するための新たな目的セットを提案する。
我々は、我々の新しい罰則が様々な最先端モデルに対して一貫した改善(正確性で最大4.3ドル)をもたらすことを示した。
論文 参考訳(メタデータ) (2021-08-31T06:26:26Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。