Fugu-MT 論文翻訳(概要): Tree-of-Evidence: Efficient "System 2" Search for Faithful Multimodal Grounding

論文の概要: Tree-of-Evidence: Efficient "System 2" Search for Faithful Multimodal Grounding

arxiv url: http://arxiv.org/abs/2604.07692v1
Date: Thu, 09 Apr 2026 01:28:14 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-10 18:34:05.624919
Title: Tree-of-Evidence: Efficient "System 2" Search for Faithful Multimodal Grounding
Title（参考訳）: ツリー・オブ・エビデンス: 忠実なマルチモーダルグラウンドの効率的な「システム2」探索
Authors: Micky C. Nnamdi, Benoit L. Marteau, Yishan Zhong, J. Ben Tamo, May D. Wang,
Abstract要約: Inference-time search algorithm that frames interpretability as a individual optimization problem。 ToEは、粗いグループまたはデータの単位をスコアする軽量なEvidence Bottleneckを採用し、モデルの予測を再現するために必要なコンパクトなエビデンスを特定するためにビームサーチを実行する。スパースエビデンス予算の下では、ToEは他のアプローチよりも高い決定合意と低い確率忠実度誤差を達成する。
参考スコア（独自算出の注目度）: 1.6365003324232734
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Multimodal Models (LMMs) achieve state-of-the-art performance in high-stakes domains like healthcare, yet their reasoning remains opaque. Current interpretability methods, such as attention mechanisms or post-hoc saliency, often fail to faithfully represent the model's decision-making process, particularly when integrating heterogeneous modalities like time-series and text. We introduce Tree-of-Evidence (ToE), an inference-time search algorithm that frames interpretability as a discrete optimization problem. Rather than relying on soft attention weights, ToE employs lightweight Evidence Bottlenecks that score coarse groups or units of data (e.g., vital-sign windows, report sentences) and performs a beam search to identify the compact evidence set required to reproduce the model's prediction. We evaluate ToE across six tasks spanning three datasets and two domains: four clinical prediction tasks on MIMIC-IV, cross-center validation on eICU, and non-clinical fault detection on LEMMA-RCA. ToE produces auditable evidence traces while maintaining predictive performance, retaining over 0.98 of full-model AUROC with as few as five evidence units across all settings. Under sparse evidence budgets, ToE achieves higher decision agreement and lower probability fidelity error than other approaches. Qualitative analyses show that ToE adapts its search strategy: it often resolves straightforward cases using only vitals, while selectively incorporating text when physiological signals are ambiguous. ToE therefore provides a practical mechanism for auditing multimodal models by revealing which discrete evidence units support each prediction.
Abstract（参考訳）: 大規模マルチモーダルモデル(LMM)は、医療のような高度な領域で最先端のパフォーマンスを達成するが、その推論は不透明である。注意機構やポストホック・サリエンシといった現在の解釈可能性の手法は、特に時系列やテキストのような異質なモダリティを統合する際に、モデルの決定過程を忠実に表現できないことが多い。 Inference-time search algorithm that frames interpretability as a individual optimization problem。ソフトアテンションウェイトに頼るのではなく、ToEは、粗いグループまたはデータの単位(例えば、バイタルサインウィンドウ、レポート文)をスコアする軽量のEvidence Bottleneckを使用して、モデルの予測を再現するために必要なコンパクトなエビデンスを識別するビームサーチを実行する。 3つのデータセットと2つの領域にまたがる6つのタスク(MIMIC-IVの4つの臨床予測タスク、eICUのクロスセンター検証タスク、LEMMA-RCAの非臨床故障検出タスク)についてToEを評価した。 ToEは、予測性能を維持しながら、監査可能なエビデンストレースを生成し、フルモデルのAUROCの0.98以上を保持し、すべての設定で5つのエビデンスユニットしか保持していない。スパースエビデンス予算の下では、ToEは他のアプローチよりも高い決定合意と低い確率忠実度誤差を達成する。定性的分析は、ToEが検索戦略に適応していることを示し、生理的信号があいまいな場合にテキストを選択的に組み込んだまま、バイタルのみを用いて簡単なケースを解決している。したがって、ToEは、各予測をサポートする離散的なエビデンスユニットを明らかにすることで、マルチモーダルモデルを監査するための実践的なメカニズムを提供する。

関連論文リスト

DecepGPT: Schema-Driven Deception Detection with Multicultural Datasets and Robust Multimodal Learning [64.33887406863899]
マルチモーダル偽装検出は、法医学とセキュリティのための聴覚的手がかりを解析することにより、偽装行動を特定することを目的としている。既存のベンチマークでは、中間的な推論手段を使わずにバイナリラベルのみを提供する。構造的キューレベルの記述と推論チェーンを用いた推論データセットを構築した。 1695年のサンプルでは、非実験的偽装検出データセットとしては最大である。
論文参考訳（メタデータ） (2026-03-25T04:06:36Z)
ShortcutBreaker: Low-Rank Noisy Bottleneck with Global Perturbation Attention for Multi-Class Unsupervised Anomaly Detection [59.89803740308262]
ShortcutBreakerはMUADタスクのための新しい統合された機能再構成フレームワークである。ショートカットの問題に対処する2つの重要なイノベーションが特徴だ。提案手法は,4つのデータセットに対して,99.8%,98.9%,90.6%,87.8%の顕著な画像レベルのAUROCを実現する。
論文参考訳（メタデータ） (2025-10-21T06:51:30Z)
When Does Multimodality Lead to Better Time Series Forecasting? [96.26052272121615]
このようなマルチモーダルな統合が常に利益をもたらすかどうか、どのような条件で検討する。その結果,マルチモーダリティの利点は条件に依存していることが判明した。我々の研究は、マルチモーダリティが予測タスクに役立つことをいつ予測できるかを理解するための厳密で定量的な基礎を提供する。
論文参考訳（メタデータ） (2025-06-20T23:55:56Z)
Zero-Shot Event Causality Identification via Multi-source Evidence Fuzzy Aggregation with Large Language Models [11.541829239773643]
事象因果同定(ECI)は、テキストコンテキストにおける事象間の因果関係を検出することを目的としている。既存のECIモデルは、主に管理された方法論に依存しており、大規模な注釈付きデータに依存している。本稿では,Multi-source Evidence Fuzzy Aggregationに基づく新しいゼロショットフレームワークMEFAを提案する。
論文参考訳（メタデータ） (2025-06-06T01:56:05Z)
A Cooperative Multi-Agent Framework for Zero-Shot Named Entity Recognition [71.61103962200666]
ゼロショット名付きエンティティ認識(NER)は、注釈のないテキストコーパスからエンティティ認識システムを開発することを目的としている。最近の研究は、特別なプロンプトテンプレートを作成することで、ゼロショットNERに大規模な言語モデル(LLM)を適用している。ゼロショットNERのための新しいフレームワークである協調型マルチエージェントシステム(CMAS)を紹介する。
論文参考訳（メタデータ） (2025-02-25T23:30:43Z)
A NotSo Simple Way to Beat Simple Bench [0.0]
本稿では,大規模言語モデル(LLM)における推論能力向上のための新しい枠組みを提案する。モデル精度とロバスト性を改善するために,グローバルな整合性チェックと組み合わせたマルチステッププロンプト戦略を提案する。クロードは論理的整合性を維持するのに優れ, GPT-4oは探索的創造性を示すが, 曖昧なプロンプトに苦しむ。
論文参考訳（メタデータ） (2024-12-12T16:04:31Z)
A Reliable Framework for Human-in-the-Loop Anomaly Detection in Time Series [17.08674819906415]
HILADは、人間とAIの動的かつ双方向なコラボレーションを促進するために設計された、新しいフレームワークである。ビジュアルインターフェースを通じて、HILADはドメインの専門家に、大規模な予期せぬモデルの振る舞いを検出し、解釈し、修正する権限を与えます。
論文参考訳（メタデータ） (2024-05-06T07:44:07Z)
Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。 HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文参考訳（メタデータ） (2023-05-23T01:24:15Z)
SUOD: Accelerating Large-Scale Unsupervised Heterogeneous Outlier Detection [63.253850875265115]
外乱検出(OD)は、一般的なサンプルから異常物体を識別するための機械学習(ML)タスクである。そこで我々は,SUODと呼ばれるモジュール型加速度システムを提案する。
論文参考訳（メタデータ） (2020-03-11T00:22:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。