Fugu-MT 論文翻訳(概要): Seeing and Reasoning with Confidence: Supercharging Multimodal LLMs with an Uncertainty-Aware Agentic Framework

論文の概要: Seeing and Reasoning with Confidence: Supercharging Multimodal LLMs with an Uncertainty-Aware Agentic Framework

arxiv url: http://arxiv.org/abs/2503.08308v1
Date: Tue, 11 Mar 2025 11:18:53 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-12 22:35:51.731736
Title: Seeing and Reasoning with Confidence: Supercharging Multimodal LLMs with an Uncertainty-Aware Agentic Framework
Title（参考訳）: 信頼と推論:不確実性を考慮したエージェント・フレームワークによるマルチモーダル LLM のスーパーチャージ
Authors: Zhuo Zhi, Chen Feng, Adam Daneshmend, Mine Orlu, Andreas Demosthenous, Lu Yin, Da Li, Ziquan Liu, Miguel R. D. Rodrigues,
Abstract要約: マルチモーダル大言語モデル (MLLM) は視覚的質問応答 (VQA) のようなタスクにおいて有望であることを示す最近の研究は、パフォーマンスを改善するためにエージェントフレームワークやチェーン・オブ・思想(CoT)の推論に適応しています。本稿では,学習自由なマルチモーダル推論フレームワークであるSeeing and Reasoning with Confidence (SRICE)を提案する。
参考スコア（独自算出の注目度）: 23.42251949130555
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multimodal large language models (MLLMs) show promise in tasks like visual question answering (VQA) but still face challenges in multimodal reasoning. Recent works adapt agentic frameworks or chain-of-thought (CoT) reasoning to improve performance. However, CoT-based multimodal reasoning often demands costly data annotation and fine-tuning, while agentic approaches relying on external tools risk introducing unreliable output from these tools. In this paper, we propose Seeing and Reasoning with Confidence (SRICE), a training-free multimodal reasoning framework that integrates external vision models with uncertainty quantification (UQ) into an MLLM to address these challenges. Specifically, SRICE guides the inference process by allowing MLLM to autonomously select regions of interest through multi-stage interactions with the help of external tools. We propose to use a conformal prediction-based approach to calibrate the output of external tools and select the optimal tool by estimating the uncertainty of an MLLM's output. Our experiment shows that the average improvement of SRICE over the base MLLM is 4.6% on five datasets and the performance on some datasets even outperforms fine-tuning-based methods, revealing the significance of ensuring reliable tool use in an MLLM agent.
Abstract（参考訳）: マルチモーダル大言語モデル(MLLM)は、視覚的質問応答(VQA)のようなタスクにおいて有望であるが、それでもマルチモーダル推論では課題に直面している。最近の研究は、パフォーマンスを改善するためにエージェントフレームワークやチェーン・オブ・思想(CoT)の推論に適応しています。しかし、CoTベースのマルチモーダル推論は、しばしばコストのかかるデータアノテーションと微調整を必要とする。本稿では,不確実性定量化(UQ)を伴う外部視覚モデルをMLLMに統合し,これらの課題に対処するトレーニングフリーマルチモーダル推論フレームワークであるSeeing and Reasoning with Confidence(SRICE)を提案する。具体的には、MLLMが外部ツールの助けを借りて多段階の相互作用を通じて自律的に関心のある領域を選択できるようにすることにより、推論プロセスのガイドを行う。本稿では, MLLMの出力の不確かさを推定して, 外部ツールの出力を調整し, 最適なツールを選択するために, 共形予測に基づくアプローチを提案する。実験の結果,MLLMをベースとしたSRICEの平均的な改善は5つのデータセットで4.6%であり,いくつかのデータセットでは微調整手法よりも優れており,MLLMエージェントで信頼性の高いツールの使用を保証することの重要性が示された。

関連論文リスト

Uncertainty Quantification for Multimodal Large Language Models with Incoherence-adjusted Semantic Volume [45.38219855706969]
マルチモーダル大規模言語モデル(MLLM)のためのトレーニング不要不確実性定量化フレームワークUMPIREを紹介する。 UMPIREは、与えられたタスクインスタンスに対するサンプルMLLM応答の不整合調整セマンティックボリュームを計算する。 UMPIREは、画像、音声、ビデオテキストのベンチマークにおいて、エラー検出と不確実性校正において、基準値よりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2026-02-27T17:18:42Z)
Refer-Agent: A Collaborative Multi-Agent System with Reasoning and Reflection for Referring Video Object Segmentation [50.22481337087162]
Referring Video Object (RVOS) は、テキストクエリに基づくビデオ内のオブジェクトのセグメンテーションを目的としている。 Refer-Agent (Refer-Agent) は、共用多エージェントシステムである。
論文参考訳（メタデータ） (2026-02-03T14:48:12Z)
Some Modalities are More Equal Than Others: Decoding and Architecting Multimodal Integration in MLLMs [5.380090638488105]
MMA-Benchは、特定のモダリティへの依存を調査するビデオとタスクで構成されている。現在のMLLMは、音声と視覚のペアと単純な誤解を招くテキストが混在している。本稿では,特定のモダリティ手法を優先し,活用するか,無視するかをモデルに教えるためのモダリティアライメントチューニング戦略を提案する。
論文参考訳（メタデータ） (2025-11-28T01:21:29Z)
Toward Effective Tool-Integrated Reasoning via Self-Evolved Preference Learning [68.89572566071575]
Tool-Integrated Reasoning (TIR)により、大きな言語モデル(LLM)は、外部ツールを統合することで、内部推論能力を改善することができる。提案するTool-Lightは,LDMがTIRを効率的にかつ正確に実行できるようにするためのフレームワークである。 10個のデータセットの実験結果は、ツールライトの有効性を示している。
論文参考訳（メタデータ） (2025-09-27T12:53:37Z)
Empowering Multimodal LLMs with External Tools: A Comprehensive Survey [61.66069828956139]
MLLM(Multimodal Large Language Models)は、人工知能への有望な経路を指して、様々なマルチモーダルタスクにおいて大きな成功を収めた。マルチモーダルデータの欠如、複雑な下流タスクの性能の低下、不適切な評価プロトコルがMLLMの信頼性とより広範な適用性を妨げている。推論と問題解決の強化に外部ツールを活用する人間の能力にインスパイアされたMLLMを外部ツールで強化することは、これらの課題を克服するための有望な戦略を提供する。
論文参考訳（メタデータ） (2025-08-14T07:25:45Z)
Feature Engineering for Agents: An Adaptive Cognitive Architecture for Interpretable ML Monitoring [2.1205272468688574]
大規模言語モデルに基づくエージェントに特徴工学の原則を適用したMLモニタリングのための認知アーキテクチャを提案する。決定手順モジュールは、リファクタリング、ブレークダウン、コンパイルという3つの重要なステップを通じて、機能エンジニアリングをシミュレートする。複数のLCMを用いた実験により, 各種ベースラインと比較して精度が有意に向上し, 提案手法の有効性が示された。
論文参考訳（メタデータ） (2025-06-11T13:48:25Z)
IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文参考訳（メタデータ） (2025-05-23T09:37:52Z)
Tools in the Loop: Quantifying Uncertainty of LLM Question Answering Systems That Use Tools [1.1970409518725493]
大きな言語モデル(LLM)は、訓練済みの知識が不十分な領域で正確な答えを提供するために、外部ツールを必要とすることが多い。医学的意思決定などの高度な応用においては、LCMが生成したテキストとツールの出力の両方の不確実性を評価することが不可欠である。本稿では,LSMと外部ツールの予測不確かさを共同で考慮し,不確かさを定量化するツールコールのモデリングフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-22T01:34:23Z)
PEBench: A Fictitious Dataset to Benchmark Machine Unlearning for Multimodal Large Language Models [30.909294336713845]
MLLM(Multimodal Large Language Models)は、視覚的質問応答、視覚的理解、推論などのタスクにおいて顕著な進歩を見せている。しかし、この驚くべき進歩は、インターネットから収集された膨大な量のデータに依存し、プライバシーとセキュリティに関する重大な懸念を引き起こしている。機械学習(MU)は有望なソリューションとして登場し、スクラッチからトレーニングを必要とせずに、すでにトレーニング済みのモデルから特定の知識を取り除くことができる。
論文参考訳（メタデータ） (2025-03-16T15:26:20Z)
Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。 MeCoは表現空間の高レベル認知信号をキャプチャし、ツールを呼び出すタイミングを指示する。実験の結果,MeCoはLSMの内部認知信号を正確に検出し,ツール使用による意思決定を大幅に改善することがわかった。
論文参考訳（メタデータ） (2025-02-18T15:45:01Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。 LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文参考訳（メタデータ） (2024-06-20T13:08:09Z)
REQUAL-LM: Reliability and Equity through Aggregation in Large Language Models [10.684722193666607]
本稿では,信頼度の高い大規模言語モデル (LLM) の出力をアグリゲーションによって検出する新しい手法であるREQUAL-LMを紹介する。具体的には、繰り返しサンプリングに基づくモンテカルロ法を開発し、可能な出力の基底分布の平均に近い信頼性のある出力を求める。信頼性とバイアスといった用語を正式に定義し、信頼性の高いアウトプットを見つけながら有害なバイアスを最小限に抑えるために、株式を意識したアグリゲーションを設計する。
論文参考訳（メタデータ） (2024-04-17T22:12:41Z)
Enhancing the General Agent Capabilities of Low-Parameter LLMs through Tuning and Multi-Branch Reasoning [56.82041895921434]
オープンソースの事前訓練された大規模言語モデル(LLM)は、強力な言語理解と生成能力を示す。現実世界の複雑な問題に対処するエージェントとして使用される場合、ChatGPTやGPT-4のような大型の商用モデルに比べてパフォーマンスははるかに劣る。
論文参考訳（メタデータ） (2024-03-29T03:48:12Z)
Efficient Tool Use with Chain-of-Abstraction Reasoning [63.08202389132155]
大規模言語モデル(LLM)は、現実世界の知識に対する推論の基礎となる必要がある。マルチステップ推論問題におけるツールの実行には,微調整LDMエージェントの課題が残されている。マルチステップ推論におけるツールの活用方法として, LLM の新しい手法を提案する。
論文参考訳（メタデータ） (2024-01-30T21:53:30Z)
Revisit Input Perturbation Problems for LLMs: A Unified Robustness Evaluation Framework for Noisy Slot Filling Task [18.623619585980688]
本研究では,大言語モデルの対話理解能力を評価するために,スロット充足タスクに基づく統一ロバストネス評価フレームワークを提案する。具体的には,5種類の単一摂動と4種類の混合摂動データを含む入力摂動評価データセットであるノイズLLMを構築した。本研究の目的は,LLMの様々なロバスト性評価手法が実世界の雑音のシナリオでどの程度機能するかを評価することである。
論文参考訳（メタデータ） (2023-10-10T10:22:05Z)
MINT: Evaluating LLMs in Multi-turn Interaction with Tools and Language Feedback [78.60644407028022]
我々は,大規模言語モデルのマルチターンインタラクションによる課題解決能力を評価するベンチマークであるMINTを紹介する。 LLMは一般的に、ツールと言語フィードバックの恩恵を受けます。 LLMの評価、教師あり指導ファインタニング(SIFT)、人間からのフィードバックからの強化学習(RLHF)は、一般的にマルチターン能力を損なう。
論文参考訳（メタデータ） (2023-09-19T15:25:42Z)
AgentBench: Evaluating LLMs as Agents [88.45506148281379]
大規模言語モデル(LLM)は、従来のNLPタスクを超えた現実的な実用的ミッションをターゲットとして、ますます賢く自律的になってきています。我々は,現在8つの異なる環境からなるベンチマークであるAgentBenchを紹介し,LLM-as-Agentの推論と意思決定能力を評価する。
論文参考訳（メタデータ） (2023-08-07T16:08:11Z)
ReWOO: Decoupling Reasoning from Observations for Efficient Augmented Language Models [32.95155349925248]
本稿では,外部観測から推論プロセスを取り除き,トークン消費量を大幅に削減するモジュラーパラダイムReWOOを提案する。マルチステップ推論ベンチマークであるHotpotQAにおいて,ReWOOは5倍のトークン効率と4%の精度向上を実現している。本稿では,175B GPT3.5から7B LLaMAへの推論能力をオフロードし,真に効率的でスケーラブルなALMシステムの可能性を示す。
論文参考訳（メタデータ） (2023-05-23T00:16:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。