論文の概要: Debating for Better Reasoning: An Unsupervised Multimodal Approach
- arxiv url: http://arxiv.org/abs/2505.14627v1
- Date: Tue, 20 May 2025 17:18:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.636358
- Title: Debating for Better Reasoning: An Unsupervised Multimodal Approach
- Title(参考訳): より良い推論のための議論:教師なしマルチモーダルアプローチ
- Authors: Ashutosh Adhikari, Mirella Lapata,
- Abstract要約: 議論のパラダイムをマルチモーダルな設定に拡張し、より弱いモデルがより強力なモデルの性能を監督し、強化する可能性を探る。
視覚的質問応答 (VQA) に焦点をあて, 2つの「目に見える」専門家の視覚言語モデルが解答について議論する一方, 「盲目」(テキストのみ)の判断は議論の品質にのみ依存する。
この枠組みでは, 専門家は信念に沿う回答のみを守り, 明示的な役割プレーの必要性を排除し, 専門家の不一致の事例に議論を集中させる。
- 参考スコア(独自算出の注目度): 56.74157117060815
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Language Models (LLMs) gain expertise across diverse domains and modalities, scalable oversight becomes increasingly challenging, particularly when their capabilities may surpass human evaluators. Debate has emerged as a promising mechanism for enabling such oversight. In this work, we extend the debate paradigm to a multimodal setting, exploring its potential for weaker models to supervise and enhance the performance of stronger models. We focus on visual question answering (VQA), where two "sighted" expert vision-language models debate an answer, while a "blind" (text-only) judge adjudicates based solely on the quality of the arguments. In our framework, the experts defend only answers aligned with their beliefs, thereby obviating the need for explicit role-playing and concentrating the debate on instances of expert disagreement. Experiments on several multimodal tasks demonstrate that the debate framework consistently outperforms individual expert models. Moreover, judgments from weaker LLMs can help instill reasoning capabilities in vision-language models through finetuning.
- Abstract(参考訳): 大きな言語モデル(LLM)がさまざまなドメインやモダリティにまたがる専門知識を獲得するにつれ、スケーラブルな監視はますます困難になってきている。
議論はそのような監視を可能にするための有望なメカニズムとして浮上している。
本研究では,より弱いモデルに対して,より強いモデルの性能を監督し,向上させる可能性を探るため,議論パラダイムをマルチモーダルな設定に拡張する。
視覚的質問応答 (VQA) に焦点をあて, 2つの「目に見える」専門家の視覚言語モデルが解答について議論する一方, 「盲目」(テキストのみ)の判断は議論の品質にのみ依存する。
この枠組みでは, 専門家は信念に沿う回答のみを守り, 明示的な役割プレーの必要性を排除し, 専門家の不一致の事例に議論を集中させる。
いくつかのマルチモーダルタスクの実験は、議論フレームワークが個々の専門家モデルより一貫して優れていることを示している。
さらに、より弱いLLMの判断は、微調整によって視覚言語モデルに推論能力を与えるのに役立つ。
関連論文リスト
- MentisOculi: Revealing the Limits of Reasoning with Mental Imagery [63.285794947638614]
視覚的解決が可能な多段階推論問題の組である MentisOculi を開発した。
遅延トークンから明示的な生成画像まで,視覚的戦略を評価すると,一般的にはパフォーマンス向上に失敗する。
以上の結果から,視覚的思考がモデル推論の恩恵を受けていないことが示唆された。
論文 参考訳(メタデータ) (2026-02-02T18:49:06Z) - Latent Debate: A Surrogate Framework for Interpreting LLM Thinking [26.20998021856433]
暗黙的な内部議論のレンズを通してモデル予測を解釈する新しいフレームワークである潜在討論を紹介する。
提案手法は,従来のLSMと高度に一貫した予測を持つ忠実な構造的サロゲートモデルであることを示す。
さらに分析すると、幻覚と議論パターンの間に強い相関関係があることが示され、例えば、中間層における潜伏した議論の度合いは、幻覚のリスクが高いことが示される。
論文 参考訳(メタデータ) (2025-12-01T17:27:31Z) - From Perception to Reasoning: Deep Thinking Empowers Multimodal Large Language Models [36.54062692717823]
CoT(Chain-of-Thought)推論は、推論の透明性と出力の解釈可能性を高めることによって、言語モデルにおいて有意な効果を示した。
本稿では,Multimodal Chain-of-Thought(MCoT)を中心にしたシステムレビューを行う。
論文 参考訳(メタデータ) (2025-11-17T01:22:37Z) - MMPersuade: A Dataset and Evaluation Framework for Multimodal Persuasion [73.99171322670772]
LVLM(Large Vision-Language Models)は、ショッピング、健康、ニュースなどの分野に展開されている。
MMPersuadeはLVLMにおけるマルチモーダルパーサージョンダイナミクスを体系的に研究するための統一的なフレームワークを提供する。
論文 参考訳(メタデータ) (2025-10-26T17:39:21Z) - Talk Isn't Always Cheap: Understanding Failure Modes in Multi-Agent Debate [2.3027211055417283]
議論は時間の経過とともに精度を低下させる可能性があることを示す。
分析の結果,ピア推論に応答して,モデルが正解から誤解へと頻繁にシフトしていることが判明した。
これらの結果は、マルチエージェントの議論における理由の交換において重要な障害モードを浮き彫りにする。
論文 参考訳(メタデータ) (2025-09-05T13:47:38Z) - Argus Inspection: Do Multimodal Large Language Models Possess the Eye of Panoptes? [14.41230051139575]
本稿では,2段階の難易度を有するマルチモーダルベンチマークであるArgus Inspectionを紹介する。
また、双対パラメトリックなシグモイド計量と指標関数を統合する「アイ・オブ・パノプテス」フレームワークも提示する。
論文 参考訳(メタデータ) (2025-06-03T13:44:14Z) - Argus: Vision-Centric Reasoning with Grounded Chain-of-Thought [83.89629325805505]
我々は、新しい視覚的注意基盤機構で制限に対処するためにArgusを導入する。
提案手法では、物体中心の接地を視覚的連鎖信号として採用し、より効果的な目標条件付き視覚的注意を可能にする。
論文 参考訳(メタデータ) (2025-05-29T17:59:56Z) - Why Reasoning Matters? A Survey of Advancements in Multimodal Reasoning (v1) [66.51642638034822]
推論は人間の知性の中心であり、多様なタスクにまたがる構造化された問題解決を可能にする。
大規模言語モデル(LLM)の最近の進歩は、算術、常識、記号領域における推論能力を大幅に向上させてきた。
本稿では,テキストおよびマルチモーダルLLMにおける推論手法の簡潔かつ洞察に富んだ概要について述べる。
論文 参考訳(メタデータ) (2025-04-04T04:04:56Z) - Mind with Eyes: from Language Reasoning to Multimodal Reasoning [19.719640188412463]
言語モデルは近年、推論の領域に進出していますが、より包括的で人間的な認知能力を達成する可能性を完全に解き放つことは、マルチモーダルな推論を通じて行われています。
この調査は、最近のマルチモーダル推論アプローチの体系的な概要を提供し、それらを言語中心のマルチモーダル推論と協調マルチモーダル推論の2つのレベルに分類する。
論文 参考訳(メタデータ) (2025-03-23T13:40:44Z) - LATTE: Learning to Think with Vision Specialists [103.5952731807559]
我々は、認識を最先端の視覚モデルにオフロードする視覚言語モデルのファミリーであるLATTEを提案する。
我々のアプローチは、認識を最先端の視覚モデルにオフロードすることで、視覚言語モデルが高品質な知覚情報に対する推論のみに集中できるようにする。
論文 参考訳(メタデータ) (2024-12-07T00:42:04Z) - ACC-Collab: An Actor-Critic Approach to Multi-Agent LLM Collaboration [20.040543142468344]
ACC-CollabはActor-Criticベースの学習フレームワークで、コラボレーションに特化した2エージェントチームを生成する。
ACC-Collabは、幅広いベンチマークでSotAマルチエージェント技術より優れていることを示す。
論文 参考訳(メタデータ) (2024-10-30T19:09:02Z) - Training Language Models to Win Debates with Self-Play Improves Judge Accuracy [8.13173791334223]
本稿では,学習モデルによるスケーラブルな監視手法としての議論の堅牢性を試行し,自己再生によって生成されたデータと議論する。
言語モデルに基づく評価器は、モデルの判断が議論に勝つように最適化されたときに、より正確に質問に答える。
論文 参考訳(メタデータ) (2024-09-25T05:28:33Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z) - Debating with More Persuasive LLMs Leads to More Truthful Answers [45.0343254517401]
議論は、非専門家モデルと人間の両方が、それぞれ76%と88%の精度で質問に答えるのを一貫して助けていることに気付きました。
以上の結果から,基礎的真理の欠如によるモデルと議論の整合性に関する実証的証拠が得られた。
論文 参考訳(メタデータ) (2024-02-09T21:05:01Z) - Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。
我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文 参考訳(メタデータ) (2023-05-30T15:25:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。