Fugu-MT 論文翻訳(概要): Debating for Better Reasoning: An Unsupervised Multimodal Approach

論文の概要: Debating for Better Reasoning: An Unsupervised Multimodal Approach

arxiv url: http://arxiv.org/abs/2505.14627v1
Date: Tue, 20 May 2025 17:18:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-21 14:49:53.636358
Title: Debating for Better Reasoning: An Unsupervised Multimodal Approach
Title（参考訳）: より良い推論のための議論:教師なしマルチモーダルアプローチ
Authors: Ashutosh Adhikari, Mirella Lapata,
Abstract要約: 議論のパラダイムをマルチモーダルな設定に拡張し、より弱いモデルがより強力なモデルの性能を監督し、強化する可能性を探る。視覚的質問応答 (VQA) に焦点をあて, 2つの「目に見える」専門家の視覚言語モデルが解答について議論する一方, 「盲目」(テキストのみ)の判断は議論の品質にのみ依存する。この枠組みでは, 専門家は信念に沿う回答のみを守り, 明示的な役割プレーの必要性を排除し, 専門家の不一致の事例に議論を集中させる。
参考スコア（独自算出の注目度）: 56.74157117060815
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As Large Language Models (LLMs) gain expertise across diverse domains and modalities, scalable oversight becomes increasingly challenging, particularly when their capabilities may surpass human evaluators. Debate has emerged as a promising mechanism for enabling such oversight. In this work, we extend the debate paradigm to a multimodal setting, exploring its potential for weaker models to supervise and enhance the performance of stronger models. We focus on visual question answering (VQA), where two "sighted" expert vision-language models debate an answer, while a "blind" (text-only) judge adjudicates based solely on the quality of the arguments. In our framework, the experts defend only answers aligned with their beliefs, thereby obviating the need for explicit role-playing and concentrating the debate on instances of expert disagreement. Experiments on several multimodal tasks demonstrate that the debate framework consistently outperforms individual expert models. Moreover, judgments from weaker LLMs can help instill reasoning capabilities in vision-language models through finetuning.
Abstract（参考訳）: 大きな言語モデル(LLM)がさまざまなドメインやモダリティにまたがる専門知識を獲得するにつれ、スケーラブルな監視はますます困難になってきている。議論はそのような監視を可能にするための有望なメカニズムとして浮上している。本研究では,より弱いモデルに対して,より強いモデルの性能を監督し,向上させる可能性を探るため,議論パラダイムをマルチモーダルな設定に拡張する。視覚的質問応答 (VQA) に焦点をあて, 2つの「目に見える」専門家の視覚言語モデルが解答について議論する一方, 「盲目」(テキストのみ)の判断は議論の品質にのみ依存する。この枠組みでは, 専門家は信念に沿う回答のみを守り, 明示的な役割プレーの必要性を排除し, 専門家の不一致の事例に議論を集中させる。いくつかのマルチモーダルタスクの実験は、議論フレームワークが個々の専門家モデルより一貫して優れていることを示している。さらに、より弱いLLMの判断は、微調整によって視覚言語モデルに推論能力を与えるのに役立つ。

関連論文リスト

Argus Inspection: Do Multimodal Large Language Models Possess the Eye of Panoptes? [14.41230051139575]
本稿では,2段階の難易度を有するマルチモーダルベンチマークであるArgus Inspectionを紹介する。また、双対パラメトリックなシグモイド計量と指標関数を統合する「アイ・オブ・パノプテス」フレームワークも提示する。
論文参考訳（メタデータ） (2025-06-03T13:44:14Z)
Argus: Vision-Centric Reasoning with Grounded Chain-of-Thought [83.89629325805505]
我々は、新しい視覚的注意基盤機構で制限に対処するためにArgusを導入する。提案手法では、物体中心の接地を視覚的連鎖信号として採用し、より効果的な目標条件付き視覚的注意を可能にする。
論文参考訳（メタデータ） (2025-05-29T17:59:56Z)
Why Reasoning Matters? A Survey of Advancements in Multimodal Reasoning (v1) [66.51642638034822]
推論は人間の知性の中心であり、多様なタスクにまたがる構造化された問題解決を可能にする。大規模言語モデル(LLM)の最近の進歩は、算術、常識、記号領域における推論能力を大幅に向上させてきた。本稿では,テキストおよびマルチモーダルLLMにおける推論手法の簡潔かつ洞察に富んだ概要について述べる。
論文参考訳（メタデータ） (2025-04-04T04:04:56Z)
Mind with Eyes: from Language Reasoning to Multimodal Reasoning [19.719640188412463]
言語モデルは近年、推論の領域に進出していますが、より包括的で人間的な認知能力を達成する可能性を完全に解き放つことは、マルチモーダルな推論を通じて行われています。この調査は、最近のマルチモーダル推論アプローチの体系的な概要を提供し、それらを言語中心のマルチモーダル推論と協調マルチモーダル推論の2つのレベルに分類する。
論文参考訳（メタデータ） (2025-03-23T13:40:44Z)
LATTE: Learning to Think with Vision Specialists [103.5952731807559]
我々は、認識を最先端の視覚モデルにオフロードする視覚言語モデルのファミリーであるLATTEを提案する。我々のアプローチは、認識を最先端の視覚モデルにオフロードすることで、視覚言語モデルが高品質な知覚情報に対する推論のみに集中できるようにする。
論文参考訳（メタデータ） (2024-12-07T00:42:04Z)
ACC-Collab: An Actor-Critic Approach to Multi-Agent LLM Collaboration [20.040543142468344]
ACC-CollabはActor-Criticベースの学習フレームワークで、コラボレーションに特化した2エージェントチームを生成する。 ACC-Collabは、幅広いベンチマークでSotAマルチエージェント技術より優れていることを示す。
論文参考訳（メタデータ） (2024-10-30T19:09:02Z)
Training Language Models to Win Debates with Self-Play Improves Judge Accuracy [8.13173791334223]
本稿では,学習モデルによるスケーラブルな監視手法としての議論の堅牢性を試行し,自己再生によって生成されたデータと議論する。言語モデルに基づく評価器は、モデルの判断が議論に勝つように最適化されたときに、より正確に質問に答える。
論文参考訳（メタデータ） (2024-09-25T05:28:33Z)
Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文参考訳（メタデータ） (2024-04-24T17:59:48Z)
Debating with More Persuasive LLMs Leads to More Truthful Answers [45.0343254517401]
議論は、非専門家モデルと人間の両方が、それぞれ76%と88%の精度で質問に答えるのを一貫して助けていることに気付きました。以上の結果から,基礎的真理の欠如によるモデルと議論の整合性に関する実証的証拠が得られた。
論文参考訳（メタデータ） (2024-02-09T21:05:01Z)
Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文参考訳（メタデータ） (2023-05-30T15:25:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。