Fugu-MT 論文翻訳(概要): A Picture Is Worth a Graph: A Blueprint Debate Paradigm for Multimodal Reasoning

論文の概要: A Picture Is Worth a Graph: A Blueprint Debate Paradigm for Multimodal Reasoning

arxiv url: http://arxiv.org/abs/2403.14972v2
Date: Tue, 6 Aug 2024 09:45:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-07 19:12:22.010541
Title: A Picture Is Worth a Graph: A Blueprint Debate Paradigm for Multimodal Reasoning
Title（参考訳）: マルチモーダル推論のためのブループリントの議論パラダイム
Authors: Changmeng Zheng, Dayong Liang, Wengyu Zhang, Xiao-Yong Wei, Tat-Seng Chua, Qing Li,
Abstract要約: この研究は、過剰な要約による意見の自明化と、画像から導入された散逸した概念による焦点の転換という2つの主要な課題に対処する。この問題に対処するため,BDoG (Blueprint Debate on Graphs) と呼ばれる演目的(トップダウン)な議論手法を提案する。 BDoGでは、世界レベルの要約による意見の自明化を防止するために、ブループリントグラフに限定して議論を行う。さらに、BDoGはグラフ内の枝に証拠を格納することで、頻繁だが無関係な概念によって引き起こされる混乱を緩和する。
参考スコア（独自算出の注目度）: 53.35861580821777
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper presents a pilot study aimed at introducing multi-agent debate into multimodal reasoning. The study addresses two key challenges: the trivialization of opinions resulting from excessive summarization and the diversion of focus caused by distractor concepts introduced from images. These challenges stem from the inductive (bottom-up) nature of existing debating schemes. To address the issue, we propose a deductive (top-down) debating approach called Blueprint Debate on Graphs (BDoG). In BDoG, debates are confined to a blueprint graph to prevent opinion trivialization through world-level summarization. Moreover, by storing evidence in branches within the graph, BDoG mitigates distractions caused by frequent but irrelevant concepts. Extensive experiments validate that BDoG is able to achieve state-of-the-art results in ScienceQA and MMBench with significant improvements over previous methods. The source code can be accessed at https://github.com/thecharm/BDoG.
Abstract（参考訳）: 本稿では,マルチモーダル推論にマルチエージェントの議論を導入することを目的としたパイロット研究を提案する。この研究は、過剰な要約による意見の自明化と、画像から導入された散逸した概念による焦点の転換という2つの主要な課題に対処する。これらの課題は、既存の議論スキームの帰納的(ボットアップ)性に起因している。この問題に対処するため,BDoG (Blueprint Debate on Graphs) と呼ばれる演目的(トップダウン)な議論手法を提案する。 BDoGでは、議論は世界レベルの要約による意見の自明化を防ぐために青写真グラフに限られる。さらに、グラフ内の枝にエビデンスを格納することで、BDoGは頻繁だが無関係な概念によって引き起こされる散逸を緩和する。大規模な実験により、BDoGはScienceQAとMMBenchで最先端の結果を得ることができ、従来の方法よりも大幅に改善されている。ソースコードはhttps://github.com/thecharm/BDoGでアクセスできる。

関連論文リスト

Imagination Helps Visual Reasoning, But Not Yet in Latent Space [65.80396132375571]
因果関係分析を用いた潜伏推論の有効性について検討した。潜在トークンが限られた視覚情報を符号化し、高い類似性を示すことを示す。 CapImagineという簡単な代替案を提案し、テキストを明示的に想像するようにモデルに教える。
論文参考訳（メタデータ） (2026-02-26T08:56:23Z)
Render-of-Thought: Rendering Textual Chain-of-Thought as Images for Visual Latent Reasoning [23.364264811510598]
CoT(Chain-of-Thought)の促進により、LLM(Large Language Models)の推論能力の解放に成功した。 Render-of-Thought (RoT) は、画像にテキストステップを描画することで推論チェーンを再構築する最初のフレームワークである。提案手法は, 明示的なCoTに比べて3～4倍のトークン圧縮と相当な推論高速化を実現する。
論文参考訳（メタデータ） (2026-01-21T08:09:25Z)
SmartSwitch: Advancing LLM Reasoning by Overcoming Underthinking via Promoting Deeper Thought Exploration [49.290631188365786]
ロングチェーン・オブ・シークレット(LongCoT)は、複雑な推論タスクにおいて、大規模言語モデルによって達成された最近のブレークスルーの中心である。本稿では,SmartSwitch推論フレームワークという,シンプルで効果的な推論手法を提案する。このフレームワークは、プラグイン・アンド・プレイソリューションとして、どんな大きな言語モデルにも簡単に統合できる。
論文参考訳（メタデータ） (2025-10-22T16:56:01Z)
Unifying Deductive and Abductive Reasoning in Knowledge Graphs with Masked Diffusion Model [64.31242163019242]
帰納的推論と帰納的推論は知識グラフを解析するための重要なパラダイムである。 DARKと呼ばれる知識グラフにおける帰納的・帰納的推論のための統一的なフレームワークを提案する。 DARKは, 帰納的推論タスクと帰納的推論タスクの両方において, 最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-10-13T14:34:57Z)
A Survey on Latent Reasoning [100.54120559169735]
大きな言語モデル(LLM)は印象的な推論機能を示している。中間ステップを言語化するCoT推論は、モデルの表現帯域幅を制限する。潜在的推論は、モデルの連続的な隠れ状態に完全にマルチステップの推論を実行することで、このボトルネックに対処する。
論文参考訳（メタデータ） (2025-07-08T17:29:07Z)
Argus: Vision-Centric Reasoning with Grounded Chain-of-Thought [83.89629325805505]
我々は、新しい視覚的注意基盤機構で制限に対処するためにArgusを導入する。提案手法では、物体中心の接地を視覚的連鎖信号として採用し、より効果的な目標条件付き視覚的注意を可能にする。
論文参考訳（メタデータ） (2025-05-29T17:59:56Z)
LongPerceptualThoughts: Distilling System-2 Reasoning for System-1 Perception [105.78609483419115]
我々はLongPerceptualThoughtsを紹介した。これは知覚タスクのための30Kの長所のトレースを持つ新しい合成データセットである。本稿では,検証可能な複数の質問を最初に合成する新しい3段階データ合成フレームワークを提案する。既存の視覚的推論データ生成手法よりも顕著な改善が示された。
論文参考訳（メタデータ） (2025-04-21T18:10:38Z)
Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning [53.790502697674754]
本稿では、画像入力を重要な推論段階に移行する戦略であるTake-Allong Visual Conditioning (TVC)を提案する。 TVCは、推論を通して視覚的なコンポーネントへの注意を維持するのに役立つ。提案手法は,5つの数学的推論ベンチマークにおいて,最先端の性能を平均で達成する。
論文参考訳（メタデータ） (2025-03-17T16:45:12Z)
Unveiling the Magic of Code Reasoning through Hypothesis Decomposition and Amendment [54.62926010621013]
我々は,大規模言語モデルの推論能力に対する新たな視点を提供するために,新しいタスクであるコード推論を導入する。論理的推論の確立した形式に基づいて3つのメタベンチマークを要約し、8つの特定のベンチマークタスクにインスタンス化する。本稿では,人間の複雑な問題解決手法に触発された新たな経路探索パイプラインを提案する。
論文参考訳（メタデータ） (2025-02-17T10:39:58Z)
Causal Graphs Meet Thoughts: Enhancing Complex Reasoning in Graph-Augmented LLMs [4.701165676405066]
関連情報を検索するだけでなく、因果推論や説明可能性の提供も重要である。本稿では,大きな知識グラフをフィルタして原因効果エッジを強調する新しいパイプラインを提案する。医学的質問応答タスクの実験では、一貫した利得を示し、最大10%の絶対的な改善がある。
論文参考訳（メタデータ） (2025-01-24T19:31:06Z)
Breaking Event Rumor Detection via Stance-Separated Multi-Agent Debate [21.342632695285364]
噂検出のために大きな言語モデル(LLM)を活用することは、大きな約束である。本稿では,S2MAD(Stance Separated Multi-Agent Debate)を提案する。提案手法は性能の点で最先端の手法より優れている。
論文参考訳（メタデータ） (2024-12-06T08:52:30Z)
Boosting of Thoughts: Trial-and-Error Problem Solving with Large Language Models [48.43678591317425]
Boosting of Thoughts (BoT)は、大規模言語モデルによる問題解決のための自動プロンプトフレームワークである。我々は,BoTが他の先進的なプロンプト手法よりも高い,あるいは同等の問題解決率を達成することを示す。
論文参考訳（メタデータ） (2024-02-17T00:13:36Z)
DebateKG: Automatic Policy Debate Case Creation with Semantic Knowledge Graphs [0.0]
本稿では,Argumentative Semantic Knowledge Graphs上で,制約付き最短経路トラバーサルを用いて効果的な議論ケースを構築することができることを示す。 53180の新しい例を導入することで、DebateSumを大幅に改善しました。政策論争の事例を生成する文脈において、どの知識グラフが優れているかを評価するためのユニークな方法を作成する。
論文参考訳（メタデータ） (2023-07-09T04:19:19Z)
Visual Chain of Thought: Bridging Logical Gaps with Multimodal Infillings [61.04460792203266]
本稿では, 逐次データ内の論理的ギャップを埋めるために, 視覚言語による接地を促進させる, チェーン・オブ・シントを利用する新しい手法であるVCoTを紹介する。本手法は,下流タスクの論理的ギャップを低減するために,一貫した情報と新しい情報を加える合成マルチモーダル埋め込みを生成するために視覚誘導を用いる。
論文参考訳（メタデータ） (2023-05-03T17:58:29Z)
Explaining Image Classification with Visual Debates [26.76139301708958]
本稿では,特定の予測を行うための連続画像分類器の推論の理解と説明のための新しい議論フレームワークを提案する。我々の枠組みは、対戦相手が見逃した推論の道筋を拾い上げることで、競技者が様々な議論を行うよう促す。我々は、幾何学的SHAPEおよびMNISTデータセット上で、視覚的議論を実証し、評価する(実用的な実現)。
論文参考訳（メタデータ） (2022-10-17T12:35:52Z)
CLEAR: Generative Counterfactual Explanations on Graphs [60.30009215290265]
グラフ上での対実的説明生成の問題について検討する。グラフに関する反実的な説明を調査する研究はいくつかあるが、この問題の多くの課題はまだ十分に適応されていない。本稿では,グラフレベルの予測モデルに対して,グラフ上の反実的説明を生成するための新しいフレームワークCLEARを提案する。
論文参考訳（メタデータ） (2022-10-16T04:35:32Z)
Deep Image Deblurring: A Survey [165.32391279761006]
低レベルのコンピュータビジョンにおいて、デブロアリングは古典的な問題であり、ぼやけた入力画像からシャープなイメージを復元することを目的としている。近年のディープラーニングの進歩は、この問題の解決に大きな進歩をもたらした。
論文参考訳（メタデータ） (2022-01-26T01:31:30Z)
Jointly Attacking Graph Neural Network and its Explanations [50.231829335996814]
グラフニューラルネットワーク(GNN)は多くのグラフ関連タスクのパフォーマンスを向上した。近年の研究では、GNNは敵の攻撃に対して非常に脆弱であることが示されており、敵はグラフを変更することでGNNの予測を誤認することができる。本稿では、GNNモデルとその説明の両方を同時に利用して攻撃できる新しい攻撃フレームワーク(GEAttack)を提案する。
論文参考訳（メタデータ） (2021-08-07T07:44:33Z)
On Generating Plausible Counterfactual and Semi-Factual Explanations for Deep Learning [15.965337956587373]
PlausIble Exceptionality-based Contrastive Explanations (PIECE) は、テストイメージにおけるすべての例外的特徴を、対実クラスの観点から正規化するように修正する。 2つの制御された実験は、PIECEを文献上の他のものと比較し、PIECEはいくつかの尺度において最も妥当な反事実を生成するだけでなく、最良の半事実も生成することを示した。
論文参考訳（メタデータ） (2020-09-10T14:48:12Z)
Debate Dynamics for Human-comprehensible Fact-checking on Knowledge Graphs [27.225048123690243]
本稿では,議論力学に基づく知識グラフのファクトチェック手法を提案する。基礎となる考え方は、2つの強化学習エージェント間の議論ゲームとして三重分類のタスクを設定することである。提案手法では,知識グラフの対話的推論が可能であり,ユーザが追加の議論を提起したり,共通感覚推論や外部情報を考慮した議論を評価できる。
論文参考訳（メタデータ） (2020-01-09T15:19:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。