論文の概要: A Picture Is Worth a Graph: A Blueprint Debate Paradigm for Multimodal Reasoning
- arxiv url: http://arxiv.org/abs/2403.14972v2
- Date: Tue, 6 Aug 2024 09:45:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-07 19:12:22.010541
- Title: A Picture Is Worth a Graph: A Blueprint Debate Paradigm for Multimodal Reasoning
- Title(参考訳): マルチモーダル推論のためのブループリントの議論パラダイム
- Authors: Changmeng Zheng, Dayong Liang, Wengyu Zhang, Xiao-Yong Wei, Tat-Seng Chua, Qing Li,
- Abstract要約: この研究は、過剰な要約による意見の自明化と、画像から導入された散逸した概念による焦点の転換という2つの主要な課題に対処する。
この問題に対処するため,BDoG (Blueprint Debate on Graphs) と呼ばれる演目的(トップダウン)な議論手法を提案する。
BDoGでは、世界レベルの要約による意見の自明化を防止するために、ブループリントグラフに限定して議論を行う。さらに、BDoGはグラフ内の枝に証拠を格納することで、頻繁だが無関係な概念によって引き起こされる混乱を緩和する。
- 参考スコア(独自算出の注目度): 53.35861580821777
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a pilot study aimed at introducing multi-agent debate into multimodal reasoning. The study addresses two key challenges: the trivialization of opinions resulting from excessive summarization and the diversion of focus caused by distractor concepts introduced from images. These challenges stem from the inductive (bottom-up) nature of existing debating schemes. To address the issue, we propose a deductive (top-down) debating approach called Blueprint Debate on Graphs (BDoG). In BDoG, debates are confined to a blueprint graph to prevent opinion trivialization through world-level summarization. Moreover, by storing evidence in branches within the graph, BDoG mitigates distractions caused by frequent but irrelevant concepts. Extensive experiments validate that BDoG is able to achieve state-of-the-art results in ScienceQA and MMBench with significant improvements over previous methods. The source code can be accessed at https://github.com/thecharm/BDoG.
- Abstract(参考訳): 本稿では,マルチモーダル推論にマルチエージェントの議論を導入することを目的としたパイロット研究を提案する。
この研究は、過剰な要約による意見の自明化と、画像から導入された散逸した概念による焦点の転換という2つの主要な課題に対処する。
これらの課題は、既存の議論スキームの帰納的(ボットアップ)性に起因している。
この問題に対処するため,BDoG (Blueprint Debate on Graphs) と呼ばれる演目的(トップダウン)な議論手法を提案する。
BDoGでは、議論は世界レベルの要約による意見の自明化を防ぐために青写真グラフに限られる。
さらに、グラフ内の枝にエビデンスを格納することで、BDoGは頻繁だが無関係な概念によって引き起こされる散逸を緩和する。
大規模な実験により、BDoGはScienceQAとMMBenchで最先端の結果を得ることができ、従来の方法よりも大幅に改善されている。
ソースコードはhttps://github.com/thecharm/BDoGでアクセスできる。
関連論文リスト
- Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z) - Boosting of Thoughts: Trial-and-Error Problem Solving with Large
Language Models [48.43678591317425]
Boosting of Thoughts (BoT)は、大規模言語モデルによる問題解決のための自動プロンプトフレームワークである。
我々は,BoTが他の先進的なプロンプト手法よりも高い,あるいは同等の問題解決率を達成することを示す。
論文 参考訳(メタデータ) (2024-02-17T00:13:36Z) - Explainable Topic-Enhanced Argument Mining from Heterogeneous Sources [33.62800469391487]
核エネルギーのような物議を醸す標的が与えられれば、議論の採鉱は異質な情報源から議論のテキストを識別することを目的としている。
現在のアプローチでは、ターゲット関連セマンティック情報を議論テキストに統合するより良い方法を模索している。
提案手法は, トピック・エンハンスな議論マイニング手法である。
論文 参考訳(メタデータ) (2023-07-22T17:26:55Z) - DebateKG: Automatic Policy Debate Case Creation with Semantic Knowledge
Graphs [0.0]
本稿では,Argumentative Semantic Knowledge Graphs上で,制約付き最短経路トラバーサルを用いて効果的な議論ケースを構築することができることを示す。
53180の新しい例を導入することで、DebateSumを大幅に改善しました。
政策論争の事例を生成する文脈において、どの知識グラフが優れているかを評価するためのユニークな方法を作成する。
論文 参考訳(メタデータ) (2023-07-09T04:19:19Z) - Causal Triplet: An Open Challenge for Intervention-centric Causal
Representation Learning [98.78136504619539]
Causal Tripletは、視覚的に複雑なシーンを特徴とする因果表現学習ベンチマークである。
この結果から,不整合表現やオブジェクト中心表現の知識によって構築されたモデルが,分散表現よりもはるかに優れていることを示す。
論文 参考訳(メタデータ) (2023-01-12T17:43:38Z) - Pearl Causal Hierarchy on Image Data: Intricacies & Challenges [17.103787431518683]
多くの研究者は、AI/ML研究の知的システムという究極の目標の足掛かりとして、パールの因果関係に関する反事実理論を支持している。
この研究は、Pearl Causal Hierarchy(PCH)が画像データ上でどのように理解できるかを、いくつかの複雑さに関する洞察を提供することで示している。
論文 参考訳(メタデータ) (2022-12-23T19:59:28Z) - Explaining Image Classification with Visual Debates [26.76139301708958]
本稿では,特定の予測を行うための連続画像分類器の推論の理解と説明のための新しい議論フレームワークを提案する。
我々の枠組みは、対戦相手が見逃した推論の道筋を拾い上げることで、競技者が様々な議論を行うよう促す。
我々は、幾何学的SHAPEおよびMNISTデータセット上で、視覚的議論を実証し、評価する(実用的な実現)。
論文 参考訳(メタデータ) (2022-10-17T12:35:52Z) - CLEAR: Generative Counterfactual Explanations on Graphs [60.30009215290265]
グラフ上での対実的説明生成の問題について検討する。
グラフに関する反実的な説明を調査する研究はいくつかあるが、この問題の多くの課題はまだ十分に適応されていない。
本稿では,グラフレベルの予測モデルに対して,グラフ上の反実的説明を生成するための新しいフレームワークCLEARを提案する。
論文 参考訳(メタデータ) (2022-10-16T04:35:32Z) - Deep Image Deblurring: A Survey [165.32391279761006]
低レベルのコンピュータビジョンにおいて、デブロアリングは古典的な問題であり、ぼやけた入力画像からシャープなイメージを復元することを目的としている。
近年のディープラーニングの進歩は、この問題の解決に大きな進歩をもたらした。
論文 参考訳(メタデータ) (2022-01-26T01:31:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。