Fugu-MT 論文翻訳(概要): Thinking Like an Expert:Multimodal Hypergraph-of-Thought (HoT) Reasoning to boost Foundation Modals

論文の概要: Thinking Like an Expert:Multimodal Hypergraph-of-Thought (HoT) Reasoning to boost Foundation Modals

arxiv url: http://arxiv.org/abs/2308.06207v1
Date: Fri, 11 Aug 2023 16:13:04 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-14 13:37:37.280131
Title: Thinking Like an Expert:Multimodal Hypergraph-of-Thought (HoT) Reasoning to boost Foundation Modals
Title（参考訳）: 専門家のように考える:マルチモーダルな考えのハイパーグラフ(ホット)推論による基礎的モダルの強化
Authors: Fanglong Yao, Changyuan Tian, Jintao Liu, Zequn Zhang, Qing Liu, Li Jin, Shuchao Li, Xiaoyu Li, Xian Sun
Abstract要約: CoT(Chain-of-Thought)技術は,基礎モデルの推論能力を高めるための有効な手法の1つである。本稿では,高次マルチホップ推論のエキスパートレベル能力を有する基礎モデルを実現するために,マルチモーダルなハイパーグラフ・オブ・ソート推論パラダイムを提案する。
参考スコア（独自算出の注目度）: 15.372421458422489
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reasoning ability is one of the most crucial capabilities of a foundation model, signifying its capacity to address complex reasoning tasks. Chain-of-Thought (CoT) technique is widely regarded as one of the effective methods for enhancing the reasoning ability of foundation models and has garnered significant attention. However, the reasoning process of CoT is linear, step-by-step, similar to personal logical reasoning, suitable for solving general and slightly complicated problems. On the contrary, the thinking pattern of an expert owns two prominent characteristics that cannot be handled appropriately in CoT, i.e., high-order multi-hop reasoning and multimodal comparative judgement. Therefore, the core motivation of this paper is transcending CoT to construct a reasoning paradigm that can think like an expert. The hyperedge of a hypergraph could connect various vertices, making it naturally suitable for modelling high-order relationships. Inspired by this, this paper innovatively proposes a multimodal Hypergraph-of-Thought (HoT) reasoning paradigm, which enables the foundation models to possess the expert-level ability of high-order multi-hop reasoning and multimodal comparative judgement. Specifically, a textual hypergraph-of-thought is constructed utilizing triple as the primary thought to model higher-order relationships, and a hyperedge-of-thought is generated through multi-hop walking paths to achieve multi-hop inference. Furthermore, we devise a visual hypergraph-of-thought to interact with the textual hypergraph-of-thought via Cross-modal Co-Attention Graph Learning for multimodal comparative verification. Experimentations on the ScienceQA benchmark demonstrate the proposed HoT-based T5 outperforms CoT-based GPT3.5 and chatGPT, which is on par with CoT-based GPT4 with a lower model size.
Abstract（参考訳）: 推論能力は基礎モデルの最も重要な能力の1つであり、複雑な推論タスクに対処する能力を示す。 CoT(Chain-of-Thought)技術は,基礎モデルの推論能力を向上する有効な手法の1つであると考えられ,注目されている。しかし、CoTの推論過程は線形でステップバイステップであり、一般問題ややや複雑な問題を解くのに適している。それとは対照的に、専門家の思考パターンは、cotで適切に処理できない2つの顕著な特徴、すなわち高階マルチホップ推論とマルチモーダル比較判断を持つ。したがって,本論文の中核となる動機は,専門家のように考えることができる推論パラダイムを構築するためにCoTを超越することである。ハイパーグラフのハイパーエッジは様々な頂点を接続することができ、自然に高次関係のモデリングに適している。本論文は,高次マルチホップ推論とマルチモーダル比較判定のエキスパートレベル能力を有する基礎モデルを実現する,マルチモーダル・ハイパーグラフ・オブ・ソート(HoT)推論パラダイムを革新的に提案する。具体的には、三重項を用いて高次関係をモデル化する第一考えとしてテクスト的ハイパーグラフを構築し、マルチホップ歩行経路を介してハイパーエッジ・オブ・思考を生成してマルチホップ推論を実現する。さらに,マルチモーダル比較検証のためのクロスモーダルコアテンショングラフ学習を通じて,テキストハイパーグラフと対話するための視覚的ハイパーグラフを考案する。 ScienceQAベンチマークの実験では、提案されたHoTベースのT5は、CoTベースのGPT3.5とチャットGPTよりも優れており、モデルサイズが小さいCoTベースのGPT4と同等である。

関連論文リスト

The Challenge of Teaching Reasoning to LLMs Without RL or Distillation [31.973226821366325]
推論可能な言語モデルは、長く明示的なChain-of-Thoughtトレースを生成することで、様々な複雑なタスクにおいて最先端のパフォーマンスを達成する。我々は、プロンプトや最小限のチューニングのみを用いて、ベースモデルでCoTを誘導できるかどうかを問う。結果として得られたモデルは、はるかに大きなtexttQwen2.5-Math-72B-Instruct よりも優れており、いくつかの高品質な例が強力な推論能力を解き放つ可能性があることを示している。
論文参考訳（メタデータ） (2025-07-14T01:14:50Z)
CoT is Not True Reasoning, It Is Just a Tight Constraint to Imitate: A Theory Perspective [0.0]
CoT(Chain-of-Thought)の促進により、大規模言語モデルの性能が明らかに向上した。チェーン・オブ・サートは、大規模言語モデルに推論の形式を模倣するように誘導する強力な構造的制約として機能する。
論文参考訳（メタデータ） (2025-06-03T13:45:01Z)
Reasoning by Superposition: A Theoretical Perspective on Chain of Continuous Thought [56.71873693264532]
連続CoTのD$ステップを持つ2層トランスが有向グラフ到達可能性問題を解くことができることを証明した。我々の構成では、各連続思考ベクトルは複数の探索フロンティアを同時に符号化する重ね合わせ状態である。
論文参考訳（メタデータ） (2025-05-18T18:36:53Z)
AdaR1: From Long-CoT to Hybrid-CoT via Bi-Level Adaptive Reasoning Optimization [86.56120216550232]
適応的で効率的な推論のための新しい2段階のフレームワークを提案する。まず、長いCoTモデルと短いCoTモデルを組み合わせてハイブリッド推論モデルを構築する。第二に、モデルに適切な推論スタイルを選択するための2段階の選好訓練を適用する。
論文参考訳（メタデータ） (2025-04-30T14:01:45Z)
Weight-of-Thought Reasoning: Exploring Neural Network Weights for Enhanced LLM Reasoning [1.9797215742507548]
Weight-of-Thought(WoT)推論は、推論の前にニューラルネットワークの重みを調べて推論経路を特定する手法である。 WoTは、特に複雑な問題に対して、従来の手法よりも優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-04-14T18:56:29Z)
Why Reasoning Matters? A Survey of Advancements in Multimodal Reasoning (v1) [66.51642638034822]
推論は人間の知性の中心であり、多様なタスクにまたがる構造化された問題解決を可能にする。大規模言語モデル(LLM)の最近の進歩は、算術、常識、記号領域における推論能力を大幅に向上させてきた。本稿では,テキストおよびマルチモーダルLLMにおける推論手法の簡潔かつ洞察に富んだ概要について述べる。
論文参考訳（メタデータ） (2025-04-04T04:04:56Z)
Can Atomic Step Decomposition Enhance the Self-structured Reasoning of Multimodal Large Models? [68.72260770171212]
本稿では,最小のセマンティック・アトミックステップから構成される自己構造的思考の連鎖(SCoT)のパラダイムを提案する。本手法は, 複雑なタスクに対して認知的CoT構造を生成するだけでなく, 過度に考える現象を緩和する。我々は,提案したAtomThinkがベースラインMLLMの性能を大幅に向上することを示すため,広範囲な実験を行った。
論文参考訳（メタデータ） (2025-03-08T15:23:47Z)
Path-of-Thoughts: Extracting and Following Paths for Robust Relational Reasoning with Large Language Models [62.12031550252253]
本稿では,関係推論に対処するための新しいフレームワークであるPath-of-Thoughts(PoT)を提案する。 PoTは、問題コンテキスト内の重要なエンティティ、関係、属性を識別するタスクに依存しないグラフを効率的に抽出する。 PoTは、提案された質問に対応するグラフ内の関連する推論連鎖を特定し、潜在的な答えの推論を容易にする。
論文参考訳（メタデータ） (2024-12-23T20:27:12Z)
AtomThink: A Slow Thinking Framework for Multimodal Mathematical Reasoning [70.95645743670062]
AtomThinkは、長い思考の連鎖(CoT)をステップバイステップで構築するフレームワークであり、複雑な推論を行うためのMLLMを導く。 AtomMATHは、長いCoTの大規模マルチモーダルデータセットであり、数学的タスクの原子能力評価指標である。 AtomThinkはベースラインMLLMの性能を大幅に改善し、MathVistaでは50%、MathVerseでは120%の精度向上を実現している。
論文参考訳（メタデータ） (2024-11-18T11:54:58Z)
Markov Chain of Thought for Efficient Mathematical Reasoning [10.678633785012691]
多段階の思考の連鎖(CoT)は、推論ステップとタスク固有のアクションの論理構造から恩恵を受ける。我々は、標準多段階CoTを思考のマルコフ連鎖(MCoT)として概念化する。
論文参考訳（メタデータ） (2024-10-23T07:53:29Z)
Supervised Chain of Thought [5.389461633686935]
Chain of Thought (CoT)は複雑な推論タスクを解決するための有望なアプローチを提供する。ワンプロンプト・フォー・オールアプローチは、正しい推論ステップを生成するためにモデルに重大な課題をもたらす。タスク固有の監督が、プロンプト空間を正確にナビゲートし、最適な性能を達成するためにいかに重要であるかを示す。
論文参考訳（メタデータ） (2024-10-18T06:25:27Z)
Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文参考訳（メタデータ） (2024-04-24T17:59:48Z)
Boosting the Power of Small Multimodal Reasoning Models to Match Larger Models with Self-Consistency Training [49.3242278912771]
マルチモーダル推論(multimodal reasoning)は、複数のモーダルをまたいだモデルによる質問に答える難しいタスクである。既存のアプローチでは、言語と視覚のモダリティを2段階の推論フレームワークに組み込むことで進歩している。 MC-CoTは,複数の合理性と回答を生成し,投票プロセスを通じて最も正確な選択を行う自己整合性学習戦略である。
論文参考訳（メタデータ） (2023-11-23T17:09:48Z)
Beyond Chain-of-Thought, Effective Graph-of-Thought Reasoning in Language Models [74.40196814292426]
本稿では,人間の思考過程をチェーンとしてだけでなく,グラフとしてモデル化するグラフ・オブ・ソート(GoT)推論を提案する。 GoTは人間の思考の連続しない性質を捉え、思考プロセスのより現実的なモデリングを可能にします。テキストのみの推論タスクとマルチモーダル推論タスクでGoTの性能を評価する。
論文参考訳（メタデータ） (2023-05-26T02:15:09Z)
Visual Chain of Thought: Bridging Logical Gaps with Multimodal Infillings [61.04460792203266]
本稿では, 逐次データ内の論理的ギャップを埋めるために, 視覚言語による接地を促進させる, チェーン・オブ・シントを利用する新しい手法であるVCoTを紹介する。本手法は,下流タスクの論理的ギャップを低減するために,一貫した情報と新しい情報を加える合成マルチモーダル埋め込みを生成するために視覚誘導を用いる。
論文参考訳（メタデータ） (2023-05-03T17:58:29Z)
Multimodal Chain-of-Thought Reasoning in Language Models [94.70184390935661]
言語(テキスト)と視覚(画像)のモダリティを2段階のフレームワークに組み込んだマルチモーダルCoTを提案する。その結果,ScienceQA と A-OKVQA のベンチマークは,提案手法の有効性を示した。
論文参考訳（メタデータ） (2023-02-02T07:51:19Z)
Multimodal Analogical Reasoning over Knowledge Graphs [43.76819868795101]
本稿では,知識グラフに対するマルチモーダルな類似推論という新たな課題を紹介する。具体的には、マルチモーダルなアナロジカル推論データセット(MARS)とマルチモーダルな知識グラフMarKGを構築する。本稿では,構造写像理論を動機としたTransformer (MarT) を用いたモデル非依存型マルチモーダル類似推論フレームワークを提案する。
論文参考訳（メタデータ） (2022-10-01T16:24:15Z)
Text and Patterns: For Effective Chain of Thought, It Takes Two to Tango [11.344587937052697]
この研究は、大規模言語モデルにおける推論機構のより深い理解に向けた予備的なステップを開始する。私たちの作業は、シンボル、パターン、テキストというプロンプト内のコンポーネントの1つを除いて、モデルをクエリすることに集中しています。我々は、テキストがパターンに常識的な知識と意味を与えると仮定する。
論文参考訳（メタデータ） (2022-09-16T02:54:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。