Fugu-MT 論文翻訳(概要): Visual-O1: Understanding Ambiguous Instructions via Multi-modal Multi-turn Chain-of-thoughts Reasoning

論文の概要: Visual-O1: Understanding Ambiguous Instructions via Multi-modal Multi-turn Chain-of-thoughts Reasoning

arxiv url: http://arxiv.org/abs/2410.03321v1
Date: Fri, 4 Oct 2024 11:18:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-02 22:58:37.998640
Title: Visual-O1: Understanding Ambiguous Instructions via Multi-modal Multi-turn Chain-of-thoughts Reasoning
Title（参考訳）: Visual-O1:マルチモーダル・マルチターン・チェーン・オブ・シンセサイティングによる曖昧な指示を理解する
Authors: Minheng Ni, Yutao Fan, Lei Zhang, Wangmeng Zuo,
Abstract要約: 本稿では,マルチモーダルなマルチターン・チェーン・オブ・シークレット・推論・フレームワークであるVisual-O1を提案する。人間のマルチモーダルなマルチターン推論をシミュレートし、高度にインテリジェントなモデルに即時体験を提供する。私たちの研究は、不確実性と曖昧さのある現実のシナリオにおいて、人工知能が人間のように機能する可能性を強調します。
参考スコア（独自算出の注目度）: 53.45295657891099
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: As large-scale models evolve, language instructions are increasingly utilized in multi-modal tasks. Due to human language habits, these instructions often contain ambiguities in real-world scenarios, necessitating the integration of visual context or common sense for accurate interpretation. However, even highly intelligent large models exhibit significant performance limitations on ambiguous instructions, where weak reasoning abilities of disambiguation can lead to catastrophic errors. To address this issue, this paper proposes Visual-O1, a multi-modal multi-turn chain-of-thought reasoning framework. It simulates human multi-modal multi-turn reasoning, providing instantial experience for highly intelligent models or empirical experience for generally intelligent models to understand ambiguous instructions. Unlike traditional methods that require models to possess high intelligence to understand long texts or perform lengthy complex reasoning, our framework does not significantly increase computational overhead and is more general and effective, even for generally intelligent models. Experiments show that our method not only significantly enhances the performance of models of different intelligence levels on ambiguous instructions but also improves their performance on general datasets. Our work highlights the potential of artificial intelligence to work like humans in real-world scenarios with uncertainty and ambiguity. We will release our data and code.
Abstract（参考訳）: 大規模モデルが進化するにつれて、言語命令はマルチモーダルタスクでますます活用される。人間の言語の習慣のため、これらの命令はしばしば現実のシナリオにおける曖昧さを含み、正確な解釈のために視覚的文脈や常識の統合を必要とする。しかし、高度にインテリジェントな大規模モデルでさえ、曖昧な命令に対して顕著な性能制限を示し、曖昧さの弱い推論能力は破滅的な誤りを引き起こす可能性がある。本稿では,マルチモーダルなマルチターン・チェーン・オブ・シークレット推論フレームワークであるVisual-O1を提案する。人間のマルチモーダルなマルチターン推論をシミュレートし、高度にインテリジェントなモデルに対する瞬間的な経験や、不明瞭な指示を理解するための一般的なインテリジェントなモデルに対する経験を提供する。長いテキストを理解したり、長い複雑な推論を行うために高知能なモデルを必要とする従来の手法とは異なり、我々のフレームワークは計算オーバーヘッドを著しく増加させておらず、一般的にはインテリジェントなモデルであってもより汎用的で効果的である。実験により,本手法は,曖昧な命令に対して異なるインテリジェンスレベルのモデルの性能を著しく向上するだけでなく,汎用データセット上での性能も向上することが示された。私たちの研究は、不確実性と曖昧さのある現実のシナリオにおいて、人工知能が人間のように機能する可能性を強調します。データとコードを公開します。

関連論文リスト

Plug-and-Play Clarifier: A Zero-Shot Multimodal Framework for Egocentric Intent Disambiguation [60.63465682731118]
エゴセントリックなAIエージェントのパフォーマンスは、基本的にマルチモーダルな意図のあいまいさによって制限される。ゼロショットでモジュラーなフレームワークであるPlug-and-Play Clarifierを導入し、問題を個別に解決可能なサブタスクに分解する。我々のフレームワークは,小言語モデルの意図的明確化性能を約30%向上させ,より大きな言語モデルとの競争力を高める。
論文参考訳（メタデータ） (2025-11-12T04:28:14Z)
Hop, Skip, and Overthink: Diagnosing Why Reasoning Models Fumble during Multi-Hop Analysis [3.711555701154055]
モデルの推論と実践的なAIチャットボットへの統合は、高度な数学、深い探索、そして抽出された質問応答問題の解決にブレークスルーをもたらした。しかし、これらのモデルが汎用言語モデル以上の幻覚を与える理由についての完全な理解が欠落している。本研究では,マルチホップ質問応答タスクにおける現代言語モデルの推論失敗を系統的に解明する。
論文参考訳（メタデータ） (2025-08-06T17:58:36Z)
MOMENTS: A Comprehensive Multimodal Benchmark for Theory of Mind [28.25540132218273]
心の理論は、社会的にインテリジェントなマルチモーダルエージェントを構築するために不可欠である。マルチモーダルな大規模言語モデルのToM能力を評価するためのベンチマークであるMOMENTSを紹介する。
論文参考訳（メタデータ） (2025-07-06T15:06:30Z)
HumanOmniV2: From Understanding to Omni-Modal Reasoning with Context [26.506057678587176]
不適切な文脈理解は、モデルがマルチモーダルな文脈を誤って解釈し、誤った答えをもたらすときに起こりうる。ショートカット問題は、モデルがマルチモーダル入力において重要な手がかりを見落とし、マルチモーダル情報を考慮せずにクエリに直接対処する場合に発生する。我々は、複雑な人間の意図や感情を理解するためのモデルを評価することを目的とした、Omni-modalベンチマークIntentBenchを紹介する。
論文参考訳（メタデータ） (2025-06-26T14:01:03Z)
Towards a Deeper Understanding of Reasoning Capabilities in Large Language Models [0.017476232824732776]
本研究は, 自己回帰, 突然変異, 計画の有効性を, エージェントの適応能力を試験するための技術として体系的に評価する。動的環境における様々なオープンソース言語モデルを用いて実験を行う。より大きなモデルは一般的により小さなモデルよりも優れていますが、戦略的なプロンプトはこのパフォーマンスギャップを埋めることができます。
論文参考訳（メタデータ） (2025-05-15T17:53:47Z)
Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models [79.52467430114805]
推論は知性の中心にあり、決定し、結論を導き、ドメインをまたいで一般化する能力を形成する。人工知能において、システムがオープンで不確実でマルチモーダルな環境でますます機能するにつれて、推論は堅牢で適応的な行動を可能にするために不可欠となる。大規模マルチモーダル推論モデル(LMRM)は、テキスト、画像、オーディオ、ビデオなどのモダリティを統合し、複雑な推論機能をサポートする、有望なパラダイムとして登場した。
論文参考訳（メタデータ） (2025-05-08T03:35:23Z)
VisualPuzzles: Decoupling Multimodal Reasoning Evaluation from Domain Knowledge [45.20691825097646]
私たちはビジュアル推論をターゲットとしたベンチマークであるVisualPuzzlesを紹介します。 VisualPuzzlesは5つのカテゴリにまたがる多様な質問で構成されている。
論文参考訳（メタデータ） (2025-04-14T15:50:39Z)
Why Reasoning Matters? A Survey of Advancements in Multimodal Reasoning (v1) [66.51642638034822]
推論は人間の知性の中心であり、多様なタスクにまたがる構造化された問題解決を可能にする。大規模言語モデル(LLM)の最近の進歩は、算術、常識、記号領域における推論能力を大幅に向上させてきた。本稿では,テキストおよびマルチモーダルLLMにおける推論手法の簡潔かつ洞察に富んだ概要について述べる。
論文参考訳（メタデータ） (2025-04-04T04:04:56Z)
R1-Onevision: Advancing Generalized Multimodal Reasoning through Cross-Modal Formalization [26.757458496178437]
視覚知覚と深い推論のギャップを埋めるために設計されたマルチモーダル推論モデルであるR1-Onevisionを紹介する。我々はR1-Onevisionデータセットを構築し、多様なドメインにまたがる詳細かつステップバイステップのマルチモーダル推論アノテーションを提供する。先進的推論を育成するために,教師付き微調整と強化学習によりR1-Onevisionモデルをさらに発展させる。実験結果から,R1-OnevisionはGPT-4oやQwen2.5-VLなど,最先端のモデルよりも優れた性能が得られることがわかった。
論文参考訳（メタデータ） (2025-03-13T17:56:05Z)
Explainable artificial intelligence (XAI): from inherent explainability to large language models [0.0]
説明可能なAI(XAI)技術は、機械学習モデルの説明可能性や解釈可能性を促進する。本稿では、本質的に解釈可能なモデルから現代的なアプローチまで、説明可能なAI手法の進歩について詳述する。我々は、視覚言語モデル(VLM)フレームワークを利用して、他の機械学習モデルの説明可能性を自動化または改善する説明可能なAI技術についてレビューする。
論文参考訳（メタデータ） (2025-01-17T06:16:57Z)
MageBench: Bridging Large Multimodal Models to Agents [90.59091431806793]
LMMは印象的な視覚的理解能力を示しており、エージェントに適用される可能性がある。既存のベンチマークは、主に言語部分における推論能力を評価する。 MageBenchは推論機能指向のマルチモーダルエージェントベンチマークである。
論文参考訳（メタデータ） (2024-12-05T17:08:19Z)
Is A Picture Worth A Thousand Words? Delving Into Spatial Reasoning for Vision Language Models [37.44286562901589]
本研究では,空間推論の多様な側面をカバーする新しいベンチマークであるSpatialEvalを提案する。我々は、競合する言語と視覚言語モデルを総合的に評価する。文献で見過ごされてきたいくつかの反直感的な洞察が明らかとなった。
論文参考訳（メタデータ） (2024-06-21T03:53:37Z)
PuzzleVQA: Diagnosing Multimodal Reasoning Challenges of Language Models with Abstract Visual Patterns [69.17409440805498]
基本概念に基づいた抽象パターンを用いた大規模マルチモーダルモデルの評価を行った。単純な抽象パターンをうまく一般化できないことが分かりました。系統解析の結果, GPT-4Vの主なボトルネックは視覚知覚の弱さと誘導的推論能力であることがわかった。
論文参考訳（メタデータ） (2024-03-20T05:37:24Z)
Multi-modal Latent Space Learning for Chain-of-Thought Reasoning in Language Models [25.058162782167503]
CoT推論(Chain-of-thinkt)は、複雑なタスクの解決と質問に答えるための言語モデルにおいて、素晴らしいパフォーマンスを示している。本稿では,言語思考に整合した効果的な画像特徴を生成するために,拡散過程による潜時空間学習を利用するマルチモーダルCoT推論の新しい手法を提案する。提案手法は画像特徴とテキスト表現を深いレベルで融合し,マルチモーダルCoTの複雑な推論能力を向上させる。
論文参考訳（メタデータ） (2023-12-14T09:13:09Z)
Brain in a Vat: On Missing Pieces Towards Artificial General Intelligence in Large Language Models [83.63242931107638]
本稿では,知的エージェントの4つの特徴について述べる。実世界の物体との活発な関わりは、概念的表現を形成するためのより堅牢な信号をもたらすと我々は主張する。我々は、人工知能分野における将来的な研究の方向性を概説して結論付ける。
論文参考訳（メタデータ） (2023-07-07T13:58:16Z)
In-Context Analogical Reasoning with Pre-Trained Language Models [10.344428417489237]
我々は、AIシステムにおけるアナロジーを支援するために、直感的な言語ベースの抽象化の使用について検討する。具体的には,大規模事前学習言語モデル(PLM)を視覚的Raven's Progressive Matrices(RPM)に適用する。 PLMはゼロショットリレーショナル推論に顕著な能力を示し、人間のパフォーマンスを超え、教師付き視覚ベースの手法に近づいた。
論文参考訳（メタデータ） (2023-05-28T04:22:26Z)
Visual Chain of Thought: Bridging Logical Gaps with Multimodal Infillings [61.04460792203266]
本稿では, 逐次データ内の論理的ギャップを埋めるために, 視覚言語による接地を促進させる, チェーン・オブ・シントを利用する新しい手法であるVCoTを紹介する。本手法は,下流タスクの論理的ギャップを低減するために,一貫した情報と新しい情報を加える合成マルチモーダル埋め込みを生成するために視覚誘導を用いる。
論文参考訳（メタデータ） (2023-05-03T17:58:29Z)
Causal Reasoning Meets Visual Representation Learning: A Prospective Study [117.08431221482638]
解釈可能性の欠如、堅牢性、分布外一般化が、既存の視覚モデルの課題となっている。人間レベルのエージェントの強い推論能力にインスパイアされた近年では、因果推論パラダイムの開発に多大な努力が注がれている。本稿では,この新興分野を包括的に概観し,注目し,議論を奨励し,新たな因果推論手法の開発の急激さを先導することを目的とする。
論文参考訳（メタデータ） (2022-04-26T02:22:28Z)
WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.4875156387271]
我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
論文参考訳（メタデータ） (2021-10-27T12:25:21Z)
Social Commonsense Reasoning with Multi-Head Knowledge Attention [24.70946979449572]
社会的コモンセンス推論には、テキストの理解、社会イベントに関する知識、その実践的な意味、およびコモンセンス推論スキルが必要である。本稿では,半構造化コモンセンス推論規則を符号化し,それをトランスフォーマーベースの推論セルに組み込むことを学習する,新しいマルチヘッド知識アテンションモデルを提案する。
論文参考訳（メタデータ） (2020-10-12T10:24:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。