論文の概要: Enhancing Zero-shot Commonsense Reasoning by Integrating Visual Knowledge via Machine Imagination
- arxiv url: http://arxiv.org/abs/2603.05040v1
- Date: Thu, 05 Mar 2026 10:47:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.187786
- Title: Enhancing Zero-shot Commonsense Reasoning by Integrating Visual Knowledge via Machine Imagination
- Title(参考訳): 機械イマジネーションによる視覚知識の統合によるゼロショットコモンセンス推論の強化
- Authors: Hyuntae Park, Yeachan Kim, SangKeun Lee,
- Abstract要約: ゼロショット・コモンセンス推論フレームワークであるImagine (Machine Imagination-based Reasoning)を提案する。
我々は、画像生成器を直接推論パイプラインに埋め込むことにより、PLMを想像力で強化する。
既存のゼロショットアプローチをはるかに上回り、先進的な大規模言語モデルを超えていることを実証する。
- 参考スコア(独自算出の注目度): 15.230372857449282
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in zero-shot commonsense reasoning have empowered Pre-trained Language Models (PLMs) to acquire extensive commonsense knowledge without requiring task-specific fine-tuning. Despite this progress, these models frequently suffer from limitations caused by human reporting biases inherent in textual knowledge, leading to understanding discrepancies between machines and humans. To bridge this gap, we introduce an additional modality to enrich the reasoning capabilities of PLMs. We propose Imagine (Machine Imagination-based Reasoning), a novel zero-shot commonsense reasoning framework that supplements textual inputs with visual signals from machine-generated images. Specifically, we enhance PLMs with the ability to imagine by embedding an image generator directly into the reasoning pipeline. To facilitate effective utilization of this imagined visual context, we construct synthetic datasets designed to emulate visual question-answering scenarios. Through comprehensive evaluations on multiple commonsense reasoning benchmarks, we demonstrate that Imagine substantially outperforms existing zero-shot approaches and even surpasses advanced large language models. These results underscore the capability of machine imagination to mitigate reporting bias and significantly enhance the generalization ability of commonsense reasoning models
- Abstract(参考訳): ゼロショットコモンセンス推論の最近の進歩は、タスク固有の微調整を必要とせずに、事前訓練言語モデル(PLM)に広範なコモンセンス知識を習得する権限を与えている。
この進歩にもかかわらず、これらのモデルは、テキスト知識に固有の人間の報告バイアスによって引き起こされる限界にしばしば悩まされ、機械と人間の相違を理解する。
このギャップを埋めるために、我々はPLMの推論能力を高めるための追加のモダリティを導入する。
我々は,機械生成画像からの視覚信号でテキスト入力を補う,ゼロショットコモンセンス推論フレームワークであるImagine (Machine Imagination-based Reasoning)を提案する。
具体的には、画像生成器を直接推論パイプラインに埋め込むことにより、PLMを想像力で強化する。
この視覚的コンテキストを効果的に活用するために,視覚的質問応答シナリオをエミュレートする合成データセットを構築した。
複数のコモンセンス推論ベンチマークの総合的な評価を通じて、既存のゼロショットアプローチよりも大幅に優れ、先進的な大規模言語モデルを超えていることを実証する。
これらの結果は、報告バイアスを緩和し、コモンセンス推論モデルの一般化能力を著しく向上するマシン想像力の能力を強調している。
関連論文リスト
- What if Agents Could Imagine? Reinforcing Open-Vocabulary HOI Comprehension through Generation [35.62323084880028]
我々は,認知的推論と生成的想像とを調和させて,堅牢な視覚的理解を実現するエージェントフレームワークであるtextbfImagineAgentを提案する。
提案手法は,検出された実体と候補行動との間の可視的関係を明示的にモデル化する認知マップを革新的に構築する。
検索強化、画像トリミング、拡散モデルなどのツールを動的に起動し、ドメイン固有の知識を集め、視覚的証拠を充実させる。
論文 参考訳(メタデータ) (2026-02-12T02:51:59Z) - Monet: Reasoning in Latent Visual Space Beyond Images and Language [55.424507246294326]
視覚的推論を推し進める上で有効なパラダイムとして「画像で考える」が登場している。
既存の方法は、人間のような抽象的な視覚的思考に欠ける。
Monetは、マルチモーダルな大規模言語モデルを潜在視覚空間内で直接推論できるトレーニングフレームワークである。
論文 参考訳(メタデータ) (2025-11-26T13:46:39Z) - Cognitive Inception: Agentic Reasoning against Visual Deceptions by Injecting Skepticism [81.39177645864757]
完全推論に基づくエージェント推論フレームワークであるtextbfInception を提案する。
私たちの知る限りでは、AIGCの視覚的騙しに対する完全な推論ベースのフレームワークとしてはこれが初めてです。
論文 参考訳(メタデータ) (2025-11-21T05:13:30Z) - Unleashing Perception-Time Scaling to Multimodal Reasoning Models [60.578179197783754]
推論時間スケーリングの最近の進歩は、LVLM(Large Vision-Language Models)の推論能力を大幅に向上させた。
この成功に触発されて、同様の戦略がマルチモーダル推論に適用されたが、視覚的知覚への影響は未だ不明である。
本稿では,トークンに富む知覚を促進する新しいパラダイムである知覚時間スケーリング(PTS)を提案し,複雑な知覚問題を中間的抽出可能なサブプロブレムに分解する。
論文 参考訳(メタデータ) (2025-10-10T03:17:52Z) - Video Event Reasoning and Prediction by Fusing World Knowledge from LLMs with Vision Foundation Models [10.1080193179562]
現在の理解モデルは「何」を認識するのに優れているが、因果推論や将来の予測のような高いレベルの認知タスクでは不足している。
本稿では,知識駆動型推論コアとして機能するLarge Language Model (LLM)を用いて,視覚の深層認識のための強力なビジョン基礎モデルと融合する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-08T09:43:17Z) - Reasoning-Aligned Perception Decoupling for Scalable Multi-modal Reasoning [95.44766931218896]
MLLM(Multi-modal large language model)は、テキストベースの推論に遅れを取っている。
本稿では,MLLMの推論コンポーネントをモジュール化し,容易に置き換え可能なパーセプション推論デカップリングを提案する。
本稿では,視覚知覚最適化(VPO)と呼ばれる新しい強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-05T02:28:07Z) - DeepEyes: Incentivizing "Thinking with Images" via Reinforcement Learning [11.242852367476015]
DeepEyesは、エンドツーエンドの強化学習を通じてインセンティブを得た、“イメージで考える”機能を備えたモデルである。
本稿では,ツール・ユース指向のデータ選択機構と報奨戦略を提案する。
DeepEyesは、微粒な認識と推論ベンチマークにおいて、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-05-20T13:48:11Z) - Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - Zero-shot Commonsense Reasoning over Machine Imagination [14.350718566829343]
機械生成画像から得られる視覚信号とテキスト入力を補完する新しいゼロショットコモンセンス推論フレームワークであるImagineを提案する。
報告バイアスを緩和し、一般化能力を増強する際の機械的想像力の強さを強調し、既存の手法を大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2024-10-12T02:15:11Z) - Visual Chain of Thought: Bridging Logical Gaps with Multimodal
Infillings [61.04460792203266]
本稿では, 逐次データ内の論理的ギャップを埋めるために, 視覚言語による接地を促進させる, チェーン・オブ・シントを利用する新しい手法であるVCoTを紹介する。
本手法は,下流タスクの論理的ギャップを低減するために,一貫した情報と新しい情報を加える合成マルチモーダル埋め込みを生成するために視覚誘導を用いる。
論文 参考訳(メタデータ) (2023-05-03T17:58:29Z) - See, Think, Confirm: Interactive Prompting Between Vision and Language
Models for Knowledge-based Visual Reasoning [60.43585179885355]
本稿では,知識に基づく視覚推論のための新しいフレームワークであるInteractive Prompting Visual Reasoner(IPVR)を提案する。
IPVRには3つのステージがある。
我々は,知識に基づく視覚的推論データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-01-12T18:59:50Z) - WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.4875156387271]
我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。
そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-27T12:25:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。