Fugu-MT 論文翻訳(概要): Zero-shot Commonsense Reasoning over Machine Imagination

論文の概要: Zero-shot Commonsense Reasoning over Machine Imagination

arxiv url: http://arxiv.org/abs/2410.09329v1
Date: Sat, 12 Oct 2024 02:15:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-30 15:03:38.011289
Title: Zero-shot Commonsense Reasoning over Machine Imagination
Title（参考訳）: ゼロショットコモンセンスの機械イマジネーションに対する推論
Authors: Hyuntae Park, Yeachan Kim, Jun-Hyung Park, SangKeun Lee,
Abstract要約: 機械生成画像から得られる視覚信号とテキスト入力を補完する新しいゼロショットコモンセンス推論フレームワークであるImagineを提案する。報告バイアスを緩和し、一般化能力を増強する際の機械的想像力の強さを強調し、既存の手法を大きなマージンで上回ることを示す。
参考スコア（独自算出の注目度）: 14.350718566829343
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent approaches to zero-shot commonsense reasoning have enabled Pre-trained Language Models (PLMs) to learn a broad range of commonsense knowledge without being tailored to specific situations. However, they often suffer from human reporting bias inherent in textual commonsense knowledge, leading to discrepancies in understanding between PLMs and humans. In this work, we aim to bridge this gap by introducing an additional information channel to PLMs. We propose Imagine (Machine Imagination-based Reasoning), a novel zero-shot commonsense reasoning framework designed to complement textual inputs with visual signals derived from machine-generated images. To achieve this, we enhance PLMs with imagination capabilities by incorporating an image generator into the reasoning process. To guide PLMs in effectively leveraging machine imagination, we create a synthetic pre-training dataset that simulates visual question-answering. Our extensive experiments on diverse reasoning benchmarks and analysis show that Imagine outperforms existing methods by a large margin, highlighting the strength of machine imagination in mitigating reporting bias and enhancing generalization capabilities.
Abstract（参考訳）: ゼロショットコモンセンス推論への最近のアプローチにより、プレトレーニング言語モデル(PLM)は、特定の状況に合わせて調整されることなく、幅広いコモンセンス知識を学習できるようになった。しかし、それらはテキストコモンセンスの知識に固有の人間の報告バイアスに悩まされ、PLMと人間の理解の相違をもたらす。本研究では,PLMに付加的な情報チャネルを導入することで,このギャップを埋めることを目的とする。機械生成画像から得られる視覚信号とテキスト入力を補完する新しいゼロショットコモンセンス推論フレームワークであるImagine (Machine Imagination-based Reasoning)を提案する。これを実現するために、画像生成装置を推論プロセスに組み込むことで、想像力でPLMを強化する。 PLMを機械の想像力を効果的に活用するために、視覚的質問応答をシミュレートする合成事前学習データセットを作成する。多様な推論ベンチマークと分析に関する広範な実験により、Imagineは既存の手法を大きなマージンで上回り、報告バイアスの軽減と一般化能力の向上における機械的想像力の強さを強調した。

関連論文リスト

Video Event Reasoning and Prediction by Fusing World Knowledge from LLMs with Vision Foundation Models [10.1080193179562]
現在の理解モデルは「何」を認識するのに優れているが、因果推論や将来の予測のような高いレベルの認知タスクでは不足している。本稿では,知識駆動型推論コアとして機能するLarge Language Model (LLM)を用いて,視覚の深層認識のための強力なビジョン基礎モデルと融合する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-08T09:43:17Z)
Machine Mental Imagery: Empower Multimodal Reasoning with Latent Visual Tokens [44.19323180593379]
視覚言語モデル(VLM)は多モーダル理解において優れているが、テキストのみの復号化は視覚的推論の言語化を強いる。最近の試みでは、VLMに明示的な画像をレンダリングするように訓練されているが、重い画像生成による事前学習は、しばしば推論能力を妨げている。本稿では,VLMデコーディングを通常のテキストと並行して遅延視覚トークンで拡張する,Mirageと呼ばれるマシンメンタルイメージフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-20T17:59:31Z)
Interpretable and Reliable Detection of AI-Generated Images via Grounded Reasoning in MLLMs [43.08776932101172]
私たちは、バウンディングボックスと記述キャプションを付加したAI生成画像のデータセットを構築します。次に、多段階最適化戦略によりMLLMを微調整する。得られたモデルは、AI生成画像の検出と視覚的欠陥のローカライズの両方において、優れた性能を達成する。
論文参考訳（メタデータ） (2025-06-08T08:47:44Z)
Perceptual Decoupling for Scalable Multi-modal Reasoning via Reward-Optimized Captioning [78.17782197231325]
本稿では,抽出者のキャプション動作と推論目的を一致させる推論誘導型強化学習戦略を提案する。マルチモーダルな数学と科学ベンチマークの実験により、提案手法は最先端の平均性能を達成することを示した。
論文参考訳（メタデータ） (2025-06-05T02:28:07Z)
DeepEyes: Incentivizing "Thinking with Images" via Reinforcement Learning [11.242852367476015]
DeepEyesは、エンドツーエンドの強化学習を通じてインセンティブを得た、“イメージで考える”機能を備えたモデルである。本稿では,ツール・ユース指向のデータ選択機構と報奨戦略を提案する。 DeepEyesは、微粒な認識と推論ベンチマークにおいて、大幅なパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2025-05-20T13:48:11Z)
CameraBench: Benchmarking Visual Reasoning in MLLMs via Photography [12.305953690308085]
大規模言語モデル(LLM)とマルチモーダル大規模言語モデル(MLLM)は、非常に高度な人工知能を備えている。 OpenAI o1やGemini 2.0 Flash Thinkingのような推論モデルを含む最近の進歩は、この機能を開放した。写真は、物理がカメラパラメータと相互作用する物理世界の視覚的なスナップショットであるため、写真関連のタスクに特に焦点をあてる。
論文参考訳（メタデータ） (2025-04-14T10:53:44Z)
Reflective Planning: Vision-Language Models for Multi-Stage Long-Horizon Robotic Manipulation [90.00687889213991]
複雑な長距離ロボット操作問題を解決するには、高度な高レベルの計画能力が必要である。インターネット上で事前訓練された視覚言語モデル(VLM)は、原則としてそのような問題に対処するためのフレームワークを提供する。本稿では,多段階操作タスクにおけるVLMの物理推論能力を高める新しいテストタイムフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-23T20:42:15Z)
Enhancing Visual Reasoning with Autonomous Imagination in Multimodal Large Language Models [27.78471707423076]
本稿では,MLLMが入力シーンをその推論状態に基づいて自動修正できる新しい視覚推論パラダイムを提案する。そこで我々は,MLLMが焦点,無視,変換といった操作を通じて視覚的な修正を行う,新しいプラグアンドプレイの想像空間を導入する。我々は,厳密な数え上げ,単純なジグソーパズルの解法,オブジェクト配置にまたがるベンチマークを用いて,我々のアプローチを検証する。
論文参考訳（メタデータ） (2024-11-27T08:44:25Z)
Learning to Ground VLMs without Forgetting [54.033346088090674]
我々は、既存の画像や言語理解スキルを忘れずに、事前訓練されたビジュアル言語モデルに視覚的接地能力を持たせるフレームワークであるLynXを紹介する。モデルを効果的に訓練するために、私たちはSCouTと呼ばれる高品質な合成データセットを生成します。我々はLynXを複数のオブジェクト検出および視覚的グラウンド化データセット上で評価し、オブジェクト検出、ゼロショットローカライゼーション、グラウンドド推論において強い性能を示す。
論文参考訳（メタデータ） (2024-10-14T13:35:47Z)
SOK-Bench: A Situated Video Reasoning Benchmark with Aligned Open-World Knowledge [60.76719375410635]
44Kの質問と10Kの状況からなる新しいベンチマーク(SOK-Bench)を提案する。推論プロセスは、位置する知識と問題解決のための一般的な知識を理解し、適用するために必要である。質問応答ペアと推論プロセスを生成し,最後に品質保証に関する手作業によるレビューを行った。
論文参考訳（メタデータ） (2024-05-15T21:55:31Z)
What if...?: Thinking Counterfactual Keywords Helps to Mitigate Hallucination in Large Multi-modal Models [50.97705264224828]
大規模マルチモーダルモデルに反現実的思考を組み込む新しい手法である反現実的インセプションを提案する。我々は、より広い文脈のシーン理解にまたがる応答をモデルが関与し、生成することを目指している。オープンソースモデルとプロプライエタリモデルの両方を含む様々なLMMの包括的分析は、反事実的思考が幻覚を著しく減少させることを裏付ける。
論文参考訳（メタデータ） (2024-03-20T11:27:20Z)
MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting [97.52388851329667]
我々は,自由形式の言語命令で指定されたロボット操作タスクを解決するために,マーキングオープンワールドキーポイントアフォード(Moka)を導入する。我々のアプローチの中心は、VLMの観測画像と物理世界におけるロボットの行動に関する予測を橋渡しする、コンパクトな点ベースの可測性表現である。ツールの使用,変形可能な身体操作,オブジェクト再構成など,さまざまなテーブルトップ操作タスクにおけるMokaの性能評価と解析を行った。
論文参考訳（メタデータ） (2024-03-05T18:08:45Z)
In-Context Analogical Reasoning with Pre-Trained Language Models [10.344428417489237]
我々は、AIシステムにおけるアナロジーを支援するために、直感的な言語ベースの抽象化の使用について検討する。具体的には,大規模事前学習言語モデル(PLM)を視覚的Raven's Progressive Matrices(RPM)に適用する。 PLMはゼロショットリレーショナル推論に顕著な能力を示し、人間のパフォーマンスを超え、教師付き視覚ベースの手法に近づいた。
論文参考訳（メタデータ） (2023-05-28T04:22:26Z)
See, Think, Confirm: Interactive Prompting Between Vision and Language Models for Knowledge-based Visual Reasoning [60.43585179885355]
本稿では,知識に基づく視覚推論のための新しいフレームワークであるInteractive Prompting Visual Reasoner(IPVR)を提案する。 IPVRには3つのステージがある。我々は,知識に基づく視覚的推論データセットについて実験を行った。
論文参考訳（メタデータ） (2023-01-12T18:59:50Z)
ImaginE: An Imagination-Based Automatic Evaluation Metric for Natural Language Generation [53.56628907030751]
我々は、自然言語生成のための想像力に基づく自動評価指標ImaginEを提案する。 CLIPとDALL-Eの助けを借りて、大規模な画像テキストペアで事前訓練された2つのクロスモーダルモデルを作成し、テキストスニペットの具体的想像力として自動的に画像を生成する。いくつかのテキスト生成タスクにまたがる実験により、我々のImaginEに想像力を加えることは、NLG評価にマルチモーダル情報を導入する大きな可能性を示している。
論文参考訳（メタデータ） (2021-06-10T17:59:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。