論文の概要: Zero-shot Commonsense Reasoning over Machine Imagination
- arxiv url: http://arxiv.org/abs/2410.09329v1
- Date: Sat, 12 Oct 2024 02:15:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 15:03:38.011289
- Title: Zero-shot Commonsense Reasoning over Machine Imagination
- Title(参考訳): ゼロショットコモンセンスの機械イマジネーションに対する推論
- Authors: Hyuntae Park, Yeachan Kim, Jun-Hyung Park, SangKeun Lee,
- Abstract要約: 機械生成画像から得られる視覚信号とテキスト入力を補完する新しいゼロショットコモンセンス推論フレームワークであるImagineを提案する。
報告バイアスを緩和し、一般化能力を増強する際の機械的想像力の強さを強調し、既存の手法を大きなマージンで上回ることを示す。
- 参考スコア(独自算出の注目度): 14.350718566829343
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent approaches to zero-shot commonsense reasoning have enabled Pre-trained Language Models (PLMs) to learn a broad range of commonsense knowledge without being tailored to specific situations. However, they often suffer from human reporting bias inherent in textual commonsense knowledge, leading to discrepancies in understanding between PLMs and humans. In this work, we aim to bridge this gap by introducing an additional information channel to PLMs. We propose Imagine (Machine Imagination-based Reasoning), a novel zero-shot commonsense reasoning framework designed to complement textual inputs with visual signals derived from machine-generated images. To achieve this, we enhance PLMs with imagination capabilities by incorporating an image generator into the reasoning process. To guide PLMs in effectively leveraging machine imagination, we create a synthetic pre-training dataset that simulates visual question-answering. Our extensive experiments on diverse reasoning benchmarks and analysis show that Imagine outperforms existing methods by a large margin, highlighting the strength of machine imagination in mitigating reporting bias and enhancing generalization capabilities.
- Abstract(参考訳): ゼロショットコモンセンス推論への最近のアプローチにより、プレトレーニング言語モデル(PLM)は、特定の状況に合わせて調整されることなく、幅広いコモンセンス知識を学習できるようになった。
しかし、それらはテキストコモンセンスの知識に固有の人間の報告バイアスに悩まされ、PLMと人間の理解の相違をもたらす。
本研究では,PLMに付加的な情報チャネルを導入することで,このギャップを埋めることを目的とする。
機械生成画像から得られる視覚信号とテキスト入力を補完する新しいゼロショットコモンセンス推論フレームワークであるImagine (Machine Imagination-based Reasoning)を提案する。
これを実現するために、画像生成装置を推論プロセスに組み込むことで、想像力でPLMを強化する。
PLMを機械の想像力を効果的に活用するために、視覚的質問応答をシミュレートする合成事前学習データセットを作成する。
多様な推論ベンチマークと分析に関する広範な実験により、Imagineは既存の手法を大きなマージンで上回り、報告バイアスの軽減と一般化能力の向上における機械的想像力の強さを強調した。
関連論文リスト
- Learning to Ground VLMs without Forgetting [54.033346088090674]
我々は、既存の画像や言語理解スキルを忘れずに、事前訓練されたビジュアル言語モデルに視覚的接地能力を持たせるフレームワークであるLynXを紹介する。
モデルを効果的に訓練するために、私たちはSCouTと呼ばれる高品質な合成データセットを生成します。
我々はLynXを複数のオブジェクト検出および視覚的グラウンド化データセット上で評価し、オブジェクト検出、ゼロショットローカライゼーション、グラウンドド推論において強い性能を示す。
論文 参考訳(メタデータ) (2024-10-14T13:35:47Z) - SOK-Bench: A Situated Video Reasoning Benchmark with Aligned Open-World Knowledge [60.76719375410635]
44Kの質問と10Kの状況からなる新しいベンチマーク(SOK-Bench)を提案する。
推論プロセスは、位置する知識と問題解決のための一般的な知識を理解し、適用するために必要である。
質問応答ペアと推論プロセスを生成し,最後に品質保証に関する手作業によるレビューを行った。
論文 参考訳(メタデータ) (2024-05-15T21:55:31Z) - What if...?: Thinking Counterfactual Keywords Helps to Mitigate Hallucination in Large Multi-modal Models [50.97705264224828]
大規模マルチモーダルモデルに反現実的思考を組み込む新しい手法である反現実的インセプションを提案する。
我々は、より広い文脈のシーン理解にまたがる応答をモデルが関与し、生成することを目指している。
オープンソースモデルとプロプライエタリモデルの両方を含む様々なLMMの包括的分析は、反事実的思考が幻覚を著しく減少させることを裏付ける。
論文 参考訳(メタデータ) (2024-03-20T11:27:20Z) - MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting [97.52388851329667]
我々は,自由形式の言語命令で指定されたロボット操作タスクを解決するために,マーキングオープンワールドキーポイントアフォード(Moka)を導入する。
我々のアプローチの中心は、VLMの観測画像と物理世界におけるロボットの行動に関する予測を橋渡しする、コンパクトな点ベースの可測性表現である。
ツールの使用,変形可能な身体操作,オブジェクト再構成など,さまざまなテーブルトップ操作タスクにおけるMokaの性能評価と解析を行った。
論文 参考訳(メタデータ) (2024-03-05T18:08:45Z) - In-Context Analogical Reasoning with Pre-Trained Language Models [10.344428417489237]
我々は、AIシステムにおけるアナロジーを支援するために、直感的な言語ベースの抽象化の使用について検討する。
具体的には,大規模事前学習言語モデル(PLM)を視覚的Raven's Progressive Matrices(RPM)に適用する。
PLMはゼロショットリレーショナル推論に顕著な能力を示し、人間のパフォーマンスを超え、教師付き視覚ベースの手法に近づいた。
論文 参考訳(メタデータ) (2023-05-28T04:22:26Z) - See, Think, Confirm: Interactive Prompting Between Vision and Language
Models for Knowledge-based Visual Reasoning [60.43585179885355]
本稿では,知識に基づく視覚推論のための新しいフレームワークであるInteractive Prompting Visual Reasoner(IPVR)を提案する。
IPVRには3つのステージがある。
我々は,知識に基づく視覚的推論データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-01-12T18:59:50Z) - ImaginE: An Imagination-Based Automatic Evaluation Metric for Natural
Language Generation [53.56628907030751]
我々は、自然言語生成のための想像力に基づく自動評価指標ImaginEを提案する。
CLIPとDALL-Eの助けを借りて、大規模な画像テキストペアで事前訓練された2つのクロスモーダルモデルを作成し、テキストスニペットの具体的想像力として自動的に画像を生成する。
いくつかのテキスト生成タスクにまたがる実験により、我々のImaginEに想像力を加えることは、NLG評価にマルチモーダル情報を導入する大きな可能性を示している。
論文 参考訳(メタデータ) (2021-06-10T17:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。