論文の概要: VIKSER: Visual Knowledge-Driven Self-Reinforcing Reasoning Framework
- arxiv url: http://arxiv.org/abs/2502.00711v1
- Date: Sun, 02 Feb 2025 07:54:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:21:54.103787
- Title: VIKSER: Visual Knowledge-Driven Self-Reinforcing Reasoning Framework
- Title(参考訳): VIKSER:ビジュアル知識駆動型自己強化推論フレームワーク
- Authors: Chunbai Zhang, Chao Wang, Yang Zhou, Yan Peng,
- Abstract要約: 視覚推論とは、視覚情報に関する問題を解くタスクを指す。
視覚的推論タスクのための視覚的知識駆動型自己強化型推論フレームワーク(VIKSER)を提案する。
- 参考スコア(独自算出の注目度): 8.629074194407611
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual reasoning refers to the task of solving questions about visual information. Current visual reasoning methods typically employ pre-trained vision-language model (VLM) strategies or deep neural network approaches. However, existing efforts are constrained by limited reasoning interpretability, while hindering by the phenomenon of underspecification in the question text. Additionally, the absence of fine-grained visual knowledge limits the precise understanding of subject behavior in visual reasoning tasks. To address these issues, we propose VIKSER (Visual Knowledge-Driven Self-Reinforcing Reasoning Framework). Specifically, VIKSER, trained using knowledge distilled from large language models, extracts fine-grained visual knowledge with the assistance of visual relationship detection techniques. Subsequently, VIKSER utilizes fine-grained visual knowledge to paraphrase the question with underspecification. Additionally, we design a novel prompting method called Chain-of-Evidence (CoE), which leverages the power of ``evidence for reasoning'' to endow VIKSER with interpretable reasoning capabilities. Meanwhile, the integration of self-reflection technology empowers VIKSER with the ability to learn and improve from its mistakes. Experiments conducted on widely used datasets demonstrate that VIKSER achieves new state-of-the-art (SOTA) results in relevant tasks.
- Abstract(参考訳): 視覚推論とは、視覚情報に関する問題を解くタスクである。
現在の視覚推論手法は、通常、事前訓練された視覚言語モデル(VLM)戦略またはディープニューラルネットワークアプローチを用いる。
しかし、既存の取り組みは限定的な推論可能性によって制限されており、質問文の未特定現象を妨げている。
さらに、きめ細かい視覚知識がないことは、視覚的推論タスクにおける主観的行動の正確な理解を制限する。
これらの問題に対処するために、視覚知識駆動型自己強化フレームワークVIKSER(Visual Knowledge-Driven Self-Reinforcing Reasoning Framework)を提案する。
具体的には、大規模な言語モデルから抽出した知識を用いて訓練されたVIKSERは、視覚的関係検出技術を用いて、きめ細かい視覚的知識を抽出する。
その後、VIKSERはきめ細かい視覚的知識を用いて、質問を不特定性で言い換える。
さらに,<evidence for reasoning' の力を利用して,解釈可能な推論能力を持つ VIKSER を実現する,Chain-of-Evidence (CoE) と呼ばれる新しいプロンプト手法を設計する。
一方、自己回帰技術の統合は、VIKSERにその誤りから学び、改善する能力を与える。
広く使われているデータセットで行った実験は、VIKSERが新しい最先端(SOTA)を達成し、関連するタスクを達成していることを示している。
関連論文リスト
- A Cognitive Paradigm Approach to Probe the Perception-Reasoning Interface in VLMs [3.2228025627337864]
本稿では、視覚言語モデル(VLM)における知覚推論インタフェースを識別するために、ボンガード問題(BP)を用いた構造化評価フレームワークを提案する。
本稿では,人間の問題解決戦略を反映した3つの評価パラダイムを提案する。
私たちのフレームワークは貴重な診断ツールを提供し、AIでより堅牢で人間らしい視覚知性を達成するために、視覚処理の忠実性を高める必要性を強調しています。
論文 参考訳(メタデータ) (2025-01-23T12:42:42Z) - DRIVINGVQA: Analyzing Visual Chain-of-Thought Reasoning of Vision Language Models in Real-World Scenarios with Driving Theory Tests [69.00444996464662]
本稿では、複雑な実世界のシナリオにおける視覚的連鎖推論を評価するために、駆動理論テストから得られた新しいベンチマークであるDrivingVQAを提案する。
実験の結果,オープンソースおよびプロプライエタリなLVLMは,ゼロショット設定下での視覚的連鎖推論に苦慮していることがわかった。
視覚的推論を改善するために関連エンティティを活用するトレーニング戦略について検討する。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - CATCH: Complementary Adaptive Token-level Contrastive Decoding to Mitigate Hallucinations in LVLMs [74.36850397755572]
CATCHは、未解決のシナリオにおいて、きめ細かい特徴知覚と累積幻覚を減少させる視覚的欠陥に関連する問題に対処する。
これは、特定のデータや事前知識を必要とせず、様々な視覚的質問応答タスクに適用でき、追加のトレーニングを必要とせず、新しいタスクにしっかりと一般化する。
論文 参考訳(メタデータ) (2024-11-19T18:27:31Z) - Attend and Enrich: Enhanced Visual Prompt for Zero-Shot Learning [114.59476118365266]
視覚表現豊か化のための意味強調プロンプトを抽出するための視覚的プロンプトに意味情報を付与するAENetを提案する。
AENetは、2つの重要なステップから構成される: 1) 視覚的・属性的モダリティの概念調和トークンを探索し、一貫した視覚的セマンティックな概念を表す様相共有トークンに基づく。
論文 参考訳(メタデータ) (2024-06-05T07:59:48Z) - Cognitive Visual-Language Mapper: Advancing Multimodal Comprehension with Enhanced Visual Knowledge Alignment [31.688373463643373]
視覚知識は、視覚情報の分析、推論、解釈において重要な役割を担い、知識に基づく視覚的質問に対する回答の正確性を向上させる。
本稿では,VKA(Valted Visual Knowledge Aligner)とFKA(Falt-fine Knowledge Adapter)とを含む認知視覚言語マップ(CVLM)について述べる。
我々は,知識ベースVQAベンチマークの広範な実験を行い,CVLMは知識ベースVQA(平均ゲイン5.0%)におけるLMMの性能を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2024-02-21T06:34:46Z) - Visual In-Context Learning for Large Vision-Language Models [62.5507897575317]
大規模視覚言語モデル(LVLM)では、言語間相互作用や表現格差の課題により、ICL(In-Context Learning)の有効性が制限されている。
本稿では,視覚的記述型検索,意図的画像要約,意図的記述型合成を含む新しい視覚的記述型学習(VICL)手法を提案する。
提案手法は'Retrieval & Rerank'パラダイムを用いて画像を検索し,タスク意図とタスク固有の視覚的パーシングで画像を要約し,言語による実演を構成する。
論文 参考訳(メタデータ) (2024-02-18T12:43:38Z) - Knowledge-augmented Few-shot Visual Relation Detection [25.457693302327637]
視覚的関係検出(VRD)は、画像理解のためのオブジェクト間の関係を検出することを目的としている。
既存のVRD手法の多くは、良好なパフォーマンスを達成するために、各関係の何千ものトレーニングサンプルに依存している。
我々は、テキスト知識と視覚的関係知識の両方を活用する、知識を付加した、数発のVRDフレームワークを考案する。
論文 参考訳(メタデータ) (2023-03-09T15:38:40Z) - Can Pre-trained Vision and Language Models Answer Visual
Information-Seeking Questions? [50.29862466940209]
情報検索に適した視覚的質問応答データセットであるInfoSeekを紹介する。
事前学習した様々な視覚的質問応答モデルを分析し,その特徴について考察する。
関連文書を検索することでInfoSeekの性能を向上させるために,正確な視覚的実体認識が利用できることを示す。
論文 参考訳(メタデータ) (2023-02-23T00:33:54Z) - GAMR: A Guided Attention Model for (visual) Reasoning [7.919213739992465]
人間は、複雑な視覚シーンを柔軟に解析し理解する能力において、現代のAIシステムよりも優れています。
視覚的推論のための新しいモジュール,(視覚的)推論のためのガイド付き注意モデル(GAMR)を提案する。
GAMRは、タスク関連視覚情報をメモリに選択してルーティングするために、注意シフトのシーケンスを通じて、脳が複雑な視覚的推論問題を動的に解くことを示唆している。
論文 参考訳(メタデータ) (2022-06-10T07:52:06Z) - Reasoning over Vision and Language: Exploring the Benefits of
Supplemental Knowledge [59.87823082513752]
本稿では,汎用知識基盤(KB)から視覚言語変換器への知識の注入について検討する。
我々は複数のタスクやベンチマークに対する様々なkbの関連性を実証的に研究する。
この技術はモデルに依存しず、最小限の計算オーバーヘッドで任意の視覚言語変換器の適用可能性を拡張することができる。
論文 参考訳(メタデータ) (2021-01-15T08:37:55Z) - KVL-BERT: Knowledge Enhanced Visual-and-Linguistic BERT for Visual
Commonsense Reasoning [4.787501955202053]
visual commonsense reasoning (vcr)タスクでは、マシンは正しく答え、その答えを正当化するための根拠を提供する必要がある。
本稿では,KVL-BERT(KVL-BERT)モデルを提案する。
視覚的および言語的内容の入力に加えて、ConceptNetから抽出された外部コモンセンス知識を多層トランスフォーマーに統合する。
論文 参考訳(メタデータ) (2020-12-13T08:22:33Z) - Visual Relationship Detection with Visual-Linguistic Knowledge from
Multimodal Representations [103.00383924074585]
視覚的関係検出は、画像内の有能なオブジェクト間の関係を推論することを目的としている。
変換器からの視覚言語表現(RVL-BERT)という新しい手法を提案する。
RVL-BERTは、自己教師付き事前学習を通じて学習した視覚的・言語的常識知識を用いて空間推論を行う。
論文 参考訳(メタデータ) (2020-09-10T16:15:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。