論文の概要: EventLens: Leveraging Event-Aware Pretraining and Cross-modal Linking Enhances Visual Commonsense Reasoning
- arxiv url: http://arxiv.org/abs/2404.13847v1
- Date: Mon, 22 Apr 2024 03:05:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 15:26:21.406458
- Title: EventLens: Leveraging Event-Aware Pretraining and Cross-modal Linking Enhances Visual Commonsense Reasoning
- Title(参考訳): EventLens: イベント認識事前トレーニングとクロスモーダルリンクを活用することで、ビジュアルコモンセンス推論を促進する
- Authors: Mingjie Ma, Zhihuan Yu, Yichao Ma, Guohui Li,
- Abstract要約: ビジュアルコモンセンス推論(Visual Commonsense Reasoning、VCR)は、人間のコモンセンスを必要とする視覚的疑問に答えるために、モデルに挑戦する認知タスクである。
Event-Aware Pretraining と Cross-modal Linking と EnhanceS VCR を利用する EventLens を提案する。
- 参考スコア(独自算出の注目度): 4.754556073011081
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual Commonsense Reasoning (VCR) is a cognitive task, challenging models to answer visual questions requiring human commonsense, and to provide rationales explaining why the answers are correct. With emergence of Large Language Models (LLMs), it is natural and imperative to explore their applicability to VCR. However, VCR task demands more external knowledge to tackle its challenging questions, necessitating special designs to activate LLMs' commonsense reasoning abilities. Also, most existing Multimodal LLMs adopted an abstraction of entire input image, which makes it difficult to comprehend VCR's unique co-reference tags between image regions and text, posing challenges for fine-grained alignment. To address these issues, we propose EventLens that leverages Event-Aware Pretraining and Cross-modal Linking and EnhanceS VCR. First, by emulating the cognitive process of human reasoning, an Event-Aware Pretraining auxiliary task is introduced to better activate LLM's global comprehension of intricate scenarios. Second, during fine-tuning, we further utilize reference tags to bridge RoI features with texts, while preserving both modality semantics. Finally, we use instruct-style prompts to narrow the gap between pretraining and fine-tuning, and task-specific adapters to better integrate LLM's inherent knowledge with new commonsense. Experimental results show the effectiveness of our proposed auxiliary task and fine-grained linking strategy.
- Abstract(参考訳): ビジュアルコモンセンス推論(Visual Commonsense Reasoning, VCR)は、人間のコモンセンスを必要とする視覚的疑問に答え、その答えが正しい理由を説明するためのモデルである。
LLM(Large Language Models)が出現すると、VCRの適用性を探究することが自然で必須となる。
しかしながら、VCRタスクはその挑戦的な問題に取り組むためにより多くの外部知識を必要とし、LLMの常識推論能力を活性化するために特別な設計を必要とする。
また、既存のMultimodal LLMは入力画像全体の抽象化を採用しており、VCRのイメージ領域とテキスト間のユニークな参照タグの理解が困難であり、微粒なアライメントの難しさを浮き彫りにしている。
これらの問題に対処するために、Event-Aware PretrainingとCross-Modal LinkingとEnhanceS VCRを活用するEventLensを提案する。
まず、人間推論の認知過程をエミュレートすることにより、LLMの複雑なシナリオのグローバル理解をより活性化させるために、イベント認識事前学習補助タスクを導入する。
第二に、微調整の際には、両方のモダリティセマンティクスを保ちながら、参照タグを利用してRoI機能をテキストでブリッジする。
最後に、事前学習と微調整のギャップを狭めるためにインストラクションスタイルのプロンプトを使用し、タスク固有のアダプタを使用して、LLM固有の知識を新しいコモンセンスに統合する。
実験の結果,提案した補助課題の有効性ときめ細かいリンク戦略が示された。
関連論文リスト
- Optimization of Prompt Learning via Multi-Knowledge Representation for Vision-Language Models [26.964848679914354]
CoKnowは、リッチなコンテキスト知識を備えたビジョンランゲージモデルのためのPrompt Learningを強化するフレームワークである。
我々は11の公開データセットに対して広範な実験を行い、CoKnowが過去の手法より優れていることを示した。
論文 参考訳(メタデータ) (2024-04-16T07:44:52Z) - Exploring Interaction Patterns for Debugging: Enhancing Conversational
Capabilities of AI-assistants [18.53732314023887]
大規模言語モデル(LLM)は、プログラマが様々なソフトウェア開発タスクの自然言語説明を得ることを可能にする。
LLMはしばしば十分な文脈なしに行動し、暗黙の仮定や不正確な反応を引き起こす。
本稿では,対話パターンと会話分析からインスピレーションを得て,デバッグのための対話型AIアシスタントRobinを設計する。
論文 参考訳(メタデータ) (2024-02-09T07:44:27Z) - Grounding-Prompter: Prompting LLM with Multimodal Information for
Temporal Sentence Grounding in Long Videos [42.32528440002539]
テンポラル・センテンス・グラウンドディング(TSG)は、与えられた自然言語クエリに基づいてビデオからモーメントをローカライズすることを目的としている。
既存の作品は、主にショートビデオ用に設計されており、長いビデオではTSGを処理できない。
LLMにマルチモーダル情報を持たせることで、長いビデオでTSGを実行できるグラウンディング・プロンプター法を提案する。
論文 参考訳(メタデータ) (2023-12-28T16:54:21Z) - Good Questions Help Zero-Shot Image Reasoning [110.1671684828904]
質問駆動型視覚探索(QVix)は、大規模視覚言語モデル(LVLM)の探索能力を高める新しい促進戦略である。
QVixは、視覚的なシーンのより広い探索を可能にし、視覚的な質問応答や視覚的エンターテイメントといったタスクにおけるLVLMの推論精度と深さを改善している。
我々は,ScienceQAやきめ細かな視覚分類など,難易度の高いゼロショット視覚言語ベンチマークの評価を行い,QVixが既存の手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2023-12-04T03:18:51Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - LALM: Long-Term Action Anticipation with Language Models [74.10147822693791]
言語モデル(LALM)を用いた長期的行動予測のための新しいアプローチを提案する。
本手法は,従来の行動系列を追跡する行動認識モデルと,関連する環境の詳細を記述するための視覚言語モデルを含む。
実験の結果、LALMは長期的な行動予測のタスクにおいて最先端の手法を超越していることが示された。
論文 参考訳(メタデータ) (2023-11-29T02:17:27Z) - Learning without Forgetting for Vision-Language Models [65.49600786387106]
CIL(Class-Incremental Learning)あるいは継続的学習(Continuous Learning)は、現実世界において望ましい能力である。
VLM(Vision-Language Models)の最近の進歩は、一般化可能な表現を学習する上で有望な能力を示している。
本稿では,VLM を忘れずに学習できる ProjectiOn Fusion (PROOF) を提案する。
論文 参考訳(メタデータ) (2023-05-30T17:59:32Z) - Search-in-the-Chain: Interactively Enhancing Large Language Models with
Search for Knowledge-intensive Tasks [121.74957524305283]
本稿では、情報検索(IR)とLarge Language Model(LLM)のインタラクションのための、textbfSearch-in-the-Chain(SearChain)という新しいフレームワークを提案する。
実験の結果、SearChainは複雑な知識集約タスクにおける最先端のベースラインを上回っていることがわかった。
論文 参考訳(メタデータ) (2023-04-28T10:15:25Z) - See, Think, Confirm: Interactive Prompting Between Vision and Language
Models for Knowledge-based Visual Reasoning [60.43585179885355]
本稿では,知識に基づく視覚推論のための新しいフレームワークであるInteractive Prompting Visual Reasoner(IPVR)を提案する。
IPVRには3つのステージがある。
我々は,知識に基づく視覚的推論データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-01-12T18:59:50Z) - Attention Mechanism based Cognition-level Scene Understanding [23.592893555879538]
Visual Commonsense Reasoning (VCR)モデルは、現実の世界からの推論能力を必要とする、対応する理論的根拠による回答を予測することができる。
VCRタスクを解くための従来のアプローチは、一般的に、長い依存性関係の符号化されたモデルによるメモリの事前トレーニングや利用に頼っている。
本稿では,視覚的テクスト情報を効率的に融合し,セマンティック情報を並列に符号化し,認知レベルの推論のためのリッチな情報を取得するための並列注意型認知VCRネットワークPAVCRを提案する。
論文 参考訳(メタデータ) (2022-04-17T15:04:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。