論文の概要: Dynamic Knowledge Integration for Enhanced Vision-Language Reasoning
- arxiv url: http://arxiv.org/abs/2501.08597v1
- Date: Wed, 15 Jan 2025 05:45:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-16 15:52:45.322721
- Title: Dynamic Knowledge Integration for Enhanced Vision-Language Reasoning
- Title(参考訳): ビジョンランゲージ推論のための動的知識統合
- Authors: Julian Perry, Surasakdi Siripong, Thanakorn Phonchai,
- Abstract要約: 大規模視覚言語モデル(AKGP-LVLM)のための適応的知識誘導型事前学習法を提案する。
事前訓練と微調整の間、構造化された、構造化されていない知識をLVLMに組み込む。
提案手法を4つのベンチマークデータセットで評価し,最先端モデルよりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Large Vision-Language Models (LVLMs) have demonstrated impressive capabilities in multimodal tasks, but their performance is often constrained by the lack of external knowledge integration, limiting their ability to handle knowledge-intensive tasks such as visual question answering and reasoning. To address this challenge, we propose a novel method, Adaptive Knowledge-Guided Pretraining for Large Vision-Language Models (AKGP-LVLM), which dynamically incorporates structured and unstructured knowledge into LVLMs during pretraining and fine-tuning. Our approach employs a knowledge encoder to represent external knowledge, a retrieval mechanism to select task-relevant information, and a dynamic adaptor to align multimodal and knowledge representations effectively. We evaluate our method on four benchmark datasets, demonstrating significant performance improvements over state-of-the-art models. Furthermore, human evaluations highlight the superior correctness and relevance of our model's outputs. Extensive analyses confirm the robustness, efficiency, and scalability of AKGP-LVLM, making it a compelling solution for real-world knowledge-intensive tasks.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、マルチモーダルタスクにおいて印象的な機能を示しているが、その性能は外部知識の統合の欠如によって制約され、視覚的質問応答や推論などの知識集約的なタスクを処理する能力に制限されることが多い。
この課題に対処するために、構造化知識と非構造化知識を事前学習および微調整中に動的にLVLMに組み込む適応的知識誘導型大規模視覚言語モデル(AKGP-LVLM)を提案する。
提案手法では,外部知識を表現するための知識エンコーダ,タスク関連情報を選択するための検索機構,マルチモーダルおよび知識表現を効果的に整合させる動的適応器を用いる。
提案手法を4つのベンチマークデータセットで評価し,最先端モデルよりも優れた性能を示す。
さらに、人間の評価は、我々のモデル出力の優れた正しさと妥当性を強調している。
大規模解析により, AKGP-LVLMの堅牢性, 効率, スケーラビリティが確認できる。
関連論文リスト
- WisdomBot: Tuning Large Language Models with Artificial Intelligence Knowledge [17.74988145184004]
大規模言語モデル(LLM)は自然言語処理(NLP)の強力なツールとして登場した。
本稿では,LLMの力と教育理論を組み合わせた,WisdomBotという教育用LLMについて述べる。
本稿では,推論中の2つの重要な拡張,すなわち,ローカル知識ベース検索の強化と,推論中の検索エンジン検索の強化を紹介する。
論文 参考訳(メタデータ) (2025-01-22T13:36:46Z) - KBAlign: Efficient Self Adaptation on Specific Knowledge Bases [73.34893326181046]
大規模言語モデル(LLM)は通常、知識材料を瞬時に活用するために、検索強化世代に依存している。
本稿では,知識ベースを含む下流タスクへの効率的な適応を目的としたKBAlignを提案する。
提案手法は,Q&Aペアやリビジョン提案などの自己注釈付きデータを用いて反復学習を行い,モデルが知識内容を効率的に把握できるようにする。
論文 参考訳(メタデータ) (2024-11-22T08:21:03Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - RoRA-VLM: Robust Retrieval-Augmented Vision Language Models [41.09545760534495]
RORA-VLMは、視覚言語モデルに特化して設計された、新規で堅牢な検索拡張フレームワークである。
提案手法の有効性とロバスト性を,広く採用されている3つのベンチマークデータセット上で検証する。
論文 参考訳(メタデータ) (2024-10-11T14:51:00Z) - Large Language Models are Limited in Out-of-Context Knowledge Reasoning [65.72847298578071]
大規模言語モデル (LLMs) は、文脈内推論の実行において広範な知識と強力な能力を持っている。
本稿では、複数の知識を組み合わせて新しい知識を推論する、文脈外知識推論(OCKR)という、文脈外推論の重要な側面に焦点を当てる。
論文 参考訳(メタデータ) (2024-06-11T15:58:59Z) - Towards Automated Knowledge Integration From Human-Interpretable Representations [55.2480439325792]
我々は,情報メタ学習の原理を理論的に導入・動機付けし,自動的かつ制御可能な帰納バイアス選択を可能にする。
データ効率と一般化を改善するための情報メタラーニングのメリットと限界を実証的に示す。
論文 参考訳(メタデータ) (2024-02-25T15:08:37Z) - Thrust: Adaptively Propels Large Language Models with External Knowledge [58.72867916604562]
大規模事前学習言語モデル(PTLM)は、モデルパラメータの豊富な知識を符号化する。
PTLMの固有の知識は不透明または静的であり、外部の知識を必要とする。
本稿では,外部知識のインスタンスレベル適応推進(IAPEK)を提案する。
論文 参考訳(メタデータ) (2023-07-19T20:16:46Z) - Retrieval-based Knowledge Augmented Vision Language Pre-training [9.779887832992435]
知識強化事前学習の主な課題は、知識とマルチモーダルデータの間の明確なつながりの欠如である。
本研究では,Retrieval-based knowledge Augmented Vision Language (REAVL)を提案する。
本稿では,知識とマルチモーダルデータとの対応性を効果的に確立する知識認識型自己教師型学習手法を初めて導入する。
論文 参考訳(メタデータ) (2023-04-27T02:23:47Z) - LM-CORE: Language Models with Contextually Relevant External Knowledge [13.451001884972033]
モデルパラメータに大量の知識を格納することは、絶え間なく増加する知識とリソースの要求を考えると、準最適である、と我々は主張する。
LM-CORE - これを実現するための一般的なフレームワークで、外部の知識ソースから言語モデルのトレーニングをテキストデカップリングすることができる。
実験結果から, LM-COREは知識探索タスクにおいて, 最先端の知識強化言語モデルよりも大きく, 堅牢な性能を実現していることがわかった。
論文 参考訳(メタデータ) (2022-08-12T18:59:37Z) - KAT: A Knowledge Augmented Transformer for Vision-and-Language [56.716531169609915]
我々は、OK-VQAのオープンドメインマルチモーダルタスクにおいて、最先端の強力な結果をもたらす新しいモデルである知識拡張トランスフォーマー(KAT)を提案する。
提案手法は,エンド・ツー・エンドのエンコーダ・デコーダアーキテクチャにおいて暗黙的かつ明示的な知識を統合しつつ,回答生成時に両知識源を共同で推論する。
我々の分析では、モデル予測の解釈可能性の向上に、明示的な知識統合のさらなる利点が見られる。
論文 参考訳(メタデータ) (2021-12-16T04:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。