論文の概要: A Knowledge Noise Mitigation Framework for Knowledge-based Visual Question Answering
- arxiv url: http://arxiv.org/abs/2509.09159v1
- Date: Thu, 11 Sep 2025 05:40:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.240864
- Title: A Knowledge Noise Mitigation Framework for Knowledge-based Visual Question Answering
- Title(参考訳): 知識に基づく視覚的質問応答のための知識ノイズ軽減フレームワーク
- Authors: Zhiyue Liu, Sihang Liu, Jinyuan Liu, Xinru Zhang,
- Abstract要約: 知識に基づく視覚的質問応答(KB-VQA)は、画像を理解し、正確な答えを提供するために外部知識を利用するモデルを必要とする。
既存のアプローチは、しばしば知識ソースから取得した情報でモデルを直接拡張する。
本稿では,KB-VQAの知識に着目した学習自由フレームワークを提案する。
- 参考スコア(独自算出の注目度): 14.08940185497287
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge-based visual question answering (KB-VQA) requires a model to understand images and utilize external knowledge to provide accurate answers. Existing approaches often directly augment models with retrieved information from knowledge sources while ignoring substantial knowledge redundancy, which introduces noise into the answering process. To address this, we propose a training-free framework with knowledge focusing for KB-VQA, that mitigates the impact of noise by enhancing knowledge relevance and reducing redundancy. First, for knowledge retrieval, our framework concludes essential parts from the image-question pairs, creating low-noise queries that enhance the retrieval of highly relevant knowledge. Considering that redundancy still persists in the retrieved knowledge, we then prompt large models to identify and extract answer-beneficial segments from knowledge. In addition, we introduce a selective knowledge integration strategy, allowing the model to incorporate knowledge only when it lacks confidence in answering the question, thereby mitigating the influence of redundant information. Our framework enables the acquisition of accurate and critical knowledge, and extensive experiments demonstrate that it outperforms state-of-the-art methods.
- Abstract(参考訳): 知識に基づく視覚的質問応答(KB-VQA)は、画像を理解し、正確な答えを提供するために外部知識を利用するモデルを必要とする。
既存のアプローチはしばしば、解答プロセスにノイズをもたらす知識冗長性を無視しながら、知識ソースから取得した情報でモデルを直接増強する。
そこで本研究では,KB-VQAの知識に着目した学習自由フレームワークを提案する。
まず,知識検索において,画像探索ペアから重要な部分を抽出し,関連性の高い知識の検索を促進する低雑音クエリを生成する。
抽出した知識に冗長性がまだ残っていることを考えると、我々は大きなモデルに知識から解答益セグメントを識別して抽出するよう促す。
さらに、選択的な知識統合戦略を導入し、質問に答える自信が欠如している場合にのみ、モデルが知識を組み込むことを可能にし、冗長な情報の影響を軽減する。
我々のフレームワークは,正確かつ重要な知識の獲得を可能にし,最先端の手法よりも優れていることを示す広範な実験を行った。
関連論文リスト
- Knowledge Condensation and Reasoning for Knowledge-based VQA [20.808840633377343]
近年の研究では、外部知識ベースから知識パスを取得し、それを使って質問に答えている。
本稿では,知識凝縮モデルと知識推論モデルという2つの相乗的モデルを提案する。
本手法は知識に基づくVQAデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-15T06:06:06Z) - InfuserKI: Enhancing Large Language Models with Knowledge Graphs via Infuser-Guided Knowledge Integration [58.61492157691623]
知識を統合する手法が開発され、外部モジュールを通してLLMをドメイン固有の知識グラフに拡張した。
本研究は,未知の知識をLLMに効率的に統合することで,未知の知識を不要に重複させるという,新たな問題に焦点をあてる。
新しい知識を導入するリスクは、既存の知識を忘れることである。
論文 参考訳(メタデータ) (2024-02-18T03:36:26Z) - Fine-grained Stateful Knowledge Exploration: Effective and Efficient Graph Retrieval with Large Language Models [19.049828741139425]
大きな言語モデル(LLM)は印象的な能力を示していますが、その知識を更新することは大きな課題です。
既存のほとんどの手法では、知識グラフから関連する知識を漸進的に取り出すために、問題全体を目的として扱うパラダイムを使用している。
本研究では,細粒度ステートフル知識探索のための新しいパラダイムであるFiSKEを提案する。
論文 参考訳(メタデータ) (2024-01-24T13:36:50Z) - Beyond Factuality: A Comprehensive Evaluation of Large Language Models
as Knowledge Generators [78.63553017938911]
大規模言語モデル(LLM)は、下流の知識集約タスクのための情報検索技術より優れている。
しかし、コミュニティの懸念は、この無検閲の知識を使用することの事実と潜在的意味について多岐にわたる。
本研究では,6つの重要な視点から生成した知識を評価するために設計されたCONNERを紹介する。
論文 参考訳(メタデータ) (2023-10-11T08:22:37Z) - A Unified End-to-End Retriever-Reader Framework for Knowledge-based VQA [67.75989848202343]
本稿では,知識に基づくVQAに向けて,エンド・ツー・エンドのレトリバー・リーダー・フレームワークを提案する。
我々は、視覚言語による事前学習モデルからの多モーダルな暗黙の知識に光を当て、知識推論の可能性を掘り下げた。
提案手法では,知識検索のガイダンスを提供するだけでなく,質問応答に対してエラーが発生しやすいケースも排除できる。
論文 参考訳(メタデータ) (2022-06-30T02:35:04Z) - Coarse-to-Careful: Seeking Semantic-related Knowledge for Open-domain
Commonsense Question Answering [12.406729445165857]
背景コモンセンスを必要とする質問に機械が答えるのを助けるために、外部知識を利用するのが一般的である。
本稿では,知識注入を粗大から粗大に制御する意味駆動型知識認識型QAフレームワークを提案する。
論文 参考訳(メタデータ) (2021-07-04T10:56:36Z) - Contextualized Knowledge-aware Attentive Neural Network: Enhancing
Answer Selection with Knowledge [77.77684299758494]
ナレッジグラフ(KG)による外部知識による回答選択モデル向上のアプローチを幅広く検討しています。
まず、KGの外部知識とテキスト情報との密接な相互作用を考慮し、QA文表現を学習するコンテキスト知識相互作用学習フレームワークであるナレッジアウェアニューラルネットワーク(KNN)を紹介します。
KG情報の多様性と複雑性に対処するために, カスタマイズされたグラフ畳み込みネットワーク (GCN) を介して構造情報を用いた知識表現学習を改善し, コンテキストベースおよび知識ベースの文表現を総合的に学習する コンテキスト型知識認識型アテンシブニューラルネットワーク (CKANN) を提案する。
論文 参考訳(メタデータ) (2021-04-12T05:52:20Z) - Incremental Knowledge Based Question Answering [52.041815783025186]
人間と同じように学習能力を段階的に拡張できるインクリメンタルKBQA学習フレームワークを提案します。
具体的には、破滅的な忘れ問題を克服するために、マージン希釈損失と協調選択方法からなる。
包括的な実験は、進化する知識ベースに取り組む際にその効果と効率を示す。
論文 参考訳(メタデータ) (2021-01-18T09:03:38Z) - KRISP: Integrating Implicit and Symbolic Knowledge for Open-Domain
Knowledge-Based VQA [107.7091094498848]
VQAの最も難しい質問の1つは、質問に答えるために画像に存在しない外部の知識を必要とする場合です。
本研究では,解答に必要な知識が与えられたり記入されたりしないオープンドメイン知識を,トレーニング時やテスト時にも検討する。
知識表現と推論には2つのタイプがあります。
まず、トランスベースのモデルで教師なし言語事前トレーニングと教師付きトレーニングデータから効果的に学ぶことができる暗黙的な知識。
論文 参考訳(メタデータ) (2020-12-20T20:13:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。