論文の概要: Object Retrieval for Visual Question Answering with Outside Knowledge
- arxiv url: http://arxiv.org/abs/2403.10798v2
- Date: Mon, 30 Jun 2025 05:35:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.309279
- Title: Object Retrieval for Visual Question Answering with Outside Knowledge
- Title(参考訳): 外部知識を用いた視覚的質問応答のためのオブジェクト検索
- Authors: Shichao Kan, Yuhai Deng, Jiale Fu, Lihui Cen, Zhe Qu, Linna Zhang, Yixiong Liang, Yigang Cen,
- Abstract要約: 外部知識(OR-OK-VQA)を用いた視覚的質問応答のためのオブジェクト検索タスクを提案する。
このタスクにおける重要な課題は、質問への回答に寄与する多様なオブジェクト関連画像を取得することである。
本稿では,マルチスケールグループ共同埋め込み学習(MS-GCEL)と呼ばれる,教師なしの深層機能埋め込み技術を紹介する。
- 参考スコア(独自算出の注目度): 15.749543297423582
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-augmented generation (RAG) with large language models (LLMs) plays a crucial role in question answering, as LLMs possess limited knowledge and are not updated with continuously growing information. Most recent work on RAG has focused primarily on text-based or large-image retrieval, which constrains the broader application of RAG models. We recognize that object-level retrieval is essential for addressing questions that extend beyond image content. To tackle this issue, we propose a task of object retrieval for visual question answering with outside knowledge (OR-OK-VQA), aimed to extend image-based content understanding in conjunction with LLMs. A key challenge in this task is retrieving diverse objects-related images that contribute to answering the questions. To enable accurate and robust general object retrieval, it is necessary to learn embeddings for local objects. This paper introduces a novel unsupervised deep feature embedding technique called multi-scale group collaborative embedding learning (MS-GCEL), developed to learn embeddings for long-tailed objects at different scales. Additionally, we establish an OK-VQA evaluation benchmark using images from the BelgaLogos, Visual Genome, and LVIS datasets. Prior to the OK-VQA evaluation, we construct a benchmark of challenges utilizing objects extracted from the COCO 2017 and VOC 2007 datasets to support the training and evaluation of general object retrieval models. Our evaluations on both general object retrieval and OK-VQA demonstrate the effectiveness of the proposed approach. The code and dataset will be publicly released for future research.
- Abstract(参考訳): 大規模言語モデル (LLMs) を持つ検索拡張世代 (RAG) は, LLM が限られた知識を持ち,継続的に増加する情報とともに更新されないため,質問応答において重要な役割を担っている。
RAGに関する最近の研究は、主にテキストベースまたは大画像検索に焦点を当てており、RAGモデルのより広範な適用を制限している。
我々は、画像コンテンツを超えて広がる疑問に対処するために、オブジェクトレベルの検索が不可欠であることを認識している。
本稿では,外的知識(OR-OK-VQA)を用いた視覚的質問応答のためのオブジェクト検索タスクを提案する。
このタスクにおける重要な課題は、質問への回答に寄与する多様なオブジェクト関連画像を取得することである。
高精度でロバストな汎用オブジェクト検索を実現するためには,局所オブジェクトへの埋め込みを学習する必要がある。
本稿では,マルチスケールグループ協調埋め込み学習 (MS-GCEL) と呼ばれる,異なるスケールの長い物体に対する埋め込みを学習するために開発された,教師なしの深層機能埋め込み技術を紹介する。
さらに,BelgaLogos,Visual Genome,LVISデータセットの画像を用いたOK-VQA評価ベンチマークを構築した。
我々は,OK-VQA評価に先立ち,COCO 2017およびVOC 2007データセットから抽出したオブジェクトを用いた課題のベンチマークを構築し,汎用オブジェクト検索モデルのトレーニングと評価を支援する。
汎用オブジェクト検索とOK-VQAの両方に対する評価は,提案手法の有効性を示すものである。
コードとデータセットは、将来の研究のために公開されます。
関連論文リスト
- Are We Done with Object-Centric Learning? [65.67948794110212]
オブジェクト中心学習(OCL)は、シーン内の他のオブジェクトやバックグラウンドキューから分離されたオブジェクトのみをエンコードする表現を学習しようとする。
最近のサンプル効率のセグメンテーションモデルでは、ピクセル空間内のオブジェクトを分離し、それらを独立に符号化することができる。
我々は,OCLのレンズを通した背景刺激によるOOD一般化の課題に対処する。
論文 参考訳(メタデータ) (2025-04-09T17:59:05Z) - Training-Free Open-Ended Object Detection and Segmentation via Attention as Prompts [14.631774737903015]
既存の知覚モデルは大量のラベル付きデータから学習することで大きな成功を収めるが、それでもオープンワールドのシナリオに苦戦している。
我々は、オブジェクトカテゴリを入力として含まない未確認オブジェクトを検出する、オープンな対象検出(textiti.e.)を提案する。
提案手法は,オブジェクト検出タスクにおける従来のオープンエンドメソッドを超越し,追加のインスタンスセグメンテーションマスクを提供できることを示す。
論文 参考訳(メタデータ) (2024-10-08T12:15:08Z) - FineCops-Ref: A new Dataset and Task for Fine-Grained Compositional Referring Expression Comprehension [10.482908189805872]
Referring Expression (REC) は言語理解能力、画像理解能力、言語と画像の接地能力を客観的に評価する重要なクロスモーダルタスクである。
我々は2つの重要な特徴を特徴とする新しいRECデータセットを構築した。
これには、既存のデータに基づいて微細な編集と生成によって作成された否定的なテキストと画像が含まれる。
論文 参考訳(メタデータ) (2024-09-23T06:56:51Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Fusing Local Similarities for Retrieval-based 3D Orientation Estimation
of Unseen Objects [70.49392581592089]
我々は,モノクロ画像から未確認物体の3次元配向を推定する作業に取り組む。
我々は検索ベースの戦略に従い、ネットワークがオブジェクト固有の特徴を学習するのを防ぐ。
また,LineMOD,LineMOD-Occluded,T-LESSのデータセットを用いた実験により,本手法が従来の手法よりもはるかに優れた一般化をもたらすことが示された。
論文 参考訳(メタデータ) (2022-03-16T08:53:00Z) - Learning Open-World Object Proposals without Learning to Classify [110.30191531975804]
本研究では,各領域の位置と形状がどの接地トラストオブジェクトとどのように重なり合うかによって,各領域の目的性を純粋に推定する,分類不要なオブジェクトローカライゼーションネットワークを提案する。
この単純な戦略は一般化可能な対象性を学び、クロスカテゴリの一般化に関する既存の提案より優れている。
論文 参考訳(メタデータ) (2021-08-15T14:36:02Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Unsupervised Discovery of the Long-Tail in Instance Segmentation Using
Hierarchical Self-Supervision [3.841232411073827]
本稿では,インスタンスセグメンテーションにおける長尾カテゴリの非監視的発見を行う手法を提案する。
我々のモデルは、一般的なカテゴリよりも新しくよりきめ細かなオブジェクトを発見できる。
本モデルでは,LVISにおいて,教師付きおよび部分教師付き手法と比較して,競争力のある定量的結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-02T22:05:03Z) - The IKEA ASM Dataset: Understanding People Assembling Furniture through
Actions, Objects and Pose [108.21037046507483]
IKEA ASMは300万フレーム、マルチビュー、家具組み立てビデオデータセットで、深さ、原子活動、オブジェクトセグメンテーション、人間のポーズを含む。
我々は,この課題のあるデータセット上で,映像行動認識,オブジェクトセグメンテーション,人間のポーズ推定タスクの顕著な手法をベンチマークする。
このデータセットは、マルチモーダルデータとマルチビューデータを統合してこれらのタスクをよりよく実行する、全体論的手法の開発を可能にする。
論文 参考訳(メタデータ) (2020-07-01T11:34:46Z) - Novel Human-Object Interaction Detection via Adversarial Domain
Generalization [103.55143362926388]
本研究では,新たな人-物間相互作用(HOI)検出の問題点を考察し,モデルの一般化能力を向上させることを目的とした。
この課題は、主に対象と述語の大きな構成空間に起因し、全ての対象と述語の組み合わせに対する十分な訓練データが欠如している。
本稿では,予測のためのオブジェクト指向不変の特徴を学習するために,対数領域の一般化の統一的な枠組みを提案する。
論文 参考訳(メタデータ) (2020-05-22T22:02:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。