論文の概要: Towards Complex-query Referring Image Segmentation: A Novel Benchmark
- arxiv url: http://arxiv.org/abs/2309.17205v1
- Date: Fri, 29 Sep 2023 12:58:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-02 13:55:40.161358
- Title: Towards Complex-query Referring Image Segmentation: A Novel Benchmark
- Title(参考訳): 画像セグメンテーションの複雑問合せに向けて:新しいベンチマーク
- Authors: Wei Ji, Li Li, Hao Fei, Xiangyan Liu, Xun Yang, Juncheng Li, Roger
Zimmermann
- Abstract要約: 複雑なクエリ、すなわち textbfRIS-CQ を用いた新しい RIS ベンチマークを提案する。
RIS-CQデータセットは高品質で大規模であり、リッチで具体的で情報に富んだクエリで既存のRISに挑戦する。
マルチモーダリティグラフアライメントモデル(textbftextscDuMoGa)と呼ばれる,RIS-CQをよりよく扱うニッチターゲット方式を提案する。
- 参考スコア(独自算出の注目度): 42.263084522244796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Referring Image Understanding (RIS) has been extensively studied over the
past decade, leading to the development of advanced algorithms. However, there
has been a lack of research investigating how existing algorithms should be
benchmarked with complex language queries, which include more informative
descriptions of surrounding objects and backgrounds (\eg \textit{"the black
car."} vs. \textit{"the black car is parking on the road and beside the
bus."}). Given the significant improvement in the semantic understanding
capability of large pre-trained models, it is crucial to take a step further in
RIS by incorporating complex language that resembles real-world applications.
To close this gap, building upon the existing RefCOCO and Visual Genome
datasets, we propose a new RIS benchmark with complex queries, namely
\textbf{RIS-CQ}. The RIS-CQ dataset is of high quality and large scale, which
challenges the existing RIS with enriched, specific and informative queries,
and enables a more realistic scenario of RIS research. Besides, we present a
nichetargeting method to better task the RIS-CQ, called dual-modality graph
alignment model (\textbf{\textsc{DuMoGa}}), which outperforms a series of RIS
methods.
- Abstract(参考訳): Referring Image Understanding (RIS)は、過去10年間に広く研究され、高度なアルゴリズムの開発に繋がった。
しかしながら、既存のアルゴリズムが複雑な言語クエリでどのようにベンチマークされるべきかを調査する研究が不足しており、周囲のオブジェクトや背景のより情報的な記述を含んでいる("\eg \textit{"the black car."} vs. \textit{"the black car is parking on the road and beside the bus")。
大規模な事前学習モデルのセマンティック理解能力の大幅な向上を考えると、現実世界のアプリケーションに似た複雑な言語を組み込むことで、RISをさらに前進させることが重要である。
このギャップを埋めるために、既存のRefCOCOデータセットとVisual Genomeデータセットに基づいて、複雑なクエリを持つ新しいRISベンチマーク、すなわち \textbf{RIS-CQ}を提案する。
RIS-CQデータセットは高品質で大規模であり、リッチで具体的で情報的なクエリによって既存のRISに挑戦し、RIS研究のより現実的なシナリオを実現する。
さらに、RIS-CQ の処理を改善するニッチターゲティング手法として、一連の RIS 法より優れた双対モダリティグラフアライメントモデル(\textbf{\textsc{DuMoGa}})を提案する。
関連論文リスト
- Retrieval-Augmented Generation for AI-Generated Content: A Survey [36.577189818885486]
このような課題に対処するためのパラダイムとして,レトリーバル拡張生成(RAG)が登場している。
RAGは情報検索プロセスを導入し、利用可能なデータストアから関連オブジェクトを検索することでAIGC結果を強化する。
本稿では,RAG手法をAIGCシナリオに統合する既存の取り組みを概観的にレビューする。
論文 参考訳(メタデータ) (2024-02-29T18:59:01Z) - CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented
Generation of Large Language Models [55.47070014913373]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。
本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文 参考訳(メタデータ) (2024-01-30T14:25:32Z) - Context Matters: Pushing the Boundaries of Open-Ended Answer Generation
with Graph-Structured Knowledge Context [4.368725325557961]
本稿では,知識グラフに基づく拡張と合わせて,グラフ駆動型コンテキスト検索を組み合わせた新しいフレームワークを提案する。
我々は,様々なパラメータサイズを持つ大規模言語モデル(LLM)の実験を行い,知識の基盤化能力を評価し,オープンな質問に対する回答の事実的正確性を決定する。
われわれの方法であるGraphContextGenは、テキストベースの検索システムよりも一貫して優れており、その堅牢性と多くのユースケースへの適応性を実証している。
論文 参考訳(メタデータ) (2024-01-23T11:25:34Z) - Building Interpretable and Reliable Open Information Retriever for New
Domains Overnight [67.03842581848299]
情報検索は、オープンドメイン質問応答(QA)など、多くのダウンストリームタスクにとって重要な要素である。
本稿では、エンティティ/イベントリンクモデルとクエリ分解モデルを用いて、クエリの異なる情報単位により正確にフォーカスする情報検索パイプラインを提案する。
より解釈可能で信頼性が高いが,提案したパイプラインは,5つのIRおよびQAベンチマークにおける通過カバレッジと記述精度を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-09T07:47:17Z) - Enhancing Human-like Multi-Modal Reasoning: A New Challenging Dataset
and Comprehensive Framework [51.44863255495668]
マルチモーダル推論は、人間のような知性を示す人工知能システムの追求において重要な要素である。
提案するマルチモーダル推論(COCO-MMR)データセットは,オープンエンド質問の集合を包含する新しいデータセットである。
画像とテキストエンコーダを強化するために,マルチホップ・クロスモーダル・アテンションや文レベルのコントラスト学習などの革新的な手法を提案する。
論文 参考訳(メタデータ) (2023-07-24T08:58:25Z) - QontSum: On Contrasting Salient Content for Query-focused Summarization [22.738731393540633]
クエリ中心の要約(QFS)は、特定のクエリに対処する要約を生成する自然言語処理において難しいタスクである。
本稿では,GARにおけるQFSの役割について述べる。
コントラスト学習を利用したQFSの新しい手法であるQontSumを提案する。
論文 参考訳(メタデータ) (2023-07-14T19:25:35Z) - Information Screening whilst Exploiting! Multimodal Relation Extraction
with Feature Denoising and Multimodal Topic Modeling [96.75821232222201]
既存のマルチモーダル関係抽出(MRE)研究は、内部情報過剰利用と外部情報過多という2つの共存課題に直面している。
内部情報スクリーニングと外部情報活用を同時に実現する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:57Z) - Towards Robust Referring Image Segmentation [80.53860642199412]
Referring Image (RIS)は、テキスト記述に基づいてオブジェクトマスクを出力する基本的な視覚言語タスクである。
我々はロバスト参照画像(R-RIS)というRISの新しい定式化を提案する。
既存のRISデータセットを負の文で拡張することで、3つのR-RISデータセットを作成します。
本稿では,トークンベースのビジョンと言語融合モジュールを備えた,RefSegformerと呼ばれるトランスフォーマーベースのモデルを提案する。
論文 参考訳(メタデータ) (2022-09-20T08:48:26Z) - Reference Knowledgeable Network for Machine Reading Comprehension [43.352833140317486]
マルチチョイスマシン読み取り(MRC)は、MRCタスクの重要かつ挑戦的な形式です。
参照知識ネットワーク(RekNet)と呼ばれるスパン抽出に基づく参照型知識強化モデルを提案する。
詳細では、RekNetは詳細なクリティカル情報を洗練し、Reference Spanと定義し、Reference Spanの共起情報と回答オプションによって外部知識の4倍を引用する。
論文 参考訳(メタデータ) (2020-12-07T14:11:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。