論文の概要: Towards Complex-query Referring Image Segmentation: A Novel Benchmark
- arxiv url: http://arxiv.org/abs/2309.17205v1
- Date: Fri, 29 Sep 2023 12:58:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-02 13:55:40.161358
- Title: Towards Complex-query Referring Image Segmentation: A Novel Benchmark
- Title(参考訳): 画像セグメンテーションの複雑問合せに向けて:新しいベンチマーク
- Authors: Wei Ji, Li Li, Hao Fei, Xiangyan Liu, Xun Yang, Juncheng Li, Roger
Zimmermann
- Abstract要約: 複雑なクエリ、すなわち textbfRIS-CQ を用いた新しい RIS ベンチマークを提案する。
RIS-CQデータセットは高品質で大規模であり、リッチで具体的で情報に富んだクエリで既存のRISに挑戦する。
マルチモーダリティグラフアライメントモデル(textbftextscDuMoGa)と呼ばれる,RIS-CQをよりよく扱うニッチターゲット方式を提案する。
- 参考スコア(独自算出の注目度): 42.263084522244796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Referring Image Understanding (RIS) has been extensively studied over the
past decade, leading to the development of advanced algorithms. However, there
has been a lack of research investigating how existing algorithms should be
benchmarked with complex language queries, which include more informative
descriptions of surrounding objects and backgrounds (\eg \textit{"the black
car."} vs. \textit{"the black car is parking on the road and beside the
bus."}). Given the significant improvement in the semantic understanding
capability of large pre-trained models, it is crucial to take a step further in
RIS by incorporating complex language that resembles real-world applications.
To close this gap, building upon the existing RefCOCO and Visual Genome
datasets, we propose a new RIS benchmark with complex queries, namely
\textbf{RIS-CQ}. The RIS-CQ dataset is of high quality and large scale, which
challenges the existing RIS with enriched, specific and informative queries,
and enables a more realistic scenario of RIS research. Besides, we present a
nichetargeting method to better task the RIS-CQ, called dual-modality graph
alignment model (\textbf{\textsc{DuMoGa}}), which outperforms a series of RIS
methods.
- Abstract(参考訳): Referring Image Understanding (RIS)は、過去10年間に広く研究され、高度なアルゴリズムの開発に繋がった。
しかしながら、既存のアルゴリズムが複雑な言語クエリでどのようにベンチマークされるべきかを調査する研究が不足しており、周囲のオブジェクトや背景のより情報的な記述を含んでいる("\eg \textit{"the black car."} vs. \textit{"the black car is parking on the road and beside the bus")。
大規模な事前学習モデルのセマンティック理解能力の大幅な向上を考えると、現実世界のアプリケーションに似た複雑な言語を組み込むことで、RISをさらに前進させることが重要である。
このギャップを埋めるために、既存のRefCOCOデータセットとVisual Genomeデータセットに基づいて、複雑なクエリを持つ新しいRISベンチマーク、すなわち \textbf{RIS-CQ}を提案する。
RIS-CQデータセットは高品質で大規模であり、リッチで具体的で情報的なクエリによって既存のRISに挑戦し、RIS研究のより現実的なシナリオを実現する。
さらに、RIS-CQ の処理を改善するニッチターゲティング手法として、一連の RIS 法より優れた双対モダリティグラフアライメントモデル(\textbf{\textsc{DuMoGa}})を提案する。
関連論文リスト
- Context Awareness Gate For Retrieval Augmented Generation [2.749898166276854]
Retrieval Augmented Generation (RAG) は、大規模言語モデル(LLM)の限界を軽減し、ドメイン固有の質問に答える手段として広く採用されている。
これまでの研究は主に、取得したデータチャンクの精度と品質を改善し、生成パイプライン全体のパフォーマンスを向上させることに重点を置いてきた。
オープンドメイン質問応答における無関係情報検索の効果について検討し,LLM出力の品質に対する顕著な有害な影響を明らかにする。
論文 参考訳(メタデータ) (2024-11-25T06:48:38Z) - RiTeK: A Dataset for Large Language Models Complex Reasoning over Textual Knowledge Graphs [12.846097618151951]
我々は,テキスト知識グラフ(RiTeK)を用いたLLMの複雑な推論のためのデータセットを開発し,広範なトポロジ的構造を網羅する。
多様なトポロジ構造、注釈付き情報、複雑なテキスト記述を統合した現実的なユーザクエリを合成する。
そこで我々はモンテカルロ木探索法 (CTS) を導入し, 特定のクエリに対してテキストグラフから関係経路情報を自動的に抽出する手法を提案する。
論文 参考訳(メタデータ) (2024-10-17T19:33:37Z) - LightRAG: Simple and Fast Retrieval-Augmented Generation [12.86888202297654]
Retrieval-Augmented Generation (RAG) システムは、外部知識ソースを統合することで、大規模言語モデル(LLM)を強化する。
既存のRAGシステムには、フラットなデータ表現への依存やコンテキスト認識の欠如など、大きな制限がある。
テキストインデックスと検索プロセスにグラフ構造を組み込んだLightRAGを提案する。
論文 参考訳(メタデータ) (2024-10-08T08:00:12Z) - CoIR: A Comprehensive Benchmark for Code Information Retrieval Models [56.691926887209895]
textbfInformation textbfRetrieval Benchmark(textbfInformation textbfRetrieval Benchmark)は,コード検索機能の評価に特化して設計された,堅牢で包括的なベンチマークである。
名前は、Textbftenを巧みにキュレートしたコードデータセットから成り、textbfs7の異なるドメインにまたがる、textbfeight特有の検索タスクにまたがる。
我々は9つの広く使われている検索モデルを名前を用いて評価し、最先端のシステムであってもコード検索タスクの実行に重大な困難を見出した。
論文 参考訳(メタデータ) (2024-07-03T07:58:20Z) - CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models [49.16989035566899]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。
本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文 参考訳(メタデータ) (2024-01-30T14:25:32Z) - Context Matters: Pushing the Boundaries of Open-Ended Answer Generation with Graph-Structured Knowledge Context [4.1229332722825]
本稿では,知識グラフに基づく拡張と合わせて,グラフ駆動型コンテキスト検索を組み合わせた新しいフレームワークを提案する。
我々は,様々なパラメータサイズを持つ大規模言語モデル(LLM)の実験を行い,知識の基盤化能力を評価し,オープンな質問に対する回答の事実的正確性を決定する。
われわれの方法であるGraphContextGenは、テキストベースの検索システムよりも一貫して優れており、その堅牢性と多くのユースケースへの適応性を実証している。
論文 参考訳(メタデータ) (2024-01-23T11:25:34Z) - Building Interpretable and Reliable Open Information Retriever for New
Domains Overnight [67.03842581848299]
情報検索は、オープンドメイン質問応答(QA)など、多くのダウンストリームタスクにとって重要な要素である。
本稿では、エンティティ/イベントリンクモデルとクエリ分解モデルを用いて、クエリの異なる情報単位により正確にフォーカスする情報検索パイプラインを提案する。
より解釈可能で信頼性が高いが,提案したパイプラインは,5つのIRおよびQAベンチマークにおける通過カバレッジと記述精度を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-09T07:47:17Z) - QontSum: On Contrasting Salient Content for Query-focused Summarization [22.738731393540633]
クエリ中心の要約(QFS)は、特定のクエリに対処する要約を生成する自然言語処理において難しいタスクである。
本稿では,GARにおけるQFSの役割について述べる。
コントラスト学習を利用したQFSの新しい手法であるQontSumを提案する。
論文 参考訳(メタデータ) (2023-07-14T19:25:35Z) - Information Screening whilst Exploiting! Multimodal Relation Extraction
with Feature Denoising and Multimodal Topic Modeling [96.75821232222201]
既存のマルチモーダル関係抽出(MRE)研究は、内部情報過剰利用と外部情報過多という2つの共存課題に直面している。
内部情報スクリーニングと外部情報活用を同時に実現する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:57Z) - Towards Robust Referring Image Segmentation [80.53860642199412]
Referring Image (RIS)は、テキスト記述に基づいてオブジェクトマスクを出力する基本的な視覚言語タスクである。
我々はロバスト参照画像(R-RIS)というRISの新しい定式化を提案する。
既存のRISデータセットを負の文で拡張することで、3つのR-RISデータセットを作成します。
本稿では,トークンベースのビジョンと言語融合モジュールを備えた,RefSegformerと呼ばれるトランスフォーマーベースのモデルを提案する。
論文 参考訳(メタデータ) (2022-09-20T08:48:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。