Fugu-MT 論文翻訳(概要): Towards Complex-query Referring Image Segmentation: A Novel Benchmark

論文の概要: Towards Complex-query Referring Image Segmentation: A Novel Benchmark

arxiv url: http://arxiv.org/abs/2309.17205v1
Date: Fri, 29 Sep 2023 12:58:13 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-02 13:55:40.161358
Title: Towards Complex-query Referring Image Segmentation: A Novel Benchmark
Title（参考訳）: 画像セグメンテーションの複雑問合せに向けて:新しいベンチマーク
Authors: Wei Ji, Li Li, Hao Fei, Xiangyan Liu, Xun Yang, Juncheng Li, Roger Zimmermann
Abstract要約: 複雑なクエリ、すなわち textbfRIS-CQ を用いた新しい RIS ベンチマークを提案する。 RIS-CQデータセットは高品質で大規模であり、リッチで具体的で情報に富んだクエリで既存のRISに挑戦する。マルチモーダリティグラフアライメントモデル(textbftextscDuMoGa)と呼ばれる,RIS-CQをよりよく扱うニッチターゲット方式を提案する。
参考スコア（独自算出の注目度）: 42.263084522244796
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Referring Image Understanding (RIS) has been extensively studied over the past decade, leading to the development of advanced algorithms. However, there has been a lack of research investigating how existing algorithms should be benchmarked with complex language queries, which include more informative descriptions of surrounding objects and backgrounds (\eg \textit{"the black car."} vs. \textit{"the black car is parking on the road and beside the bus."}). Given the significant improvement in the semantic understanding capability of large pre-trained models, it is crucial to take a step further in RIS by incorporating complex language that resembles real-world applications. To close this gap, building upon the existing RefCOCO and Visual Genome datasets, we propose a new RIS benchmark with complex queries, namely \textbf{RIS-CQ}. The RIS-CQ dataset is of high quality and large scale, which challenges the existing RIS with enriched, specific and informative queries, and enables a more realistic scenario of RIS research. Besides, we present a nichetargeting method to better task the RIS-CQ, called dual-modality graph alignment model (\textbf{\textsc{DuMoGa}}), which outperforms a series of RIS methods.
Abstract（参考訳）: Referring Image Understanding (RIS)は、過去10年間に広く研究され、高度なアルゴリズムの開発に繋がった。しかしながら、既存のアルゴリズムが複雑な言語クエリでどのようにベンチマークされるべきかを調査する研究が不足しており、周囲のオブジェクトや背景のより情報的な記述を含んでいる("\eg \textit{"the black car."} vs. \textit{"the black car is parking on the road and beside the bus")。大規模な事前学習モデルのセマンティック理解能力の大幅な向上を考えると、現実世界のアプリケーションに似た複雑な言語を組み込むことで、RISをさらに前進させることが重要である。このギャップを埋めるために、既存のRefCOCOデータセットとVisual Genomeデータセットに基づいて、複雑なクエリを持つ新しいRISベンチマーク、すなわち \textbf{RIS-CQ}を提案する。 RIS-CQデータセットは高品質で大規模であり、リッチで具体的で情報的なクエリによって既存のRISに挑戦し、RIS研究のより現実的なシナリオを実現する。さらに、RIS-CQ の処理を改善するニッチターゲティング手法として、一連の RIS 法より優れた双対モダリティグラフアライメントモデル(\textbf{\textsc{DuMoGa}})を提案する。

関連論文リスト

Towards Agentic RAG with Deep Reasoning: A Survey of RAG-Reasoning Systems in LLMs [69.10441885629787]
Retrieval-Augmented Generation (RAG) は、外部知識を注入することによって、Large Language Models (LLM) の事実性を高める。逆に、純粋に推論指向のアプローチは、しばしば幻覚的あるいは誤った事実を必要とする。この調査は両鎖を統一的推論-検索の観点から合成する。
論文参考訳（メタデータ） (2025-07-13T03:29:41Z)
DeRIS: Decoupling Perception and Cognition for Enhanced Referring Image Segmentation through Loopback Synergy [15.729826041347144]
RISを認知と認知という2つの重要な構成要素に分解する新しいフレームワークであるDeRISを提案する。以上の結果から,従来のモデルでは知覚障害ではなく,マルチモーダル認知能力が不十分であることが示唆された。本稿では,ターゲット存在判定に関連する長期分布問題に対処するため,単純な非参照型サンプル変換データ拡張を提案する。
論文参考訳（メタデータ） (2025-07-02T14:14:35Z)
DO-RAG: A Domain-Specific QA Framework Using Knowledge Graph-Enhanced Retrieval-Augmented Generation [4.113142669523488]
ドメイン固有のQAシステムは、生成頻度を必要とするが、構造化専門家の知識に基づく高い事実精度を必要とする。本稿では,マルチレベル知識グラフ構築と意味ベクトル検索を統合した,スケーラブルでカスタマイズ可能なハイブリッドQAフレームワークであるDO-RAGを提案する。
論文参考訳（メタデータ） (2025-05-17T06:40:17Z)
Hybrid Global-Local Representation with Augmented Spatial Guidance for Zero-Shot Referring Image Segmentation [30.213330400785747]
本研究では,周辺地域の文脈情報と詳細なマスク特化特徴を統合した,訓練不要でハイブリッドなグローバルな特徴抽出手法を提案する。標準RISベンチマーク実験により,本手法は既存のゼロショットRISモデルよりも大幅に優れていることが示された。
論文参考訳（メタデータ） (2025-04-01T02:13:39Z)
Composed Multi-modal Retrieval: A Survey of Approaches and Applications [81.54640206021757]
複合マルチモーダル検索(CMR)は次世代技術として誕生する。 CMRは、参照視覚入力とテキスト修正を統合することで、画像やビデオをクエリすることを可能にする。本稿では,CMRの基礎的課題,技術的進歩,応用について概説する。
論文参考訳（メタデータ） (2025-03-03T09:18:43Z)
Pseudo-Knowledge Graph: Meta-Path Guided Retrieval and In-Graph Text for RAG-Equipped LLM [8.941718961724984]
Pseudo-Knowledge Graph (PKG)フレームワークはメタパス検索、イングラフテキスト、ベクトル検索を大規模言語モデルに統合する。 PKGはより豊かな知識表現を提供し、情報検索の精度を向上させる。
論文参考訳（メタデータ） (2025-03-01T02:39:37Z)
TrustRAG: An Information Assistant with Retrieval Augmented Generation [73.84864898280719]
TrustRAGは、インデックス付け、検索、生成という3つの視点から、acRAGを強化する新しいフレームワークである。我々はTrustRAGフレームワークをオープンソース化し、抜粋ベースの質問応答タスク用に設計されたデモスタジオを提供する。
論文参考訳（メタデータ） (2025-02-19T13:45:27Z)
GeAR: Generation Augmented Retrieval [82.20696567697016]
文書検索技術は大規模情報システム開発の基礎となる。一般的な手法は、バイエンコーダを構築し、セマンティックな類似性を計算することである。我々は、よく設計された融合およびデコードモジュールを組み込んだ $textbfGe$neration という新しい手法を提案する。
論文参考訳（メタデータ） (2025-01-06T05:29:00Z)
Context Awareness Gate For Retrieval Augmented Generation [2.749898166276854]
Retrieval Augmented Generation (RAG) は、大規模言語モデル(LLM)の限界を軽減し、ドメイン固有の質問に答える手段として広く採用されている。これまでの研究は主に、取得したデータチャンクの精度と品質を改善し、生成パイプライン全体のパフォーマンスを向上させることに重点を置いてきた。オープンドメイン質問応答における無関係情報検索の効果について検討し,LLM出力の品質に対する顕著な有害な影響を明らかにする。
論文参考訳（メタデータ） (2024-11-25T06:48:38Z)
RiTeK: A Dataset for Large Language Models Complex Reasoning over Textual Knowledge Graphs [12.846097618151951]
我々は,テキスト知識グラフ(RiTeK)を用いたLLMの複雑な推論のためのデータセットを開発し,広範なトポロジ的構造を網羅する。多様なトポロジ構造、注釈付き情報、複雑なテキスト記述を統合した現実的なユーザクエリを合成する。そこで我々はモンテカルロ木探索法 (CTS) を導入し, 特定のクエリに対してテキストグラフから関係経路情報を自動的に抽出する手法を提案する。
論文参考訳（メタデータ） (2024-10-17T19:33:37Z)
LightRAG: Simple and Fast Retrieval-Augmented Generation [12.86888202297654]
Retrieval-Augmented Generation (RAG) システムは、外部知識ソースを統合することで、大規模言語モデル(LLM)を強化する。既存のRAGシステムには、フラットなデータ表現への依存やコンテキスト認識の欠如など、大きな制限がある。テキストインデックスと検索プロセスにグラフ構造を組み込んだLightRAGを提案する。
論文参考訳（メタデータ） (2024-10-08T08:00:12Z)
CoIR: A Comprehensive Benchmark for Code Information Retrieval Models [56.691926887209895]
textbfInformation textbfRetrieval Benchmark(textbfInformation textbfRetrieval Benchmark)は,コード検索機能の評価に特化して設計された,堅牢で包括的なベンチマークである。名前は、Textbftenを巧みにキュレートしたコードデータセットから成り、textbfs7の異なるドメインにまたがる、textbfeight特有の検索タスクにまたがる。我々は9つの広く使われている検索モデルを名前を用いて評価し、最先端のシステムであってもコード検索タスクの実行に重大な困難を見出した。
論文参考訳（メタデータ） (2024-07-03T07:58:20Z)
CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models [49.16989035566899]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文参考訳（メタデータ） (2024-01-30T14:25:32Z)
Context Matters: Pushing the Boundaries of Open-Ended Answer Generation with Graph-Structured Knowledge Context [4.1229332722825]
本稿では,知識グラフに基づく拡張と合わせて,グラフ駆動型コンテキスト検索を組み合わせた新しいフレームワークを提案する。我々は,様々なパラメータサイズを持つ大規模言語モデル(LLM)の実験を行い,知識の基盤化能力を評価し,オープンな質問に対する回答の事実的正確性を決定する。われわれの方法であるGraphContextGenは、テキストベースの検索システムよりも一貫して優れており、その堅牢性と多くのユースケースへの適応性を実証している。
論文参考訳（メタデータ） (2024-01-23T11:25:34Z)
Building Interpretable and Reliable Open Information Retriever for New Domains Overnight [67.03842581848299]
情報検索は、オープンドメイン質問応答(QA)など、多くのダウンストリームタスクにとって重要な要素である。本稿では、エンティティ/イベントリンクモデルとクエリ分解モデルを用いて、クエリの異なる情報単位により正確にフォーカスする情報検索パイプラインを提案する。より解釈可能で信頼性が高いが,提案したパイプラインは,5つのIRおよびQAベンチマークにおける通過カバレッジと記述精度を大幅に向上することを示す。
論文参考訳（メタデータ） (2023-08-09T07:47:17Z)
QontSum: On Contrasting Salient Content for Query-focused Summarization [22.738731393540633]
クエリ中心の要約(QFS)は、特定のクエリに対処する要約を生成する自然言語処理において難しいタスクである。本稿では,GARにおけるQFSの役割について述べる。コントラスト学習を利用したQFSの新しい手法であるQontSumを提案する。
論文参考訳（メタデータ） (2023-07-14T19:25:35Z)
Information Screening whilst Exploiting! Multimodal Relation Extraction with Feature Denoising and Multimodal Topic Modeling [96.75821232222201]
既存のマルチモーダル関係抽出(MRE)研究は、内部情報過剰利用と外部情報過多という2つの共存課題に直面している。内部情報スクリーニングと外部情報活用を同時に実現する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2023-05-19T14:56:57Z)
Towards Robust Referring Image Segmentation [80.53860642199412]
Referring Image (RIS)は、テキスト記述に基づいてオブジェクトマスクを出力する基本的な視覚言語タスクである。我々はロバスト参照画像(R-RIS)というRISの新しい定式化を提案する。既存のRISデータセットを負の文で拡張することで、3つのR-RISデータセットを作成します。本稿では,トークンベースのビジョンと言語融合モジュールを備えた,RefSegformerと呼ばれるトランスフォーマーベースのモデルを提案する。
論文参考訳（メタデータ） (2022-09-20T08:48:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。