論文の概要: CIRCLED: A Multi-turn CIR Dataset with Consistent Dialogues across Domains
- arxiv url: http://arxiv.org/abs/2605.26734v1
- Date: Tue, 26 May 2026 09:11:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.78087
- Title: CIRCLED: A Multi-turn CIR Dataset with Consistent Dialogues across Domains
- Title(参考訳): CIRCLED: ドメイン間の一貫性のある対話を備えたマルチターンCIRデータセット
- Authors: Tomohisa Takeda, Yu-Chieh Lin, Yuji Nozawa, Youyang Ng, Osamu Torii, Yusuke Matsui,
- Abstract要約: CIRCLEDでは、各ターンのクエリがターゲットイメージに徐々に近づく。
我々は9つのサブセットにまたがって22,608のマルチターンセッションを収集し、Multi-turn FashionIQをはるかに上回っている。
我々の研究は、マルチターンCIRの研究を促進するための実用的で高品質なベンチマークを提供する。
- 参考スコア(独自算出の注目度): 17.703391886251378
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing Multi-Turn Composed Image Retrieval (MTCIR) datasets lack dialogue-history consistency and are restricted to the fashion domain. To address these limitations, we construct CIRCLED by extending FashionIQ, CIRR, and CIRCO. In CIRCLED, the query at each turn progressively approaches the target image. Data are generated via a CIReVL-based retrieval pipeline and curated with multiple filters on retrieval success, turn length, consistency, and information redundancy to ensure quality. In total, we collect 22,608 multi-turn sessions across nine subsets, substantially exceeding Multi-turn FashionIQ (11,505 sessions) in both scale and generality. We further apply multiple baseline methods and quantitatively assess retrieval accuracy on CIRCLED. Our work provides a practical, high-quality benchmark to facilitate future research on multi-turn CIR. The dataset and code are publicly available at https://huggingface.co/datasets/tk1441/CIRCLED and https://github.com/mti-lab/circled.
- Abstract(参考訳): 既存のMulti-Turn Composed Image Retrieval (MTCIR)データセットは対話履歴の一貫性に欠けており、ファッションドメインに限定されている。
これらの制約に対処するため、FashionIQ, CIRR, CIRCOを拡張してCIRCLEDを構築する。
CIRCLEDでは、各ターンのクエリがターゲットイメージに徐々に近づく。
データはCIReVLベースの検索パイプラインを通じて生成され、検索成功、ターン長、一貫性、情報冗長性を保証するために複数のフィルタでキュレーションされる。
合計で9つのサブセットにまたがる22,608のマルチターンセッションを収集し,その規模と一般性の両方において,Multi-turn FashionIQ(11,505セッション)を大きく上回った。
さらに,複数のベースライン法を適用し,CIRCLEDの精度を定量的に評価する。
我々の研究は、マルチターンCIRの研究を促進するための実用的で高品質なベンチマークを提供する。
データセットとコードはhttps://huggingface.co/datasets/tk1441/CIRCLEDとhttps://github.com/mti-lab/circledで公開されている。
関連論文リスト
- Towards Long-horizon Agentic Multimodal Search [109.0092257657625]
本稿では,LMM-Searcher という,ファイルベースの視覚的表現機構を中心とした新しい多モード深層検索フレームワークを提案する。
エージェントに調整されたフェッチ・イメージ・ツールを装備し、能動的知覚のためのプログレッシブでオンデマンドなビジュアル・ローディング・ストラテジーを実現する。
提案手法は,100ターンの探索地平線へのスケールアップに成功し,オープンソースモデル間の最先端性能を実現した。
論文 参考訳(メタデータ) (2026-04-14T15:40:28Z) - Comprehensive Comparison of RAG Methods Across Multi-Domain Conversational QA [18.46710400838861]
本稿では,マルチターン対話型QAにおけるRAG手法の体系的比較の欠如に対処する。
本研究では,8種類の対話型QAデータセットを対象とした,バニラ法と高度なRAG法に関する総合的研究を行った。
以上の結果から,再ランク付けやハイブリッドBM25,HyDEなどの頑健で簡便な手法がバニラRAGより一貫して優れていたことが示唆された。
論文 参考訳(メタデータ) (2026-02-10T08:59:23Z) - DeepSieve: Information Sieving via LLM-as-a-Knowledge-Router [57.28685457991806]
DeepSieveはエージェントRAGフレームワークで、LLM-as-a-knowledge-routerを介して情報を収集する。
我々の設計はモジュール性、透明性、適応性を重視しており、エージェントシステム設計の最近の進歩を活用している。
論文 参考訳(メタデータ) (2025-07-29T17:55:23Z) - A Comprehensive Survey on Composed Image Retrieval [54.54527281731775]
Composed Image Retrieval (CIR)は、ユーザがマルチモーダルクエリを使ってターゲットイメージを検索できる、新しくて困難なタスクである。
現在、この分野のタイムリーな概要を提供するため、CIRの包括的なレビューは行われていない。
我々は、ACM TOIS、SIGIR、CVPRなど、トップカンファレンスやジャーナルで120以上の出版物から洞察を合成する。
論文 参考訳(メタデータ) (2025-02-19T01:37:24Z) - Cocktail: A Comprehensive Information Retrieval Benchmark with LLM-Generated Documents Integration [60.535793237063885]
LLM(Large Language Models)の普及は、インターネット上のAIGC(AIGC)の流入につながっている。
AIGCの急増が情報検索システムに与える影響は、まだ明らかな疑問である。
我々は、この混合ソースデータランドスケープでIRモデルを評価するのに適したベンチマークであるCocktailを紹介した。
論文 参考訳(メタデータ) (2024-05-26T12:30:20Z) - CompoDiff: Versatile Composed Image Retrieval With Latent Diffusion [44.29385440197458]
本稿では,ゼロショット合成画像検索(ZS-CIR)を遅延拡散で解くための新しい拡散モデルCompoDiffを提案する。
また,CIRモデルをトレーニングするための1880万の参照画像,条件,および対応するターゲット画像三重項を含む,SynthTriplets18Mという新しい合成データセットも紹介した。
論文 参考訳(メタデータ) (2023-03-21T15:06:35Z) - Data Roaming and Quality Assessment for Composed Image Retrieval [25.452015862927766]
Composed Image Retrieval (CoIR)は、画像とテキストのモダリティを組み合わせたクエリで、ユーザがより効果的にインテントを表現できるようにする。
我々は,既存のものより10倍大きい新しいCoIRデータセットであるLaSCoデータセットを紹介する。
また、新しいCoIRベースラインであるCASE(Cross-Attention driven Shift)も導入する。
論文 参考訳(メタデータ) (2023-03-16T16:02:24Z) - Deep Learning in Multimodal Remote Sensing Data Fusion: A Comprehensive
Review [33.40031994803646]
本調査は,DLに基づくマルチモーダルRSデータ融合の体系的概要を示すことを目的としている。
マルチモーダルRSデータ融合におけるサブフィールドについて,to-be-fusedデータモダリティの観点から検討する。
残る課題と今後の方向性が強調される。
論文 参考訳(メタデータ) (2022-05-03T09:08:16Z) - Query Resolution for Conversational Search with Limited Supervision [63.131221660019776]
本稿では,双方向トランスフォーマに基づくニューラルクエリ解決モデルQuReTeCを提案する。
我々はQuReTeCが最先端モデルより優れており、また、QuReTeCのトレーニングに必要な人為的なデータ量を大幅に削減するために、我々の遠隔監視手法が有効であることを示す。
論文 参考訳(メタデータ) (2020-05-24T11:37:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。