論文の概要: LLM-Driven Completeness and Consistency Evaluation for Cultural Heritage Data Augmentation in Cross-Modal Retrieval
- arxiv url: http://arxiv.org/abs/2511.06268v1
- Date: Sun, 09 Nov 2025 08:05:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.852589
- Title: LLM-Driven Completeness and Consistency Evaluation for Cultural Heritage Data Augmentation in Cross-Modal Retrieval
- Title(参考訳): クロスモーダル検索における文化遺産データ強化のためのLLM駆動完全性と一貫性評価
- Authors: Jian Zhang, Junyi Guo, Junyi Yuan, Huanda Lu, Yanlin Zhou, Fangyu Wu, Qiufeng Wang, Dongming Lu,
- Abstract要約: クロスモーダル検索は文化遺産データの解釈に不可欠であるが、その有効性は不完全あるいは矛盾した文章の記述によって制限されることが多い。
LLM生成した記述の完全性や一貫性を向上させることにより、クロスモーダル検索性能を向上させるデータ拡張フレームワークである$C3$を提案する。
CulTiとTimeTravelの文化遺産データセットと一般的なベンチマークであるMSCOCOとFlickr30Kの実験では、$C3$が微調整とゼロショットの両方で最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 12.53048640760021
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Cross-modal retrieval is essential for interpreting cultural heritage data, but its effectiveness is often limited by incomplete or inconsistent textual descriptions, caused by historical data loss and the high cost of expert annotation. While large language models (LLMs) offer a promising solution by enriching textual descriptions, their outputs frequently suffer from hallucinations or miss visually grounded details. To address these challenges, we propose $C^3$, a data augmentation framework that enhances cross-modal retrieval performance by improving the completeness and consistency of LLM-generated descriptions. $C^3$ introduces a completeness evaluation module to assess semantic coverage using both visual cues and language-model outputs. Furthermore, to mitigate factual inconsistencies, we formulate a Markov Decision Process to supervise Chain-of-Thought reasoning, guiding consistency evaluation through adaptive query control. Experiments on the cultural heritage datasets CulTi and TimeTravel, as well as on general benchmarks MSCOCO and Flickr30K, demonstrate that $C^3$ achieves state-of-the-art performance in both fine-tuned and zero-shot settings.
- Abstract(参考訳): クロスモーダル検索は文化遺産データの解釈に欠かせないものであるが、その有効性は、歴史的データ損失と専門家注釈の高コストによる不完全または一貫性のない記述によって制限されることが多い。
大きな言語モデル(LLM)はテキスト記述を豊かにすることで有望な解決策を提供するが、そのアウトプットは幻覚や視覚的に根ざした詳細を見逃すことがしばしばある。
これらの課題に対処するために、LLM生成記述の完全性と一貫性を改善して、クロスモーダル検索性能を向上させるデータ拡張フレームワークである$C^3$を提案する。
C^3$は、ビジュアルキューと言語モデル出力の両方を使用してセマンティックカバレッジを評価するための完全性評価モジュールを導入している。
さらに,現実の不整合を緩和するためにマルコフ決定過程を定式化し,適応的なクエリ制御による整合性評価を導出する。
CulTiとTimeTravelの文化遺産データセットと一般的なベンチマークであるMSCOCOとFlickr30Kの実験では、$C^3$が微調整とゼロショットの両方で最先端のパフォーマンスを実現している。
関連論文リスト
- Causal Tracing of Object Representations in Large Vision Language Models: Mechanistic Interpretability and Hallucination Mitigation [27.62798534410331]
本稿では,視覚的物体知覚に対する因果的影響を系統的に定量化する,細粒度クロスモーダル因果追跡(FCCT)フレームワークを提案する。
FCCTは、視覚およびテキストトークンの全範囲、MHSA(Multi-head Self-attention)、FFN(Feed-forward Network)、隠された状態を含む3つのコアモデルコンポーネントを詳細に分析する。
我々の分析は、中間層における最後のトークンのMHSAが、クロスモーダル情報を集約する上で重要な役割を担い、FFNは3段階の階層的な保存の進行を示すことを初めて示すものである。
論文 参考訳(メタデータ) (2025-11-08T08:37:26Z) - LongWeave: A Long-Form Generation Benchmark Bridging Real-World Relevance and Verifiability [60.451734326001564]
textbfLongWeaveを導入し、Constraint-Verifier Evaluation(CoV-Eval)による実世界と検証のバランスをとる。
LongWeaveは7つの異なるタスクに対して、カスタマイズ可能な入出力長(最大64K/8Kトークン)をサポートする。
23大言語モデルの評価は、実世界の複雑さと出力長の増加に伴い、最先端モデルでさえ、長文生成において重大な課題に直面していることを示している。
論文 参考訳(メタデータ) (2025-10-28T12:11:12Z) - CIR-CoT: Towards Interpretable Composed Image Retrieval via End-to-End Chain-of-Thought Reasoning [93.05917922306196]
Composed Image Retrieval (CIR) は、参照画像と修正テキストから対象画像を見つけることを目的としている。
CIR-CoTは、明示的なChain-of-Thought (CoT)推論を統合するために設計された最初のエンドツーエンド検索指向MLLMである。
論文 参考訳(メタデータ) (2025-10-09T09:41:45Z) - CoT Referring: Improving Referring Expression Tasks with Grounded Reasoning [67.18702329644526]
CoT Referringは、構造化されたチェーン・オブ・シークレット・トレーニングデータ構造を通じて、モデル推論をモダリティにわたって強化する。
トレーニングデータを再構築して、新たな出力フォームを実行し、既存のデータセットに新たなアノテーションを提供します。
また、検出とセグメント化機能を統合MLLMフレームワークに統合し、新しい適応重み付き損失で学習して性能を最適化する。
論文 参考訳(メタデータ) (2025-10-03T08:50:21Z) - mSCoRe: a $M$ultilingual and Scalable Benchmark for $S$kill-based $Co$mmonsense $Re$asoning [74.97363626515236]
textbfSkill ベースの textbfCommonsense textbfReasoning (textbfmSCoRe) のための textbfMultilingual と Scalable Benchmark を提案する。
本ベンチマークでは,LLMの推論能力を体系的に評価するための3つの重要な要素を取り入れた。
本研究は,多言語多言語一般と文化的共通点に直面する場合,そのような推論強化モデルの限界を明らかにするものである。
論文 参考訳(メタデータ) (2025-08-13T18:59:02Z) - A Controllable Examination for Long-Context Language Models [62.845852724511964]
本研究では,長文言語モデルを評価するベンチマークである$textbfLongBioBenchを紹介する。
その結果,ほとんどのモデルでは,検索結果に対する意味的理解や基礎的推論が不足していることが判明した。
我々のさらなる分析は、文脈的非コヒーレンスなど、既存の合成ベンチマークで採用されているいくつかの設計選択を示している。
論文 参考訳(メタデータ) (2025-06-03T14:23:06Z) - CoLLM: A Large Language Model for Composed Image Retrieval [76.29725148964368]
Composed Image Retrieval (CIR)は、マルチモーダルクエリに基づいた画像検索を目的とした複雑なタスクである。
本稿では,イメージキャプションペアからトリプレットをオンザフライで生成するワンストップフレームワークであるCoLLMを提案する。
我々はLarge Language Models (LLMs) を利用して参照画像の埋め込みと修正テキストを生成する。
論文 参考訳(メタデータ) (2025-03-25T17:59:50Z) - Benchmark Granularity and Model Robustness for Image-Text Retrieval [44.045767657945895]
データセットの粒度とクエリの摂動が検索性能とロバスト性にどのように影響するかを示す。
よりリッチなキャプションは、特にテキスト・ツー・イメージタスクにおいて、検索を継続的に強化することを示す。
本研究は, モデル頑健性の変化とキャプション粒度と感度摂動のデータセット依存的関係に着目した。
論文 参考訳(メタデータ) (2024-07-21T18:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。