論文の概要: Beyond Ranked Lists: The SARAL Framework for Cross-Lingual Document Set Retrieval
- arxiv url: http://arxiv.org/abs/2511.03228v1
- Date: Wed, 05 Nov 2025 06:35:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.358111
- Title: Beyond Ranked Lists: The SARAL Framework for Cross-Lingual Document Set Retrieval
- Title(参考訳): ランク付きリストを超えて: クロスリンガルなドキュメントセット検索のためのSARALフレームワーク
- Authors: Shantanu Agarwal, Joel Barry, Elizabeth Boschee, Scott Miller,
- Abstract要約: 英語情報検索のための機械翻訳(英: Machine Translation for English Retrieval of Information in Any Language (MATERIAL))は、言語間情報検索(CLIR)の推進を目的としたIARPAイニシアティブである。
本報告では,情報科学研究所 (ISI) の要約とドメイン適応検索言語 (SARAL) による評価の取り組みについて詳述する。
私たちは、クエリ関連ドキュメントのテキストセットを検索するアプローチの開発に重点を置いて、CLIRを扱うチームの新しいアプローチの概要を述べる。
- 参考スコア(独自算出の注目度): 5.199807441687141
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine Translation for English Retrieval of Information in Any Language (MATERIAL) is an IARPA initiative targeted to advance the state of cross-lingual information retrieval (CLIR). This report provides a detailed description of Information Sciences Institute's (ISI's) Summarization and domain-Adaptive Retrieval Across Language's (SARAL's) effort for MATERIAL. Specifically, we outline our team's novel approach to handle CLIR with emphasis in developing an approach amenable to retrieve a query-relevant document \textit{set}, and not just a ranked document-list. In MATERIAL's Phase-3 evaluations, SARAL exceeded the performance of other teams in five out of six evaluation conditions spanning three different languages (Farsi, Kazakh, and Georgian).
- Abstract(参考訳): 英語情報検索のための機械翻訳(英: Machine Translation for English Retrieval of Information in Any Language, MATERIAL)は、言語間情報検索(CLIR)の推進を目的としたIARPAイニシアティブである。
本報告では,情報科学研究所 (ISI) の要約とドメイン適応型検索言語 (SAral's) による教材化の取り組みについて詳述する。
具体的には、ランク付けされたドキュメントリストだけでなく、クエリ関連ドキュメントである \textit{set} を検索可能なアプローチの開発に重点を置いて、CLIRを扱うチームの新しいアプローチの概要を述べる。
マテリアルのフェーズ3の評価では、SARALは3つの異なる言語(ファルシ語、カザフ語、グルジア語)にまたがる6つの評価条件のうち5つの評価条件において、他のチームのパフォーマンスを上回った。
関連論文リスト
- Bridging Language Gaps: Advances in Cross-Lingual Information Retrieval with Multilingual LLMs [0.19116784879310025]
言語間情報検索(CLIR)は、元のクエリとは異なる言語で書かれた関連文書を取得するという課題に対処する。
近年の進歩は、翻訳に基づく手法から埋め込みに基づくアプローチへと移行している。
この調査は、初期の翻訳に基づく手法から、最先端の埋め込み駆動および生成技術への展開の包括的概要を提供する。
論文 参考訳(メタデータ) (2025-10-01T13:50:05Z) - Let's Use ChatGPT To Write Our Paper! Benchmarking LLMs To Write the Introduction of a Research Paper [64.50822834679101]
SciIGは、タイトル、抽象、および関連する作品からコヒーレントな紹介を生成するLLMの能力を評価するタスクである。
オープンソース (DeepSeek-v3, Gemma-3-12B, LLaMA 4-Maverick, MistralAI Small 3.1) およびクローズドソース GPT-4o システムを含む5つの最先端モデルを評価する。
結果は、特に意味的類似性と忠実性において、ほとんどのメトリクスにおいて、LLaMA-4 Maverickの優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-08-19T21:11:11Z) - Integrating Planning into Single-Turn Long-Form Text Generation [66.08871753377055]
長文コンテンツを生成するための計画案を提案する。
私たちの主な新規性は、複数のプロンプトや計画のラウンドを必要としない単一の補助的なタスクにあります。
実験では,LLMを補助タスクで微調整し,高品質な文書を生成する,異なる領域からの2つのデータセットを実証した。
論文 参考訳(メタデータ) (2024-10-08T17:02:40Z) - IRSC: A Zero-shot Evaluation Benchmark for Information Retrieval through Semantic Comprehension in Retrieval-Augmented Generation Scenarios [14.336896748878921]
本稿では,多言語RAGタスクにおける埋め込みモデルの性能評価のためのIRSCベンチマークを提案する。
このベンチマークには、クエリ検索、タイトル検索、パラグラフ検索、キーワード検索、要約検索の5つのタスクが含まれている。
1)IRSCベンチマーク,2)SSCIとRCCIメトリクス,3)埋め込みモデルの言語間制限に関する洞察などです。
論文 参考訳(メタデータ) (2024-09-24T05:39:53Z) - Simple Yet Effective Neural Ranking and Reranking Baselines for
Cross-Lingual Information Retrieval [50.882816288076725]
言語間情報検索は、ある言語で文書を検索し、別の言語でクエリーを検索するタスクである。
本研究では,多段階アーキテクチャを用いた言語横断検索のための異なるアプローチを体系化するための概念的枠組みを提案する。
我々は、ペルシア、ロシア、中国のTREC 2022 NeuCLIRトラックから収集したテストコレクションに対して、Anserini IRツールキットとPyserini IRツールキットに単純かつ効果的に再現可能なベースラインを実装した。
論文 参考訳(メタデータ) (2023-04-03T14:17:00Z) - Advancing Multilingual Pre-training: TRIP Triangular Document-level
Pre-training for Multilingual Language Models [107.83158521848372]
我々は,従来のモノリンガルおよびバイリンガルの目的を,グラフト法と呼ばれる新しい手法で三言語的目的に加速する分野において,最初のテキストbfTriangular Document-level textbfPre-training(textbfTRIP)を提案する。
TRIPは、3つの多言語文書レベルの機械翻訳ベンチマークと1つの言語間抽象的な要約ベンチマークで、最大3.11d-BLEU点と8.9ROUGE-L点の一貫性のある改善を含む、強力なSOTAスコアを達成している。
論文 参考訳(メタデータ) (2022-12-15T12:14:25Z) - Understanding Translationese in Cross-Lingual Summarization [106.69566000567598]
言語間要約(MS)は、異なる対象言語で簡潔な要約を生成することを目的としている。
大規模なCLSデータを集めるために、既存のデータセットは通常、それらの生成に翻訳を伴います。
本稿では、まず、CLSデータセット構築の異なるアプローチが、異なるレベルの翻訳に結びつくことを確認する。
論文 参考訳(メタデータ) (2022-12-14T13:41:49Z) - Mind the Gap: Cross-Lingual Information Retrieval with Hierarchical
Knowledge Enhancement [28.99870384344861]
Cross-Lingual Information Retrievalは、ユーザのクエリとは異なる言語で書かれたドキュメントをランク付けすることを目的としている。
マルチ言語知識グラフ(KG)をCLIRタスクに導入する。
本稿では,階層的知識向上(HIKE)を用いたCLIRというモデルを提案する。
論文 参考訳(メタデータ) (2021-12-27T04:56:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。