Fugu-MT 論文翻訳(概要): Multilingual and Domain-Agnostic Tip-of-the-Tongue Query Generation for Simulated Evaluation

論文の概要: Multilingual and Domain-Agnostic Tip-of-the-Tongue Query Generation for Simulated Evaluation

arxiv url: http://arxiv.org/abs/2604.21096v1
Date: Wed, 22 Apr 2026 21:34:01 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-24 14:40:06.185364
Title: Multilingual and Domain-Agnostic Tip-of-the-Tongue Query Generation for Simulated Evaluation
Title（参考訳）: 模擬評価のための多言語およびドメインに依存しないTip-of-the-Tongueクエリ生成
Authors: Xuhong He, To Eun Kim, Maik Fröbe, Jaime Arguello, Bhaskar Mitra, Fernando Diaz,
Abstract要約: 我々は中国語、日本語、韓国語、英語の多言語Tip-of-Tongueテストコレクションを構築した。この研究は、最初の大規模マルチ言語ToTベンチマークを提供し、英語以外の現実的なToTデータセットを構築するための実践的なガイダンスを提供する。
参考スコア（独自算出の注目度）: 45.8965377080842
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Tip-of-the-Tongue (ToT) retrieval benchmarks have largely focused on English, limiting their applicability to multilingual information access. In this work, we construct multilingual ToT test collections for Chinese, Japanese, Korean, and English, using an LLM-based query simulation framework. We systematically study how prompt language and source document language affect the fidelity of simulated ToT queries, validating synthetic queries through system rank correlation against real user queries. Our results show that effective ToT simulation requires language-aware design choices: non-English language sources are generally important, while English Wikipedia can be beneficial when non-English sources provide insufficient information for query generation. Based on these findings, we release four ToT test collections with 5,000 queries per language across multiple domains. This work provides the first large-scale multilingual ToT benchmark and offers practical guidance for constructing realistic ToT datasets beyond English.
Abstract（参考訳）: Tip-of-Tongue (ToT) の検索ベンチマークは英語に重点を置いており、多言語情報アクセスに適用性を制限する。本研究では,LLMに基づくクエリ・シミュレーション・フレームワークを用いて,中国語,日本語,韓国語,英語の多言語ToTテスト・コレクションを構築する。実ユーザクエリに対するシステムランク相関による合成クエリの検証を行い,提案言語とソース文書言語がシミュレーションされたToTクエリの忠実度にどのように影響するかを系統的に検討する。非英語のソースは一般的に重要であり、非英語のソースがクエリ生成に不十分な情報を提供する場合、英語のウィキペディアは有用である。これらの結果に基づき、複数のドメインにまたがる言語毎のクエリが5,000である4つのToTテストコレクションをリリースする。この研究は、最初の大規模マルチ言語ToTベンチマークを提供し、英語以外の現実的なToTデータセットを構築するための実践的なガイダンスを提供する。

関連論文リスト

Text2Cypher Across Languages: Evaluating and Finetuning LLMs [0.17188280334580197]
本論文では,複数の言語を対象としたText2Cypherタスクにおける基礎的および微調整LLMの性能について検討する。英語の質問をスペイン語とトルコ語に翻訳することで、多言語データセットを作成し、リリースします。標準化されたプロンプトとメトリクスを用いて、いくつかの基礎モデルを評価し、一貫したパフォーマンスパターンを観察する。
論文参考訳（メタデータ） (2025-06-26T16:31:10Z)
Enhancing Multilingual Language Models for Code-Switched Input Data [0.0]
本研究では,コード切替データセット上でのマルチ言語BERT(mBERT)の事前学習により,重要なNLPタスクにおけるモデルの性能が向上するかどうかを検討する。本研究では,Spanglish ツイートのデータセットを用いて事前学習を行い,ベースラインモデルに対する事前学習モデルの評価を行う。以上の結果から,事前学習したmBERTモデルは,与えられたタスクのベースラインモデルよりも優れ,また,音声タグ付けの分野でも有意な改善が見られた。
論文参考訳（メタデータ） (2025-03-11T02:49:41Z)
mFollowIR: a Multilingual Benchmark for Instruction Following in Retrieval [61.17793165194077]
本稿では,検索モデルにおける命令追従能力のベンチマークであるmFollowIRを紹介する。本稿では,多言語 (XX-XX) と多言語 (En-XX) のパフォーマンスについて述べる。英語をベースとした学習者による多言語間性能は高いが,多言語設定では顕著な性能低下がみられた。
論文参考訳（メタデータ） (2025-01-31T16:24:46Z)
Do We Need Language-Specific Fact-Checking Models? The Case of Chinese [15.619421104102516]
本稿では,中国語の事例に着目し,言語固有の事実チェックモデルの潜在的なメリットについて検討する。まず、翻訳に基づく手法と多言語大言語モデルの限界を実証し、言語固有のシステムの必要性を強調した。文脈情報を組み込んで文書から証拠をよりよく検索できる中国のファクトチェックシステムを提案する。
論文参考訳（メタデータ） (2024-01-27T20:26:03Z)
Efficiently Aligned Cross-Lingual Transfer Learning for Conversational Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文参考訳（メタデータ） (2023-04-03T18:46:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。