論文の概要: One Instruction Does Not Fit All: How Well Do Embeddings Align Personas and Instructions in Low-Resource Indian Languages?
- arxiv url: http://arxiv.org/abs/2601.10205v1
- Date: Thu, 15 Jan 2026 09:10:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.072479
- Title: One Instruction Does Not Fit All: How Well Do Embeddings Align Personas and Instructions in Low-Resource Indian Languages?
- Title(参考訳): ひとつのインストラクションがすべてに適合しない:低リソースのインド言語におけるペルソナとインストラクションの埋め込みはいかにうまく行っているか?
- Authors: Arya Shah, Himanshu beniwal, Mayank Singh,
- Abstract要約: インドの12の言語と4つの評価課題にまたがるベンチマークを提示する。
E5-Large-Instructはモノリンガル検索で27.4%、クロスリンガル転送で20.7%のリコール@1を達成している。
分類において、LaBSEは75.3%のAUROCを獲得し、校正が強い。
- 参考スコア(独自算出の注目度): 1.071318785217926
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aligning multilingual assistants with culturally grounded user preferences is essential for serving India's linguistically diverse population of over one billion speakers across multiple scripts. However, existing benchmarks either focus on a single language or conflate retrieval with generation, leaving open the question of whether current embedding models can encode persona-instruction compatibility without relying on response synthesis. We present a unified benchmark spanning 12 Indian languages and four evaluation tasks: monolingual and cross-lingual persona-to-instruction retrieval, reverse retrieval from instruction to persona, and binary compatibility classification. Eight multilingual embedding models are evaluated in a frozen-encoder setting with a thin logistic regression head for classification. E5-Large-Instruct achieves the highest Recall@1 of 27.4\% on monolingual retrieval and 20.7\% on cross-lingual transfer, while BGE-M3 leads reverse retrieval at 32.1\% Recall@1. For classification, LaBSE attains 75.3\% AUROC with strong calibration. These findings offer practical guidance for model selection in Indic multilingual retrieval and establish reproducible baselines for future work\footnote{Code, datasets, and models are publicly available at https://github.com/aryashah2k/PI-Indic-Align.
- Abstract(参考訳): 文化に根ざしたユーザ嗜好を持つ多言語アシスタントの調整は、インドの言語学的に多様で、複数のスクリプトで10億以上の話者に役立てるために不可欠である。
しかし、既存のベンチマークでは、単一言語にフォーカスするか、生成による検索を詳述し、現在の埋め込みモデルが応答合成に頼ることなくペルソナ命令の互換性を符号化できるかどうかという疑問が残る。
インド語12言語にまたがる統一ベンチマークと,モノリンガルとクロスリンガルのペルソナ対インストラクション検索,インストラクションからペルソナへのリバース検索,バイナリ互換性分類の4つの評価タスクを提案する。
8つの多言語埋め込みモデルを,薄型ロジスティック回帰ヘッドを用いた冷凍エンコーダで評価した。
E5-Large-Instructはモノリンガル検索で27.4\%、クロスリンガル転送で20.7\%のリコール@1を達成し、BGE-M3は32.1\%のリコール@1をリードする。
分類において、LaBSEは75.3\%のAUROCを獲得し、キャリブレーションが強い。
これらの知見は、Indic multilingual searchにおけるモデル選択の実践的なガイダンスを提供し、将来のWork\footnote{Code、データセット、モデルはhttps://github.com/aryashah2k/PI-Indic-Alignで公開されている。
関連論文リスト
- What Drives Cross-lingual Ranking? Retrieval Approaches with Multilingual Language Models [0.19116784879310025]
リソース、スクリプト、埋め込みモデルにおける弱い言語間セマンティックアライメントの相違により、言語間情報検索は困難である。
既存のパイプラインは、しばしば翻訳と単言語検索に依存し、計算オーバーヘッドとノイズ、パフォーマンスを追加する。
この研究は、文書翻訳、事前訓練されたエンコーダによる多言語密集検索、単語、フレーズ、クエリー文書レベルのコントラスト学習、および3つのベンチマークデータセットにおけるクロスエンコーダの再ランク付けという、4つの介入タイプを体系的に評価する。
論文 参考訳(メタデータ) (2025-11-24T17:17:40Z) - Comprehension of Multilingual Expressions Referring to Target Objects in Visual Inputs [47.944645462877894]
Referring Expression (REC) は、自然言語の記述に基づいてオブジェクトを画像にローカライズするモデルを必要とする。
この研究は2つの主要な貢献を通じて多言語RECに対処する。
10言語にまたがる統合多言語データセットを構築し、機械翻訳と文脈に基づく翻訳拡張により、既存の12のRECベンチマークを体系的に拡張する。
得られたデータセットは、177,620の画像にまたがる800万の多言語参照表現と、336,882の注釈付きオブジェクトで構成されている。
論文 参考訳(メタデータ) (2025-11-14T15:54:34Z) - L3Cube-IndicHeadline-ID: A Dataset for Headline Identification and Semantic Evaluation in Low-Resource Indian Languages [2.584263027095689]
L3Cube-IndicHeadline-IDは、10の低リソースIndic言語にまたがるキュレートデータセットである。
各言語には2万のニュース記事と4つの見出しの変種が含まれている。
このタスクは、記事と見出しの類似性を使ってオプションから正しい見出しを選択する必要がある。
我々は、コサイン類似性を用いて、多言語モデルや言語特化モデルを含む複数の文変換器をベンチマークする。
論文 参考訳(メタデータ) (2025-09-02T16:54:30Z) - IndicRAGSuite: Large-Scale Datasets and a Benchmark for Indian Language RAG Systems [17.88837706307504]
IndicMSMarcoは13のインドの言語における検索品質と応答生成を評価するための多言語ベンチマークである。
我々は、最先端のLLMを用いて、19のインドの言語ウィキペディアから派生した大規模な(質問、回答、関連する)データセットを構築した。
論文 参考訳(メタデータ) (2025-06-02T12:55:51Z) - mFollowIR: a Multilingual Benchmark for Instruction Following in Retrieval [61.17793165194077]
本稿では,検索モデルにおける命令追従能力のベンチマークであるmFollowIRを紹介する。
本稿では,多言語 (XX-XX) と多言語 (En-XX) のパフォーマンスについて述べる。
英語をベースとした学習者による多言語間性能は高いが,多言語設定では顕著な性能低下がみられた。
論文 参考訳(メタデータ) (2025-01-31T16:24:46Z) - Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。
本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T08:59:24Z) - OneAligner: Zero-shot Cross-lingual Transfer with One Rich-Resource
Language Pair for Low-Resource Sentence Retrieval [91.76575626229824]
文検索タスク用に特別に設計されたアライメントモデルであるOneAlignerを提案する。
大規模並列多言語コーパス(OPUS-100)の全ての言語ペアで訓練すると、このモデルは最先端の結果が得られる。
実験結果から,文アライメントタスクの性能はモノリンガルおよび並列データサイズに大きく依存することがわかった。
論文 参考訳(メタデータ) (2022-05-17T19:52:42Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。