論文の概要: Improving Korean-English Cross-Lingual Retrieval: A Data-Centric Study of Language Composition and Model Merging
- arxiv url: http://arxiv.org/abs/2507.08480v1
- Date: Fri, 11 Jul 2025 10:44:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 18:03:54.327568
- Title: Improving Korean-English Cross-Lingual Retrieval: A Data-Centric Study of Language Composition and Model Merging
- Title(参考訳): 韓国語と英語の相互検索の改善:言語構成とモデルマージに関するデータ中心研究
- Authors: Youngjoon Jang, Junyoung Son, Taemin Lee, Seongtae Hong, Heuiseok Lim,
- Abstract要約: 学習データ構成がCLIR(Cross-Lingual Information Retrieval)とモノリンガル情報検索(Mono-Lingual Information Retrieval)のパフォーマンスに与える影響について検討する。
実験の結果,トレーニングデータの言語構成がIR性能に大きく影響を与え,言語間相関が重要であることがわかった。
私たちの研究は、モデルマージがこのトレードオフを効果的に軽減し、Mono-Lingual IR機能を保ちながら強力なCLIR結果を達成することを実証しています。
- 参考スコア(独自算出の注目度): 4.473623071673054
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the increasing utilization of multilingual text information, Cross-Lingual Information Retrieval (CLIR) has become a crucial research area. However, the impact of training data composition on both CLIR and Mono-Lingual Information Retrieval (IR) performance remains under-explored. To systematically investigate this data-centric aspect, we construct linguistically parallel Korean-English datasets and train retrieval models with various language combinations. Our experiments reveal that the language composition of training data significantly influences IR performance, exhibiting important inter-lingual correlations: CLIR performance improves with specific language pairs, while Mono-Lingual IR performance declines. Our work demonstrates that Model Merging can effectively mitigate this trade-off, achieving strong CLIR results while preserving Mono-Lingual IR capabilities. Our findings underscore the effects of linguistic configuration of training data on both CLIR and Mono-Lingual IR, and present Model Merging as a viable strategy to optimize performance across these tasks.
- Abstract(参考訳): 多言語テキスト情報の活用が進むにつれ、言語間情報検索(CLIR)が重要な研究領域となっている。
しかし,CLIR と Mono-Lingual Information Retrieval (IR) のパフォーマンスに及ぼすトレーニングデータ構成の影響は未検討である。
このデータ中心の側面を体系的に研究するため、言語学的に並列な韓国語と英語のデータセットを構築し、様々な言語の組み合わせで検索モデルを訓練する。
実験の結果,トレーニングデータの言語構成がIR性能に大きな影響を与え,言語間相関が重要となることが明らかとなった。
私たちの研究は、モデルマージがこのトレードオフを効果的に軽減し、Mono-Lingual IR機能を保ちながら強力なCLIR結果を達成することを実証しています。
本研究は,CLIRとMono-Lingual IRの両方において,学習データの言語的構成が与える影響を明らかにするものである。
関連論文リスト
- Language Mixing in Reasoning Language Models: Patterns, Impact, and Internal Causes [49.770097731093216]
RLM(Reasoning Language Model)は、チェーン・オブ・シント・プロセスを利用して構造化中間ステップを生成することで、複雑なタスクに優れる。
言語混合、すなわちプロンプト以外の言語からのトークンを含む推論ステップがアウトプットで観測され、性能に影響することが示されている。
本研究では, RLMにおける言語混合に関する最初の体系的研究を行い, そのパターン, 影響, 内部要因を15言語にわたって検討した。
論文 参考訳(メタデータ) (2025-05-20T18:26:53Z) - Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate [118.37653302885607]
本稿では,LVLM(Large Vision Language Models)のマルチモーダル事前学習品質を示すために,MIR(Modality Integration Rate)を提案する。
MIRは、トレーニングデータ選択、トレーニング戦略スケジュール、モデルアーキテクチャ設計に重点を置いて、トレーニング前の結果を改善する。
論文 参考訳(メタデータ) (2024-10-09T17:59:04Z) - Multimodal Contrastive In-Context Learning [0.9120312014267044]
本稿では,Large Language Models (LLMs) における勾配なしインコンテキスト学習 (ICL) の理解を高めるために,新しいマルチモーダルコントラスト型インコンテキスト学習フレームワークを提案する。
まず、実世界におけるICLの対照的な解釈を示し、ICLの差別化要因としてキー値表現の距離を示す。
第2に、実世界のデータセットに対するマルチモーダル入力フォーマットにおけるバイアスに対処する分析フレームワークを開発する。
第3に、ヘイトフルミームの検出の有効性を示すICLのオンザフライアプローチを提案する。
論文 参考訳(メタデータ) (2024-08-23T10:10:01Z) - Evaluating Linguistic Capabilities of Multimodal LLMs in the Lens of Few-Shot Learning [15.919493497867567]
本研究では,VALSEベンチマークを用いたマルチモーダル大規模言語モデル(MLLM)の性能評価を目的とした。
我々は,モデルサイズや事前学習データセットの異なる最先端MLLMの包括的評価を行った。
論文 参考訳(メタデータ) (2024-07-17T11:26:47Z) - COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning [37.843051974342124]
実世界の様々な資源から派生した,厳密な人的検証を行う新しい中国語指導調律データセットであるCOIG-CQIAを紹介する。
我々はCOIG-CQIAに関する広範な実験を行い、それらを強力なベースラインモデルやデータセットと比較する。
実験の結果,COIG-CQIAでトレーニングしたモデルは,様々なベンチマークで高い競争性能を達成できた。
論文 参考訳(メタデータ) (2024-03-26T19:24:18Z) - Low-Rank Adaptation for Multilingual Summarization: An Empirical Study [60.541168233698194]
私たちはその可能性を調査する。
多言語要約領域におけるローランド適応(LoRA)に着目した効率的なファインチューニング
ハイデータやローデータの設定、言語間転送など、さまざまなデータ可用性シナリオに関する広範な調査を行います。
以上の結果から,LoRAは大量のデータでトレーニングされた場合の完全な微調整と競合し,低データシナリオや言語間転送に優れることがわかった。
論文 参考訳(メタデータ) (2023-11-14T22:32:39Z) - Dual-view Curricular Optimal Transport for Cross-lingual Cross-modal
Retrieval [57.98555925471121]
言語間のクロスモーダル検索が注目を集めている。
ほとんどのCCR手法は、機械翻訳を通して擬似並列視覚言語コーパスを構成する。
本稿では,CCRにおける雑音対応学習のためのDual-view Curricular Optimal Transport (DCOT)を提案する。
論文 参考訳(メタデータ) (2023-09-11T13:44:46Z) - Language Agnostic Multilingual Information Retrieval with Contrastive
Learning [59.26316111760971]
本稿では,多言語情報検索システムの学習方法を提案する。
並列コーパスと非並列コーパスを利用して、事前訓練された多言語言語モデルを改善する。
我々のモデルは少数のパラレル文でもうまく機能する。
論文 参考訳(メタデータ) (2022-10-12T23:53:50Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - A Study of Neural Matching Models for Cross-lingual IR [17.89437720094451]
言語間単語埋め込み(CLWE)を用いたアドホック言語間情報検索(CLIR)のための対話型ニューラルマッチングモデルについて検討する。
4つの言語対にわたるCLEFコレクションの実験により、我々は異なるニューラルモデルアーキテクチャに関する洞察を評価、提供する。
本研究は,CLWEを用いたエンドツーエンドCLIRシステムの学習方法である。
論文 参考訳(メタデータ) (2020-05-26T19:21:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。