論文の概要: ORPHEAS: A Cross-Lingual Greek-English Embedding Model for Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2604.20666v1
- Date: Wed, 22 Apr 2026 15:15:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.189739
- Title: ORPHEAS: A Cross-Lingual Greek-English Embedding Model for Retrieval-Augmented Generation
- Title(参考訳): ORPHEAS: 言語横断型ギリシャ英語埋め込みモデル
- Authors: Ioannis E. Livieris, Athanasios Koursaris, Alexandra Apostolopoulou, Konstantinos Kanaris Dimitris Tsakalidis, George Domalis,
- Abstract要約: バイリンガル検索拡張生成のための特殊ギリシャ語英語埋め込みモデルであるORPHEASを提案する。
ORPHEASは知識グラフに基づく微調整手法によって生成された高品質なデータセットで訓練されている。
ORPHEASは、モノリンガルおよびクロスランガル検索ベンチマークによる実験により、最先端のマルチランガル埋め込みモデルよりも優れた性能を示した。
- 参考スコア(独自算出の注目度): 39.1609547386199
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effective retrieval-augmented generation across bilingual Greek--English applications requires embedding models capable of capturing both domain-specific semantic relationships and cross-lingual semantic alignment. Existing multilingual embedding models distribute their representational capacity across numerous languages, limiting their optimization for Greek and failing to encode the morphological complexity and domain-specific terminological structures inherent in Greek text. In this work, we propose ORPHEAS, a specialized Greek--English embedding model for bilingual retrieval-augmented generation. ORPHEAS is trained with a high quality dataset generated by a knowledge graph-based fine-tuning methodology which is applied to a diverse multi-domain corpus, which enables language-agnostic semantic representations. The numerical experiments across monolingual and cross-lingual retrieval benchmarks reveal that ORPHEAS outperforms state-of-the-art multilingual embedding models, demonstrating that domain-specialized fine-tuning on morphologically complex languages does not compromise cross-lingual retrieval capability.
- Abstract(参考訳): バイリンガル・ギリシャ語による効果的な検索強化生成には、ドメイン固有の意味的関係と言語間意味的アライメントの両方をキャプチャできる埋め込みモデルが必要である。
既存の多言語埋め込みモデルは、多くの言語にその表現能力を分散させ、ギリシア語への最適化を制限し、ギリシア語のテキストに固有の形態的複雑さとドメイン固有の用語構造を符号化しなかった。
本研究では,二言語検索拡張生成のための特殊ギリシャ語英語埋め込みモデルであるORPHEASを提案する。
ORPHEASは、言語に依存しない意味表現を可能にする多領域コーパスに適用される知識グラフに基づく微調整手法によって生成された高品質なデータセットで訓練される。
モノリンガルおよびクロスランガル検索ベンチマークによる数値実験により、ORPHEASは最先端の多言語埋め込みモデルよりも優れており、ドメイン特化されたモルフォジカル言語への微調整は、クロスランガル検索能力を損なうものではないことが示された。
関連論文リスト
- Benchmarking Concept-Spilling Across Languages in LLMs [7.577675422356702]
大規模言語モデル(LLM)は言語間の優れた能力を示すが、他の言語からの表現に対する体系的なバイアスを示すことが多い。
本稿では,言語間の多文語をモデルがどう扱うかを測定することで,多言語意味的ロバスト性を評価するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-18T19:28:26Z) - Exploring syntactic information in sentence embeddings through multilingual subject-verb agreement [1.4335183427838039]
我々は,特定の特性を持つ大規模でキュレートされた合成データを開発するためのアプローチを採っている。
我々は、ブラックバード言語行列(Blackbird Language Matrices)と呼ばれる新しい複数選択タスクとデータセットを使用して、特定の文法構造現象に焦点を当てる。
多言語テキストを一貫した方法で訓練したにもかかわらず、多言語事前学習言語モデルには言語固有の違いがあることが示される。
論文 参考訳(メタデータ) (2024-09-10T14:58:55Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Cross-lingual Word Embeddings in Hyperbolic Space [31.888489552069146]
言語間単語の埋め込みは、複数の言語にわたる自然言語処理アプリケーションに適用することができる。
本稿では,双曲空間のポアンカー球モデルに適応する,単純かつ効果的な言語間言語Word2Vecモデルを提案する。
論文 参考訳(メタデータ) (2022-05-04T06:15:37Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Multilingual AMR-to-Text Generation [22.842874899794996]
20の異なる言語で生成する多言語AMR-to-textモデルを作成する。
自動メトリクスに基づく18言語の場合、我々の多言語モデルは単一の言語を生成するベースラインを超えます。
我々は、人間の評価を用いて形態や単語の順序を正確に把握する多言語モデルの能力を分析し、母語話者が我々の世代を流動的であると判断する。
論文 参考訳(メタデータ) (2020-11-10T22:47:14Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。