Fugu-MT 論文翻訳(概要): TWICE: What Advantages Can Low-Resource Domain-Specific Embedding Model Bring? -- A Case Study on Korea Financial Texts

論文の概要: TWICE: What Advantages Can Low-Resource Domain-Specific Embedding Model Bring? -- A Case Study on Korea Financial Texts

arxiv url: http://arxiv.org/abs/2502.07131v2
Date: Sun, 09 Mar 2025 12:07:18 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-11 15:50:06.275201
Title: TWICE: What Advantages Can Low-Resource Domain-Specific Embedding Model Bring? -- A Case Study on Korea Financial Texts
Title（参考訳）: TWICE:低リソースドメイン特化埋め込みモデルがもたらすアドバンテージは何か -- 韓国の財務文書を事例として
Authors: Yewon Hwang, Sungbum Jung, Hanwool Lee, Sara Yu,
Abstract要約: FinMTEBのような既存のベンチマークは、主に高リソース言語向けに設計されている。韓国金融ドメインの新しいベンチマークであるKorFinMTEBを紹介する。実験結果から,FinMTEBの翻訳版ではモデルが頑健に動作する一方で,KorFinMTEB上での性能は微妙に重要な相違点を明らかにした。
参考スコア（独自算出の注目度）: 0.8624680612413766
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Domain specificity of embedding models is critical for effective performance. However, existing benchmarks, such as FinMTEB, are primarily designed for high-resource languages, leaving low-resource settings, such as Korean, under-explored. Directly translating established English benchmarks often fails to capture the linguistic and cultural nuances present in low-resource domains. In this paper, titled TWICE: What Advantages Can Low-Resource Domain-Specific Embedding Models Bring? A Case Study on Korea Financial Texts, we introduce KorFinMTEB, a novel benchmark for the Korean financial domain, specifically tailored to reflect its unique cultural characteristics in low-resource languages. Our experimental results reveal that while the models perform robustly on a translated version of FinMTEB, their performance on KorFinMTEB uncovers subtle yet critical discrepancies, especially in tasks requiring deeper semantic understanding, that underscore the limitations of direct translation. This discrepancy highlights the necessity of benchmarks that incorporate language-specific idiosyncrasies and cultural nuances. The insights from our study advocate for the development of domain-specific evaluation frameworks that can more accurately assess and drive the progress of embedding models in low-resource settings.
Abstract（参考訳）: 埋め込みモデルのドメイン特異性は、効果的なパフォーマンスに不可欠である。しかし、FinMTEBのような既存のベンチマークは、主に高リソース言語向けに設計されており、韓国語のような低リソース設定は未調査のままである。確立された英語のベンチマークを直接翻訳することは、低リソース領域に存在する言語的・文化的ニュアンスを捉えるのに失敗することが多い。 TWICE: What Advantages Can Low-Resource Domain-Specific Embedding Models Brings? 韓国金融文献のケーススタディとして,韓国金融ドメインの新しいベンチマークであるKorFinMTEBを紹介する。実験の結果,FinMTEBの翻訳版ではモデルが頑健に動作しているのに対し,KorFinMTEBでは,特に深い意味理解を必要とするタスクにおいて,直接翻訳の限界を浮き彫りにしていることがわかった。この違いは、言語固有の慣用性や文化的ニュアンスを含むベンチマークの必要性を強調している。本研究から得られた知見は,低リソース環境における組込みモデルの進展をより正確に評価し,促進することのできる,ドメイン固有の評価フレームワークの開発を提唱するものである。

関連論文リスト

Beyond Many-Shot Translation: Scaling In-Context Demonstrations For Low-Resource Machine Translation [49.82863380286994]
In-context Learningは、低リソース機械翻訳にLarge Language Modelsを適用する新しい方法を提供するかもしれない。本研究では,Long-context モデルを用いた数千例のサンプルに対して,数ショット設定以上の低リソース機械翻訳ICLのスケーリングについて検討する。 JavaneseとSundaneseに関する我々の実験は、追加のコンテキストからのゲインがすばやく飽和し、最大コンテキストウィンドウの近くで分解可能であることを示している。
論文参考訳（メタデータ） (2026-02-04T17:02:22Z)
Multimodal Evaluation of Russian-language Architectures [88.00147763684451]
本稿では,ロシアの建築におけるオープンなマルチモーダル評価フレームワークであるMera Multiを紹介する。ベンチマークはインストラクションベースで、デフォルトのテキスト、画像、オーディオ、ビデオモダリティを含んでいる。 Mera Multiは、マルチモーダルベンチマークを構築するための複製可能な方法論を提供する。
論文参考訳（メタデータ） (2025-11-19T15:43:53Z)
Low-Resource English-Tigrinya MT: Leveraging Multilingual Models, Custom Tokenizers, and Clean Evaluation Benchmarks [6.177998679139308]
ニューラルネットワーク翻訳(NMT)の進歩にもかかわらず、Tigrinyaのような低リソース言語はいまだに保存されていない。本稿では,多言語事前学習モデルを用いた翻訳学習手法について検討し,形態的に豊かな低リソース言語に対する翻訳品質を向上させる。
論文参考訳（メタデータ） (2025-09-24T15:02:57Z)
MyCulture: Exploring Malaysia's Diverse Culture under Low-Resource Language Constraints [7.822567458977689]
MyCultureは、マレーシアの文化に関する大規模言語モデル(LLM)を総合的に評価するために設計されたベンチマークである。従来のベンチマークとは異なり、MyCultureは未定義のオプションなしで、新しいオープンエンドの複数選択質問フォーマットを採用している。構造化された出力と自由形式出力のモデル性能を比較して構造バイアスを解析し、多言語的プロンプト変動による言語バイアスを評価する。
論文参考訳（メタデータ） (2025-08-07T14:17:43Z)
NMIXX: Domain-Adapted Neural Embeddings for Cross-Lingual eXploration of Finance [24.697311579081983]
汎用文埋め込みモデルは、しばしば専門的な財務意味論を捉えるのに苦労する。 NMIXXは18.8Kの高信頼三重項を微調整した言語間埋め込みモデルのスイートである。 KorFinSTSもリリースしています。これはニュース、開示、調査レポート、規制にまたがるベンチマークです。
論文参考訳（メタデータ） (2025-07-13T12:14:57Z)
Building Resource-Constrained Language Agents: A Korean Case Study on Chemical Toxicity Information [28.634126758365976]
本稿では,これらの制限下で考案された韓国の化学毒性情報エージェントであるTox-chatについて述べる。本稿では,階層的な部分探索によるトークン消費を低減する文脈効率アーキテクチャと,シナリオベースの対話生成手法を提案する。
論文参考訳（メタデータ） (2025-03-22T12:34:15Z)
Can Large Language Models Predict the Outcome of Judicial Decisions? [0.0]
大規模言語モデル(LLM)は自然言語処理(NLP)において例外的な機能を示す。 LLaMA-3.2-3B や LLaMA-3.1-8B を含む最先端のオープンソース LLM を様々な構成でベンチマークする。本結果は,タスク固有のコンテキストにおいて,細調整された小型モデルが大規模モデルに匹敵する性能を実現することを示す。
論文参考訳（メタデータ） (2025-01-15T11:32:35Z)
LLMic: Romanian Foundation Language Model [76.09455151754062]
ルーマニア語に特化して設計された基礎言語モデルである LLMic について述べる。英語からルーマニア語への翻訳作業において,事前学習後の言語翻訳のための微調整 LLMic が既存の解よりも優れていることを示す。
論文参考訳（メタデータ） (2025-01-13T22:14:45Z)
Challenges in Adapting Multilingual LLMs to Low-Resource Languages using LoRA PEFT Tuning [0.4194295877935868]
本研究では,ローランド適応 (LoRA) -高効率ファインチューニング (PEFT) がマラウイの多言語Gemmaモデルに及ぼす影響について検討した。 52,000対の命令応答対を持つ翻訳データセットを用いて、評価結果が微調整後に低下する一方で、手動による評価では、微調整されたモデルが元のモデルよりも優れていることがしばしば示唆されている。
論文参考訳（メタデータ） (2024-11-27T18:14:38Z)
Prompting Encoder Models for Zero-Shot Classification: A Cross-Domain Study in Italian [75.94354349994576]
本稿では,より小型のドメイン固有エンコーダ LM と,特殊なコンテキストにおける性能向上手法の併用の可能性について検討する。本研究は, イタリアの官僚的・法的言語に焦点をあて, 汎用モデルと事前学習型エンコーダのみのモデルの両方を実験する。その結果, 事前学習したモデルでは, 一般知識の頑健性が低下する可能性があるが, ドメイン固有のタスクに対して, ゼロショット設定においても, より優れた適応性を示すことがわかった。
論文参考訳（メタデータ） (2024-07-30T08:50:16Z)
MoE-CT: A Novel Approach For Large Language Models Training With Resistance To Catastrophic Forgetting [53.77590764277568]
ベースモデルの学習を多言語拡張プロセスから分離する新しいMoE-CTアーキテクチャを提案する。我々の設計では、元のLLMパラメータを凍結し、高リソース言語のパフォーマンスを保護しますが、様々な言語データセットに基づいてトレーニングされたMoEモジュールは、低リソース言語の習熟度を向上します。
論文参考訳（メタデータ） (2024-06-25T11:03:45Z)
Bridging the Bosphorus: Advancing Turkish Large Language Models through Strategies for Low-Resource Language Adaptation and Benchmarking [1.3716808114696444]
大規模言語モデル(LLM)は様々な分野において重要になってきており、表現不足の言語における高品質なモデルの緊急性を強調している。本研究では、データ不足、モデル選択、評価、計算制限など、低リソース言語が直面する固有の課題について検討する。
論文参考訳（メタデータ） (2024-05-07T21:58:45Z)
Analyzing and Adapting Large Language Models for Few-Shot Multilingual NLU: Are We There Yet? [82.02076369811402]
教師付きファインチューニング(SFT)、教師付きインストラクションチューニング(SIT)、インコンテキストラーニング(ICL)は、3つの代替であり、事実上の標準的アプローチである。提案手法は,6つの高・低リソース言語,3つの異なるNLUタスク,多種多様な言語とドメインのセットアップを用いて,3つのアプローチを網羅的かつ体系的に比較する。そこで本研究では,教師あり指導のチューニングが,性能とリソース要件の最良のトレードオフであることを示す。
論文参考訳（メタデータ） (2024-03-04T10:48:13Z)
Crowdsourced Phrase-Based Tokenization for Low-Resourced Neural Machine Translation: The Case of Fon Language [0.015863809575305417]
人間関係のスーパーワードトークン化戦略であるWord-Expressions-Based(WEB)トークン化について紹介します。トークン化戦略を、Fon- French と French-Fon の翻訳タスクで比較する。
論文参考訳（メタデータ） (2021-03-14T22:12:14Z)
Harnessing Multilinguality in Unsupervised Machine Translation for Rare Languages [48.28540903568198]
マルチリンガル性は低リソース環境において教師なしシステムの実現に不可欠であることを示す。我々は,5つの低リソース言語(グジャラート語,カザフ語,ネパール語,シンハラ語,トルコ語)について,英語方向と英語方向の単一モデルを提案する。我々は、これらの言語の現在最先端の教師なしベースラインを全て上回り、最大14.4BLEUのゲインを得る。
論文参考訳（メタデータ） (2020-09-23T15:07:33Z)
Towards Making the Most of Context in Neural Machine Translation [112.9845226123306]
我々は、これまでの研究がグローバルな文脈をはっきりと利用しなかったと論じている。本研究では,各文の局所的文脈を意図的にモデル化する文書レベルNMTフレームワークを提案する。
論文参考訳（メタデータ） (2020-02-19T03:30:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。