論文の概要: SAGE: Sustainable Agent-Guided Expert-tuning for Culturally Attuned Translation in Low-Resource Southeast Asia
- arxiv url: http://arxiv.org/abs/2603.19931v1
- Date: Fri, 20 Mar 2026 13:18:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:39.15061
- Title: SAGE: Sustainable Agent-Guided Expert-tuning for Culturally Attuned Translation in Low-Resource Southeast Asia
- Title(参考訳): SAGE:低資源東南アジアにおける文化的調整型翻訳のための持続可能なエージェントガイド付きエキスパートチューニング
- Authors: Zhixiang Lu, Chong Zhang, Yulong Li, Angelos Stefanidis, Anh Nguyen, Imran Razzak, Jionglong Su, Zhengyong Jiang,
- Abstract要約: 本稿では,サステナブルエージェントガイドエキスパートチューニング(SAGE)を導入し,デジタルインクルージョンと環境サステナビリティの緊張を解消する。
フィルタされていないデータセットに対する炭素集約的なトレーニングの代わりに、SAGEは、自律的にコンパクトなトレーニングセットをキュレートする。
SAGEは全データセットでトレーニングされたベースラインを超え、データ使用量を97.1%削減し、エネルギー消費を95.2%削減している。
- 参考スコア(独自算出の注目度): 24.692846128660648
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The vision of an inclusive World Wide Web is impeded by a severe linguistic divide, particularly for communities in low-resource regions of Southeast Asia. While large language models (LLMs) offer a potential solution for translation, their deployment in data-poor contexts faces a dual challenge: the scarcity of high-quality, culturally relevant data and the prohibitive energy costs of training on massive, noisy web corpora. To resolve the tension between digital inclusion and environmental sustainability, we introduce Sustainable Agent-Guided Expert-tuning (SAGE). This framework pioneers an energy-aware paradigm that prioritizes the "right data" over "big data". Instead of carbon-intensive training on unfiltered datasets, SAGE employs a reinforcement learning (RL) agent, optimized via Group Relative Policy Optimization (GRPO), to autonomously curate a compact training set. The agent utilizes a semantic reward signal derived from a small, expert-constructed set of community dialogues to filter out noise and cultural misalignment. We then efficiently fine-tune open-source LLMs on this curated data using Low-Rank Adaptation (LoRA). We applied SAGE to translation tasks between English and seven low-resource languages (LRLs) in Southeast Asia. Our approach establishes new state-of-the-art performance on BLEU-4 and COMET-22 metrics, effectively capturing local linguistic nuances. Crucially, SAGE surpasses baselines trained on full datasets while reducing data usage by 97.1% and training energy consumption by 95.2%. By delivering high-performance models with a minimal environmental footprint, SAGE offers a scalable and responsible pathway to bridge the digital divide in the Global South.
- Abstract(参考訳): 包括的ワールドワイドウェブのビジョンは、特に東南アジアの低資源地域のコミュニティにとって、深刻な言語的分割によって妨げられている。
大きな言語モデル(LLM)は、翻訳の潜在的なソリューションを提供するが、そのデータ・ポーアコンテキストへの展開は、高品質で文化的に関連のあるデータの不足と、巨大でノイズの多いWebコーパスでのトレーニングの禁止的なエネルギーコストという、二重の課題に直面している。
デジタル・インクルージョンと環境持続可能性の緊張を解決するため,サステナブル・エージェント・ガイド・エキスパート・チューニング(SAGE)を導入する。
このフレームワークは、"ビッグデータ"よりも"正しいデータ"を優先する、エネルギーを意識したパラダイムのパイオニアである。
SAGEは、フィルタされていないデータセットに対する炭素集約的なトレーニングの代わりに、グループ相対ポリシー最適化(GRPO)を介して最適化された強化学習(RL)エージェントを使用して、コンパクトなトレーニングセットを自律的にキュレートする。
本発明のエージェントは、小規模で専門家が構築したコミュニティ対話の集合から派生した意味報酬信号を利用して、ノイズや文化的不一致を除去する。
そこで我々は,Low-Rank Adaptation (LoRA) を用いて,このキュレートされたデータに基づいて,効率よくオープンソースLSMを微調整する。
東南アジアの7つの低リソース言語(LRL)と英語の翻訳タスクにSAGEを適用した。
提案手法は,BLEU-4とCOMET-22のメトリクスに基づいて,局所的な言語的ニュアンスを効果的に把握する手法である。
重要なことに、SAGEは全データセットでトレーニングされたベースラインを超え、データ使用量を97.1%削減し、エネルギー消費を95.2%削減している。
環境フットプリントが最小限の高性能モデルを提供することで、SAGEはグローバル・サウスのデジタルディビジョンを橋渡しするスケーラブルで責任ある経路を提供する。
関連論文リスト
- Beyond Many-Shot Translation: Scaling In-Context Demonstrations For Low-Resource Machine Translation [49.82863380286994]
In-context Learningは、低リソース機械翻訳にLarge Language Modelsを適用する新しい方法を提供するかもしれない。
本研究では,Long-context モデルを用いた数千例のサンプルに対して,数ショット設定以上の低リソース機械翻訳ICLのスケーリングについて検討する。
JavaneseとSundaneseに関する我々の実験は、追加のコンテキストからのゲインがすばやく飽和し、最大コンテキストウィンドウの近くで分解可能であることを示している。
論文 参考訳(メタデータ) (2026-02-04T17:02:22Z) - Solar Open Technical Report [65.93022715874504]
Solar Openは、競争力のあるLLMを構築するための体系的な方法論を実証している。
高品質・ドメイン固有・RL指向の4.5Tトークンを合成する。
提案するフレームワークであるSnapPOを効率的な最適化に応用する。
論文 参考訳(メタデータ) (2026-01-11T18:33:09Z) - Compass-Embedding v4: Robust Contrastive Learning for Multilingual E-commerce Embeddings [12.049937870582113]
本稿では,東南アジア(SEA)のeコマースシナリオに特化して最適化された高効率多言語埋め込みフレームワークを提案する。
Compass-Embedding v4は3つの課題に対処する。
我々は,コンテキスト基底合成データ生成,言語間翻訳,構造化されたeコマースデータ構築を通じて,多様な学習コーパスを構築する。
論文 参考訳(メタデータ) (2025-12-25T13:41:53Z) - The role of synthetic data in Multilingual, Multi-cultural AI systems: Lessons from Indic Languages [18.087937520281965]
インドの13言語にまたがる950万のデータポイントからなる大規模合成命令追従データセットであるUpdeshを紹介した。
自動メトリクスと人的アノテーションの両方を10k評価に取り入れた総合的な評価は、生成されたデータが高品質であることを示している。
Updeshでトレーニングされたモデルは、生成タスクにおいて一貫して大きな利益を達成し、多重選択スタイルのNLUタスクにおいて競争力を維持する。
論文 参考訳(メタデータ) (2025-09-25T15:13:00Z) - Instruction Tuning on Public Government and Cultural Data for Low-Resource Language: a Case Study in Kazakh [57.002807772016524]
カザフスタンの主要な制度的・文化的知識をカバーする大規模な(10,600サンプル)命令追従データセットを導入,オープンソース化する。
データセット構築のためのオープンウェイトモデルとクローズドウェイトモデルを比較し,GPT-4oをバックボーンとして選択する。
データセット上の微調整Qwen、Falcon、Gemmaは、複数の選択タスクと生成タスクの両方において、一貫したパフォーマンス改善をもたらします。
論文 参考訳(メタデータ) (2025-02-19T11:44:27Z) - Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。
低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。
本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文 参考訳(メタデータ) (2025-01-31T12:23:28Z) - Cultural Fidelity in Large-Language Models: An Evaluation of Online Language Resources as a Driver of Model Performance in Value Representation [0.0]
GPT-4oが国の社会的価値を反映する能力は、その言語でデジタルリソースが利用可能であることと相関していることを示す。
低リソース言語、特にグローバル・サウスで顕著なWeakerのパフォーマンスは、デジタル・ディビジョンを悪化させる可能性がある。
論文 参考訳(メタデータ) (2024-10-14T13:33:00Z) - SMILE: Speech Meta In-Context Learning for Low-Resource Language Automatic Speech Recognition [55.2480439325792]
音声メタインコンテキスト学習(SMILE)は、メタラーニングと音声インコンテキスト学習(SICL)を組み合わせた革新的なフレームワークである
SMILEは、トレーニング不要な多言語ASRタスクにおいて、ベースライン手法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2024-09-16T16:04:16Z) - LLMs in the Loop: Leveraging Large Language Model Annotations for Active Learning in Low-Resource Languages [1.149936119867417]
低リソース言語は、限られた言語資源とデータラベリングの専門知識のために、AI開発において重大な障壁に直面している。
データアノテーションのアクティブ学習ループにおけるLLMの可能性を活用することを提案する。
GPT-4-Turboを用いた実証的な評価では、データ要求が大幅に削減され、最先端の性能が実証された。
論文 参考訳(メタデータ) (2024-04-02T19:34:22Z) - Low-Rank Adaptation for Multilingual Summarization: An Empirical Study [60.541168233698194]
私たちはその可能性を調査する。
多言語要約領域におけるローランド適応(LoRA)に着目した効率的なファインチューニング
ハイデータやローデータの設定、言語間転送など、さまざまなデータ可用性シナリオに関する広範な調査を行います。
以上の結果から,LoRAは大量のデータでトレーニングされた場合の完全な微調整と競合し,低データシナリオや言語間転送に優れることがわかった。
論文 参考訳(メタデータ) (2023-11-14T22:32:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。