論文の概要: HOMURA: Taming the Sand-Glass for Time-Constrained LLM Translation via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2601.10187v1
- Date: Thu, 15 Jan 2026 08:45:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.058966
- Title: HOMURA: Taming the Sand-Glass for Time-Constrained LLM Translation via Reinforcement Learning
- Title(参考訳): ほむら:強化学習による時間制約LDM翻訳におけるサンドグラスの活用
- Authors: Ziang Cui, Mengran Yu, Tianjiao Li, Chenyu Shi, Yingxuan Shi, Lusheng Zhang, Hongwei Lin,
- Abstract要約: 大規模言語モデル(LLM)は多言語翻訳において顕著な進歩を遂げてきたが、体系的な言語間の冗長性バイアスによって妨げられている。
現在のプロンプトエンジニアリングアプローチは、意味的忠実性と厳格な時間的実現性の間のこの対立を解決するのに苦労している。
- 参考スコア(独自算出の注目度): 10.471350835897757
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have achieved remarkable strides in multilingual translation but are hindered by a systemic cross-lingual verbosity bias, rendering them unsuitable for strict time-constrained tasks like subtitling and dubbing. Current prompt-engineering approaches struggle to resolve this conflict between semantic fidelity and rigid temporal feasibility. To bridge this gap, we first introduce Sand-Glass, a benchmark specifically designed to evaluate translation under syllable-level duration constraints. Furthermore, we propose HOMURA, a reinforcement learning framework that explicitly optimizes the trade-off between semantic preservation and temporal compliance. By employing a KL-regularized objective with a novel dynamic syllable-ratio reward, HOMURA effectively "tames" the output length. Experimental results demonstrate that our method significantly outperforms strong LLM baselines, achieving precise length control that respects linguistic density hierarchies without compromising semantic adequacy.
- Abstract(参考訳): 大規模言語モデル(LLM)は多言語翻訳において顕著な進歩を遂げているが、体系的な言語間の冗長性バイアスによって妨げられている。
現在のプロンプトエンジニアリングアプローチは、意味的忠実性と厳格な時間的実現性の間のこの対立を解決するのに苦労している。
このギャップを埋めるために、私たちはまず、音節レベルの持続時間制約の下で翻訳を評価するために特別に設計されたベンチマークであるSand-Glassを紹介した。
さらに,意味的保存と時間的コンプライアンスのトレードオフを明示的に最適化する強化学習フレームワークであるhomuraを提案する。
KL正規化の対象を新しい動的音節比の報酬とすることで、Homuraは出力長を効果的に「テーム」する。
提案手法は, 意味的妥当性を損なうことなく, 言語密度の階層性に配慮した正確な長さ制御を実現し, 高いLLMベースラインを著しく上回ることを示す。
関連論文リスト
- Same Question, Different Words: A Latent Adversarial Framework for Prompt Robustness [9.208007322096535]
本稿では,2ループ対向フレームワークであるLatent Adversarial Paraphrasing (LAP)を提案する。
LAPは学習可能な摂動を訓練して「ラテント連続パラフレーズ」として機能させる
複数のLLMアーキテクチャにおけるLAPの有効性を示す実験を行った。
論文 参考訳(メタデータ) (2025-03-03T09:36:50Z) - Multilingual LLMs Inherently Reward In-Language Time-Sensitive Semantic Alignment for Low-Resource Languages [19.863010475923414]
資源豊富な言語と低リソースと見なされる言語とのラベル付きリソースの格差は、大規模言語モデル(LLM)にとって重要な障害である。
言語間インコンテキスト学習(X-ICL)における最近の進歩は、主に多言語事前学習型トランスフォーマーから得られる意味的に整合した例を通して、この問題を緩和する上で有望であることが示されている。
本研究では,低リソース言語における時間的推論能力の向上により,このギャップを埋めることを目的とする。
論文 参考訳(メタデータ) (2024-12-11T04:16:39Z) - Refining Translations with LLMs: A Constraint-Aware Iterative Prompting Approach [7.5069214839655345]
大言語モデル(LLM)は機械翻訳(MT)において顕著な熟練性を示している
本稿では,意味的正確性に不可欠なキーワードを優先することで,翻訳忠実度を高める多段階のプロンプトチェーンを提案する。
FLORES-200およびWMTデータセットのベースモデルとしてLlamaとQwenを使用した実験は、ベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-11-13T05:40:24Z) - Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Weakly Supervised Temporal Adjacent Network for Language Grounding [96.09453060585497]
本稿では,時間的言語接地のための新しい教師付き時間的隣接ネットワーク(WSTAN)を提案する。
WSTANは、複数のインスタンス学習(MIL)パラダイムにおいて、時間的隣接ネットワークを活用することで、モーダル間のセマンティックアライメントを学習する。
MILブランチと補完ブランチの両方で、自己監督による意味的識別を強化するために、追加の自己識別損失が考案された。
論文 参考訳(メタデータ) (2021-06-30T15:42:08Z) - Reinforcement Learning for Weakly Supervised Temporal Grounding of
Natural Language in Untrimmed Videos [134.78406021194985]
我々は、時間境界のない粗いビデオレベルの言語記述アノテーションにのみアクセス可能な、このタスクの弱教師付き設定に焦点を当てる。
本稿では,時間境界を段階的に洗練する過程を指導するために,強化学習を利用したemphBoundary Adaptive Refinement(BAR)フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-18T03:32:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。