論文の概要: Translating Under Pressure: Domain-Aware LLMs for Crisis Communication
- arxiv url: http://arxiv.org/abs/2604.26597v1
- Date: Wed, 29 Apr 2026 12:27:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.39153
- Title: Translating Under Pressure: Domain-Aware LLMs for Crisis Communication
- Title(参考訳): 圧力下における翻訳:危機コミュニケーションのためのドメイン対応LLM
- Authors: Antonio Castaldo, Maria Carmen Staiano, Johanna Monti, Sheila Castilho, Francesca Chiusaroli,
- Abstract要約: 一般コーパスからデータを検索・フィルタリングすることで,小さな参照コーパスを拡張するドメイン適応パイプラインを提案する。
得られたデータセットを用いて、危機領域翻訳のために小さな言語モデルを微調整し、CEFR A2レベルの英語に対してバイアス出力に優先最適化を適用する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Timely and reliable multilingual communication is critical during natural and human-induced disasters, but developing effective solutions for crisis communication is limited by the scarcity of curated parallel data. We propose a domain-adaptive pipeline that expands a small reference corpus, by retrieving and filtering data from general corpora. We use the resulting dataset to fine-tune a small language model for crisis-domain translation and then apply preference optimization to bias outputs toward CEFR A2-level English. Automatic and human evaluation shows that this approach improves readability, while maintaining strong adequacy. Our results indicate that simplified English, combined with domain adaptation, can function as a practical lingua franca for emergency communication when full multilingual coverage is not feasible.
- Abstract(参考訳): タイムリーかつ信頼性の高い多言語コミュニケーションは、自然災害や人的災害において重要であるが、危機コミュニケーションのための効果的なソリューションの開発は、キュレートされた並列データの不足によって制限される。
一般コーパスからのデータの検索とフィルタリングにより,小さな参照コーパスを拡張するドメイン適応パイプラインを提案する。
得られたデータセットを用いて、危機領域翻訳のために小さな言語モデルを微調整し、CEFR A2レベルの英語に対してバイアス出力に優先最適化を適用する。
自動的および人的評価は、強い精度を維持しながら、このアプローチが可読性を向上させることを示している。
本研究の結果から, 簡易英語とドメイン適応が組み合わさって, 多言語対応が不可能な場合に, 緊急コミュニケーションのための実践的な言語フランカとして機能することが示唆された。
関連論文リスト
- LLM-Powered Automatic Translation and Urgency in Crisis Scenarios [0.21485350418225244]
大規模言語モデル(LLM)は危機の準備と対応のためにますます提案されている。
本研究では,危機領域翻訳における最先端LLMと機械翻訳システムの性能について検討する。
論文 参考訳(メタデータ) (2026-02-13T20:56:06Z) - Context-Aware Counterfactual Data Augmentation for Gender Bias Mitigation in Language Models [14.937360204897415]
微調整言語モデル(LM)における社会的バイアス軽減の課題は、言語モデリング能力の潜在的な低下である。
本研究では,大きなLMを用いたコンテキスト拡張データ拡張手法であるContext-CDAを提案し,デバイアスコーパスの多様性とコンテキスト関連性を高める。
次に,不確実性に基づくフィルタリングを用いて,ターゲットの小さいLMによる低品質とみなすデファクトを除外する。
論文 参考訳(メタデータ) (2026-02-10T09:45:21Z) - CM-Align: Consistency-based Multilingual Alignment for Large Language Models [84.19366314925593]
高品質な多言語嗜好データを構築するための一貫性に基づくデータ手法を提案する。
具体的には、一貫性のある英語参照選択と、言語間一貫性に基づく多言語嗜好データ構築の2つの部分を含む。
論文 参考訳(メタデータ) (2025-09-10T12:40:49Z) - LANDeRMT: Detecting and Routing Language-Aware Neurons for Selectively Finetuning LLMs to Machine Translation [43.26446958873554]
大規模言語モデル(LLM)は,バイリンガルの監督が限られているにもかかわらず,多言語翻訳において有望な結果を示している。
大規模言語モデル(LLM)の最近の進歩は,バイリンガルの監督が限定された場合でも,多言語翻訳において有望な結果を示している。
LandeRMT は LLM を textbfMachine textbfTranslation に選択的に微調整するフレームワークである。
論文 参考訳(メタデータ) (2024-09-29T02:39:42Z) - InstructionCP: A fast approach to transfer Large Language Models into target language [55.2480439325792]
InsCPは命令タグをCPプロセスに統合し、新しい言語を習得する際の会話能力の喪失を防ぐ。
実験の結果,InsCPは人間のフィードバック能力から会話と強化学習を維持していることがわかった。
このアプローチでは、高品質な命令追従データを0.1億トークンしか必要とせず、それによってリソース消費が減少する。
論文 参考訳(メタデータ) (2024-05-30T15:45:13Z) - Vicinal Risk Minimization for Few-Shot Cross-lingual Transfer in Abusive
Language Detection [19.399281609371258]
高リソースから中低リソース言語への言語間変換学習は、励みのよい結果を示している。
我々は、言語間乱用言語検出を改善するために、ドメイン適応のためのデータ拡張と継続事前学習を利用する。
論文 参考訳(メタデータ) (2023-11-03T16:51:07Z) - Communication Efficient Federated Learning for Multilingual Neural
Machine Translation with Adapter [21.512817959760007]
Federated Multilingual Neural Machine Translation (Fed-MNMT)は、限られた言語資源を持つ機関にとって有望なパラダイムとして登場した。
このアプローチにより、複数の機関がクライアントとして行動し、集中的なトレーニングのためにセンシティブなデータを収集するのではなく、モデル同期を通じて統一されたモデルをトレーニングできる。
しかし, 事前学習言語モデル (PLM) のサイズが大きくなるにつれ, 同期時のパラメータ伝達の通信コストは, 訓練速度のボトルネックとなっている。
PLMを凍結し,クライアント間でのみ軽量なアダプタモジュールを転送することで,この問題に対処する通信効率の高いFed-MNMTフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-21T12:48:38Z) - Non-Parametric Domain Adaptation for End-to-End Speech Translation [72.37869362559212]
E2E-ST(End-to-End Speech Translation)は、エラー伝播の低減、レイテンシの低減、パラメータの削減などにより注目されている。
本稿では,E2E-STシステムのドメイン適応を実現するために,ドメイン固有のテキスト翻訳コーパスを活用する新しい非パラメトリック手法を提案する。
論文 参考訳(メタデータ) (2022-05-23T11:41:02Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。