論文の概要: Towards Better Understanding of Cybercrime: The Role of Fine-Tuned LLMs in Translation
- arxiv url: http://arxiv.org/abs/2404.01940v1
- Date: Tue, 2 Apr 2024 13:33:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 16:19:00.886489
- Title: Towards Better Understanding of Cybercrime: The Role of Fine-Tuned LLMs in Translation
- Title(参考訳): サイバー犯罪の理解向上に向けて : 翻訳における微調整LDMの役割
- Authors: Veronica Valeros, Anna Širokova, Carlos Catania, Sebastian Garcia,
- Abstract要約: 我々は,サイバー犯罪言語のニュアンスを正確に捉えることができる翻訳を生成するために,細調整のLarge Language Models (LLM) を提案する。
我々は,ロシア語を話すハクティビストグループNoName05716の公開チャットに適用する。
提案手法は, 高忠実度翻訳が可能であり, 翻訳者に比べて430~23,000のコスト削減が可能であることを示す。
- 参考スコア(独自算出の注目度): 0.26249027950824505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding cybercrime communications is paramount for cybersecurity defence. This often involves translating communications into English for processing, interpreting, and generating timely intelligence. The problem is that translation is hard. Human translation is slow, expensive, and scarce. Machine translation is inaccurate and biased. We propose using fine-tuned Large Language Models (LLM) to generate translations that can accurately capture the nuances of cybercrime language. We apply our technique to public chats from the NoName057(16) Russian-speaking hacktivist group. Our results show that our fine-tuned LLM model is better, faster, more accurate, and able to capture nuances of the language. Our method shows it is possible to achieve high-fidelity translations and significantly reduce costs by a factor ranging from 430 to 23,000 compared to a human translator.
- Abstract(参考訳): サイバー犯罪通信を理解することはサイバーセキュリティ防衛にとって最重要課題である。
これはしばしば、処理、解釈、タイムリーなインテリジェンスを生成するために、英語に通信を翻訳する。
問題は翻訳が難しいことです。
人間の翻訳は遅く、高価で、少ない。
機械翻訳は不正確で偏りがある。
我々は,サイバー犯罪言語のニュアンスを正確に捉えることができる翻訳を生成するために,細調整のLarge Language Models (LLM) を提案する。
我々は,ロシア語を話すハクティビストグループNoName05716の公開チャットに適用する。
以上の結果から,我々の微調整 LLM モデルはより良く,より速く,より正確で,言語のニュアンスを捉えることができることがわかった。
提案手法は, 高忠実度翻訳が可能であり, 翻訳者に比べて430~23,000のコスト削減が可能であることを示す。
関連論文リスト
- Fine-Tuning Large Language Models to Translate: Will a Touch of Noisy Data in Misaligned Languages Suffice? [33.376648335299116]
大きな言語モデル(LLM)は、32のパラレル文で微調整された後、強い翻訳能力を示す。
英語のみを対象とするLLMは、非英語への翻訳を妨げるタスクの誤解釈につながる可能性がある。
未表現言語で合成されたデータは、顕著な効果が低い。
論文 参考訳(メタデータ) (2024-04-22T12:21:12Z) - Building Accurate Translation-Tailored LLMs with Language Aware Instruction Tuning [57.323716555996114]
オフターゲット翻訳は、特に低リソース言語では未解決の問題である。
最近の研究は、翻訳命令の機能を強調するために高度なプロンプト戦略を設計するか、LLMの文脈内学習能力を活用している。
本研究では,LLMの命令追従能力(特に翻訳方向)を向上させるために,2段階の微調整アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-03-21T13:47:40Z) - Crossing the Threshold: Idiomatic Machine Translation through Retrieval
Augmentation and Loss Weighting [66.02718577386426]
慣用的な翻訳と関連する問題を簡易に評価する。
我々は,変圧器をベースとした機械翻訳モデルが慣用的な翻訳に対して正しくデフォルトとなる点を明らかにするための合成実験を行った。
自然慣用句の翻訳を改善するために, 単純かつ効果的な2つの手法を導入する。
論文 参考訳(メタデータ) (2023-10-10T23:47:25Z) - Eliciting the Translation Ability of Large Language Models via Multilingual Finetuning with Translation Instructions [68.01449013641532]
大規模事前学習言語モデル(LLM)は多言語翻訳において強力な能力を示している。
本稿では,多言語事前学習言語モデルであるXGLM-7Bを微調整して,多言語翻訳を行う方法を提案する。
論文 参考訳(メタデータ) (2023-05-24T12:00:24Z) - The Best of Both Worlds: Combining Human and Machine Translations for
Multilingual Semantic Parsing with Active Learning [50.320178219081484]
人文翻訳と機械翻訳の両方の長所を生かした能動的学習手法を提案する。
理想的な発話選択は、翻訳されたデータの誤りとバイアスを著しく低減することができる。
論文 参考訳(メタデータ) (2023-05-22T05:57:47Z) - Chain-of-Dictionary Prompting Elicits Translation in Large Language Models [100.47154959254937]
大規模言語モデル(LLM)は多言語ニューラルマシン翻訳(MNMT)において驚くほど優れた性能を示した
入力単語のサブセットに対する多言語辞書の連鎖による事前知識でLLMを拡張して翻訳能力を引き出す新しい方法であるCoDを提案する。
論文 参考訳(メタデータ) (2023-05-11T05:19:47Z) - Translate your gibberish: black-box adversarial attack on machine
translation systems [0.0]
我々は、ロシア語から英語への翻訳作業において、最先端の機械翻訳ツールを騙すための簡単なアプローチを提示する。
Google、DeepL、Yandexなど多くのオンライン翻訳ツールが、非意味な逆入力クエリに対して間違ったあるいは攻撃的な翻訳を生成する可能性があることを示す。
この脆弱性は、新しい言語を理解することを妨げ、単に機械翻訳システムを使用する際のユーザエクスペリエンスを悪化させる可能性がある。
論文 参考訳(メタデータ) (2023-03-20T09:52:52Z) - Cross-lingual Transferring of Pre-trained Contextualized Language Models [73.97131976850424]
本稿では,PRLMのための新しい言語間モデル転送フレームワークTreLMを提案する。
シンボルの順序と言語間のシーケンス長の差に対処するため,中間的なTRILayer構造を提案する。
提案手法は,スクラッチから学習した言語モデルに対して,性能と効率の両面で,限られたデータで著しく優れることを示す。
論文 参考訳(メタデータ) (2021-07-27T06:51:13Z) - Local Translation Services for Neglected Languages [0.0]
この研究は、Leonardo da Vinci氏が実践しているように、1)ハッカースピーカー("l33t")と2)逆("mirror")の2つの歴史的に興味深いが難解な言語を翻訳している。
オリジナルのコントリビューションでは、50メガバイト未満のハッカースピーカーを流用している。
長い短期記憶、リカレントニューラルネットワーク(LSTM-RNN)は、最大10,000のバイリンガル文対から構築された英対外翻訳サービスを実証する以前の研究を拡張している。
論文 参考訳(メタデータ) (2021-01-05T16:25:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。