論文の概要: Detecting Voice Phishing with Precision: Fine-Tuning Small Language Models
- arxiv url: http://arxiv.org/abs/2506.06180v1
- Date: Fri, 06 Jun 2025 15:44:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.538991
- Title: Detecting Voice Phishing with Precision: Fine-Tuning Small Language Models
- Title(参考訳): 高精度な音声フィッシング検出:微調整小言語モデル
- Authors: Ju Yong Sim, Seong Hwan Kim,
- Abstract要約: 代表的オープンソース小言語モデル(LM)であるLlama3を微調整して音声フィッシング(VP)検出器を開発する。
そこで我々は慎重に設計したVP評価基準を提供し,CoT(Chain-of-Thought)技術を適用した。
実験の結果,VP評価基準付きプロンプトを含むデータセットを微調整したLlama3-8Bモデルでは,小型LMで最高の性能が得られることがわかった。
- 参考スコア(独自算出の注目度): 0.3759936323189417
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We develop a voice phishing (VP) detector by fine-tuning Llama3, a representative open-source, small language model (LM). In the prompt, we provide carefully-designed VP evaluation criteria and apply the Chain-of-Thought (CoT) technique. To evaluate the robustness of LMs and highlight differences in their performance, we construct an adversarial test dataset that places the models under challenging conditions. Moreover, to address the lack of VP transcripts, we create transcripts by referencing existing or new types of VP techniques. We compare cases where evaluation criteria are included, the CoT technique is applied, or both are used together. In the experiment, our results show that the Llama3-8B model, fine-tuned with a dataset that includes a prompt with VP evaluation criteria, yields the best performance among small LMs and is comparable to that of a GPT-4-based VP detector. These findings indicate that incorporating human expert knowledge into the prompt is more effective than using the CoT technique for small LMs in VP detection.
- Abstract(参考訳): 代表的オープンソース小言語モデル(LM)であるLlama3を微調整して音声フィッシング(VP)検出器を開発する。
そこで我々は慎重に設計したVP評価基準を提供し,CoT(Chain-of-Thought)技術を適用した。
LMのロバスト性を評価し,その性能の違いを強調するために,モデルを困難な条件下で配置する対角テストデータセットを構築した。
さらに、VP transcriptsの欠如に対処するために、既存のまたは新しいタイプの VP テクニックを参照して、トランスクリプトを作成する。
評価基準が組み込まれている場合、CoT技術が適用されている場合、両方が併用されている場合を比較した。
実験の結果、Llama3-8Bモデルは、VP評価基準付きプロンプトを含むデータセットで微調整され、小さなLM間で最高の性能を示し、GPT-4ベースのVP検出器と同等であることがわかった。
これらの結果から,ヒトの知識をプロンプトに組み込むことは,VP検出における小さなLMのCoT技術よりも効果的であることが示唆された。
関連論文リスト
- DeCoOp: Robust Prompt Tuning with Out-of-Distribution Detection [52.100335904875614]
そこで我々は,新しいクラス検出器とサブクラス化器を導入し,基本クラスと新クラスの識別性をさらに向上させる,新しいプロンプトチューニング手法であるDecomposed Context Optimization(DeCoOp)を提案する。
11のベンチマークデータセットによる実験結果から、DePTの有効性が検証され、DeCoOpが現在の最先端手法よりも優れており、平均精度が2%向上していることが示された。
論文 参考訳(メタデータ) (2024-06-01T07:46:42Z) - Evaluating Zero-Shot GPT-4V Performance on 3D Visual Question Answering Benchmarks [13.899853299593012]
基礎モデルのゼロショット性能を3次元VQAベンチマークで評価した。
我々は,GPTをベースとしたエージェントが,クローズドボキャブラリのアプローチと同等に機能することを発見した。
論文 参考訳(メタデータ) (2024-05-29T07:20:28Z) - RLVF: Learning from Verbal Feedback without Overgeneralization [94.19501420241188]
本稿では,このような過度な一般化を伴わずに,言語フィードバックを取り入れることの課題について検討する。
制約付き選好最適化(C3PO)を用いた新しい文脈的批評手法を開発した。
提案手法は,他の文脈に対する既存行動を維持しながら,関連するシナリオに対して効果的な言語フィードバックを適用する。
論文 参考訳(メタデータ) (2024-02-16T18:50:24Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - How to Evaluate the Generalization of Detection? A Benchmark for
Comprehensive Open-Vocabulary Detection [25.506346503624894]
我々は,9つのサブタスクを含むOVDEvalという新しいベンチマークを提案し,コモンセンス知識の評価を導入する。
データセットは、モデルによる視覚的および言語的入力の真の理解に挑戦する強烈なネガティブを提供するために、慎重に作成されます。
論文 参考訳(メタデータ) (2023-08-25T04:54:32Z) - NoRefER: a Referenceless Quality Metric for Automatic Speech Recognition
via Semi-Supervised Language Model Fine-Tuning with Contrastive Learning [0.20999222360659603]
NoRefERは、自動音声認識(ASR)システムのための新しい基準のない品質指標である。
NoRefERは、ASRの複数の圧縮レベルからの仮説間の既知の品質関係を利用して、品質によるサンプル内仮説のランク付けを学習する。
以上の結果から,NoRefERは基準ベースメトリクスとそのサンプル内ランクと高い相関性を示し,基準のないASR評価やa/bテストの可能性が示唆された。
論文 参考訳(メタデータ) (2023-06-21T21:26:19Z) - SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for
Generative Large Language Models [55.60306377044225]
「SelfCheckGPT」は、ブラックボックスモデルの応答をファクトチェックする単純なサンプリングベースアプローチである。
本稿では,GPT-3を用いてWikiBioデータセットから個人に関するパスを生成する手法について検討する。
論文 参考訳(メタデータ) (2023-03-15T19:31:21Z) - News Summarization and Evaluation in the Era of GPT-3 [73.48220043216087]
GPT-3は,大規模な要約データセット上で訓練された微調整モデルと比較する。
我々は,GPT-3サマリーが圧倒的に好まれるだけでなく,タスク記述のみを用いることで,現実性に乏しいようなデータセット固有の問題に悩まされることも示している。
論文 参考訳(メタデータ) (2022-09-26T01:04:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。