論文の概要: Towards Trustworthy Lexical Simplification: Exploring Safety and Efficiency with Small LLMs
- arxiv url: http://arxiv.org/abs/2509.25086v1
- Date: Mon, 29 Sep 2025 17:25:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.16363
- Title: Towards Trustworthy Lexical Simplification: Exploring Safety and Efficiency with Small LLMs
- Title(参考訳): 信頼できる語彙の単純化を目指して : 小型LLMによる安全性と効率性を探る
- Authors: Akio Hayakawa, Stefan Bott, Horacio Saggion,
- Abstract要約: 大規模言語モデル(LLM)は、語彙的単純化の現実的な応用において課題に直面している。
脆弱なユーザグループ(例えば障害のある人々)は、この技術の主要なターゲットグループのひとつです。
ローカル環境に展開可能な小型LCMを利用するLSシステムのための効率的なフレームワークを提案する。
- 参考スコア(独自算出の注目度): 3.0708839100887833
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite their strong performance, large language models (LLMs) face challenges in real-world application of lexical simplification (LS), particularly in privacy-sensitive and resource-constrained environments. Moreover, since vulnerable user groups (e.g., people with disabilities) are one of the key target groups of this technology, it is crucial to ensure the safety and correctness of the output of LS systems. To address these issues, we propose an efficient framework for LS systems that utilizes small LLMs deployable in local environments. Within this framework, we explore knowledge distillation with synthesized data and in-context learning as baselines. Our experiments in five languages evaluate model outputs both automatically and manually. Our manual analysis reveals that while knowledge distillation boosts automatic metric scores, it also introduces a safety trade-off by increasing harmful simplifications. Importantly, we find that the model's output probability is a useful signal for detecting harmful simplifications. Leveraging this, we propose a filtering strategy that suppresses harmful simplifications while largely preserving beneficial ones. This work establishes a benchmark for efficient and safe LS with small LLMs. It highlights the key trade-offs between performance, efficiency, and safety, and demonstrates a promising approach for safe real-world deployment.
- Abstract(参考訳): 高いパフォーマンスにもかかわらず、大きな言語モデル(LLM)は、特にプライバシーに敏感でリソースに制約のある環境において、Lexical simplification(LS)の現実的な応用において課題に直面している。
さらに、脆弱なユーザグループ(例えば障害者)は、この技術の鍵となるターゲットグループであるため、LSシステムの出力の安全性と正確性を確保することが不可欠である。
これらの問題に対処するために,ローカル環境に展開可能な小型LLMを利用するLSシステムのための効率的なフレームワークを提案する。
本枠組みでは, 合成データを用いた知識蒸留と, テキスト内学習をベースラインとして検討する。
5言語による実験では,自動と手動の両方でモデル出力を評価した。
手動による分析では、知識蒸留は自動メートル法スコアを上昇させるが、有害な単純化を増大させることで安全性のトレードオフももたらしている。
重要なことに、モデル出力確率は有害な単純化を検出するのに有用な信号であることがわかった。
これを活用することで、有害な単純化を抑えるとともに、有益なものを多く保存するフィルタリング戦略を提案する。
この研究は、小さなLSMを用いた効率的で安全なLSのベンチマークを確立する。
パフォーマンス、効率、安全性の主なトレードオフを強調し、安全な現実世界のデプロイメントのための有望なアプローチを示す。
関連論文リスト
- When Safe Unimodal Inputs Collide: Optimizing Reasoning Chains for Cross-Modal Safety in Multimodal Large Language Models [50.66979825532277]
我々は、クロスモーダルチャレンジに適した解釈可能な推論パスを備えた最初のデータセットであるSSUI(Safe-Semantics-but-Unsafe-Interpretation)を紹介した。
新たなトレーニングフレームワークであるSRPO(Safety-Aware Reasoning Path Optimization)も、SSUIデータセットに基づいて設計されている。
実験の結果, SRPO学習モデルでは, キーセーフティベンチマークで最先端の結果が得られた。
論文 参考訳(メタデータ) (2025-09-15T15:40:58Z) - Exposing the Ghost in the Transformer: Abnormal Detection for Large Language Models via Hidden State Forensics [5.384257830522198]
重要なアプリケーションにおける大規模言語モデル(LLM)は、重大な信頼性とセキュリティリスクを導入している。
これらの脆弱性は悪意あるアクターによって武器化され、不正アクセス、広範囲にわたる誤報、システムの完全性を侵害した。
本研究では,LLMの異常な挙動を隠蔽法で検出する手法を提案する。
論文 参考訳(メタデータ) (2025-04-01T05:58:14Z) - SafeSwitch: Steering Unsafe LLM Behavior via Internal Activation Signals [51.49737867797442]
大規模言語モデル(LLM)は、様々なタスクにまたがる例外的な能力を示すが、有害なコンテンツを生成することでリスクを引き起こす。
LLMは、内部状態の安全性に関する内部評価を同様に行うことができることを示す。
本稿では,プロバーをベースとした内部状態モニタを用いて,安全でない出力を規制するSafeSwitchを提案する。
論文 参考訳(メタデータ) (2025-02-03T04:23:33Z) - A Soft Sensor Method with Uncertainty-Awareness and Self-Explanation Based on Large Language Models Enhanced by Domain Knowledge Retrieval [17.605817344542345]
Few-shot Uncertainty-aware and Self-Explaining Soft Sensor (LLM-FUESS) というフレームワークを提案する。
LLM-FUESSには、ゼロショット補助可変セレクタ(LLM-ZAVS)と不確実性認識Few-shot Soft Sensor(LLM-UFSS)が含まれている。
提案手法は,最先端の予測性能,強靭性,柔軟性を実現し,従来の手法のトレーニング不安定性を効果的に軽減する。
論文 参考訳(メタデータ) (2025-01-06T11:43:29Z) - SLM as Guardian: Pioneering AI Safety with Small Language Models [6.799423428734095]
より大型のモデルにセーフガード機能を組み込むことで、トレーニングコストの上昇と意図しない有用性の低下が問題となった。
本稿では、有害なクエリ検出とセーフガード応答生成の両方に、より小さなLSMを利用する。
提案手法の有効性を実証し,LLMと比較して,有害なクエリ検出およびセーフガード応答性能を同等又は超過する手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T08:03:15Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - On the Vulnerability of LLM/VLM-Controlled Robotics [54.57914943017522]
大規模言語モデル(LLM)と視覚言語モデル(VLM)を統合するロボットシステムの脆弱性を,入力モダリティの感度によって強調する。
LLM/VLM制御型2つのロボットシステムにおいて,単純な入力摂動がタスク実行の成功率を22.2%,14.6%減少させることを示す。
論文 参考訳(メタデータ) (2024-02-15T22:01:45Z) - Understanding the Effectiveness of Large Language Models in Detecting Security Vulnerabilities [12.82645410161464]
5つの異なるセキュリティデータセットから5,000のコードサンプルに対して、16の事前学習された大規模言語モデルの有効性を評価する。
全体として、LSMは脆弱性の検出において最も穏やかな効果を示し、データセットの平均精度は62.8%、F1スコアは0.71である。
ステップバイステップ分析を含む高度なプロンプト戦略は、F1スコア(平均0.18まで)で実世界のデータセット上でのLLMのパフォーマンスを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-11-16T13:17:20Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。