論文の概要: Inverse Language Modeling towards Robust and Grounded LLMs
- arxiv url: http://arxiv.org/abs/2510.01929v1
- Date: Thu, 02 Oct 2025 11:47:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.115621
- Title: Inverse Language Modeling towards Robust and Grounded LLMs
- Title(参考訳): ロバストおよび接地LLMに対する逆言語モデリング
- Authors: Davide Gabrielli, Simone Sestito, Iacopo Masi,
- Abstract要約: 逆言語モデリング(ILM, Inverse Language Modeling)は, LLMが摂動を入力する際の頑健性を改善する統一フレームワークである。
ILMは、LCMを静的ジェネレータから分析可能で堅牢なシステムに変換する。
ILMは、堅牢で基盤が整っただけでなく、根本的に制御可能な次世代のLSMの基礎を築ける。
- 参考スコア(独自算出の注目度): 3.3072037841206345
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The current landscape of defensive mechanisms for LLMs is fragmented and underdeveloped, unlike prior work on classifiers. To further promote adversarial robustness in LLMs, we propose Inverse Language Modeling (ILM), a unified framework that simultaneously 1) improves the robustness of LLMs to input perturbations, and, at the same time, 2) enables native grounding by inverting model outputs to identify potentially toxic or unsafe input triggers. ILM transforms LLMs from static generators into analyzable and robust systems, potentially helping RED teaming. ILM can lay the foundation for next-generation LLMs that are not only robust and grounded but also fundamentally more controllable and trustworthy. The code is publicly available at github.com/davegabe/pag-llm.
- Abstract(参考訳): LLMの防御機構の現在の展望は、以前の分類器の研究とは異なり、断片化され、未開発である。
LLMにおける敵対的ロバスト性をさらに促進するために、我々は同時に統合されたフレームワークである逆言語モデリング(ILM)を提案する。
1) LLM の強靭性を改善して摂動を入力し, 同時に入力する。
2) モデル出力を反転させて、潜在的に有害または安全でない入力トリガを特定することによって、ネイティブグラウンドを可能にする。
ILM は LLM を静的ジェネレータから解析可能で堅牢なシステムに変換し、RED のチーム化に役立つ可能性がある。
ILMは、堅牢で基盤が整っただけでなく、基本的に制御可能で信頼性の高い次世代のLSMの基礎を築ける。
コードはgithub.com/davegabe/pag-llmで公開されている。
関連論文リスト
- Uncertainty-Aware Hybrid Inference with On-Device Small and Remote Large Language Models [49.48313161005423]
ハイブリッド言語モデル(HLM)アーキテクチャは、モバイル端末で動作する小さな言語モデル(SLM)と、無線ネットワークの基地局(BS)にホストされる大きな言語モデル(LLM)を統合する。
HLMトークン生成プロセスは、投機的推論の原則に従っている: SLMの語彙分布はLSMにアップロードされ、LPMによって再サンプリングされる。
本研究では,不確実性を考慮したHLM (Uncertainty-aware opportunistic HLM) という新しいHLM構造を提案する。
論文 参考訳(メタデータ) (2024-12-17T09:08:18Z) - SLEB: Streamlining LLMs through Redundancy Verification and Elimination of Transformer Blocks [9.958467179573237]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて非常に効果的であることが証明されている。
既存の手法はしばしば、実質的なエンドツーエンドのLLM推論スピードアップを達成するのに苦労する。
SLEBは、冗長なトランスフォーマーブロックを排除し、LCMを合理化するための新しいアプローチである。
論文 参考訳(メタデータ) (2024-02-14T09:01:13Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。
近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。
1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文 参考訳(メタデータ) (2023-05-31T10:08:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。