論文の概要: Inverse Language Modeling towards Robust and Grounded LLMs
- arxiv url: http://arxiv.org/abs/2510.01929v1
- Date: Thu, 02 Oct 2025 11:47:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.115621
- Title: Inverse Language Modeling towards Robust and Grounded LLMs
- Title(参考訳): ロバストおよび接地LLMに対する逆言語モデリング
- Authors: Davide Gabrielli, Simone Sestito, Iacopo Masi,
- Abstract要約: 逆言語モデリング(ILM, Inverse Language Modeling)は, LLMが摂動を入力する際の頑健性を改善する統一フレームワークである。
ILMは、LCMを静的ジェネレータから分析可能で堅牢なシステムに変換する。
ILMは、堅牢で基盤が整っただけでなく、根本的に制御可能な次世代のLSMの基礎を築ける。
- 参考スコア(独自算出の注目度): 3.3072037841206345
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The current landscape of defensive mechanisms for LLMs is fragmented and underdeveloped, unlike prior work on classifiers. To further promote adversarial robustness in LLMs, we propose Inverse Language Modeling (ILM), a unified framework that simultaneously 1) improves the robustness of LLMs to input perturbations, and, at the same time, 2) enables native grounding by inverting model outputs to identify potentially toxic or unsafe input triggers. ILM transforms LLMs from static generators into analyzable and robust systems, potentially helping RED teaming. ILM can lay the foundation for next-generation LLMs that are not only robust and grounded but also fundamentally more controllable and trustworthy. The code is publicly available at github.com/davegabe/pag-llm.
- Abstract(参考訳): LLMの防御機構の現在の展望は、以前の分類器の研究とは異なり、断片化され、未開発である。
LLMにおける敵対的ロバスト性をさらに促進するために、我々は同時に統合されたフレームワークである逆言語モデリング(ILM)を提案する。
1) LLM の強靭性を改善して摂動を入力し, 同時に入力する。
2) モデル出力を反転させて、潜在的に有害または安全でない入力トリガを特定することによって、ネイティブグラウンドを可能にする。
ILM は LLM を静的ジェネレータから解析可能で堅牢なシステムに変換し、RED のチーム化に役立つ可能性がある。
ILMは、堅牢で基盤が整っただけでなく、基本的に制御可能で信頼性の高い次世代のLSMの基礎を築ける。
コードはgithub.com/davegabe/pag-llmで公開されている。
関連論文リスト
- DLM-Scope: Mechanistic Interpretability of Diffusion Language Models via Sparse Autoencoders [73.18745837755758]
拡散言語モデルのための最初のSAEベースの解釈可能性フレームワークであるDLM-Scopeを提案する。
訓練されたTop-K SAEが忠実に解釈可能な特徴を抽出できることを示す。
また、DLM関連タスクやアルゴリズムにSAEを適用する大きな可能性を示す。
論文 参考訳(メタデータ) (2026-02-05T16:41:25Z) - From Insight to Exploit: Leveraging LLM Collaboration for Adaptive Adversarial Text Generation [3.75886080255807]
動的かつ適応的な敵の例を生成するために設計された2つの革新的な攻撃フレームワークを導入する。
我々は、原文と意味的類似性を保持する微妙で自然な逆入力を生成する。
我々の攻撃はLSMの進歩とともに進化し、攻撃者には未知の強い伝達性を示す。
論文 参考訳(メタデータ) (2025-11-05T02:27:56Z) - LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - Transducer-Llama: Integrating LLMs into Streamable Transducer-based Speech Recognition [26.79555533538622]
本稿では,大規模言語モデル(LLM)をFactized Transducer(FT)モデルに統合する新しいモデルアーキテクチャであるTransducer-Llamaを提案する。
提案されたストリーミングTransducer-Llamaアプローチは、強いFTベースラインに17%の相対的なWER削減(WERR)、RNN-Tベースラインに32%のWERRを与えた。
論文 参考訳(メタデータ) (2024-12-21T03:35:49Z) - Uncertainty-Aware Hybrid Inference with On-Device Small and Remote Large Language Models [49.48313161005423]
ハイブリッド言語モデル(HLM)アーキテクチャは、モバイル端末で動作する小さな言語モデル(SLM)と、無線ネットワークの基地局(BS)にホストされる大きな言語モデル(LLM)を統合する。
HLMトークン生成プロセスは、投機的推論の原則に従っている: SLMの語彙分布はLSMにアップロードされ、LPMによって再サンプリングされる。
本研究では,不確実性を考慮したHLM (Uncertainty-aware opportunistic HLM) という新しいHLM構造を提案する。
論文 参考訳(メタデータ) (2024-12-17T09:08:18Z) - DALD: Improving Logits-based Detector without Logits from Black-box LLMs [56.234109491884126]
大規模言語モデル(LLM)はテキスト生成に革命をもたらし、人間の文章を忠実に模倣する出力を生成する。
我々は、ブラックボックステキスト検出における最先端性能を再定義する革新的なフレームワークであるDLD(Dis Distribution-Aligned LLMs Detection)を提案する。
DALDは、サロゲートモデルの分布を未知の目標LLMの分布と整合させ、高速モデルの反復に対する検出能力とレジリエンスを向上するように設計されている。
論文 参考訳(メタデータ) (2024-06-07T19:38:05Z) - SLEB: Streamlining LLMs through Redundancy Verification and Elimination of Transformer Blocks [9.958467179573237]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて非常に効果的であることが証明されている。
既存の手法はしばしば、実質的なエンドツーエンドのLLM推論スピードアップを達成するのに苦労する。
SLEBは、冗長なトランスフォーマーブロックを排除し、LCMを合理化するための新しいアプローチである。
論文 参考訳(メタデータ) (2024-02-14T09:01:13Z) - LLMs Can't Plan, But Can Help Planning in LLM-Modulo Frameworks [18.068035947969044]
計画と推論タスクにおけるLLM(Large Language Models)の役割には、かなりの混乱がある。
自己回帰型LSMは、それ自体で計画や自己検証を行うことはできない、と我々は主張する。
本稿では,LLMの強みと外部モデルベース検証器を併用した bf LLM-Modulo Framework のビジョンを提案する。
論文 参考訳(メタデータ) (2024-02-02T14:43:18Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。
近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。
1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文 参考訳(メタデータ) (2023-05-31T10:08:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。