論文の概要: Beyond External Monitors: Enhancing Transparency of Large Language Models for Easier Monitoring
- arxiv url: http://arxiv.org/abs/2502.05242v2
- Date: Wed, 28 May 2025 14:27:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 15:04:27.243326
- Title: Beyond External Monitors: Enhancing Transparency of Large Language Models for Easier Monitoring
- Title(参考訳): 外部モニターを超えて: 監視を容易にするために大規模言語モデルの透明性を高める
- Authors: Guanxu Chen, Dongrui Liu, Tao Luo, Lijie Hu, Jing Shao,
- Abstract要約: 大規模言語モデル(LLM)はますます有能化しつつあるが、その思考と意思決定プロセスのメカニズムはいまだ不明である。
本稿では,LCMの透明性を向上し,モニタが不適切かつ敏感な行動を特定するのに役立つ新しい方法TELLMEを提案する。
- 参考スコア(独自算出の注目度): 18.837335987273256
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are becoming increasingly capable, but the mechanisms of their thinking and decision-making process remain unclear. Chain-of-thoughts (CoTs) have been commonly utilized to monitor LLMs, but this strategy fails to accurately reflect LLMs' thinking process. Techniques based on LLMs' hidden representations provide an inner perspective to monitor their latent thinking. However, previous methods only try to develop external monitors instead of making LLMs themselves easier to monitor. In this paper, we propose a novel method TELLME, improving the transparency of LLMs and helping monitors identify unsuitable and sensitive behaviors. Furthermore, we showcase the applications of TELLME on trustworthiness tasks (\eg, safety risks monitoring tasks and detoxification tasks), where LLMs achieve consistent improvement in transparency and task performance. More crucially, we theoretically analyze the improvement of TELLME on LLMs' generalization ability through optimal transport theory.
- Abstract(参考訳): 大規模言語モデル(LLM)はますます有能化しつつあるが、その思考と意思決定プロセスのメカニズムはいまだ不明である。
CoT(Chain-of- Thoughts)は、LLMを監視するために一般的に使用されているが、この戦略はLLMの思考過程を正確に反映することができない。
LLMの隠された表現に基づく技術は、潜伏した思考を監視するための内的視点を提供する。
しかし、従来の手法では、LCM自体を監視しやすくするのではなく、外部モニターの開発しか行わなかった。
本稿では,LLMの透明性を向上し,モニタが不適切かつ敏感な行動を特定するのに役立つ新しい方法TELLMEを提案する。
さらに, 信頼性タスク(安全リスク監視タスクと解毒タスク)におけるTELLMEの応用について述べる。
さらに重要なことは、最適輸送理論により、LLMの一般化能力におけるTELLMEの改善を理論的に分析する。
関連論文リスト
- LLM4VV: Evaluating Cutting-Edge LLMs for Generation and Evaluation of Directive-Based Parallel Programming Model Compiler Tests [7.6818904666624395]
本稿では,コンパイラテストの生成にLLMを用いたデュアルLLMシステムと実験について述べる。
LLMは、品質の高いコンパイラテストを生成し、それらを自動的に検証する有望な可能性を持っていることは明らかである。
論文 参考訳(メタデータ) (2025-07-29T02:34:28Z) - Language-Unlocked ViT (LUViT): Empowering Self-Supervised Vision Transformers with LLMs [89.76543013729594]
ビジョントランスフォーマー(ViT)は、視覚のみのタスクのために、Large Language Model (LLM)ブロックと統合することができる。
直接核融合はしばしばLSMのポテンシャルを完全に活用できず、不安定な微調整に悩まされる。
LUViTは、このモダリティミスマッチを相乗的な事前訓練戦略を通じて橋渡しする。
論文 参考訳(メタデータ) (2025-07-01T13:58:21Z) - EMAC+: Embodied Multimodal Agent for Collaborative Planning with VLM+LLM [8.3321872381107]
我々は,LLMとVLMを協調的に統合するEmbodied Multimodal AgentであるEMAC+を紹介する。
既存の方法とは異なり、EMAC+は低レベルの視覚制御タスクを実行するVLMからのリアルタイムフィードバックを使用して、高レベルのテキストプランを動的に洗練する。
EMAC+は、ノイズの多い観察と効率的な学習に対して優れたタスクパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-26T12:34:16Z) - Lightweight Latent Verifiers for Efficient Meta-Generation Strategies [0.5892638927736115]
検証は、ベース大言語モデル(LLM)によって生成された出力の正しさを評価する補助モデルである。
本研究では,LLMの隠れ状態から精度の高い正当性信号を確実に抽出する,新しい軽量検証手法LiLaVeを提案する。
LiLaVeの重要な利点は、従来のLCMベースの検証器が必要とする計算予算のごく一部でしか動作できないことである。
論文 参考訳(メタデータ) (2025-04-23T14:33:20Z) - Bayesian Teaching Enables Probabilistic Reasoning in Large Language Models [50.16340812031201]
我々は,大規模言語モデル (LLM) がベイジアンフレームワークから期待されているように,その信念を更新しないことを示す。
我々は、最適ベイズモデルの予測を模倣するように訓練することで、ベイズ的な推論をLLMに教える。
論文 参考訳(メタデータ) (2025-03-21T20:13:04Z) - Interpreting and Steering LLMs with Mutual Information-based Explanations on Sparse Autoencoders [29.356200147371275]
大きな言語モデル(LLM)は人間のクエリを扱うのに優れていますが、時に欠陥や予期せぬ応答を生成することができます。
特徴解釈と相互情報に基づく目的設計のための固定語彙集合を提案する。
そこで本研究では,学習した機能アクティベーションを,対応する説明に基づいて調整する2つの実行時ステアリング戦略を提案する。
論文 参考訳(メタデータ) (2025-02-21T16:36:42Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - Enhancing Reasoning through Process Supervision with Monte Carlo Tree Search [2.1637240640145343]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示している。
LLMの推論能力を改善するために、プロセスの監督は結果の監督よりも優れていることが証明されている。
本研究では,モンテカルロ木探索(MCTS)を用いてLLM自体を用いてプロセス監視データを生成する。
論文 参考訳(メタデータ) (2025-01-02T12:09:17Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation [98.02846901473697]
我々は,MLLMの本来の安全意識を生かしたトレーニング不要な保護手法であるECSO(Eyes Closed, Safety On)を提案する。
ECSOは、安全でない画像をテキストに適応的に変換することで、より安全な応答を生成し、予め整列されたLCMの本質的な安全性メカニズムを活性化する。
論文 参考訳(メタデータ) (2024-03-14T17:03:04Z) - Towards Uncovering How Large Language Model Works: An Explainability Perspective [38.07611356855978]
大規模言語モデル(LLM)は言語タスクのブレークスルーをもたらしたが、その顕著な一般化と推論能力を実現する内部メカニズムは不透明のままである。
本稿では,LLM機能の基礎となるメカニズムを,説明可能性のレンズを通して明らかにすることを目的とする。
論文 参考訳(メタデータ) (2024-02-16T13:46:06Z) - AbsInstruct: Eliciting Abstraction Ability from LLMs through Explanation Tuning with Plausibility Estimation [60.40409210088717]
抽象化能力は人間の知性において不可欠であり、NLP研究における様々なタスクにも有用である。
既存の研究によると、LLMは抽象能力に欠けており、その改善方法はまだ解明されていない。
本稿では,命令チューニングによるLLMの抽象化能力を向上するフレームワークAbsInstructを設計する。
論文 参考訳(メタデータ) (2024-02-16T12:47:11Z) - FaithLM: Towards Faithful Explanations for Large Language Models [67.29893340289779]
大きな言語モデル(LLM)は、内部知識と推論能力を活用することで複雑なタスクに対処するのに熟練している。
これらのモデルのブラックボックスの性質は、意思決定プロセスを説明するタスクを複雑にしている。
自然言語 (NL) による LLM の決定を説明するために FaithLM を紹介した。
論文 参考訳(メタデータ) (2024-02-07T09:09:14Z) - Faithfulness vs. Plausibility: On the (Un)Reliability of Explanations from Large Language Models [26.11408084129897]
大規模言語モデル(LLM)は、いくつかの自然言語処理(NLP)アプリケーションのための強力なツールとしてデプロイされる。
最近の研究は、現代のLSMが自己説明(Ses)を生成できることを示している。
LLMが生成するSEの忠実度と妥当性の両立を論じる。
論文 参考訳(メタデータ) (2024-02-07T06:32:50Z) - Learning to Generate Explainable Stock Predictions using Self-Reflective
Large Language Models [54.21695754082441]
説明可能なストック予測を生成するために,LLM(Large Language Models)を教えるフレームワークを提案する。
反射剤は自己推論によって過去の株価の動きを説明する方法を学ぶ一方、PPOトレーナーは最も可能性の高い説明を生成するためにモデルを訓練する。
我々のフレームワークは従来のディープラーニング法とLLM法の両方を予測精度とマシューズ相関係数で上回ることができる。
論文 参考訳(メタデータ) (2024-02-06T03:18:58Z) - Benchmarking LLMs via Uncertainty Quantification [91.72588235407379]
オープンソースのLarge Language Models(LLM)の普及は、包括的な評価方法の緊急の必要性を強調している。
我々は不確実性定量化を統合した LLM のための新しいベンチマーク手法を提案する。
以上の結果より, 精度の高いLSMでは, 精度が低下する可能性があり, II) より大規模なLSMでは, より小型のLSMに比べて不確実性が高いこと, III) 命令ファインタニングではLCMの不確実性が高くなる傾向が示唆された。
論文 参考訳(メタデータ) (2024-01-23T14:29:17Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z) - Mind's Mirror: Distilling Self-Evaluation Capability and Comprehensive Thinking from Large Language Models [20.28989820878285]
大規模言語モデル (LLM) は自然言語処理において顕著な進歩を遂げている。
これらのモデルの大規模かつ計算的な要求は、資源に制約のある環境での実践的展開を考えると、大きな課題となる。
論文 参考訳(メタデータ) (2023-11-15T18:56:23Z) - Explanation-aware Soft Ensemble Empowers Large Language Model In-context
Learning [50.00090601424348]
大規模言語モデル(LLM)は、様々な自然言語理解タスクにおいて顕著な能力を示している。
我々は,LLMを用いたテキスト内学習を支援するための説明型ソフトアンサンブルフレームワークであるEASEを提案する。
論文 参考訳(メタデータ) (2023-11-13T06:13:38Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。