論文の概要: Digging Into the Internal: Causality-Based Analysis of LLM Function Calling
- arxiv url: http://arxiv.org/abs/2509.16268v1
- Date: Thu, 18 Sep 2025 08:30:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.711909
- Title: Digging Into the Internal: Causality-Based Analysis of LLM Function Calling
- Title(参考訳): 内部へのDigg: 因果性に基づくLCM関数呼び出しの解析
- Authors: Zhenlan Ji, Daoyuan Wu, Wenxuan Wang, Pingchuan Ma, Shuai Wang, Lei Ma,
- Abstract要約: FC(Function Calling)は,ユーザ命令による大規模言語モデルのコンプライアンスを大幅に向上させることができることを示す。
我々は,従来のプロンプト法と比較してFCベースの命令の有効性を比較する実験を行った。
FCは、悪意のある入力を検知する従来のプロンプト法よりも平均で約135%の性能向上を示した。
- 参考スコア(独自算出の注目度): 20.565096639708162
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Function calling (FC) has emerged as a powerful technique for facilitating large language models (LLMs) to interact with external systems and perform structured tasks. However, the mechanisms through which it influences model behavior remain largely under-explored. Besides, we discover that in addition to the regular usage of FC, this technique can substantially enhance the compliance of LLMs with user instructions. These observations motivate us to leverage causality, a canonical analysis method, to investigate how FC works within LLMs. In particular, we conduct layer-level and token-level causal interventions to dissect FC's impact on the model's internal computational logic when responding to user queries. Our analysis confirms the substantial influence of FC and reveals several in-depth insights into its mechanisms. To further validate our findings, we conduct extensive experiments comparing the effectiveness of FC-based instructions against conventional prompting methods. We focus on enhancing LLM safety robustness, a critical LLM application scenario, and evaluate four mainstream LLMs across two benchmark datasets. The results are striking: FC shows an average performance improvement of around 135% over conventional prompting methods in detecting malicious inputs, demonstrating its promising potential to enhance LLM reliability and capability in practical applications.
- Abstract(参考訳): 関数呼び出し(FC)は、大規模言語モデル(LLM)が外部システムと対話し、構造化されたタスクを実行するための強力な技術として登場した。
しかし、それがモデル行動に影響を与えるメカニズムはほとんど未解明のままである。
さらに,本手法は,FCの正規使用に加えて,ユーザ指示によるLCMのコンプライアンスを大幅に向上させることができる。
これらの観察は、LLM内でFCがどのように動作するかを調べるために、正準解析法である因果性を利用する動機付けとなる。
特に、ユーザクエリに応答する際のモデルの内部計算ロジックに対するFCの影響を識別するために、層レベルおよびトークンレベルの因果介入を行う。
本分析は,FCの実質的な影響を確認し,そのメカニズムに関する詳細な知見を明らかにした。
そこで本研究では,従来のプロンプト法とFCベースの命令の有効性を比較検討した。
我々は,LLMの安全性向上,重要なLLMアプリケーションシナリオ,および2つのベンチマークデータセットにわたる4つの主要なLLMの評価に重点を置いている。
FCは、悪意のある入力を検知する従来のプロンプト手法よりも平均で135%の性能向上を示し、実用アプリケーションにおけるLCMの信頼性と能力を高める可能性を示している。
関連論文リスト
- Improving LLM Reasoning for Vulnerability Detection via Group Relative Policy Optimization [45.799380822683034]
大規模言語モデル(LLM)のためのRLベースファインタニング技術の進歩を目的とした広範な研究を提案する。
一般的に採用されているLSMには,特定の脆弱性を過度に予測する傾向があり,他の脆弱性を検出できない,といった,重要な制限が強調される。
この課題に対処するために、構造化されたルールベースの報酬を通してLLMの振る舞いを導くための最近の政策段階的手法であるグループ相対政策最適化(GRPO)について検討する。
論文 参考訳(メタデータ) (2025-07-03T11:52:45Z) - ICLShield: Exploring and Mitigating In-Context Learning Backdoor Attacks [61.06621533874629]
In-context Learning (ICL)は、大規模言語モデル(LLM)において顕著な成功を収めた。
本稿では,LLMがタスク関連潜伏概念とバックドア関連潜伏概念の両方を同時に学習する,という二重学習仮説を初めて提案する。
そこで本研究では,概念選好比を動的に調整する防衛機構であるICLShieldを提案する。
論文 参考訳(メタデータ) (2025-07-02T03:09:20Z) - CogSteer: Cognition-Inspired Selective Layer Intervention for Efficiently Steering Large Language Models [37.476241509187304]
大規模言語モデル(LLM)は、広範囲なデータに対する事前学習を通じて、優れたパフォーマンスを達成する。
基本的なメカニズムにおける解釈可能性の欠如は、特定のアプリケーションに対してLLMを効果的に操る能力を制限する。
本稿では,パラメータ効率の優れた微調整法に基づく効率的な選択的層干渉法を提案する。
論文 参考訳(メタデータ) (2024-10-23T09:40:15Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Comprehensive Reassessment of Large-Scale Evaluation Outcomes in LLMs: A Multifaceted Statistical Approach [64.42462708687921]
評価の結果、スケーリング、トレーニングタイプ、アーキテクチャなどの要因がLLMのパフォーマンスに大きな影響を与えていることが明らかになった。
本研究は, これらのLCMの徹底的な再検討に着手し, 現状評価手法における不整合性に着目した。
これには、ANOVA、Tukey HSDテスト、GAMM、クラスタリング技術などが含まれる。
論文 参考訳(メタデータ) (2024-03-22T14:47:35Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Factual consistency evaluation of summarization in the Era of large language models [34.5486469154385]
既存の事実整合性メトリクスは、そのパフォーマンス、効率、説明可能性によって制約されます。
大規模言語モデル(LLM)の最近の進歩は,テキスト評価において顕著な可能性を示している。
しかし, 事実整合性評価の有効性は未解明のままである。
論文 参考訳(メタデータ) (2024-02-21T12:35:19Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。