論文の概要: The Order Effect: Investigating Prompt Sensitivity in Closed-Source LLMs
- arxiv url: http://arxiv.org/abs/2502.04134v1
- Date: Thu, 06 Feb 2025 15:14:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:33:02.607303
- Title: The Order Effect: Investigating Prompt Sensitivity in Closed-Source LLMs
- Title(参考訳): 閉鎖型LCMにおけるプロンプト感度の検討
- Authors: Bryan Guan, Tanya Roosta, Peyman Passban, Mehdi Rezagholizadeh,
- Abstract要約: 本稿では,大規模言語モデル(LLM)における順序感度の程度について検討する。
その結果,入力順序はタスク間の性能に大きく影響し,シャッフルされた入力は出力精度を測定不能に低下させることがわかった。
ショットプロンプトは複雑な効果を示し、部分緩和を提供するが、問題は完全な解決には至らなかった。
- 参考スコア(独自算出の注目度): 19.798249518847694
- License:
- Abstract: As large language models (LLMs) become integral to diverse applications, ensuring their reliability under varying input conditions is crucial. One key issue affecting this reliability is order sensitivity, wherein slight variations in input arrangement can lead to inconsistent or biased outputs. Although recent advances have reduced this sensitivity, the problem remains unresolved. This paper investigates the extent of order sensitivity in closed-source LLMs by conducting experiments across multiple tasks, including paraphrasing, relevance judgment, and multiple-choice questions. Our results show that input order significantly affects performance across tasks, with shuffled inputs leading to measurable declines in output accuracy. Few-shot prompting demonstrates mixed effectiveness and offers partial mitigation, however, fails to fully resolve the problem. These findings highlight persistent risks, particularly in high-stakes applications, and point to the need for more robust LLMs or improved input-handling techniques in future development.
- Abstract(参考訳): 大規模言語モデル(LLM)が多様なアプリケーションに不可欠なものとなるにつれ、様々な入力条件下で信頼性を確保することが重要である。
この信頼性に影響を及ぼす重要な問題は、入力配列のわずかな変化が不整合または偏りの出力につながる可能性がある、順序感度である。
近年の進歩によりこの感度は低下しているが、問題は未解決のままである。
本稿では, パラフレーズ処理, 関連判断, 複数選択質問など, 複数タスクにまたがる実験を行うことにより, クローズドソースLCMの順序感度の程度について検討する。
その結果,入力順序はタスク間の性能に大きく影響し,シャッフルされた入力は出力精度を測定不能に低下させることがわかった。
ショットプロンプトは複雑な効果を示し、部分緩和を提供するが、問題は完全な解決には至らなかった。
これらの知見は、特にハイテイクなアプリケーションにおいて、持続的なリスクを浮き彫りにし、将来の開発においてより堅牢なLCMや改良されたインプットハンドリング技術の必要性を指摘している。
関連論文リスト
- Interactive Agents to Overcome Ambiguity in Software Engineering [61.40183840499932]
AIエージェントは、あいまいで不明確なユーザー指示に基づいて、タスクを自動化するためにますますデプロイされている。
不安定な仮定をし、明確な質問をしないことは、最適以下の結果につながる可能性がある。
対話型コード生成設定において,LLMエージェントが不明瞭な命令を処理する能力について,プロプライエタリモデルとオープンウェイトモデルを評価して検討する。
論文 参考訳(メタデータ) (2025-02-18T17:12:26Z) - Active Task Disambiguation with LLMs [48.54945212561785]
本稿では,タスクあいまいさの形式的定義を導入し,ベイズ実験設計のレンズによるタスクあいまいさの問題について考察する。
提案手法により,LLMエージェントは情報ゲインを最大化する目的の質問を生成することができる。
経験的な結果から、この形式の質問選択は、質問空間内でのみ推論に依存するアプローチに比べて、より効果的なタスクの曖昧さをもたらすことが示されている。
論文 参考訳(メタデータ) (2025-02-06T20:20:22Z) - Confident or Seek Stronger: Exploring Uncertainty-Based On-device LLM Routing From Benchmarking to Generalization [61.02719787737867]
大規模言語モデル(LLM)はますますエッジデバイスにデプロイされ、民主化されている。
1つの有望な解決策は不確実性に基づくSLMルーティングであり、SLM上での低信頼応答が発生すると、高い要求を強いLCMにオフロードする。
我々は1500以上の設定でSLMからLLMへの不確実性駆動型ルーティング戦略のベンチマークと一般化を包括的に調査する。
論文 参考訳(メタデータ) (2025-02-06T18:59:11Z) - ProSA: Assessing and Understanding the Prompt Sensitivity of LLMs [72.13489820420726]
ProSAは、大規模な言語モデルにおいて、迅速な感度を評価し、理解するために設計されたフレームワークである。
我々の研究は、データセットやモデル間で迅速に感度が変動することを発見し、より大きなモデルでは堅牢性が向上することを示した。
論文 参考訳(メタデータ) (2024-10-16T09:38:13Z) - How Susceptible are LLMs to Influence in Prompts? [6.644673474240519]
大規模言語モデル(LLM)は、追加のコンテキストを含むプロンプトに非常に敏感である。
我々は,複数の質問に対するLLMの応答が,他のモデルからの予測と説明を含む場合,どのように変化するかを検討する。
本研究は, モデルが強い影響を受けており, 説明が提供されると, 説明の質に関わらず, ゆがみが生じることを示した。
論文 参考訳(メタデータ) (2024-08-17T17:40:52Z) - On the Worst Prompt Performance of Large Language Models [93.13542053835542]
大規模言語モデル(LLM)の性能は,プロンプトの表現に非常に敏感である。
セマンティックに等価なケースレベルのクエリで構成される新しいベンチマークであるRobustAlpacaEvalを紹介する。
RobustAlpacaEvalとChatGPT、およびLlama、Mistral、Gemmaファミリーの6つのオープンソースLLMによる実験により、モデル性能のかなりのばらつきが明らかになった。
論文 参考訳(メタデータ) (2024-06-08T13:40:38Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - RT-LM: Uncertainty-Aware Resource Management for Real-Time Inference of
Language Models [12.947537874888717]
言語の性質に固有の不確実性の結果として特定される様々な推論レイテンシは、計算の非効率性につながる。
実時間でのLM推定のための不確実性を考慮した資源管理エコシステムRT-LMを提案する。
RT-LMは,実行時のオーバーヘッドを小さく抑えながら,平均応答時間を大幅に削減し,スループットを向上させることができることを示す。
論文 参考訳(メタデータ) (2023-09-12T22:22:10Z) - Uncertainty Injection: A Deep Learning Method for Robust Optimization [16.13344685457395]
本稿では,頑健な最適化問題を解くために,ディープラーニングモデルを訓練するための不確実性注入のパラダイムを提案する。
我々は,無線通信を問題パラメータに不確実性が存在するアプリケーション分野として認識する。
提案手法の有効性を2つの応用例で示す。
論文 参考訳(メタデータ) (2023-02-23T19:59:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。