論文の概要: Impact of Task Phrasing on Presumptions in Large Language Models
- arxiv url: http://arxiv.org/abs/2605.00436v1
- Date: Fri, 01 May 2026 06:12:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.869583
- Title: Impact of Task Phrasing on Presumptions in Large Language Models
- Title(参考訳): タスクプラッシングが大規模言語モデルにおける推定に及ぼす影響
- Authors: Kenneth J. K. Ong,
- Abstract要約: 本研究では,大規模言語モデル (LLM) におけるタスクのフレーズ付けが推定に与える影響について検討する。
実験により、LCMは推論ステップがあっても、決定を行う際の推定に左右されることが明らかとなった。
発見は、LLMにおける推定リスクを減らすために、適切なタスクの言い回しの重要性を強調している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Concerns with the safety and reliability of applying large-language models (LLMs) in unpredictable real-world applications motivate this study, which examines how task phrasing can lead to presumptions in LLMs, making it difficult for them to adapt when the task deviates from these assumptions. We investigated the impact of these presumptions on the performance of LLMs using the iterated prisoner's dilemma as a case study. Our experiments reveal that LLMs are susceptible to presumptions when making decisions even with reasoning steps. However, when the task phrasing was neutral, the models demonstrated logical reasoning without much presumptions. These findings highlight the importance of proper task phrasing to reduce the risk of presumptions in LLMs.
- Abstract(参考訳): 予測不能な実世界のアプリケーションに大規模言語モデル(LLM)を適用することの安全性と信頼性について、この研究を動機付け、タスクの言い換えがLLMの前提にどう影響するかを検証し、タスクがこれらの仮定から逸脱した場合に適応することが困難になる。
反復性囚人ジレンマを事例として,これらの推定値がLSMの性能に及ぼす影響について検討した。
実験の結果,LCMは推論ステップがあっても決定を下す際の推定値に影響を受けやすいことが明らかとなった。
しかし、タスクの言い回しが中立であった場合、モデルは多くの推定なしに論理的推論を示した。
これらの知見は, LLMにおける推定リスクを低減するために, 適切な作業表現の重要性を浮き彫りにした。
関連論文リスト
- Investigating Faithfulness in Large Audio Language Models [22.917844547310626]
忠実さは、チェーンオブ思想表現がモデルの決定過程を正確に反映しているかどうかを測り、信頼性のある説明として使用することができる。
本稿では,複数のLALMが生成するCoTの忠実度を,対象とする介入を適用して検討する。
上記のいくつかのデータセットやタスクにわたる介入を経た上で、私たちの実験は、LALMが一般的に、根底にある意思決定プロセスに忠実であるように見えるCoTを生成することを示唆しています。
論文 参考訳(メタデータ) (2025-09-26T13:58:22Z) - Beyond Prompt-Induced Lies: Investigating LLM Deception on Benign Prompts [79.1081247754018]
大規模言語モデル(LLM)は、推論、計画、意思決定のタスクに広くデプロイされている。
そこで我々は, 接触探索質問(CSQ)に基づく枠組みを提案し, 騙しの可能性を定量化する。
論文 参考訳(メタデータ) (2025-08-08T14:46:35Z) - Guiding Reasoning in Small Language Models with LLM Assistance [23.3038074903744]
小さな言語モデルは、深く、多段階の論理的推論を必要とするタスクに適していると疑念を抱いた。
本稿では,Small Reasons, Large Hintsというフレームワークについて紹介する。
数学的推論データセットを用いた実験により, ターゲットとなる外部足場の性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2025-04-14T06:32:45Z) - Understanding Privacy Risks of Embeddings Induced by Large Language Models [75.96257812857554]
大きな言語モデルは、人工知能の初期の兆候を示すが、幻覚に苦しむ。
1つの有望な解決策は、外部知識を埋め込みとして保存し、LLMを検索強化世代に支援することである。
近年の研究では、事前学習された言語モデルによるテキスト埋め込みから、元のテキストを部分的に再構築できることが実験的に示されている。
論文 参考訳(メタデータ) (2024-04-25T13:10:48Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は意思決定タスクを自動化するために使用される。
本稿では,LPMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを評価する。
さまざまな因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成します。
これらのベンチマークにより、LLMが事実を記憶したり、他のショートカットを見つけたりすることで、変化を正確に予測する能力を切り離すことができます。
論文 参考訳(メタデータ) (2024-04-08T14:15:56Z) - Beyond Accuracy: Evaluating the Reasoning Behavior of Large Language Models -- A Survey [25.732397636695882]
大規模言語モデル(LLM)は、最近、推論を含むタスクで顕著なパフォーマンスを示している。
これらの成功にもかかわらず、LLMの推論能力の深さは未だ不明である。
論文 参考訳(メタデータ) (2024-04-02T11:46:31Z) - The Strong Pull of Prior Knowledge in Large Language Models and Its Impact on Emotion Recognition [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理のための強力なパラダイムとして登場した。
LLMには、感情認識において強いが矛盾する先行性があり、その予測に影響を及ぼすことが示される。
以上の結果から,ICLをより大きなLCMで事前学習領域外の情動中心タスクに使用する場合,注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T19:07:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。