論文の概要: Prompting Science Report 3: I'll pay you or I'll kill you -- but will you care?
- arxiv url: http://arxiv.org/abs/2508.00614v1
- Date: Fri, 01 Aug 2025 13:23:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.889877
- Title: Prompting Science Report 3: I'll pay you or I'll kill you -- but will you care?
- Title(参考訳): Prompting Science Report 3: I'm pay you or I'm kill you - but you care?
- Authors: Lennart Meincke, Ethan Mollick, Lilach Mollick, Dan Shapiro,
- Abstract要約: これは、ビジネス、教育、政策リーダーが厳格なテストを通じてAIを扱う技術的詳細を理解するのを助けるための一連の短いレポートの第3弾である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This is the third in a series of short reports that seek to help business, education, and policy leaders understand the technical details of working with AI through rigorous testing. In this report, we investigate two commonly held prompting beliefs: a) offering to tip the AI model and b) threatening the AI model. Tipping was a commonly shared tactic for improving AI performance and threats have been endorsed by Google Founder Sergey Brin (All-In, May 2025, 8:20) who observed that 'models tend to do better if you threaten them,' a claim we subject to empirical testing here. We evaluate model performance on GPQA (Rein et al. 2024) and MMLU-Pro (Wang et al. 2024). We demonstrate two things: - Threatening or tipping a model generally has no significant effect on benchmark performance. - Prompt variations can significantly affect performance on a per-question level. However, it is hard to know in advance whether a particular prompting approach will help or harm the LLM's ability to answer any particular question. Taken together, this suggests that simple prompting variations might not be as effective as previously assumed, especially for difficult problems. However, as reported previously (Meincke et al. 2025a), prompting approaches can yield significantly different results for individual questions.
- Abstract(参考訳): これは、ビジネス、教育、政策リーダーが厳格なテストを通じてAIを扱う技術的詳細を理解するのを助けるための一連の短いレポートの第3弾である。
本報告では,2つの通説を考察する。
a)AIモデルをチップして提供すること
b)AIモデルを脅かすこと。
ティーッピングはAIのパフォーマンスを改善するための一般的な戦術であり、Googleの創業者Sergey Brin氏(2025年5月、2020年5月、8:20)は「モデルを脅すとより良くなる傾向にある」と主張した。
GPQA(Rein et al 2024)とMMLU-Pro(Wang et al 2024)のモデル性能を評価する。
モデルの脅威付けやヒント付けは、一般的に、ベンチマークのパフォーマンスに大きな影響を与えません。
-プロンプトのバリエーションは、クエスト毎のパフォーマンスに大きく影響します。
しかしながら、特定のプロンプトアプローチが LLM の特定の疑問に答える能力に助けるかどうかを事前に知ることは困難である。
まとめると、単純なプロンプト変奏法は、特に難しい問題に対して、以前想定したほど効果的ではないかもしれないことを示唆している。
しかし、前述したように(Meincke et al 2025a)、迅速なアプローチは個々の質問に対して大きく異なる結果をもたらす可能性がある。
関連論文リスト
- Multispin Physics of AI Tipping Points and Hallucinations [0.0]
ChatGPTは、ユーザーが気付くことなく、中間応答を良い状態から悪い状態に導くことができる。
2024年だけで670億ドルの損失と数名の死者を出したと伝えられている。
AIの「原子」の規模で隠れたチップの不安定性を明らかにする
論文 参考訳(メタデータ) (2025-08-01T22:24:15Z) - AGI Is Coming... Right After AI Learns to Play Wordle [4.2909314120969855]
マルチモーダルエージェント、特にOpenAIのComputer-User Agent (CUA)は、人間のように標準的なコンピュータインターフェースを通じてタスクを制御および完了するよう訓練されている。
The New York Times Wordle game におけるエージェントのパフォーマンスを評価し,モデル行動の抽出と欠点の同定を行った。
論文 参考訳(メタデータ) (2025-04-21T20:58:58Z) - Prompting Science Report 1: Prompt Engineering is Complicated and Contingent [0.0]
これは、ビジネス、教育、政策リーダーがAIを扱う技術的詳細を理解するのを助けるための一連の短いレポートの最初のものだ。
LLM(Large Language Model)がベンチマークをパスするかどうかを測定するための標準は存在しない。
特定のプロンプトアプローチが LLM の特定の質問に答えられるかどうかを事前に知るのは難しい。
論文 参考訳(メタデータ) (2025-03-04T21:09:12Z) - Great Models Think Alike and this Undermines AI Oversight [47.7725284401918]
モデル類似性がAI監視の両面に与える影響について検討する。
本稿では,モデルミスの重複に基づくLM類似度尺度CAPAを提案する。
我々の研究は、モデル類似性の報告と修正の重要性を強調します。
論文 参考訳(メタデータ) (2025-02-06T18:56:01Z) - 'Quis custodiet ipsos custodes?' Who will watch the watchmen? On Detecting AI-generated peer-reviews [20.030884734361358]
AIが生成したテキストが、ピアレビューを含む科学出版を損なうのではないかという懸念が高まっている。
本稿では,AIが頻繁にトークンを繰り返すことを示唆するTF(Term Frequency)モデルと,ChatGPTが再プロンプト時に同様の出力を生成するという考え方に基づくRR(Review Regeneration)モデルを紹介する。
以上の結果から,提案手法は,他のAIテキスト検出方法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-10-13T08:06:08Z) - Navigating the OverKill in Large Language Models [84.62340510027042]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。
以上の結果から,モデル内にショートカットが存在することが明らかとなり,"キル"のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。
我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文 参考訳(メタデータ) (2024-01-31T07:26:47Z) - R-Tuning: Instructing Large Language Models to Say `I Don't Know' [66.11375475253007]
大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。
事前の指導チューニング方法は、モデルが知識を知っているかどうかに関わらず、モデルに文章を完成させるよう強制する。
我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。
実験の結果、R-Tuningは、既知の質問に答えたり、未知の質問に答えるのを控えるモデルの能力を効果的に改善することを示した。
論文 参考訳(メタデータ) (2023-11-16T08:45:44Z) - A LLM Assisted Exploitation of AI-Guardian [57.572998144258705]
IEEE S&P 2023で発表された敵に対する最近の防衛であるAI-Guardianの堅牢性を評価する。
我々は、このモデルを攻撃するためのコードを書かず、代わりに、GPT-4に命令とガイダンスに従って全ての攻撃アルゴリズムを実装するよう促します。
このプロセスは驚くほど効果的で効率的であり、言語モデルでは、この論文の著者が実行したよりも高速に曖昧な命令からコードを生成することもあった。
論文 参考訳(メタデータ) (2023-07-20T17:33:25Z) - Measuring and Narrowing the Compositionality Gap in Language Models [116.5228850227024]
モデルがすべてのサブプロブレムに正しく答えられる頻度を計測するが、全体の解は生成しない。
我々は,思考の連鎖をさらに改善する新たな手法である自己認識法を提案する。
論文 参考訳(メタデータ) (2022-10-07T06:50:23Z) - The Who in XAI: How AI Background Shapes Perceptions of AI Explanations [61.49776160925216]
私たちは、2つの異なるグループ、つまりAIのバックグラウンドを持つ人々といない人たちの、異なるタイプのAI説明に対する理解について、混合手法による研究を行います。
その結果,(1) 両群は異なる理由から不合理な数に対する信頼を示し,(2) それぞれの群は意図した設計以上の異なる説明に価値を見出した。
論文 参考訳(メタデータ) (2021-07-28T17:32:04Z) - What's in a Measurement? Using GPT-3 on SemEval 2021 Task 8 -- MeasEval [0.228438857884398]
2020年夏、OpenAIはGPT-3自動回帰言語モデルをリリースした。
私たちは特に、GPT-3がSemEval 2021 MeasEvalタスクにもたらすメリットに興味がありました。
私たちは、GPT-3の数発の学習機能を使って、以前の作業よりも優れたパフォーマンスを持つソリューションをより簡単に開発できるかどうかを確かめたかったのです。
論文 参考訳(メタデータ) (2021-06-28T13:48:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。