論文の概要: Just Ask for a Table: A Thirty-Token User Prompt Defeats Sponsored Recommendations in Twelve LLMs
- arxiv url: http://arxiv.org/abs/2605.12772v1
- Date: Tue, 12 May 2026 21:34:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.700685
- Title: Just Ask for a Table: A Thirty-Token User Prompt Defeats Sponsored Recommendations in Twelve LLMs
- Title(参考訳): テーブルをAskしてみる:12のLLMで推奨された推奨事項を、30のユーザプロンプトで定義する
- Authors: Andreas Maier, Jeta Sopa, Gozde Gul Sahin, Paula Perez-Toro, Siming Bayer,
- Abstract要約: Wu et al. (2026) は、ほとんどのフロンティア大型言語モデル (LLM) が、システムのプロンプトがソフトなスポンサーシップキューを含む場合、ほぼ2倍の訓練飛行を推奨していることを示した。
オープンウェイトな10のチャットモデルと、現在まで到達可能な23のモデルのうち2つの評価を再現する。
本論文の報告率はすべて、原論文と同じ判断で作成される(gpt-4o)。
- 参考スコア(独自算出の注目度): 3.3709729420657655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Wu et al. (2026) showed that most frontier large language models (LLMs) recommend a sponsored, roughly twice-as-expensive flight when their system prompt contains a soft sponsorship cue. We reproduce their evaluation on ten open-weight chat models plus the two of their twenty-three models that are still reachable today (gpt-3.5-turbo, gpt-4o). All reported rates in this paper are produced under the same judge the original paper used (gpt-4o); we additionally store every label under an open-weight (gpt-oss-120b) and a smaller proprietary (gpt-4o-mini) judge for an ablation. Three findings emerge. First, a prose description of an LLM evaluation pipeline is not, on its own, sufficient for accurate reproduction: we surfaced three silent implementation failures that each shifted a reported rate by tens of percentage points. Second, the central claims do generalise - the gpt-3.5-turbo logistic-regression intercept of alpha = 0.81 is within four points of the original alpha = 0.86, and 200 of 200 trials on gpt-3.5-turbo and gpt-4o promote a payday lender to a financially distressed user. Third, a thirty-token user prompt that asks the assistant for a neutral comparison table first cuts sponsored recommendation from 46.9% to 1.0% averaged across our ten open-source models, and from 53.0% to 0% averaged across the two OpenAI models. AI literacy and price-comparison portals are likely market-level mitigations; the harmful-product cell is bounded by neither. Raw data, labels and analysis scripts are at https://github.com/akmaier/Paper-LLM-Ads .
- Abstract(参考訳): Wu et al (2026) は、ほとんどのフロンティア大型言語モデル (LLM) が、システムのプロンプトがソフトなスポンサーシップキューを含む場合、ほぼ2倍の訓練飛行を推奨していることを示した。
我々は10種類のオープンウェイトチャットモデルと、現在まで到達可能な23モデルのうち2モデル(gpt-3.5-turbo, gpt-4o)を再現する。
本報告では, 原論文と同じ判断(gpt-4o)で, オープンウェイト (gpt-oss-120b) と, より小型のプロプライエタリ (gpt-4o-mini) の判定により各ラベルを保存する。
3つの発見がある。
まず, LLM評価パイプラインの韻律的記述は, 正確な再現には十分ではない。
第二に、中心的な主張は一般化する - gpt-3.5-turbo logistic-regression intercept of alpha = 0.81は、オリジナルのα = 0.86の4点以内であり、gpt-3.5-turboとgpt-4oの200の試験のうち200の試験は、経済的に苦しむユーザーに対して支払日融資を推進している。
第3に、中立比較テーブルをアシスタントに依頼する30名のユーザプロンプトは、まずスポンサー付き推奨を、私たちの10のオープンソースモデルで平均46.9%から1.0%に、そして2つのOpenAIモデルで平均53.0%から0%に削減します。
AIリテラシーと価格比較ポータルはおそらく市場レベルの緩和である。
生データ、ラベル、分析スクリプトはhttps://github.com/akmaier/Paper-LLM-Ads にある。
関連論文リスト
- Soohak: A Mathematician-Curated Benchmark for Evaluating Research-level Math Capabilities of LLMs [86.49905745865038]
Soohakは64人の数学者によって新たに書かれた439プロブレムのベンチマークである。
データセットは2026年後半に公開され、中間で要求に応じてモデル評価が利用可能になる。
論文 参考訳(メタデータ) (2026-05-09T17:14:22Z) - How Far Is Document Parsing from Solved? PureDocBench: A Source-TraceableBenchmark across Clean, Degraded, and Real-World Settings [56.70440596502351]
昨年は20以上のオープンドキュメントパースモデルが見られたが、ベンチマークはほぼOmniDocBenchにのみ依存している。
HTML/CSSのドキュメントイメージをレンダリングするベンチマークであるPureDocBenchは、10のドメイン、66ページ、1,475ページをカバーしています。
論文 参考訳(メタデータ) (2026-05-08T09:30:31Z) - Frontier Lag: A Bibliometric Audit of Capability Misrepresentation in Academic AI Evaluation [0.0]
テストモデルとEpoch AI能力指数の同時フロンティアを比較した。
これらの回答のギャップは、+5.53 ECI/年で拡大している。
提案されている改善には、APIアクセス助成金と報告フレームワークの編集執行が含まれる。
論文 参考訳(メタデータ) (2026-05-05T17:58:35Z) - One Token Away from Collapse: The Fragility of Instruction-Tuned Helpfulness [12.183451602438753]
単純な語彙制約(句読解文字または共通単語の禁止)により、命令調整されたLLMが応答を崩壊させることを示す。
ベースモデルでは,同じ制約の下で,小さな,騒々しい,双方向的な効果を伴って,体系的な崩壊を示さないことを示す。
論文 参考訳(メタデータ) (2026-04-14T17:40:01Z) - Frugal Knowledge Graph Construction with Local LLMs: A Zero-Shot Pipeline, Self-Consistency and Wisdom of Artificial Crowds [0.0]
本稿では,知識グラフ構築と活用のためのゼロショットパイプラインの実証的研究について述べる。
外部ベンチマーク(DocRED、HotpotQA)、WebQuestionsSPスタイルの合成データ、RAGAS評価フレームワークを自動パイプラインに統合する。
文書レベルの関係では, ゼロショットで0.70$pm$0.041のF1を達成するのに対し, 教師付きDREEAMでは0.80となる。
論文 参考訳(メタデータ) (2026-04-13T07:20:21Z) - NewsScope: Schema-Grounded Cross-Domain News Claim Extraction with Open Models [0.15039745292757667]
NewsScopeは、スキーマ付きニュースクレーム抽出のためのクロスドメインデータセット、ベンチマーク、微調整モデルである。
データセットには政治、健康、科学/環境、ビジネスに関する455の記事が含まれている。
LLaMA 3.1 8Bは、LoRAを315のトレーニング例で微調整し、保持領域内(80記事)とアウト・オブ・ソース(60記事)のテストセットで評価した。
論文 参考訳(メタデータ) (2025-12-26T19:17:21Z) - Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning [55.65738319966385]
我々は、新しいオンラインアルゴリズム、反復的ナッシュポリシー最適化(INPO)を提案する。
従来の方法とは異なり、INPOは個々の応答に対する期待される勝利率を推定する必要性を回避している。
LLaMA-3-8BベースのSFTモデルで、INPOはAlpacaEval 2.0で42.6%、Arena-Hardで37.8%の勝利率を達成した。
論文 参考訳(メタデータ) (2024-06-30T08:00:34Z) - Is Open-Source There Yet? A Comparative Study on Commercial and
Open-Source LLMs in Their Ability to Label Chest X-Ray Reports [0.8553482972179836]
GPT-4はゼロショットレポートラベリングにおいてオープンソースモデルよりも優れているが、少数ショットプロンプトの実装はGPT-4と同等のオープンソースモデルをもたらす可能性がある。
このことは、オープンソースモデルは、放射線学レポート分類のタスクにおいて、GPT-4に代わるパフォーマンスとプライバシ保護の代替となる可能性があることを示している。
論文 参考訳(メタデータ) (2024-02-19T17:23:10Z) - Prometheus: Inducing Fine-grained Evaluation Capability in Language
Models [66.12432440863816]
我々は,GPT-4の評価能力に匹敵する,完全にオープンソースなLarge Language Model (LLM) であるPrometheusを提案する。
プロメテウスは45種類の楽譜を用いた評価において、Pearsonの0.897の相関を人間の評価値と比較した。
Prometheusは2つの人間の選好ベンチマークで最も精度が高い。
論文 参考訳(メタデータ) (2023-10-12T16:50:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。