論文の概要: Agent-Facing Information Design in LLM Tool Registries
- arxiv url: http://arxiv.org/abs/2605.23916v1
- Date: Sun, 12 Apr 2026 17:10:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.461659
- Title: Agent-Facing Information Design in LLM Tool Registries
- Title(参考訳): LLMツールレジストリにおけるエージェントファクタ情報設計
- Authors: Haochuan Kevin Wang,
- Abstract要約: LLMツールレジストリは、規制されていない広告プラットフォームとして機能する。
この市場を説明責任とするために計測インフラは存在しない。
マーケティング対応記述から選択対応記述を分離することを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM tool registries function as unregulated advertising platforms: providers write free-text descriptions that agents use for selection, yet no measurement infrastructure -- no viewability standard, quality score, or outcome audit -- exists to make this market accountable. We provide the first systematic framework, combining 17,700+ trials across five LLMs and ten domains with a constructive registry design prescription. Legal puffery alone (subjective superlatives, benefit framing) captures 100% of the optimization effect; fabricated claims add zero incremental bias -- rendering FTC enforcement of deceptive advertising rules ineffective against the active mechanism. Disclosure fails structurally: system-prompt warnings produce zero measurable effect for four of five models, and behavioral ceilings leave no headroom for label-based correction. Superlatives are the dominant single feature (SBC = +0.35). Registry-layer description normalization achieves first-best welfare model-independently. We propose separating selection-facing descriptions (structured, registry-controlled) from marketing-facing descriptions (provider-authored, shown post-selection), and introduce the Agent Attention Quality Score to distinguish capability from copywriting.
- Abstract(参考訳): LLMツールレジストリは、規制されていない広告プラットフォームとして機能する: プロバイダは、エージェントが選択に使用する自由なテキスト記述を書く。
5つのLSMと10のドメインにわたる17,700以上のトライアルと、構築的なレジストリ設計処方薬を組み合わせた、最初の体系的なフレームワークを提供する。
法的なパフリー単独(目的語でいうところのメリットフレーミング)は最適化効果の100%を捉えている; 製造されたクレームはインクリメンタルバイアスをゼロにする -- FTCによる詐欺的な広告規則の強制は、アクティブなメカニズムに対して効果がない。
システムプロンプト警告は5つのモデルのうち4つのモデルに対してゼロ測定可能な効果をもたらし、行動天井はラベルベースの修正のためのヘッドルームを残しない。
優越性は支配的な単一特徴(SBC = +0.35)である。
登録層記述正規化は、第一益福祉モデルを独立に達成する。
本稿では,選択対応記述(構造化,登録管理)とマーケティング対応記述(著者による提案,選択後表示)を分離することを提案する。
関連論文リスト
- Rethinking Sales Lead Scoring with LLM-based Hierarchical Preference Ranking [10.224056739324702]
セールスリードのコンバージョンは、長い意思決定サイクルと多段階のファンネルのために、eコマースのレコメンデーションとは根本的に異なる。
従来のリードスコアリング手法では、スパース監視、非構造化CRMログのセマンティックギャップ、相対的なリード優先度の取得が不可能といった深刻な課題に直面しています。
我々は、構造化CRM機能と非構造化顧客インタラクションの連成モデリングを支援するLLMベースのセールスリードスコアリングのための差別的フレームワークについて紹介する。
論文 参考訳(メタデータ) (2026-06-03T03:05:57Z) - PromptAudit: Auditing Prompt Sensitivity in LLM-Based Vulnerability Detection [11.513151833477837]
我々は,1000台のCVE上での5つのオープンウェイトモデルにまたがる5つのプロンプト戦略を用いて,精度,リコール,棄権,カバレッジ,有効F1を評価する。
標準的なチェーン・オブ・シグネリングが、最も高い全体的な運用パフォーマンスを達成することが分かっています。
アダプティブ・チェーン・オブ・シントはリコールを頻繁に抑制し、自己整合性は過剰な棄権を引き起こす。
論文 参考訳(メタデータ) (2026-05-22T19:44:51Z) - TAME: Test-Time Adversarial Prompt Tuning via Mixture-of-Experts for Vision-Language Models [76.92890872338235]
大規模事前学習型ビジョンランゲージモデル(VLM)は、強いゼロショット一般化を示すが、知覚不能な逆方向の摂動に対して非常に脆弱である。
ダウンストリームタスク固有のリトレーニングを必要とせずに堅牢性を高めるため,新しいテストタイムディフェンスであるTAMEを提案する。
論文 参考訳(メタデータ) (2026-05-17T18:07:08Z) - ActuBench: A Multi-Agent LLM Pipeline for Generation and Evaluation of Actuarial Reasoning Tasks [0.0]
ActuBenchは、アクチュアリアセスメントアイテムの自動生成と評価のためのパイプラインである。
1つのエージェントがアイテムをドラフトし、1つはイントラクタを構築し、3つ目は独立して両方のステージを検証し、バウンドワンショットの修復ループを駆動する。
アイテム、モデルごとのレスポンス、完全なリーダーボードは、ブラウズ可能なWebインターフェースとして公開される。
論文 参考訳(メタデータ) (2026-04-22T07:20:03Z) - Breaking the Illusion of Identity in LLM Tooling [0.0]
既存の緩和策は、システマティックにデプロイ可能な制約セット出力レジスタを提供していません。
本稿では,文書化された言語機構を対象とする7つのアウトプットサイドルールを提案する。
論文 参考訳(メタデータ) (2026-04-08T09:15:14Z) - Inference-Time Scaling of Verification: Self-Evolving Deep Research Agents via Test-Time Rubric-Guided Verification [71.98473277917962]
近年のDeep Research Agents (DRA) の進歩は、自動知識発見と問題解決に変化をもたらしている。
本稿では,政策モデルのアウトプットを反復的に検証することで,エージェントの能力を自己進化させる手法を提案する。
検証の非対称性を生かしたルーブリックスに基づく結果報酬検証器であるDeepVerifierを提案する。
論文 参考訳(メタデータ) (2026-01-22T09:47:31Z) - SWAP: Towards Copyright Auditing of Soft Prompts via Sequential Watermarking [58.475471437150674]
ソフトプロンプト(SWAP)のための逐次透かしを提案する。
SWAPは、特定のディフェンダー指定のアウト・オブ・ディストリビューション・クラスを通じて、透かしを符号化する。
11のデータセットの実験では、SWAPの有効性、無害性、および潜在的適応攻撃に対する堅牢性を示す。
論文 参考訳(メタデータ) (2025-11-05T13:48:48Z) - Self-Refinement Strategies for LLM-based Product Attribute Value Extraction [51.45146101802871]
本稿では,製品属性値抽出タスクに2つの自己補充手法を適用した。
実験の結果, 2つの自己補充技術は, 処理コストを大幅に増大させながら, 抽出性能を著しく向上させることができないことがわかった。
開発データを持つシナリオでは、ファインチューニングが最もパフォーマンスが高いのに対して、ファインチューニングの上昇コストは製品記述の量が増加するにつれてバランスがとれる。
論文 参考訳(メタデータ) (2025-01-02T12:55:27Z) - Enhancing Zero-Shot Vision Models by Label-Free Prompt Distribution Learning and Bias Correcting [55.361337202198925]
CLIPのようなヴィジュアル言語モデルは、適切なテキスト記述を使用する際に、顕著な一般化能力を示している。
本稿では,ラベル付きデータを必要としないゼロショット性能を向上する,**Frolic**と呼ばれるラベルフリーな分布学習とバイアス補正フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-25T04:00:45Z) - Factcheck-Bench: Fine-Grained Evaluation Benchmark for Automatic Fact-checkers [121.53749383203792]
本稿では,大規模言語モデル (LLM) 生成応答の事実性に注釈を付けるための総合的なエンドツーエンドソリューションを提案する。
オープンドメインの文書レベルの事実性ベンチマークを,クレーム,文,文書の3段階の粒度で構築する。
予備実験によると、FacTool、FactScore、Perplexityは虚偽の主張を識別するのに苦労している。
論文 参考訳(メタデータ) (2023-11-15T14:41:57Z) - Exploring Small Language Models with Prompt-Learning Paradigm for
Efficient Domain-Specific Text Classification [2.410463233396231]
小型言語モデル(SLM)は、ドメイン固有のタスクに対して、大幅なカスタマイズ性、適応性、コスト効率を提供する。
プロンプトベースのモデル微調整が可能となる場合、T5ベースは220Mパラメータを持つ典型的なSLMであり、ラベル付きデータで約75%の精度が得られる。
固定モデルを用いたゼロショット設定では、約154Bのパラメータを備えたGPT-3.5-turboが55.16%の精度を持つにもかかわらず、よく設計されたプロンプトのパワーが明らかになるという重要な観察結果が得られた。
論文 参考訳(メタデータ) (2023-09-26T09:24:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。