論文の概要: Protocol Agent: What If Agents Could Use Cryptography In Everyday Life?
- arxiv url: http://arxiv.org/abs/2602.01304v1
- Date: Sun, 01 Feb 2026 16:05:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.705012
- Title: Protocol Agent: What If Agents Could Use Cryptography In Everyday Life?
- Title(参考訳): プロトコルエージェント:もしエージェントが毎日暗号化を使えるとしたら?
- Authors: Marco De Rossi,
- Abstract要約: エージェントがより効率的で、その能力に適合したコミュニケーションパターンを開発できることを示す。
暗号のプリミティブは 日々のやりとりを 大幅に改善できるが 人間がそれを使えないのは 複雑すぎて 計算は 頭の中では できないからだ
もしエージェントが、どのプリミティブが日常の状況に合ったプロトコルを「オンザフライ」で作成し、エージェントに提案し、それに参加するよう説得し、適切な計算ツールを使用してプロトコルを正しく実行するとしたらどうでしょう?
我々はこのベンチマークで現在のオープンウェイトモデルと最先端モデルを評価し、提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We often assume that agent-to-agent interaction will mirror human conversation. However, agents operate fundamentally differently. What if they could develop communication patterns that are more efficient and better aligned with their capabilities? While cryptographic primitives that could profoundly improve everyday interactions already exist, humans can't use them because they are too complex and the math can't be done in one's head. Examples range from proving your age (or other attributes) without showing your ID, to filing an anonymous report within a group while proving you are a legitimate member, to splitting a dinner bill fairly without revealing salaries. What if agents could create protocols "on the fly" by recognizing which primitive fits an everyday situation, proposing it to an agentic counterpart, persuading them to participate, and then executing the protocol correctly using appropriate computation tools? Protocol Agent frames this problem by introducing a benchmark that spans: (1) cryptographic primitive recognition, (2) negotiation skills, (3) implementation correctness, (4) correct computation and (5) security strength. We evaluate current open-weight and state-of-the-art models on this benchmark, propose a dataset-generation approach to improve these capabilities, and measure the impact of supervised fine-tuning (SFT) on benchmark performance, with tuned models outperforming base models by a wide margin.
- Abstract(参考訳): 私たちはエージェントとエージェントの相互作用が人間の会話を反映すると考えることが多い。
しかし、エージェントは基本的に異なる動作をする。
もし彼らが、より効率的で、彼らの能力に適合したコミュニケーションパターンを開発できたらどうでしょう?
日常のやりとりを劇的に改善できる暗号プリミティブはすでに存在していますが、複雑すぎて計算ができないため、人間が使うことはできません。
例えば、IDを示さずに年齢(またはその他の属性)を証明したり、グループ内で匿名のレポートを提出したり、正会員であることを証明したり、給与を公表せずに夕食会費を公平に分けたりするといった具合だ。
もしエージェントが、どのプリミティブが日常の状況に合ったプロトコルを「オンザフライ」で作成し、エージェントに提案し、それに参加するよう説得し、適切な計算ツールを使用してプロトコルを正しく実行するとしたらどうでしょう?
Protocol Agentは、(1)暗号プリミティブ認識、(2)交渉スキル、(3)実装の正しさ、(4)正しい計算、(5)セキュリティ強度のベンチマークを導入することでこの問題に対処する。
このベンチマークでは、現在のオープンウェイトモデルと最先端モデルを評価し、これらの機能を改善するためのデータセット生成手法を提案し、ベンチマーク性能に対する教師付き微調整(SFT)の影響を測定し、調整されたモデルはベースモデルよりも広いマージンで性能を向上する。
関連論文リスト
- ET-Agent: Incentivizing Effective Tool-Integrated Reasoning Agent via Behavior Calibration [68.89572566071575]
ETAgentはエージェントのツール使用行動を調整するためのトレーニングフレームワークである。
過誤行動パターンを最適行動に段階的に校正するように設計されている。
論文 参考訳(メタデータ) (2026-01-11T11:05:26Z) - Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation [87.47155146067962]
数百のタスクで並列評価をオーケストレーションする,標準化された評価ハーネスを提供する。
モデル、足場、ベンチマークにまたがる3次元解析を行う。
私たちの分析では、ほとんどのランで精度を低下させる高い推論努力など、驚くべき洞察が示されています。
論文 参考訳(メタデータ) (2025-10-13T22:22:28Z) - Runaway is Ashamed, But Helpful: On the Early-Exit Behavior of Large Language Model-based Agents in Embodied Environments [54.67512489842682]
大規模言語モデル(LLM)は、複雑な実施環境において、強力な計画と意思決定能力を示す。
LLMをベースとしたエージェントの早期退避行動を探究する第一歩を踏み出す。
論文 参考訳(メタデータ) (2025-05-23T08:23:36Z) - Infrastructure for AI Agents [3.373674048991415]
我々は,技術システムとAIエージェント以外の共有プロトコルという,テクスチャファジェントインフラストラクチャの概念を提案する。
1)特定のエージェント,そのユーザ,あるいは他のアクターに行動をもたらすこと,2)エージェントのインタラクションを形成すること,3)エージェントから有害なアクションを検出して治療すること,である。
論文 参考訳(メタデータ) (2025-01-17T10:58:12Z) - UPC Sentinel: An Accurate Approach for Detecting Upgradeability Proxy Contracts in Ethereum [8.328441582683034]
ブロックチェーンプラットフォーム上で動作するソフトウェアアプリケーションは、DAppsとして知られている。DAppsはスマートコントラクトを使用して構築されており、デプロイ後に不変である。
UPC Sentinelは,スマートコントラクトバイトコードの静的および動的解析を用いて,アクティブなUPCを正確に検出する新しい3層アルゴリズムである。
論文 参考訳(メタデータ) (2024-12-31T23:09:06Z) - $τ$-bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains [43.43344028212623]
$tau$-benchは、ユーザと言語エージェント間の動的会話をエミュレートするベンチマークである。
我々は、会話の最後にデータベースの状態と注釈付きゴール状態を比較する、効率的で忠実な評価プロセスを採用する。
論文 参考訳(メタデータ) (2024-06-17T19:33:08Z) - Agent-FLAN: Designing Data and Methods of Effective Agent Tuning for Large Language Models [56.00992369295851]
オープンソースのLarge Language Models(LLM)は、さまざまなNLPタスクで大きな成功を収めていますが、エージェントとして振る舞う場合、それでもAPIベースのモデルよりもはるかに劣っています。
本稿では,(1) エージェント学習コーパスを,(1) エージェント学習データの分布から大きくシフトするエージェント推論と,(2) エージェントタスクが必要とする能力に異なる学習速度を示すエージェント学習コーパスと,(3) 幻覚を導入することでエージェント能力を改善する際の副作用について述べる。
本稿では,エージェントのためのFLANモデルを効果的に構築するためのエージェントFLANを提案する。
論文 参考訳(メタデータ) (2024-03-19T16:26:10Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Knowledge-based Reasoning and Learning under Partial Observability in Ad
Hoc Teamwork [4.454557728745761]
本稿では,非単調な論理的推論に基づいてアドホックエージェントの動作を決定するアーキテクチャを提案する。
これは、他のエージェントの行動を予測するモデルのオンライン選択、適応、学習をサポートする。
単純なシナリオと複雑なシナリオの両方において、アーキテクチャのパフォーマンスが、最先端のデータ駆動ベースラインと同等か、あるいは同等であることを示す。
論文 参考訳(メタデータ) (2023-06-01T15:21:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。