論文の概要: FARM: Field-Aware Resolution Model for Intelligent Trigger-Action Automation
- arxiv url: http://arxiv.org/abs/2601.15687v1
- Date: Thu, 22 Jan 2026 06:12:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.513441
- Title: FARM: Field-Aware Resolution Model for Intelligent Trigger-Action Automation
- Title(参考訳): FARM: インテリジェントトリガー・アクション自動化のためのフィールドアウェア・レゾリューションモデル
- Authors: Khusrav Badalov, Young Yoon,
- Abstract要約: 機能レベル設定の問題として,適切な材料間結合による完全アプレットの生成について検討する。
完全構成のアプレット自動生成のための2段階アーキテクチャであるFARM(Field-Aware Resolution Model)を提案する。
FARMは機能レベルでゴールド(ノイズ62%、ワンショット70%)で81%の関節精度を達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Trigger-Action Programming (TAP) platforms such as IFTTT and Zapier enable Web of Things (WoT) automation by composing event-driven rules across heterogeneous services. A TAP applet links a trigger to an action and must bind trigger outputs (ingredients) to action inputs (fields) to be executable. Prior work largely treats TAP as service-level prediction from natural language, which often yields non-executable applets that still require manual configuration. We study the function-level configuration problem: generating complete applets with correct ingredient-to-field bindings. We propose FARM (Field-Aware Resolution Model), a two-stage architecture for automated applet generation with full configuration. Stage 1 trains contrastive dual encoders with selective layer freezing over schema-enriched representations, retrieving candidates from 1,724 trigger functions and 1,287 action functions (2.2M possible trigger-action pairs). Stage 2 performs selection and configuration using an LLM-based multi-agent pipeline. It includes intent analysis, trigger selection, action selection via cross-schema scoring, and configuration verification. Agents coordinate through shared state and agreement-based selection. FARM achieves 81% joint accuracy on Gold (62% Noisy, 70% One-shot) at the function level, where both trigger and action functions must match the ground truth. For comparison with service-level baselines, we map functions to their parent services and evaluate at the service level. FARM reaches 81% joint accuracy and improves over TARGE by 23 percentage points. FARM also generates ingredient-to-field bindings, producing executable automation configurations.
- Abstract(参考訳): IFTTTやZapierといったTrigger-Action Programming(TAP)プラットフォームは、異種サービス間でイベント駆動型ルールを構成することで、Web of Things(WoT)の自動化を可能にする。
TAPアプレットはトリガーをアクションにリンクし、トリガー出力(インディエント)とアクション入力(フィールド)をバインドしなければならない。
以前の作業では、TAPを自然言語からのサービスレベルの予測として扱うことが多かった。
機能レベル設定の問題として,適切な材料間結合による完全アプレットの生成について検討する。
完全構成のアプレット自動生成のための2段階アーキテクチャであるFARM(Field-Aware Resolution Model)を提案する。
ステージ1は、スキーマに富んだ表現を凍結し、1,724のトリガー関数と1,287のアクション関数(2.2Mのトリガー-アクションペア)から候補を抽出する、選択的な層を持つ対照的な二重エンコーダを訓練する。
ステージ2はLLMベースのマルチエージェントパイプラインを使用して選択と構成を行う。
インテント分析、トリガー選択、クロススキーマスコアリングによるアクション選択、設定検証が含まれる。
エージェントは共有状態と合意に基づく選択を調整します。
FARMは機能レベルでゴールド(ノイズ62%、ワンショット70%)で81%の関節精度を達成する。
サービスレベルのベースラインと比較して、関数を親サービスにマップし、サービスレベルで評価します。
FARMは関節の精度81%に達し、TARGEよりも23ポイント向上している。
FARMはまた、材料間バインディングを生成し、実行可能な自動化構成を生成する。
関連論文リスト
- CorrSteer: Generation-Time LLM Steering via Correlated Sparse Autoencoder Features [1.5874067490843806]
提案するCorrSteerは,サンプルの正しさとSAEのアクティベーションを推論時に生成したトークンから関連付けて特徴を選択する。
我々の研究は、言語モデルアプリケーション間での自動SAEステアリングのための効果的でスケーラブルなアプローチとして相関ベースの選択を確立する。
論文 参考訳(メタデータ) (2025-08-18T00:01:42Z) - Evaluating LLMs on Sequential API Call Through Automated Test Generation [10.621357661774244]
StateGenは、シーケンシャルなAPIインタラクションを含む多様なコーディングタスクを生成するように設計された、自動化されたフレームワークである。
3つの代表的なシナリオにまたがる120の検証済みのテストケースを含むベンチマークであるStateEvalを構築します。
実験の結果、StateGenは挑戦的で現実的なAPI指向のタスクを効果的に生成できることを確認した。
論文 参考訳(メタデータ) (2025-07-13T03:52:51Z) - GTA1: GUI Test-time Scaling Agent [97.58177633084915]
グラフィカルユーザインタフェース(GUI)は、ユーザ命令をアクションプロポーザルに順次分解することで、プラットフォーム(例えばLinux)間で自律的にタスクを完了させる。
本稿では,前述の textbfGUI textbfTest-time Scaling textbfAgent,すなわち GTA1 の課題について検討する。
論文 参考訳(メタデータ) (2025-07-08T08:52:18Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z) - Pilot: Building the Federated Multimodal Instruction Tuning Framework [79.56362403673354]
本フレームワークは、視覚エンコーダとLCMのコネクタに「アダプタのアダプタ」の2つの段階を統合する。
ステージ1では視覚情報からタスク固有の特徴とクライアント固有の特徴を抽出する。
ステージ2では、クロスタスクインタラクションを実行するために、クロスタスクMixture-of-Adapters(CT-MoA)モジュールを構築します。
論文 参考訳(メタデータ) (2025-01-23T07:49:24Z) - ToolACE: Winning the Points of LLM Function Calling [139.07157814653638]
ToolACEは、正確で複雑で多様なツール学習データを生成するように設計された自動エージェントパイプラインである。
我々は、合成データに基づいてトレーニングされたモデルが、8Bパラメータだけで、バークレー・ファンクション・カリング・リーダーボード上で最先端のパフォーマンスを達成することを実証した。
論文 参考訳(メタデータ) (2024-09-02T03:19:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。