論文の概要: Exploring and Testing Skill-Based Behavioral Profile Annotation: Human Operability and LLM Feasibility under Schema-Guided Execution
- arxiv url: http://arxiv.org/abs/2604.14843v1
- Date: Thu, 16 Apr 2026 10:25:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.840725
- Title: Exploring and Testing Skill-Based Behavioral Profile Annotation: Human Operability and LLM Feasibility under Schema-Guided Execution
- Title(参考訳): スキルに基づく行動プロファイルアノテーションの探索と検証--スキーマガイドによる実行下での人的操作性とLCMの実現可能性
- Authors: Yufeng Wu,
- Abstract要約: 振舞いプロファイル(BP)アノテーションは、複数の言語的次元を同時にコーディングする必要があるため、自動化が難しい。
スキルファイル駆動パイプラインを実装して,スキーマファイルや決定ルール,例を通じて,各機能を外部的に定義する。
オープンソースの失敗は、スキーマからスキルへの実行の問題に集中している。
- 参考スコア(独自算出の注目度): 2.545461559283292
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Behavioral Profile (BP) annotation is difficult to automate because it requires simultaneous coding across multiple linguistic dimensions. We treat BP annotation as a bundle of annotation skills rather than a single task and evaluate LLM-assisted BP annotation from this perspective. Using 3,134 concordance lines of 30 Chinese metaphorical color-term derivatives and a 14-feature BP schema, we implement a skill-file-driven pipeline in which each feature is externally defined through schema files, decision rules, and examples. Two human annotators completed a two-round schema-only protocol on a 300-instance validation subset, enabling BP skills to be classified as directly operable, recoverable under focused re-annotation, or structurally underspecified. GPT-5.4 and three locally deployable open-source models were then evaluated under the same setup. Results show that BP annotation is highly heterogeneous at the skill level: 5 skills are directly operable, 4 are recoverable after focused re-annotation, and 5 remain structurally underspecified. GPT-5.4 executes the retained skills with substantial reliability (accuracy = 0.678, \k{appa} = 0.665, weighted F1 = 0.695), but this feasibility is selective rather than global. Human and GPT difficulty profiles are strongly aligned at the skill level (r = 0.881), but not at the instance level (r = 0.016) or lexical-item level (r = -0.142), a pattern we describe as shared taxonomy, independent execution. Pairwise agreement further suggests that GPT is better understood as an independent third skill voice than as a direct human substitute. Open-source failures are concentrated in schema-to-skill execution problems. These findings suggest that automatic annotation should be evaluated in terms of skill feasibility rather than task-level automation.
- Abstract(参考訳): 振舞いプロファイル(BP)アノテーションは、複数の言語的次元を同時にコーディングする必要があるため、自動化が難しい。
我々は,BPアノテーションを単一タスクではなくアノテーションスキルのバンドルとして扱うとともに,この観点からLPM支援BPアノテーションを評価する。
3,134行の中国の比喩的カラー終端微分と14機能BPスキーマを用いて、各機能をスキーマファイル、決定ルール、例を通して外部的に定義するスキルファイル駆動パイプラインを実装した。
2人のアノテータが300インスタンスの検証サブセット上で2ラウンドのスキーマのみのプロトコルを完了し、BPスキルを直接操作可能、集中した再アノテーションの下で復元可能、あるいは構造的に過小評価されるようにした。
GPT-5.4と3つのローカルにデプロイ可能なオープンソースモデルは同じ設定で評価された。
BPアノテーションは,5つのスキルが直接操作可能であり,4つのスキルが集中的再アノテーションで回復可能であり,5つは構造的に不明確である。
GPT-5.4は、かなりの信頼性(精度: 0.678, \k{appa} = 0.665, 重み: F1 = 0.695)で保持されたスキルを実行するが、この実現性はグローバルではなく選択的である。
人間とGPTの難易度プロファイルはスキルレベル (r = 0.881) で強く一致しているが、インスタンスレベル (r = 0.016) や語彙レベル (r = -0.142) では一致しない。
ペアワイズ合意はさらに、GPTは直接の人間の代用としてよりも独立した第三のスキル音声として理解されていることを示唆している。
オープンソースの失敗は、スキーマからスキルへの実行の問題に集中している。
これらの結果から,自動アノテーションはタスクレベルの自動化よりも,スキルの実現可能性の観点から評価されるべきであることが示唆された。
関連論文リスト
- OpenSanctions Pairs: Large-Scale Entity Matching with LLMs [0.9131359219276399]
我々は,実世界の国際制裁アグリゲーションとアナリストの重複から派生した,大規模エンティティマッチングベンチマークOpenSanctions Pairsをリリースした。
データセットには、31か国で293の異種源にまたがる755,540のラベル付きペアが含まれている。
オフザシェルフ LLM は生産ルールベースのベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2026-02-24T06:25:49Z) - CEI: A Benchmark for Evaluating Pragmatic Reasoning in Language Models [0.28258700614488924]
実用的な推論は、大きな言語モデルでは依然として困難である。
我々は、LLMが現実的な複雑な発話をいかに曖昧にするかを評価するために、300の人間検証シナリオをCEIベンチマークで提示する。
データセットは、職場、家族、社会、サービス設定から引き出された5つの実用的サブタイプ(皮肉/匿名、混成信号、戦略的丁寧さ、受動的攻撃、偏向/ミスディレクション)をカバーしている。
論文 参考訳(メタデータ) (2026-02-14T08:31:19Z) - Contrastive Bi-Encoder Models for Multi-Label Skill Extraction: Enhancing ESCO Ontology Matching with BERT and Attention Mechanisms [0.0]
細密労働市場分析は、構造化されていない求人広告をESCOのような標準化されたスキルにマッピングすることにますます依存している。
本稿では,手動でラベル付けされたジョブ・アド・トレーニングデータを必要としないゼロショットスキル抽出フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-14T03:43:45Z) - Mind Reading or Misreading? LLMs on the Big Five Personality Test [1.3649494534428745]
本研究では,2進5因子モデル (BIG5) に基づくテキストから人格自動予測のための大規模言語モデル (LLM) を評価する。
オープンソースモデルは時々 GPT-4 や以前のベンチマークにアプローチするが、ゼロショットバイナリ設定で一貫した信頼性のある予測は得られない。
これらの結果から, 現状のLCMはAPPTにはまだ適していないこと, 迅速な設計, 特性フレーミング, 評価指標の慎重な調整が, 解釈可能な結果に不可欠であることが示唆された。
論文 参考訳(メタデータ) (2025-11-28T11:40:30Z) - OpenworldAUC: Towards Unified Evaluation and Optimization for Open-world Prompt Tuning [86.20909814421748]
現実世界のシナリオでは、事前のドメイン知識なしに入力を処理するモデルが必要です。
ペアのインスタンス比較による検出と分類を評価する指標であるOpenworldAUCを提案する。
オープンワールドシナリオにおける15のベンチマークの実験は、OpenworldAUCがOpenworldAUCや他のメトリクスでSOTAのパフォーマンスを達成することを示している。
論文 参考訳(メタデータ) (2025-05-08T12:31:40Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z) - ExtractGPT: Exploring the Potential of Large Language Models for Product Attribute Value Extraction [51.87391234815163]
電子商取引プラットフォームは、属性と値のペアという形で構造化された製品データを必要とする。
BERTベースの抽出法では,タスク固有の大量のトレーニングデータを必要とする。
本稿では,大規模言語モデル (LLM) を,より訓練的かつ堅牢な代替手段として活用することを検討する。
論文 参考訳(メタデータ) (2023-10-19T07:39:00Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。