論文の概要: Explainable Procedural Mistake Detection
- arxiv url: http://arxiv.org/abs/2412.11927v1
- Date: Mon, 16 Dec 2024 16:13:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 14:01:32.883366
- Title: Explainable Procedural Mistake Detection
- Title(参考訳): 説明可能な手続きミス検出
- Authors: Shane Storks, Itamar Bar-Yossef, Yayuan Li, Zheyuan Zhang, Jason J. Corso, Joyce Chai,
- Abstract要約: 手続き的誤り検出は、人間が手元のタスクをうまく実行したかどうかを分類する難題である。
我々は PMD を質問や回答の解説的な自己ダイアログにリキャストし、決定の証拠として機能する。
これらの結果から,オープンソースVLMは,この課題に対処する一方で,精度,コヒーレンス,ダイアログの効率を大幅に向上できることがわかった。
- 参考スコア(独自算出の注目度): 27.40806437649092
- License:
- Abstract: Automated task guidance has recently attracted attention from the AI research community. Procedural mistake detection (PMD) is a challenging sub-problem of classifying whether a human user (observed through egocentric video) has successfully executed the task at hand (specified by a procedural text). Despite significant efforts in building resources and models for PMD, machine performance remains nonviable, and the reasoning processes underlying this performance are opaque. As such, we recast PMD to an explanatory self-dialog of questions and answers, which serve as evidence for a decision. As this reformulation enables an unprecedented transparency, we leverage a fine-tuned natural language inference (NLI) model to formulate two automated coherence metrics for generated explanations. Our results show that while open-source VLMs struggle with this task off-the-shelf, their accuracy, coherence, and dialog efficiency can be vastly improved by incorporating these coherence metrics into common inference and fine-tuning methods. Furthermore, our multi-faceted metrics can visualize common outcomes at a glance, highlighting areas for improvement.
- Abstract(参考訳): 自動タスクガイダンスは、最近AI研究コミュニティから注目を集めている。
手続き的誤り検出(英: Procedural mis detection、PMD)とは、人(自我中心のビデオを通して観察される)が手作業(手続き的テキストによって特定される)をうまく実行したかどうかを分類する挑戦的なサブプロブレムである。
PMDのリソースとモデルの構築に多大な努力を払っているにも関わらず、マシンのパフォーマンスは依然として実現不可能であり、このパフォーマンスの根底にある推論プロセスは不透明である。
そこで我々は, PMDを質問や回答の解説的な自己ダイアログにリキャストし, 意思決定の証拠となる。
この改定によって前例のない透明性が実現されるため、我々は、微調整された自然言語推論(NLI)モデルを用いて、生成された説明のための2つの自動コヒーレンスメトリクスを定式化する。
オープンソースVLMは,この課題に対処する一方で,これらのコヒーレンスメトリクスを共通推論や微調整手法に組み込むことで,精度,コヒーレンス,ダイアログ効率を大幅に向上できることを示す。
さらに、当社の多面的メトリクスは、一般的な成果を一目で視覚化し、改善すべき領域を強調します。
関連論文リスト
- Interactive Agents to Overcome Ambiguity in Software Engineering [61.40183840499932]
AIエージェントは、あいまいで不明確なユーザー指示に基づいて、タスクを自動化するためにますますデプロイされている。
不安定な仮定をし、明確な質問をしないことは、最適以下の結果につながる可能性がある。
対話型コード生成設定において,LLMエージェントが不明瞭な命令を処理する能力について,プロプライエタリモデルとオープンウェイトモデルを評価して検討する。
論文 参考訳(メタデータ) (2025-02-18T17:12:26Z) - Learning Task Representations from In-Context Learning [73.72066284711462]
大規模言語モデル(LLM)は、文脈内学習において顕著な習熟性を示している。
ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。
提案手法の有効性は,最後の隠れ状態の分布と最適に実行されたテキスト内学習モデルとの整合性に起因していることを示す。
論文 参考訳(メタデータ) (2025-02-08T00:16:44Z) - Reference-Guided Verdict: LLMs-as-Judges in Automatic Evaluation of Free-Form Text [12.879551933541345]
大きな言語モデル(LLM)は、人間のような会話を生成できる。
BLEUやROUGEのような従来のメトリクスは、このような生成出力の微妙な意味と文脈的な豊かさを捉えるには不十分である。
本稿では,複数のLSM-as-judgesを活用することで,評価プロセスを自動化する基準誘導型判定手法を提案する。
論文 参考訳(メタデータ) (2024-08-17T16:01:45Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - SeMAIL: Eliminating Distractors in Visual Imitation via Separated Models [22.472167814814448]
本稿では,SeMAIL(Separated Model-based Adversarial Imitation Learning)というモデルベース模倣学習アルゴリズムを提案する。
本手法は, 様々な視覚的制御タスクにおいて, 複雑な観察と, 専門的な観察から異なる背景を持つより困難なタスクにおいて, ほぼ専門的な性能を実現する。
論文 参考訳(メタデータ) (2023-06-19T04:33:44Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - Generating Fact Checking Explanations [52.879658637466605]
まだ欠けているパズルの重要なピースは、プロセスの最も精巧な部分を自動化する方法を理解することです。
本稿では、これらの説明を利用可能なクレームコンテキストに基づいて自動生成する方法について、最初の研究を行う。
この結果から,個別に学習するのではなく,両目標を同時に最適化することで,事実確認システムの性能が向上することが示唆された。
論文 参考訳(メタデータ) (2020-04-13T05:23:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。