論文の概要: Evaluating Spatiotemporal Consistency in Automatically Generated Sewing Instructions
- arxiv url: http://arxiv.org/abs/2509.24792v1
- Date: Mon, 29 Sep 2025 13:46:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.019771
- Title: Evaluating Spatiotemporal Consistency in Automatically Generated Sewing Instructions
- Title(参考訳): 自動作画指導における時空間整合性の評価
- Authors: Luisa Geiger, Mareike Hartmann, Michael Sullivan, Alexander Koller,
- Abstract要約: 本稿では,縫製指示の音質を評価するための指標を提案する。
提案手法は,手動によるアノテートエラー数と人間の品質評価との相関関係が良好であることを示す。
- 参考スコア(独自算出の注目度): 51.362705361059795
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose a novel, automatic tree-based evaluation metric for LLM-generated step-by-step assembly instructions, that more accurately reflects spatiotemporal aspects of construction than traditional metrics such as BLEU and BERT similarity scores. We apply our proposed metric to the domain of sewing instructions, and show that our metric better correlates with manually-annotated error counts as well as human quality ratings, demonstrating our metric's superiority for evaluating the spatiotemporal soundness of sewing instructions. Further experiments show that our metric is more robust than traditional approaches against artificially-constructed counterfactual examples that are specifically constructed to confound metrics that rely on textual similarity.
- Abstract(参考訳): 本稿では,従来のBLEUやBERTの類似度スコアよりも,構成の時空間的側面をより正確に反映する,LCM生成したステップバイステップの組立命令のための,新しいツリーベース評価指標を提案する。
提案手法を縫製指示の領域に適用し,手作業による注記誤り数と人的品質評価との相関性を示すとともに,縫製指示の時空間的健全性を評価するための指標の優位性を示す。
さらなる実験により、我々のメトリクスは、テキストの類似性に依存するメトリクスを分離するために特別に構築された、人工的に構築された反実例に対する従来のアプローチよりも堅牢であることが示された。
関連論文リスト
- RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - SemScore: Automated Evaluation of Instruction-Tuned LLMs based on
Semantic Textual Similarity [3.3162484539136416]
本稿では,SemScoreと呼ばれる簡易な評価尺度を提案する。
意味的テキスト類似度(STS)を用いたモデル出力とゴールドターゲット応答の比較
提案したSemScore測定基準は,人間の評価と相関する点において,より複雑な評価指標よりも優れていることが判明した。
論文 参考訳(メタデータ) (2024-01-30T14:52:50Z) - INSTRUCTSCORE: Explainable Text Generation Evaluation with Finegrained
Feedback [80.57617091714448]
テキスト生成のための説明可能な評価指標であるInstructScoreを提案する。
LLaMAに基づいてテキスト評価基準を微調整し、生成されたテキストのスコアと人間の可読性診断レポートを生成する。
論文 参考訳(メタデータ) (2023-05-23T17:27:22Z) - Measuring the Measuring Tools: An Automatic Evaluation of Semantic
Metrics for Text Corpora [5.254054636427663]
テキストコーパス間の意味的類似性を比較する能力は、さまざまな自然言語処理アプリケーションにおいて重要である。
本稿では,コーパスレベルの意味的類似度指標の特性を評価するための,自動的かつ解釈可能な尺度を提案する。
論文 参考訳(メタデータ) (2022-11-29T14:47:07Z) - The Glass Ceiling of Automatic Evaluation in Natural Language Generation [60.59732704936083]
ステップバックして、既存の自動メトリクスと人的メトリクスのボディを比較して、最近の進歩を分析します。
古いものや新しいものといった自動メトリクスは、人間よりもずっと似ています。
論文 参考訳(メタデータ) (2022-08-31T01:13:46Z) - MetricBERT: Text Representation Learning via Self-Supervised Triplet
Training [26.66640112616559]
MetricBERTは、よく定義された類似度メトリックにテキストを埋め込むことを学ぶ。
MetricBERTは最先端の代替品よりも優れており、時にはかなりの差がある。
論文 参考訳(メタデータ) (2022-08-13T09:52:58Z) - Weisfeiler-Leman in the BAMBOO: Novel AMR Graph Metrics and a Benchmark
for AMR Graph Similarity [12.375561840897742]
従来の指標の強みを統一し,弱点を緩和する新しいAMR類似度指標を提案する。
具体的には、我々の新しいメトリクスは、コンテキスト化されたサブ構造にマッチし、ノード間のn:mアライメントを誘導することができる。
グラフベースMR類似度指標の実証評価を支援するために,オーバートオブジェクト(BAMBOO)に基づくAMRメトリクスのベンチマークを導入する。
論文 参考訳(メタデータ) (2021-08-26T17:58:54Z) - REAM$\sharp$: An Enhancement Approach to Reference-based Evaluation
Metrics for Open-domain Dialog Generation [63.46331073232526]
オープンドメイン対話システムにおける参照ベースのEvAluation Metricsの拡張手法を提案する。
予測モデルは、与えられた基準セットの信頼性を推定するように設計されている。
本稿では,その予測結果が参照集合の増大にどのように役立つかを示し,測定値の信頼性を向上させる。
論文 参考訳(メタデータ) (2021-05-30T10:04:13Z) - Towards Question-Answering as an Automatic Metric for Evaluating the
Content Quality of a Summary [65.37544133256499]
質問回答(QA)を用いて要約内容の質を評価する指標を提案する。
提案指標であるQAEvalの分析を通じて,QAに基づくメトリクスの実験的メリットを実証する。
論文 参考訳(メタデータ) (2020-10-01T15:33:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。