Fugu-MT 論文翻訳(概要): Evaluating Spatiotemporal Consistency in Automatically Generated Sewing Instructions

論文の概要: Evaluating Spatiotemporal Consistency in Automatically Generated Sewing Instructions

arxiv url: http://arxiv.org/abs/2509.24792v1
Date: Mon, 29 Sep 2025 13:46:27 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-30 22:32:20.019771
Title: Evaluating Spatiotemporal Consistency in Automatically Generated Sewing Instructions
Title（参考訳）: 自動作画指導における時空間整合性の評価
Authors: Luisa Geiger, Mareike Hartmann, Michael Sullivan, Alexander Koller,
Abstract要約: 本稿では,縫製指示の音質を評価するための指標を提案する。提案手法は,手動によるアノテートエラー数と人間の品質評価との相関関係が良好であることを示す。
参考スコア（独自算出の注目度）: 51.362705361059795
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we propose a novel, automatic tree-based evaluation metric for LLM-generated step-by-step assembly instructions, that more accurately reflects spatiotemporal aspects of construction than traditional metrics such as BLEU and BERT similarity scores. We apply our proposed metric to the domain of sewing instructions, and show that our metric better correlates with manually-annotated error counts as well as human quality ratings, demonstrating our metric's superiority for evaluating the spatiotemporal soundness of sewing instructions. Further experiments show that our metric is more robust than traditional approaches against artificially-constructed counterfactual examples that are specifically constructed to confound metrics that rely on textual similarity.
Abstract（参考訳）: 本稿では,従来のBLEUやBERTの類似度スコアよりも,構成の時空間的側面をより正確に反映する,LCM生成したステップバイステップの組立命令のための,新しいツリーベース評価指標を提案する。提案手法を縫製指示の領域に適用し,手作業による注記誤り数と人的品質評価との相関性を示すとともに,縫製指示の時空間的健全性を評価するための指標の優位性を示す。さらなる実験により、我々のメトリクスは、テキストの類似性に依存するメトリクスを分離するために特別に構築された、人工的に構築された反実例に対する従来のアプローチよりも堅牢であることが示された。

関連論文リスト

Evaluation of Instruction-Following Ability for Large Language Models on Story-Ending Generation [2.4889060833127665]
本稿では,大規模言語モデル(LLM)の物語生成の文脈における指示追従能力の評価に焦点をあてる。本稿では,機械読影理解モデル(MRC)を用いた自動評価パイプラインを提案する。
論文参考訳（メタデータ） (2024-06-24T06:53:36Z)
RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文参考訳（メタデータ） (2024-04-30T13:50:55Z)
SemScore: Automated Evaluation of Instruction-Tuned LLMs based on Semantic Textual Similarity [3.3162484539136416]
本稿では,SemScoreと呼ばれる簡易な評価尺度を提案する。意味的テキスト類似度(STS)を用いたモデル出力とゴールドターゲット応答の比較提案したSemScore測定基準は,人間の評価と相関する点において,より複雑な評価指標よりも優れていることが判明した。
論文参考訳（メタデータ） (2024-01-30T14:52:50Z)
INSTRUCTSCORE: Explainable Text Generation Evaluation with Finegrained Feedback [80.57617091714448]
テキスト生成のための説明可能な評価指標であるInstructScoreを提案する。 LLaMAに基づいてテキスト評価基準を微調整し、生成されたテキストのスコアと人間の可読性診断レポートを生成する。
論文参考訳（メタデータ） (2023-05-23T17:27:22Z)
ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文参考訳（メタデータ） (2022-12-15T15:52:39Z)
Measuring the Measuring Tools: An Automatic Evaluation of Semantic Metrics for Text Corpora [5.254054636427663]
テキストコーパス間の意味的類似性を比較する能力は、さまざまな自然言語処理アプリケーションにおいて重要である。本稿では,コーパスレベルの意味的類似度指標の特性を評価するための,自動的かつ解釈可能な尺度を提案する。
論文参考訳（メタデータ） (2022-11-29T14:47:07Z)
The Glass Ceiling of Automatic Evaluation in Natural Language Generation [60.59732704936083]
ステップバックして、既存の自動メトリクスと人的メトリクスのボディを比較して、最近の進歩を分析します。古いものや新しいものといった自動メトリクスは、人間よりもずっと似ています。
論文参考訳（メタデータ） (2022-08-31T01:13:46Z)
MetricBERT: Text Representation Learning via Self-Supervised Triplet Training [26.66640112616559]
MetricBERTは、よく定義された類似度メトリックにテキストを埋め込むことを学ぶ。 MetricBERTは最先端の代替品よりも優れており、時にはかなりの差がある。
論文参考訳（メタデータ） (2022-08-13T09:52:58Z)
Weisfeiler-Leman in the BAMBOO: Novel AMR Graph Metrics and a Benchmark for AMR Graph Similarity [12.375561840897742]
従来の指標の強みを統一し,弱点を緩和する新しいAMR類似度指標を提案する。具体的には、我々の新しいメトリクスは、コンテキスト化されたサブ構造にマッチし、ノード間のn:mアライメントを誘導することができる。グラフベースMR類似度指標の実証評価を支援するために,オーバートオブジェクト(BAMBOO)に基づくAMRメトリクスのベンチマークを導入する。
論文参考訳（メタデータ） (2021-08-26T17:58:54Z)
REAM$\sharp$: An Enhancement Approach to Reference-based Evaluation Metrics for Open-domain Dialog Generation [63.46331073232526]
オープンドメイン対話システムにおける参照ベースのEvAluation Metricsの拡張手法を提案する。予測モデルは、与えられた基準セットの信頼性を推定するように設計されている。本稿では,その予測結果が参照集合の増大にどのように役立つかを示し,測定値の信頼性を向上させる。
論文参考訳（メタデータ） (2021-05-30T10:04:13Z)
Towards Question-Answering as an Automatic Metric for Evaluating the Content Quality of a Summary [65.37544133256499]
質問回答(QA)を用いて要約内容の質を評価する指標を提案する。提案指標であるQAEvalの分析を通じて,QAに基づくメトリクスの実験的メリットを実証する。
論文参考訳（メタデータ） (2020-10-01T15:33:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。