Fugu-MT 論文翻訳(概要): An Axiomatic Study of the Evaluation of Enthymeme Decoding in Weighted Structured Argumentation

論文の概要: An Axiomatic Study of the Evaluation of Enthymeme Decoding in Weighted Structured Argumentation

arxiv url: http://arxiv.org/abs/2411.04555v1
Date: Thu, 07 Nov 2024 09:26:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:45.28193
Title: An Axiomatic Study of the Evaluation of Enthymeme Decoding in Weighted Structured Argumentation
Title（参考訳）: 重み付き構造アグメンテーションにおけるエンサイメムデコーディングの評価に関する公理的研究
Authors: Jonathan Ben-Naim, Victor David, Anthony Hunter,
Abstract要約: 本稿では,ある基準に対するデコードを評価することを目的とした基準尺度の概念を紹介する。このような測度を検証する必要があるので、公理と呼ばれるいくつかの望ましい性質を導入する。
参考スコア（独自算出の注目度）: 11.633929083694388
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: An argument can be seen as a pair consisting of a set of premises and a claim supported by them. Arguments used by humans are often enthymemes, i.e., some premises are implicit. To better understand, evaluate, and compare enthymemes, it is essential to decode them, i.e., to find the missing premisses. Many enthymeme decodings are possible. We need to distinguish between reasonable decodings and unreasonable ones. However, there is currently no research in the literature on "How to evaluate decodings?". To pave the way and achieve this goal, we introduce seven criteria related to decoding, based on different research areas. Then, we introduce the notion of criterion measure, the objective of which is to evaluate a decoding with regard to a certain criterion. Since such measures need to be validated, we introduce several desirable properties for them, called axioms. Another main contribution of the paper is the construction of certain criterion measures that are validated by our axioms. Such measures can be used to identify the best enthymemes decodings.
Abstract（参考訳）: 引数は、一連の前提とそれらによって支持されるクレームからなるペアとして見ることができます。人間によって用いられる論証は、しばしばエントロメム、すなわちいくつかの前提は暗黙的である。エントロメムをよりよく理解し、評価し、比較するためには、欠落した前提条件を見つけるためにそれらをデコードすることが不可欠である。多くのエントロメム復号が可能である。合理的な復号化と不合理な復号化を区別する必要があります。しかし、現在では『復号法』についての研究は行われていない。そこで我々は,この目的を達成するために,異なる研究領域に基づいて,復号化に関する7つの基準を導入する。次に,ある基準に対する復号化を評価することを目的として,基準尺度の概念を導入する。このような測度を検証する必要があるので、公理と呼ばれるいくつかの望ましい性質を導入する。この論文の主な貢献は、我々の公理によって検証される特定の基準尺度の構築である。このような措置は、最も優れたエントロメム復号法を特定するのに利用できる。

関連論文リスト

Who Guards the Guardians? The Challenges of Evaluating Identifiability of Learned Representations [25.62598569130843]
データ生成プロセス(DGP)とエンコーダの両方に関する仮定を暗黙的に符号化していることを示す。これらの仮定に違反すると、メトリクスは誤って特定され、体系的な偽陽性と偽陰性を生成する。本稿では,DGP仮定をエンコーダ幾何から分離した分類法を導入し,既存のメトリクスの妥当性ドメインを特徴付けるとともに,再現性のあるストレステストと比較のための評価スイートをリリースする。
論文参考訳（メタデータ） (2026-02-27T18:50:13Z)
Identifying & Interactively Refining Ambiguous User Goals for Data Visualization Code Generation [48.63200319578052]
本研究では,この課題に現れるあいまいさの分類法を開発し,それらを定量化するための指標を提案する。我々の研究は、マルチターン対話が曖昧さを減らし、ユーザ目標の整合性を高めてコード精度を向上させる方法についても検討している。
論文参考訳（メタデータ） (2025-10-10T13:44:40Z)
EvalAgent: Discovering Implicit Evaluation Criteria from the Web [82.82096383262068]
EvalAgentは、ニュアンスとタスク固有の基準を自動的に発見するように設計されたフレームワークである。 EvalAgentは、さまざまな長期評価基準を提案するために、専門家が作成したオンラインガイダンスをマイニングしている。我々の実験では、EvalAgentが生み出す基準は暗黙的だが具体的であることが示されている。
論文参考訳（メタデータ） (2025-04-21T16:43:50Z)
CodeCriticBench: A Holistic Code Critique Benchmark for Large Language Models [97.18215355266143]
本稿では,Large Language Models (LLMs) のコード批判ベンチマークであるCodeCriticBenchを紹介する。具体的には、CodeCriticBenchには2つの主要なコードタスク(コード生成とコードQA)が含まれています。さらに、評価プロトコルには、基本的な批評評価と、異なる特性に対する高度な批評評価が含まれる。
論文参考訳（メタデータ） (2025-02-23T15:36:43Z)
A Closer Look at Classification Evaluation Metrics and a Critical Reflection of Common Evaluation Practice [6.091702876917282]
分類システムは数え切れないほど多くの論文で評価されている。しかし,評価の実践がしばしば誤りであることがわかった。多くの研究は、いわゆる「マクロ」メトリクスを使ってシステムをランク付けするが、そのようなメトリクスから何を期待するかを明確には示していない。
論文参考訳（メタデータ） (2024-04-25T18:12:43Z)
Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。本稿では,基準自由度に欠陥があるかどうかを考察する。 GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文参考訳（メタデータ） (2024-02-18T12:36:23Z)
Normative Conditional Reasoning as a Fragment of HOL [0.0]
本稿では(参照に基づく)条件付き規範推論の機械化について論じる。我々の焦点は条件付き義務のためのAqvistのシステムEとその拡張である。フレームワークの2つの可能性について検討する。
論文参考訳（メタデータ） (2023-08-21T12:47:30Z)
GRACE: Discriminator-Guided Chain-of-Thought Reasoning [75.35436025709049]
本稿では, 正しい推論手順を導出するために, GRACE (CorrectnEss Discriminator) を用いたチェーン・オブ・シークレット・リAsoningを提案する。 GRACEは、正しいステップと間違ったステップに対して対照的な損失で訓練された判別器を採用しており、復号時に次のステップ候補を採点するために使用される。
論文参考訳（メタデータ） (2023-05-24T09:16:51Z)
ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文参考訳（メタデータ） (2022-12-15T15:52:39Z)
Language Model Decoding as Likelihood-Utility Alignment [54.70547032876017]
モデルの有効性がタスク固有の実用性の概念とどのように一致しているかについて、暗黙の仮定に基づいて、デコード戦略をグループ化する分類法を導入する。具体的には、様々なタスクの集合における予測の可能性と有用性の相関を解析することにより、提案された分類を裏付ける最初の実証的証拠を提供する。
論文参考訳（メタデータ） (2022-10-13T17:55:51Z)
Conservation laws and quantum error correction: towards a generalised matching decoder [2.1756081703276]
原型量子低密度パリティチェック符号である表面符号の復号アルゴリズムについて検討する。デコーダは、表面符号安定化素子間の物質化された対称性によって生じる基盤構造を利用する。本研究では,特定の特性を持つ符号に対して,最小重み付き完全整合デコーダを構築する方式を提案する。
論文参考訳（メタデータ） (2022-07-13T18:00:00Z)
Understanding Metrics for Paraphrasing [13.268278150775]
本稿では, パラフレーズの品質を, 精度, ノベルティ, フラエンシの次元に沿って測定するために, 新規な指標であるROUGE_P$を提案する。優れたパラフレーズの生成と評価に何が必要なのかをより深く理解するために、メトリクスのレンズからのパラフレーズモデルの微調整と生成について検討する。
論文参考訳（メタデータ） (2022-05-26T03:03:16Z)
Learning Symbolic Rules for Reasoning in Quasi-Natural Language [74.96601852906328]
我々は,ルールを手作業で構築することなく,自然言語入力で推論できるルールベースシステムを構築した。本稿では,形式論理文と自然言語文の両方を表現可能な"Quasi-Natural"言語であるMetaQNLを提案する。提案手法は,複数の推論ベンチマークにおける最先端の精度を実現する。
論文参考訳（メタデータ） (2021-11-23T17:49:00Z)
CodeBLEU: a Method for Automatic Evaluation of Code Synthesis [57.87741831987889]
コード合成の分野では、一般的に使用される評価基準はBLEUまたは完全精度である。我々はCodeBLEUと呼ばれる新しい自動評価指標を導入する。 n-gramマッチングにおけるBLEUの強度を吸収し、抽象構文木(AST)やデータフローによるコードセマンティクスを通じてコード構文を注入する。
論文参考訳（メタデータ） (2020-09-22T03:10:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。