Fugu-MT 論文翻訳(概要): Argument Quality Assessment in the Age of Instruction-Following Large Language Models

論文の概要: Argument Quality Assessment in the Age of Instruction-Following Large Language Models

arxiv url: http://arxiv.org/abs/2403.16084v1
Date: Sun, 24 Mar 2024 10:43:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-26 17:35:42.971672
Title: Argument Quality Assessment in the Age of Instruction-Following Large Language Models
Title（参考訳）: 大規模言語モデルを用いた指導期における課題品質評価
Authors: Henning Wachsmuth, Gabriella Lapesa, Elena Cabrio, Anne Lauscher, Joonsuk Park, Eva Maria Vecchi, Serena Villata, Timon Ziegenbein,
Abstract要約: そのような応用において重要なタスクは、議論の質を評価することである。我々は,質概念の多様性と認識の主観性を,議論品質評価における実質的な進歩への主要なハードルとみなす。インストラクション追従型大規模言語モデル(LLM)がコンテキストを越えた知識を活用できることは,より信頼性の高い評価を可能にしている,と我々は主張する。
参考スコア（独自算出の注目度）: 45.832808321166844
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The computational treatment of arguments on controversial issues has been subject to extensive NLP research, due to its envisioned impact on opinion formation, decision making, writing education, and the like. A critical task in any such application is the assessment of an argument's quality - but it is also particularly challenging. In this position paper, we start from a brief survey of argument quality research, where we identify the diversity of quality notions and the subjectiveness of their perception as the main hurdles towards substantial progress on argument quality assessment. We argue that the capabilities of instruction-following large language models (LLMs) to leverage knowledge across contexts enable a much more reliable assessment. Rather than just fine-tuning LLMs towards leaderboard chasing on assessment tasks, they need to be instructed systematically with argumentation theories and scenarios as well as with ways to solve argument-related problems. We discuss the real-world opportunities and ethical issues emerging thereby.
Abstract（参考訳）: 議論を巻き起こす問題に関する議論の計算処理は、意見形成、意思決定、執筆教育などへの影響が想定されているため、広範なNLP研究の対象となっている。このようなアプリケーションにおいて重要なタスクは、議論の質を評価することです。本稿では,議論品質評価の実質的な進歩に向けた主要なハードルとして,質概念の多様性と認識の主観性を識別する,議論品質研究の簡単な調査から始める。インストラクション追従型大規模言語モデル(LLM)がコンテキストを越えた知識を活用できることは,より信頼性の高い評価を可能にしている,と我々は主張する。評価タスクを追及するリーダーボードに向けて、LLMを微調整するだけでなく、議論理論やシナリオだけでなく、議論に関連する問題を解決する方法を体系的に指導する必要がある。そこで現実の機会と倫理的問題を議論する。

関連論文リスト

Why Reasoning Matters? A Survey of Advancements in Multimodal Reasoning (v1) [66.51642638034822]
推論は人間の知性の中心であり、多様なタスクにまたがる構造化された問題解決を可能にする。大規模言語モデル(LLM)の最近の進歩は、算術、常識、記号領域における推論能力を大幅に向上させてきた。本稿では,テキストおよびマルチモーダルLLMにおける推論手法の簡潔かつ洞察に富んだ概要について述べる。
論文参考訳（メタデータ） (2025-04-04T04:04:56Z)
Dancing with Critiques: Enhancing LLM Reasoning with Stepwise Natural Language Self-Critique [66.94905631175209]
我々は、段階的に自然言語の自己批判(PANEL)を行う新しい推論時間スケーリング手法を提案する。ステップレベルの探索プロセスのガイドとして、自己生成の自然言語批判をフィードバックとして採用している。このアプローチは、タスク固有の検証と関連するトレーニングオーバーヘッドの必要性を回避します。
論文参考訳（メタデータ） (2025-03-21T17:59:55Z)
The Future of Learning in the Age of Generative AI: Automated Question Generation and Assessment with Large Language Models [0.0]
大規模言語モデル(LLM)と生成AIは、自然言語処理(NLP)に革命をもたらした。本章では,自動質問生成と回答評価におけるLLMの変容の可能性について考察する。
論文参考訳（メタデータ） (2024-10-12T15:54:53Z)
Persuasiveness of Generated Free-Text Rationales in Subjective Decisions: A Case Study on Pairwise Argument Ranking [4.1017420444369215]
主観的回答を伴うタスクにおいて生成した自由文論理を解析する。我々は、現実世界のアプリケーションにとって大きな可能性を持つ、非常に主観的なタスクであるペアワイズ引数ランキングに焦点を当てる。以上の結果から,Llama2-70B-chat のオープンソース LLM は高い説得力のある合理化を実現できることが示唆された。
論文参考訳（メタデータ） (2024-06-20T00:28:33Z)
ConSiDERS-The-Human Evaluation Framework: Rethinking Human Evaluation for Generative Large Language Models [53.00812898384698]
生成型大規模言語モデル(LLM)の人間による評価は多分野にわたる作業であるべきだと論じる。認知バイアスが、流動的な情報や真理をいかに説明するか、そして、認識の不確実性が、Likertのような評価スコアの信頼性にどのように影響するかを強調します。本稿では,ConSiDERS-The-Human評価フレームワークを提案する。一貫性,スコーリング基準,差別化,ユーザエクスペリエンス,責任,スケーラビリティの6つの柱からなる。
論文参考訳（メタデータ） (2024-05-28T22:45:28Z)
Are Large Language Models Reliable Argument Quality Annotators? [7.966402845339264]
議論品質アノテータのプロキシとして,最先端の大規模言語モデル (LLM) を用いる可能性について検討する。以上の結果から,LSMは人間専門家と中程度に高い合意を得て,一貫したアノテーションを生成できることが示唆された。
論文参考訳（メタデータ） (2024-04-15T11:54:27Z)
Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。 ReasonEvalはメタ評価データセットのベースライン手法よりも一貫して優れていることを示す。我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文参考訳（メタデータ） (2024-04-08T17:18:04Z)
A Unifying Framework for Learning Argumentation Semantics [50.69905074548764]
Inductive Logic Programmingアプローチを用いて、抽象的および構造化された議論フレームワークのアクセシビリティセマンティクスを解釈可能な方法で学習する新しいフレームワークを提案する。提案手法は既存の議論解法よりも優れており,フォーマルな議論や人間と機械の対話の領域において,新たな研究の方向性が開けることになる。
論文参考訳（メタデータ） (2023-10-18T20:18:05Z)
How to Handle Different Types of Out-of-Distribution Scenarios in Computational Argumentation? A Comprehensive and Fine-Grained Field Study [59.13867562744973]
この研究は、オフ・オブ・ディストリビューション(OOD)シナリオにおけるLMの能力を体系的に評価する。このような学習パラダイムの有効性は,OODの種類によって異なることがわかった。具体的には、ICLはドメインシフトに優れているが、プロンプトベースの微調整はトピックシフトに勝っている。
論文参考訳（メタデータ） (2023-09-15T11:15:47Z)
Towards CausalGPT: A Multi-Agent Approach for Faithful Knowledge Reasoning via Promoting Causal Consistency in LLMs [60.244412212130264]
Causal-Consistency Chain-of-Thoughtは、基礎モデルの忠実さと因果性を強化するために、マルチエージェントコラボレーションを活用する。我々のフレームワークは、広範囲かつ包括的な評価を通じて、最先端の手法よりも大きな優位性を示す。
論文参考訳（メタデータ） (2023-08-23T04:59:21Z)
Investigating Fairness Disparities in Peer Review: A Language Model Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文参考訳（メタデータ） (2022-11-07T16:19:42Z)
Towards a Holistic View on Argument Quality Prediction [3.182597245365433]
議論の決定的な性質は、その強さまたは品質である。議論の強さを自動推定する作業は存在するが、その範囲は狭い。多様な領域にわたる議論品質推定の一般化能力,関連する議論マイニング課題との相互作用,および知覚された議論強度に対する感情の影響を評価する。
論文参考訳（メタデータ） (2022-05-19T18:44:23Z)
Learning From Revisions: Quality Assessment of Claims in Argumentation at Scale [12.883536911500062]
本研究は,同一クレームの異なるリビジョンを比較することにより,議論された側面に関わらずクレーム品質評価を行う。本稿では,どのリビジョンペアのクレームがよいかを評価し,クレームのすべてのバージョンを品質でランク付けする2つのタスクを提案する。
論文参考訳（メタデータ） (2021-01-25T17:32:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。