Fugu-MT 論文翻訳(概要): Rubrik's Cube: Testing a New Rubric for Evaluating Explanations on the CUBE dataset

論文の概要: Rubrik's Cube: Testing a New Rubric for Evaluating Explanations on the CUBE dataset

arxiv url: http://arxiv.org/abs/2503.23899v1
Date: Mon, 31 Mar 2025 09:48:59 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-01 19:35:57.337319
Title: Rubrik's Cube: Testing a New Rubric for Evaluating Explanations on the CUBE dataset
Title（参考訳）: Rubrikキューブ:CUBEデータセットによる説明評価のための新しいルーブリックのテスト
Authors: Diana Galvan-Sosa, Gabrielle Gaudeau, Pride Kavumba, Yunmeng Li, Hongyi gu, Zheng Yuan, Keisuke Sakaguchi, Paula Buttery,
Abstract要約: 本稿では、RubrikのCUBEについて紹介する。教育にインスパイアされたルーリックで、26k説明のデータセットで、後に品質アノテートを行う。 Rubrikを用いることで、説明はタスクと知覚の難しさの両方に影響されていることがわかった。低品質は、主に結束や単語選択よりも、LCMが生成した説明の簡潔さの欠如に起因する。
参考スコア（独自算出の注目度）: 14.64908019263248
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The performance and usability of Large-Language Models (LLMs) are driving their use in explanation generation tasks. However, despite their widespread adoption, LLM explanations have been found to be unreliable, making it difficult for users to distinguish good from bad explanations. To address this issue, we present Rubrik's CUBE, an education-inspired rubric and a dataset of 26k explanations, written and later quality-annotated using the rubric by both humans and six open- and closed-source LLMs. The CUBE dataset focuses on two reasoning and two language tasks, providing the necessary diversity for us to effectively test our proposed rubric. Using Rubrik, we find that explanations are influenced by both task and perceived difficulty. Low quality stems primarily from a lack of conciseness in LLM-generated explanations, rather than cohesion and word choice. The full dataset, rubric, and code will be made available upon acceptance.
Abstract（参考訳）: LLM(Large-Language Models)の性能とユーザビリティは、説明生成タスクでの使用を推進している。しかし、広く採用されているにもかかわらず、LCMの説明は信頼性が低いことが判明し、ユーザが悪い説明と善悪を区別することが難しくなった。この問題に対処するために、Rubrik氏のCUBEは、教育にインスパイアされたルーリックと26kの説明のデータセットで、人間と6つのオープンソースLCMによるルーリックを使用して、後に品質アノテートされた。 CUBEデータセットは2つの推論と2つの言語タスクに焦点を当てており、提案したルーリックを効果的にテストするのに必要な多様性を提供します。 Rubrikを用いることで、説明はタスクと知覚の難しさの両方に影響されていることがわかった。低品質は、主に結束や単語選択よりも、LCMが生成した説明の簡潔さの欠如に起因する。完全なデータセット、ルーブリック、コードは、受け入れ次第利用可能になる。

関連論文リスト

END: Early Noise Dropping for Efficient and Effective Context Denoising [60.24648712022382]
大規模言語モデル(LLM)は、幅広い自然言語処理タスクにおいて顕著な性能を示している。彼らはしばしば、出力品質を低下させる入力シーケンスにおける無関係またはノイズの文脈に気を散らされる。我々は,LLMの微調整を必要とせず,この問題を緩和するための新しい手法であるEarly Noise Dropping (textscEND)を紹介した。
論文参考訳（メタデータ） (2025-02-26T08:07:17Z)
Harnessing Large Language Models for Knowledge Graph Question Answering via Adaptive Multi-Aspect Retrieval-Augmentation [81.18701211912779]
本稿では,KG(Amar)フレームワーク上での適応型マルチアスペクト検索手法を提案する。この方法は、エンティティ、リレーション、サブグラフを含む知識を検索し、検索した各テキストを即時埋め込みに変換する。提案手法は2つの共通データセットに対して最先端の性能を達成した。
論文参考訳（メタデータ） (2024-12-24T16:38:04Z)
Bridging Context Gaps: Leveraging Coreference Resolution for Long Contextual Understanding [28.191029786204624]
大規模言語モデル(LLM)の性能向上を目的としたLong Question Coreference Adaptation (LQCA) 手法を提案する。このフレームワークは、長いコンテキストに合わせて調整されたコア参照解決に焦点を当てており、モデルが参照を効果的に識別し、管理することができる。私たちのコードはhttps://github.com/OceannTwT/LQCA.comで公開されています。
論文参考訳（メタデータ） (2024-10-02T15:39:55Z)
Integrating Large Language Models with Graph-based Reasoning for Conversational Question Answering [58.17090503446995]
我々は,テキストや知識グラフ,テーブル,インフォボックスといった異質な情報源から収集された証拠について,文脈における質問の理解と推論の課題を組み合わせた会話型質問応答タスクに着目する。提案手法はグラフ構造表現を用いて質問とその文脈に関する情報を集約する。
論文参考訳（メタデータ） (2024-06-14T13:28:03Z)
DeTriever: Decoder-representation-based Retriever for Improving NL2SQL In-Context Learning [19.93800175353809]
DeTrieverは、隠れた状態の重み付けを学習する新しいデモ検索フレームワークである。提案手法は1ショットNL2タスクにおける最先端のベースラインを大幅に上回る。
論文参考訳（メタデータ） (2024-06-12T06:33:54Z)
CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文参考訳（メタデータ） (2024-05-20T14:34:01Z)
Optimizing Language Model's Reasoning Abilities with Weak Supervision [48.60598455782159]
弱い教師付きベンチマークであるtextscPuzzleBen について,25,147 の複雑な質問,回答,人為的合理性からなる。データセットのユニークな側面は、10,000の未注釈の質問を含めることであり、LLMの推論能力を高めるために、より少ないスーパーサイズのデータを活用することができる。
論文参考訳（メタデータ） (2024-05-07T07:39:15Z)
XplainLLM: A QA Explanation Dataset for Understanding LLM Decision-Making [13.928951741632815]
大規模言語モデル(LLM)は、最近、自然言語理解タスクにおいて顕著な進歩を遂げた。本稿では、新しい説明データセットを導入することにより、このプロセスに透明性をもたらすことを検討する。我々のデータセットには12,102のQAEトリプルが含まれている。
論文参考訳（メタデータ） (2023-11-15T00:34:28Z)
DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文参考訳（メタデータ） (2023-10-31T04:37:57Z)
Towards LLM-guided Causal Explainability for Black-box Text Classifiers [16.36602400590088]
我々は,近年の大規模言語モデルにおける命令追従とテキスト理解機能を活用して,因果的説明可能性を高めることを目指している。提案する3ステップパイプラインは,既製のLCMを用いて,入力テキスト中の潜時的・未観測な特徴を識別する。我々は,複数のNLPテキスト分類データセットを用いたパイプライン実験を行い,興味深い,有望な結果を示した。
論文参考訳（メタデータ） (2023-09-23T11:22:28Z)
Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文参考訳（メタデータ） (2023-06-09T12:09:15Z)
Better patching using LLM prompting, via Self-Consistency [5.892272127970584]
自己整合性(Self-Consistency, S-C)は、問題の説明を生成する上で、エキサイティングで極めて優れたテクニックである。本稿では,修正作業のコミットログを説明として,S-C手法のプログラム修復への応用について述べる。我々は,MODITデータセット上で,プログラムの修正を促そうとする従来のアプローチを破って,最先端の成果を得た。
論文参考訳（メタデータ） (2023-05-31T18:28:46Z)
Explanation Selection Using Unlabeled Data for Chain-of-Thought Prompting [80.9896041501715]
非専門家によって書かれたオフ・ザ・シェルフの説明のように、タスクのために"チューニング"されていない説明は、中途半端なパフォーマンスをもたらす可能性がある。本稿では,ブラックボックス方式で説明拡散プロンプトを最適化する方法の課題に対処する。
論文参考訳（メタデータ） (2023-02-09T18:02:34Z)
LIREx: Augmenting Language Inference with Relevant Explanation [1.4780878458667916]
自然言語説明(NLE)は、アノテータがラベルをデータインスタンスに割り当てる際の有理性を識別するデータアノテーションの一種である。 nlesは人間の推論をより良く捉えているが、自然言語推論にはあまり役に立たない。我々は、論理型説明生成器とインスタンスセレクタの両方を組み込んで、関連するNLEのみを選択する新しいフレームワーク LIREx を提案する。
論文参考訳（メタデータ） (2020-12-16T18:49:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。