Fugu-MT 論文翻訳(概要): ConsistencyChecker: Tree-based Evaluation of LLM Generalization Capabilities

論文の概要: ConsistencyChecker: Tree-based Evaluation of LLM Generalization Capabilities

arxiv url: http://arxiv.org/abs/2506.12376v2
Date: Tue, 17 Jun 2025 08:11:59 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-18 13:08:30.103272
Title: ConsistencyChecker: Tree-based Evaluation of LLM Generalization Capabilities
Title（参考訳）: ConsistencyChecker: LLM一般化能力のツリーベース評価
Authors: Zhaochen Hong, Haofei Yu, Jiaxuan You,
Abstract要約: 大きな言語モデル(LLM)の一貫性を評価することは、信頼性を確保するために不可欠である。従来の自己整合性メソッドは、自然言語の微妙な意味的変化や、コードや方程式の関数的シフトを見逃すことが多い。可逆変換のシーケンスによる一貫性の測定を目的とした木に基づく評価フレームワークであるConsistencyCheckerを提案する。
参考スコア（独自算出の注目度）: 14.13459302125202
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Evaluating consistency in large language models (LLMs) is crucial for ensuring reliability, particularly in complex, multi-step interactions between humans and LLMs. Traditional self-consistency methods often miss subtle semantic changes in natural language and functional shifts in code or equations, which can accumulate over multiple transformations. To address this, we propose ConsistencyChecker, a tree-based evaluation framework designed to measure consistency through sequences of reversible transformations, including machine translation tasks and AI-assisted programming tasks. In our framework, nodes represent distinct text states, while edges correspond to pairs of inverse operations. Dynamic and LLM-generated benchmarks ensure a fair assessment of the model's generalization ability and eliminate benchmark leakage. Consistency is quantified based on similarity across different depths of the transformation tree. Experiments on eight models from various families and sizes show that ConsistencyChecker can distinguish the performance of different models. Notably, our consistency scores-computed entirely without using WMT paired data-correlate strongly (r > 0.7) with WMT 2024 auto-ranking, demonstrating the validity of our benchmark-free approach. Our implementation is available at: https://github.com/ulab-uiuc/consistencychecker.
Abstract（参考訳）: 大規模言語モデル(LLM)の整合性を評価することは信頼性を確保するために重要であり、特に人間とLLM間の複雑な多段階の相互作用において重要である。従来の自己整合性メソッドは、自然言語の微妙な意味的変化や、コードや方程式の関数的シフトを見逃すことが多い。これを解決するために,機械翻訳タスクやAI支援プログラミングタスクなど,可逆変換のシーケンスを通じて一貫性を測定するために設計されたツリーベースの評価フレームワークであるConsistencyCheckerを提案する。我々のフレームワークでは、ノードは異なるテキスト状態を表すが、エッジは逆操作のペアに対応する。動的およびLCM生成ベンチマークは、モデルの一般化能力を公平に評価し、ベンチマークリークを排除する。整合性は変換木の異なる深さにわたる類似性に基づいて定量化される。さまざまなファミリーやサイズの8つのモデルに対する実験は、ConsistencyCheckerが異なるモデルのパフォーマンスを区別できることを示している。特に、WMTペアデータ相関を強く(r > 0.7)、WMT 2024を自動ランク付けせずに完全にスコアを計算し、ベンチマークフリーアプローチの有効性を実証した。私たちの実装は、https://github.com/ulab-uiuc/consistencychecker.comで利用可能です。

関連論文リスト

CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文参考訳（メタデータ） (2025-08-05T17:55:24Z)
A Distance Metric for Mixed Integer Programming Instances [0.0]
Mixed-integer linear programming (MILP)は、様々な現実世界の問題に対処するための強力なツールである。既存の類似度メトリクスは、しばしばインスタンスクラスを識別する精度を欠いているか、ラベル付きデータに大きく依存している。本稿では,その数学的定式化から直接導出したMILPインスタンスに対する最初の数学的距離測定について紹介する。
論文参考訳（メタデータ） (2025-07-15T07:55:09Z)
Test-Time Consistency in Vision Language Models [26.475993408532304]
VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。 MM-R3のような最近のベンチマークでは、最先端のVLMでさえ意味論的に等価な入力にまたがって分岐予測をもたらすことが強調されている。教師付き再学習なしにセマンティックな一貫性を高める,シンプルで効果的なテスト時間一貫性フレームワークを提案する。
論文参考訳（メタデータ） (2025-06-27T17:09:44Z)
PairBench: Are Vision-Language Models Reliable at Comparing What They See? [16.49586486795478]
タスクに応じて大規模視覚言語モデル(VLM)を自動評価するためのフレームワークであるPairBenchを提案する。提案手法では,人間アノテーションとの整合性,ペアオーダ間の整合性,分散のスムーズさ,プロンプトによる可制御性という,信頼性の高い比較のための4つの重要な指標を導入している。私たちの分析では、モデルがすべての指標を一貫して上回り、それぞれが異なる強みと弱みを示すことは明らかです。
論文参考訳（メタデータ） (2025-02-21T04:53:11Z)
EquiBench: Benchmarking Large Language Models' Understanding of Program Semantics via Equivalence Checking [55.81461218284736]
EquiBenchは、大規模言語モデル(LLM)を評価するための新しいベンチマークである。 2つのプログラムが全ての可能な入力に対して同一の出力を生成するかどうかを決定する。 19の最先端LCMを評価し、最高の精度は63.8%と76.2%であり、これは50%のランダムベースラインよりわずかに高い。
論文参考訳（メタデータ） (2025-02-18T02:54:25Z)
Evaluating Semantic Variation in Text-to-Image Synthesis: A Causal Perspective [50.261681681643076]
本稿では,SemVarEffectとSemVarBenchというベンチマークを用いて,テキスト・画像合成における入力のセマンティックな変化と出力の因果性を評価する。本研究は,T2I合成コミュニティによるヒューマンインストラクション理解の探索を促進する効果的な評価枠組みを確立する。
論文参考訳（メタデータ） (2024-10-14T08:45:35Z)
Localizing Factual Inconsistencies in Attributable Text Generation [91.981439746404]
本稿では,帰属可能なテキスト生成における事実の不整合をローカライズするための新しい形式であるQASemConsistencyを紹介する。まず,人間のアノテーションに対するQASemConsistency法の有効性を示す。そこで我々は,局所的な事実の不整合を自動的に検出するいくつかの手法を実装した。
論文参考訳（メタデータ） (2024-10-09T22:53:48Z)
Contrastive Instruction Tuning [61.97704869248903]
意味論的に等価な命令-インスタンスペア間の類似性を最大化するために、コントラスト命令チューニングを提案する。 PromptBenchベンチマークの実験によると、CoINはLLMの頑健さを一貫して改善し、文字、単語、文、意味のレベルを平均して2.5%の精度で変化させる。
論文参考訳（メタデータ） (2024-02-17T00:09:32Z)
Enhancing Large Language Models in Coding Through Multi-Perspective Self-Consistency [127.97467912117652]
大規模言語モデル(LLM)は、コード生成において顕著な能力を示した。しかし、単一の試みで正しいソリューションを生成することは依然として課題である。本稿では,MPSC(Multi-Perspective Self-Consistency)フレームワークを提案する。
論文参考訳（メタデータ） (2023-09-29T14:23:26Z)
Semantic Consistency for Assuring Reliability of Large Language Models [9.040736633675136]
大規模言語モデル(LLM)は、様々な自然言語タスクに対して顕著な流布と能力を示す。セマンティック一貫性の一般的な尺度を導入し、様々なLLMの性能を評価するために、この指標の複数バージョンを定式化する。本稿では,Ask-to-Choose (A2C) と呼ばれる新しいプロンプト戦略を提案する。
論文参考訳（メタデータ） (2023-08-17T18:11:33Z)
Measuring Reliability of Large Language Models through Semantic Consistency [3.4990427823966828]
我々は,オープンなテキスト出力の比較を可能にする意味的一貫性の尺度を開発した。我々は,この整合度尺度のいくつかのバージョンを実装し,パラフレーズ化した質問に対して,複数のPLMの性能を評価する。
論文参考訳（メタデータ） (2022-11-10T20:21:07Z)
Robust Learning Through Cross-Task Consistency [92.42534246652062]
クロスタスク整合性を用いた学習向上のための,広く適用可能な完全計算手法を提案する。クロスタスク一貫性による学習は,より正確な予測と,アウト・オブ・ディストリビューション・インプットの一般化につながることを観察する。
論文参考訳（メタデータ） (2020-06-07T09:24:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。