論文の概要: Core: Robust Factual Precision with Informative Sub-Claim Identification
- arxiv url: http://arxiv.org/abs/2407.03572v2
- Date: Tue, 15 Oct 2024 21:49:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:39:05.576824
- Title: Core: Robust Factual Precision with Informative Sub-Claim Identification
- Title(参考訳): Informative Sub-Claim Identification を用いたロバストFactual Precision
- Authors: Zhengping Jiang, Jingyu Zhang, Nathaniel Weir, Seth Ebner, Miriam Wanner, Kate Sanders, Daniel Khashabi, Anqi Liu, Benjamin Van Durme,
- Abstract要約: スコアを人工的にインフレーションするために、明らかまたは反復的なサブステートメントを追加することで、人気のあるメトリクスを操作できることを観察する。
この観察は、Coreと呼ばれる新しいカスタマイズ可能なプラグインとプレイのサブステート選択コンポーネントを動機付けます。
Coreによって強化された多くの一般的な事実精度指標が、幅広い知識領域においてかなり堅牢であることを示す。
- 参考スコア(独自算出の注目度): 44.36892500212747
- License:
- Abstract: Hallucinations pose a challenge to the application of large language models (LLMs) thereby motivating the development of metrics to evaluate factual precision. We observe that popular metrics using the Decompose-Then-Verify framework, such as \FActScore, can be manipulated by adding obvious or repetitive subclaims to artificially inflate scores. This observation motivates our new customizable plug-and-play subclaim selection component called Core, which filters down individual subclaims according to their uniqueness and informativeness. We show that many popular factual precision metrics augmented by Core are substantially more robust on a wide range of knowledge domains. We release an evaluation framework supporting easy and modular use of Core and various decomposition strategies, which we recommend adoption by the community. We also release an expansion of the FActScore biography dataset to facilitate further studies of decomposition-based factual precision evaluation.
- Abstract(参考訳): 幻覚は、大規模言語モデル(LLM)の適用に挑戦し、実際の精度を評価するためのメトリクスの開発を動機付けている。
FActScoreのようなDecompose-Then-Verifyフレームワークを用いた一般的なメトリクスは、スコアを人工的にインフレーションするために、明白または反復的なサブステートメントを追加することで操作可能であることを観察する。
この観察は、Coreと呼ばれる新しいカスタマイズ可能なプラグイン・アンド・プレイサブステート選択コンポーネントを動機付けます。
Coreによって強化された多くの一般的な事実精度指標が、幅広い知識領域においてかなり堅牢であることを示す。
私たちは、Coreの簡単でモジュール化された利用とさまざまな分解戦略をサポートする評価フレームワークをリリースし、コミュニティによる採用を推奨します。
また、FActScoreバイオグラフィーデータセットを拡張し、分解に基づく事実精度評価のさらなる研究を容易にする。
関連論文リスト
- UniArk: Improving Generalisation and Consistency for Factual Knowledge Extraction through Debiasing [19.2764682793582]
本研究は,言語モデルにおける事前学習目標と下流学習目標との相違点を示す。
汎用的で一貫した事実知識抽出のためのアダプタベースのフレームワークUniArkを提案する。
論文 参考訳(メタデータ) (2024-04-01T17:22:07Z) - Generating Benchmarks for Factuality Evaluation of Language Models [61.69950787311278]
FACTOR: Factual Assessment via Corpus Transformation, a scalable approach for LM factuality。
FACTORは、興味のある事実のコーパスをLMの正当性を評価するベンチマークに自動的に変換し、コーパスから真事実を生成する。
その結果, (i) ベンチマークスコアはモデルサイズに応じて増加し, LMが検索によって拡張されたときに向上する; (ii) ベンチマークスコアとパープレキシティは必ずしもモデルランキングに一致しない; (iii) パープレキシティとベンチマークスコアが一致しない場合, 後者はオープンエンド世代における事実性を反映する。
論文 参考訳(メタデータ) (2023-07-13T17:14:38Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - Adaptive Local-Component-aware Graph Convolutional Network for One-shot
Skeleton-based Action Recognition [54.23513799338309]
骨格に基づく行動認識のための適応的局所成分認識グラフ畳み込みネットワークを提案する。
我々の手法はグローバルな埋め込みよりも強力な表現を提供し、我々のモデルが最先端に到達するのに役立ちます。
論文 参考訳(メタデータ) (2022-09-21T02:33:07Z) - TRUE: Re-evaluating Factual Consistency Evaluation [29.888885917330327]
TRUE: 多様なタスクから既存のテキストの標準化されたコレクション上での、事実整合性メトリクスの総合的な研究である。
我々の標準化により、前述した相関よりも動作可能で解釈可能なサンプルレベルのメタ評価プロトコルが実現される。
さまざまな最先端のメトリクスと11のデータセットから、大規模NLIと質問生成と回答に基づくアプローチが、強力で相補的な結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2022-04-11T10:14:35Z) - Bayesian Attention Modules [65.52970388117923]
実装や最適化が容易な,スケーラブルな注目バージョンを提案する。
本実験は,提案手法が対応するベースラインに対して一貫した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2020-10-20T20:30:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。