Fugu-MT 論文翻訳(概要): OCDB: Revisiting Causal Discovery with a Comprehensive Benchmark and Evaluation Framework

論文の概要: OCDB: Revisiting Causal Discovery with a Comprehensive Benchmark and Evaluation Framework

arxiv url: http://arxiv.org/abs/2406.04598v1
Date: Fri, 7 Jun 2024 03:09:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-10 15:39:08.314105
Title: OCDB: Revisiting Causal Discovery with a Comprehensive Benchmark and Evaluation Framework
Title（参考訳）: OCDB: 包括的なベンチマークと評価フレームワークによる因果発見の再考
Authors: Wei Zhou, Hong Huang, Guowen Zhang, Ruize Shi, Kehan Yin, Yuanyuan Lin, Bang Liu,
Abstract要約: 因果発見は透明性と信頼性を改善するための有望なアプローチを提供する。本稿では,因果構造と因果効果の違いを評価するための指標を用いたフレキシブルな評価フレームワークを提案する。実データに基づくOpen Causal Discovery Benchmark (OCDB)を導入し、公正な比較を促進し、アルゴリズムの最適化を促進する。
参考スコア（独自算出の注目度）: 21.87740178652843
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have excelled in various natural language processing tasks, but challenges in interpretability and trustworthiness persist, limiting their use in high-stakes fields. Causal discovery offers a promising approach to improve transparency and reliability. However, current evaluations are often one-sided and lack assessments focused on interpretability performance. Additionally, these evaluations rely on synthetic data and lack comprehensive assessments of real-world datasets. These lead to promising methods potentially being overlooked. To address these issues, we propose a flexible evaluation framework with metrics for evaluating differences in causal structures and causal effects, which are crucial attributes that help improve the interpretability of LLMs. We introduce the Open Causal Discovery Benchmark (OCDB), based on real data, to promote fair comparisons and drive optimization of algorithms. Additionally, our new metrics account for undirected edges, enabling fair comparisons between Directed Acyclic Graphs (DAGs) and Completed Partially Directed Acyclic Graphs (CPDAGs). Experimental results show significant shortcomings in existing algorithms' generalization capabilities on real data, highlighting the potential for performance improvement and the importance of our framework in advancing causal discovery techniques.
Abstract（参考訳）: 大規模言語モデル(LLM)は、様々な自然言語処理タスクに優れていますが、解釈可能性や信頼性の課題は持続し、高い領域での使用が制限されています。因果発見は透明性と信頼性を改善するための有望なアプローチを提供する。しかしながら、現在の評価はしばしば一方的なものであり、解釈可能性のパフォーマンスに焦点を当てた評価が欠如している。さらに、これらの評価は合成データに依存し、実世界のデータセットの包括的な評価を欠いている。これらのことは、潜在的に見落とされがちな方法につながります。これらの課題に対処するために,LLMの解釈性向上に寄与する重要な属性である因果構造と因果効果の違いを評価するためのメトリクスを備えたフレキシブルな評価フレームワークを提案する。実データに基づくOpen Causal Discovery Benchmark (OCDB)を導入し、公正な比較を促進し、アルゴリズムの最適化を促進する。さらに、新しいメトリクスは、非方向のエッジを考慮し、方向付き非巡回グラフ(DAG)と完全部分的非巡回グラフ(CPDAG)の公正な比較を可能にする。実験結果から,実データ上での既存のアルゴリズムの一般化能力に重大な欠陥があり,因果発見技術の進歩における性能向上の可能性とフレームワークの重要性が示された。

関連論文リスト

Hallucination Detection in LLMs via Topological Divergence on Attention Graphs [64.74977204942199]
幻覚(Halucination)、すなわち、事実的に誤ったコンテンツを生成することは、大きな言語モデルにとって重要な課題である。本稿では,TOHA (Topology-based HAllucination detector) をRAG設定に導入する。
論文参考訳（メタデータ） (2025-04-14T10:06:27Z)
Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。 LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文参考訳（メタデータ） (2025-02-13T03:43:33Z)
The Vulnerability of Language Model Benchmarks: Do They Accurately Reflect True LLM Performance? [1.3810901729134184]
大きな言語モデル(LLM)は、真の言語理解と適応性を示すのに失敗しながら、標準化されたテストで優れている。 NLP評価フレームワークの系統的解析により,評価スペクトルにまたがる広範囲にわたる脆弱性が明らかになった。我々は、操作に抵抗し、データの汚染を最小限に抑え、ドメイン固有のタスクを評価する新しい評価方法の土台を築いた。
論文参考訳（メタデータ） (2024-12-02T20:49:21Z)
Optimisation Strategies for Ensuring Fairness in Machine Learning: With and Without Demographics [4.662958544712181]
本稿では,機械学習フェアネスにおけるオープンな問題に対処するための2つの形式的枠組みを紹介する。あるフレームワークでは、オペレータ値の最適化とmin-maxの目的が時系列問題の不正性に対処するために使用される。第2のフレームワークでは、一般的に使用されるデータセットにおいて、性別や人種などのセンシティブな属性を欠くという課題に対処する。
論文参考訳（メタデータ） (2024-11-13T22:29:23Z)
Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文参考訳（メタデータ） (2024-06-18T08:38:59Z)
Improving the Validity and Practical Usefulness of AI/ML Evaluations Using an Estimands Framework [2.4861619769660637]
本稿では,国際臨床治験ガイドラインを応用した評価フレームワークを提案する。このフレームワークは、評価の推測と報告のための体系的な構造を提供する。我々は、このフレームワークが根底にある問題、その原因、潜在的な解決策を明らかにするのにどのように役立つかを実証する。
論文参考訳（メタデータ） (2024-06-14T18:47:37Z)
A Correlation- and Mean-Aware Loss Function and Benchmarking Framework to Improve GAN-based Tabular Data Synthesis [2.2451409468083114]
本稿では,GAN(Generative Adversarial Network)のための新しい相関と平均認識損失関数を提案する。提案した損失関数は、真のデータ分布をキャプチャする既存の手法よりも統計的に有意な改善を示す。ベンチマークフレームワークは、強化された合成データ品質により、下流の機械学習タスクのパフォーマンスが向上することを示している。
論文参考訳（メタデータ） (2024-05-27T09:08:08Z)
Overcoming Pitfalls in Graph Contrastive Learning Evaluation: Toward Comprehensive Benchmarks [60.82579717007963]
本稿では,グラフコントラスト学習(GCL)手法の有効性,一貫性,全体的な能力をより正確に評価するために,拡張された評価フレームワークを提案する。
論文参考訳（メタデータ） (2024-02-24T01:47:56Z)
Reliability in Semantic Segmentation: Can We Use Synthetic Data? [69.28268603137546]
セマンティックセグメンテーションモデルの現実的信頼性を総合的に評価するために、合成データを具体的に生成する方法を初めて示す。この合成データは、事前訓練されたセグメンタの堅牢性を評価するために使用される。セグメンタのキャリブレーションとOOD検出能力を向上するために,我々のアプローチをどのように活用できるかを実証する。
論文参考訳（メタデータ） (2023-12-14T18:56:07Z)
Towards Robust Aspect-based Sentiment Analysis through Non-counterfactual Augmentations [40.71705332298682]
非事実的データ拡張に依存する代替手法を提案する。我々のアプローチはさらにABSAロバストネスベンチマークの新たな最先端を確立し、ドメイン間でうまく転送する。
論文参考訳（メタデータ） (2023-06-24T13:57:32Z)
On Certifying and Improving Generalization to Unseen Domains [87.00662852876177]
ドメインの一般化は、テスト時に遭遇した見知らぬドメインのパフォーマンスが高いモデルを学ぶことを目的としています。いくつかのベンチマークデータセットを使用して、DGアルゴリズムを包括的に評価することは困難である。我々は,任意のDG手法の最悪の性能を効率的に証明できる普遍的な認証フレームワークを提案する。
論文参考訳（メタデータ） (2022-06-24T16:29:43Z)
Doing Great at Estimating CATE? On the Neglected Assumptions in Benchmark Comparisons of Treatment Effect Estimators [91.3755431537592]
もっとも単純な設定であっても、無知性仮定に基づく推定は誤解を招く可能性があることを示す。異種処理効果評価のための機械学習ベンチマークデータセットを2つ検討した。ベンチマークデータセットの固有の特性が、他のものよりもいくつかのアルゴリズムを好んでいる点を強調します。
論文参考訳（メタデータ） (2021-07-28T13:21:27Z)
Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文参考訳（メタデータ） (2020-06-10T20:20:10Z)
Towards Comparability in Non-Intrusive Load Monitoring: On Data and Performance Evaluation [1.0312968200748116]
非侵入負荷モニタリング(Non-Intrusive Load Monitoring, NILM)は、家庭や工業施設のエネルギー消費に関する洞察を提供する一連の技術である。分解技術に関する進歩にもかかわらず、性能評価とコンパラビリティはオープンな研究課題である。 NILM関連研究において, プリプロセスやデータクリーニング方法, 統一性能報告の重要性, 負荷分散における複雑性対策の必要性について, 詳細な情報が必要であることが確認された。
論文参考訳（メタデータ） (2020-01-20T10:13:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。