論文の概要: Rissanen Data Analysis: Examining Dataset Characteristics via
Description Length
- arxiv url: http://arxiv.org/abs/2103.03872v1
- Date: Fri, 5 Mar 2021 18:58:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-08 15:08:03.079625
- Title: Rissanen Data Analysis: Examining Dataset Characteristics via
Description Length
- Title(参考訳): Rissanen データ分析:記述長によるデータセット特性の検討
- Authors: Ethan Perez, Douwe Kiela, Kyunghyun Cho
- Abstract要約: 特定の能力が与えられたデータの正確なモデルを達成するのに役立つかどうかを判断する手法を提案する。
最小プログラム長は計算不可能であるため,ラベルの最小記述長(MDL)をプロキシとして推定する。
我々は、mdlの父にちなんで、rissanen data analysis (rda) と呼ぶ。
- 参考スコア(独自算出の注目度): 78.42578316883271
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a method to determine if a certain capability helps to achieve
an accurate model of given data. We view labels as being generated from the
inputs by a program composed of subroutines with different capabilities, and we
posit that a subroutine is useful if and only if the minimal program that
invokes it is shorter than the one that does not. Since minimum program length
is uncomputable, we instead estimate the labels' minimum description length
(MDL) as a proxy, giving us a theoretically-grounded method for analyzing
dataset characteristics. We call the method Rissanen Data Analysis (RDA) after
the father of MDL, and we showcase its applicability on a wide variety of
settings in NLP, ranging from evaluating the utility of generating subquestions
before answering a question, to analyzing the value of rationales and
explanations, to investigating the importance of different parts of speech, and
uncovering dataset gender bias.
- Abstract(参考訳): 特定の能力が与えられたデータの正確なモデルを達成するのに役立つかどうかを判断する手法を提案する。
我々は、ラベルを異なる機能を持つサブルーチンからなるプログラムによって入力から生成されるものとみなし、サブルーチンが有用であることと、それを呼び出す最小限のプログラムがそうでないプログラムよりも短いことを仮定する。
最小プログラム長は計算不可能であるため、ラベルの最小記述長 (MDL) をプロキシとして推定し、理論的に基礎的な解析手法を提案する。
我々はMDLの父に因んでRDA(Rissanen Data Analysis)と呼ぶこの手法を,質問に答える前にサブクエストの生成の有用性を評価すること,理性や説明の値を分析すること,発話の異なる部分の重要性を調査すること,データセットの性別バイアスを明らかにすることなど,NLPのさまざまな設定に適用可能であることを示す。
関連論文リスト
- LLMDFA: Analyzing Dataflow in Code with Large Language Models [8.92611389987991]
本稿では,コンパイル不要でカスタマイズ可能なデータフロー解析フレームワークLLMDFAを提案する。
問題をいくつかのサブタスクに分解し、一連の新しい戦略を導入する。
LLMDFAは平均87.10%の精度と80.77%のリコールを達成し、F1スコアを最大0.35に向上させた。
論文 参考訳(メタデータ) (2024-02-16T15:21:35Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - LLVM Static Analysis for Program Characterization and Memory Reuse
Profile Estimation [0.0]
本稿ではLLVMに基づく確率的静的解析手法を提案する。
プログラムの特徴を正確に予測し、プログラムの再利用距離プロファイルを推定する。
その結果,LLVMベースの動的コード解析ツールであるByflと比較して,アプリケーションの特性を正確に予測できることがわかった。
論文 参考訳(メタデータ) (2023-11-20T23:05:06Z) - Probing for Labeled Dependency Trees [25.723591566201343]
DepProbeは、埋め込みからラベル付きおよび指示付き依存関係解析木を抽出できる線形プローブである。
提案手法は13言語にまたがって,当時最高のソースツリーバンクを同定する。
論文 参考訳(メタデータ) (2022-03-24T10:21:07Z) - Parallel feature selection based on the trace ratio criterion [4.30274561163157]
本研究は,PFSTを用いた並列特徴選択という,新しい並列特徴選択手法を提案する。
提案手法は,Fisher's Discriminant Analysisで用いられるクラス分離性の尺度であるトレース基準を用いて特徴的有用性を評価する。
実験により,本手法は,比較対象の他の手法による時間的差のごく一部で,少数の特徴セットを生成できることが確認された。
論文 参考訳(メタデータ) (2022-03-03T10:50:33Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - Reducing Confusion in Active Learning for Part-Of-Speech Tagging [100.08742107682264]
アクティブラーニング(AL)は、データ選択アルゴリズムを使用して、アノテーションコストを最小限に抑えるために有用なトレーニングサンプルを選択する。
本研究では、特定の出力タグのペア間の混乱を最大に低減するインスタンスの選択問題について検討する。
提案するAL戦略は,他のAL戦略よりも有意差で優れている。
論文 参考訳(メタデータ) (2020-11-02T06:24:58Z) - Evaluating representations by the complexity of learning low-loss
predictors [55.94170724668857]
下流タスクの解決に使用されるデータの表現を評価することの問題点を考察する。
本稿では,関心のあるタスクにおける低損失を実現する表現の上に,予測器を学習する複雑性によって表現の質を測定することを提案する。
論文 参考訳(メタデータ) (2020-09-15T22:06:58Z) - Information-Theoretic Probing with Minimum Description Length [74.29846942213445]
我々は,最小記述長 (MDL) を持つ情報理論探索法である標準プローブの代替案を提案する。
MDL Probingでは、ラベルを予測するためのプローブのトレーニングが、データを効果的に送信するための教えとして再キャストされる。
これらの手法は結果に一致し、標準プローブよりも情報的かつ安定であることを示す。
論文 参考訳(メタデータ) (2020-03-27T09:35:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。