論文の概要: A quest through interconnected datasets: lessons from highly-cited ICASSP papers
- arxiv url: http://arxiv.org/abs/2410.03676v1
- Date: Thu, 19 Sep 2024 14:25:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 20:48:16.546464
- Title: A quest through interconnected datasets: lessons from highly-cited ICASSP papers
- Title(参考訳): 相互接続型データセットによる探索--ICASSP論文からの教訓
- Authors: Cynthia C. S. Liem, Doğa Taşcılar, Andrew M. Demetriou,
- Abstract要約: 我々は,ICASSP(International Conference on Acoustics, Speech, and Signal Processing)において,トップ5の引用論文に関連するデータセットの利用状況について検討する。
この方法では、使用済みデータセットの起源を徹底的に分析し、しばしば公式論文で報告された以上の検索を行なわなければならない。
特に、より大きく、おそらく生成可能なAIモデルへの現在のプルでは、データ証明に対する説明責任の必要性に対する認識が高まっている。
- 参考スコア(独自算出の注目度): 5.973995274784385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As audio machine learning outcomes are deployed in societally impactful applications, it is important to have a sense of the quality and origins of the data used. Noticing that being explicit about this sense is not trivially rewarded in academic publishing in applied machine learning domains, and neither is included in typical applied machine learning curricula, we present a study into dataset usage connected to the top-5 cited papers at the International Conference on Acoustics, Speech, and Signal Processing (ICASSP). In this, we conduct thorough depth-first analyses towards origins of used datasets, often leading to searches that had to go beyond what was reported in official papers, and ending into unclear or entangled origins. Especially in the current pull towards larger, and possibly generative AI models, awareness of the need for accountability on data provenance is increasing. With this, we call on the community to not only focus on engineering larger models, but create more room and reward for explicitizing the foundations on which such models should be built.
- Abstract(参考訳): 音声機械学習の結果は社会的に影響力のあるアプリケーションに展開されるため、使用するデータの質や起源を把握できることが重要である。
応用機械学習分野の学術出版において、この意味を明示することは自明な報奨ではなく、典型的な機械学習カリキュラムには含まれていないことに気付き、ICASSP(International Conference on Acoustics, Speech and Signal Processing)において、トップ5に引用された論文に関連するデータセットの使用状況について研究する。
この論文では、使用済みデータセットの起源を徹底的に分析し、しばしば公式論文で報告されたものを超える検索を行ない、不明瞭または絡み合った起源に終止符を打つ。
特に、より大きく、おそらく生成可能なAIモデルへの現在のプルでは、データ証明に対する説明責任の必要性に対する認識が高まっている。
これによって私たちは,より大きなモデルをエンジニアリングするだけでなく,そのようなモデルを構築するべき基盤を明確にするための余地と報酬を,コミュニティに求めます。
関連論文リスト
- Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - ACLSum: A New Dataset for Aspect-based Summarization of Scientific
Publications [10.529898520273063]
ACLSumは、ドメインの専門家によって慎重に作成され、評価される新しい要約データセットである。
以前のデータセットとは対照的に、ACLSumは科学論文のマルチアスペクト要約を容易にする。
論文 参考訳(メタデータ) (2024-03-08T13:32:01Z) - Large Models for Time Series and Spatio-Temporal Data: A Survey and
Outlook [95.32949323258251]
時系列データ、特に時系列データと時間時間データは、現実世界のアプリケーションで広く使われている。
大規模言語やその他の基礎モデルの最近の進歩は、時系列データマイニングや時間データマイニングでの使用の増加に拍車を掛けている。
論文 参考訳(メタデータ) (2023-10-16T09:06:00Z) - Deep Transfer Learning for Automatic Speech Recognition: Towards Better
Generalization [3.6393183544320236]
深層学習(DL)における音声認識の課題
大規模なトレーニングデータセットと高い計算とストレージリソースが必要です。
ディープトランスファーラーニング(DTL)はこれらの問題を克服するために導入された。
論文 参考訳(メタデータ) (2023-04-27T21:08:05Z) - Interactions in Information Spread [0.0]
ソーシャルネットワークにおける情報インタラクションの役割について検討する。
いくつかのソーシャルネットワークではインタラクションはまれである。
稀かつ短時間のインタラクションを共同でモデル化するフレームワークを設計する。
Reddit上で大規模なアプリケーションを実行し、このデータセットではインタラクションがマイナーな役割を担っていることに気付きました。
論文 参考訳(メタデータ) (2022-09-16T16:11:40Z) - On-Device Domain Generalization [93.79736882489982]
ドメインの一般化はデバイス上の機械学習アプリケーションにとって重要である。
知識蒸留がこの問題の解決の有力な候補であることがわかった。
本研究では,教師が配布外データをどのように扱えるかを学生に教えることを目的とした,配布外知識蒸留(OKD)という簡単なアイデアを提案する。
論文 参考訳(メタデータ) (2022-09-15T17:59:31Z) - A Survey of Machine Unlearning [56.017968863854186]
最近の規制では、要求に応じて、ユーザに関する個人情報をコンピュータシステムから削除する必要がある。
MLモデルは古いデータをよく記憶します。
機械学習に関する最近の研究は、この問題を完全に解決することはできなかった。
論文 参考訳(メタデータ) (2022-09-06T08:51:53Z) - Training Data Augmentation for Deep Learning Radio Frequency Systems [1.1199585259018459]
この研究は、トレーニング中に使用されるデータに焦点を当てている。
一般に、検査されたデータ型はそれぞれ、最終アプリケーションに有用なコントリビューションを持っている。
キャプチャーデータの利点にもかかわらず、ライブコレクションから生じる困難さとコストは、ピークパフォーマンスを達成するのに必要なデータ量を非現実的にすることが多い。
論文 参考訳(メタデータ) (2020-10-01T02:26:16Z) - Mining Implicit Relevance Feedback from User Behavior for Web Question
Answering [92.45607094299181]
本研究は,ユーザ行動と通過関連性との関連性を検討するための最初の研究である。
提案手法は,追加のラベル付きデータを使わずにパスランキングの精度を大幅に向上させる。
実際にこの研究は、グローバルな商用検索エンジンにおけるQAサービスの人為的ラベリングコストを大幅に削減する効果が証明されている。
論文 参考訳(メタデータ) (2020-06-13T07:02:08Z) - Machine Identification of High Impact Research through Text and Image
Analysis [0.4737991126491218]
本稿では,引用の可能性が低い論文から高い論文を自動的に分離するシステムを提案する。
本システムでは,文書全体の外観を推測する視覚的分類器と,コンテンツインフォームド決定のためのテキスト分類器の両方を用いる。
論文 参考訳(メタデータ) (2020-05-20T19:12:24Z) - DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a
Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。
利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。
関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2019-12-27T02:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。