このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20230121となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 計算の限界:アンハーモニック振動子 Ultimate Limits to Computation: Anharmonic Oscillator ( http://arxiv.org/abs/2103.03124v3 ) ライセンス: Link先を確認 | Fatemeh Khorasani, Mohammad Reza Tanhayi and Reza Pirmoradian | (参考訳) コンピュータの究極の速度の研究により、単純な無調波発振器における直交化の最小時間の問題を調べ、計算速度の上限を求める。
さらに,システムが一定の摂動を受ける場合の運用の複雑さの増大率について検討する。
パラメータの位相空間において、数値解析により、複雑性の速度が振る舞いを変えるという限界点を見つける。 Motivated by studies of ultimate speed of computers, we examine the question of minimum time of orthogonalization in a simple anharmonic oscillator and find an upper bound on the rate of computations. Furthermore, we investigate the growth rate of complexity of operation when the system undergoes a definite perturbation. At the phase space of the parameters, by numerical analysis, we find the critical point where beyond that the rate of complexity changes its behavior. | 翻訳日:2023-04-09 02:29:09 公開日:2023-01-21 |
# BERTとDeep Modelのストレステスト:イタリアの詩からの単語予測 Stress Test for BERT and Deep Models: Predicting Words from Italian Poetry ( http://arxiv.org/abs/2302.09303v1 ) ライセンス: Link先を確認 | Rodolfo Delmonte, Nicol\`o Busetto | (参考訳) 本稿では,詩文領域から抽出した多数のイタリア語文について,BERTを用いて一連の実験を行った。
これらの実験は、語彙、構文、意味の3つのレベルにおいて、予測可能性の非常に高いレベルの難しさの仮説に基づいて構成される。
この仮説を検証するために、前世紀前半のイタリア詩から抽出された合計900枚のトークンを80文でイタリア語版bertで実行しました。
そして、同じdlモデルで処理する前に、同じ文の正準および非正準バージョンを交互に処理した。
類似した構文構造を含むnewswireドメインの文を使用した。
その結果,dlモデルは非カノニカル構造の存在に非常に敏感であることがわかった。
しかし、DLは単語頻度や局所的非リテラルな構成効果にも非常に敏感である。
これは、関数対内容語、コロケーション対頻繁な単語句の予測が好まれることからも明らかである。
本稿では,BERTによる語彙外単語のサブワード単位の使用に焦点をあてた。 In this paper we present a set of experiments carried out with BERT on a number of Italian sentences taken from poetry domain. The experiments are organized on the hypothesis of a very high level of difficulty in predictability at the three levels of linguistic complexity that we intend to monitor: lexical, syntactic and semantic level. To test this hypothesis we ran the Italian version of BERT with 80 sentences for a total of 900 tokens mostly extracted from Italian poetry of the first half of last century. Then we alternated canonical and noncanonical versions of the same sentence before processing them with the same DL model. We used then sentences from the newswire domain containing similar syntactic structures. The results show that the DL model is highly sensitive to presence of noncanonical structures. However, DLs are also very sensitive to word frequency and to local non literal meaning compositional effect. This is also apparent by the preference for predicting function vs content words, collocates vs infrequent word phrases. In the paper, we focused our attention on the use of subword units done by BERT for out of vocabulary words. | 翻訳日:2023-02-26 14:44:41 公開日:2023-01-21 |
# 構成可能な木図(CTグラフ) : 生涯強化学習のための部分観測可能および遠位報酬環境における測定可能な問題 The configurable tree graph (CT-graph): measurable problems in partially observable and distal reward environments for lifelong reinforcement learning ( http://arxiv.org/abs/2302.10887v1 ) ライセンス: Link先を確認 | Andrea Soltoggio, Eseoghene Ben-Iwhiwhu, Christos Peridis, Pawel Ladosz, Jeffery Dick, Praveen K. Pilly, Soheil Kolouri | (参考訳) 本稿では,(1)可観測度の可変度(非マルコフ観測),(2)遠位とスパース報酬,(3)可変および階層的報酬構造,(4)多重タスク生成,(5)可変問題複雑性といった特徴を持つ強化学習アルゴリズムの形式的かつ透明な問題について紹介する。
環境は1Dまたは2Dの分類学的観察を提供し、入力としてアクションを取る。
CTグラフのコア構造は、任意の分岐係数、深さ、観察セットを持つマルチブランチツリーグラフであり、制御可能で測定可能な方法で問題の次元を拡大するために変更することができる。
決定状態と待機状態の2つの主要な分類は、実世界の問題に典型的な観察の中で重要な階層を形成するために考案された。
大きな観測セットは、メモリ増強されたエージェントを損なう膨大な履歴を生成できる。
可変報酬関数により、複数のタスクを簡単に作成でき、制御可能な類似度を持つタスクが提示される動的シナリオにエージェントが効率的に適応できる。
複雑性の増大はグラフの指数的な成長によって容易に達成できる。
問題の定式化と付随コードは、特に生涯学習環境において強化学習アルゴリズムの性能を比較するために、高速で透明で数学的に定義された設定可能なテストセットを提供する。 This paper introduces a set of formally defined and transparent problems for reinforcement learning algorithms with the following characteristics: (1) variable degrees of observability (non-Markov observations), (2) distal and sparse rewards, (3) variable and hierarchical reward structure, (4) multiple-task generation, (5) variable problem complexity. The environment provides 1D or 2D categorical observations, and takes actions as input. The core structure of the CT-graph is a multi-branch tree graph with arbitrary branching factor, depth, and observation sets that can be varied to increase the dimensions of the problem in a controllable and measurable way. Two main categories of states, decision states and wait states, are devised to create a hierarchy of importance among observations, typical of real-world problems. A large observation set can produce a vast set of histories that impairs memory-augmented agents. Variable reward functions allow for the easy creation of multiple tasks and the ability of an agent to efficiently adapt in dynamic scenarios where tasks with controllable degrees of similarities are presented. Challenging complexity levels can be easily achieved due to the exponential growth of the graph. The problem formulation and accompanying code provide a fast, transparent, and mathematically defined set of configurable tests to compare the performance of reinforcement learning algorithms, in particular in lifelong learning settings. | 翻訳日:2023-02-26 14:00:36 公開日:2023-01-21 |
# Reveal Subtle Phenotypesへの限定データによる未ペア画像変換 Unpaired Image-to-Image Translation with Limited Data to Reveal Subtle Phenotypes ( http://arxiv.org/abs/2302.08503v1 ) ライセンス: Link先を確認 | Anis Bourou and Auguste Genovesio | (参考訳) unpaired image-to-image translationメソッドは、ソースドメインからターゲットドメインへのイメージのマッピングを学ぶことを目的としている。
近年、これらの手法は人間の目には見えない微妙な表現型細胞変異を示す生物学的用途において非常に有用であることが証明された。
しかし、現在のモデルでは大量の画像を訓練する必要があるが、ほとんどの顕微鏡実験は生成できる画像数に制限がある。
本研究では,多数の画像の必要性を軽減するために,自己教師付き識別器を用いた改良型CycleGANアーキテクチャを提案する。
我々は,提案手法がサイクガンベースラインよりも優れていることを定量的かつ定性的に示す。
また, 自明で非観察的な細胞表現型変異に関する小さな生物学的データセットを用いた結果も提供し, 本手法の直接的な応用を示す。 Unpaired image-to-image translation methods aim at learning a mapping of images from a source domain to a target domain. Recently, these methods proved to be very useful in biological applications to display subtle phenotypic cell variations otherwise invisible to the human eye. However, current models require a large number of images to be trained, while mostmicroscopy experiments remain limited in the number of images they can produce. In this work, we present an improved CycleGAN architecture that employs self-supervised discriminators to alleviate the need for numerous images. We demonstrate quantitatively and qualitatively that the proposed approach outperforms the CycleGAN baseline, including when it is combined with differentiable augmentations. We also provide results obtained with small biological datasets on obvious and non-obvious cell phenotype variations, demonstrating a straightforward application of this method. | 翻訳日:2023-02-19 14:25:40 公開日:2023-01-21 |
# ETHNO-DAANN:Deep Adversarial Transfer Learningによるエスノグラフィーエンゲージメント分類 ETHNO-DAANN: Ethnographic Engagement Classification by Deep Adversarial Transfer Learning ( http://arxiv.org/abs/2301.10229v1 ) ライセンス: Link先を確認 | Rossi Kamal, Zuzana Kubincova, Mosaddek Hossain Kamal, Upama Kabir | (参考訳) 学生のモチベーションは、第4次産業革命におけるポストコロニアル教育改革と青少年雇用市場適応の必要性から、重要な研究課題である。
ポスト共産主義時代の教師は、より良い教育を提供することを目的として、背景、起源などの学生の民族情報を分析するよう促される。
スマートデバイスデータの普及,遠隔学習プラットフォームへの需要の増大,バーチャル学習のさまざまな調査結果などにより,学生のエンゲージメントデータにアクセスできることは幸運なことだ。
本研究の動機は, ラベル付き知識が限られている場合に, エスノグラフィ情報から学生のエンゲージメントを予測することができるか?
もし答えがyesなら、民族誌のエンゲージメント学習に最も影響力のある機能を教えてください。
この文脈において,我々は,エスノグラフィー関係予測に逆適応した深層ニューラルネットワークを用いた伝達学習アルゴリズムethno-daannを提案する。
最終予測に最も有意な特徴を見出すための,民族性に基づく学生モチベーションに関する調査を行った。
したがって,本研究は限定ラベルデータの場合の民族誌モチベーションパラメータ推定の一般的な解である。 Student motivation is a key research agenda due to the necessity of both postcolonial education reform and youth job-market adaptation in ongoing fourth industrial revolution. Post-communism era teachers are prompted to analyze student ethnicity information such as background, origin with the aim of providing better education. With the proliferation of smart-device data, ever-increasing demand for distance learning platforms and various survey results of virtual learning, we are fortunate to have some access to student engagement data. In this research, we are motivated to address the following questions: can we predict student engagement from ethnographic information when we have limited labeled knowledge? If the answer is yes, can we tell which features are most influential in ethnographic engagement learning? In this context, we have proposed a deep neural network based transfer learning algorithm ETHNO-DAANN with adversarial adaptation for ethnographic engagement prediction. We conduct a survey among participants about ethnicity-based student motivation to figure out the most influential feature helpful in final prediction. Thus, our research stands as a general solution for ethnographic motivation parameter estimation in case of limited labeled data. | 翻訳日:2023-02-19 13:49:40 公開日:2023-01-21 |
# FairGBM: フェアネス制約付きグラディエントブースティング FairGBM: Gradient Boosting with Fairness Constraints ( http://arxiv.org/abs/2209.07850v3 ) ライセンス: Link先を確認 | Andr\'e F Cruz and Catarina Bel\'em and S\'ergio Jesus and Jo\~ao Bravo and Pedro Saleiro and Pedro Bizarro | (参考訳) 表データは金融サービスや公共政策など、多くの高利息ドメインで広く使われている。
グラディエント強化決定木(GBDT)は、パフォーマンス保証と低コストのためにこれらの設定で人気がある。
しかし、その後の意思決定の公平性は最も懸念される。
GBDTの人気にもかかわらず、既存の内部処理のFair MLメソッドは、GBDTには適用できないか、列車の時間オーバーヘッドがかなり大きいか、高クラス不均衡の問題で不十分である。
公平性制約下でGBDTをトレーニングするための2つの学習フレームワークであるFairGBMについて,制約のないGBDTと比較して予測性能にはほとんど影響しない。
観測的公正度は微分不可能であるため、勾配に基づく最適化を実現するために、滑らかな凸誤差率プロキシを用いた「プロキシ・ラグランジアン」の定式化を用いる必要がある。
実世界の実践者によるfairgbmの普及を促進する上で重要な側面である,関連する作業と比較した場合のトレーニング時間の桁違いなスピードアップを示す。 Tabular data is prevalent in many high stakes domains, such as financial services or public policy. Gradient boosted decision trees (GBDT) are popular in these settings due to performance guarantees and low cost. However, in consequential decision-making fairness is a foremost concern. Despite GBDT's popularity, existing in-processing Fair ML methods are either inapplicable to GBDT, or incur in significant train time overhead, or are inadequate for problems with high class imbalance -- a typical issue in these domains. We present FairGBM, a dual ascent learning framework for training GBDT under fairness constraints, with little to no impact on predictive performance when compared to unconstrained GBDT. Since observational fairness metrics are non-differentiable, we have to employ a "proxy-Lagrangian" formulation using smooth convex error rate proxies to enable gradient-based optimization. Our implementation shows an order of magnitude speedup in training time when compared with related work, a pivotal aspect to foster the widespread adoption of FairGBM by real-world practitioners. | 翻訳日:2023-02-19 11:13:52 公開日:2023-01-21 |
# ミンコフスキーの失われた遺産とハドロン電磁気学 Minkowski's lost legacy and hadron electromagnetism ( http://arxiv.org/abs/2206.12903v2 ) ライセンス: Link先を確認 | Yang Li, Wen-bo Dong, Yi-liang Yin, Qun Wang, James P. Vary | (参考訳) 我々は、ハドロンのような相対論的システムの電荷分布に関する長年のパズルを解決するために、ミンコフスキーの相対論的電磁論における失われた遺産を再考する。
ハドロンは固有相対論的電磁系であり、その大きさとコンプトン波長 $r_h \sim \lambda_c$ で特徴づけられる。
このようにして、非相対論的公式に基づく電荷分布の従来のサックスの定義が無効であることがわかった。
これはローレンツ、アインシュタインらによって、動く物体の電磁磁気について追求されたのと同じ問題である。
ハドロン物理学で提案された様々な電荷分布が、相対論的電磁気学のマクロ理論における多極モーメント密度として自然にどのように出現するかを示す。 We revisit Minkowski's lost legacy on relativistic electromagnetism in order to resolve long-standing puzzles over the charge distribution of relativistic systems like hadrons. Hadrons are unique relativistic electromagnetic systems characterized by their comparable size and Compton wavelength $r_h \sim \lambda_C$. As such, it was recently realized that the traditional Sachs definition of the charge distribution based on a non-relativistic formula is invalid. We explain that this is the same problem pursued by Lorentz, Einstein and others, on the electromagnetism of a moving body. We show how various charge distributions proposed in hadronic physics naturally emerge as the multipole moment densities in the macroscopic theory of relativistic electromagnetism. | 翻訳日:2023-02-07 23:48:12 公開日:2023-01-21 |
# 2次元超スケーリング振動ブラックブレインに対する一般化体積複素性 Generalized Volume-Complexity For Two-Sided Hyperscaling Violating Black Branes ( http://arxiv.org/abs/2207.05287v2 ) ライセンス: Link先を確認 | Farzad Omidi | (参考訳) 本稿では,2面の非荷電HVブラックブレインを$d+2$次元で一般化した体積複雑度$\mathcal{C}_{\rm gen}$について検討する。
この量は最近 [arXiv:2111.02429] に導入され、体積汎関数に結合定数$\lambda$で高い曲率補正を加えることで、複雑性=Volume (CV) 提案における体積の拡張である。
ハイパースケーリング違反指数 $\theta$ と dynamical exponent $z$ の異なる値に対する$\mathcal{c}_{\rm gen}$ の成長速度を数値的に計算する。
適切に$\lambda$を選択すると、遅くとも$\mathcal{c}_{\rm gen}$は常に線形に成長することが観察される。
さらに、下から遅延時間の値に近づきます。
また、$\lambda=0$の場合、任意の値に対して$\theta$ と $z$ の遅延成長率の解析式を見つける。
しかし、$\lambda \neq 0$ の場合、遅くなる成長速度は $\theta$ と $z$ の特定の値に対してのみ解析的に計算できる。
また、$d$、$\theta$、$z$、$\lambda$に対する成長率の依存性についても調べる。
さらに,体積複雑度から得られる形成の複雑さを計算し,紫外線発散ではないことを示す。
また,ブラックブレーンの熱エントロピーと温度依存性についても検討した。
最後に、高曲率補正がリッチスカラーの線形結合、リッチテンソルの平方、リーマンテンソルの平方である場合、$\mathcal{c}_{\rm gen}$ の成長速度を数値的に計算する。
また, カップリング定数の適切な値に対して, 後期成長速度が再び線形であることを示す。 In this paper, we investigate generalized volume-complexity $\mathcal{C}_{\rm gen}$ for a two-sided uncharged HV black brane in $d+2$ dimensions. This quantity which was recently introduced in [arXiv:2111.02429], is an extension of volume in the Complexity=Volume (CV) proposal, by adding higher curvature corrections with a coupling constant $\lambda$ to the volume functional. We numerically calculate the growth rate of $\mathcal{C}_{\rm gen}$ for different values of the hyperscaling violation exponent $\theta$ and dynamical exponent $z$. It is observed that $\mathcal{C}_{\rm gen}$ always grows linearly at late times provided that we choose $\lambda$ properly. Moreover, it approaches its late time value from below. For the case $\lambda=0$, we find an analytic expression for the late time growth rate for arbitrary values of $\theta$ and $z$. However, for $\lambda \neq 0$, the late time growth rate can only be calculated analytically for some specific values of $\theta$ and $z$. We also examine the dependence of the growth rate on $d$, $\theta$, $z$ and $\lambda$. Furthermore, we calculate the complexity of formation obtained from volume-complexity and show that it is not UV divergent. We also examine its dependence on the thermal entropy and temperature of the black brane. At the end, we also numerically calculate the growth rate of $\mathcal{C}_{\rm gen}$ for the case where the higher curvature corrections are a linear combination of the Ricci scalar, square of the Ricci tensor and square of the Riemann tensor. We show that for appropriate values of the coupling constants, the late time growth rate is again linear. | 翻訳日:2023-02-05 09:51:25 公開日:2023-01-21 |
# n$-partiteシステムにおけるn$-partiteシステムの絡みのない強い量子非局所性 Strong quantum nonlocality without entanglement in $n$-partite system with even $n$ ( http://arxiv.org/abs/2208.07051v3 ) ライセンス: Link先を確認 | Huaqi Zhou, Ting Gao, Fengli Yan | (参考訳) 多成分系では、絡み合いのない強い量子非局所性の研究が近年大きな進展を遂げている。
しかし、偶数系における強い量子非局所性を持つ直交積集合の存在は未だ分かっていない。
ここで偶数は4より大きい。
本稿では,$n$-partite系における強非局所直交積集合をすべての$n$に対して構築することに成功し,Halderらによるオープンな疑問に答える。
https://journals.aps.org/prl/abstract/10.1103/PhysRevLett.122.040403} {Phys。
Rev. Lett \textbf{122}, 040403 (2019)} と Yuan et al.
https://journals.aps.org/pra/abstract/10.1103/PhysRevA.102.042228} {Phys。
任意の可能なパーティーシステムに対して、 a \textbf{102}, 042228 (2020)}] を改訂する。
したがって、空間 $\otimes_{i=1}^{n}\mathcal{c}^{d_{i}}$ (n,d_{i}\geq 3$) における強非局所直交積集合の一般構成を見つけ、すべての n$ に対して、任意の$n$パーティト系において強非局所であるような不完全直交積基底が存在することを示す。
新しく構築した直交積集合は非対称である。
奇数系におけるこれらの集合と既知の直交積の差と関係を解析する。
さらに,追加の絡み合ったリソースを用いて,集合に対する局所状態識別プロトコルを提案する。
少なくとも2つのサブシステムが3以上の次元を持つ場合、プロトコルはテレポーテーションベースのプロトコルよりも絡み合いが少ない。
強非局所集合は、すべての当事者が一緒にいることが起こらない限り、情報が完全にアクセスできないことを意味する。
アプリケーションとして、我々は集合をマルチパーティイトシステムに隠されたローカル情報と接続する。 In multipartite systems, great progress has been made recently on the study of strong quantum nonlocality without entanglement. However, the existence of orthogonal product sets with strong quantum nonlocality in even party systems remains unknown. Here the even number is greater than four. In this paper, we successfully construct strongly nonlocal orthogonal product sets in $n$-partite systems for all even $n$, which answers the open questions given by Halder et al. [\href{https://journals.aps.org/prl/abstract/10.1103/PhysRevLett.122.040403} {Phys. Rev. Lett \textbf{122}, 040403 (2019)}] and Yuan et al. [\href{https://journals.aps.org/pra/abstract/10.1103/PhysRevA.102.042228} {Phys. Rev. A \textbf{102}, 042228 (2020)}] for any possible even party systems. Thus, we find general construction of strongly nonlocal orthogonal product sets in space $\otimes_{i=1}^{n}\mathcal{C}^{d_{i}}$ ($n,d_{i}\geq 3$) and show that there do exist incomplete orthogonal product bases that can be strongly nonlocal in any possible $n$-partite systems for all even $n$. Our newly constructed orthogonal product sets are asymmetric. We analyze the differences and connections between these sets and the known orthogonal product sets in odd party systems. In addition, we present a local state discrimination protocol for our sets by using additional entangled resource. When at least two subsystems have dimensions greater than three, the protocol consumes less entanglement than teleportation-based protocol. Strongly nonlocal set implies that the information cannot be completely accessed as long as it does not happen that all parties are together. As an application, we connect our sets with local information hiding in multipartite system. | 翻訳日:2023-01-31 01:38:26 公開日:2023-01-21 |
# クローズ勧告に関する調査方略 Investigating Strategies for Clause Recommendation ( http://arxiv.org/abs/2301.10716v1 ) ライセンス: Link先を確認 | Sagar Joshi, Sumanth Balaji, Jerrin Thomas, Aparna Garimella, Vasudeva Varma | (参考訳) 条項勧告は、当該契約の文脈と当該条項が属すべき条項の種類を考慮し、法律上の契約に対する条項を推奨する問題である。
法律上の契約生成に向けた事前の作業はあまり行われていないため、この問題は契約生成の大きな問題への第一歩として提案された。
オープンエンドテキスト生成問題として、この問題の特徴は、サブ言語としての法的言語の性質と、特定のタイプの節におけるテクストコンテンツのかなりの類似性にある。
法的条項におけるこの類似性の側面は、条項を推薦するために類似した契約の表現の重要性を調査するきっかけとなります。
本研究では,本課題を展開する契約における15の共通発生節タイプに対する節生成実験を行い,類似する契約から得られた情報を用いて,様々な設定における節推薦の分析を行った。 Clause recommendation is the problem of recommending a clause to a legal contract, given the context of the contract in question and the clause type to which the clause should belong. With not much prior work being done toward the generation of legal contracts, this problem was proposed as a first step toward the bigger problem of contract generation. As an open-ended text generation problem, the distinguishing characteristics of this problem lie in the nature of legal language as a sublanguage and the considerable similarity of textual content within the clauses of a specific type. This similarity aspect in legal clauses drives us to investigate the importance of similar contracts' representation for recommending clauses. In our work, we experiment with generating clauses for 15 commonly occurring clause types in contracts expanding upon the previous work on this problem and analyzing clause recommendations in varying settings using information derived from similar contracts. | 翻訳日:2023-01-26 14:43:48 公開日:2023-01-21 |
# 短距離および長距離相互作用を持つスピン鎖の励起平均場解 Exact mean-field solution of a spin chain with short-range and long-range interactions ( http://arxiv.org/abs/2209.08756v2 ) ライセンス: Link先を確認 | Etienne Granet | (参考訳) スピン間の全対全相互作用を付加した横場イジングモデルを考える。
このモデルの平均場処理は, 1次元短距離相互作用が存在するにもかかわらず, 熱力学的限界において正確となることを示す。
これは、ヒルベルト空間を通して変化する振幅を持つコヒーレント状態として固有状態を求めることによって確立される。
次に, モデルの熱力学を研究し, 異なる相を同定する。
特異な特徴として、この1Dモデルは有限温度で二階相転移を持ち、逆融解を示す。 We consider the transverse field Ising model with additional all-to-all interactions between the spins. We show that a mean-field treatment of this model becomes exact in the thermodynamic limit, despite the presence of 1D short-range interactions. This is established by looking for eigenstates as coherent states with an amplitude that varies through the Hilbert space. We study then the thermodynamics of the model and identify the different phases. Among its peculiar features, this 1D model possesses a second-order phase transition at finite temperature and exhibits inverse melting. | 翻訳日:2023-01-26 02:20:32 公開日:2023-01-21 |
# ゼロショット関係抽出のための弱教師付き質問 Weakly-Supervised Questions for Zero-Shot Relation Extraction ( http://arxiv.org/abs/2301.09640v1 ) ライセンス: Link先を確認 | Saeed Najafi and Alona Fyshe | (参考訳) ゼロショット関係抽出 (zero-shot relation extraction, zre) は、トレーニングとテストセットが共有関係タイプを持たない関係抽出のタスクである。
この非常に難しいドメインは、モデルを一般化する能力のよいテストである。
ZREの以前のアプローチは、QA(QA)として関係抽出を再構成し、事前訓練されたQAモデルの使用を可能にした。
しかし、この方法は新しい関係ごとに金の質問テンプレートを手作業で作成する必要があった。
ここでは、これらの金のテンプレートを廃止して、見当たらない関係に関する質問を生成できるモデルを学ぶ。
本手法は,関係記述を関連する質問に翻訳し,適切なテールエンティティを生成する。
テールエンティティ抽出では,ゴールド質問テンプレートを使わずに16F1点以上の先行技術よりも優れていた。
従来の関係抽出のベースラインが存在しないRE-QAデータセットでは,ゴールド質問テンプレートを用いたシステムにおいて,提案アルゴリズムは0.7F1ポイント以内となる。
我々のモデルは、FewRelおよびWikiZSLデータセットの最先端のZREベースラインよりも優れており、QAモデルがZREタスクに特化されたモデルのパフォーマンスに合わせてテンプレート質問をする必要がなくなったことを示している。
私たちの実装はhttps://github.com/fyshelab/qa-zreで利用可能です。 Zero-Shot Relation Extraction (ZRE) is the task of Relation Extraction where the training and test sets have no shared relation types. This very challenging domain is a good test of a model's ability to generalize. Previous approaches to ZRE reframed relation extraction as Question Answering (QA), allowing for the use of pre-trained QA models. However, this method required manually creating gold question templates for each new relation. Here, we do away with these gold templates and instead learn a model that can generate questions for unseen relations. Our technique can successfully translate relation descriptions into relevant questions, which are then leveraged to generate the correct tail entity. On tail entity extraction, we outperform the previous state-of-the-art by more than 16 F1 points without using gold question templates. On the RE-QA dataset where no previous baseline for relation extraction exists, our proposed algorithm comes within 0.7 F1 points of a system that uses gold question templates. Our model also outperforms the state-of-the-art ZRE baselines on the FewRel and WikiZSL datasets, showing that QA models no longer need template questions to match the performance of models specifically tailored to the ZRE task. Our implementation is available at https://github.com/fyshelab/QA-ZRE. | 翻訳日:2023-01-25 15:05:04 公開日:2023-01-21 |
# 複数の秘密鍵と確率的オラクルを持つベルンシュタイン・ヴァジラニアルゴリズムの一般化 A generalization of Bernstein-Vazirani algorithm with multiple secret keys and a probabilistic oracle ( http://arxiv.org/abs/2301.10014v1 ) ライセンス: Link先を確認 | Alok Shukla, Prakash Vedula | (参考訳) ベルンシュタイン-ヴァジラニ問題(ベルンシュタイン-ヴァジラニ問題の一般化)の確率論的バージョンとそれを解く量子アルゴリズムを提案する。
問題は、量子オラクルを使って複数の秘密鍵群(バイナリ形式でコード化されている)から1つ以上の秘密鍵を見つけることである。
複数の未知鍵の集合から、提案された量子アルゴリズムは、
a)確率的オラクルへの単一の問い合わせを用いて(確実性のある)鍵を取得すること
(b)高い確率で全ての鍵を見つけること(制限ケース1を割り当てること)。
対照的に、古典的なアルゴリズムは(一般的な場合では)秘密鍵の1ビットでも見つけることができない。
オラクルの確率的性質から、古典的なアルゴリズムは(複数のオラクルの呼び出しに基づく)秘密鍵のビット配置ごとに 0 $ と 1 $ の制限確率分布を得るのにのみ有用であり、この情報は、組合せ的考察に基づいて秘密鍵の分布に関するいくつかの推定を推測するためにさらに使うことができる。
比較のために、古典的なアルゴリズムは、元のベルンシュタイン・ヴァジラニ問題(決定論的オラクルと$n$ビットを含む単一の隠れキーを含む)を$\mathcal{O}(n)$のクエリ複雑性で正確に解くのに使えることに注意する必要がある。
ベルンシュタイン-ヴァジラニ問題の確率的バージョンに似た興味深い問題クラスは、量子アルゴリズムが確実に、あるいは高い信頼度で効率的な解を提供し、古典的アルゴリズムがそれを行うことができないような問題である。 A probabilistic version of the Bernstein-Vazirani problem (which is a generalization of the original Bernstein-Vazirani problem) and a quantum algorithm to solve it are proposed. The problem involves finding one or more secret keys from a set of multiple secret keys (encoded in binary form) using a quantum oracle. From a set of multiple unknown keys, the proposed quantum algorithm is capable of (a) obtaining any key (with certainty) using a single query to the probabilistic oracle and (b) finding all keys with a high probability (approaching 1 in the limiting case). In contrast, a classical algorithm will be unable to find even a single bit of a secret key with certainty (in the general case). Owing to the probabilistic nature of the oracle, a classical algorithm can only be useful in obtaining limiting probability distributions of $ 0 $ and $ 1 $ for each bit-position of secret keys (based on multiple oracle calls) and this information can further be used to infer some estimates on the distribution of secret keys based on combinatorial considerations. For comparison, it is worth noting that a classical algorithm can be used to exactly solve the original Bernstein-Vazirani problem (involving a deterministic oracle and a single hidden key containing $n$ bits) with a query complexity of $\mathcal{O}(n)$. An interesting class of problems similar to the probabilistic version of the Bernstein-Vazirani problem can be construed, where quantum algorithms can provide efficient solutions with certainty or with a high degree of confidence and classical algorithms would fail to do so. | 翻訳日:2023-01-25 13:34:48 公開日:2023-01-21 |
# ゴール認識表現学習と適応水平予測によるオープンワールドマルチタスク制御 Open-World Multi-Task Control Through Goal-Aware Representation Learning and Adaptive Horizon Prediction ( http://arxiv.org/abs/2301.10034v1 ) ライセンス: Link先を確認 | Shaofei Cai, Zihao Wang, Xiaojian Ma, Anji Liu, Yitao Liang | (参考訳) 我々は、人間レベルのマルチタスクエージェントを開発するために、普及し、広くアクセスしやすく、挑戦的なオープンエンド環境であるMinecraftの目標条件ポリシーを学習する問題について研究する。
まず、このような政策を学ぶ上での2つの主な課題を特定します。
1)広い場面の多様性により、国家分布からタスクが区別できないこと、及び
2)部分的可観測性に起因する環境力学の非定常性。
最初の課題に取り組むために,目標関連視覚状態表現の出現を促す政策として,目標感性バックボーン(GSB)を提案する。
第2の課題に取り組むために、このポリシーは非定常力学による学習の不確実性を緩和する適応的な水平予測モジュールによってさらに加速される。
20のMinecraftタスクの実験では、我々のメソッドが今までで最高のベースラインを大幅に上回っていることが示されています。
我々のアブレーションと探索研究は、我々のアプローチがどのように相手を圧倒するかを説明し、新しいシーン(バイオーム)にゼロショットの一般化の驚くべきボーナスを明らかにします。
当社のエージェントが,minecraftのようなオープンな環境において,目標条件とマルチタスクエージェントの学習に光を当ててくれることを願っています。 We study the problem of learning goal-conditioned policies in Minecraft, a popular, widely accessible yet challenging open-ended environment for developing human-level multi-task agents. We first identify two main challenges of learning such policies: 1) the indistinguishability of tasks from the state distribution, due to the vast scene diversity, and 2) the non-stationary nature of environment dynamics caused by partial observability. To tackle the first challenge, we propose Goal-Sensitive Backbone (GSB) for the policy to encourage the emergence of goal-relevant visual state representations. To tackle the second challenge, the policy is further fueled by an adaptive horizon prediction module that helps alleviate the learning uncertainty brought by the non-stationary dynamics. Experiments on 20 Minecraft tasks show that our method significantly outperforms the best baseline so far; in many of them, we double the performance. Our ablation and exploratory studies then explain how our approach beat the counterparts and also unveil the surprising bonus of zero-shot generalization to new scenes (biomes). We hope our agent could help shed some light on learning goal-conditioned, multi-task agents in challenging, open-ended environments like Minecraft. | 翻訳日:2023-01-25 13:24:26 公開日:2023-01-21 |
# MTTN:プロンプト生成のためのマルチペアテキストとテキストナラティブ MTTN: Multi-Pair Text to Text Narratives for Prompt Generation ( http://arxiv.org/abs/2301.10172v1 ) ライセンス: Link先を確認 | Archan Ghosh, Debgandhar Ghosh, Madhurima Maji, Suchinta Chanda, Kalporup Goswami | (参考訳) 拡散モデル[1][2][3]の爆発的な人気は、生成文モデリングにおけるさらなる発展の舞台となった。
プロンプトベースのモデルは非常にニュアンスが高いので、慎重に生成されたプロンプトが真に息を吐くイメージを生成することができる。
そこで私たちは,ms-coco[4 ] や flickr[5] など,一般的なイメージテキストデータセットをインデックス化した,実プロンプトで構築した大規模派生合成データセットを導入しました。
また、これらの文のステージングを導入し、コンテキストを逐次減らし、複雑さを増し、作成される複雑なアノテーションのために出力をさらに強化します。
MTTNは5つの段階にまたがる2.4万以上の文からなり、合計12万組の組が作られ、ボクタブのサイズは3万以上のユニークな単語からなり、様々なバリエーションを生み出している。
オリジナルの2.4億組のペアは、グローバルに使用されるインターネットリンゴの真のシナリオを生み出すような方法で分解され、データセットの堅牢性とそれに基づいてトレーニングされたモデルが高められる。 The explosive popularity of diffusion models[ 1][ 2][ 3 ] has provided a huge stage for further development in generative-text modelling. As prompt based models are very nuanced, such that a carefully generated prompt can produce truely breath taking images, on the contrary producing powerful or even meaningful prompt is a hit or a miss. To lavish on this we have introduced a large scale derived and synthesized dataset built with on real prompts and indexed with popular image-text datasets like MS-COCO[4 ], Flickr[ 5], etc. We have also introduced staging for these sentences that sequentially reduce the context and increase the complexity, that will further strengthen the output because of the complex annotations that are being created. MTTN consists of over 2.4M sentences that are divided over 5 stages creating a combination amounting to over 12M pairs, along with a vocab size of consisting more than 300 thousands unique words that creates an abundance of variations. The original 2.4M million pairs are broken down in such a manner that it produces a true scenario of internet lingo that is used globally thereby heightening the robustness of the dataset, and any model trained on it. | 翻訳日:2023-01-25 12:59:37 公開日:2023-01-21 |
# 計算型太陽エネルギー-東インドにおける気象パラメータに基づく太陽光発電予測のための集合学習手法 Computational Solar Energy -- Ensemble Learning Methods for Prediction of Solar Power Generation based on Meteorological Parameters in Eastern India ( http://arxiv.org/abs/2301.10159v1 ) ライセンス: Link先を確認 | Debojyoti Chakraborty, Jayeeta Mondal, Hrishav Bakul Barua, Ankur Bhattacharjee | (参考訳) 太陽エネルギーの応用における課題は、その間欠性と、太陽放射、環境温度、降雨、風速などの気象パラメータ、および塵の蓄積など多くの物理的パラメータに依存することである。
したがって、特定の地理的位置に対して太陽光発電(PV)発電量を推定することが重要である。
機械学習(ML)モデルの重要性が高まり、太陽光発電プラントの性能予測に広く利用されている。
本稿では,太陽PV発電における気象パラメータの影響を,バッギング,ブースティング,スタッキング,ボーティングといったいくつかのエンサンブルML(EML)モデルによって初めて推定する。
選択したMLアルゴリズムの性能は、東インド地域の10kWp太陽PV発電所のフィールドデータセットにより検証される。
さらに、データマイニングと適切な学習モデルの選択のために、完全なテストベッドフレームワークが設計されている。
また、学習モデルの時間と時間の複雑さを減らすためにデータセットの機能選択と削減もサポートする。
その結果,スタックおよび投票型EMLモデルでは,約96%の予測精度が得られた。
提案した研究は一般化されたものであり、大規模太陽光発電プラントの性能予測にも非常に有用である。 The challenges in applications of solar energy lies in its intermittency and dependency on meteorological parameters such as; solar radiation, ambient temperature, rainfall, wind-speed etc., and many other physical parameters like dust accumulation etc. Hence, it is important to estimate the amount of solar photovoltaic (PV) power generation for a specific geographical location. Machine learning (ML) models have gained importance and are widely used for prediction of solar power plant performance. In this paper, the impact of weather parameters on solar PV power generation is estimated by several Ensemble ML (EML) models like Bagging, Boosting, Stacking, and Voting for the first time. The performance of chosen ML algorithms is validated by field dataset of a 10kWp solar PV power plant in Eastern India region. Furthermore, a complete test-bed framework has been designed for data mining as well as to select appropriate learning models. It also supports feature selection and reduction for dataset to reduce space and time complexity of the learning models. The results demonstrate greater prediction accuracy of around 96% for Stacking and Voting EML models. The proposed work is a generalized one and can be very useful for predicting the performance of large-scale solar PV power plants also. | 翻訳日:2023-01-25 12:58:36 公開日:2023-01-21 |
# マルチモーダルペルシャ音声認識のための多目的音声コーパス:Arman-AVデータセット A Multi-Purpose Audio-Visual Corpus for Multi-Modal Persian Speech Recognition: the Arman-AV Dataset ( http://arxiv.org/abs/2301.10180v1 ) ライセンス: Link先を確認 | Javad Peymanfard, Samin Heydarian, Ali Lashini, Hossein Zeinali, Mohammad Reza Mohammadi, Nasser Mozayani | (参考訳) 近年, 口唇の自動読唇において有意な進歩がみられた。
しかしこれらの方法は、多くの低リソース言語には存在しない大規模なデータセットを必要とする。
本稿では,ペルシャ語のための多目的オーディオ視覚データセットを提案する。
このデータセットは、約220時間のビデオと1760の話者で構成されている。
唇読解に加えて、データセットは自動音声認識、音声視覚音声認識、話者認識に適している。
また、ペルシア初の大規模な唇読解データセットである。
各タスクに対してベースラインメソッドが提供された。
また,ペルシャ語におけるビセム(音素の視覚的等価性)を検出する手法も提案した。
この方法により得られたバイセムは他の言語にも適用可能な先行提案のバイセムと比較して、口唇読解タスクの精度を7%向上させる。 In recent years, significant progress has been made in automatic lip reading. But these methods require large-scale datasets that do not exist for many low-resource languages. In this paper, we have presented a new multipurpose audio-visual dataset for Persian. This dataset consists of almost 220 hours of videos with 1760 corresponding speakers. In addition to lip reading, the dataset is suitable for automatic speech recognition, audio-visual speech recognition, and speaker recognition. Also, it is the first large-scale lip reading dataset in Persian. A baseline method was provided for each mentioned task. In addition, we have proposed a technique to detect visemes (a visual equivalent of a phoneme) in Persian. The visemes obtained by this method increase the accuracy of the lip reading task by 7% relatively compared to the previously proposed visemes, which can be applied to other languages as well. | 翻訳日:2023-01-25 12:47:53 公開日:2023-01-21 |
# AQuaMaM: 複雑SO(3)分布の迅速推定のための自己回帰4次多様体モデル AQuaMaM: An Autoregressive, Quaternion Manifold Model for Rapidly Estimating Complex SO(3) Distributions ( http://arxiv.org/abs/2301.08838v1 ) ライセンス: Link先を確認 | Michael A. Alcorn | (参考訳) 複雑な多重モーダル分布の正確なモデル化は最適決定のために必要であるが、3次元の回転、すなわちSO(3) 群は回転多様体の曲率のために困難である。
最近記述された暗黙のpdf (ipdf) は、任意の分布を与えられた精度まで学習するための単純でエレガントで効果的なアプローチである。
しかし、ipdfによる推論では、ネットワークの最終多層パーセプトロン(モデルによって計算できる可能性の上限を$n$が設定する)を通過するために$n$が要求される。
本稿では, 回転多様体上の複素分布を学習し, 単一の前方通過における問合せ回転の精度を正確に算出できるニューラルネットワークであるAQuaMaMを紹介する。
具体的には、AQuaMaMは、単位四元数の射影成分を、幾何学的に制限された値領域を分割する一様分布の混合として自己回帰的にモデル化する。
あいまいな視点を持つ「無限」のおもちゃデータセットで訓練すると、AQuaMaMは真のデータ分布によく一致するサンプリング分布に急速に収束する。
対照的に、IPDFのサンプリング分布は、トレーニング中の理論的最小評価損失に近づいたにもかかわらず、真のデータ分布から劇的に離れている。
異なる回転で50,000のダイのデータセットでトレーニングされた場合、AQuaMaMはICPよりも14%高いテストログに到達する。
さらに、IPDFと比較して、AQuaMaMは24%少ないパラメータを使用し、単一のGPUで52$\times$高速な予測スループットを持ち、トレーニング中に同様の時間内に収束する。 Accurately modeling complex, multimodal distributions is necessary for optimal decision-making, but doing so for rotations in three-dimensions, i.e., the SO(3) group, is challenging due to the curvature of the rotation manifold. The recently described implicit-PDF (IPDF) is a simple, elegant, and effective approach for learning arbitrary distributions on SO(3) up to a given precision. However, inference with IPDF requires $N$ forward passes through the network's final multilayer perceptron (where $N$ places an upper bound on the likelihood that can be calculated by the model), which is prohibitively slow for those without the computational resources necessary to parallelize the queries. In this paper, I introduce AQuaMaM, a neural network capable of both learning complex distributions on the rotation manifold and calculating exact likelihoods for query rotations in a single forward pass. Specifically, AQuaMaM autoregressively models the projected components of unit quaternions as mixtures of uniform distributions that partition their geometrically-restricted domain of values. When trained on an "infinite" toy dataset with ambiguous viewpoints, AQuaMaM rapidly converges to a sampling distribution closely matching the true data distribution. In contrast, the sampling distribution for IPDF dramatically diverges from the true data distribution, despite IPDF approaching its theoretical minimum evaluation loss during training. When trained on a constructed dataset of 500,000 renders of a die in different rotations, AQuaMaM reaches a test log-likelihood 14% higher than IPDF. Further, compared to IPDF, AQuaMaM uses 24% fewer parameters, has a prediction throughput 52$\times$ faster on a single GPU, and converges in a similar amount of time during training. | 翻訳日:2023-01-24 16:18:08 公開日:2023-01-21 |
# マルチキャリブレーションの新しい知見 New Insights into Multi-Calibration ( http://arxiv.org/abs/2301.08837v1 ) ライセンス: Link先を確認 | Cynthia Dwork, Daniel Lee, Huijia Lin, Pranay Tankala | (参考訳) 本研究では, 予測アルゴリズムに対する多群公平性に関する最近の文献と, 極値グラフ理論から確立されたグラフ正則性の概念との新たな関連を明らかにする。
我々は,結果の不一致の概念と密接に関連している,新しい統計的距離に基づくマルチキャリブレーションの変種を用いて検討を行った。
この観点を採用することは、自然にグラフ理論結果だけでなく、特定のパラメータ構造における複雑性を改善した新しいマルチキャリブレーションアルゴリズムや、オムニプレディションの最先端結果の一般化にも繋がる。
その過程で,マルチグループフェアネスを達成するためのいくつかのアルゴリズムと,その分析を,無回帰学習のレンズを通して統一した。 We identify a novel connection between the recent literature on multi-group fairness for prediction algorithms and well-established notions of graph regularity from extremal graph theory. We frame our investigation using new, statistical distance-based variants of multi-calibration that are closely related to the concept of outcome indistinguishability. Adopting this perspective leads us naturally not only to our graph theoretic results, but also to new multi-calibration algorithms with improved complexity in certain parameter regimes, and to a generalization of a state-of-the-art result on omniprediction. Along the way, we also unify several prior algorithms for achieving multi-group fairness, as well as their analyses, through the lens of no-regret learning. | 翻訳日:2023-01-24 16:17:36 公開日:2023-01-21 |
# ManyDG:医療応用のための多分野一般化 ManyDG: Many-domain Generalization for Healthcare Applications ( http://arxiv.org/abs/2301.08834v1 ) ライセンス: Link先を確認 | Chaoqi Yang, M Brandon Westover, Jimeng Sun | (参考訳) 大量の健康データが患者ごとに継続的に収集され、発作検出や入院予測などの多様な医療予測タスクを支援する機会を提供している。
既存のモデルは、ほとんどが他の患者データに基づいて訓練され、新しい患者で評価される。
それらの多くは一般化性に乏しい。
一つの重要な理由は、患者同一性に関連するユニークな情報と、患者共変体と呼ばれるデータ収集環境によって過度に適合する可能性がある。
これらの患者の共変量は通常、標的の予測には寄与しないが、しばしば取り除くのが難しい。
その結果、モデルのトレーニングプロセスをバイアスし、一般化を妨げることができる。
医療アプリケーションでは、既存のドメイン一般化メソッドのほとんどが少数のドメインを想定している。
本稿では,患者共変量の多様性を考慮し,各患者を独立したドメインとして扱うことで,新たな設定を提案する。
我々は、そのような多くのドメイン問題にスケール可能な新しい領域一般化手法MultiDGを開発した。
本手法は患者領域を相互再構成により同定し,直交投影法により除去する。
大規模な実験により、MultiDGは複数の現実世界の医療タスク(例えば、MIMICのドラッグレコメンデーションにおける3.7%のジャカード改善など)の一般化性能を高め、不十分なデータや継続的学習のような現実的で困難な設定をサポートすることが示されている。 The vast amount of health data has been continuously collected for each patient, providing opportunities to support diverse healthcare predictive tasks such as seizure detection and hospitalization prediction. Existing models are mostly trained on other patients data and evaluated on new patients. Many of them might suffer from poor generalizability. One key reason can be overfitting due to the unique information related to patient identities and their data collection environments, referred to as patient covariates in the paper. These patient covariates usually do not contribute to predicting the targets but are often difficult to remove. As a result, they can bias the model training process and impede generalization. In healthcare applications, most existing domain generalization methods assume a small number of domains. In this paper, considering the diversity of patient covariates, we propose a new setting by treating each patient as a separate domain (leading to many domains). We develop a new domain generalization method ManyDG, that can scale to such many-domain problems. Our method identifies the patient domain covariates by mutual reconstruction and removes them via an orthogonal projection step. Extensive experiments show that ManyDG can boost the generalization performance on multiple real-world healthcare tasks (e.g., 3.7% Jaccard improvements on MIMIC drug recommendation) and support realistic but challenging settings such as insufficient data and continuous learning. | 翻訳日:2023-01-24 16:17:19 公開日:2023-01-21 |
# 逆実数推定のためのベイズ階層モデル Bayesian Hierarchical Models for Counterfactual Estimation ( http://arxiv.org/abs/2301.08833v1 ) ライセンス: Link先を確認 | Natraj Raman, Daniele Magazzeni, Sameena Shah | (参考訳) 反事実的説明は、元の決定の結果を分析するために特徴摂動を利用し、実行可能なリアクションを推奨する。
単一点解ではなく、いくつかの代替的な説明を提供することは有益であり、多様な反事実を推定する確率論的パラダイムを提案する。
具体的には、摂動を事前分布関数を付与した確率変数として扱う。
これにより、後続密度から複数の反事実をサンプリングすることができ、帰納的バイアスを取り入れ、ドメイン固有の制約を保ち、推定の不確かさを定量化することができる。
さらに重要なことに、ベイズ階層モデリングを利用して、集団の異なるサブグループ間で情報を共有することで、堅牢性を改善し、公平性を測定することができる。
収束特性の優れた勾配ベースサンプリング器は、後方サンプルを効率的に計算する。
いくつかのデータセットに対する実験により、我々のアプローチを用いて推定された反ファクトは有効で、疎らで、多様性があり、実現可能であることが示された。 Counterfactual explanations utilize feature perturbations to analyze the outcome of an original decision and recommend an actionable recourse. We argue that it is beneficial to provide several alternative explanations rather than a single point solution and propose a probabilistic paradigm to estimate a diverse set of counterfactuals. Specifically, we treat the perturbations as random variables endowed with prior distribution functions. This allows sampling multiple counterfactuals from the posterior density, with the added benefit of incorporating inductive biases, preserving domain specific constraints and quantifying uncertainty in estimates. More importantly, we leverage Bayesian hierarchical modeling to share information across different subgroups of a population, which can both improve robustness and measure fairness. A gradient based sampler with superior convergence characteristics efficiently computes the posterior samples. Experiments across several datasets demonstrate that the counterfactuals estimated using our approach are valid, sparse, diverse and feasible. | 翻訳日:2023-01-24 16:16:55 公開日:2023-01-21 |
# 原子式上のワンホップ推論を用いた論理メッセージパッシングネットワーク Logical Message Passing Networks with One-hop Inference on Atomic Formulas ( http://arxiv.org/abs/2301.08859v1 ) ライセンス: Link先を確認 | Zihao Wang, Yangqiu Song, Ginny Y. Wong, Simon See | (参考訳) 知識グラフ(KG)に対する複雑なクエリアンサーリング(CQA)は多くのアプリケーションをサポートするために多くの注目を集めています。
KGは通常不完全であるので、複雑なニューラルネットワークで集合演算子をパラメータ化することで論理的クエリに答えるニューラルモデルが提案されている。
しかし、そのような手法は通常、多くの実体と関係がゼロから埋め込まれたニューラルセット演算子を訓練するが、埋め込み演算子やニューラルセット演算子がパフォーマンスにどのように寄与するかは定かではない。
本稿では,KG埋め込みをニューラルネットワーク演算子から分解する,複雑なクエリ応答のための単純なフレームワークを提案する。
クエリグラフで複雑なクエリを表現することを提案する。
問合せグラフ上では,原子式上の1ホップ1ホップの推論を,複雑な問合せ応答の論理的推論に接続する論理メッセージパッシングニューラルネットワーク (LMPNN) を提案する。
我々は、既存の有効なKG埋め込みを利用して、原子式上のワンホップ推論を行い、その結果をLMPNNで渡されるメッセージと見なす。
論理式全体に対する推論プロセスはLMPNNの前方通過に変換され、局所的な情報を漸進的に集約して解答の埋め込みを予測する。
異なるタイプのクエリに対する複雑な論理推論は、LMPNNアーキテクチャに基づいたトレーニング例から学習される。
理論的には、クエリグラフ表現は一般的な演算子ツリー形式よりも一般的であるため、より広い範囲の複雑なkgクエリに適用できる。
経験的に、我々のアプローチは新しい最先端のニューラルCQAモデルをもたらす。
本研究は,複雑なkg問合せ課題と知識グラフ表現学習の長期的成果とのギャップを橋渡しする。 Complex Query Answering (CQA) over Knowledge Graphs (KGs) has attracted a lot of attention to potentially support many applications. Given that KGs are usually incomplete, neural models are proposed to answer logical queries by parameterizing set operators with complex neural networks. However, such methods usually train neural set operators with a large number of entity and relation embeddings from zero, where whether and how the embeddings or the neural set operators contribute to the performance remains not clear. In this paper, we propose a simple framework for complex query answering that decomposes the KG embeddings from neural set operators. We propose to represent the complex queries in the query graph. On top of the query graph, we propose the Logical Message Passing Neural Network (LMPNN) that connects the \textit{local} one-hop inferences on atomic formulas to the \textit{global} logical reasoning for complex query answering. We leverage existing effective KG embeddings to conduct one-hop inferences on atomic formulas, the results of which are regarded as the messages passed in LMPNN. The reasoning process over the overall logical formulas is turned into the forward pass of LMPNN that incrementally aggregates local information to predict the answers' embeddings finally. The complex logical inference across different types of queries will then be learned from training examples based on the LMPNN architecture. Theoretically, our query-graph representation is more general than the prevailing operator-tree formulation, so our approach applies to a broader range of complex KG queries. Empirically, our approach yields a new state-of-the-art neural CQA model. Our research bridges the gap between complex KG query answering tasks and the long-standing achievements of knowledge graph representation learning. | 翻訳日:2023-01-24 16:09:04 公開日:2023-01-21 |
# ProKD:Zero-Resource Cross-Lingual Named Entity Recognitionのための教師なしプロトタイプ知識蒸留ネットワーク ProKD: An Unsupervised Prototypical Knowledge Distillation Network for Zero-Resource Cross-Lingual Named Entity Recognition ( http://arxiv.org/abs/2301.08855v1 ) ライセンス: Link先を確認 | Ling Ge and Chuming Hu and Guanghui Ma and Hong Zhang and Jihong Liu | (参考訳) ゼロリソース言語における名前付きエンティティ認識(NER)では、知識蒸留法を利用して、リッチリソース言語からゼロリソース言語への言語に依存しない知識の伝達が効果的である。
通常、これらの手法は教師ネットワークを教材言語で訓練する教師学生アーキテクチャを採用しており、学生ネットワークは教師ネットワークから知識を学習し、対象言語でうまく機能することが期待されている。
これらの手法によって達成された印象的な性能にもかかわらず、2つの制限があると主張する。
まず、教師ネットワークは、ソースとターゲット言語の特徴分布の違いにより、言語間で共有される言語非依存の知識を効果的に学習できない。
第二に、学生ネットワークは教師ネットワークからすべての知識を取得し、対象言語固有の知識の学習を無視する。
必然的に、これらの制限はターゲット言語におけるモデルの性能を妨げます。
本稿では,これらの問題に対処するために,教師なし型知識蒸留ネットワーク(ProKD)を提案する。
具体的には,教師ネットワークの言語に依存しない知識獲得能力を高めるために,原語と対象言語のプロトタイプ間の距離を調整することで,クラス特徴アライメントを実現するための,対照的な学習ベースのプロトタイプアライメント手法を提案する。
さらに, ProKDでは, プロトタイプからの距離情報を用いて, 学生ネットワークを対象データに再学習することで, 言語固有の知識を習得する能力を高めることによって, 言語固有の構造を学習するための, 原型的な自己学習手法を導入する。
3つのベンチマーク言語間NERデータセットの大規模な実験により、我々のアプローチの有効性が示された。 For named entity recognition (NER) in zero-resource languages, utilizing knowledge distillation methods to transfer language-independent knowledge from the rich-resource source languages to zero-resource languages is an effective means. Typically, these approaches adopt a teacher-student architecture, where the teacher network is trained in the source language, and the student network seeks to learn knowledge from the teacher network and is expected to perform well in the target language. Despite the impressive performance achieved by these methods, we argue that they have two limitations. Firstly, the teacher network fails to effectively learn language-independent knowledge shared across languages due to the differences in the feature distribution between the source and target languages. Secondly, the student network acquires all of its knowledge from the teacher network and ignores the learning of target language-specific knowledge. Undesirably, these limitations would hinder the model's performance in the target language. This paper proposes an unsupervised prototype knowledge distillation network (ProKD) to address these issues. Specifically, ProKD presents a contrastive learning-based prototype alignment method to achieve class feature alignment by adjusting the distance among prototypes in the source and target languages, boosting the teacher network's capacity to acquire language-independent knowledge. In addition, ProKD introduces a prototypical self-training method to learn the intrinsic structure of the language by retraining the student network on the target data using samples' distance information from prototypes, thereby enhancing the student network's ability to acquire language-specific knowledge. Extensive experiments on three benchmark cross-lingual NER datasets demonstrate the effectiveness of our approach. | 翻訳日:2023-01-24 16:08:37 公開日:2023-01-21 |
# HeMPPCAT:確率的主成分分析器のヘテロセダス性雑音に対する混合 HeMPPCAT: Mixtures of Probabilistic Principal Component Analysers for Data with Heteroscedastic Noise ( http://arxiv.org/abs/2301.08852v1 ) ライセンス: Link先を確認 | Alec S. Xu, Laura Balzano, Jeffrey A. Fessler | (参考訳) 確率的主成分分析(MPPCA)の混合は主成分分析(PCA)の混合モデル拡張としてよく知られている。
PCAと同様に、MPPCAは、各混合物のデータサンプルが相似雑音を含むと仮定する。
しかしながら,ノイズプロファイルの異なる複数のソースからサンプルを収集することで,大規模なデータセットが生成されるようになり,サンプル間で異種ノイズが発生するデータセットがますます一般的になっている。
MPPCAの性能は、サンプル間での異方性雑音を伴うデータに対して最適である。
本稿では、一般化予測最大化(GEM)アルゴリズムを用いて異種確率的PCA手法(HeMPPCAT)の異種確率的混合体を提案し、異種確率的雑音条件下での未知の要因、手段、雑音の分散を共同で推定する。
シミュレーションの結果,MPPCAと比較してHMPPCATの係数推定とクラスタリング精度が向上した。 Mixtures of probabilistic principal component analysis (MPPCA) is a well-known mixture model extension of principal component analysis (PCA). Similar to PCA, MPPCA assumes the data samples in each mixture contain homoscedastic noise. However, datasets with heterogeneous noise across samples are becoming increasingly common, as larger datasets are generated by collecting samples from several sources with varying noise profiles. The performance of MPPCA is suboptimal for data with heteroscedastic noise across samples. This paper proposes a heteroscedastic mixtures of probabilistic PCA technique (HeMPPCAT) that uses a generalized expectation-maximization (GEM) algorithm to jointly estimate the unknown underlying factors, means, and noise variances under a heteroscedastic noise setting. Simulation results illustrate the improved factor estimates and clustering accuracies of HeMPPCAT compared to MPPCA. | 翻訳日:2023-01-24 16:08:11 公開日:2023-01-21 |
# CADA-GAN: データ拡張によるコンテキスト対応GAN CADA-GAN: Context-Aware GAN with Data Augmentation ( http://arxiv.org/abs/2301.08849v1 ) ライセンス: Link先を確認 | Sofie Daniels, Jiugeng Sun, Jiaqing Xie | (参考訳) 現在のチャイルドフェイスジェネレータは利用可能なデータセットのサイズに制限されている。
さらに、特にトレーニングが必要な大量の機能のために、機能選択が重要な課題であることが証明できます。
これらの問題を管理するために、我々は、最適な特徴抽出を可能にする \textbf{C}ontext-\textbf{A}ware GANであるCADA-GANを提案し、追加の \textbf{D}ata \textbf{A}ugmentation からロバスト性を追加した。
CADA-GANはStyleGAN2-Adaモデルに適応しており、親画像の拡張とセグメンテーションに注目している。
このモデルは、潜在特徴表現に対して最も低い \textit{Mean Squared Error Loss} (MSEloss) を持ち、生成された子画像はベースラインモデルから生成されたものと比較して堅牢である。 Current child face generators are restricted by the limited size of the available datasets. In addition, feature selection can prove to be a significant challenge, especially due to the large amount of features that need to be trained for. To manage these problems, we proposed CADA-GAN, a \textbf{C}ontext-\textbf{A}ware GAN that allows optimal feature extraction, with added robustness from additional \textbf{D}ata \textbf{A}ugmentation. CADA-GAN is adapted from the popular StyleGAN2-Ada model, with attention on augmentation and segmentation of the parent images. The model has the lowest \textit{Mean Squared Error Loss} (MSEloss) on latent feature representations and the generated child image is robust compared with the one that generated from baseline models. | 翻訳日:2023-01-24 16:07:55 公開日:2023-01-21 |
# 再生学習: データ生成のための学習パラダイム Regeneration Learning: A Learning Paradigm for Data Generation ( http://arxiv.org/abs/2301.08846v1 ) ライセンス: Link先を確認 | Xu Tan, Tao Qin, Jiang Bian, Tie-Yan Liu, Yoshua Bengio | (参考訳) 対象y(例えば、テキスト、音声、音楽、画像、ビデオ)は、通常、高次元で複雑であり、ソースデータには存在せず、ソース・ターゲット・マッピング上で効果的かつ効率的な学習を妨げる情報を含んでいる。
本稿では,まずxからy’(yの抽象化/表現)を生成し,次にyからyを生成する,データ生成のための再生学習という学習パラダイムを提案する。
トレーニング中、Y'は、手作りルールまたは自己指導学習によってYから得られ、X->Y'とY'->Yを学習するために使用される。
再生学習は、表現学習の概念をデータ生成タスクに拡張し、従来の表現学習と対応するものと見なすことができる。
1)再生学習は,データ生成のための対象データyの抽象化(y')を,従来の表現学習はデータ理解のためのソースデータxの抽象化(x')を処理します。
2) 再生学習におけるY'->Yの過程と表現学習におけるX'->X'は、自己指導的な方法で学習することができる(例えば、事前学習)。
3)再生学習におけるxからyへのマッピングと表現学習におけるx’からyへのマッピングは、xからyへの直接マッピングよりも単純であり、再生学習は、データ生成(例えば、テキスト生成、音声認識、音声合成、楽曲合成、画像生成、ビデオ生成)において広く使われているパラダイムであり、データ生成手法の開発に有用な洞察を提供することができる。 Machine learning methods for conditional data generation usually build a mapping from source conditional data X to target data Y. The target Y (e.g., text, speech, music, image, video) is usually high-dimensional and complex, and contains information that does not exist in source data, which hinders effective and efficient learning on the source-target mapping. In this paper, we present a learning paradigm called regeneration learning for data generation, which first generates Y' (an abstraction/representation of Y) from X and then generates Y from Y'. During training, Y' is obtained from Y through either handcrafted rules or self-supervised learning and is used to learn X-->Y' and Y'-->Y. Regeneration learning extends the concept of representation learning to data generation tasks, and can be regarded as a counterpart of traditional representation learning, since 1) regeneration learning handles the abstraction (Y') of the target data Y for data generation while traditional representation learning handles the abstraction (X') of source data X for data understanding; 2) both the processes of Y'-->Y in regeneration learning and X-->X' in representation learning can be learned in a self-supervised way (e.g., pre-training); 3) both the mappings from X to Y' in regeneration learning and from X' to Y in representation learning are simpler than the direct mapping from X to Y. We show that regeneration learning can be a widely-used paradigm for data generation (e.g., text generation, speech recognition, speech synthesis, music composition, image generation, and video generation) and can provide valuable insights into developing data generation methods. | 翻訳日:2023-01-24 16:07:37 公開日:2023-01-21 |
# 微分的辺縁に基づくデータ合成アルゴリズムの統計理論 Statistical Theory of Differentially Private Marginal-based Data Synthesis Algorithms ( http://arxiv.org/abs/2301.08844v1 ) ライセンス: Link先を確認 | Ximing Li, Chendi Wang, Guang Cheng | (参考訳) NIST(National Institute of Standards and Technology)が主催する合成データコンペティションで有望なパフォーマンスを達成する。
高次元データを扱うために、合成データの分布は確率的グラフィカルモデル(ベイズネットワークなど)で表され、生データの分布は低次元の辺縁の集合によって近似される。
差分プライバシー(DP)は、各低次元境界分布にランダムノイズを導入することで保証される。
実際には有望な性能にもかかわらず、境界に基づく手法の統計的性質は文献ではほとんど研究されていない。
本稿では,統計的観点から,ベイズネットワーク(BN)に基づくDPデータ合成アルゴリズムについて検討する。
BNアルゴリズムに対する厳密な精度保証を確立し、誤差は総変動(TV)距離または$L^2$距離で測定する。
下流機械学習タスクに関連して,DP合成データのユーティリティエラーに対する上限も導出する。
この画像を完成させるために、$\epsilon$-dp の合成データ生成器ごとに保持されるテレビの精度を低く設定する。 Marginal-based methods achieve promising performance in the synthetic data competition hosted by the National Institute of Standards and Technology (NIST). To deal with high-dimensional data, the distribution of synthetic data is represented by a probabilistic graphical model (e.g., a Bayesian network), while the raw data distribution is approximated by a collection of low-dimensional marginals. Differential privacy (DP) is guaranteed by introducing random noise to each low-dimensional marginal distribution. Despite its promising performance in practice, the statistical properties of marginal-based methods are rarely studied in the literature. In this paper, we study DP data synthesis algorithms based on Bayesian networks (BN) from a statistical perspective. We establish a rigorous accuracy guarantee for BN-based algorithms, where the errors are measured by the total variation (TV) distance or the $L^2$ distance. Related to downstream machine learning tasks, an upper bound for the utility error of the DP synthetic data is also derived. To complete the picture, we establish a lower bound for TV accuracy that holds for every $\epsilon$-DP synthetic data generator. | 翻訳日:2023-01-24 16:07:04 公開日:2023-01-21 |
# ガウス過程状態空間モデルの柔軟性と解釈可能性 Towards Flexibility and Interpretability of Gaussian Process State-Space Model ( http://arxiv.org/abs/2301.08843v1 ) ライセンス: Link先を確認 | Zhid Lin and Feng Yin | (参考訳) ガウス過程状態空間モデル(GPSSM)は過去10年間に多くの注目を集めてきた。
しかし、GPSSMのモデル表現力は十分ではない。
GPSSMの作業の多くは、二乗指数(SE)カーネルやMat\'{e}rnカーネルのような予備的なカーネルを持つ標準ガウス過程(GP)に依存しており、モデル表現力とその複雑なシナリオへの応用を制限する。
そこで本研究では,パラメータ正規化フローを通した標準GPSSMにおけるGPオーディエンスを豊かにすることで,状態空間モデルをより柔軟かつ表現性の高いものにする,新しい確率的状態空間モデルであるTGPSSMを提案する。
さらに,GPモデルの疎表現の利点を継承することにより,TGPSSMを学習し,潜在力学を同時に推定するスケーラブルかつ解釈可能な変分学習アルゴリズムを提案する。
制約付き最適化フレームワークを統合し,非ガウス状態の変動分布を明示的に構築することにより,TGPSSMは状態空間表現とモデル推論の能力を大幅に向上させることができる。
種々の合成および実データに基づく実験結果から,提案したTGPSSMは,いくつかの最先端手法と比較して,優れた学習と推論性能が得られることが示された。
ソースコードはhttps://github.com/zhidilin/tgpssmで入手できる。 Gaussian process state-space model (GPSSM) has attracted much attention over the past decade. However, the model representation power of GPSSM is far from satisfactory. Most GPSSM works rely on the standard Gaussian process (GP) with a preliminary kernel, such as squared exponential (SE) kernel and Mat\'{e}rn kernel, which limit the model representation power and its application in complex scenarios. To address this issue, this paper proposes a novel class of probabilistic state-space model named TGPSSM that enriches the GP priors in the standard GPSSM through parametric normalizing flow, making the state-space model more flexible and expressive. In addition, by inheriting the advantages of sparse representation of GP models, we propose a scalable and interpretable variational learning algorithm to learn the TGPSSM and infer the latent dynamics simultaneously. By integrating a constrained optimization framework and explicitly constructing a non-Gaussian state variational distribution, the proposed learning algorithm enables the TGPSSM to significantly improve the capabilities of state space representation and model inference. Experimental results based on various synthetic and real datasets corroborate that the proposed TGPSSM yields superior learning and inference performance compared to several state-of-the-art methods. The accompanying source code is available at https://github.com/zhidilin/TGPSSM. | 翻訳日:2023-01-24 16:06:47 公開日:2023-01-21 |
# 効率的ロバスト性認定のための区分線形性の限界 Limitations of Piecewise Linearity for Efficient Robustness Certification ( http://arxiv.org/abs/2301.08842v1 ) ライセンス: Link先を確認 | Klas Leino | (参考訳) 一般には文献よりもはるかに大きな半径でベンチマークデータセットが分離されていることが証明されているにもかかわらず、最先端の手法の認定された精度は非破壊的な手法よりもはるかに低いままである。
この研究では、パフォーマンスギャップの潜在的な要因を特定する洞察を提供する。
具体的には,一括線形性は先進認証技術の厳密性に基本的な制約を課している。
これらの制限は、効果的に認証されることを期待するモデルのキャパシティの必要性が高まるという、実際的な観点で感じられる。
さらに、これは以前の仕事で研究された堅牢な境界を学ぶのに必要な能力である。
しかし、モデル容量のスケールアップによる分割線形性の制限は、特に強固な一般化に関して潜在的な困難を生じさせる可能性があると論じ、よりスムーズなアクティベーション関数の開発が、認定されたニューラルネットワークの性能向上への道のりであると結論づける。 Certified defenses against small-norm adversarial examples have received growing attention in recent years; though certified accuracies of state-of-the-art methods remain far below their non-robust counterparts, despite the fact that benchmark datasets have been shown to be well-separated at far larger radii than the literature generally attempts to certify. In this work, we offer insights that identify potential factors in this performance gap. Specifically, our analysis reveals that piecewise linearity imposes fundamental limitations on the tightness of leading certification techniques. These limitations are felt in practical terms as a greater need for capacity in models hoped to be certified efficiently. Moreover, this is in addition to the capacity necessary to learn a robust boundary, studied in prior work. However, we argue that addressing the limitations of piecewise linearity through scaling up model capacity may give rise to potential difficulties -- particularly regarding robust generalization -- therefore, we conclude by suggesting that developing smooth activation functions may be the way forward for advancing the performance of certified neural networks. | 翻訳日:2023-01-24 16:06:25 公開日:2023-01-21 |
# 交流最適潮流のコンパクト最適化学習 Compact Optimization Learning for AC Optimal Power Flow ( http://arxiv.org/abs/2301.08840v1 ) ライセンス: Link先を確認 | Seonho Park, Wenbo Chen, Terrence W.K. Mak and Pascal Van Hentenryck | (参考訳) 本稿では,最適潮流(OPF)に対するエンドツーエンドの学習手法を再考する。
OPFの入出力マッピングを学習する既存の方法は、出力空間の高次元性に起因するスケーラビリティの問題に悩まされている。
本稿ではまず,主成分分析(PCA)を用いて最適解の空間を著しく圧縮できることを示す。
次に、ベクトルを元の出力空間に変換する前に、主成分の部分空間で学習する新しい方法であるコンパクト学習を提案する。
この圧縮により、トレーニング可能なパラメータの数は大幅に減少し、スケーラビリティと有効性が向上する。
Compact LearningはPGLibから最大30,000台のバスでさまざまなテストケースで評価されている。
また,小型学習の出力は,ACソルバを暖房して実現可能性の回復に役立てるとともに,大幅な高速化を実現することができることを示した。 This paper reconsiders end-to-end learning approaches to the Optimal Power Flow (OPF). Existing methods, which learn the input/output mapping of the OPF, suffer from scalability issues due to the high dimensionality of the output space. This paper first shows that the space of optimal solutions can be significantly compressed using principal component analysis (PCA). It then proposes Compact Learning, a new method that learns in a subspace of the principal components before translating the vectors into the original output space. This compression reduces the number of trainable parameters substantially, improving scalability and effectiveness. Compact Learning is evaluated on a variety of test cases from the PGLib with up to 30,000 buses. The paper also shows that the output of Compact Learning can be used to warm-start an exact AC solver to restore feasibility, while bringing significant speed-ups. | 翻訳日:2023-01-24 16:06:04 公開日:2023-01-21 |
# CNNの運用における信頼性評価に向けて Towards a Measure of Trustworthiness to Evaluate CNNs During Operation ( http://arxiv.org/abs/2301.08839v1 ) ライセンス: Link先を確認 | Abanoub Ghobrial, Hamid Asgari, Kerstin Eder | (参考訳) 畳み込みニューラルネットワーク(CNN)のブラックボックスの性質のため、動作中のCNN分類器の継続的な検証は不可能である。
その結果、開発者や規制機関がCNNを使用した自律システムのデプロイに自信を持つことが難しくなる。
本稿では,この課題を克服するための指標である分類スコア(TCS)の信頼性について紹介する。
CNNの予測における特定の特徴の存在をチェックすることにより、予測における信頼性を定量化する。
本手法とtcsの利用を実証するために,人物検出に関する事例研究を行った。 Due to black box nature of Convolutional neural networks (CNNs), the continuous validation of CNN classifiers' during operation is infeasible. As a result this makes it difficult for developers or regulators to gain confidence in the deployment of autonomous systems employing CNNs. We introduce the trustworthiness in classification score (TCS), a metric to assist with overcoming this challenge. The metric quantifies the trustworthiness in a prediction by checking for the existence of certain features in the predictions made by the CNN. A case study on persons detection is used to to demonstrate our method and the usage of TCS. | 翻訳日:2023-01-24 16:05:51 公開日:2023-01-21 |
# 限られた不均衡データを用いた深層学習のためのプレテキスト表現伝達 : CTによるCOVID-19検出への応用 Pre-text Representation Transfer for Deep Learning with Limited Imbalanced Data : Application to CT-based COVID-19 Detection ( http://arxiv.org/abs/2301.08888v1 ) ライセンス: Link先を確認 | Fouzia Altaf, Syed M. S. Islam, Naeem K. Janjua, Naveed Akhtar | (参考訳) 病気検出のための医用画像の注釈は、しばしば退屈で高価である。
さらに、与えられたタスクの利用可能なトレーニングサンプルは、一般的に不足し、不均衡である。
これらの条件は、効果的な深層神経モデルの学習には役に立たない。
したがって、自然画像で訓練されたニューラルネットワークを医用画像領域に「移す」のが一般的である。
しかし、このパラダイムは、自然画像データと医療画像データの間のドメイン間ギャップが大きいため、パフォーマンスに欠ける。
そこで本研究では,PRT(Pre-text Representation Transfer)の概念を提案する。
分類層を置換した後にソースモデルを微調整する従来の転送学習とは対照的に、prtは元の分類層を保持し、教師なしの事前テキストタスクを通じて表現層を更新する。
このタスクは、アノテーションを使わずに(本来は合成ではなく)医療画像で実行される。
これにより、大量のトレーニングデータによる表現転送が可能になる。
この高忠実度表現変換により、得られたモデルをより効率的な特徴抽出器として利用できる。
さらに,このモデルを用いて従来の移動学習も行うことができる。
我々は,モデルを特徴抽出器として活用する場合に,協調表現に基づく分類層を考案する。
我々は、このレイヤの出力を、従来の転送学習によって誘導されるモデルの予測と融合する。
本手法の限界・不均衡データ分類問題に対する有効性は,3種類の大規模モデルに対して5倍の精度で評価され,5種類のクラス不均衡比で検査された。
提案手法により従来の移動学習よりも一貫した効果が得られた。 Annotating medical images for disease detection is often tedious and expensive. Moreover, the available training samples for a given task are generally scarce and imbalanced. These conditions are not conducive for learning effective deep neural models. Hence, it is common to 'transfer' neural networks trained on natural images to the medical image domain. However, this paradigm lacks in performance due to the large domain gap between the natural and medical image data. To address that, we propose a novel concept of Pre-text Representation Transfer (PRT). In contrast to the conventional transfer learning, which fine-tunes a source model after replacing its classification layers, PRT retains the original classification layers and updates the representation layers through an unsupervised pre-text task. The task is performed with (original, not synthetic) medical images, without utilizing any annotations. This enables representation transfer with a large amount of training data. This high-fidelity representation transfer allows us to use the resulting model as a more effective feature extractor. Moreover, we can also subsequently perform the traditional transfer learning with this model. We devise a collaborative representation based classification layer for the case when we leverage the model as a feature extractor. We fuse the output of this layer with the predictions of a model induced with the traditional transfer learning performed over our pre-text transferred model. The utility of our technique for limited and imbalanced data classification problem is demonstrated with an extensive five-fold evaluation for three large-scale models, tested for five different class-imbalance ratios for CT based COVID-19 detection. Our results show a consistent gain over the conventional transfer learning with the proposed method. | 翻訳日:2023-01-24 16:00:12 公開日:2023-01-21 |
# 入射型ニューラル表現学習のための可逆的ニューラルプロセス Versatile Neural Processes for Learning Implicit Neural Representations ( http://arxiv.org/abs/2301.08883v1 ) ライセンス: Link先を確認 | Zongyu Guo, Cuiling Lan, Zhizheng Zhang, Zhibo Chen, Yan Lu | (参考訳) 近年,ニューラルネットワーク(Inmplicit Neural Representations, INRs)によってパラメータ化された連続関数としての信号の表現が注目されている。
部分的観測(コンテキスト集合)に基づく関数上の分布をモデル化するニューラルプロセス(nps)は、連続関数の高速推論のための実用的なソリューションを提供する。
しかし、既存のNPアーキテクチャは複雑な信号のモデリング能力に劣る。
本稿では,VNP(Versatile Neural Processes)と呼ばれる効率的なNPフレームワークを提案する。
具体的には,高いモデリング能力を提供しながら,高い計算コストを軽減し,より少ないかつ情報的なコンテキストトークンを生成するボトルネックエンコーダを導入する。
デコーダ側では,グローバル構造と関数の不確かさを協調的にモデル化する複数のグローバル潜在変数を階層的に学習し,複雑な信号の分布を捉えることができる。
1D, 2D, 3D信号を含む様々なタスクにおけるVNPの有効性を示す。
特に本手法は,高精度な3dシーンの学習に有望であることを示す。 Representing a signal as a continuous function parameterized by neural network (a.k.a. Implicit Neural Representations, INRs) has attracted increasing attention in recent years. Neural Processes (NPs), which model the distributions over functions conditioned on partial observations (context set), provide a practical solution for fast inference of continuous functions. However, existing NP architectures suffer from inferior modeling capability for complex signals. In this paper, we propose an efficient NP framework dubbed Versatile Neural Processes (VNP), which largely increases the capability of approximating functions. Specifically, we introduce a bottleneck encoder that produces fewer and informative context tokens, relieving the high computational cost while providing high modeling capability. At the decoder side, we hierarchically learn multiple global latent variables that jointly model the global structure and the uncertainty of a function, enabling our model to capture the distribution of complex signals. We demonstrate the effectiveness of the proposed VNP on a variety of tasks involving 1D, 2D and 3D signals. Particularly, our method shows promise in learning accurate INRs w.r.t. a 3D scene without further finetuning. | 翻訳日:2023-01-24 15:59:50 公開日:2023-01-21 |
# Dr.Spider: テキストからSQLへのロバストネスに対する診断評価ベンチマーク Dr.Spider: A Diagnostic Evaluation Benchmark towards Text-to-SQL Robustness ( http://arxiv.org/abs/2301.08881v1 ) ライセンス: Link先を確認 | Shuaichen Chang, Jun Wang, Mingwen Dong, Lin Pan, Henghui Zhu, Alexander Hanbo Li, Wuwei Lan, Sheng Zhang, Jiarong Jiang, Joseph Lilien, Steve Ash, William Yang Wang, Zhiguo Wang, Vittorio Castelli, Patrick Ng, Bing Xiang | (参考訳) ニューラルテキストからSQLへのモデルでは、自然言語の質問をSQLクエリに変換することで、優れたパフォーマンスを実現している。
しかし、最近の研究では、テキスト・トゥ・SQLモデルがタスク固有の摂動に弱いことが示されている。
以前の硬化した堅牢性テストセットは、通常個々の現象に焦点を当てる。
本稿では,モデルロバストネスを診断するためのクロスドメインテキスト-SQLベンチマークであるSpiderに基づく総合ロバストネスベンチマークを提案する。
データベース,自然言語質問,SQLクエリに対して17の摂動を設計し,異なる角度からロバスト性を測定する。
より多様化した自然質問の摂動を収集するために,大規模事前学習言語モデル (plm) を用いて人間の行動をシミュレートし,自然質問を作成する。
我々は,ロバスト性セットに関する最先端モデルの診断研究を行う。
実験の結果、最も頑健なモデルでさえ、全体的なパフォーマンス低下が14.0%、最も難しい摂動が50.7%低下していることが判明した。
また,テキストからsqlへのモデル設計に関する概説分析を行い,モデルのロバスト性を改善するための洞察を提供する。 Neural text-to-SQL models have achieved remarkable performance in translating natural language questions into SQL queries. However, recent studies reveal that text-to-SQL models are vulnerable to task-specific perturbations. Previous curated robustness test sets usually focus on individual phenomena. In this paper, we propose a comprehensive robustness benchmark based on Spider, a cross-domain text-to-SQL benchmark, to diagnose the model robustness. We design 17 perturbations on databases, natural language questions, and SQL queries to measure the robustness from different angles. In order to collect more diversified natural question perturbations, we utilize large pretrained language models (PLMs) to simulate human behaviors in creating natural questions. We conduct a diagnostic study of the state-of-the-art models on the robustness set. Experimental results reveal that even the most robust model suffers from a 14.0% performance drop overall and a 50.7% performance drop on the most challenging perturbation. We also present a breakdown analysis regarding text-to-SQL model designs and provide insights for improving model robustness. | 翻訳日:2023-01-24 15:59:31 公開日:2023-01-21 |
# 多周波フィルム強調学習のための大規模フィルムスタイルデータセット A Large-scale Film Style Dataset for Learning Multi-frequency Driven Film Enhancement ( http://arxiv.org/abs/2301.08880v1 ) ライセンス: Link先を確認 | Xuhang Chen, Zinuo Li, Chi-Man Pun, Shuqiang Wang | (参考訳) 古典的なイメージスタイルであるフィルムは、写真産業全体にとって文化的に重要なものである。
しかし、フィルム写真は時間がかかり高価であり、より効率的なフィルム写真の収集方法が必要である。
これまで画像強調の分野で現れた多くのデータセットは、フィルム固有のものではない。
フィルムベースの画像スタイリング研究を容易にするため,大規模かつ高品質なフィルムスタイルデータセットであるFilmSetを構築した。
我々のデータセットには3つの異なるフィルムタイプと5000以上の高解像度画像が含まれている。
フィルムセット画像の特徴に触発されて,ラプラシアンピラミッドに基づく新たな枠組みである filmnet を提案する。
実験の結果,我々のモデルの性能は最先端技術よりも優れていることがわかった。
私たちのデータセットとコードは公開される予定だ。 Film, a classic image style, is culturally significant to the whole photographic industry since it marks the birth of photography. However, film photography is time-consuming and expensive, necessitating a more efficient method for collecting film-style photographs. Numerous datasets that have emerged in the field of image enhancement so far are not film-specific. In order to facilitate film-based image stylization research, we construct FilmSet, a large-scale and high-quality film style dataset. Our dataset includes three different film types and more than 5000 in-the-wild high resolution images. Inspired by the features of FilmSet images, we propose a novel framework called FilmNet based on Laplacian Pyramid for stylizing images across frequency bands and achieving film style outcomes. Experiments reveal that the performance of our model is superior than state-of-the-art techniques. Our dataset and code will be made publicly available. | 翻訳日:2023-01-24 15:59:14 公開日:2023-01-21 |
# 最適な意思決定のために鉄道車両に健康スコアを割り当てるハイブリッド機械学習モデルの開発 Developing Hybrid Machine Learning Models to Assign Health Score to Railcar Fleets for Optimal Decision Making ( http://arxiv.org/abs/2301.08877v1 ) ライセンス: Link先を確認 | Mahyar Ejlali, Ebrahim Arian, Sajjad Taghiyeh, Kristina Chambers, Amir Hossein Sadeghi, Demet Cakdi, Robert B Handfield | (参考訳) 鉄道車両の運用中に大量のデータが生成され、次元的災害に容易につながり、鉄道車両網の回復力を低減することができる。
これらの課題を解決し,予測的メンテナンスを実現するために,アプリケーションにおける密度に基づく空間クラスタリングとノイズ(DBSCAN)と主成分分析(PCA)を組み合わせたハイブリッド障害診断エキスパートシステムを提案する。
第一に、DBSCAN法は同一グループ内で互いに類似した分類データをクラスタリングするために用いられる。
第二に,PCAアルゴリズムを用いてデータの次元を小さくし,冗長性を排除し,故障診断の精度を向上させる。
最後に,AUC(Gain Chart and Area Under Curve)メトリクスを用いて,設計した特徴を説明し,選択したモデルを評価する。
我々は、北米鉄道所有者(NARO)の鉄道車両システムに健康スコアを割り当てることで、ハイブリッド専門家システムモデルを用いて、メンテナンス計画決定を強化する。
実験結果によると、サンプルの50%以内に96.4%の障害を検出することができる。
本手法は,鉄道車両の故障診断に有効であることが示唆された。 A large amount of data is generated during the operation of a railcar fleet, which can easily lead to dimensional disaster and reduce the resiliency of the railcar network. To solve these issues and offer predictive maintenance, this research introduces a hybrid fault diagnosis expert system method that combines density-based spatial clustering of applications with noise (DBSCAN) and principal component analysis (PCA). Firstly, the DBSCAN method is used to cluster categorical data that are similar to one another within the same group. Secondly, PCA algorithm is applied to reduce the dimensionality of the data and eliminate redundancy in order to improve the accuracy of fault diagnosis. Finally, we explain the engineered features and evaluate the selected models by using the Gain Chart and Area Under Curve (AUC) metrics. We use the hybrid expert system model to enhance maintenance planning decisions by assigning a health score to the railcar system of the North American Railcar Owner (NARO). According to the experimental results, our expert model can detect 96.4% of failures within 50% of the sample. This suggests that our method is effective at diagnosing failures in railcars fleet. | 翻訳日:2023-01-24 15:59:01 公開日:2023-01-21 |
# 手作り特徴を用いたゼロショット動作認識の精度向上 Improving Accuracy of Zero-Shot Action Recognition with Handcrafted Features ( http://arxiv.org/abs/2301.08874v1 ) ライセンス: Link先を確認 | Nan Wu, Hiroshi Kera, Kazuhiko Kawamoto | (参考訳) 機械学習の開発により、モデルのデータセットはますます大きくなっている。
これにより、データアノテーションのコストとトレーニング時間が増加し、機械学習の開発を妨げていることは間違いない。
この問題を解決するためにゼロショット学習が注目されている。
ゼロショット学習では、これまで見たことのないオブジェクトを認識または分類することができる。
それでも、この手法の精度は依然として低く、実用的な応用を制限している。
そこで本研究では,手作りの特徴から学ぶことのできるビデオテキストマッチングモデルを提案する。
我々のモデルは単独でアクションクラスを予測することができ、その精度を向上させるために他のモデルに追加することもできる。
さらに、このモデルは精度を向上させるために継続的に最適化することができる。
いくつかの機能を手動でアノテートするだけで、いくつかの労働コストが発生します。
UCF101 と HMDB51 で得られた結果から,本モデルの精度は向上し,他のモデルの精度も向上した。 With the development of machine learning, datasets for models are getting increasingly larger. This leads to increased data annotation costs and training time, which undoubtedly hinders the development of machine learning. To solve this problem, zero-shot learning is gaining considerable attention. With zero-shot learning, objects can be recognized or classified, even without having been seen before. Nevertheless, the accuracy of this method is still low, thus limiting its practical application. To solve this problem, we propose a video-text matching model, which can learn from handcrafted features. Our model can be used alone to predict the action classes and can also be added to any other model to improve its accuracy. Moreover, our model can be continuously optimized to improve its accuracy. We only need to manually annotate some features, which incurs some labor costs; in many situations, the costs are worth it. The results with UCF101 and HMDB51 show that our model achieves the best accuracy and also improves the accuracies of other models. | 翻訳日:2023-01-24 15:58:43 公開日:2023-01-21 |
# Ti-MAE:自己監督型マスク付きタイムシリーズオートエンコーダ Ti-MAE: Self-Supervised Masked Time Series Autoencoders ( http://arxiv.org/abs/2301.08871v1 ) ライセンス: Link先を確認 | Zhe Li, Zhongwen Rao, Lujia Pan, Pengyun Wang, Zenglin Xu | (参考訳) 多変量時系列の予測は、様々なアプリケーションやシナリオでますます人気のあるトピックとなっている。
近年,多くの長期連続予測タスクにおいて,コントラスト学習とトランスフォーマーに基づくモデルの性能が向上している。
しかし、既存の手法にはいくつかの問題がある。
まず、コントラスト学習と下流予測タスクのトレーニングパラダイムは一貫性がなく、不正確な予測結果につながる。
第2に、過去の時系列データに類似したパターンを取り入れたトランスフォーマーベースの既存モデルは、一般に分布シフトの問題を引き起こすが、自己管理手法と比較してシーケンス情報を十分に活用しない。
これらの問題に対処するために,入力時系列が統合分布に従うと仮定した,Ti-MAEという新しいフレームワークを提案する。
詳細は、Ti-MAEが組込み時系列データをランダムにマスクアウトし、オートエンコーダを学習してポイントレベルで再構築する。
Ti-MAEは、マスクモデリングを補助タスクとして採用し、既存の表現学習と生成トランスフォーマーベースの手法の接続をブリッジし、元の時系列データの利用を維持しながら上流と下流の予測タスクの違いを減らす。
いくつかの公開実世界のデータセットの実験では、マスク付きオートエンコーディングのフレームワークが生データから直接強力な表現を学習し、時系列予測や分類タスクのパフォーマンスが向上することを示した。 Multivariate Time Series forecasting has been an increasingly popular topic in various applications and scenarios. Recently, contrastive learning and Transformer-based models have achieved good performance in many long-term series forecasting tasks. However, there are still several issues in existing methods. First, the training paradigm of contrastive learning and downstream prediction tasks are inconsistent, leading to inaccurate prediction results. Second, existing Transformer-based models which resort to similar patterns in historical time series data for predicting future values generally induce severe distribution shift problems, and do not fully leverage the sequence information compared to self-supervised methods. To address these issues, we propose a novel framework named Ti-MAE, in which the input time series are assumed to follow an integrate distribution. In detail, Ti-MAE randomly masks out embedded time series data and learns an autoencoder to reconstruct them at the point-level. Ti-MAE adopts mask modeling (rather than contrastive learning) as the auxiliary task and bridges the connection between existing representation learning and generative Transformer-based methods, reducing the difference between upstream and downstream forecasting tasks while maintaining the utilization of original time series data. Experiments on several public real-world datasets demonstrate that our framework of masked autoencoding could learn strong representations directly from the raw data, yielding better performance in time series forecasting and classification tasks. | 翻訳日:2023-01-24 15:58:29 公開日:2023-01-21 |
# 累積回帰の下でのフェデレーション学習のための通信効率の良い適応アルゴリズム A Communication-Efficient Adaptive Algorithm for Federated Learning under Cumulative Regret ( http://arxiv.org/abs/2301.08869v1 ) ライセンス: Link先を確認 | Sudeep Salgia, Karthik Murthy, Qing Zhao, Tamir Gabay, Kobi Cohen | (参考訳) 中央サーバを介して接続されたM$のクライアントを持つ分散環境でのオンライン確率最適化の問題点を考察する。
学習地平線全体を通して送信されるビットの総数で測定される通信コストを低くして,順序最適累積後悔を実現する分散オンライン学習アルゴリズムを開発した。
これは、学習効率に対する単純な後悔のオフライン尺度に焦点を当てた既存の研究とは対照的である。
通信コストの全体論的な尺度は、各通信ラウンドの通信周波数とビット数を扱う一般的なアプローチからも離れている。 We consider the problem of online stochastic optimization in a distributed setting with $M$ clients connected through a central server. We develop a distributed online learning algorithm that achieves order-optimal cumulative regret with low communication cost measured in the total number of bits transmitted over the entire learning horizon. This is in contrast to existing studies which focus on the offline measure of simple regret for learning efficiency. The holistic measure for communication cost also departs from the prevailing approach that \emph{separately} tackles the communication frequency and the number of bits in each communication round. | 翻訳日:2023-01-24 15:58:06 公開日:2023-01-21 |
# MRI再建のための動的MLP Dynamic MLP for MRI Reconstruction ( http://arxiv.org/abs/2301.08868v1 ) ライセンス: Link先を確認 | Chi Zhang, Eric Z. Chen, Xiao Chen, Yikang Liu, Terrence Chen, Shanhui Sun | (参考訳) 畳み込みニューラルネットワーク(CNN)が磁気共鳴イメージング(MRI)の最も成功した再構成技術となったため、CNNは特に鋭さにおいて画像品質の限界に達する。
画像品質のさらなる改善は、しばしば膨大な計算コストを伴い、クリニック環境での実践性を妨げる。
MRI再構成は本質的にはデコンボリューション問題であり、小さなコンボリューションカーネルを持つCNNが取得し難い長距離情報を必要とする。
多層パーセプトロン(mlp)は、このような長距離情報をモデル化することができるが、クリニックの設定では柔軟な解像度で画像の再構成が必要な間、一定の入力サイズを制限することができる。
本稿では,任意の画像サイズを受け入れる動的MLP(dMLP)を特徴とするハイブリッドCNNとMPP再構成戦略を提案する。
3次元マルチコイルMRIを用いて実験を行った。
その結果,提案するdmlpはcnnに比べて画像のシャープ性が向上し,gpuメモリや計算時間も小さくなることが示唆された。
さらに、提案したdMLPとCNNを比較し、1DのdMLPのスタックと1Dの畳み込みを用いたCNNを用いた純粋なMLPベースの再構成を検討した。
我々は、拡大した受容野が画像品質を著しく向上しているのを観察したが、大きなカーネルでcnnを使用するとトレーニングが困難になる。
注目に値することに、純粋なMLPベースの手法は、自然画像に対する他のコンピュータビジョンタスクの観察と一致するCNNの手法により、性能が向上している。 As convolutional neural networks (CNN) become the most successful reconstruction technique for accelerated Magnetic Resonance Imaging (MRI), CNN reaches its limit on image quality especially in sharpness. Further improvement on image quality often comes at massive computational costs, hindering their practicability in the clinic setting. MRI reconstruction is essentially a deconvolution problem, which demands long-distance information that is difficult to be captured by CNNs with small convolution kernels. The multi-layer perceptron (MLP) is able to model such long-distance information, but it restricts a fixed input size while the reconstruction of images in flexible resolutions is required in the clinic setting. In this paper, we proposed a hybrid CNN and MLP reconstruction strategy, featured by dynamic MLP (dMLP) that accepts arbitrary image sizes. Experiments were conducted using 3D multi-coil MRI. Our results suggested the proposed dMLP can improve image sharpness compared to its pure CNN counterpart, while costing minor additional GPU memory and computation time. We further compared the proposed dMLP with CNNs using large kernels and studied pure MLP-based reconstruction using a stack of 1D dMLPs, as well as its CNN counterpart using only 1D convolutions. We observed the enlarged receptive field has noticeably improved image quality, while simply using CNN with a large kernel leads to difficulties in training. Noticeably, the pure MLP-based method has been outperformed by CNN-involved methods, which matches the observations in other computer vision tasks for natural images. | 翻訳日:2023-01-24 15:57:56 公開日:2023-01-21 |
# 分散マルチエージェントフィルタリング Decentralized Multi-agent Filtering ( http://arxiv.org/abs/2301.08864v1 ) ライセンス: Link先を確認 | Dom Huh, Prasant Mohapatra | (参考訳) 本稿では、離散状態空間におけるマルチエージェントローカライゼーションアプリケーションに対する分散通信の導入に伴う考察について述べる。
本研究では,情報伝達の手法として欲求共有のステップを付加することにより,離散状態推定のための基礎的確率的ツールであるベイズフィルタのオリジナルの定式化を拡大する。
我々は,各エージェントが各エージェントの状態に対する信念分布を保持するモデルに基づくマルチエージェントグリッドの世界設定に適用する。
本研究は,分散協調作業における提案する拡張の有用性を裏付けるものである。
この作業のコードベースは、以下のリポジトリで利用可能である。 This paper addresses the considerations that comes along with adopting decentralized communication for multi-agent localization applications in discrete state spaces. In this framework, we extend the original formulation of the Bayes filter, a foundational probabilistic tool for discrete state estimation, by appending a step of greedy belief sharing as a method to propagate information and improve local estimates' posteriors. We apply our work in a model-based multi-agent grid-world setting, where each agent maintains a belief distribution for every agents' state. Our results affirm the utility of our proposed extensions for decentralized collaborative tasks. The code base for this work is available in the following repo | 翻訳日:2023-01-24 15:57:10 公開日:2023-01-21 |
# サイン付きメッセージはグラフニューラルネットワークに必須か? Is Signed Message Essential for Graph Neural Networks? ( http://arxiv.org/abs/2301.08918v1 ) ライセンス: Link先を確認 | Yoonhyuk Choi, Jiho Choi, Taewook Ko, Chong-Kwon Kim | (参考訳) 隣接ノードから情報を収集するメッセージパスグラフニューラルネットワーク(GNN)は、ホモ親和性グラフの満足度を達成している。
しかし、その性能は不均一であり、多くの研究者がこの問題を解決するためのスキームを提案している。
特に、エッジの符号をひっくり返すことは強い理論的基礎に根ざしており、大幅な性能向上を達成している。
それでも、以前の分析ではバイナリクラスのシナリオを前提としており、適用性に制限がある可能性がある。
本稿では,先行理解をマルチクラスシナリオに拡張し,(1) マルチホップ近傍のサインはメッセージ伝達経路に依存し,不整合を生じさせる可能性があること,(2) アルゴリズムの安定性を阻害する予測の不確実性(例えば競合証拠)を高めること,の2つの欠点を指摘した。
理論的理解に基づいて,マルチクラスグラフに適用可能な新しい戦略を導入する。
提案手法は信頼度校正とロバスト性を確保しつつ不確実性を低減する。
6つのベンチマークグラフデータセットに対する広範な実験により,本定理の有効性を示す。 Message-passing Graph Neural Networks (GNNs), which collect information from adjacent nodes, achieve satisfying results on homophilic graphs. However, their performances are dismal in heterophilous graphs, and many researchers have proposed a plethora of schemes to solve this problem. Especially, flipping the sign of edges is rooted in a strong theoretical foundation, and attains significant performance enhancements. Nonetheless, previous analyses assume a binary class scenario and they may suffer from confined applicability. This paper extends the prior understandings to multi-class scenarios and points out two drawbacks: (1) the sign of multi-hop neighbors depends on the message propagation paths and may incur inconsistency, (2) it also increases the prediction uncertainty (e.g., conflict evidence) which can impede the stability of the algorithm. Based on the theoretical understanding, we introduce a novel strategy that is applicable to multi-class graphs. The proposed scheme combines confidence calibration to secure robustness while reducing uncertainty. We show the efficacy of our theorem through extensive experiments on six benchmark graph datasets. | 翻訳日:2023-01-24 15:51:21 公開日:2023-01-21 |
# 順序エントロピーによる深い回帰の改善 Improving Deep Regression with Ordinal Entropy ( http://arxiv.org/abs/2301.08915v1 ) ライセンス: Link先を確認 | Shihao Zhang, Linlin Yang, Michael Bi Mi, Xiaoxu Zheng, Angela Yao | (参考訳) コンピュータビジョンでは、回帰問題を分類タスクとして定式化することで、パフォーマンスが向上することがしばしば観察される。
この奇妙な現象を調査し,クロスエントロピー損失を伴う分類が,平均2乗誤差損失を伴う回帰よりも高いエントロピー特徴表現を学習する能力が優れていることを示す導出を提供する。
そこで本研究では,順序関係を維持しつつ高エントロピー特徴空間を奨励し,回帰タスクの性能を向上させるための順序エントロピー損失を提案する。
合成および実世界の回帰タスクの実験は、回帰に対するエントロピーの増加の重要性と利点を示している。 In computer vision, it is often observed that formulating regression problems as a classification task often yields better performance. We investigate this curious phenomenon and provide a derivation to show that classification, with the cross-entropy loss, outperforms regression with a mean squared error loss in its ability to learn high-entropy feature representations. Based on the analysis, we propose an ordinal entropy loss to encourage higher-entropy feature spaces while maintaining ordinal relationships to improve the performance of regression tasks. Experiments on synthetic and real-world regression tasks demonstrate the importance and benefits of increasing entropy for regression. | 翻訳日:2023-01-24 15:51:03 公開日:2023-01-21 |
# ExClaim: 合理化を用いた説明可能なニューラルクレーム検証 ExClaim: Explainable Neural Claim Verification Using Rationalization ( http://arxiv.org/abs/2301.08914v1 ) ライセンス: Link先を確認 | Sai Gurrapu, Lifu Huang, Feras A. Batarseh | (参考訳) ディープラーニングの登場により、テキスト生成言語モデルは劇的に改善され、テキストは人間の書いたテキストと同じレベルになった。
これにより、コンテンツが安価に作成され、迅速に配布できるため、誤った情報が急増する可能性がある。
自動クレーム検証手法はクレームを検証するために存在するが、基礎的なデータがなく、しばしば特定の議題に強く偏っている証拠源として主流のニュースを使用する。
現在のクレーム検証方法は、ディープニューラルネットワークモデルと複雑なアルゴリズムを高い分類精度で使用するが、モデル説明可能性の犠牲になる。
モデルはブラックボックスであり、彼らの意思決定プロセスと最終予測に到達するのに要したステップはユーザーから無視される。
根拠のある説明可能なクレーム検証システムを提供しようとする,新たなクレーム検証手法を提案する。
法体系にインスパイアされたExClaimは、合理化を利用してクレームの評定を提供し、自然言語の説明(合理)を通じて判断を正当化し、モデルの意思決定プロセスを記述する。
ExClaimは、検証分類タスクを質問応答問題として扱い、0.93 F1スコアのパフォーマンスを達成する。
中間の結果を正当化するためのサブタスクの説明も提供する。
統計的および説明可能なAI(XAI)の評価は、有効で信頼性の高い結果を保証するために行われる。
クレーム検証システムを保証することは、人間とAIの信頼とブラックボックスシステムのアクセシビリティを向上させるための重要なステップである。 With the advent of deep learning, text generation language models have improved dramatically, with text at a similar level as human-written text. This can lead to rampant misinformation because content can now be created cheaply and distributed quickly. Automated claim verification methods exist to validate claims, but they lack foundational data and often use mainstream news as evidence sources that are strongly biased towards a specific agenda. Current claim verification methods use deep neural network models and complex algorithms for a high classification accuracy but it is at the expense of model explainability. The models are black-boxes and their decision-making process and the steps it took to arrive at a final prediction are obfuscated from the user. We introduce a novel claim verification approach, namely: ExClaim, that attempts to provide an explainable claim verification system with foundational evidence. Inspired by the legal system, ExClaim leverages rationalization to provide a verdict for the claim and justifies the verdict through a natural language explanation (rationale) to describe the model's decision-making process. ExClaim treats the verdict classification task as a question-answer problem and achieves a performance of 0.93 F1 score. It provides subtasks explanations to also justify the intermediate outcomes. Statistical and Explainable AI (XAI) evaluations are conducted to ensure valid and trustworthy outcomes. Ensuring claim verification systems are assured, rational, and explainable is an essential step toward improving Human-AI trust and the accessibility of black-box systems. | 翻訳日:2023-01-24 15:50:50 公開日:2023-01-21 |
# 複雑な推論のための構造推論と言語モデル事前学習 Unifying Structure Reasoning and Language Model Pre-training for Complex Reasoning ( http://arxiv.org/abs/2301.08913v1 ) ライセンス: Link先を確認 | Siyuan Wang, Zhongyu Wei, Jiarong Xu, Zhihao Fan | (参考訳) 近年,言語モデルに外部からの構造化知識を組み込むことで,下流タスクにおいて顕著な性能を示した。
しかし、それらは通常、異種情報アライメント問題とノイズの多い知識注入問題に悩まされる。
複雑な推論では、文脈は一般に複雑でスパースな形式に存在する豊富な知識を含む。
構造化知識を文脈でモデル化し,これら2つの問題を回避すべく,構造推論と言語モデルの事前学習を統一する。
文脈から基本知識構造を識別して構造化クエリを構築するとともに、ボックス埋め込み法を用いて、言語モデリング中にクエリに沿って明示的な構造推論を行う。
テキストと構造化セマンティクスを融合するために,知識構造の文脈言語表現を用いてボックス埋め込みを初期化して構造推論を行う。
複雑な言語推論と知識グラフ(KG)推論タスクの実験を行う。
その結果,本モデルは言語とkgの複雑な推論の性能を効果的に向上できることがわかった。 Recent knowledge enhanced pre-trained language models have shown remarkable performance on downstream tasks by incorporating structured knowledge from external sources into language models. However, they usually suffer from a heterogeneous information alignment problem and a noisy knowledge injection problem. For complex reasoning, the contexts contain rich knowledge that typically exists in complex and sparse forms. In order to model structured knowledge in the context and avoid these two problems, we propose to unify structure reasoning and language model pre-training. It identifies four types of elementary knowledge structures from contexts to construct structured queries, and utilizes the box embedding method to conduct explicit structure reasoning along queries during language modeling. To fuse textual and structured semantics, we utilize contextual language representations of knowledge structures to initialize their box embeddings for structure reasoning. We conduct experiments on complex language reasoning and knowledge graph (KG) reasoning tasks. The results show that our model can effectively enhance the performance of complex reasoning of both language and KG modalities. | 翻訳日:2023-01-24 15:50:21 公開日:2023-01-21 |
# 説明可能なnlpの合理化:調査 Rationalization for Explainable NLP: A Survey ( http://arxiv.org/abs/2301.08912v1 ) ライセンス: Link先を確認 | Sai Gurrapu, Ajay Kulkarni, Lifu Huang, Ismini Lourentzou, Laura Freeman, Feras A. Batarseh | (参考訳) 近年のディープラーニングの進歩により、翻訳、質問応答、テキスト分類など多くの自然言語処理(NLP)タスクのパフォーマンスが向上している。
しかし、この改善はモデル説明可能性の犠牲になる。
ブラックボックスモデルは、システムの内部と出力に到達するのに要するプロセスを理解するのを難しくします。
数値 (LIME, Shapley) と可視化 (Saliency Heatmap) の説明可能性技術は有用であるが, 専門知識を必要とするため不十分である。
これらの要因により合理化はnlpにおいてより説明しやすい技術として出現した。
合理化は自然言語説明 (rationale) を提供することでモデルの出力を正当化する。
最近の自然言語生成の改善により、合理化は直感的で、人間に理解しやすく、非技術ユーザにもアクセスしやすく、魅力的な技術となった。
合理化は比較的新しい分野であるため、分解される。
最初の調査として、2007-2022年のNLPにおける合理化文献を分析した。
この調査では、合理化を利用するさまざまなNLPタスクで使用されるメソッド、説明可能な評価、コード、データセットを提示する。
さらに、説明可能なAI(XAI)の新たなサブフィールド、すなわちRational AI(RAI)を導入して、現在の合理化の状態を推し進める。
有望な研究機会を示すために、観察された洞察、課題、今後の方向性に関する議論が提供される。 Recent advances in deep learning have improved the performance of many Natural Language Processing (NLP) tasks such as translation, question-answering, and text classification. However, this improvement comes at the expense of model explainability. Black-box models make it difficult to understand the internals of a system and the process it takes to arrive at an output. Numerical (LIME, Shapley) and visualization (saliency heatmap) explainability techniques are helpful; however, they are insufficient because they require specialized knowledge. These factors led rationalization to emerge as a more accessible explainable technique in NLP. Rationalization justifies a model's output by providing a natural language explanation (rationale). Recent improvements in natural language generation have made rationalization an attractive technique because it is intuitive, human-comprehensible, and accessible to non-technical users. Since rationalization is a relatively new field, it is disorganized. As the first survey, rationalization literature in NLP from 2007-2022 is analyzed. This survey presents available methods, explainable evaluations, code, and datasets used across various NLP tasks that use rationalization. Further, a new subfield in Explainable AI (XAI), namely, Rational AI (RAI), is introduced to advance the current state of rationalization. A discussion on observed insights, challenges, and future directions is provided to point to promising research opportunities. | 翻訳日:2023-01-24 15:50:06 公開日:2023-01-21 |
# 擬似微分作用素の効率的な量子ブロック符号化について On efficient quantum block encoding of pseudo-differential operators ( http://arxiv.org/abs/2301.08908v1 ) ライセンス: Link先を確認 | Haoya Li, Hongkang Ni, Lexing Ying | (参考訳) ブロック符号化は多くの既存の量子アルゴリズムの中核にある。
一方、高密度作用素の効率的かつ明示的なブロック符号化は、一般に難しい問題として認識される。
本稿では、擬微分演算子(PDOs)と呼ばれる高密度演算子のリッチなファミリーのブロック符号化に関する包括的研究を行う。
まず、汎用PDOのブロック符号化方式を開発する。
次に、分離可能な構造を持つPDOのより効率的なスキームを提案する。
最後に,完全分離構造を持つpdoに対する明示的かつ効率的なブロック符号化アルゴリズムを示す。
複雑度解析は、提示された全てのブロック符号化アルゴリズムに対して提供される。
理論結果の適用例は、変数係数楕円演算子の表現や、量子線形系アルゴリズム(QLSA)を起動せずに楕円演算子の逆演算などである。 Block encoding lies at the core of many existing quantum algorithms. Meanwhile, efficient and explicit block encodings of dense operators are commonly acknowledged as a challenging problem. This paper presents a comprehensive study of the block encoding of a rich family of dense operators: the pseudo-differential operators (PDOs). First, a block encoding scheme for generic PDOs is developed. Then we propose a more efficient scheme for PDOs with a separable structure. Finally, we demonstrate an explicit and efficient block encoding algorithm for PDOs with a dimension-wise fully separable structure. Complexity analysis is provided for all block encoding algorithms presented. The application of theoretical results is illustrated with worked examples, including the representation of variable coefficient elliptic operators and the computation of the inverse of elliptic operators without invoking quantum linear system algorithms (QLSAs). | 翻訳日:2023-01-24 15:49:44 公開日:2023-01-21 |
# 逐次学習を用いた連続輪郭型インスタンスセグメンテーション Recurrent Contour-based Instance Segmentation with Progressive Learning ( http://arxiv.org/abs/2301.08898v1 ) ライセンス: Link先を確認 | Hao Feng, Wengang Zhou, Yufei Yin, Jiajun Deng, Qi Sun, and Houqiang Li | (参考訳) contourベースのインスタンスセグメンテーションは、複雑なバックグラウンド内でビジュアルオブジェクトを処理する柔軟性とエレガンスのおかげで、活発に研究されている。
本稿では,輪郭に基づくインスタンス分割のための新しいディープネットワークアーキテクチャ,すなわちpolysnakeを提案する。
古典的な Snake アルゴリズムに動機付け,提案した PolySnake は反復的・進行的輪郭改良戦略により,優れた,堅牢なセグメンテーション性能を実現する。
技術的には、PolySnakeは繰り返し更新演算子を導入し、オブジェクトの輪郭を反復的に見積もる。
それは、オブジェクト境界に向かって徐々に変形する輪郭の単一の推定を維持する。
それぞれのイテレーションで、PolySnakeは現在の輪郭のセマンティックリッチな表現を構築し、それをリカレント演算子に供給し、さらなる輪郭調整を行う。
反復的な改良を通じて、輪郭は最終的に、オブジェクトインスタンスを密に囲む安定した状態へと徐々に収束する。
さらに、繰り返しアーキテクチャのコンパクトな設計により、複数イテレーションでの実行効率を確保する。
提案手法のメリットを検証するために広範な実験を行い,提案手法が複数の一般的なインスタンスセグメンテーションベンチマークにおいて,既存のcontourベースのインスタンスセグメンテーション手法よりも優れていることを示す。
コードとモデルはhttps://github.com/fh2019ustc/polysnakeで入手できる。 Contour-based instance segmentation has been actively studied, thanks to its flexibility and elegance in processing visual objects within complex backgrounds. In this work, we propose a novel deep network architecture, i.e., PolySnake, for contour-based instance segmentation. Motivated by the classic Snake algorithm, the proposed PolySnake achieves superior and robust segmentation performance with an iterative and progressive contour refinement strategy. Technically, PolySnake introduces a recurrent update operator to estimate the object contour iteratively. It maintains a single estimate of the contour that is progressively deformed toward the object boundary. At each iteration, PolySnake builds a semantic-rich representation for the current contour and feeds it to the recurrent operator for further contour adjustment. Through the iterative refinements, the contour finally progressively converges to a stable status that tightly encloses the object instance. Moreover, with a compact design of the recurrent architecture, we ensure the running efficiency under multiple iterations. Extensive experiments are conducted to validate the merits of our method, and the results demonstrate that the proposed PolySnake outperforms the existing contour-based instance segmentation methods on several prevalent instance segmentation benchmarks. The codes and models are available at https://github.com/fh2019ustc/PolySnake. | 翻訳日:2023-01-24 15:49:33 公開日:2023-01-21 |
# ScaDLES:エッジでのストリーミングデータによるスケーラブルなディープラーニング ScaDLES: Scalable Deep Learning over Streaming data at the Edge ( http://arxiv.org/abs/2301.08897v1 ) ライセンス: Link先を確認 | Sahil Tyagi, Martin Swany | (参考訳) 分散ディープラーニング(DDL)トレーニングシステムは、均一な計算資源、高いネットワーク帯域、十分なメモリとストレージ、およびすべてのノードにまたがる独立かつ同一の分散IID(IID)データを前提とするクラウドおよびデータセンター環境向けに設計されている。
しかしながら、これらの仮定は、特にオンライン方法でストリーミングデータ上でニューラルネットワークをトレーニングする場合、エッジに必ずしも適用されない。
エッジ上のコンピューティングは、システムと統計の不均一性の両方に苦しむ。
システムの不均一性は、各デバイス固有の計算資源と帯域幅の違いに起因するが、統計的不均一性は、エッジ上の不均衡なデータと歪んだデータから生じる。
デバイス間で異なるストリーミングレートが、ストリーミングデータを扱う際の別の不均一性源となる可能性がある。
ストリーミングレートがバッチサイズよりも低い場合、単一の確率勾配降下(SGD)を実行する前に十分なサンプルがストリーミングされるまで待つ必要がある。
したがって、低ボリュームストリームは、同期トレーニングで高ボリュームストリームを持つデバイスを遅くするストラグラーのように振る舞う。
一方、ストリーミングレートが高すぎると、デバイスがラインレートでトレーニングできない場合、データはバッファ内に素早く蓄積される。
本稿では,ScaDLESを導入し,オンライン方式でストリーミングデータを効率的にトレーニングすると同時に,帯域幅の制限や非IIDデータによるトレーニングの課題にも対処する。
ScaDLESは従来の分散SGDに比べて最大3.29倍の速度で収束することを示す。 Distributed deep learning (DDL) training systems are designed for cloud and data-center environments that assumes homogeneous compute resources, high network bandwidth, sufficient memory and storage, as well as independent and identically distributed (IID) data across all nodes. However, these assumptions don't necessarily apply on the edge, especially when training neural networks on streaming data in an online manner. Computing on the edge suffers from both systems and statistical heterogeneity. Systems heterogeneity is attributed to differences in compute resources and bandwidth specific to each device, while statistical heterogeneity comes from unbalanced and skewed data on the edge. Different streaming-rates among devices can be another source of heterogeneity when dealing with streaming data. If the streaming rate is lower than training batch-size, device needs to wait until enough samples have streamed in before performing a single iteration of stochastic gradient descent (SGD). Thus, low-volume streams act like stragglers slowing down devices with high-volume streams in synchronous training. On the other hand, data can accumulate quickly in the buffer if the streaming rate is too high and the devices can't train at line-rate. In this paper, we introduce ScaDLES to efficiently train on streaming data at the edge in an online fashion, while also addressing the challenges of limited bandwidth and training with non-IID data. We empirically show that ScaDLES converges up to 3.29 times faster compared to conventional distributed SGD. | 翻訳日:2023-01-24 15:49:10 公開日:2023-01-21 |
# E(n)-等価性をもつ空間的注意運動ネットワーク Spatial Attention Kinetic Networks with E(n)-Equivariance ( http://arxiv.org/abs/2301.08893v1 ) ライセンス: Link先を確認 | Yuanqing Wang and John D. Chodera | (参考訳) n-次元幾何空間上の回転、変換、反射、置換に同値なニューラルネットワークは、複雑なポテンシャルエネルギー表面を正確かつ安価にモデル化し、複雑な力学系のサンプリングや時間発展を導くといったタスクの物理モデリングにおいて、期待されている。
現在の最先端の手法では、計算コストが高い粒子間の高次相互作用を符号化するために球面調和を用いる。
本稿では,ノード環境を普遍的に近似しながら等価性を達成するために,エッジベクトルの神経パラメータ付き線形結合を用いた簡易な代替関数形式を提案する。
この知見を取り入れた空間的注意運動ネットワークをE(n)-equivariance(SAKE)を用いて設計し、多体モデリングタスクにおいて極めて高速な動作を実現する。 Neural networks that are equivariant to rotations, translations, reflections, and permutations on n-dimensional geometric space have shown promise in physical modeling for tasks such as accurately but inexpensively modeling complex potential energy surfaces to guiding the sampling of complex dynamical systems or forecasting their time evolution. Current state-of-the-art methods employ spherical harmonics to encode higher-order interactions among particles, which are computationally expensive. In this paper, we propose a simple alternative functional form that uses neurally parametrized linear combinations of edge vectors to achieve equivariance while still universally approximating node environments. Incorporating this insight, we design spatial attention kinetic networks with E(n)-equivariance, or SAKE, which are competitive in many-body system modeling tasks while being significantly faster. | 翻訳日:2023-01-24 15:48:44 公開日:2023-01-21 |
# 高速確率に基づく変化点検出 Fast likelihood-based change point detection ( http://arxiv.org/abs/2301.08892v1 ) ライセンス: Link先を確認 | Nikolaj Tatti | (参考訳) 変更点検出は、データストリームの振る舞いを分析し監視することを目的として、多くの現実世界のアプリケーションで基本的な役割を果たす。
本稿では,バイナリストリームにおける変化検出について検討する。
このために、変化を示す尺度として、2つのモデル間の確率比を用いる。
第1モデルは単一のバーヌーリ変数であり、第2モデルは格納されたデータを2つのセグメントに分割し、各セグメントを独自のバーヌーリ変数でモデル化する。
最適な分割を見つけることは、$O(n)$ timeで行うことができ、$n$は最後の変更点からエントリの数である。
これは大きな$n$には高すぎる。
これに対抗するために、1- \epsilon)$O(\epsilon^{-1} \log^2n)$時間での近似を求める近似スキームを提案する。
まず、セグメント化問題から既知の結果を採用することにより、候補数を削減します。
次に、固定されたベルヌーリパラメータに対して、対数時間で最適な変化点を見つけることができることを示す。
最後に、モデルパラメータに対して$o(\epsilon^{-1} \log n)$の大きさの候補リストを構築する方法を示す。
我々はアルゴリズムの近似的な品質と実行時間を示し、最適性の平均損失を最小に抑えながら、大幅な高速化を達成できることを示した。 Change point detection plays a fundamental role in many real-world applications, where the goal is to analyze and monitor the behaviour of a data stream. In this paper, we study change detection in binary streams. To this end, we use a likelihood ratio between two models as a measure for indicating change. The first model is a single bernoulli variable while the second model divides the stored data in two segments, and models each segment with its own bernoulli variable. Finding the optimal split can be done in $O(n)$ time, where $n$ is the number of entries since the last change point. This is too expensive for large $n$. To combat this we propose an approximation scheme that yields $(1 - \epsilon)$ approximation in $O(\epsilon^{-1} \log^2 n)$ time. The speed-up consists of several steps: First we reduce the number of possible candidates by adopting a known result from segmentation problems. We then show that for fixed bernoulli parameters we can find the optimal change point in logarithmic time. Finally, we show how to construct a candidate list of size $O(\epsilon^{-1} \log n)$ for model parameters. We demonstrate empirically the approximation quality and the running time of our algorithm, showing that we can gain a significant speed-up with a minimal average loss in optimality. | 翻訳日:2023-01-24 15:48:27 公開日:2023-01-21 |
# 映像分解と予測のための物体中心表現の時間条件生成モデル Time-Conditioned Generative Modeling of Object-Centric Representations for Video Decomposition and Prediction ( http://arxiv.org/abs/2301.08951v1 ) ライセンス: Link先を確認 | Chengmin Gao and Bin Li | (参考訳) 複数の視点から世界を理解するとき、人間は、対象が部分的な視点から完全に隠されている場合でも、完全な対象を合成的に考えることができる。
一方、人間は複数の視点を観察して新しい視点を想像することができる。
マルチビューオブジェクト指向学習の最近の注目すべき進歩は、いくつかの問題を残している。
1) 物体の部分的あるいは完全に閉塞された形状を適切に再構築することはできない。
2)新しい視点予測は暗黙の視点規則よりも高価な視点アノテーションに依存している。
これにより、エージェントは人間のように動作しない。
本稿では,ビデオの時間条件生成モデルを提案する。
オブジェクトの完全な形状を正確に再構築するために、異なる潜在表現間の不整合性を高める:ビュー潜在表現は変換器に基づいて共同で推論され、Slot Attentionの逐次拡張と協調してオブジェクト中心表現を学習する。
ガウス過程は、生成のための潜在変数の先行と、視点アノテーションなしでの新規ビュー予測として使用される。
複数の特別に設計された合成データセットの実験は、提案モデルが可能であることを示した。
1)動画の分解を行う。
2)対象物の完全な形状を再構築し、
3)新しい視点予測を視点の注釈なしで行う。 When perceiving the world from multiple viewpoints, humans have the ability to reason about the complete objects in a compositional manner even when the object is completely occluded from partial viewpoints. Meanwhile, humans can imagine the novel views after observing multiple viewpoints. The remarkable recent advance in multi-view object-centric learning leaves some problems: 1) the partially or completely occluded shape of objects can not be well reconstructed. 2) the novel viewpoint prediction depends on expensive viewpoint annotations rather than implicit view rules. This makes the agent fail to perform like humans. In this paper, we introduce a time-conditioned generative model for videos. To reconstruct the complete shape of the object accurately, we enhance the disentanglement between different latent representations: view latent representations are jointly inferred based on the Transformer and then cooperate with the sequential extension of Slot Attention to learn object-centric representations. The model also achieves the new ability: Gaussian processes are employed as priors of view latent variables for generation and novel-view prediction without viewpoint annotations. Experiments on multiple specifically designed synthetic datasets have shown that the proposed model can 1) make the video decomposition, 2) reconstruct the complete shapes of objects, and 3) make the novel viewpoint prediction without viewpoint annotations. | 翻訳日:2023-01-24 15:41:42 公開日:2023-01-21 |
# 遺伝的に修飾されたウルフ最適化による深部ニューラルネットワークの最適化 Genetically Modified Wolf Optimization with Stochastic Gradient Descent for Optimising Deep Neural Networks ( http://arxiv.org/abs/2301.08950v1 ) ライセンス: Link先を確認 | Manuel Bradicic, Michal Sitarz, Felix Sylvest Olesen | (参考訳) 畳み込みニューラルネットワーク(CNN)のトレーニングでは、効率的な最適化アルゴリズムと高精度ネットワークの作成に重点が置かれている。
ネットワークを最適化する最先端の手法は、SGD(Stochastic Gradient Descent)のような勾配降下アルゴリズムを用いて行われる。
しかし,勾配降下法にはいくつかの限界がある。
主な欠点は探検の欠如と搾取への過度な依存である。
そこで本研究では,人口ベースメタヒューリスティックアルゴリズムを用いて,ニューラルネットワーク(NN)重み付けを最適化するための代替手法を解析することを目的とした。
グレイウルフオプティマイザ (gwo) と遺伝的アルゴリズム (ga) のハイブリッドをsgdと組み合わせて検討し, sgd (gmw-sgd) を加味した遺伝的修飾ウルフ最適化アルゴリズムを作成した。
このアルゴリズムは、搾取と探索の組合せを可能にし、また高次元の問題にも取り組み、標準的なメタヒューリスティックアルゴリズムの性能に影響を与える。
提案したアルゴリズムはcifar-10で訓練され、sgdアルゴリズムと同等の性能を発揮し、高いテスト精度を達成し、標準のメタヒューリスティックアルゴリズムを大きく上回っている。 When training Convolutional Neural Networks (CNNs) there is a large emphasis on creating efficient optimization algorithms and highly accurate networks. The state-of-the-art method of optimizing the networks is done by using gradient descent algorithms, such as Stochastic Gradient Descent (SGD). However, there are some limitations presented when using gradient descent methods. The major drawback is the lack of exploration, and over-reliance on exploitation. Hence, this research aims to analyze an alternative approach to optimizing neural network (NN) weights, with the use of population-based metaheuristic algorithms. A hybrid between Grey Wolf Optimizer (GWO) and Genetic Algorithms (GA) is explored, in conjunction with SGD; producing a Genetically Modified Wolf optimization algorithm boosted with SGD (GMW-SGD). This algorithm allows for a combination between exploitation and exploration, whilst also tackling the issue of high-dimensionality, affecting the performance of standard metaheuristic algorithms. The proposed algorithm was trained and tested on CIFAR-10 where it performs comparably to the SGD algorithm, reaching high test accuracy, and significantly outperforms standard metaheuristic algorithms. | 翻訳日:2023-01-24 15:41:25 公開日:2023-01-21 |
# 注意型ニューラルネットワークによる船体運動応答からの海状態パラメータの推定 Estimation of Sea State Parameters from Ship Motion Responses Using Attention-based Neural Networks ( http://arxiv.org/abs/2301.08949v1 ) ライセンス: Link先を確認 | Denis Selimovi\'c, Franko Hr\v{z}i\'c, Jasna Prpi\'c-Or\v{s}i\'c, Jonatan Lerga | (参考訳) 海の状態パラメータのオンサイト推定は、船舶航法システムの正確性、安定性、効率性に不可欠である。
船体運動応答のみを利用したモデルに基づく推定法に関する広範な研究が行われている。
近年,機械学習(ML)に基づくモデルフリーアプローチが普及し,深層学習(DL)手法を用いた船舶動作応答の時系列から推定した結果が期待できる。
そこで本研究では,船の高さ,ヒーブ,ロール運動の生の時系列データから海の状態パラメータ(波高,零交差周期,相対波方向)を推定するために,注意型ニューラルネットワーク(at-nn)を適用した。
入力データを削減したにもかかわらず、回帰、多変量長短期記憶CNN、スライディング・パズル・ニューラル・ネットワークのための最新技術(畳み込みニューラルネットワーク(CNN)に基づく)による提案手法により、元の手法に比べて23%、MAEが16%削減されたことが実証された。
さらに,AT-NNをベースとした提案手法は,試験方法のすべて(オリジナルおよび拡張)を上回り,MSEを最大94%,MAEを最大70%削減した。
最後に,モンテカルロのドロップアウト法に基づくニューラルネットワーク出力の不確実性推定を解釈し,モデルの信頼性を高める手法を提案する。 On-site estimation of sea state parameters is crucial for ship navigation systems' accuracy, stability, and efficiency. Extensive research has been conducted on model-based estimating methods utilizing only ship motion responses. Model-free approaches based on machine learning (ML) have recently gained popularity, and estimation from time-series of ship motion responses using deep learning (DL) methods has given promising results. Accordingly, in this study, we apply the novel, attention-based neural network (AT-NN) for estimating sea state parameters (wave height, zero-crossing period, and relative wave direction) from raw time-series data of ship pitch, heave, and roll motions. Despite using reduced input data, it has been successfully demonstrated that the proposed approaches by modified state-of-the-art techniques (based on convolutional neural networks (CNN) for regression, multivariate long short-term memory CNN, and sliding puzzle neural network) reduced estimation MSE by 23% and MAE by 16% compared to the original methods. Furthermore, the proposed technique based on AT-NN outperformed all tested methods (original and enhanced), reducing estimation MSE by up to 94% and MAE by up to 70%. Finally, we also proposed a novel approach for interpreting the uncertainty estimation of neural network outputs based on the Monte-Carlo dropout method to enhance the model's trustworthiness. | 翻訳日:2023-01-24 15:41:04 公開日:2023-01-21 |
# 火炎グラフの代数的性質について On the Algebraic Properties of Flame Graphs ( http://arxiv.org/abs/2301.08941v1 ) ライセンス: Link先を確認 | Gabriele N. Tornetta | (参考訳) フレイムグラフはプロファイリングデータを表現する一般的な方法である。
本稿では,火炎グラフの数学的定義を提案する。
そうすることで、我々は興味深い代数的性質をほとんど無料で得ることができ、それによって、より詳細な性能回帰分析を行うことができるような操作を定義できる。
フライヤーグラフの典型的な文書化は、そのグラフィカル表現を通じて、最大の台座の画像をスキャンする。
この手法は性能問題の主な原因を見つけるのに有効であるが、膨大な量のデータを未使用のまま残している。
フレアグラフの数学的正確な定義といくつかの統計的手法を組み合わせることで、この視覚的手順を一般化し、収集されたプロファイリングデータの完全な集合を最大限に活用する方法を示す。 Flame graphs are a popular way of representing profiling data. In this paper we propose a possible mathematical definition of flame graphs. In doing so, we gain some interesting algebraic properties almost for free, which in turn allow us to define some operations that can allow to perform an in-depth performance regression analysis. The typical documented use of a flame graph is via its graphical representation, whereby one scans the picture for the largest plateaux. Whilst this method is effective at finding the main sources of performance issues, it leaves quite a large amount of data potentially unused. By combining a mathematical precise definition of flame graphs with some statistical methods we show how to generalise this visual procedure and make the best of the full set of collected profiling data. | 翻訳日:2023-01-24 15:40:39 公開日:2023-01-21 |
# 連続処理による準最適学習 Quasi-optimal Learning with Continuous Treatments ( http://arxiv.org/abs/2301.08940v1 ) ライセンス: Link先を確認 | Yuhan Li, Wenzhuo Zhou, Ruoqing Zhu | (参考訳) 強化学習(RL)の現実的な応用の多くは、継続的な行動環境において意思決定を必要とする。
特に、最適な線量レベルを決定することは、医療体制の発達に重要な役割を果たす。
しかし、既存のRLアルゴリズムを医療応用に適用する上での課題の1つは、一般的な無限のサポート確率的ポリシー(例えばガウスのポリシー)がリスクの高い高用量を割り当て、患者を重く傷つける可能性があることである。
したがって、準最適行動のみを含む政策クラスを誘導し、有効性と信頼性のための行動探索領域を縮小することが重要である。
そこで本研究では,一般関数近似の下での収束を保証しながら,オフポリティ設定で容易に最適化できる,新しい「emph{quasi-optimal learning algorithm」を開発した。
理論的には,提案アルゴリズムの一貫性,サンプル複雑性,適応性,収束性を解析する。
本アルゴリズムを総合的なシミュレーション実験と,オハイオ1型糖尿病データセットへの用量提案実例を用いて評価した。 Many real-world applications of reinforcement learning (RL) require making decisions in continuous action environments. In particular, determining the optimal dose level plays a vital role in developing medical treatment regimes. One challenge in adapting existing RL algorithms to medical applications, however, is that the popular infinite support stochastic policies, e.g., Gaussian policy, may assign riskily high dosages and harm patients seriously. Hence, it is important to induce a policy class whose support only contains near-optimal actions, and shrink the action-searching area for effectiveness and reliability. To achieve this, we develop a novel \emph{quasi-optimal learning algorithm}, which can be easily optimized in off-policy settings with guaranteed convergence under general function approximations. Theoretically, we analyze the consistency, sample complexity, adaptability, and convergence of the proposed algorithm. We evaluate our algorithm with comprehensive simulated experiments and a dose suggestion real application to Ohio Type 1 diabetes dataset. | 翻訳日:2023-01-24 15:40:26 公開日:2023-01-21 |
# サイクル一貫性のある生成逆ネットワークを用いた実例記述とインスタンス生成 Counterfactual Explanation and Instance-Generation using Cycle-Consistent Generative Adversarial Networks ( http://arxiv.org/abs/2301.08939v1 ) ライセンス: Link先を確認 | Tehseen Zia, Zeeshan Nisar, Shakeeb Murtaza | (参考訳) 画像に基づく診断は、現代の自動化支援診断の重要な側面である。
モデルがピクセルレベルの診断を可能にするためには、基本的にピクセルレベルの接地ラベルが必要である。
しかし、医用画像などの多くのアプリケーション領域でラベルを取得することは、直接的にではないことが多いため、分類に基づくアプローチが診断を行うデファクトスタンダードとなっている。
分類済領域を特定できるが、すべての証拠を捉えることが重要な要件である診断には役に立たないかもしれない。
あるいは、逆実説明 (CX) は「X が起こらなかったら Y は起こらなかった」という形のカジュアルな推論プロセスを用いて説明することを目的としている。
しかしながら、既存のcxアプローチでは、予測を変更する可能性のある機能を説明するために分類器を使用している。
したがって、関心の対象全体ではなく、クラスサレントな機能しか説明できない。
これにより、画像分類に依存しない新しいCX戦略を提案する動機となる。
この研究は、GAN(Generative Adversarial Network)に基づく画像と画像のドメインの翻訳の最近の発展にインスパイアされ、異常なイメージを対応する通常の画像(すなわち、偽実例CI)に変換して両者間の不一致マップを見つける。
一般に異常画像対や正規画像対を得ることはできないため、サイクルコンシスタンス原理(サイクルガン)を利用して教師なしの方法で翻訳を行う。
異常画像から加えるとciと区別がつかない不一致マップを用いてcxを定式化する。
本手法は合成,結核,ブラッツの3つのデータセットで評価した。
これらの実験はすべて、正確なCXおよびCIの生成における提案手法の優位性を確認した。 The image-based diagnosis is now a vital aspect of modern automation assisted diagnosis. To enable models to produce pixel-level diagnosis, pixel-level ground-truth labels are essentially required. However, since it is often not straight forward to obtain the labels in many application domains such as in medical image, classification-based approaches have become the de facto standard to perform the diagnosis. Though they can identify class-salient regions, they may not be useful for diagnosis where capturing all of the evidences is important requirement. Alternatively, a counterfactual explanation (CX) aims at providing explanations using a casual reasoning process of form "If X has not happend, Y would not heppend". Existing CX approaches, however, use classifier to explain features that can change its predictions. Thus, they can only explain class-salient features, rather than entire object of interest. This hence motivates us to propose a novel CX strategy that is not reliant on image classification. This work is inspired from the recent developments in generative adversarial networks (GANs) based image-to-image domain translation, and leverages to translate an abnormal image to counterpart normal image (i.e. counterfactual instance CI) to find discrepancy maps between the two. Since it is generally not possible to obtain abnormal and normal image pairs, we leverage Cycle-Consistency principle (a.k.a CycleGAN) to perform the translation in unsupervised way. We formulate CX in terms of a discrepancy map that, when added from the abnormal image, will make it indistinguishable from the CI. We evaluate our method on three datasets including a synthetic, tuberculosis and BraTS dataset. All these experiments confirm the supremacy of propose method in generating accurate CX and CI. | 翻訳日:2023-01-24 15:40:10 公開日:2023-01-21 |
# 方言・マンダリン符号ミキシングコーパスの構築方法:台湾北紀園を事例として Exploring Methods for Building Dialects-Mandarin Code-Mixing Corpora: A Case Study in Taiwanese Hokkien ( http://arxiv.org/abs/2301.08937v1 ) ライセンス: Link先を確認 | Sin-En Lu, Bo-Han Lu, Chao-Yi Lu, Richard Tzong-Han Tsai | (参考訳) 自然言語処理(NLP)では、特に混合言語が方言を含む場合、コードミキシング(CM)は難しい課題である。
シンガポール、インドネシア、マレーシアなどの東南アジア諸国では、ホッキン=マンダリンは中国系移民の間で最も広く使われているコード混合言語であり、台湾でも一般的である。
しかし、ホッキエンのような方言は資源の不足や公式な表記体系の欠如がしばしばあり、方言CM研究の発展を制限している。
本稿では,Hokkien-Mandarin CMデータセットの構築手法を提案し,その制限を緩和し,Sino-Tibetan 言語族における形態的問題を克服し,言語ベースのツールキットによる効率的なHokkien 単語セグメンテーション手法を提案する。
さらに,提案するデータセットを用いてxlm(cross-lingual language model)の翻訳タスクを学習する。
コードミキシングのシナリオに適合するため、XLMを少し適応させます。
言語知識,ルール,言語タグを用いることで,単言語翻訳の品質を維持しつつ,CMデータ翻訳において良好な結果が得られることがわかった。 In natural language processing (NLP), code-mixing (CM) is a challenging task, especially when the mixed languages include dialects. In Southeast Asian countries such as Singapore, Indonesia, and Malaysia, Hokkien-Mandarin is the most widespread code-mixed language pair among Chinese immigrants, and it is also common in Taiwan. However, dialects such as Hokkien often have a scarcity of resources and the lack of an official writing system, limiting the development of dialect CM research. In this paper, we propose a method to construct a Hokkien-Mandarin CM dataset to mitigate the limitation, overcome the morphological issue under the Sino-Tibetan language family, and offer an efficient Hokkien word segmentation method through a linguistics-based toolkit. Furthermore, we use our proposed dataset and employ transfer learning to train the XLM (cross-lingual language model) for translation tasks. To fit the code-mixing scenario, we adapt XLM slightly. We found that by using linguistic knowledge, rules, and language tags, the model produces good results on CM data translation while maintaining monolingual translation quality. | 翻訳日:2023-01-24 15:39:41 公開日:2023-01-21 |
# フォノンによる暗から明るいプラズモン変換 Phonon-mediated dark to bright plasmon conversion ( http://arxiv.org/abs/2301.08935v1 ) ライセンス: Link先を確認 | Benjamin Rousseaux, Yanko Todorov, Angela Vasanelli, Carlo Sirtori | (参考訳) ナノフォトニクスデバイスに埋め込まれた物質の励起の光学的応答は、ドルーデ・ロレンツモデルによって一般的に説明される。
ここでは、2次元電子ガスの量子濃縮プラズモンが光フォノンと強く相互作用する場合に、この方法が広く用いられていることが実証される。
半古典的なドルーデ・ローレンツを簡単な電子ポテンシャルとして含む新しい量子モデルを提案するが、対称性を破るポテンシャルの全く異なる結果を予測する。
我々は、明るいフォノン・ポーラリトンモードとダークプラズモンモード間の発振子強度伝達機構を新たに発表し、ナノ構造の光学応答を設計するための新しい量子自由度を与える。 The optical response of a matter excitation embedded in nanophotonic devices is commonly described by the Drude-Lorentz model. Here, we demonstrate that this widely used approach fails in the case where quantum-confined plasmons of a two-dimensional electron gas interact strongly with optical phonons. We propose a new quantum model which contains the semiclassical Drude-Lorentz one for simple electronic potentials, but predicts very different results in symmetry-broken potentials. We unveil a new mechanism for the oscillator strength transfer between bright phonon-polariton and dark plasmon modes, enabling thus new quantum degrees of freedom for designing the optical response of nanostructures. | 翻訳日:2023-01-24 15:39:20 公開日:2023-01-21 |
# 準最適変換コストの既知のベンチマーク量子回路の構成について On constructing benchmark quantum circuits with known near-optimal transformation cost ( http://arxiv.org/abs/2301.08932v1 ) ライセンス: Link先を確認 | Sanjiang Li, Xiangzhen Zhou, Yuan Feng | (参考訳) 現在の量子デバイスは量子回路に厳しい接続制約を課し、実際の量子デバイス上で論理回路を実行する前に回路変換を必要とする。
近年,多くの量子回路変換(QCT)アルゴリズムが提案されている。
本稿では,ケンブリッジ量子コンピューティングのTKET,IBMのQiskit,SABRE,SAHS,MCTSの3つの学術アルゴリズムを含む,最新のQCTアルゴリズムを評価するためにベンチマーク回路を構築する新しい手法を提案する。
これらのベンチマークは、ほぼ最適変換コストを知っており、これをquekno(既知の近似最適性を持つ量子例)と呼ぶ。
タンとコングが設計したQUEKOベンチマーク(2021年)と比較すると、QUEKNOベンチマークはより汎用的で、グラフアイソモーフィズムを用いて初期マッピングを求めるQCTアルゴリズム(TKETなど)に対してより忠実な評価を提供することができる。
評価の結果,SABRE は 53量子ビット IBM Q Rochester と Google の Sycamore に対して, ゲートサイズと深さの両目的において, 平均コストが著しく低い変換を生成できることが示唆された。 Current quantum devices impose strict connectivity constraints on quantum circuits, making circuit transformation necessary before running logical circuits on real quantum devices. Many quantum circuit transformation (QCT) algorithms have been proposed in the past several years. This paper proposes a novel method for constructing benchmark circuits and uses these benchmark circuits to evaluate state-of-the-art QCT algorithms, including TKET from Cambridge Quantum Computing, Qiskit from IBM, and three academic algorithms SABRE, SAHS, and MCTS. These benchmarks have known near-optimal transformation costs and thus are called QUEKNO (for quantum examples with known near-optimality). Compared with QUEKO benchmarks designed by Tan and Cong (2021), which all have zero optimal transformation costs, QUEKNO benchmarks are more general and can provide a more faithful evaluation for QCT algorithms (like TKET) which use subgraph isomorphism to find the initial mapping. Our evaluation results show that SABRE can generate transformations with conspicuously low average costs on the 53-qubit IBM Q Rochester and Google's Sycamore in both gate size and depth objectives. | 翻訳日:2023-01-24 15:39:06 公開日:2023-01-21 |
# ニューラルネットワークを用いた高密度RGB SLAM Dense RGB SLAM with Neural Implicit Maps ( http://arxiv.org/abs/2301.08930v1 ) ライセンス: Link先を確認 | Heng Li, Xiaodong Gu, Weihao Yuan, Luwei Yang, Zilong Dong, Ping Tan | (参考訳) 同時局在マッピング(SLAM)において、マップ表現にニューラル暗黙関数を使用する傾向が出現している。
いくつかの先駆的な研究は、RGB-D SLAMの奨励的な成果を達成した。
本稿では,ニューラル暗黙マップ表現を用いた高密度RGB SLAM法を提案する。
深度入力なしでこの挑戦目標を達成するために、暗黙のマップデコーダを容易にする階層的な特徴量を導入する。
この設計は、様々なスケールで形状の手がかりを効果的に融合させ、地図の再構築を容易にする。
本手法は,映像フレームの描画と入力をマッチングすることで,カメラの動きとニューラル暗黙マップを同時に解く。
最適化を容易にするため,カメラのポーズやシーン形状の制約を改善するために,多視点ステレオの精神における光度ゆらぎ損失を提案する。
提案手法を一般的なベンチマークで評価し,現代のRGBおよびRGB-D SLAMシステムと比較した。
提案手法は,従来の手法よりも良好な結果が得られ,最近のRGB-D SLAM法を超えている。
ソースコードは公開される予定だ。 There is an emerging trend of using neural implicit functions for map representation in Simultaneous Localization and Mapping (SLAM). Some pioneer works have achieved encouraging results on RGB-D SLAM. In this paper, we present a dense RGB SLAM method with neural implicit map representation. To reach this challenging goal without depth input, we introduce a hierarchical feature volume to facilitate the implicit map decoder. This design effectively fuses shape cues across different scales to facilitate map reconstruction. Our method simultaneously solves the camera motion and the neural implicit map by matching the rendered and input video frames. To facilitate optimization, we further propose a photometric warping loss in the spirit of multi-view stereo to better constrain the camera pose and scene geometry. We evaluate our method on commonly used benchmarks and compare it with modern RGB and RGB-D SLAM systems. Our method achieves favorable results than previous methods and even surpasses some recent RGB-D SLAM methods. Our source code will be publicly available. | 翻訳日:2023-01-24 15:38:46 公開日:2023-01-21 |
# ティアバランシング - 因果要因に対するダイナミックフェアネスを目指して Tier Balancing: Towards Dynamic Fairness over Underlying Causal Factors ( http://arxiv.org/abs/2301.08987v1 ) ライセンス: Link先を確認 | Zeyu Tang, Yatong Chen, Yang Liu, Kun Zhang | (参考訳) 長期的な公平性の追求は、意思決定と基礎となるデータ生成プロセスの間の相互作用を伴う。
本稿では,方向付非巡回グラフを用いた因果モデリングを通じて,動的視点から長期的公正性を実現する可能性を検討する。
長期的な動的公平性分析の文脈で達成すべき技術的により困難だが自然な概念である階層バランスを提案する。
従来のフェアネス概念と異なり、我々の概念はさらに一歩進めて、現在の決定から将来のデータ分布へ直接影響を及ぼす、観察できない潜在因果要因の背景状態の変化を捉えます。
特定のダイナミクスの下では、一般に1段階の介入だけでは長期的なフェアネス目標を達成できないことが証明される。
さらに, 長期的な公正化への取り組みにおいて, 長期的な公正化目標を「近づいた」という使命とそれに伴う可能性と不合理性について考察する。 The pursuit of long-term fairness involves the interplay between decision-making and the underlying data generating process. In this paper, through causal modeling with a directed acyclic graph (DAG) on the decision-distribution interplay, we investigate the possibility of achieving long-term fairness from a dynamic perspective. We propose Tier Balancing, a technically more challenging but more natural notion to achieve in the context of long-term, dynamic fairness analysis. Different from previous fairness notions that are defined purely on observed variables, our notion goes one step further, capturing behind-the-scenes situation changes on the unobserved latent causal factors that directly carry out the influence from the current decision to the future data distribution. Under the specified dynamics, we prove that in general one cannot achieve the long-term fairness goal only through one-step interventions. Furthermore, in the effort of approaching long-term fairness, we consider the mission of "getting closer to" the long-term fairness goal and present possibility and impossibility results accordingly. | 翻訳日:2023-01-24 15:33:11 公開日:2023-01-21 |
# 一般知識を保ちつつ言語モデルを適用すること Adapting a Language Model While Preserving its General Knowledge ( http://arxiv.org/abs/2301.08986v1 ) ライセンス: Link先を確認 | Zixuan Ke, Yijia Shao, Haowei Lin, Hu Xu, Lei Shu and Bing Liu | (参考訳) ドメイン適応事前学習(英: domain-adaptive pre-training、略称: da-training)は、特定のドメインのラベルなしコーパスを使用して事前訓練された汎用言語モデル(lm)を訓練することを目的としている。
しかし、既存のDAトレーニングメソッドは、LMのどの知識を保存すべきか、ドメインコーパスによって何が変更されるべきなのかを明確に定義していないため、何らかの意味で盲目である。
本稿では,本手法が最適であることを示すとともに,(1)注意をソフトメイキングすること,(2)一般知識と全知識(一般知識とドメイン知識の両方)の表現を対比して,一般知識とドメイン固有知識の両方を融合した表現を学習することで,LMにおける知識のより情報的な適応を実現する手法を提案する。
実験結果は,提案手法の有効性を示す。 Domain-adaptive pre-training (or DA-training for short), also known as post-training, aims to train a pre-trained general-purpose language model (LM) using an unlabeled corpus of a particular domain to adapt the LM so that end-tasks in the domain can give improved performances. However, existing DA-training methods are in some sense blind as they do not explicitly identify what knowledge in the LM should be preserved and what should be changed by the domain corpus. This paper shows that the existing methods are suboptimal and proposes a novel method to perform a more informed adaptation of the knowledge in the LM by (1) soft-masking the attention heads based on their importance to best preserve the general knowledge in the LM and (2) contrasting the representations of the general and the full (both general and domain knowledge) to learn an integrated representation with both general and domain-specific knowledge. Experimental results will demonstrate the effectiveness of the proposed approach. | 翻訳日:2023-01-24 15:32:36 公開日:2023-01-21 |
# SuperScaler: 統一抽象化によるフレキシブルなDNN並列化をサポート SuperScaler: Supporting Flexible DNN Parallelization via a Unified Abstraction ( http://arxiv.org/abs/2301.08984v1 ) ライセンス: Link先を確認 | Zhiqi Lin, Youshan Miao, Guodong Liu, Xiaoxiang Shi, Quanlu Zhang, Fan Yang, Saeed Maleki, Yi Zhu, Xu Cao, Cheng Li, Mao Yang, Lintao Zhang, Lidong Zhou | (参考訳) モデルのサイズが大きくなるにつれて、ディープニューラルネットワーク(DNN)は、大規模なGPUアクセラレーションによってトレーニングされるようになり、DNNモデルをきめ細かなタスクに変換し、実行のためにGPUにスケジュールする適切な並列化計画が求められている。
大規模な探索空間のため、現代の並列化計画生成装置は、変換とスケジューリングを結合する経験則に頼り、より柔軟なスケジュールを探り、より優れたメモリ使用率と計算効率をもたらす。
この緊張は、その構造とモデルサイズが複雑化する新興モデルによって悪化する可能性がある。
SuperScalerは、高度に柔軟な並列化計画の設計と生成を容易にするシステムである。
計画設計と生成を、モデル変換、時空間スケジューリング、データ依存保存という3つの逐次フェーズに明示的に定式化します。
このような原理的なアプローチは、複数の相反する要因を分離し、高度に柔軟な並列化計画の構成を可能にする。
その結果、SuperScalerは経験的な並列化計画を生成するだけでなく、Swin-TransformerやAlphaFold2といった新しいDNNモデルのためのDeepSpeed、Megatron、Alpaのような最先端ソリューションや、GPT-3のような最適化されたモデルと比較して3.5倍のスピードアップを達成する新しいプランを構築することができる。 With the growing model size, deep neural networks (DNN) are increasingly trained over massive GPU accelerators, which demands a proper parallelization plan that transforms a DNN model into fine-grained tasks and then schedules them to GPUs for execution. Due to the large search space, the contemporary parallelization plan generators often rely on empirical rules that couple transformation and scheduling, and fall short in exploring more flexible schedules that yield better memory usage and compute efficiency. This tension can be exacerbated by the emerging models with increasing complexity in their structure and model size. SuperScaler is a system that facilitates the design and generation of highly flexible parallelization plans. It formulates the plan design and generation into three sequential phases explicitly: model transformation, space-time scheduling, and data dependency preserving. Such a principled approach decouples multiple seemingly intertwined factors and enables the composition of highly flexible parallelization plans. As a result, SuperScaler can not only generate empirical parallelization plans, but also construct new plans that achieve up to 3.5X speedup compared to state-of-the-art solutions like DeepSpeed, Megatron and Alpa, for emerging DNN models like Swin-Transformer and AlphaFold2, as well as well-optimized models like GPT-3. | 翻訳日:2023-01-24 15:32:16 公開日:2023-01-21 |
# 学習可能なコンポーネントの保証の定量化に向けて Towards Quantification of Assurance for Learning-enabled Components ( http://arxiv.org/abs/2301.08980v1 ) ライセンス: Link先を確認 | Erfan Asaadi and Ewen Denney and Ganesh Pai | (参考訳) 認識、ローカライゼーション、計画、制御、いわゆるパイプラインでしばしば組織される高レベルの機能は、現代の自律型(地上、空気、水中)車両アーキテクチャの中核的な構成要素である。
これらの機能は、学習可能なコンポーネント(LEC)、すなわちディープラーニングのような知識獲得や学習プロセスを活用する(ソフトウェア)コンポーネントを使って、ますます実装されている。
より広い(ダイナミックな)保証ケースの一部として、定量化されたコンポーネントレベルの保証を提供することは、LECの事前運用承認(例えば規制当局による)と実行時のハザード軽減(例えば、保証ベースのフェイルオーバー構成)の両方をサポートするのに有用である。
本稿では,LECの保証に関する概念を考案する。
一 関連する信頼性属性の特定及び
二 これらの属性及び関連する不確実性を確率論的手法を用いて定量化すること。
本稿では,無人航空機システム(UAS)の自律タクシー機能として,認識機能におけるセンサーとしてのLECの利用に着目した航空分野の例を用いて,本研究の実践的基盤を提供する。
適用可能な保証の定量的尺度を特定し,非パラメトリックベイズ的アプローチ,すなわちガウス過程回帰を用いて関連する不確かさを特徴付ける。
また,システムレベルの保証に対するLEC保証の関連性や貢献,アプローチの一般化可能性,関連する課題についても論じる。 Perception, localization, planning, and control, high-level functions often organized in a so-called pipeline, are amongst the core building blocks of modern autonomous (ground, air, and underwater) vehicle architectures. These functions are increasingly being implemented using learning-enabled components (LECs), i.e., (software) components leveraging knowledge acquisition and learning processes such as deep learning. Providing quantified component-level assurance as part of a wider (dynamic) assurance case can be useful in supporting both pre-operational approval of LECs (e.g., by regulators), and runtime hazard mitigation, e.g., using assurance-based failover configurations. This paper develops a notion of assurance for LECs based on i) identifying the relevant dependability attributes, and ii) quantifying those attributes and the associated uncertainty, using probabilistic techniques. We give a practical grounding for our work using an example from the aviation domain: an autonomous taxiing capability for an unmanned aircraft system (UAS), focusing on the application of LECs as sensors in the perception function. We identify the applicable quantitative measures of assurance, and characterize the associated uncertainty using a non-parametric Bayesian approach, namely Gaussian process regression. We additionally discuss the relevance and contribution of LEC assurance to system-level assurance, the generalizability of our approach, and the associated challenges. | 翻訳日:2023-01-24 15:31:51 公開日:2023-01-21 |
# ソフトセンシング回帰モデル:センサからウェーハ計測予測へ Soft Sensing Regression Model: from Sensor to Wafer Metrology Forecasting ( http://arxiv.org/abs/2301.08974v1 ) ライセンス: Link先を確認 | Angzhi Fan, Yu Huang, Fei Xu and Sthitie Bom | (参考訳) 半導体産業は、技術革新的で資本集約的な市場セクターの1つである。
効果的な検査と計測は、製品収率の向上、製品品質の向上、コスト削減のために必要である。
近年、多くの半導体製造装置に、製造工程のリアルタイム監視を容易にするセンサーが搭載されている。
これらの生産状態および機器状態センサデータは、異常/デフォルト検出、メンテナンススケジューリング、品質予測など、さまざまなドメインで機械学習技術を実践する機会を提供する。
本研究では,センサデータを用いて,ウェハ検査や気象システムで計測された入射検査の測定値を予測するソフトセンシング回帰の課題に着目した。
我々はLSTMベースの回帰器を提案し、モデルトレーニングのための2つの損失関数を設計した。
工学者は予測誤差を主観的に見ることができるが、モデル精度を数学的に評価する新しい区分評価指標が提案されている。
実験の結果, 複雑な製造工程において, 各種検査の精度と早期予測が可能となった。 The semiconductor industry is one of the most technology-evolving and capital-intensive market sectors. Effective inspection and metrology are necessary to improve product yield, increase product quality and reduce costs. In recent years, many semiconductor manufacturing equipments are equipped with sensors to facilitate real-time monitoring of the production process. These production-state and equipment-state sensor data provide an opportunity to practice machine-learning technologies in various domains, such as anomaly/fault detection, maintenance scheduling, quality prediction, etc. In this work, we focus on the task of soft sensing regression, which uses sensor data to predict impending inspection measurements that used to be measured in wafer inspection and metrology systems. We proposed an LSTM-based regressor and designed two loss functions for model training. Although engineers may look at our prediction errors in a subjective manner, a new piece-wise evaluation metric was proposed for assessing model accuracy in a mathematical way. The experimental results demonstrated that the proposed model can achieve accurate and early prediction of various types of inspections in complicated manufacturing processes. | 翻訳日:2023-01-24 15:31:28 公開日:2023-01-21 |
# 条件付きコーシーシュワルツ分割と時系列データとシーケンス決定への応用 The Conditional Cauchy-Schwarz Divergence with Applications to Time-Series Data and Sequential Decision Making ( http://arxiv.org/abs/2301.08970v1 ) ライセンス: Link先を確認 | Shujian Yu, Hongming Li, Sigurd L{\o}kse, Robert Jenssen, Jos\'e C. Pr\'incipe | (参考訳) コーシー=シュワルツ(CS)の発散は2000年にPr\'{i}ncipeらによって開発された。
本稿では、2つの条件分布間の近接性を定量化するために古典的CS偏差を拡張し、与えられたサンプルからカーネル密度推定器によって開発条件CS偏差を簡易に推定できることを示す。
我々は、条件付きCS分散の利点(例えば、厳密な忠実性保証、より低い計算複雑性、より高い統計パワー、より広い範囲の応用における柔軟性)を、条件付きKL偏差や条件付き最大平均偏差といった従来の提案よりも説明する。
また、時系列データとシーケンシャル推論に関連する2つの機械学習タスク、すなわち時系列クラスタリングとシーケンシャル意思決定のための不確実性誘導探索において、条件付きCSの分岐が魅力的な性能を示す。 The Cauchy-Schwarz (CS) divergence was developed by Pr\'{i}ncipe et al. in 2000. In this paper, we extend the classic CS divergence to quantify the closeness between two conditional distributions and show that the developed conditional CS divergence can be simply estimated by a kernel density estimator from given samples. We illustrate the advantages (e.g., the rigorous faithfulness guarantee, the lower computational complexity, the higher statistical power, and the much more flexibility in a wide range of applications) of our conditional CS divergence over previous proposals, such as the conditional KL divergence and the conditional maximum mean discrepancy. We also demonstrate the compelling performance of conditional CS divergence in two machine learning tasks related to time series data and sequential inference, namely the time series clustering and the uncertainty-guided exploration for sequential decision making. | 翻訳日:2023-01-24 15:31:11 公開日:2023-01-21 |
# 両世界のベスト:データフリー・ハイパー知識蒸留による連合学習による正確なグローバルモデルとパーソナライズモデル The Best of Both Worlds: Accurate Global and Personalized Models through Federated Learning with Data-Free Hyper-Knowledge Distillation ( http://arxiv.org/abs/2301.08968v1 ) ライセンス: Link先を確認 | Huancheng Chen, Johnny (Chaining) Wang, Haris Vikalo | (参考訳) クライアント間で分散するデータの多様性は、フェデレーション学習を通じてトレーニングされたグローバルモデルのパフォーマンスを制限する。
近年、異種データによる課題に対する潜在的な解決策としてパーソナライズド・フェデレーション・ラーニング(pFL)が出現している。
しかし、既存のpFL法は、グローバルモデルの精度を犠牲にして、ローカルモデルの性能を高めるのが一般的である。
我々は,クライアントがローカルモデルの学習に知識蒸留(kd)に依存する新しいflアルゴリズムであるfeedhkd(federated hyper-knowledge distillation)を提案する。
特に、各クライアントはローカルなデータ表現とそれに対応するソフトな予測の手段をサーバに抽出して送信します。
サーバはこの情報を集約し、ローカルトレーニングをサポートするためにクライアントにブロードキャストする。
特に、他のKDベースのpFLメソッドとは異なり、FedHKDはパブリックデータセットに依存したり、サーバに生成モデルをデプロイしたりしない。
本研究では,fedhkdの収束を解析し,様々なシナリオで視覚的データセットに関する広範囲な実験を行い,異種データ設定用に設計された最新fl手法と比較して,feedhkdがパーソナライズとグローバルモデル性能の両方において有意な改善をもたらすことを示した。 Heterogeneity of data distributed across clients limits the performance of global models trained through federated learning, especially in the settings with highly imbalanced class distributions of local datasets. In recent years, personalized federated learning (pFL) has emerged as a potential solution to the challenges presented by heterogeneous data. However, existing pFL methods typically enhance performance of local models at the expense of the global model's accuracy. We propose FedHKD (Federated Hyper-Knowledge Distillation), a novel FL algorithm in which clients rely on knowledge distillation (KD) to train local models. In particular, each client extracts and sends to the server the means of local data representations and the corresponding soft predictions -- information that we refer to as ``hyper-knowledge". The server aggregates this information and broadcasts it to the clients in support of local training. Notably, unlike other KD-based pFL methods, FedHKD does not rely on a public dataset nor it deploys a generative model at the server. We analyze convergence of FedHKD and conduct extensive experiments on visual datasets in a variety of scenarios, demonstrating that FedHKD provides significant improvement in both personalized as well as global model performance compared to state-of-the-art FL methods designed for heterogeneous data settings. | 翻訳日:2023-01-24 15:30:53 公開日:2023-01-21 |
# 生肉か料理か?
RAW画像からの物体検出 Raw or Cooked? Object Detection on RAW Images ( http://arxiv.org/abs/2301.08965v1 ) ライセンス: Link先を確認 | William Ljungbergh, Joakim Johnander, Christoffer Petersson, and Michael Felsberg | (参考訳) ディープニューラルネットワークに供給される画像は、一般的に複数の手作り画像信号処理(ISP)処理を実行しており、これらすべてが視覚的に喜ばしい画像を生成するように最適化されている。
本研究では,RAW画像表現と比較して,映像の中間表現が下流コンピュータビジョンタスクに最適であるという仮説を検討する。
我々は,ISP の操作を,トレーニング中に共同で操作のパラメータを学習することで,エンドタスクに最適化することが提案される。
本稿では,従来のrgb画像と従来のrgb画像と比較して,物体検出器の性能が向上する新しい学習操作を提案する。
オープンPASCALRAWデータセットの実験では,仮説を実証的に確認した。 Images fed to a deep neural network have in general undergone several handcrafted image signal processing (ISP) operations, all of which have been optimized to produce visually pleasing images. In this work, we investigate the hypothesis that the intermediate representation of visually pleasing images is sub-optimal for downstream computer vision tasks compared to the RAW image representation. We suggest that the operations of the ISP instead should be optimized towards the end task, by learning the parameters of the operations jointly during training. We extend previous works on this topic and propose a new learnable operation that enables an object detector to achieve superior performance when compared to both previous works and traditional RGB images. In experiments on the open PASCALRAW dataset, we empirically confirm our hypothesis. | 翻訳日:2023-01-24 15:30:28 公開日:2023-01-21 |
# 犬のMRIからの2相変形場を用いた心疾患分類のための逐次サブスペース学習 Successive Subspace Learning for Cardiac Disease Classification with Two-phase Deformation Fields from Cine MRI ( http://arxiv.org/abs/2301.08959v1 ) ライセンス: Link先を確認 | Xiaofeng Liu, Fangxu Xing, Hanna K. Gaggin, C.-C. Jay Kuo, Georges El Fakhri, Jonghye Woo | (参考訳) 心臓血管MRIは、心臓血管疾患(CVD)の特徴付けに用いられ、しばしば非侵襲的な表現型ツールを提供する。
近年,シネMRIを用いた深層学習に基づくアプローチで精度の高い評価結果が得られたが,その性能は小さなトレーニングサンプルで劣化することが多かった。
さらに、多くのディープラーニングモデルが‘ブラックボックス’と見なされており、モデルがどのように予測を導き、どの程度信頼性があるかという点でモデルはほとんど理解できない。
そこで本研究では,心アトラスと連動して,解釈可能なフィードフォワード設計に基づくcvd分類のための軽量連続サブスペース学習(ssl)フレームワークを提案する。
具体的には、我々の階層型SSLモデルは、
(i)近隣のボクセル膨張
(ii)教師なし部分空間近似
(iii)回帰を監督し、
(iv)マルチレベル機能統合。
さらに、入力としてアトラスと個々の被験者の間で誘導される2相の3次元変形場を用いて、小さなトレーニングサンプルであってもCVDを評価する客観的手段を提供する。
1つの健康グループと4つの疾患グループからなるadcdc2017データベース上でフレームワークを評価した。
3D CNNベースのアプローチと比較して,本フレームワークは140$\times$少ないパラメータで優れた分類性能を達成し,臨床応用におけるその潜在的価値を裏付ける。 Cardiac cine magnetic resonance imaging (MRI) has been used to characterize cardiovascular diseases (CVD), often providing a noninvasive phenotyping tool.~While recently flourished deep learning based approaches using cine MRI yield accurate characterization results, the performance is often degraded by small training samples. In addition, many deep learning models are deemed a ``black box," for which models remain largely elusive in how models yield a prediction and how reliable they are. To alleviate this, this work proposes a lightweight successive subspace learning (SSL) framework for CVD classification, based on an interpretable feedforward design, in conjunction with a cardiac atlas. Specifically, our hierarchical SSL model is based on (i) neighborhood voxel expansion, (ii) unsupervised subspace approximation, (iii) supervised regression, and (iv) multi-level feature integration. In addition, using two-phase 3D deformation fields, including end-diastolic and end-systolic phases, derived between the atlas and individual subjects as input offers objective means of assessing CVD, even with small training samples. We evaluate our framework on the ACDC2017 database, comprising one healthy group and four disease groups. Compared with 3D CNN-based approaches, our framework achieves superior classification performance with 140$\times$ fewer parameters, which supports its potential value in clinical use. | 翻訳日:2023-01-24 15:30:17 公開日:2023-01-21 |
# スライストランスフォーマーと自己教師付き学習による3dポイントクラウドマップにおける6dof位置推定 Slice Transformer and Self-supervised Learning for 6DoF Localization in 3D Point Cloud Maps ( http://arxiv.org/abs/2301.08957v1 ) ライセンス: Link先を確認 | Muhammad Ibrahim, Naveed Akhtar, Saeed Anwar, Michael Wise and Ajmal Mian | (参考訳) 精密なローカライゼーションは自動運転車にとって重要である。
本稿では,LiDARデータを用いた屋外ローカライズ作業にトランスフォーマーを用いた自己教師型学習手法を提案する。
360^\circ$のlidarスキャンのスライスを再編成し、その軸方向の特性を活用するプリテキストタスクを提案する。
我々のモデルはSlice Transformerと呼ばれ、スライスを体系的に処理しながらマルチヘッドで処理する。
私たちの知る限りでは、これは屋外の点雲にマルチヘッドアテンションを利用する最初の例です。
さらに、オーストラリア西部のパース市の大規模LiDARマップを提供するPerth-WAデータセットを紹介し、$\sim$4km$^2$のエリアをカバーしている。
ローカライズアノテーションはPerth-WA向けに提供されている。
提案手法はPerth-WAとAppollo-SouthBayのデータセットで完全に評価される。
また、ModelNet40とScanNNデータセットを用いたオブジェクト分類の共通下流タスクに対する自己教師型学習手法の有効性を確立した。
コードとPerth-WAデータは公開されます。 Precise localization is critical for autonomous vehicles. We present a self-supervised learning method that employs Transformers for the first time for the task of outdoor localization using LiDAR data. We propose a pre-text task that reorganizes the slices of a $360^\circ$ LiDAR scan to leverage its axial properties. Our model, called Slice Transformer, employs multi-head attention while systematically processing the slices. To the best of our knowledge, this is the first instance of leveraging multi-head attention for outdoor point clouds. We additionally introduce the Perth-WA dataset, which provides a large-scale LiDAR map of Perth city in Western Australia, covering $\sim$4km$^2$ area. Localization annotations are provided for Perth-WA. The proposed localization method is thoroughly evaluated on Perth-WA and Appollo-SouthBay datasets. We also establish the efficacy of our self-supervised learning approach for the common downstream task of object classification using ModelNet40 and ScanNN datasets. The code and Perth-WA data will be publicly released. | 翻訳日:2023-01-24 15:29:54 公開日:2023-01-21 |
# e$^3$pose:マルチヒューマン3dポーズ推定のためのエネルギー効率の高いエッジアシストマルチカメラシステム E$^3$Pose: Energy-Efficient Edge-assisted Multi-camera System for Multi-human 3D Pose Estimation ( http://arxiv.org/abs/2301.09015v1 ) ライセンス: Link先を確認 | Letian Zhang, Jie Xu | (参考訳) 実世界と仮想世界とのシームレスな接続を確立する上で,マルチヒューマン3次元ポーズ推定が重要な役割を果たす。
最近の取り組みでは、まず異なる視点から複数のカメラビューで2Dポーズを推定し、3Dポーズに合成する2段階のフレームワークを採用している。
しかし、主にオフラインのビデオデータセット上の新しいコンピュータビジョンアルゴリズムの開発に焦点が当てられ、フレキシブルに展開されバッテリー駆動のカメラを備えた現実世界のシステムのエネルギー制約をあまり考慮していない。
本稿では,適応型カメラ選択の鍵となる考え方に基づいて,実時間多人数3次元ポーズ推定のためのエネルギー効率の高いエッジアシストマルチカメラシステムe$^3$poseを提案する。
E$3$Poseは、既存の作品のように、常に利用可能なカメラをすべて使用して2Dポーズ推定を行う代わりに、カメラビューの品質に応じて、オクルージョンとエネルギー状態の点で、カメラのサブセットのみを適応的に選択することで、エネルギー消費(バッテリー寿命を延長する)を減らし、推定精度を向上させる。
この目的を達成するために、E$^3$Poseは注意に基づくLSTMを導入し、カメラがシーンの画像を処理するために選択される前のカメラビューの閉塞情報を予測し、Lyapunov最適化フレームワークに基づいてカメラ選択アルゴリズムを実行し、長期適応選択を決定する。
5カメラテストベッド上でe$^3$poseのプロトタイプを作成し,その実現可能性を示し,その性能評価を行った。
その結果,最先端手法に匹敵する高い3次元ポーズ推定精度を維持しながら,大幅な省エネルギー(最大31.21%)を実現することができた。 Multi-human 3D pose estimation plays a key role in establishing a seamless connection between the real world and the virtual world. Recent efforts adopted a two-stage framework that first builds 2D pose estimations in multiple camera views from different perspectives and then synthesizes them into 3D poses. However, the focus has largely been on developing new computer vision algorithms on the offline video datasets without much consideration on the energy constraints in real-world systems with flexibly-deployed and battery-powered cameras. In this paper, we propose an energy-efficient edge-assisted multiple-camera system, dubbed E$^3$Pose, for real-time multi-human 3D pose estimation, based on the key idea of adaptive camera selection. Instead of always employing all available cameras to perform 2D pose estimations as in the existing works, E$^3$Pose selects only a subset of cameras depending on their camera view qualities in terms of occlusion and energy states in an adaptive manner, thereby reducing the energy consumption (which translates to extended battery lifetime) and improving the estimation accuracy. To achieve this goal, E$^3$Pose incorporates an attention-based LSTM to predict the occlusion information of each camera view and guide camera selection before cameras are selected to process the images of a scene, and runs a camera selection algorithm based on the Lyapunov optimization framework to make long-term adaptive selection decisions. We build a prototype of E$^3$Pose on a 5-camera testbed, demonstrate its feasibility and evaluate its performance. Our results show that a significant energy saving (up to 31.21%) can be achieved while maintaining a high 3D pose estimation accuracy comparable to state-of-the-art methods. | 翻訳日:2023-01-24 15:24:07 公開日:2023-01-21 |
# 私の行動はあなたの言葉よりも大声で語る: ユーザーの行動がエージェントの属性についての信念を予測するとき My Actions Speak Louder Than Your Words: When User Behavior Predicts Their Beliefs about Agents' Attributes ( http://arxiv.org/abs/2301.09011v1 ) ライセンス: Link先を確認 | Nikolos Gurney and David Pynadath and Ning Wang | (参考訳) ai decision-aidのようなエージェントに評価を依頼するという暗黙の期待は、関連する情報のみを使用する -- エージェントの善意について質問し、そのエージェントが親切であったかどうかを考慮すべきである。
しかし行動科学は、人々が時々無関係な情報を使うことを示唆している。
この現象の例として,人間とエージェントのインタラクションでよりよい成果を経験するユーザが,そのエージェントに対して,より優れた能力を持ち,より有益であると同時に,ホック後の評価において,自身の行動の結果である,より悪い結果に遭遇したユーザよりも高い整合性を示すように,体系的に評価した。
分析の結果,モデルの拡張の必要性が示唆され,そのような偏見を考慮し,エージェントがこのようなバイアスを検知し,積極的に行動し,ユーザの類似した偏見を補正するメカニズムも説明できる。 An implicit expectation of asking users to rate agents, such as an AI decision-aid, is that they will use only relevant information -- ask them about an agent's benevolence, and they should consider whether or not it was kind. Behavioral science, however, suggests that people sometimes use irrelevant information. We identify an instance of this phenomenon, where users who experience better outcomes in a human-agent interaction systematically rated the agent as having better abilities, being more benevolent, and exhibiting greater integrity in a post hoc assessment than users who experienced worse outcome -- which were the result of their own behavior -- with the same agent. Our analyses suggest the need for augmentation of models so that they account for such biased perceptions as well as mechanisms so that agents can detect and even actively work to correct this and similar biases of users. | 翻訳日:2023-01-24 15:23:35 公開日:2023-01-21 |
# ソーシャルメディアにおけるイベントトピックモデリングのためのセマンティックモジュラーフレームワーク A Semantic Modular Framework for Events Topic Modeling in Social Media ( http://arxiv.org/abs/2301.09009v1 ) ライセンス: Link先を確認 | Arya Hadizadeh Moghaddam and Saeedeh Momtazi | (参考訳) ソーシャルメディアの進歩は、彼らが頻繁に共有するコンテンツの量の増加に寄与する。
このフレームワークは、さまざまな実生活イベントを報告するための洗練された場所を提供する。
これらの事象を自然言語処理の助けを借りて検出することは研究者の注目を集め、この目的のために様々なアルゴリズムが開発されている。
本稿では,SMM(Semantic Modular Model)を提案する。SMM(Semantic Modular Model)は,分散デノイングオートエンコーダ,インクリメンタルクラスタリング,セマンティックデノージング,デフラグメンテーション,ランク付けとプロセッシングの5つのモジュールからなる。
提案手法は,(1)様々な文書を集約し,イベントの識別に寄与しない文書を無視し,(2)より重要で記述的なキーワードを識別することを目的とする。
提案手法と比較すると,提案手法は,FACup,SuperTuesday,USElectionの3つの英語Twitterデータセットにおいて,より低いランクのイベントを識別し,より重要なイベントのキーワードを抽出する上で,より高い性能を示す。
提案手法は平均キーワード精度指標の報告結果の7.9\%を上回った。 The advancement of social media contributes to the growing amount of content they share frequently. This framework provides a sophisticated place for people to report various real-life events. Detecting these events with the help of natural language processing has received researchers' attention, and various algorithms have been developed for this goal. In this paper, we propose a Semantic Modular Model (SMM) consisting of 5 different modules, namely Distributional Denoising Autoencoder, Incremental Clustering, Semantic Denoising, Defragmentation, and Ranking and Processing. The proposed model aims to (1) cluster various documents and ignore the documents that might not contribute to the identification of events, (2) identify more important and descriptive keywords. Compared to the state-of-the-art methods, the results show that the proposed model has a higher performance in identifying events with lower ranks and extracting keywords for more important events in three English Twitter datasets: FACup, SuperTuesday, and USElection. The proposed method outperformed the best reported results in the mean keyword-precision metric by 7.9\%. | 翻訳日:2023-01-24 15:23:17 公開日:2023-01-21 |
# 貧乏者の品質推定:参照のない参照ベースのmtメトリクスの予測 Poor Man's Quality Estimation: Predicting Reference-Based MT Metrics Without the Reference ( http://arxiv.org/abs/2301.09008v1 ) ライセンス: Link先を確認 | Vil\'em Zouhar, Shehzaad Dhuliawala, Wangchunshu Zhou, Nico Daheim, Tom Kocmi, Yuchen Eleanor Jiang, Mrinmaya Sachan | (参考訳) 機械翻訳品質推定(QE)は、参照を見ることなく翻訳仮説の人間の判断を予測する。
事前訓練された言語モデルに基づく最先端のQEシステムは、人間の判断と顕著な相関を達成しているが、それらは計算的に重く、作成に時間がかかる人間のアノテーションを必要とする。
これらの制約に対処するために、基準を使わずに自動測定値を予測する計量推定(ME)の問題を定義する。
基準にアクセスしなくても、我々のモデルは自動メトリクス(BLEUは$60%、他のメトリクスは$51%)を文レベルで推定できることを示す。
自動メトリクスは人間の判断と相関するため、QEモデルの事前トレーニングにMEタスクを利用することができます。
QEタスクの場合、TERの事前トレーニングは、スクラッチのトレーニング(\rho$=20%)より優れている(\rho$=23%)。 Machine translation quality estimation (QE) predicts human judgements of a translation hypothesis without seeing the reference. State-of-the-art QE systems based on pretrained language models have been achieving remarkable correlations with human judgements yet they are computationally heavy and require human annotations, which are slow and expensive to create. To address these limitations, we define the problem of metric estimation (ME) where one predicts the automated metric scores also without the reference. We show that even without access to the reference, our model can estimate automated metrics ($\rho$=60% for BLEU, $\rho$=51% for other metrics) at the sentence-level. Because automated metrics correlate with human judgements, we can leverage the ME task for pre-training a QE model. For the QE task, we find that pre-training on TER is better ($\rho$=23%) than training for scratch ($\rho$=20%). | 翻訳日:2023-01-24 15:22:57 公開日:2023-01-21 |
# トランスフォーマーを用いたマルチネット : 画像を用いた癌診断モデル MultiNet with Transformers: A Model for Cancer Diagnosis Using Images ( http://arxiv.org/abs/2301.09007v1 ) ライセンス: Link先を確認 | Hosein Barzekar, Yash Patel, Ling Tong, Zeyun Yu | (参考訳) がんは、多くの国で主要な死因である。
バイオメディカルイメージングに基づく早期癌の診断は、効果的な治療とより良い予後を保証する。
しかし、バイオメディカルイメージングは、臨床機関と研究者の両方に課題をもたらす。
生理的異常はしばしば個々の細胞や組織のわずかな異常によって特徴づけられ、視覚的に検出することが困難である。
伝統的に、異常は放射線科医や病理医によって広範な訓練を受けながら診断される。
しかし、この手続きは専門家の参加を要求され、かなりのコストがかかる。
このコストは、大規模な生物学的画像分類を非現実的にする。
本研究では,医用画像,特に癌画像のマルチクラス分類のための独自のディープニューラルネットワーク設計を提案する。
データ収集機能を活用し,より正確な分類を行うために,トランスフォーマーをマルチクラスフレームワークに組み込んだ。
各種尺度を用いて,公開データセット上でのモデル評価を行い,モデルの信頼性を保証した。
広範な評価指標は、この手法が多くの分類タスクに使用できることを示唆している。 Cancer is a leading cause of death in many countries. An early diagnosis of cancer based on biomedical imaging ensures effective treatment and a better prognosis. However, biomedical imaging presents challenges to both clinical institutions and researchers. Physiological anomalies are often characterized by slight abnormalities in individual cells or tissues, making them difficult to detect visually. Traditionally, anomalies are diagnosed by radiologists and pathologists with extensive training. This procedure, however, demands the participation of professionals and incurs a substantial cost. The cost makes large-scale biological image classification impractical. In this study, we provide unique deep neural network designs for multiclass classification of medical images, in particular cancer images. We incorporated transformers into a multiclass framework to take advantage of data-gathering capability and perform more accurate classifications. We evaluated models on publicly accessible datasets using various measures to ensure the reliability of the models. Extensive assessment metrics suggest this method can be used for a multitude of classification tasks. | 翻訳日:2023-01-24 15:22:40 公開日:2023-01-21 |
# 黒人はアンガーに、白人はジョイに?
大規模事前学習ニューラルランゲージモデルにおける潜在感情バイアスの理解 Blacks is to Anger as Whites is to Joy? Understanding Latent Affective Bias in Large Pre-trained Neural Language Models ( http://arxiv.org/abs/2301.09003v1 ) ライセンス: Link先を確認 | Anoop Kadan, Deepak P., Sahely Bhadra, Manjary P. Gangan, Lajish V. L | (参考訳) 深層学習に基づく自然言語処理における画期的な発明と顕著な性能向上は、トランスフォーマーベースの大規模事前学習言語モデル(PLM)の開発を通じて観察される。
自動教師付き学習戦略とともに、人間が生成したデータの中でラベルなしのデータが広範囲に利用できるようになることで、言語生成や言語理解などにおける大きなplmの成功が加速される。
しかし同時に、特定の性別、人種等に対する人間の心の潜伏した歴史的偏見や不公平は、コーパスに意図せず意図せずエンコードされ、多くの現実世界のアプリケーション、特に保護されたグループにおいて大きなPLMの有効性と有効性に疑問を投げかける。
本稿では,特定の性別,人種,宗教に対する怒り,恐怖,喜びといった感情の偏りのある関係を,文章的感情検出の下流課題に対して明らかにするために,大きなplmにおける「影響バイアス」の存在を理解するための広範囲な調査を行う。
我々は,コーパスレベルの感情的バイアス分析の初期段階から,事前学習および微調整plmに用いられる大規模コーパスにおいて,感情的単語の不均衡分布を探索し,感情的バイアスの探索を行う。
その後、モデル予測における感情バイアスを定量化するために、様々なバイアス評価コーパスを用いて、クラスベースおよび強度ベースの評価を行う。
以上の結果から, PLMに基づく感情検出システムには統計的に有意な感情バイアスが存在し, 特定の性別, 人種, 宗教に対する感情の偏りが示唆された。 Groundbreaking inventions and highly significant performance improvements in deep learning based Natural Language Processing are witnessed through the development of transformer based large Pre-trained Language Models (PLMs). The wide availability of unlabeled data within human generated data deluge along with self-supervised learning strategy helps to accelerate the success of large PLMs in language generation, language understanding, etc. But at the same time, latent historical bias/unfairness in human minds towards a particular gender, race, etc., encoded unintentionally/intentionally into the corpora harms and questions the utility and efficacy of large PLMs in many real-world applications, particularly for the protected groups. In this paper, we present an extensive investigation towards understanding the existence of "Affective Bias" in large PLMs to unveil any biased association of emotions such as anger, fear, joy, etc., towards a particular gender, race or religion with respect to the downstream task of textual emotion detection. We conduct our exploration of affective bias from the very initial stage of corpus level affective bias analysis by searching for imbalanced distribution of affective words within a domain, in large scale corpora that are used to pre-train and fine-tune PLMs. Later, to quantify affective bias in model predictions, we perform an extensive set of class-based and intensity-based evaluations using various bias evaluation corpora. Our results show the existence of statistically significant affective bias in the PLM based emotion detection systems, indicating biased association of certain emotions towards a particular gender, race, and religion. | 翻訳日:2023-01-24 15:22:28 公開日:2023-01-21 |
# 人工知能モデルの継続的な開発のためのパイプライン-研究と実践の現状 The Pipeline for the Continuous Development of Artificial Intelligence Models -- Current State of Research and Practice ( http://arxiv.org/abs/2301.09001v1 ) ライセンス: Link先を確認 | Monika Steidl, Michael Felderer, Rudolf Ramler | (参考訳) 企業は、品質を確保しながら、AI特性のために複雑なプロダクションシステムにAIモデルを継続的に開発、デプロイすることに苦労している。
開発プロセスを容易にするために、AIの継続的パイプラインは、用語、トリガー、タスク、課題に関する統合的で詳細な分析を必要とする活発な研究領域になっている。
本論文は,151の関連資料と非公式資料を統合した多言語文献レビューを含む。
また、学術・産業関係者との9件の面談により、得られた情報を検証・拡張した。
これらのソースに基づいて、AI、MLOps、(エンドツーエンド)ライフサイクル管理、CD4MLのDevOpsとCI/CDの用語を提供し、比較する。
さらに、アラートシステムやスケジュールなど、パイプラインを再実行するための潜在的なトリガの一覧も提供している。
さらに本研究は,aiの継続的な開発に関するタスクを含む統合パイプラインを提示するために,分類体系作成戦略を用いる。
このパイプラインは、データハンドリング、モデル学習、ソフトウェア開発、システムオペレーションの4つのステージで構成される。
さらに、パイプラインの実装、適応、AIの継続的開発利用に関する課題を、これら4つのステージにマップする。 Companies struggle to continuously develop and deploy AI models to complex production systems due to AI characteristics while assuring quality. To ease the development process, continuous pipelines for AI have become an active research area where consolidated and in-depth analysis regarding the terminology, triggers, tasks, and challenges is required. This paper includes a Multivocal Literature Review where we consolidated 151 relevant formal and informal sources. In addition, nine-semi structured interviews with participants from academia and industry verified and extended the obtained information. Based on these sources, this paper provides and compares terminologies for DevOps and CI/CD for AI, MLOps, (end-to-end) lifecycle management, and CD4ML. Furthermore, the paper provides an aggregated list of potential triggers for reiterating the pipeline, such as alert systems or schedules. In addition, this work uses a taxonomy creation strategy to present a consolidated pipeline comprising tasks regarding the continuous development of AI. This pipeline consists of four stages: Data Handling, Model Learning, Software Development and System Operations. Moreover, we map challenges regarding pipeline implementation, adaption, and usage for the continuous development of AI to these four stages. | 翻訳日:2023-01-24 15:21:58 公開日:2023-01-21 |
# 構文誘導型ニューラルモジュール蒸留による文の合成性向上 Syntax-guided Neural Module Distillation to Probe Compositionality in Sentence Embeddings ( http://arxiv.org/abs/2301.08998v1 ) ライセンス: Link先を確認 | Rohan Pandey | (参考訳) 文埋め込みモデルにおける構成性に関する過去の研究は、暗黙の構文表現の因果的影響を決定する問題に直面している。
文が与えられたら、その構文解析に基づいてニューラルモジュールネットを構築し、それをエンドツーエンドにトレーニングし、トランスフォーマーモデルによって生成された文の埋め込みを近似する。
Syntactic NeurAl Module Net (SynNaMoN) への変換器の蒸留性は、構文がその構成能力の強力な因果モデルであるかどうかを捉える。
さらに,SynNaMoNモジュールの内部構造と線形性を指定することで,意味構成の幾何学に関する疑問に対処する。
様々な文埋め込みモデルの蒸留性の違いは, それらの性能と大きく相関するが, 蒸留性はモデルサイズによって大きく変化しない。
また,文埋め込みモデルにおける構文誘導構成の多くが線形であり,非線形性は主に非合成句を扱うのに役立つことを示す。 Past work probing compositionality in sentence embedding models faces issues determining the causal impact of implicit syntax representations. Given a sentence, we construct a neural module net based on its syntax parse and train it end-to-end to approximate the sentence's embedding generated by a transformer model. The distillability of a transformer to a Syntactic NeurAl Module Net (SynNaMoN) then captures whether syntax is a strong causal model of its compositional ability. Furthermore, we address questions about the geometry of semantic composition by specifying individual SynNaMoN modules' internal architecture & linearity. We find differences in the distillability of various sentence embedding models that broadly correlate with their performance, but observe that distillability doesn't considerably vary by model size. We also present preliminary evidence that much syntax-guided composition in sentence embedding models is linear, and that non-linearities may serve primarily to handle non-compositional phrases. | 翻訳日:2023-01-24 15:21:41 公開日:2023-01-21 |
# REDAFfectiveLM: 読者の感情検出のためのリッチエンベディングとトランスフォーマーベースニューラル言語モデルを活用する REDAffectiveLM: Leveraging Affect Enriched Embedding and Transformer-based Neural Language Model for Readers' Emotion Detection ( http://arxiv.org/abs/2301.08995v1 ) ライセンス: Link先を確認 | Anoop Kadan, Deepak P., Manjary P. Gangan, Savitha Sam Abraham, Lajish V. L | (参考訳) Webプラットフォームの技術的進歩は、他の人によって書かれ共有されるテキストによる書き込みに対する感情を表現し、共有することを可能にする。
これは分析に異なる興味深い領域をもたらす。著者によって表現された感情と読者から引き起こされた感情だ。
本稿では,REDAffectiveLMと呼ばれる深層学習モデルを用いて,短文文書からの読み手感情検出のための新しい手法を提案する。
最先端のNLPタスクでは、トランスフォーマーベースの事前学習言語モデルからコンテキスト固有の表現を利用することで、性能の向上が期待できる。
本課題では,感情情報の導入がパフォーマンスをさらに向上させる方法について検討する。
そこで我々は, 文脈固有性を活用し, 拡張Bi-LSTM+Attentionに影響を及ぼす変圧器を用いた事前学習言語モデルを用いて, リッチ表現に影響を与える。
実験的な評価のために,RENh-4k と SemEval-2007 を併用した新しいデータセット REN-20k を作成した。
我々は,REDAFfectiveLMの性能をこれらのデータセットに対して厳格に評価し,そのモデルがベースラインを一貫して上回り,統計的に有意な結果が得られるような最先端のベースラインに対して評価する。
本研究は,インフルエント表現と,ニューラルアーキテクチャ内のコンテキスト固有の表現を併用することで,読者の感情検出を大幅に向上させることができることを示す。
読者の感情検出に特に影響を及ぼす影響は調査されていないため,定性的・定量的なモデル行動評価手法を用いて,リッチなBi-LSTM+Attentionに対する影響を詳細に分析する。
本研究は,従来の意味的埋め込みに比べて,重み付けを効果的に識別し,読者の感情検出に寄与するキーワードに割り当てるネットワークの能力が向上することを示す。 Technological advancements in web platforms allow people to express and share emotions towards textual write-ups written and shared by others. This brings about different interesting domains for analysis; emotion expressed by the writer and emotion elicited from the readers. In this paper, we propose a novel approach for Readers' Emotion Detection from short-text documents using a deep learning model called REDAffectiveLM. Within state-of-the-art NLP tasks, it is well understood that utilizing context-specific representations from transformer-based pre-trained language models helps achieve improved performance. Within this affective computing task, we explore how incorporating affective information can further enhance performance. Towards this, we leverage context-specific and affect enriched representations by using a transformer-based pre-trained language model in tandem with affect enriched Bi-LSTM+Attention. For empirical evaluation, we procure a new dataset REN-20k, besides using RENh-4k and SemEval-2007. We evaluate the performance of our REDAffectiveLM rigorously across these datasets, against a vast set of state-of-the-art baselines, where our model consistently outperforms baselines and obtains statistically significant results. Our results establish that utilizing affect enriched representation along with context-specific representation within a neural architecture can considerably enhance readers' emotion detection. Since the impact of affect enrichment specifically in readers' emotion detection isn't well explored, we conduct a detailed analysis over affect enriched Bi-LSTM+Attention using qualitative and quantitative model behavior evaluation techniques. We observe that compared to conventional semantic embedding, affect enriched embedding increases ability of the network to effectively identify and assign weightage to key terms responsible for readers' emotion detection. | 翻訳日:2023-01-24 15:21:25 公開日:2023-01-21 |
# 証拠の測定方法:ベイズ要因か、それとも相対的信念比か? How to Measure Evidence: Bayes Factors or Relative Belief Ratios? ( http://arxiv.org/abs/2301.08994v1 ) ライセンス: Link先を確認 | Luai Al-Labadi, Ayman Alzaatreh, Michael Evans | (参考訳) ベイズ因子と相対的信念比の両方が証拠の原理を満たすので、統計的証拠の有効な尺度と見なすことができる。
問題は、これらの証拠のどれがより適切かということです。
ベイズ因子は一般的に用いられる。
ここで議論されるのは、現在一般的に使われているベイズ因子の定義の妥当性に関する疑問であり、すべてを考えると、相対的信念比はより適切な証拠の尺度である。
これらの証拠に関する一般的な批判も議論され、取り扱われている。 Both the Bayes factor and the relative belief ratio satisfy the principle of evidence and so can be seen to be valid measures of statistical evidence. The question then is: which of these measures of evidence is more appropriate? Certainly Bayes factors are commonly used. It is argued here that there are questions concerning the validity of a current commonly used definition of the Bayes factor and, when all is considered, the relative belief ratio is a much more appropriate measure of evidence. Several general criticisms of these measures of evidence are also discussed and addressed. | 翻訳日:2023-01-24 15:20:57 公開日:2023-01-21 |
# 異方性ガウスの統計的最適ロバスト平均と共分散推定 Statistically Optimal Robust Mean and Covariance Estimation for Anisotropic Gaussians ( http://arxiv.org/abs/2301.09024v1 ) ライセンス: Link先を確認 | Arshak Minasyan and Nikita Zhivotovskiy | (参考訳) X_{1}, \ldots, X_{N}$ を$\varepsilon$-contaminated sample of $N$ independent Gaussian vectors in $\mathbb{R}^d$ with mean $\mu$ and covariance $\Sigma$ とする。
強い$\varepsilon$-汚染モデルでは、元のガウスサンプルのベクトルの$\varepsilon$分を他のベクトルに置き換えると仮定する。
平均を満足する推定値 $\widehat \mu$ が存在し、少なくとも 1\delta$ の確率で \[ \|\widehat{\mu} - \mu\|_2 \le c\left(\sqrt{\frac{\operatorname{tr}(\sigma)}{n}} + \sqrt{\frac {|\sigma\|\log(1/\delta)}{n}} + \varepsilon\sqrt{\|\sigma\|}\right), \] ここで $c > 0$ は絶対定数であり、$\|\sigma\|$ は$\sigma$ の作用素ノルムを表す。
同じ汚染ガウス系では、少なくとも 1\delta$, \[ \left\|\widehat{\sigma} - \sigma\right\| \le c\left(\sqrt{\frac{\|\sigma\|\operatorname{tr}(\sigma)}{n}} + \|\sigma\|\sqrt{\frac{\log(1/\delta)}{n}} + \varepsilon\|\sigma\|\|\|\|\|\|\|\\\right) を満たす共分散行列 $\sigma$ の推定子 $\widehat \sigma$ を構成する。
\] 両結果は乗法定数因子まで最適である。
近年のロバスト統計学に対する大きな関心にもかかわらず、標準ガウスの場合における次元自由境界の両立は未開のままであった。
実際、以前に知られていたいくつかの結果は次元に依存しており、同一性に近いために$\sigma$が必要であったり、汚染レベル$\varepsilon$に準最適依存していた。
分析の一部として,ガウス分布,折り畳み正規分布,チ二乗分布の中央次統計量に対する鋭い濃度不等式を導出する。 Assume that $X_{1}, \ldots, X_{N}$ is an $\varepsilon$-contaminated sample of $N$ independent Gaussian vectors in $\mathbb{R}^d$ with mean $\mu$ and covariance $\Sigma$. In the strong $\varepsilon$-contamination model we assume that the adversary replaced an $\varepsilon$ fraction of vectors in the original Gaussian sample by any other vectors. We show that there is an estimator $\widehat \mu$ of the mean satisfying, with probability at least $1 - \delta$, a bound of the form \[ \|\widehat{\mu} - \mu\|_2 \le c\left(\sqrt{\frac{\operatorname{Tr}(\Sigma)}{N}} + \sqrt{\frac{\|\Sigma\|\log(1/\delta)}{N}} + \varepsilon\sqrt{\|\Sigma\|}\right), \] where $c > 0$ is an absolute constant and $\|\Sigma\|$ denotes the operator norm of $\Sigma$. In the same contaminated Gaussian setup, we construct an estimator $\widehat \Sigma$ of the covariance matrix $\Sigma$ that satisfies, with probability at least $1 - \delta$, \[ \left\|\widehat{\Sigma} - \Sigma\right\| \le c\left(\sqrt{\frac{\|\Sigma\|\operatorname{Tr}(\Sigma)}{N}} + \|\Sigma\|\sqrt{\frac{\log(1/\delta)}{N}} + \varepsilon\|\Sigma\|\right). \] Both results are optimal up to multiplicative constant factors. Despite the recent significant interest in robust statistics, achieving both dimension-free bounds in the canonical Gaussian case remained open. In fact, several previously known results were either dimension-dependent and required $\Sigma$ to be close to identity, or had a sub-optimal dependence on the contamination level $\varepsilon$. As a part of the analysis, we derive sharp concentration inequalities for central order statistics of Gaussian, folded normal, and chi-squared distributions. | 翻訳日:2023-01-24 15:13:29 公開日:2023-01-21 |
# 自然言語から心電図への伝達知識:言語モデルによる心血管疾患の検出は可能か? Transfer Knowledge from Natural Language to Electrocardiography: Can We Detect Cardiovascular Disease Through Language Models? ( http://arxiv.org/abs/2301.09017v1 ) ライセンス: Link先を確認 | Jielin Qiu, William Han, Jiacheng Zhu, Mengdi Xu, Michael Rosenberg, Emerson Liu, Douglas Weber, Ding Zhao | (参考訳) 最近の大規模言語モデル(llm)の進歩は、大規模データセットに事前学習された学習埋め込みが、さまざまな下流アプリケーションで強力な能力を示しているため、注目を集めている。
しかし、LSMによる学習知識が臨床心臓学に移行できるかどうかは不明である。
本研究は,LEMの知識を臨床心電図(ECG)に伝達することで,このギャップを埋めることを目的とする。
心臓血管疾患診断と心電図自動診断レポート作成のためのアプローチを提案する。
また,ecgと言語埋め込みの分布を調整するために,optimize transport (ot) による新たな損失関数を導入する。
1) 自動心電図診断レポート生成, (2) ゼロショット心血管疾患検出の2つの課題において, 学習した埋め込みを評価した。
LLMから心臓領域への知識の移行の可能性を示すため,本手法では,高品質な心臓診断レポートを作成できるとともに,教師付きベースラインと比較して,競争力のあるゼロショット分類性能を実現することができる。 Recent advancements in Large Language Models (LLMs) have drawn increasing attention since the learned embeddings pretrained on large-scale datasets have shown powerful ability in various downstream applications. However, whether the learned knowledge by LLMs can be transferred to clinical cardiology remains unknown. In this work, we aim to bridge this gap by transferring the knowledge of LLMs to clinical Electrocardiography (ECG). We propose an approach for cardiovascular disease diagnosis and automatic ECG diagnosis report generation. We also introduce an additional loss function by Optimal Transport (OT) to align the distribution between ECG and language embedding. The learned embeddings are evaluated on two downstream tasks: (1) automatic ECG diagnosis report generation, and (2) zero-shot cardiovascular disease detection. Our approach is able to generate high-quality cardiac diagnosis reports and also achieves competitive zero-shot classification performance even compared with supervised baselines, which proves the feasibility of transferring knowledge from LLMs to the cardiac domain. | 翻訳日:2023-01-24 15:12:17 公開日:2023-01-21 |