このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211112となっている論文です。

PDF登録状況(公開日: 20211112)

TitleAuthorsAbstract論文公表日・翻訳日
# テキストベースコード埋め込みによる異種電子健康記録システムの統合

Unifying Heterogenous Electronic Health Records Systems via Text-Based Code Embedding ( http://arxiv.org/abs/2111.09098v1 )

ライセンス: Link先を確認
Kyunghoon Hur, Jiyoung Lee, Jungwoo Oh, Wesley Price, Young-Hak Kim, Edward Choi(参考訳) EHRシステムには、医療概念を規定する統一的なコードシステムがなく、複数のクリニックや病院にディープラーニングモデルを大規模に展開するための障壁として機能する。 この問題を解決するために,コードに依存しないEHR表現学習フレームワークであるDescription-based Embedding,DescEmbを紹介した。 descembは、各イベントを専用の埋め込みに直接マッピングするのではなく、テキストによる記述を使用して臨床イベントを組み込んだ神経言語理解モデルの柔軟性を活用する。 DescEmbは、大規模な実験、特にゼロショットトランスファータスク(ひとつの病院から別の病院へ)における従来のコードベースの埋め込みよりも優れており、異種EHRデータセットに対して単一の統一モデルをトレーニングすることができた。

EHR systems lack a unified code system forrepresenting medical concepts, which acts asa barrier for the deployment of deep learningmodels in large scale to multiple clinics and hos-pitals. To overcome this problem, we introduceDescription -based Embedding,DescEmb, a code-agnostic representation learning framework forEHR. DescEmb takes advantage of the flexibil-ity of neural language understanding models toembed clinical events using their textual descrip-tions rather than directly mapping each event toa dedicated embedding. DescEmb outperformedtraditio nal code-based embedding in extensiveexperiments , especially in a zero-shot transfertask (one hospital to another), and was able totrain a single unified model for heterogeneousEHR datasets.
翻訳日:2021-11-21 14:31:27 公開日:2021-11-12
# (参考訳) 低用量デジタルマンモグラフィの復元を目的としたディープニューラルネットワークの性能に及ぼす損失関数の影響 [全文訳有]

Impact of loss functions on the performance of a deep neural network designed to restore low-dose digital mammography ( http://arxiv.org/abs/2111.06890v1 )

ライセンス: CC BY 4.0
Hongming Shan, Rodrigo de Barros Vimieiro, Lucas Rodrigues Borges, Marcelo Andrade da Costa Vieira and Ge Wang(参考訳) デジタルマンモグラフィは乳がん検診の最も一般的な画像診断ツールである。 がん検診にデジタルマンモグラフィーを用いることの利点はX線曝露に伴うリスクを上回るが、生成した画像の診断能を維持しつつ放射線線量を最小限に抑え、患者のリスクを最小限に抑える必要がある。 ディープニューラルネットワークを用いて低線量画像の復元による線量削減の可能性を検討した。 このような場合、適切なトレーニングデータベースと損失関数を選択することが重要であり、結果の品質に影響を与えます。 本稿では,低用量デジタルマンモグラフィの復元のために階層的スキップ接続を用いたresnetアーキテクチャの修正を提案する。 復元された画像と標準フルダイス画像を比較した。 さらに,本課題に対するいくつかの損失関数の性能評価を行った。 臨床マンモグラフィ検査400例のデータセットから25万6000枚の画像パッチを抽出し,低用量および標準用量ペアを生成するために異なる線量レベルをシミュレートした。 実シナリオでネットワークを検証するために, 実機でトレーニングしたモデルを用いて, 実際の低線量および標準フル線量画像を取得するために, 物理的人為的乳房ファントムを用いた。 本研究では,低線量デジタルマンモグラフィーの解析的復元モデルをベンチマークとして用いた。 信号対雑音比 (SNR) と平均正規化二乗誤差 (MNSE) を用いて客観評価を行い, 残雑音とバイアスに分解した。 その結果、知覚損失関数 (pl4) はフルドーズ獲得のノイズレベルがほぼ同じであると同時に、他の損失関数よりも信号バイアスが小さいことがわかった。

Digital mammography is still the most common imaging tool for breast cancer screening. Although the benefits of using digital mammography for cancer screening outweigh the risks associated with the x-ray exposure, the radiation dose must be kept as low as possible while maintaining the diagnostic utility of the generated images, thus minimizing patient risks. Many studies investigated the feasibility of dose reduction by restoring low-dose images using deep neural networks. In these cases, choosing the appropriate training database and loss function is crucial and impacts the quality of the results. In this work, a modification of the ResNet architecture, with hierarchical skip connections, is proposed to restore low-dose digital mammography. We compared the restored images to the standard full-dose images. Moreover, we evaluated the performance of several loss functions for this task. For training purposes, we extracted 256,000 image patches from a dataset of 400 images of retrospective clinical mammography exams, where different dose levels were simulated to generate low and standard-dose pairs. To validate the network in a real scenario, a physical anthropomorphic breast phantom was used to acquire real low-dose and standard full-dose images in a commercially avaliable mammography system, which were then processed through our trained model. An analytical restoration model for low-dose digital mammography, previously presented, was used as a benchmark in this work. Objective assessment was performed through the signal-to-noise ratio (SNR) and mean normalized squared error (MNSE), decomposed into residual noise and bias. Results showed that the perceptual loss function (PL4) is able to achieve virtually the same noise levels of a full-dose acquisition, while resulting in smaller signal bias compared to other loss functions.
翻訳日:2021-11-19 07:20:49 公開日:2021-11-12
# (参考訳) 糖尿病性足潰瘍分類における畳み込みネットと視覚トランスフォーマー [全文訳有]

Convolutional Nets Versus Vision Transformers for Diabetic Foot Ulcer Classification ( http://arxiv.org/abs/2111.06894v1 )

ライセンス: CC BY 4.0
Adrian Galdran, Gustavo Carneiro, Miguel A. Gonz\'alez Ballester(参考訳) 本稿では,すでに確立されている畳み込みニューラルネットワーク(CNN)と,最近導入された糖尿病性足の潰瘍分類のための視覚変換器を,DFUC 2021 Grand-Challengeの文脈で比較する。 包括的実験により、現代のCNNは、空間的相関をうまく活用する能力のため、低データ状態においてトランスフォーマーよりも優れた性能を発揮することが示されている。 さらに,最近のspikeness-aware minimization (sam) 最適化アルゴリズムが,両モデルの一般化能力を大幅に向上させることを示す。 この結果から,CNNとSAMの最適化処理の組み合わせにより,検討した他のどの手法よりも優れた性能が得られることが示された。

This paper compares well-established Convolutional Neural Networks (CNNs) to recently introduced Vision Transformers for the task of Diabetic Foot Ulcer Classification, in the context of the DFUC 2021 Grand-Challenge, in which this work attained the first position. Comprehensive experiments demonstrate that modern CNNs are still capable of outperforming Transformers in a low-data regime, likely owing to their ability for better exploiting spatial correlations. In addition, we empirically demonstrate that the recent Sharpness-Aware Minimization (SAM) optimization algorithm considerably improves the generalization capability of both kinds of models. Our results demonstrate that for this task, the combination of CNNs and the SAM optimization process results in superior performance than any other of the considered approaches.
翻訳日:2021-11-19 06:58:41 公開日:2021-11-12
# (参考訳) 共同設立者のShapley値分析による医療AIのパフォーマンス格差の説明 [全文訳有]

Explaining medical AI performance disparities across sites with confounder Shapley value analysis ( http://arxiv.org/abs/2111.08168v1 )

ライセンス: CC BY 4.0
Eric Wu, Kevin Wu, James Zou(参考訳) 医療AIアルゴリズムは、これまで見えないサイトで評価された場合、しばしば劣化したパフォーマンスを経験する。 クロスサイトパフォーマンスの格差に対処することは、AIが多様な患者集団にデプロイされるときに公平で効果的であることを保証する鍵となる。 マルチサイト評価は、患者人口、機器タイプ、技術的パラメータなど、幅広い潜在的なバイアスでアルゴリズムをテストすることができるため、このような格差を診断する鍵となる。 しかし、このようなテストでは、なぜモデルが悪化するかは説明できない。 本フレームワークは,外部データを用いたモデル評価において,各バイアスの限界および累積効果が全体の性能差に与える影響を定量化する手法を提供する。 気胸の存在を検知するために訓練された深層学習モデルのケーススタディにおいて,我々は,疾患のコンプレディティや画像パラメータなどの既知のバイアスのある異なるサイトにおけるパフォーマンスの最大60%の相違を説明するのに,その有用性を示す。

Medical AI algorithms can often experience degraded performance when evaluated on previously unseen sites. Addressing cross-site performance disparities is key to ensuring that AI is equitable and effective when deployed on diverse patient populations. Multi-site evaluations are key to diagnosing such disparities as they can test algorithms across a broader range of potential biases such as patient demographics, equipment types, and technical parameters. However, such tests do not explain why the model performs worse. Our framework provides a method for quantifying the marginal and cumulative effect of each type of bias on the overall performance difference when a model is evaluated on external data. We demonstrate its usefulness in a case study of a deep learning model trained to detect the presence of pneumothorax, where our framework can help explain up to 60% of the discrepancy in performance across different sites with known biases like disease comorbidities and imaging parameters.
翻訳日:2021-11-19 06:48:31 公開日:2021-11-12
# (参考訳) ms-latte: to-doタスクが完了する場所と時期のデータセット [全文訳有]

MS-LaTTE: A Dataset of Where and When To-do Tasks are Completed ( http://arxiv.org/abs/2111.06902v1 )

ライセンス: CC BY-SA 4.0
Sujay Kumar Jauhar, Nirupama Chandrasekaran, Michael Gamon and Ryen W. White(参考訳) タスクは人々の日常生活における基本的な作業単位であり、追跡、組織化、トリアージ、行動のためのデジタル手段の利用が増えている。 これらのデジタルツール(タスク管理アプリケーションなど)は、タスクと現実世界とのつながりを研究し、理解するためのユニークな機会を提供します。 テキスト、タイムスタンプ情報、ソーシャルコネクティビティグラフなどのシグナルをログすることで、タスクがどのように作成され組織化され、何が重要なのか、そして誰がその上で行動するのかを、より豊かで詳細な図にすることができる。 しかし、実際のタスク完了に関する状況は、現実世界のアクションとデジタル世界で記録されたテレメトリの基本的な切り離しのため、いまだに曖昧である。 そこで本稿では,MS-LaTTEと呼ばれる新しい大規模データセットを作成した。 我々はアノテーションフレームワークを記述し、収集したデータについて多くの分析を行い、共通タスクの直感的な文脈特性をキャプチャすることを示した。 最後に,空間的および時間的タスク共起の予測に関する2つの問題のデータセットをテストし,コロケーションとコタイムの予測器はともに学習可能であり,bertの微調整モデルは他の複数のベースラインよりも優れていることを結論づけた。 MS-LaTTEデータセットは、コンテキスト的タスク理解において多くの新しいモデリング課題に取り組む機会を提供する。

Tasks are a fundamental unit of work in the daily lives of people, who are increasingly using digital means to keep track of, organize, triage and act on them. These digital tools -- such as task management applications -- provide a unique opportunity to study and understand tasks and their connection to the real world, and through intelligent assistance, help people be more productive. By logging signals such as text, timestamp information, and social connectivity graphs, an increasingly rich and detailed picture of how tasks are created and organized, what makes them important, and who acts on them, can be progressively developed. Yet the context around actual task completion remains fuzzy, due to the basic disconnect between actions taken in the real world and telemetry recorded in the digital world. Thus, in this paper we compile and release a novel, real-life, large-scale dataset called MS-LaTTE that captures two core aspects of the context surrounding task completion: location and time. We describe our annotation framework and conduct a number of analyses on the data that were collected, demonstrating that it captures intuitive contextual properties for common tasks. Finally, we test the dataset on the two problems of predicting spatial and temporal task co-occurrence, concluding that predictors for co-location and co-time are both learnable, with a BERT fine-tuned model outperforming several other baselines. The MS-LaTTE dataset provides an opportunity to tackle many new modeling challenges in contextual task understanding and we hope that its release will spur future research in task intelligence more broadly.
翻訳日:2021-11-19 06:40:11 公開日:2021-11-12
# (参考訳) 類似遷移集合のモデリングによる経験リプレイの改善

Improving Experience Replay through Modeling of Similar Transitions' Sets ( http://arxiv.org/abs/2111.06907v1 )

ライセンス: CC BY 4.0
Daniel Eug\^enio Neves, Jo\~ao Pedro Oliveira Batisteli, Eduardo Felipe Lopes, Lucila Ishitani and Zenilton Kleber Gon\c{c}alves do Patroc\'inio J\'unior (Pontif\'icia Universidade Cat\'olica de Minas Gerais, Belo Horizonte, Brazil)(参考訳) 本研究では、類似した遷移の集合に対する繰り返しに基づく予測対象値による時間差学習と、2つの遷移記憶に基づく経験再生の新しいアプローチを用いた新しい強化学習手法であるCOMPER(Compact Experience Replay)を提案し、評価する。 本研究の目的は,長期の累積報酬に関するエージェントトレーニングに必要な経験を減らすことである。 強化学習の関連性は、アタリ2600のゲームでエージェントを訓練するために数百万の動画フレームを必要とする文献の関連手法と類似した結果を得るために必要な少数の観察に関係している。 アーケード学習環境(ale)の8つのチャレンジゲームにおいて,約10万フレームのcomperの5つのトレーニング試行と,約25,000のイテレーションの小さな経験による詳細な成果を報告した。 また,同じゲームセット上の実験プロトコルを持つdqnエージェントに対して,ベースラインと同じ結果を示す。 また,より少ない観測値から適切なポリシーを近似するComperの性能を検証するために,ALEのベンチマークで提示された数百万フレームから得られた結果と比較した。

In this work, we propose and evaluate a new reinforcement learning method, COMPact Experience Replay (COMPER), which uses temporal difference learning with predicted target values based on recurrence over sets of similar transitions, and a new approach for experience replay based on two transitions memories. Our objective is to reduce the required number of experiences to agent training regarding the total accumulated rewarding in the long run. Its relevance to reinforcement learning is related to the small number of observations that it needs to achieve results similar to that obtained by relevant methods in the literature, that generally demand millions of video frames to train an agent on the Atari 2600 games. We report detailed results from five training trials of COMPER for just 100,000 frames and about 25,000 iterations with a small experiences memory on eight challenging games of Arcade Learning Environment (ALE). We also present results for a DQN agent with the same experimental protocol on the same games set as the baseline. To verify the performance of COMPER on approximating a good policy from a smaller number of observations, we also compare its results with that obtained from millions of frames presented on the benchmark of ALE.
翻訳日:2021-11-19 06:23:58 公開日:2021-11-12
# (参考訳) デジタルフットプリントからの心理学的プロファイリングのための説明可能なAI:スプレッディングデータによる5大個人性予測を事例として [全文訳有]

Explainable AI for Psychological Profiling from Digital Footprints: A Case Study of Big Five Personality Predictions from Spending Data ( http://arxiv.org/abs/2111.06908v1 )

ライセンス: CC BY 4.0
Yanou Ramon, Sandra C. Matz, R.A. Farrokhnia, David Martens(参考訳) デジタル世界でのあらゆるステップは、私たちの行動の記録、すなわちデジタルフットプリントを残します。 アルゴリズムはこれらのデジタルフットプリントを、パーソナリティ特性、メンタルヘルス、知性など、心理的特性の正確な推定に翻訳できる、と研究は示唆している。 しかし、AIがこれらの洞察を生成するメカニズムは、しばしば不透明である。 本稿では、説明可能なAI(XAI)が、デジタルフットプリントから心理的特徴を分類するモデルの検証、質問、改善にどのように役立つかを示す。 金融取引データ(n = 6,408)から得られる5つの人格予測(特性とファセット)の文脈において,2つの一般的なxai手法(ルール抽出と反事実説明)を詳述した。 まず,グローバルルール抽出が,モデルがパーソナリティを最も予測するものとして認識した支出パターンにどのように光を当てるかを示し,これらのルールがモデルの説明,検証,改善にどのように役立つかについて議論する。 第2に,個人が個性的金融行動のために個性クラスに割り当てられていること,モデルの予測信頼度と予測に寄与する特徴数との間には正の相関があることを示すために,局所規則抽出を実装した。 実験では、グローバルとローカルの両方のxaiメソッドの重要性を強調した。 XAIは、予測モデルが一般的にどのように機能するか、特定の人に対してどのように結果をもたらすかをよりよく理解することで、AIが世界中の何十億もの人々の生活に影響を与える世界の説明責任を促進します。

Every step we take in the digital world leaves behind a record of our behavior; a digital footprint. Research has suggested that algorithms can translate these digital footprints into accurate estimates of psychological characteristics, including personality traits, mental health or intelligence. The mechanisms by which AI generates these insights, however, often remain opaque. In this paper, we show how Explainable AI (XAI) can help domain experts and data subjects validate, question, and improve models that classify psychological traits from digital footprints. We elaborate on two popular XAI methods (rule extraction and counterfactual explanations) in the context of Big Five personality predictions (traits and facets) from financial transactions data (N = 6,408). First, we demonstrate how global rule extraction sheds light on the spending patterns identified by the model as most predictive for personality, and discuss how these rules can be used to explain, validate, and improve the model. Second, we implement local rule extraction to show that individuals are assigned to personality classes because of their unique financial behavior, and that there exists a positive link between the model's prediction confidence and the number of features that contributed to the prediction. Our experiments highlight the importance of both global and local XAI methods. By better understanding how predictive models work in general as well as how they derive an outcome for a particular person, XAI promotes accountability in a world in which AI impacts the lives of billions of people around the world.
翻訳日:2021-11-19 06:22:55 公開日:2021-11-12
# (参考訳) code-mixing index based focal loss を用いた dravidian 言語における攻撃検出 [全文訳有]

Offense Detection in Dravidian Languages using Code-Mixing Index based Focal Loss ( http://arxiv.org/abs/2111.06916v1 )

ライセンス: CC BY 4.0
Debapriya Tula, Shreyas MS, Viswanatha Reddy, Pranjal Sahu, Sumanth Doddapaneni, Prathyush Potluri, Rohan Sukumaran, Parth Patwa(参考訳) 過去10年間で、ソーシャルメディアプラットフォームによるオンラインコンテンツの指数関数的な成長が見られた。 この規模のデータ生成には、不可解な攻撃的コンテンツの注意が伴う。 攻撃的コンテンツを特定する複雑さは、複数のモダリティ(画像、言語など)、コード混合言語の使用などによって悪化する。 さらに,攻撃コンテンツを注意深くサンプリングして注釈付けしても,攻撃コンテンツと非攻撃コンテンツの間には,常に重大な階級的不均衡が存在する。 本稿では,新しいコードミキシング・インデックス(CMI)に基づく焦点損失を導入し,(1)言語におけるコードミキシング,(2)ドラビダ語攻撃検出のためのクラス不均衡問題を回避した。 また,従来のドット製品に基づく分類器をコサインベースの分類器に置き換えることで性能が向上する。 さらに,低リソース言語を効果的に扱うために,言語間で学習した特性の伝達を支援する多言語モデルを用いる。 私たちのモデルは混合スクリプトのインスタンスも扱っています(例えば、ラテン語とドラビダ語 - タミル文字の使用)。 我々のモデルは、低リソース、クラス不均衡、多言語、コード混合設定で攻撃的な言語検出を処理できる。

Over the past decade, we have seen exponential growth in online content fueled by social media platforms. Data generation of this scale comes with the caveat of insurmountable offensive content in it. The complexity of identifying offensive content is exacerbated by the usage of multiple modalities (image, language, etc.), code mixed language and more. Moreover, even if we carefully sample and annotate offensive content, there will always exist significant class imbalance in offensive vs non offensive content. In this paper, we introduce a novel Code-Mixing Index (CMI) based focal loss which circumvents two challenges (1) code mixing in languages (2) class imbalance problem for Dravidian language offense detection. We also replace the conventional dot product-based classifier with the cosine-based classifier which results in a boost in performance. Further, we use multilingual models that help transfer characteristics learnt across languages to work effectively with low resourced languages. It is also important to note that our model handles instances of mixed script (say usage of Latin and Dravidian - Tamil script) as well. Our model can handle offensive language detection in a low-resource, class imbalanced, multilingual and code mixed setting.
翻訳日:2021-11-19 05:57:46 公開日:2021-11-12
# (参考訳) 車両経路の動的バイアスを考慮した一般化ネステッドロールアウトポリシー適応 [全文訳有]

Generalized Nested Rollout Policy Adaptation with Dynamic Bias for Vehicle Routing ( http://arxiv.org/abs/2111.06928v1 )

ライセンス: CC BY 4.0
Julien Sentuc and Tristan Cazenave and Jean-Yves Lucas(参考訳) 本稿では,Nested Rollout Policy Adaptation Algorithm (NRPA)の拡張,すなわちGeneralized Nested Rollout Policy Adaptation (GNRPA) について述べる。 車両経路問題(vrp)の従来のベンチマークであるsolomonインスタンスセットで得られた結果について詳述する。 GNRPAはNRPAよりも優れた性能を示している。 一部のケースでは、VRP専用のGoogle OR Toolモジュールよりもパフォーマンスがよい。

In this paper we present an extension of the Nested Rollout Policy Adaptation algorithm (NRPA), namely the Generalized Nested Rollout Policy Adaptation (GNRPA), as well as its use for solving some instances of the Vehicle Routing Problem. We detail some results obtained on the Solomon instances set which is a conventional benchmark for the Vehicle Routing Problem (VRP). We show that on all instances, GNRPA performs better than NRPA. On some instances, it performs better than the Google OR Tool module dedicated to VRP.
翻訳日:2021-11-19 05:43:34 公開日:2021-11-12
# (参考訳) 階層的ベイズバンド [全文訳有]

Hierarchical Bayesian Bandits ( http://arxiv.org/abs/2111.06929v1 )

ライセンス: CC BY 4.0
Joey Hong and Branislav Kveton and Manzil Zaheer and Mohammad Ghavamzadeh(参考訳) メタ、マルチタスク、フェデレーション学習はすべて、タスクの類似性を反映した未知の分布から引き出された、類似したタスクの解決と見なすことができる。 本研究は,階層的ベイズ的バンディットで行動する学習として,これらの問題をすべて統一的に捉えることを目的とする。 我々は,このクラスにおける任意の問題に適用可能な自然階層型トンプソンサンプリングアルゴリズム(hierts)を分析した。 我々の後悔の限界は、タスクが順次あるいは並列に解決されたときなど、そのような問題の多くの事例に当てはまり、過去のタスクの幅とともに後悔が減少する問題の構造を捉えます。 我々の証明は、他のグラフィカルモデル構造に適用可能な新しい全分散分解に依存する。 最後に、我々の理論は、階層構造がタスク間の知識共有に役立つことを示す実験によって補完される。 これは階層的ベイズ的バンディットが、同様のバンディットタスクを学習するための普遍的かつ統計的に効率的なツールであることを保証する。

Meta-, multi-task, and federated learning can be all viewed as solving similar tasks, drawn from an unknown distribution that reflects task similarities. In this work, we provide a unified view of all these problems, as learning to act in a hierarchical Bayesian bandit. We analyze a natural hierarchical Thompson sampling algorithm (hierTS) that can be applied to any problem in this class. Our regret bounds hold under many instances of such problems, including when the tasks are solved sequentially or in parallel; and capture the structure of the problems, such that the regret decreases with the width of the task prior. Our proofs rely on novel total variance decompositions, which can be applied to other graphical model structures. Finally, our theory is complemented by experiments, which show that the hierarchical structure helps with knowledge sharing among the tasks. This confirms that hierarchical Bayesian bandits are a universal and statistically-effici ent tool for learning to act with similar bandit tasks.
翻訳日:2021-11-19 05:21:50 公開日:2021-11-12
# (参考訳) 予測符号化、精度および自然勾配 [全文訳有]

Predictive coding, precision and natural gradients ( http://arxiv.org/abs/2111.06942v1 )

ライセンス: CC BY 4.0
Andre Ofner, Raihan Kabir Ratul, Suhita Ghosh, Sebastian Stober(参考訳) 生物学的に妥当な推論と局所的な更新規則による学習の計算モデルと、機械学習で使用されるニューラルネットワークモデルのグローバル勾配に基づく最適化の間には、収束が増している。 特にエキサイティングな接続は、予測符号化ネットワークにおける局所的な情報伝達最適化と、最先端の深層ニューラルネットワークのトレーニングに使用されるエラーバックプロパゲーションアルゴリズムとの対応である。 ここでは,予測符号化ネットワークの精度重み付けと深層ニューラルネットワークの自然勾配降下アルゴリズムとの関連性に注目する。 精度重み付き予測符号化は、最適化プロセスの分散的性質とフィッシャー情報メトリクスの基底となる局所近似、すなわち自然勾配降下の中心となる適応学習率のため、不確実性対応最適化(特に大きなパラメータ空間を持つモデル)をスケールアップする興味深い候補である。 ここでは,学習可能な精度を持つ階層型予測符号化ネットワークが,自然勾配のグローバルバックプロパゲーションに匹敵する性能で,教師付きおよび教師なしの学習タスクを解くことができ,大量のノイズがデータやラベル入力に埋め込まれたタスクに対して,従来の勾配勾配よりも優れていることを示す。 画像入力の教師なしオートエンコーディングに適用すると、決定論的ネットワークは階層的に構造化され、乱れた埋め込みを生成し、予測符号と階層的変分推論の間の密接な関係を示唆する。

There is an increasing convergence between biologically plausible computational models of inference and learning with local update rules and the global gradient-based optimization of neural network models employed in machine learning. One particularly exciting connection is the correspondence between the locally informed optimization in predictive coding networks and the error backpropagation algorithm that is used to train state-of-the-art deep artificial neural networks. Here we focus on the related, but still largely under-explored connection between precision weighting in predictive coding networks and the Natural Gradient Descent algorithm for deep neural networks. Precision-weighted predictive coding is an interesting candidate for scaling up uncertainty-aware optimization -- particularly for models with large parameter spaces -- due to its distributed nature of the optimization process and the underlying local approximation of the Fisher information metric, the adaptive learning rate that is central to Natural Gradient Descent. Here, we show that hierarchical predictive coding networks with learnable precision indeed are able to solve various supervised and unsupervised learning tasks with performance comparable to global backpropagation with natural gradients and outperform their classical gradient descent counterpart on tasks where high amounts of noise are embedded in data or label inputs. When applied to unsupervised auto-encoding of image inputs, the deterministic network produces hierarchically organized and disentangled embeddings, hinting at the close connections between predictive coding and hierarchical variational inference.
翻訳日:2021-11-19 04:37:31 公開日:2021-11-12
# (参考訳) 説明可能な知識蒸留による学習解釈 [全文訳有]

Learning Interpretation with Explainable Knowledge Distillation ( http://arxiv.org/abs/2111.06945v1 )

ライセンス: CC BY-SA 4.0
Raed Alharbi, Minh N. Vu, My T. Thai(参考訳) 近年、知識蒸留(KD)はモデル圧縮と加速の鍵となる解として検討されている。 KDでは、2人の確率的アウトプットのばらつきを最小限に抑えて、大きな教師モデルから小学生モデルを訓練することが一般的である。 しかし,本実験で示されたように,既存のKD手法では教師の批判的な知識を学生に伝達することはできない。 本稿では,教師モデルから生徒モデルへ説明情報の伝達を行う,x蒸留と呼ばれる新しい説明可能な知識蒸留モデルを提案する。 XDistillationモデルは、畳み込みオートエンコーダの概念を利用して教師の説明を近似する。 実験の結果,XDistillationによる学習モデルは,予測精度だけでなく,教師モデルへの忠実性においても従来のKD法よりも優れていた。

Knowledge Distillation (KD) has been considered as a key solution in model compression and acceleration in recent years. In KD, a small student model is generally trained from a large teacher model by minimizing the divergence between the probabilistic outputs of the two. However, as demonstrated in our experiments, existing KD methods might not transfer critical explainable knowledge of the teacher to the student, i.e. the explanations of predictions made by the two models are not consistent. In this paper, we propose a novel explainable knowledge distillation model, called XDistillation, through which both the performance the explanations' information are transferred from the teacher model to the student model. The XDistillation model leverages the idea of convolutional autoencoders to approximate the teacher explanations. Our experiments shows that models trained by XDistillation outperform those trained by conventional KD methods not only in term of predictive accuracy but also faithfulness to the teacher models.
翻訳日:2021-11-19 04:29:07 公開日:2021-11-12
# (参考訳) 人間の不合理性:報酬推論に悪と善の両方 [全文訳有]

Human irrationality: both bad and good for reward inference ( http://arxiv.org/abs/2111.06956v1 )

ライセンス: CC BY 4.0
Lawrence Chan, Andrew Critch, Anca Dragan(参考訳) 人間は(ほぼ)合理的であると仮定すれば、ロボットは人間の行動を観察して報酬機能を推測することができる。 しかし、人々は幅広い不合理さを示しており、この仕事の目標は、報酬推論に与える影響をより深く理解することにあります。 この効果を研究する上での課題は、数学的形式化の度合いが異なる様々な種類の不合理性が存在することである。 従って、ベルマン最適性方程式を変更することで、MDPの言語における不合理性を運用し、この枠組みを用いて、これらの変化が推論にどのように影響するかを研究する。 体系的に不合理な人間をノイズリレーションとしてモデル化するのは、これらのバイアスを正しく捉えているよりもはるかに悪いのです。 さらに重要なのは、不合理な人間は、正しくモデル化された場合、完全に合理的な人間よりも報酬に関する情報を伝達できるということです。 つまり、もしロボットが人間の不合理性の正しいモデルを持っているなら、人間が合理的であれば、これまで以上に強い推論をすることができる。 不合理性は、報酬の推論を妨げるのではなく、根本的に役立つが、正しく説明する必要がある。

Assuming humans are (approximately) rational enables robots to infer reward functions by observing human behavior. But people exhibit a wide array of irrationalities, and our goal with this work is to better understand the effect they can have on reward inference. The challenge with studying this effect is that there are many types of irrationality, with varying degrees of mathematical formalization. We thus operationalize irrationality in the language of MDPs, by altering the Bellman optimality equation, and use this framework to study how these alterations would affect inference. We find that wrongly modeling a systematically irrational human as noisy-rational performs a lot worse than correctly capturing these biases -- so much so that it can be better to skip inference altogether and stick to the prior! More importantly, we show that an irrational human, when correctly modelled, can communicate more information about the reward than a perfectly rational human can. That is, if a robot has the correct model of a human's irrationality, it can make an even stronger inference than it ever could if the human were rational. Irrationality fundamentally helps rather than hinder reward inference, but it needs to be correctly accounted for.
翻訳日:2021-11-19 04:14:57 公開日:2021-11-12
# (参考訳) セキュリティ制約付き最適潮流に対する逆ロバスト学習 [全文訳有]

Adversarially Robust Learning for Security-Constrained Optimal Power Flow ( http://arxiv.org/abs/2111.06961v1 )

ライセンス: CC BY 4.0
Priya L. Donti, Aayushya Agarwal, Neeraj Vijay Bedmutha, Larry Pileggi, J. Zico Kolter(参考訳) 近年、MLコミュニティは、敵対的に堅牢な学習と暗黙的なレイヤーの両方に関心が集まっているが、これら2つの領域間の接続は、ほとんど調査されていない。 本研究では,これらの領域のイノベーションを組み合わせて,N-kセキュリティに制約された最適電力流(SCOPF)の問題に取り組む。 N-k SCOPFは、電力網の運用における中核的な問題であり、k個の機器を同時に停止させる可能性の高い方法で発電をスケジュールすることを目的としている。 N-k SCOPF を最小限の最適化問題として,N-k SCOPF を調整可能なパラメータとして,機器の停止を(逆)攻撃として捉え,勾配に基づく手法を用いてこの問題を解決する。 このミニマックス問題の損失関数は、グリッド物理と運用上の決定を表す暗黙の方程式を解き、暗黙の関数定理を通じて区別する。 我々は,N-3 SCOPFの解決における枠組みの有効性を実証する。これは従来,問題の規模が潜在的な機能停止の数に相補的に依存していることから,解決に不当なコストがかかると考えられてきた。

In recent years, the ML community has seen surges of interest in both adversarially robust learning and implicit layers, but connections between these two areas have seldom been explored. In this work, we combine innovations from these areas to tackle the problem of N-k security-constrained optimal power flow (SCOPF). N-k SCOPF is a core problem for the operation of electrical grids, and aims to schedule power generation in a manner that is robust to potentially k simultaneous equipment outages. Inspired by methods in adversarially robust training, we frame N-k SCOPF as a minimax optimization problem - viewing power generation settings as adjustable parameters and equipment outages as (adversarial) attacks - and solve this problem via gradient-based techniques. The loss function of this minimax problem involves resolving implicit equations representing grid physics and operational decisions, which we differentiate through via the implicit function theorem. We demonstrate the efficacy of our framework in solving N-3 SCOPF, which has traditionally been considered as prohibitively expensive to solve given that the problem size depends combinatorially on the number of potential outages.
翻訳日:2021-11-18 13:42:51 公開日:2021-11-12
# (参考訳) アクセシブルトランスファー学習のためのスケーラブルな多元モデル選択 [全文訳有]

Scalable Diverse Model Selection for Accessible Transfer Learning ( http://arxiv.org/abs/2111.06977v1 )

ライセンス: CC BY 4.0
Daniel Bolya, Rohit Mittapalli, Judy Hoffman(参考訳) モデルバンクから市販のディープラーニングモデルがプレポンダランス(preponderance)で利用可能になった今、ユースケースを微調整するための最善の重みを見つけるのは大変な作業だ。 トランスファーラーニングのための優れたモデルを見つけるために、最近いくつかの方法が提案されているが、それらは大きなモデルバンクにうまくスケールしないか、あるいはオフザシェルフモデルの多様性でうまく機能しない。 理想的には、私たちが答えたい質問は、“いくつかのデータとソースモデルを使って、微調整後のモデルの精度を素早く予測できるか? 本稿では,この設定を「スキャラブル・バラエティ・モデル選択」と定式化し,タスク評価のためのベンチマークをいくつか提案する。 既存のモデル選択と転送可能性推定手法はここでは性能が悪く、なぜそうなるのかを解析する。 次に,これらのアルゴリズムの性能と速度を改善するための簡単な手法を提案する。 最後に、PARCを作成するために既存のメソッドを反復的に実行し、様々なモデル選択において他のメソッドよりも優れています。 我々は,移動学習のためのモデル選択における将来的な取り組みを促すために,ベンチマークとメソッドコードをリリースした。

With the preponderance of pretrained deep learning models available off-the-shelf from model banks today, finding the best weights to fine-tune to your use-case can be a daunting task. Several methods have recently been proposed to find good models for transfer learning, but they either don't scale well to large model banks or don't perform well on the diversity of off-the-shelf models. Ideally the question we want to answer is, "given some data and a source model, can you quickly predict the model's accuracy after fine-tuning?" In this paper, we formalize this setting as "Scalable Diverse Model Selection" and propose several benchmarks for evaluating on this task. We find that existing model selection and transferability estimation methods perform poorly here and analyze why this is the case. We then introduce simple techniques to improve the performance and speed of these algorithms. Finally, we iterate on existing methods to create PARC, which outperforms all other methods on diverse model selection. We have released the benchmarks and method code in hope to inspire future work in model selection for accessible transfer learning.
翻訳日:2021-11-18 13:20:34 公開日:2021-11-12
# Photoplethysmogram(P PG)およびElectrocardiogram(EC G)信号から血圧(BP)を安定予測するためのU-Netアーキテクチャ

A Shallow U-Net Architecture for Reliably Predicting Blood Pressure (BP) from Photoplethysmogram (PPG) and Electrocardiogram (ECG) Signals ( http://arxiv.org/abs/2111.08480v1 )

ライセンス: Link先を確認
Sakib Mahmud, Nabil Ibtehaz, Amith Khandakar, Anas Tahir, Tawsifur Rahman, Khandaker Reajul Islam, Md Shafayet Hossain, M. Sohel Rahman, Mohammad Tariqul Islam, Muhammad E. H. Chowdhury(参考訳) 心臓血管疾患は世界中で最も一般的な死因である。 心臓関連疾患の検出と治療には、他の多くのパラメータとともに連続血圧(bp)モニタリングが必要である。 この目的のためにいくつかの侵襲的および非侵襲的手法が開発されている。 BPの継続的なモニタリングに病院で使われているほとんどの方法が侵襲的である。 それとは対照的に、シストリック血圧(SBP)と拡張型血圧(DBP)を予測できるカフベースのBPモニタリング法は、連続的なモニタリングには使用できない。 いくつかの研究は、連続監視に使用できるフォトプレチスモグラム(ppg)や心電図(ecg)のような非侵襲的に収集可能な信号からbpを予測することを試みた。 本研究では,PPGおよびECG信号からのBP予測におけるオートエンコーダの適用性を検討した。 調査はMIMIC-IIデータセットの962例を対象に実施され、非常に浅い1次元オートエンコーダが関連する特徴を抽出し、非常に大きなデータセット上での最先端のパフォーマンスでSBPとDBPを予測できることが判明した。 MIMIC-IIデータセットの一部から独立したテストセットは、それぞれSBPとDBPに対して2.333と0.713のMAEを提供する。 MIMIC-IIデータセットに基づいてトレーニングされた40の被験者の外部データセットでは、それぞれSBPとDBPに対して2.728と1.166のMAEを提供する。 いずれの場合も、結果は英国高血圧協会(BHS)グレードAと一致し、現在の文献からの研究を上回った。

Cardiovascular diseases are the most common causes of death around the world. To detect and treat heart-related diseases, continuous Blood Pressure (BP) monitoring along with many other parameters are required. Several invasive and non-invasive methods have been developed for this purpose. Most existing methods used in the hospitals for continuous monitoring of BP are invasive. On the contrary, cuff-based BP monitoring methods, which can predict Systolic Blood Pressure (SBP) and Diastolic Blood Pressure (DBP), cannot be used for continuous monitoring. Several studies attempted to predict BP from non-invasively collectible signals such as Photoplethysmogram (PPG) and Electrocardiogram (ECG), which can be used for continuous monitoring. In this study, we explored the applicability of autoencoders in predicting BP from PPG and ECG signals. The investigation was carried out on 12,000 instances of 942 patients of the MIMIC-II dataset and it was found that a very shallow, one-dimensional autoencoder can extract the relevant features to predict the SBP and DBP with the state-of-the-art performance on a very large dataset. Independent test set from a portion of the MIMIC-II dataset provides an MAE of 2.333 and 0.713 for SBP and DBP, respectively. On an external dataset of forty subjects, the model trained on the MIMIC-II dataset, provides an MAE of 2.728 and 1.166 for SBP and DBP, respectively. For both the cases, the results met British Hypertension Society (BHS) Grade A and surpassed the studies from the current literature.
翻訳日:2021-11-17 16:20:26 公開日:2021-11-12
# PySINDy: 堅牢なスパースシステム識別のための包括的なPythonパッケージ

PySINDy: A comprehensive Python package for robust sparse system identification ( http://arxiv.org/abs/2111.08481v1 )

ライセンス: Link先を確認
Alan A. Kaptanoglu, Brian M. de Silva, Urban Fasel, Kadierdan Kaheman, Jared L. Callaham, Charles B. Delahunt, Kathleen Champion, Jean-Christophe Loiseau, J. Nathan Kutz, Steven L. Brunton(参考訳) 自動データ駆動モデリングは、データからシステムの支配方程式を直接発見するプロセスであり、科学コミュニティ全体でますます使われている。 PySINDyはPythonパッケージで、データ駆動モデル発見に非線形ダイナミクス(SINDy)アプローチのスパース識別を適用するツールを提供する。 PySINDyの今回のメジャーアップデートでは、ノイズや制限データからより一般的な微分方程式を発見できるいくつかの高度な機能を実装している。 候補項のライブラリは、アクチュエータ系、偏微分方程式(PDE)、暗黙微分方程式の同定のために拡張される。 SINDyとアンサンブル技術の統合形式を含むロバストな定式化も現実のデータの性能向上のために実装されている。 最後に,不等式制約や安定性を強制・促進するための分散回帰手法やアルゴリズムを含む,新しい最適化アルゴリズムを提案する。 これらの更新によって、PDE識別の制約や、異なるスパース回帰オプティマイザとのアンサンブルなど、文献で報告されていない全く新しいSINDyモデル発見機能が実現された。

Automated data-driven modeling, the process of directly discovering the governing equations of a system from data, is increasingly being used across the scientific community. PySINDy is a Python package that provides tools for applying the sparse identification of nonlinear dynamics (SINDy) approach to data-driven model discovery. In this major update to PySINDy, we implement several advanced features that enable the discovery of more general differential equations from noisy and limited data. The library of candidate terms is extended for the identification of actuated systems, partial differential equations (PDEs), and implicit differential equations. Robust formulations, including the integral form of SINDy and ensembling techniques, are also implemented to improve performance for real-world data. Finally, we provide a range of new optimization algorithms, including several sparse regression techniques and algorithms to enforce and promote inequality constraints and stability. Together, these updates enable entirely new SINDy model discovery capabilities that have not been reported in the literature, such as constrained PDE identification and ensembling with different sparse regression optimizers.
翻訳日:2021-11-17 16:13:15 公開日:2021-11-12
# 計算的議論と認知

Computational Argumentation and Cognition ( http://arxiv.org/abs/2111.06958v1 )

ライセンス: Link先を確認
Emmanuelle Dietz, Antonis Kakas, Loizos Michael(参考訳) 本稿では、認知科学、言語学、哲学で見られるように、AIで研究される計算論を認知と統合する方法に関する学際的な研究課題について考察する。 第1回Computational Argumentation and Cognition(COGNITAR)は、第24回欧州人工知能会議(ECAI)の一部として開催され、2020年9月8日に事実上開催された。 論文は、計算論と認知の統合のための科学的動機の簡潔なプレゼンテーションから始まり、人間中心AIの文脈において、認知研究のための計算論からの理論と方法の使用が追求すべき道であると主張した。 ワークショップの各プレゼンテーションの要約は、コグニションを研究する他のアプローチとともに計算論の理論と方法の合成を適用できるような、幅広い範囲の問題を示すものである。 この論文は、科学的レベルだけでなく認識論的レベルにおいても、特に関連する様々な分野からアイデアやアプローチの合成に関して、対処すべき領域における主要な問題と課題を提示している。

This paper examines the interdisciplinary research question of how to integrate Computational Argumentation, as studied in AI, with Cognition, as can be found in Cognitive Science, Linguistics, and Philosophy. It stems from the work of the 1st Workshop on Computational Argumentation and Cognition (COGNITAR), which was organized as part of the 24th European Conference on Artificial Intelligence (ECAI), and took place virtually on September 8th, 2020. The paper begins with a brief presentation of the scientific motivation for the integration of Computational Argumentation and Cognition, arguing that within the context of Human-Centric AI the use of theory and methods from Computational Argumentation for the study of Cognition can be a promising avenue to pursue. A short summary of each of the workshop presentations is given showing the wide spectrum of problems where the synthesis of the theory and methods of Computational Argumentation with other approaches that study Cognition can be applied. The paper presents the main problems and challenges in the area that would need to be addressed, both at the scientific level but also at the epistemological level, particularly in relation to the synthesis of ideas and approaches from the various disciplines involved.
翻訳日:2021-11-16 17:53:35 公開日:2021-11-12
# RLOps:オープンRANを活用した強化学習のライフサイクル開発

RLOps: Development Life-cycle of Reinforcement Learning Aided Open RAN ( http://arxiv.org/abs/2111.06978v1 )

ライセンス: Link先を確認
Peizheng Li, Jonathan Thomas, Xiaoyang Wang, Ahmed Khalil, Abdelrahim Ahmad, Rui Inacio, Shipra Kapoor, Arjun Parekh, Angela Doufexi, Arman Shojaeifard, Robert Piechocki(参考訳) 無線アクセスネットワーク(RAN)技術は、Open RANが最新の勢いを増しているのを目撃し続けている。 O-RAN仕様では、RANインテリジェントコントローラ(RIC)が自動化ホストとして機能している。 本稿では,機械学習(ML)の原則,特にO-RANスタックに関連する強化学習(RL)を紹介する。 さらに、無線ネットワークにおける最先端の研究を概観し、RANフレームワークとO-RANアーキテクチャの階層構造に実装する。 本稿では,ML/RLモデルに直面する課題を,システム仕様から製品展開(データ取得,モデル設計,テスト,管理など)まで,開発ライフサイクルを通じて分類する。 これらの課題に対処するため、rlエージェントを検討する際に、既存のmlops原則とユニークな特徴を統合する。 本稿では,llopsと呼ばれるシステム的ライフサイクルモデル開発,テスト,検証パイプラインについて述べる。 モデル仕様,開発・蒸留,生産環境提供,運用監視,安全・セキュリティ,データエンジニアリングプラットフォームなど,ROPの基本部分について論じる。 これらの原則に基づいて,自動再現可能なモデル開発プロセスを実現するためのRLOPSのベストプラクティスを提案する。

Radio access network (RAN) technologies continue to witness massive growth, with Open RAN gaining the most recent momentum. In the O-RAN specifications, the RAN intelligent controller (RIC) serves as an automation host. This article introduces principles for machine learning (ML), in particular, reinforcement learning (RL) relevant for the O-RAN stack. Furthermore, we review state-of-the-art research in wireless networks and cast it onto the RAN framework and the hierarchy of the O-RAN architecture. We provide a taxonomy of the challenges faced by ML/RL models throughout the development life-cycle: from the system specification to production deployment (data acquisition, model design, testing and management, etc.). To address the challenges, we integrate a set of existing MLOps principles with unique characteristics when RL agents are considered. This paper discusses a systematic life-cycle model development, testing and validation pipeline, termed: RLOps. We discuss all fundamental parts of RLOps, which include: model specification, development and distillation, production environment serving, operations monitoring, safety/security and data engineering platform. Based on these principles, we propose the best practices for RLOps to achieve an automated and reproducible model development process.
翻訳日:2021-11-16 17:42:20 公開日:2021-11-12
# 神経集団計測によるロバスト知覚における確率性の役割

Neural Population Geometry Reveals the Role of Stochasticity in Robust Perception ( http://arxiv.org/abs/2111.06979v1 )

ライセンス: Link先を確認
Joel Dapello, Jenelle Feather, Hang Le, Tiago Marques, David D. Cox, Josh H. McDermott, James J. DiCarlo, SueYeon Chung(参考訳) 敵対的な例は、しばしば神経科学者や機械学習研究者によって、計算モデルが生物学的感覚システムからどのように分岐するかの例として言及されている。 最近の研究は、生物学的にインスパイアされたコンポーネントを視覚神経ネットワークに追加することを提案した。 逆境の脆弱性を減らすための驚くほど効果的なコンポーネントは、生物学的ニューロンが示すような応答確率である。 本稿では,近年開発された計算神経科学の幾何学的手法を用いて,標準的,逆に訓練された,生物学的にインスパイアされた確率的ネットワークの内部表現に,逆向摂動が与える影響について検討する。 ネットワークの種類ごとに異なる幾何学的シグネチャを見つけ,ロバスト表現を実現するための異なるメカニズムを明らかにする。 次に、これらの結果を聴覚領域に一般化し、神経確率性により、対向的摂動に対してより堅牢な聴覚モデルが得られることを示す。 確率ネットワークの幾何学的解析は、クリーンな摂動刺激と逆向きな摂動刺激の表現の重なりを明らかにし、確率性の競合する幾何学的効果が対向性とクリーンなパフォーマンスのトレードオフを仲介することを定量的に示す。 本研究は,対向的訓練と確率的ネットワークを用いたロバスト知覚の戦略に光を当て,確率性が機械・生物計算にどのように有用かを説明するのに役立つ。

Adversarial examples are often cited by neuroscientists and machine learning researchers as an example of how computational models diverge from biological sensory systems. Recent work has proposed adding biologically-inspire d components to visual neural networks as a way to improve their adversarial robustness. One surprisingly effective component for reducing adversarial vulnerability is response stochasticity, like that exhibited by biological neurons. Here, using recently developed geometrical techniques from computational neuroscience, we investigate how adversarial perturbations influence the internal representations of standard, adversarially trained, and biologically-inspire d stochastic networks. We find distinct geometric signatures for each type of network, revealing different mechanisms for achieving robust representations. Next, we generalize these results to the auditory domain, showing that neural stochasticity also makes auditory models more robust to adversarial perturbations. Geometric analysis of the stochastic networks reveals overlap between representations of clean and adversarially perturbed stimuli, and quantitatively demonstrates that competing geometric effects of stochasticity mediate a tradeoff between adversarial and clean performance. Our results shed light on the strategies of robust perception utilized by adversarially trained and stochastic networks, and help explain how stochasticity may be beneficial to machine and biological computation.
翻訳日:2021-11-16 17:35:14 公開日:2021-11-12
# 人間のインタラクションによる視覚知能

Visual Intelligence through Human Interaction ( http://arxiv.org/abs/2111.06913v1 )

ライセンス: Link先を確認
Ranjay Krishna, Mitchell Gordon, Li Fei-Fei, Michael Bernstein(参考訳) 過去10年間で、視覚の世界を理解することを目的とした人工知能の分野であるコンピュータビジョンは、画像中のオブジェクトの認識から、画像の記述、画像に関する質問に答える、ロボットが物理的な空間を動き回るのを助ける、そして新しいビジュアルコンテンツを生成することまで進化してきた。 これらのタスクやアプリケーションは近代化され、モデルトレーニングや評価など、より多くのデータに依存するようになりました。 本章では,新しいインタラクション戦略により,コンピュータビジョンのための新たなデータ収集と評価が可能になることを実証する。 まず、クラウドソーシングインタフェースを用いて、有料データ収集を桁違いにスピードアップし、現代の視覚モデルにおけるデータ不足の性質を表現した。 第2に,社会介入の自動化によるボランティアの貢献度向上方法を検討する。 第3に,人間の生成的視覚モデルの評価が信頼性が高く,手頃な価格で,心理物理学理論に根ざしたシステムを開発する。 コンピュータビジョン支援のための人間とコンピュータのインタラクションの将来の機会について考察する。

Over the last decade, Computer Vision, the branch of Artificial Intelligence aimed at understanding the visual world, has evolved from simply recognizing objects in images to describing pictures, answering questions about images, aiding robots maneuver around physical spaces and even generating novel visual content. As these tasks and applications have modernized, so too has the reliance on more data, either for model training or for evaluation. In this chapter, we demonstrate that novel interaction strategies can enable new forms of data collection and evaluation for Computer Vision. First, we present a crowdsourcing interface for speeding up paid data collection by an order of magnitude, feeding the data-hungry nature of modern vision models. Second, we explore a method to increase volunteer contributions using automated social interventions. Third, we develop a system to ensure human evaluation of generative vision models are reliable, affordable and grounded in psychophysics theory. We conclude with future opportunities for Human-Computer Interaction to aid Computer Vision.
翻訳日:2021-11-16 16:22:18 公開日:2021-11-12
# Action2 Video:人間の3Dアクションのビデオ生成

Action2video: Generating Videos of Human 3D Actions ( http://arxiv.org/abs/2111.06925v1 )

ライセンス: Link先を確認
Chuan Guo, Xinxin Zuo, Sen Wang, Xinshuang Liu, Shihao Zou, Minglun Gong, Li Cheng(参考訳) 我々は,行動カテゴリーから多様で自然な人間の動きを動画で生成するという,興味深いが困難な問題に取り組むことを目的としている。 重要な問題は、視覚的な外観で現実的な複数の異なる動き列を合成する能力にある。 本論文では, 内部3次元ポーズと形状表現, アクション2モーション, モーション2ビデオの2段階のプロセスで実現した。 action2motionは、motion2videoによって処理されレンダリングされ、2dビデオを形成する、所定のアクションカテゴリの正確な3dポーズシーケンスを確率的に生成する。 特に、リー代数理論は人間の運動の物理法則に従う自然な人間の動きを表現することに従事しており、出力運動の多様性を促進する時間変化オートエンコーダ(vae)が開発されている。 さらに, 布を被った人物の入力画像が付加された場合, 3次元の詳細な形状を抽出し, 異なる視点から可塑性運動をビデオに描画するパイプライン全体を提案する。 これは、単一の2次元画像から3次元の人間の形状とテクスチャを抽出し、リギング、アニメーション、レンダリングを行い、人間の動きの2次元ビデオを形成する既存の方法を改善することで実現される。 また、トレーニング目的のために3dヒューマンモーションデータセットのキュレーションと再注釈が必要となる。 アブレーション研究,質的および定量的評価を含む徹底的な実験により,本手法の適用性が示され,本手法の構成要素が最先端と好適に比較される関連課題に対する競合性が示された。

We aim to tackle the interesting yet challenging problem of generating videos of diverse and natural human motions from prescribed action categories. The key issue lies in the ability to synthesize multiple distinct motion sequences that are realistic in their visual appearances. It is achieved in this paper by a two-step process that maintains internal 3D pose and shape representations, action2motion and motion2video. Action2motion stochastically generates plausible 3D pose sequences of a prescribed action category, which are processed and rendered by motion2video to form 2D videos. Specifically, the Lie algebraic theory is engaged in representing natural human motions following the physical law of human kinematics; a temporal variational auto-encoder (VAE) is developed that encourages diversity of output motions. Moreover, given an additional input image of a clothed human character, an entire pipeline is proposed to extract his/her 3D detailed shape, and to render in videos the plausible motions from different views. This is realized by improving existing methods to extract 3D human shapes and textures from single 2D images, rigging, animating, and rendering to form 2D videos of human motions. It also necessitates the curation and reannotation of 3D human motion datasets for training purpose. Thorough empirical experiments including ablation study, qualitative and quantitative evaluations manifest the applicability of our approach, and demonstrate its competitiveness in addressing related tasks, where components of our approach are compared favorably to the state-of-the-arts.
翻訳日:2021-11-16 16:22:02 公開日:2021-11-12
# 航空機搭載光切断によるスルーフロージトラッキング

Through-Foliage Tracking with Airborne Optical Sectioning ( http://arxiv.org/abs/2111.06959v1 )

ライセンス: Link先を確認
Rakesh John Amala Arokia Nathan, Indrajit Kurmi, David C. Schedl and Oliver Bimber(参考訳) 葉を通した移動目標の検出と追跡は困難であり、多くの場合、通常の空中画像やビデオでは不可能である。 本稿では, 並列合成開口空中イメージングをサポートする, 初期軽量かつドローン操作の1Dカメラアレイを提案する。 我々の主な発見は、従来の単一画像やビデオフレームと比較すると、カラー異常検出は画像統合に大きく寄与する(フィールド実験では、平均97%対42%の精度で)。 我々は、これらの2つの貢献が、密集した森林を移動する人々の検出と追跡に繋がることを示した。

Detecting and tracking moving targets through foliage is difficult, and for many cases even impossible in regular aerial images and videos. We present an initial light-weight and drone-operated 1D camera array that supports parallel synthetic aperture aerial imaging. Our main finding is that color anomaly detection benefits significantly from image integration when compared to conventional single images or video frames (on average 97% vs. 42% in precision in our field experiments). We demonstrate, that these two contributions can lead to the detection and tracking of moving people through densely occluding forest
翻訳日:2021-11-16 16:21:36 公開日:2021-11-12
# 大きなxgboostモデルのチューニングのためのシンプルで高速なベースライン

A Simple and Fast Baseline for Tuning Large XGBoost Models ( http://arxiv.org/abs/2111.06924v1 )

ライセンス: Link先を確認
Sanyam Kapoor, Valerio Perrone(参考訳) スケーラブルなツリーブースティングアルゴリズムであるxgboostは、多くの実用的な予測タスク、特に表型データセットにおいて有効であることが証明されている。 ハイパーパラメータチューニングは予測性能をさらに向上させるが、ニューラルネットワークとは異なり、大規模なデータセット上の多くのモデルのフルバッチトレーニングには時間がかかる。 その発見により (i)データセットのサイズとトレーニング時間の間には強い線形関係がある。 (ii)XGBoostモデルはランキング仮説を満たし、 (iii)低忠実度モデルは、有望なハイパーパラメータ構成を発見でき、一様サブサンプリングは、データサブセットを忠実度次元とするマルチ忠実度ハイパーパラメータ最適化を用いて、大きなxgboostモデルのチューニングを高速化するために、単純で高速なベースラインを生成する。 このベースラインを15~70\mathrm{gb}$の大きさの大規模表型データセットで有効性を示す。

XGBoost, a scalable tree boosting algorithm, has proven effective for many prediction tasks of practical interest, especially using tabular datasets. Hyperparameter tuning can further improve the predictive performance, but unlike neural networks, full-batch training of many models on large datasets can be time consuming. Owing to the discovery that (i) there is a strong linear relation between dataset size & training time, (ii) XGBoost models satisfy the ranking hypothesis, and (iii) lower-fidelity models can discover promising hyperparameter configurations, we show that uniform subsampling makes for a simple yet fast baseline to speed up the tuning of large XGBoost models using multi-fidelity hyperparameter optimization with data subsets as the fidelity dimension. We demonstrate the effectiveness of this baseline on large-scale tabular datasets ranging from $15-70\mathrm{GB}$ in size.
翻訳日:2021-11-16 16:07:12 公開日:2021-11-12
# ソフトセンシングコンフォーマ : カリキュラム学習に基づく畳み込みトランスフォーマ

Soft-Sensing ConFormer: A Curriculum Learning-based Convolutional Transformer ( http://arxiv.org/abs/2111.06981v1 )

ライセンス: Link先を確認
Jaswanth Yella, Chao Zhang, Sergei Petrov, Yu Huang, Xiaoye Qian, Ali A. Minai, Sthitie Bom(参考訳) 過去数十年間、現代の工業プロセスは、半導体製造の生産性と収量を改善するためにいくつかのコスト効率の良い手法を調査してきた。 リアルタイム監視と制御の促進に不可欠な役割を担っている一方で、業界におけるデータ駆動型ソフトセンサーは、ウェハ故障診断のためのディープラーニングアプローチで強化する際に、競争力のあるエッジを提供してきた。 様々な領域にわたるディープラーニング手法の成功にもかかわらず、多変量ソフトセンシングデータドメインではパフォーマンスが悪くなる傾向にある。 そこで本研究では,畳み込みの高速かつ軽量な操作の利点を享受するマルチヘッド畳み込みモジュールと,マルチヘッド型トランスフォーマによるロバスト表現の学習機能を備えた,ウェーハ故障識別分類タスク用ソフトセンシングコンフォーマ(畳み込みトランスフォーマ)を提案する。 もうひとつの重要な問題は、従来の学習パラダイムが、ノイズと高バランスなソフトセンシングデータのパフォーマンス低下に苦しむ傾向があることだ。 そこで本研究では,ソフトセンシングのConFormerモデルをカリキュラムベースの損失関数で強化し,学習の初期段階でサンプルを効果的に学習し,その後に難易度を学習する。 提案するアーキテクチャの有用性をさらに実証するため,シーゲート技術によるウェハ製造プロセスにおける各種ツールセットについて実験を行い,その成果をオープンに共有した。 私たちの知る限りでは,ソフトセンシングデータに対してカリキュラム学習に基づくソフトセンシングコンフォーメータアーキテクチャが提案されているのはこれが初めてであり,ソフトセンシング研究領域における今後の利用への強い期待を示すものである。

Over the last few decades, modern industrial processes have investigated several cost-effective methodologies to improve the productivity and yield of semiconductor manufacturing. While playing an essential role in facilitating real-time monitoring and control, the data-driven soft-sensors in industries have provided a competitive edge when augmented with deep learning approaches for wafer fault-diagnostics. Despite the success of deep learning methods across various domains, they tend to suffer from bad performance on multi-variate soft-sensing data domains. To mitigate this, we propose a soft-sensing ConFormer (CONvolutional transFORMER) for wafer fault-diagnostic classification task which primarily consists of multi-head convolution modules that reap the benefits of fast and light-weight operations of convolutions, and also the ability to learn the robust representations through multi-head design alike transformers. Another key issue is that traditional learning paradigms tend to suffer from low performance on noisy and highly-imbalanced soft-sensing data. To address this, we augment our soft-sensing ConFormer model with a curriculum learning-based loss function, which effectively learns easy samples in the early phase of training and difficult ones later. To further demonstrate the utility of our proposed architecture, we performed extensive experiments on various toolsets of Seagate Technology's wafer manufacturing process which are shared openly along with this work. To the best of our knowledge, this is the first time that curriculum learning-based soft-sensing ConFormer architecture has been proposed for soft-sensing data and our results show strong promise for future use in soft-sensing research domain.
翻訳日:2021-11-16 16:06:55 公開日:2021-11-12
# 動的治療効果:モデル不特定化下の高次元推論

Dynamic treatment effects: high-dimensional inference under model misspecification ( http://arxiv.org/abs/2111.06818v1 )

ライセンス: Link先を確認
Yuqian Zhang, Jelena Bradic and Weijie Ji(参考訳) 本稿では,共変量および治療が長手である動的環境における不均一な治療効果の推測について考察する。 我々は、サンプルサイズが covariate ベクトルの次元よりもずっと大きいかもしれない $n$ の高次元の場合に焦点を当てる。 限界構造平均モデルは考慮される。 モーメント対象」ニュアンス推定器をベースとした「逐次モデル二重ロバスト」推定器を提案する。 このようなニュアンス推定器は、非標準損失関数によって慎重に設計され、潜在的なモデルの誤特定によるバイアスを低減する。 モデルの不特定が発生した場合でも、$\sqrt N$-inferenceを達成する。 各タイムスポットで正しく指定するには、1つの迷惑モデルのみが必要です。 このようなモデル補正条件は、既存のすべての作業よりも弱く、低次元の文献さえ含んでいる。

This paper considers the inference for heterogeneous treatment effects in dynamic settings that covariates and treatments are longitudinal. We focus on high-dimensional cases that the sample size, $N$, is potentially much larger than the covariate vector's dimension, $d$. The marginal structural mean models are considered. We propose a "sequential model doubly robust" estimator constructed based on "moment targeted" nuisance estimators. Such nuisance estimators are carefully designed through non-standard loss functions, reducing the bias resulting from potential model misspecifications. We achieve $\sqrt N$-inference even when model misspecification occurs. We only require one nuisance model to be correctly specified at each time spot. Such model correctness conditions are weaker than all the existing work, even containing the literature on low dimensions.
翻訳日:2021-11-16 14:51:34 公開日:2021-11-12
# 低リソース文分類における全サンプル活用--早期停止と初期化パラメータ

Exploiting all samples in low-resource sentence classification: early stopping and initialization parameters ( http://arxiv.org/abs/2111.06971v1 )

ライセンス: Link先を確認
HongSeok Choi and Hyunju Lee(参考訳) 低リソース設定では、ディープニューラルモデルはオーバーフィッティングによるパフォーマンスの低下をしばしば示している。 オーバーフィッティング問題を解決する主要な方法はモデルパラメータを一般化することである。 この目的のために、多くの研究者は様々な操作技術で大きな外部資源に依存してきた。 本研究では,外部のデータセットやモデル操作を使わずに,利用可能なすべてのサンプルを低リソース設定で活用する方法について議論する。 本研究は自然言語処理に焦点をあてる。 小標本集合に対するロバスト性を改善する良質な初期化パラメータを求めるための簡単なアルゴリズムを提案する。 すべてのサンプルをトレーニングに使用できる早期停止技術を適用する。 最後に、提案する学習戦略は、適切な初期化パラメータですべてのサンプルをトレーニングし、早期停止テクニックでモデルを停止することである。 7つの公開文分類データセットについて広範な実験を行い,提案手法が7つのデータセットにまたがる最先端の作業よりも優れた性能を実現することを実証した。

In low resource settings, deep neural models have often shown lower performance due to overfitting. The primary method to solve the overfitting problem is to generalize model parameters. To this end, many researchers have depended on large external resources with various manipulation techniques. In this study, we discuss how to exploit all available samples in low resource settings, without external datasets and model manipulation. This study focuses on natural language processing task. We propose a simple algorithm to find out good initialization parameters that improve robustness to a small sample set. We apply early stopping techniques that enable the use of all samples for training. Finally, the proposed learning strategy is to train all samples with the good initialization parameters and stop the model with the early stopping techniques. Extensive experiments are conducted on seven public sentence classification datasets, and the results demonstrate that the proposed learning strategy achieves better performance than several state-of-the-art works across the seven datasets.
翻訳日:2021-11-16 14:51:22 公開日:2021-11-12
# DriverGym: 自動運転のための強化学習の民主化

DriverGym: Democratising Reinforcement Learning for Autonomous Driving ( http://arxiv.org/abs/2111.06889v1 )

ライセンス: Link先を確認
Parth Kothari, Christian Perone, Luca Bergamini, Alexandre Alahi, Peter Ondruska(参考訳) 有望な強化学習(RL)の進歩にもかかわらず、自律運転(AD)のためのアルゴリズムの開発は依然として困難なままである。 我々は,自動運転のためのRLアルゴリズムの開発に適した,オープンソースのOpenAI Gym互換環境であるDeadGymを提案する。 DriverGymは1000時間以上の専門家ログデータへのアクセスを提供し、リアクティブおよびデータ駆動エージェントの動作をサポートする。 広範かつフレキシブルなクローズループ評価プロトコルを用いて,実世界のデータ上でRLポリシーの性能を容易に検証できる。 本研究では,DeadGymで学習した教師付き学習とRLを用いた行動クローンベースラインも提供する。 DriverGymのコードとすべてのベースラインを公開して、コミュニティからのさらなる開発を刺激します。

Despite promising progress in reinforcement learning (RL), developing algorithms for autonomous driving (AD) remains challenging: one of the critical issues being the absence of an open-source platform capable of training and effectively validating the RL policies on real-world data. We propose DriverGym, an open-source OpenAI Gym-compatible environment specifically tailored for developing RL algorithms for autonomous driving. DriverGym provides access to more than 1000 hours of expert logged data and also supports reactive and data-driven agent behavior. The performance of an RL policy can be easily validated on real-world data using our extensive and flexible closed-loop evaluation protocol. In this work, we also provide behavior cloning baselines using supervised learning and RL, trained in DriverGym. We make DriverGym code, as well as all the baselines publicly available to further stimulate development from the community.
翻訳日:2021-11-16 14:35:18 公開日:2021-11-12
# 画像予測のための対比的特徴損失

Contrastive Feature Loss for Image Prediction ( http://arxiv.org/abs/2111.06934v1 )

ライセンス: Link先を確認
Alex Andonian, Taesung Park, Bryan Russell, Phillip Isola, Jun-Yan Zhu, Richard Zhang(参考訳) 教師付き画像合成モデルのトレーニングには、批評家が2つの画像を比較する必要がある。 しかし、この基本的な機能はまだ未解決の問題だ。 一般的なアプローチの行は、L1損失(単に絶対誤差)を、事前訓練された深層ネットワークのピクセルまたは特徴空間で使用する。 しかし,これらの損失は過度にぼやけ,グレーな画像を生成する傾向にあり,ガンなどの技法はこれらの成果物と戦うために用いられる必要がある。 本研究では,2つの画像間の類似性を測定するための情報理論に基づく手法を提案する。 我々は、良い再構築は基礎的真理と高い相互情報を持つべきだと主張する。 この視点は、軽量な批評家が、対応する空間パッチの再構成をまとめ、他のパッチを撃退するような、対照的な方法で特徴空間を「校正」することができる。 我々の定式化は、L1損失のドロップイン代替として用いられる場合、出力画像の知覚的リアリズムを、追加のGAN損失の有無で即時向上させることを示す。

Training supervised image synthesis models requires a critic to compare two images: the ground truth to the result. Yet, this basic functionality remains an open problem. A popular line of approaches uses the L1 (mean absolute error) loss, either in the pixel or the feature space of pretrained deep networks. However, we observe that these losses tend to produce overly blurry and grey images, and other techniques such as GANs need to be employed to fight these artifacts. In this work, we introduce an information theory based approach to measuring similarity between two images. We argue that a good reconstruction should have high mutual information with the ground truth. This view enables learning a lightweight critic to "calibrate" a feature space in a contrastive manner, such that reconstructions of corresponding spatial patches are brought together, while other patches are repulsed. We show that our formulation immediately boosts the perceptual realism of output images when used as a drop-in replacement for the L1 loss, with or without an additional GAN loss.
翻訳日:2021-11-16 14:35:06 公開日:2021-11-12
# GraSSNet: グラフソフトセンシングニューラルネットワーク

GraSSNet: Graph Soft Sensing Neural Networks ( http://arxiv.org/abs/2111.06980v1 )

ライセンス: Link先を確認
Yu Huang, Chao Zhang, Jaswanth Yella, Sergei Petrov, Xiaoye Qian, Yufei Tang, Xingquan Zhu, Sthitie Bom(参考訳) ビッグデータの時代において、データ駆動型分類は、製造をガイドし、検査を最適化するスマート製造において不可欠な方法となっている。 実際に得られた産業データは、非常に非線形、非定常、不均衡、ノイズの多いソフトセンサーによって収集される時系列データである。 既存のソフトセンシング機械学習モデルは、各インスタンスが複数のラベルに同時に関連付けられているため、ラベル間の相関を無視しながら、時系列内依存性または事前に定義された系列間相関を捉えることに焦点を当てている。 本稿では,雑音および高バランスなソフトセンシングデータの多変量時系列分類のためのグラフベースソフトセンシングニューラルネットワーク(grassnet)を提案する。 提案されているGraSSNetは 1) スペクトル領域における系列間及び系列内依存性を共同で取得する。 2) 統計的共起情報から構築したラベルグラフを重ね合わせてラベル相関を利用する。 3)テキスト領域と数値領域の両方から注意機構のある特徴を学習し, 4) ラベルのないデータを活用し、半教師付き学習によってデータの不均衡を軽減する。 シーゲートソフトセンシングデータを用いて,他の一般的な分類器との比較検討を行い,提案手法の競合性能を検証する実験結果を得た。

In the era of big data, data-driven based classification has become an essential method in smart manufacturing to guide production and optimize inspection. The industrial data obtained in practice is usually time-series data collected by soft sensors, which are highly nonlinear, nonstationary, imbalanced, and noisy. Most existing soft-sensing machine learning models focus on capturing either intra-series temporal dependencies or pre-defined inter-series correlations, while ignoring the correlation between labels as each instance is associated with multiple labels simultaneously. In this paper, we propose a novel graph based soft-sensing neural network (GraSSNet) for multivariate time-series classification of noisy and highly-imbalanced soft-sensing data. The proposed GraSSNet is able to 1) capture the inter-series and intra-series dependencies jointly in the spectral domain; 2) exploit the label correlations by superimposing label graph that built from statistical co-occurrence information; 3) learn features with attention mechanism from both textual and numerical domain; and 4) leverage unlabeled data and mitigate data imbalance by semi-supervised learning. Comparative studies with other commonly used classifiers are carried out on Seagate soft sensing data, and the experimental results validate the competitive performance of our proposed method.
翻訳日:2021-11-16 14:08:46 公開日:2021-11-12
# ソフトセンシングモデル可視化:学習モデルからの微調整ニューラルネットワーク

Soft Sensing Model Visualization: Fine-tuning Neural Network from What Model Learned ( http://arxiv.org/abs/2111.06982v1 )

ライセンス: Link先を確認
Xiaoye Qian, Chao Zhang, Jaswanth Yella, Yu Huang, Ming-Chun Huang, Sthitie Bom(参考訳) スマートマニュファクチャリングから収集されたデータの可利用性の増加は、生産監視と制御のパラダイムを変えつつある。 ウェハ製造プロセスの複雑さと内容の増大に加えて、時間とともに変化する予期せぬ乱れや不確実さが、モデルベースアプローチによる制御プロセスの実行を不可能にする。 その結果、ウェーハプロセス診断においてデータ駆動型ソフトセンシングモデリングがより普及している。 近年,高非線形・動的時系列データに有望な性能を持つソフトセンシングシステムにおいて,ディープラーニングが活用されている。 しかし、ソフトセンシングシステムの成功にもかかわらず、ディープラーニングフレームワークの基礎となるロジックを理解するのは難しい。 本稿では,高度不均衡データセットを用いた欠陥ウェハ検出のための深層学習モデルを提案する。 提案モデルがどのように機能するかを理解するため,深層可視化手法を適用した。 さらに、モデルは深い視覚化によって微調整される。 提案システムの有効性を検証するため,大規模な実験を行った。 その結果、モデルがどのように機能するかの解釈と、その解釈に基づくインストラクティブな微調整法が得られた。

The growing availability of the data collected from smart manufacturing is changing the paradigms of production monitoring and control. The increasing complexity and content of the wafer manufacturing process in addition to the time-varying unexpected disturbances and uncertainties, make it infeasible to do the control process with model-based approaches. As a result, data-driven soft-sensing modeling has become more prevalent in wafer process diagnostics. Recently, deep learning has been utilized in soft sensing system with promising performance on highly nonlinear and dynamic time-series data. Despite its successes in soft-sensing systems, however, the underlying logic of the deep learning framework is hard to understand. In this paper, we propose a deep learning-based model for defective wafer detection using a highly imbalanced dataset. To understand how the proposed model works, the deep visualization approach is applied. Additionally, the model is then fine-tuned guided by the deep visualization. Extensive experiments are performed to validate the effectiveness of the proposed system. The results provide an interpretation of how the model works and an instructive fine-tuning method based on the interpretation.
翻訳日:2021-11-16 14:08:30 公開日:2021-11-12
# 統一セグメンテーションと追跡モデルのためのオンライン学習

Learning Online for Unified Segmentation and Tracking Models ( http://arxiv.org/abs/2111.06994v1 )

ライセンス: Link先を確認
Tianyu Zhu, Rongkai Ma, Mehrtash Harandi and Tom Drummond(参考訳) 追跡には、推論段階でターゲットの識別モデルを構築する必要がある。 これを実現する効果的な方法はオンライン学習であり、オフラインでのみトレーニングされたモデルよりも快適に優れている。 近年の研究では、視覚追跡はそのピクセルレベルの識別により、視覚追跡とセグメンテーションの統合により著しく有益であることが示されている。 しかし、このような統一モデルのためにオンライン学習を行うことは大きな課題となる。 セグメンテーションモデルは、視覚追跡シナリオで与えられた事前情報から容易に学習できない。 本稿では,部分情報のみから学習できるように最適化された新しいメタ学習手法であるtrackmlpを提案する。 我々のモデルは、制限された事前情報を広範囲に活用できるので、他のオンライン学習方法よりもはるかに強力な目標背景識別能力を有する。 実験により,本モデルが最先端の性能と,競合モデルよりも明確な改善を実現することを示す。 我々のモデルは、VOT2019、VOT2018、VOT2016データセットにおける平均オーバーラップ率66.0%、67.1%、68.5%の改善を実現している。 コードは公開される予定だ。

Tracking requires building a discriminative model for the target in the inference stage. An effective way to achieve this is online learning, which can comfortably outperform models that are only trained offline. Recent research shows that visual tracking benefits significantly from the unification of visual tracking and segmentation due to its pixel-level discrimination. However, it imposes a great challenge to perform online learning for such a unified model. A segmentation model cannot easily learn from prior information given in the visual tracking scenario. In this paper, we propose TrackMLP: a novel meta-learning method optimized to learn from only partial information to resolve the imposed challenge. Our model is capable of extensively exploiting limited prior information hence possesses much stronger target-background discriminability than other online learning methods. Empirically, we show that our model achieves state-of-the-art performance and tangible improvement over competing models. Our model achieves improved average overlaps of66.0%,67.1%, and68.5% in VOT2019, VOT2018, and VOT2016 datasets, which are 6.4%,7.3%, and6.4% higher than our baseline. Code will be made publicly available.
翻訳日:2021-11-16 13:36:44 公開日:2021-11-12
# (参考訳) 未知評価コストを考慮した多段予算ベイズ最適化 [全文訳有]

Multi-Step Budgeted Bayesian Optimization with Unknown Evaluation Costs ( http://arxiv.org/abs/2111.06537v1 )

ライセンス: CC BY 4.0
Raul Astudillo, Daniel R. Jiang, Maximilian Balandat, Eytan Bakshy, Peter I. Frazier(参考訳) ベイズ最適化(英: Bayesian Optimization, BO)とは、ブラックボックス関数を最適化する手法である。 ほとんどのBOメソッドは、最適化領域で評価コストがどのように変化するかを無視している。 しかし、これらのコストは多種多様であり、しばしば事前に不明である。 これは、機械学習アルゴリズムのハイパーパラメータチューニングや物理ベースのシミュレーション最適化など、多くの実践的な設定で発生する。 さらに, コストの不均一性を認めている既存手法は, 全評価コストに対する予算制約を自然に満たさない。 この未知のコストと予算制約の組み合わせは、コストについて学ぶことがコスト自体を負う、探索-爆発的トレードオフに新たな次元をもたらす。 既存の方法は、この問題の様々なトレードオフを原則的に説明しないため、しばしばパフォーマンスが低下する。 この主張を定式化し、期待された改善とコスト単位当たりの期待改善(実際には最も広く使われている2つの獲得関数)が、最適な非認知政策に関して任意に劣る可能性があることを立証する。 既存のアプローチの欠点を克服するために,従来の期待改善を不均一で未知の評価コストの設定に一般化した,予算付き多段階期待改善関数を提案する。 最後に,我々の獲得関数は,様々な合成および実問題において,既存の手法よりも優れていることを示す。

Bayesian optimization (BO) is a sample-efficient approach to optimizing costly-to-evaluate black-box functions. Most BO methods ignore how evaluation costs may vary over the optimization domain. However, these costs can be highly heterogeneous and are often unknown in advance. This occurs in many practical settings, such as hyperparameter tuning of machine learning algorithms or physics-based simulation optimization. Moreover, those few existing methods that acknowledge cost heterogeneity do not naturally accommodate a budget constraint on the total evaluation cost. This combination of unknown costs and a budget constraint introduces a new dimension to the exploration-exploita tion trade-off, where learning about the cost incurs the cost itself. Existing methods do not reason about the various trade-offs of this problem in a principled way, leading often to poor performance. We formalize this claim by proving that the expected improvement and the expected improvement per unit of cost, arguably the two most widely used acquisition functions in practice, can be arbitrarily inferior with respect to the optimal non-myopic policy. To overcome the shortcomings of existing approaches, we propose the budgeted multi-step expected improvement, a non-myopic acquisition function that generalizes classical expected improvement to the setting of heterogeneous and unknown evaluation costs. Finally, we show that our acquisition function outperforms existing methods in a variety of synthetic and real problems.
翻訳日:2021-11-15 22:01:51 公開日:2021-11-12
# (参考訳) 低ランク・スパース因子化による最適輸送の近似 [全文訳有]

Approximating Optimal Transport via Low-rank and Sparse Factorization ( http://arxiv.org/abs/2111.06546v1 )

ライセンス: CC BY-SA 4.0
Weijie Liu, Chao Zhang, Nenggan Zheng, Hui Qian(参考訳) 最適なトランスポート(ot)は、自然にさまざまな機械学習アプリケーションで発生するが、しばしば計算ボトルネックとなる。 近年、一行の著作が、低ランク部分空間で \emph{transport plan} を探索することで、ot を解くことを提案している。 しかし、最適な輸送計画はしばしば低ランクではなく、大きな近似誤差をもたらす傾向にある。 例えば、Monge の \emph{transport map} が存在する場合、輸送計画はフルランクである。 本稿では,ot距離の計算を精度と効率良く行う。 輸送計画を低ランク行列とスパース行列の和に分解できる新しいOT近似法を提案する。 近似誤差を理論的に解析する。 拡張ラグランジアン法は、輸送計画の効率的な計算のために設計される。

Optimal transport (OT) naturally arises in a wide range of machine learning applications but may often become the computational bottleneck. Recently, one line of works propose to solve OT approximately by searching the \emph{transport plan} in a low-rank subspace. However, the optimal transport plan is often not low-rank, which tends to yield large approximation errors. For example, when Monge's \emph{transport map} exists, the transport plan is full rank. This paper concerns the computation of the OT distance with adequate accuracy and efficiency. A novel approximation for OT is proposed, in which the transport plan can be decomposed into the sum of a low-rank matrix and a sparse one. We theoretically analyze the approximation error. An augmented Lagrangian method is then designed to efficiently calculate the transport plan.
翻訳日:2021-11-15 21:33:58 公開日:2021-11-12
# (参考訳) 自己監督型GAN検出器 [全文訳有]

Self-supervised GAN Detector ( http://arxiv.org/abs/2111.06575v1 )

ライセンス: CC BY 4.0
Yonghyun Jeong, Doyeon Kim, Pyounggeon Kim, Youngmin Ro, Jongwon Choi(参考訳) 近年の生成モデルの発展は社会に様々な利点をもたらすが、詐欺、名誉剥奪、偽ニュースなどの悪意ある目的によって悪用されることもある。 このような場合を防ぐため、生成画像と実際の画像とを区別するために活発な研究がなされているが、トレーニング設定外の未確認画像の識別には依然として課題が残っている。 このような制限は、モデルが過度に適合する問題から特定のGANによって生成されたトレーニングデータへのデータ依存に起因する。 この問題を克服するために,我々は,新しい枠組みを提案するために自己監督方式を採用する。 提案手法は,GAN画像の高品質な人工指紋を再現し,詳細な解析を行う人工指紋生成装置と,再構成された人工指紋を学習することによりGAN画像の識別を行う。 人工指紋生成器の一般化を改善するため,複数のアップコンボリューション層を持つマルチオートエンコーダを構築した。 多くのアブレーション研究において、トレーニングデータセットのGANイメージを使わずに、従来の最先端アルゴリズムの一般化よりも高い性能で、本手法の堅牢な一般化が検証される。

Although the recent advancement in generative models brings diverse advantages to society, it can also be abused with malicious purposes, such as fraud, defamation, and fake news. To prevent such cases, vigorous research is conducted to distinguish the generated images from the real images, but challenges still remain to distinguish the unseen generated images outside of the training settings. Such limitations occur due to data dependency arising from the model's overfitting issue to the training data generated by specific GANs. To overcome this issue, we adopt a self-supervised scheme to propose a novel framework. Our proposed method is composed of the artificial fingerprint generator reconstructing the high-quality artificial fingerprints of GAN images for detailed analysis, and the GAN detector distinguishing GAN images by learning the reconstructed artificial fingerprints. To improve the generalization of the artificial fingerprint generator, we build multiple autoencoders with different numbers of upconvolution layers. With numerous ablation studies, the robust generalization of our method is validated by outperforming the generalization of the previous state-of-the-art algorithms, even without utilizing the GAN images of the training dataset.
翻訳日:2021-11-15 21:14:39 公開日:2021-11-12
# (参考訳) PESTO: 符号混合言語における動的および相対的位置符号化 [全文訳有]

PESTO: Switching Point based Dynamic and Relative Positional Encoding for Code-Mixed Languages ( http://arxiv.org/abs/2111.06599v1 )

ライセンス: CC BY 4.0
Mohsin Ali, Kandukuri Sai Teja, Sumanth Manduru, Parth Patwa, Amitava Das(参考訳) コード混合(cm)やミックスリンガルテキストのためのnlpアプリケーションは、インド、メキシコ、ヨーロッパ、米国の一部など多言語社会におけるソーシャルメディアコミュニケーションにおける言語混合の普及が主な理由として、近年大きな勢いを増している。 現在、単語埋め込みはNLPシステムの基本構築ブロックであるが、CM言語の単語埋め込みは探索されていない領域である。 cmワード埋め込みの最大のボトルネックは、言語が切り替わるスイッチングポイントである。 これらの場所は文脈的に欠落しており、統計システムではこの現象をモデル化できない。 本稿では,cm言語,特にhinglish (hindi - english) に対して,スイッチングポイントに基づく位置符号化手法を適用した最初の観察を行う。 結果はSOTAよりわずかに優れているが、位置符号化はCMテキストに対する位置感受性言語モデルの訓練に有効な方法であることは間違いない。

NLP applications for code-mixed (CM) or mix-lingual text have gained a significant momentum recently, the main reason being the prevalence of language mixing in social media communications in multi-lingual societies like India, Mexico, Europe, parts of USA etc. Word embeddings are basic build-ing blocks of any NLP system today, yet, word embedding for CM languages is an unexplored territory. The major bottleneck for CM word embeddings is switching points, where the language switches. These locations lack in contextually and statistical systems fail to model this phenomena due to high variance in the seen examples. In this paper we present our initial observations on applying switching point based positional encoding techniques for CM language, specifically Hinglish (Hindi - English). Results are only marginally better than SOTA, but it is evident that positional encoding could bean effective way to train position sensitive language models for CM text.
翻訳日:2021-11-15 21:03:35 公開日:2021-11-12
# (参考訳) 融合型コミュニケーションによる多エージェント強化学習におけるレジリエンスの促進 [全文訳有]

Promoting Resilience in Multi-Agent Reinforcement Learning via Confusion-Based Communication ( http://arxiv.org/abs/2111.06614v1 )

ライセンス: CC BY 4.0
Ofir Abu, Matthias Gerstgrasser, Jeffrey Rosenschein and Sarah Keren(参考訳) マルチエージェント強化学習(MARL)の最近の進歩は、エージェントが環境の予期せぬ変化に適応し、環境のダイナミックな性質(他のエージェントの存在によって強化される可能性がある)を考慮し、正常に動作するための様々なツールを提供する。 本研究は,協調するグループの能力と,環境の摂動に適応する集団の能力として評価するグループのレジリエンスとの関係を強調する。 レジリエンスを促進するために,エージェントが過去の経験とミスマッチした観察を放送する,新たな混乱に基づくコミュニケーションプロトコルによるコラボレーションの促進を提案する。 我々は、メッセージの幅と頻度に関する決定をエージェントによって自律的に学習することを許可し、混乱を減らすためにインセンティブを与える。 各種のMARL設定において,提案手法の実証評価を行った。

Recent advances in multi-agent reinforcement learning (MARL) provide a variety of tools that support the ability of agents to adapt to unexpected changes in their environment, and to operate successfully given their environment's dynamic nature (which may be intensified by the presence of other agents). In this work, we highlight the relationship between a group's ability to collaborate effectively and the group's resilience, which we measure as the group's ability to adapt to perturbations in the environment. To promote resilience, we suggest facilitating collaboration via a novel confusion-based communication protocol according to which agents broadcast observations that are misaligned with their previous experiences. We allow decisions regarding the width and frequency of messages to be learned autonomously by agents, which are incentivized to reduce confusion. We present empirical evaluation of our approach in a variety of MARL settings.
翻訳日:2021-11-15 20:59:55 公開日:2021-11-12
# (参考訳) 文埋め込みにおける構文異常情報の符号化のバリエーションと一般化 [全文訳有]

Variation and generality in encoding of syntactic anomaly information in sentence embeddings ( http://arxiv.org/abs/2111.06644v1 )

ライセンス: CC BY 4.0
Qinxuan Wu and Allyson Ettinger(参考訳) 文異常は周期的にNLPの検査に応用されているが,NLPモデルからの表現における異常情報の正確な状態の図面は確立されていない。 本稿では,構文異常の領域に着目した2つの主要なギャップを埋めることを目的とする。 まず,文中の異常が発生する階層レベルの異なる探索タスクを設計することにより,異常符号化の微妙な相違について検討する。 第二に, モデルが与えられた異常を検出できるだけでなく, 検出された異常信号の一般性についても, 異なる異常タイプ間の伝達を調べることにより検証した。 その結果、全てのモデルが異常検出をサポートする情報を符号化していることが示唆されたが、検出性能は異常によって異なり、より最近のトランスフォーマーモデルの表現のみが異常の一般的な知識の兆候を示している。 フォローアップ分析は、これらのモデルが正当で一般的な文奇性の概念を拾い上げ、粗い単語の位置情報が観察された異常検出に寄与する可能性を支持している。

While sentence anomalies have been applied periodically for testing in NLP, we have yet to establish a picture of the precise status of anomaly information in representations from NLP models. In this paper we aim to fill two primary gaps, focusing on the domain of syntactic anomalies. First, we explore fine-grained differences in anomaly encoding by designing probing tasks that vary the hierarchical level at which anomalies occur in a sentence. Second, we test not only models' ability to detect a given anomaly, but also the generality of the detected anomaly signal, by examining transfer between distinct anomaly types. Results suggest that all models encode some information supporting anomaly detection, but detection performance varies between anomalies, and only representations from more recent transformer models show signs of generalized knowledge of anomalies. Follow-up analyses support the notion that these models pick up on a legitimate, general notion of sentence oddity, while coarser-grained word position information is likely also a contributor to the observed anomaly detection.
翻訳日:2021-11-15 20:47:04 公開日:2021-11-12
# (参考訳) 対話行動分類のための話者と時間を考慮した共同文脈学習 [全文訳有]

Speaker and Time-aware Joint Contextual Learning for Dialogue-act Classification in Counselling Conversations ( http://arxiv.org/abs/2111.06647v1 )

ライセンス: CC BY 4.0
Ganeshan Malhotra, Abdul Waheed, Aseem Srivastava, Md Shad Akhtar, Tanmoy Chakraborty(参考訳) 新型コロナウイルス(covid-19)パンデミックの勃発により、人々のメンタルヘルスが危険にさらされている。 この環境において社会的カウンセリングは著しく重要である。 一般的な目標指向の対話とは異なり、患者とセラピストの会話はかなり暗黙的であるが、会話の目的はかなり明らかである。 この場合、患者の意図を理解することは、治療セッションにおいて効果的なカウンセリングを提供する上で必須であり、対話システムにも適用される。 本稿では,メンタルヘルスカウンセリングのための自動対話システムの開発において,小さいが重要な一歩を踏み出す。 我々は,カウンセリング会話における対話行為分類のためのプラットフォームとして,hopeという新しいデータセットを開発した。 このような会話の要件を特定し,ドメイン固有対話(DAC)ラベルを12種類提案する。 私たちは、YouTubeで公開されているカウンセリングセッションビデオから12.9Kの発話を収集し、それらの転写文を抽出し、DACラベルで注釈付けします。 さらに,対話行動分類のための新しい話者認識型・時間認識型文脈学習システムであるSPARTAを提案する。 本評価は,複数のベースライン上での説得力のある性能を示し,HOPEの最先端化を実現している。 また,実験をSPARTAの広範な経験的,定性的な分析で補完する。

The onset of the COVID-19 pandemic has brought the mental health of people under risk. Social counselling has gained remarkable significance in this environment. Unlike general goal-oriented dialogues, a conversation between a patient and a therapist is considerably implicit, though the objective of the conversation is quite apparent. In such a case, understanding the intent of the patient is imperative in providing effective counselling in therapy sessions, and the same applies to a dialogue system as well. In this work, we take forward a small but an important step in the development of an automated dialogue system for mental-health counselling. We develop a novel dataset, named HOPE, to provide a platform for the dialogue-act classification in counselling conversations. We identify the requirement of such conversation and propose twelve domain-specific dialogue-act (DAC) labels. We collect 12.9K utterances from publicly-available counselling session videos on YouTube, extract their transcripts, clean, and annotate them with DAC labels. Further, we propose SPARTA, a transformer-based architecture with a novel speaker- and time-aware contextual learning for the dialogue-act classification. Our evaluation shows convincing performance over several baselines, achieving state-of-the-art on HOPE. We also supplement our experiments with extensive empirical and qualitative analyses of SPARTA.
翻訳日:2021-11-15 20:27:56 公開日:2021-11-12
# (参考訳) ガウス分数微分を持つ構造cnnフィルタの周波数学習 [全文訳有]

Frequency learning for structured CNN filters with Gaussian fractional derivatives ( http://arxiv.org/abs/2111.06660v1 )

ライセンス: CC BY 4.0
Nikhil Saldanha, Silvia L. Pintea, Jan C. van Gemert, Nergis Tomen(参考訳) 周波数情報はテクスチャを区別する基礎にあり、したがって異なるオブジェクトを区別する。 古典的なCNNアーキテクチャは、固定フィルタサイズによる周波数学習を制限し、それを明示的に制御する方法を欠いている。 ここではガウス微分基底を持つ構造的受容場フィルタを構築する。 しかし、通常基底関数に対して一定の周波数応答をもたらす所定の微分順序を用いるのではなく、これらを学習する。 基礎の順序を学習することにより,フィルタの周波数を正確に学習し,基礎となる学習タスクに最適な周波数に適応できることを示す。 トレーニング中のフィルタ周波数に適応する分数微分の数学的定式化について検討する。 我々の定式化は、標準CNNと構築したガウス微分CNNフィルタネットワークと比較してパラメータの節約とデータ効率につながる。

Frequency information lies at the base of discriminating between textures, and therefore between different objects. Classical CNN architectures limit the frequency learning through fixed filter sizes, and lack a way of explicitly controlling it. Here, we build on the structured receptive field filters with Gaussian derivative basis. Yet, rather than using predetermined derivative orders, which typically result in fixed frequency responses for the basis functions, we learn these. We show that by learning the order of the basis we can accurately learn the frequency of the filters, and hence adapt to the optimal frequencies for the underlying learning task. We investigate the well-founded mathematical formulation of fractional derivatives to adapt the filter frequencies during training. Our formulation leads to parameter savings and data efficiency when compared to the standard CNNs and the Gaussian derivative CNN filter networks that we build upon.
翻訳日:2021-11-15 20:06:35 公開日:2021-11-12
# (参考訳) Augmentation と Ensemble of Language Models を用いたTwitter からのメディケイト名抽出 [全文訳有]

Extraction of Medication Names from Twitter Using Augmentation and an Ensemble of Language Models ( http://arxiv.org/abs/2111.06664v1 )

ライセンス: CC BY 4.0
Igor Kulev, Berkay K\"opr\"u, Raul Rodriguez-Esteban, Diego Saldana, Yi Huang, Alessandro La Torraca, Elif Ozkirimli(参考訳) BioCreative VII Track 3の課題は、Twitterのユーザータイムラインで薬物名を特定することである。 この課題への提案のために、いくつかのデータ拡張技術を用いて、利用可能なトレーニングデータを拡張しました。 その後、拡張データを使用して、一般ドメインのtwitterコンテンツで事前トレーニングされた言語モデルのアンサンブルを微調整した。 提案手法は,最先端アルゴリズムであるkusuriを上回り,選択対象関数の競争においてf1得点を上回った。

The BioCreative VII Track 3 challenge focused on the identification of medication names in Twitter user timelines. For our submission to this challenge, we expanded the available training data by using several data augmentation techniques. The augmented data was then used to fine-tune an ensemble of language models that had been pre-trained on general-domain Twitter content. The proposed approach outperformed the prior state-of-the-art algorithm Kusuri and ranked high in the competition for our selected objective function, overlapping F1 score.
翻訳日:2021-11-15 19:54:19 公開日:2021-11-12
# (参考訳) ビデオを用いた歩行バイオメトリックスのためのロバスト解析

Robust Analytics for Video-Based Gait Biometrics ( http://arxiv.org/abs/2111.06670v1 )

ライセンス: CC BY 4.0
Ebenezer R.H.P. Isaac(参考訳) 歩行分析は、動物の移動を評価し定量化する体系的な方法の研究である。 ゲイトは、他のモダリティが必要とする範囲において、被験者の協力を必要としないため、多くの最先端のバイオメトリックシステムにおいてユニークな重要性を見出している。 したがって、本質上は控えめな生体認証である。 本論文では,歩行の硬度と軟度のバイオメトリック特性について論じる。 Posed-Based Votingスキームを通じて、歩行だけで性別を識別する方法を示す。 次に,遺伝的テンプレートセグメンテーションを用いた歩行認識精度の向上について述べる。 幅広い人口の会員は、マルチパーソンシグナチャマッピングを用いて認証することができる。 最後に、このマッピングはベイジアン・スレッショニングを用いてより小さな人口で改善することができる。 この論文で提案された全ての手法は、十分な実験と結果とともに、既存の芸術の状態を上回っている。

Gait analysis is the study of the systematic methods that assess and quantify animal locomotion. Gait finds a unique importance among the many state-of-the-art biometric systems since it does not require the subject's cooperation to the extent required by other modalities. Hence by nature, it is an unobtrusive biometric. This thesis discusses both hard and soft biometric characteristics of gait. It shows how to identify gender based on gait alone through the Posed-Based Voting scheme. It then describes improving gait recognition accuracy using Genetic Template Segmentation. Members of a wide population can be authenticated using Multiperson Signature Mapping. Finally, the mapping can be improved in a smaller population using Bayesian Thresholding. All methods proposed in this thesis have outperformed their existing state of the art with adequate experimentation and results.
翻訳日:2021-11-15 19:48:01 公開日:2021-11-12
# (参考訳) 現場医療におけるコミュニケーション資源配分のための深部強化モデル選択 [全文訳有]

Deep Reinforcement Model Selection for Communications Resource Allocation in On-Site Medical Care ( http://arxiv.org/abs/2111.06680v1 )

ライセンス: CC BY 4.0
Steffen Gracla, Edgar Beck, Carsten Bockelmann, Armin Dekorsy(参考訳) モバイル通信技術のさらなる能力は、これまで利用できなかった規模での現場医療の相互接続を可能にする。 しかし、そのような重要で要求の多いタスクを、モバイルコミュニケーションのすでに複雑なインフラに組み込むことは、難しい。 本稿では、スケジューラが接続されたユーザ間で混合性能指標のバランスをとる必要があるリソース割り当てシナリオについて検討する。 このリソース割り当てタスクを達成するために,異なるモデルベースのスケジューリングアルゴリズムを適応的に切り替えるスケジューラを提案する。 モデル駆動型アプローチとデータ駆動型アプローチの利点を組み合わせることで、特定の状況でスケジューリングパラダイムを選択する利点を学ぶために、深いqネットワークを利用する。 得られたアンサンブルスケジューラは、その構成アルゴリズムを組み合わせることで、指定された高優先度ユーザの性能を確保しつつ、合計ユーティリティコスト関数を最大化することができる。

Greater capabilities of mobile communications technology enable interconnection of on-site medical care at a scale previously unavailable. However, embedding such critical, demanding tasks into the already complex infrastructure of mobile communications proves challenging. This paper explores a resource allocation scenario where a scheduler must balance mixed performance metrics among connected users. To fulfill this resource allocation task, we present a scheduler that adaptively switches between different model-based scheduling algorithms. We make use of a deep Q-Network to learn the benefit of selecting a scheduling paradigm for a given situation, combining advantages from model-driven and data-driven approaches. The resulting ensemble scheduler is able to combine its constituent algorithms to maximize a sum-utility cost function while ensuring performance on designated high-priority users.
翻訳日:2021-11-15 19:45:47 公開日:2021-11-12
# (参考訳) BSC: 正確で効率的なTinyMLを実現するブロックベースの確率計算 [全文訳有]

BSC: Block-based Stochastic Computing to Enable Accurate and Efficient TinyML ( http://arxiv.org/abs/2111.06686v1 )

ライセンス: CC BY 4.0
Yuhong Song, Edwin Hsing-Mean Sha, Qingfeng Zhuge, Rui Xu, Yongzhuo Zhang, Bingzhe Li, Lei Yang(参考訳) AIの民主化の進展に伴い、マシンラーニング(ML)は、スマートフォンや自動運転といったエッジアプリケーションに成功している。 現在、多くのアプリケーションは、TinyMLとして知られる埋め込み型除細動器(ICD)のような非常に限られたリソースを持つ小さなデバイスでMLを必要とする。 エッジのMLとは異なり、限られたエネルギー供給を持つTinyMLは低電力実行に対する要求が高い。 データ表現にビットストリームを使用する確率計算(SC)は、複雑なバイナリ加算器や乗算器の代わりに単純な論理ゲートを使って基本的なML操作を実行できるため、TinyMLにとって有望である。 しかし、SCはデータ精度が低く、演算単位が不正確であるため、MLタスクの精度が低い。 既存の作業におけるビットストリームの長さの増大は、精度の問題を緩和するが、レイテンシは高くなる。 本稿では,Block-based Stochastic Computing (BSC) という新しいSCアーキテクチャを提案する。 BSCは入力をブロックに分割し、高いデータ並列性を利用してレイテンシを低減する。 さらに、最適化演算ユニットと出力修正(our)スキームを提案し、精度の向上を図る。 さらに、ブロック数を決定するためにグローバル最適化アプローチが考案され、これによりレイテンシーとパワーのトレードオフが改善される。 実験の結果,BSCはMLタスクにおいて10%以上の精度を実現し,消費電力を6倍以上削減できることがわかった。

Along with the progress of AI democratization, machine learning (ML) has been successfully applied to edge applications, such as smart phones and automated driving. Nowadays, more applications require ML on tiny devices with extremely limited resources, like implantable cardioverter defibrillator (ICD), which is known as TinyML. Unlike ML on the edge, TinyML with a limited energy supply has higher demands on low-power execution. Stochastic computing (SC) using bitstreams for data representation is promising for TinyML since it can perform the fundamental ML operations using simple logical gates, instead of the complicated binary adder and multiplier. However, SC commonly suffers from low accuracy for ML tasks due to low data precision and inaccuracy of arithmetic units. Increasing the length of the bitstream in the existing works can mitigate the precision issue but incur higher latency. In this work, we propose a novel SC architecture, namely Block-based Stochastic Computing (BSC). BSC divides inputs into blocks, such that the latency can be reduced by exploiting high data parallelism. Moreover, optimized arithmetic units and output revision (OUR) scheme are proposed to improve accuracy. On top of it, a global optimization approach is devised to determine the number of blocks, which can make a better latency-power trade-off. Experimental results show that BSC can outperform the existing designs in achieving over 10% higher accuracy on ML tasks and over 6 times power reduction.
翻訳日:2021-11-15 19:37:51 公開日:2021-11-12
# (参考訳) 自然言語理解のためのプロンプトチューニングの伝達性について [全文訳有]

On Transferability of Prompt Tuning for Natural Language Understanding ( http://arxiv.org/abs/2111.06719v1 )

ライセンス: CC BY 4.0
Yusheng Su, Xiaozhi Wang, Yujia Qin, Chi-Min Chan, Yankai Lin, Zhiyuan Liu, Peng Li, Juanzi Li, Lei Hou, Maosong Sun, Jie Zhou(参考訳) プロンプトチューニング(pt)は、非常に大きな事前学習言語モデル(plm)を活用するためのパラメータ効率の高い手法であり、いくつかのソフトプロンプトをチューニングするだけで、フルパラメータの微調整と同等の性能を達成できる。 しかし、微調整に比べ、PTは経験的により多くのトレーニングステップを必要とする。 訓練されたソフトプロンプトを再利用し、学習知識を共有することによってPTの効率を向上させることができるかを検討するため、異なるタスクやモデル間でのソフトプロンプトの転送可能性について実験的に検討する。 クロスタスク転送では、訓練されたソフトプロンプトが同様のタスクにうまく移行し、PTを初期化してトレーニングを加速し、パフォーマンスを向上させることができる。 さらに,タスク間の伝達可能性にどのような影響を及ぼすかを検討するために,アクティベートニューロンの重なり合う速度が伝達可能性に大きく相関していることを確認する。 クロスモデル転送では、PLMのプロンプトを他のPLMに投影する方法を探索し、同様のタスクで非自明な転送性能を達成できるようなプロジェクタの訓練に成功した。 しかし、PTをプロンプトで初期化することはうまく機能せず、最適化の好みやPLMの高冗長性によって引き起こされる可能性がある。 以上の結果から,知識伝達によるPTの改善は可能で有望であり,プロンプトのクロスタスク転送性はクロスモデル転送性よりも良好であることが示唆された。

Prompt tuning (PT) is a promising parameter-efficient method to utilize extremely large pre-trained language models (PLMs), which could achieve comparable performance to full-parameter fine-tuning by only tuning a few soft prompts. However, compared to fine-tuning, PT empirically requires much more training steps. To explore whether we can improve the efficiency of PT by reusing trained soft prompts and sharing learned knowledge, we empirically investigate the transferability of soft prompts across different tasks and models. In cross-task transfer, we find that trained soft prompts can well transfer to similar tasks and initialize PT for them to accelerate training and improve performance. Moreover, to explore what factors influence prompts' transferability across tasks, we investigate how to measure the prompt similarity and find that the overlapping rate of activated neurons highly correlates to the transferability. In cross-model transfer, we explore how to project the prompts of a PLM to another PLM and successfully train a kind of projector which can achieve non-trivial transfer performance on similar tasks. However, initializing PT with the projected prompts does not work well, which may be caused by optimization preferences and PLMs' high redundancy. Our findings show that improving PT with knowledge transfer is possible and promising, while prompts' cross-task transferability is generally better than the cross-model transferability.
翻訳日:2021-11-15 19:24:20 公開日:2021-11-12
# (参考訳) 1つのモデルが繰り返し条件付きクエリ学習で何千ものアイテムを詰め込む [全文訳有]

One model Packs Thousands of Items with Recurrent Conditional Query Learning ( http://arxiv.org/abs/2111.06726v1 )

ライセンス: CC BY 4.0
Dongda Li, Zhaoquan Gu, Yuexuan Wang, Changwei Ren, Francis C.M. Lau(参考訳) 最近の研究では、ニューラルネットワーク最適化(nco)はルーティングのような多くの組合せ最適化問題において従来のアルゴリズムよりも優れているが、相互条件付きアクション空間を含むパッキングのようなより複雑な最適化タスクでは効率が低いことが示されている。 本稿では,2次元および3次元のパッキング問題を解決するために,Recurrent Conditional Query Learning (RCQL)法を提案する。 まず、リカレントエンコーダによって状態を埋め込み、その後、前回のアクションから条件付きクエリで注意を払います。 条件付きクエリ機構は、マルコフ決定プロセスとして問題を形成する学習ステップ間の情報ギャップを埋める。 再帰性に相応しい1つのRCQLモデルは、パッキング問題のさまざまなサイズを扱うことができる。 実験の結果、RCQLはオフラインおよびオンラインストリップパッキング問題(SPP)の強いヒューリスティックスを効果的に学習でき、空間利用率において幅広いベースラインを上回ります。 RCQLは、オフラインの2D 40ボックスケースでは平均ビンギャップ比を1.83%削減し、3Dケースでは7.84%削減する。 一方,本手法は,1000項目のSPPの空間利用率を技術状況よりも5.64%向上させる。

Recent studies have revealed that neural combinatorial optimization (NCO) has advantages over conventional algorithms in many combinatorial optimization problems such as routing, but it is less efficient for more complicated optimization tasks such as packing which involves mutually conditioned action spaces. In this paper, we propose a Recurrent Conditional Query Learning (RCQL) method to solve both 2D and 3D packing problems. We first embed states by a recurrent encoder, and then adopt attention with conditional queries from previous actions. The conditional query mechanism fills the information gap between learning steps, which shapes the problem as a Markov decision process. Benefiting from the recurrence, a single RCQL model is capable of handling different sizes of packing problems. Experiment results show that RCQL can effectively learn strong heuristics for offline and online strip packing problems (SPPs), outperforming a wide range of baselines in space utilization ratio. RCQL reduces the average bin gap ratio by 1.83% in offline 2D 40-box cases and 7.84% in 3D cases compared with state-of-the-art methods. Meanwhile, our method also achieves 5.64% higher space utilization ratio for SPPs with 1000 items than the state of the art.
翻訳日:2021-11-15 18:59:26 公開日:2021-11-12
# (参考訳) 自己反射型地形認識ロボット適応によるオフロード走行の一貫性 [全文訳有]

Self-Reflective Terrain-Aware Robot Adaptation for Consistent Off-Road Ground Navigation ( http://arxiv.org/abs/2111.06742v1 )

ライセンス: CC BY 4.0
Sriram Siva, Maggie Wigness, John G. Rogers, Long Quang, and Hao Zhang(参考訳) 地上ロボットは、構造物や未整備の地形を横断し、災害応答などの現実世界のロボットアプリケーションでタスクを完了させる障害を避ける重要な能力を必要とする。 森林などのオフロードフィールド環境でロボットが動作する場合、地形やロボット自体の特性の変化のため、ロボットの実際の動作は期待された行動や計画された行動と一致しないことが多い。 したがって,非構造外地での操縦性には,一貫した行動生成のためのロボット適応能力が不可欠である。 そこで本研究では,ロボットがロボットの自帰的地形に適応しつつ,ロボットが期待する行動をより正確に実行できるようにするため,非構造なオフロード地形を走行するための一貫した制御を生成するための,地上ロボットの自己回帰的地形認識適応手法を提案する。 本手法の性能を評価するために,様々な非構造なオフロード地形における機能変化を伴う実地ロボットを用いた大規模実験を行った。 包括的実験により, 地上ロボットが一貫したナビゲーション行動を生成し, 比較した先行技術とベースライン技術を上回った。

Ground robots require the crucial capability of traversing unstructured and unprepared terrains and avoiding obstacles to complete tasks in real-world robotics applications such as disaster response. When a robot operates in off-road field environments such as forests, the robot's actual behaviors often do not match its expected or planned behaviors, due to changes in the characteristics of terrains and the robot itself. Therefore, the capability of robot adaptation for consistent behavior generation is essential for maneuverability on unstructured off-road terrains. In order to address the challenge, we propose a novel method of self-reflective terrain-aware adaptation for ground robots to generate consistent controls to navigate over unstructured off-road terrains, which enables robots to more accurately execute the expected behaviors through robot self-reflection while adapting to varying unstructured terrains. To evaluate our method's performance, we conduct extensive experiments using real ground robots with various functionality changes over diverse unstructured off-road terrains. The comprehensive experimental results have shown that our self-reflective terrain-aware adaptation method enables ground robots to generate consistent navigational behaviors and outperforms the compared previous and baseline techniques.
翻訳日:2021-11-15 18:40:07 公開日:2021-11-12
# (参考訳) モンテカルロのドロップアウトでモデル再現性が向上 [全文訳有]

Monte Carlo dropout increases model repeatability ( http://arxiv.org/abs/2111.06754v1 )

ライセンス: CC BY 4.0
Andreanne Lemay, Katharina Hoebel, Christopher P. Bridge, Didem Egemen, Ana Cecilia Rodriguez, Mark Schiffman, John Peter Campbell, Jayashree Kalpathy-Cramer(参考訳) 人工知能を臨床ワークフローに統合するには、信頼できる堅牢なモデルが必要です。 堅牢性の主な特徴は、再現性である。 モデルの繰り返し性を評価することなく、分類性能に多くの注意が払われ、実際に使用できないモデルの開発につながります。 本研究は,同訪問中に取得した同一患者の画像上での4種類のモデルの再現性を評価するものである。 子宮頸癌検診,乳房密度推定,未熟児分類網膜症という3つの医用画像解析課題において,バイナリ,マルチクラス,順序,回帰モデルの性能について検討した。 さらに,テスト時のモンテカルロドロップアウト予測が分類性能と再現性に与える影響について検討した。 モンテカルロ予測の活用は、二進数、複数クラス、順序モデル上の全てのタスクの反復可能性を大幅に向上させ、95%の合意の限界を17%まで下げた。

The integration of artificial intelligence into clinical workflows requires reliable and robust models. Among the main features of robustness is repeatability. Much attention is given to classification performance without assessing the model repeatability, leading to the development of models that turn out to be unusable in practice. In this work, we evaluate the repeatability of four model types on images from the same patient that were acquired during the same visit. We study the performance of binary, multi-class, ordinal, and regression models on three medical image analysis tasks: cervical cancer screening, breast density estimation, and retinopathy of prematurity classification. Moreover, we assess the impact of sampling Monte Carlo dropout predictions at test time on classification performance and repeatability. Leveraging Monte Carlo predictions significantly increased repeatability for all tasks on the binary, multi-class, and ordinal models leading to an average reduction of the 95% limits of agreement by 17% points.
翻訳日:2021-11-15 17:47:51 公開日:2021-11-12
# (参考訳) マルチウェイストレージ改質機 [全文訳有]

Multiway Storage Modification Machines ( http://arxiv.org/abs/2111.06757v1 )

ライセンス: CC BY 4.0
J.-M. Chauvet(参考訳) 本稿では,Sch\ onhage's Storage Modification Machine, Multiway Storage Modification Machine (MWSMM) の並列バージョンを提案する。 トロンプとヴァン・エメド・ボアの代替アソシエーション記憶修正機と同様に、mwsmmは多項式時間でチューリングマシンが多項式空間で認識するものを認識する。 したがって、MWSMMは第2機械クラスに該当し、並列計算理論に準拠した並列機械モデルである。 本稿では,Wolfram の文字列置換システムの簡単な実装により MWSMM を説明する。

We present a parallel version of Sch\"onhage's Storage Modification Machine, the Multiway Storage Modification Machine (MWSMM). Like the alternative Association Storage Modification Machine of Tromp and van Emde Boas, MWSMMs recognize in polynomial time what Turing Machines recognize in polynomial space. Falling thus into the Second Machine Class, the MWSMM is a parallel machine model conforming to the Parallel Computation Thesis. We illustrate MWSMMs by a simple implementation of Wolfram's String Substitution System.
翻訳日:2021-11-15 17:39:40 公開日:2021-11-12
# (参考訳) 運転シミュレータ時系列データを用いたadhdの路上シナリオ予測 [全文訳有]

Identifying On-road Scenarios Predictive of ADHD usingDriving Simulator Time Series Data ( http://arxiv.org/abs/2111.06774v1 )

ライセンス: CC BY 4.0
David Grethlein, Aleksanteri Sladek, Santiago Onta\~n\'on(参考訳) 本稿では,対象分類タスクの予測可能な時空間時系列のサブインターバルを自動的に識別する,Iterative Section Reduction (ISR) という新しいアルゴリズムを提案する。 具体的には,運転シミュレータ研究から収集したデータを用いて,注意欠陥多動性障害(adhd)の存在を予測した運転行動が,シミュレーション経路に沿ってどの空間領域(いわゆる「セクション」)に現れるかを特定する。 これらの区分の同定は,(1)非予測時系列サブインターバルをフィルタリングすることにより,訓練モデルの予測精度を向上させること,(2)どのオンロードシナリオ(ドゥブドイベント)がadhd治療中の患者とそうでない患者とで明らかに異なる運転行動を示すこと,の2つの主な理由から重要である。 実験の結果,事前の作業よりも性能が向上し(精度が10%以上),シミュレータ上でのオンロードイベントの特定とスクリプト化(ターンとカーブの交渉)が良好であった。

In this paper we introduce a novel algorithm called Iterative Section Reduction (ISR) to automatically identify sub-intervals of spatiotemporal time series that are predictive of a target classification task. Specifically, using data collected from a driving simulator study, we identify which spatial regions (dubbed "sections") along the simulated routes tend to manifest driving behaviors that are predictive of the presence of Attention Deficit Hyperactivity Disorder (ADHD). Identifying these sections is important for two main reasons: (1) to improve predictive accuracy of the trained models by filtering out non-predictive time series sub-intervals, and (2) to gain insights into which on-road scenarios (dubbed events) elicit distinctly different driving behaviors from patients undergoing treatment for ADHD versus those that are not. Our experimental results show both improved performance over prior efforts (+10% accuracy) and good alignment between the predictive sections identified and scripted on-road events in the simulator (negotiating turns and curves).
翻訳日:2021-11-15 17:30:01 公開日:2021-11-12
# (参考訳) レジリエントコンセンサスに基づくマルチエージェント強化学習

Resilient Consensus-based Multi-agent Reinforcement Learning ( http://arxiv.org/abs/2111.06776v1 )

ライセンス: CC BY 4.0
Martin Figura, Yixuan Lin, Ji Liu, Vijay Gupta(参考訳) 訓練中の敵攻撃は,多エージェント強化学習アルゴリズムの性能に強く影響を与える。 したがって、協調ネットワークに対する敵攻撃の影響が排除される、あるいは少なくとも有界となるような既存のアルゴリズムを強化することが極めて望ましい。 本研究では,各エージェントがローカルな報酬を受け取り,グローバルな状態と行動を監視する,完全に分散されたネットワークを考える。 本稿では,各エージェントが平均報酬と値関数を推定し,関連するパラメータベクトルを隣接者に伝達する,レジリエントなコンセンサスに基づくアクタ批判アルゴリズムを提案する。 推定および通信戦略が完全に任意であるビザンチンエージェントの存在下において、協調エージェントの見積もりは、各協調エージェントの近傍に少なくとも$h$ビザンチンエージェントが存在し、ネットワークが$(2h+1)$-robustである場合に、確率1で境界付けられたコンセンサス値に収束する。 さらに,協調エージェントの方針が,敵エージェントの方針が漸近的に定常的になるという前提の下で,チーム平均目標関数の局所的最大化者周辺の境界近傍に確率1で収束することを示す。

Adversarial attacks during training can strongly influence the performance of multi-agent reinforcement learning algorithms. It is, thus, highly desirable to augment existing algorithms such that the impact of adversarial attacks on cooperative networks is eliminated, or at least bounded. In this work, we consider a fully decentralized network, where each agent receives a local reward and observes the global state and action. We propose a resilient consensus-based actor-critic algorithm, whereby each agent estimates the team-average reward and value function, and communicates the associated parameter vectors to its immediate neighbors. We show that in the presence of Byzantine agents, whose estimation and communication strategies are completely arbitrary, the estimates of the cooperative agents converge to a bounded consensus value with probability one, provided that there are at most $H$ Byzantine agents in the neighborhood of each cooperative agent and the network is $(2H+1)$-robust. Furthermore, we prove that the policy of the cooperative agents converges with probability one to a bounded neighborhood around a local maximizer of their team-average objective function under the assumption that the policies of the adversarial agents asymptotically become stationary.
翻訳日:2021-11-15 17:12:58 公開日:2021-11-12
# (参考訳) 一般空間を持つmdpのq-learning:弱連続性下での量子化による収束と近似最適性 [全文訳有]

Q-Learning for MDPs with General Spaces: Convergence and Near Optimality via Quantization under Weak Continuity ( http://arxiv.org/abs/2111.06781v1 )

ライセンス: CC BY 4.0
Ali Devran Kara, Naci Saldi, Serdar Y\"uksel(参考訳) 強化学習アルゴリズムはマルコフ決定過程(MDP)における状態空間と行動空間の有限性を必要とすることが多く、連続状態および行動空間に対するそのようなアルゴリズムの適用性への様々な取り組みが文献で行われている。 本稿では、非常に穏やかな規則性条件(特に、MDPの遷移核の弱連続性のみを含む)の下で、状態と動作の量子化による標準ボレルMDPのQ-ラーニングが極限に収束し、さらに、この極限は、明示的な性能境界でほぼ最適か、漸近的に最適であることが保証される最適性方程式を満たすことを示す。 私たちのアプローチは i)量子化を測定カーネルとして、したがって量子化MDPをPOMDPとして見ること。 (ii)pomdpsにおけるq-learningの最適化と収束結果の活用 (iii) 最後に, 構築した pomdp の不動点に対応する弱連続核を持つ mdps に対する有限状態モデル近似の近似近似に近い最適化性を示す。 そこで本研究では,連続mdpに対するq-learningの適用可能性について,非常に一般的な収束と近似結果を示す。

Reinforcement learning algorithms often require finiteness of state and action spaces in Markov decision processes (MDPs) and various efforts have been made in the literature towards the applicability of such algorithms for continuous state and action spaces. In this paper, we show that under very mild regularity conditions (in particular, involving only weak continuity of the transition kernel of an MDP), Q-learning for standard Borel MDPs via quantization of states and actions converge to a limit, and furthermore this limit satisfies an optimality equation which leads to near optimality with either explicit performance bounds or which are guaranteed to be asymptotically optimal. Our approach builds on (i) viewing quantization as a measurement kernel and thus a quantized MDP as a POMDP, (ii) utilizing near optimality and convergence results of Q-learning for POMDPs, and (iii) finally, near-optimality of finite state model approximations for MDPs with weakly continuous kernels which we show to correspond to the fixed point of the constructed POMDP. Thus, our paper presents a very general convergence and approximation result for the applicability of Q-learning for continuous MDPs.
翻訳日:2021-11-15 17:11:38 公開日:2021-11-12
# (参考訳) BitextEdit: 低リソース機械翻訳の改善のための自動バイテキスト編集 [全文訳有]

BitextEdit: Automatic Bitext Editing for Improved Low-Resource Machine Translation ( http://arxiv.org/abs/2111.06787v1 )

ライセンス: CC BY 4.0
Eleftheria Briakou, Sida I. Wang, Luke Zettlemoyer, Marjan Ghazvininejad(参考訳) マイニングビットは、ニューラルネットワーク翻訳(NMT)のための信頼性の低いトレーニング信号を生成する不完全な翻訳を含むことができる。 このようなペアをフィルタリングすることで最終的なモデル品質が向上することが知られているが、マイニングされたデータでさえ制限される低リソース環境では最適ではない。 言語xfの文と、それのおそらく不完全な翻訳が与えられた場合、我々のモデルは、より等価な翻訳ペア(すなわち、<xf, xe'>または<xf', xe>)を生成する修正版xf'またはxe'を生成する。 1) 与えられたバイテキストで各文に対して潜在的に不完全な翻訳をマイニングし, (2) 原文の翻訳を再構築し, マルチタスクで翻訳するモデルを学ぶ, 簡単な編集戦略を用いる。 実験により,5つの低リソース言語ペアと10の翻訳方向に対して,CCMatrixマイニングビットクストの品質を最大8 BLEUポイント向上させることに成功した。

Mined bitexts can contain imperfect translations that yield unreliable training signals for Neural Machine Translation (NMT). While filtering such pairs out is known to improve final model quality, we argue that it is suboptimal in low-resource conditions where even mined data can be limited. In our work, we propose instead, to refine the mined bitexts via automatic editing: given a sentence in a language xf, and a possibly imperfect translation of it xe, our model generates a revised version xf' or xe' that yields a more equivalent translation pair (i.e., <xf, xe'> or <xf', xe>). We use a simple editing strategy by (1) mining potentially imperfect translations for each sentence in a given bitext, (2) learning a model to reconstruct the original translations and translate, in a multi-task fashion. Experiments demonstrate that our approach successfully improves the quality of CCMatrix mined bitext for 5 low-resource language-pairs and 10 translation directions by up to ~ 8 BLEU points, in most cases improving upon a competitive back-translation baseline.
翻訳日:2021-11-15 16:01:06 公開日:2021-11-12
# (参考訳) 多様な抗体配列設計のためのディープジェネレーティブモデルのベンチマーク [全文訳有]

Benchmarking deep generative models for diverse antibody sequence design ( http://arxiv.org/abs/2111.06801v1 )

ライセンス: CC BY 4.0
Igor Melnyk, Payel Das, Vijil Chenthamarakshan, Aurelie Lozano(参考訳) 計算タンパク質の設計、すなわち、与えられた構造と一致する新規で多様なタンパク質配列を推論することは、未解決の大きな課題である。 近年,シーケンスのみから,あるいはシーケンスと構造を共同で学習する深層生成モデルは,この課題に対して印象的な性能を示した。 しかし、これらのモデルは、構造的制約をモデル化したり、十分なシーケンスの多様性をキャプチャしたり、あるいは両方で制限されるように見える。 本稿では,最近提案されている3つのタンパク質設計のための深層生成フレームワークについて考察する。 (ar) シーケンスベース自己回帰生成モデル, (gvp) 精密構造ベースのグラフニューラルネットワーク, fold2seq は3次元フォールドのファジィでスケールフリーな表現を活用し, 構造からシーケンスへの一貫性(およびその逆)を強制する。 我々は, 抗体配列の計算設計のタスクにおいて, 機能的含意の多様性が高い配列の設計を要求される。 fold2seqフレームワークは、典型的な折りたたみを維持しつつ、設計されたシーケンスの多様性の観点から他の2つのベースラインを上回る。

Computational protein design, i.e. inferring novel and diverse protein sequences consistent with a given structure, remains a major unsolved challenge. Recently, deep generative models that learn from sequences alone or from sequences and structures jointly have shown impressive performance on this task. However, those models appear limited in terms of modeling structural constraints, capturing enough sequence diversity, or both. Here we consider three recently proposed deep generative frameworks for protein design: (AR) the sequence-based autoregressive generative model, (GVP) the precise structure-based graph neural network, and Fold2Seq that leverages a fuzzy and scale-free representation of a three-dimensional fold, while enforcing structure-to-sequenc e (and vice versa) consistency. We benchmark these models on the task of computational design of antibody sequences, which demand designing sequences with high diversity for functional implication. The Fold2Seq framework outperforms the two other baselines in terms of diversity of the designed sequences, while maintaining the typical fold.
翻訳日:2021-11-15 15:40:17 公開日:2021-11-12
# (参考訳) NRC-GAMMA:新しい大型ガスメータ画像データセットの導入 [全文訳有]

NRC-GAMMA: Introducing a Novel Large Gas Meter Image Dataset ( http://arxiv.org/abs/2111.06827v1 )

ライセンス: CC BY 4.0
Ashkan Ebadi and Patrick Paul and Sofia Auer and St\'ephane Tremblay(参考訳) 自動測定技術はまだ普及していない。 ガス、電気、あるいは水量計の読書は、主にオペレーターまたは家主によって現場で手作業で行われる。 ある国では、オペレーターは、他のオペレーターとオフラインで確認し、あるいは紛争や苦情の場合には証拠として使用することで、読み取り証明として写真を撮る。 プロセス全体は時間がかかり、コストがかかり、エラーが発生しやすい。 自動化は、このような労働集約的かつヒューマンエラーを起こしやすいプロセスを最適化し、促進することができる。 人工知能とコンピュータビジョンの分野での最近の進歩により、自動メーター読み取りシステムがこれまで以上に実現されつつある。 近年の人工知能の進歩に動機付けられ,研究コミュニティにおけるオープンソースのオープンアクセスイニシアチブに触発された我々は,nrc-gammaデータセットという,実生活ガスメータ画像の大規模ベンチマークデータセットを紹介する。 データは2020年1月20日、午前00:05から午後11:59のitron 400aダイアフラムガスメータから収集された。 我々は、画像のラベル付け、ラベルの検証、アノテーションの品質保証に体系的なアプローチを採用した。 データセットにはガスメーター全体の28,883枚の画像と、左右のダイヤルディスプレイの57,766枚の画像が含まれている。 NRC-GAMMAデータセットは、研究コミュニティが正確で、革新的で、インテリジェントで、再現可能な自動ガスメーター読解ソリューションを設計、実装するのに役立ちます。

Automatic meter reading technology is not yet widespread. Gas, electricity, or water accumulation meters reading is mostly done manually on-site either by an operator or by the homeowner. In some countries, the operator takes a picture as reading proof to confirm the reading by checking offline with another operator and/or using it as evidence in case of conflicts or complaints. The whole process is time-consuming, expensive, and prone to errors. Automation can optimize and facilitate such labor-intensive and human error-prone processes. With the recent advances in the fields of artificial intelligence and computer vision, automatic meter reading systems are becoming more viable than ever. Motivated by the recent advances in the field of artificial intelligence and inspired by open-source open-access initiatives in the research community, we introduce a novel large benchmark dataset of real-life gas meter images, named the NRC-GAMMA dataset. The data were collected from an Itron 400A diaphragm gas meter on January 20, 2020, between 00:05 am and 11:59 pm. We employed a systematic approach to label the images, validate the labellings, and assure the quality of the annotations. The dataset contains 28,883 images of the entire gas meter along with 57,766 cropped images of the left and the right dial displays. We hope the NRC-GAMMA dataset helps the research community to design and implement accurate, innovative, intelligent, and reproducible automatic gas meter reading solutions.
翻訳日:2021-11-15 15:31:20 公開日:2021-11-12
# (参考訳) 準Geostrophic turbulence parametrizationの後方学習:積分過程の実験 [全文訳有]

A posteriori learning of quasi-geostrophic turbulence parametrization: an experiment on integration steps ( http://arxiv.org/abs/2111.06841v1 )

ライセンス: CC BY 4.0
Hugo Frezat, Julien Le Sommer, Ronan Fablet, Guillaume Balarac and Redouane Lguensat(参考訳) 縮小モデルのサブグリッドスケールダイナミクスのモデル化は、直接数値シミュレーション(dns)が不可能である海洋、大気、気候予測に応用できる、長期にわたる問題である。 ニューラルネットワーク(nns)はすでに成功した3次元問題に適用されているが、二次元流れの後方エネルギー移動は依然として訓練されたモデルにとって安定性の問題である。 動的解法と有意義な$\textit{a posteriori}$-based loss関数を併用してモデルを学ぶことで,準地すべり乱流に適用した場合の安定かつ現実的なシミュレーションが可能になることを示す。

Modeling the subgrid-scale dynamics of reduced models is a long standing open problem that finds application in ocean, atmosphere and climate predictions where direct numerical simulation (DNS) is impossible. While neural networks (NNs) have already been applied to a range of three-dimensional problems with success, the backward energy transfer of two-dimensional flows still remains a stability issue for trained models. We show that learning a model jointly with the dynamical solver and a meaningful $\textit{a posteriori}$-based loss function lead to stable and realistic simulations when applied to quasi-geostrophic turbulence.
翻訳日:2021-11-15 15:19:46 公開日:2021-11-12
# (参考訳) 直接フィードバックアライメントを用いた深部ニューラルネットワークのトレーニングのためのモノリシックシリコンフォトニックアーキテクチャ [全文訳有]

Monolithic Silicon Photonic Architecture for Training Deep Neural Networks with Direct Feedback Alignment ( http://arxiv.org/abs/2111.06862v1 )

ライセンス: CC BY 4.0
Matthew J. Filipovich, Zhimu Guo, Mohammed Al-Qadasi, Bicky A. Marquez, Hugh D. Morison, Volker J. Sorger, Paul R. Prucnal, Sudip Shekhar, and Bhavin J. Shastri(参考訳) 人工知能(AI)の分野は近年大きく成長しているが、AIシステムの継続的な開発における最も大きな課題は、電子コンピュータアーキテクチャが直面する基本的な帯域幅、エネルギー効率、速度制限である。 ニューラルネット推論操作にフォトニックプロセッサを使うことへの関心が高まっているが、これらのネットワークは現在、標準的なデジタルエレクトロニクスを使って訓練されている。 本稿では、CMOS互換のシリコンフォトニックアーキテクチャによって実現されたニューラルネットワークのオンチップトレーニングを提案し、超並列、効率的、高速なデータ操作の可能性を利用する。 提案手法では, 誤差バックプロパゲーションではなく, エラーフィードバックを用いてニューラルネットワークをトレーニングし, MAC演算毎に1ピコジュール未満を消費しながら, 1秒間に1兆回の乗算(MAC)演算を行うことができる。 フォトニックアーキテクチャは、単一導波路バスに沿ってマルチチャネルアナログ信号を処理するマイクロリング共振器のアレイを用いた並列化行列-ベクトル乗算を利用して、各ニューラルネットワーク層の勾配ベクトルをin situで計算する。 また、オンチップMAC演算結果を用いて、MNISTデータセットを用いたディープニューラルネットワークのトレーニングを実験的に実施する。 効率的な超高速ニューラルネットワークトレーニングのための新しいアプローチは、フォトニクスをAIアプリケーションを実行するための有望なプラットフォームとして示しています。

The field of artificial intelligence (AI) has witnessed tremendous growth in recent years, however some of the most pressing challenges for the continued development of AI systems are the fundamental bandwidth, energy efficiency, and speed limitations faced by electronic computer architectures. There has been growing interest in using photonic processors for performing neural network inference operations, however these networks are currently trained using standard digital electronics. Here, we propose on-chip training of neural networks enabled by a CMOS-compatible silicon photonic architecture to harness the potential for massively parallel, efficient, and fast data operations. Our scheme employs the direct feedback alignment training algorithm, which trains neural networks using error feedback rather than error backpropagation, and can operate at speeds of trillions of multiply-accumulate (MAC) operations per second while consuming less than one picojoule per MAC operation. The photonic architecture exploits parallelized matrix-vector multiplications using arrays of microring resonators for processing multi-channel analog signals along single waveguide buses to calculate the gradient vector of each neural network layer in situ, which is the most computationally expensive operation performed during the backward pass. We also experimentally demonstrate training a deep neural network with the MNIST dataset using on-chip MAC operation results. Our novel approach for efficient, ultra-fast neural network training showcases photonics as a promising platform for executing AI applications.
翻訳日:2021-11-15 15:12:52 公開日:2021-11-12
# DeepXML: 短いテキスト文書に適用可能な、極度のマルチラベル学習フレームワーク

DeepXML: A Deep Extreme Multi-Label Learning Framework Applied to Short Text Documents ( http://arxiv.org/abs/2111.06685v1 )

ライセンス: Link先を確認
Kunal Dahiya, Deepak Saini, Anshul Mittal, Ankush Shaw, Kushal Dave, Akshay Soni, Himanshu Jain, Sumeet Agarwal, Manik Varma(参考訳) スケーラビリティと正確性は、非常に大きなラベルセットから最も関連するラベルのサブセットにデータポイントをアノテートするアーキテクチャをトレーニングすることを目的としている、深い極端なマルチラベル学習において、よく認識されている課題である。 本稿では,これらの課題に対処するDeepXMLフレームワークを開発し,深部マルチラベルタスクを4つのシンプルなサブタスクに分解し,それらを正確かつ効率的に訓練する。 4つのサブタスクに対して異なるコンポーネントを選択することで、DeepXMLは精度とスケーラビリティのトレードオフの異なるアルゴリズム群を生成することができる。 特にDeepXMLは、公開可能な短いテキストデータセットの深い極端分類器よりも2~12%正確で、トレーニングが5~30倍高速なAstecアルゴリズムを生成する。 またAstecは、最大6200万のラベルを含むBingの短いテキストデータセットを効率的にトレーニングし、コモディティハードウェア上で毎日数十億のユーザとデータポイントを予測できる。 これにより、AstecはBing検索エンジンに、ユーザクエリのマッチングから広告主の入札フレーズ、クリックスルー率、カバレッジ、収益などのオンライン指標が現在生産中の最先端技術よりも大幅に向上したパーソナライズされた広告の表示まで、数多くの短いテキストアプリケーションにデプロイできるようになった。 DeepXMLのコードはhttps://github.com/E xtreme-classificatio n/deepxmlで入手できる。

Scalability and accuracy are well recognized challenges in deep extreme multi-label learning where the objective is to train architectures for automatically annotating a data point with the most relevant subset of labels from an extremely large label set. This paper develops the DeepXML framework that addresses these challenges by decomposing the deep extreme multi-label task into four simpler sub-tasks each of which can be trained accurately and efficiently. Choosing different components for the four sub-tasks allows DeepXML to generate a family of algorithms with varying trade-offs between accuracy and scalability. In particular, DeepXML yields the Astec algorithm that could be 2-12% more accurate and 5-30x faster to train than leading deep extreme classifiers on publically available short text datasets. Astec could also efficiently train on Bing short text datasets containing up to 62 million labels while making predictions for billions of users and data points per day on commodity hardware. This allowed Astec to be deployed on the Bing search engine for a number of short text applications ranging from matching user queries to advertiser bid phrases to showing personalized ads where it yielded significant gains in click-through-rates, coverage, revenue and other online metrics over state-of-the-art techniques currently in production. DeepXML's code is available at https://github.com/E xtreme-classificatio n/deepxml
翻訳日:2021-11-15 14:58:19 公開日:2021-11-12
# 機械学習アルゴリズムに基づくモビリティ予測

Mobility prediction Based on Machine Learning Algorithms ( http://arxiv.org/abs/2111.06723v1 )

ライセンス: Link先を確認
Donglin Wang, Qiuheng Zhou, Sanket Partani, Anjie Qiu and Hans D. Schotten(参考訳) 現在、モバイル通信は5G通信業界で急速に成長している。 正確なモビリティ予測は、効率的な無線資源管理、経路計画の支援、車両派遣のガイド、交通渋滞の軽減に役立つため、モバイル通信にモビリティ予測が広く適用され、過去の交通情報を利用して将来の交通利用者の位置を予測する主要な実現要因の1つとなっている。 しかし,複雑なトラヒックネットワークのため,モビリティ予測は難しい課題である。 過去数年間、Non-Machine-Learning (Non-ML)ベースやMachine-Learning(ML) ベースのモビリティ予測など、この分野で多くの研究が行われてきた。 本稿では,まず,モビリティ予測技術の現状を紹介する。 次に,実用的な交通日程学習のためのmlアルゴリズムである support vector machine (svm) アルゴリズムを選択した。 最後に,移動性予測のシミュレーション結果を分析し,移動性予測をモバイル通信改善に適用する今後の作業計画を提案する。

Nowadays mobile communication is growing fast in the 5G communication industry. With the increasing capacity requirements and requirements for quality of experience, mobility prediction has been widely applied to mobile communication and has becoming one of the key enablers that utilizes historical traffic information to predict future locations of traffic users, Since accurate mobility prediction can help enable efficient radio resource management, assist route planning, guide vehicle dispatching, or mitigate traffic congestion. However, mobility prediction is a challenging problem due to the complicated traffic network. In the past few years, plenty of researches have been done in this area, including Non-Machine-Learning (Non-ML)- based and Machine-Learning (ML)-based mobility prediction. In this paper, firstly we introduce the state of the art technologies for mobility prediction. Then, we selected Support Vector Machine (SVM) algorithm, the ML algorithm for practical traffic date training. Lastly, we analyse the simulation results for mobility prediction and introduce a future work plan where mobility prediction will be applied for improving mobile communication.
翻訳日:2021-11-15 14:57:52 公開日:2021-11-12
# 自律駐車のためのニューラルモーション計画

Neural Motion Planning for Autonomous Parking ( http://arxiv.org/abs/2111.06739v1 )

ライセンス: Link先を確認
Dongchan Kim and Kunsoo Huh(参考訳) 本稿では,より深い生成ネットワークと従来の動き計画手法を組み合わせたハイブリッドな動き計画手法を提案する。 A*やHybrid A*といった既存の計画手法は、複雑な環境においても実現可能な経路を決定する能力があるため、経路計画タスクで広く用いられているが、効率の面で制限がある。 これらの制限を克服するため、ニューラルネットワーク、すなわちニューラルハイブリッドA*に基づく経路計画アルゴリズムが導入された。 本稿では,条件付き変分オートエンコーダ(CVAE)を用いて,駐車環境の情報をもとに,CVAEが計画空間に関する情報を学習する能力を利用した探索アルゴリズムを提案する。 非一様展開戦略は、実演で学んだ実現可能な軌道の分布に基づいて活用される。 提案手法は,与えられた状態の表現を効果的に学習し,アルゴリズムの性能向上を示す。

This paper presents a hybrid motion planning strategy that combines a deep generative network with a conventional motion planning method. Existing planning methods such as A* and Hybrid A* are widely used in path planning tasks because of their ability to determine feasible paths even in complex environments; however, they have limitations in terms of efficiency. To overcome these limitations, a path planning algorithm based on a neural network, namely the neural Hybrid A*, is introduced. This paper proposes using a conditional variational autoencoder (CVAE) to guide the search algorithm by exploiting the ability of CVAE to learn information about the planning space given the information of the parking environment. A non-uniform expansion strategy is utilized based on a distribution of feasible trajectories learned in the demonstrations. The proposed method effectively learns the representations of a given state, and shows improvement in terms of algorithm performance.
翻訳日:2021-11-15 14:57:35 公開日:2021-11-12
# 交通調査における交通タイミングの偏りの緩和 I. RIVERS:ケプラー-1705付近の共鳴超地球対の測定法と検出

Alleviating the transit timing variation bias in transit surveys. I. RIVERS: Method and detection of a pair of resonant super-Earths around Kepler-1705 ( http://arxiv.org/abs/2111.06825v1 )

ライセンス: Link先を確認
A. Leleu, G. Chatel, S. Udry, Y. Alibert, J.-B. Delisle and R. Mardling(参考訳) トランジットタイミング変動(transit timing variations, ttvs)は、トランジットによって観測されるシステムにとって有用な情報を提供する。 しかし、TTVは、もし軌道が乱されていない場合、Boxed Least Square Algorithm (BLS)のような標準アルゴリズムで検出されるようなトランジットサーベイにおける小さな惑星の検出を防止する検出バイアスとしても機能する。 このバイアスは、ケプラー、TESSセクターの一部、そして今後のPLATOミッションなど、長いベースラインを持つ調査に特に有効である。 本稿では,大型ttvに対して頑健な検出法を紹介し,kepler-1705周辺に10時間ttvを有する一対の共振超大地を回収し,その使用例を示す。 この手法は、低信号-雑音比(S/N)摂動惑星の軌道を川図で復元する訓練されたニューラルネットワークに基づいている。 光曲線を適合させてこれらの候補の遷移パラメータを復元する。 ケプラー1705bとcの個々のトランジットs/nは、3時間以上のttvを持つ全ての既知の惑星よりも約3倍低く、これらの小さな動的に活動する惑星の回復の限界を押している。 このタイプの天体の回収は、観測された惑星系の完全な画像を得るのに不可欠であり、太陽系外惑星の人口統計学においてしばしば考慮される偏見の解決である。 さらに、TTVは、トランジットサーベイによって発見された惑星の内部構造を研究するのに不可欠な質量推定値を得る手段である。 最後に、強い軌道の摂動により、ケプラー1705の外共振惑星のスピンが、サブまたは超同期のスピン軌道共鳴に閉じ込められている可能性が示されている。

Transit timing variations (TTVs) can provide useful information for systems observed by transit, as they allow us to put constraints on the masses and eccentricities of the observed planets, or even to constrain the existence of non-transiting companions. However, TTVs can also act as a detection bias that can prevent the detection of small planets in transit surveys that would otherwise be detected by standard algorithms such as the Boxed Least Square algorithm (BLS) if their orbit was not perturbed. This bias is especially present for surveys with a long baseline, such as Kepler, some of the TESS sectors, and the upcoming PLATO mission. Here we introduce a detection method that is robust to large TTVs, and illustrate its use by recovering and confirming a pair of resonant super-Earths with ten-hour TTVs around Kepler-1705. The method is based on a neural network trained to recover the tracks of low-signal-to-noise- ratio(S/N) perturbed planets in river diagrams. We recover the transit parameters of these candidates by fitting the light curve. The individual transit S/N of Kepler-1705b and c are about three times lower than all the previously known planets with TTVs of 3 hours or more, pushing the boundaries in the recovery of these small, dynamically active planets. Recovering this type of object is essential for obtaining a complete picture of the observed planetary systems, and solving for a bias not often taken into account in statistical studies of exoplanet populations. In addition, TTVs are a means of obtaining mass estimates which can be essential for studying the internal structure of planets discovered by transit surveys. Finally, we show that due to the strong orbital perturbations, it is possible that the spin of the outer resonant planet of Kepler-1705 is trapped in a sub- or super-synchronous spin-orbit resonance.
翻訳日:2021-11-15 14:57:20 公開日:2021-11-12
# 階層的クラスタリング: 新しい境界と目的

Hierarchical Clustering: New Bounds and Objective ( http://arxiv.org/abs/2111.06863v1 )

ライセンス: Link先を確認
Mirmahdi Rahgoshay and Mohammad R. Salavatipour(参考訳) 階層クラスタリングは、データ分析の手法として広く研究され、利用されている。 最近では、dasgupta [2016] が正確な目的関数を定義した。 重み関数 $w_{i,j}$ のセットが 2 つの項目に対して$i$ と $j$ の類似性と相似性を示すものであるとすると、そのゴールはデータポイント (items) を連続的に小さなクラスタに分割する再帰的な(ツリーのような)パーティショニングを構築することである。 彼は、$t$ を $cost(t) = \sum_{i,j \in [n]} \big(w_{i,j} \times |t_{i,j}| \big)$ where $t_{i,j}$ は、$i$ と $j$ の最小共通祖先に根ざした部分木であり、そのようなクラスタリングに対する最初の近似アルゴリズムを提示した。 その後、Moseley と Wang [2017] は、類似度に基づく重み付けに対する Dasgupta の目的関数の双対性を考察し、ランダムパーティショニングと平均リンケージの両方が近似比 $1/3$ を持ち、一連の作品において0.585$ [Alon et al. 2020] に改善されていることを示した。 その後、Cohen-Addadら。 [2019] は Dasgupta と同じ目的関数であるが、$Rev(T)$ と呼ばれる相似性に基づくメトリクスに対して考慮した。 ランダムパーティショニングと平均連鎖はいずれも2/3$であり、わずか0.667078$ [charikar et al. soda2020] にわずかに改善されている。 最初の主な結果は$Rev(T)$を考え、より繊細なアルゴリズムと慎重に分析し、近似を0.71604$にすることです。 また,類似性に基づくクラスタリングのための新しい目的関数を提案する。 任意のツリー$t$ に対して、$h_{i,j}$ を $i$ と $j$ の共通の祖先の数とする。 直感的には、類似したアイテムは可能な限り同じクラスタ内に留まると予想される。 したがって、類似性に基づくメトリクスの場合、各ツリーのコストは$t$であり、最小化したい場合は$cost_h(t) = \sum_{i,j \in [n]} \big(w_{i,j} \times h_{i,j} \big)$である。 この目的のために1.3977$-approxationを提示する。

Hierarchical Clustering has been studied and used extensively as a method for analysis of data. More recently, Dasgupta [2016] defined a precise objective function. Given a set of $n$ data points with a weight function $w_{i,j}$ for each two items $i$ and $j$ denoting their similarity/dis-simil arity, the goal is to build a recursive (tree like) partitioning of the data points (items) into successively smaller clusters. He defined a cost function for a tree $T$ to be $Cost(T) = \sum_{i,j \in [n]} \big(w_{i,j} \times |T_{i,j}| \big)$ where $T_{i,j}$ is the subtree rooted at the least common ancestor of $i$ and $j$ and presented the first approximation algorithm for such clustering. Then Moseley and Wang [2017] considered the dual of Dasgupta's objective function for similarity-based weights and showed that both random partitioning and average linkage have approximation ratio $1/3$ which has been improved in a series of works to $0.585$ [Alon et al. 2020]. Later Cohen-Addad et al. [2019] considered the same objective function as Dasgupta's but for dissimilarity-based metrics, called $Rev(T)$. It is shown that both random partitioning and average linkage have ratio $2/3$ which has been only slightly improved to $0.667078$ [Charikar et al. SODA2020]. Our first main result is to consider $Rev(T)$ and present a more delicate algorithm and careful analysis that achieves approximation $0.71604$. We also introduce a new objective function for dissimilarity-based clustering. For any tree $T$, let $H_{i,j}$ be the number of $i$ and $j$'s common ancestors. Intuitively, items that are similar are expected to remain within the same cluster as deep as possible. So, for dissimilarity-based metrics, we suggest the cost of each tree $T$, which we want to minimize, to be $Cost_H(T) = \sum_{i,j \in [n]} \big(w_{i,j} \times H_{i,j} \big)$. We present a $1.3977$-approximati on for this objective.
翻訳日:2021-11-15 14:56:47 公開日:2021-11-12
# 残留正規化を用いた効率的な音響シーン分類の領域一般化

Domain Generalization on Efficient Acoustic Scene Classification using Residual Normalization ( http://arxiv.org/abs/2111.06531v1 )

ライセンス: Link先を確認
Byeonggeun Kim, Seunghan Yang, Jangho Kim, Simyung Chang(参考訳) 効率的な音響シーン分類システムにより,マルチデバイス音声入力を効果的に扱うための実践的な研究課題である。 そこで本研究では,周波数別正規化 % インスタンス正規化とショートカットパスを併用した新しい特徴正規化手法である残差正規化法を提案する。 さらに,BC-ResNet-ASCという,限られた受容場を持つベースラインアーキテクチャの修正版を導入する。 BC-ResNet-ASCは、少数のパラメータを含むにもかかわらず、ベースラインアーキテクチャよりも優れている。 プルーニング,量子化,知識蒸留の3つのモデル圧縮スキームにより,性能劣化を軽減しつつ,モデルの複雑さをさらに軽減することができる。 提案システムは,tau都市音響シーン2020における平均テスト精度76.3%,315kパラメータを用いた開発データセット,圧縮後の平均テスト精度75.3%を61.0kbの非ゼロパラメータで達成する。 提案手法はdcase 2021 challenge, task1aで1位となった。

It is a practical research topic how to deal with multi-device audio inputs by a single acoustic scene classification system with efficient design. In this work, we propose Residual Normalization, a novel feature normalization method that uses frequency-wise normalization % instance normalization with a shortcut path to discard unnecessary device-specific information without losing useful information for classification. Moreover, we introduce an efficient architecture, BC-ResNet-ASC, a modified version of the baseline architecture with a limited receptive field. BC-ResNet-ASC outperforms the baseline architecture even though it contains the small number of parameters. Through three model compression schemes: pruning, quantization, and knowledge distillation, we can reduce model complexity further while mitigating the performance degradation. The proposed system achieves an average test accuracy of 76.3% in TAU Urban Acoustic Scenes 2020 Mobile, development dataset with 315k parameters, and average test accuracy of 75.3% after compression to 61.0KB of non-zero parameters. The proposed method won the 1st place in DCASE 2021 challenge, TASK1A.
翻訳日:2021-11-15 14:53:19 公開日:2021-11-12
# 実用的な制約付きris支援マルチユーザmiso通信のためのロバストなディープラーニングベースビームフォーミング設計

A Robust Deep Learning-Based Beamforming Design for RIS-assisted Multiuser MISO Communications with Practical Constraints ( http://arxiv.org/abs/2111.06555v1 )

ライセンス: Link先を確認
Wangyang Xu, Lu Gan, and Chongwen Huang(参考訳) 再構成可能なインテリジェントサーフェス(ris)は、近年、無線通信を改善する有望な技術となっている。 コンフィグレーション可能なパッシブ要素をハードウェアコストの低減と消費電力の低減で制御することにより、インシデント信号を制御し、良好な伝搬環境を作り出す。 本稿では、RIS支援マルチユーザマルチインプットシングルアウトプットダウンリンク通信システムについて考察する。 RIS要素のアクセスポイントにおけるアクティブビームフォーミングとパッシブビームフォーミングベクトルを共同最適化することにより、全ユーザの重み付け総和率を最大化する。 既存のほとんどの作品とは異なり、離散位相シフトと不完全チャネル状態情報(CSI)によるより実践的な状況を考える。 具体的には, 離散位相シフトと完全csiが考慮される状況において, まず, アクティブビームフォーミングとパッシブビームフォーミングを同時に設計するディープ量子化ニューラルネットワーク (dqnn) を開発した。 次に,DQNNに基づく改良された構造(I-DQNN)を提案し,各RIS要素の制御ビットが1ビット以上である場合のパラメータ決定プロセスを単純化する。 最後に、2つのdqnnに基づくアルゴリズムを離散位相シフトと不完全csiを同時に考慮する場合に拡張する。 シミュレーションの結果,DQNNに基づく2つのアルゴリズムは完全CSIの場合では従来のアルゴリズムよりも優れた性能を示し,不完全CSIの場合ではより堅牢であることがわかった。

Reconfigurable intelligent surface (RIS) has become a promising technology to improve wireless communication in recent years. It steers the incident signals to create a favorable propagation environment by controlling the reconfigurable passive elements with less hardware cost and lower power consumption. In this paper, we consider a RIS-aided multiuser multiple-input single-output downlink communication system. We aim to maximize the weighted sum-rate of all users by joint optimizing the active beamforming at the access point and the passive beamforming vector of the RIS elements. Unlike most existing works, we consider the more practical situation with the discrete phase shifts and imperfect channel state information (CSI). Specifically, for the situation that the discrete phase shifts and perfect CSI are considered, we first develop a deep quantization neural network (DQNN) to simultaneously design the active and passive beamforming while most reported works design them alternatively. Then, we propose an improved structure (I-DQNN) based on DQNN to simplify the parameters decision process when the control bits of each RIS element are greater than 1 bit. Finally, we extend the two proposed DQNN-based algorithms to the case that the discrete phase shifts and imperfect CSI are considered simultaneously. Our simulation results show that the two DQNN-based algorithms have better performance than traditional algorithms in the perfect CSI case, and are also more robust in the imperfect CSI case.
翻訳日:2021-11-15 14:53:02 公開日:2021-11-12
# オンラインメンタルヘルス介入による機械学習アプリケーション作成支援者の情報ニーズと実践の理解

Understanding the Information Needs and Practices of Human Supporters of an Online Mental Health Intervention to Inform Machine Learning Applications ( http://arxiv.org/abs/2111.06667v1 )

ライセンス: Link先を確認
Anja Thieme(参考訳) インターネット提供型認知行動療法(iCBT)によるうつ病や不安の治療などのデジタル治療介入の文脈において、ヒトのサポーターやコーチの関与が、治療中の人を支援し、治療におけるユーザエンゲージメントを改善し、予防的介入よりも効果的な健康結果をもたらすことを示す広範な研究がなされている。 この人的支援の効果と成果を最大化するために、AIと機械学習(ML)の分野における最近の進歩を通じて提供される新たな機会が、iCBTサポーターの作業プラクティスを効果的に支援するための有用なデータ洞察にどのように貢献するかを調査する。 本報告では,iCBT支援者15名を対象に,既存の作業プラクティスや情報ニーズの理解を深め,特に抑うつ・不安に対するiCBT治療の文脈において有用で実装可能なMLアプリケーションの開発を有意義に伝えることを目的として,インタビュー研究を行った。 この分析は、(1)iCBT支持者がメンタルヘルスクライアントに対して効果的でパーソナライズされたフィードバックを提供する際に直面する戦略と課題をまとめた6つのテーマ、(2)機械学習の手法が特定の課題や情報ニーズをどう支援し、対処するかを具体化する各テーマについて提示する。 これは、サポーター主導のクライアントレビュープラクティスに新たなマシン生成データインサイトを導入することによる、社会的、感情的、現実的な意味合いを反映したものだ。

In the context of digital therapy interventions, such as internet-delivered Cognitive Behavioral Therapy (iCBT) for the treatment of depression and anxiety, extensive research has shown how the involvement of a human supporter or coach, who assists the person undergoing treatment, improves user engagement in therapy and leads to more effective health outcomes than unsupported interventions. Seeking to maximize the effects and outcomes of this human support, the research investigates how new opportunities provided through recent advances in the field of AI and machine learning (ML) can contribute useful data insights to effectively support the work practices of iCBT supporters. This paper reports detailed findings of an interview study with 15 iCBT supporters that deepens understanding of their existing work practices and information needs with the aim to meaningfully inform the development of useful, implementable ML applications particularly in the context of iCBT treatment for depression and anxiety. The analysis contributes (1) a set of six themes that summarize the strategies and challenges that iCBT supporters encounter in providing effective, personalized feedback to their mental health clients; and in response to these learnings, (2) presents for each theme concrete opportunities for how methods of ML could help support and address identified challenges and information needs. It closes with reflections on potential social, emotional and pragmatic implications of introducing new machine-generated data insights within supporter-led client review practices.
翻訳日:2021-11-15 14:52:36 公開日:2021-11-12
# 相互情報推定への逆ジェンセン不等式の適用

A Reverse Jensen Inequality Result with Application to Mutual Information Estimation ( http://arxiv.org/abs/2111.06676v1 )

ライセンス: Link先を確認
Gerhard Wunder, Benedikt Gro{\ss}, Rick Fritschek, Rafael F. Schaefer(参考訳) ジェンセンの不等式は情報理論や機械学習など、様々な分野において広く使われている道具である。 また、算術的および幾何学的手段の不等式やH\"古い不等式のような他の標準不等式を導出するためにも用いられる。 確率的設定において、ジェンセンの不等式は凸函数と期待値の関係を記述する。 本研究では,不平等の逆方向から確率的設定を考察する。 最小の制約と適切なスケーリングの下では、ジェンセンの不等式は逆転できることを示した。 得られたツールは多くのアプリケーションに役立ち、逆不等式が現在の推定値よりも優れたトレーニング行動を持つ新しい推定値をもたらすような相互情報の変動推定を提供する。

The Jensen inequality is a widely used tool in a multitude of fields, such as for example information theory and machine learning. It can be also used to derive other standard inequalities such as the inequality of arithmetic and geometric means or the H\"older inequality. In a probabilistic setting, the Jensen inequality describes the relationship between a convex function and the expected value. In this work, we want to look at the probabilistic setting from the reverse direction of the inequality. We show that under minimal constraints and with a proper scaling, the Jensen inequality can be reversed. We believe that the resulting tool can be helpful for many applications and provide a variational estimation of mutual information, where the reverse inequality leads to a new estimator with superior training behavior compared to current estimators.
翻訳日:2021-11-15 14:52:09 公開日:2021-11-12
# (参考訳) uav画像からの作物窒素濃度の自動予測のためのチャネル空間注意型視覚トランスフォーマネットワーク [全文訳有]

The channel-spatial attention-based vision transformer network for automated, accurate prediction of crop nitrogen status from UAV imagery ( http://arxiv.org/abs/2111.06839v1 )

ライセンス: CC BY 4.0
Xin Zhang, Liangxiu Han, Tam Sobeih, Lewis Lappin, Mark Lee, Andew Howard and Aron Kisdi(参考訳) 窒素 (N) 肥料は農夫が収穫量を増やすために常用する。 現在、農家は高解像度のNステータスデータを持っていないため、一部の場所や時間帯でN肥料を多用していることが多い。 n-利用効率は低く、残りのnは環境に失われ、高い生産コストと環境汚染をもたらす。 作物中のn状態の正確かつタイムリーな推定は、作付システムの経済と環境の持続可能性を改善する上で重要である。 植物におけるN濃度を推定するための実験室での組織分析に基づく従来のアプローチは、時間と破壊である。 リモートセンシングと機械学習の最近の進歩は、前述の課題に非破壊的な方法で対処できることを示しています。 コムギ畑のUAVから収集した大画像から作物Nのステータスを推定するためのチャネル空間の注意に基づく視覚変換器(CSVT)を提案する。 提案したCSVTは,既存の研究と異なり,UAVデジタル空中画像から空間的・チャネル的特徴の非線形特性を把握し,小麦作物のN状態の正確な予測を可能にするチャネル注意ブロック (CAB) と空間的相互作用ブロック (SIB) を導入している。 さらに,ラベル付きデータの取得には時間と費用がかかるため,CSVTを事前学習するためのローカル・グローバル・セルフ教師付き学習を導入する。 提案したCSVTは、テストと独立データセットの両方でテストおよび検証された最先端モデルと比較されている。 提案手法はコムギn状態推定に優れた一般化性と再現性を有する高精度(0.96)を達成した。

Nitrogen (N) fertiliser is routinely applied by farmers to increase crop yields. At present, farmers often over-apply N fertilizer in some locations or timepoints because they do not have high-resolution crop N status data. N-use efficiency can be low, with the remaining N lost to the environment, resulting in high production costs and environmental pollution. Accurate and timely estimation of N status in crops is crucial to improving cropping systems' economic and environmental sustainability. The conventional approaches based on tissue analysis in the laboratory for estimating N status in plants are time consuming and destructive. Recent advances in remote sensing and machine learning have shown promise in addressing the aforementioned challenges in a non-destructive way. We propose a novel deep learning framework: a channel-spatial attention-based vision transformer (CSVT) for estimating crop N status from large images collected from a UAV in a wheat field. Unlike the existing works, the proposed CSVT introduces a Channel Attention Block (CAB) and a Spatial Interaction Block (SIB), which allows capturing nonlinear characteristics of spatial-wise and channel-wise features from UAV digital aerial imagery, for accurate N status prediction in wheat crops. Moreover, since acquiring labeled data is time consuming and costly, local-to-global self-supervised learning is introduced to pre-train the CSVT with extensive unlabelled data. The proposed CSVT has been compared with the state-of-the-art models, tested and validated on both testing and independent datasets. The proposed approach achieved high accuracy (0.96) with good generalizability and reproducibility for wheat N status estimation.
翻訳日:2021-11-15 14:49:47 公開日:2021-11-12
# 2次元形状のクラスタリングに関する総合的研究

A comprehensive study of clustering a class of 2D shapes ( http://arxiv.org/abs/2111.06662v1 )

ライセンス: Link先を確認
Agnieszka Kaliszewska and Monika Syga(参考訳) 論文は、革命の3次元対象の断面の境界である2次元輪郭の形状と大きさに関するクラスタリングに関するものである。 本稿では,異なるプロクリスト解析(PA)と動的時間ワーピング(DTW)を併用した類似度尺度を提案する。 この研究のモチベーションと主な用途は考古学から来ている。 計算実験は考古学的陶器のクラスタリングを指す。

The paper concerns clustering with respect to the shape and size of 2D contours that are boundaries of cross-sections of 3D objects of revolution. We propose a number of similarity measures based on combined disparate Procrustes analysis (PA) and Dynamic Time Warping (DTW) distances. Motivation and the main application for this study comes from archaeology. The performed computational experiments refer to the clustering of archaeological pottery.
翻訳日:2021-11-15 14:23:01 公開日:2021-11-12
# AlphaRotate:TensorFl owを使用した回転検出ベンチマーク

AlphaRotate: A Rotation Detection Benchmark using TensorFlow ( http://arxiv.org/abs/2111.06677v1 )

ライセンス: Link先を確認
Xue Yang, Yue Zhou, Junchi Yan(参考訳) alpharotateはオープンソースのtensorflowベンチマークで、さまざまなデータセットでスケーラブルなローテーション検出を行う。 現在、専門家と研究者の両方が使用するように設計された、十分に文書化された単一のAPIの下で、一般的な18以上のローテーション検出モデルを提供している。 alpharotateは、ハイパフォーマンス、堅牢性、持続可能性、スケーラビリティを設計のコアコンセプトとして捉えており、すべてのモデルは、ユニットテスト、継続的インテグレーション、コードカバレッジ、保守性チェック、視覚的な監視と分析でカバーされている。 AlphaRotateはPyPIからインストールでき、Apache-2.0ライセンスでリリースされている。 ソースコードはhttps://github.com/y angxue0827/RotationD etectionで入手できる。

AlphaRotate is an open-source Tensorflow benchmark for performing scalable rotation detection on various datasets. It currently provides more than 18 popular rotation detection models under a single, well-documented API designed for use by both practitioners and researchers. AlphaRotate regards high performance, robustness, sustainability and scalability as the core concept of design, and all models are covered by unit testing, continuous integration, code coverage, maintainability checks, and visual monitoring and analysis. AlphaRotate can be installed from PyPI and is released under the Apache-2.0 License. Source code is available at https://github.com/y angxue0827/RotationD etection.
翻訳日:2021-11-15 14:22:54 公開日:2021-11-12
# 条件付き変分オートエンコーダによる多様性促進ヒト運動補間

Diversity-Promoting Human Motion Interpolation via Conditional Variational Auto-Encoder ( http://arxiv.org/abs/2111.06762v1 )

ライセンス: Link先を確認
Chunzhi Gu, Shuofeng Zhao, Chao Zhang(参考訳) 本稿では,多種多様な人間の動作補間結果を生成するための深層生成モデルを提案する。 本研究では,条件付き変分オートエンコーダ(CVAE)を用いて,一対の始点運動と終点運動に条件付けされた人間の動作を学習し,リカレントニューラルネットワーク(RNN)構造を用いてエンコーダと復号器の両方に活用する。 さらに,サンプル多様性をさらに促進するために正規化損失を導入する。 学習した潜在空間から繰り返しサンプリングすることで,複数の可塑性コヒーレント運動を生成することができる。 本手法の有効性を,サンプルの妥当性と多様性の観点から検証した。

In this paper, we present a deep generative model based method to generate diverse human motion interpolation results. We resort to the Conditional Variational Auto-Encoder (CVAE) to learn human motion conditioned on a pair of given start and end motions, by leveraging the Recurrent Neural Network (RNN) structure for both the encoder and the decoder. Additionally, we introduce a regularization loss to further promote sample diversity. Once trained, our method is able to generate multiple plausible coherent motions by repetitively sampling from the learned latent space. Experiments on the publicly available dataset demonstrate the effectiveness of our method, in terms of sample plausibility and diversity.
翻訳日:2021-11-15 14:22:45 公開日:2021-11-12
# Sci-Net:空中画像からの建物検出のためのスケール不変モデル

Sci-Net: a Scale Invariant Model for Building Detection from Aerial Images ( http://arxiv.org/abs/2111.06812v1 )

ライセンス: Link先を確認
Hasan Nasrallah, Ali J. Ghandour(参考訳) 建物のセグメンテーションは、地球観測と空中画像解析の分野における基本的な課題である。 文献中の既存のディープラーニングベースのアルゴリズムのほとんどは、固定あるいは狭い空間解像度画像に適用することができる。 実際のシナリオでは、ユーザーは幅広い画像解像度を扱うため、深層学習モデルのトレーニングに使用されるデータセットの空間解像度に合わせて、与えられた空中画像を再サンプリングする必要があることが多い。 しかし、これは出力セグメンテーションマスクの品質が著しく低下する結果となる。 そこで本研究では,空間分解能の異なる空中画像に存在する建物をセグメント化できるsci-net(scale-invari ant neural network)を提案する。 具体的には,U-Netアーキテクチャを改良し,高密度のAtrous Space Pyramid Pooling (ASPP) と融合し,微細なマルチスケール表現を抽出した。 提案モデルの性能を,オープンシティaiデータセットにおけるアートモデルのいくつかの状態と比較し,sci-netがデータセットで利用可能なすべての解像度において,一定のパフォーマンス向上率を提供することを示した。

Buildings' segmentation is a fundamental task in the field of earth observation and aerial imagery analysis. Most existing deep learning based algorithms in the literature can be applied on fixed or narrow-ranged spatial resolution imagery. In practical scenarios, users deal with a wide spectrum of images resolution and thus, often need to resample a given aerial image to match the spatial resolution of the dataset used to train the deep learning model. This however, would result in a severe degradation in the quality of the output segmentation masks. To deal with this issue, we propose in this research a Scale-invariant neural network (Sci-Net) that is able to segment buildings present in aerial images at different spatial resolutions. Specifically, we modified the U-Net architecture and fused it with dense Atrous Spatial Pyramid Pooling (ASPP) to extract fine-grained multi-scale representations. We compared the performance of our proposed model against several state of the art models on the Open Cities AI dataset, and showed that Sci-Net provides a steady improvement margin in performance across all resolutions available in the dataset.
翻訳日:2021-11-15 14:22:31 公開日:2021-11-12
# 小さい? 遠い? 航空動物監視のための深部超解像と高度データ

Small or Far Away? Exploiting Deep Super-Resolution and Altitude Data for Aerial Animal Surveillance ( http://arxiv.org/abs/2111.06830v1 )

ライセンス: Link先を確認
Mowen Xue, Theo Greenslade, Majid Mirmehdi, Tilo Burghardt(参考訳) 高空飛行ドローンが捉えた視覚は、世界中の生物多様性と動物集団の動態を評価するためにますます使われている。 しかし、超高解像度カメラにもかかわらず、空中画像における取得シナリオや小さな動物描写は、これまでコンピュータビジョン検出器を高い信頼性で適用するための制限要因だった。 本稿では,深部物体検出器と超解像技術と高度データを組み合わせることで,この問題に初めて対処する。 特に, 総合的アテンションネットワークに基づく超解像手法と, 高度データ活用ネットワークを標準認識パイプラインに統合することにより, 実世界における検出効率が大幅に向上することを示す。 SAVMAP と AED の2つの大型航空捕獲動物データセットを用いて,本システムの評価を行った。 提案手法は,ベースラインのアブレーションや,両データセットの最先端性能を一貫して改善できることがわかった。 さらに,動物の分解能と検出性能の関係を系統的に解析する。 超高分解能・高度知識利用技術は, 設定のベンチマークを著しく向上させることができるため, 空中画像中の微小分解動物を検出する際には, 日常的に使用すべきである。

Visuals captured by high-flying aerial drones are increasingly used to assess biodiversity and animal population dynamics around the globe. Yet, challenging acquisition scenarios and tiny animal depictions in airborne imagery, despite ultra-high resolution cameras, have so far been limiting factors for applying computer vision detectors successfully with high confidence. In this paper, we address the problem for the first time by combining deep object detectors with super-resolution techniques and altitude data. In particular, we show that the integration of a holistic attention network based super-resolution approach and a custom-built altitude data exploitation network into standard recognition pipelines can considerably increase the detection efficacy in real-world settings. We evaluate the system on two public, large aerial-capture animal datasets, SAVMAP and AED. We find that the proposed approach can consistently improve over ablated baselines and the state-of-the-art performance for both datasets. In addition, we provide a systematic analysis of the relationship between animal resolution and detection performance. We conclude that super-resolution and altitude knowledge exploitation techniques can significantly increase benchmarks across settings and, thus, should be used routinely when detecting minutely resolved animals in aerial imagery.
翻訳日:2021-11-15 14:22:12 公開日:2021-11-12
# Metrical-Consistent Atlas を用いた一時持続表面再構成

Temporally-Consisten t Surface Reconstruction using Metrically-Consisten t Atlases ( http://arxiv.org/abs/2111.06838v1 )

ライセンス: Link先を確認
Jan Bednarik, Noam Aigerman, Vladimir G. Kim, Siddhartha Chaudhuri, Shaifali Parashar, Mathieu Salzmann, Pascal Fua(参考訳) そこで本稿では,時間変化点雲列から時間一貫性のある面列を復元する手法を提案する。 フレーム間の密で意味のある対応をもたらす。 我々は、再構成された表面をニューラルネットワークによって計算されたアトラスとして表現し、フレーム間の対応を確立する。 これらの対応を意味的に意味づける鍵は、対応する点で計算された計量テンソルが可能な限り類似していることを保証することである。 提案手法は,事前対応や事前調整のステップを必要とせず,雑音や大域的な動きに頑健な最適化戦略を考案した。 その結果,本手法は,いくつかの課題のあるデータセットにおいて最先端の手法よりも優れている。 コードはhttps://github.com/b ednarikjan/temporall y_coherent_surface_r econstructionで入手できる。

We propose a method for unsupervised reconstruction of a temporally-consisten t sequence of surfaces from a sequence of time-evolving point clouds. It yields dense and semantically meaningful correspondences between frames. We represent the reconstructed surfaces as atlases computed by a neural network, which enables us to establish correspondences between frames. The key to making these correspondences semantically meaningful is to guarantee that the metric tensors computed at corresponding points are as similar as possible. We have devised an optimization strategy that makes our method robust to noise and global motions, without a priori correspondences or pre-alignment steps. As a result, our approach outperforms state-of-the-art ones on several challenging datasets. The code is available at https://github.com/b ednarikjan/temporall y_coherent_surface_r econstruction.
翻訳日:2021-11-15 14:21:51 公開日:2021-11-12
# 音声の解読:ASRにおける言語間移動へのゼロリソースアプローチ

Deciphering Speech: a Zero-Resource Approach to Cross-Lingual Transfer in ASR ( http://arxiv.org/abs/2111.06799v1 )

ライセンス: Link先を確認
Ondrej Klejch, Electra Wallington, Peter Bell(参考訳) 本稿では,対象言語から文字変換された訓練データをまったく使用せず,その言語に関する音声的知識も持たないasrシステムの言語横断学習手法を提案する。 提案手法は,対象言語から与えられた非ペア音声とテキストデータのみを演算する復号化アルゴリズムの新たな応用を用いる。 本手法は,言語外音声コーパスを訓練したユニバーサル・フォン・リコーディネータが生成した音声シーケンスに適用し,フラットスタート半教師訓練を行い,新たな言語のための音響モデルを得る。 我々の知る限りでは、これは手作りの音声情報に依存しないゼロ・リソース・クロスランガル ASR に対する最初の実践的アプローチである。 我々は,グローバルホンコーパスから読み上げ音声の実験を行い,対象言語からわずか20分間のデータから解読モデルを学ぶことができることを示した。 半教師付きトレーニングのために擬似ラベルを生成する際には、同一データ上でトレーニングされた同等の完全教師付きモデルよりも25%からわずか5%悪いWERが得られる。

We present a method for cross-lingual training an ASR system using absolutely no transcribed training data from the target language, and with no phonetic knowledge of the language in question. Our approach uses a novel application of a decipherment algorithm, which operates given only unpaired speech and text data from the target language. We apply this decipherment to phone sequences generated by a universal phone recogniser trained on out-of-language speech corpora, which we follow with flat-start semi-supervised training to obtain an acoustic model for the new language. To the best of our knowledge, this is the first practical approach to zero-resource cross-lingual ASR which does not rely on any hand-crafted phonetic information. We carry out experiments on read speech from the GlobalPhone corpus, and show that it is possible to learn a decipherment model on just 20 minutes of data from the target language. When used to generate pseudo-labels for semi-supervised training, we obtain WERs that range from 25% to just 5% absolute worse than the equivalent fully supervised models trained on the same data.
翻訳日:2021-11-15 14:21:38 公開日:2021-11-12
# Bi-Discriminator Class-Conditional Tabular GAN

Bi-Discriminator Class-Conditional Tabular GAN ( http://arxiv.org/abs/2111.06549v1 )

ライセンス: Link先を確認
Mohammad Esmaeilpour, Nourhene Chaalia, Adel Abusitta, Francois-Xavier Devailly, Wissem Maazoun, Patrick Cardinal(参考訳) 本稿では,連続列,二項列,離散列を含む表層データセットを合成する二分法GANを提案する。 提案手法では, 入力サンプル分布をより効果的に捉えるために, 適応前処理方式と, ジェネレータネットワークの新しい条件項を用いる。 さらに,より差別的な勾配情報の提供を目的とした識別器ネットワークに対して,簡易かつ効果的なアーキテクチャを実装した。 4つのベンチマーク公開データセットに対する実験結果は、適合度測定と機械学習の有効性の両面で、GANの優れた性能を裏付けるものである。

This paper introduces a bi-discriminator GAN for synthesizing tabular datasets containing continuous, binary, and discrete columns. Our proposed approach employs an adapted preprocessing scheme and a novel conditional term for the generator network to more effectively capture the input sample distributions. Additionally, we implement straightforward yet effective architectures for discriminator networks aiming at providing more discriminative gradient information to the generator. Our experimental results on four benchmarking public datasets corroborates the superior performance of our GAN both in terms of likelihood fitness metric and machine learning efficacy.
翻訳日:2021-11-15 14:19:46 公開日:2021-11-12
# anchorgae: $o(n)$ bipartite graph 畳み込みによる一般的なデータクラスタリング

AnchorGAE: General Data Clustering via $O(n)$ Bipartite Graph Convolution ( http://arxiv.org/abs/2111.06586v1 )

ライセンス: Link先を確認
Hongyuan Zhang, Jiankun Shi, Rui Zhang, Xuelong Li(参考訳) グラフベースのクラスタリングは、クラスタリングタスクにおいて重要な役割を果たす。 グラフ型データ上のニューラルネットワークの変種であるグラフ畳み込みネットワーク(GCN)は、目覚ましい性能を達成しているため、GCNがグラフベースのクラスタリング手法(一般データ)をグラフベースで拡張できるかどうかが注目される。 しかし、n$のサンプルが与えられた場合、グラフベースのクラスタリング手法は通常、グラフを構築するのに少なくとも$o(n^2)$時間を必要とし、グラフの畳み込みには、密グラフに対して$o(n^2)$、$|\mathcal{e}|$エッジを持つスパースグラフに対して$o(|\mathcal{e}|)$が必要である。 言い換えれば、グラフベースのクラスタリングとGCNはどちらも、深刻な非効率の問題に悩まされている。 この問題に対処し,さらにGCNを用いてグラフベースのクラスタリングの能力を高めるために,新しいクラスタリング手法であるAnchorGAEを提案する。 一般的なクラスタリングシナリオではグラフ構造が提供されないため、まず、gcn構築に使用される生成グラフモデルを導入することで、非グラフデータセットをグラフに変換する方法を示す。 アンカーは元のデータから生成され、グラフ畳み込みの計算複雑性が$O(n^2)$と$O(|\mathcal{E}|)$から$O(n)$に還元されるように二部グラフを構成する。 クラスタリングの次のステップは、簡単に$o(n)$オペレーションとして設計できる。 興味深いことに、アンカーは自然にシャイムGCNアーキテクチャにつながる。 アンカーによって構築された2部グラフは動的に更新され、データの背後にある高レベル情報を利用する。 最終的には、単純な更新が退化につながることを理論的に証明し、それに従って特定の戦略が設計される。

Graph-based clustering plays an important role in clustering tasks. As graph convolution network (GCN), a variant of neural networks on graph-type data, has achieved impressive performance, it is attractive to find whether GCNs can be used to augment the graph-based clustering methods on non-graph data, i.e., general data. However, given $n$ samples, the graph-based clustering methods usually need at least $O(n^2)$ time to build graphs and the graph convolution requires nearly $O(n^2)$ for a dense graph and $O(|\mathcal{E}|)$ for a sparse one with $|\mathcal{E}|$ edges. In other words, both graph-based clustering and GCNs suffer from severe inefficiency problems. To tackle this problem and further employ GCN to promote the capacity of graph-based clustering, we propose a novel clustering method, AnchorGAE. As the graph structure is not provided in general clustering scenarios, we first show how to convert a non-graph dataset into a graph by introducing the generative graph model, which is used to build GCNs. Anchors are generated from the original data to construct a bipartite graph such that the computational complexity of graph convolution is reduced from $O(n^2)$ and $O(|\mathcal{E}|)$ to $O(n)$. The succeeding steps for clustering can be easily designed as $O(n)$ operations. Interestingly, the anchors naturally lead to a siamese GCN architecture. The bipartite graph constructed by anchors is updated dynamically to exploit the high-level information behind data. Eventually, we theoretically prove that the simple update will lead to degeneration and a specific strategy is accordingly designed.
翻訳日:2021-11-15 14:19:36 公開日:2021-11-12
# 暗黙対未折グラフニューラルネットワーク

Implicit vs Unfolded Graph Neural Networks ( http://arxiv.org/abs/2111.06592v1 )

ライセンス: Link先を確認
Yongyi Yang, Yangkun Wang, Zengfeng Huang, David Wipf(参考訳) グラフニューラルネットワーク(gnn)は、ノード間の長距離依存関係のモデリングと、ノード表現の過剰など意図しない結果の回避との間に、健全なバランスを維持するのに苦労することがある。 この問題に対処するために、最近2つの戦略、すなわち暗黙と展開されたgnnが提案されている。 前者はノード表現を深い平衡モデルの固定点として扱い、固定メモリフットプリントでグラフの任意の暗黙的伝播を効率的に行うことができる。 対照的に、後者はグラフの伝播を、あるグラフ正規化エネルギー関数に適用される未開な降下反復として扱うことを含む。 本稿では,これらの手法の類似点と相違点を慎重に解明し,それらが生成した解が実際に等価である場合や,振る舞いが分岐する場合の明示的な状況を定量化する。 これには収束、表現能力、解釈可能性の分析が含まれる。 また、さまざまな合成および公開実世界のベンチマークに対して、実験的な頭と頭の比較を行う。

It has been observed that graph neural networks (GNN) sometimes struggle to maintain a healthy balance between modeling long-range dependencies across nodes while avoiding unintended consequences such as oversmoothed node representations. To address this issue (among other things), two separate strategies have recently been proposed, namely implicit and unfolded GNNs. The former treats node representations as the fixed points of a deep equilibrium model that can efficiently facilitate arbitrary implicit propagation across the graph with a fixed memory footprint. In contrast, the latter involves treating graph propagation as the unfolded descent iterations as applied to some graph-regularized energy function. While motivated differently, in this paper we carefully elucidate the similarity and differences of these methods, quantifying explicit situations where the solutions they produced may actually be equivalent and others where behavior diverges. This includes the analysis of convergence, representational capacity, and interpretability. We also provide empirical head-to-head comparisons across a variety of synthetic and public real-world benchmarks.
翻訳日:2021-11-15 14:19:00 公開日:2021-11-12
# ニューラルネットワークは、これまで見たことのないダイナミクスを予測できるのか?

Can neural networks predict dynamics they have never seen? ( http://arxiv.org/abs/2111.06783v1 )

ライセンス: Link先を確認
Anton Pershin, Cedric Beaume, Kuan Li, Steven M. Tobias(参考訳) ニューラルネットワークは、画像認識やオブジェクト検出から音声認識や機械翻訳に至るまで、幅広い複雑なタスクで著しく成功している。 彼らの成功の1つは、適切なトレーニングデータセットが与えられた将来のダイナミクスを予測するスキルである。 これまでの研究では、リカレントニューラルネットワークのサブセットであるEcho State Networks(ESNs)が、リアプノフ時間よりも長くカオスシステムを予測できることが示されている。 この研究は、ESNがトレーニングセットに含まれるあらゆる行動と質的に異なる動的挙動を予測できることを著しく示している。 エビデンス(エビデンス)は流体力学の問題であり、流れは層(秩序)と乱流(秩序)の間で遷移することができる。 乱流でのみ訓練されているにもかかわらず、ESNは層運動を予測する。 また,乱流-層間遷移と層-乱流遷移の統計も予測し,初期警戒システムとしてのesnの有用性について考察した。 これらの結果は, 物理的, 気候, 生物学的, 生態学的, ファイナンスモデルにおいて, ピーク点の存在と, 競合する複数の州間の突然の遷移を特徴とする, 時間的行動のデータ駆動モデルに適用できると考えられる。

Neural networks have proven to be remarkably successful for a wide range of complicated tasks, from image recognition and object detection to speech recognition and machine translation. One of their successes is the skill in prediction of future dynamics given a suitable training set of data. Previous studies have shown how Echo State Networks (ESNs), a subset of Recurrent Neural Networks, can successfully predict even chaotic systems for times longer than the Lyapunov time. This study shows that, remarkably, ESNs can successfully predict dynamical behavior that is qualitatively different from any behavior contained in the training set. Evidence is provided for a fluid dynamics problem where the flow can transition between laminar (ordered) and turbulent (disordered) regimes. Despite being trained on the turbulent regime only, ESNs are found to predict laminar behavior. Moreover, the statistics of turbulent-to-laminar and laminar-to-turbulent transitions are also predicted successfully, and the utility of ESNs in acting as an early-warning system for transition is discussed. These results are expected to be widely applicable to data-driven modelling of temporal behaviour in a range of physical, climate, biological, ecological and finance models characterized by the presence of tipping points and sudden transitions between several competing states.
翻訳日:2021-11-15 14:18:40 公開日:2021-11-12
# テンパレートハミルトニアン遷移を用いたマルチモーダル分布からのサンプリング

Sampling from multimodal distributions using tempered Hamiltonian transitions ( http://arxiv.org/abs/2111.06871v1 )

ライセンス: Link先を確認
Joonha Park(参考訳) ハミルトニアン・モンテカルロ法(HMC)は、空間次元の増大に対して高い効率と良好な拡張性のために、非正規化対象密度からサンプルを引き出すために広く用いられている。 しかし、HMCは、ポテンシャルエネルギー関数(すなわち、擬似経路に沿った負の対数密度関数)の最大増加は、dが空間次元であるような$\chi_d^2$分布の半分に続く初期運動エネルギーによって制限されるため、ターゲット分布がマルチモーダルであるときに苦労する。 本稿では,ハミルトニアンモンテカルロ法を用いて,建設経路を高ポテンシャルエネルギー障壁を横断できる手法を提案する。 この方法は、事前にターゲット分布のモードを知る必要はない。 本手法では,ハミルトニアン経路が構築されている間,シミュレーション粒子の質量を連続的に変化させることで,ターゲット密度の孤立モード間を頻繁にジャンプすることができる。 したがって、この方法は hmc と tempered transitions method の組み合わせと考えることができる。 他のテンパリング法と比較して,本手法は各ステップでターゲット分布が変化するギブスサンプリング設定において顕著な優位性を有する。 本手法の実践的チューニング戦略を開発し,高次元マルチモーダル分布をターゲットとしたマルコフ連鎖を,正規分布とセンサネットワークの局所化問題を用いてグローバルに混合できることを示す。

Hamiltonian Monte Carlo (HMC) methods are widely used to draw samples from unnormalized target densities due to high efficiency and favorable scalability with respect to increasing space dimensions. However, HMC struggles when the target distribution is multimodal, because the maximum increase in the potential energy function (i.e., the negative log density function) along the simulated path is bounded by the initial kinetic energy, which follows a half of the $\chi_d^2$ distribution, where d is the space dimension. In this paper, we develop a Hamiltonian Monte Carlo method where the constructed paths can travel across high potential energy barriers. This method does not require the modes of the target distribution to be known in advance. Our approach enables frequent jumps between the isolated modes of the target density by continuously varying the mass of the simulated particle while the Hamiltonian path is constructed. Thus, this method can be considered as a combination of HMC and the tempered transitions method. Compared to other tempering methods, our method has a distinctive advantage in the Gibbs sampler settings, where the target distribution changes at each step. We develop a practical tuning strategy for our method and demonstrate that it can construct globally mixing Markov chains targeting high-dimensional, multimodal distributions, using mixtures of normals and a sensor network localization problem.
翻訳日:2021-11-15 14:17:12 公開日:2021-11-12
# 高次元非平衡制御のための協調多エージェント強化学習

Cooperative multi-agent reinforcement learning for high-dimensional nonequilibrium control ( http://arxiv.org/abs/2111.06875v1 )

ライセンス: Link先を確認
Shriram Chennakesavalu and Grant M. Rotskoff(参考訳) 高分解能外部制御を可能にする実験的進歩は、エキゾチックな特性を持つ材料を作る新しい機会を生み出す。 本研究では, 自己組立のための外部制御プロトコルの設計にマルチエージェント強化学習手法を用いる方法を検討する。 完全に分散したアプローチは,外部制御の"コア"レベルにおいても非常にうまく機能する。 さらに重要なのは、ローカル環境に関する情報を含む部分分散アプローチによって、システムのターゲットディストリビューションへの制御性が向上する、ということです。 我々は、このアプローチを部分的に観測されたマルコフ決定過程として分析することで、これを説明できる。 部分的に分散したアプローチでは、望ましくない構造の形成を防止し、完全に分散したアプローチと比較してターゲット構造を安定化させることによって、エージェントはより前もって行動することができる。

Experimental advances enabling high-resolution external control create new opportunities to produce materials with exotic properties. In this work, we investigate how a multi-agent reinforcement learning approach can be used to design external control protocols for self-assembly. We find that a fully decentralized approach performs remarkably well even with a "coarse" level of external control. More importantly, we see that a partially decentralized approach, where we include information about the local environment allows us to better control our system towards some target distribution. We explain this by analyzing our approach as a partially-observed Markov decision process. With a partially decentralized approach, the agent is able to act more presciently, both by preventing the formation of undesirable structures and by better stabilizing target structures as compared to a fully decentralized approach.
翻訳日:2021-11-15 14:16:45 公開日:2021-11-12
# 画像と映像からの学習に基づく表現伝達を伴う顔-首筋生体力学複合体の神経筋制御

Neuromuscular Control of the Face-Head-Neck Biomechanical Complex With Learning-Based Expression Transfer From Images and Videos ( http://arxiv.org/abs/2111.06517v1 )

ライセンス: Link先を確認
Xiao S. Zeng, Surya Dwarakanath, Wuyue Lu, Masaki Nakada, Demetri Terzopoulos(参考訳) 人から3D顔モデルへの表情の転送は、古典的なコンピュータグラフィックスの問題である。 本稿では,顔の表情と頭部の動きを画像やビデオから顔と首の複合体の生体力学的モデルに伝達する,新しい学習的アプローチを提案する。 表情空間の中間表現として、顔行動符号化システム(facs)を利用して、深層ニューラルネットワークを訓練し、facs行動単位(aus)を取り込み、筋骨格モデルに適した顔面筋および顎の活性化信号を出力する。 生体力学的シミュレーションにより、アクティベーションは顔面の軟組織を変形させ、モデルに発現を伝達する。 我々のアプローチは以前のアプローチよりも優れている。 まず、私たちの生体力学モデルが顔、頭、首の解剖をエミュレートするので、表情は解剖学的に一貫性がある。 第2に,バイオメカニカルモデル自体から生成されたデータを用いてニューラルネットワークをトレーニングすることにより,表現伝達のためのデータ収集の手作業を排除する。 アプローチの成功は、顔画像やビデオから顔表情と頭部ポーズの顔-頭-首モデルへの移動を含む実験によって実証される。

The transfer of facial expressions from people to 3D face models is a classic computer graphics problem. In this paper, we present a novel, learning-based approach to transferring facial expressions and head movements from images and videos to a biomechanical model of the face-head-neck complex. Leveraging the Facial Action Coding System (FACS) as an intermediate representation of the expression space, we train a deep neural network to take in FACS Action Units (AUs) and output suitable facial muscle and jaw activation signals for the musculoskeletal model. Through biomechanical simulation, the activations deform the facial soft tissues, thereby transferring the expression to the model. Our approach has advantages over previous approaches. First, the facial expressions are anatomically consistent as our biomechanical model emulates the relevant anatomy of the face, head, and neck. Second, by training the neural network using data generated from the biomechanical model itself, we eliminate the manual effort of data collection for expression transfer. The success of our approach is demonstrated through experiments involving the transfer onto our face-head-neck model of facial expressions and head poses from a range of facial images and videos.
翻訳日:2021-11-15 14:15:37 公開日:2021-11-12
# バイオイメージングワイルドにおけるディープラーニング: deepflash2で曖昧なデータを扱う

Deep-learning in the bioimaging wild: Handling ambiguous data with deepflash2 ( http://arxiv.org/abs/2111.06693v1 )

ライセンス: Link先を確認
Matthias Griebel, Dennis Segebarth, Nikolai Stein, Nina Schukraft, Philip Tovote, Robert Blum, Christoph M. Flath(参考訳) 我々は,マルチエキスパートアノテーションと統合品質保証を通じて,曖昧なバイオイメージの客観的かつ信頼性の高いセグメンテーションを容易にするディープラーニングソリューションであるDeepflash2を提案する。 これにより、deepflash2は、生体イメージングにおけるディープラーニングモデルのトレーニング、評価、および応用中に生じる典型的な課題に対処する。 このツールは使い易いグラフィカルなユーザインタフェースに埋め込まれており、セマンティックなセグメンテーションとインスタンスセグメンテーションのためのクラス最高の予測性能を、計算資源の経済的利用下で提供する。

We present deepflash2, a deep learning solution that facilitates the objective and reliable segmentation of ambiguous bioimages through multi-expert annotations and integrated quality assurance. Thereby, deepflash2 addresses typical challenges that arise during training, evaluation, and application of deep learning models in bioimaging. The tool is embedded in an easy-to-use graphical user interface and offers best-in-class predictive performance for semantic and instance segmentation under economical usage of computational resources.
翻訳日:2021-11-15 14:14:36 公開日:2021-11-12
# トランスベース画像圧縮

Transformer-based Image Compression ( http://arxiv.org/abs/2111.06707v1 )

ライセンス: Link先を確認
Ming Lu, Peiyao Guo, Huiqing Shi, Chuntong Cao, and Zhan Ma(参考訳) Transformer-based Image Compression (TIC) アプローチは、標準変分オートエンコーダ(VAE)アーキテクチャをメインおよびハイパーエンコーダデコーダのペアで再利用する。 メインおよびハイパーエンコーダは、入力画像のよりコンパクトな表現のために重要な情報を分析・集約する一連のニューラルトランスフォーメーションユニット(NTU)から構成され、デコーダはエンコーダ側の操作を反映して圧縮されたビットストリームからピクセル領域の画像再構成を生成する。 各NTUは、Swin Transformer Block (STB) と Convolutional Layer (Conv) から構成され、長距離情報と短距離情報の両方を最もうまく埋め込む。 TICは、Deep Convolutional Neural Network(CNN)ベースの学習画像符号化(lic)メソッドや、最近承認されたVersatile Video Coding(VVC)標準の手作りルールベースのイントラプロファイルなど、最先端のアプローチと競合する。

A Transformer-based Image Compression (TIC) approach is developed which reuses the canonical variational autoencoder (VAE) architecture with paired main and hyper encoder-decoders. Both main and hyper encoders are comprised of a sequence of neural transformation units (NTUs) to analyse and aggregate important information for more compact representation of input image, while the decoders mirror the encoder-side operations to generate pixel-domain image reconstruction from the compressed bitstream. Each NTU is consist of a Swin Transformer Block (STB) and a convolutional layer (Conv) to best embed both long-range and short-range information; In the meantime, a casual attention module (CAM) is devised for adaptive context modeling of latent features to utilize both hyper and autoregressive priors. The TIC rivals with state-of-the-art approaches including deep convolutional neural networks (CNNs) based learnt image coding (LIC) methods and handcrafted rules-based intra profile of recently-approved Versatile Video Coding (VVC) standard, and requires much less model parameters, e.g., up to 45% reduction to leading-performance LIC.
翻訳日:2021-11-15 14:14:25 公開日:2021-11-12
# 遮蔽複合サブマトリックス構築による適応的二クラスタリングアルゴリズム

An Enhanced Adaptive Bi-clustering Algorithm through Building a Shielding Complex Sub-Matrix ( http://arxiv.org/abs/2111.06524v1 )

ライセンス: Link先を確認
Kaijie Xu(参考訳) バイクラスタ化(bi-clustering)とは、各サブ行列(データと特徴)の要素が特定の方法、例えば、ある計量に関して類似しているように、データのマトリックス内でサブ行列(列のグループと行のグループによってインデックスされる)を見つけるタスクである。 本稿では,共発現遺伝子をマイニングするための有効なツールとして,よく知られたCheng and Church (CC)双クラスタリングアルゴリズムの解析を行った。 しかし、チャーンとチャーチのバイクラスタ化アルゴリズムとその限界を要約し(グリーディ戦略における乱数の干渉や重複するバイクラスタの無視など)、得られたバイクラスタを遮蔽するために複雑なサブマトリックスを構築し、重複するバイクラスタを発見するための適応型バイクラスタ化アルゴリズムの新規な拡張を提案する。 遮蔽複素部分行列において、虚部と実部は、それぞれ新しい二クラスターを遮蔽し拡張し、一連の最適二クラスターを形成するために使用される。 得られた二クラスターが既に生成した二クラスターに影響を与えないことを保証するため、構成された二クラスターを適応的に検出し遮蔽するユニットインパルス信号を導入する。 一方、ヌルデータ(ゼロサイズデータ)を効果的に遮蔽するために、適応検出および遮蔽のために別のユニットインパルス信号を設定する。 さらに、サブマトリックスの遮蔽データを含む行(または列)の平均2乗残差スコアを調整するための遮蔽係数を加え、それらを保持するか否かを決定する。 我々は開発計画の徹底的な分析を行う。 実験結果は理論解析と一致している。 公開可能な実マイクロアレイデータセットで得られた結果は,提案手法によるバイクラスタ性能の向上を示している。

Bi-clustering refers to the task of finding sub-matrices (indexed by a group of columns and a group of rows) within a matrix of data such that the elements of each sub-matrix (data and features) are related in a particular way, for instance, that they are similar with respect to some metric. In this paper, after analyzing the well-known Cheng and Church (CC) bi-clustering algorithm which has been proved to be an effective tool for mining co-expressed genes. However, Cheng and Church bi-clustering algorithm and summarizing its limitations (such as interference of random numbers in the greedy strategy; ignoring overlapping bi-clusters), we propose a novel enhancement of the adaptive bi-clustering algorithm, where a shielding complex sub-matrix is constructed to shield the bi-clusters that have been obtained and to discover the overlapping bi-clusters. In the shielding complex sub-matrix, the imaginary and the real parts are used to shield and extend the new bi-clusters, respectively, and to form a series of optimal bi-clusters. To assure that the obtained bi-clusters have no effect on the bi-clusters already produced, a unit impulse signal is introduced to adaptively detect and shield the constructed bi-clusters. Meanwhile, to effectively shield the null data (zero-size data), another unit impulse signal is set for adaptive detecting and shielding. In addition, we add a shielding factor to adjust the mean squared residue score of the rows (or columns), which contains the shielded data of the sub-matrix, to decide whether to retain them or not. We offer a thorough analysis of the developed scheme. The experimental results are in agreement with the theoretical analysis. The results obtained on a publicly available real microarray dataset show the enhancement of the bi-clusters performance thanks to the proposed method.
翻訳日:2021-11-15 14:13:34 公開日:2021-11-12
# ペナリゼーションによる分散スパース回帰

Distributed Sparse Regression via Penalization ( http://arxiv.org/abs/2111.06530v1 )

ライセンス: Link先を確認
Yao Ji, Gesualdo Scutari, Ying Sun, and Harsha Honnappa(参考訳) エージェントのネットワーク上での疎線形回帰を非指向グラフ(集中ノードを持たない)としてモデル化する。 推定問題は、局所的なLASSO損失関数の和の最小化とコンセンサス制約の2次ペナルティとして定式化され、後者は分散解法を得るのに役立つ。 ペナルティに基づくコンセンサス法は最適化文献で広く研究されているが、高次元設定における統計的および計算的保証は未だ不明である。 この作品は、このオープンな問題に対する答えを提供する。 私たちの貢献は2倍です。 まず、ペナルティパラメータの適切な選択の下で、ペナルティ化された問題の最適解は、最適なミニマックスレート $\mathcal{O}(s \log d/N)$ in $\ell_2$-loss, ここで、$s$は空間値、$d$は周辺次元、$N$はネットワーク内の全サンプルサイズである。 第2に, 分散実装を自然に導くペナル化問題に適用した近似勾配アルゴリズムは, 集中統計誤差の順序の耐性に線形に収束し, 速度は$\mathcal{O}(d)$とスケールし, 避けられない速度精度ジレンマを示す。

We study sparse linear regression over a network of agents, modeled as an undirected graph (with no centralized node). The estimation problem is formulated as the minimization of the sum of the local LASSO loss functions plus a quadratic penalty of the consensus constraint -- the latter being instrumental to obtain distributed solution methods. While penalty-based consensus methods have been extensively studied in the optimization literature, their statistical and computational guarantees in the high dimensional setting remain unclear. This work provides an answer to this open problem. Our contribution is two-fold. First, we establish statistical consistency of the estimator: under a suitable choice of the penalty parameter, the optimal solution of the penalized problem achieves near optimal minimax rate $\mathcal{O}(s \log d/N)$ in $\ell_2$-loss, where $s$ is the sparsity value, $d$ is the ambient dimension, and $N$ is the total sample size in the network -- this matches centralized sample rates. Second, we show that the proximal-gradient algorithm applied to the penalized problem, which naturally leads to distributed implementations, converges linearly up to a tolerance of the order of the centralized statistical error -- the rate scales as $\mathcal{O}(d)$, revealing an unavoidable speed-accuracy dilemma.Numerical results demonstrate the tightness of the derived sample rate and convergence rate scalings.
翻訳日:2021-11-15 14:13:02 公開日:2021-11-12
# 深層学習系列モデルを用いたsars-cov-2発散の同定

Using Deep Learning Sequence Models to Identify SARS-CoV-2 Divergence ( http://arxiv.org/abs/2111.06593v1 )

ライセンス: Link先を確認
Yanyi Ding, Zhiyi Kuang, Yuxin Pei, Jeff Tan, Ziyu Zhang, Joseph Konan(参考訳) SARS-CoV-2は上層呼吸器系RNAウイルスで、2021年5月時点で300万人以上が死亡し、全世界で1億5000万人以上が感染している。 sars-cov-2変異は、ワクチン開発や公衆衛生対策のペースを保ち続ける科学者にとって重要な課題となっている。 したがって、患者からの検査試料の発散を効率的に同定する手法は、sars-cov-2ゲノムの文書化に大きく役立つ。 本研究では、繰り返しおよび畳み込み単位を利用してスパイクタンパク質のアミノ酸配列を直接取り込み、対応するクレードを分類するニューラルネットワークモデルを提案する。 また,タンパク質データベース上で事前学習した変換器(BERT)の双方向エンコーダ表現と比較した。 我々のアプローチは、現在のホモロジーに基づく種内分化のより効率的な代替手段を提供する可能性を持っている。

SARS-CoV-2 is an upper respiratory system RNA virus that has caused over 3 million deaths and infecting over 150 million worldwide as of May 2021. With thousands of strains sequenced to date, SARS-CoV-2 mutations pose significant challenges to scientists on keeping pace with vaccine development and public health measures. Therefore, an efficient method of identifying the divergence of lab samples from patients would greatly aid the documentation of SARS-CoV-2 genomics. In this study, we propose a neural network model that leverages recurrent and convolutional units to directly take in amino acid sequences of spike proteins and classify corresponding clades. We also compared our model's performance with Bidirectional Encoder Representations from Transformers (BERT) pre-trained on protein database. Our approach has the potential of providing a more computationally efficient alternative to current homology based intra-species differentiation.
翻訳日:2021-11-15 14:12:30 公開日:2021-11-12
# 不均一データ値のクラスタリングによるデータモデルの品質問題の検出

Detecting Quality Problems in Data Models by Clustering Heterogeneous Data Values ( http://arxiv.org/abs/2111.06661v1 )

ライセンス: Link先を確認
Viola Wenz, Arno Kesper, Gabriele Taentzer(参考訳) 意図した用途に適合するならば、データは高品質である。 データの品質は、基礎となるデータモデルとその品質の影響を受けます。 主要な品質問題のひとつは、データの不均一性であり、理解可能性や相互運用性が損なわれている。 この不均一性は、データモデルの品質問題によって引き起こされる可能性がある。 データの不均一性は、与えられた情報が十分に構造化されておらず、データ値にキャプチャされる場合に特に起こり得る。 不均一なデータ値に現れるデータモデルの品質問題を検出するためのボトムアップ手法を提案する。 既存のデータの探索分析をサポートし、ドメインの知識に応じてドメインの専門家によって設定できる。 選択されたデータフィールドのすべての値は、構文的類似性によってクラスタリングされる。 これにより、データ値の構文の多様性の概要を提供する。 ドメインの専門家は、実際にデータモデルがどのように使われているかを理解し、データモデルの潜在的な品質問題を導き出すのに役立ちます。 概念実証を概説し,文化遺産データを用いたアプローチを評価する。

Data is of high quality if it is fit for its intended use. The quality of data is influenced by the underlying data model and its quality. One major quality problem is the heterogeneity of data as quality aspects such as understandability and interoperability are impaired. This heterogeneity may be caused by quality problems in the data model. Data heterogeneity can occur in particular when the information given is not structured enough and just captured in data values, often due to missing or non-suitable structure in the underlying data model. We propose a bottom-up approach to detecting quality problems in data models that manifest in heterogeneous data values. It supports an explorative analysis of the existing data and can be configured by domain experts according to their domain knowledge. All values of a selected data field are clustered by syntactic similarity. Thereby an overview of the data values' diversity in syntax is provided. It shall help domain experts to understand how the data model is used in practice and to derive potential quality problems of the data model. We outline a proof-of-concept implementation and evaluate our approach using cultural heritage data.
翻訳日:2021-11-15 14:12:16 公開日:2021-11-12
# (参考訳) Time in a Box: 時間スコープによる知識グラフ補完の改善 [全文訳有]

Time in a Box: Advancing Knowledge Graph Completion with Temporal Scopes ( http://arxiv.org/abs/2111.06854v1 )

ライセンス: CC0 1.0
Ling Cai, Krzysztof Janowic, Bo Yan, Rui Zhu and Gengchen Mai(参考訳) 知識ベースにおけるほぼ全てのステートメントは、それらが有効な時間的スコープを持つ。 したがって、各文 \textit{may} が時間的スコープと関連付けられる時間的知識ベース(tkb)上の知識ベース補完(kbc)が注目されている。 先行研究では、tkb \textit{must} の各文は時間的スコープと関連付けられると仮定している。 これは、スコーピング情報がKBに欠落しているという事実を無視している。 したがって、以前の作業は通常、TKBが既知の時間的スコープを持たない時間的ステートメントで構成されている一般的なユースケースを扱うことができない。 この問題に対処するため,TIME2BOXと呼ばれる新たな知識ベース埋め込みフレームワークを構築し,異なるタイプの時間的・時間的文を同時に処理する。 私たちの主要な洞察は、時間的なクエリに対する回答は、常に時間に依存しない回答のサブセットに属します。 別の言い方をすれば、時間は特定の期間に正しい答えを抽出するのに役立つフィルターである。 応答エンティティの集合を表すボックスを時間依存クエリに導入する。 時間のフィルタリング機能は、これらのボックス上の交差点によってモデル化される。 さらに,現在の評価プロトコルを時間間隔予測に一般化する。 提案手法は,リンク予測と時間予測の両方において,最先端(SOTA)手法より優れていることを示す。

Almost all statements in knowledge bases have a temporal scope during which they are valid. Hence, knowledge base completion (KBC) on temporal knowledge bases (TKB), where each statement \textit{may} be associated with a temporal scope, has attracted growing attention. Prior works assume that each statement in a TKB \textit{must} be associated with a temporal scope. This ignores the fact that the scoping information is commonly missing in a KB. Thus prior work is typically incapable of handling generic use cases where a TKB is composed of temporal statements with/without a known temporal scope. In order to address this issue, we establish a new knowledge base embedding framework, called TIME2BOX, that can deal with atemporal and temporal statements of different types simultaneously. Our main insight is that answers to a temporal query always belong to a subset of answers to a time-agnostic counterpart. Put differently, time is a filter that helps pick out answers to be correct during certain periods. We introduce boxes to represent a set of answer entities to a time-agnostic query. The filtering functionality of time is modeled by intersections over these boxes. In addition, we generalize current evaluation protocols on time interval prediction. We describe experiments on two datasets and show that the proposed method outperforms state-of-the-art (SOTA) methods on both link prediction and time prediction.
翻訳日:2021-11-15 14:11:06 公開日:2021-11-12
# 指数関数族写像の収束率と確率的ミラー降下 -- オープン問題

Convergence Rates for the MAP of an Exponential Family and Stochastic Mirror Descent -- an Open Problem ( http://arxiv.org/abs/2111.06826v1 )

ライセンス: Link先を確認
R\'emi Le Priol, Frederik Kunstner, Damien Scieur, Simon Lacoste-Julien(参考訳) 非漸近的方法で指数関数族に対する最大度推定 (mle) の期待log-likelihood sub-optimality、あるいは共役最大後座 (map) の上限を上限にする問題を考える。 驚いたことに、この問題に対する一般的な解決策は文献には見つからなかった。 特に、現在の理論はガウス的あるいは興味深い少数のサンプル体系には当てはまらない。 この問題の様々な側面を呈示した後、MAPはログライクリッド上で動作する確率ミラー降下 (SMD) と解釈できることを示す。 しかし、現代の収束結果は指数族(英語版)の標準的な例には適用されず、収束文学の穴を浮き彫りにしている。 この非常に根本的な問題を解決することは、統計と最適化のコミュニティの両方に進歩をもたらすと信じています。

We consider the problem of upper bounding the expected log-likelihood sub-optimality of the maximum likelihood estimate (MLE), or a conjugate maximum a posteriori (MAP) for an exponential family, in a non-asymptotic way. Surprisingly, we found no general solution to this problem in the literature. In particular, current theories do not hold for a Gaussian or in the interesting few samples regime. After exhibiting various facets of the problem, we show we can interpret the MAP as running stochastic mirror descent (SMD) on the log-likelihood. However, modern convergence results do not apply for standard examples of the exponential family, highlighting holes in the convergence literature. We believe solving this very fundamental problem may bring progress to both the statistics and optimization communities.
翻訳日:2021-11-15 13:47:57 公開日:2021-11-12
# 深い知覚的ハッシュを破る学習:neuralhashのユースケース

Learning to Break Deep Perceptual Hashing: The Use Case NeuralHash ( http://arxiv.org/abs/2111.06628v1 )

ライセンス: Link先を確認
Lukas Struppek, Dominik Hintersdorf, Daniel Neider, Kristian Kersting(参考訳) Appleは最近、ユーザーのデバイス上で子どもの性的虐待物質(CSAM)を検知し、ファイルをiCloudサービスにアップロードする、深い知覚的ハッシュシステムNeuralHashを公開した。 ユーザのプライバシ保護とシステムの信頼性に関する批判がすぐに高まった。 本稿では,neuralhashに基づく深部知覚ハッシュの包括的解析を初めて行った。 具体的には、現在の深い知覚ハッシュは堅牢でない可能性があることを示す。 相手は、勾配ベースのアプローチによって引き起こされた画像のわずかな変化を施すことや、標準画像変換の実行、ハッシュ衝突の強制または防止によってハッシュ値を操作できる。 このような攻撃は、悪意のあるアクターが検知システムを簡単に利用することを可能にします。 さらに、ハッシュ値を使用することで、ユーザデバイスに格納されたデータに関する推論を行うこともできる。 私たちの見解では、我々の見解では、現在の形式での深い知覚的ハッシュは、一般的に堅牢なクライアントサイドスキャンの準備ができていないため、プライバシの観点から使用すべきではありません。

Apple recently revealed its deep perceptual hashing system NeuralHash to detect child sexual abuse material (CSAM) on user devices before files are uploaded to its iCloud service. Public criticism quickly arose regarding the protection of user privacy and the system's reliability. In this paper, we present the first comprehensive empirical analysis of deep perceptual hashing based on NeuralHash. Specifically, we show that current deep perceptual hashing may not be robust. An adversary can manipulate the hash values by applying slight changes in images, either induced by gradient-based approaches or simply by performing standard image transformations, forcing or preventing hash collisions. Such attacks permit malicious actors easily to exploit the detection system: from hiding abusive material to framing innocent users, everything is possible. Moreover, using the hash values, inferences can still be made about the data stored on user devices. In our view, based on our results, deep perceptual hashing in its current form is generally not ready for robust client-side scanning and should not be used from a privacy perspective.
翻訳日:2021-11-15 13:47:40 公開日:2021-11-12
# リアルスコアで全自動ページ変換

Fully Automatic Page Turning on Real Scores ( http://arxiv.org/abs/2111.06643v1 )

ライセンス: Link先を確認
Florian Henkel, Stephanie Schwaiger, Gerhard Widmer(参考訳) 本稿では,記号表現を使わずに,実際のスコア,すなわちシート画像を直接操作する自動ページ変換システムのプロトタイプを提案する。 本システムは,完全なシート画像ページを入力として観測し,入ってくる演奏を聴き,画像中の対応する位置を予測するマルチモーダルニューラルネットワークアーキテクチャに基づいている。 本システムの位置推定では,シート画像内の特定の位置に到達すると,単純なヒューリスティックを用いてページをめくるイベントをトリガーする。 概念実証として、我々のシステムを実際のマシンと組み合わせることで、ページをコマンドで物理的に切り替える。

We present a prototype of an automatic page turning system that works directly on real scores, i.e., sheet images, without any symbolic representation. Our system is based on a multi-modal neural network architecture that observes a complete sheet image page as input, listens to an incoming musical performance, and predicts the corresponding position in the image. Using the position estimation of our system, we use a simple heuristic to trigger a page turning event once a certain location within the sheet image is reached. As a proof of concept we further combine our system with an actual machine that will physically turn the page on command.
翻訳日:2021-11-15 13:47:22 公開日:2021-11-12
# マルチモーダル仮想点3次元検出

Multimodal Virtual Point 3D Detection ( http://arxiv.org/abs/2111.06881v1 )

ライセンス: Link先を確認
Tianwei Yin, Xingyi Zhou, Philipp Kr\"ahenb\"uhl(参考訳) lidarベースのセンシングは、現在の自動運転車を駆動する。 急速な進歩にもかかわらず、現在のLidarセンサーは解像度とコストに関して従来のカラーカメラより20年遅れている。 自律運転では、センサーの近くにある大きな物体が容易に見えるが、遠方または小さな物体は1つか2つしか測定できない。 これは特に、これらの物体が危険にさらされている場合の問題です。 一方、同じ物体は搭載されているrgbセンサーではっきりと見える。 本研究では,RGBセンサをLidarベースの3D認識にシームレスに融合する手法を提案する。 提案手法では,3次元の高密度な仮想点を生成するために2次元検出を行う。 これらの仮想点は、通常のライダー測定とともに、いかなる標準ライダーベースの3D検出器にも自然に統合される。 結果として生じるマルチモーダル検出器は単純かつ効果的である。 大規模なnuScenesデータセットの実験結果から,我々のフレームワークは6.6mAPで強力なCenterPointベースラインを向上し,競合する核融合アプローチよりも優れていた。 コードと可視化はhttps://tianweiy.git hub.io/mvp/で確認できる。

Lidar-based sensing drives current autonomous vehicles. Despite rapid progress, current Lidar sensors still lag two decades behind traditional color cameras in terms of resolution and cost. For autonomous driving, this means that large objects close to the sensors are easily visible, but far-away or small objects comprise only one measurement or two. This is an issue, especially when these objects turn out to be driving hazards. On the other hand, these same objects are clearly visible in onboard RGB sensors. In this work, we present an approach to seamlessly fuse RGB sensors into Lidar-based 3D recognition. Our approach takes a set of 2D detections to generate dense 3D virtual points to augment an otherwise sparse 3D point cloud. These virtual points naturally integrate into any standard Lidar-based 3D detectors along with regular Lidar measurements. The resulting multi-modal detector is simple and effective. Experimental results on the large-scale nuScenes dataset show that our framework improves a strong CenterPoint baseline by a significant 6.6 mAP, and outperforms competing fusion approaches. Code and more visualizations are available at https://tianweiy.git hub.io/mvp/
翻訳日:2021-11-15 13:47:12 公開日:2021-11-12
# 高次元における微分プライバシーとロバスト統計

Differential privacy and robust statistics in high dimensions ( http://arxiv.org/abs/2111.06578v1 )

ライセンス: Link先を確認
Xiyang Liu, Weihao Kong, Sewoong Oh(参考訳) 本稿では,差分プライバシー保証を伴う統計的推定問題の統計的効率を特徴付ける普遍的な枠組みを提案する。 高次元Propose-Test-Release (HPTR) と呼ばれる我々のフレームワークは、指数的メカニズム、頑健な統計、Propose-Test-Release メカニズムという3つの重要なコンポーネントの上に構築されている。 これらすべてを結合することはレジリエンスの概念であり、ロバストな統計推定の中心である。 レジリエンスは、アルゴリズムの設計、感度分析、およびPropose-Test-Release におけるテストステップの成功確率分析を導く。 鍵となる洞察は、もし1次元のロバスト統計のみを通してデータにアクセスする指数的なメカニズムを設計すれば、結果の局所感度を劇的に低減できるということである。 レジリエンスを利用することで、緊密な局所感度境界を提供できる。 これらの密接な境界は、しばしば最適に近い公益保証に容易に変換される。 我々は,HPTRを統計的推定問題の特定の事例に適用するための一般的なレシピを示し,平均推定,線形回帰,共分散推定,主成分分析の正準問題について示す。 そこで本研究では,HPTRが最適サンプル複雑性をほぼ達成可能であることを示す汎用ユーティリティ解析手法を提案する。

We introduce a universal framework for characterizing the statistical efficiency of a statistical estimation problem with differential privacy guarantees. Our framework, which we call High-dimensional Propose-Test-Release (HPTR), builds upon three crucial components: the exponential mechanism, robust statistics, and the Propose-Test-Release mechanism. Gluing all these together is the concept of resilience, which is central to robust statistical estimation. Resilience guides the design of the algorithm, the sensitivity analysis, and the success probability analysis of the test step in Propose-Test-Release . The key insight is that if we design an exponential mechanism that accesses the data only via one-dimensional robust statistics, then the resulting local sensitivity can be dramatically reduced. Using resilience, we can provide tight local sensitivity bounds. These tight bounds readily translate into near-optimal utility guarantees in several cases. We give a general recipe for applying HPTR to a given instance of a statistical estimation problem and demonstrate it on canonical problems of mean estimation, linear regression, covariance estimation, and principal component analysis. We introduce a general utility analysis technique that proves that HPTR nearly achieves the optimal sample complexity under several scenarios studied in the literature.
翻訳日:2021-11-15 13:46:54 公開日:2021-11-12
# RATE: リアルタイム位置推定におけるテキスト特徴のノイズと空間性

RATE: Overcoming Noise and Sparsity of Textual Features in Real-Time Location Estimation ( http://arxiv.org/abs/2111.06515v1 )

ライセンス: Link先を確認
Yu Zhang, Wei Wei, Binxuan Huang, Kathleen M. Carley, Yan Zhang(参考訳) ソーシャルメディア利用者のリアルタイム位置推定は、局所検索やイベント検出などの空間的応用の基礎となっている。 ツイートテキストは位置推定において最もよく使われる機能であるが、以前の作品のほとんどはノイズやテキストの特徴の幅に悩まされていた。 本稿では,この2つの課題に取り組むことを目的とする。 トピックモデリングをビルディングブロックとして使用し、地理的トピックの変動や語彙の変動を特徴付けることにより、ベクトルの「ワンホット」が直接使用されないようにする。 ノイズ問題を克服するために、TwitterストリーミングAPIを通じて抽出できる他の機能も組み込んでいます。 実験の結果,RATEアルゴリズムは,領域分類の精度と緯度の平均距離誤差,経度回帰の両面で,いくつかのベンチマーク手法より優れていることがわかった。

Real-time location inference of social media users is the fundamental of some spatial applications such as localized search and event detection. While tweet text is the most commonly used feature in location estimation, most of the prior works suffer from either the noise or the sparsity of textual features. In this paper, we aim to tackle these two problems. We use topic modeling as a building block to characterize the geographic topic variation and lexical variation so that "one-hot" encoding vectors will no longer be directly used. We also incorporate other features which can be extracted through the Twitter streaming API to overcome the noise problem. Experimental results show that our RATE algorithm outperforms several benchmark methods, both in the precision of region classification and the mean distance error of latitude and longitude regression.
翻訳日:2021-11-15 13:45:11 公開日:2021-11-12
# リスクを冒すための2つのステップ

Two steps to risk sensitivity ( http://arxiv.org/abs/2111.06803v1 )

ライセンス: Link先を確認
Chris Gagne and Peter Dayan(参考訳) 分散強化学習(Retributal reinforcement learning, RL) - エージェントが行動の長期的影響について、期待値だけでなく、全てを学習する分野は、最近の大きな関心事である。 分散的視点の最も重要な価値の1つは、結果が完全に確実でない場合にリスクに対する近代的で測定されたアプローチを促進することである。 対照的に、リスクの下での意思決定に関する心理学的および神経科学的調査は、コヒーレンスのような公理的に望ましい性質を欠くプロスペクト理論のような、より崇高な理論モデルを用いてきた。 本稿では,最悪の事例(自動車事故や捕食など)を定量化する条件付きバリュー・アット・リスク(CVaR)と呼ばれる,人間と動物の計画のモデル化に関する特に関連するリスク尺度を検討する。 まず,cvarに対する従来の分布的アプローチを逐次的に適用し,よく知られた二段階課題における意思決定者の選択を再検討し,粘着性と持続性に潜んでいる実質的なリスク回避を明らかにする。 次に、この望ましい特徴を享受するCVaRの代替として、リスク感度、すなわち時間一貫性のさらなる重要な特性について考察する。 様々な形態が人間や動物の計画や行動にどのように影響するかをシミュレーションによって検証する。

Distributional reinforcement learning (RL) -- in which agents learn about all the possible long-term consequences of their actions, and not just the expected value -- is of great recent interest. One of the most important affordances of a distributional view is facilitating a modern, measured, approach to risk when outcomes are not completely certain. By contrast, psychological and neuroscientific investigations into decision making under risk have utilized a variety of more venerable theoretical models such as prospect theory that lack axiomatically desirable properties such as coherence. Here, we consider a particularly relevant risk measure for modeling human and animal planning, called conditional value-at-risk (CVaR), which quantifies worst-case outcomes (e.g., vehicle accidents or predation). We first adopt a conventional distributional approach to CVaR in a sequential setting and reanalyze the choices of human decision-makers in the well-known two-step task, revealing substantial risk aversion that had been lurking under stickiness and perseveration. We then consider a further critical property of risk sensitivity, namely time consistency, showing alternatives to this form of CVaR that enjoy this desirable characteristic. We use simulations to examine settings in which the various forms differ in ways that have implications for human and animal planning and behavior.
翻訳日:2021-11-15 13:44:57 公開日:2021-11-12
# 選択におけるカタストロフィと複合と一貫性

Catastrophe, Compounding & Consistency in Choice ( http://arxiv.org/abs/2111.06804v1 )

ライセンス: Link先を確認
Chris Gagne and Peter Dayan(参考訳) 条件付きバリュー・アット・リスク(CVaR)は、稀で破滅的な出来事が決定よりも与える影響を正確に特徴づける。 このような特徴は、通常の意思決定にも、不安障害などの精神疾患にも、特に災害につながる可能性のある一連の意思決定にも重要である。 CVaRは、他のよく確立されたリスク対策と同様に、このようなシーケンスを複雑に巡り、最近、リスクが平均または倍数になる3つの構造的に異なる形態を定式化した。 残念なことに、既存の認知タスクはこれらのアプローチをうまく区別することができない。ここでは、これらのユニークな特徴を強調し、時間的一貫した2つのアプローチの時間的割引を公式にリンクする例を挙げる。 これらの例は、特に長期の地平線問題や精神病理学的集団において、リスク態度を特徴づけることを目的とした将来の実験の基礎となる。

Conditional value-at-risk (CVaR) precisely characterizes the influence that rare, catastrophic events can exert over decisions. Such characterizations are important for both normal decision-making and for psychiatric conditions such as anxiety disorders -- especially for sequences of decisions that might ultimately lead to disaster. CVaR, like other well-founded risk measures, compounds in complex ways over such sequences -- and we recently formalized three structurally different forms in which risk either averages out or multiplies. Unfortunately, existing cognitive tasks fail to discriminate these approaches well; here, we provide examples that highlight their unique characteristics, and make formal links to temporal discounting for the two of the approaches that are time consistent. These examples can ground future experiments with the broader aim of characterizing risk attitudes, especially for longer horizon problems and in psychopathological populations.
翻訳日:2021-11-15 13:44:36 公開日:2021-11-12
# 最小レート削減によるldrへのクローズドループデータ転写

Closed-Loop Data Transcription to an LDR via Minimaxing Rate Reduction ( http://arxiv.org/abs/2111.06636v1 )

ライセンス: Link先を確認
Xili Dai, Shengbang Tong, Mingyang Li, Ziyang Wu, Kwan Ho Ryan Chan, Pengyuan Zhai, Yaodong Yu, Michael Psenka, Xiaojun Yuan, Heung Yeung Shum, Yi Ma(参考訳) 本研究では,実世界のデータセットに対する明示的な生成モデル学習のための新しい計算フレームワークを提案する。 特に、複数の独立した多次元線型部分空間からなる特徴空間において、多クラス多次元データ分布と { linear discriminative representation (ldr") の間の閉ループ転写を学習することを提案する。 特に、求める最適なエンコーディングとデコーディングのマッピングは、エンコーダとデコーダの間の2人のプレイヤーによるミニマックスゲームの平衡点として定式化することができる。 このゲームの自然効用関数はいわゆる「エム率減少」であり、これは特徴空間における部分空間のようなガウス多様体の混合物間の距離に関する単純な情報理論測度である。 本研究では,制御系からの閉ループ誤差フィードバックから着想を得て,データ空間と特徴空間の任意の分布間の近似距離を最小化する。 この新たな定式化は、Auto-EncodingとGANの概念と利点を統一し、マルチクラスおよび多次元実世界のデータに対する差別的表現と生成的表現の両方を学習する設定に自然に拡張する。 公平な比較の下では、学習したデコーダの視覚的品質とエンコーダの分類性能は、gan、vae、あるいは両方の組み合わせに基づく既存の方法よりも競争力があり、しばしば優れている。 異なるクラスのいわゆる学習された特徴は、特徴空間内のほぼ独立な主部分空間に明示的にマッピングされ、各クラス内の様々な視覚的属性は各部分空間内の独立な主部分空間によってモデル化される。

This work proposes a new computational framework for learning an explicit generative model for real-world datasets. In particular we propose to learn {\em a closed-loop transcription} between a multi-class multi-dimensional data distribution and a { linear discriminative representation (LDR)} in the feature space that consists of multiple independent multi-dimensional linear subspaces. In particular, we argue that the optimal encoding and decoding mappings sought can be formulated as the equilibrium point of a {\em two-player minimax game between the encoder and decoder}. A natural utility function for this game is the so-called {\em rate reduction}, a simple information-theoreti c measure for distances between mixtures of subspace-like Gaussians in the feature space. Our formulation draws inspiration from closed-loop error feedback from control systems and avoids expensive evaluating and minimizing approximated distances between arbitrary distributions in either the data space or the feature space. To a large extent, this new formulation unifies the concepts and benefits of Auto-Encoding and GAN and naturally extends them to the settings of learning a {\em both discriminative and generative} representation for multi-class and multi-dimensional real-world data. Our extensive experiments on many benchmark imagery datasets demonstrate tremendous potential of this new closed-loop formulation: under fair comparison, visual quality of the learned decoder and classification performance of the encoder is competitive and often better than existing methods based on GAN, VAE, or a combination of both. We notice that the so learned features of different classes are explicitly mapped onto approximately {\em independent principal subspaces} in the feature space; and diverse visual attributes within each class are modeled by the {\em independent principal components} within each subspace.
翻訳日:2021-11-15 13:44:07 公開日:2021-11-12
# (参考訳) Entmaxの高速化 [全文訳有]

Speeding Up Entmax ( http://arxiv.org/abs/2111.06832v1 )

ライセンス: CC BY 4.0
Maxat Tezekbayev, Vassilina Nikoulina, Matthias Gall\'e, Zhenisbek Assylbekov(参考訳) Softmaxは、ロジットの正規化に関して、現代のニューラルネットワークにおける言語処理のデファクトスタンダードである。 しかし、単語内の各トークンが生成ステップ毎に選択される確率がゼロではない確率分布を生成することにより、テキスト生成における様々な問題が発生する。 arXiv:1905.05702の$\alpha$-entmaxはこの問題を解決するが、ソフトマックスよりもかなり遅い。 本稿では,ソフトマックスを最適化し,機械翻訳タスクにおいて同等以上の性能を達成し,その頑健な特性を保った$\alpha$-entmaxの代替案を提案する。

Softmax is the de facto standard in modern neural networks for language processing when it comes to normalizing logits. However, by producing a dense probability distribution each token in the vocabulary has a nonzero chance of being selected at each generation step, leading to a variety of reported problems in text generation. $\alpha$-entmax of arXiv:1905.05702 solves this problem, but is considerably slower than softmax. In this paper, we propose an alternative to $\alpha$-entmax, which keeps its virtuous characteristics, but is as fast as optimized softmax and achieves on par or better performance in machine translation task.
翻訳日:2021-11-15 13:41:25 公開日:2021-11-12
# 対面防止のためのメタ教師

Meta-Teacher For Face Anti-Spoofing ( http://arxiv.org/abs/2111.06638v1 )

ライセンス: Link先を確認
Yunxiao Qin, Zitong Yu, Longbin Yan, Zezheng Wang, Chenxu Zhao, Zhen Lei(参考訳) Face Anti-Spoofing (FAS)は、プレゼンテーションアタック(PA)から顔認識を保証する。 既存のFAS法は通常、手作りのバイナリまたはピクセルワイドラベルでPA検出器を監督する。 しかし、手作りラベルはPA検出器を十分に学習し、本質的なスプーフィングキューを監督する最も適切な方法ではないかもしれない。 そこで本研究では,手作りラベルの代わりに,PA検出器をより効果的に監視するためのメタティーチンガー(MT-FAS)法を提案する。 メタ教師は双方向の最適化方法で訓練され、PA検出器の監視能力を学ぶ。 バイレベル最適化には2つの重要な要素がある。 1) メタ教師が学習セット上で検出器の学習プロセスを監督する下位レベルの訓練 2)検知器の検証損失を最小限に抑え,メタ教師の指導性能を最適化した高レベルの訓練を行う。 メタ教師は検出器(学習者)をより良く教えるために明示的に訓練されているのに対し、既存の教師は指導能力を無視した優れた精度で訓練されている。 5つのfasベンチマークに関する広範囲な実験により、mt-fasが提案された。 1) 手作りラベル及び既存の教師教育モデルよりも適切な監督を提供する。 2) PA検出器の性能は大幅に向上した。

Face anti-spoofing (FAS) secures face recognition from presentation attacks (PAs). Existing FAS methods usually supervise PA detectors with handcrafted binary or pixel-wise labels. However, handcrafted labels may are not the most adequate way to supervise PA detectors learning sufficient and intrinsic spoofing cues. Instead of using the handcrafted labels, we propose a novel Meta-Teacher FAS (MT-FAS) method to train a meta-teacher for supervising PA detectors more effectively. The meta-teacher is trained in a bi-level optimization manner to learn the ability to supervise the PA detectors learning rich spoofing cues. The bi-level optimization contains two key components: 1) a lower-level training in which the meta-teacher supervises the detector's learning process on the training set; and 2) a higher-level training in which the meta-teacher's teaching performance is optimized by minimizing the detector's validation loss. Our meta-teacher differs significantly from existing teacher-student models because the meta-teacher is explicitly trained for better teaching the detector (student), whereas existing teachers are trained for outstanding accuracy neglecting teaching ability. Extensive experiments on five FAS benchmarks show that with the proposed MT-FAS, the trained meta-teacher 1) provides better-suited supervision than both handcrafted labels and existing teacher-student models; and 2) significantly improves the performances of PA detectors.
翻訳日:2021-11-15 13:30:54 公開日:2021-11-12
# 少数道路物体検出におけるクラス不均衡克服のための注意誘導コサインマージン

Attention Guided Cosine Margin For Overcoming Class-Imbalance in Few-Shot Road Object Detection ( http://arxiv.org/abs/2111.06639v1 )

ライセンス: Link先を確認
Ashutosh Agarwal and Anay Majee and Anbumani Subramanian and Chetan Arora(参考訳) Few-shot Object Detection (FSOD)は、少数のデータサンプルのみを与えられた画像内のオブジェクトをローカライズし、分類する。 FSOD研究の最近の傾向は、破滅的な忘れ込みや階級混乱につながるメトリックとメタラーニング技術の採用を示している。 メトリクス学習に基づくfsod手法におけるこれらの落とし穴を克服するために,オブジェクト検出器の分類ヘッドにおいて,より密接かつ明確に分離されたクラス特異的特徴クラスタの作成を容易にする注意誘導コサインマージン(agcm)を導入する。 提案モジュールは,共起クラス間のクラス内分散を低減し,破滅的忘れを最小化する。 同時に、提案されたコサインマージンクロスエントロピー損失は、既に学習された(ベース)クラスと新しく追加された(ノベル)クラスの間のクラス混乱の課題を克服するために、混乱クラス間の角マージンを増加させる。 我々は、人気のあるFSODベンチマークPASCAL-VOCと並行して、現実世界のクラス不均衡設定を示す、挑戦的なIndia Driving Dataset(IDD)について実験を行った。 提案手法は,IDD-OSでは最大6.4mAP,IDD-10では最大2.0mAP,SoTAでは最大10ショット設定では最大2。 PASCAL-VOCデータセットでは、既存のSoTAアプローチを最大4.9mAPポイントで上回ります。

Few-shot object detection (FSOD) localizes and classifies objects in an image given only a few data samples. Recent trends in FSOD research show the adoption of metric and meta-learning techniques, which are prone to catastrophic forgetting and class confusion. To overcome these pitfalls in metric learning based FSOD techniques, we introduce Attention Guided Cosine Margin (AGCM) that facilitates the creation of tighter and well separated class-specific feature clusters in the classification head of the object detector. Our novel Attentive Proposal Fusion (APF) module minimizes catastrophic forgetting by reducing the intra-class variance among co-occurring classes. At the same time, the proposed Cosine Margin Cross-Entropy loss increases the angular margin between confusing classes to overcome the challenge of class confusion between already learned (base) and newly added (novel) classes. We conduct our experiments on the challenging India Driving Dataset (IDD), which presents a real-world class-imbalanced setting alongside popular FSOD benchmark PASCAL-VOC. Our method outperforms State-of-the-Art (SoTA) approaches by up to 6.4 mAP points on the IDD-OS and up to 2.0 mAP points on the IDD-10 splits for the 10-shot setting. On the PASCAL-VOC dataset, we outperform existing SoTA approaches by up to 4.9 mAP points.
翻訳日:2021-11-15 13:30:31 公開日:2021-11-12
# STFL: グラフニューラルネットワークのための時間空間フェデレーション学習フレームワーク

STFL: A Temporal-Spatial Federated Learning Framework for Graph Neural Networks ( http://arxiv.org/abs/2111.06750v1 )

ライセンス: Link先を確認
Guannan Lou, Yuze Liu, Tiehua Zhang, Xi Zheng(参考訳) グラフニューラルネットワーク(STFL)のための時空間フェデレーション学習フレームワークを提案する。 このフレームワークは、入力された空間-時間データの基盤となる相関を調べ、それをノードの特徴と隣接マトリックスの両方に変換する。 このフレームワークにおける連合学習設定は、優れたモデル一般化を達成しながらデータのプライバシを確保する。 睡眠ステージデータセットISRUC_S3の実験結果から,STFLがグラフ予測タスクに与える影響が示された。

We present a spatial-temporal federated learning framework for graph neural networks, namely STFL. The framework explores the underlying correlation of the input spatial-temporal data and transform it to both node features and adjacency matrix. The federated learning setting in the framework ensures data privacy while achieving a good model generalization. Experiments results on the sleep stage dataset, ISRUC_S3, illustrate the effectiveness of STFL on graph prediction tasks.
翻訳日:2021-11-15 13:29:41 公開日:2021-11-12
# AWD3: 推定バイアスの動的低減

AWD3: Dynamic Reduction of the Estimation Bias ( http://arxiv.org/abs/2111.06780v1 )

ライセンス: Link先を確認
Dogan C. Cicek, Enes Duran, Baturay Saglam, Kagan Kaya, Furkan B. Mutlu, Suleyman S. Kozat(参考訳) 価値に基づく深層強化学習(RL)アルゴリズムは、主に関数近似と時間差(TD)学習に起因する推定バイアスに悩まされる。 この問題は、不良状態-作用値の推定を誘導し、学習アルゴリズムの性能と堅牢性を損なう。 いくつかの手法が提案されているが、学習アルゴリズムはこのバイアスに苦しんでいる。 本稿では,経験再生機構を用いた非政治連続制御アルゴリズムにおける推定バイアスを除去する手法を提案する。 我々は、重み付けハイパーパラメータベータを重み付けした重み付きツイン遅延Deep Deterministic Policy Gradientアルゴリズムで適応的に学習する。 本手法をadaptive-wd3 (awd3) と呼ぶ。 OpenAIのジムの継続的な制御環境を通じて、我々のアルゴリズムは、最先端の政治政策勾配学習アルゴリズムにマッチするか、より優れています。

Value-based deep Reinforcement Learning (RL) algorithms suffer from the estimation bias primarily caused by function approximation and temporal difference (TD) learning. This problem induces faulty state-action value estimates and therefore harms the performance and robustness of the learning algorithms. Although several techniques were proposed to tackle, learning algorithms still suffer from this bias. Here, we introduce a technique that eliminates the estimation bias in off-policy continuous control algorithms using the experience replay mechanism. We adaptively learn the weighting hyper-parameter beta in the Weighted Twin Delayed Deep Deterministic Policy Gradient algorithm. Our method is named Adaptive-WD3 (AWD3). We show through continuous control environments of OpenAI gym that our algorithm matches or outperforms the state-of-the-art off-policy policy gradient learning algorithms.
翻訳日:2021-11-15 13:29:35 公開日:2021-11-12
# 分布のない時系列予測のための量子交叉のない量子関数の学習

Learning Quantile Functions without Quantile Crossing for Distribution-free Time Series Forecasting ( http://arxiv.org/abs/2111.06581v1 )

ライセンス: Link先を確認
Youngsuk Park, Danielle Maddix, Fran\c{c}ois-Xavier Aubet, Kelvin Kan, Jan Gasthaus, Yuyang Wang(参考訳) 量子回帰は、不確実性を定量化し、基礎となる分布に挑戦し、しばしば複数の量子レベルの共同学習を通して完全な確率的予測を提供する効果的な手法である。 しかし、これらの合同量子化回帰の共通の欠点は、条件付き量子化関数の望ましい単調性に反する「textit{quantile crossing}」である。 本研究では、単純なニューラルネットワーク層による量子交差を解消するフレキシブルで効率的な分布自由な量子化推定フレームワークであるインクリメンタル(スプライン)量子関数I(S)QFを提案する。 さらに、I(S)QFインター/エクストラポレートは、基礎となるトレーニングと異なる任意の量子レベルを予測する。 I(S)QF表現の連続的ランク付け確率スコアを解析的に評価し、この手法をNNベースの時系列予測ケースに適用し、非トレーニング量子レベルに対する高価な再トレーニングコストの削減が特に重要であることを示す。 また、シーケンス・ツー・シーケンス・セッティングに基づく提案手法の一般化誤差解析も提供する。 最後に、広範囲な実験により、他のベースラインに対する一貫性と精度の誤差の改善が示されている。

Quantile regression is an effective technique to quantify uncertainty, fit challenging underlying distributions, and often provide full probabilistic predictions through joint learnings over multiple quantile levels. A common drawback of these joint quantile regressions, however, is \textit{quantile crossing}, which violates the desirable monotone property of the conditional quantile function. In this work, we propose the Incremental (Spline) Quantile Functions I(S)QF, a flexible and efficient distribution-free quantile estimation framework that resolves quantile crossing with a simple neural network layer. Moreover, I(S)QF inter/extrapolate to predict arbitrary quantile levels that differ from the underlying training ones. Equipped with the analytical evaluation of the continuous ranked probability score of I(S)QF representations, we apply our methods to NN-based times series forecasting cases, where the savings of the expensive re-training costs for non-trained quantile levels is particularly significant. We also provide a generalization error analysis of our proposed approaches under the sequence-to-sequence setting. Lastly, extensive experiments demonstrate the improvement of consistency and accuracy errors over other baselines.
翻訳日:2021-11-15 13:29:22 公開日:2021-11-12
# グラフニューラルネットワークにおけるノード分類の簡易化

Simplifying approach to Node Classification in Graph Neural Networks ( http://arxiv.org/abs/2111.06748v1 )

ライセンス: Link先を確認
Sunil Kumar Maurya, Xin Liu and Tsuyoshi Murata(参考訳) グラフニューラルネットワークは、グラフ構造化データから学ぶのに欠かせないツールの1つとなり、その有用性は様々なタスクで示されている。 近年、アーキテクチャ設計が大幅に改善され、様々な予測タスクのパフォーマンスが向上している。 一般に、これらのニューラルネットワークアーキテクチャは、同一層の学習可能な重み行列を用いて、ノードの特徴集約と特徴変換を組み合わせる。 これにより、さまざまなホップから集約されたノード機能の重要性と、ニューラルネットワーク層の表現性を分析することが困難になる。 異なるグラフデータセットが特徴量やクラスラベル分布の相同性および異種性を示すため、事前情報を持たない予測タスクにおいてどの特徴が重要かを理解することが不可欠となる。 本研究では、グラフニューラルネットワークのノード特徴集約ステップと深さを分離し、異なる集約特徴が予測性能にどのように寄与するかを実証分析する。 集約ステップによって生成された全ての機能が有用であるとは限らないことを示し、これらの少ない情報的特徴を用いることは、GNNモデルの性能に有害であることを示す。 実験を通じて,これらの機能のサブセットを学習することで,さまざまなデータセットのパフォーマンス向上が期待できることを示した。 ホップ距離の異なる近傍から集約された機能のレギュラライザとソフトセレクタとしてsoftmaxを用い,gnn層上でのl2正規化を提案する。 これらの手法を組み合わせることで、単純で浅い特徴選択グラフニューラルネットワーク(FSGNN)を提案し、提案モデルがノード分類タスクの9つのベンチマークデータセットにおいて、最先端のGNNモデルと同等またはそれ以上の精度を達成し、51.1%の大幅な改善を実現していることを示す。

Graph Neural Networks have become one of the indispensable tools to learn from graph-structured data, and their usefulness has been shown in wide variety of tasks. In recent years, there have been tremendous improvements in architecture design, resulting in better performance on various prediction tasks. In general, these neural architectures combine node feature aggregation and feature transformation using learnable weight matrix in the same layer. This makes it challenging to analyze the importance of node features aggregated from various hops and the expressiveness of the neural network layers. As different graph datasets show varying levels of homophily and heterophily in features and class label distribution, it becomes essential to understand which features are important for the prediction tasks without any prior information. In this work, we decouple the node feature aggregation step and depth of graph neural network, and empirically analyze how different aggregated features play a role in prediction performance. We show that not all features generated via aggregation steps are useful, and often using these less informative features can be detrimental to the performance of the GNN model. Through our experiments, we show that learning certain subsets of these features can lead to better performance on wide variety of datasets. We propose to use softmax as a regularizer and "soft-selector" of features aggregated from neighbors at different hop distances; and L2-Normalization over GNN layers. Combining these techniques, we present a simple and shallow model, Feature Selection Graph Neural Network (FSGNN), and show empirically that the proposed model achieves comparable or even higher accuracy than state-of-the-art GNN models in nine benchmark datasets for the node classification task, with remarkable improvements up to 51.1%.
翻訳日:2021-11-15 13:29:02 公開日:2021-11-12
# 部分可観測マルコフ決定過程におけるオフポリシー評価のためのミニマックス学習手法

A Minimax Learning Approach to Off-Policy Evaluation in Partially Observable Markov Decision Processes ( http://arxiv.org/abs/2111.06784v1 )

ライセンス: Link先を確認
Chengchun Shi, Masatoshi Uehara and Nan Jiang(参考訳) 我々は,部分可観測マルコフ決定プロセス (pomdps) において,評価方針は可観測変数のみに依存し,行動政策は可観測潜在変数に依存する。 既存の作業では、計測されていない共同創設者を前提とせず、観察と状態空間の両方が表向きな設定に集中する。 このように、これらの手法は、計測されていない共同創設者の存在における大きなバイアスや、連続的あるいは大規模な観測/状態空間の設定における大きなばらつきに悩まされる。 そこで本研究では,POMDP における OPE の新たな識別手法を提案し,対象ポリシー値と観測データ分布をリンクするブリッジ関数を導入する。 完全観測可能なMDPでは、これらのブリッジ関数は、評価と行動ポリシーの間の親しみやすい値関数と限界密度比に還元される。 次に,これらのブリッジ関数を学習するための最小推定法を提案する。 本提案は一般関数近似を許容し,連続的あるいは大規模観測/状態空間の設定に適用できる。 最後に,これらの推定橋梁関数に基づいて,値関数に基づく推定橋梁関数,限界化重要度サンプリング推定器,二重ロバスト推定器の3つの推定橋梁関数を構築した。 その非漸近性と漸近性は詳細に研究されている。

We consider off-policy evaluation (OPE) in Partially Observable Markov Decision Processes (POMDPs), where the evaluation policy depends only on observable variables and the behavior policy depends on unobservable latent variables. Existing works either assume no unmeasured confounders, or focus on settings where both the observation and the state spaces are tabular. As such, these methods suffer from either a large bias in the presence of unmeasured confounders, or a large variance in settings with continuous or large observation/state spaces. In this work, we first propose novel identification methods for OPE in POMDPs with latent confounders, by introducing bridge functions that link the target policy's value and the observed data distribution. In fully-observable MDPs, these bridge functions reduce to the familiar value functions and marginal density ratios between the evaluation and the behavior policies. We next propose minimax estimation methods for learning these bridge functions. Our proposal permits general function approximation and is thus applicable to settings with continuous or large observation/state spaces. Finally, we construct three estimators based on these estimated bridge functions, corresponding to a value function-based estimator, a marginalized importance sampling estimator, and a doubly-robust estimator. Their nonasymptotic and asymptotic properties are investigated in detail.
翻訳日:2021-11-15 13:27:42 公開日:2021-11-12
# adcb : 因果効果の観察的評価のためのアルツハイマー病指標

ADCB: An Alzheimer's disease benchmark for evaluating observational estimators of causal effects ( http://arxiv.org/abs/2111.06811v1 )

ライセンス: Link先を確認
Newton Mwai Kinyanjui, Fredrik D. Johansson(参考訳) シミュレータは、検証不能な仮定や実世界のシステムへの介入能力に依存しないが、実際のアプリケーションの重要な側面を捉えるには単純すぎるため、因果効果推定のためのユニークなベンチマークを作成する。 本稿では,医療データの複雑度をモデル化し,因果効果と政策推定器のベンチマークを可能にしたアルツハイマー病のシミュレータを提案する。 本システムはアルツハイマー病の神経画像化イニシアチブ(adni)データセットと地上手作り部品に適合し,比較治療と観察的治療パターンの結果を得た。 シミュレータは、潜在変数、効果の不均一性、観測履歴の長さ、行動ポリシー、サンプルサイズといった因果推論タスクの性質と難易度を変化させるパラメータを含む。 シミュレーションを用いて平均および条件付き処理効果の推定値を比較する。

Simulators make unique benchmarks for causal effect estimation since they do not rely on unverifiable assumptions or the ability to intervene on real-world systems, but are often too simple to capture important aspects of real applications. We propose a simulator of Alzheimer's disease aimed at modeling intricacies of healthcare data while enabling benchmarking of causal effect and policy estimators. We fit the system to the Alzheimer's Disease Neuroimaging Initiative (ADNI) dataset and ground hand-crafted components in results from comparative treatment trials and observational treatment patterns. The simulator includes parameters which alter the nature and difficulty of the causal inference tasks, such as latent variables, effect heterogeneity, length of observed history, behavior policy and sample size. We use the simulator to compare estimators of average and conditional treatment effects.
翻訳日:2021-11-15 13:27:20 公開日:2021-11-12
# Deceive D:限定データを用いたGANトレーニングのための適応擬似強化

Deceive D: Adaptive Pseudo Augmentation for GAN Training with Limited Data ( http://arxiv.org/abs/2111.06849v1 )

ライセンス: Link先を確認
Liming Jiang, Bo Dai, Wayne Wu, Chen Change Loy(参考訳) generative adversarial networks (gans) は通常、高忠実度画像を合成するために訓練のために十分なデータを必要とする。 近年の研究では、GANを限られたデータで訓練することは、ジェネレータの収束を阻害する根本原因である判別器の過度な適合により、依然として困難であることが示されている。 本稿では,ジェネレータと識別器の健全な競争を促進するために,適応的擬似拡張法(apa)と呼ばれる新しい戦略を提案する。 標準データ拡張やモデル正規化に依存する既存のアプローチの代替方法として、apaは、ジェネレータ自体を使用して生成した画像による実際のデータ分布を増強することで過剰フィッティングを緩和し、判別器を適応的に欺く。 大規模な実験は、低データ状態における合成品質の改善におけるAPAの有効性を示す。 新たなトレーニング戦略の収束と合理性を検討するための理論的分析を提供する。 APAはシンプルで効果的です。 これは、StyleGAN2のような強力な現代のGANに、無視できる計算コストでシームレスに追加することができる。

Generative adversarial networks (GANs) typically require ample data for training in order to synthesize high-fidelity images. Recent studies have shown that training GANs with limited data remains formidable due to discriminator overfitting, the underlying cause that impedes the generator's convergence. This paper introduces a novel strategy called Adaptive Pseudo Augmentation (APA) to encourage healthy competition between the generator and the discriminator. As an alternative method to existing approaches that rely on standard data augmentations or model regularization, APA alleviates overfitting by employing the generator itself to augment the real data distribution with generated images, which deceives the discriminator adaptively. Extensive experiments demonstrate the effectiveness of APA in improving synthesis quality in the low-data regime. We provide a theoretical analysis to examine the convergence and rationality of our new training strategy. APA is simple and effective. It can be added seamlessly to powerful contemporary GANs, such as StyleGAN2, with negligible computational cost.
翻訳日:2021-11-15 13:27:06 公開日:2021-11-12
# 非線形テンソルリングネットワーク

Nonlinear Tensor Ring Network ( http://arxiv.org/abs/2111.06532v1 )

ライセンス: Link先を確認
Xiao Peng Li, Qi Liu and Hing Cheung So(参考訳) 最先端のディープニューラルネットワーク(DNN)は、さまざまな現実世界のアプリケーションに広く適用されており、認知問題に対して大きなパフォーマンスを実現している。 しかし、DNNの幅とアーキテクチャの深さの増大は、ストレージとメモリコストに挑戦する膨大なパラメータをもたらし、ポータブルデバイスなどのリソース制約のあるプラットフォームでのDNNの使用を制限する。 冗長モデルをコンパクトなモデルに変換することで、圧縮技術はストレージとメモリ消費を減らすための実用的な解決策となる。 本稿では,完全連結層と畳み込み層がテンソル環分解によって圧縮される非線形テンソルリングネットワーク(ntrn)を開発した。 さらに、圧縮による精度損失を軽減するために、圧縮層内のテンソル収縮及び畳み込み操作に非線形活性化関数を埋め込む。 実験結果は,2つの基本ニューラルネットワーク,lenet-5とvgg-11を用いた画像分類におけるntrnの有効性と優位性を示す。 MNIST、Fashion MNIST、Cifar-10。

The state-of-the-art deep neural networks (DNNs) have been widely applied for various real-world applications, and achieved significant performance for cognitive problems. However, the increment of DNNs' width and depth in architecture results in a huge amount of parameters to challenge the storage and memory cost, limiting to the usage of DNNs on resource-constrained platforms, such as portable devices. By converting redundant models into compact ones, compression technique appears to be a practical solution to reducing the storage and memory consumption. In this paper, we develop a nonlinear tensor ring network (NTRN) in which both fullyconnected and convolutional layers are compressed via tensor ring decomposition. Furthermore, to mitigate the accuracy loss caused by compression, a nonlinear activation function is embedded into the tensor contraction and convolution operations inside the compressed layer. Experimental results demonstrate the effectiveness and superiority of the proposed NTRN for image classification using two basic neural networks, LeNet-5 and VGG-11 on three datasets, viz. MNIST, Fashion MNIST and Cifar-10.
翻訳日:2021-11-15 13:26:27 公開日:2021-11-12
# Deepstruct -- ディープラーニングとグラフ理論をリンクする

deepstruct -- linking deep learning and graph theory ( http://arxiv.org/abs/2111.06679v1 )

ライセンス: Link先を確認
Julian Stier and Michael Granitzer(参考訳) deepstructはディープラーニングモデルとグラフ理論を結び、異なるグラフ構造をニューラルネットワークに課したり、トレーニングされたニューラルネットワークモデルからグラフ構造を抽出することができる。 そのため、deepstructは、初期グラフに基づいて作成可能な、異なる制限を持つディープニューラルネットワークモデルを提供する。 さらに、トレーニングされたモデルからグラフ構造を抽出するツールも利用可能である。 グラフを抽出するこのステップは、わずか数十のパラメータのモデルであっても計算コストが高く、難しい問題を引き起こす。 deepstructは、プルーニング、ニューラルアーキテクチャ検索、自動ネットワーク設計、ニューラルネットワークの構造解析の研究をサポートする。

deepstruct connects deep learning models and graph theory such that different graph structures can be imposed on neural networks or graph structures can be extracted from trained neural network models. For this, deepstruct provides deep neural network models with different restrictions which can be created based on an initial graph. Further, tools to extract graph structures from trained models are available. This step of extracting graphs can be computationally expensive even for models of just a few dozen thousand parameters and poses a challenging problem. deepstruct supports research in pruning, neural architecture search, automated network design and structure analysis of neural networks.
翻訳日:2021-11-15 13:26:11 公開日:2021-11-12
# 説明可能性と第四次AI革命

Explainability and the Fourth AI Revolution ( http://arxiv.org/abs/2111.06773v1 )

ライセンス: Link先を確認
Loizos Michael(参考訳) この章では、AIを、データの組織化のための自動化プロセスのプリズムから、現在の世代のAIシステムから次のAIシステムへの移行において、説明可能性が果たす役割を例示します。

This chapter discusses AI from the prism of an automated process for the organization of data, and exemplifies the role that explainability has to play in moving from the current generation of AI systems to the next one, where the role of humans is lifted from that of data annotators working for the AI systems to that of collaborators working with the AI systems.
翻訳日:2021-11-15 13:26:01 公開日:2021-11-12
# Epileptic Seizure 検出のための隠れマルコフ構造を持つ脳波の時系列スケール混合モデル

A Time-Series Scale Mixture Model of EEG with a Hidden Markov Structure for Epileptic Seizure Detection ( http://arxiv.org/abs/2111.06526v1 )

ライセンス: Link先を確認
Akira Furui, Tomoyuki Akiyama, and Toshio Tsuji(参考訳) 本稿では,脳波(EEG)におけるてんかん発作を検出するため,マルコフ転移とスケール混合分布に基づく時系列確率モデルを提案する。 提案モデルでは,各時点の脳波信号はガウス分布に従ってランダムな変数であると仮定する。 ガウス分布の共分散行列は、共分散の確率的変動をもたらすランダム変数でもある潜在スケールパラメータで重み付けされる。 この確率的関係の背景にマルコフ連鎖を持つ潜在状態変数を導入することにより、潜在スケールパラメータの分布の時系列変化をてんかん発作の状態に応じて表現することができる。 本研究では,臨床データセットから分解した複数の周波数帯域を持つ脳波を用いた発作検出モデルの性能評価を行った。 その結果,提案モデルは感度の高い発作を検出でき,いくつかのベースラインよりも優れていた。

In this paper, we propose a time-series stochastic model based on a scale mixture distribution with Markov transitions to detect epileptic seizures in electroencephalograp hy (EEG). In the proposed model, an EEG signal at each time point is assumed to be a random variable following a Gaussian distribution. The covariance matrix of the Gaussian distribution is weighted with a latent scale parameter, which is also a random variable, resulting in the stochastic fluctuations of covariances. By introducing a latent state variable with a Markov chain in the background of this stochastic relationship, time-series changes in the distribution of latent scale parameters can be represented according to the state of epileptic seizures. In an experiment, we evaluated the performance of the proposed model for seizure detection using EEGs with multiple frequency bands decomposed from a clinical dataset. The results demonstrated that the proposed model can detect seizures with high sensitivity and outperformed several baselines.
翻訳日:2021-11-15 13:25:52 公開日:2021-11-12
# (参考訳) Causal Multi-Agent Reinforcement Learning: レビューとオープン問題 [全文訳有]

Causal Multi-Agent Reinforcement Learning: Review and Open Problems ( http://arxiv.org/abs/2111.06721v1 )

ライセンス: CC BY 4.0
St John Grimbly, Jonathan Shock, Arnu Pretorius(参考訳) 本稿では,マルチエージェント強化学習(MARL)の分野とその因果性研究の手法との共通点について紹介する。 marlの重要な課題を強調し、因果メソッドがそれらに取り組むのにどのように役立つかという文脈で議論する。 MARLの「因果的第一」視点への移動を促進する。 具体的には、因果性は安全性、解釈可能性、堅牢性を向上し、同時に創発的行動に対する強力な理論的保証を提供する。 我々は、共通の課題に対する潜在的な解決策について議論し、この文脈を用いて将来の研究方向性を動機づける。

This paper serves to introduce the reader to the field of multi-agent reinforcement learning (MARL) and its intersection with methods from the study of causality. We highlight key challenges in MARL and discuss these in the context of how causal methods may assist in tackling them. We promote moving toward a 'causality first' perspective on MARL. Specifically, we argue that causality can offer improved safety, interpretability, and robustness, while also providing strong theoretical guarantees for emergent behaviour. We discuss potential solutions for common challenges, and use this context to motivate future research directions.
翻訳日:2021-11-15 13:24:24 公開日:2021-11-12
# ロバスト大語彙トピック推論のためのオンザフライ整形

On-the-Fly Rectification for Robust Large-Vocabulary Topic Inference ( http://arxiv.org/abs/2111.06580v1 )

ライセンス: Link先を確認
Moontae Lee, Sungjun Cho, Kun Dong, David Mimno, David Bindel(参考訳) 多くのデータ領域において、オブジェクトの結合外観に関する共起統計は強力に情報的である。 教師なし学習問題を共起統計の分解に変換することで、スペクトルアルゴリズムは潜在トピック分析やコミュニティ検出のような後進推論のための透明で効率的なアルゴリズムを提供する。 しかし、オブジェクト語彙が大きくなるにつれて、共起統計に基づく推論アルゴリズムの保存と実行が急速に高価になる。 モデル仮定を裏付ける重要なプロセスである再帰的共起は、希少な用語の存在下でますます重要になっているが、現在の技術は大きな語彙にスケールできない。 本稿では,語彙の大きさと潜在空間の次元に優雅にスケールし,共起統計を同時に圧縮・修正する手法を提案する。 また, 圧縮統計から潜在変数を学習する新しいアルゴリズムを提案し, 従来のテキストデータと非テキストデータの両方において, 提案手法が両立することを確認した。

Across many data domains, co-occurrence statistics about the joint appearance of objects are powerfully informative. By transforming unsupervised learning problems into decompositions of co-occurrence statistics, spectral algorithms provide transparent and efficient algorithms for posterior inference such as latent topic analysis and community detection. As object vocabularies grow, however, it becomes rapidly more expensive to store and run inference algorithms on co-occurrence statistics. Rectifying co-occurrence, the key process to uphold model assumptions, becomes increasingly more vital in the presence of rare terms, but current techniques cannot scale to large vocabularies. We propose novel methods that simultaneously compress and rectify co-occurrence statistics, scaling gracefully with the size of vocabulary and the dimension of latent space. We also present new algorithms learning latent variables from the compressed statistics, and verify that our methods perform comparably to previous approaches on both textual and non-textual data.
翻訳日:2021-11-15 13:03:14 公開日:2021-11-12
# 畳み込みニューラルネットワークによる音声信号からのバングラ斑点の認識

A Convolutional Neural Network Based Approach to Recognize Bangla Spoken Digits from Speech Signal ( http://arxiv.org/abs/2111.06625v1 )

ライセンス: Link先を確認
Ovishake Sen, Al-Mahmud and Pias Roy(参考訳) 音声認識(英: speech recognition)とは、人間の音声信号をテキストや単語、コンピュータや他の機械で容易に理解できる形で変換する技術である。 バングラの数字認識システムに関するいくつかの研究があり、その大半は性別、年齢、方言、その他の変数にほとんど変化のない小さなデータセットを使用していた。 バングラデシュの様々な性別、年齢、方言の人々の音声記録を用いて、この研究において「0-9」バングラ数字の音声データセットを作成した。 ここで、400個のノイズとノイズのないサンプルがデータセットの作成のために記録されている。 MFCC(Mel Frequency Cepstrum Coefficients)は生音声データから有意な特徴を抽出するために用いられている。 次に,バングラ数字を検出するために畳み込みニューラルネットワーク(cnns)を用いた。 提案手法は、データセット全体を通して97.1%の精度で'0-9'バングラ音声桁を認識する。 モデルの効率も10倍のクロスバリデーションを用いて評価され、96.7%の精度を得た。

Speech recognition is a technique that converts human speech signals into text or words or in any form that can be easily understood by computers or other machines. There have been a few studies on Bangla digit recognition systems, the majority of which used small datasets with few variations in genders, ages, dialects, and other variables. Audio recordings of Bangladeshi people of various genders, ages, and dialects were used to create a large speech dataset of spoken '0-9' Bangla digits in this study. Here, 400 noisy and noise-free samples per digit have been recorded for creating the dataset. Mel Frequency Cepstrum Coefficients (MFCCs) have been utilized for extracting meaningful features from the raw speech data. Then, to detect Bangla numeral digits, Convolutional Neural Networks (CNNs) were utilized. The suggested technique recognizes '0-9' Bangla spoken digits with 97.1% accuracy throughout the whole dataset. The efficiency of the model was also assessed using 10-fold crossvalidation, which yielded a 96.7% accuracy.
翻訳日:2021-11-15 13:02:57 公開日:2021-11-12
# (参考訳) 会話勧告:理論モデルと複雑度解析

Conversational Recommendation: Theoretical Model and Complexity Analysis ( http://arxiv.org/abs/2111.05578v2 )

ライセンス: CC BY 4.0
Tommaso Di Noia, Francesco Donini, Dietmar Jannach, Fedelucio Narducci, Claudio Pomo(参考訳) リコメンダシステム(Recommender system)は、個々のユーザのニーズや嗜好に関する知識を用いて、パーソナライズされた方法で情報過負荷の状況に対する関心項目を見つけるのに役立つソフトウェアアプリケーションである。 対話型レコメンデーションアプローチでは、これらのニーズと嗜好は対話型マルチターンダイアログでシステムによって獲得される。 このようなダイアログを駆動する文献における一般的なアプローチは、望まれない項目の特徴や個々の項目に関する好みについて、徐々にユーザーに尋ねることである。 この文脈における中心的な研究目標は効率であり、満足のいく項目が見つかるまで必要な相互作用の数について評価される。 これは通常、ユーザに尋ねる最も良い質問について推測することで達成される。 現在、ダイアログ効率の研究はほとんど経験的であり、例えば、あるアプリケーションにおいて、質問を選択する1つの戦略が他の方法よりも優れていることを示すことを目的としている。 本研究は、理論的にドメインに依存しない会話レコメンデーションモデルを用いて実証的研究を補完する。 このモデルは、様々なアプリケーションシナリオをカバーするように設計されており、対話的アプローチの効率を形式的に、特に最適な相互作用戦略を考案する計算の複雑さに関して調査することができる。 このような理論的分析により、効率的な会話戦略を見つけることはNPハードであり、一般にはPSPACEであるが、特定の種類のカタログでは、上界はPolyLOGSPACEとなる。 実践的な観点からは、カタログ特性は個々の会話戦略の効率に強く影響を与えうるため、新しい戦略を設計する際に考慮すべきである。 実世界のデータセットから得られたデータセットに関する予備的な実証分析は、我々の発見と一致している。

Recommender systems are software applications that help users find items of interest in situations of information overload in a personalized way, using knowledge about the needs and preferences of individual users. In conversational recommendation approaches, these needs and preferences are acquired by the system in an interactive, multi-turn dialog. A common approach in the literature to drive such dialogs is to incrementally ask users about their preferences regarding desired and undesired item features or regarding individual items. A central research goal in this context is efficiency, evaluated with respect to the number of required interactions until a satisfying item is found. This is usually accomplished by making inferences about the best next question to ask to the user. Today, research on dialog efficiency is almost entirely empirical, aiming to demonstrate, for example, that one strategy for selecting questions is better than another one in a given application. With this work, we complement empirical research with a theoretical, domain-independent model of conversational recommendation. This model, which is designed to cover a range of application scenarios, allows us to investigate the efficiency of conversational approaches in a formal way, in particular with respect to the computational complexity of devising optimal interaction strategies. Through such a theoretical analysis we show that finding an efficient conversational strategy is NP-hard, and in PSPACE in general, but for particular kinds of catalogs the upper bound lowers to POLYLOGSPACE. From a practical point of view, this result implies that catalog characteristics can strongly influence the efficiency of individual conversational strategies and should therefore be considered when designing new strategies. A preliminary empirical analysis on datasets derived from a real-world one aligns with our findings.
翻訳日:2021-11-15 11:27:06 公開日:2021-11-12
# エッジクラウドの分極とコラボレーション: 総合的な調査

Edge-Cloud Polarization and Collaboration: A Comprehensive Survey ( http://arxiv.org/abs/2111.06061v2 )

ライセンス: Link先を確認
Jiangchao Yao, Shengyu Zhang, Yang Yao, Feng Wang, Jianxin Ma, Jianwei Zhang, Yunfei Chu, Luo Ji, Kunyang Jia, Tao Shen, Anpeng Wu, Fengda Zhang, Ziqi Tan, Kun Kuang, Chao Wu, Fei Wu, Jingren Zhou, Hongxia Yang(参考訳) クラウドコンピューティングによるディープラーニングの成功とエッジチップの急速な開発の影響を受けて、人工知能(ai)の研究は、クラウドコンピューティングとエッジコンピューティングという2つのコンピューティングパラダイムにシフトした。 近年、モデル革新(トランスフォーマー、事前訓練された家族など)、トレーニングデータの爆発、コンピューティング能力の高騰などにより、従来のディープラーニングモデルを上回る、クラウドサーバ上のより高度なaiモデルの開発において、大きな進歩が見られた。 しかしながら、エッジコンピューティング、特にエッジとクラウドのコラボレーティブコンピューティングは、非常に限られたアルゴリズムをデプロイしたリソース制約のIoTシナリオのために、その成功を公表する初期段階にある。 この調査では、クラウドとエッジ両方のAIを体系的にレビューする。 具体的には、クラウドとエッジモデリングの協調学習メカニズムを最初にセットアップし、そのようなメカニズムを実現するアーキテクチャを徹底的にレビューします。 また、事前トレーニングモデル、グラフニューラルネットワーク、強化学習など、現在進行中の最先端AIトピックの可能性と実践経験についても論じる。 最後に,この分野の有望な方向性と課題について論じる。

Influenced by the great success of deep learning via cloud computing and the rapid development of edge chips, research in artificial intelligence (AI) has shifted to both of the computing paradigms, i.e., cloud computing and edge computing. In recent years, we have witnessed significant progress in developing more advanced AI models on cloud servers that surpass traditional deep learning models owing to model innovations (e.g., Transformers, Pretrained families), explosion of training data and soaring computing capabilities. However, edge computing, especially edge and cloud collaborative computing, are still in its infancy to announce their success due to the resource-constrained IoT scenarios with very limited algorithms deployed. In this survey, we conduct a systematic review for both cloud and edge AI. Specifically, we are the first to set up the collaborative learning mechanism for cloud and edge modeling with a thorough review of the architectures that enable such mechanism. We also discuss potentials and practical experiences of some on-going advanced edge AI topics including pretraining models, graph neural networks and reinforcement learning. Finally, we discuss the promising directions and challenges in this field.
翻訳日:2021-11-15 11:25:06 公開日:2021-11-12
# 残留スパイクニューラルネットワークを用いた高精度特徴抽出のための鍵

Keys to Accurate Feature Extraction Using Residual Spiking Neural Networks ( http://arxiv.org/abs/2111.05955v2 )

ライセンス: Link先を確認
Alex Vicente-Sola, Davide L. Manna, Paul Kirkland, Gaetano Di Caterina, Trevor Bihl(参考訳) スパイキングニューラルネットワーク(snn)は、その時間的処理能力と低スワップ(サイズ、重量、パワー)、およびニューロモルフィックハードウェアにおけるエネルギー効率の高い実装により、従来のニューラルネットワーク(ann)に代わる興味深い選択肢となっている。 しかし、snsの訓練にかかわる課題は、その正確性と応用の観点から、その性能を制限している。 したがって、より正確な特徴抽出のための学習アルゴリズムとニューラルネットワークの改善は、SNN研究における現在の優先事項の1つである。 本稿では,現代のスパイク建築の鍵となる構成要素について述べる。 ベストパフォーマンスネットワークから抽出した画像分類データセットの異なる手法を実証的に比較する。 我々は、成功しているresnet(resnet)アーキテクチャのスパイクバージョンを設計し、さまざまなコンポーネントとトレーニング戦略をテストする。 本研究は,SNN設計の最先端技術を提供し,最適な視覚特徴抽出器を構築する際の情報選択を可能にした。 最後に、我々のネットワークはCIFAR-10(94.1%)とCIFAR-100(74.5%)のデータセットで以前のSNNアーキテクチャよりも優れており、DVS-CIFAR10(71.3%)の最先端と一致する。 コードはhttps://github.com/V icenteAlex/Spiking_R esNetで公開されている。

Spiking neural networks (SNNs) have become an interesting alternative to conventional artificial neural networks (ANN) thanks to their temporal processing capabilities and their low-SWaP (Size, Weight, and Power) and energy efficient implementations in neuromorphic hardware. However the challenges involved in training SNNs have limited their performance in terms of accuracy and thus their applications. Improving learning algorithms and neural architectures for a more accurate feature extraction is therefore one of the current priorities in SNN research. In this paper we present a study on the key components of modern spiking architectures. We empirically compare different techniques in image classification datasets taken from the best performing networks. We design a spiking version of the successful residual network (ResNet) architecture and test different components and training strategies on it. Our results provide a state of the art guide to SNN design, which allows to make informed choices when trying to build the optimal visual feature extractor. Finally, our network outperforms previous SNN architectures in CIFAR-10 (94.1%) and CIFAR-100 (74.5%) datasets and matches the state of the art in DVS-CIFAR10 (71.3%), with less parameters than the previous state of the art and without the need for ANN-SNN conversion. Code available at https://github.com/V icenteAlex/Spiking_R esNet.
翻訳日:2021-11-15 11:24:49 公開日:2021-11-12