このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211011となっている論文です。

PDF登録状況(公開日: 20211011)

TitleAuthorsAbstract論文公表日・翻訳日
# サファートランスポーテーションを目指して : 交通ビデオデライニングのための自己教師型学習アプローチ

Towards Safer Transportation: a self-supervised learning approach for traffic video deraining ( http://arxiv.org/abs/2110.07379v1 )

ライセンス: Link先を確認
Shuya Zong, Sikai Chen, Samuel Labi(参考訳) 交通の監視は、交通管理と制御、交通計数、交通法執行に有用である。 しかし, 降雨時の交通監視は, 映像上での降雨によって映像品質が悪化し, 道路環境だけでなく, 悪天候時の道路利用者の行動の信頼性が損なわれるため, 困難な作業である。 本研究では,交通映像中の雨害を除去する2段階の自己教師型学習手法を提案する。 第1段と第2段はそれぞれフレーム内ノイズとフレーム間ノイズに対処する。 その結果,画像の視覚品質とピーク信号と雑音比の値において,モデルの性能は良好であった。

Video monitoring of traffic is useful for traffic management and control, traffic counting, and traffic law enforcement. However, traffic monitoring during inclement weather such as rain is a challenging task because video quality is corrupted by streaks of falling rain on the video image, and this hinders reliable characterization not only of the road environment but also of road-user behavior during such adverse weather events. This study proposes a two-stage self-supervised learning method to remove rain streaks in traffic videos. The first and second stages address intra- and inter-frame noise, respectively. The results indicated that the model exhibits satisfactory performance in terms of the image visual quality and the Peak Signal-Noise Ratio value.
翻訳日:2021-10-15 15:13:24 公開日:2021-10-11
# 説明可能な自律運転のための理性誘発視覚注意

Reason induced visual attention for explainable autonomous driving ( http://arxiv.org/abs/2110.07380v1 )

ライセンス: Link先を確認
Sikai Chen, Jiqian Dong, Runjia Du, Yujie Li, Samuel Labi(参考訳) ディープラーニング (DL) ベースのコンピュータビジョン (CV) モデルは一般的に、解釈性が悪いためブラックボックスと見なされる。 この制限は、システム障害の効率的な診断や予測を阻害し、自動運転のような安全クリティカルなタスクにおけるdlcvモデルの広範な展開を妨げる。 本研究は、自律運転におけるDLモデルの解釈可能性を高めることの必要性を動機とし、運転環境のテキスト記述を生成し、生成された記述に基づいて適切な決定を行う説明可能なDLベースのフレームワークを提案する。 提案手法は,視覚入力(画像)と自然言語を共同でモデル化し,視覚の注意を誘導するために言語を用いて人間のドライバの学習プロセスを模倣する。 その結果,視覚入力の関連特徴に着目した自律運転決定の強固な説明が可能となった。 さらに、出力注意マップは、モデル行動に意味のある説明を与えるだけでなく、モデルの弱点と潜在的な改善方向を特定することによって、モデルの解釈可能性を高める。

Deep learning (DL) based computer vision (CV) models are generally considered as black boxes due to poor interpretability. This limitation impedes efficient diagnoses or predictions of system failure, thereby precluding the widespread deployment of DLCV models in safety-critical tasks such as autonomous driving. This study is motivated by the need to enhance the interpretability of DL model in autonomous driving and therefore proposes an explainable DL-based framework that generates textual descriptions of the driving environment and makes appropriate decisions based on the generated descriptions. The proposed framework imitates the learning process of human drivers by jointly modeling the visual input (images) and natural language, while using the language to induce the visual attention in the image. The results indicate strong explainability of autonomous driving decisions obtained by focusing on relevant features from visual inputs. Furthermore, the output attention maps enhance the interpretability of the model not only by providing meaningful explanation to the model behavior but also by identifying the weakness of and potential improvement directions for the model.
翻訳日:2021-10-15 14:47:25 公開日:2021-10-11
# (参考訳) 二元ニューラルネットワークの包括的考察

A comprehensive review of Binary Neural Network ( http://arxiv.org/abs/2110.06804v1 )

ライセンス: CC BY 4.0
Chunyu Yuan and Sos S. Agaian(参考訳) バイナリニューラルネットワーク(BNN)は、畳み込みニューラルネットワーク(CNN)パラメータ量子化の極端な応用である。 フル精度の重みとアクティベーションを備えた浮動小数点演算を用いたオリジナルのCNN法とは異なり、BBNは1ビットのアクティベーションと重みを使用する。 BBNでは、大量のストレージ、ネットワークの複雑さ、エネルギー消費を削減でき、ニューラルネットワークは組み込みアプリケーションでより効率的に実装できる。 残念ながら、バイナライゼーションは深刻な情報損失を引き起こす。 完全精度CNNモデルと双対モデルの間にはまだギャップがある。 最近のBNNの発展により、この問題に対処する多くのアルゴリズムやソリューションが生まれました。 この記事では、BNNの最近の展開について概観する。 本稿では,低ビット作業が混在する従来の調査とは対照的に,1ビットのアクティベーションと重み付けネットワークに特化している。 本稿では,BNNの前任者から最新のBNNアルゴリズムや技術に至るまでのBNNの開発について,幅広い設計パイプラインを提示し,各モジュールのバリエーションについて議論する。 途中、BNNについて検討する。 (a)目的:初期の成功と挑戦 (b)BNN最適化:鍵最適化技術を含む代表作品の選択 (c)デプロイメント:BNNモデリングと開発のためのオープンソースフレームワーク。 (d)端末:BNNのための効率的な計算アーキテクチャとデバイス (e)アプリケーション: BNNを使った多様なアプリケーション。 さらに,最新のBNNアルゴリズムと技術の可能性と今後の研究機会について論じ,幅広い設計パイプラインを提示し,各モジュールの変種について論じる。

Binary Neural Network (BNN) method is an extreme application of convolutional neural network (CNN) parameter quantization. As opposed to the original CNN methods which employed floating-point computation with full-precision weights and activations, BBN uses 1-bit activations and weights. With BBNs, a significant amount of storage, network complexity and energy consumption can be reduced, and neural networks can be implemented more efficiently in embedded applications. Unfortunately, binarization causes severe information loss. A gap still exists between full-precision CNN models and their binarized counterparts. The recent developments in BNN have led to a lot of algorithms and solutions that have helped address this issue. This article provides a full overview of recent developments in BNN. The present paper focuses exclusively on 1-bit activations and weights networks, as opposed to previous surveys in which low-bit works are mixed in. In this paper, we conduct a complete investigation of BNN's development from their predecessors to the latest BNN algorithms and techniques, presenting a broad design pipeline, and discussing each module's variants. Along the way, this paper examines BNN (a) purpose: their early successes and challenges; (b) BNN optimization: selected representative works that contain key optimization techniques; (c) deployment: open-source frameworks for BNN modeling and development; (d) terminal: efficient computing architectures and devices for BNN and (e) applications: diverse applications with BNN. Moreover, this paper discusses potential directions and future research opportunities for the latest BNN algorithms and techniques, presents a broad design pipeline, and discusses each module's variants.
翻訳日:2021-10-15 10:31:15 公開日:2021-10-11
# 深層学習を用いたオンラインオークション機構設計に関する調査研究

A Survey of Online Auction Mechanism Design Using Deep Learning Approaches ( http://arxiv.org/abs/2110.06880v1 )

ライセンス: Link先を確認
Zhanhao Zhang(参考訳) 近年、オンラインオークションが盛んに行われている。 プラットフォーム管理者は、公正なリソース割り当てを維持しながら高い利益を生み出すオークションメカニズムの洗練に懸命に取り組んでいる。 コンピューティング技術の進歩と理論フレームワークのボトルネックにより、研究者たちはディープラーニングのアプローチを使ってオンラインオークションのデザインにギアをシフトしている。 本稿では,オークション機構の設計に採用されている一般的なディープラーニングインフラストラクチャについて要約し,これらのアーキテクチャがどのように進化しているかを示した。 また,大規模かつダイナミックな産業環境において,研究者がいかに制約や懸念に取り組むかについても論じた。 最後に,現在解決されていない問題のいくつかを指摘した。

Online auction has been very widespread in the recent years. Platform administrators are working hard to refine their auction mechanisms that will generate high profits while maintaining a fair resource allocation. With the advancement of computing technology and the bottleneck in theoretical frameworks, researchers are shifting gears towards online auction designs using deep learning approaches. In this article, we summarized some common deep learning infrastructures adopted in auction mechanism designs and showed how these architectures are evolving. We also discussed how researchers are tackling with the constraints and concerns in the large and dynamic industrial settings. Finally, we pointed out several currently unresolved issues for future directions.
翻訳日:2021-10-14 15:48:42 公開日:2021-10-11
# UAVを用いた交差点における車両追跡と衝突リスク評価

Using UAVs for vehicle tracking and collision risk assessment at intersections ( http://arxiv.org/abs/2110.06775v1 )

ライセンス: Link先を確認
Shuya Zong, Sikai Chen, Majed Alinizzi, Yujie Li, Samuel Labi(参考訳) 衝突リスクを評価することは交通安全管理にとって重要な課題である。 この問題に対処するために無人航空機(UAV)が配備されたことは、その広い視野と動きの柔軟性を考えると、多くの有望さを示している。 本研究は、uavとv2xの接続が道路利用者の動きを追跡し、交差点での潜在的な衝突を評価できることを示す。 この研究は、UAVが撮影したビデオを使っている。 提案手法は,ディープラーニングに基づくトラッキングアルゴリズムと時間対衝突タスクを組み合わせる。 結果は、車両が潜在的な事故や運動計画を認識するための有益な情報を提供するだけでなく、都市道路局や安全管理技術者にとって貴重なツールも提供した。

Assessing collision risk is a critical challenge to effective traffic safety management. The deployment of unmanned aerial vehicles (UAVs) to address this issue has shown much promise, given their wide visual field and movement flexibility. This research demonstrates the application of UAVs and V2X connectivity to track the movement of road users and assess potential collisions at intersections. The study uses videos captured by UAVs. The proposed method combines deep-learning based tracking algorithms and time-to-collision tasks. The results not only provide beneficial information for vehicle's recognition of potential crashes and motion planning but also provided a valuable tool for urban road agencies and safety management engineers.
翻訳日:2021-10-14 15:40:08 公開日:2021-10-11
# (参考訳) 最初に学ぶべきサンプルは? 簡単かハードか?

Which Samples Should be Learned First: Easy or Hard? ( http://arxiv.org/abs/2110.05481v1 )

ライセンス: CC BY 4.0
Xiaoling Zhou and Ou Wu(参考訳) トレーニングサンプルの効果的な重み付け方式は、学習タスクに不可欠である。 多くの重み付けスキームが提案されている。 いくつかのスキームはサンプルのイージーファーストモードを取るが、他のスキームはハードファーストモードを取る。 当然、興味深いが現実的な疑問が提起される。 最初に学習すべきサンプルは、簡単なものか、難しいものか? この質問に答えるために、研究の3つの側面が実行される。 まず、高レベル統一重み付き損失を提案し、既存のスキームのより包括的なビューを提供する。 その後,理論解析を行い,予備的な結論を得る。 第2に,既存のスキームの欠陥を克服するためのフレキシブル重み付けスキームを提案する。 提案方式では,3モード,すなわちeasy/medium/hard-fir stを柔軟に切り替えることができる。 第3に、異なるモードにおける重み付けスキームを更に比較するために、幅広い実験が行われた。 これらの研究に基づいて、合理的な答えが得られる。 先行知識やデータ特性を含む要因は、学習タスクで最初に学習すべきサンプルを決定する。

An effective weighting scheme for training samples is essential for learning tasks. Numerous weighting schemes have been proposed. Some schemes take the easy-first mode on samples, whereas some others take the hard-first mode. Naturally, an interesting yet realistic question is raised. Which samples should be learned first given a new learning task, easy or hard? To answer this question, three aspects of research are carried out. First, a high-level unified weighted loss is proposed, providing a more comprehensive view for existing schemes. Theoretical analysis is subsequently conducted and preliminary conclusions are obtained. Second, a flexible weighting scheme is proposed to overcome the defects of existing schemes. The three modes, namely, easy/medium/hard-fir st, can be flexibly switched in the proposed scheme. Third, a wide range of experiments are conducted to further compare the weighting schemes in different modes. On the basis of these works, reasonable answers are obtained. Factors including prior knowledge and data characteristics determine which samples should be learned first in a learning task.
翻訳日:2021-10-14 10:33:59 公開日:2021-10-11
# (参考訳) 階層表現学習のためのランクベース損失 [全文訳有]

Rank-based loss for learning hierarchical representations ( http://arxiv.org/abs/2110.05941v1 )

ライセンス: CC BY 4.0
Ines Nolasco and Dan Stowell(参考訳) 階層的な分類学は多くの文脈で一般的であり、人間が情報を整理するために使う非常に自然な構造である。 機械学習では、"extra"情報を使用するメソッドのファミリーを階層分類(hierarchical classification)と呼ぶ。 しかし、音声分類に当てはまると、これは比較的未解明である。 本稿では,問題の階層的情報を統合して階層的関係を表現する組込みを学習する方法に焦点を当てる。 これまで、この問題に対処するために三重項損失が提案されていたが、三重項の注意深い構成が必要であり、各イテレーションで使用する階層的な情報の範囲に制限があるなど、いくつかの問題がある。 本研究では,階層的情報を用いたランクに基づく損失関数を提案し,これを例間の目標距離のランク順に変換する。 ランクに基づく損失はデータの階層的表現を学習するのに適していることを示す。 未確認の細粒度クラスをテストすることで、この手法が新しいクラスの階層的に正しい表現を学習できることを示す。 ランクベースの損失には2つの有望な側面があり、任意のレベルの階層に一般化可能であり、不完全な階層ラベルでデータを扱うことができる。

Hierarchical taxonomies are common in many contexts, and they are a very natural structure humans use to organise information. In machine learning, the family of methods that use the 'extra' information is called hierarchical classification. However, applied to audio classification, this remains relatively unexplored. Here we focus on how to integrate the hierarchical information of a problem to learn embeddings representative of the hierarchical relationships. Previously, triplet loss has been proposed to address this problem, however it presents some issues like requiring the careful construction of the triplets, and being limited in the extent of hierarchical information it uses at each iteration. In this work we propose a rank based loss function that uses hierarchical information and translates this into a rank ordering of target distances between the examples. We show that rank based loss is suitable to learn hierarchical representations of the data. By testing on unseen fine level classes we show that this method is also capable of learning hierarchically correct representations of the new classes. Rank based loss has two promising aspects, it is generalisable to hierarchies with any number of levels, and is capable of dealing with data with incomplete hierarchical labels.
翻訳日:2021-10-14 09:40:47 公開日:2021-10-11
# (参考訳) UnfairGAN: 単一画像からの降雨除去のための改良された生成的敵ネットワーク [全文訳有]

UnfairGAN: An Enhanced Generative Adversarial Network for Raindrop Removal from A Single Image ( http://arxiv.org/abs/2110.05523v1 )

ライセンス: CC BY 4.0
Duc Manh Nguyen, Sang-Woong Lee(参考訳) 画像のデライン化は、自動運転車のような現実世界のアプリケーションでは、新しい難しい問題だ。 豪雨の悪天候下では、主にガラスやフロントガラスを打つ雨滴は観測能力を著しく低下させる。 さらに、ガラスの上に広がる雨滴は屈折の物理的効果をもたらし、視覚系や機械学習システムに深刻な障害を与える。 本稿では,雨滴の難解な問題に対処するために,生成的敵ネットワークの強化を提案する。 不公平は、エッジや雨量推定などの事前のハイレベル情報を利用して、デレーシング性能を向上させる、強化された生成的敵意ネットワークである。 UnfairGANを実証するために、雨除去の深層学習モデルをトレーニングするための大規模なデータセットを導入する。 実験の結果,提案手法は,定量的な測定値と視覚的品質に関する降雨量削減手法よりも優れていることがわかった。

Image deraining is a new challenging problem in real-world applications, such as autonomous vehicles. In a bad weather condition of heavy rainfall, raindrops, mainly hitting glasses or windshields, can significantly reduce observation ability. Moreover, raindrops spreading over the glass can yield refraction's physical effect, which seriously impedes the sightline or undermine machine learning systems. In this paper, we propose an enhanced generative adversarial network to deal with the challenging problems of raindrops. UnfairGAN is an enhanced generative adversarial network that can utilize prior high-level information, such as edges and rain estimation, to boost deraining performance. To demonstrate UnfairGAN, we introduce a large dataset for training deep learning models of rain removal. The experimental results show that our proposed method is superior to other state-of-the-art approaches of deraining raindrops regarding quantitative metrics and visual quality.
翻訳日:2021-10-14 09:32:22 公開日:2021-10-11
# (参考訳) HUNTER: 持続可能なクラウドコンピューティングのためのAIベースのホロスティックリソース管理 [全文訳有]

HUNTER: AI based Holistic Resource Management for Sustainable Cloud Computing ( http://arxiv.org/abs/2110.05529v1 )

ライセンス: CC BY 4.0
Shreshth Tuli, Sukhpal Singh Gill, Minxian Xu, Peter Garraghan, Rami Bahsoon, Scharam Dustdar, Rizos Sakellariou, Omer Rana, Rajkumar Buyya, Giuliano Casale and Nicholas R. Jennings(参考訳) 世界中のクラウドデータセンタ(CDC)の採用は、クラウド上のアプリケーションサービスホスティングに対するユビキタスな需要を生み出している。 さらに、現代のデータ集約産業は、現代的なアプリケーションのリソース要求が急増している。 これにより、クラウドサーバのプロビジョニングが増加し、エネルギー消費が増加し、結果として持続可能性に関する懸念が高まっている。 従来のヒューリスティックスと強化学習ベースのアルゴリズムによる、エネルギー効率の高いクラウドリソース管理は、スケーラビリティと適応性に関する課題を限定的に解決する。 既存の作業は、ホストの熱的特性、タスクのリソース消費、およびそれに対応するスケジューリング決定の依存関係をキャプチャできないことが多い。 これによりスケーラビリティが低下し、特に非定常的なリソース要求のある環境では計算リソース要求が増加する。 これらの制約に対処するため,HUNTERと呼ばれる持続可能なクラウドコンピューティングのための人工知能(AI)ベースの総合的資源管理手法を提案する。 提案モデルは,エネルギー,熱,冷却の3つの重要なモデルを考慮した多目的スケジューリング問題として,データセンターにおけるエネルギー効率の最適化を目標とする。 HUNTERは、システム状態のQoS(Quality of Service)を近似し、最適なスケジューリング決定を生成するための代理モデルとして、Gated Graph Convolution Networkを使用している。 CloudSimツールキットとCOSCOフレームワークを用いたシミュレーションおよび物理クラウド環境の実験により、HUNTERは、エネルギー消費、SLA違反、スケジューリング時間、コスト、温度を最大12,35,43,54,3%、最先端のベースラインを上回っている。

The worldwide adoption of cloud data centers (CDCs) has given rise to the ubiquitous demand for hosting application services on the cloud. Further, contemporary data-intensive industries have seen a sharp upsurge in the resource requirements of modern applications. This has led to the provisioning of an increased number of cloud servers, giving rise to higher energy consumption and, consequently, sustainability concerns. Traditional heuristics and reinforcement learning based algorithms for energy-efficient cloud resource management address the scalability and adaptability related challenges to a limited extent. Existing work often fails to capture dependencies across thermal characteristics of hosts, resource consumption of tasks and the corresponding scheduling decisions. This leads to poor scalability and an increase in the compute resource requirements, particularly in environments with non-stationary resource demands. To address these limitations, we propose an artificial intelligence (AI) based holistic resource management technique for sustainable cloud computing called HUNTER. The proposed model formulates the goal of optimizing energy efficiency in data centers as a multi-objective scheduling problem, considering three important models: energy, thermal and cooling. HUNTER utilizes a Gated Graph Convolution Network as a surrogate model for approximating the Quality of Service (QoS) for a system state and generating optimal scheduling decisions. Experiments on simulated and physical cloud environments using the CloudSim toolkit and the COSCO framework show that HUNTER outperforms state-of-the-art baselines in terms of energy consumption, SLA violation, scheduling time, cost and temperature by up to 12, 35, 43, 54 and 3 percent respectively.
翻訳日:2021-10-14 09:19:17 公開日:2021-10-11
# (参考訳) UrbanNet:長距離3Dオブジェクト検出に都市マップを活用する [全文訳有]

UrbanNet: Leveraging Urban Maps for Long Range 3D Object Detection ( http://arxiv.org/abs/2110.05561v1 )

ライセンス: CC BY 4.0
Juan Carrillo, Steven Waslander(参考訳) 正確な3次元物体検出のための単眼画像データの利用は依然として未解決の問題であり、その解決策は交通監視などのコスト感受性アプリケーションに広く影響を及ぼす。 静的カメラを用いた長距離モノクル3次元物体検出のためのモジュールアーキテクチャであるUrbanNetを提案する。 提案システムでは,3軸のいずれかに沿って物体が回転している場合でも,3次元オブジェクト検出器と効率的な3次元オブジェクト記述器を併用して,長距離での正確な検出を実現する。 我々は,新しい難解な合成データセットを用いてUrbanNetを評価し,平坦な地盤近似が保たない斜面の道路における交通検知におけるその設計の利点を強調した。 データとコードはhttps://github.com/T RAILab/UrbanNetで入手できる。

Relying on monocular image data for precise 3D object detection remains an open problem, whose solution has broad implications for cost-sensitive applications such as traffic monitoring. We present UrbanNet, a modular architecture for long range monocular 3D object detection with static cameras. Our proposed system combines commonly available urban maps along with a mature 2D object detector and an efficient 3D object descriptor to accomplish accurate detection at long range even when objects are rotated along any of their three axes. We evaluate UrbanNet on a novel challenging synthetic dataset and highlight the advantages of its design for traffic detection in roads with changing slope, where the flat ground approximation does not hold. Data and code are available at https://github.com/T RAILab/UrbanNet
翻訳日:2021-10-14 08:53:25 公開日:2021-10-11
# (参考訳) echovpr: 視覚位置認識のためのecho state networks [全文訳有]

EchoVPR: Echo State Networks for Visual Place Recognition ( http://arxiv.org/abs/2110.05572v1 )

ライセンス: CC BY 4.0
Anil Ozdemir, Andrew B. Barron, Andrew Philippides, Michael Mangan, Eleni Vasilaki, Luca Manneschi(参考訳) 以前訪れた場所を認識することは、自律的なナビゲーションにおいて重要だが未解決のタスクである。 現在の視覚的位置認識(VPR)ベンチマークは、通常、空間的コンポーネントと時間的コンポーネントの両方を含むシーケンシャルデータセットからクエリ画像(または画像)の位置を復元するモデルに挑戦する。 最近、Echo State Network(ESN)の変種は、時空間モデリングを必要とする機械学習タスクの解決に特に強力であることが証明されている。 これらのネットワークはシンプルだが強力なニューラルネットワークであり、複数の時間スケールと非線形の高次元表現に記憶を示すことによって、学習の線形性を維持しながら、データの時間的関係を発見できる。 本稿では,一連のESNを提示し,そのVPR問題への適用性について分析する。 我々は、前処理された畳み込みニューラルネットワークへのESNの追加が、4つの標準ベンチマーク(GardensPoint, SPEDTest, ESSEX3IN1, Nordland)の非リカレントネットワークと比較して劇的な性能向上につながったことを報告した。 さらに、ESNは、データのシーケンシャルなダイナミクスを利用するクラスリード型VPRモデルよりも優れていることを示す。 最後に, ESNは一般化能力, 堅牢性, 精度も向上し, VPRアプリケーションへの適合性も向上することを示した。

Recognising previously visited locations is an important, but unsolved, task in autonomous navigation. Current visual place recognition (VPR) benchmarks typically challenge models to recover the position of a query image (or images) from sequential datasets that include both spatial and temporal components. Recently, Echo State Network (ESN) varieties have proven particularly powerful at solving machine learning tasks that require spatio-temporal modelling. These networks are simple, yet powerful neural architectures that -- exhibiting memory over multiple time-scales and non-linear high-dimensional representations -- can discover temporal relations in the data while still maintaining linearity in the learning. In this paper, we present a series of ESNs and analyse their applicability to the VPR problem. We report that the addition of ESNs to pre-processed convolutional neural networks led to a dramatic boost in performance in comparison to non-recurrent networks in four standard benchmarks (GardensPoint, SPEDTest, ESSEX3IN1, Nordland) demonstrating that ESNs are able to capture the temporal structure inherent in VPR problems. Moreover, we show that ESNs can outperform class-leading VPR models which also exploit the sequential dynamics of the data. Finally, our results demonstrate that ESNs also improve generalisation abilities, robustness, and accuracy further supporting their suitability to VPR applications.
翻訳日:2021-10-14 08:37:35 公開日:2021-10-11
# (参考訳) ソーシャルメディアにおける公共交通機関事故の空間データマイニング [全文訳有]

Spatial Data Mining of Public Transport Incidents reported in Social Media ( http://arxiv.org/abs/2110.05573v1 )

ライセンス: CC BY-SA 4.0
Kamil Raczycki, Marcin Szyma\'nski, Yahor Yeliseyenka, Piotr Szyma\'nski, Tomasz Kajdanowicz(参考訳) 公共交通機関は、乗客にモビリティインシデントを伝えるために必要な手段としてソーシャルメディアを使用している。 しかし、短期的には、輸送現象に関する日々の情報は通常、レイテンシの低いソーシャルメディアに掲載されるが、コンテンツが集約されることは稀であるため、その可用性は短期である。 多くのソーシャルメディアプラットフォームではポストに非POIGPS座標をアタッチできないため、輸送現象のソーシャルメディア通信は通常GISアノテーションを欠いている。 その結果,輸送現象情報の分析は最小限に抑えられた。 我々は、ポーランドの公共交通機関のソーシャルメディア投稿を3年間収集し、ユーザーからのコメントを得た。 調査を通じて,6種類の輸送情報型を推定する。 ソーシャルメディア投稿のための情報型分類器を構築し,投稿中の停止名を検出し,gps座標と関連づけ,長期集約現象の空間的理解を得た。 このアプローチにより,3年間のインフラストラクチャインシデントが乗客の移動に与えた影響や,各イベントに対する感情や反応のスケールを分析し,市民科学を活用できることが示された。 これらの結果は、特にソーシャルメディアの文脈において、空間言語理解に関して、未資源の言語であるポーランド語に対して達成される。 この状況を改善するために,我々は,ソーシャルメディア投稿とインシデントタイプのラベル,それにマッチするストップ名とソーシャルメディアコメントの2つの注釈付きデータセットを公開した。 実験的なコードベースもオープンソースにしています。

Public transport agencies use social media as an essential tool for communicating mobility incidents to passengers. However, while the short term, day-to-day information about transport phenomena is usually posted in social media with low latency, its availability is short term as the content is rarely made an aggregated form. Social media communication of transport phenomena usually lacks GIS annotations as most social media platforms do not allow attaching non-POI GPS coordinates to posts. As a result, the analysis of transport phenomena information is minimal. We collected three years of social media posts of a polish public transport company with user comments. Through exploration, we infer a six-class transport information typology. We successfully build an information type classifier for social media posts, detect stop names in posts, and relate them to GPS coordinates, obtaining a spatial understanding of long-term aggregated phenomena. We show that our approach enables citizen science and use it to analyze the impact of three years of infrastructure incidents on passenger mobility, and the sentiment and reaction scale towards each of the events. All these results are achieved for Polish, an under-resourced language when it comes to spatial language understanding, especially in social media contexts. To improve the situation, we released two of our annotated data sets: social media posts with incident type labels and matched stop names and social media comments with the annotated sentiment. We also opensource the experimental codebase.
翻訳日:2021-10-14 08:21:01 公開日:2021-10-11
# (参考訳) 関数型図形モデルのベイズ正規化 [全文訳有]

Bayesian Regularization for Functional Graphical Models ( http://arxiv.org/abs/2110.05575v1 )

ライセンス: CC BY 4.0
Jiajing Niu, Boyoung Hur, John Absher, and D. Andrew Brown(参考訳) 様々なノードで観測されるランダム変数間の条件依存を表現するために使用されるグラフィカルモデルは、遺伝学、神経科学、ソーシャルネットワーク分析など多くの分野で広く使われている。 グラフィカルモデル推定のための現在の統計手法はスカラーデータに焦点を当てているが、各ノードで観測されたデータが信号や画像などの機能である場合、類似の依存構造の推定に関心がある。 本稿では,機能的グラフィカルモデル推定のための完全ベイズ正規化スキームを提案する。 まず、qiao et al. (2019) によって提案された機能的グラフィカルラッソの直接ベイズ的類似について考察する。 次に,グラフィカルホースシューを用いた正規化戦略を提案する。 これらのアプローチをシミュレーション研究を通して比較し,提案する機能的グラフィカルホースシューを2つのモチベーション応用,アルコール依存症群とコントロール群の脳活動比較のための脳波データ,外傷性脳損傷(tbi)の有無における構造的結合の変化に適用した。 その結果、脳が損傷後に切断されたネットワークを補う方法の洞察が得られる。

Graphical models, used to express conditional dependence between random variables observed at various nodes, are used extensively in many fields such as genetics, neuroscience, and social network analysis. While most current statistical methods for estimating graphical models focus on scalar data, there is interest in estimating analogous dependence structures when the data observed at each node are functional, such as signals or images. In this paper, we propose a fully Bayesian regularization scheme for estimating functional graphical models. We first consider a direct Bayesian analog of the functional graphical lasso proposed by Qiao et al. (2019). We then propose a regularization strategy via the graphical horseshoe. We compare these approaches via simulation study and apply our proposed functional graphical horseshoe to two motivating applications, electroencephalograp hy data for comparing brain activation between an alcoholic group and controls, as well as changes in structural connectivity in the presence of traumatic brain injury (TBI). Our results yield insight into how the brain attempts to compensate for disconnected networks after injury.
翻訳日:2021-10-14 08:10:43 公開日:2021-10-11
# (参考訳) 相互依存属性の存在下での潜在空間異方性の評価 [全文訳有]

Evaluation of Latent Space Disentanglement in the Presence of Interdependent Attributes ( http://arxiv.org/abs/2110.05587v1 )

ライセンス: CC BY 4.0
Karn N. Watcharasupat and Alexander Lerch(参考訳) 深層生成モデルによる制御可能な音楽生成は, ゆがみ学習技術にますます依存している。 しかし、相互情報ギャップ(MIG)のような現在のゆがみ指標は、実世界の音楽データセットでしばしば発生する相互依存的な意味的属性の存在下での潜伏表現の評価に使用される場合、しばしば不十分で誤解を招く。 本研究では,意味的属性間の関係を考慮に入れたMIGのドロップイン代替として,依存性を考慮した情報メトリクスを提案する。

Controllable music generation with deep generative models has become increasingly reliant on disentanglement learning techniques. However, current disentanglement metrics, such as mutual information gap (MIG), are often inadequate and misleading when used for evaluating latent representations in the presence of interdependent semantic attributes often encountered in real-world music datasets. In this work, we propose a dependency-aware information metric as a drop-in replacement for MIG that accounts for the inherent relationship between semantic attributes.
翻訳日:2021-10-14 07:39:51 公開日:2021-10-11
# (参考訳) DeepFilterNet: ディープフィルタに基づくフルバンド音声のための低複雑性音声強調フレームワーク [全文訳有]

DeepFilterNet: A Low Complexity Speech Enhancement Framework for Full-Band Audio based on Deep Filtering ( http://arxiv.org/abs/2110.05588v1 )

ライセンス: CC BY-SA 4.0
Hendrik Schr\"oter, Alberto N. Escalante-B., Tobias Rosenkranz, Andreas Maier(参考訳) 複雑な値処理は、深層学習に基づく音声強調と信号抽出を新しいレベルにもたらした。 通常、このプロセスはノイズスペクトルに適用される時間周波数(TF)マスクに基づいているが、複雑なマスク(CM)は通常、位相を変更できるため、実値のマスクよりも好まれる。 近年の研究では、マスクを用いたポイントワイズ乗算の代わりに複雑なフィルタを用いることが提案されている。 これにより、各周波数帯域内の局所相関を利用する前および将来の時間ステップからの情報を組み込むことができる。 本研究では,ディープフィルタリングを利用した2段階音声強調フレームワークDeepFilterNetを提案する。 まず,人間の周波数知覚をモデル化したerbスケールゲインを用いてスペクトル包絡を強化する。 第2段階は、音声の周期的構成要素を強化するために深いフィルタリングを用いる。 さらに,音声の知覚特性を生かして,分離可能な畳み込みと線形および繰り返しの層に広範にグループ化することで,低複雑性アーキテクチャを設計する。 さらに,我々の2段階の深層フィルタリング手法は,様々な周波数分解能や潜時性よりも複雑なマスクよりも優れており,他の最先端モデルと比較して説得力のある性能を示す。

Complex-valued processing has brought deep learning-based speech enhancement and signal extraction to a new level. Typically, the process is based on a time-frequency (TF) mask which is applied to a noisy spectrogram, while complex masks (CM) are usually preferred over real-valued masks due to their ability to modify the phase. Recent work proposed to use a complex filter instead of a point-wise multiplication with a mask. This allows to incorporate information from previous and future time steps exploiting local correlations within each frequency band. In this work, we propose DeepFilterNet, a two stage speech enhancement framework utilizing deep filtering. First, we enhance the spectral envelope using ERB-scaled gains modeling the human frequency perception. The second stage employs deep filtering to enhance the periodic components of speech. Additionally to taking advantage of perceptual properties of speech, we enforce network sparsity via separable convolutions and extensive grouping in linear and recurrent layers to design a low complexity architecture. We further show that our two stage deep filtering approach outperforms complex masks over a variety of frequency resolutions and latencies and demonstrate convincing performance compared to other state-of-the-art models.
翻訳日:2021-10-14 07:34:14 公開日:2021-10-11
# (参考訳) TTRS: Tinkoff Transactions Recommender Systemベンチマーク [全文訳有]

TTRS: Tinkoff Transactions Recommender System benchmark ( http://arxiv.org/abs/2110.05589v1 )

ライセンス: CC BY 4.0
Sergey Kolesnikov, Oleg Lashinin, Michail Pechatov, Alexander Kosov(参考訳) 過去10年間で、新しいRecSysメソッドの発明で大きな進歩を遂げました。 しかし、RecSys研究コミュニティの根本的な問題の1つは、これらの新しいアプローチをテストするための明確な評価ルールとメトリクスを備えた応用データセットとベンチマークの欠如である。 本稿では,TTRS-Tinkoff Transactions Recommender Systemベンチマークを紹介する。 この金融取引ベンチマークには、約1万人のユーザと14ヶ月で1000以上のマーチャントブランドとの間で200万以上のインタラクションが含まれている。 私たちの知る限りでは、これは初めて一般公開された金融取引データセットです。 可能なアプリケーションに適したものにするために、データ収集パイプライン、その前処理、結果として得られるデータセット統計の完全な説明を提供する。 また,現在普及しているRecSys手法を次の期間の推薦タスクで総合的に比較し,その性能を様々な指標や推奨目標に対して詳細に分析する。 最後に、私たちは、パーソナライズされたアイテム頻度ベースのモデル(re)rankerpifmrも導入しています。

Over the past decade, tremendous progress has been made in inventing new RecSys methods. However, one of the fundamental problems of the RecSys research community remains the lack of applied datasets and benchmarks with well-defined evaluation rules and metrics to test these novel approaches. In this article, we present the TTRS - Tinkoff Transactions Recommender System benchmark. This financial transaction benchmark contains over 2 million interactions between almost 10,000 users and more than 1,000 merchant brands over 14 months. To the best of our knowledge, this is the first publicly available financial transactions dataset. To make it more suitable for possible applications, we provide a complete description of the data collection pipeline, its preprocessing, and the resulting dataset statistics. We also present a comprehensive comparison of the current popular RecSys methods on the next-period recommendation task and conduct a detailed analysis of their performance against various metrics and recommendation goals. Last but not least, we also introduce Personalized Item-Frequencies-bas ed Model (Re)Ranker - PIFMR, a simple yet powerful approach that has proven to be the most effective for the benchmarked tasks.
翻訳日:2021-10-14 07:23:26 公開日:2021-10-11
# (参考訳) GCN-SE:動的グラフにおけるノード分類の説明可能性としての注意 [全文訳有]

GCN-SE: Attention as Explainability for Node Classification in Dynamic Graphs ( http://arxiv.org/abs/2110.05598v1 )

ライセンス: CC BY-SA 4.0
Yucai Fan, Yuhang Yao, Carlee Joe-Wong(参考訳) グラフ畳み込みネットワーク(GCN)は、ノード分類タスクのようなタスクに有効であることが証明されたグラフ表現学習の一般的な方法である。 典型的なgcnモデルは静的グラフ内のノードの分類に焦点を当てているが、最近のいくつかの変種では、トポロジーとノード属性が時間とともに変化する動的グラフのノード分類が提案されている。 しかしながら、これらの研究は、グラフのスナップショットに異なる重要性を異なるタイミングで柔軟に割り当てるという課題に完全には対処していない。 本稿では,Squeeze と Excitation Net (SE-Net) にインスパイアされた,学習可能な注目重みを異なるタイミングでグラフスナップショットに付加する新しい手法 GCN-SE を提案する。 本稿では,GCN-SEが以前提案したグラフデータセットのノード分類手法より優れていることを示す。 異なるグラフスナップショットの重要度決定における注目重みの有効性を検証するため,説明可能な機械学習の分野からグラフィカルな設定への摂動に基づく手法を適用し,GCN-SEで学習した注目重みと異なるスナップショットの重要性との相関性を評価する。 これらの実験は、GCN-SEが動的ノード分類のための異なるスナップショットの予測力を実際に特定できることを実証している。

Graph Convolutional Networks (GCNs) are a popular method from graph representation learning that have proved effective for tasks like node classification tasks. Although typical GCN models focus on classifying nodes within a static graph, several recent variants propose node classification in dynamic graphs whose topologies and node attributes change over time, e.g., social networks with dynamic relationships, or literature citation networks with changing co-authorships. These works, however, do not fully address the challenge of flexibly assigning different importance to snapshots of the graph at different times, which depending on the graph dynamics may have more or less predictive power on the labels. We address this challenge by proposing a new method, GCN-SE, that attaches a set of learnable attention weights to graph snapshots at different times, inspired by Squeeze and Excitation Net (SE-Net). We show that GCN-SE outperforms previously proposed node classification methods on a variety of graph datasets. To verify the effectiveness of the attention weight in determining the importance of different graph snapshots, we adapt perturbation-based methods from the field of explainable machine learning to graphical settings and evaluate the correlation between the attention weights learned by GCN-SE and the importance of different snapshots over time. These experiments demonstrate that GCN-SE can in fact identify different snapshots' predictive power for dynamic node classification.
翻訳日:2021-10-14 07:07:39 公開日:2021-10-11
# (参考訳) TCube: ドメインに依存しないニューラル時系列ナレーション [全文訳有]

TCube: Domain-Agnostic Neural Time-series Narration ( http://arxiv.org/abs/2110.05633v1 )

ライセンス: CC BY 4.0
Mandar Sharma, John S. Brownstein, Naren Ramakrishnan(参考訳) 時系列データの特徴、傾向、異常を適切に記述する豊かで流動的な物語を作成する仕事は、科学(地質学、気象学、疫学)や金融(取引、株式、販売、在庫)にとって非常に重要である。 時系列ナレーションの取り組みはドメイン固有であり、一貫性を提供するが機械的な物語につながる事前定義されたテンプレートを使用する。 時系列ナレーションのためのドメイン非依存のニューラルフレームワークであるtcue (time-series-to-text ) を提案する。これはplm(pre-trained language models)のトランスフォーメーション学習機能を通じて,知識グラフの高密なナレッジグラフの形式と,その知識グラフを豊かで流動的な物語に翻訳するものだ。 TCubeの設計は、主に、時系列の注釈付きトレーニングデータの完全明快さでニューラルネットワークを構築する際の課題に対処する。 この設計は知識グラフを、テキスト翻訳のために線形化できる本質的な時系列要素の表現の仲介として取り入れている。 われわれの知る限りでは、TCubeは時系列ナレーションにおけるニューラル戦略の利用に関する最初の調査である。 広範な評価を通して、tcueは文法的整合性を維持しつつ、生成した物語の語彙の多様性を最大65.38%向上できることを示した。 TCubeの実用性とデプロイ性は、専門家レビュー(n=21)を通じてさらに検証され、参加者の76.2%がTubeをよりリッチな物語のために時系列ナレーションのデプロイ可能なシステムとして好んでいる。 再現性に関する詳細な指示付きのコードベース、モデル、データセットは、https://github.com/M andar-Sharma/TCube.c omに公開されています。

The task of generating rich and fluent narratives that aptly describe the characteristics, trends, and anomalies of time-series data is invaluable to the sciences (geology, meteorology, epidemiology) or finance (trades, stocks, or sales and inventory). The efforts for time-series narration hitherto are domain-specific and use predefined templates that offer consistency but lead to mechanical narratives. We present TCube (Time-series-to-text ), a domain-agnostic neural framework for time-series narration, that couples the representation of essential time-series elements in the form of a dense knowledge graph and the translation of said knowledge graph into rich and fluent narratives through the transfer-learning capabilities of PLMs (Pre-trained Language Models). TCube's design primarily addresses the challenge that lies in building a neural framework in the complete paucity of annotated training data for time-series. The design incorporates knowledge graphs as an intermediary for the representation of essential time-series elements which can be linearized for textual translation. To the best of our knowledge, TCube is the first investigation of the use of neural strategies for time-series narration. Through extensive evaluations, we show that TCube can improve the lexical diversity of the generated narratives by up to 65.38% while still maintaining grammatical integrity. The practicality and deployability of TCube is further validated through an expert review (n=21) where 76.2% of participating experts wary of auto-generated narratives favored TCube as a deployable system for time-series narration due to its richer narratives. Our code-base, models, and datasets, with detailed instructions for reproducibility is publicly hosted at https://github.com/M andar-Sharma/TCube.
翻訳日:2021-10-14 06:50:32 公開日:2021-10-11
# (参考訳) 過剰パラメータ化による深層relu暗黙ネットワークの大域収束理論 [全文訳有]

A global convergence theory for deep ReLU implicit networks via over-parameterizatio n ( http://arxiv.org/abs/2110.05645v1 )

ライセンス: CC BY 4.0
Tianxiang Gao, Hailiang Liu, Jia Liu, Hridesh Rajan, and Hongyang Gao(参考訳) 暗黙のディープラーニングは、多くの一般的なニューラルネットワークアーキテクチャの再帰的予測ルールを一般化するという事実から、近年注目を集めている。 その予測規則は平衡方程式の解に基づいて暗黙的に提供される。 最近の実証研究は、その優れた性能を示しているが、暗黙のニューラルネットワークの理論的理解は限られている。 一般に、平衡方程式は、訓練中にうまく配置されない。 その結果、非線形暗黙的ニューラルネットワークを訓練するバニラ勾配降下(SGD)が収束する保証はない。 本稿では,Rectified Linear Unit (ReLU) 活性化暗黙的ニューラルネットワークの勾配流の解析により,そのギャップを埋める。 reluアクティベーションとn$トレーニングサンプルを備えた$m$-width暗黙的ニューラルネットワークでは、暗黙的ニューラルネットワークが \textit{over-parameterized} であれば、ランダムに初期化された勾配降下が正方形損失関数の線形レートでグローバル最小に収束することを示す。 有限層超パラメータ化ニューラルネットワーク上での(S)GDの収束に関する既存の研究とは異なり、我々の収束結果は暗黙のニューラルネットワークであり、ここではレイヤーの数は \textit{infinite} である。

Implicit deep learning has received increasing attention recently due to the fact that it generalizes the recursive prediction rules of many commonly used neural network architectures. Its prediction rule is provided implicitly based on the solution of an equilibrium equation. Although a line of recent empirical studies has demonstrated its superior performances, the theoretical understanding of implicit neural networks is limited. In general, the equilibrium equation may not be well-posed during the training. As a result, there is no guarantee that a vanilla (stochastic) gradient descent (SGD) training nonlinear implicit neural networks can converge. This paper fills the gap by analyzing the gradient flow of Rectified Linear Unit (ReLU) activated implicit neural networks. For an $m$-width implicit neural network with ReLU activation and $n$ training samples, we show that a randomly initialized gradient descent converges to a global minimum at a linear rate for the square loss function if the implicit neural network is \textit{over-parameterized}. It is worth noting that, unlike existing works on the convergence of (S)GD on finite-layer over-parameterized neural networks, our convergence results hold for implicit neural networks, where the number of layers is \textit{infinite}.
翻訳日:2021-10-14 06:32:41 公開日:2021-10-11
# ニューラルネットワーク構造最適化のための重み付け知識のマイニング

Mining the Weights Knowledge for Optimizing Neural Network Structures ( http://arxiv.org/abs/2110.05954v1 )

ライセンス: Link先を確認
Mengqiao Han, Xiabi Liu, Zhaoyang Hai, Xin Duan(参考訳) ニューラルネットワークの重みに埋め込まれた知識は、ネットワーク圧縮のようなネットワーク構造を改善するのに使うことができる。 しかし、知識は手作業で設定され、あまり正確ではないかもしれないし、関連する情報は見過ごされるかもしれない。 哺乳類の脳における学習の仕組みに触発されて、我々はニューラルネットワークの重みに含まれる知識を自動アーキテクチャ学習に向けて掘り下げる。 タスク固有のニューラルネットワーク(略してTNN)の重みを入力として使用するスイッチャーニューラルネットワーク(SNN)を導入する。 重みに含まれる知識をマイニングすることで、SNNはTNNのニューロンをオフにして重み付けするためのスケーリング因子を出力する。 TNNの構造とパラメータを同時に最適化するために,SNNとTNNは,確率勾配勾配を用いたTNNと同等の性能評価の下で交互に学習する。 本手法は,分類アプリケーションにおいて広く利用されているデータセットや一般的なネットワーク上でテストする。 精度の面では,ベースラインネットワークやその他の構造学習手法を安定かつ著しく上回る。 同時に、ベースラインネットワークをスパース誘導機構を導入することなく圧縮し、特に本手法は、より単純なベースラインやより難しいタスクを扱う際の圧縮率を低下させる。 これらの結果は,本手法がより合理的な構造を創出できることを示す。

Knowledge embedded in the weights of the artificial neural network can be used to improve the network structure, such as in network compression. However, the knowledge is set up by hand, which may not be very accurate, and relevant information may be overlooked. Inspired by how learning works in the mammalian brain, we mine the knowledge contained in the weights of the neural network toward automatic architecture learning in this paper. We introduce a switcher neural network (SNN) that uses as inputs the weights of a task-specific neural network (called TNN for short). By mining the knowledge contained in the weights, the SNN outputs scaling factors for turning off and weighting neurons in the TNN. To optimize the structure and the parameters of TNN simultaneously, the SNN and TNN are learned alternately under the same performance evaluation of TNN using stochastic gradient descent. We test our method on widely used datasets and popular networks in classification applications. In terms of accuracy, we outperform baseline networks and other structure learning methods stably and significantly. At the same time, we compress the baseline networks without introducing any sparse induction mechanism, and our method, in particular, leads to a lower compression rate when dealing with simpler baselines or more difficult tasks. These results demonstrate that our method can produce a more reasonable structure.
翻訳日:2021-10-13 15:36:46 公開日:2021-10-11
# 磁気シミュレーションにおける宇宙論の衛星銀河量依存性

Satellite galaxy abundance dependency on cosmology in Magneticum simulations ( http://arxiv.org/abs/2110.05498v1 )

ライセンス: Link先を確認
Antonio Ragagnin, Alessandra Fumagalli, Tiago Castro, Klaus Dolag, Alexandro Saro, Matteo Costanzi, Sebastian Bocquet(参考訳) 文脈:銀河団における銀河の存在量のモデル化 $n_s$ in galaxy clusters (gcs) は、観測研究と数値シミュレーションをつなぐ強力なツールであるhalo occupation distribution (hod) をモデル化する上で重要な要素である。 Aims: 宇宙学パラメータが宇宙学シミュレーションと模擬観測の両方において衛星量に与える影響について検討する。 方法: 宇宙パラメータ $\Omega_m, \Omega_b, \sigma_8, h_0$ と redshift $z に基づく衛星のエミュレータ (HODEmu, \url{https://github.com/a ragagnin/HODEmu/}) を構築する。 それぞれ$0<z<0.5,$の赤方偏移スライスを$0<z<0.5,$で、設定ごとに$A$、log-slope $\beta$、Gausian fractional-scatter $\sigma$を$N_s-M$の関係に適合させる。 エミュレータは多変量出力ガウス過程回帰 (gpr) に基づいている。 結果:$A$と$\beta$は、たとえ弱いとしても、特に$\Omega_m,$\Omega_b上でも、宇宙的パラメータに依存する。 この依存関係は、異なる宇宙シミュレーションの衛星HOD(Magneticum, Illustris, BAHAMAS)の文献で見られるいくつかの相違を説明することができる。 また、衛星存在量宇宙論の依存性は、全物理(fp)シミュレーション、ダークマッターのみ(dmo)、非放射シミュレーションと異なることを示した。 結論: 本研究は、高質量ハロゲンの衛星存在量の宇宙論的依存性の予備的校正を提供し、宇宙論的パラメータを持つモデリングホッドが衛星存在量の解釈に必要であることを示し、この依存のモデル化においてfpシミュレーションを使うことの重要性を示した。

Context: Modelling satellite galaxy abundance $N_s$ in Galaxy Clusters (GCs) is a key element in modelling the Halo Occupation Distribution (HOD), which itself is a powerful tool to connect observational studies with numerical simulations. Aims: To study the impact of cosmological parameters on satellite abundance both in cosmological simulations and in mock observations. Methods: We build an emulator (HODEmu, \url{https://github.com/a ragagnin/HODEmu/}) of satellite abundance based on cosmological parameters $\Omega_m, \Omega_b, \sigma_8, h_0$ and redshift $z.$ We train our emulator using \magneticum hydrodynamic simulations that span 15 different cosmologies, each over $4$ redshift slices between $0<z<0.5,$ and for each setup we fit normalisation $A$, log-slope $\beta$ and Gaussian fractional-scatter $\sigma$ of the $N_s-M$ relation. The emulator is based on multi-variate output Gaussian Process Regression (GPR). Results: We find that $A$ and $\beta$ depend on cosmological parameters, even if weakly, especially on $\Omega_m,$ $\Omega_b.$ This dependency can explain some discrepancies found in literature between satellite HOD of different cosmological simulations (Magneticum, Illustris, BAHAMAS). We also show that satellite abundance cosmology dependency differs between full-physics (FP) simulations, dark-matter only (DMO), and non-radiative simulations. Conclusions: This work provides a preliminary calibration of the cosmological dependency of the satellite abundance of high mass halos, and we showed that modelling HOD with cosmological parameters is necessary to interpret satellite abundance, and we showed the importance of using FP simulations in modelling this dependency.
翻訳日:2021-10-13 15:33:45 公開日:2021-10-11
# 効果的なオンデバイスフェデレーション学習のための部分変数学習

Partial Variable Training for Efficient On-Device Federated Learning ( http://arxiv.org/abs/2110.05607v1 )

ライセンス: Link先を確認
Tien-Ju Yang, Dhruv Guliani, Fran\c{c}oise Beaufays, Giovanni Motta(参考訳) 本稿では,エッジデバイスにおける連合学習(federated learning:fl)の課題,すなわちメモリの制限と通信コストの削減について述べる。 本稿では,メモリ使用量と通信コストを削減するため,エッジデバイス上の少数の変数のみをトレーニングする「部分変数学習(PVT)」手法を提案する。 PVTでは、多くのデバイスを含むFLに好適な、よりローカルなトレーニングステップやデバイスを利用することで、ネットワークの精度を維持することができることを示す。 音声認識のための最先端の2つのニューラルネットワークと2つの異なるデータセットに関する実験によれば、pvtはメモリ使用量を最大1.9$\times$と通信コストを最大593$\times$と削減し、完全なネットワークトレーニングと比較して同等の精度を得ることができます。

This paper aims to address the major challenges of Federated Learning (FL) on edge devices: limited memory and expensive communication. We propose a novel method, called Partial Variable Training (PVT), that only trains a small subset of variables on edge devices to reduce memory usage and communication cost. With PVT, we show that network accuracy can be maintained by utilizing more local training steps and devices, which is favorable for FL involving a large population of devices. According to our experiments on two state-of-the-art neural networks for speech recognition and two different datasets, PVT can reduce memory usage by up to 1.9$\times$ and communication cost by up to 593$\times$ while attaining comparable accuracy when compared with full network training.
翻訳日:2021-10-13 15:31:22 公開日:2021-10-11
# 細胞複合体の信号処理

Signal Processing on Cell Complexes ( http://arxiv.org/abs/2110.05614v1 )

ライセンス: Link先を確認
T. Mitchell Roddenberry, Michael T. Schaub, Mustafa Hajij(参考訳) 非ユークリッド領域で支持される信号の処理は、近年大きな関心を集めている。 これまでのところ、このような非ユークリッド領域は、主にノード上でシグナルが支持されるグラフとして抽象化されてきたが、近年では単純複体のようなより一般的な構造での信号処理も検討されている。 本稿では, グラフ, simplicial Complex, 立方体錯体, および様々なメッシュを包含する統一フレームワークを特別なケースとして提供する, 通常のセル錯体の信号処理について紹介する。 これらの細胞複合体に対するHodge Laplacianの適性について論じる。 これらのホッジラプラシアンは、細胞複合体上に定義されたニューラルネットワークを介して線形フィルタリングや非線形フィルタリングに使用できる畳み込みフィルタの構築を可能にする。

The processing of signals supported on non-Euclidean domains has attracted large interest in the last years. Thus far, such non-Euclidean domains have been abstracted primarily as graphs with signals supported on the nodes, though recently the processing of signals on more general structures such as simplicial complexes has also been considered. In this paper, we give an introduction to signal processing on (abstract) regular cell complexes, which provide a unifying framework encompassing graphs, simplicial complexes, cubical complexes and various meshes as special cases. We discuss how appropriate Hodge Laplacians for these cell complexes can be derived. These Hodge Laplacians enable the construction of convolutional filters, which can be employed in linear filtering and non-linear filtering via neural networks defined on cell complexes.
翻訳日:2021-10-13 15:31:06 公開日:2021-10-11
# 説明可能な自律運転システムのための画像変換器の開発と試験

Development and testing of an image transformer for explainable autonomous driving systems ( http://arxiv.org/abs/2110.05559v1 )

ライセンス: Link先を確認
Jiqian Dong, Sikai Chen, Shuya Zong, Tiantian Chen, Mohammad Miralinaghi, Samuel Labi(参考訳) 過去10年間で、ディープラーニング(DL)アプローチはコンピュータビジョン(CV)アプリケーションでうまく使われてきた。 しかしながら、DLベースのCVモデルは一般に、解釈可能性の欠如によりブラックボックスであると考えられている。 このようなブラックボックスの挙動は、ユーザの不信感を悪化させ、これらのモデルでは、人間のパフォーマンスよりも優れているにもかかわらず、自律運転タスクにおけるDLCVモデルの普及を妨げている。 そのため、自律運転タスクのための説明可能なDLモデルを開発することが不可欠である。 説明可能なDLモデルは、自律性に対するユーザの信頼を高めるだけでなく、システム開発フェーズにおけるモデルの欠陥や弱点を特定するための診断アプローチとしても機能します。 本稿では,SOTA(State-of-the-a rt self-attention based model)モデルであるTransformerに基づいて,車載カメラで収集した画像から視覚的特徴をマッピングし,潜在的な運転行動のガイドを行う。 このモデルは画像のグローバルな特徴に対してソフトな注意を払っている。 その結果,提案モデルの有効性は,計算コストの低い有意差でベンチマークモデルと比較し,優れた性能(行動予測と説明の正確さ)を示すことを示した。

In the last decade, deep learning (DL) approaches have been used successfully in computer vision (CV) applications. However, DL-based CV models are generally considered to be black boxes due to their lack of interpretability. This black box behavior has exacerbated user distrust and therefore has prevented widespread deployment DLCV models in autonomous driving tasks even though some of these models exhibit superiority over human performance. For this reason, it is essential to develop explainable DL models for autonomous driving task. Explainable DL models can not only boost user trust in autonomy but also serve as a diagnostic approach to identify anydefects and weaknesses of the model during the system development phase. In this paper, we propose an explainable end-to-end autonomous driving system based on "Transformer", a state-of-the-art (SOTA) self-attention based model, to map visual features from images collected by onboard cameras to guide potential driving actions with corresponding explanations. The model achieves a soft attention over the global features of the image. The results demonstrate the efficacy of our proposed model as it exhibits superior performance (in terms of correct prediction of actions and explanations) compared to the benchmark model by a significant margin with lower computational cost.
翻訳日:2021-10-13 14:55:47 公開日:2021-10-11
# 深層多視点光度ステレオへのニューラルラジアンス場アプローチ

Neural Radiance Fields Approach to Deep Multi-View Photometric Stereo ( http://arxiv.org/abs/2110.05594v1 )

ライセンス: Link先を確認
Berk Kaya, Suryansh Kumar, Francesco Sarno, Vittorio Ferrari, Luc Van Gool(参考訳) 本稿では,マルチビューフォトメトリックステレオ問題(mvps)に対する最新の解法を提案する。 本研究は,MVPS実験装置における画像形成モデルを用いて,画像から物体の高密度な3次元再構成を復元する。 光計測ステレオ(ps)像形成モデルを用いて表面配向を抽出し、多視点の神経放射場表現とブレンドして物体の表面形状を復元する。 従来の多段化フレームワークとは対照的に, 位置, 等深度等角線, 方向測定は独立に推定され, 後で融合するので, 実装と実現が容易である。 本手法は,深層測光ステレオネットワークで推定される表面正規性を利用して,多視点画像のニューラルレンダリングを行う。 3次元占有情報を介して体積空間の密度勾配を明示的に使用するのではなく、観察方向に沿って各3次元サンプル点に対する物体の表面正規性を考慮してmvps画像を描画する。 提案する神経放射場表現をmvpsで効率的に最適化し,完全連結深層ネットワークを用いて物体の3次元形状を復元する。 diligent-mvベンチマークデータセットの広範な評価から,本手法はpsのみ,あるいはmvsのみを実行するアプローチよりも優れた性能を示し,最先端のマルチステージ融合法と同等の結果を提供する。

We present a modern solution to the multi-view photometric stereo problem (MVPS). Our work suitably exploits the image formation model in a MVPS experimental setup to recover the dense 3D reconstruction of an object from images. We procure the surface orientation using a photometric stereo (PS) image formation model and blend it with a multi-view neural radiance field representation to recover the object's surface geometry. Contrary to the previous multi-staged framework to MVPS, where the position, iso-depth contours, or orientation measurements are estimated independently and then fused later, our method is simple to implement and realize. Our method performs neural rendering of multi-view images while utilizing surface normals estimated by a deep photometric stereo network. We render the MVPS images by considering the object's surface normals for each 3D sample point along the viewing direction rather than explicitly using the density gradient in the volume space via 3D occupancy information. We optimize the proposed neural radiance field representation for the MVPS setup efficiently using a fully connected deep network to recover the 3D geometry of an object. Extensive evaluation on the DiLiGenT-MV benchmark dataset shows that our method performs better than the approaches that perform only PS or only multi-view stereo (MVS) and provides comparable results against the state-of-the-art multi-stage fusion methods.
翻訳日:2021-10-13 14:55:27 公開日:2021-10-11
# 効率的な深層測光ステレオのためのニューラルアーキテクチャ探索

Neural Architecture Search for Efficient Uncalibrated Deep Photometric Stereo ( http://arxiv.org/abs/2110.05621v1 )

ライセンス: Link先を確認
Francesco Sarno, Suryansh Kumar, Berk Kaya, Zhiwu Huang, Vittorio Ferrari, Luc Van Gool(参考訳) 本研究では,非校正光度ステレオ(PS)のための自動機械学習手法を提案する。 本研究の目的は、表面正規精度に優れた軽量で計算効率の良いPSニューラルネットワークの発見である。 従来は手作りで慎重に調整されていた深層PSネットワークとは違って,差別化可能なニューラルアーキテクチャ探索(NAS)戦略を活用して,非校正PSアーキテクチャの自動検索を行う。 まず,光キャリブレーションネットワークと正規推定ネットワークの離散探索空間をそれぞれ定義する。 次に、この探索空間を連続的に緩和し、効率的な光キャリブレーションと正規推定ネットワークを見つけるための勾配に基づく最適化戦略を提案する。 非校正PSにNAS方法論を直接適用することは、特定のタスク固有の制約を満たさなければならないため、簡単ではない。 さらに,2つのネットワークを個別に検索・訓練し,一般バス救済(GBR)の曖昧さを考慮に入れた。 DiLiGenTデータセットの大規模な実験によると、自動検索されたニューラルネットワークのパフォーマンスは、メモリフットプリントが低い状態で、最先端の未校正PSメソッドと良好に比較できる。

We present an automated machine learning approach for uncalibrated photometric stereo (PS). Our work aims at discovering lightweight and computationally efficient PS neural networks with excellent surface normal accuracy. Unlike previous uncalibrated deep PS networks, which are handcrafted and carefully tuned, we leverage differentiable neural architecture search (NAS) strategy to find uncalibrated PS architecture automatically. We begin by defining a discrete search space for a light calibration network and a normal estimation network, respectively. We then perform a continuous relaxation of this search space and present a gradient-based optimization strategy to find an efficient light calibration and normal estimation network. Directly applying the NAS methodology to uncalibrated PS is not straightforward as certain task-specific constraints must be satisfied, which we impose explicitly. Moreover, we search for and train the two networks separately to account for the Generalized Bas-Relief (GBR) ambiguity. Extensive experiments on the DiLiGenT dataset show that the automatically searched neural architectures performance compares favorably with the state-of-the-art uncalibrated PS methods while having a lower memory footprint.
翻訳日:2021-10-13 14:55:03 公開日:2021-10-11
# sru++: 音声認識に注意を向けた高速再発の先駆者

SRU++: Pioneering Fast Recurrence with Attention for Speech Recognition ( http://arxiv.org/abs/2110.05571v1 )

ライセンス: Link先を確認
Jing Pan, Tao Lei, Kwangyoun Kim, Kyu Han, Shinji Watanabe(参考訳) トランスフォーマーアーキテクチャは,音声認識(asr)を含むほとんどのシーケンス変換タスクにおいて,長距離依存の把握に優れた注意力を持つため,支配的なアーキテクチャとして広く採用されている。 注意のみに基づいて構築されたモデルは、通常のRNNよりも並列化がよいが、新しいネットワークアーキテクチャであるSRU++が最近提案されている。 高速リカレンスとアテンション機構を組み合わせることで、SRU++はシーケンスモデリングの強力な能力を示し、様々な言語モデリングや機械翻訳タスクにおける最先端の結果を達成し、計算効率を向上する。 本研究では,複数のASRベンチマークにおいてコンフォーマーとの比較を行い,SRU++をASRタスクに適用する利点について述べる。 人気の高いLibriSpeechベンチマークでは、テストクリーン/他のテストでSRU++モデルが2.0%/4.7% WERを達成した。 具体的には,SRU++ が長文音声入力において Conformer を上回り,その差が大きい。

The Transformer architecture has been well adopted as a dominant architecture in most sequence transduction tasks including automatic speech recognition (ASR), since its attention mechanism excels in capturing long-range dependencies. While models built solely upon attention can be better parallelized than regular RNN, a novel network architecture, SRU++, was recently proposed. By combining the fast recurrence and attention mechanism, SRU++ exhibits strong capability in sequence modeling and achieves near-state-of-the-ar t results in various language modeling and machine translation tasks with improved compute efficiency. In this work, we present the advantages of applying SRU++ in ASR tasks by comparing with Conformer across multiple ASR benchmarks and study how the benefits can be generalized to long-form speech inputs. On the popular LibriSpeech benchmark, our SRU++ model achieves 2.0% / 4.7% WER on test-clean / test-other, showing competitive performances compared with the state-of-the-art Conformer encoder under the same set-up. Specifically, SRU++ can surpass Conformer on long-form speech input with a large margin, based on our analysis.
翻訳日:2021-10-13 14:48:20 公開日:2021-10-11
# 自然言語からLTLへのマッピングによる新しいドメインへの一般化

Generalizing to New Domains by Mapping Natural Language to Lifted LTL ( http://arxiv.org/abs/2110.05603v1 )

ライセンス: Link先を確認
Eric Hsiung, Hiloni Mehta, Junchi Chu, Xinyu Liu, Roma Patel, Stefanie Tellex, George Konidaris(参考訳) 近年,ロボットのコマンドを自然言語で指定する作業は,LTLに基礎を置いている。 しかし、自然言語タスク仕様をLTLタスク仕様に言語モデルを用いてマッピングするには、有限語彙上の確率分布が必要である。 既存の最先端の手法はこの有限語彙を拡張して、出力一般化を改善するために入力列から受け継がれない項を含むようにした。 しかし、新しい語彙外原子命題はこれらの方法では生成できない。 これを解決するために,一つの肯定的なタスク仕様例から学習可能な中間的コンテキストクエリ表現を導入し,文脈クエリをLTLテンプレートに関連付ける。 この中間表現は、正確な基底が利用できると仮定して、目に見えないオブジェクト参照を一般化できることを示す。 本稿では,自然言語タスク仕様を中間文脈クエリにマッピングする手法と,自然言語をltlに翻訳できる最先端のコピーネットモデルを比較し,操作やナビゲーションタスク仕様の正しいltlが出力可能かどうかを評価し,未認識のオブジェクト参照に対してコピーネットモデルを上回ることを示す。 提案手法の出力をシミュレーションしたoo-mdp環境での計画に活用できることを実証する。 最後に,自然言語タスク仕様をグランドドltlに変換する際に発生する一般的な障害モードについて述べる。

Recent work on using natural language to specify commands to robots has grounded that language to LTL. However, mapping natural language task specifications to LTL task specifications using language models require probability distributions over finite vocabulary. Existing state-of-the-art methods have extended this finite vocabulary to include unseen terms from the input sequence to improve output generalization. However, novel out-of-vocabulary atomic propositions cannot be generated using these methods. To overcome this, we introduce an intermediate contextual query representation which can be learned from single positive task specification examples, associating a contextual query with an LTL template. We demonstrate that this intermediate representation allows for generalization over unseen object references, assuming accurate groundings are available. We compare our method of mapping natural language task specifications to intermediate contextual queries against state-of-the-art CopyNet models capable of translating natural language to LTL, by evaluating whether correct LTL for manipulation and navigation task specifications can be output, and show that our method outperforms the CopyNet model on unseen object references. We demonstrate that the grounded LTL our method outputs can be used for planning in a simulated OO-MDP environment. Finally, we discuss some common failure modes encountered when translating natural language task specifications to grounded LTL.
翻訳日:2021-10-13 14:47:57 公開日:2021-10-11
# 離散ウェーブレット変換を用いたフルチャネル信号とダウンチャネル信号のリアルタイム脳波に基づく感情認識

Real-time EEG-based Emotion Recognition using Discrete Wavelet Transforms on Full and Reduced Channel Signals ( http://arxiv.org/abs/2110.05635v1 )

ライセンス: Link先を確認
Josef Bajada and Francesco Borg Bonello(参考訳) コンシューマグレードのEEGデバイスを用いたリアルタイム脳波ベースの感情認識(EEG-ER)は、チャンネル数を減らすことで感情の分類を行う。 これらのデバイスは一般的に4、5チャンネルしか提供しないが、ほとんどの最先端の研究で使用される多くのチャネル(32以上のチャネル)とは異なりである。 本研究では、離散ウェーブレット変換(DWT)を用いて時間周波数領域の特徴を抽出し、時間ウィンドウを用いてEEG-ER分類を行う。 このテクニックは、フルセッションデータでのポストホックとは対照的に、リアルタイムに使用できる。 また,従来の研究で開発されたベースライン除去前処理を,分類精度を大幅に向上させるDWTエントロピー・エネルギー特性に適用した。 本稿では,3次元畳み込みニューラルネットワーク(3D CNN)とサポートベクトルマシン(SVM)の2つの異なる分類器アーキテクチャについて考察する。 個人の感情状態の妥当性と覚醒の次元を分類するために,主観的非依存と主観的依存の双方でモデルを評価する。 我々は、DEAPデータセットが提供する全32チャンネルデータと、同じデータセットの5チャンネル抽出量の両方でテストする。 SVMモデルは、提示されたすべてのシナリオで最高に機能し、Valenceでは95.32%、Arousalでは95.68%の精度で32チャンネルの主観依存のケースで、以前のリアルタイムEEG-ER主観依存のベンチマークを上回っている。 また,被験者非依存症例では,Valenceが80.70%,Arousalが81.41%であった。 入力データを5チャンネルに減らすと、すべてのシナリオで平均3.54%の精度が低下し、このモデルはよりアクセスしやすいローエンドの脳波デバイスでの使用に適している。

Real-time EEG-based Emotion Recognition (EEG-ER) with consumer-grade EEG devices involves classification of emotions using a reduced number of channels. These devices typically provide only four or five channels, unlike the high number of channels (32 or more) typically used in most current state-of-the-art research. In this work we propose to use Discrete Wavelet Transforms (DWT) to extract time-frequency domain features, and we use time-windows of a few seconds to perform EEG-ER classification. This technique can be used in real-time, as opposed to post-hoc on the full session data. We also apply baseline removal preprocessing, developed in prior research, to our proposed DWT Entropy and Energy features, which improves classification accuracy significantly. We consider two different classifier architectures, a 3D Convolutional Neural Network (3D CNN) and a Support Vector Machine (SVM). We evaluate both models on subject-independent and subject dependent setups to classify the Valence and Arousal dimensions of an individual's emotional state. We test them on both the full 32-channel data provided by the DEAP dataset, and also a reduced 5-channel extract of the same dataset. The SVM model performs best on all the presented scenarios, achieving an accuracy of 95.32% on Valence and 95.68% on Arousal for the full 32-channel subject-dependent case, beating prior real-time EEG-ER subject-dependent benchmarks. On the subject-independent case an accuracy of 80.70% on Valence and 81.41% on Arousal was also obtained. Reducing the input data to 5 channels only degrades the accuracy by an average of 3.54% across all scenarios, making this model appropriate for use with more accessible low-end EEG devices.
翻訳日:2021-10-13 14:45:46 公開日:2021-10-11
# マルチエージェントシステムにおける協調学習:協調的アクタークリティカルアルゴリズムと有限時間保証

Learning to Coordinate in Multi-Agent Systems: A Coordinated Actor-Critic Algorithm and Finite-Time Guarantees ( http://arxiv.org/abs/2110.05597v1 )

ライセンス: Link先を確認
Siliang Zeng, Tianyi Chen, Alfredo Garcia, Mingyi Hong(参考訳) マルチエージェント強化学習(MARL)が近年注目されている。 しかし、シングルエージェントとは異なり、MARLの多くの理論的およびアルゴリズム的な側面はよく理解されていない。 本稿では,アクタ-クリティック(ac)アルゴリズムを用いた自律エージェントによる協調行動の出現について検討する。 具体的には,個別にパラメータ化されたポリシーが,各エージェント間で協調的に最適化される) と,(局所的にのみ最適化される) パーソナライズされた部分を持つような,協調的アクタ批判アルゴリズム(CAC)のクラスを提案し,分析する。 このような部分的パーソナライズされたポリシーは、エージェントが同僚の過去の経験を活用して、個々のタスクに適応することによって、調整を学ぶことを可能にする。 私たちの設計の柔軟性により、提案するmarl-cacアルゴリズムは、エージェントが隣人とのみ通信できる"it full decentralized"設定と、エージェントが(部分的にパーソナライズされた)ローカルモデルを最適化しながらサーバと時折通信する"it federated"設定で使用できる。 理論的には、いくつかの標準的な正則性仮定の下では、目的関数の勾配の平方ノルムが$\epsilon$未満の解として定義される)$\epsilon$-定常解を達成するために、提案されたMARL-CACアルゴリズムは$\mathcal{O}(\epsilon^{-\frac{5}{2}})$サンプルを必要とする。 我々の知る限り、この研究は部分的にパーソナライズされたポリシーを持つ分散ACアルゴリズムに対する最初の有限サンプル保証を提供する。

Multi-agent reinforcement learning (MARL) has attracted much research attention recently. However, unlike its single-agent counterpart, many theoretical and algorithmic aspects of MARL have not been well-understood. In this paper, we study the emergence of coordinated behavior by autonomous agents using an actor-critic (AC) algorithm. Specifically, we propose and analyze a class of coordinated actor-critic algorithms (CAC) in which individually parametrized policies have a {\it shared} part (which is jointly optimized among all agents) and a {\it personalized} part (which is only locally optimized). Such kind of {\it partially personalized} policy allows agents to learn to coordinate by leveraging peers' past experience and adapt to individual tasks. The flexibility in our design allows the proposed MARL-CAC algorithm to be used in a {\it fully decentralized} setting, where the agents can only communicate with their neighbors, as well as a {\it federated} setting, where the agents occasionally communicate with a server while optimizing their (partially personalized) local models. Theoretically, we show that under some standard regularity assumptions, the proposed MARL-CAC algorithm requires $\mathcal{O}(\epsilon^{-\frac{5}{2}})$ samples to achieve an $\epsilon$-stationar y solution (defined as the solution whose squared norm of the gradient of the objective function is less than $\epsilon$). To the best of our knowledge, this work provides the first finite-sample guarantee for decentralized AC algorithm with partially personalized policies.
翻訳日:2021-10-13 14:36:10 公開日:2021-10-11
# 赤外線スカイイメージとクラウド動的特徴抽出による時間内太陽予測のためのカーネル学習のレビュー

Review of Kernel Learning for Intra-Hour Solar Forecasting with Infrared Sky Images and Cloud Dynamic Feature Extraction ( http://arxiv.org/abs/2110.05622v1 )

ライセンス: Link先を確認
Guillermo Terr\'en-Serrano and Manel Mart\'inez-Ram\'on(参考訳) 太陽光発電システムによって発生するエネルギーの不確実性は、保証された信頼性の高いエネルギー供給(すなわちエネルギー貯蔵)のための追加コストをもたらす。 本研究の目的は、電力網における太陽光発電システムの浸透を増大させるために、確率論的マルチタスク時空間太陽予測(リアルタイム適用が可能)を導入することで追加コストを削減することである。 移動する雲の方向は、太陽光発電システムに到達する地球規模の太陽放射を予測し、雲力学の特徴を抽出することにより、スカイイメージの連続的に推定される。 この空画像は、ソーラートラッカーに取り付けられた低コストの赤外線撮像器を用いて取得される。 太陽予報アルゴリズムはカーネル学習法に基づいており、clear sky indexを予測器とし、雲から抽出した特徴を特徴ベクトルとして用いる。 提案された太陽予測アルゴリズムは15秒の解像度で8分前に16.45\%の予測技術を達成した。 対照的に、以前の作業は1分間の解像度で15.4\%の予測スキルに達した。 したがって、この太陽予報アルゴリズムは、太陽光発電システムの浸透率の高い電力網の固有の不確実性を管理する能力を持つグリッドオペレーターに、最先端の性能を向上させる。

The uncertainty of the energy generated by photovoltaic systems incurs an additional cost for a guaranteed, reliable supply of energy (i.e., energy storage). This investigation aims to decrease the additional cost by introducing probabilistic multi-task intra-hour solar forecasting (feasible in real time applications) to increase the penetration of photovoltaic systems in power grids. The direction of moving clouds is estimated in consecutive sequences of sky images by extracting features of cloud dynamics with the objective of forecasting the global solar irradiance that reaches photovoltaic systems. The sky images are acquired using a low-cost infrared sky imager mounted on a solar tracker. The solar forecasting algorithm is based on kernel learning methods, and uses the clear sky index as predictor and features extracted from clouds as feature vectors. The proposed solar forecasting algorithm achieved 16.45\% forecasting skill 8 minutes ahead with a resolution of 15 seconds. In contrast, previous work reached 15.4\% forecasting skill with the resolution of 1 minute. Therefore, this solar forecasting algorithm increases the performances with respect to the state-of-the-art, providing grid operators with the capability of managing the inherent uncertainties of power grids with a high penetration of photovoltaic systems.
翻訳日:2021-10-13 14:35:41 公開日:2021-10-11
# 局所量子回路の出力分布の学習可能性

Learnability of the output distributions of local quantum circuits ( http://arxiv.org/abs/2110.05517v1 )

ライセンス: Link先を確認
Marcel Hinsche, Marios Ioannou, Alexander Nietner, Jonas Haferkamp, Yihui Quek, Dominik Hangleiter, Jean-Pierre Seifert, Jens Eisert, Ryan Sweke(参考訳) 量子デバイスが確率的モデリングに持つ潜在的な利点を理解することには、現在大きな関心がある。 本研究では,2つの異なるoracleモデルにおいて,量子回路生まれの機械,すなわち局所量子回路の出力分布について,おそらくほぼ正しい(pac)学習可能性について検討する。 我々はまず,超対数深度クリフォード回路の出力分布が統計的クエリモデルにおいて標本効率良く学習できないこと,すなわち,サンプル空間上の有界関数の期待値に対するクエリアクセスが与えられた場合に,負の結果を示す。 これは直ちに、統計クエリから学習する量子アルゴリズムと古典アルゴリズムの両方にとって、クリフォード群を含む任意のゲート集合を用いた局所量子回路の出力分布の困難さを意味する。 多くの実用的な生成モデリングアルゴリズムが、量子回路誕生マシンのトレーニングを含む統計的クエリを使用しているため、結果は広く適用可能であり、局所量子回路の出力分布を学習するための有意義な量子優位の可能性を強く制限している。 その結果、より強力なオラクルモデル、すなわちサンプルに直接アクセスすると、局所的なクリフォード回路の出力分布は、古典的な学習者によって効率よくPACを学習可能であることを示す。 この結果は,対象分布(生成モデル)からサンプルを生成するアルゴリズムを学習し,その確率(密度モデル)を評価するアルゴリズムを学習する問題にも等しく当てはまる。 これらは確率的モデリングの観点から、局所量子回路の出力分布の学習可能性に関する最初の厳密な洞察を提供する。

There is currently a large interest in understanding the potential advantages quantum devices can offer for probabilistic modelling. In this work we investigate, within two different oracle models, the probably approximately correct (PAC) learnability of quantum circuit Born machines, i.e., the output distributions of local quantum circuits. We first show a negative result, namely, that the output distributions of super-logarithmic depth Clifford circuits are not sample-efficiently learnable in the statistical query model, i.e., when given query access to empirical expectation values of bounded functions over the sample space. This immediately implies the hardness, for both quantum and classical algorithms, of learning from statistical queries the output distributions of local quantum circuits using any gate set which includes the Clifford group. As many practical generative modelling algorithms use statistical queries -- including those for training quantum circuit Born machines -- our result is broadly applicable and strongly limits the possibility of a meaningful quantum advantage for learning the output distributions of local quantum circuits. As a positive result, we show that in a more powerful oracle model, namely when directly given access to samples, the output distributions of local Clifford circuits are computationally efficiently PAC learnable by a classical learner. Our results are equally applicable to the problems of learning an algorithm for generating samples from the target distribution (generative modelling) and learning an algorithm for evaluating its probabilities (density modelling). They provide the first rigorous insights into the learnability of output distributions of local quantum circuits from the probabilistic modelling perspective.
翻訳日:2021-10-13 13:45:57 公開日:2021-10-11
# 平滑化分離性非負行列分解

Smoothed Separable Nonnegative Matrix Factorization ( http://arxiv.org/abs/2110.05528v1 )

ライセンス: Link先を確認
Nicolas Nadisic, Nicolas Gillis, Christophe Kervazo(参考訳) 頂点の集合の凸包に属する一連のデータポイントが与えられると、データ分析と機械学習の重要な問題は、ノイズの存在下でこれらの頂点を推定することである。 多くのアルゴリズムは、各頂点に少なくとも1つのデータポイントが存在するという仮定の下で開発されており、最も広く使われているもののうち2つは頂点成分分析(VCA)と連続射影アルゴリズム(SPA)である。 この仮定は、ブラインド超スペクトルアンミックスにおける純粋なピクセル仮定、および非負行列因子分解における分離可能性仮定として知られている。 最近では、Bhattacharyya と Kannan (ACM-SIAM Symposium on Discrete Algorithms, 2020) が、頂点ごとに複数の近傍データポイントが存在するという仮定に依存する潜在単純性(ALLS)を学習するためのアルゴリズムを提案した。 そのシナリオでは、ALLSは分離可能性仮定に基づくアルゴリズムよりも確率的にノイズに対して堅牢である。 本稿では,各頂点に複数のデータポイントが存在することを仮定して,VCAとSPAを一般化するスムーズなVCA(SVCA)とスムーズなSPA(SSPA)を提案する。 本稿では,vca,spaおよびallsに対するsvcaおよびsspaの有効性について,合成データセットおよびハイパースペクトル画像のアンミックスについて述べる。

Given a set of data points belonging to the convex hull of a set of vertices, a key problem in data analysis and machine learning is to estimate these vertices in the presence of noise. Many algorithms have been developed under the assumption that there is at least one nearby data point to each vertex; two of the most widely used ones are vertex component analysis (VCA) and the successive projection algorithm (SPA). This assumption is known as the pure-pixel assumption in blind hyperspectral unmixing, and as the separability assumption in nonnegative matrix factorization. More recently, Bhattacharyya and Kannan (ACM-SIAM Symposium on Discrete Algorithms, 2020) proposed an algorithm for learning a latent simplex (ALLS) that relies on the assumption that there is more than one nearby data point for each vertex. In that scenario, ALLS is probalistically more robust to noise than algorithms based on the separability assumption. In this paper, inspired by ALLS, we propose smoothed VCA (SVCA) and smoothed SPA (SSPA) that generalize VCA and SPA by assuming the presence of several nearby data points to each vertex. We illustrate the effectiveness of SVCA and SSPA over VCA, SPA and ALLS on synthetic data sets, and on the unmixing of hyperspectral images.
翻訳日:2021-10-13 13:45:32 公開日:2021-10-11
# CAPITAL: 制約木探索による最適部分群同定

CAPITAL: Optimal Subgroup Identification via Constrained Policy Tree Search ( http://arxiv.org/abs/2110.05636v1 )

ライセンス: Link先を確認
Hengrui Cai, Wenbin Lu, Rachel Marceau West, Devan V. Mehrotra, and Lingkang Huang(参考訳) パーソナライズドメディカル(Personalized Medicine)は、患者の特徴に合わせた医療のパラダイムであり、医療分野でますます魅力的な分野となっている。 パーソナライズドメディカルの重要な目標は、他の比較治療よりも標的治療の恩恵を受けるベースライン共変量に基づく患者のサブグループを特定することである。 現在のサブグループ識別手法のほとんどは、サブグループサイズに注意を払わずに、治療効果が強化されたサブグループを得ることにのみ焦点を合わせている。 しかし、臨床的に有意義なサブグループ学習アプローチは、より良い治療の恩恵を受ける患者の最大数を特定するべきである。 本稿では,選択された患者数を最大化する最適なサブグループ選択ルール(ssr)を提案する。 最適なssrの2つの等価な理論形式を、結果における処理-共変相互作用を記述するコントラスト関数に基づいて導出する。 さらに,制約付きポリシツリー探索アルゴリズム(capital)を提案し,解釈可能な決定木クラス内で最適なssrを求める。 提案手法は, 陰性治療効果を有する患者の包含を罰する複数の制約に対処し, 臨床的に興味深い平均生存時間として制限平均生存時間を用いてイベントデータに対処する。 本手法の有効性と有用性を示すため, 大規模なシミュレーション, 比較研究, 実データ応用を行った。

Personalized medicine, a paradigm of medicine tailored to a patient's characteristics, is an increasingly attractive field in health care. An important goal of personalized medicine is to identify a subgroup of patients, based on baseline covariates, that benefits more from the targeted treatment than other comparative treatments. Most of the current subgroup identification methods only focus on obtaining a subgroup with an enhanced treatment effect without paying attention to subgroup size. Yet, a clinically meaningful subgroup learning approach should identify the maximum number of patients who can benefit from the better treatment. In this paper, we present an optimal subgroup selection rule (SSR) that maximizes the number of selected patients, and in the meantime, achieves the pre-specified clinically meaningful mean outcome, such as the average treatment effect. We derive two equivalent theoretical forms of the optimal SSR based on the contrast function that describes the treatment-covariates interaction in the outcome. We further propose a ConstrAined PolIcy Tree seArch aLgorithm (CAPITAL) to find the optimal SSR within the interpretable decision tree class. The proposed method is flexible to handle multiple constraints that penalize the inclusion of patients with negative treatment effects, and to address time to event data using the restricted mean survival time as the clinically interesting mean outcome. Extensive simulations, comparison studies, and real data applications are conducted to demonstrate the validity and utility of our method.
翻訳日:2021-10-13 13:45:06 公開日:2021-10-11
# C3PU:AI推論のためのアナログミキシング信号インメモリコンピューティングを用いたクロスカップリングキャパシタ処理ユニット

C3PU: Cross-Coupling Capacitor Processing Unit Using Analog-Mixed Signal In-Memory Computing for AI Inference ( http://arxiv.org/abs/2110.05947v1 )

ライセンス: Link先を確認
Dima Kilani, Baker Mohammad, Yasmin Halawani, Mohammed F. Tolba and Hani Saleh(参考訳) 本稿では,メモリコンピューティングにおけるアナログ混合信号をサポートするクロスカップリングコンデンサ処理ユニット(C3PU)を提案する。 C3PUは、容量ユニット、CMOSトランジスタ、電圧対時変換器(VTC)から構成される。 容量単位は、乗算演算子を保持する計算要素として機能し、乗算が端末に適用されると乗算を行う。 乗算器は、低消費電力のVTCを用いてパルス幅信号に変換される入力電圧である。 トランジスタは、電圧レベルが生成されるこの乗算を転送する。 4つのMACユニットを実装することができる5x4 C3PUアレイのデモレータを示す。 この設計は65nm技術でモンテカルロシミュレーションを用いて検証されている。 5x4 C3PUは66.4 fJ/MACのエネルギーを0.3Vの電圧で消費し、誤差は5.7%だった。 提案ユニットは、デジタルベースの8x4ビット固定点MACユニットと比較して、それぞれ低エネルギーを実現し、それぞれ3.4xと3.6xの小さな領域を占有する。 C3PUは、MATLABを用いた96.67%の理想的な精度と比較して90%の分類精度を達成した人工ニューラルネットワークを用いた虹彩ファーバ分類によって利用されてきた。

This paper presents a novel cross-coupling capacitor processing unit (C3PU) that supports analog-mixed signal in memory computing to perform multiply-and-accumul ate (MAC) operations. The C3PU consists of a capacitive unit, a CMOS transistor, and a voltage-to-time converter (VTC). The capacitive unit serves as a computational element that holds the multiplier operand and performs multiplication once the multiplicand is applied at the terminal. The multiplicand is the input voltage that is converted to a pulse width signal using a low power VTC. The transistor transfers this multiplication where a voltage level is generated. A demonstrator of 5x4 C3PU array that is capable of implementing 4 MAC units is presented. The design has been verified using Monte Carlo simulation in 65 nm technology. The 5x4 C3PU consumed energy of 66.4 fJ/MAC at 0.3 V voltage supply with an error of 5.7%. The proposed unit achieves lower energy and occupies a smaller area by 3.4x and 3.6x, respectively, with similar error value when compared to a digital-based 8x4-bit fixed point MAC unit. The C3PU has been utilized through an iris fower classification utilizing an artificial neural network which achieved a 90% classification accuracy compared to ideal accuracy of 96.67% using MATLAB.
翻訳日:2021-10-13 13:38:42 公開日:2021-10-11
# 学習ロバストPCA:高次元外乱検出のためのスケーラブルな深部展開手法

Learned Robust PCA: A Scalable Deep Unfolding Approach for High-Dimensional Outlier Detection ( http://arxiv.org/abs/2110.05649v1 )

ライセンス: Link先を確認
HanQin Cai, Jialin Liu, Wotao Yin(参考訳) ロバスト主成分分析(RPCA)は現代の機械学習において重要なツールであり、低ランク行列再構成のタスクにおける外れ値を検出する。 本稿では,Learted Robust PCA (LRPCA) と呼ぶ高次元RPCA問題に対して,スケーラブルで学習可能な非凸アプローチを提案する。 LRPCAは非常に効率的で、その自由パラメータは深く展開することで効果的に学習することができる。 さらに,新しいfeedforward-recurren t-mixedニューラルネットワークモデルを用いて,有限イテレーションから無限イテレーションまで深い展開を行う。 RPCAの軽度仮定に基づき,LRPCAの回復保証を確立する。 LRPCAは、合成データセットと実世界のアプリケーションの両方で、ScaledGDやAltProjのような最先端のRPCAアルゴリズムよりも優れています。

Robust principal component analysis (RPCA) is a critical tool in modern machine learning, which detects outliers in the task of low-rank matrix reconstruction. In this paper, we propose a scalable and learnable non-convex approach for high-dimensional RPCA problems, which we call Learned Robust PCA (LRPCA). LRPCA is highly efficient, and its free parameters can be effectively learned to optimize via deep unfolding. Moreover, we extend deep unfolding from finite iterations to infinite iterations via a novel feedforward-recurren t-mixed neural network model. We establish the recovery guarantee of LRPCA under mild assumptions for RPCA. Numerical experiments show that LRPCA outperforms the state-of-the-art RPCA algorithms, such as ScaledGD and AltProj, on both synthetic datasets and real-world applications.
翻訳日:2021-10-13 13:38:04 公開日:2021-10-11
# 都市交通動的リルーティングフレームワーク : フォグクラウドアーキテクチャを用いたdrlベースモデル

Urban traffic dynamic rerouting framework: A DRL-based model with fog-cloud architecture ( http://arxiv.org/abs/2110.05532v1 )

ライセンス: Link先を確認
Runjia Du, Sikai Chen, Jiqian Dong, Tiantian Chen, Xiaowen Fu, Samuel Labi(参考訳) 過去の研究では,都市交通渋滞を緩和し,都市交通効率を向上させるために動的再帰フレームワークが有効であることを示した。 低レイテンシ能力と車両と道路インフラ間の情報交換の利点を提供するフォグコンピュートのような新興技術を用いて動的リルーチンを促進できることが示唆されている。 そこで本研究では,霧クラウドアーキテクチャを用いてGAQ(Graph Attention Network - Deep Q Learning)とEBkSP(Entropy Based k Shortest Path)を組み合わせた2段階モデルを提案する。 まず、gaqは、各道路および各霧地域における交通状況を分析し、次に、各地域及び周辺地域からの注意情報に基づいて、道路指標を割り当てる。 第2に、EBkSPは車両の優先度と経路人気に基づいて各車両に経路を割り当てる。 提案モデルの有効性を検討するために,ケーススタディ実験を行った。 モデルトレーニング段階では、車両の優先順位を確立するために異なる方法が使用され、結果への影響を評価する。 また,提案モデルでは,車種別と車種別(車種別)の比率の異なる様々なシナリオで試験を行う。 以上の結果から,提案モデルを用いた車両再走行は,より高速かつ激しい渋滞の可能性を低減できることが示された。 この結果は,提案モデルが都市交通機関によって動的な経路変更のために展開され,最終的には都市交通渋滞を低減できることを示唆している。

Past research and practice have demonstrated that dynamic rerouting framework is effective in mitigating urban traffic congestion and thereby improve urban travel efficiency. It has been suggested that dynamic rerouting could be facilitated using emerging technologies such as fog-computing which offer advantages of low-latency capabilities and information exchange between vehicles and roadway infrastructure. To address this question, this study proposes a two-stage model that combines GAQ (Graph Attention Network - Deep Q Learning) and EBkSP (Entropy Based k Shortest Path) using a fog-cloud architecture, to reroute vehicles in a dynamic urban environment and therefore to improve travel efficiency in terms of travel speed. First, GAQ analyzes the traffic conditions on each road and for each fog area, and then assigns a road index based on the information attention from both local and neighboring areas. Second, EBkSP assigns the route for each vehicle based on the vehicle priority and route popularity. A case study experiment is carried out to investigate the efficacy of the proposed model. At the model training stage, different methods are used to establish the vehicle priorities, and their impact on the results is assessed. Also, the proposed model is tested under various scenarios with different ratios of rerouting and background (non-rerouting) vehicles. The results demonstrate that vehicle rerouting using the proposed model can help attain higher speed and reduces possibility of severe congestion. This result suggests that the proposed model can be deployed by urban transportation agencies for dynamic rerouting and ultimately, to reduce urban traffic congestion.
翻訳日:2021-10-13 13:16:29 公開日:2021-10-11
# フォグクラウドに基づくマルチエージェント強化学習を用いたスケーラブル交通信号制御

Scalable Traffic Signal Controls using Fog-Cloud Based Multiagent Reinforcement Learning ( http://arxiv.org/abs/2110.05564v1 )

ライセンス: Link先を確認
Paul (Young Joun) Ha, Sikai Chen, Runjia Du, Samuel Labi(参考訳) 交差点での交通信号制御(tsc)の最適化は、特に大規模トラヒックネットワークにおいて問題となっている。 過去の研究では、個々のtscシステムや少数のシステムの運用を最適化することは可能であることが示されている。 しかし,交点数が増加するにつれて発生する次元の呪いもあって,これらの解法を大規模ネットワークに拡張することは計算的に困難である。 幸いなことに、近年の研究では、この問題に対処するために深層・強化学習の進歩を活用する可能性を認識しており、いくつかの予備的な成功が達成されている。 しかし、このようなインテリジェントなソリューションアプローチの促進には、大規模なネットワーク内のすべての交差点に徹底的な接続を確保するために、道路サイドユニット(rsus)やドローンのようなインフラ投資が必要となる可能性がある。 そこで本研究では,要求されるインフラストラクチャの数を削減できるスケーラブルなTSCモデルを提案するために,最近の研究を基盤にしている。 これはグラフアテンションネットワーク(gats)を使用して深層強化学習のニューラルネットワークとして機能し、無関係あるいは不要な情報を無視しながら、トラフィックネットワークのグラフトポロジの維持を支援する。 提案モデルの有効性を実証するため,ケーススタディを実施し,その結果は有望であることを示す。 その結果,フォグノードを用いて大規模ネットワークを分解することにより,フォグベースグラフィックRL(FG-RL)モデルを容易に大規模トラフィックネットワークに拡張できることが示唆された。

Optimizing traffic signal control (TSC) at intersections continues to pose a challenging problem, particularly for large-scale traffic networks. It has been shown in past research that it is feasible to optimize the operations of individual TSC systems or a small number of such systems. However, it has been computationally difficult to scale these solution approaches to large networks partly due to the curse of dimensionality that is encountered as the number of intersections increases. Fortunately, recent studies have recognized the potential of exploiting advancements in deep and reinforcement learning to address this problem, and some preliminary successes have been achieved in this regard. However, facilitating such intelligent solution approaches may require large amounts of infrastructural investments such as roadside units (RSUs) and drones in order to ensure thorough connectivity across all intersections in large networks, an investment that may be burdensome for agencies to undertake. As such, this study builds on recent work to present a scalable TSC model that may reduce the number of required enabling infrastructure. This is achieved using graph attention networks (GATs) to serve as the neural network for deep reinforcement learning, which aids in maintaining the graph topology of the traffic network while disregarding any irrelevant or unnecessary information. A case study is carried out to demonstrate the effectiveness of the proposed model, and the results show much promise. The overall research outcome suggests that by decomposing large networks using fog-nodes, the proposed fog-based graphic RL (FG-RL) model can be easily applied to scale into larger traffic networks.
翻訳日:2021-10-13 13:16:03 公開日:2021-10-11
# 連続緩和によるアルゴリズム指導による学習

Learning with Algorithmic Supervision via Continuous Relaxations ( http://arxiv.org/abs/2110.05651v1 )

ライセンス: Link先を確認
Felix Petersen, Christian Borgelt, Hilde Kuehne, Oliver Deussen(参考訳) アルゴリズムコンポーネントのニューラルネットワークへの統合は、基底の真理ラベルではなく、制約やシルエットを順序付けするといった新しい形式のニューラルネットワークのトレーニングを可能にするため、近年注目を集めている。 この分野の多くのアプローチは、特定のタスクの連続的な緩和に焦点を当て、この文脈で有望な結果を示す。 しかし、単一タスクにフォーカスすることは、提案する概念を狭い範囲のアプリケーションに適用する可能性を制限する。 本研究では、これらのアイデアに基づいて、離散条件の一般的な近似に基づいて、アルゴリズムをエンドツーエンドのトレーニング可能なニューラルネットワークアーキテクチャに統合できるアプローチを提案する。 この目的のために、条件文、ループ、インデックス化などの制御構造におけるこれらの条件を緩和し、結果のアルゴリズムを滑らかに微分できるようにする。 有意義な勾配を得るために、各変数はロジスティック分布を介して摂動し、この摂動下の期待値は近似される。 提案する4つの課題に対する連続緩和モデルを評価し,各タスク用に特別に設計された緩和に追従できることを示す。

The integration of algorithmic components into neural architectures has gained increased attention recently, as it allows training neural networks with new forms of supervision such as ordering constraints or silhouettes instead of using ground truth labels. Many approaches in the field focus on the continuous relaxation of a specific task and show promising results in this context. But the focus on single tasks also limits the applicability of the proposed concepts to a narrow range of applications. In this work, we build on those ideas to propose an approach that allows to integrate algorithms into end-to-end trainable neural network architectures based on a general approximation of discrete conditions. To this end, we relax these conditions in control structures such as conditional statements, loops, and indexing, so that resulting algorithms are smoothly differentiable. To obtain meaningful gradients, each relevant variable is perturbed via logistic distributions and the expectation value under this perturbation is approximated. We evaluate the proposed continuous relaxation model on four challenging tasks and show that it can keep up with relaxations specifically designed for each individual task.
翻訳日:2021-10-13 13:12:18 公開日:2021-10-11
# 逆ロバスト性のためのパラメータ化アクティベーション関数

Parameterizing Activation Functions for Adversarial Robustness ( http://arxiv.org/abs/2110.05626v1 )

ライセンス: Link先を確認
Sihui Dai, Saeed Mahloujifar, Prateek Mittal(参考訳) ディープニューラルネットワークは、敵対的な摂動入力に弱いことが知られている。 一般的に用いられる防御は敵の訓練であり、その性能はモデルの能力に影響される。 従来, モデル幅と深度の違いがロバスト性に与える影響について検討されてきたが, 学習可能なパラメトリックアクティベーション関数(PAF)を用いて, キャパシティの増大の影響は研究されていない。 本研究では,学習可能なPAFを用いて,対人訓練とともに頑健性を向上させる方法について検討した。 まず、ロバスト性を改善するために、どうやってパラメータをアクティベーション関数に組み込むべきか? そこで我々は, PAFによる活性化形状の強靭性に対する直接的影響を解析し, 負の入力に対する正の出力と高い有限曲率の活性化形状がロバスト性を高めることを観察した。 これらの特性を組み合わせて新しいPAFを作成し、Parametric Shifted Sigmoidal Linear Unit (PSSiLU) と呼ぶ。 PRELU,PSoftplus,PSSi LUを含むPAFと対向訓練を併用し,ロバストな性能解析を行った。 PAFが活性化形状特性に最適化されることが,ロバスト性に直接影響を及ぼすことがわかった。 さらに,ネットワークに学習可能なパラメータを1-2だけ導入することで,スムースpafがreluよりもロバスト性を大幅に向上できることがわかった。 例えば、追加の合成データでCIFAR-10でトレーニングされた場合、PSSiLUはResNet-18でReLUで4.54%、WRN-28-10でReLUで2.69%、ネットワークアーキテクチャに2つのパラメータを追加するだけで堅牢な精度を向上する。 PSSiLU WRN-28-10モデルは61.96%のオートアタック精度を実現し、RobostBench(Croce et al., 2020)の最先端の堅牢な精度を改善した。

Deep neural networks are known to be vulnerable to adversarially perturbed inputs. A commonly used defense is adversarial training, whose performance is influenced by model capacity. While previous works have studied the impact of varying model width and depth on robustness, the impact of increasing capacity by using learnable parametric activation functions (PAFs) has not been studied. We study how using learnable PAFs can improve robustness in conjunction with adversarial training. We first ask the question: how should we incorporate parameters into activation functions to improve robustness? To address this, we analyze the direct impact of activation shape on robustness through PAFs and observe that activation shapes with positive outputs on negative inputs and with high finite curvature can increase robustness. We combine these properties to create a new PAF, which we call Parametric Shifted Sigmoidal Linear Unit (PSSiLU). We then combine PAFs (including PReLU, PSoftplus and PSSiLU) with adversarial training and analyze robust performance. We find that PAFs optimize towards activation shape properties found to directly affect robustness. Additionally, we find that while introducing only 1-2 learnable parameters into the network, smooth PAFs can significantly increase robustness over ReLU. For instance, when trained on CIFAR-10 with additional synthetic data, PSSiLU improves robust accuracy by 4.54% over ReLU on ResNet-18 and 2.69% over ReLU on WRN-28-10 in the $\ell_{\infty}$ threat model while adding only 2 additional parameters into the network architecture. The PSSiLU WRN-28-10 model achieves 61.96% AutoAttack accuracy, improving over the state-of-the-art robust accuracy on RobustBench (Croce et al., 2020).
翻訳日:2021-10-13 13:11:08 公開日:2021-10-11
# 2層以上のグローバル最適性:凸プログラムによる深層reluネットワークのトレーニング

Global Optimality Beyond Two Layers: Training Deep ReLU Networks via Convex Programs ( http://arxiv.org/abs/2110.05518v1 )

ライセンス: Link先を確認
Tolga Ergen, Mert Pilanci(参考訳) ディープニューラルネットワークの成功の背後にある基本的なメカニズムを理解することは、現代の機械学習文学における重要な課題の1つだ。 数多くの試みにもかかわらず、確固たる理論解析はまだ開発されていない。 本稿では,凸最適化のレンズによる隠れ正規化機構を明らかにするために,新しい統一フレームワークを開発する。 まず,重み減衰正規化を伴う複数の3層reluサブネットワークのトレーニングを,群 $\ell_1$-norm 正規化によってスパーシティが強制される高次元空間における凸最適化問題として同等にキャストできることを示す。 これにより、ReLUネットワークは高次元特徴選択法として解釈できる。 さらに,ネットワークの幅が固定された場合のサンプル数やデータ次元に関して,多項式時間の複雑さを持つ標準凸最適化解法により,等価凸問題を大域的に最適化できることを示す。 最後に,合成データと実データの両方を用いた実験により,理論結果を数値的に検証した。

Understanding the fundamental mechanism behind the success of deep neural networks is one of the key challenges in the modern machine learning literature. Despite numerous attempts, a solid theoretical analysis is yet to be developed. In this paper, we develop a novel unified framework to reveal a hidden regularization mechanism through the lens of convex optimization. We first show that the training of multiple three-layer ReLU sub-networks with weight decay regularization can be equivalently cast as a convex optimization problem in a higher dimensional space, where sparsity is enforced via a group $\ell_1$-norm regularization. Consequently, ReLU networks can be interpreted as high dimensional feature selection methods. More importantly, we then prove that the equivalent convex problem can be globally optimized by a standard convex optimization solver with a polynomial-time complexity with respect to the number of samples and data dimension when the width of the network is fixed. Finally, we numerically validate our theoretical results via experiments involving both synthetic and real datasets.
翻訳日:2021-10-13 13:05:24 公開日:2021-10-11
# 局所弾性確率微分方程式によるディープラーニングダイナミクスの模倣

Imitating Deep Learning Dynamics via Locally Elastic Stochastic Differential Equations ( http://arxiv.org/abs/2110.05960v1 )

ライセンス: Link先を確認
Jiayao Zhang, Hua Wang, Weijie J. Su(参考訳) 深層学習モデルのトレーニングダイナミクスを理解することは、おそらくこれらのモデルの有効性を確定するために必要なステップである。 特に、確率勾配勾配を用いたニューラルネットワークのトレーニングにおいて、異なるクラスのデータが特徴空間で段階的に分離可能であるか? 本研究では,学習サンプルに対応する確率微分方程式(sdes)の集合を用いて,ディープラーニング学習中の特徴の進化をモデル化する。 モデリング戦略における重要な要素として、各SDEは、全てのサンプルの特徴に対する入力におけるバックプロパゲーションの影響を反映したドリフト項を含む。 sdes が局所的な弾性を持つ場合、入力と同じクラスからのサンプルに対して影響がより大きいという意味で、トレーニングデータの特徴が線形に分離可能となり、トレーニング損失が消失する。 さらに、局所弾性の存在下では、SDEの分析により、特徴の神経崩壊と呼ばれる単純な幾何学的構造の出現が示されている。 その結果,ニューラルネットワークのトレーニングダイナミクスにおいて局所弾性が決定的に果たす役割に光を当てた。 幾何形状と cifar-10 の合成データセットについて実験を行い, 理論解析を行った。

Understanding the training dynamics of deep learning models is perhaps a necessary step toward demystifying the effectiveness of these models. In particular, how do data from different classes gradually become separable in their feature spaces when training neural networks using stochastic gradient descent? In this study, we model the evolution of features during deep learning training using a set of stochastic differential equations (SDEs) that each corresponds to a training sample. As a crucial ingredient in our modeling strategy, each SDE contains a drift term that reflects the impact of backpropagation at an input on the features of all samples. Our main finding uncovers a sharp phase transition phenomenon regarding the {intra-class impact: if the SDEs are locally elastic in the sense that the impact is more significant on samples from the same class as the input, the features of the training data become linearly separable, meaning vanishing training loss; otherwise, the features are not separable, regardless of how long the training time is. Moreover, in the presence of local elasticity, an analysis of our SDEs shows that the emergence of a simple geometric structure called the neural collapse of the features. Taken together, our results shed light on the decisive role of local elasticity in the training dynamics of neural networks. We corroborate our theoretical analysis with experiments on a synthesized dataset of geometric shapes and CIFAR-10.
翻訳日:2021-10-13 12:14:58 公開日:2021-10-11
# (参考訳) データ効率強化学習のための時間整合表現の学習 [全文訳有]

Learning Temporally-Consisten t Representations for Data-Efficient Reinforcement Learning ( http://arxiv.org/abs/2110.04935v1 )

ライセンス: CC BY 4.0
Trevor McInroe, Lukas Sch\"afer, Stefano V. Albrecht(参考訳) 画像などの高次元状態空間に存在する深層強化学習(rl)エージェントは、相互に学習の負担を負っている。 エージェントは、与えられたタスクを完了させるアクション選択ポリシーを学習しなければならず、有用な情報と役に立たない情報を区別する状態空間の表現を学習する必要がある。 報酬関数は、rlエージェントが受信する唯一の教師付きフィードバックであり、サンプル効率の悪い表現学習ボトルネックを引き起こす。 エージェントが状態空間の動作条件付き表現を逐次予測する自己教師付き補助タスクを通じて表現の時間的一貫性を強制する新しい表現学習法であるKSL(Kk$-Step Latent)を提案する。 KSLによって学習された状態エンコーダは、RLタスクの最適化をより効率的にする低次元表現を生成する。 さらにKSLは、一般的なベンチマークスイートであるPlaNetにおいて、データ効率と漸近性能の両面で最先端の結果を生成する。 解析の結果、KSLはトレーニング中に見つからない新しいタスクを一般化するエンコーダを生成し、その表現は報酬に強く結びついており、状態空間の摂動に対してより不変であり、RL問題の時間軸をDrQ、RAD、CURL、SAC-AEといった他の手法よりもスムーズに移動する。

Deep reinforcement learning (RL) agents that exist in high-dimensional state spaces, such as those composed of images, have interconnected learning burdens. Agents must learn an action-selection policy that completes their given task, which requires them to learn a representation of the state space that discerns between useful and useless information. The reward function is the only supervised feedback that RL agents receive, which causes a representation learning bottleneck that can manifest in poor sample efficiency. We present $k$-Step Latent (KSL), a new representation learning method that enforces temporal consistency of representations via a self-supervised auxiliary task wherein agents learn to recurrently predict action-conditioned representations of the state space. The state encoder learned by KSL produces low-dimensional representations that make optimization of the RL task more sample efficient. Altogether, KSL produces state-of-the-art results in both data efficiency and asymptotic performance in the popular PlaNet benchmark suite. Our analyses show that KSL produces encoders that generalize better to new tasks unseen during training, and its representations are more strongly tied to reward, are more invariant to perturbations in the state space, and move more smoothly through the temporal axis of the RL problem than other methods such as DrQ, RAD, CURL, and SAC-AE.
翻訳日:2021-10-13 09:58:48 公開日:2021-10-11
# (参考訳) SCEHR:電子カルテを用いた臨床リスク予測のためのコントラスト学習 [全文訳有]

SCEHR: Supervised Contrastive Learning for Clinical Risk Prediction using Electronic Health Records ( http://arxiv.org/abs/2110.04943v1 )

ライセンス: CC BY 4.0
Chengxi Zang, Fei Wang(参考訳) コントラスト学習は、自己監督的または教師的方法で、画像とテキストドメインで有望なパフォーマンスを示す。 本研究では,縦断型電子健康記録(ehr)に基づく臨床リスク予測問題に対して教師付きコントラスト学習フレームワークを拡張する。 本稿では,2進分類(in-hospital death prediction)と複数ラベル分類(例: phenotyping)を統一フレームワークで学習するために,教師付きコントラスト損失$\mathcal{l}_{\text{contrastive cross entropy} } + \lambda \mathcal{l}_{\text{supervised contrastive regularizer}}$を提案する。 教師ありコントラスト損失(supervised contrastive loss)とは、比較学習の重要な考え方である、すなわち、類似したサンプルを互いに接近させ、互いに類似したサンプルをプッシュすると同時に、その2つの成分によって、それぞれを分離する、というものです。 本研究は,本研究で提案する比較対照損失の2つのバージョンを提案し,実世界のehrデータを用いた実験により,臨床リスク予測のためのベンチマークタスクにおいて,強力なベースラインおよび最先端モデルの性能向上効果を示すことを実証する。 我々の損失関数は、臨床リスク予測問題に共通する極めて不均衡なデータでうまく機能する。 我々の損失関数は、既存の臨床予測モデルで採用されているクロスエントロピー損失(バイナリまたはマルチラベル)を置き換えるのに容易に利用できる。 pytorch コードは \url{https://github.com/c alvin-zcx/scehr} でリリースされる。

Contrastive learning has demonstrated promising performance in image and text domains either in a self-supervised or a supervised manner. In this work, we extend the supervised contrastive learning framework to clinical risk prediction problems based on longitudinal electronic health records (EHR). We propose a general supervised contrastive loss $\mathcal{L}_{\text{Contrastive Cross Entropy} } + \lambda \mathcal{L}_{\text{Supervised Contrastive Regularizer}}$ for learning both binary classification (e.g. in-hospital mortality prediction) and multi-label classification (e.g. phenotyping) in a unified framework. Our supervised contrastive loss practices the key idea of contrastive learning, namely, pulling similar samples closer and pushing dissimilar ones apart from each other, simultaneously by its two components: $\mathcal{L}_{\text{Contrastive Cross Entropy} }$ tries to contrast samples with learned anchors which represent positive and negative clusters, and $\mathcal{L}_{\text{Supervised Contrastive Regularizer}}$ tries to contrast samples with each other according to their supervised labels. We propose two versions of the above supervised contrastive loss and our experiments on real-world EHR data demonstrate that our proposed loss functions show benefits in improving the performance of strong baselines and even state-of-the-art models on benchmarking tasks for clinical risk predictions. Our loss functions work well with extremely imbalanced data which are common for clinical risk prediction problems. Our loss functions can be easily used to replace (binary or multi-label) cross-entropy loss adopted in existing clinical predictive models. The Pytorch code is released at \url{https://github.com/c alvin-zcx/SCEHR}.
翻訳日:2021-10-13 09:36:10 公開日:2021-10-11
# (参考訳) nft-k:非フランジブル接核 [全文訳有]

NFT-K: Non-Fungible Tangent Kernels ( http://arxiv.org/abs/2110.04945v1 )

ライセンス: CC BY 4.0
Sina Alemohammad, Hossein Babaei, CJ Barberan, Naiming Liu, Lorenzo Luzi, Blake Mason, Richard G. Baraniuk(参考訳) 深層ニューラルネットワークは、視覚、RL、分類などの強力な経験的性能のために、多くのアプリケーションに欠かせないものとなっている。 残念ながら、これらのネットワークは解釈が極めて困難であり、医療画像など安全のために解釈が重要である設定での適用性が制限される。 ディープニューラルネットワークの1つのタイプは、解釈可能性のいくつかの側面を提供するカーネルマシンに似ているニューラルネットワークである。 分類と層に関する解釈可能性をさらに向上するため,我々は,ニューラルネットワークの各層を個別にモデル化する複数のニューラルネットワークカーネルの組み合わせとして,ネットワーク全体を1つのニューラルネットワークカーネルを介して表現しようとする過去の作業に対して,新しいネットワークを開発する。 2つのデータセット上でこのモデルの解釈可能性を示し、複数のカーネルモデルが層間の相互作用と予測を解明することを示す。

Deep neural networks have become essential for numerous applications due to their strong empirical performance such as vision, RL, and classification. Unfortunately, these networks are quite difficult to interpret, and this limits their applicability in settings where interpretability is important for safety, such as medical imaging. One type of deep neural network is neural tangent kernel that is similar to a kernel machine that provides some aspect of interpretability. To further contribute interpretability with respect to classification and the layers, we develop a new network as a combination of multiple neural tangent kernels, one to model each layer of the deep neural network individually as opposed to past work which attempts to represent the entire network via a single neural tangent kernel. We demonstrate the interpretability of this model on two datasets, showing that the multiple kernels model elucidates the interplay between the layers and predictions.
翻訳日:2021-10-13 09:07:21 公開日:2021-10-11
# (参考訳) 非コントラスト的自己スーパービジョンによる表現学習のデミスティフィケーションに向けて [全文訳有]

Towards Demystifying Representation Learning with Non-contrastive Self-supervision ( http://arxiv.org/abs/2110.04947v1 )

ライセンス: CC BY 4.0
Xiang Wang, Xinlei Chen, Simon S. Du, Yuandong Tian(参考訳) 自己教師付き学習(BYOLやSimSiamなど)の非競合的手法は、同じ画像の2つのビュー間の距離を最小化することで表現を学習する。 これらのアプローチは実際に顕著なパフォーマンスを達成したが、よく理解されていない。 1) これらの方法が自明な解に崩壊しない理由と 2) 表現がどのように学習されるか。 Tian el al. (2021) は最初の質問に対して最初の試みを行い、予測器を直接設定する DirectPred を提案した。 我々の研究では、DirectSet($\alpha$)と呼ばれるDirectPredの一般化バージョンを分析します。 単純な線形ネットワークにおいて、DirectSet($\alpha$)は望ましいプロジェクション行列を確実に学習し、下流タスクにおけるサンプルの複雑さを減少させることを示す。 分析の結果,重み劣化は暗黙のしきい値として機能し,高分散で特徴を排除し,低分散で特徴を維持することが示唆された。 我々の理論に触発されて、我々は高価な固有分解ステップを取り除き、DirectPredを単純化した。 CIFAR-10、CIFAR-100、STL-10、ImageNet、DirectCopyでは、よりシンプルで計算効率の良いアルゴリズム、ライバル、さらにはDirectPredよりも優れています。

Non-contrastive methods of self-supervised learning (such as BYOL and SimSiam) learn representations by minimizing the distance between two views of the same image. These approaches have achieved remarkable performance in practice, but it is not well understood 1) why these methods do not collapse to the trivial solutions and 2) how the representation is learned. Tian el al. (2021) made an initial attempt on the first question and proposed DirectPred that sets the predictor directly. In our work, we analyze a generalized version of DirectPred, called DirectSet($\alpha$). We show that in a simple linear network, DirectSet($\alpha$) provably learns a desirable projection matrix and also reduces the sample complexity on downstream tasks. Our analysis suggests that weight decay acts as an implicit threshold that discard the features with high variance under augmentation, and keep the features with low variance. Inspired by our theory, we simplify DirectPred by removing the expensive eigen-decomposition step. On CIFAR-10, CIFAR-100, STL-10 and ImageNet, DirectCopy, our simpler and more computationally efficient algorithm, rivals or even outperforms DirectPred.
翻訳日:2021-10-13 08:57:00 公開日:2021-10-11
# (参考訳) モバイル端末におけるオンデバイス眼型ユーザ認識のための小型CNNモデル [全文訳有]

Compact CNN Models for On-device Ocular-based User Recognition in Mobile Devices ( http://arxiv.org/abs/2110.04953v1 )

ライセンス: CC BY 4.0
Ali Almadan and Ajita Rattani(参考訳) 多くの研究が、モバイルデバイスにおける眼に基づくユーザ認識に対するディープラーニング畳み込みニューラルネットワーク(cnn)モデルの有効性を実証している。 しかし、これらの高性能ネットワークは、数百万のパラメータと計算が関与しているため、膨大な空間と計算の複雑さを持つ。 これらの要件により、リソース制約のあるモバイルデバイスへのディープラーニングモデルのデプロイが困難になる。 この目的のために,モバイル環境における眼球認識のための小型cnnモデルを得るために,知識蒸留とパッチベースモデルを用いた一握りの研究が提案されている。 そこで本研究では,5つのニューラルネットワークプルーニング法を初めて評価し,デバイス上でのcnn推定と眼画像を用いたモバイルユーザ検証のための知識蒸留法と比較した。 VISOB と UPFR-Periocular データセットの主観的非依存分析により,ResNet50 をベースモデルとしたモバイル眼球認証において,圧縮速度 8 の階層的等級別プルーニングの有効性が示唆された。 さらに,iPhone 6, iPhone X, iPhone XR, iPad Air 2, iPad 7 世代5機種において, プルーニング法に対する知識蒸留の有効性と, 深部特徴抽出時間として測定された実時間推論の有効性が示唆された。

A number of studies have demonstrated the efficacy of deep learning convolutional neural network (CNN) models for ocular-based user recognition in mobile devices. However, these high-performing networks have enormous space and computational complexity due to the millions of parameters and computations involved. These requirements make the deployment of deep learning models to resource-constrained mobile devices challenging. To this end, only a handful of studies based on knowledge distillation and patch-based models have been proposed to obtain compact size CNN models for ocular recognition in the mobile environment. In order to further advance the state-of-the-art, this study for the first time evaluates five neural network pruning methods and compares them with the knowledge distillation method for on-device CNN inference and mobile user verification using ocular images. Subject-independent analysis on VISOB and UPFR-Periocular datasets suggest the efficacy of layerwise magnitude-based pruning at a compression rate of 8 for mobile ocular-based authentication using ResNet50 as the base model. Further, comparison with the knowledge distillation suggests the efficacy of knowledge distillation over pruning methods in terms of verification accuracy and the real-time inference measured as deep feature extraction time on five mobile devices, namely, iPhone 6, iPhone X, iPhone XR, iPad Air 2 and iPad 7th Generation.
翻訳日:2021-10-13 08:00:31 公開日:2021-10-11
# (参考訳) 多目的認識のためのオブジェクト中心カプセル表現を伴う反復注意モデル [全文訳有]

Recurrent Attention Models with Object-centric Capsule Representation for Multi-object Recognition ( http://arxiv.org/abs/2110.04954v1 )

ライセンス: CC BY 4.0
Hossein Adeli, Seoyoung Ahn, Gregory Zelinsky(参考訳) 視覚システムは、空間的およびオブジェクトベースの注意によって駆動される選択的な視点のシーケンスを使用してシーンを処理する。 これらの視点は、進行中のタスクに関連することを反映し、シーン内のオブジェクトの繰り返し処理と認識によって選択される。 対照的に、ほとんどのモデルはフィードフォワードプロセスにおいて注意選択と認識を別々の段階として扱う。 本稿では,カプセルネットワークを用いて,注意と認識の効果的な統合を実現するエンコーダ・デコーダモデルにおいて,オブジェクト中心の隠れ表現を生成することを示す。 我々は,3つの多目的認識タスクにおいて,高い重なり合う桁数,散らかる乱雑な桁数,住宅数について評価し,視覚窓を効果的に移動させ,オブジェクトを認識・再構成し,これらを監督対象として分類する。 我々の研究は、再帰的なオブジェクト中心表現を注意を向ける計画に組み込むための一般的なアーキテクチャへの一歩を踏み出した。

The visual system processes a scene using a sequence of selective glimpses, each driven by spatial and object-based attention. These glimpses reflect what is relevant to the ongoing task and are selected through recurrent processing and recognition of the objects in the scene. In contrast, most models treat attention selection and recognition as separate stages in a feedforward process. Here we show that using capsule networks to create an object-centric hidden representation in an encoder-decoder model with iterative glimpse attention yields effective integration of attention and recognition. We evaluate our model on three multi-object recognition tasks; highly overlapping digits, digits among distracting clutter and house numbers, and show that it learns to effectively move its glimpse window, recognize and reconstruct the objects, all with only the classification as supervision. Our work takes a step toward a general architecture for how to integrate recurrent object-centric representation into the planning of attentional glimpses.
翻訳日:2021-10-13 07:48:02 公開日:2021-10-11
# (参考訳) Plug-and-Play フレームワークによるビデオ圧縮センシングのための改訂辞書学習 [全文訳有]

Revisit Dictionary Learning for Video Compressive Sensing under the Plug-and-Play Framework ( http://arxiv.org/abs/2110.04966v1 )

ライセンス: CC BY 4.0
Qing Yang, Yaping Zhao(参考訳) 高次元(HD)データ取得と解析を目的として、スナップショット圧縮画像(SCI)は、光学イメージングシステムを用いてHDデータの2次元圧縮計測を行い、圧縮センシングアルゴリズムを用いてHDデータの再構成を行う。 Plug-and-Play(PnP)フレームワークはSCI再構築の新たなソリューションを提供するが、本質的なデノベーションプロセスは依然として難しい問題である。 残念ながら、PnPフレームワークの既存のデノイザは、限られたパフォーマンスに苦しむか、広範なトレーニングデータを必要とする。 本稿では,ビデオSCI再構成のための効率的かつ効果的な浅層学習アルゴリズムを提案する。 辞書学習法を再検討し,新しいデノイザーであるkernel singular value decomposition (ksvd) を用いてpnpフレームワークに力を与える。 KSVDの出現により、我々のアルゴリズムは品質、スピード、トレーニングの難しさのトレードオフを保っている。 シミュレーション結果の定量的および定性的な評価は,様々なデータセットにおいて,提案手法の有効性を示す。 総変分を用いた典型的なベースラインと比較すると,PSNRでは約2ドルdB,SSIMでは0.2ドルである。 提案するPnP-KSVDアルゴリズムは,ビデオSCI再構成のための新しいベースラインとして機能することを期待する。

Aiming at high-dimensional (HD) data acquisition and analysis, snapshot compressive imaging (SCI) obtains the 2D compressed measurement of HD data with optical imaging systems and reconstructs HD data using compressive sensing algorithms. While the Plug-and-Play (PnP) framework offers an emerging solution to SCI reconstruction, its intrinsic denoising process is still a challenging problem. Unfortunately, existing denoisers in the PnP framework either suffer limited performance or require extensive training data. In this paper, we propose an efficient and effective shallow-learning-bas ed algorithm for video SCI reconstruction. Revisiting dictionary learning methods, we empower the PnP framework with a new denoiser, the kernel singular value decomposition (KSVD). Benefited from the advent of KSVD, our algorithm retains a good trade-off among quality, speed, and training difficulty. On a variety of datasets, both quantitative and qualitative evaluations of our simulation results demonstrate the effectiveness of our proposed method. In comparison to a typical baseline using total variation, our method achieves around $2$ dB improvement in PSNR and 0.2 in SSIM. We expect that our proposed PnP-KSVD algorithm can serve as a new baseline for video SCI reconstruction.
翻訳日:2021-10-13 07:24:04 公開日:2021-10-11
# (参考訳) 二値最適化のための値関数に基づく逐次最小化 [全文訳有]

Value-Function-based Sequential Minimization for Bi-level Optimization ( http://arxiv.org/abs/2110.04974v1 )

ライセンス: CC BY 4.0
Risheng Liu, Xuan Liu, Shangzhi Zeng, Jin Zhang, Yixuan Zhang(参考訳) 勾配に基づくBLO(Bi-Level Optimization)法は、現代の機械学習問題を解決するために広く応用されている。 しかし、既存の解戦略の多くは、理論上は制限的な仮定(例えば、低レベル部分問題の凸性)に基づいて設計されており、高次元のタスクには計算上は適用できない。 さらに、機能制約のあるBLOや悲観的なBLOなど、これらの困難なシナリオでBLOを効率的に処理できる勾配ベースの手法はほとんどない。 本稿では,この値関数に基づく単一レベル問題にbloを再構成することで,二値値関数に基づく逐次最小化(bvfsm)と呼ばれる新しい手法を提案する。 具体的に言うと、BVFSMは一連の値関数に基づく近似を構築し、特に高次元タスクにおいて)時間を要する既存のアプローチで要求される反復勾配とヘッセン逆の計算をうまく避ける。 また,BVFSMを拡張して,上層および下層機能制約を付加する。 さらに,bvfsmのアルゴリズムフレームワークは,既存の勾配に基づく手法では正しく解かれていない難解な悲観的ブロブにも利用できることを示した。 理論的には、これらの種類のBLOに対するBVFSMの収束を厳密に証明し、制限的下層凸性仮定は完全に破棄される。 我々の知る限りでは、このアルゴリズムは様々な種類のBLO問題(例えば楽観的、悲観的、制約付き)を、すべて安定収束保証で解決できる最初の勾配に基づくアルゴリズムである。 大規模な実験により、BVFSMの様々な実世界の応用における優位性を検証した。

Gradient-based Bi-Level Optimization (BLO) methods have been widely applied to solve modern machine learning problems. However, most existing solution strategies are theoretically designed based on restrictive assumptions (e.g., convexity of the lower-level sub-problem), and computationally not applicable for high-dimensional tasks. Moreover, there are almost no gradient-based methods that can efficiently handle BLO in those challenging scenarios, such as BLO with functional constraints and pessimistic BLO. In this work, by reformulating BLO into an approximated single-level problem based on the value-function, we provide a new method, named Bi-level Value-Function-based Sequential Minimization (BVFSM), to partially address the above issues. To be specific, BVFSM constructs a series of value-function-based approximations, and thus successfully avoids the repeated calculations of recurrent gradient and Hessian inverse required by existing approaches, which are time-consuming (especially for high-dimensional tasks). We also extend BVFSM to address BLO with additional upper- and lower-level functional constraints. More importantly, we demonstrate that the algorithmic framework of BVFSM can also be used for the challenging pessimistic BLO, which has never been properly solved by existing gradient-based methods. On the theoretical side, we strictly prove the convergence of BVFSM on these types of BLO, in which the restrictive lower-level convexity assumption is completely discarded. To our best knowledge, this is the first gradient-based algorithm that can solve different kinds of BLO problems (e.g., optimistic, pessimistic and with constraints) all with solid convergence guarantees. Extensive experiments verify our theoretical investigations and demonstrate the superiority of BVFSM on various real-world applications.
翻訳日:2021-10-13 07:15:34 公開日:2021-10-11
# (参考訳) パート・オブ・音声技術 [全文訳有]

A Review on Part-of-Speech Technologies ( http://arxiv.org/abs/2110.04977v1 )

ライセンス: CC BY 4.0
Onyenwe Ikechukwu, Onyedikachukwu Ikechukwu-Onyenwe, Onyedinma Ebele(参考訳) 新しい言語に自動的なPOSタグ(part-of-speech)を開発することは、チャンキングやパーシングのようなタグ付け以外のさらなる計算言語学方法論が言語に完全に適用されるために必要なステップであると考えられている。 多くのPOS曖昧化技術がこの種の研究のために開発されており、その選択に影響を及ぼす要因がある。 これはコーパスベースまたは非コーパスベースである。 本稿ではPOSタグ技術について概説する。

Developing an automatic part-of-speech (POS) tagging for any new language is considered a necessary step for further computational linguistics methodology beyond tagging, like chunking and parsing, to be fully applied to the language. Many POS disambiguation technologies have been developed for this type of research and there are factors that influence the choice of choosing one. This could be either corpus-based or non-corpus-based. In this paper, we present a review of POS tagging technologies.
翻訳日:2021-10-13 06:36:29 公開日:2021-10-11
# (参考訳) BALF scRNA-seqデータに基づくCOVID-19重症度のバイオマーカー同定 [全文訳有]

COVID-Datathon: Biomarker identification for COVID-19 severity based on BALF scRNA-seq data ( http://arxiv.org/abs/2110.04986v1 )

ライセンス: CC BY 4.0
Seyednami Niyakan and Xiaoning Qian(参考訳) 重症急性呼吸器症候群2型(SARS-CoV-2)の出現は2019年後半に始まり、その後世界中で急速に拡大している。 この新興ウイルスに対する呼吸免疫反応の特徴は明らかではない。 近年,Bronchoalveolar lavage fluid (BALF) の単一細胞RNAシークエンシング (scRNA-seq) トランスクリプトームプロファイリングにより,COVID-19の基盤となる潜在的なメカニズムが解明されている。 ウイルスに対するBALF細胞のアラスの有効利用を目的としたバイオインフォマティクスパイプラインを提案し,SARS-CoV-2感染の機械的理解を深めるために,BALF細胞を特徴付ける可能性がある。 提案されたパイプラインはRで実装されており、https://github.com/n amini94/scBALF_Hacka thonで利用できる。

The severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2) emergence began in late 2019 and has since spread rapidly worldwide. The characteristics of respiratory immune response to this emerging virus is not clear. Recently, Single-cell RNA sequencing (scRNA-seq) transcriptome profiling of Bronchoalveolar lavage fluid (BALF) cells has been done to elucidate the potential mechanisms underlying in COVID-19. With the aim of better utilizing this atlas of BALF cells in response to the virus, here we propose a bioinformatics pipeline to identify candidate biomarkers of COVID-19 severity, which may help characterize BALF cells to have better mechanistic understanding of SARS-CoV-2 infection. The proposed pipeline is implemented in R and is available at https://github.com/n amini94/scBALF_Hacka thon.
翻訳日:2021-10-13 06:31:13 公開日:2021-10-11
# (参考訳) Omnidata: 3Dスキャンからマルチタスクのミッドレベルビジョンデータセットを作成するスケーラブルパイプライン

Omnidata: A Scalable Pipeline for Making Multi-Task Mid-Level Vision Datasets from 3D Scans ( http://arxiv.org/abs/2110.04994v1 )

ライセンス: CC BY 4.0
Ainaz Eftekhar, Alexander Sax, Roman Bachmann, Jitendra Malik, Amir Zamir(参考訳) 本稿では,実世界の包括的3Dスキャンからマルチタスク視覚データセットをパラメトリックサンプリングし,レンダリングするパイプラインを提案する。 サンプリングパラメータを変更することで、生成されたデータセットを"ステアリング"して、特定の情報を強調することができる。 興味深い研究を可能にすることに加えて、ロバストなビジョンモデルをトレーニングするためのツールとデータsufficeも紹介する。 生成されたスタータデータセットでトレーニングされた一般的なアーキテクチャは、ベンチマークやパイプラインデータがないにもかかわらず、複数の共通ビジョンタスクとベンチマークで最先端のパフォーマンスに達した。 深度推定ネットワークはMiDaSを上回り、表面正規推定ネットワークは、少なくともOASISベンチマークの1つの指標によると、Wild表面正規推定の人間レベルのパフォーマンスを初めて達成した。 CLIによるDocker化されたパイプライン、(大部分はpython)コード、生成されたデータのためのPyTorchデータローダ、生成されたスタータデータセット、ダウンロードスクリプト、その他のユーティリティは、プロジェクトのWebサイトであるhttps://omnidata.vis ionから入手可能です。

This paper introduces a pipeline to parametrically sample and render multi-task vision datasets from comprehensive 3D scans from the real world. Changing the sampling parameters allows one to "steer" the generated datasets to emphasize specific information. In addition to enabling interesting lines of research, we show the tooling and generated data suffice to train robust vision models. Common architectures trained on a generated starter dataset reached state-of-the-art performance on multiple common vision tasks and benchmarks, despite having seen no benchmark or non-pipeline data. The depth estimation network outperforms MiDaS and the surface normal estimation network is the first to achieve human-level performance for in-the-wild surface normal estimation -- at least according to one metric on the OASIS benchmark. The Dockerized pipeline with CLI, the (mostly python) code, PyTorch dataloaders for the generated data, the generated starter dataset, download scripts and other utilities are available through our project website, https://omnidata.vis ion.
翻訳日:2021-10-13 06:25:17 公開日:2021-10-11
# (参考訳) 生物医学領域における事前学習言語モデル:マルチスケールの視点から

Pre-trained Language Models in Biomedical Domain: A Survey from Multiscale Perspective ( http://arxiv.org/abs/2110.05006v1 )

ライセンス: CC BY 4.0
Benyou Wang, Qianqian Xie, Jiahuan Pei, Prayag Tiwari, Zhao Li, and Jie fu(参考訳) 事前学習された言語モデルは、ほとんどの自然言語処理(nlp)タスクのデファクトパラダイムである。 NLP技術にもメリットがある生物医学領域では、バイオメディカル文献、バイオメディカルソーシャルメディカル、電子健康記録、その他の生物学的配列を含むドメインデータセットを活用することにより、様々な事前訓練言語モデルが提案された。 情報学、医学、コンピュータサイエンス(CS)のコミュニティから下流のバイオメディカル・タスクにこれらのバイオメディカル・プレトレーニング言語モデルを適用するための多くの取り組みが検討されている。 しかし、現存する作品の大部分は、おそらく学際的な特徴から、互いに孤立していると思われる。 バイオメディカル事前学習言語モデルとその応用の最近の進歩を体系的にレビューするだけでなく、用語、分類学、ベンチマークを標準化する調査を提案することが期待される。 そこで本稿では,生物医学領域で使用される事前学習言語モデルの最近の進歩を概説する。 特に,既存の生物医学事前訓練言語モデルの概要と分類,および生物医学下流課題への応用について概説した。 最後に、私たちはさまざまな制限と今後のトレンドを説明し、今後の研究にインスピレーションを与えたいと思っています。

Pre-trained language models have been the de facto paradigm for most natural language processing (NLP) tasks. In the biomedical domain, which also benefits from NLP techniques, various pre-trained language models were proposed by leveraging domain datasets including biomedical literature, biomedical social medial, electronic health records, and other biological sequences. Large amounts of efforts have been explored on applying these biomedical pre-trained language models to downstream biomedical tasks, from informatics, medicine, and computer science (CS) communities. However, it seems that the vast majority of existing works are isolated from each other probably because of the cross-discipline characteristics. It is expected to propose a survey that not only systematically reviews recent advances of biomedical pre-trained language models and their applications but also standardizes terminology, taxonomy, and benchmarks. Therefore, this paper summarizes the recent progress of pre-trained language models used in the biomedical domain. Particularly, an overview and taxonomy of existing biomedical pre-trained language models as well as their applications in biomedical downstream tasks are exhaustively discussed. At last, we illustrate various limitations and future trends, which we hope can provide inspiration for the future research.
翻訳日:2021-10-13 06:24:19 公開日:2021-10-11
# (参考訳) わずかなショット知識伝達を用いたクロスドメイン感情認識 [全文訳有]

Cross Domain Emotion Recognition using Few Shot Knowledge Transfer ( http://arxiv.org/abs/2110.05021v1 )

ライセンス: CC BY 4.0
Justin Olah, Sabyasachee Baruah, Digbalay Bose, and Shrikanth Narayanan(参考訳) テキストからの感情認識は、多様な感情分類法、異なるドメインにおける信頼できるラベル付きデータの欠如、そして非常に主観的なアノテーション標準のために難しい課題である。 ほとんどショットもゼロショットも、文書や感情ラベルを共有埋め込み空間に投影することで、目に見えない感情を一般化することができる。 本研究では,GoEmotions Redditデータセットの監視から得られた知識を,異なる感情表現手法を用いてSemEvalツイートコーパスに転送することで,数発の感情認識の課題を探求する。 その結果,外部知識ベースと微調整エンコーダを用いた知識伝達は,教師付きベースラインとして,タスクデータセットからの最小限の監督を必要とすることがわかった。

Emotion recognition from text is a challenging task due to diverse emotion taxonomies, lack of reliable labeled data in different domains, and highly subjective annotation standards. Few-shot and zero-shot techniques can generalize across unseen emotions by projecting the documents and emotion labels onto a shared embedding space. In this work, we explore the task of few-shot emotion recognition by transferring the knowledge gained from supervision on the GoEmotions Reddit dataset to the SemEval tweets corpus, using different emotion representation methods. The results show that knowledge transfer using external knowledge bases and fine-tuned encoders perform comparably as supervised baselines, requiring minimal supervision from the task dataset.
翻訳日:2021-10-13 06:23:15 公開日:2021-10-11
# (参考訳) 自己教師付き学習はデータセットの不均衡より堅牢である [全文訳有]

Self-supervised Learning is More Robust to Dataset Imbalance ( http://arxiv.org/abs/2110.05025v1 )

ライセンス: CC BY 4.0
Hong Liu, Jeff Z. HaoChen, Adrien Gaidon, Tengyu Ma(参考訳) 自己教師付き学習(SSL)は、ラベルなしで学習するため、一般的な視覚表現を学習するためのスケーラブルな方法である。 しかし、大規模でラベルなしのデータセットは、sslの振る舞いについてほとんど知らない長いラベルのディストリビューションを持つことが多い。 本研究では,データセットの不均衡下での自己教師付き学習を体系的に検討する。 まず,市販の自己教師付き表現が教師付き表現よりもクラス不均衡に対してすでに強固であることを示す実験を行った。 SSLとのバランスの取れたトレーニングと非バランスなトレーニングの間のパフォーマンスギャップは、ドメイン内および特にドメイン外の評価において、教師付き学習のギャップよりも大幅に小さい。 次に、SSLの堅牢性を理解するために、SSLは頻繁なデータからよりリッチな機能を学習する、という仮説を立てます。 対照的に、教師付き学習は、頻繁に行われる例からラベルに関係のない特徴を学習するインセンティブを持たない。 この仮説を半合成実験と簡単な設定で理論的解析によって検証する。 第三に、理論的な洞察にインスパイアされた再重み付き正規化手法を考案し、複数の評価基準でSSL表現品質を一貫して改善し、バランスの取れたデータセットとバランスの取れていないデータセットの小さなギャップを同じ数の例で埋める。

Self-supervised learning (SSL) is a scalable way to learn general visual representations since it learns without labels. However, large-scale unlabeled datasets in the wild often have long-tailed label distributions, where we know little about the behavior of SSL. In this work, we systematically investigate self-supervised learning under dataset imbalance. First, we find out via extensive experiments that off-the-shelf self-supervised representations are already more robust to class imbalance than supervised representations. The performance gap between balanced and imbalanced pre-training with SSL is significantly smaller than the gap with supervised learning, across sample sizes, for both in-domain and, especially, out-of-domain evaluation. Second, towards understanding the robustness of SSL, we hypothesize that SSL learns richer features from frequent data: it may learn label-irrelevant-but -transferable features that help classify the rare classes and downstream tasks. In contrast, supervised learning has no incentive to learn features irrelevant to the labels from frequent examples. We validate this hypothesis with semi-synthetic experiments and theoretical analyses on a simplified setting. Third, inspired by the theoretical insights, we devise a re-weighted regularization technique that consistently improves the SSL representation quality on imbalanced datasets with several evaluation criteria, closing the small gap between balanced and imbalanced datasets with the same number of examples.
翻訳日:2021-10-13 06:11:59 公開日:2021-10-11
# (参考訳) OWL共振器の課題としてのCaLiGraphオントロジー [全文訳有]

The CaLiGraph Ontology as a Challenge for OWL Reasoners ( http://arxiv.org/abs/2110.05028v1 )

ライセンス: CC BY 4.0
Nicolas Heist and Heiko Paulheim(参考訳) CaLiGraphは、ウィキペディアのカテゴリシステム、リストページ、その他のリスト構造を利用し、1500万以上の型付きエンティティと約1000万の関連性アサーションを含む、Wikipediaから生成された大規模なクロスドメイン知識グラフである。 DBpediaやYAGOのようなオントロジーが単純である知識グラフ以外にも、CaLiGraphには20万以上のクラス制限を含む豊富なオントロジーがある。 これらの2つの特性 - 大きなaボックスと豊富なオントロジー - は、ベンチマーク推論にとって興味深い課題となる。 本稿では,特にCaLiGraphに関係のある推論タスク,すなわち,個人間および個人間およびリテラル間のアサーションに対するowl:hasValue制約の物質化が,利用可能な推論システムによって不十分に支持されていることを示す。 推論システムの性能解析に使用可能なCaLiGraphのベンチマークサブセットを,それぞれ異なるサイズで提供する。

CaLiGraph is a large-scale cross-domain knowledge graph generated from Wikipedia by exploiting the category system, list pages, and other list structures in Wikipedia, containing more than 15 million typed entities and around 10 million relation assertions. Other than knowledge graphs such as DBpedia and YAGO, whose ontologies are comparably simplistic, CaLiGraph also has a rich ontology, comprising more than 200,000 class restrictions. Those two properties - a large A-box and a rich ontology - make it an interesting challenge for benchmarking reasoners. In this paper, we show that a reasoning task which is particularly relevant for CaLiGraph, i.e., the materialization of owl:hasValue constraints into assertions between individuals and between individuals and literals, is insufficiently supported by available reasoning systems. We provide differently sized benchmark subsets of CaLiGraph, which can be used for performance analysis of reasoning systems.
翻訳日:2021-10-13 05:44:35 公開日:2021-10-11
# (参考訳) 繰り返しモデルフリーRLは多くのPOMDPの強力なベースラインである [全文訳有]

Recurrent Model-Free RL is a Strong Baseline for Many POMDPs ( http://arxiv.org/abs/2110.05038v1 )

ライセンス: CC BY 4.0
Tianwei Ni, Benjamin Eysenbach, Ruslan Salakhutdinov(参考訳) メタRL、ロバストRL、RLの一般化など、RLの多くの問題はPOMDPとしてキャストできる。 理論上は、リカレントニューラルネットワークなどのメモリによるモデルフリーRLの増大は、あらゆるタイプのPOMDPを解決するための一般的なアプローチを提供する。 しかし、先行研究により、そのような繰り返しモデルなしのRL法は、特定のタイプのPOMDP向けに設計された、より特殊なアルゴリズムよりも性能が悪いことが判明した。 この論文はこの主張を再考する。 注意深いアーキテクチャとハイパーパラメータの決定は、各ドメインのより洗練された最新技術と同等の(そして時としてかなり優れている)反復的なモデルなしの実装をもたらす。 また,POMDPのベースラインとして使用するために,リカレントモデルフリーRLの簡易かつ効率的な実装もリリースしている。 コードはhttps://github.com/t wni2016/pomdp-baseli nesで入手できる。

Many problems in RL, such as meta RL, robust RL, and generalization in RL, can be cast as POMDPs. In theory, simply augmenting model-free RL with memory, such as recurrent neural networks, provides a general approach to solving all types of POMDPs. However, prior work has found that such recurrent model-free RL methods tend to perform worse than more specialized algorithms that are designed for specific types of POMDPs. This paper revisits this claim. We find that careful architecture and hyperparameter decisions yield a recurrent model-free implementation that performs on par with (and occasionally substantially better than) more sophisticated recent techniques in their respective domains. We also release a simple and efficient implementation of recurrent model-free RL for future work to use as a baseline for POMDPs. Code is available at https://github.com/t wni2016/pomdp-baseli nes
翻訳日:2021-10-13 05:35:40 公開日:2021-10-11
# (参考訳) ニューラルネットワークに基づく顔認識システムの生体認証テンプレート保護:手法と評価手法の検討 [全文訳有]

Biometric Template Protection for Neural-Network-based Face Recognition Systems: A Survey of Methods and Evaluation Techniques ( http://arxiv.org/abs/2110.05044v1 )

ライセンス: CC BY 4.0
Vedrana Krivoku\'ca Hahn and S\'ebastien Marcel(参考訳) 本稿では,ニューラルネットワークを用いた顔認識システムにおける顔テンプレート保護のためのバイオメトリックテンプレート保護(BTP)手法について検討する。 BTP法はNon-NNとNN-learnedの2種類に分類される。 非NN法は、特徴抽出器としてニューラルネットワーク(NN)を用いるが、BTP部は、画像レベルまたは特徴レベルで適用される非NNアルゴリズムに基づいている。 これとは対照的に、NN学習法はNNを使用して、保護されていない顔画像/特徴から保護されたテンプレートを学習する。 本稿では,両カテゴリの比較強みと弱みについて論じるとともに,非nnおよびnn学習面btp法を文献から例示する。 また, 認識精度, 非可逆性, 更新性/非リンク性という3つの基準を用いて, これらのbtp法を評価する手法について検討した。 予想通り、保護された顔認識システムの認識精度は、標準(保護されていない)生体認証システムの評価に使用されるのと同じ(経験的)技術を用いて評価される。 それとは対照的に、最も不可逆性と更新性/リンク性の評価は、理論的仮定/推定または言語的含意に基づいており、実用的な顔認識の文脈における実証的な検証は行われていない。 そこで我々は,経験的評価戦略にもっと焦点をあてて,実際の顔BTP手法の不可逆性と更新性/無リンク性について,より具体的な知見を提供することを推奨する。 調査対象のBTP作業の再現性について、実装コードと評価データセット/調達の公開性の観点から検討した結果、BTPコミュニティが報告された結果のほとんどを忠実に再現(そして検証)することが現在困難であることを示唆している。 ですから私たちは,face btp研究分野の理解を深めるために,再現性への推進を提唱しています。

This paper presents a survey of biometric template protection (BTP) methods for securing face templates in neural-network-based face recognition systems. The BTP methods are categorised into two types: Non-NN and NN-learned. Non-NN methods use a neural network (NN) as a feature extractor, but the BTP part is based on a non-NN algorithm applied at image-level or feature-level. In contrast, NN-learned methods specifically employ a NN to learn a protected template from the unprotected face image/features. We present examples of Non-NN and NN-learned face BTP methods from the literature, along with a discussion of the two categories' comparative strengths and weaknesses. We also investigate the techniques used to evaluate these BTP methods, in terms of the three most common criteria: recognition accuracy, irreversibility, and renewability/unlinka bility. As expected, the recognition accuracy of protected face recognition systems is generally evaluated using the same (empirical) techniques employed for evaluating standard (unprotected) biometric systems. On the contrary, most irreversibility and renewability/unlinka bility evaluations are based on theoretical assumptions/estimate s or verbal implications, with no empirical validation in a practical face recognition context. So, we recommend a greater focus on empirical evaluation strategies, to provide more concrete insights into the irreversibility and renewability/unlinka bility of face BTP methods in practice. An exploration of the reproducibility of the studied BTP works, in terms of the public availability of their implementation code and evaluation datasets/procedures, suggests that it would currently be difficult for the BTP community to faithfully replicate (and thus validate) most of the reported findings. So, we advocate for a push towards reproducibility, in the hope of furthering our understanding of the face BTP research field.
翻訳日:2021-10-13 05:06:59 公開日:2021-10-11
# (参考訳) 2レベルグループ畳み込み [全文訳有]

Two-level Group Convolution ( http://arxiv.org/abs/2110.05060v1 )

ライセンス: CC BY 4.0
Youngkyu Lee, Jongho Park and Chang-Ock Lee(参考訳) グループ畳み込みは畳み込みの計算時間を削減するために広く用いられており、畳み込みニューラルネットワークのトレーニング時間の大部分を要している。 しかし、多数のグループがグループ畳み込みのパフォーマンスを著しく低下させることはよく知られている。 本稿では,グループ数の増加に対して頑健であり,マルチgpu並列計算に適した,'2レベル'群畳み込みという新しい畳み込み手法を提案する。 まず, 群畳み込みを標準畳み込みの1レベルブロックジャコビ近似と解釈し, 数値解析の分野では一般的な概念である。 数値解析では、並列計算を妨害することなく性能劣化を解消するグループ間構造を導入する2段階法について多くの研究がなされている。 これらを動機として,グループ畳み込みのボトルネックとなることなくグループ間通信を促進する粗い構造を導入する。 分散メモリシステムにおいて,粗い階層構造によって引き起こされる付加的な処理を効率的に処理できることを示す。 提案手法の群数に対するロバスト性を検証する数値結果を示す。 さらに,提案手法をグループ畳み込みの様々な手法と比較し,提案手法が実行時間,メモリ効率,性能において優れていることを強調する。

Group convolution has been widely used in order to reduce the computation time of convolution, which takes most of the training time of convolutional neural networks. However, it is well known that a large number of groups significantly reduce the performance of group convolution. In this paper, we propose a new convolution methodology called ``two-level'' group convolution that is robust with respect to the increase of the number of groups and suitable for multi-GPU parallel computation. We first observe that the group convolution can be interpreted as a one-level block Jacobi approximation of the standard convolution, which is a popular notion in the field of numerical analysis. In numerical analysis, there have been numerous studies on the two-level method that introduces an intergroup structure that resolves the performance degradation issue without disturbing parallel computation. Motivated by these, we introduce a coarse-level structure which promotes intergroup communication without being a bottleneck in the group convolution. We show that all the additional work induced by the coarse-level structure can be efficiently processed in a distributed memory system. Numerical results that verify the robustness of the proposed method with respect to the number of groups are presented. Moreover, we compare the proposed method to various approaches for group convolution in order to highlight the superiority of the proposed method in terms of execution time, memory efficiency, and performance.
翻訳日:2021-10-13 04:09:22 公開日:2021-10-11
# (参考訳) ニューラルウェーブ関数を持つGNNのペアリングによる非初期ポテンシャルエネルギー表面 [全文訳有]

Ab-Initio Potential Energy Surfaces by Pairing GNNs with Neural Wave Functions ( http://arxiv.org/abs/2110.05064v1 )

ライセンス: CC BY 4.0
Nicholas Gao, Stephan G\"unnemann(参考訳) シュリンガー方程式を解くことは、多くの量子力学的性質の鍵となる。 しかし、解析解は単一電子系でしか説明できない。 近年,多電子系の波動関数のモデル化に成功している。 変分的なMonte-Carlo (VMC) フレームワークとともに、最もよく知られた古典的手法に匹敵するソリューションを生み出した。 それでも、これらのニューラルな手法は、分子幾何ごとに別のモデルを訓練する必要があるため、膨大な計算リソースを必要とする。 本研究では,グラフニューラルネットワーク(gnn)とニューラルウェーブ関数を組み合わせることで,vmcによる複数ジオメトリのschr\"odinger方程式を同時に解く。 これにより、1つのトレーニングパスでポテンシャルエネルギー面の連続部分集合をモデル化できる。 既存の最先端ネットワークと比較して、私たちのポテンシャルエネルギーサーフェスネットワーク(PESNet)は、複数のジオメトリーのトレーニングを最大40倍スピードアップし、その精度をマッチングまたは上回る。 これは精度と桁違いの低い量子力学計算への道を開く可能性がある。

Solving the Schr\"odinger equation is key to many quantum mechanical properties. However, an analytical solution is only tractable for single-electron systems. Recently, neural networks succeeded at modelling wave functions of many-electron systems. Together with the variational Monte-Carlo (VMC) framework, this led to solutions on par with the best known classical methods. Still, these neural methods require tremendous amounts of computational resources as one has to train a separate model for each molecular geometry. In this work, we combine a Graph Neural Network (GNN) with a neural wave function to simultaneously solve the Schr\"odinger equation for multiple geometries via VMC. This enables us to model continuous subsets of the potential energy surface with a single training pass. Compared to existing state-of-the-art networks, our Potential Energy Surface Network (PESNet) speeds up training for multiple geometries by up to 40 times while matching or surpassing their accuracy. This may open the path to accurate and orders of magnitude cheaper quantum mechanical calculations.
翻訳日:2021-10-13 03:58:37 公開日:2021-10-11
# (参考訳) ドキュメントレベルテキストの簡略化:データセット、基準、ベースライン [全文訳有]

Document-Level Text Simplification: Dataset, Criteria and Baseline ( http://arxiv.org/abs/2110.05071v1 )

ライセンス: CC BY 4.0
Renliang Sun, Hanqi Jin, Xiaojun Wan(参考訳) テキストの単純化は貴重なテクニックです。 しかし、現在の研究は文の単純化に限られている。 本稿では,複数の文からなる文書を簡略化することを目的とした,文書レベルのテキスト簡易化の新しいタスクを定義し,検討する。 Wikipediaダンプに基づいて、まずD-Wikipediaという大規模なデータセットを構築し、そのデータセットが信頼できることを示すために、分析と人的評価を行う。 そこで本稿では,文書レベルの単純化作業に適したD-SARIと呼ばれる新しい自動評価指標を提案する。 最後に,タスクのベースラインモデルとして複数の代表モデルを選択し,自動評価と人的評価を行う。 結果を分析し,ベースラインモデルの欠点を指摘する。

Text simplification is a valuable technique. However, current research is limited to sentence simplification. In this paper, we define and investigate a new task of document-level text simplification, which aims to simplify a document consisting of multiple sentences. Based on Wikipedia dumps, we first construct a large-scale dataset named D-Wikipedia and perform analysis and human evaluation on it to show that the dataset is reliable. Then, we propose a new automatic evaluation metric called D-SARI that is more suitable for the document-level simplification task. Finally, we select several representative models as baseline models for this task and perform automatic evaluation and human evaluation. We analyze the results and point out the shortcomings of the baseline models.
翻訳日:2021-10-13 03:38:26 公開日:2021-10-11
# (参考訳) DANIEL:高出力比のポイントクラウド登録のための高速かつロバストな合意最大化手法 [全文訳有]

DANIEL: A Fast and Robust Consensus Maximization Method for Point Cloud Registration with High Outlier Ratios ( http://arxiv.org/abs/2110.05075v1 )

ライセンス: CC0 1.0
Lei Sun(参考訳) 対応ベースの点雲登録は、幾何学的コンピュータビジョン、ロボット認識、フォトグラム、リモートセンシングの基盤であり、3Dキーポイント上に確立された対応から、2点雲間の最良の剛性変換を推定することを目指している。 しかし、ロバスト性や正確性が限られているため、現在の3dキーポイントマッチング技術は、おそらく非常に大きな数であっても、外れ値を生み出す可能性が非常に高いため、ポイントクラウド登録の堅牢な推定が非常に重要である。 残念ながら、既存のロバストな手法は高い計算コストや、高い(あるいは極端な)アウトリーチ比に遭遇する際には不十分なロバスト性に悩まされる可能性がある。 本稿では, DANIEL (Double-layered sAmpliNg with consensus maximization based on stratIfied Element-wise compatibiLity) と呼ばれる新しい時間効率RANSAC型コンセンサス最大化法を提案する。 DANIELは、2つのランダムサンプリング層で設計されており、最小の計算コストで不適切なサブセットを見つける。 具体的には (i)一点サンプリングの第1層の生の異常値に剛性制約を適用する。 (II)二点サンプリングの第2層におけるより効率的なコンセンサス最大化を実現するため、最小限のモデル間の迅速な互換性チェックを行うための一連の階層化要素整合性試験を導入し、 (iii)最終イリアー集合のタイムリーな復帰を保証するために確率的終了条件が用いられる。 複数の実データセットに対する様々な実験に基づいて、DANIELは99%以上の外れ値に対して堅牢であり、既存の最先端の堅牢な解法(RANSAC、FGR、GOREなど)よりもはるかに高速であることを示す。

Correspondence-based point cloud registration is a cornerstone in geometric computer vision, robotics perception, photogrammetry and remote sensing, which seeks to estimate the best rigid transformation between two point clouds from the correspondences established over 3D keypoints. However, due to limited robustness and accuracy, current 3D keypoint matching techniques are very prone to yield outliers, probably even in very large numbers, making robust estimation for point cloud registration of great importance. Unfortunately, existing robust methods may suffer from high computational cost or insufficient robustness when encountering high (or even extreme) outlier ratios, hardly ideal enough for practical use. In this paper, we present a novel time-efficient RANSAC-type consensus maximization solver, named DANIEL (Double-layered sAmpliNg with consensus maximization based on stratIfied Element-wise compatibiLity), for robust registration. DANIEL is designed with two layers of random sampling, in order to find inlier subsets with the lowest computational cost possible. Specifically, we: (i) apply the rigidity constraint to prune raw outliers in the first layer of one-point sampling, (ii) introduce a series of stratified element-wise compatibility tests to conduct rapid compatibility checking between minimal models so as to realize more efficient consensus maximization in the second layer of two-point sampling, and (iii) probabilistic termination conditions are employed to ensure the timely return of the final inlier set. Based on a variety of experiments over multiple real datasets, we show that DANIEL is robust against over 99% outliers and also significantly faster than existing state-of-the-art robust solvers (e.g. RANSAC, FGR, GORE).
翻訳日:2021-10-13 03:19:42 公開日:2021-10-11
# (参考訳) 少数ショット画像分類のためのプロトタイプ分類器について [全文訳有]

A Closer Look at Prototype Classifier for Few-shot Image Classification ( http://arxiv.org/abs/2110.05076v1 )

ライセンス: CC BY-SA 4.0
Mingcheng Hou and Issei Sato(参考訳) prototypical networkはメタラーニングに基づくプロトタイプ分類器であり、メタテスト中にハイパーパラメータを調整せずにクラス固有のプロトタイプを構築して、見当たらない例を分類することで、少数の学習に広く使われている。 興味深いことに、近年の研究では、メタラーニングアルゴリズムを使用しない線形分類器が、原型ネットワークと互換性を持って動作していることが示されている。 しかし、微調整には、新しい環境にモデルを適用する際に追加のハイパーパラメータが必要である。 さらに、数少ない学習の目的はモデルが新しい環境に素早く適応できるようにすることであるが、新しいクラスが現れるたびに微調整を適用する必要があるため、迅速な適応が困難になる。 本稿では,プロトタイプ分類器が微調整やメタ学習を伴わずに等しく機能するかを解析する。 実験により, 標準事前学習モデルを用いて抽出された特徴ベクトルを直接使用して, メタテストにおけるプロトタイプ分類器は, 事前学習モデルの微調整と特徴ベクトルを用いた原型ネットワークや線形分類器と同様に機能しないことがわかった。 そこで,本論文では,特徴ベクトルのノルムの分散に着目することで,性能を向上させることができることを示す。 ノルムの分散を最小化するためのいくつかの正規化法を実験的に検討し、l2正規化と埋め込み空間変換を用いて、微調整やメタラーニングを行わずに同じ性能が得られることを見出した。

The prototypical network is a prototype classifier based on meta-learning and is widely used for few-shot learning because it classifies unseen examples by constructing class-specific prototypes without adjusting hyper-parameters during meta-testing. Interestingly, recent research has attracted a lot of attention, showing that a linear classifier with fine-tuning, which does not use a meta-learning algorithm, performs comparably with the prototypical network. However, fine-tuning requires additional hyper-parameters when adapting a model to a new environment. In addition, although the purpose of few-shot learning is to enable the model to quickly adapt to a new environment, fine-tuning needs to be applied every time a new class appears, making fast adaptation difficult. In this paper, we analyze how a prototype classifier works equally well without fine-tuning and meta-learning. We experimentally found that directly using the feature vector extracted using standard pre-trained models to construct a prototype classifier in meta-testing does not perform as well as the prototypical network and linear classifiers with fine-tuning and feature vectors of pre-trained models. Thus, we derive a novel generalization bound for the prototypical network and show that focusing on the variance of the norm of a feature vector can improve performance. We experimentally investigated several normalization methods for minimizing the variance of the norm and found that the same performance can be obtained by using the L2 normalization and embedding space transformation without fine-tuning or meta-learning.
翻訳日:2021-10-13 02:29:45 公開日:2021-10-11
# (参考訳) 量子コンピューティングを用いたレコメンダシステムの特徴選択 [全文訳有]

Feature Selection for Recommender Systems with Quantum Computing ( http://arxiv.org/abs/2110.05089v1 )

ライセンス: CC BY 4.0
Riccardo Nembrini, Maurizio Ferrari Dacrema, Paolo Cremonesi(参考訳) 量子コンピューティングがいくつかの科学分野に新たな未知の可能性を開くという約束は長い間議論されてきたが、関数型量子コンピュータの欠如は、この議論を主に理論アルゴリズムの論文に限定している。 小型だが機能的な量子コンピュータがより広い研究コミュニティで利用できるようになったのは、この数年間だった。 特に量子アニーリング(quantum annealing)というパラダイムは、古典的な運用研究ツールで表現されるnpハード最適化問題の最適解をサンプリングするために用いられ、この新興技術の可能性への容易なアクセスを提供する。 この数学的定式化に最も自然に適合するタスクの1つは特徴選択である。 本稿では,ユーザインタラクションデータに隠されたドメイン知識と行動を活用したレコメンダシステムのためのハイブリッド特徴選択アルゴリズムの設計方法について検討する。 特徴選択を最適化問題として表現し、D-Waveが提供する実量子コンピュータ上で解く。 その結果,提案手法は重要な特徴の限られたセットを選択するのに効果的であり,量子コンピュータは応用科学の広い領域に参入できるほど強力になりつつあることが示唆された。

The promise of quantum computing to open new unexplored possibilities in several scientific fields has been long discussed, but until recently the lack of a functional quantum computer has confined this discussion mostly to theoretical algorithmic papers. It was only in the last few years that small but functional quantum computers have become available to the broader research community. One paradigm in particular, quantum annealing, can be used to sample optimal solutions for a number of NP-hard optimization problems represented with classical operations research tools, providing an easy access to the potential of this emerging technology. One of the tasks that most naturally fits in this mathematical formulation is feature selection. In this paper, we investigate how to design a hybrid feature selection algorithm for recommender systems that leverages the domain knowledge and behavior hidden in the user interactions data. We represent the feature selection as an optimization problem and solve it on a real quantum computer, provided by D-Wave. The results indicate that the proposed approach is effective in selecting a limited set of important features and that quantum computers are becoming powerful enough to enter the wider realm of applied science.
翻訳日:2021-10-13 02:05:02 公開日:2021-10-11
# (参考訳) 会話脱線現象の動的予測 [全文訳有]

Dynamic Forecasting of Conversation Derailment ( http://arxiv.org/abs/2110.05111v1 )

ライセンス: CC BY 4.0
Yova Kementchedjhieva and Anders S{\o}gaard(参考訳) 組織的な文化的相違、偶然の誤解、あるいは単なる悪意のために、オンライン会話は時にさらに悪化する。 公共のオンライン会話における脱線を自動予測することは、それを緩和するために早期行動を取る機会を提供する。 この領域での以前の作業は限られており、いくつかの方法で拡張しています。 事前訓練された言語エンコーダをタスクに適用し、それ以前のアプローチより優れていた。 さらに,タスクのトレーニングパラダイムを静的から動的へとシフトさせ,予測の地平線を増加させる実験を行った。 このアプローチは、高品質なデータ設定では、F1の小さなドロップのコストで、より平均的な予測水平線を達成することができるが、低品質なデータ設定では、動的トレーニングはノイズを伝播させ、性能に非常に有害である。

Online conversations can sometimes take a turn for the worse, either due to systematic cultural differences, accidental misunderstandings, or mere malice. Automatically forecasting derailment in public online conversations provides an opportunity to take early action to moderate it. Previous work in this space is limited, and we extend it in several ways. We apply a pretrained language encoder to the task, which outperforms earlier approaches. We further experiment with shifting the training paradigm for the task from a static to a dynamic one to increase the forecast horizon. This approach shows mixed results: in a high-quality data setting, a longer average forecast horizon can be achieved at the cost of a small drop in F1; in a low-quality data setting, however, dynamic training propagates the noise and is highly detrimental to performance.
翻訳日:2021-10-13 01:41:44 公開日:2021-10-11
# (参考訳) event & entity coreference resolutionにおける単語埋め込みの包括的比較 [全文訳有]

A Comprehensive Comparison of Word Embeddings in Event & Entity Coreference Resolution ( http://arxiv.org/abs/2110.05115v1 )

ライセンス: CC BY 4.0
Judicael Poumay, Ashwin Ittoo(参考訳) Coreference Resolutionは重要なNLPタスクであり、ほとんどの最先端の手法は単語表現に単語の埋め込みに依存する。 しかし、文献で見過ごされてきた問題のひとつは、この課題における家族間で異なる埋め込みの性能を比較することである。 したがって、イベントとエンティティの一貫性の解決(EvCRとEnCR)という文脈で研究を行い、1)パフォーマンス(予測と実行時間)と埋め込みサイズの間にトレードオフがあるかという2つの疑問に対処する。 2)家族間での埋め込み性能はどのように比較されるか。 我々の実験はいくつかの興味深い発見を明らかにした。 まず、埋め込みサイズに関して、パフォーマンスのリターンが低下することを観察します。 例えば、文字埋め込みのみを使用するモデルは、最大のモデル(Elmo、GloVe、 character)のパフォーマンスの86%を達成し、サイズは1.2%である。 第二に、複数の埋め込みを使用するより大きなモデルは、エポックごとに遅いにもかかわらず、全体としてより速く学習する。 しかし、テスト時にはまだ遅い。 最後に、ElmoはEvCRとEnCRの両方で最高、GloVeとFastTextはそれぞれEvCRとEnCRで最高である。

Coreference Resolution is an important NLP task and most state-of-the-art methods rely on word embeddings for word representation. However, one issue that has been largely overlooked in literature is that of comparing the performance of different embeddings across and within families in this task. Therefore, we frame our study in the context of Event and Entity Coreference Resolution (EvCR & EnCR), and address two questions : 1) Is there a trade-off between performance (predictive & run-time) and embedding size? 2) How do the embeddings' performance compare within and across families? Our experiments reveal several interesting findings. First, we observe diminishing returns in performance with respect to embedding size. E.g. a model using solely a character embedding achieves 86% of the performance of the largest model (Elmo, GloVe, Character) while being 1.2% of its size. Second, the larger model using multiple embeddings learns faster overall despite being slower per epoch. However, it is still slower at test time. Finally, Elmo performs best on both EvCR and EnCR, while GloVe and FastText perform best in EvCR and EnCR respectively.
翻訳日:2021-10-13 01:34:12 公開日:2021-10-11
# (参考訳) 自動しきい値エッジ描画アルゴリズム [全文訳有]

An automated threshold Edge Drawing algorithm ( http://arxiv.org/abs/2110.05119v1 )

ライセンス: CC BY 4.0
Ciprian Orhei, Muguras Mocofan, Silviu Vert, Radu Vasiu(参考訳) 古典的エッジ検出アルゴリズムにおけるパラメータの選択は、コストが高く複雑なタスクである。 正しいパラメータを選択することで、結果のエッジマップを大幅に改善できる。 本稿では,自動しきい値選択ステップを含むエッジ描画アルゴリズムのバージョンを提案する。 この追加ステップの効果をより強調するために、アルゴリズムで異なる一階演算子を使用します。 自動しきい値方式の利点を維持するために,視覚的および統計的結果を示す。

Parameter choosing in classical edge detection algorithms can be a costly and complex task. Choosing the correct parameters can improve considerably the resulting edge-map. In this paper we present a version of Edge Drawing algorithm in which we include an automated threshold choosing step. To better highlight the effect of this additional step we use different first order operators in the algorithm. Visual and statistical results are presented to sustain the benefits of the proposed automated threshold scheme.
翻訳日:2021-10-13 01:21:57 公開日:2021-10-11
# (参考訳) Pano-AVQA: 360$^\circ$のビデオで音声による質問に答える [全文訳有]

Pano-AVQA: Grounded Audio-Visual Question Answering on 360$^\circ$ Videos ( http://arxiv.org/abs/2110.05122v1 )

ライセンス: CC BY 4.0
Heeseung Yun, Youngjae Yu, Wonsuk Yang, Kangil Lee, Gunhee Kim(参考訳) 360$^\circ$ビデオは、シーンの周囲の全体像を提供する。 これは、事前に決定された通常の視野を超えて、音声と視覚の手がかりを提供し、球面に特有の空間関係を示す。 しかし、パノラマビデオの以前のベンチマークタスクは、周囲の音声・視覚的関係や球面空間的特性のセマンティック理解を評価するために制限されている。 そこで我々は,パノラマビデオを用いた大規模音声視覚質問応答データセットとして,パノラマ画像を用いた新しいベンチマークを提案する。 オンラインで収集した5.4K 360$^\circ$ビデオクリップを用いて,球面空間関係QAと音声視覚関係QAの2種類の新しい問合せ対を収集する。 パノアブカからいくつかのトランスフォーマーベースのモデルをトレーニングした結果、提案する球面的空間埋め込みとマルチモーダルトレーニングの目的がデータセット上のパノラマ的環境のより深い意味的理解に寄与していることが示唆された。

360$^\circ$ videos convey holistic views for the surroundings of a scene. It provides audio-visual cues beyond pre-determined normal field of views and displays distinctive spatial relations on a sphere. However, previous benchmark tasks for panoramic videos are still limited to evaluate the semantic understanding of audio-visual relationships or spherical spatial property in surroundings. We propose a novel benchmark named Pano-AVQA as a large-scale grounded audio-visual question answering dataset on panoramic videos. Using 5.4K 360$^\circ$ video clips harvested online, we collect two types of novel question-answer pairs with bounding-box grounding: spherical spatial relation QAs and audio-visual relation QAs. We train several transformer-based models from Pano-AVQA, where the results suggest that our proposed spherical spatial embeddings and multimodal training objectives fairly contribute to a better semantic understanding of the panoramic surroundings on the dataset.
翻訳日:2021-10-13 01:15:01 公開日:2021-10-11
# (参考訳) マルチエージェントシステムの非パラメトリック神経適応協調 [全文訳有]

Non-Parametric Neuro-Adaptive Coordination of Multi-Agent Systems ( http://arxiv.org/abs/2110.05125v1 )

ライセンス: CC BY 4.0
Christos K. Verginis, Zhe Xu, Ufuk Topcu(参考訳) 未知の非線形力学によって制御されるネットワーク型マルチエージェントシステムの分散生成制御のための学習ベースアルゴリズムを開発した。 既存のアルゴリズムの多くは、未知の動的項に対して特定のパラメトリック形式を仮定するか、理論的な保証を提供するために不要に大きな制御入力を利用する。 提案アルゴリズムは、ニューラルネットワークに基づく学習と適応制御を2段階の手順に統合することにより、これらの欠点を回避する。 アルゴリズムの最初のステップでは、生成タスクとエージェントパラメータの集合に対応するトレーニングデータを使用して、各エージェントがニューラルネットワークとして表現されたコントローラを学習する。 これらのパラメータとタスクは、それぞれ、目の前のタスクの名目エージェントパラメータと生成仕様を変化させて導出される。 アルゴリズムの第2ステップでは、訓練されたニューラルネットワークをオンラインおよび適応制御ポリシに組み込むことにより、マルチエージェントのクローズドループシステムの動作がユーザ定義の形成タスクを満たすようにする。 学習フェーズと適応制御ポリシの両方が分散され、各エージェントが隣のエージェントからのローカル情報のみを使用して独自のアクションを計算できる。 提案アルゴリズムはエージェントの未知の動的項や近似スキームに関する事前情報を使用しない。 我々は、形成作業の達成に関する正式な理論的保証を提供する。

We develop a learning-based algorithm for the distributed formation control of networked multi-agent systems governed by unknown, nonlinear dynamics. Most existing algorithms either assume certain parametric forms for the unknown dynamic terms or resort to unnecessarily large control inputs in order to provide theoretical guarantees. The proposed algorithm avoids these drawbacks by integrating neural network-based learning with adaptive control in a two-step procedure. In the first step of the algorithm, each agent learns a controller, represented as a neural network, using training data that correspond to a collection of formation tasks and agent parameters. These parameters and tasks are derived by varying the nominal agent parameters and the formation specifications of the task in hand, respectively. In the second step of the algorithm, each agent incorporates the trained neural network into an online and adaptive control policy in such a way that the behavior of the multi-agent closed-loop system satisfies a user-defined formation task. Both the learning phase and the adaptive control policy are distributed, in the sense that each agent computes its own actions using only local information from its neighboring agents. The proposed algorithm does not use any a priori information on the agents' unknown dynamic terms or any approximation schemes. We provide formal theoretical guarantees on the achievement of the formation task.
翻訳日:2021-10-13 00:56:59 公開日:2021-10-11
# (参考訳) AWEU-Net:肺結節分割のための注意型重み付きU-Net [全文訳有]

AWEU-Net: An Attention-Aware Weight Excitation U-Net for Lung Nodule Segmentation ( http://arxiv.org/abs/2110.05144v1 )

ライセンス: CC BY 4.0
Syeda Furruka Banu, Md. Mostafa Kamal Sarker, Mohamed Abdel-Nasser, Domenec Puig and Hatem A. Raswan(参考訳) 肺がんは、世界中で毎年何百万もの死を引き起こす致命的ながんである。 CT画像における正確な肺結節の検出とセグメンテーションは,早期の肺癌の診断において最も重要な部分である。 既存のシステムのほとんどは半自動化されており、肺と結節領域を手動で選択する必要がある。 これらの課題に対処するために,我々は深層学習アプローチに基づく完全自動化された肺結節検出・分節システムを提案する。 本稿では,CTスキャンにおける肺結節領域検出のための最先端検出モデルであるOptimized Faster R-CNNを用いた。 さらに,肺結節の分節と境界検出のための重み付きU-Net,AWEU-Netを提案した。 より正確な結節分割を実現するため,AWEU-Netでは位置注意対応重み付け (PAWE) とチャネル注意対応重み付け (CAWE) ブロックを提案し,入力特徴マップの最も整列した空間的特徴とチャネル的特徴を強調した。 実験の結果,提案モデルでは,公開luna16データセットとlidc-idriデータセットにおいて,89.79%と90.35%のサイコロスコアと,82.34%と83.21%の交点が得られた。

Lung cancer is deadly cancer that causes millions of deaths every year around the world. Accurate lung nodule detection and segmentation in computed tomography (CT) images is the most important part of diagnosing lung cancer in the early stage. Most of the existing systems are semi-automated and need to manually select the lung and nodules regions to perform the segmentation task. To address these challenges, we proposed a fully automated end-to-end lung nodule detection and segmentation system based on a deep learning approach. In this paper, we used Optimized Faster R-CNN; a state-of-the-art detection model to detect the lung nodule regions in the CT scans. Furthermore, we proposed an attention-aware weight excitation U-Net, called AWEU-Net, for lung nodule segmentation and boundaries detection. To achieve more accurate nodule segmentation, in AWEU-Net, we proposed position attention-aware weight excitation (PAWE), and channel attention-aware weight excitation (CAWE) blocks to highlight the best aligned spatial and channel features in the input feature maps. The experimental results demonstrate that our proposed model yields a Dice score of 89.79% and 90.35%, and an intersection over union (IoU) of 82.34% and 83.21% on the publicly LUNA16 and LIDC-IDRI datasets, respectively.
翻訳日:2021-10-13 00:14:16 公開日:2021-10-11
# (参考訳) デスクトップ計算を超えて - GPUインフラストラクチャのスケールアップの課題 [全文訳有]

Beyond Desktop Computation: Challenges in Scaling a GPU Infrastructure ( http://arxiv.org/abs/2110.05156v1 )

ライセンス: CC BY 4.0
Martin Uray and Eduard Hirsch and Gerold Katzinger and Michael Gadermayr(参考訳) 計算コストのかかるデータサイエンスアプリケーションを実行する企業や研究所は、遅かれ早かれ、大規模だが無接続のインフラの問題に直面している。 このスケールアッププロセスでは、ITサービスプロバイダを雇用するか、社内の担当者がソフトウェアスタックの実装を試みることができる。 最初の選択肢は、複数のマシンを接続するだけなら、かなり高価だ。 後者のオプションでは、ソフトウェアジャングルをナビゲートするために、データサイエンススタッフでの経験が欠けていることが多い。 本稿では,オンプレミスインフラストラクチャへの意思決定プロセス,実装されたシステムアーキテクチャ,ソフトウェアスタックのスケール可能なGPUクラスタシステムへの変換について説明する。

Enterprises and labs performing computationally expensive data science applications sooner or later face the problem of scale but unconnected infrastructure. For this up-scaling process, an IT service provider can be hired or in-house personnel can attempt to implement a software stack. The first option can be quite expensive if it is just about connecting several machines. For the latter option often experience is missing with the data science staff in order to navigate through the software jungle. In this technical report, we illustrate the decision process towards an on-premises infrastructure, our implemented system architecture, and the transformation of the software stack towards a scaleable GPU cluster system.
翻訳日:2021-10-12 23:59:41 公開日:2021-10-11
# (参考訳) 交換可能性を考慮したSum-Product Networks [全文訳有]

Exchangeability-Awar e Sum-Product Networks ( http://arxiv.org/abs/2110.05165v1 )

ライセンス: CC BY 4.0
Stefan L\"udtke, Christian Bartelt, Heiner Stuckenschmidt(参考訳) sum-product network (spns) は正確な扱いやすい推論を提供する表現的確率モデルである。 彼らはこの効率を地域の独立を利用して達成する。 一方、交換可能変数モデル(mevms)の混合は、確率変数の交換可能性を利用して推論を扱いやすいものにする、扱いやすい確率モデルのクラスである。 複数の相互関連エンティティからなるシステムで自然に発生する交換性は、SPNにおける効率的な表現と推論のためにはまだ考慮されていない。 本稿では,Exchangeability-Awa re Sum-Product Networks (XSPNs) と呼ぶ新しい確率モデルを提案する。 SPNとMEVMの両方を特別なケースとして含み、SPNが深い確率モデルを効率的に学習する能力と、交換可能な確率変数を効率的に扱う能力を組み合わせたものである。 また、XSPNのための構造学習アルゴリズムを導入し、データに繰り返し、交換可能な部分を含む場合、従来のSPNよりも正確で効率的であることを示す。

Sum-Product Networks (SPNs) are expressive probabilistic models that provide exact, tractable inference. They achieve this efficiency by making used of local independence. On the other hand, mixtures of exchangeable variable models (MEVMs) are a class of tractable probabilistic models that make use of exchangeability of random variables to render inference tractable. Exchangeability, which arises naturally in systems consisting of multiple, interrelated entities, has not been considered for efficient representation and inference in SPNs yet. The contribution of this paper is a novel probabilistic model which we call Exchangeability-Awar e Sum-Product Networks (XSPNs). It contains both SPNs and MEVMs as special cases, and combines the ability of SPNs to efficiently learn deep probabilistic models with the ability of MEVMs to efficiently handle exchangeable random variables. We also introduce a structure learning algorithm for XSPNs and empirically show that they can be more accurate and efficient than conventional SPNs when the data contains repeated, interchangeable parts.
翻訳日:2021-10-12 23:50:50 公開日:2021-10-11
# (参考訳) ロバストでスケーラブルなSDE学習:機能的視点 [全文訳有]

Robust and Scalable SDE Learning: A Functional Perspective ( http://arxiv.org/abs/2110.05167v1 )

ライセンス: CC BY 4.0
Scott Cameron, Tyron Cameron, Arnu Pretorius and Stephen Roberts(参考訳) 確率微分方程式は、幅広い時空間過程を記述することができる柔軟な生成モデルのリッチなクラスを提供する。 最近の研究のホストは、ニューラルネットワークやその他の柔軟な関数近似器を使用して、データ表現のSDEを学ぶことを目指している。 これらの進歩にもかかわらず、SDEインテグレータのシーケンシャルな性質のため、学習は計算的に高価である。 そこで本研究では,学習目的のsdes観測の確率に対する重要サンプリング推定器を提案する。 重要なことに、我々が提案するアプローチはそのような積分器に依存しない。 提案手法は, sde積分器に基づくアルゴリズムと比較し, 低分散勾配推定を行い, 恥ずかしい並列化の利点を生かした。 これにより、大規模並列ハードウェアが計算時間の大幅な削減に有効である。

Stochastic differential equations provide a rich class of flexible generative models, capable of describing a wide range of spatio-temporal processes. A host of recent work looks to learn data-representing SDEs, using neural networks and other flexible function approximators. Despite these advances, learning remains computationally expensive due to the sequential nature of SDE integrators. In this work, we propose an importance-sampling estimator for probabilities of observations of SDEs for the purposes of learning. Crucially, the approach we suggest does not rely on such integrators. The proposed method produces lower-variance gradient estimates compared to algorithms based on SDE integrators and has the added advantage of being embarrassingly parallelizable. This facilitates the effective use of large-scale parallel hardware for massive decreases in computation time.
翻訳日:2021-10-12 23:37:43 公開日:2021-10-11
# (参考訳) 強化学習におけるオンライン適応政策のサブスペースの学習 [全文訳有]

Learning a subspace of policies for online adaptation in Reinforcement Learning ( http://arxiv.org/abs/2110.05169v1 )

ライセンス: CC BY 4.0
Jean-Baptiste Gaya, Laure Soulier, Ludovic Denoyer(参考訳) 深層強化学習(RL)は主に、トレーニングとテスト環境が類似した環境で研究されている。 しかし、多くの応用において、これらの環境は異なるかもしれない。 例えば、制御システムでは、ポリシーが学習されるロボットは、ポリシーが実行されるロボットとは異なるかもしれない。 これは、異なる内部要因(例えば、キャリブレーションの問題、システム障害、欠陥モジュール)や外部の変化(例えば、気象条件)によって引き起こされる可能性がある。 トレーニング条件のバリエーションにうまく一般化するrl手法を開発する必要がある。 本稿では,テスト環境が未知である一般化設定に対して,エージェントがシステムの新たなダイナミクスに適応せざるを得ないような,最も単純かつ難解な方法を考える。 このオンライン適応プロセスは計算コストがかかり(微調整など)、単一の列車環境が存在するだけでメタRL技術に頼ることはできない。 そこで本研究では,パラメータ空間内のポリシーの部分空間を学習する手法を提案する。 この部分空間は、異なるパラメータ値を持ちながら、トレーニング環境を解決するために訓練される無限個のポリシーを含んでいる。 その結果、サブスペースにおける2つのポリシーは異なる情報を処理し、列車の環境の変化に直面すると異なる行動を示す。 我々の実験は様々なベンチマークを行い、多様性に基づく手法を含むベースラインと比較した。 比較すると、我々のアプローチはチューニングが簡単で、余分なコンポーネント(例えば識別器)は不要であり、目に見えない環境に対して高い報酬を得られるポリシーを学ぶ。

Deep Reinforcement Learning (RL) is mainly studied in a setting where the training and the testing environments are similar. But in many practical applications, these environments may differ. For instance, in control systems, the robot(s) on which a policy is learned might differ from the robot(s) on which a policy will run. It can be caused by different internal factors (e.g., calibration issues, system attrition, defective modules) or also by external changes (e.g., weather conditions). There is a need to develop RL methods that generalize well to variations of the training conditions. In this article, we consider the simplest yet hard to tackle generalization setting where the test environment is unknown at train time, forcing the agent to adapt to the system's new dynamics. This online adaptation process can be computationally expensive (e.g., fine-tuning) and cannot rely on meta-RL techniques since there is just a single train environment. To do so, we propose an approach where we learn a subspace of policies within the parameter space. This subspace contains an infinite number of policies that are trained to solve the training environment while having different parameter values. As a consequence, two policies in that subspace process information differently and exhibit different behaviors when facing variations of the train environment. Our experiments carried out over a large variety of benchmarks compare our approach with baselines, including diversity-based methods. In comparison, our approach is simple to tune, does not need any extra component (e.g., discriminator) and learns policies able to gather a high reward on unseen environments.
翻訳日:2021-10-12 23:22:29 公開日:2021-10-11
# (参考訳) 神経算術論理モジュールを用いた学習分割 [全文訳有]

Learning Division with Neural Arithmetic Logic Modules ( http://arxiv.org/abs/2110.05177v1 )

ライセンス: CC BY 4.0
Bhumika Mistry, Katayoun Farrahi, Jonathon Hare(参考訳) 体系的な一般化を実現するために、まず算術のような単純なタスクを習得することが合理的である。 4つの基本的な算術演算(+,-,$\times$,$\div$)のうち、分割は人間とコンピュータの両方にとって最も難しいと考えられている。 本稿では、2つの数字を分割する最も単純なレベルでも、体系的な方法で頑健に学習する分割が課題であることを示す。 本稿では,NRU(Neural Reciprocal Unit)とNMRU(Neural Multiplicative Reciprocal Unit)の2つの新しい手法を提案し,既存の分割モジュールであるReal Neural Power Unit(Real NPU)の改良を提案する。 225の異なるトレーニングセットに入力冗長性を持つ学習分割の実験では、提案する実 npu への修正により、オリジナルよりも平均で 85.3$\%$ 改善が15.1$\% 向上することがわかった。 上記の提案を踏まえて、NMRUアプローチは、さらなる成功を91.6$\%$に向上させることができる。

To achieve systematic generalisation, it first makes sense to master simple tasks such as arithmetic. Of the four fundamental arithmetic operations (+,-,$\times$,$\div$), division is considered the most difficult for both humans and computers. In this paper we show that robustly learning division in a systematic manner remains a challenge even at the simplest level of dividing two numbers. We propose two novel approaches for division which we call the Neural Reciprocal Unit (NRU) and the Neural Multiplicative Reciprocal Unit (NMRU), and present improvements for an existing division module, the Real Neural Power Unit (Real NPU). Experiments in learning division with input redundancy on 225 different training sets, find that our proposed modifications to the Real NPU obtains an average success of 85.3$\%$ improving over the original by 15.1$\%$. In light of the suggestion above, our NMRU approach can further improve the success to 91.6$\%$.
翻訳日:2021-10-12 23:00:26 公開日:2021-10-11
# (参考訳) CLIP4Caption ++: ビデオキャプチャ用のマルチCLIP [全文訳有]

CLIP4Caption ++: Multi-CLIP for Video Caption ( http://arxiv.org/abs/2110.05204v1 )

ライセンス: CC BY 4.0
Mingkang Tang, Zhanyu Wang, Zhaoyang Zeng, Fengyun Rao, Dian Li(参考訳) 本報告では,キャプションタスクにおけるVALUE Challenge 2021に対するソリューションについて述べる。 私たちのソリューションはCLIP4Caption++と呼ばれ、エンコーダデコーダアーキテクチャを備えた高度なモデルであるX-Linear/X-Transform er上に構築されています。 提案する clip4caption++ では,次のような改善がなされています。 先進的なエンコーダ-デコーダモデルアーキテクチャ x-transformer をメインフレームワークとして採用し,次のような改善を行っています。 1) 3つの強化されたCLIPモデルを用いて,テキスト関連視覚特徴を抽出する。 2)データ強化にはTSNサンプリング戦略を採用する。 3)よりリッチな意味情報を提供するために,ビデオ字幕情報を含む。 3) 視覚的特徴と融合した字幕情報を導入する。 4)単語レベルおよび文レベルのアンサンブル戦略を設計する。 提案手法は,VATEX,YC2C,TVCの各データセットに対して,86.5,148.4,64.5 CIDErスコアを達成し,提案したCLIP4Caption++の3つのデータセットに対して,優れた性能を示す。

This report describes our solution to the VALUE Challenge 2021 in the captioning task. Our solution, named CLIP4Caption++, is built on X-Linear/X-Transform er, which is an advanced model with encoder-decoder architecture. We make the following improvements on the proposed CLIP4Caption++: We employ an advanced encoder-decoder model architecture X-Transformer as our main framework and make the following improvements: 1) we utilize three strong pre-trained CLIP models to extract the text-related appearance visual features. 2) we adopt the TSN sampling strategy for data enhancement. 3) we involve the video subtitle information to provide richer semantic information. 3) we introduce the subtitle information, which fuses with the visual features as guidance. 4) we design word-level and sentence-level ensemble strategies. Our proposed method achieves 86.5, 148.4, 64.5 CIDEr scores on VATEX, YC2C, and TVC datasets, respectively, which shows the superior performance of our proposed CLIP4Caption++ on all three datasets.
翻訳日:2021-10-12 22:11:48 公開日:2021-10-11
# (参考訳) 計画CTとFDG-PETCTを用いた食道グロース腫瘍容積自動記述のための2ストリーム深層学習法の多施設検証

Multi-institutional Validation of Two-Streamed Deep Learning Method for Automated Delineation of Esophageal Gross Tumor Volume using planning-CT and FDG-PETCT ( http://arxiv.org/abs/2110.05280v1 )

ライセンス: CC BY 4.0
Xianghua Ye, Dazhou Guo, Chen-kan Tseng, Jia Ge, Tsung-Min Hung, Ping-Ching Pai, Yanping Ren, Lu Zheng, Xinli Zhu, Ling Peng, Ying Chen, Xiaohua Chen, Chen-Yu Chou, Danni Chen, Jiaze Yu, Yuzhen Chen, Feiran Jiao, Yi Xin, Lingyun Huang, Guotong Xie, Jing Xiao, Le Lu, Senxiang Yan, Dakai Jin, Tsung-Ying Ho(参考訳) 背景: 食道総腫瘍量(gtv)に関する現在の臨床ワークフローは, 人手による高コスト化とユーザ間変動に依存する。 目的: 深層学習(DL)多モード食道GTVコントゥーリングモデルの臨床的適用性を検証するため, 1施設で開発され, 複数の施設で試験を行った。 方法と材料: 食道癌606例を4施設から収集した。 252施設1患者は, 治療計画CT (pCT) と診断用FDG-PETCT (PETCT) を併用し, 他の3施設354例はpCTのみであった。 128施設1サブセットのpCTおよびPETCTスキャンを用いて,GTVセグメンテーションのための2ストリームDLモデルを開発した。 このモデルでは、pCTまたはpCT+PETCTの組み合わせでGTVをセグメンテーションする柔軟性があった。 独立した評価では, 残りの104施設1患者は内科検査に見えず, 354施設2-4患者が外科検査に使用された。 我々は,輪郭編集作業を評価するために,人間の専門家による手動修正度を評価した。 深部モデルの性能を放射線腫瘍学者4名と比較し, ランダムな外部患者20名を対象にマルチユーザ調査を行った。 また,dl前およびdl後脱ライン化過程の精度と時間について検討した。 結果: 本モデルは, 内部試験において高いセグメンテーション精度(pct: 0.81, pct+pet: 0.83)を達成し, 外部評価(dsc: 0.80)によく適合した。 エキスパート・アセスメントによると、88%の患者が予測した輪郭はマイナーかノーリビジョンのみを必要とする。 マルチユーザ評価では、深いモデルの助けを借りて、オブザーバ間のばらつきと必要なコントレーション時間をそれぞれ37.6%削減し、48.0%削減した。 結論: 深層学習は、GTVの輪郭は根本的真実と密接に一致しており、ほとんど変化なく臨床的に採用できると予測した。

Background: The current clinical workflow for esophageal gross tumor volume (GTV) contouring relies on manual delineation of high labor-costs and interuser variability. Purpose: To validate the clinical applicability of a deep learning (DL) multi-modality esophageal GTV contouring model, developed at 1 institution whereas tested at multiple ones. Methods and Materials: We collected 606 esophageal cancer patients from four institutions. 252 institution-1 patients had a treatment planning-CT (pCT) and a pair of diagnostic FDG-PETCT; 354 patients from other 3 institutions had only pCT. A two-streamed DL model for GTV segmentation was developed using pCT and PETCT scans of a 148 patient institution-1 subset. This built model had the flexibility of segmenting GTVs via only pCT or pCT+PETCT combined. For independent evaluation, the rest 104 institution-1 patients behaved as unseen internal testing, and 354 institutions 2-4 patients were used for external testing. We evaluated manual revision degrees by human experts to assess the contour-editing effort. The performance of the deep model was compared against 4 radiation oncologists in a multiuser study with 20 random external patients. Contouring accuracy and time were recorded for the pre-and post-DL assisted delineation process. Results: Our model achieved high segmentation accuracy in internal testing (mean Dice score: 0.81 using pCT and 0.83 using pCT+PET) and generalized well to external evaluation (mean DSC: 0.80). Expert assessment showed that the predicted contours of 88% patients need only minor or no revision. In multi-user evaluation, with the assistance of a deep model, inter-observer variation and required contouring time were reduced by 37.6% and 48.0%, respectively. Conclusions: Deep learning predicted GTV contours were in close agreement with the ground truth and could be adopted clinically with mostly minor or no changes.
翻訳日:2021-10-12 22:06:05 公開日:2021-10-11
# (参考訳) ほとんど一人で歩く: 追跡予測における特徴の帰属分析 [全文訳有]

You Mostly Walk Alone: Analyzing Feature Attribution in Trajectory Prediction ( http://arxiv.org/abs/2110.05304v1 )

ライセンス: CC BY 4.0
Osama Makansi, Julius von K\"ugelgen, Francesco Locatello, Peter Gehler,Dominik Janzing, Thomas Brox and Bernhard Sch\"olkopf(参考訳) 移動剤の将来の軌道予測は、過去の軌道がスムーズに継続する場合は容易であるが、他のエージェントとの複雑な相互作用が関与する場合は困難である。 トラジェクトリ予測に対する近年のディープラーニングアプローチは、有望な性能を示し、エージェントとエージェントの相互作用に関する推論の成功に部分的に寄与している。 しかし、このようなブラックボックスモデルが実際にどのモデルを用いて予測を行うのかは、まだ不明である。 本稿では,シェープリー値の変種に基づくモデル性能に対する様々な手がかりの寄与を定量化する手法を提案する。 この手順を標準ベンチマークデータセットの最先端の軌道予測法に適用すると、実際には相互作用を推論できないことが分かる。 代わりに、ターゲットの過去の軌道は、その将来を予測するために使われる唯一の特徴である。 一方、よりリッチな社会的相互作用パターンを持つタスクでは、テストされたモデルは、機能帰属法によって定量化されたように、ある程度の相互作用を拾います。 提案手法の限界と因果関係について考察する。

Predicting the future trajectory of a moving agent can be easy when the past trajectory continues smoothly but is challenging when complex interactions with other agents are involved. Recent deep learning approaches for trajectory prediction show promising performance and partially attribute this to successful reasoning about agent-agent interactions. However, it remains unclear which features such black-box models actually learn to use for making predictions. This paper proposes a procedure that quantifies the contributions of different cues to model performance based on a variant of Shapley values. Applying this procedure to state-of-the-art trajectory prediction methods on standard benchmark datasets shows that they are, in fact, unable to reason about interactions. Instead, the past trajectory of the target is the only feature used for predicting its future. For a task with richer social interaction patterns, on the other hand, the tested models do pick up such interactions to a certain extent, as quantified by our feature attribution method. We discuss the limits of the proposed method and its links to causality
翻訳日:2021-10-12 22:04:45 公開日:2021-10-11
# (参考訳) マルチウェイスパース距離重み付き識別

Multiway sparse distance weighted discrimination ( http://arxiv.org/abs/2110.05377v1 )

ライセンス: CC BY 4.0
Bin Guo, Lynn E. Eberly, Pierre-Gilles Henry, Christophe Lenglet, Eric F. Lock(参考訳) 現代のデータは、しばしばマルチウェイアレイの形をとる。 しかし、ほとんどの分類法はベクトル、すなわち1方向配列に対して設計されている。 距離重み付き識別(DWD)は、マルチウェイコンテキストに拡張された一般的な高次元分類手法であり、データがマルチウェイ構造を持つ場合のパフォーマンスが劇的に改善されている。 しかし、従来のマルチウェイDWDの実装は行列の分類に制限され、スパース性は考慮されなかった。 本稿では,任意の次元と任意の度数に適用可能な多方向分類の汎用フレームワークを開発した。 本研究では,本モデルがスパーシティの程度にロバストであることを示し,マルチウェイ構造を持つ場合の分類精度を向上できることを示す。 磁気共鳴分光法(MRS)を用いて,Friedreich失調のマウスモデルにおいて,複数の神経領域および複数の時間点にまたがる代謝物の存在量を計測し,4方向のデータアレイを作成した。 提案手法は,興味のあるグループを識別するロバストで解釈可能な多領域メタボロミック信号を示す。 多発性硬化症に対する遺伝子発現時間データにも本手法を応用した。 Rの実装は、 http://github.com/lo ckEF/MultiwayClassif ication のパッケージで利用可能である。

Modern data often take the form of a multiway array. However, most classification methods are designed for vectors, i.e., 1-way arrays. Distance weighted discrimination (DWD) is a popular high-dimensional classification method that has been extended to the multiway context, with dramatic improvements in performance when data have multiway structure. However, the previous implementation of multiway DWD was restricted to classification of matrices, and did not account for sparsity. In this paper, we develop a general framework for multiway classification which is applicable to any number of dimensions and any degree of sparsity. We conducted extensive simulation studies, showing that our model is robust to the degree of sparsity and improves classification accuracy when the data have multiway structure. For our motivating application, magnetic resonance spectroscopy (MRS) was used to measure the abundance of several metabolites across multiple neurological regions and across multiple time points in a mouse model of Friedreich's ataxia, yielding a four-way data array. Our method reveals a robust and interpretable multi-region metabolomic signal that discriminates the groups of interest. We also successfully apply our method to gene expression time course data for multiple sclerosis treatment. An R implementation is available in the package MultiwayClassificati on at http://github.com/lo ckEF/MultiwayClassif ication .
翻訳日:2021-10-12 21:49:42 公開日:2021-10-11
# (参考訳) ドロップアウトとデカップリングによる逐次レコメンダシステムのソフトマックスボトルネックの解消 [全文訳有]

Breaking the Softmax Bottleneck for Sequential Recommender Systems with Dropout and Decoupling ( http://arxiv.org/abs/2110.05409v1 )

ライセンス: CC BY 4.0
Ying-Chen Lin(参考訳) softmaxのボトルネックは、最初に言語モデリングにおいて、softmaxベースのモデルの表現性に関する理論的限界として特定された。 確率を出力する最も広く使われている手法の1つとして、Softmaxベースのモデルはセッションベースレコメンデータシステム(SBRS)を含む広範囲のアプリケーションを発見した。 softmaxベースのモデルは、最終線形層の上にsoftmax関数で構成される。 ボトルネックは行列因子分解と関連した最終線形層におけるランク不足に起因することが示されている。 本稿では,SBRSにおけるSoftmaxボトルネックには,さらに多くの側面が存在することを示す。 一般的な信念に反して、オーバーフィッティングは最終線形層で起こるが、複雑なネットワークとしばしば関連づけられる。 さらに,セッションシーケンスと候補プール間のアイテム埋め込みを共通的に共有する手法が,ボトルネックにも寄与する密結合を生み出していることを見出した。 本稿では,これらの問題を緩和するために,簡易かつ効果的なD&D法を提案する。 本手法は,様々なソフトマックスベースsbrsアルゴリズムの精度を大幅に向上させることを示す。 MLP や MoS (Mixture of Softmaxes) などの計算コストの高い手法と比較しても,本手法はソフトマックスモデルと同等の時間的複雑さを保ちながら,それらの手法と同等,時として同等に動作する。

The Softmax bottleneck was first identified in language modeling as a theoretical limit on the expressivity of Softmax-based models. Being one of the most widely-used methods to output probability, Softmax-based models have found a wide range of applications, including session-based recommender systems (SBRSs). Softmax-based models consist of a Softmax function on top of a final linear layer. The bottleneck has been shown to be caused by rank deficiency in the final linear layer due to its connection with matrix factorization. In this paper, we show that there are more aspects to the Softmax bottleneck in SBRSs. Contrary to common beliefs, overfitting does happen in the final linear layer, while it is often associated with complex networks. Furthermore, we identified that the common technique of sharing item embeddings among session sequences and the candidate pool creates a tight-coupling that also contributes to the bottleneck. We propose a simple yet effective method, Dropout and Decoupling (D&D), to alleviate these problems. Our experiments show that our method significantly improves the accuracy of a variety of Softmax-based SBRS algorithms. When compared to other computationally expensive methods, such as MLP and MoS (Mixture of Softmaxes), our method performs on par with and at times even better than those methods, while keeping the same time complexity as Softmax-based models.
翻訳日:2021-10-12 21:48:39 公開日:2021-10-11
# (参考訳) 混合数値および分類データのための密度に基づく解釈可能なハイパーキューブ領域分割 [全文訳有]

Density-based interpretable hypercube region partitioning for mixed numeric and categorical data ( http://arxiv.org/abs/2110.05430v1 )

ライセンス: CC BY 4.0
Samuel Ackerman, Eitan Farchi, Orna Raz, Marcel Zalmanovici, Maya Zohar(参考訳) 例えば $\{\textrm{SEX}, \textrm{INCOME}, \textrm{RACE}, \textrm{EXPERIENCE}\}$ などです。 ユーザーは、機能空間の観察が集中している場所と、それがスパースまたは空である場所を知りたがるかもしれない。 大きなスパースまたは空の領域の存在は、ソフトまたはハードな特徴の制約(例えば、典型的な収入範囲は何か、あるいは数年の仕事経験を持つ高い収入を持つ可能性は低い)のドメイン知識を提供することができる。 また、スパースまたは空の領域におけるデータ入力に対する機械学習(ml)モデル予測は信頼できない可能性があることをユーザに示唆する。 解釈可能な領域は超矩形であり、例えば $\{\textrm{RACE} \in\{\textrm{Black}, \textrm{White}\}\}\}\:\&$ $\{10 \leq \:\textrm{EXPERIENCE} \:\leq 13\}$ は制約を満たす全ての観測を含む。 本手法では,観測された特徴空間の観測密度に基づく分割をその領域に構築する。 元のドメインにおける混合型(数値またはカテゴリ)の機能で動作し、空の領域も分離できるという点で、他の領域よりも多くの利点がある。 可視化で見られるように、結果として生じる分割は、人間の目が識別できる空間的グループ化と一致し、その結果はより高次元に拡張されるべきである。 また,mlモデル誤差の推測,高次元密度変動の測定,治療効果の因果推論など,他のデータ解析タスクへの分割の適用例を示す。 これらの応用の多くは分割領域の超正方形形式によって可能である。

Consider a structured dataset of features, such as $\{\textrm{SEX}, \textrm{INCOME}, \textrm{RACE}, \textrm{EXPERIENCE}\}$. A user may want to know where in the feature space observations are concentrated, and where it is sparse or empty. The existence of large sparse or empty regions can provide domain knowledge of soft or hard feature constraints (e.g., what is the typical income range, or that it may be unlikely to have a high income with few years of work experience). Also, these can suggest to the user that machine learning (ML) model predictions for data inputs in sparse or empty regions may be unreliable. An interpretable region is a hyper-rectangle, such as $\{\textrm{RACE} \in\{\textrm{Black}, \textrm{White}\}\}\:\&$ $\{10 \leq \:\textrm{EXPERIENCE} \:\leq 13\}$, containing all observations satisfying the constraints; typically, such regions are defined by a small number of features. Our method constructs an observation density-based partition of the observed feature space in the dataset into such regions. It has a number of advantages over others in that it works on features of mixed type (numeric or categorical) in the original domain, and can separate out empty regions as well. As can be seen from visualizations, the resulting partitions accord with spatial groupings that a human eye might identify; the results should thus extend to higher dimensions. We also show some applications of the partition to other data analysis tasks, such as inferring about ML model error, measuring high-dimensional density variability, and causal inference for treatment effect. Many of these applications are made possible by the hyper-rectangular form of the partition regions.
翻訳日:2021-10-12 21:36:20 公開日:2021-10-11
# (参考訳) 疾患情報ニューラルネットワーク

Disease Informed Neural Networks ( http://arxiv.org/abs/2110.05445v1 )

ライセンス: CC BY 4.0
Sagi Shaier, Maziar Raissi(参考訳) 疾患情報ニューラルネットワーク(DINN) - 疾患の広がり、進行予測、独自のパラメータ(例えば死亡率)を見つけることができるニューラルネットワーク。 そこで我々はDINNを用いて11の高感染性致死性疾患の動態を同定した。 これらのシステムは複雑で、3Dから9DのODE、いくつかのパラメータから1ダース以上まで様々である。 この疾患には、COVID、thrax、HIV、ジカ、天然痘、結核、肺炎、エボラ、デング、ポリオ、麻疹が含まれる。 私たちの貢献は3つある。 まず、最近の物理情報ニューラルネットワーク(PINN)のアプローチを、多くの感染症に拡張する。 第2に,病気におけるPINNの機能と欠点を幅広く分析する。 最後に、ダインを使って新型コロナウイルスの拡散ダイナミクスを効果的に学習し、実生活データから1ヶ月の経過を予測できる簡単な方法を示す。 コードとデータは、https://github.com/S haier/DINN.com/で参照できる。

We introduce Disease Informed Neural Networks (DINNs) -- neural networks capable of learning how diseases spread, forecasting their progression, and finding their unique parameters (e.g. death rate). Here, we used DINNs to identify the dynamics of 11 highly infectious and deadly diseases. These systems vary in their complexity, ranging from 3D to 9D ODEs, and from a few parameters to over a dozen. The diseases include COVID, Anthrax, HIV, Zika, Smallpox, Tuberculosis, Pneumonia, Ebola, Dengue, Polio, and Measles. Our contribution is three fold. First, we extend the recent physics informed neural networks (PINNs) approach to a large number of infectious diseases. Second, we perform an extensive analysis of the capabilities and shortcomings of PINNs on diseases. Lastly, we show the ease at which one can use DINN to effectively learn COVID's spread dynamics and forecast its progression a month into the future from real-life data. Code and data can be found here: https://github.com/S haier/DINN.
翻訳日:2021-10-12 21:09:20 公開日:2021-10-11
# (参考訳) 適応勾配法におけるモーメント中心化と非同期更新

Momentum Centering and Asynchronous Update for Adaptive Gradient Methods ( http://arxiv.org/abs/2110.05454v1 )

ライセンス: CC BY 4.0
Juntang Zhuang, Yifan Ding, Tommy Tang, Nicha Dvornek, Sekhar Tatikonda, James S. Duncan(参考訳) ACProp (Asynchronous-center ing-Prop) は、第2モーメントと非同期更新(例えば、$t$-thの更新では、denominatorは、ステップ$t-1$までの情報を使用し、numeratorは$t$-thの勾配を使用する)の中央値を組み合わせた適応最適化器である。 acpropは強い理論特性と経験的性能を持つ。 reddi et al. (2018) の例では、非同期オプティマイザ(例: adashift, acprop)が同期オプティマイザ(例: adam, rmsprop, adabelief)よりも弱い収束条件を持つことが示されている。 我々は、ACPropが確率的非凸ケースに対して$O(\frac{1}{\sqrt{T}})$の収束率を持つことを示し、これはオラクルレートと一致し、RMSPropとAdamの$O(\frac{logT}{\sqrt{T}})$よりも優れている。 ACPropは、CNNによる画像分類において、SGDおよび他の適応最適化器よりも優れ、様々なGANモデルのトレーニング、強化学習、変換器において、よく調整された適応最適化器より優れている。 要約すると、ACPropは弱収束条件や最適収束率、SGDのような優れた一般化やAdamのような訓練安定性を含む強い経験的性能を含む優れた理論的性質を持つ。

We propose ACProp (Asynchronous-center ing-Prop), an adaptive optimizer which combines centering of second momentum and asynchronous update (e.g. for $t$-th update, denominator uses information up to step $t-1$, while numerator uses gradient at $t$-th step). ACProp has both strong theoretical properties and empirical performance. With the example by Reddi et al. (2018), we show that asynchronous optimizers (e.g. AdaShift, ACProp) have weaker convergence condition than synchronous optimizers (e.g. Adam, RMSProp, AdaBelief); within asynchronous optimizers, we show that centering of second momentum further weakens the convergence condition. We demonstrate that ACProp has a convergence rate of $O(\frac{1}{\sqrt{T}})$ for the stochastic non-convex case, which matches the oracle rate and outperforms the $O(\frac{logT}{\sqrt{T}})$ rate of RMSProp and Adam. We validate ACProp in extensive empirical studies: ACProp outperforms both SGD and other adaptive optimizers in image classification with CNN, and outperforms well-tuned adaptive optimizers in the training of various GAN models, reinforcement learning and transformers. To sum up, ACProp has good theoretical properties including weak convergence condition and optimal convergence rate, and strong empirical performance including good generalization like SGD and training stability like Adam.
翻訳日:2021-10-12 21:08:15 公開日:2021-10-11
# パラメータ推定と変換に基づく自動変調認識のための効率的なディープラーニングモデル

An Efficient Deep Learning Model for Automatic Modulation Recognition Based on Parameter Estimation and Transformation ( http://arxiv.org/abs/2110.04980v1 )

ライセンス: Link先を確認
Fuxin Zhang, Chunbo Luo, Jialang Xu, and Yang Luo(参考訳) 自動変調認識(AMR)は、インテリジェント通信受信機が信号変調スキームを検出するための有望な技術である。 近年,新たな深層学習(DL)研究は,高性能なDL-AMRアプローチを促進している。 しかし、ほとんどのDL-AMRモデルは認識精度にのみ焦点をあてており、大きなモデルサイズと高い計算複雑性をもたらす一方、軽量で低複雑さのモデルでは精度の要求を満たすのに苦労する。 このレターは、相パラメータ推定と変換に基づく効率的なdl-amrモデルを提案し、畳み込みニューラルネットワーク(cnn)とゲートリカレントユニット(gru)を特徴抽出層として、既存の最先端モデルに匹敵する高い認識精度を実現するが、パラメータの体積の3分の1以上を削減する。 一方,本モデルは,類似の認識精度を持つベンチマークモデルよりも,トレーニング時間とテスト時間において競争力が高い。 さらに,認識精度を90%以上維持しつつ,最先端モデルと比較してパラメータ数を1/8未満に抑え,pruningによりモデルを圧縮する手法を提案する。

Automatic modulation recognition (AMR) is a promising technology for intelligent communication receivers to detect signal modulation schemes. Recently, the emerging deep learning (DL) research has facilitated high-performance DL-AMR approaches. However, most DL-AMR models only focus on recognition accuracy, leading to huge model sizes and high computational complexity, while some lightweight and low-complexity models struggle to meet the accuracy requirements. This letter proposes an efficient DL-AMR model based on phase parameter estimation and transformation, with convolutional neural network (CNN) and gated recurrent unit (GRU) as the feature extraction layers, which can achieve high recognition accuracy equivalent to the existing state-of-the-art models but reduces more than a third of the volume of their parameters. Meanwhile, our model is more competitive in training time and test time than the benchmark models with similar recognition accuracy. Moreover, we further propose to compress our model by pruning, which maintains the recognition accuracy higher than 90% while has less than 1/8 of the number of parameters comparing with state-of-the-art models.
翻訳日:2021-10-12 21:03:45 公開日:2021-10-11
# 構造化時間前処理における時間変化グラフ学習

Time-varying Graph Learning Under Structured Temporal Priors ( http://arxiv.org/abs/2110.05018v1 )

ライセンス: Link先を確認
Xiang Zhang and Qiao Wang(参考訳) 本稿では,グラフ列内の任意の2つのグラフ間の基礎関係を仮定した時間的前置法を用いて,時間変化グラフを学習する。 時間的均質性のような先行項が2つの連続するグラフのバリエーションのみを記述できる既存の多くの連鎖構造ベースの方法とは異なり、基礎となる実時間関係を特徴づける構造として \emph{temporal graph} を提案する。 この枠組みの下では、チェーン構造は我々の時間グラフの特別な場合である。 さらに,分散アルゴリズムである乗算器(admm)の交互方向法を提案し,最適化問題を解いた。 数値実験により本手法の優位性が示された。

This paper endeavors to learn time-varying graphs by using structured temporal priors that assume underlying relations between arbitrary two graphs in the graph sequence. Different from many existing chain structure based methods in which the priors like temporal homogeneity can only describe the variations of two consecutive graphs, we propose a structure named \emph{temporal graph} to characterize the underlying real temporal relations. Under this framework, the chain structure is actually a special case of our temporal graph. We further proposed Alternating Direction Method of Multipliers (ADMM), a distributed algorithm, to solve the induced optimization problem. Numerical experiments demonstrate the superiorities of our method.
翻訳日:2021-10-12 21:03:24 公開日:2021-10-11
# 動的環境におけるオンライングラフ学習

Online Graph Learning in Dynamic Environments ( http://arxiv.org/abs/2110.05023v1 )

ライセンス: Link先を確認
Xiang Zhang(参考訳) 構造化データを特徴付ける基盤となるグラフトポロジーを推測することは、事前定義されたグラフが利用できない場合、多くのグラフベースモデルにとって重要である。 本稿では動的環境における逐次データの場合の学習グラフに着目した。 逐次データに対して,従来のバッチグラフ学習手法のオンライン版を開発する。 動的環境におけるグラフをよりよく追跡するために、オンライングラフ学習フレームワークに動的プリエントを埋め込むような特定のパターンでグラフが進化すると仮定する。 これらの隠れパターンに関する情報が得られない場合、歴史データを使ってグラフの進化を予測する。 さらに,提案手法の動的後悔解析を行い,オンライングラフ学習アルゴリズムが線形な動的後悔に到達できることを示す。 実験結果は,本手法が最先端手法よりも優れていることを裏付ける。

Inferring the underlying graph topology that characterizes structured data is pivotal to many graph-based models when pre-defined graphs are not available. This paper focuses on learning graphs in the case of sequential data in dynamic environments. For sequential data, we develop an online version of classic batch graph learning method. To better track graphs in dynamic environments, we assume graphs evolve in certain patterns such that dynamic priors might be embedded in the online graph learning framework. When the information of these hidden patterns is not available, we use history data to predict the evolution of graphs. Furthermore, dynamic regret analysis of the proposed method is performed and illustrates that our online graph learning algorithms can reach sublinear dynamic regret. Experimental results support the fact that our method is superior to the state-of-art methods.
翻訳日:2021-10-12 21:03:11 公開日:2021-10-11
# 確率勾配ランゲヴィンダイナミクスは深層学習に差分プライバシーをもたらすか?

Can Stochastic Gradient Langevin Dynamics Provide Differential Privacy for Deep\\ Learning? ( http://arxiv.org/abs/2110.05057v1 )

ライセンス: Link先を確認
Guy Heller, Ethan Fetaya(参考訳) Stochastic Gradient Langevin Dynamics (SGLD) によるベイズ学習は、異なる個人学習のために提案されている。 これまでの研究では、収束やアルゴリズムの初期段階に近づくと、sgldの差分プライバシ境界を提供するが、どの差分プライバシ保証が可能かという問題は未解決のままである。 この中間領域は特にベイズニューラルネットワークにとって不可欠であり、後部への収束を保証することは困難である。 本稿では,SGLDを使用すれば,後方からのサンプリングが所望の差分プライベートである場合でも,この中間領域のプライバシーを損なう可能性があることを示す。

Bayesian learning via Stochastic Gradient Langevin Dynamics (SGLD) has been suggested for differentially private learning. While previous research provides differential privacy bounds for SGLD when close to convergence or at the initial steps of the algorithm, the question of what differential privacy guarantees can be made in between remains unanswered. This interim region is essential, especially for Bayesian neural networks, as it is hard to guarantee convergence to the posterior. This paper will show that using SGLD might result in unbounded privacy loss for this interim region, even when sampling from the posterior is as differentially private as desired.
翻訳日:2021-10-12 21:02:57 公開日:2021-10-11
# ディファレンシャルプライバシを用いた連続学習

Continual Learning with Differential Privacy ( http://arxiv.org/abs/2110.05223v1 )

ライセンス: Link先を確認
Pradnya Desai, Phung Lai, NhatHai Phan, and My T. Thai(参考訳) 本稿では,連続学習(CL)における差分プライバシ(DP)の保存に着目し,従来のタスクを記憶しながら新しいタスクを学習するためにMLモデルを訓練する。 まず、CLのトレーニングプロセスに参加するデータレコードの感度を拘束するために、連続的な隣接データベースの概念を導入する。 そこで,本研究では,よく知られた平均勾配エピソードメモリ(a-gem)手法において,モーメント・アカウンタを適用することで,データのプライバシリスクを定量化するデータサンプリング戦略を備えた,clのための新しいdp保存アルゴリズムを開発した。 我々のアルゴリズムはCL内のタスク間でのデータレコードの正式なプライバシ保証を提供する。 予備的な理論的分析と評価により,我々のメカニズムは,有望なモデルユーティリティを維持しながら,プライバシ損失を緩和することを示す。

In this paper, we focus on preserving differential privacy (DP) in continual learning (CL), in which we train ML models to learn a sequence of new tasks while memorizing previous tasks. We first introduce a notion of continual adjacent databases to bound the sensitivity of any data record participating in the training process of CL. Based upon that, we develop a new DP-preserving algorithm for CL with a data sampling strategy to quantify the privacy risk of training data in the well-known Averaged Gradient Episodic Memory (A-GEM) approach by applying a moments accountant. Our algorithm provides formal guarantees of privacy for data records across tasks in CL. Preliminary theoretical analysis and evaluations show that our mechanism tightens the privacy loss while maintaining a promising model utility.
翻訳日:2021-10-12 21:02:46 公開日:2021-10-11
# 統計的スケッチによるPAC保証付き機械学習プログラムの合成

Synthesizing Machine Learning Programs with PAC Guarantees via Statistical Sketching ( http://arxiv.org/abs/2110.05390v1 )

ライセンス: Link先を確認
Osbert Bastani(参考訳) 本稿では,ディープニューラルネットワーク(DNN)などの機械学習コンポーネントを含む合成プログラムの問題について検討する。 例えば、画像分類モデルは、画像中の人物を高い確率で正しく識別する。 本稿では,統計学習理論のアイデアを活用し,プログラムのスケッチと合成を行う新しいアルゴリズムを提案する。 我々は,画像入力処理に用いられるdnnコンポーネントを含むリスト処理プログラムを合成する手法と,画像分類および精密医学に関するケーススタディを評価した。 その結果,本手法は確率的保証によりプログラムを合成できることがわかった。

We study the problem of synthesizing programs that include machine learning components such as deep neural networks (DNNs). We focus on statistical properties, which are properties expected to hold with high probability -- e.g., that an image classification model correctly identifies people in images with high probability. We propose novel algorithms for sketching and synthesizing such programs by leveraging ideas from statistical learning theory to provide statistical soundness guarantees. We evaluate our approach on synthesizing list processing programs that include DNN components used to process image inputs, as well as case studies on image classification and on precision medicine. Our results demonstrate that our approach can be used to synthesize programs with probabilistic guarantees.
翻訳日:2021-10-12 21:02:32 公開日:2021-10-11
# 異常ラベルの弱化による高分解能画像分割ネットワークの効率的な学習

Efficient Training of High-Resolution Representation Seismic Image Fault Segmentation Network by Weakening Anomaly Labels ( http://arxiv.org/abs/2110.05319v1 )

ライセンス: Link先を確認
Yimin Dou, Kewen Li, Jianbing Zhu, Shaoquan Tan, Zongchao Huang, Xiao Li(参考訳) 地震データ障害検出は,近年,3次元画像分割課題と見なされている。 地震画像における断層構造の性質は,手動による断層のラベル付けを困難にしている。 手動ラベリングは、しばしば多くの偽陰性ラベル(異常ラベル)を持ち、トレーニングプロセスに深刻なダメージを与える。 本研究では,偽陰性ラベルを扱う場合,領域ベース損失が分布ベース損失を著しく上回ることを見出し,スパース2次元スライスラベルを用いた3次元画像分割モデルのトレーニングにおいて,最初に報告された領域ベース損失関数であるマスクダイス損失(mdロス)を提案する。 さらに、障害はエッジの特徴であり、現在のネットワークは障害セグメンテーションに広く使われており、エッジ特性には影響しないため、特徴の保存には多くのパラメータと計算作業が必要である。 地震画像の高分解能な特徴を常に維持するフォールトネットを提案し,その推論プロセスは断層のエッジ情報を保存し,有効機能融合を行い,少数のパラメータと計算作業のみで高品質なフォールトセグメンテーションを実現する。 実験の結果,MD損失は異常ラベルの効果を著しく低下させることが示された。 フォールトネットパラメータは0.42MBで、16GBの動画ラム上で最大528^3(1.5x10^8, Float32)の大きさの立方体推論をサポートし、CPUやGPUでの推論速度は他のネットワークよりもかなり速いが、本手法の結果はForCEの故障識別競争における最先端技術である。

Seismic data fault detection has recently been regarded as a 3D image segmentation task. The nature of fault structures in seismic image makes it difficult to manually label faults. Manual labeling often has many false negative labels (abnormal labels), which will seriously harm the training process. In this work, we find that region-based loss significantly outperforms distribution-based loss when dealing with falsenegative labels, therefore we propose Mask Dice loss (MD loss), which is the first reported region-based loss function for training 3D image segmentation models using sparse 2D slice labels. In addition, fault is an edge feature, and the current network widely used for fault segmentation downsamples the features multiple times, which is not conducive to edge characterization and thus requires many parameters and computational effort to preserve the features. We propose Fault-Net, which always maintains the high-resolution features of seismic images, and the inference process preserves the edge information of faults and performs effective feature fusion to achieve high-quality fault segmentation with only a few parameters and computational effort. Experimental results show that MD loss can clearly weaken the effect of anomalous labels. The Fault-Net parameter is only 0.42MB, support up to 528^3(1.5x10^8, Float32) size cuboid inference on 16GB video ram, and its inference speed on CPU and GPU is significantly faster than other networks, but the result of our method is the state-of-the-art in the FORCE fault identification competition.
翻訳日:2021-10-12 21:00:41 公開日:2021-10-11
# 定数相関を持つランダムグラフの完全マッチング

Exact Matching of Random Graphs with Constant Correlation ( http://arxiv.org/abs/2110.05000v1 )

ライセンス: Link先を確認
Cheng Mao, Mark Rudelson, Konstantin Tikhomirov(参考訳) 本稿では、Erd\H{o}s--R\enyiグラフに対するグラフマッチングやネットワークアライメントの問題を扱う。 G$ と $G'$ を $G(n, p)$ Erd\H{o}s--R\enyi グラフとし、それらの隣接行列と同一視する。 G$ と $G'$ は $\mathbb{E}[G_{ij} G'_{ij}] = p(1-\alpha)$ と相関していると仮定する。 置換 $\pi$ は$G$ と $G'$ の頂点間の潜在マッチングを表すもので、$G^\pi$ は$G$ の頂点を$\pi$ で置換することによって得られるグラフである。 G^\pi$ と $G'$ を観測すると、一致する $\pi$ を回復する。 この研究では、すべての$\varepsilon \in (0,1]$ に対して、$\varepsilon$ と絶対定数 $\alpha_0, r > 0$ に依存する$n_0>0$ が存在することを示す。 n \ge n_0$, $(1+\varepsilon) \log n \le np \le n^{\frac{1}{r \log \log n}}$, and $0 < \alpha < \min(\alpha_0,\varep silon/4)$ とする。 多項式時間アルゴリズム $f$ が存在して、$\mathbb{p}\{f(g^\pi,g')=\pi\}=1-o(1)$ となる。 これは、相関した erd\h{o}s--r\'enyi グラフの頂点と高い確率との正確なマッチングを回復する最初の多項式時間アルゴリズムである。 このアルゴリズムは、グラフ頂点に関連する分割木の比較に基づいている。

This paper deals with the problem of graph matching or network alignment for Erd\H{o}s--R\'enyi graphs, which can be viewed as a noisy average-case version of the graph isomorphism problem. Let $G$ and $G'$ be $G(n, p)$ Erd\H{o}s--R\'enyi graphs marginally, identified with their adjacency matrices. Assume that $G$ and $G'$ are correlated such that $\mathbb{E}[G_{ij} G'_{ij}] = p(1-\alpha)$. For a permutation $\pi$ representing a latent matching between the vertices of $G$ and $G'$, denote by $G^\pi$ the graph obtained from permuting the vertices of $G$ by $\pi$. Observing $G^\pi$ and $G'$, we aim to recover the matching $\pi$. In this work, we show that for every $\varepsilon \in (0,1]$, there is $n_0>0$ depending on $\varepsilon$ and absolute constants $\alpha_0, R > 0$ with the following property. Let $n \ge n_0$, $(1+\varepsilon) \log n \le np \le n^{\frac{1}{R \log \log n}}$, and $0 < \alpha < \min(\alpha_0,\varep silon/4)$. There is a polynomial-time algorithm $F$ such that $\mathbb{P}\{F(G^\pi,G')=\pi\}=1-o(1)$. This is the first polynomial-time algorithm that recovers the exact matching between vertices of correlated Erd\H{o}s--R\'enyi graphs with constant correlation with high probability. The algorithm is based on comparison of partition trees associated with the graph vertices.
翻訳日:2021-10-12 21:00:12 公開日:2021-10-11
# laughnet: 波形シルエットと単一笑いの例による笑い発話の合成

LaughNet: synthesizing laughter utterances from waveform silhouettes and a single laughter example ( http://arxiv.org/abs/2110.04946v1 )

ライセンス: Link先を確認
Hieu-Thi Luong, Junichi Yamagishi(参考訳) 感情と制御可能な音声合成は、多くの注目を集めているトピックである。 しかし, 言語内容の文脈における表現性や制御性の向上に焦点を絞った研究は, 笑い, 泣く, 嘆くなどの自発的な非音声表現とは分離できない。 波形シルエットを入力として,笑いを合成するモデルとして laughnet を提案する。 その動機は、単に新しい笑い声を合成するだけでなく、波形の抽象表現を用いた新しい合成制御パラダイムをテストすることである。 基礎的な聴取実験を行い, 実験結果から, 笑い声を適度な品質で合成し, 訓練例の特徴を維持できることが判明した。 さらに重要なことに、生成された波形は入力シルエットに類似した形状を持つ。 今後の研究のために、他の種類の非言語表現に対して同じ方法をテストし、より精巧な合成システムに統合する。

Emotional and controllable speech synthesis is a topic that has received much attention. However, most studies focused on improving the expressiveness and controllability in the context of linguistic content, even though natural verbal human communication is inseparable from spontaneous non-speech expressions such as laughter, crying, or grunting. We propose a model called LaughNet for synthesizing laughter by using waveform silhouettes as inputs. The motivation is not simply synthesizing new laughter utterances but testing a novel synthesis-control paradigm that uses an abstract representation of the waveform. We conducted basic listening test experiments, and the results showed that LaughNet can synthesize laughter utterances with moderate quality and retain the characteristics of the training example. More importantly, the generated waveforms have shapes similar to the input silhouettes. For future work, we will test the same method on other types of human nonverbal expressions and integrate it into more elaborated synthesis systems.
翻訳日:2021-10-12 20:53:36 公開日:2021-10-11
# 行列再構成のための深部生成モデル

A Deep Generative Model for Matrix Reordering ( http://arxiv.org/abs/2110.04971v1 )

ライセンス: Link先を確認
Oh-Hyun Kwon, Chiun-How Kao, Chun-houh Chen, Kwan-Liu Ma(参考訳) ノードの順序に応じて、隣接行列はグラフの異なる特徴を強調することができる。 したがって、"プロパ"ノード順序を導出することは、グラフを隣接行列として視覚化する上で重要なステップである。 ユーザーは分析の目標に合致するものを見つけるまで、異なる方法を使って複数の行列の再順序付けを試す。 しかし、この試行錯誤アプローチは精力的で、初心者にとっては特に困難である。 本稿では,ユーザが望む行列の並べ替えを自由に見つけることができる手法を提案する。 具体的には、与えられたグラフの様々な行列並べ替えの潜在空間を学習する生成モデルを設計する。 また,学習した潜在空間から直感的なユーザインタフェースを構築し,行列の並べ替えのマップを作成する。 提案手法は,生成した再順序と学習潜在空間の定量的,定性的な評価を通じて実証する。 その結果,本モデルは多様な行列の再順序付けの潜在空間を学習できることがわかった。 この分野の既存の研究のほとんどは、特定の状況で"better"行列の再順序付けを計算できるアルゴリズムの開発に焦点を当てている。 本稿では,グラフの行列再順序生成を機械学習モデルで学習する,グラフの行列可視化に対する基本的新しいアプローチを提案する。

Depending on the node ordering, an adjacency matrix can highlight distinct characteristics of a graph. Deriving a "proper" node ordering is thus a critical step in visualizing a graph as an adjacency matrix. Users often try multiple matrix reorderings using different methods until they find one that meets the analysis goal. However, this trial-and-error approach is laborious and disorganized, which is especially challenging for novices. This paper presents a technique that enables users to effortlessly find a matrix reordering they want. Specifically, we design a generative model that learns a latent space of diverse matrix reorderings of the given graph. We also construct an intuitive user interface from the learned latent space by creating a map of various matrix reorderings. We demonstrate our approach through quantitative and qualitative evaluations of the generated reorderings and learned latent spaces. The results show that our model is capable of learning a latent space of diverse matrix reorderings. Most existing research in this area generally focused on developing algorithms that can compute "better" matrix reorderings for particular circumstances. This paper introduces a fundamentally new approach to matrix visualization of a graph, where a machine learning model learns to generate diverse matrix reorderings of a graph.
翻訳日:2021-10-12 20:53:19 公開日:2021-10-11
# 仮想フロー計測におけるグレーボックスモデリングはいつ有効か?

When is gray-box modeling advantageous for virtual flow metering? ( http://arxiv.org/abs/2110.05034v1 )

ライセンス: Link先を確認
M. Hotvedt, B. Grimstad, D. Ljungquist, L. Imsland(参考訳) 仮想フロー計測アプリケーションにおける物理と機械学習の統合はグレイボックスモデリングとして知られている。 この組み合わせは多相流量予測を強化すると考えられている。 しかし、グレイボックスモデルの優位性は文献にはまだ示されていない。 本稿では、グレーボックスモデルが物理モデルやデータ駆動モデルを上回ると期待されるシナリオについて検討する。 実験は、基礎となるデータ生成プロセスの特性が知られ制御される合成データを用いて行われる。 その結果, グレーボックスモデルでは, プロセスモデルミスマッチの存在下で, 物理モデルよりも予測精度が向上することがわかった。 また、利用可能なデータ量が小さい場合に、データ駆動モデルよりも改善される。 一方、グレーボックスとデータ駆動モデルも同様にノイズ測定の影響を受けている。 最後に,灰色ボックスアプローチが非定常プロセス条件において有利である可能性が示唆された。 残念ながら、トレーニングの前に最高のモデルを選択することは難しく、モデル開発のオーバーヘッドは避けられない。

Integration of physics and machine learning in virtual flow metering applications is known as gray-box modeling. The combination is believed to enhance multiphase flow rate predictions. However, the superiority of gray-box models is yet to be demonstrated in the literature. This article examines scenarios where a gray-box model is expected to outperform physics-based and data-driven models. The experiments are conducted with synthetic data where properties of the underlying data generating process are known and controlled. The results show that a gray-box model yields increased prediction accuracy over a physics-based model in the presence of process-model mismatch. They also show improvements over a data-driven model when the amount of available data is small. On the other hand, gray-box and data-driven models are similarly influenced by noisy measurements. Lastly, the results indicate that a gray-box approach may be advantageous in nonstationary process conditions. Unfortunately, choosing the best model prior to training is challenging, and overhead on model development is unavoidable.
翻訳日:2021-10-12 20:53:02 公開日:2021-10-11
# パッチアウトによるオーディオトランスフォーマの効率的な訓練

Efficient Training of Audio Transformers with Patchout ( http://arxiv.org/abs/2110.05069v1 )

ライセンス: Link先を確認
Khaled Koutini, Jan Schl\"uter, Hamid Eghbal-zadeh, Gerhard Widmer(参考訳) 自然言語処理(NLP)におけるトランスフォーマーモデルの大きな成功は、これらのアーキテクチャを視覚やオーディオなどの他の領域に適応させる様々な試みにつながっている。 最近の研究は、トランスフォーマーが視覚やオーディオタスクにおいて畳み込みニューラルネットワーク(CNN)より優れていることを示している。 しかし、トランスフォーマーモデルの主な欠点の1つは、確立されたcnnと比較して計算の複雑さである。 計算とメモリの複雑さは入力長と二乗的に増加する。 そのため、変圧器の最適化には幅広い研究がなされているが、しばしば予測性能の低下を犠牲にしている。 本研究では,オーディオスペクトログラム上でトランスフォーマを最適化し,正則化する新しい手法を提案する。 提案したモデルは、Audioset上で新しい最先端のパフォーマンスを実現し、単一のコンシューマグレードGPUでトレーニングすることができる。 さらに,性能とトレーニング速度の両面でCNNを上回ったトランスフォーマーモデルを提案する。

The great success of transformer-based models in natural language processing (NLP) has led to various attempts at adapting these architectures to other domains such as vision and audio. Recent work has shown that transformers can outperform Convolutional Neural Networks (CNNs) on vision and audio tasks. However, one of the main shortcomings of transformer models, compared to the well-established CNNs, is the computational complexity. Compute and memory complexity grow quadratically with the input length. Therefore, there has been extensive work on optimizing transformers, but often at the cost of lower predictive performance. In this work, we propose a novel method to optimize and regularize transformers on audio spectrograms. The proposed models achieve a new state-of-the-art performance on Audioset and can be trained on a single consumer-grade GPU. Furthermore, we propose a transformer model that outperforms CNNs in terms of both performance and training speed.
翻訳日:2021-10-12 20:52:50 公開日:2021-10-11
# 野生での高速飛行の学習

Learning High-Speed Flight in the Wild ( http://arxiv.org/abs/2110.05113v1 )

ライセンス: Link先を確認
Antonio Loquercio, Elia Kaufmann, Ren\'e Ranftl, Matthias M\"uller, Vladlen Koltun, Davide Scaramuzza(参考訳) クアドロレータはアジャイルです。 他のほとんどの機械とは異なり、非常に複雑な環境を高速で移動することができる。 これまで、熟練した人間パイロットだけがその能力を完全に活用できた。 オンボードセンシングと計算による自律運転は低速に制限されている。 最先端の手法は一般的にナビゲーション問題を、センシング、マッピング、計画というサブタスクに分離する。 このアプローチは低速で成功したが、それが構築する分離は、乱雑な環境での高速ナビゲーションに問題となる可能性がある。 実際、サブタスクは順次実行され、処理遅延が増大し、パイプラインを通じてエラーが複合化されます。 本稿では,複雑な自然環境と人為的環境を高速で自律的に飛行するエンド・ツー・エンドのアプローチを提案する。 鍵となる原理は、雑音の知覚観測を直接、後退水平方向に無衝突軌道にマッピングすることである。 この直接マッピングは処理遅延を大幅に減らし、ノイズや不完全な知覚に対する堅牢性を高める。 感覚モデレータマッピングは、特権学習を通じてシミュレーションでのみ訓練された畳み込みネットワークによって実行される。 現実的なセンサノイズをシミュレートすることで,本手法は,密林,積雪地,脱線列車,倒壊した建物など,訓練中に経験したことのない現実環境へのゼロショット移動を実現する。 我々の研究は、シミュレーションで訓練されたエンドツーエンドのポリシーが、挑戦的な環境を通じて高速自律飛行を可能にし、従来の障害物回避パイプラインを上回ることを実証している。

Quadrotors are agile. Unlike most other machines, they can traverse extremely complex environments at high speeds. To date, only expert human pilots have been able to fully exploit their capabilities. Autonomous operation with on-board sensing and computation has been limited to low speeds. State-of-the-art methods generally separate the navigation problem into subtasks: sensing, mapping, and planning. While this approach has proven successful at low speeds, the separation it builds upon can be problematic for high-speed navigation in cluttered environments. Indeed, the subtasks are executed sequentially, leading to increased processing latency and a compounding of errors through the pipeline. Here we propose an end-to-end approach that can autonomously fly quadrotors through complex natural and man-made environments at high speeds, with purely onboard sensing and computation. The key principle is to directly map noisy sensory observations to collision-free trajectories in a receding-horizon fashion. This direct mapping drastically reduces processing latency and increases robustness to noisy and incomplete perception. The sensorimotor mapping is performed by a convolutional network that is trained exclusively in simulation via privileged learning: imitating an expert with access to privileged information. By simulating realistic sensor noise, our approach achieves zero-shot transfer from simulation to challenging real-world environments that were never experienced during training: dense forests, snow-covered terrain, derailed trains, and collapsed buildings. Our work demonstrates that end-to-end policies trained in simulation enable high-speed autonomous flight through challenging environments, outperforming traditional obstacle avoidance pipelines.
翻訳日:2021-10-12 20:52:35 公開日:2021-10-11
# 分数学習アルゴリズムの性能解析

Performance Analysis of Fractional Learning Algorithms ( http://arxiv.org/abs/2110.05201v1 )

ライセンス: Link先を確認
Abdul Wahab, Shujaat Khan, Imran Naseem, Jong Chul Ye(参考訳) 分数学習アルゴリズムは最近、信号処理と適応フィルタリングのトレンドとなっている。 しかし、従来のアルゴリズムよりも優越性が高いか、その性能が広く分析されていない神話かは定かではない。 本稿では,最小平均二乗法と最急降下アルゴリズムの分数変分法の厳密な解析を行う。 分数学習アルゴリズムにおけるいくつかの重要なスキーマキネクが同定される。 その起源と学習アルゴリズムの性能への影響を考察し,swift ready-witted remediesを提案する。 確率環境における分数学習アルゴリズムの収束と効率を議論するために,アポサイト数値実験を行った。

Fractional learning algorithms are trending in signal processing and adaptive filtering recently. However, it is unclear whether the proclaimed superiority over conventional algorithms is well-grounded or is a myth as their performance has never been extensively analyzed. In this article, a rigorous analysis of fractional variants of the least mean squares and steepest descent algorithms is performed. Some critical schematic kinks in fractional learning algorithms are identified. Their origins and consequences on the performance of the learning algorithms are discussed and swift ready-witted remedies are proposed. Apposite numerical experiments are conducted to discuss the convergence and efficiency of the fractional learning algorithms in stochastic environments.
翻訳日:2021-10-12 20:52:12 公開日:2021-10-11
# 予測とデータ駆動モデリングのための解釈可能なベンチマークとしてのカオス

Chaos as an interpretable benchmark for forecasting and data-driven modelling ( http://arxiv.org/abs/2110.05266v1 )

ライセンス: Link先を確認
William Gilpin(参考訳) 奇妙な誘引子の衝撃的なフラクタル幾何学は、確率分布のように、カオス系は繰り返し測定され、基盤となる引引子の任意の詳細情報を生成する。 したがって、カオスシステムは現代の統計的学習技術に固有の挑戦をし、定量的な数学的性質を保ち、それらがベンチマークとして制御可能で解釈可能である。 本稿では, 天体物理学, 気候学, 生化学などの分野にまたがる, 既知のカオス力学系131について述べる。 各システムは、事前計算された多変量および単変量時系列とペアリングされる。 我々のデータセットは既存の静的時系列データベースに匹敵する規模を持っているが、我々のシステムは任意の長さと粒度のデータセットを生成するために再統合することができる。 我々のデータセットは各システムの既知の数学的特性に注釈付けされており、コレクションにまたがる多様なダイナミクスを広範囲に分類するために特徴解析を行う。 カオスシステムは本質的に予測モデルに挑戦し、広範なベンチマークを通じて予測性能とカオスの程度を相関付けます。 我々はまた、時系列分類を改善するための代理転送学習、モデルのトレーニングを加速するための重要サンプリング、記号回帰アルゴリズムのベンチマークなど、いくつかの概念実証実験でデータセットのユニークな生成特性を利用する。

The striking fractal geometry of strange attractors underscores the generative nature of chaos: like probability distributions, chaotic systems can be repeatedly measured to produce arbitrarily-detailed information about the underlying attractor. Chaotic systems thus pose a unique challenge to modern statistical learning techniques, while retaining quantifiable mathematical properties that make them controllable and interpretable as benchmarks. Here, we present a growing database currently comprising 131 known chaotic dynamical systems spanning fields such as astrophysics, climatology, and biochemistry. Each system is paired with precomputed multivariate and univariate time series. Our dataset has comparable scale to existing static time series databases; however, our systems can be re-integrated to produce additional datasets of arbitrary length and granularity. Our dataset is annotated with known mathematical properties of each system, and we perform feature analysis to broadly categorize the diverse dynamics present across the collection. Chaotic systems inherently challenge forecasting models, and across extensive benchmarks we correlate forecasting performance with the degree of chaos present. We also exploit the unique generative properties of our dataset in several proof-of-concept experiments: surrogate transfer learning to improve time series classification, importance sampling to accelerate model training, and benchmarking symbolic regression algorithms.
翻訳日:2021-10-12 20:50:42 公開日:2021-10-11
# 終端雑音-ロバスト音声認識のための対話型特徴融合

Interactive Feature Fusion for End-to-End Noise-Robust Speech Recognition ( http://arxiv.org/abs/2110.05267v1 )

ライセンス: Link先を確認
Yuchen Hu, Nana Hou, Chen Chen, Eng Siong Chng(参考訳) 音声強調(SE)は、雑音の多い音声信号から付加的な雑音を抑え、音声の知覚的品質と知性を改善することを目的としている。 しかし, 拡張音声における過剰抑圧現象は, 潜在情報の欠如により, 下流自動音声認識(asr)タスクの性能を低下させる可能性がある。 このような問題を緩和するために,ノイズロスト音声認識のための対話型特徴融合ネットワーク(IFF-Net)を提案し,拡張特徴と元の雑音特徴から補間情報を学習する。 実験の結果,本手法はラットチャネルaコーパスにおいて,最良ベースラインよりも4.1%の絶対単語誤り率 (wer) を低減できることがわかった。 さらに分析した結果,提案したIFF-Netは,過度に抑圧された拡張機能における不足情報を補うことができることがわかった。

Speech enhancement (SE) aims to suppress the additive noise from a noisy speech signal to improve the speech's perceptual quality and intelligibility. However, the over-suppression phenomenon in the enhanced speech might degrade the performance of downstream automatic speech recognition (ASR) task due to the missing latent information. To alleviate such problem, we propose an interactive feature fusion network (IFF-Net) for noise-robust speech recognition to learn complementary information from the enhanced feature and original noisy feature. Experimental results show that the proposed method achieves absolute word error rate (WER) reduction of 4.1% over the best baseline on RATS Channel-A corpus. Our further analysis indicates that the proposed IFF-Net can complement some missing information in the over-suppressed enhanced feature.
翻訳日:2021-10-12 20:50:23 公開日:2021-10-11
# 潜伏領域におけるベイズ推論による教師なし音源分離

Unsupervised Source Separation via Bayesian Inference in the Latent Domain ( http://arxiv.org/abs/2110.05313v1 )

ライセンス: Link先を確認
Michele Mancusi, Emilian Postolache, Marco Fumero, Andrea Santilli, Luca Cosmo, Emanuele Rodol\`a(参考訳) 最先端のオーディオソース分離モデルは教師付きデータ駆動アプローチに依存しており、ラベル付けリソースの面では高価である。 一方で、直接の監督なしにこれらのモデルをトレーニングするためのアプローチは、通常、メモリと時間要件の観点から要求が高く、推論時に使用するには実用的でない。 我々は、時間領域信号の潜在表現に基づいて直接動作する単純かつ効果的な教師なし分離アルゴリズムを提案することで、これらの制限に取り組むことを目指している。 本アルゴリズムは,事前学習された自己回帰ネットワークの形で,各音源の確率分布をモデル化する深いベイズ前駆関数に依存する。 離散潜在空間の低濃度性を利用して、その上に正確な算術構造を与える新しい損失項で訓練し、近似戦略に頼ることなく正確なベイズ推定を行う。 我々は、slakhデータセットarxiv:1909.08494に対する我々のアプローチを検証するとともに、他の教師なしメソッドに対するリソースを少なくしながら、最先端の教師付きアプローチと一致した結果を示す。

State of the art audio source separation models rely on supervised data-driven approaches, which can be expensive in terms of labeling resources. On the other hand, approaches for training these models without any direct supervision are typically high-demanding in terms of memory and time requirements, and remain impractical to be used at inference time. We aim to tackle these limitations by proposing a simple yet effective unsupervised separation algorithm, which operates directly on a latent representation of time-domain signals. Our algorithm relies on deep Bayesian priors in the form of pre-trained autoregressive networks to model the probability distributions of each source. We leverage the low cardinality of the discrete latent space, trained with a novel loss term imposing a precise arithmetic structure on it, to perform exact Bayesian inference without relying on an approximation strategy. We validate our approach on the Slakh dataset arXiv:1909.08494, demonstrating results in line with state of the art supervised approaches while requiring fewer resources with respect to other unsupervised methods.
翻訳日:2021-10-12 20:50:10 公開日:2021-10-11
# 微分プライベート近似量子

Differentially Private Approximate Quantiles ( http://arxiv.org/abs/2110.05429v1 )

ライセンス: Link先を確認
Haim Kaplan, Shachar Schnapp, Uri Stemmer(参考訳) 本研究では,x$ と quantiles $q_1, ..., q_m \in [0,1]$ が与えられた場合,真の量子タイルに可能な限り近い$m$ の量子タイルを出力し,dp を保存する,微分プライベート (dp) 量子タイルの問題を研究する。 本稿では,AQ(ApproximateQuant iles)と呼ばれる単純な再帰DPアルゴリズムについて述べる。 最悪の場合、そのエラーに上限を与え、そのエラーが、いくつかの異なるデータセットの以前の実装よりもはるかに低いことを示す。 さらに、以前の最良の実装よりも2桁早く実行しながら、この低いエラーを発生させる。

In this work we study the problem of differentially private (DP) quantiles, in which given dataset $X$ and quantiles $q_1, ..., q_m \in [0,1]$, we want to output $m$ quantile estimations which are as close as possible to the true quantiles and preserve DP. We describe a simple recursive DP algorithm, which we call ApproximateQuantiles (AQ), for this task. We give a worst case upper bound on its error, and show that its error is much lower than of previous implementations on several different datasets. Furthermore, it gets this low error while running time two orders of magnitude faster that the best previous implementation.
翻訳日:2021-10-12 20:49:52 公開日:2021-10-11
# プライバシー制約下における学習・推論のための分散化コストの情報理論解析

An Information-Theoreti c Analysis of The Cost of Decentralization for Learning and Inference Under Privacy Constraints ( http://arxiv.org/abs/2110.05014v1 )

ライセンス: Link先を確認
Sharu Theresa Jose, Osvaldo Simeone(参考訳) 垂直連合学習(FL)では、データサンプルの特徴は複数のエージェントに分散される。 したがって、標準的な水平flの場合と同様に、学習フェーズだけでなく、推論フェーズにおいても、エージェント間コラボレーションは有益である。 この設定における基本的な理論的問題は、学習や推論のための分散化のコストやパフォーマンス損失を定量化する方法である。 本稿では,任意のエージェントによる一般的な教師付き学習問題を考察し,ベイズフレームワーク内のエージェント間通信に対するプライバシー制約の存在下での分散化コストの新たな情報理論的定量化を提供する。 学習および/または推論のための分散化のコストは、特徴とラベル変数を含む条件付き相互情報項で定量化される。

In vertical federated learning (FL), the features of a data sample are distributed across multiple agents. As such, inter-agent collaboration can be beneficial not only during the learning phase, as is the case for standard horizontal FL, but also during the inference phase. A fundamental theoretical question in this setting is how to quantify the cost, or performance loss, of decentralization for learning and/or inference. In this paper, we consider general supervised learning problems with any number of agents, and provide a novel information-theoreti c quantification of the cost of decentralization in the presence of privacy constraints on inter-agent communication within a Bayesian framework. The cost of decentralization for learning and/or inference is shown to be quantified in terms of conditional mutual information terms involving features and label variables.
翻訳日:2021-10-12 20:48:48 公開日:2021-10-11
# (参考訳) 電気機械ドライブにおける人工知能の進歩と動向 [全文訳有]

Artificial Intelligence in Electric Machine Drives: Advances and Trends ( http://arxiv.org/abs/2110.05403v1 )

ライセンス: CC BY 4.0
Shen Zhang(参考訳) 本稿では、古典的ai技術と高度なディープラーニングアルゴリズムを電気機械駆動に適用する既存の文献を体系的に要約する。 ディープラーニングモデルと組み込みハードウェアプラットフォームの急速な進歩により、aiベースのデータ駆動アプローチが、電気機械の自動高性能制御でますます普及すると予想されている。 さらに、ドメイン適応と転送学習機能を備えた高度なRLアルゴリズムの実装や、低コストのSoC FPGAデバイスへの展開など、業界における広範な応用を促進するための展望も提供する。

This review paper systematically summarizes the existing literature on applying classical AI techniques and advanced deep learning algorithms to electric machine drives. It is anticipated that with the rapid progress in deep learning models and embedded hardware platforms, AI-based data-driven approaches will become increasingly popular for the automated high-performance control of electric machines. Additionally, this paper also provides some outlook towards promoting its widespread application in the industry, such as implementing advanced RL algorithms with good domain adaptation and transfer learning capabilities and deploying them onto low-cost SoC FPGA devices.
翻訳日:2021-10-12 20:48:07 公開日:2021-10-11
# CASPR:コモンセンス推論に基づく会話型ソーシャルボット

CASPR: A Commonsense Reasoning-based Conversational Socialbot ( http://arxiv.org/abs/2110.05387v1 )

ライセンス: Link先を確認
Kinjal Basu, Huaduo Wang, Nancy Dominguez, Xiangci Li, Fang Li, Sarat Chandra Varanasi, Gopal Gupta(参考訳) Amazon Alexa Socialbot Challenge 4に対抗すべく設計されたソーシャルボットであるCASPRシステムの設計と開発について報告する。 CASPRの特徴は、自動コモンセンス推論を使用して、本当に「理解」ダイアログを解釈し、人間のように会話できる点である。 socialbotの3つの主な要件は、ユーザの発話を“理解”し、会話の戦略を持ち、新しい知識を学べることである。 我々は,特定の話題について会話を行うために必要な常識推論を近似するために,会話知識テンプレート(ckt)のような手法を開発した。 我々はCASPRの設計の背景にある哲学と実装の詳細を述べる。 また、CASPRのパフォーマンスについて報告するとともに、学んだ教訓についても論じる。

We report on the design and development of the CASPR system, a socialbot designed to compete in the Amazon Alexa Socialbot Challenge 4. CASPR's distinguishing characteristic is that it will use automated commonsense reasoning to truly "understand" dialogs, allowing it to converse like a human. Three main requirements of a socialbot are that it should be able to "understand" users' utterances, possess a strategy for holding a conversation, and be able to learn new knowledge. We developed techniques such as conversational knowledge template (CKT) to approximate commonsense reasoning needed to hold a conversation on specific topics. We present the philosophy behind CASPR's design as well as details of its implementation. We also report on CASPR's performance as well as discuss lessons learned.
翻訳日:2021-10-12 19:43:00 公開日:2021-10-11
# 可逆的遺伝子改変モードジャンピングMCMC

Reversible Genetically Modified ModeJumping MCMC ( http://arxiv.org/abs/2110.05316v1 )

ライセンス: Link先を確認
Aliaksandr Hubin, Florian Frommlet, Geir Storvik(参考訳) 本稿では,マルコフ連鎖モンテカルロ法において,説明変数の数が限定的に大きい複素モデル空間における後モデル確率の推測のために,遺伝的に変形したモードジャンプマルコフ連鎖モンテカルロアルゴリズム(gmjmcmc)の可逆版を提案する。 提案したGMJMCMCアルゴリズムとは異なり、導入アルゴリズムは適切なMCMCであり、その制限分布は、合理的な正則性条件下で探索されたモデル空間における後縁モデル確率に対応する。

In this paper, we introduce a reversible version of a genetically modified mode jumping Markov chain Monte Carlo algorithm (GMJMCMC) for inference on posterior model probabilities in complex model spaces, where the number of explanatory variables is prohibitively large for classical Markov Chain Monte Carlo methods. Unlike the earlier proposed GMJMCMC algorithm, the introduced algorithm is a proper MCMC and its limiting distribution corresponds to the posterior marginal model probabilities in the explored model space under reasonable regularity conditions.
翻訳日:2021-10-12 19:42:33 公開日:2021-10-11
# (参考訳) 拡張型心筋灌流SPECT画像における右室の自動分画と定量化のための時空間V-Net [全文訳有]

Spatial-temporal V-Net for automatic segmentation and quantification of right ventricles in gated myocardial perfusion SPECT images ( http://arxiv.org/abs/2110.05443v1 )

ライセンス: CC BY 4.0
Chen Zhao, Shi Shi, Zhuo He, Cheng Wang, Zhongqiang Zhao, Xinli Li, Yanli Zhou, Weihua Zhou(参考訳) 背景。 拡張型心筋灌流単光子CT(MPS)を用いた右心室機能評価は右心室輪郭の精密抽出に大きく依存している。 本稿では,spect画像の空間的特徴と時間的特徴を統合し,rv心内膜と心内膜をセグメンテーションする新しいディープラーニングモデルを提案する。 メソッド。 ゲートMPSの各心フレームの空間的特徴とゲートMPSの逐次心フレームの時間的特徴を統合することにより,RV心内膜および心外膜輪郭の自動抽出のための空間時空間V-Net(S-T-V-Net)を開発した。 S-T-V-Netでは、空間的特徴を階層的に抽出するためにV-Netを使用し、このスキップ接続経路に畳み込み長期記憶(ConvLSTM)ユニットを追加して時間的特徴を抽出する。 S-T-V-Netの入力はSPECT画像のECGゲートシーケンスであり、出力は心内膜または心外膜マスクの確率マップである。 セグメンテーションモデルを最適化するために、モデル予測と基底真理とのずれをペナルティ化するdice類似度係数(dsc)損失を採用する。 結果だ セグメンテーションモデルは,34名の被験者によるふりかえりデータセット上で訓練し,検証し,各被験者の心周期を8つのゲートに分けた。 提案するst-v-netのdscはそれぞれ0.7924,0.8227であった。 平均絶対誤差、平均二乗誤差、および基底真理とモデル予測の間のRV放出率のピアソン相関係数は0.0907,0.0130,0.0841 1である。 結論だ その結果,提案するST-V-NetはRVセグメンテーションに有効なモデルであることが示唆された。 RV機能評価における臨床応用には非常に有望である。

Background. Functional assessment of right ventricles (RV) using gated myocardial perfusion single-photon emission computed tomography (MPS) heavily relies on the precise extraction of right ventricular contours. In this paper, we present a new deep learning model integrating both the spatial and temporal features in SPECT images to perform the segmentation of RV epicardium and endocardium. Methods. By integrating the spatial features from each cardiac frame of gated MPS and the temporal features from the sequential cardiac frames of the gated MPS, we develop a Spatial-Temporal V-Net (S-T-V-Net) for automatic extraction of RV endocardial and epicardial contours. In the S-T-V-Net, a V-Net is employed to hierarchically extract spatial features, and convolutional long-term short-term memory (ConvLSTM) units are added to the skip-connection pathway to extract the temporal features. The input of the S-T-V-Net is an ECG-gated sequence of the SPECT images and the output is the probability map of the endocardial or epicardial masks. A Dice similarity coefficient (DSC) loss which penalizes the discrepancy between the model prediction and the ground truth is adopted to optimize the segmentation model. Results. Our segmentation model was trained and validated on a retrospective dataset with 34 subjects, and the cardiac cycle of each subject was divided into 8 gates. The proposed ST-V-Net achieved a DSC of 0.7924 and 0.8227 for the RV endocardium and epicardium, respectively. The mean absolute error, the mean squared error, and the Pearson correlation coefficient of the RV ejection fraction between the ground truth and the model prediction are 0.0907, 0.0130 and 0.8411. Conclusion. The results demonstrate that the proposed ST-V-Net is an effective model for RV segmentation. It has great promise for clinical use in RV functional assessment.
翻訳日:2021-10-12 19:35:09 公開日:2021-10-11
# 音声テキスト生成のための非自己回帰モデルの比較検討

A Comparative Study on Non-Autoregressive Modelings for Speech-to-Text Generation ( http://arxiv.org/abs/2110.05249v1 )

ライセンス: Link先を確認
Yosuke Higuchi, Nanxin Chen, Yuya Fujita, Hirofumi Inaguma, Tatsuya Komatsu, Jaesong Lee, Jumon Nozaki, Tianzi Wang, Shinji Watanabe(参考訳) 非自己回帰モデル (NAR) はシーケンス内の複数の出力を同時に生成し、自動回帰ベースラインと比較して精度低下のコストで推論速度を著しく低減する。 リアルタイムアプリケーションに大きな可能性を示すため、さまざまな分野でARモデルに対するパフォーマンスギャップを軽減するために、NARモデルの増加が調査されている。 本研究では、エンドツーエンド自動音声認識(ASR)のための様々なNARモデリング手法の比較研究を行う。 ESPnetを用いた最先端設定で実験を行う。 各種課題の成果は, 精度・速度トレードオフや長文発話に対する頑健性など, NAR ASR の理解を深める上で興味深い結果をもたらす。 また,この手法を組み合わせることで,NARのエンドツーエンド音声翻訳にも適用できることが示唆された。 全ての実装は、NAR音声処理のさらなる研究を促進するために公開されている。

Non-autoregressive (NAR) models simultaneously generate multiple outputs in a sequence, which significantly reduces the inference speed at the cost of accuracy drop compared to autoregressive baselines. Showing great potential for real-time applications, an increasing number of NAR models have been explored in different fields to mitigate the performance gap against AR models. In this work, we conduct a comparative study of various NAR modeling methods for end-to-end automatic speech recognition (ASR). Experiments are performed in the state-of-the-art setting using ESPnet. The results on various tasks provide interesting findings for developing an understanding of NAR ASR, such as the accuracy-speed trade-off and robustness against long-form utterances. We also show that the techniques can be combined for further improvement and applied to NAR end-to-end speech translation. All the implementations are publicly available to encourage further research in NAR speech processing.
翻訳日:2021-10-12 19:20:26 公開日:2021-10-11
# BuildingNet: 3Dビルディングのラベル付けを学ぶ

BuildingNet: Learning to Label 3D Buildings ( http://arxiv.org/abs/2110.04955v1 )

ライセンス: Link先を確認
Pratheba Selvaraju, Mohamed Nabail, Marios Loizou, Maria Maslioukova, Melinos Averkiou, Andreas Andreou, Siddhartha Chaudhuri, Evangelos Kalogerakis(参考訳) BuildingNetを紹介します。 (a)外部が一貫してラベル付けされた3次元建築模型の大規模データセット b) 幾何学的プリミティブの空間的および構造的関係を分析してメッシュを構築するグラフニューラルネットワーク。 データセットの作成には、クラウドソーシングとエキスパートガイダンスを組み合わせることで、513kのアノテーション付きメッシュプリミティブを2kビルディングモデルで292kセマンティクスパートにグループ化しました。 データセットは、家、教会、高層ビル、町役場、図書館、城など、いくつかの建築カテゴリをカバーしている。 メッシュとポイントクラウドラベリングを評価するベンチマークも含んでいます。 ビルディングは、既存のベンチマーク(shapenet、partnetなど)のオブジェクトに比べて、より難しい構造的複雑性を持つため、私たちのデータセットは、ビジョンとグラフィックのタスク(例えば、3dセマンティクスセグメンテーション、パートベース生成モデル、対応、テキスト作成、実世界のビルディングから取得したポイントクラウドデータの解析など)の両方に対して、このような大規模な幾何学データに対応可能なアルゴリズムの開発を育成できることを願っています。 最後に,メッシュベースのグラフニューラルネットワークが3dメッシュのラベル付けにおいて,複数のベースラインのパフォーマンスを大幅に向上させることを示した。

We introduce BuildingNet: (a) a large-scale dataset of 3D building models whose exteriors are consistently labeled, (b) a graph neural network that labels building meshes by analyzing spatial and structural relations of their geometric primitives. To create our dataset, we used crowdsourcing combined with expert guidance, resulting in 513K annotated mesh primitives, grouped into 292K semantic part components across 2K building models. The dataset covers several building categories, such as houses, churches, skyscrapers, town halls, libraries, and castles. We include a benchmark for evaluating mesh and point cloud labeling. Buildings have more challenging structural complexity compared to objects in existing benchmarks (e.g., ShapeNet, PartNet), thus, we hope that our dataset can nurture the development of algorithms that are able to cope with such large-scale geometric data for both vision and graphics tasks e.g., 3D semantic segmentation, part-based generative models, correspondences, texturing, and analysis of point cloud data acquired from real-world buildings. Finally, we show that our mesh-based graph neural network significantly improves performance over several baselines for labeling 3D meshes.
翻訳日:2021-10-12 19:16:59 公開日:2021-10-11
# 非コントラストct画像を用いた急性虚血性梗塞分画に対するシンメトリエンハンスメントネットワーク

Symmetry-Enhanced Attention Network for Acute Ischemic Infarct Segmentation with Non-Contrast CT Images ( http://arxiv.org/abs/2110.05039v1 )

ライセンス: Link先を確認
Kongming Liang, Kai Han, Xiuli Li, Xiaoqing Cheng, Yiming Li, Yizhou Wang, Yizhou Yu(参考訳) 急性虚血性梗塞の定量的評価は脳卒中症状患者の神経学的予後を改善するために重要である。 病変の密度は微妙であり、正常な生理的変化によって構築できるため、解剖学的非対称性は虚血と健康な脳組織を区別するのに有用な情報を提供する。 本稿では,急性虚血性梗塞分節に対する対称性増強型注意ネットワーク(SEAN)を提案する。 提案するネットワークは入力されたct画像を脳組織が左右対称な標準空間に自動的に変換する。 変換された画像は、提案した対称性強化された画素ワイドラベリングの注意と統合されたUshapeネットワークによりさらに処理される。 対称性強化された注目は、長距離依存性を推定することにより、画像の反対側からコンテキスト情報を効率的にキャプチャすることができる。 実験の結果,sean は dice 係数と梗塞局所化の両面で symmetry-based state-of-the-art 法よりも優れていた。

Quantitative estimation of the acute ischemic infarct is crucial to improve neurological outcomes of the patients with stroke symptoms. Since the density of lesions is subtle and can be confounded by normal physiologic changes, anatomical asymmetry provides useful information to differentiate the ischemic and healthy brain tissue. In this paper, we propose a symmetry enhanced attention network (SEAN) for acute ischemic infarct segmentation. Our proposed network automatically transforms an input CT image into the standard space where the brain tissue is bilaterally symmetric. The transformed image is further processed by a Ushape network integrated with the proposed symmetry enhanced attention for pixel-wise labelling. The symmetry enhanced attention can efficiently capture context information from the opposite side of the image by estimating long-range dependencies. Experimental results show that the proposed SEAN outperforms some symmetry-based state-of-the-art methods in terms of both dice coefficient and infarct localization.
翻訳日:2021-10-12 19:16:34 公開日:2021-10-11
# ディープビデオ異常検出:可能性と課題

Deep Video Anomaly Detection: Opportunities and Challenges ( http://arxiv.org/abs/2110.05086v1 )

ライセンス: Link先を確認
Jing Ren, Feng Xia, Yemeng Liu, and Ivan Lee(参考訳) 異常検出は、何十年にもわたって研究されてきた様々な研究状況において、人気があり重要な課題である。 人々の生活や資産の安全を確保するため、ビデオ監視は、横断歩道、エレベーター、病院、銀行、さらには私家など、様々な公共空間に広く展開されてきた。 ディープラーニングは、音響学、画像、自然言語処理など、さまざまな領域でその能力を示しています。 しかし、インテリジェントなビデオ異常検出システムを考案するのは、異なるアプリケーションシナリオにおいて、異常が著しく異なるためである。 このようなインテリジェントなシステムが、人的資源を大量に節約したり、政府への財政負担を減らしたり、異常な振る舞いをタイムリーに正確に特定したりといった、私たちの日常生活で実現できれば、多くの利点があります。 近年,異常検出問題を解決するための深層学習モデルの拡張に関する研究が数多く登場し,深部映像異常検出技術の有益化が図られている。 本稿では,新しい視点から映像異常を検出するための深層学習に基づく手法の包括的レビューを行う。 具体的には,ビデオ異常検出タスクにおける深層学習モデルの機会と課題を要約する。 我々は,各種アプリケーション領域におけるインテリジェントビデオ異常検出システムの今後の展望について述べる。 さらに,ビデオ異常検出における現在のディープラーニング手法の特徴と技術的問題点を要約する。

Anomaly detection is a popular and vital task in various research contexts, which has been studied for several decades. To ensure the safety of people's lives and assets, video surveillance has been widely deployed in various public spaces, such as crossroads, elevators, hospitals, banks, and even in private homes. Deep learning has shown its capacity in a number of domains, ranging from acoustics, images, to natural language processing. However, it is non-trivial to devise intelligent video anomaly detection systems cause anomalies significantly differ from each other in different application scenarios. There are numerous advantages if such intelligent systems could be realised in our daily lives, such as saving human resources in a large degree, reducing financial burden on the government, and identifying the anomalous behaviours timely and accurately. Recently, many studies on extending deep learning models for solving anomaly detection problems have emerged, resulting in beneficial advances in deep video anomaly detection techniques. In this paper, we present a comprehensive review of deep learning-based methods to detect the video anomalies from a new perspective. Specifically, we summarise the opportunities and challenges of deep learning models on video anomaly detection tasks, respectively. We put forth several potential future research directions of intelligent video anomaly detection system in various application domains. Moreover, we summarise the characteristics and technical problems in current deep learning methods for video anomaly detection.
翻訳日:2021-10-12 19:14:46 公開日:2021-10-11
# Sim2Air - UAV監視のための合成空中データセット

Sim2Air - Synthetic aerial dataset for UAV monitoring ( http://arxiv.org/abs/2110.05145v1 )

ライセンス: Link先を確認
Antonella Barisic and Frano Petric and Stjepan Bogdan(参考訳) 本稿では,UAV監視のための合成航空データセットを作成するための新しい手法を提案する。 テクスチャのランダム化を応用し,形状に基づく物体表現を強調する。 非定型テクスチャを除いて、形状、ポーズ、照明、スケール、視点など、あらゆるパラメータでフォトリアリズムを持つ多様なデータセットが、3DモデリングソフトウェアBlenderで作成される。 本手法は,物体のテクスチャの検出が困難である空中画像における2つの条件,すなわち照明変化と画像のごく一部を占める物体を対象とする。 実画像の2つのテストデータセットにおいて,マップ値を17点,3.7点増加させることで,実験的検討を行った。 ドメインの類似性を分析する上で、テストに一般化能力を加えるほど、より明らかになるのは形状に基づく表現の利点である。

In this paper we propose a novel approach to generate a synthetic aerial dataset for application in UAV monitoring. We propose to accentuate shape-based object representation by applying texture randomization. A diverse dataset with photorealism in all parameters such as shape, pose, lighting, scale, viewpoint, etc. except for atypical textures is created in a 3D modelling software Blender. Our approach specifically targets two conditions in aerial images where texture of objects is difficult to detect, namely illumination changes and objects occupying only a small portion of the image. Experimental evaluation confirmed our approach by increasing the mAP value by 17 and 3.7 points on two test datasets of real images. In analysing domain similarity, we conclude that the more the generalisation capability is put to the test, the more obvious are the advantages of the shape-based representation.
翻訳日:2021-10-12 19:14:27 公開日:2021-10-11
# 歌声合成におけるピッチ保存

Pitch Preservation In Singing Voice Synthesis ( http://arxiv.org/abs/2110.05033v1 )

ライセンス: Link先を確認
Shujun Liu, Hai Zhu, Kun Wang, Huajun Wang(参考訳) 歌唱音声コーパスの制限を受け、エンコーダ・デコーダ・ニューラルネットを構築して分光図を直接生成する既存の歌唱音声合成(SVS)手法は、推論フェーズ中に不規則な問題を引き起こす可能性がある。 そこで本研究では,音素と音素情報を楽譜から切り離してコーパスを完全に活用する,独立したピッチエンコーダと音素エンコーダを用いた新しい音響モデルを提案する。 具体的には、等速理論により、ピッチエンコーダは、隣接する入力ピッチ間の距離をエンコーダ出力間の対応する周波数倍にマッピングするピッチメトリック損失によって制約される。 音素エンコーダは、異なるピッチに対応する同じ音素が類似の発音を生成することができるという分析に基づいて、異なるピッチを持つ同一音素を同じ音素特徴空間にマッピングする逆訓練されたピッチ分類器が続く。 これらの手段により、元の入力空間におけるスパース音素とピッチをそれぞれよりコンパクトな特徴空間に変換することができ、同じ要素が密集して相互に協調して合成品質を向上させることができる。 次に、2つのエンコーダの出力を合計して次のデコーダを音響モデルで通過させる。 実験の結果,提案手法はピッチ入力間の固有構造を特徴付け,ピッチ合成精度を向上し,ベースラインシステムに対する歌唱合成性能を向上できることがわかった。

Suffering from limited singing voice corpus, existing singing voice synthesis (SVS) methods that build encoder-decoder neural networks to directly generate spectrogram could lead to out-of-tune issues during the inference phase. To attenuate these issues, this paper presents a novel acoustic model with independent pitch encoder and phoneme encoder, which disentangles the phoneme and pitch information from music score to fully utilize the corpus. Specifically, according to equal temperament theory, the pitch encoder is constrained by a pitch metric loss that maps distances between adjacent input pitches into corresponding frequency multiples between the encoder outputs. For the phoneme encoder, based on the analysis that same phonemes corresponding to varying pitches can produce similar pronunciations, this encoder is followed by an adversarially trained pitch classifier to enforce the identical phonemes with different pitches mapping into the same phoneme feature space. By these means, the sparse phonemes and pitches in original input spaces can be transformed into more compact feature spaces respectively, where the same elements cluster closely and cooperate mutually to enhance synthesis quality. Then, the outputs of the two encoders are summed together to pass through the following decoder in the acoustic model. Experimental results indicate that the proposed approaches can characterize intrinsic structure between pitch inputs to obtain better pitch synthesis accuracy and achieve superior singing synthesis performance against the advanced baseline system.
翻訳日:2021-10-12 19:13:43 公開日:2021-10-11
# 構成性は私たちの周りの至る所で見られます

Compositionality as we see it, everywhere around us ( http://arxiv.org/abs/2110.05327v1 )

ライセンス: Link先を確認
Bob Coecke(参考訳) ある研究者が構成的と呼ぶものは、他の研究者にとってまったく構成的ではない。 最も確立された概念は通常フレーゲによるもので、意味のボトムアップフローによって特徴づけられる:全体の意味は部分の意味から導き出され、これらの部分がどのように構成されるかである。 量子論における構成性の研究、特にカテゴリー的量子力学から着想を得て、シュロディンガー、ホワイトヘッド、完全構成性の概念を提案する。 量子技術と人工知能における最近の重要な発展を考慮すると、これらの定義はボトムアップな意味の流れを持っていない。 シュロディンガーの構成性は、量子論や意味・文脈も含む。 完全な構成性は、意図されたモデルに関して完備であるZX-計算のような理論を解くためにシュロディンガー構成性をさらに強化する。 全体として、我々の新しい概念は、構成性が「現実」、「非自明」、さらに「完全」であるときに最善であるという事実を捉えることを目的としています。 この時点では、直感的で制限された形式定義のみを推進し、完全に包括的な定義を将来の共同作業に残します。

There are different meanings of the term "compositionality&quo t; within science: what one researcher would call compositional, is not at all compositional for another researcher. The most established conception is usually attributed to Frege, and is characterised by a bottom-up flow of meanings: the meaning of the whole can be derived from the meanings of the parts, and how these parts are structured together. Inspired by work on compositionality in quantum theory, and categorical quantum mechanics in particular, we propose the notions of Schrodinger, Whitehead, and complete compositionality. Accounting for recent important developments in quantum technology and artificial intelligence, these do not have the bottom-up meaning flow as part of their definitions. Schrodinger compositionality accommodates quantum theory, and also meaning-as-context. Complete compositionality further strengthens Schrodinger compositionality in order to single out theories like ZX-calculus, that are complete with regard to the intended model. All together, our new notions aim to capture the fact that compositionality is at its best when it is `real', `non-trivial', and even more when it also is `complete'. At this point we only put forward the intuitive and/or restricted formal definitions, and leave a fully comprehensive definition to future collaborative work.
翻訳日:2021-10-12 19:13:17 公開日:2021-10-11
# (参考訳) StarCraftマクロ管理予測のためのレバレッジトランス [全文訳有]

Leveraging Transformers for StarCraft Macromanagement Prediction ( http://arxiv.org/abs/2110.05343v1 )

ライセンス: CC BY 4.0
Muhammad Junaid Khan, Shah Hassan and Gita Sukthankar(参考訳) 近年の自然言語処理およびコンピュータビジョンアプリケーションにおけるトランスフォーマーの成功に触発されて,starcraft ii (sc2) の主要マクロ管理タスクである global state と build order prediction のためのトランスフォーマーベースのニューラルアーキテクチャを紹介する。 カレントバイアスに苦しむリカレントニューラルネットワークとは異なり、トランスフォーマーは非常に長い時間軸にわたってパターンをキャプチャできるため、完全なゲーム解析に適しています。 本モデルでは,msc(macro management in starcraft ii)データセットを利用し,gru(gated recurrent unit)アーキテクチャ上で,複数の時間軸の平均精度で測定したグローバル状態とビルド順序の予測を行う。 提案する設計決定を支援するアーキテクチャに関するアブレーション研究について述べる。 トランスフォーマーの1つの重要な利点は、うまく一般化する能力であり、我々のモデルは、1つの人種的マッチング(例えば、terran対protos)を持つゲームでトレーニングされたモデルが別のモデルに転送される転送学習環境において、さらに優れた精度を達成できることを示しています。 トランスフォーマーが長いゲームをモデル化する能力、並列化の可能性、一般化性能は、starcraftエージェントにとって優れた選択であると信じています。

Inspired by the recent success of transformers in natural language processing and computer vision applications, we introduce a transformer-based neural architecture for two key StarCraft II (SC2) macromanagement tasks: global state and build order prediction. Unlike recurrent neural networks which suffer from a recency bias, transformers are able to capture patterns across very long time horizons, making them well suited for full game analysis. Our model utilizes the MSC (Macromanagement in StarCraft II) dataset and improves on the top performing gated recurrent unit (GRU) architecture in predicting global state and build order as measured by mean accuracy over multiple time horizons. We present ablation studies on our proposed architecture that support our design decisions. One key advantage of transformers is their ability to generalize well, and we demonstrate that our model achieves an even better accuracy when used in a transfer learning setting in which models trained on games with one racial matchup (e.g., Terran vs. Protoss) are transferred to a different one. We believe that transformers' ability to model long games, potential for parallelization, and generalization performance make them an excellent choice for StarCraft agents.
翻訳日:2021-10-12 19:10:48 公開日:2021-10-11
# データ同化を用いた不均質なストリーム保存グラフネットワーク

Heterogeneous Stream-reservoir Graph Networks with Data Assimilation ( http://arxiv.org/abs/2110.04959v1 )

ライセンス: Link先を確認
Shengyu Chen, Alison Appling, Samantha Oliver, Hayley Corson-Dosch, Jordan Read, Jeffrey Sadler, Jacob Zwart, Xiaowei Jia(参考訳) 河川における水温の正確な予測は、河川の生物地球化学的・生態学的過程のモニタリングと理解に重要である。 流れの温度は、気象パターン(太陽放射など)や流路ネットワークを流れる水の影響を受けている。 さらに、水温は人工貯水池から下流のセグメントへの水の放出によって大きく影響を受ける。 本稿では,河川・貯水池ネットワークを基盤とするこれらの相互作用過程を表現し,ネットワーク内の河川セグメントにおける水温予測を改善するための不均一再帰グラフモデルを提案する。 貯水池の放水量は一定の貯水池では利用できないため,貯水池の放水による予測バイアスを補正するために,深層学習モデル状態を調整するためのデータ同化機構をさらに開発する。 将来の予測を改善するために調整状態を使用するためには、よく訓練された時間モデリングコンポーネントが必要である。 そこで本研究では,モデルトレーニングを強化するためのシミュレーションベースの事前学習戦略も導入する。 デラウェア川流域の評価は, 提案手法が既存手法よりも優れていることを示すものである。 我々は,様々なシナリオにおけるデータ同化機構の効果を広く研究してきた。 さらに, 事前学習戦略を用いた提案手法は, 限られたトレーニングデータでも良好な予測を得られることを示す。

Accurate prediction of water temperature in streams is critical for monitoring and understanding biogeochemical and ecological processes in streams. Stream temperature is affected by weather patterns (such as solar radiation) and water flowing through the stream network. Additionally, stream temperature can be substantially affected by water releases from man-made reservoirs to downstream segments. In this paper, we propose a heterogeneous recurrent graph model to represent these interacting processes that underlie stream-reservoir networks and improve the prediction of water temperature in all river segments within a network. Because reservoir release data may be unavailable for certain reservoirs, we further develop a data assimilation mechanism to adjust the deep learning model states to correct for the prediction bias caused by reservoir releases. A well-trained temporal modeling component is needed in order to use adjusted states to improve future predictions. Hence, we also introduce a simulation-based pre-training strategy to enhance the model training. Our evaluation for the Delaware River Basin has demonstrated the superiority of our proposed method over multiple existing methods. We have extensively studied the effect of the data assimilation mechanism under different scenarios. Moreover, we show that the proposed method using the pre-training strategy can still produce good predictions even with limited training data.
翻訳日:2021-10-12 18:58:35 公開日:2021-10-11
# 対実的レグレスト最小化とオンラインミラーディフレッシュの等価性解析

Equivalence Analysis between Counterfactual Regret Minimization and Online Mirror Descent ( http://arxiv.org/abs/2110.04961v1 )

ライセンス: Link先を確認
Weiming Liu, Huacong Jiang, Bin Li, Houqiang Li(参考訳) 反実的回帰最小化(英: Counterfactual Regret Minimization, CFR)は、局所的反実的後悔を最小化することにより、全遺を最小化する後悔最小化アルゴリズムの一種である。 CFRは実際に高速収束速度を持ち、大規模な不完全情報集約型ゲーム(EFG)の解決に広く利用されている。 しかし、その局所性のため、CFRの分析と拡張は困難である。 FTRL(Follow-the-Regu larized-Lead)アルゴリズムとOMD(Online Mirror Descent)アルゴリズムは,オンライン凸最適化における最小化アルゴリズムである。 数学的にはエレガントだが、EFGを解くには実用的ではない。 本稿では,CFR と Regret Matching+ の CFR が FTRL と OMD の特殊形式であることを証明し,CFR を解析・拡張する新しい方法を提案する。 これらの等価性により、FTRLとOMDの観点から、バニラCFRとCFR+の拡張と見なせる2つの新しいアルゴリズムが導出される。 この2つの変種では、地元の反事実的後悔の維持はもはや不要である。 実験により、2つの変種はいくつかのEFGにおいてバニラCFRとCFR+よりも早く収束することが示された。

Counterfactual Regret Minimization (CFR) is a kind of regret minimization algorithm that minimizes the total regret by minimizing the local counterfactual regrets. CFRs have a fast convergence rate in practice and they have been widely used for solving large-scale imperfect-informatio n Extensive-form games (EFGs). However, due to their locality, CFRs are difficult to analyze and extend. Follow-the-Regulariz ed-Lead (FTRL) and Online Mirror Descent (OMD) algorithms are regret minimization algorithms in Online Convex Optimization. They are mathematically elegant but less practical in solving EFGs. In this paper, we provide a new way to analyze and extend CFRs, by proving that CFR with Regret Matching and CFR with Regret Matching+ are special forms of FTRL and OMD, respectively. With these equivalences, two new algorithms, which can be considered as the extensions of vanilla CFR and CFR+, are deduced from the perspective of FTRL and OMD. In these two variants, maintaining the local counterfactual regrets is not necessary anymore. The experiments show that the two variants converge faster than vanilla CFR and CFR+ in some EFGs.
翻訳日:2021-10-12 18:58:16 公開日:2021-10-11
# ニューラルネットワーク規則化のための乱れ目標値

Disturbing Target Values for Neural Network Regularization ( http://arxiv.org/abs/2110.05003v1 )

ライセンス: Link先を確認
Yongho Kim, Hanna Lukashonak, Paweena Tarepakdee, Klavdia Zavalich, Mofassir ul Islam Arif(参考訳) L2正則化やDropout, DisturbLabel (DL) などの多種多様な正則化技術が開発されている。 シーンの新参者であるdlは、ランダムにターゲットラベルのごく一部を反転させ、この歪んだデータでニューラルネットワークを訓練することで、トレーニングデータを学習しないようにロス層を定式化する。 トレーニング中の高信頼ラベルは過適合問題を引き起こし,DLはラベルの信頼性に関わらず乱れラベルをランダムに選択する。 このようなDLの欠点を解決するために,信頼性ラベルを推論し,それらのラベルを用いてモデルを正規化するための新しい正規化手法である Directional DisturbLabel (DDL) を提案する。 このアクティブな正則化は、トレーニング中のモデルの振る舞いを利用して、より指示的な方法で正則化する。 回帰問題に対処するために、DisturbValue (DV) と DisturbError (DE) も提案する。 DEは、目標値を乱すために、事前定義された確実性ラベルのみを使用する。 DVはDLに似たランダムなターゲット値の一部にノイズを注入する。 本稿では, 分類タスクと回帰タスクにおける手法の頑健性を評価するために, 6 と 8 のデータセットを用いた。 最後に,本手法がtourlabel,l2正規化,dropoutに匹敵する,あるいは比較可能であることを示す。 また,本手法とl2正規化とドロップアウトを組み合わせることで,データセットの半分以上で最高の性能を実現する。

Diverse regularization techniques have been developed such as L2 regularization, Dropout, DisturbLabel (DL) to prevent overfitting. DL, a newcomer on the scene, regularizes the loss layer by flipping a small share of the target labels at random and training the neural network on this distorted data so as to not learn the training data. It is observed that high confidence labels during training cause the overfitting problem and DL selects disturb labels at random regardless of the confidence of labels. To solve this shortcoming of DL, we propose Directional DisturbLabel (DDL) a novel regularization technique that makes use of the class probabilities to infer the confident labels and using these labels to regularize the model. This active regularization makes use of the model behavior during training to regularize it in a more directed manner. To address regression problems, we also propose DisturbValue (DV), and DisturbError (DE). DE uses only predefined confident labels to disturb target values. DV injects noise into a portion of target values at random similar to DL. In this paper, 6 and 8 datasets are used to validate the robustness of our methods in classification and regression tasks respectively. Finally, we demonstrate that our methods are either comparable to or outperform DisturbLabel, L2 regularization, and Dropout. Also, we achieve the best performance in more than half the datasets by combining our methods with either L2 regularization or Dropout.
翻訳日:2021-10-12 18:57:52 公開日:2021-10-11
# 積極的顧客ケアに関する調査:科学と実現に向けての歩み

A Survey on Proactive Customer Care: Enabling Science and Steps to Realize it ( http://arxiv.org/abs/2110.05015v1 )

ライセンス: Link先を確認
Viswanath Ganapathy, Sauptik Dhar, Olimpiya Saha, Pelin Kurt Garberson, Javad Heydari and Mohak Shah(参考訳) 近年、人工知能(AI)とIoTの進歩は、家庭や建築環境における家電のシームレスで実行可能なメンテナンスを可能にしている。 いくつかの研究によれば、aiはパーソナライズされたカスタマーサポートを提供する可能性があり、これまで以上にエラーを予測し、避けることができる。 本稿では,AIによる予測保守を成功させるために必要なビルディングブロックについて分析した。 私たちの調査は、ビジネスへの影響からアルゴリズムの最近の技術進歩、システム研究やモデル展開に至るまで、最新のAIアルゴリズムの予測保守(PdM)に関する詳細な調査を主に提供する既存の調査とは違って、完全なビューを提供します。 さらに,一般のデータセットを用いた家電製品の予測保守に関する例示的ユースケースを提供する。 私たちの調査は、予測メンテナンスのユースケースをうまく設計するために必要なテンプレートとして機能します。 最後に、既存の公開データソースに触れ、汎用的な異常検出から障害予測、最終的に根本原因分析に至るまで、AI駆動の積極的顧客ケア(PCC)のユースケースを段階的に分析する。 このようなステップワイズアプローチが正確なモデル構築にどう役立つかを強調し、電気機械機器の予測保守に関する洞察を得るのに役立ちます。

In recent times, advances in artificial intelligence (AI) and IoT have enabled seamless and viable maintenance of appliances in home and building environments. Several studies have shown that AI has the potential to provide personalized customer support which could predict and avoid errors more reliably than ever before. In this paper, we have analyzed the various building blocks needed to enable a successful AI-driven predictive maintenance use-case. Unlike, existing surveys which mostly provide a deep dive into the recent AI algorithms for Predictive Maintenance (PdM), our survey provides the complete view; starting from business impact to recent technology advancements in algorithms as well as systems research and model deployment. Furthermore, we provide exemplar use-cases on predictive maintenance of appliances using publicly available data sets. Our survey can serve as a template needed to design a successful predictive maintenance use-case. Finally, we touch upon existing public data sources and provide a step-wise breakdown of an AI-driven proactive customer care (PCC) use-case, starting from generic anomaly detection to fault prediction and finally root-cause analysis. We highlight how such a step-wise approach can be advantageous for accurate model building and helpful for gaining insights into predictive maintenance of electromechanical appliances.
翻訳日:2021-10-12 18:57:27 公開日:2021-10-11
# カーネル拡散を用いた密度ベースクラスタリング

Density-Based Clustering with Kernel Diffusion ( http://arxiv.org/abs/2110.05096v1 )

ライセンス: Link先を確認
Chao Zheng, Yingjie Chen, Chong Chen, Jianqiang Huang, Xian-Sheng Hua(参考訳) DBSCANやDPCのような密度に基づくクラスタリングアルゴリズムには,適切な密度関数の探索が不可欠である。 これらのアルゴリズムでは、単位 $d$-次元ユークリッド球の表示関数に対応するナイーブ密度が一般的に用いられる。 このような密度は、複雑なデータセットの局所的な特徴を捉えるのに苦しむ。 そこで本研究では,局所分布特性と滑らかさの異なるデータに適応した新しい核拡散密度関数を提案する。 さらに,線形時間と空間で効率的に計算できるサロゲートを開発し,核拡散密度関数に漸近同値であることを証明した。 ベンチマークおよび大規模顔画像データセットに関する広範囲な実験により、提案手法は従来の密度ベースのクラスタリングアルゴリズムよりも大幅に改善されるだけでなく、最先端の顔クラスタリング手法を大きなマージンで上回っていることが示された。

Finding a suitable density function is essential for density-based clustering algorithms such as DBSCAN and DPC. A naive density corresponding to the indicator function of a unit $d$-dimensional Euclidean ball is commonly used in these algorithms. Such density suffers from capturing local features in complex datasets. To tackle this issue, we propose a new kernel diffusion density function, which is adaptive to data of varying local distributional characteristics and smoothness. Furthermore, we develop a surrogate that can be efficiently computed in linear time and space and prove that it is asymptotically equivalent to the kernel diffusion density function. Extensive empirical experiments on benchmark and large-scale face image datasets show that the proposed approach not only achieves a significant improvement over classic density-based clustering algorithms but also outperforms the state-of-the-art face clustering methods by a large margin.
翻訳日:2021-10-12 18:57:05 公開日:2021-10-11
# REIN-2:強化学習エージェントを用いた強化学習エージェントの誕生

REIN-2: Giving Birth to Prepared Reinforcement Learning Agents Using Reinforcement Learning Agents ( http://arxiv.org/abs/2110.05128v1 )

ライセンス: Link先を確認
Aristotelis Lazaridis, Ioannis Vlahavas(参考訳) 深層強化学習(Deep Reinforcement Learning, ディープ・RL)は、従来の機械学習手法では事実上解決不可能と考えられていた問題の解決に際し、近年注目されている。 しかし、最先端のディープrlアルゴリズムでさえ、業界アプリケーションで広く使用されることを妨げる様々な弱点があり、その主な弱点はサンプル非効率である。 これらの課題に対処するために,我々はメタラーニング手法を統合し,タスクの学習目標をタスク(あるいはタスクの集合)の学習目標にシフトさせることで,Deep RLアルゴリズムの全体的な安定性と性能を向上させることを実証的に示す。 我々のモデルはREIN-2と呼ばれ、RLフレームワーク内で構成されたメタラーニングスキームであり、その目標は、与えられた環境を解決できる他のRLエージェント(インナーラーナー)の作り方を学ぶメタラーニングエージェント(メタラーナー)を開発することである。 このタスクでは、rlエージェントと環境の典型的な相互作用を、メタリーナーが相互作用するための新しい単一の環境に変換する。 従来のdeep rlアルゴリズムと比較すると, 評価とサンプル効率の面では, 人気のあるopenai体育館環境において, 山車のハードエクスプロレーション環境を含め, モデルの性能が著しく向上した。

Deep Reinforcement Learning (Deep RL) has been in the spotlight for the past few years, due to its remarkable abilities to solve problems which were considered to be practically unsolvable using traditional Machine Learning methods. However, even state-of-the-art Deep RL algorithms have various weaknesses that prevent them from being used extensively within industry applications, with one such major weakness being their sample-inefficiency. In an effort to patch these issues, we integrated a meta-learning technique in order to shift the objective of learning to solve a task into the objective of learning how to learn to solve a task (or a set of tasks), which we empirically show that improves overall stability and performance of Deep RL algorithms. Our model, named REIN-2, is a meta-learning scheme formulated within the RL framework, the goal of which is to develop a meta-RL agent (meta-learner) that learns how to produce other RL agents (inner-learners) that are capable of solving given environments. For this task, we convert the typical interaction of an RL agent with the environment into a new, single environment for the meta-learner to interact with. Compared to traditional state-of-the-art Deep RL algorithms, experimental results show remarkable performance of our model in popular OpenAI Gym environments in terms of scoring and sample efficiency, including the Mountain Car hard-exploration environment.
翻訳日:2021-10-12 18:56:52 公開日:2021-10-11
# シミュレートアニーリングによる段階的フェデレーション学習

Gradual Federated Learning with Simulated Annealing ( http://arxiv.org/abs/2110.05178v1 )

ライセンス: Link先を確認
Luong Trung Nguyen, Junhan Kim, and Byonghyo Shim(参考訳) フェデレーション平均化(FedAvg)は、ローカルモデルを平均化してグローバルモデルを更新し、更新されたグローバルモデルをローカルモデル更新のためにデバイスに送信する、一般的なフェデレーション学習(FL)技術である。 fedavgの主な制限の1つは、トレーニングプロセスの初期段階において、平均ベースのグローバルモデルが必ずしもローカルモデルより優れているとは限らないことである。 本稿では,シミュレーションアニールに基づく新しいFL法を提案する。 提案手法の鍵となるアイデアは、それゆえ \textit{simulated annealing-based fl} (safl) と呼ばれ、グローバルモデルが未熟なときにデバイスがローカルモデルを選択できるようにすることである。 具体的には,シミュレートアニーリング戦略を活用し,グローバルモデルが未成熟な場合には,各デバイスが初期イテレーションにおいて高い確率で局所モデルを選択する。 様々なベンチマークデータセットを用いた広範な数値実験から、SAFLは収束速度と分類精度の点で従来のFedAvg技術より優れていることを示した。

Federated averaging (FedAvg) is a popular federated learning (FL) technique that updates the global model by averaging local models and then transmits the updated global model to devices for their local model update. One main limitation of FedAvg is that the average-based global model is not necessarily better than local models in the early stage of the training process so that FedAvg might diverge in realistic scenarios, especially when the data is non-identically distributed across devices and the number of data samples varies significantly from device to device. In this paper, we propose a new FL technique based on simulated annealing. The key idea of the proposed technique, henceforth referred to as \textit{simulated annealing-based FL} (SAFL), is to allow a device to choose its local model when the global model is immature. Specifically, by exploiting the simulated annealing strategy, we make each device choose its local model with high probability in early iterations when the global model is immature. From extensive numerical experiments using various benchmark datasets, we demonstrate that SAFL outperforms the conventional FedAvg technique in terms of the convergence speed and the classification accuracy.
翻訳日:2021-10-12 18:55:29 公開日:2021-10-11
# 自己説明型強化学習による曖昧なデモンストレーションからの学習

Learning from Ambiguous Demonstrations with Self-Explanation Guided Reinforcement Learning ( http://arxiv.org/abs/2110.05286v1 )

ライセンス: Link先を確認
Yantian Zha, Lin Guan, and Subbarao Kambhampati(参考訳) 本研究の目的は、強化学習(RL)エージェントの訓練にあいまいなデモンストレーションを効果的に活用することである。 曖昧なデモンストレーションは通常、複数の方法で解釈され、RL-Agentが安定かつ効率的に学習することを妨げる。 最適なデモンストレーションも曖昧である可能性があるため、以前のRLと実演からの学習(RLfDの作業)を組み合わせた作業はうまくいかなかった。 このような状況に触発されて、我々は、成功軌道が成功した理由の解釈として、価値の高い高次関係特徴を認識するために自己説明(エージェント自身による説明)を使うことを提案する。 これにより、エージェントはrl学習のためのガイダンスを提供することができる。 我々の主な貢献は、従来のRLfD作品の限界を克服できるDemonstrations (SERLfD)フレームワークからの自己説明(Self-Explanation for RL)を提案することである。 実験結果から,SERLfDフレームワークを用いてRLfDモデルをトレーニング安定性と性能の観点から改善できることが示唆された。

Our work aims at efficiently leveraging ambiguous demonstrations for the training of a reinforcement learning (RL) agent. An ambiguous demonstration can usually be interpreted in multiple ways, which severely hinders the RL-Agent from learning stably and efficiently. Since an optimal demonstration may also suffer from being ambiguous, previous works that combine RL and learning from demonstration (RLfD works) may not work well. Inspired by how humans handle such situations, we propose to use self-explanation (an agent generates explanations for itself) to recognize valuable high-level relational features as an interpretation of why a successful trajectory is successful. This way, the agent can provide some guidance for its RL learning. Our main contribution is to propose the Self-Explanation for RL from Demonstrations (SERLfD) framework, which can overcome the limitations of traditional RLfD works. Our experimental results show that an RLfD model can be improved by using our SERLfD framework in terms of training stability and performance.
翻訳日:2021-10-12 18:55:06 公開日:2021-10-11
# AMRA*: マルチリゾリューションマルチヒューリスティックA*

AMRA*: Anytime Multi-Resolution Multi-Heuristic A* ( http://arxiv.org/abs/2110.05328v1 )

ライセンス: Link先を確認
Dhruv Mauria Saxena, Tushar Kusnur, Maxim Likhachev(参考訳) ヒューリスティックな探索に基づく動き計画アルゴリズムは、最も短い経路問題を解決するために探索空間を区別する。 彼らの演技は、この離散化と密接に関連している。 細かい離散化は連続探索空間のより良い近似を可能にするが、解の探索はより計算コストがかかる。 粗い解決法により、アルゴリズムは品質を犠牲にして迅速に解を見つけることができる。 大きな状態空間の場合、離散化を定義することは難しいが、複数の解像度で解を探すことは有益である。 最近提案されたMulti-Resolution A* (MRA*) アルゴリズムは複数の解像度を探索する。 障害物のない空間の広い領域を横切り、粗い解像度で局所的なミニマを逃れる。 いわゆる狭い通路を、より細かい解像度でナビゲートすることもできる。 本研究では,MRA*の任意のバージョンであるAMRA*を開発する。 AMRA* は粗い分解能をできるだけ早く利用して解を見つけようとする。 そして、粗い解像度では利用できなかったより良い経路を見つけるために、細かい解像度に依存することで、ソリューションを洗練します。 いつでも、amra*は複数のヒューリスティック間での情報共有を利用することもできる。 我々は、amra* が最も細かい分解能に関して完全かつ最適である(時間の範囲内)ことを証明する。 2次元グリッドナビゲーションと4次元キノダイナミック計画問題にその性能を示す。

Heuristic search-based motion planning algorithms typically discretise the search space in order to solve the shortest path problem. Their performance is closely related to this discretisation. A fine discretisation allows for better approximations of the continuous search space, but makes the search for a solution more computationally costly. A coarser resolution might allow the algorithms to find solutions quickly at the expense of quality. For large state spaces, it can be beneficial to search for solutions across multiple resolutions even though defining the discretisations is challenging. The recently proposed algorithm Multi-Resolution A* (MRA*) searches over multiple resolutions. It traverses large areas of obstacle-free space and escapes local minima at a coarse resolution. It can also navigate so-called narrow passageways at a finer resolution. In this work, we develop AMRA*, an anytime version of MRA*. AMRA* tries to find a solution quickly using the coarse resolution as much as possible. It then refines the solution by relying on the fine resolution to discover better paths that may not have been available at the coarse resolution. In addition to being anytime, AMRA* can also leverage information sharing between multiple heuristics. We prove that AMRA* is complete and optimal (in-the-limit of time) with respect to the finest resolution. We show its performance on 2D grid navigation and 4D kinodynamic planning problems.
翻訳日:2021-10-12 18:50:58 公開日:2021-10-11
# 多目的深層強化学習を用いた歩行者都市環境のナビゲーション

Navigation In Urban Environments Amongst Pedestrians Using Multi-Objective Deep Reinforcement Learning ( http://arxiv.org/abs/2110.05205v1 )

ライセンス: Link先を確認
Niranjan Deshpande (CHROMA), Dominique Vaufreydaz (M-PSI), Anne Spalanzani (CHROMA)(参考訳) 歩行者が脆弱な道路利用者として存在する都市部の自動運転は、いまだに困難な研究課題である。 本研究は都市環境におけるナビゲーションを多目的強化学習問題として定式化する。 歩行者間の自律的なナビゲーションのために,しきい値付き辞書q-learningのディープラーニング変種が提示されている。 多目的dqnエージェントはcarlaシミュレータで開発されたカスタム都市環境上で訓練される。 提案手法は, 未知環境と未知環境の単一目的DQN変種との比較により評価する。 評価の結果,提案手法は,全ての面において,単一の目的DQN変異よりも優れていた。

Urban autonomous driving in the presence of pedestrians as vulnerable road users is still a challenging and less examined research problem. This work formulates navigation in urban environments as a multi objective reinforcement learning problem. A deep learning variant of thresholded lexicographic Q-learning is presented for autonomous navigation amongst pedestrians. The multi objective DQN agent is trained on a custom urban environment developed in CARLA simulator. The proposed method is evaluated by comparing it with a single objective DQN variant on known and unknown environments. Evaluation results show that the proposed method outperforms the single objective DQN variant with respect to all aspects.
翻訳日:2021-10-12 18:50:41 公開日:2021-10-11
# 舗装災害タイプ, 密度, 重大度に基づくIRIの推定:機械学習技術からの考察

Estimating IRI based on pavement distress type, density, and severity: Insights from machine learning techniques ( http://arxiv.org/abs/2110.05413v1 )

ライセンス: Link先を確認
Yu Qiao, Sikai Chen, Majed Alinizzi, Miltos Alamaniotis, Samuel Labi(参考訳) 表面粗さは、乗用品質と車両の運転コストに関連する舗装性能の主要な指標である。 全ての表面粗さ指標のうち、国際粗さ指数(IRI)が最も広く使われている。 しかし、IRI測定にはコストがかかるため、ネットワークレベルでのIRI測定から特定の道路クラスを除外する。 より高いレベルの苦痛は、通常、より高い粗さと関連している。 しかし、ある粗さのレベルでは、舗装データは通常、苦難の種類、密度、重大度において大きな変動を示す。 本研究は, 舗装部のIRIを, その被害タイプとその密度, 重症度から推定することが可能であると仮定した。 この仮説を考察するために,本論文では,舗装属性の集合からIRIの予測範囲を確認するために,サービス内舗装からのデータと機械学習手法を用いている。 以上の結果から, 機械学習は, 測定されたディストレスタイプとそれぞれの密度, 収差に基づいて iri を高精度に推定できることが示唆された。 解析の結果,IRIは舗装タイプと機能クラスに依存していることがわかった。 本論文はまた、舗装難破型分布の確率を推定し、所定の粗さレベルに基づいて発生重大/現存率を推定するリバース状況に対処する探索部を含む。

Surface roughness is primary measure of pavement performance that has been associated with ride quality and vehicle operating costs. Of all the surface roughness indicators, the International Roughness Index (IRI) is the most widely used. However, it is costly to measure IRI, and for this reason, certain road classes are excluded from IRI measurements at a network level. Higher levels of distresses are generally associated with higher roughness. However, for a given roughness level, pavement data typically exhibits a great deal of variability in the distress types, density, and severity. It is hypothesized that it is feasible to estimate the IRI of a pavement section given its distress types and their respective densities and severities. To investigate this hypothesis, this paper uses data from in-service pavements and machine learning methods to ascertain the extent to which IRI can be predicted given a set of pavement attributes. The results suggest that machine learning can be used reliably to estimate IRI based on the measured distress types and their respective densities and severities. The analysis also showed that IRI estimated this way depends on the pavement type and functional class. The paper also includes an exploratory section that addresses the reverse situation, that is, estimating the probability of pavement distress type distribution and occurrence severity/extent based on a given roughness level.
翻訳日:2021-10-12 18:50:31 公開日:2021-10-11
# (参考訳) 半自己回帰画像キャプション [全文訳有]

Semi-Autoregressive Image Captioning ( http://arxiv.org/abs/2110.05342v1 )

ライセンス: CC0 1.0
Xu Yan, Zhengcong Fei, Zekang Li, Shuhui Wang, Qingming Huang, Qi Tian(参考訳) 画像キャプションに関する現在の最先端のアプローチでは、一般的には自己回帰的な方法、すなわち単語毎の記述を生成する方法が採用されている。 文生成のシーケンシャルな依存を排除し、連続的な反復洗練を伴う非自己回帰画像キャプションは、かなりの加速を伴う自己回帰画像キャプションに匹敵する性能が得られる。 それでも、十分に設計された実験に基づいて、言語デコーダに十分な事前知識を提供することで、繰り返し時間を効果的に削減できることを実証的に証明した。 そこで我々は,SAIC(Semi-Autoregre ssive Image Captioning)と呼ばれる新しい2段階のフレームワークを提案し,性能と速度のトレードオフを改善する。 提案するsaicモデルは自己回帰特性をグローバルに維持するが,局所的に緩和する。 特に、saicモデルは、最初に自制的な方法で断続的なシーケンスを生成し、すなわち、各単語群における最初の単語を順番に予測する。 そして、部分決定論的事前情報と画像特徴の助けを借りて、SAICモデルはスキップされたすべての単語を1回で非自己回帰的に満たす。 MS COCOベンチマークによる実験結果から,SAICモデルは先行する非自己回帰画像キャプションモデルより優れ,競争速度は向上した。 コードはhttps://github.com/f eizc/SAICで入手できる。

Current state-of-the-art approaches for image captioning typically adopt an autoregressive manner, i.e., generating descriptions word by word, which suffers from slow decoding issue and becomes a bottleneck in real-time applications. Non-autoregressive image captioning with continuous iterative refinement, which eliminates the sequential dependence in a sentence generation, can achieve comparable performance to the autoregressive counterparts with a considerable acceleration. Nevertheless, based on a well-designed experiment, we empirically proved that iteration times can be effectively reduced when providing sufficient prior knowledge for the language decoder. Towards that end, we propose a novel two-stage framework, referred to as Semi-Autoregressive Image Captioning (SAIC), to make a better trade-off between performance and speed. The proposed SAIC model maintains autoregressive property in global but relieves it in local. Specifically, SAIC model first jumpily generates an intermittent sequence in an autoregressive manner, that is, it predicts the first word in every word group in order. Then, with the help of the partially deterministic prior information and image features, SAIC model non-autoregressively fills all the skipped words with one iteration. Experimental results on the MS COCO benchmark demonstrate that our SAIC model outperforms the preceding non-autoregressive image captioning models while obtaining a competitive inference speedup. Code is available at https://github.com/f eizc/SAIC.
翻訳日:2021-10-12 18:49:00 公開日:2021-10-11
# SurroundNet: 効果的な低光画像強調を目指して

SurroundNet: Towards Effective Low-Light Image Enhancement ( http://arxiv.org/abs/2110.05098v1 )

ライセンス: Link先を確認
Fei Zhou and Xin Sun and Junyu Dong and Haoran Zhao and Xiao Xiang Zhu(参考訳) 畳み込みニューラルネットワーク(cnns)は低光度画像強調タスクにおいて大きな進歩を遂げているが、cnnの重要な問題はモデルの複雑さと性能のパラドックスである。 本稿では,150ドル未満のパラメータ(SOTAと比較して約80~98%の削減)しか持たず,非常に競争力のある性能を実現する新しいSurroundNetを提案する。 提案するネットワークは、特徴空間における単一スケールレチネックスの新規拡張と見なせる複数の適応リチネックスブロック(ARBlock)から構成される。 ARBlockの中核は、Adaptive Surround Function (ASF)と呼ばれる効率的な照明推定関数である。 サラウンド関数の一般的な形式と見なすことができ、畳み込み層によって実装できる。 また,低露光デノイザー (led) も導入し,強調前の低照度画像の平滑化を図る。 提案手法を実世界の低照度データセット上で評価する。 実験結果から,提案したSurroundNetの高精細画像強調法に対する性能およびネットワークパラメータの優位性が示された。 コードはhttps: github.com/ouc-ocean -group/SurroundNetで入手できる。

Although Convolution Neural Networks (CNNs) has made substantial progress in the low-light image enhancement task, one critical problem of CNNs is the paradox of model complexity and performance. This paper presents a novel SurroundNet which only involves less than 150$K$ parameters (about 80-98 percent size reduction compared to SOTAs) and achieves very competitive performance. The proposed network comprises several Adaptive Retinex Blocks (ARBlock), which can be viewed as a novel extension of Single Scale Retinex in feature space. The core of our ARBlock is an efficient illumination estimation function called Adaptive Surround Function (ASF). It can be regarded as a general form of surround functions and be implemented by convolution layers. In addition, we also introduce a Low-Exposure Denoiser (LED) to smooth the low-light image before the enhancement. We evaluate the proposed method on the real-world low-light dataset. Experimental results demonstrate that the superiority of our submitted SurroundNet in both performance and network parameters against State-of-the-Art low-light image enhancement methods. Code is available at https: github.com/ouc-ocean -group/SurroundNet.
翻訳日:2021-10-12 18:33:01 公開日:2021-10-11
# 注意センター:マルチパーソンポーズ推定のための注意によるセンターキーポイントグループ化

The Center of Attention: Center-Keypoint Grouping via Attention for Multi-Person Pose Estimation ( http://arxiv.org/abs/2110.05132v1 )

ライセンス: Link先を確認
Guillem Bras\'o, Nikita Kister, Laura Leal-Taix\'e(参考訳) 本研究では,身元非依存のキーポイントと人物中心予測のセットから人間のポーズを推定する注意に基づくフレームワークである centergroup を紹介する。 提案手法では,すべての検出されたキーポイントとセンタに対するコンテキスト認識埋め込みをトランスフォーマティブを用いて取得し,その人物センタに対して直接グループジョイントにマルチヘッドアテンションを適用する。 ほとんどのボトムアップメソッドは推論時に無視できないクラスタリングに依存しているが、centergroupはキーポイント検出器と共にエンドツーエンドをトレーニングする、完全に微分可能なアテンションメカニズムを使用している。 その結果,本手法はボトムアップ法に比べて最大2.5倍の速さで最先端性能を得ることができた。 私たちのコードはhttps://github.com/d vl-tum/center-groupで利用可能です。

We introduce CenterGroup, an attention-based framework to estimate human poses from a set of identity-agnostic keypoints and person center predictions in an image. Our approach uses a transformer to obtain context-aware embeddings for all detected keypoints and centers and then applies multi-head attention to directly group joints into their corresponding person centers. While most bottom-up methods rely on non-learnable clustering at inference, CenterGroup uses a fully differentiable attention mechanism that we train end-to-end together with our keypoint detector. As a result, our method obtains state-of-the-art performance with up to 2.5x faster inference time than competing bottom-up methods. Our code is available at https://github.com/d vl-tum/center-group .
翻訳日:2021-10-12 18:32:42 公開日:2021-10-11
# 領域適応型セマンティックセマンティックセマンティックセグメンテーションと地域整合性規則化

Domain Adaptive Semantic Segmentation with Regional Contrastive Consistency Regularization ( http://arxiv.org/abs/2110.05170v1 )

ライセンス: Link先を確認
Qianyu Zhou, Chuyun Zhuang, Xuequan Lu, Lizhuang Ma(参考訳) Unsupervised domain adapt (UDA) は、ラベル付きソースドメインとラベルなしターゲットドメインの間のドメインシフトをブリッジすることを目的としている。 しかし、既存の作品の多くはセマンティックセグメンテーションのためのグローバルレベルの機能アライメントを実行しているが、地域間の局所的な一貫性はほとんど無視されている。 そこで本研究では,領域適応型セマンティックセマンティックセグメンテーションのためのRCCR(Regional contrastive consistency regularization)と呼ばれる,新しいエンドツーエンドのトレーニング可能なアプローチを提案する。 私たちの中核となる考え方は、異なる画像の同じ位置から抽出された類似の地域的特徴を取り除き、その一方、2つの画像の異なる位置から特徴を分離することです。 本研究では,教師プロジェクタが学生の指数移動平均となる運動量プロジェクタヘッドを提案する。 また,地域的一貫性を実現するために,2つのサンプリング戦略による領域的対比損失を提案する。 最後に、メモリバンク機構は、様々な環境下でより堅牢で安定した地域機能を学ぶように設計されている。 GTAVをCityscapesに、SynTHIAをCityscapesに、という2つの一般的なUDAベンチマークに対する大規模な実験は、我々のアプローチが最先端の手法よりも優れていることを示した。

Unsupervised domain adaptation (UDA) aims to bridge the domain shift between the labeled source domain and the unlabeled target domain. However, most existing works perform the global-level feature alignment for semantic segmentation, while the local consistency between the regions has been largely neglected, and these methods are less robust to changing of outdoor environments. Motivated by the above facts, we propose a novel and fully end-to-end trainable approach, called regional contrastive consistency regularization (RCCR) for domain adaptive semantic segmentation. Our core idea is to pull the similar regional features extracted from the same location of different images to be closer, and meanwhile push the features from the different locations of the two images to be separated. We innovatively propose momentum projector heads, where the teacher projector is the exponential moving average of the student. Besides, we present a region-wise contrastive loss with two sampling strategies to realize effective regional consistency. Finally, a memory bank mechanism is designed to learn more robust and stable region-wise features under varying environments. Extensive experiments on two common UDA benchmarks, i.e., GTAV to Cityscapes and SYNTHIA to Cityscapes, demonstrate that our approach outperforms the state-of-the-art methods.
翻訳日:2021-10-12 18:32:29 公開日:2021-10-11
# Supervision Exists Everywhere:データ効率の良いコントラスト言語-画像事前学習パラダイム

Supervision Exists Everywhere: A Data Efficient Contrastive Language-Image Pre-training Paradigm ( http://arxiv.org/abs/2110.05208v1 )

ライセンス: Link先を確認
Yangguang Li, Feng Liang, Lichen Zhao, Yufeng Cui, Wanli Ouyang, Jing Shao, Fengwei Yu, Junjie Yan(参考訳) 近年、大規模なコントラスト言語画像事前学習(clip)は、印象的なゼロショット認識能力と下流タスクへの優れた転送性によって、前例のない注目を集めている。 しかし、CLIPは非常にデータ不足であり、事前トレーニングには4億のイメージテキストペアが必要であるため、採用が制限される。 本研究は,この制限を緩和する新たなトレーニングパラダイムであるData efficient CLIP (DeCLIP)を提案する。 画像とテキストのペア間の広範囲の監視を慎重に利用することにより、De-CLIPは汎用的な視覚的特徴をより効率的に学習できることを示す。 1) 各モダリティ内の自己スーパービジョン、(2)モダリティ間のマルチビュー・スーパービジョン、(3)他の類似したペアからの近距離・近距離のスーパービジョン、を用いて、データポテンシャルを完全に活用する。 DeCLIP-ResNet50は、本質的な監視から恩恵を受け、ImageNet上で60.4%のゼロショットトップ1の精度を達成できます。 当社のdeclip-resnet50は、ダウンストリームタスクに転送される11のビジュアルデータセットのうち8つを上回っています。 当社のコード、データセット、モデルは、https://github.com/S ense-GVT/DeCLIPでリリースされています。

Recently, large-scale Contrastive Language-Image Pre-training (CLIP) has attracted unprecedented attention for its impressive zero-shot recognition ability and excellent transferability to downstream tasks. However, CLIP is quite data-hungry and requires 400M image-text pairs for pre-training, thereby restricting its adoption. This work proposes a novel training paradigm, Data efficient CLIP (DeCLIP), to alleviate this limitation. We demonstrate that by carefully utilizing the widespread supervision among the image-text pairs, our De-CLIP can learn generic visual features more efficiently. Instead of using the single image-text contrastive supervision, we fully exploit data potential through the use of (1) self-supervision within each modality; (2) multi-view supervision across modalities; (3) nearest-neighbor supervision from other similar pairs. Benefiting from intrinsic supervision, our DeCLIP-ResNet50 can achieve 60.4% zero-shot top1 accuracy on ImageNet, which is 0.8% above the CLIP-ResNet50 while using 7.1 x fewer data. Our DeCLIP-ResNet50 outperforms its counterpart in 8 out of 11 visual datasets when transferred to downstream tasks. Moreover, Scaling up the model and computing also works well in our framework.Our code, dataset and models are released at: https://github.com/S ense-GVT/DeCLIP
翻訳日:2021-10-12 18:32:04 公開日:2021-10-11
# 軽量局所変換によるポイントクラウド拡張

Point Cloud Augmentation with Weighted Local Transformations ( http://arxiv.org/abs/2110.05379v1 )

ライセンス: Link先を確認
Sihyeon Kim, Sanghyeok Lee, Dasol Hwang, Jaewon Lee, Seong Jae Hwang, Hyunwoo J. Kim(参考訳) 3Dビジョンでポイントクラウドが広く使用されているにもかかわらず、ディープニューラルネットワークのトレーニングには比較的限られたデータが利用できる。 データ拡張はデータの不足を補う標準的なアプローチであるが、point cloudの文献ではあまり研究されていない。 本稿では,ポイントクラウド拡張のためのポイントWOLFと呼ばれる簡易かつ効果的な拡張手法を提案する。 提案手法は, 複数のアンカー点を中心とする局所重み付け変換により, 滑らかに変化する非剛性変形を生成する。 滑らかな変形は多様で現実的な拡張を可能にする。 さらに, 最適ハイパーパラメータを探索するための手作業を最小限に抑えるために, 目標信頼度スコアを生成するために, 希望する難易度を増大させたサンプルを生成する augtune を提案する。 本実験は, 形状分類と部分分割の両タスクの性能を連続的に向上することを示す。 特に PointNet++ では、PointWOLF は実世界の ScanObjectNN データセットを用いて、形状分類における最先端の 89.7 の精度を達成している。

Despite the extensive usage of point clouds in 3D vision, relatively limited data are available for training deep neural networks. Although data augmentation is a standard approach to compensate for the scarcity of data, it has been less explored in the point cloud literature. In this paper, we propose a simple and effective augmentation method called PointWOLF for point cloud augmentation. The proposed method produces smoothly varying non-rigid deformations by locally weighted transformations centered at multiple anchor points. The smooth deformations allow diverse and realistic augmentations. Furthermore, in order to minimize the manual efforts to search the optimal hyperparameters for augmentation, we present AugTune, which generates augmented samples of desired difficulties producing targeted confidence scores. Our experiments show our framework consistently improves the performance for both shape classification and part segmentation tasks. Particularly, with PointNet++, PointWOLF achieves the state-of-the-art 89.7 accuracy on shape classification with the real-world ScanObjectNN dataset.
翻訳日:2021-10-12 18:31:38 公開日:2021-10-11
# SignBERT:手話認識のための手話認識の事前学習

SignBERT: Pre-Training of Hand-Model-Aware Representation for Sign Language Recognition ( http://arxiv.org/abs/2110.05382v1 )

ライセンス: Link先を確認
Hezhen Hu, Weichao Zhao, Wengang Zhou, Yuechen Wang, Houqiang Li(参考訳) 手振りは手話において重要な役割を担っている。 現在の深層学習に基づく手話認識(SLR)手法は,手話データソースが限られているため,解釈性や過度な適合性に欠ける可能性がある。 本稿では,SLRに先立って手を入れた初の自己教師型事前訓練型SignBERTを紹介する。 signbertは手のポーズを視覚的なトークンとして捉えており、これは既製のポーズ抽出器から派生している。 視覚トークンはジェスチャー状態、時間的情報、手のキラリティー情報と共に埋め込まれる。 SignBERTは、利用可能なサインデータソースを最大限に活用するために、まず、マスキングと視覚トークンの再構築による自己教師付き事前トレーニングを実行する。 いくつかのマスキングモデリング戦略と共同で,ハンドプリアーをモデル認識手法に組み込むことにより,ハンドシーケンス上の階層的コンテキストをよりよくモデル化する。 そして、予測ヘッドを追加し、SignBERTを微調整して下流SLRタスクを実行する。 SLRにおける本手法の有効性を検証するため,NMFs-CSL,SLR500,MSA SL,WLASLの4つの公開ベンチマークデータセットに対して広範な実験を行った。 実験結果から, 自己指導型学習と輸入手の両方の有効性が示された。 さらに,各ベンチマークの最先端性能も顕著に向上した。

Hand gesture serves as a critical role in sign language. Current deep-learning-based sign language recognition (SLR) methods may suffer insufficient interpretability and overfitting due to limited sign data sources. In this paper, we introduce the first self-supervised pre-trainable SignBERT with incorporated hand prior for SLR. SignBERT views the hand pose as a visual token, which is derived from an off-the-shelf pose extractor. The visual tokens are then embedded with gesture state, temporal and hand chirality information. To take full advantage of available sign data sources, SignBERT first performs self-supervised pre-training by masking and reconstructing visual tokens. Jointly with several mask modeling strategies, we attempt to incorporate hand prior in a model-aware method to better model hierarchical context over the hand sequence. Then with the prediction head added, SignBERT is fine-tuned to perform the downstream SLR task. To validate the effectiveness of our method on SLR, we perform extensive experiments on four public benchmark datasets, i.e., NMFs-CSL, SLR500, MSASL and WLASL. Experiment results demonstrate the effectiveness of both self-supervised learning and imported hand prior. Furthermore, we achieve state-of-the-art performance on all benchmarks with a notable gain.
翻訳日:2021-10-12 18:31:24 公開日:2021-10-11
# ストリーミングエゴセントリック行動予測に向けて

Towards Streaming Egocentric Action Anticipation ( http://arxiv.org/abs/2110.05386v1 )

ライセンス: Link先を確認
Antonino Furnari and Giovanni Maria Farinella(参考訳) エゴセントリックアクション予測は、カメラ装着者が過去のビデオ観察に基づいて行うであろう将来のアクションを予測するタスクである。 実世界のシステムでは、アクションが始まる前にそのような予測を出力することが基本であるが、過去の作業は評価中に一般的にモデルランタイムに注意を払っていない。 実際、現在の評価スキームは、予測はオフラインにできるので、計算資源は制限されないと仮定している。 そこで本稿では,現在の映像セグメントが処理された後にのみ予測が可能であると仮定し,性能評価のためにモデルランタイムを明示的に考慮した '`streaming' 自己中心的行動予測評価プロトコルを提案する。 提案手法に従って,2つの一般的なデータセット上での自己中心的行動予測のための,異なる最先端のアプローチをベンチマークする。 分析の結果,より少ないランタイムモデルでは,ストリーミングシナリオにおいて重大モデルを上回る傾向がみられ,通常のオフライン評価で一般的に見られるランキングが変更される傾向が示唆された。 本稿では, 簡易フィードフォワード3D CNNによる軽量な行動予測モデルを提案し, 知識蒸留技術とカスタムロスを用いた最適化を提案する。 提案手法は,他の軽量モデルと組み合わせて,ストリーミングシナリオにおける先行技術よりも優れていることを示す。

Egocentric action anticipation is the task of predicting the future actions a camera wearer will likely perform based on past video observations. While in a real-world system it is fundamental to output such predictions before the action begins, past works have not generally paid attention to model runtime during evaluation. Indeed, current evaluation schemes assume that predictions can be made offline, and hence that computational resources are not limited. In contrast, in this paper, we propose a ``streaming'' egocentric action anticipation evaluation protocol which explicitly considers model runtime for performance assessment, assuming that predictions will be available only after the current video segment is processed, which depends on the processing time of a method. Following the proposed evaluation scheme, we benchmark different state-of-the-art approaches for egocentric action anticipation on two popular datasets. Our analysis shows that models with a smaller runtime tend to outperform heavier models in the considered streaming scenario, thus changing the rankings generally observed in standard offline evaluations. Based on this observation, we propose a lightweight action anticipation model consisting in a simple feed-forward 3D CNN, which we propose to optimize using knowledge distillation techniques and a custom loss. The results show that the proposed approach outperforms prior art in the streaming scenario, also in combination with other lightweight models.
翻訳日:2021-10-12 18:29:41 公開日:2021-10-11
# 3次元形状, 姿勢, 外観整合性を考慮した周期的自己スーパービジョンによるリアルなヒューマン・リポーティングの学習

Learning Realistic Human Reposing using Cyclic Self-Supervision with 3D Shape, Pose, and Appearance Consistency ( http://arxiv.org/abs/2110.05458v1 )

ライセンス: Link先を確認
Soubhik Sanyal and Alex Vorobiov and Timo Bolkart and Matthew Loper and Betty Mohler and Larry Davis and Javier Romero and Michael J. Black(参考訳) 一つの画像から新しいポーズの人のイメージを合成することは、非常にあいまいな作業である。 既存のほとんどのアプローチでは、ペアのトレーニングイメージ、すなわち、異なるポーズで同じ服を着た同じ人のイメージが必要です。 しかし、ペアデータで十分な規模のデータセットを得ることは困難でコストがかかる。 ペアの監督を先取りする以前の方法は現実主義を欠いている。 本研究では,SPICE (Self-supervised Person Image CrEation) という自己監督型フレームワークを提案する。 自己超越を可能にする重要な洞察は、様々な方法で人体に関する3D情報を活用することである。 第一に、3dボディ形状はレポジトリ時に変化し続けなければならない。 第二に、身体のポーズを3Dで表現することで、自己閉塞についての推論が可能になる。 第3に、再現前後に見える3Dボディパーツには、類似した外観特徴がある。 訓練が終わると、SPICEは人の画像を撮って、その人の新しいイメージを新しいターゲットのポーズで生成する。 SPICEはDeepFashionデータセットで最先端のパフォーマンスを達成し、従来の教師なし手法と比較してFIDスコアを29.9から7.8に改善し、最先端の教師付き手法(6.4)に類似したパフォーマンスを持つ。 SPICEはまた、静的画像のみでトレーニングされているにもかかわらず、入力画像とポーズのシーケンスが与えられた時間的に一貫性のあるビデオを生成する。

Synthesizing images of a person in novel poses from a single image is a highly ambiguous task. Most existing approaches require paired training images; i.e. images of the same person with the same clothing in different poses. However, obtaining sufficiently large datasets with paired data is challenging and costly. Previous methods that forego paired supervision lack realism. We propose a self-supervised framework named SPICE (Self-supervised Person Image CrEation) that closes the image quality gap with supervised methods. The key insight enabling self-supervision is to exploit 3D information about the human body in several ways. First, the 3D body shape must remain unchanged when reposing. Second, representing body pose in 3D enables reasoning about self occlusions. Third, 3D body parts that are visible before and after reposing, should have similar appearance features. Once trained, SPICE takes an image of a person and generates a new image of that person in a new target pose. SPICE achieves state-of-the-art performance on the DeepFashion dataset, improving the FID score from 29.9 to 7.8 compared with previous unsupervised methods, and with performance similar to the state-of-the-art supervised method (6.4). SPICE also generates temporally coherent videos given an input image and a sequence of poses, despite being trained on static images only.
翻訳日:2021-10-12 18:29:19 公開日:2021-10-11
# 微分可能ステレオプシス:微分可能レンダリングを用いた複数ビューからのメッシュ

Differentiable Stereopsis: Meshes from multiple views using differentiable rendering ( http://arxiv.org/abs/2110.05472v1 )

ライセンス: Link先を確認
Shubham Goel, Georgia Gkioxari, Jitendra Malik(参考訳) 少ない入力ビューとノイズの多いカメラから形状とテクスチャを再構成する多視点ステレオ手法である微分ステレオシステムを提案する。 従来のステレオプシと現代の微分可能レンダリングを組み合わせることで、さまざまなトポロジや形状のオブジェクトのテクスチャ化された3dメッシュを予測するエンドツーエンドモデルを構築します。 ステレオプシスを最適化問題とし、簡単な勾配降下により形状とカメラを同時に更新する。 定量的解析を行い,従来の多視点ステレオ手法と最先端学習法との比較を行った。 実世界の課題や複雑な形状、トポロジー、テクスチャを持つ多彩なオブジェクトタイプに対して、説得力のある再構成を示す。 プロジェクトwebページ: https://shubham-goel .github.io/ds/

We propose Differentiable Stereopsis, a multi-view stereo approach that reconstructs shape and texture from few input views and noisy cameras. We pair traditional stereopsis and modern differentiable rendering to build an end-to-end model which predicts textured 3D meshes of objects with varying topologies and shape. We frame stereopsis as an optimization problem and simultaneously update shape and cameras via simple gradient descent. We run an extensive quantitative analysis and compare to traditional multi-view stereo techniques and state-of-the-art learning based methods. We show compelling reconstructions on challenging real-world scenes and for an abundance of object types with complex shape, topology and texture. Project webpage: https://shubham-goel .github.io/ds/
翻訳日:2021-10-12 18:28:57 公開日:2021-10-11
# 適応等化学習による半教師付きセマンティックセグメンテーション

Semi-Supervised Semantic Segmentation via Adaptive Equalization Learning ( http://arxiv.org/abs/2110.05474v1 )

ライセンス: Link先を確認
Hanzhe Hu, Fangyun Wei, Han Hu, Qiwei Ye, Jinshi Cui, Liwei Wang(参考訳) 限定的かつ不均衡なデータであるため、半教師付きセマンティックセグメンテーションは、ロングテールラベル分布を示すcityscapesデータセットのtailedカテゴリなど、いくつかのカテゴリでパフォーマンスが低くなる傾向がある。 既存のアプローチはほぼすべてこの問題を無視し、カテゴリを平等に扱う。 一貫性の正則化や擬似ラベル付けのような一般的なアプローチは、性能の低いカテゴリの学習にも影響し、これらのカテゴリの予測や擬似ラベルは、ラベルなしデータの学習を導くには不正確すぎる可能性がある。 本稿では,この問題を考察し,セミ教師付き意味セグメンテーションのための新しい枠組み,adaptive equalization learning (ael)を提案する。 AELは、訓練中のカテゴリワイドのパフォーマンスを動的に追跡する信頼銀行とともに、良くも悪くも、適切に訓練のバランスをとる。 信頼銀行は、3つの戦略でインスタンス化され、業績の低いカテゴリーにトレーニングを傾けるための指標として活用される。 1)適応型コピーペースト及びカットミクスデータ拡張アプローチにより、低パフォーマンスなカテゴリをコピー又はカットする機会が高まる。 2) 適応的データサンプリングアプローチは,不適切なカテゴリの画素をサンプリングすることを奨励する。 3)疑似ラベルによるトレーニングノイズを軽減するための簡易かつ効果的な再重み付け法 実験的に、AELは様々なデータパーティションプロトコルの下でCityscapesとPascal VOCベンチマークにおいて最先端の手法よりも優れている。 コードはhttps://github.com/h zhupku/SemiSeg-AELで入手できる。

Due to the limited and even imbalanced data, semi-supervised semantic segmentation tends to have poor performance on some certain categories, e.g., tailed categories in Cityscapes dataset which exhibits a long-tailed label distribution. Existing approaches almost all neglect this problem, and treat categories equally. Some popular approaches such as consistency regularization or pseudo-labeling may even harm the learning of under-performing categories, that the predictions or pseudo labels of these categories could be too inaccurate to guide the learning on the unlabeled data. In this paper, we look into this problem, and propose a novel framework for semi-supervised semantic segmentation, named adaptive equalization learning (AEL). AEL adaptively balances the training of well and badly performed categories, with a confidence bank to dynamically track category-wise performance during training. The confidence bank is leveraged as an indicator to tilt training towards under-performing categories, instantiated in three strategies: 1) adaptive Copy-Paste and CutMix data augmentation approaches which give more chance for under-performing categories to be copied or cut; 2) an adaptive data sampling approach to encourage pixels from under-performing category to be sampled; 3) a simple yet effective re-weighting method to alleviate the training noise raised by pseudo-labeling. Experimentally, AEL outperforms the state-of-the-art methods by a large margin on the Cityscapes and Pascal VOC benchmarks under various data partition protocols. Code is available at https://github.com/h zhupku/SemiSeg-AEL
翻訳日:2021-10-12 18:28:45 公開日:2021-10-11
# (参考訳) 多目的対話システムのためのマルチタスク学習 [全文訳有]

Multi-Task Learning for Situated Multi-Domain End-to-End Dialogue Systems ( http://arxiv.org/abs/2110.05221v1 )

ライセンス: CC BY 4.0
Po-Nien Kung, Chung-Cheng Chang, Tse-Hsuan Yang, Hsin-Kai Hsu, Yu-Jia Liou, Yun-Nung Chen(参考訳) タスク指向対話システムは,NLP分野において有望な領域である。 これまでの研究は、単一のGPT-2モデルを用いて、因果言語モデリングによる信念状態と応答を予測することの有効性を示した。 本稿では,マルチタスク学習手法を用いて,複数のドメイン,複数のモダリティ,出力フォーマットの多様性を備えた,より困難なデータセットに基づいてgpt-2ベースのモデルを学習する。 一つのモデルのみを用いることで、タスクやドメイン固有のモデルと比較して、ドメイン間の全てのサブタスクのパフォーマンスが向上する。 さらに, GPT-2に基づく対話システムにおいて, 包括的アブレーション研究による提案手法の評価を行い, 全ての手法が性能を向上できることを示した。

Task-oriented dialogue systems have been a promising area in the NLP field. Previous work showed the effectiveness of using a single GPT-2 based model to predict belief states and responses via causal language modeling. In this paper, we leverage multi-task learning techniques to train a GPT-2 based model on a more challenging dataset with multiple domains, multiple modalities, and more diversity in output formats. Using only a single model, our method achieves better performance on all sub-tasks, across domains, compared to task and domain-specific models. Furthermore, we evaluated several proposed strategies for GPT-2 based dialogue systems with comprehensive ablation studies, showing that all techniques can further improve the performance.
翻訳日:2021-10-12 18:22:26 公開日:2021-10-11
# コットン生産システムにおける雑草種多種識別におけるディープトランスファー学習の性能評価

Performance Evaluation of Deep Transfer Learning on Multiclass Identification of Common Weed Species in Cotton Production Systems ( http://arxiv.org/abs/2110.04960v1 )

ライセンス: Link先を確認
Dong Chen, Yuzhen Lu, Zhaojiang Li, Sierra Young(参考訳) 精密雑草管理は, 個別雑草に適切な制御方法を適用する化学還元型・非化学式ロボット雑草技術を用いて, 持続可能な雑草システムに有望な解決策を提供する。 そのため, 雑草の正確な同定は, 個別の雑草処理を可能にする上で重要な役割を担っている。 本稿では,米国南部の綿花生産システムに特有の雑草を同定するために,DTL(Deep Transfer Learning)を総合的に評価する。 新しい雑草識別用データセットが作成され、2020年と2021年のフィールドシーズンに綿花畑で、自然の照明条件下で収集された15種類の雑草類の5187色画像が作成された。 移動学習により27種類の最先端深層学習モデルを評価し,検討された雑草識別課題の広範な評価基準を確立した。 dtlは95%以上のf1スコアを高い分類精度で達成し、モデル間でかなり短いトレーニング時間(2.5時間未満)を要した。 ResNet101は99.1%のF1スコアを獲得し、27台中14台は98.0%を超えた。 しかし, 従来の非重み付きクロスエントロピー損失関数を用いたモデルでは, トレーニングサンプルが少ないマイノリティ雑草群の性能は良好ではなかった。 この問題に対処するために, マイノリティー雑草集団の格付けを著しく改善した重み付きクロスエントロピー損失関数が採用された。 さらに,深層学習に基づくコサイン類似度尺度を用いて,雑草類間の類似度を分析し,分類の解釈を支援する。 モデルベンチマークのためのコードとweedデータセットの両方が公開されている。

Precision weed management offers a promising solution for sustainable cropping systems through the use of chemical-reduced/non -chemical robotic weeding techniques, which apply suitable control tactics to individual weeds. Therefore, accurate identification of weed species plays a crucial role in such systems to enable precise, individualized weed treatment. This paper makes a first comprehensive evaluation of deep transfer learning (DTL) for identifying common weeds specific to cotton production systems in southern United States. A new dataset for weed identification was created, consisting of 5187 color images of 15 weed classes collected under natural lighting conditions and at varied weed growth stages, in cotton fields during the 2020 and 2021 field seasons. We evaluated 27 state-of-the-art deep learning models through transfer learning and established an extensive benchmark for the considered weed identification task. DTL achieved high classification accuracy of F1 scores exceeding 95%, requiring reasonably short training time (less than 2.5 hours) across models. ResNet101 achieved the best F1-score of 99.1% whereas 14 out of the 27 models achieved F1 scores exceeding 98.0%. However, the performance on minority weed classes with few training samples was less satisfactory for models trained with a conventional, unweighted cross entropy loss function. To address this issue, a weighted cross entropy loss function was adopted, which achieved substantially improved accuracies for minority weed classes. Furthermore, a deep learning-based cosine similarity metrics was employed to analyze the similarity among weed classes, assisting in the interpretation of classifications. Both the codes for model benchmarking and the weed dataset are made publicly available, which expect to be be a valuable resource for future research in weed identification and beyond.
翻訳日:2021-10-12 18:01:56 公開日:2021-10-11
# long-tailed recognitionのためのラベル出現バランスミックスアップ

Label-Occurrence-Bal anced Mixup for Long-tailed Recognition ( http://arxiv.org/abs/2110.04964v1 )

ライセンス: Link先を確認
Shaoyu Zhang, Chen Chen, Xiujuan Zhang, Silong Peng(参考訳) Mixupは一般的なデータ拡張手法であり、その後多くの変種が提案されている。 これらの手法は主に、ランダムデータペアとそれに対応する1ホットラベルの凸結合による新しい例を作成する。 しかし,そのほとんどは混合過程におけるラベル発生頻度を考慮せず,ランダムサンプリングと混合戦略に固執している。 ロングテールデータにミックスアップを適用すると、各クラスに対するラベル発生頻度が不均衡になり、新しい例のほとんどがヘッドラベルで完全にまたは部分的に割り当てられるラベル抑圧問題が発生する。 この抑制効果は、データ不均衡の問題をさらに悪化させ、テールクラスのパフォーマンスが低下する可能性がある。 この問題に対処するため,各クラス毎のラベル発生量を統計的にバランスよく保ちながら,データの増大を図るラベル・オクレンス・バランサード・ミックスアップを提案する。 一言で言えば、2つの独立したクラスバランスのサンプルを用いてデータペアを選択し、それらを混合して新しいデータを生成する。 本手法を複数の長尾視覚および音響認識ベンチマークでテストした。 実験の結果,不均衡データに対するmixup法の適応性は,最先端のロングテール学習法と比較して有意に向上した。

Mixup is a popular data augmentation method, with many variants subsequently proposed. These methods mainly create new examples via convex combination of random data pairs and their corresponding one-hot labels. However, most of them adhere to a random sampling and mixing strategy, without considering the frequency of label occurrence in the mixing process. When applying mixup to long-tailed data, a label suppression issue arises, where the frequency of label occurrence for each class is imbalanced and most of the new examples will be completely or partially assigned with head labels. The suppression effect may further aggravate the problem of data imbalance and lead to a poor performance on tail classes. To address this problem, we propose Label-Occurrence-Bal anced Mixup to augment data while keeping the label occurrence for each class statistically balanced. In a word, we employ two independent class-balanced samplers to select data pairs and mix them to generate new data. We test our method on several long-tailed vision and sound recognition benchmarks. Experimental results show that our method significantly promotes the adaptability of mixup method to imbalanced data and achieves superior performance compared with state-of-the-art long-tailed learning methods.
翻訳日:2021-10-12 18:01:25 公開日:2021-10-11
# 3次元知覚のためのステレオハイブリッドイベントフレーム(SHEF)カメラ

Stereo Hybrid Event-Frame (SHEF) Cameras for 3D Perception ( http://arxiv.org/abs/2110.04988v1 )

ライセンス: Link先を確認
Ziwei Wang, Liyuan Pan, Yonhon Ng, Zheyu Zhuang, Robert Mahony(参考訳) ステレオカメラシステムは、3d世界を知覚するロボット応用において重要な役割を担っている。 しかし,従来のカメラには,フレームベース機構による低ダイナミックレンジ,動作のぼやけ,遅延などの欠点がある。 イベントカメラは、各ピクセルの明るさ変化を微妙な時間分解能で独立に報告するが、絶対強度情報を直接取得することはできない。 統合型イベントフレームセンサ(DAVISなど)が利用可能であるが、そのようなカメラの回路構成において、画素レベルでの結合によってデータの質が損なわれる。 本稿では,ハイクオリティな純粋なイベントと純粋なフレームカメラを分離したセンサモダリティを提供し,各センサの限界を克服し,ステレオ深度推定を可能にするステレオハイブリッドイベントフレーム(shef)カメラシステムを提案する。 フレームデータに検出されたエッジと相関するイベントストリームから抽出されたエッジ情報を用いたステレオ不等式推定アルゴリズムを導入する。 我々の差分推定はSHEFデータセット上で最先端のステレオマッチングアルゴリズムより優れている。

Stereo camera systems play an important role in robotics applications to perceive the 3D world. However, conventional cameras have drawbacks such as low dynamic range, motion blur and latency due to the underlying frame-based mechanism. Event cameras address these limitations as they report the brightness changes of each pixel independently with a fine temporal resolution, but they are unable to acquire absolute intensity information directly. Although integrated hybrid event-frame sensors (eg., DAVIS) are available, the quality of data is compromised by coupling at the pixel level in the circuit fabrication of such cameras. This paper proposes a stereo hybrid event-frame (SHEF) camera system that offers a sensor modality with separate high-quality pure event and pure frame cameras, overcoming the limitations of each separate sensor and allowing for stereo depth estimation. We provide a SHEF dataset targeted at evaluating disparity estimation algorithms and introduce a stereo disparity estimation algorithm that uses edge information extracted from the event stream correlated with the edge detected in the frame data. Our disparity estimation outperforms the state-of-the-art stereo matching algorithm on the SHEF dataset.
翻訳日:2021-10-12 18:01:04 公開日:2021-10-11
# EDFace-Celeb-1M:数百万のデータセットによる顔の幻覚のベンチマーク

EDFace-Celeb-1M: Benchmarking Face Hallucination with a Million-scale Dataset ( http://arxiv.org/abs/2110.05031v1 )

ライセンス: Link先を確認
Kaihao Zhang, Dongxu Li, Wenhan Luo, Jingyu Liu, Jiankang Deng, Wei Liu, Stefanos Zafeiriou(参考訳) 最近のディープフェイス幻覚法は、人間の能力を超越した、非常に分解性の高い顔画像の素晴らしいパフォーマンスを示している。 しかし、これらのアルゴリズムは主に非パブリックな合成データセットで評価される。 したがって、これらのアルゴリズムが公衆の顔幻覚データセットでどのように振る舞うかは不明である。 一方、既存のデータセットのほとんどは、人種の分布を十分に考慮していないため、これらのデータセットでトレーニングされた顔の幻覚は、特定の人種に偏っている。 上記の2つの問題に対処するため、本稿では、Ethnically Diverse Face データセット EDFace-Celeb-1M を構築し、顔幻覚のためのベンチマークタスクを設計する。 私たちのデータセットには、さまざまな国をカバーする170万枚の写真が含まれています。 私たちの知る限りでは、顔の幻覚データセットは世界で最大で一般公開されている。 本研究は, 各種評価プロトコルにも貢献し, 既存の最先端手法をベンチマークする包括的分析を行う。 ベンチマーク評価は最先端アルゴリズムの性能と限界を示している。

Recent deep face hallucination methods show stunning performance in super-resolving severely degraded facial images, even surpassing human ability. However, these algorithms are mainly evaluated on non-public synthetic datasets. It is thus unclear how these algorithms perform on public face hallucination datasets. Meanwhile, most of the existing datasets do not well consider the distribution of races, which makes face hallucination methods trained on these datasets biased toward some specific races. To address the above two problems, in this paper, we build a public Ethnically Diverse Face dataset, EDFace-Celeb-1M, and design a benchmark task for face hallucination. Our dataset includes 1.7 million photos that cover different countries, with balanced race composition. To the best of our knowledge, it is the largest and publicly available face hallucination dataset in the wild. Associated with this dataset, this paper also contributes various evaluation protocols and provides comprehensive analysis to benchmark the existing state-of-the-art methods. The benchmark evaluations demonstrate the performance and limitations of state-of-the-art algorithms.
翻訳日:2021-10-12 18:00:45 公開日:2021-10-11
# LSC-GAN:連続画像画像変換のための潜在型コードモデリング

LSC-GAN: Latent Style Code Modeling for Continuous Image-to-image Translation ( http://arxiv.org/abs/2110.05052v1 )

ライセンス: Link先を確認
Qiusheng Huang, Xueqi Hu, Li Sun and Qingli Li(参考訳) 画像から画像への変換(i2i)は通常、離散領域間で行われる。 しかし、しばしば物理値に対応する画像領域は通常連続である。 言い換えれば、画像はその値によって徐々に変化し、異なる領域の間に明らかなギャップは存在しない。 本稿では,連続的なドメイン間のI2I翻訳モデルを構築することを目的とする。 まず、ドメインのカバレッジ全体を個別の間隔に分割し、各間隔の中心の潜在スタイルコードを明示的にモデル化する。 連続翻訳を扱うために,我々は2方向に沿って潜在スタイルコードを変更する編集モジュールを設計した。 これらの編集モジュールは、トレーニング中のドメインセンタのコードを制限するのに役立ち、モデルがそれらの関係をよりよく理解できるようにします。 様々な結果を得るために、潜在スタイルコードは、基準画像からのランダムノイズまたは特徴によりさらに多様化され、ラベルベースまたは参照ベース合成のためのデコーダに個々のスタイルコードを与える。 年齢・視角変換に関する大規模な実験により,提案手法は高品質な結果が得られるとともに,ユーザにも柔軟であることが示された。

Image-to-image (I2I) translation is usually carried out among discrete domains. However, image domains, often corresponding to a physical value, are usually continuous. In other words, images gradually change with the value, and there exists no obvious gap between different domains. This paper intends to build the model for I2I translation among continuous varying domains. We first divide the whole domain coverage into discrete intervals, and explicitly model the latent style code for the center of each interval. To deal with continuous translation, we design the editing modules, changing the latent style code along two directions. These editing modules help to constrain the codes for domain centers during training, so that the model can better understand the relation among them. To have diverse results, the latent style code is further diversified with either the random noise or features from the reference image, giving the individual style code to the decoder for label-based or reference-based synthesis. Extensive experiments on age and viewing angle translation show that the proposed method can achieve high-quality results, and it is also flexible for users.
翻訳日:2021-10-12 18:00:30 公開日:2021-10-11
# VTBR:人体再同定のための意味に基づく事前訓練

VTBR: Semantic-based Pretraining for Person Re-Identification ( http://arxiv.org/abs/2110.05074v1 )

ライセンス: Link先を確認
Suncheng Xiang, Zirui Zhang, Mengyuan Guan, Hao Chen, Binjie Yan, Ting Liu, Yuzhuo Fu(参考訳) プレトレーニングはコンピュータビジョンにおいて支配的なパラダイムである。 一般的に、教師付きImageNetプリトレーニングは、人の再識別(Re-ID)モデルのバックボーンの初期化に使用される。 しかし、最近の研究では、ImageNetプレトレーニングが、ImageNetと人物Re-IDデータの間に大きなドメインギャップがあるため、Re-IDシステムに限られた影響を与えることが示されている。 従来の事前トレーニングの代替として,個人によるRe-IDイベントにおいて,FineGPR-Cキャプションデータセットを手作業で構築する。 そこで本研究では,高密度キャプションを用いて画像の少ない視覚表現を学習する,VTBRという純粋意味に基づく事前学習手法を提案する。 具体的には、FinGPR-Cデータセットのキャプションから畳み込みネットワークをトレーニングし、それらを下流のRe-IDタスクに転送する。 ベンチマークで実施された総合的な実験によると、VTBRは ImageNet の事前トレーニングと比較して、最大1.4倍のイメージを使用でき、Re-ID の事前トレーニングの可能性を示している。

Pretraining is a dominant paradigm in computer vision. Generally, supervised ImageNet pretraining is commonly used to initialize the backbones of person re-identification (Re-ID) models. However, recent works show a surprising result that ImageNet pretraining has limited impacts on Re-ID system due to the large domain gap between ImageNet and person Re-ID data. To seek an alternative to traditional pretraining, we manually construct a diversified FineGPR-C caption dataset for the first time on person Re-ID events. Based on it, we propose a pure semantic-based pretraining approach named VTBR, which uses dense captions to learn visual representations with fewer images. Specifically, we train convolutional networks from scratch on the captions of FineGPR-C dataset, and transfer them to downstream Re-ID tasks. Comprehensive experiments conducted on benchmarks show that our VTBR can achieve competitive performance compared with ImageNet pretraining -- despite using up to 1.4x fewer images, revealing its potential in Re-ID pretraining.
翻訳日:2021-10-12 18:00:13 公開日:2021-10-11
# 3次元人物位置推定のための適応的多視点・時間変動変換器

Adaptively Multi-view and Temporal Fusing Transformer for 3D Human Pose Estimation ( http://arxiv.org/abs/2110.05092v1 )

ライセンス: Link先を確認
Hui Shuai, Lele Wu, and Qingshan Liu(参考訳) 現実的な応用として、HPE(3D Human Pose Estimation)は、ビューの数、ビデオシーケンスの長さ、カメラキャリブレーションの使用の有無など、様々な要素に直面している。 そこで我々はMTF変換器(Multi-view and Temporal Fusing Transformer)という統合フレームワークを提案する。 MTF-Transformer は Feature Extractor, Multi-view Fusing Transformer (MFT), Temporal Fusing Transformer (TFT) から構成される。 Feature Extractorは、各画像から2Dのポーズを推定し、予測された座標と信頼を3Dのポーズ推論のために特徴埋め込みにエンコードする。 画像の特徴を捨てて、2Dのポーズを3Dのポーズに上げることに集中し、その後のモジュールはビデオを扱うのに十分軽量になる。 MFTは、様々な数のビューの特徴を相対的アテンションブロックで融合させる。 それぞれのビュー間の暗黙の関係を適応的に測定し、特徴を再構築する。 tftは、全シーケンスの特徴を集約し、ビデオの長さに適応し、時間的情報を最大限活用したトランスフォーマーを介して3dポーズを予測する。 これらのモジュールにより、MTF-Transformerはモノクロ・シングル画像からマルチビュービデオまで様々なアプリケーションシーンを処理し、カメラキャリブレーションは回避できる。 我々は,Human3.6M,TotalCapt ure,KTH Multiview Football IIの定量的,定性的な結果を示す。 カメラパラメータを用いた最先端の手法と比較して、MTF-Transformerは同等の結果を得るだけでなく、任意の数の未知のビューで動的キャプチャーを一般化する。 コードはhttps://github.com/l elexx/MTF-Transforme rで入手できる。

In practical application, 3D Human Pose Estimation (HPE) is facing with several variable elements, involving the number of views, the length of the video sequence, and whether using camera calibration. To this end, we propose a unified framework named Multi-view and Temporal Fusing Transformer (MTF-Transformer) to adaptively handle varying view numbers and video length without calibration. MTF-Transformer consists of Feature Extractor, Multi-view Fusing Transformer (MFT), and Temporal Fusing Transformer (TFT). Feature Extractor estimates the 2D pose from each image and encodes the predicted coordinates and confidence into feature embedding for further 3D pose inference. It discards the image features and focuses on lifting the 2D pose into the 3D pose, making the subsequent modules computationally lightweight enough to handle videos. MFT fuses the features of a varying number of views with a relative-attention block. It adaptively measures the implicit relationship between each pair of views and reconstructs the features. TFT aggregates the features of the whole sequence and predicts 3D pose via a transformer, which is adaptive to the length of the video and takes full advantage of the temporal information. With these modules, MTF-Transformer handles different application scenes, varying from a monocular-single-ima ge to multi-view-video, and the camera calibration is avoidable. We demonstrate quantitative and qualitative results on the Human3.6M, TotalCapture, and KTH Multiview Football II. Compared with state-of-the-art methods with camera parameters, experiments show that MTF-Transformer not only obtains comparable results but also generalizes well to dynamic capture with an arbitrary number of unseen views. Code is available in https://github.com/l elexx/MTF-Transforme r.
翻訳日:2021-10-12 17:59:53 公開日:2021-10-11
# (参考訳) ポインタネットワークを用いたボトムアップ構成解析とネスト付き名前付きエンティティ認識 [全文訳有]

Bottom-Up Constituency Parsing and Nested Named Entity Recognition with Pointer Networks ( http://arxiv.org/abs/2110.05419v1 )

ライセンス: CC0 1.0
Songlin Yang and Kewei Tu(参考訳) 構成構文解析とネスト付き名前付きエンティティ認識(ner)は、ネストされたスパンと非クロススパンのコレクションの予測を目的としているため、典型的な \textit{nested structured prediction}タスクである。 ネストされたNERに取り組むために選挙区解析手法を適用する以前の多くの研究がある。 本研究では,2つのタスクを行うために,ポインタネットワークを用いたボトムアップ解析のための新たなグローバルポインティング機構を提案する。 提案手法は,すべてのBERTベースモデル (96.01 F1スコア) とCTB7における競合性能,およびネストしたNERの3つのベンチマークデータセット(ACE 2004,ACE2005,GENIA)と比較した。 我々のコードは \url{https://github.com/s ustcsonglin/pointer- net-for-nested} で公開されている。

Constituency parsing and nested named entity recognition (NER) are typical \textit{nested structured prediction} tasks since they both aim to predict a collection of nested and non-crossing spans. There are many previous studies adapting constituency parsing methods to tackle nested NER. In this work, we propose a novel global pointing mechanism for bottom-up parsing with pointer networks to do both tasks, which needs linear steps to parse. Our method obtain the state-of-the-art performance on PTB among all BERT-based models (96.01 F1 score) and competitive performance on CTB7 in constituency parsing; and comparable performance on three benchmark datasets of nested NER: ACE2004, ACE2005, and GENIA. Our code is publicly available at \url{https://github.com/s ustcsonglin/pointer- net-for-nested}
翻訳日:2021-10-12 17:58:09 公開日:2021-10-11
# WeTS: 翻訳提案のためのベンチマーク

WeTS: A Benchmark for Translation Suggestion ( http://arxiv.org/abs/2110.05151v1 )

ライセンス: Link先を確認
Zhen Yang, Yingxue Zhang, Ernan Li, Fandong Meng and Jie Zhou(参考訳) 機械翻訳(MT) \cite{lee2021intellicat} によって翻訳された文書全体に対する特定の単語やフレーズの代替を提供する翻訳提案(TS)は、ポスト編集(PE)において重要な役割を果たすことが証明されている。 しかし、この問題の詳細な研究を支援するためのデータセットがまだ公開されておらず、再現可能な実験結果もこのコミュニティの研究者に追従できない。 この制限を破るために、私たちは、専門家翻訳者が4つの翻訳方向で注釈付けした黄金のコーパスを含むTSのベンチマークデータセットである「emph{WeTS}」を作成します。 また,ヒトに注釈を付けたゴールデンコーパスとは別に,TSの性能を大幅に向上させる合成コーパスの生成方法も提案した。 提案するコーパスを用いてts用トランスフォーマーモデルを導入し,本モデルが英語とドイツ語,ドイツ語と英語,中国語と中国語の4つの翻訳方向すべてにおいて最先端(sota)結果を達成することを実験的に示した。 コードとコーパスは \url{https://github.com/Z henYangIACAS/WeTS.gi t} で見ることができる。

Translation Suggestion (TS), which provides alternatives for specific words or phrases given the entire documents translated by machine translation (MT) \cite{lee2021intellicat}, has been proven to play a significant role in post editing (PE). However, there is still no publicly available data set to support in-depth research for this problem, and no reproducible experimental results can be followed by researchers in this community. To break this limitation, we create a benchmark data set for TS, called \emph{WeTS}, which contains golden corpus annotated by expert translators on four translation directions. Apart from the human-annotated golden corpus, we also propose several novel methods to generate synthetic corpus which can substantially improve the performance of TS. With the corpus we construct, we introduce the Transformer-based model for TS, and experimental results show that our model achieves State-Of-The-Art (SOTA) results on all four translation directions, including English-to-German, German-to-English, Chinese-to-English and English-to-Chinese. Codes and corpus can be found at \url{https://github.com/Z henYangIACAS/WeTS.gi t}.
翻訳日:2021-10-12 17:40:22 公開日:2021-10-11
# K-Wav2vec 2.0:GraphemesとSyllablesの結合復号に基づく音声認識

K-Wav2vec 2.0: Automatic Speech Recognition based on Joint Decoding of Graphemes and Syllables ( http://arxiv.org/abs/2110.05172v1 )

ライセンス: Link先を確認
Jounghee Kim, Pilsung Kang(参考訳) wav2vec 2.0は、音声表現のための自己教師あり学習のエンドツーエンドフレームワークであり、自動音声認識(asr)に成功している。 したがって、ハングル独自の文字体系を持つ韓国語など、異なる表記体系を持つ他の言語を認識するのに自己教師付きフレームワークが有効であるかどうかは不明である。 本稿では,韓国自動音声認識用に設計されたwav2vec 2.0の改良版であるk-wav2vec 2.0を提案する。 本稿では,韓国の文字構造を反映するマルチタスク階層アーキテクチャを提案する。 また、語彙の外に存在する単語の問題を緩和するために共用デコーダを適用する。 事前学習では,韓国語のデータセット上で英語のwav2vec 2.0を事前学習することで,事前学習モデルの言語間伝達を試みた。 提案手法は,韓国asrデータセットにおいて,ksponspeech(大規模韓国音声コーパス)とclovacall(コールベースダイアログコーパス)の双方で最高の性能を発揮することを示す。 さらに事前学習は言語適応にも有効であり、追加データなしで大幅に改善される。

Wav2vec 2.0 is an end-to-end framework of self-supervised learning for speech representation that is successful in automatic speech recognition (ASR), but most of the work on the topic has been developed with a single language: English. Therefore, it is unclear whether the self-supervised framework is effective in recognizing other languages with different writing systems, such as Korean which uses the Hangul having a unique writing system. In this paper, we present K-Wav2Vec 2.0, which is a modified version of Wav2vec 2.0 designed for Korean automatic speech recognition by exploring and optimizing various factors of the original Wav2vec 2.0. In fine-tuning, we propose a multi-task hierarchical architecture to reflect the Korean writing structure. Moreover, a joint decoder is applied to alleviate the problem of words existing outside of the vocabulary. In pre-training, we attempted the cross-lingual transfer of the pre-trained model by further pre-training the English Wav2vec 2.0 on a Korean dataset, considering limited resources. Our experimental results demonstrate that the proposed method yields the best performance on both Korean ASR datasets: Ksponspeech (a large-scale Korean speech corpus) and Clovacall (a call-based dialog corpus). Further pre-training is also effective in language adaptation, leading to large improvements without additional data.
翻訳日:2021-10-12 17:39:58 公開日:2021-10-11
# マスク言語モデリングの利点について:単純さバイアスに対するロバスト性

On a Benefit of Mask Language Modeling: Robustness to Simplicity Bias ( http://arxiv.org/abs/2110.05301v1 )

ライセンス: Link先を確認
Ting-Rui Chiang(参考訳) MLM (Pretrained masked language model) の成功にもかかわらず、MLM事前訓練が有用である理由は、まだ完全には答えられていない。 本研究は,MLM事前学習が,レキシコンレベルの突発的特徴に対して頑健なモデルを実現することを理論的かつ実証的に示す。 理論的には、文脈で条件付けられたスプリアス機能$\pi$の分布をモデル化できる場合、(1)スプリアス機能と同等の情報量であり、(2)スプリアス機能から学ぶのと同じくらい単純である。 したがって、MLM事前訓練は、この突発的特徴に起因する単純さのバイアスからモデルを救う。 因果的設定におけるMLM前処理の有効性についても検討した。 最後に,我々の理論と実世界の実践とのギャップを,ヘイトスピーチ検出と名前認識タスクの実験によって埋める。

Despite the success of pretrained masked language models (MLM), why MLM pretraining is useful is still a qeustion not fully answered. In this work we theoretically and empirically show that MLM pretraining makes models robust to lexicon-level spurious features, partly answer the question. We theoretically show that, when we can model the distribution of a spurious feature $\Pi$ conditioned on the context, then (1) $\Pi$ is at least as informative as the spurious feature, and (2) learning from $\Pi$ is at least as simple as learning from the spurious feature. Therefore, MLM pretraining rescues the model from the simplicity bias caused by the spurious feature. We also explore the efficacy of MLM pretraing in causal settings. Finally we close the gap between our theories and the real world practices by conducting experiments on the hate speech detection and the name entity recognition tasks.
翻訳日:2021-10-12 17:39:36 公開日:2021-10-11
# セマンティック距離メトリックによる音声認識システム品質のユーザ認識の評価

Evaluating User Perception of Speech Recognition System Quality with Semantic Distance Metric ( http://arxiv.org/abs/2110.05376v1 )

ライセンス: Link先を確認
Suyoun Kim, Duc Le, Weiyi Zheng, Tarun Singh, Abhinav Arora, Xiaoyu Zhai, Christian Fuegen, Ozlem Kalinli, Michael L. Seltzer(参考訳) 自動音声認識(ASR)システム品質の測定は、ユーザ満足度の高い音声駆動アプリケーションを作成する上で重要である。 Word Error Rate (WER) はASRシステムの品質を評価するために伝統的に用いられてきたが、ユーザによる転写品質の認識と相関することがある。 これは、WERが全ての単語を均等に重み付け、ユーザーの知覚に影響を及ぼす意味的正しさを考慮しないためである。 本研究では,参照のセマンティックベクトルと事前学習された言語モデルから抽出した仮説との距離を用いて意味的正しさを計測できるSemDistを用いたASR出力仮説の品質評価を提案する。 71K と 36K のユーザアノテート ASR 出力品質実験の結果,SemDist は WER よりもユーザ認識との相関性が高いことがわかった。 また、SemDistは、WERよりも下流のNLUタスクとの相関が高いことを示す。

Measuring automatic speech recognition (ASR) system quality is critical for creating user-satisfying voice-driven applications. Word Error Rate (WER) has been traditionally used to evaluate ASR system quality; however, it sometimes correlates poorly with user perception of transcription quality. This is because WER weighs every word equally and does not consider semantic correctness which has a higher impact on user perception. In this work, we propose evaluating ASR output hypotheses quality with SemDist that can measure semantic correctness by using the distance between the semantic vectors of the reference and hypothesis extracted from a pre-trained language model. Our experimental results of 71K and 36K user annotated ASR output quality show that SemDist achieves higher correlation with user perception than WER. We also show that SemDist has higher correlation with downstream NLU tasks than WER.
翻訳日:2021-10-12 17:39:19 公開日:2021-10-11
# 文書類似性を用いたコード翻訳のための並列データセット作成

Using Document Similarity Methods to create Parallel Datasets for Code Translation ( http://arxiv.org/abs/2110.05423v1 )

ライセンス: Link先を確認
Mayank Agarwal, Kartik Talamadupula, Fernando Martinez, Stephanie Houde, Michael Muller, John Richards, Steven I Ross, Justin D. Weisz(参考訳) あるプログラミング言語から別のプログラミング言語へのソースコードの変換は、レガシーアプリケーションやコードベースの近代化において重要な時間を要するタスクである。 この分野での最近の研究は、コード翻訳タスクの自動化に自然言語処理技術を適用することで、ソフトウェア自然性仮説から着想を得ている。 しかし、この領域における並列データの不完全さのため、教師付き手法は人気のあるプログラミング言語の限られたセットにのみ適用されている。 この制限を回避するために、単言語コーパスのみを用いてコード翻訳を学ぶために教師なしニューラルネットワーク翻訳技術が提案されている。 そこで本研究では,並列コードデータセットの可用性や高価なキュレーションを必要とせずに,教師付き手法を自動コード翻訳に適用する手法を提案する。 このような自動生成データセットでトレーニングされたモデルのノイズ許容性を調査し、適切なノイズレベルのために基底真理でトレーニングされたモデルと同等の性能を示す。 最後に, 提案手法の実用性を示すために, 先行研究で探索された言語以外の言語のための並列データセットを作成し, 自動コード翻訳のためのプログラミング言語セットを拡張した。

Translating source code from one programming language to another is a critical, time-consuming task in modernizing legacy applications and codebases. Recent work in this space has drawn inspiration from the software naturalness hypothesis by applying natural language processing techniques towards automating the code translation task. However, due to the paucity of parallel data in this domain, supervised techniques have only been applied to a limited set of popular programming languages. To bypass this limitation, unsupervised neural machine translation techniques have been proposed to learn code translation using only monolingual corpora. In this work, we propose to use document similarity methods to create noisy parallel datasets of code, thus enabling supervised techniques to be applied for automated code translation without having to rely on the availability or expensive curation of parallel code datasets. We explore the noise tolerance of models trained on such automatically-create d datasets and show that these models perform comparably to models trained on ground truth for reasonable levels of noise. Finally, we exhibit the practical utility of the proposed method by creating parallel datasets for languages beyond the ones explored in prior work, thus expanding the set of programming languages for automated code translation.
翻訳日:2021-10-12 17:39:05 公開日:2021-10-11
# (参考訳) カタストロフィック・フォーミングを伴わない事前学習言語モデルのジェンダーフェアネスの改善 [全文訳有]

Improving Gender Fairness of Pre-Trained Language Models without Catastrophic Forgetting ( http://arxiv.org/abs/2110.05367v1 )

ライセンス: CC BY 4.0
Zahra Fatemi, Chen Xing, Wenhao Liu, Caiming Xiong(参考訳) BERTのような事前学習された言語モデルは、多くの言語理解タスクにおいて最先端のパフォーマンスを達成するが、トレーニングデータから強い性別バイアスを継承することが示されている。 事前学習モデルのジェンダーバイアス問題に対処する既存の研究は、通常、自身でジェンダー中立なデータを収集し構築し、そのようなデータを用いて、解放された事前学習されたモデルで第二段階の事前学習を行う。 しかし,性別ニュートラルデータの限られたサイズと,その潜在的分布ミスマッチが元の事前学習データと一致していることを考えると,第2相事前学習中に破滅的な忘れが生じる。 元のトレーニングデータを忘れれば、モデルのダウンストリームのパフォーマンスを大きなマージンに損なう可能性がある。 本研究は,第2相事前学習のための性別ニュートラルデータが元のトレーニングデータから来るとしても,男女ニュートラルデータのサイズが元のトレーニングデータよりも小さい場合,破滅的な忘れ込みが発生することを実証的に示す。 そこで本研究では,前訓練モデルの性公平性を改善するための新しい方法である性平等プロンプト(geep)を提案する。 GEEPは、凍結言語モデルに基づく性別バイアスを減らすための性別関連プロンプトを学習する。 事前学習されたパラメータはすべて凍結されるため、元のトレーニングデータからの情報をほとんど忘れてしまう可能性がある。 そしてGEEPは、凍結モデルで条件付けされた男女平等が促されるにつれて、新しい職業名の埋め込みを訓練する。 実験の結果,GEEPは代名詞予測やコア参照解決などの様々な応用において,男女の偏りに関する最先端のパフォーマンスを達成できるだけでなく,GLUEのような従来の事前学習モデルを用いたダウンストリームタスクにおいて,ほとんど忘れずに同等の結果が得られることがわかった。

Although pre-trained language models, such as BERT, achieve state-of-art performance in many language understanding tasks, they have been demonstrated to inherit strong gender bias from its training data. Existing studies addressing the gender bias issue of pre-trained models, usually recollect and build gender-neutral data on their own and conduct a second phase pre-training on the released pre-trained model with such data. However, given the limited size of the gender-neutral data and its potential distributional mismatch with the original pre-training data, catastrophic forgetting would occur during the second-phase pre-training. Forgetting on the original training data may damage the model's downstream performance to a large margin. In this work, we first empirically show that even if the gender-neutral data for second-phase pre-training comes from the original training data, catastrophic forgetting still occurs if the size of gender-neutral data is smaller than that of original training data. Then, we propose a new method, GEnder Equality Prompt (GEEP), to improve gender fairness of pre-trained models without forgetting. GEEP learns gender-related prompts to reduce gender bias, conditioned on frozen language models. Since all pre-trained parameters are frozen, forgetting on information from the original training data can be alleviated to the most extent. Then GEEP trains new embeddings of profession names as gender equality prompts conditioned on the frozen model. Empirical results show that GEEP not only achieves state-of-the-art performances on gender debiasing in various applications such as pronoun predicting and coreference resolution, but also achieves comparable results on general downstream tasks such as GLUE with original pre-trained models without much forgetting.
翻訳日:2021-10-12 17:29:31 公開日:2021-10-11
# Mesh Draping: パラメトリゼーションフリーなニューラルメッシュ転送

Mesh Draping: Parametrization-Free Neural Mesh Transfer ( http://arxiv.org/abs/2110.05433v1 )

ライセンス: Link先を確認
Amir Hertz, Or Perel, Raja Giryes, Olga Sorkine-Hornung and Daniel Cohen-Or(参考訳) 近年の幾何学的モデリングの進歩にもかかわらず、3Dメッシュモデリングには専門家によるかなりの手作業が伴う。 本稿では,既存のメッシュ構造をある形状から別の形状に伝達するニューラルネットワークであるメッシュドレイピングを紹介する。 提案手法は, ソースメッシュをターゲット形状上に滴下し, 同時に, ソースメッシュの特徴を慎重に設計したまま保存する。 本手法の中核は,プログレッシブな位置符号化を用いたソースメッシュの変形である。 徐々に増加する周波数を利用してニューラル最適化を導くことにより、安定かつ高品質なメッシュ転送を実現することができることを示す。 私たちのアプローチはシンプルで、パラメトリゼーションや注意深い手動チューニングに依存する現代の表面マッピング技術と比較して、ユーザガイダンスをほとんど必要としません。 最も重要なのは、メッシュドローピングはパラメータ化フリーな方法であり、ポイントクラウド、ポリゴンスープ、非マニフォールドメッシュなど、さまざまなターゲット形状表現に適用できる。 転送されたメッシュは、ソースメッシュの設計特性に忠実であり、同時にターゲットジオメトリにも適していることを実証する。

Despite recent advances in geometric modeling, 3D mesh modeling still involves a considerable amount of manual labor by experts. In this paper, we introduce Mesh Draping: a neural method for transferring existing mesh structure from one shape to another. The method drapes the source mesh over the target geometry and at the same time seeks to preserve the carefully designed characteristics of the source mesh. At its core, our method deforms the source mesh using progressive positional encoding. We show that by leveraging gradually increasing frequencies to guide the neural optimization, we are able to achieve stable and high quality mesh transfer. Our approach is simple and requires little user guidance, compared to contemporary surface mapping techniques which rely on parametrization or careful manual tuning. Most importantly, Mesh Draping is a parameterization-fre e method, and thus applicable to a variety of target shape representations, including point clouds, polygon soups, and non-manifold meshes. We demonstrate that the transferred meshing remains faithful to the source mesh design characteristics, and at the same time fits the target geometry well.
翻訳日:2021-10-12 17:14:33 公開日:2021-10-11
# 話者認識のための多視点自己認識型変換器

Multi-View Self-Attention Based Transformer for Speaker Recognition ( http://arxiv.org/abs/2110.05036v1 )

ライセンス: Link先を確認
Rui Wang, Junyi Ao, Long Zhou, Shujie Liu, Zhihua Wei, Tom Ko, Qing Li, Yu Zhang(参考訳) 当初、自然言語処理(nlp)用に開発されたトランスフォーマーモデルは、強力なシーケンスモデリング能力のため、話者認識などの音声処理タスクに広く使用されている。 しかし、従来のセルフアテンション機構は、音声や話者モデルの特徴を考慮せずにテキストシーケンスをモデル化するように設計されている。 また、話者認識のための異なるトランスフォーマティブも十分に研究されていない。 本研究では,新しい多視点自己着脱機構を提案し,提案する話者認識のための注意機構の有無を問わないトランスフォーマティブの実験的検討を行う。 具体的には、グローバル依存を捉えて局所性をモデル化する能力のバランスをとるために、異なる注意ヘッドが受容野の異なる範囲に到達できる話者トランスフォーマのための多視点自己照準機構を提案する。 さらに,5種類のTransformer変種と異なるネットワークアーキテクチャ,埋め込み場所,話者埋め込み学習のためのプール手法を導入・比較する。 voxceleb1およびvoxceleb2データセットにおける実験結果から,提案する多視点自己照準機構は話者認識性能の向上を達成し,提案する話者トランスフォーマネットワークは最先端モデルと比較して優れた結果を得た。

Initially developed for natural language processing (NLP), Transformer model is now widely used for speech processing tasks such as speaker recognition, due to its powerful sequence modeling capabilities. However, conventional self-attention mechanisms are originally designed for modeling textual sequence without considering the characteristics of speech and speaker modeling. Besides, different Transformer variants for speaker recognition have not been well studied. In this work, we propose a novel multi-view self-attention mechanism and present an empirical study of different Transformer variants with or without the proposed attention mechanism for speaker recognition. Specifically, to balance the capabilities of capturing global dependencies and modeling the locality, we propose a multi-view self-attention mechanism for speaker Transformer, in which different attention heads can attend to different ranges of the receptive field. Furthermore, we introduce and compare five Transformer variants with different network architectures, embedding locations, and pooling methods to learn speaker embeddings. Experimental results on the VoxCeleb1 and VoxCeleb2 datasets show that the proposed multi-view self-attention mechanism achieves improvement in the performance of speaker recognition, and the proposed speaker Transformer network attains excellent results compared with state-of-the-art models.
翻訳日:2021-10-12 17:14:17 公開日:2021-10-11
# ロバスト制御バリア関数を用いた安全モデルに基づく強化学習

Safe Model-Based Reinforcement Learning Using Robust Control Barrier Functions ( http://arxiv.org/abs/2110.05415v1 )

ライセンス: Link先を確認
Yousef Emam, Paul Glotfelter, Zsolt Kira and Magnus Egerstedt(参考訳) 強化学習(RL)は多くのシナリオで有効である。 しかし、通常は十分な数の状態-アクションペアの探索が必要であり、その一部は安全でない可能性がある。 そのため、安全クリティカルシステムへの応用は依然として課題である。 この目的に向けて、安全に対処する一般的なアプローチとして、安全なアクションセットにRLアクションを投影するセーフティレイヤの追加がある。 このようなフレームワークの課題は、RLを安全層と効果的に結合して学習性能を改善する方法にある。 安全なRLトレーニングに制御バリア関数を活用するという文脈において、先行研究は制限されたバリア関数のクラスに焦点を当て、本質的に近似をもたらす安全層の効果を考慮に入れた補助ニューラルネットワークを利用する。 本稿では,モデルベースRLフレームワークにおけるロバスト制御バリア機能層としての安全性について述べる。 このように、このアプローチは安全性を確保し、トレーニング中の探索を効果的にガイドし、その結果、実験で示されたサンプル効率が向上する。

Reinforcement Learning (RL) is effective in many scenarios. However, it typically requires the exploration of a sufficiently large number of state-action pairs, some of which may be unsafe. Consequently, its application to safety-critical systems remains a challenge. Towards this end, an increasingly common approach to address safety involves the addition of a safety layer that projects the RL actions onto a safe set of actions. In turn, a challenge for such frameworks is how to effectively couple RL with the safety layer to improve the learning performance. In the context of leveraging control barrier functions for safe RL training, prior work focuses on a restricted class of barrier functions and utilizes an auxiliary neural net to account for the effects of the safety layer which inherently results in an approximation. In this paper, we frame safety as a differentiable robust-control-barri er-function layer in a model-based RL framework. As such, this approach both ensures safety and effectively guides exploration during training resulting in increased sample efficiency as demonstrated in the experiments.
翻訳日:2021-10-12 17:13:56 公開日:2021-10-11
# 個人別フェデレーション学習のためのスケラム機構

The Skellam Mechanism for Differentially Private Federated Learning ( http://arxiv.org/abs/2110.04995v1 )

ライセンス: Link先を確認
Naman Agarwal and Peter Kairouz and Ziyu Liu(参考訳) 2つの独立なポアソン確率変数の差に基づく離散微分プライバシー機構である多次元スケラム機構を導入する。 プライバシ保証の定量化のために,数値評価によりプライバシ損失分布を解析し,シフトした2つのスケラム分布間のR'enyi分散を鋭く制限する。 集中型および分散型のプライバシアプリケーションでは有用だが,コミュニケーション制約下でのセキュアアグリゲーションによる連合学習の文脈において,どのように適用できるかを検討する。 理論的な知見と広範な実験的評価により,スキャラム機構は,精度が低い場合でも,連続ガウス機構と同じプライバシ・正確なトレードオフを提供することが示された。 さらに重要なのは、Skellamを要約してクローズし、そこからサンプリングするためには、Poissonディストリビューションからのみサンプリングする必要があることだ。 これらの特徴は、その独特な性質と競合するプライバシーと精度のトレードオフと共に、新しく導入された個別のガウス機構に代わる魅力的な代替品となる。

We introduce the multi-dimensional Skellam mechanism, a discrete differential privacy mechanism based on the difference of two independent Poisson random variables. To quantify its privacy guarantees, we analyze the privacy loss distribution via a numerical evaluation and provide a sharp bound on the R\'enyi divergence between two shifted Skellam distributions. While useful in both centralized and distributed privacy applications, we investigate how it can be applied in the context of federated learning with secure aggregation under communication constraints. Our theoretical findings and extensive experimental evaluations demonstrate that the Skellam mechanism provides the same privacy-accuracy trade-offs as the continuous Gaussian mechanism, even when the precision is low. More importantly, Skellam is closed under summation and sampling from it only requires sampling from a Poisson distribution -- an efficient routine that ships with all machine learning and data analysis software packages. These features, along with its discrete nature and competitive privacy-accuracy trade-offs, make it an attractive alternative to the newly introduced discrete Gaussian mechanism.
翻訳日:2021-10-12 17:13:42 公開日:2021-10-11
# 非線形制約下における一般化線形モデルの非パラメトリック機能解析

Nonparametric Functional Analysis of Generalized Linear Models Under Nonlinear Constraints ( http://arxiv.org/abs/2110.04998v1 )

ライセンス: Link先を確認
K. P. Chowdhury(参考訳) 本稿では、二項回帰と潜在変数定式化の長所を組み合わせた一般化線形モデルのための新しい非パラメトリック手法を紹介し、その欠点を克服する。 最小の仮定を必要とするため、最近公開された方法論のパラメトリックバージョンを拡張し、一般化する。 基礎となるデータ生成プロセスが非対称であれば、パラメトリックな定式化よりも予測と推論のパフォーマンスが均一に向上する。 さらに,パラメトリック版よりもモデル適合性,推論性,分類性能が優れており,特にデータ生成過程が非対称である場合には,その差は統計的に有意であることを示す。 さらに、この方法論はあらゆるモデル仕様に対してモデル診断を行うのに使うことができる。 これは非常に有用な結果であり、科学全般にわたって分類モデル診断のための既存の研究を拡張している。 数学的結果はまた、統計的重要性と科学的重要性の相互作用に関する重要な新しい発見を浮き彫りにした。 最後に、この方法論は様々な現実世界のデータセットに適用され、ごくわずかなイテレーションでランダムフォレストやディープニューラルネットワークなど、広く使われている既存のモデルを上回る可能性があることを示している。

This article introduces a novel nonparametric methodology for Generalized Linear Models which combines the strengths of the binary regression and latent variable formulations for categorical data, while overcoming their disadvantages. Requiring minimal assumptions, it extends recently published parametric versions of the methodology and generalizes it. If the underlying data generating process is asymmetric, it gives uniformly better prediction and inference performance over the parametric formulation. Furthermore, it introduces a new classification statistic utilizing which I show that overall, it has better model fit, inference and classification performance than the parametric version, and the difference in performance is statistically significant especially if the data generating process is asymmetric. In addition, the methodology can be used to perform model diagnostics for any model specification. This is a highly useful result, and it extends existing work for categorical model diagnostics broadly across the sciences. The mathematical results also highlight important new findings regarding the interplay of statistical significance and scientific significance. Finally, the methodology is applied to various real-world datasets to show that it may outperform widely used existing models, including Random Forests and Deep Neural Networks with very few iterations.
翻訳日:2021-10-12 17:13:23 公開日:2021-10-11
# (参考訳) グラフベースの機械学習はジャスト・イン・タイムの欠陥予測を改善する [全文訳有]

Graph-Based Machine Learning Improves Just-in-Time Defect Prediction ( http://arxiv.org/abs/2110.05371v1 )

ライセンス: CC BY 4.0
Jonathan Bryan and Pablo Moriano(参考訳) 今日のソフトウェアの複雑さが増すには、何千もの開発者の貢献が必要です。 この複雑なコラボレーション構造により、開発者はソフトウェア欠陥につながる欠陥が発生しやすい。 これらの欠陥発生率の変化がいつ導入されるか決定することは、難しいこととなり、従来の機械学習(ML)手法を使って意思決定を下すと、高水準に達したようだ。 本研究では、開発者とソースファイルからなるコントリビューショングラフを構築し、ソフトウェア構築に必要な変更の複雑さを捉えます。 これらのコントリビューショングラフを活用することで、Just-In-Time(JIT)欠陥予測を改善するためにグラフベースのMLを使用する可能性を示す。 コントリビューショングラフから抽出した特徴は、ソフトウェア特性から派生した本質的な特徴よりも欠陥発生率の変化の予測因子として優れていると仮定する。 グラフベースのMLを用いて,欠陥確率変化を表すエッジの分類を行う。 JITの欠陥予測問題の新しいフレーミングは、非常に優れた結果をもたらす。 私たちは14のオープンソースプロジェクトでこのアプローチをテストし、コード変更がf1スコアが最大86.25$\%$の欠陥に繋がるかどうかを最良のモデルが予測できることを示しています。 これはJITの欠陥予測における最先端技術よりも55.4$\%$の増加を意味する。 制限、オープンな課題、そしてこのメソッドがオペレーショナルJIT欠陥予測にどのように使えるかを説明します。

The increasing complexity of today's software requires the contribution of thousands of developers. This complex collaboration structure makes developers more likely to introduce defect-prone changes that lead to software faults. Determining when these defect-prone changes are introduced has proven challenging, and using traditional machine learning (ML) methods to make these determinations seems to have reached a plateau. In this work, we build contribution graphs consisting of developers and source files to capture the nuanced complexity of changes required to build software. By leveraging these contribution graphs, our research shows the potential of using graph-based ML to improve Just-In-Time (JIT) defect prediction. We hypothesize that features extracted from the contribution graphs may be better predictors of defect-prone changes than intrinsic features derived from software characteristics. We corroborate our hypothesis using graph-based ML for classifying edges that represent defect-prone changes. This new framing of the JIT defect prediction problem leads to remarkably better results. We test our approach on 14 open-source projects and show that our best model can predict whether or not a code change will lead to a defect with an F1 score as high as 86.25$\%$. This represents an increase of as much as 55.4$\%$ over the state-of-the-art in JIT defect prediction. We describe limitations, open challenges, and how this method can be used for operational JIT defect prediction.
翻訳日:2021-10-12 17:05:53 公開日:2021-10-11
# Wav2vec-Switch:ロバスト音声認識のための音声ペアからのコントラスト学習

Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs for Robust Speech Recognition ( http://arxiv.org/abs/2110.04934v1 )

ライセンス: Link先を確認
Yiming Wang, Jinyu Li, Heming Wang, Yao Qian, Chengyi Wang, Yu Wu(参考訳) 自動音声認識(ASR)のための自己教師付き学習(SSL)の目的は、下流ASRタスクのための大量の未ラベル音声から優れた音声表現を学習することである。 しかし、ほとんどのSSLフレームワークは、現実のアプリケーションにとって重要なノイズの堅牢性を考慮していない。 本稿では,コントラスト学習による音声の文脈的表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。 具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。 既存のコントラスト学習タスクに加えて、元の音声と騒がしい音声の量子化表現を、互いに追加の予測対象として切り替える。 これにより、ネットワークは、オリジナル音声とノイズ音声の一貫した予測を持つことを強制し、雑音のロバスト性によってコンテキスト化された表現を学習することができる。 合成および実雑音データに対する実験により, 元のデータに劣化のない合成雑音LibriSpeechデータに対して2.9~4.9%の相対単語誤り率(WER)を減少させ, 57%のCHiME-4実1チャネル雑音データをデコードのための強力な言語モデルでさえも, データ拡張ベースラインと比較した。 CHiME-4の結果は、よく設計された音声強調成分と一致したり、超えたりできる。

The goal of self-supervised learning (SSL) for automatic speech recognition (ASR) is to learn good speech representations from a large amount of unlabeled speech for the downstream ASR task. However, most SSL frameworks do not consider noise robustness which is crucial for real-world applications. In this paper we propose wav2vec-Switch, a method to encode noise robustness into contextualized representations of speech via contrastive learning. Specifically, we feed original-noisy speech pairs simultaneously into the wav2vec 2.0 network. In addition to the existing contrastive learning task, we switch the quantized representations of the original and noisy speech as additional prediction targets of each other. By doing this, it enforces the network to have consistent predictions for the original and noisy speech, thus allows to learn contextualized representation with noise robustness. Our experiments on synthesized and real noisy data show the effectiveness of our method: it achieves 2.9--4.9% relative word error rate (WER) reduction on the synthesized noisy LibriSpeech data without deterioration on the original data, and 5.7% on CHiME-4 real 1-channel noisy data compared to a data augmentation baseline even with a strong language model for decoding. Our results on CHiME-4 can match or even surpass those with well-designed speech enhancement components.
翻訳日:2021-10-12 16:49:38 公開日:2021-10-11
# 最大エントロピー強化学習を用いた入札最適化

Bid Optimization using Maximum Entropy Reinforcement Learning ( http://arxiv.org/abs/2110.05032v1 )

ライセンス: Link先を確認
Mengjuan Liu, Jinyu Liu, Zhengning Hu, Yuchen Ge, Xuyun Nie(参考訳) リアルタイム入札(RTB)はオンライン広告の重要な方法となっている。 RTBでは、広告主がその広告を表示するために広告インプレッションの入札に参加することができる。 広告主は、すべての印象の入札価格を入札戦略に応じて決定する。 したがって、優れた入札戦略は広告主がコスト効率を改善するのに役立つ。 本稿では,RTBにおける強化学習(RL)を用いた広告主の入札戦略の最適化に焦点をあてる。 残念ながら、RTB環境の非常にダイナミックな性質のため、RLによる入札戦略を印象の粒度で最適化することは困難である。 本稿では,まず,広く受け入れられている線形入札関数を用いて,すべての印象のベース価格を計算し,rtbオークション環境から派生した可変調整因子により最適化することで,印象の入札価格の最適化を回避した。 具体的には、最大エントロピーrlアルゴリズム(soft actor-critic)を用いて、インプレッション粒度レベルで調整因子生成ポリシーを最適化する。 最後に、公開データセットに関する実証的研究により、提案した入札戦略がベースラインよりも優れた性能を示した。

Real-time bidding (RTB) has become a critical way of online advertising. In RTB, an advertiser can participate in bidding ad impressions to display its advertisements. The advertiser determines every impression's bidding price according to its bidding strategy. Therefore, a good bidding strategy can help advertisers improve cost efficiency. This paper focuses on optimizing a single advertiser's bidding strategy using reinforcement learning (RL) in RTB. Unfortunately, it is challenging to optimize the bidding strategy through RL at the granularity of impression due to the highly dynamic nature of the RTB environment. In this paper, we first utilize a widely accepted linear bidding function to compute every impression's base price and optimize it by a mutable adjustment factor derived from the RTB auction environment, to avoid optimizing every impression's bidding price directly. Specifically, we use the maximum entropy RL algorithm (Soft Actor-Critic) to optimize the adjustment factor generation policy at the impression-grained level. Finally, the empirical study on a public dataset demonstrates that the proposed bidding strategy has superior performance compared with the baselines.
翻訳日:2021-10-12 16:45:08 公開日:2021-10-11
# 細胞横断型レギュレーションゲノムのためのマルチモーダル自己教師型プレトレーニング

Multi-modal Self-supervised Pre-training for Regulatory Genome Across Cell Types ( http://arxiv.org/abs/2110.05231v1 )

ライセンス: Link先を確認
Shentong Mo, Xi Fu, Chenyang Hong, Yizhen Chen, Yuxuan Zheng, Xiangru Tang, Zhiqiang Shen, Eric P Xing, Yanyan Lan(参考訳) ゲノム生物学の研究において、制御ゲノムモデリングはプロモーター分類、トランザクションファクター結合部位の予測など、多くの規制下流タスクにおいて重要なトピックである。 中心的な問題は、規制要素が相互にどのように相互作用し、異なる細胞タイプ間で変動するかをモデル化することである。 しかし、現在のディープラーニング手法は、固定された細胞型のゲノム配列をモデル化することに集中し、複数の規制要素間の相互作用を考慮せず、トレーニングセット内の細胞タイプにのみうまく機能し、生物学的応用に必要な一般化性に欠ける。 そこで本研究では,GeneBERTと呼ばれる,マルチモーダルかつ自己管理的なゲノムデータを事前学習するための,シンプルかつ効果的なアプローチを提案する。 具体的には、ゲノムデータの1d配列と2d行列(転写因子x領域)を同時に入力とし、モデルの堅牢性と一般化性を改善するために3つの事前学習タスクを提案する。 我々はATAC-seqデータセットで1700万のゲノム配列でモデルを事前訓練する。 我々は、プロモーター分類、トランザクション因子結合サイト予測、疾患リスク推定、スプライシングサイト予測を含む、異なる細胞タイプにわたる制御下降タスクについて遺伝子価を評価する。 大規模規制ゲノミクスデータに対するマルチモーダルおよび自己教師付き事前学習の有効性を示す。

In the genome biology research, regulatory genome modeling is an important topic for many regulatory downstream tasks, such as promoter classification, transaction factor binding sites prediction. The core problem is to model how regulatory elements interact with each other and its variability across different cell types. However, current deep learning methods often focus on modeling genome sequences of a fixed set of cell types and do not account for the interaction between multiple regulatory elements, making them only perform well on the cell types in the training set and lack the generalizability required in biological applications. In this work, we propose a simple yet effective approach for pre-training genome data in a multi-modal and self-supervised manner, which we call GeneBERT. Specifically, we simultaneously take the 1d sequence of genome data and a 2d matrix of (transcription factors x regions) as the input, where three pre-training tasks are proposed to improve the robustness and generalizability of our model. We pre-train our model on the ATAC-seq dataset with 17 million genome sequences. We evaluate our GeneBERT on regulatory downstream tasks across different cell types, including promoter classification, transaction factor binding sites prediction, disease risk estimation, and splicing sites prediction. Extensive experiments demonstrate the effectiveness of multi-modal and self-supervised pre-training for large-scale regulatory genomics data.
翻訳日:2021-10-12 16:44:53 公開日:2021-10-11
# ハイブリッド模倣強化学習アーキテクチャを用いた自律レース

Autonomous Racing using a Hybrid Imitation-Reinforcem ent Learning Architecture ( http://arxiv.org/abs/2110.05437v1 )

ライセンス: Link先を確認
Chinmay Vilas Samak, Tanmay Vilas Samak and Sivanathan Kandhasamy(参考訳) 本稿では,タイムアタックレースにおけるラップタイムを最小化することを目的とした,自律走行車に対する厳密なエンドツーエンド制御戦略を提案する。 また,本研究の一環として開発されたAutoRACEシミュレータを導入し,実際の音響・視覚効果とともに,正確な車体・環境力学をシミュレートした。 我々は,ハイブリッド模倣強化学習アーキテクチャを採用し,20時間以内の自律走行(模倣学習による)とレース(強化学習による)を駆動する深層ニューラルネットワークポリシを訓練する新たな報酬関数を作成した。 展開結果は、10人の異なるプレイヤーによる100のマニュアルラップと10の自律ラップの直接比較として報告された。 自律エージェントは最高の手動ラップで0.96秒を達成して優れたパフォーマンスを示しただけでなく、平均ラップタイムに関して人間選手を1.46秒差で支配した。 この支配は、自律エージェントの軌道最適化と反応時間の低減の観点から正当化することができる。

In this work, we present a rigorous end-to-end control strategy for autonomous vehicles aimed at minimizing lap times in a time attack racing event. We also introduce AutoRACE Simulator developed as a part of this research project, which was employed to simulate accurate vehicular and environmental dynamics along with realistic audio-visual effects. We adopted a hybrid imitation-reinforcem ent learning architecture and crafted a novel reward function to train a deep neural network policy to drive (using imitation learning) and race (using reinforcement learning) a car autonomously in less than 20 hours. Deployment results were reported as a direct comparison of 10 autonomous laps against 100 manual laps by 10 different human players. The autonomous agent not only exhibited superior performance by gaining 0.96 seconds over the best manual lap, but it also dominated the human players by 1.46 seconds with regard to the mean lap time. This dominance could be justified in terms of better trajectory optimization and lower reaction time of the autonomous agent.
翻訳日:2021-10-12 16:44:30 公開日:2021-10-11
# \beta-Intact-VAE:限定オーバーラップによる因果関係の同定と推定

\beta-Intact-VAE: Identifying and Estimating Causal Effects under Limited Overlap ( http://arxiv.org/abs/2110.05225v1 )

ライセンス: Link先を確認
Pengzhou Wu and Kenji Fukumizu(参考訳) 因果推論における重要な問題として,特定の特徴を有する被験者が1つの治療群に属する場合に,治療効果(TE)の同定と推定について検討した。 我々は, 生命統計学において広く用いられ, tesに十分である予後スコアのモデル化に潜在変数を用いる。 潜在変数が予後スコアを回復し、モデルが個別化された治療効果を識別することを示す。 このモデルは \beta-intact-vae--新しいタイプの変分オートエンコーダ(vae)として学習される。 個別化特徴量で条件付き処理グループにバランスのとれた表現を可能にするTEエラー境界を導出する。 提案手法は, 半合成データセットを用いた最近の手法と比較する。

As an important problem in causal inference, we discuss the identification and estimation of treatment effects (TEs) under limited overlap; that is, when subjects with certain features belong to a single treatment group. We use a latent variable to model a prognostic score which is widely used in biostatistics and sufficient for TEs; i.e., we build a generative prognostic model. We prove that the latent variable recovers a prognostic score, and the model identifies individualized treatment effects. The model is then learned as \beta-Intact-VAE--a new type of variational autoencoder (VAE). We derive the TE error bounds that enable representations balanced for treatment groups conditioned on individualized features. The proposed method is compared with recent methods using (semi-)synthetic datasets.
翻訳日:2021-10-12 16:41:39 公開日:2021-10-11
# ニューラルネットワークにおける位相崩壊

Phase Collapse in Neural Networks ( http://arxiv.org/abs/2110.05283v1 )

ライセンス: Link先を確認
Florentin Guth and John Zarka and St\'ephane Mallat(参考訳) 深層畳み込み画像分類器は、空間変数をより少ないチャネルに徐々に変換し、すべてのクラスを線形に分離する。 基本的な課題は、この変換における整流器と畳み込みフィルタの役割を理解することである。 バイアスを持つ整流器はしばしば、スパーシティと差別を改善するしきい値演算子として解釈される。 本稿では,線形クラス分離を改善しつつ,空間変動を漸進的に排除する能力を説明する,異なる位相崩壊機構であることを示す。 これは、単純化された複素値畳み込みネットワークアーキテクチャを定義することで説明され、数値的に示される。 ウェーブレットフィルタによる空間畳み込みを実装し、位相変数の崩壊に複雑なモジュラーを使用する。 この位相崩壊ネットワークは、同様の深さのResNetの分類精度に達するが、位相崩壊をしきい値演算子に置き換えると、その性能は著しく劣化する。 これは、繰り返し位相崩壊がクラス平均の分離を徐々に改善するかを説明することによって正当化される。

Deep convolutional image classifiers progressively transform the spatial variability into a smaller number of channels, which linearly separates all classes. A fundamental challenge is to understand the role of rectifiers together with convolutional filters in this transformation. Rectifiers with biases are often interpreted as thresholding operators which improve sparsity and discrimination. This paper demonstrates that it is a different phase collapse mechanism which explains the ability to progressively eliminate spatial variability, while improving linear class separation. This is explained and shown numerically by defining a simplified complex-valued convolutional network architecture. It implements spatial convolutions with wavelet filters and uses a complex modulus to collapse phase variables. This phase collapse network reaches the classification accuracy of ResNets of similar depths, whereas its performance is considerably degraded when replacing the phase collapse with thresholding operators. This is justified by explaining how iterated phase collapses progressively improve separation of class means, as opposed to thresholding non-linearities.
翻訳日:2021-10-12 16:41:26 公開日:2021-10-11
# (参考訳) 状態密度によるグラフ埋め込みの高速化 [全文訳有]

Fast Attributed Graph Embedding via Density of States ( http://arxiv.org/abs/2110.05228v1 )

ライセンス: CC BY 4.0
Saurabh Sawlani, Lingxiao Zhao, Leman Akoglu(参考訳) ノード分布グラフが与えられたら、そのトポロジと属性情報を表現的に反映する数値的な特徴をほとんど持たずに効率的に表現できるだろうか? 本稿では,この問題に対処するために,状態密度(DOS,スペクトル密度)に基づく分散DOSベースのグラフ埋め込みのためのA-DOGEを提案する。 A-DOGEは望ましい特性の長いデシラタを満たすように設計されている。 最も注目すべきは、DOSの効率的な近似アルゴリズムを活用することで、ノードラベルと属性を初めてブレンドできるように拡張し、大きな属性グラフやグラフデータベースに対して高速かつスケーラブルにします。 グラフの固有スペクトル全体に基づいて、A-DOGEは複数の(局所)スケールで構造特性と属性特性をキャプチャすることができる。 さらに、これは教師なし(すなわち特定の目的に非依存)であり、様々な解釈に結びついているので、探索的なグラフマイニングに適している。 最後に、他のグラフとは独立して各グラフを処理するため、ストリーミング設定と並列化が可能である。 本研究では,探索グラフ解析およびグラフ分類タスクにおけるA-DOGEの有効性と有効性を示すとともに,教師なしベースラインを著しく上回り,現代の教師付きGNNとの競争性能を向上し,精度と実行時の最良のトレードオフを実現する。

Given a node-attributed graph, how can we efficiently represent it with few numerical features that expressively reflect its topology and attribute information? We propose A-DOGE, for Attributed DOS-based Graph Embedding, based on density of states (DOS, a.k.a. spectral density) to tackle this problem. A-DOGE is designed to fulfill a long desiderata of desirable characteristics. Most notably, it capitalizes on efficient approximation algorithms for DOS, that we extend to blend in node labels and attributes for the first time, making it fast and scalable for large attributed graphs and graph databases. Being based on the entire eigenspectrum of a graph, A-DOGE can capture structural and attribute properties at multiple ("glocal") scales. Moreover, it is unsupervised (i.e. agnostic to any specific objective) and lends itself to various interpretations, which makes it is suitable for exploratory graph mining tasks. Finally, it processes each graph independent of others, making it amenable for streaming settings as well as parallelization. Through extensive experiments, we show the efficacy and efficiency of A-DOGE on exploratory graph analysis and graph classification tasks, where it significantly outperforms unsupervised baselines and achieves competitive performance with modern supervised GNNs, while achieving the best trade-off between accuracy and runtime.
翻訳日:2021-10-12 16:37:23 公開日:2021-10-11
# 学習可能なadversarial初期化による高速なadversarialトレーニングの促進

Boosting Fast Adversarial Training with Learnable Adversarial Initialization ( http://arxiv.org/abs/2110.05007v1 )

ライセンス: Link先を確認
Xiaojun Jia, Yong Zhang, Baoyuan Wu, Jue Wang and Xiaochun Cao(参考訳) 逆行訓練(AT)は、逆行訓練の例を活用したモデル堅牢性向上に有効であることが示されている。 しかし、AT法の多くは、逆例を生成するために複数のステップで勾配を計算するのに高価な時間と計算コストに直面している。 トレーニング効率を高めるため,高速AT法では1回だけ勾配を計算することで高速勾配符号法(FGSM)を採用する。 残念ながら、堅牢性は満足には程遠い。 1つの理由は初期化の流行から生じる。 既存の高速ATは、通常ランダムなサンプルに依存しない初期化を使用しており、効率が向上するが、さらなる堅牢性の改善を妨げる。 今のところ、高速ATの初期化はまだ広く調査されていない。 本稿では,サンプル依存の逆初期化,すなわち良性画像に条件づけされた生成ネットワークからの出力とその対象ネットワークからの勾配情報を用いて,高速にatを高速化する。 生成ネットワークと対象ネットワークとを訓練段階において協調的に最適化することにより、前者が順応的に有効初期化を生成でき、それによって徐々に堅牢性が向上する。 4つのベンチマークデータベースを用いた実験により,提案手法が最先端の高速AT法よりも優れていることを示すとともに,高度マルチステップAT法に匹敵する堅牢性を示す。 コードはhttps://github.com/j iaxiaojunqaq//fgsm-s diでリリースされる。

Adversarial training (AT) has been demonstrated to be effective in improving model robustness by leveraging adversarial examples for training. However, most AT methods are in face of expensive time and computational cost for calculating gradients at multiple steps in generating adversarial examples. To boost training efficiency, fast gradient sign method (FGSM) is adopted in fast AT methods by calculating gradient only once. Unfortunately, the robustness is far from satisfactory. One reason may arise from the initialization fashion. Existing fast AT generally uses a random sample-agnostic initialization, which facilitates the efficiency yet hinders a further robustness improvement. Up to now, the initialization in fast AT is still not extensively explored. In this paper, we boost fast AT with a sample-dependent adversarial initialization, i.e., an output from a generative network conditioned on a benign image and its gradient information from the target network. As the generative network and the target network are optimized jointly in the training phase, the former can adaptively generate an effective initialization with respect to the latter, which motivates gradually improved robustness. Experimental evaluations on four benchmark databases demonstrate the superiority of our proposed method over state-of-the-art fast AT methods, as well as comparable robustness to advanced multi-step AT methods. The code is released at https://github.com// jiaxiaojunQAQ//FGSM- SDI.
翻訳日:2021-10-12 16:09:20 公開日:2021-10-11
# TSG: CNNビジュアルサリエンシの探索のためのターゲット選択型グラディエントバックプロップ

TSG: Target-Selective Gradient Backprop for Probing CNN Visual Saliency ( http://arxiv.org/abs/2110.05182v1 )

ライセンス: Link先を確認
Lin Cheng, Pengfei Fang, Yanjie Liang, Liao Zhang, Chunhua Shen, Hanzi Wang(参考訳) ディープニューラルネットワークの説明は、過去数年間、ディープラーニングコミュニティに大きな注目を集めてきた。 本研究では、畳み込みニューラルネットワークを解釈するための視覚的サリエンシ、すなわち視覚的説明について研究する。 イテレーションベースのサリエンシーメソッドと比較すると、単一の後方パスベースのサリエンシーメソッドは高速なスピードの恩恵を受け、下流のビジュアルタスクで広く使われている。 このように、我々の仕事は単一の後方通過アプローチに焦点を当てています。 しかし,本カテゴリーの既存の手法では,特定の対象クラスに焦点を絞った細粒度サリエンシマップの製作に苦慮している。 とはいえ、単一の後方パスを使用して目標選択性と細粒度の両方を満たす忠実な正当性マップを作成することは、この分野では難しい問題である。 この問題を軽減するために,ネットワーク内の勾配流れを再検討し,絡み合った意味論と元の重み付けが,ターゲット関係のサルジェンシーの伝播を阻害する可能性を見出した。 そこで本稿では,これらの観察に触発されて,目標クラスを効果的に強調し,さらに入力空間へのサリエンスを効率的に伝達し,目標選択型および細粒度サリエンシーマップを生成するために,補正操作を利用した新しい視覚的サリエンシーフレームワークtsgを提案する。 提案したTSGはTSG-ConvとTSG-FCの2つのコンポーネントから構成され、それぞれ畳み込み層と完全連結層の勾配を補正する。 ImageNet と Pascal VOC の詳細な定性的および定量的実験により,提案手法が他の競合手法よりも正確で信頼性の高い結果が得られることを示した。

The explanation for deep neural networks has drawn extensive attention in the deep learning community over the past few years. In this work, we study the visual saliency, a.k.a. visual explanation, to interpret convolutional neural networks. Compared to iteration based saliency methods, single backward pass based saliency methods benefit from faster speed and are widely used in downstream visual tasks. Thus our work focuses on single backward pass approaches. However, existing methods in this category struggle to successfully produce fine-grained saliency maps concentrating on specific target classes. That said, producing faithful saliency maps satisfying both target-selectiveness and fine-grainedness using a single backward pass is a challenging problem in the field. To mitigate this problem, we revisit the gradient flow inside the network, and find that the entangled semantics and original weights may disturb the propagation of target-relevant saliency. Inspired by those observations, we propose a novel visual saliency framework, termed Target-Selective Gradient (TSG) backprop, which leverages rectification operations to effectively emphasize target classes and further efficiently propagate the saliency to the input space, thereby generating target-selective and fine-grained saliency maps. The proposed TSG consists of two components, namely, TSG-Conv and TSG-FC, which rectify the gradients for convolutional layers and fully-connected layers, respectively. Thorough qualitative and quantitative experiments on ImageNet and Pascal VOC show that the proposed framework achieves more accurate and reliable results than other competitive methods.
翻訳日:2021-10-12 16:08:54 公開日:2021-10-11
# 動作認識に注意を向けた高次テンソルプーリング

High-order Tensor Pooling with Attention for Action Recognition ( http://arxiv.org/abs/2110.05216v1 )

ライセンス: Link先を確認
Piotr Koniusz and Lei Wang and Ke Sun(参考訳) 本稿では,ニューラルネットワークによって形成される特徴ベクトルの高次統計を捉え,エンドツーエンドの2次・高次プーリングを提案し,テンソルディスクリプタを構成する。 テンソルディスクリプタは、集約ベクトルの少ない数と、与えられた特徴が統計的に予想されるよりも頻繁に現れるバーストネス現象のために、堅牢な類似度尺度を必要とする。 グラフラプラシアン上の熱拡散過程 (HDP) は共分散・自己相関行列の固有値パワー正規化 (EPN) と密接に関係しており、その逆はループグラフラプラシアンを形成する。 我々は,HDPとEPNが同一の役割を担っていること,すなわち固有スペクトルの大きさを増大または減衰させることにより,バーストの防止を図っている。 最後に、高次テンソルにEPNを装着し、高次事象のスペクトル検出器として機能し、バーストを防止する。 我々は、d次元特徴記述子から構築された位数 r のテンソルに対して、そのような検出器は、少なくとも1つの高階発生がテンソルで表されるbinom(d,r)部分空間の1つに「射影」される可能性を与え、したがって、そのような「detectors」のようなbinom(d,r)で導かれるテンソルパワー正規化計量を形成する。

We aim at capturing high-order statistics of feature vectors formed by a neural network, and propose end-to-end second- and higher-order pooling to form a tensor descriptor. Tensor descriptors require a robust similarity measure due to low numbers of aggregated vectors and the burstiness phenomenon, when a given feature appears more/less frequently than statistically expected. We show that the Heat Diffusion Process (HDP) on a graph Laplacian is closely related to the Eigenvalue Power Normalization (EPN) of the covariance/auto-corr elation matrix, whose inverse forms a loopy graph Laplacian. We show that the HDP and the EPN play the same role, i.e., to boost or dampen the magnitude of the eigenspectrum thus preventing the burstiness. Finally, we equip higher-order tensors with EPN which acts as a spectral detector of higher-order occurrences to prevent burstiness. We prove that for a tensor of order r built from d dimensional feature descriptors, such a detector gives the likelihood if at least one higher-order occurrence is `projected' into one of binom(d,r) subspaces represented by the tensor; thus forming a tensor power normalization metric endowed with binom(d,r) such `detectors'.
翻訳日:2021-10-12 16:08:22 公開日:2021-10-11
# 自己監督型視覚表現学習におけるトランスフォーマーによるCNN注意の活性化

Revitalizing CNN Attentions via Transformers in Self-Supervised Visual Representation Learning ( http://arxiv.org/abs/2110.05340v1 )

ライセンス: Link先を確認
Chongjian Ge, Youwei Liang, Yibing Song, Jianbo Jiao, Jue Wang and Ping Luo(参考訳) 自己教師付き視覚表現学習(SSL)の研究は、ラベルなしでトレーニングサンプルを識別するためにエンコーダのバックボーンを改善する。 SSL経由のCNNエンコーダは、教師付き学習による認識性能に匹敵する性能を達成しているが、ネットワークの注意はさらなる改善のために過小評価されている。 認識シナリオにおいて視覚的注意を効果的に探索するトランスフォーマティブに動機づけられ,sslでトランスフォーマによって誘導される注意 cnn エンコーダをトレーニングするための cnn attention revitalization (care) フレームワークを提案する。 careフレームワークはcnnストリーム(c-stream)とトランスフォーマストリーム(t-stream)で構成されており、各ストリームには2つのブランチが含まれている。 C-streamは2つのCNNエンコーダ、2つのプロジェクタ、予測器を備えた既存のSSLフレームワークに従っている。 t-streamはトランスフォーマー2台、プロジェクタ2台、予測器1台を含む。 TストリームはCNNエンコーダに接続し、残りのC-Streamと並列である。 トレーニング中、両ストリームでSSLを同時に実行し、Tストリーム出力を使用してCストリームを監視します。 CNNエンコーダの機能は、視覚的注意力向上のためにTストリームで変調され、SSLシナリオに適している。 CNNエンコーダの学習には,これらの変調機能を用いてCストリームを監督する。 この目的のために,変換器をガイダンスとしてCNNの注意を活性化する。 画像分類、オブジェクト検出、セマンティクスセグメンテーションを含む、いくつかの標準ビジュアル認識ベンチマークの実験では、提案フレームワークがcnnエンコーダのバックボーンを最先端のパフォーマンスに改善していることが示されている。

Studies on self-supervised visual representation learning (SSL) improve encoder backbones to discriminate training samples without labels. While CNN encoders via SSL achieve comparable recognition performance to those via supervised learning, their network attention is under-explored for further improvement. Motivated by the transformers that explore visual attention effectively in recognition scenarios, we propose a CNN Attention REvitalization (CARE) framework to train attentive CNN encoders guided by transformers in SSL. The proposed CARE framework consists of a CNN stream (C-stream) and a transformer stream (T-stream), where each stream contains two branches. C-stream follows an existing SSL framework with two CNN encoders, two projectors, and a predictor. T-stream contains two transformers, two projectors, and a predictor. T-stream connects to CNN encoders and is in parallel to the remaining C-Stream. During training, we perform SSL in both streams simultaneously and use the T-stream output to supervise C-stream. The features from CNN encoders are modulated in T-stream for visual attention enhancement and become suitable for the SSL scenario. We use these modulated features to supervise C-stream for learning attentive CNN encoders. To this end, we revitalize CNN attention by using transformers as guidance. Experiments on several standard visual recognition benchmarks, including image classification, object detection, and semantic segmentation, show that the proposed CARE framework improves CNN encoder backbones to the state-of-the-art performance.
翻訳日:2021-10-12 16:07:25 公開日:2021-10-11
# (参考訳) 単一調律ブロックの微調整による視覚トランスフォーマーとcnnの伝達学習能力の検討 [全文訳有]

Investigating Transfer Learning Capabilities of Vision Transformers and CNNs by Fine-Tuning a Single Trainable Block ( http://arxiv.org/abs/2110.05270v1 )

ライセンス: CC BY 4.0
Durvesh Malpure, Onkar Litake, Rajesh Ingle(参考訳) 近年のコンピュータビジョンの分野では、トランスフォーマーベースのアーキテクチャの利用が増加している。 彼らはCNNアーキテクチャによる最先端のセットを精度で上回っているが、一方、スクラッチからトレーニングするには計算コストが非常に高い。 これらのモデルはコンピュータビジョン分野において非常に最近のものであるため、伝達学習能力について研究し、CNNと比較する必要がある。 本研究では,CIFAR-10上のImageNet1Kで事前訓練されたCNNモデルとTransformerモデルの両方を微調整し,比較する。 最後のトランスフォーマー/エンコーダやモデルの最後の畳み込みブロックを解凍し、その前にすべての層を凍結し、最後に単純なmlpを追加して分類します。 この単純な修正によって、両方のニューラルネットワークの生の学習重みが利用できます。 実験の結果, トランスフォーマーに基づくアーキテクチャがCNNよりも高い精度を達成するだけでなく, パラメータの約4倍の精度で達成できることが判明した。

In recent developments in the field of Computer Vision, a rise is seen in the use of transformer-based architectures. They are surpassing the state-of-the-art set by CNN architectures in accuracy but on the other hand, they are computationally very expensive to train from scratch. As these models are quite recent in the Computer Vision field, there is a need to study it's transfer learning capabilities and compare it with CNNs so that we can understand which architecture is better when applied to real world problems with small data. In this work, we follow a simple yet restrictive method for fine-tuning both CNN and Transformer models pretrained on ImageNet1K on CIFAR-10 and compare them with each other. We only unfreeze the last transformer/encoder or last convolutional block of a model and freeze all the layers before it while adding a simple MLP at the end for classification. This simple modification lets us use the raw learned weights of both these neural networks. From our experiments, we find out that transformers-based architectures not only achieve higher accuracy than CNNs but some transformers even achieve this feat with around 4 times lesser number of parameters.
翻訳日:2021-10-12 16:04:52 公開日:2021-10-11
# オフサンプルパフォーマンスメトリクスの設計

Designing off-sample performance metrics ( http://arxiv.org/abs/2110.04996v1 )

ライセンス: Link先を確認
Matthew J. Holland(参考訳) 現代の機械学習システムは従来、最高のパフォーマンスを達成するという全体的な目標を持って設計され、テストされてきた。 本研究では,「よいオフサンプル性能をどのように定量化するべきか?」という問いを重要な設計判断として扱う学習システム構築のアプローチを検討する。 本提案は, 単純かつ汎用的な定式化を用いて, 現在の支配的パラダイムを適切な歴史的文脈に配置し, 従来から逸脱し, 提案手法の特別な場合と見なすことのできる最近の発展について文献調査を行う。

Modern machine learning systems are traditionally designed and tested with the overall goal of achieving the best possible performance on average. In this work, we consider an approach to building learning systems which treats the question of "how should we quantify good off-sample performance?" as a key design decision. We describe this proposal using a simple and general formulation, place the current dominant paradigm within the proper historical context, and then survey the literature for more recent developments that depart from tradition and can be viewed as special cases of our proposed methodology.
翻訳日:2021-10-12 15:54:42 公開日:2021-10-11
# グラフニューラルネットワークによる巡回セールスパーソン問題の局所探索

Graph Neural Network Guided Local Search for the Traveling Salesperson Problem ( http://arxiv.org/abs/2110.05291v1 )

ライセンス: Link先を確認
Benjamin Hudson and Qingbiao Li and Matthew Malencia and Amanda Prorok(参考訳) トラベルセールスパーソン問題(tsp)の解決策は、輸送、物流、自動化のプロセスに実用的な応用があるが、基礎となるタスクのリアルタイム性を満たすために、最小限の遅延で計算する必要がある。 しかし、現在の近似アルゴリズムでは、ソリューションの品質を犠牲にすることなく、大規模なTSPインスタンスを迅速に解決することは困難である。 このギャップを埋めるために、グラフニューラルネットワーク(GNN)とガイドローカルサーチ(GLS)に基づくTSPを解くためのハイブリッドデータ駆動型アプローチを提案する。 我々のモデルは問題グラフの各エッジを解に含めることの後悔を予測し、GLSはこれらの予測を元の問題グラフと併用して解を見つける。 我々の実験は、この手法が最先端の学習ベースアプローチやTSPの非学習GLSアルゴリズムよりも速い速度で最適解に収束することを示し、特に50ノード問題セットの96%、次のベストベンチマークの7%、100ノード問題セットの20%、次のベストベンチマークの4.5倍の最適解を見出した。 20ノード問題から100ノード問題集合に一般化すると、平均最適性差2.5%の解が、次の最良の学習ベースのベンチマークよりも10倍向上する。

Solutions to the Traveling Salesperson Problem (TSP) have practical applications to processes in transportation, logistics, and automation, yet must be computed with minimal delay to satisfy the real-time nature of the underlying tasks. However, solving large TSP instances quickly without sacrificing solution quality remains challenging for current approximate algorithms. To close this gap, we present a hybrid data-driven approach for solving the TSP based on Graph Neural Networks (GNNs) and Guided Local Search (GLS). Our model predicts the regret of including each edge of the problem graph in the solution; GLS uses these predictions in conjunction with the original problem graph to find solutions. Our experiments demonstrate that this approach converges to optimal solutions at a faster rate than state-of-the-art learning-based approaches and non-learning GLS algorithms for the TSP, notably finding optimal solutions to 96% of the 50-node problem set, 7% more than the next best benchmark, and to 20% of the 100-node problem set, 4.5x more than the next best benchmark. When generalizing from 20-node problems to the 100-node problem set, our approach finds solutions with an average optimality gap of 2.5%, a 10x improvement over the next best learning-based benchmark.
翻訳日:2021-10-12 15:54:33 公開日:2021-10-11
# (参考訳) 均質学習:自己集中型分散ディープラーニング [全文訳有]

Homogeneous Learning: Self-Attention Decentralized Deep Learning ( http://arxiv.org/abs/2110.05290v1 )

ライセンス: CC BY 4.0
Yuwei Sun and Hideya Ochiai(参考訳) フェデレーテッド・ラーニング(FL)は,医用画像分類やネットワーク侵入検出など,多くの分野において,プライバシ保護の深層学習を促進してきた。 モデルアグリゲーションのための中央パラメータサーバを必要とするが、遅延モデル通信と敵攻撃に対する脆弱性をもたらす。 swarm learningのような完全な分散アーキテクチャは、中央サーバなしで、分散ノード間のピアツーピア通信を可能にする。 分散ディープラーニングにおける最も難しい問題の1つは、各ノードが所有するデータは通常非独立で、同じ分散(非iid)であり、モデルトレーニングの時間を要する収束を引き起こす。 そこで本研究では,非iidデータを自己着脱機構でタックリングするための分散学習モデルhlを提案する。 HLでは、各ラウンドの選択ノードでトレーニングが行われ、各ラウンドの終了時にノードのトレーニングされたモデルが次の選択ノードに送られる。 特に、自己注意機構は強化学習を活用して、ノードの内部状態とその周辺環境の状態を観察し、トレーニングを最適化するためにどのノードを選択するべきかを判断する。 本手法は,画像分類タスクの様々なシナリオを用いて評価する。 その結果、HLはスタンドアローンの学習と比較してパフォーマンスが向上し、トレーニングラウンド全体の50.8%と通信コストが74.6%と、非IIDデータでのトレーニングのためのランダムなポリシーベースの分散学習に比べて大幅に削減できることがわかった。

Federated learning (FL) has been facilitating privacy-preserving deep learning in many walks of life such as medical image classification, network intrusion detection, and so forth. Whereas it necessitates a central parameter server for model aggregation, which brings about delayed model communication and vulnerability to adversarial attacks. A fully decentralized architecture like Swarm Learning allows peer-to-peer communication among distributed nodes, without the central server. One of the most challenging issues in decentralized deep learning is that data owned by each node are usually non-independent and identically distributed (non-IID), causing time-consuming convergence of model training. To this end, we propose a decentralized learning model called Homogeneous Learning (HL) for tackling non-IID data with a self-attention mechanism. In HL, training performs on each round's selected node, and the trained model of a node is sent to the next selected node at the end of each round. Notably, for the selection, the self-attention mechanism leverages reinforcement learning to observe a node's inner state and its surrounding environment's state, and find out which node should be selected to optimize the training. We evaluate our method with various scenarios for an image classification task. The result suggests that HL can produce a better performance compared with standalone learning and greatly reduce both the total training rounds by 50.8% and the communication cost by 74.6% compared with random policy-based decentralized learning for training on non-IID data.
翻訳日:2021-10-12 15:50:49 公開日:2021-10-11
# グラフニューラルネットワークにおけるプールの理解

Understanding Pooling in Graph Neural Networks ( http://arxiv.org/abs/2110.05292v1 )

ライセンス: Link先を確認
Daniele Grattarola, Daniele Zambon, Filippo Maria Bianchi, Cesare Alippi(参考訳) 畳み込みニューラルネットワークの従来のプール層に触発されて、グラフ機械学習の分野における最近の多くの研究は、グラフのサイズを減らすためにプール演算子を導入した。 文献における大きな多様性は、グラフ構造や特定の下流タスクに対する異なる仮定に依存するかもしれないグラフを粗くするための多くの戦略に由来する。 本稿では,3つの主要な操作(選択,縮小,接続)に基づくグラフプーリングの形式的特徴付けを,共通の枠組みで文献を統一することを目的として提案する。 この形式化に続いて、プール演算子の分類を導入し、最近の文献で提案されている30以上のプールメソッドを分類する。 プーリングオペレータの性能を評価するための基準を提案し,様々なタスクにおける分類学の異なるクラスの行動を調査し,対比するために使用する。

Inspired by the conventional pooling layers in convolutional neural networks, many recent works in the field of graph machine learning have introduced pooling operators to reduce the size of graphs. The great variety in the literature stems from the many possible strategies for coarsening a graph, which may depend on different assumptions on the graph structure or the specific downstream task. In this paper we propose a formal characterization of graph pooling based on three main operations, called selection, reduction, and connection, with the goal of unifying the literature under a common framework. Following this formalization, we introduce a taxonomy of pooling operators and categorize more than thirty pooling methods proposed in recent literature. We propose criteria to evaluate the performance of a pooling operator and use them to investigate and contrast the behavior of different classes of the taxonomy on a variety of tasks.
翻訳日:2021-10-12 15:38:29 公開日:2021-10-11
# ProgFed: プログレッシブトレーニングによる効果的,コミュニケーション,計算効率の高いフェデレーション学習

ProgFed: Effective, Communication, and Computation Efficient Federated Learning by Progressive Training ( http://arxiv.org/abs/2110.05323v1 )

ライセンス: Link先を確認
Hui-Po Wang, Sebastian U. Stich, Yang He, Mario Fritz(参考訳) フェデレーション学習(federated learning)は、多数のエッジデバイスがデータを共有することなく、協調的にモデルをトレーニングできる、強力な分散学習スキームである。 しかし、エッジデバイスではトレーニングがリソース集約的であり、ネットワーク帯域幅の制限が主なボトルネックとなることが多い。 以前の作業は、モデルやメッセージを、例えば勾配圧縮や蒸留によってコンパクトなフォーマットに凝縮することで、しばしば制約を克服する。 対照的に、効率よく効果的なフェデレーション学習のための最初のプログレッシブトレーニングフレームワークであるProgFedを提案する。 これは本質的に計算コストと双方向通信コストを削減し、最終モデルの強力な性能を維持する。 理論的には、ProgFedは完全モデルの標準トレーニングと同じ漸近速度で収束する。 cnn (vgg, resnet, convnets) や u-net など,幅広いアーキテクチャ上の広範な結果や,単純分類から医療画像セグメンテーションに至るまでのさまざまなタスクにおいて,当社の高度に効果的なトレーニングアプローチは,計算コストを最大$20,$6,$6,3,$の通信コストを削減できることが示されています。 提案手法は,従来の圧縮処理を補完するものでもあるため,幅広いトレードオフを達成でき,最大50\times$の通信を0.1\%の損失で削減することができる。

Federated learning is a powerful distributed learning scheme that allows numerous edge devices to collaboratively train a model without sharing their data. However, training is resource-intensive for edge devices, and limited network bandwidth is often the main bottleneck. Prior work often overcomes the constraints by condensing the models or messages into compact formats, e.g., by gradient compression or distillation. In contrast, we propose ProgFed, the first progressive training framework for efficient and effective federated learning. It inherently reduces computation and two-way communication costs while maintaining the strong performance of the final models. We theoretically prove that ProgFed converges at the same asymptotic rate as standard training on full models. Extensive results on a broad range of architectures, including CNNs (VGG, ResNet, ConvNets) and U-nets, and diverse tasks from simple classification to medical image segmentation show that our highly effective training approach saves up to $20\%$ computation and up to $63\%$ communication costs for converged models. As our approach is also complimentary to prior work on compression, we can achieve a wide range of trade-offs, showing reduced communication of up to $50\times$ at only $0.1\%$ loss in utility.
翻訳日:2021-10-12 15:38:17 公開日:2021-10-11
# 知識認識型連続学習による安定性-弾塑性ジレンマへの取り組み

Addressing the Stability-Plasticity Dilemma via Knowledge-Aware Continual Learning ( http://arxiv.org/abs/2110.05329v1 )

ライセンス: Link先を確認
Ghada Sokar, Decebal Constantin Mocanu, Mykola Pechenizkiy(参考訳) 継続学習エージェントは、次の学習を支援するために、過去の知識を忘れたり、転送したりすることなく、以前の知識を蓄積する2つの主要なデシダータを満足させながら、タスクの連続を漸進的に学習すべきである。 既存の研究は主に破滅的な忘れの問題を軽減することに焦点を当てている。 エージェントが変更されて、以前のタスクのみに基づいて忘れることを防止する。 これは、忘れることと転送の最大化のバランスを妨げます。 これに対応するために,安定性・塑性ジレンマを調査し,このバランスを達成するためにどのモデルコンポーネントが再利用,追加,固定,更新されるかを決定する。 エージェントが古いクラスと新しいクラスのあいまいさに悩まされるクラスインクリメンタルな学習シナリオに対処する。 提案するKAN(Knowledge-Aware ContiNual Learninger)を用いて,古クラスと新クラスの意味的類似性を考慮することで,このバランスを達成できることを実証する。 既存の知識に気付くことは,(1)類似知識からの前方移動の増大,(2)既存知識の活用による必要な能力の削減,(3)異質な知識の保護,(4)シーケンスのクラス順序に対する堅牢性の向上,といった点において有効である。 CIFAR-10 と CIFAR-100 の2つのクラス増分学習用ベンチマークから構築した類似タスクのシーケンス,異種タスク,および両者の混合について検討した。

Continual learning agents should incrementally learn a sequence of tasks while satisfying two main desiderata: accumulating on previous knowledge without forgetting and transferring previous relevant knowledge to help in future learning. Existing research largely focuses on alleviating the catastrophic forgetting problem. There, an agent is altered to prevent forgetting based solely on previous tasks. This hinders the balance between preventing forgetting and maximizing the forward transfer. In response to this, we investigate the stability-plasticity dilemma to determine which model components are eligible to be reused, added, fixed, or updated to achieve this balance. We address the class incremental learning scenario where the agent is prone to ambiguities between old and new classes. With our proposed Knowledge-Aware contiNual learner (KAN), we demonstrate that considering the semantic similarity between old and new classes helps in achieving this balance. We show that being aware of existing knowledge helps in: (1) increasing the forward transfer from similar knowledge, (2) reducing the required capacity by leveraging existing knowledge, (3) protecting dissimilar knowledge, and (4) increasing robustness to the class order in the sequence. We evaluated sequences of similar tasks, dissimilar tasks, and a mix of both constructed from the two commonly used benchmarks for class-incremental learning; CIFAR-10 and CIFAR-100.
翻訳日:2021-10-12 15:35:34 公開日:2021-10-11
# キャリブレーションネットワーク改善のためのインスタンスベースのラベル平滑化

Instance-based Label Smoothing For Better Calibrated Classification Networks ( http://arxiv.org/abs/2110.05355v1 )

ライセンス: Link先を確認
Mohamed Maher, Meelis Kull(参考訳) ラベルスムーシングはディープニューラルネットワークで多クラス分類に広く使われている。 モデル一般化を強化し、予測されたクラスの確率を下げることによって過信を減少させるが、他のクラスの予測確率を歪め、クラスワイドキャリブレーションが低下する。 モデル一般化のもう1つの方法は自己蒸留であり、生徒ネットワークを訓練するためのターゲットとして、1つのホットラベルで訓練された教師ネットワークの予測を用いる。 我々は, ラベルの平滑化と自己蒸留の両方から着想を得て, 2つの新しいインスタンスベースのラベル平滑化手法を提案し, ハードワンホットラベルで訓練された教師ネットワークを用いて各インスタンスに適用されるクラスごとの平滑性を決定する。 割り当てられた滑らか化係数は、実際のクラスと類似性に応じてクラスとともに一様ではない。 本手法は,様々な深層ニューラルネットワークと画像分類データセット上での標準ラベル平滑化よりも,より一般化とキャリブレーションの改善を示す。

Label smoothing is widely used in deep neural networks for multi-class classification. While it enhances model generalization and reduces overconfidence by aiming to lower the probability for the predicted class, it distorts the predicted probabilities of other classes resulting in poor class-wise calibration. Another method for enhancing model generalization is self-distillation where the predictions of a teacher network trained with one-hot labels are used as the target for training a student network. We take inspiration from both label smoothing and self-distillation and propose two novel instance-based label smoothing approaches, where a teacher network trained with hard one-hot labels is used to determine the amount of per class smoothness applied to each instance. The assigned smoothing factor is non-uniformly distributed along with the classes according to their similarity with the actual class. Our methods show better generalization and calibration over standard label smoothing on various deep neural architectures and image classification datasets.
翻訳日:2021-10-12 15:35:10 公開日:2021-10-11
# 非正規サンプリング多変量時系列のためのグラフガイドネットワーク

Graph-Guided Network for Irregularly Sampled Multivariate Time Series ( http://arxiv.org/abs/2110.05357v1 )

ライセンス: Link先を確認
Xiang Zhang, Marko Zeman, Theodoros Tsiligkaridis, Marinka Zitnik(参考訳) 医療、生物学、気候科学を含む多くの領域では、時系列は連続した観測の間に変動時間で不規則にサンプリングされ、異なる時間点において異なる変数(センサー)のサブセットが観測される。 これらのデータは、完全な観察と固定長の特徴表現を前提とした、一般的なモデルに対して、複数の課題を生み出します。 これらの課題に対処するためには、センサー間の関係と時間とともにどのように進化するかを理解することが不可欠である。 本稿では,不規則にサンプリングされた多変量時系列の表現を学習するためのグラフ誘導ネットワークであるRAINDROPを紹介する。 RAINDROPはすべてのサンプルをグラフとして表現し、ノードはセンサーを示し、エッジはそれら間の依存関係を表す。 ニューラルメッセージパッシングと時間的セルフアテンションを用いたセンサ間のレインドロップモデル依存性 サンプル間で共有されるセンサー間の関係と、時間によって異なる各サンプルに特有の関係の両方を考慮し、近隣の観測に基づいて不一致の観測を適応的に推定する。 我々は、RAINDROPを用いて時系列を分類し、3つの医療および人間の活動データセットの時間的ダイナミクスを解釈する。 RAINDROPは最先端の手法を最大11.4%(F1スコアの絶対点)で上回り、固定された離散化とセット関数を使った不規則なサンプリングを扱う方法や、新しい患者グループへの一般化を必要とする離脱検知設定や設定に挑戦することさえある。

In many domains, including healthcare, biology, and climate science, time series are irregularly sampled with variable time between successive observations and different subsets of variables (sensors) are observed at different time points, even after alignment to start events. These data create multiple challenges for prevailing models that assume fully observed and fixed-length feature representations. To address these challenges, it is essential to understand the relationships between sensors and how they evolve over time. Here, we introduce RAINDROP, a graph-guided network for learning representations of irregularly sampled multivariate time series. RAINDROP represents every sample as a graph, where nodes indicate sensors and edges represent dependencies between them. RAINDROP models dependencies between sensors using neural message passing and temporal self-attention. It considers both inter-sensor relationships shared across samples and those unique to each sample that can vary with time, and it adaptively estimates misaligned observations based on nearby observations. We use RAINDROP to classify time series and interpret temporal dynamics of three healthcare and human activity datasets. RAINDROP outperforms state-of-the-art methods by up to 11.4% (absolute points in F1 score), including methods that deal with irregular sampling using fixed discretization and set functions, and even in challenging leave-sensor-out settings and setups that require generalizing to new patient groups.
翻訳日:2021-10-12 15:34:55 公開日:2021-10-11
# (参考訳) ティー! 有毒音声検出のためのチュニジアデータセット [全文訳有]

TEET! Tunisian Dataset for Toxic Speech Detection ( http://arxiv.org/abs/2110.05287v1 )

ライセンス: CC0 1.0
Slim Gharbi, Heger Arfaoui, Hatem Haddad, Mayssa Kchaou(参考訳) ソーシャルメディアにおける表現の自由の完全性は、特に有害で虐待的なコンテンツの拡散に費用がかかる。 したがって、このようなコンテンツを自動的に検出する必要性は、この有害な拡散を制限するための効率向上に役立つ緊急タスクとなる。 他のアラビア語方言と比較すると、チュニジア方言はMSA、タマジット、イタリア語、フランス語といった他の多くの言語と組み合わせられている。 リッチな言語であるため、大規模な注釈付きデータセットが欠如しているため、NLP問題への対処は困難である。 本稿では,約10万のコメントからなる注釈付きデータセットを提案する。 我々は,NBやSVMなどの機械学習分類器の分類性能とARBERT,MARBERT,XLM-R といったディープラーニングモデルの分類性能について,特徴工学的アプローチによる語彙の詳細な探索を行う。

The complete freedom of expression in social media has its costs especially in spreading harmful and abusive content that may induce people to act accordingly. Therefore, the need of detecting automatically such a content becomes an urgent task that will help and enhance the efficiency in limiting this toxic spread. Compared to other Arabic dialects which are mostly based on MSA, the Tunisian dialect is a combination of many other languages like MSA, Tamazight, Italian and French. Because of its rich language, dealing with NLP problems can be challenging due to the lack of large annotated datasets. In this paper we are introducing a new annotated dataset composed of approximately 10k of comments. We provide an in-depth exploration of its vocabulary through feature engineering approaches as well as the results of the classification performance of machine learning classifiers like NB and SVM and deep learning models such as ARBERT, MARBERT and XLM-R.
翻訳日:2021-10-12 15:31:56 公開日:2021-10-11
# それは君が思うほど良くない! 解釈データを用いた同時機械翻訳の評価

It is Not as Good as You Think! Evaluating Simultaneous Machine Translation on Interpretation Data ( http://arxiv.org/abs/2110.05213v1 )

ライセンス: Link先を確認
Jinming Zhao, Philip Arthur, Gholamreza Haffari, Trevor Cohn, Ehsan Shareghi(参考訳) 既存の同時翻訳システム(SiMT)の多くはオフライン翻訳コーパスで訓練・評価されている。 simtシステムは実際の解釈データに基づいて訓練され、テストされるべきである。 この議論を説明するために,解釈テストセットを提案し,オフライン翻訳で訓練されたsimtの現実的な評価を行う。 本実験の結果は,既存の3つの小規模言語ペアと合わせて,翻訳データと解釈データでsimtモデルを評価する場合,最大13.83 bleuスコアの差を強調した。 解釈訓練データがない場合,既存のオフライン翻訳を解釈型データに変換するt2i方式の変換法を提案し,最大2.8 bleuまで改善する。 しかし、評価ギャップは依然として顕著であり、simtシステムの評価と開発に適した大規模解釈コーパスの構築が求められている。

Most existing simultaneous machine translation (SiMT) systems are trained and evaluated on offline translation corpora. We argue that SiMT systems should be trained and tested on real interpretation data. To illustrate this argument, we propose an interpretation test set and conduct a realistic evaluation of SiMT trained on offline translations. Our results, on our test set along with 3 existing smaller scale language pairs, highlight the difference of up-to 13.83 BLEU score when SiMT models are evaluated on translation vs interpretation data. In the absence of interpretation training data, we propose a translation-to-inter pretation (T2I) style transfer method which allows converting existing offline translations into interpretation-style data, leading to up-to 2.8 BLEU improvement. However, the evaluation gap remains notable, calling for constructing large-scale interpretation corpora better suited for evaluating and developing SiMT systems.
翻訳日:2021-10-12 15:23:03 公開日:2021-10-11
# 問題に焦点をあてて: 談話コヒーレンス理論をクロスドキュメント・コヒーレンスに適用する

Focus on what matters: Applying Discourse Coherence Theory to Cross Document Coreference ( http://arxiv.org/abs/2110.05362v1 )

ライセンス: Link先を確認
William Held, Dan Iter, Dan Jurafsky(参考訳) ドキュメント間でイベントとエンティティの相互参照解決を行うことで、候補への言及数が大幅に増加するため、完全な$n^2$対比較を行うことが困難になる。 既存のアプローチでは、ドキュメントクラスタ内でのみコア参照を考慮することで、単純化されている。 その結果、ダウンストリームタスクにクロスドキュメントコリファレンスアルゴリズムを適用することは滅多にない。 我々は、談話コヒーレンス理論の洞察に基づいて、潜在的コア推論は、読者の談話焦点によって制約される。 我々は、読者の焦点におけるエンティティ/イベントを学習潜在埋め込み空間内の近傍としてモデル化し、言及とゴールドコリファレンスクラスタのセントロイド間の距離を最小化する。 次に、これらの近傍を用いてハードネガティブのみをサンプリングし、参照ペアとその局所的な談話特徴についてきめ細かい分類器を訓練する。 当社のアプローチは、ecb+、銃暴力、サッカーのコリファレンス、およびクロスドメインのクロスドキュメントコリファレンスコーパスに関するイベントとエンティティの両方の最先端の結果を達成します。 さらに、複数のコーパスのトレーニングにより、すべてのデータセットの平均パフォーマンスが17.2F1ポイント向上し、リンク分布が不明な下流タスクで使用する堅牢なコア参照解決モデルが実現される。

Performing event and entity coreference resolution across documents vastly increases the number of candidate mentions, making it intractable to do the full $n^2$ pairwise comparisons. Existing approaches simplify by considering coreference only within document clusters, but this fails to handle inter-cluster coreference, common in many applications. As a result cross-document coreference algorithms are rarely applied to downstream tasks. We draw on an insight from discourse coherence theory: potential coreferences are constrained by the reader's discourse focus. We model the entities/events in a reader's focus as a neighborhood within a learned latent embedding space which minimizes the distance between mentions and the centroids of their gold coreference clusters. We then use these neighborhoods to sample only hard negatives to train a fine-grained classifier on mention pairs and their local discourse features. Our approach achieves state-of-the-art results for both events and entities on the ECB+, Gun Violence, Football Coreference, and Cross-Domain Cross-Document Coreference corpora. Furthermore, training on multiple corpora improves average performance across all datasets by 17.2 F1 points, leading to a robust coreference resolution model for use in downstream tasks where link distribution is unknown.
翻訳日:2021-10-12 15:22:50 公開日:2021-10-11
# 質問応答による説明可能な事実確認

Explainable Fact-checking through Question Answering ( http://arxiv.org/abs/2110.05369v1 )

ライセンス: Link先を確認
Jing Yang, Didier Vega-Oliveros, Ta\'is Seibt and Anderson Rocha(参考訳) ミスリーディングや偽の情報は、世界中のいくつかの場所で混乱を引き起こしている。 この問題を軽減するために、多くの研究者が偽ニュースの拡散と戦う自動ファクトチェック手法を提案している。 しかし、ほとんどの手法では、意思決定の背後にある理由を説明できず、そのような技術を使って機械と人間の信頼を築けなかった。 事実チェックを現実の世界に適用するには信頼が不可欠です。 ここでは,質問応答によるファクトチェック説明可能性について述べる。 特に,クレームから質問と回答を生成し,証拠から同じ質問に答えることを提案する。 また,各質問に注意機構を付加した回答比較モデルを提案する。 質問への回答をプロキシとして活用することで、自動ファクトチェックをいくつかのステップに分解する -- これにより、意思決定プロセスのより詳細な分析が可能になるため、モデルの説明性が向上します。 実験の結果,提案モデルは合理的な説明能力を提供しながら,最先端の性能を実現することができることがわかった。

Misleading or false information has been creating chaos in some places around the world. To mitigate this issue, many researchers have proposed automated fact-checking methods to fight the spread of fake news. However, most methods cannot explain the reasoning behind their decisions, failing to build trust between machines and humans using such technology. Trust is essential for fact-checking to be applied in the real world. Here, we address fact-checking explainability through question answering. In particular, we propose generating questions and answers from claims and answering the same questions from evidence. We also propose an answer comparison model with an attention mechanism attached to each question. Leveraging question answering as a proxy, we break down automated fact-checking into several steps -- this separation aids models' explainability as it allows for more detailed analysis of their decision-making processes. Experimental results show that the proposed model can achieve state-of-the-art performance while providing reasonable explainable capabilities.
翻訳日:2021-10-12 15:22:27 公開日:2021-10-11
# マルチターン対話理解の進歩:サーベイ

Advances in Multi-turn Dialogue Comprehension: A Survey ( http://arxiv.org/abs/2110.04984v1 )

ライセンス: Link先を確認
Zhuosheng Zhang and Hai Zhao(参考訳) 自然言語を理解し、人間と対話するための訓練機械は、人工知能の解明と不可欠なタスクである。 対話システムの多様性は、ディープラーニング技術、特に最近の事前学習言語モデル(PrLM)の急速な発展と共に設計されている。 これらの研究の中で、基本的な課題は対話理解であり、その役割は機械に応答する前に対話コンテキストを読み、理解させることである。 本稿では,対話理解タスクにおける対話モデリングの技術的視点から,過去の手法を概観する。 平文読解とは対照的に,対話理解の特徴と課題を要約する。 次に,対話モデリングの典型的な3つのパターンについて論じる。 さらに,対話シナリオにおけるPrLMの強化に使用される対話関連事前学習手法を分類する。 最後に,近年の技術的進歩を浮き彫りにして,実証的分析から得た教訓と新たな研究のフロンティアへの展望を指摘する。

Training machines to understand natural language and interact with humans is an elusive and essential task of artificial intelligence. A diversity of dialogue systems has been designed with the rapid development of deep learning techniques, especially the recent pre-trained language models (PrLMs). Among these studies, the fundamental yet challenging type of task is dialogue comprehension whose role is to teach the machines to read and comprehend the dialogue context before responding. In this paper, we review the previous methods from the technical perspective of dialogue modeling for the dialogue comprehension task. We summarize the characteristics and challenges of dialogue comprehension in contrast to plain-text reading comprehension. Then, we discuss three typical patterns of dialogue modeling. In addition, we categorize dialogue-related pre-training techniques which are employed to enhance PrLMs in dialogue scenarios. Finally, we highlight the technical advances in recent years and point out the lessons from the empirical analysis and the prospects towards a new frontier of researches.
翻訳日:2021-10-12 15:22:06 公開日:2021-10-11
# (参考訳) 入力依存ランダム化平滑化の興味深い特性

Intriguing Properties of Input-dependent Randomized Smoothing ( http://arxiv.org/abs/2110.05365v1 )

ライセンス: CC BY 4.0
Peter S\'uken\'ik, Aleksei Kuvshinov, Stephan G\"unnemann(参考訳) ランダムな平滑化は、現在、確実に堅牢な分類器を得る最先端の方法と考えられている。 その顕著な性能にもかかわらず、この手法は ' `certified accuracy waterfalls''' 、認証対精度トレードオフ、公平性問題など様々な深刻な問題と関連付けられている。 これらの欠陥を克服するために入力依存の平滑化手法が提案されている。 しかし,これらの手法には形式的保証がないため,証明は正当化されないことを示す。 入力依存の平滑化は一般に次元の呪いに悩まされ、分散関数は半弾性が低いことが示される。 一方,我々は,厳格な制約の下で,次元の呪いが存在する場合でも,入力依存平滑化の利用を可能にする理論的かつ実用的な枠組みを提供する。 CIFAR10 および MNIST 上でスムースな分散の具体的な設計と試験を行う。 我々の設計は、古典的平滑化の問題のいくつかを解決し、公式には下線になっているが、設計のさらなる改善は依然として必要である。

Randomized smoothing is currently considered the state-of-the-art method to obtain certifiably robust classifiers. Despite its remarkable performance, the method is associated with various serious problems such as ``certified accuracy waterfalls'', certification vs. accuracy trade-off, or even fairness issues. Input-dependent smoothing approaches have been proposed to overcome these flaws. However, we demonstrate that these methods lack formal guarantees and so the resulting certificates are not justified. We show that the input-dependent smoothing, in general, suffers from the curse of dimensionality, forcing the variance function to have low semi-elasticity. On the other hand, we provide a theoretical and practical framework that enables the usage of input-dependent smoothing even in the presence of the curse of dimensionality, under strict restrictions. We present one concrete design of the smoothing variance and test it on CIFAR10 and MNIST. Our design solves some of the problems of classical smoothing and is formally underlined, yet further improvement of the design is still necessary.
翻訳日:2021-10-12 15:20:22 公開日:2021-10-11
# 画像分類のためのLearable Adaptive Cosine Estimator (LACE)

Learnable Adaptive Cosine Estimator (LACE) for Image Classification ( http://arxiv.org/abs/2110.05324v1 )

ライセンス: Link先を確認
Joshua Peeples, Connor McCurley, Sarah Walker, Dylan Stewart, Alina Zare(参考訳) 本研究では,特徴識別能力と分類性能を改善するために,新たな損失を提案する。 適応的コサイン/コヒーレンス推定器 (ACE) に動機付け, 人工ニューラルネットワークによって固有に学習される角情報を含む手法を提案する。 学習可能なACE(LACE)は、データを新しい「白」空間に変換し、クラス間分離性とクラス内コンパクト性を改善する。 LACEとアートの代替となるソフトマックスベースの特徴正規化アプローチを比較した。 その結果,提案手法はクロスエントロピーおよび角ソフトマックスアプローチの代替として有効であることがわかった。 私たちのコードは、https://github.com/G atorSense/LACE.comで公開されています。

In this work, we propose a new loss to improve feature discriminability and classification performance. Motivated by the adaptive cosine/coherence estimator (ACE), our proposed method incorporates angular information that is inherently learned by artificial neural networks. Our learnable ACE (LACE) transforms the data into a new ``whitened" space that improves the inter-class separability and intra-class compactness. We compare our LACE to alternative state-of-the art softmax-based and feature regularization approaches. Our results show that the proposed method can serve as a viable alternative to cross entropy and angular softmax approaches. Our code is publicly available: https://github.com/G atorSense/LACE.
翻訳日:2021-10-12 15:18:38 公開日:2021-10-11
# 意図確率のカスタマイズによるBERTモデルによる攻撃言語検出

Offensive Language Detection with BERT-based models, By Customizing Attention Probabilities ( http://arxiv.org/abs/2110.05133v1 )

ライセンス: Link先を確認
Peyman Alavi, Pouria Nikvand, Mehrnoush Shamsfard(参考訳) 本稿では, 変圧器における「注意マスク」入力の使用と, 英語とペルシア語の両方の攻撃的内容の検出にこの手法を用いた新しい研究について述べる。 この論文の主な焦点は、'offensive language detection'タスクでbertベースのモデルのパフォーマンスを向上させる方法を提案することである。 そこで,「アテンションマスク」入力を変更することで,より効果的な単語埋め込みを実現することにより,注意確率をカスタマイズする。 これを実現するために、まず、悪用されたデータセットのトレーニングセットをトークン化します(bert tokenizerによる)。 次に、これらのトークンを2つの確率にマッピングするために多項ナイーブベイを適用する。 これらの確率は、そのトークンを含むとすれば、テキストを不正または攻撃的にする可能性を示している。 その後、これらの確率を用いて新しい用語、すなわちOffensive Scoreを定義する。 次に、各言語に対する攻撃的スコアに基づいて、2つの個別の方程式(使用済みデータセットの種類の違いのため)を作成し、さらに攻撃的フレーズに注意を払うために「アテンションマスク」入力を再分配する。 最終的に、F1-macroスコアを評価基準とし、BERTとANN、CNN、RNNの組み合わせを微調整して、この手法が様々な組み合わせに与える影響を検討する。 その結果、この手法により全てのモデルが強化されることが示された。 最も改善された言語は英語とペルシア語でそれぞれ2%と10%であった。

This paper describes a novel study on using `Attention Mask' input in transformers and using this approach for detecting offensive content in both English and Persian languages. The paper's principal focus is to suggest a methodology to enhance the performance of the BERT-based models on the `Offensive Language Detection' task. Therefore, we customize attention probabilities by changing the `Attention Mask' input to create more efficacious word embeddings. To do this, we firstly tokenize the training set of the exploited datasets (by BERT tokenizer). Then, we apply Multinomial Naive Bayes to map these tokens to two probabilities. These probabilities indicate the likelihood of making a text non-offensive or offensive, provided that it contains that token. Afterwards, we use these probabilities to define a new term, namely Offensive Score. Next, we create two separate (because of the differences in the types of the employed datasets) equations based on Offensive Scores for each language to re-distribute the `Attention Mask' input for paying more attention to more offensive phrases. Eventually, we put the F1-macro score as our evaluation metric and fine-tune several combinations of BERT with ANNs, CNNs and RNNs to examine the effect of using this methodology on various combinations. The results indicate that all models will enhance with this methodology. The most improvement was 2% and 10% for English and Persian languages, respectively.
翻訳日:2021-10-12 15:17:41 公開日:2021-10-11
# 生成言語モデルのみを用いた教師なしニューラルマシン翻訳

Unsupervised Neural Machine Translation with Generative Language Models Only ( http://arxiv.org/abs/2110.05448v1 )

ライセンス: Link先を確認
Jesse Michael Han, Igor Babuschkin, Harrison Edwards, Arvind Neelakantan, Tao Xu, Stanislas Polu, Alex Ray, Pranav Shyam, Aditya Ramesh, Alec Radford, Ilya Sutskever(参考訳) 生成事前学習言語モデルから、最先端の教師なしニューラルネットワーク翻訳システムを導出する方法を示す。 本手法は, 数発増幅, 蒸留, 逆翻訳の3段階からなる。 まず,事前学習された大規模言語モデルのゼロショット翻訳機能を用いて,ラベルなし文の少ない翻訳文を生成する。 そして、これらのゼロショット翻訳を、より大きな合成データセットをサンプリングするためのわずかなデモとして使用することで増幅します。 このデータセットは、少数のデモを破棄して微調整することで蒸留される。 逆翻訳中は、一連の入力に対する翻訳を繰り返し生成し、同時に翻訳タスクの両方向の単一言語モデルを微調整し、ゴールドモノテキストの役割を交換してサイクル整合性を確保するとともに、微調整時に翻訳を生成する。 我々は,GPT-3のゼロショット翻訳能力を活用するために,WMT14の英語-フランス語ベンチマークにおいて,BLEUスコア42.1に到達した。

We show how to derive state-of-the-art unsupervised neural machine translation systems from generatively pre-trained language models. Our method consists of three steps: few-shot amplification, distillation, and backtranslation. We first use the zero-shot translation ability of large pre-trained language models to generate translations for a small set of unlabeled sentences. We then amplify these zero-shot translations by using them as few-shot demonstrations for sampling a larger synthetic dataset. This dataset is distilled by discarding the few-shot demonstrations and then fine-tuning. During backtranslation, we repeatedly generate translations for a set of inputs and then fine-tune a single language model on both directions of the translation task at once, ensuring cycle-consistency by swapping the roles of gold monotext and generated translations when fine-tuning. By using our method to leverage GPT-3's zero-shot translation capability, we achieve a new state-of-the-art in unsupervised translation on the WMT14 English-French benchmark, attaining a BLEU score of 42.1.
翻訳日:2021-10-12 15:15:46 公開日:2021-10-11
# ローマは1776年に建設され、知識基盤応答生成における事実の正確性に関する事例研究

Rome was built in 1776: A Case Study on Factual Correctness in Knowledge-Grounded Response Generation ( http://arxiv.org/abs/2110.05456v1 )

ライセンス: Link先を確認
Sashank Santhanam, Behnam Hedayatnia, Spandana Gella, Aishwarya Padmakumar, Seokhwan Kim, Yang Liu, Dilek Hakkani-Tur(参考訳) 近年、ニューラルレスポンス生成モデルでは、大きな事前学習されたトランスフォーマーモデルと知識スニペットを活用して、関連性および情報的応答を生成する。 しかし、これは生成された応答が事実正しいことを保証しません。 本稿では,知識接地神経応答生成モデルにおける事実的正確性について検討する。 入力知識に関して事実上一貫性のある応答,幻覚的な知識を含む応答,検証不能なchitchatスタイルの応答という,3つの異なる応答タイプを識別するためのヒューマンアノテーションのセットアップを提案する。 私たちはこの設定を使って、さまざまな最先端モデル、知識スニペット、デコード戦略を使って生成された応答を注釈付けします。 さらに、事実整合性検知器の開発を容易にするため、ウィキペディアのウィザードデータセットから適応し、事実整合性と一貫性のない応答を含むConv-FEVERと呼ばれる新しいコーパスを自動生成する。 このデータに基づいてトレーニングしたモデルが、人間の注釈付きデータの評価を通じて提供された知識に対して、実際に一貫性のない応答を検出するのに適していることを示すことにより、当社のconv-feverデータセットのメリットを実証する。 我々は、Conv-FEVERデータセットと人間の注釈付きレスポンスをリリースする。

Recently neural response generation models have leveraged large pre-trained transformer models and knowledge snippets to generate relevant and informative responses. However, this does not guarantee that generated responses are factually correct. In this paper, we examine factual correctness in knowledge-grounded neural response generation models. We present a human annotation setup to identify three different response types: responses that are factually consistent with respect to the input knowledge, responses that contain hallucinated knowledge, and non-verifiable chitchat style responses. We use this setup to annotate responses generated using different stateof-the-art models, knowledge snippets, and decoding strategies. In addition, to facilitate the development of a factual consistency detector, we automatically create a new corpus called Conv-FEVER that is adapted from the Wizard of Wikipedia dataset and includes factually consistent and inconsistent responses. We demonstrate the benefit of our Conv-FEVER dataset by showing that the models trained on this data perform reasonably well to detect factually inconsistent responses with respect to the provided knowledge through evaluation on our human annotated data. We will release the Conv-FEVER dataset and the human annotated responses.
翻訳日:2021-10-12 15:15:30 公開日:2021-10-11
# 多属性画像翻訳におけるラベルと参照ベース合成のギャップを埋める

Bridging the Gap between Label- and Reference-based Synthesis in Multi-attribute Image-to-Image Translation ( http://arxiv.org/abs/2110.05055v1 )

ライセンス: Link先を確認
Qiusheng Huang, Zhilin Zheng, Xueqi Hu, Li Sun, Qingli Li(参考訳) 画像画像変換(I2IT)モデルは、ターゲットラベルまたは参照イメージを入力として、ソースを指定されたターゲットドメインに変更する。 ラベルベースか参照ベースかの2種類の合成には大きな違いがある。 特に、ラベルベース合成は対象ドメインの共通特性を反映し、参照ベースは参照に類似した特定のスタイルを示す。 本稿では,多属性I2ITの課題において,それらのギャップを埋めることを目的としている。 ラベルと参照に基づく符号化モジュール(LEMとREM)を設計し、ドメイン差を比較する。 まず、ソース画像とターゲットラベル(または参照)を共通の埋め込み空間に転送し、属性差分ベクトルを介して反対方向を提供する。 次に、2つの埋め込みを単純に融合して潜伏コードS_rand(またはS_ref)を形成し、SPADEによってジェネレータの各層に注入されるドメインスタイルの違いを反映する。 lemとremをリンクするため、2つのタイプの結果が互いに有益になるように、2つの潜在コードに近いことを奨励し、前方と後方の翻訳間のサイクル一貫性を設定します。 また、余剰画像を合成するために、S_randとS_refとの補間も用いられる。 実験により、ラベルと参照ベースの合成は相互に促進され、lemによる多様な結果と、参照の類似したスタイルで高品質な結果が得られることが示されている。

The image-to-image translation (I2IT) model takes a target label or a reference image as the input, and changes a source into the specified target domain. The two types of synthesis, either label- or reference-based, have substantial differences. Particularly, the label-based synthesis reflects the common characteristics of the target domain, and the reference-based shows the specific style similar to the reference. This paper intends to bridge the gap between them in the task of multi-attribute I2IT. We design the label- and reference-based encoding modules (LEM and REM) to compare the domain differences. They first transfer the source image and target label (or reference) into a common embedding space, by providing the opposite directions through the attribute difference vector. Then the two embeddings are simply fused together to form the latent code S_rand (or S_ref), reflecting the domain style differences, which is injected into each layer of the generator by SPADE. To link LEM and REM, so that two types of results benefit each other, we encourage the two latent codes to be close, and set up the cycle consistency between the forward and backward translations on them. Moreover, the interpolation between the S_rand and S_ref is also used to synthesize an extra image. Experiments show that label- and reference-based synthesis are indeed mutually promoted, so that we can have the diverse results from LEM, and high quality results with the similar style of the reference.
翻訳日:2021-10-12 15:14:14 公開日:2021-10-11
# beyond accuracy: visual question answering benchmarkingのための統合ツール

Beyond Accuracy: A Consolidated Tool for Visual Question Answering Benchmarking ( http://arxiv.org/abs/2110.05159v1 )

ライセンス: Link先を確認
Dirk V\"ath, Pascal Tilli and Ngoc Thang Vu(参考訳) 任意の質問に答えられる一般的なビジュアル質問回答システム(VQA)に向かって、特定のデータセットに対する単一のメトリクスのリーダーボードを超えて評価する必要性が生じる。 そこで我々は,新しいモデルとデータセットを簡単に統合し,vqaの変化する状況に対応するためのapiを備えた,研究者や主催者のためのブラウザベースのベンチマークツールを提案する。 我々のツールは、複数のデータセットにわたるモデルの一般化機能をテストするのに役立ち、精度だけでなく、ノイズ入力に対するロバストネスなどの現実的なシナリオの性能も評価する。 さらに、モデルの振る舞いをさらに説明するために、バイアスと不確実性を測定するメトリクスも含んでいます。 インタラクティブフィルタリングは、データサンプルレベルまで、問題のある振る舞いの発見を容易にする。 概念実証として,4つのモデルのケーススタディを行う。 現状のVQAモデルは特定のタスクやデータセットに最適化されているが、例えば画像中のテキストを認識できないようなドメイン内テストセットにも一般化できない。 私たちのメトリクスは、どのイメージと質問の埋め込みがモデルに最も堅牢性をもたらすかを定量化できます。 すべてのコードは公開されている。

On the way towards general Visual Question Answering (VQA) systems that are able to answer arbitrary questions, the need arises for evaluation beyond single-metric leaderboards for specific datasets. To this end, we propose a browser-based benchmarking tool for researchers and challenge organizers, with an API for easy integration of new models and datasets to keep up with the fast-changing landscape of VQA. Our tool helps test generalization capabilities of models across multiple datasets, evaluating not just accuracy, but also performance in more realistic real-world scenarios such as robustness to input noise. Additionally, we include metrics that measure biases and uncertainty, to further explain model behavior. Interactive filtering facilitates discovery of problematic behavior, down to the data sample level. As proof of concept, we perform a case study on four models. We find that state-of-the-art VQA models are optimized for specific tasks or datasets, but fail to generalize even to other in-domain test sets, for example they cannot recognize text in images. Our metrics allow us to quantify which image and question embeddings provide most robustness to a model. All code is publicly available.
翻訳日:2021-10-12 15:13:51 公開日:2021-10-11
# (参考訳) 一般時間データから一時因果潜在過程を学習する [全文訳有]

Learning Temporally Causal Latent Processes from General Temporal Data ( http://arxiv.org/abs/2110.05428v1 )

ライセンス: CC BY 4.0
Weiran Yao, Yuewen Sun, Alex Ho, Changyin Sun, Kun Zhang(参考訳) 我々の目標は、時間遅延した因果変数を復元し、その関係を時間的データから同定することである。 因果関係の潜在変数を観測から推定することは、最も一般的なケースでは潜在変数が一意的に回復できないため、特に難しい。 本研究では,非パラメトリックな非定常設定と潜在過程のパラメトリック設定の両方を検討し,それらの非線形混合から時間的因果的潜在過程を識別できる2つの証明可能な条件を提案する。 本稿では,従来の因果的プロセスにおいて,条件を適切に制約することで,変分オートエンコーダ(VAE)を拡張した理論的基盤アーキテクチャLEAPを提案する。 様々なデータセットにおける実験結果から, 時間的因果潜在過程は, 異なる依存構造の下で観測された変数から確実に同定され, 履歴や非定常情報を利用しないベースラインをかなり上回ることがわかった。 これは、周期性や最小性の仮定を使わずに、非線形混合物から時間遅れの潜伏過程を回復する最初の研究の1つである。

Our goal is to recover time-delayed latent causal variables and identify their relations from measured temporal data. Estimating causally-related latent variables from observations is particularly challenging as the latent variables are not uniquely recoverable in the most general case. In this work, we consider both a nonparametric, nonstationary setting and a parametric setting for the latent processes and propose two provable conditions under which temporally causal latent processes can be identified from their nonlinear mixtures. We propose LEAP, a theoretically-ground ed architecture that extends Variational Autoencoders (VAEs) by enforcing our conditions through proper constraints in causal process prior. Experimental results on various data sets demonstrate that temporally causal latent processes are reliably identified from observed variables under different dependency structures and that our approach considerably outperforms baselines that do not leverage history or nonstationarity information. This is one of the first works that successfully recover time-delayed latent processes from nonlinear mixtures without using sparsity or minimality assumptions.
翻訳日:2021-10-12 15:08:44 公開日:2021-10-11
# ニュアンスと相関特徴の破棄による深い教師なし特徴選択

Deep Unsupervised Feature Selection by Discarding Nuisance and Correlated Features ( http://arxiv.org/abs/2110.05306v1 )

ライセンス: Link先を確認
Uri Shaham, Ofir Lindenbaum, Jonathan Svirsky and Yuval Kluger(参考訳) 現代のデータセットは、しばしば相関した特徴と迷惑な特徴の大規模なサブセットを含んでおり、それらはデータの主要な基盤構造とは無関係または緩やかに関係している。 ニュアサンス特徴は、グラフラプラシアンの主要な固有ベクトルとの一貫性を通じて、与えられた特徴の重要性を評価するラプラシアンスコア基準を用いて識別することができる。 多数のニュアンス特徴が存在する場合、ラプラシアンは完全な特徴集合ではなく、選択された特徴の部分集合上で計算されなければならない。 そこで我々は,Laplacian score criterion を用いた教師なし特徴選択のための完全微分可能なアプローチを提案し,ニュアンス特徴の選択を回避する。 相関する特徴に対処するためにオートエンコーダアーキテクチャを使用し、選択した特徴のサブセットからデータを再構成するように訓練した。 アーキテクチャ設計を通じて選択された機能の数を制御し、最適化プロセスを簡素化する、最近提案されたコンクリート層の上に構築する。 いくつかの実世界のデータセットで実験した結果,提案手法は相関性やニュアサンスのみを避けるために設計されたアプローチよりも優れており,その両方ではない。 最先端のクラスタリング結果がいくつか報告されている。

Modern datasets often contain large subsets of correlated features and nuisance features, which are not or loosely related to the main underlying structures of the data. Nuisance features can be identified using the Laplacian score criterion, which evaluates the importance of a given feature via its consistency with the Graph Laplacians' leading eigenvectors. We demonstrate that in the presence of large numbers of nuisance features, the Laplacian must be computed on the subset of selected features rather than on the complete feature set. To do this, we propose a fully differentiable approach for unsupervised feature selection, utilizing the Laplacian score criterion to avoid the selection of nuisance features. We employ an autoencoder architecture to cope with correlated features, trained to reconstruct the data from the subset of selected features. Building on the recently proposed concrete layer that allows controlling for the number of selected features via architectural design, simplifying the optimization process. Experimenting on several real-world datasets, we demonstrate that our proposed approach outperforms similar approaches designed to avoid only correlated or nuisance features, but not both. Several state-of-the-art clustering results are reported.
翻訳日:2021-10-12 14:46:58 公開日:2021-10-11
# OpenCVにおける複数のオブジェクトトラッカー:ベンチマーク

Multiple Object Trackers in OpenCV: A Benchmark ( http://arxiv.org/abs/2110.05102v1 )

ライセンス: Link先を確認
Na{\dj}a Dardagan, Adnan Br{\dj}anin, D\v{z}emil D\v{z}igal, Amila Akagic(参考訳) 物体追跡はコンピュータビジョンの最も重要かつ基本的な分野の1つである。 多くのコンピュータビジョンアプリケーションは、自動運転車やスマートカー、ビデオ監視、医療治療など、特定の物体追跡機能を必要とする。 opencvはコンピュータビジョンのための最も人気のあるライブラリの1つであり、数百のコンピュータビジョンアルゴリズムを含んでいる。 ライブラリ内のオブジェクト追跡タスクは、大まかに1つと複数のオブジェクトトラッカーにクラスタ化できる。 ライブラリはリアルタイムアプリケーションに広く使われているが、特定のトラッカーをいつ使うか、パフォーマンスをどのように評価するか、トラッカーが最良の結果をもたらすオブジェクトの種類など、未解決の質問が数多くある。 本稿では,OpenCVで実装された7つのトラッカーをMOT20データセットに対して評価する。 結果は、MOTA(Multiple Object Tracking Accuracy)とMOTP(Multiple Object Tracking Precision)のメトリクスに基づいて示される。

Object tracking is one of the most important and fundamental disciplines of Computer Vision. Many Computer Vision applications require specific object tracking capabilities, including autonomous and smart vehicles, video surveillance, medical treatments, and many others. The OpenCV as one of the most popular libraries for Computer Vision includes several hundred Computer Vision algorithms. Object tracking tasks in the library can be roughly clustered in single and multiple object trackers. The library is widely used for real-time applications, but there are a lot of unanswered questions such as when to use a specific tracker, how to evaluate its performance, and for what kind of objects will the tracker yield the best results? In this paper, we evaluate 7 trackers implemented in OpenCV against the MOT20 dataset. The results are shown based on Multiple Object Tracking Accuracy (MOTA) and Multiple Object Tracking Precision (MOTP) metrics.
翻訳日:2021-10-12 14:46:21 公開日:2021-10-11
# (参考訳) TreeGCN-ED:木構造グラフネットワークを用いたポイントクラウドの符号化 [全文訳有]

TreeGCN-ED: Encoding Point Cloud using a Tree-Structured Graph Network ( http://arxiv.org/abs/2110.03170v2 )

ライセンス: CC BY 4.0
Prajwal Singh, Kaustubh Sadekar, Shanmuganathan Raman(参考訳) ポイントクラウドは3次元幾何学データを表現し保存する効率的な方法である。 ポイントクラウド上のディープラーニングアルゴリズムは時間とメモリ効率がよい。 PointNetやFoldingNetといったいくつかの手法がポイントクラウドの処理のために提案されている。 本稿では,グラフ畳み込みを用いた階層情報を利用して,点群へのロバスト埋め込みを生成する自動エンコーダベースのフレームワークを提案する。 提案するエンコーダアーキテクチャによって生成された埋め込みの質を評価するために複数の実験を行い、t-SNEマップを可視化し、異なるオブジェクトクラスを区別する能力を強調する。 さらに,提案フレームワークの適用性についても実証する。3dポイントクラウド補完および1画像ベース3d再構成。

Point cloud is an efficient way of representing and storing 3D geometric data. Deep learning algorithms on point clouds are time and memory efficient. Several methods such as PointNet and FoldingNet have been proposed for processing point clouds. This work proposes an autoencoder based framework to generate robust embeddings for point clouds by utilizing hierarchical information using graph convolution. We perform multiple experiments to assess the quality of embeddings generated by the proposed encoder architecture and visualize the t-SNE map to highlight its ability to distinguish between different object classes. We further demonstrate the applicability of the proposed framework in applications like: 3D point cloud completion and Single image based 3D reconstruction.
翻訳日:2021-10-12 14:43:27 公開日:2021-10-11
# (参考訳) ViSeRet: 微細なビデオセグメンテーションによるモーメント検索へのシンプルかつ効果的なアプローチ [全文訳有]

ViSeRet: A simple yet effective approach to moment retrieval via fine-grained video segmentation ( http://arxiv.org/abs/2110.05146v1 )

ライセンス: CC BY 4.0
Aiden Seungjoon Lee, Hanseok Oh, Minjoon Seo(参考訳) ビデオテキスト検索には、メディア分析、監視、ロボット工学など、多くの現実世界のアプリケーションがある。 本稿では,ICCV VALUE Challenge 2021のビデオ検索における第1位ソリューションを提案する。 本稿では,2つのビデオテキスト検索タスク(ビデオ検索とビデオコーパスモーメント検索)に,ビデオ検索タスクにのみ訓練されたモデルを活用することで,シンプルかつ効果的なアプローチを提案する。 さらに,VALUE Challengeで提示された4つのデータセット(TVr, How2r, YouCook2r, VATEXr)に対して,新しい最先端のパフォーマンスを実現するアンサンブルモデルを作成する。

Video-text retrieval has many real-world applications such as media analytics, surveillance, and robotics. This paper presents the 1st place solution to the video retrieval track of the ICCV VALUE Challenge 2021. We present a simple yet effective approach to jointly tackle two video-text retrieval tasks (video retrieval and video corpus moment retrieval) by leveraging the model trained only on the video retrieval task. In addition, we create an ensemble model that achieves the new state-of-the-art performance on all four datasets (TVr, How2r, YouCook2r, and VATEXr) presented in the VALUE Challenge.
翻訳日:2021-10-12 13:41:03 公開日:2021-10-11
# (参考訳) リスナーを校正しなさい。 実践的話者のためのロバスト通信に基づく訓練 [全文訳有]

Calibrate your listeners! Robust communication-based training for pragmatic speakers ( http://arxiv.org/abs/2110.05422v1 )

ライセンス: CC BY 4.0
Rose E. Wang, Julia White, Jesse Mu, Noah D. Goodman(参考訳) 会話のパートナーとして、自然言語処理(NLP)システムは、文脈的に有用な発話を生成するために訓練されるべきである。 先行研究は、ニューラルリスナーがコミュニケーションパートナーとして立ち上がるコミュニケーションベースの目標を用いて、nlpシステムをトレーニングすることを調査した。 しかし、これらのシステムは通常、学習した言語が自然言語から根本的に逸脱する意味的漂流に苦しむ。 本稿では,ニューラルリスナーの集団を用いた話者訓練の正規化手法を提案する。 まず, 言語ドリフトは, ニューラルリスナーの不確かさのキャリブレーションが低かったことに由来することを示し, 新たな文に対して高い精度の予測を行う。 我々は,アンサンブルとドロップアウトに基づくリスナーの集団を調査し,前者の不確実性が定量化されることを示す。 本研究では,参照ゲームにおける話者の目的を両立させ,キャリブレーションを向上したアンサンブル手法により,大規模な語彙に拡大しながら実用的な発話を生成でき,新たなゲームやリスナーに一般化できることを示す。

To be good conversational partners, natural language processing (NLP) systems should be trained to produce contextually useful utterances. Prior work has investigated training NLP systems with communication-based objectives, where a neural listener stands in as a communication partner. However, these systems commonly suffer from semantic drift where the learned language diverges radically from natural language. We propose a method that uses a population of neural listeners to regularize speaker training. We first show that language drift originates from the poor uncertainty calibration of a neural listener, which makes high-certainty predictions on novel sentences. We explore ensemble- and dropout-based populations of listeners and find that the former results in better uncertainty quantification. We evaluate both population-based objectives on reference games, and show that the ensemble method with better calibration enables the speaker to generate pragmatic utterances while scaling to a large vocabulary and generalizing to new games and listeners.
翻訳日:2021-10-12 13:32:28 公開日:2021-10-11
# (参考訳) データについて語る必要がある:自然言語処理におけるデータ準備の重要性 [全文訳有]

We Need to Talk About Data: The Importance of Data Readiness in Natural Language Processing ( http://arxiv.org/abs/2110.05464v1 )

ライセンス: CC BY 4.0
Fredrik Olsson and Magnus Sahlgren(参考訳) 本稿では,応用自然言語処理(NLP)プロジェクトにおいて,データの状態が失敗の重要な原因であることを示す。 nlpの学術研究とアカデミア以外の問題への応用との間にはギャップがあり、このギャップは研究結果を運用に応用しようとする学術研究者と非アカデミズムの仲間の間での理解不足に起因していると論じている。 アカデミックから非アカデミック・セッティングへの研究成果の移転と、それに対応する要件のアカデミックへの流入を促進するため、データ準備レベルに基づくデータのアクセシビリティ、妥当性、有用性に関する研究者と外部利害関係者のコミュニケーションを改善する方法を提案する。 この手法は、まだ初期段階にあるものの、民間と公共の両方の分野の利害関係者による複数のイノベーションや研究プロジェクトに繰り返し適用されてきた。 最後に、研究者や実践者たちに自らの経験を共有するよう依頼し、NLPにおけるデータ準備の重要性の認識を高めることを目的とした一連の研究に貢献する。

In this paper, we identify the state of data as being an important reason for failure in applied Natural Language Processing (NLP) projects. We argue that there is a gap between academic research in NLP and its application to problems outside academia, and that this gap is rooted in poor mutual understanding between academic researchers and their non-academic peers who seek to apply research results to their operations. To foster transfer of research results from academia to non-academic settings, and the corresponding influx of requirements back to academia, we propose a method for improving the communication between researchers and external stakeholders regarding the accessibility, validity, and utility of data based on Data Readiness Levels \cite{lawrence2017data}. While still in its infancy, the method has been iterated on and applied in multiple innovation and research projects carried out with stakeholders in both the private and public sectors. Finally, we invite researchers and practitioners to share their experiences, and thus contributing to a body of work aimed at raising awareness of the importance of data readiness for NLP.
翻訳日:2021-10-12 13:21:58 公開日:2021-10-11
# ソフトウェア工学研究にパーソナリティ検出ツールを使う: どこまで進めばいいのか?

Using Personality Detection Tools for Software Engineering Research: How Far Can We Go? ( http://arxiv.org/abs/2110.05035v1 )

ライセンス: Link先を確認
Fabio Calefato and Filippo Lanubile(参考訳) ソフトウェアエンジニアの性格を評価することは、個々の特性とコードレビューやテストのような開発アクティビティの特徴、チーム構成におけるサポートマネージャの特徴を一致させるのに役立つかもしれない。 しかし、自己評価アンケートは、大規模に複数の観察を収集するための実践的な解決策ではない。 代わりに、自動パーソナリティ検出は、これらの制限を克服しながら、非技術的コーパスでトレーニングされた既製のソリューションに基づいている。 本稿では,apache software foundationの公開アーカイブから取得した開発者メールの技術的コーパスに適用し,汎用パーソナリティ検出ツールの性能を評価する。 予測の精度は概して低く、ツール間の全体的な不一致も観察できる。 第2に、プルリクエストの議論と電子メールから開発者の個性を推測するパーソナリティ検出ツールを置き換えることで、SEにおけるこれまでの2つの研究研究を再現する。 原結果が確認されていないこと,すなわち,原研究で使用するツールの変更は,結論の相違につながることを観察する。 以上より,ソフトウェア工学分野を対象とするパーソナリティ検出ツールの必要性が示唆された。

Assessing the personality of software engineers may help to match individual traits with the characteristics of development activities such as code review and testing, as well as support managers in team composition. However, self-assessment questionnaires are not a practical solution for collecting multiple observations on a large scale. Instead, automatic personality detection, while overcoming these limitations, is based on off-the-shelf solutions trained on non-technical corpora, which might not be readily applicable to technical domains like Software Engineering (SE). In this paper, we first assess the performance of general-purpose personality detection tools when applied to a technical corpus of developers' emails retrieved from the public archives of the Apache Software Foundation. We observe a general low accuracy of predictions and an overall disagreement among the tools. Second, we replicate two previous research studies in SE by replacing the personality detection tool used to infer developers' personalities from pull-request discussions and emails. We observe that the original results are not confirmed, i.e., changing the tool used in the original study leads to diverging conclusions. Our results suggest a need for personality detection tools specially targeted for the software engineering domain.
翻訳日:2021-10-12 13:10:58 公開日:2021-10-11
# ニューラルネットワークによる推論は暗黙のプランナーである

Neural Algorithmic Reasoners are Implicit Planners ( http://arxiv.org/abs/2110.05442v1 )

ライセンス: Link先を確認
Andreea Deac, Petar Veli\v{c}kovi\'c, Ognjen Milinkovi\'c, Pierre-Luc Bacon, Jian Tang, Mladen Nikoli\'c(参考訳) インプリシットプランニングは、世界の学習モデルとエンドツーエンドのモデルフリー強化学習を組み合わせるためのエレガントな手法として登場した。 完全に特定された表環境において、完璧なポリシーを得られることが保証されるアルゴリズムであるvalue iterationに触発された暗黙のプランナーのクラスを調査した。 従来のアプローチでは、そのような表形式で環境が提供されていると仮定するか、アルゴリズムによるボトルネック効果を発見するために、値反復を実行する状態の"ローカル近傍"を推測するかのどちらかである。 この効果は、全ての状態におけるスカラー予測に基づいて計画アルゴリズムを明示的に実行することによるものであり、そのようなスカラーが不適切に予測された場合、データ効率に悪影響を及ぼす可能性がある。 上記の制限を緩和するeXecuted Latent Value Iteration Networks (XLVINs)を提案する。 提案手法は,高次元の潜在空間で計画計算を行い,アルゴリズムのボトルネックを解消する。 ニューラルグラフアルゴリズム推論と対照的な自己教師型学習を慎重に活用することで、価値イテレーションとの整合性を維持する。 古典的なコントロール、ナビゲーション、Atari -XLVINを含む8つの低データ設定は、価値あるイテレーションベースの暗黙的なプランナに対するデータ効率を大幅に改善すると同時に、関連するモデルフリーのベースラインも提供する。 最後に、XLVINsがバリューイテレーションと密接に一致できることを実証的に検証する。

Implicit planning has emerged as an elegant technique for combining learned models of the world with end-to-end model-free reinforcement learning. We study the class of implicit planners inspired by value iteration, an algorithm that is guaranteed to yield perfect policies in fully-specified tabular environments. We find that prior approaches either assume that the environment is provided in such a tabular form -- which is highly restrictive -- or infer "local neighbourhoods" of states to run value iteration over -- for which we discover an algorithmic bottleneck effect. This effect is caused by explicitly running the planning algorithm based on scalar predictions in every state, which can be harmful to data efficiency if such scalars are improperly predicted. We propose eXecuted Latent Value Iteration Networks (XLVINs), which alleviate the above limitations. Our method performs all planning computations in a high-dimensional latent space, breaking the algorithmic bottleneck. It maintains alignment with value iteration by carefully leveraging neural graph-algorithmic reasoning and contrastive self-supervised learning. Across eight low-data settings -- including classical control, navigation and Atari -- XLVINs provide significant improvements to data efficiency against value iteration-based implicit planners, as well as relevant model-free baselines. Lastly, we empirically verify that XLVINs can closely align with value iteration.
翻訳日:2021-10-12 13:10:17 公開日:2021-10-11
# (参考訳) 食品科学分光モデルトレーニング: アクティブラーニングと半教師付き学習によるデータ効率の向上 [全文訳有]

Food Science Spectroscopy Model Training: Improving Data Efficiency Using Active Learning and Semi-Supervised Learning ( http://arxiv.org/abs/2110.03765v2 )

ライセンス: CC BY 4.0
Huanle Zhang and Nicharee Wisuthiphaet and Hemiao Cui and Nitin Nitin and Xin Liu and Qing Zhao(参考訳) 過去10年間、食品科学の計測とモニタリング技術は急速に発展してきた。 これらの技術のうち、分光は食品の品質、安全性、栄養特性の分析に広く使われている。 食品システムの複雑さと包括的予測モデルの欠如により、食品システムの複雑な性質を予測するための迅速かつ単純な測定がほとんど失われている。 機械学習(ML)は、これらの特性の分類と予測を改善する大きな可能性を示している。 しかし、MLアプリケーションの大規模なデータセットを収集する障壁はまだ残っている。 本稿では、MLアプリケーションのデータ効率を改善するために、データアノテーションとモデルトレーニングの異なるアプローチを検討する。 具体的には、アクティブラーニング(AL)とセミスーパービジョンラーニング(SSL)を活用し、ベースライン受動的ラーニング、AL、SSL、ALとSSLのハイブリッドの4つのアプローチを調査します。 これらの手法を評価するために,プラズマ量予測と食品由来病原体検出という2つの分光分析データセットを収集した。 実験の結果,実受動的学習手法と比較して,AL法とSSL法は各MLアプリケーションにおいて,ラベル付きサンプルの数を50%,25%削減することがわかった。

The past decade witnesses a rapid development in the measurement and monitoring technologies for food science. Among these technologies, spectroscopy has been widely used for the analysis of food quality, safety, and nutritional properties. Due to the complexity of food systems and the lack of comprehensive predictive models, rapid and simple measurements to predict complex properties in food systems are largely missing. Machine Learning (ML) has shown great potential to improve classification and prediction of these properties. However, the barriers to collect large datasets for ML applications still persists. In this paper, we explore different approaches of data annotation and model training to improve data efficiency for ML applications. Specifically, we leverage Active Learning (AL) and Semi-Supervised Learning (SSL) and investigate four approaches: baseline passive learning, AL, SSL, and a hybrid of AL and SSL. To evaluate these approaches, we collect two spectroscopy datasets: predicting plasma dosage and detecting foodborne pathogen. Our experimental results show that, compared to the de facto passive learning approach, AL and SSL methods reduce the number of labeled samples by 50% and 25% for each ML application, respectively.
翻訳日:2021-10-12 12:22:03 公開日:2021-10-11
# (参考訳) 視覚変換器におけるToken Pooling [全文訳有]

Token Pooling in Vision Transformers ( http://arxiv.org/abs/2110.03860v2 )

ライセンス: CC BY 4.0
Dmitrii Marin, Jen-Hao Rick Chang, Anurag Ranjan, Anish Prabhu, Mohammad Rastegari, Oncel Tuzel(参考訳) 最近の多くの応用の成功にもかかわらず、視覚トランスフォーマーの計算能力の高い要求はリソース制約された設定での使用を制限する。 多くの既存の手法は注意の二次的複雑さを改善するが、ほとんどのビジョントランスフォーマーでは、セルフアテンションは主要な計算ボトルネックではなく、例えば80%以上の計算が完全に接続された層に費やされる。 すべての層の計算の複雑さを改善するために,トークンプーリングと呼ばれる新しいトークンダウンサンプリング手法を提案し,画像の冗長性を効率的に活用し,中間トークン表現を行う。 軽度の仮定では,ソフトマックスアテンションは高次元低域通過フィルタとして機能する。 したがって、その出力には冗長性が含まれており、計算コストと精度のトレードオフを改善することができる。 提案手法は,ダウンサンプリングによる復元誤差を最小化し,トークン集合を高精度に近似する。 我々はコスト効率のよいクラスタリングによってこの最適化問題を解く。 我々は,事前ダウンサンプリング手法を厳格に分析し,比較する。 実験の結果,Token Poolingは最先端のダウンサンプリングに対するコスト-精度トレードオフを大幅に改善することがわかった。 Token Poolingは多くのアーキテクチャの恩恵を受けることができるシンプルで効果的なオペレータです。 DeiTに適用すると、42%の計算量で同じImageNet Top-1精度を実現する。

Despite the recent success in many applications, the high computational requirements of vision transformers limit their use in resource-constrained settings. While many existing methods improve the quadratic complexity of attention, in most vision transformers, self-attention is not the major computation bottleneck, e.g., more than 80% of the computation is spent on fully-connected layers. To improve the computational complexity of all layers, we propose a novel token downsampling method, called Token Pooling, efficiently exploiting redundancies in the images and intermediate token representations. We show that, under mild assumptions, softmax-attention acts as a high-dimensional low-pass (smoothing) filter. Thus, its output contains redundancy that can be pruned to achieve a better trade-off between the computational cost and accuracy. Our new technique accurately approximates a set of tokens by minimizing the reconstruction error caused by downsampling. We solve this optimization problem via cost-efficient clustering. We rigorously analyze and compare to prior downsampling methods. Our experiments show that Token Pooling significantly improves the cost-accuracy trade-off over the state-of-the-art downsampling. Token Pooling is a simple and effective operator that can benefit many architectures. Applied to DeiT, it achieves the same ImageNet top-1 accuracy using 42% fewer computations.
翻訳日:2021-10-12 12:04:31 公開日:2021-10-11
# スカラーに基づくダイナミクスの簡易同変機械学習法

A simple equivariant machine learning method for dynamics based on scalars ( http://arxiv.org/abs/2110.03761v2 )

ライセンス: Link先を確認
Weichi Yao and Kate Storey-Fisher and David W. Hogg and Soledad Villar(参考訳) 物理システムは厳密な対称性原理に従う。 これらの対称性を本質的に尊重する機械学習手法は、そうでないものよりも優れたパフォーマンスを期待する。 この作業では、不変スカラーに基づく原則モデルを実装し、オープンソースコードをリリースします。 この \textsl{scalars} 法を単純なカオス力学系であるバネイ二重振り子に適用する。 提案手法は,物理系の特性を対称性で学習するために,精度と速度の両面で,最先端の手法よりも優れていることを示す。 本手法には基本対称性が組み込まれているため,システム内の力法則の変化など,異なる設定に一般化されることが期待できる。

Physical systems obey strict symmetry principles. We expect that machine learning methods that intrinsically respect these symmetries should perform better than those that do not. In this work we implement a principled model based on invariant scalars, and release open-source code. We apply this \textsl{Scalars} method to a simple chaotic dynamical system, the springy double pendulum. We show that the Scalars method outperforms state-of-the-art approaches for learning the properties of physical systems with symmetries, both in terms of accuracy and speed. Because the method incorporates the fundamental symmetries, we expect it to generalize to different settings, such as changes in the force laws in the system.
翻訳日:2021-10-12 11:40:27 公開日:2021-10-11
# (参考訳) エンターテイメントメディアにおける職業の表現:計算テキスト分析による頻度・感情傾向の考察 [全文訳有]

Representation of professions in entertainment media: Insights into frequency and sentiment trends through computational text analysis ( http://arxiv.org/abs/2110.03873v2 )

ライセンス: CC BY 4.0
Sabyasachee Baruah, Krishna Somandepalli, and Shrikanth Narayanan(参考訳) 社会的な考えや傾向はメディアの物語や映画的描写を規定し、それが人々の現実世界の信念や認識に影響を及ぼす。 文化、教育、政府、宗教、家族を描いたメディアは、人々がこれらの表現を解釈し知覚し、それを信念や行動に取り入れるにつれて、その機能と進化に時間とともに影響を及ぼす。 これらの社会構造のメディア描写を研究することは、否定的なステレオタイプを広めたり補強したりしないか、人口統計学的セクションを差別しないために重要である。 本研究では,エンタテインメントメディアコンテンツにおいて,職業のメディア表現を調査し,その頻度,感情について計算的洞察を与える。 プログループとタイトルの検索可能な分類法を作成し,映画やテレビ(tv)の字幕表示など,話者に依存しない文章の検索を容易にする。 我々は、この分類と関連する自然言語処理(NLP)モデルを利用して、メディアコンテンツにおける専門的な言及のコーパスを作成し、70年以上にわたって136,000のIMDbタイトルをカバーした(1950-2017)。 異なる職業の頻度と感情傾向を分析し、ジャンル、生産国、タイトルタイプなどのメディア属性がこれらの傾向に及ぼす影響を調査し、メディアサブタイトルにおける職業の出現と実際の雇用統計との関連性について検討する。 我々は、分析したサブタイトルにおけるSTEM、芸術、スポーツ、エンターテイメントのメディア言及の増加と、手作業や軍事的職業の減少を観察する。 弁護士、警察、医師に対する感情は時間とともに否定的になりつつあり、宇宙飛行士、ミュージシャン、歌手、エンジニアなどが好意的に言及されている。 より多くの人を雇用する職業は、メディアの頻度を増加させ、メディアは社会の鏡として働くという私たちの仮説を支持しています。

Societal ideas and trends dictate media narratives and cinematic depictions which in turn influences people's beliefs and perceptions of the real world. Media portrayal of culture, education, government, religion, and family affect their function and evolution over time as people interpret and perceive these representations and incorporate them into their beliefs and actions. It is important to study media depictions of these social structures so that they do not propagate or reinforce negative stereotypes, or discriminate against any demographic section. In this work, we examine media representation of professions and provide computational insights into their incidence, and sentiment expressed, in entertainment media content. We create a searchable taxonomy of professional groups and titles to facilitate their retrieval from speaker-agnostic text passages like movie and television (TV) show subtitles. We leverage this taxonomy and relevant natural language processing (NLP) models to create a corpus of professional mentions in media content, spanning more than 136,000 IMDb titles over seven decades (1950-2017). We analyze the frequency and sentiment trends of different occupations, study the effect of media attributes like genre, country of production, and title type on these trends, and investigate if the incidence of professions in media subtitles correlate with their real-world employment statistics. We observe increased media mentions of STEM, arts, sports, and entertainment occupations in the analyzed subtitles, and a decreased frequency of manual labor jobs and military occupations. The sentiment expressed toward lawyers, police, and doctors is becoming negative over time, whereas astronauts, musicians, singers, and engineers are mentioned favorably. Professions that employ more people have increased media frequency, supporting our hypothesis that media acts as a mirror to society.
翻訳日:2021-10-12 11:39:28 公開日:2021-10-11
# ネットワーク学習のためのCurved Markov Chain Monte Carlo

Curved Markov Chain Monte Carlo for Network Learning ( http://arxiv.org/abs/2110.03413v2 )

ライセンス: Link先を確認
John Sigbeku, Emil Saucan, and Anthea Monod(参考訳) グラフ上に定義された離散曲率測度に基づくネットワークに対する幾何学的に拡張されたマルコフ連鎖モンテカルロサンプリングを提案する。 具体的には,グラフフォーマン曲率の概念をマルコフ連鎖の遷移確率を通じて,ネットワークのノードとエッジの両方のサンプリング手順に明示的に組み込むとともに,ターゲット定常分布を通じて暗黙的に,新たな曲線化されたマルコフ連鎖モンテカルロの学習ネットワークへのアプローチを与える。 その結果,実世界データから導かれた決定論的ネットワーク上での幅広いネットワーク統計値への収束が速くなることがわかった。

We present a geometrically enhanced Markov chain Monte Carlo sampler for networks based on a discrete curvature measure defined on graphs. Specifically, we incorporate the concept of graph Forman curvature into sampling procedures on both the nodes and edges of a network explicitly, via the transition probability of the Markov chain, as well as implicitly, via the target stationary distribution, which gives a novel, curved Markov chain Monte Carlo approach to learning networks. We show that integrating curvature into the sampler results in faster convergence to a wide range of network statistics demonstrated on deterministic networks drawn from real-world data.
翻訳日:2021-10-12 11:11:55 公開日:2021-10-11
# マルチプロキシアンカー損失と深層学習性能指標の有効性

Multi Proxy Anchor Loss and Effectiveness of Deep Metric Learning Performance Metrics ( http://arxiv.org/abs/2110.03997v2 )

ライセンス: Link先を確認
Shozo Saeki, Minoru Kawahara, and Hirohisa Aman(参考訳) ディープメトリック学習(dml)はマッピングを学習し、類似したデータが近く、類似したデータが遠くにある埋め込み空間にマップする。 本稿では,新しいプロキシベース損失と新しいDML性能指標を提案する。 本研究では,(1)マルチプロキシアンカー(mpa)損失を提案するとともに,プロキシベース損失に対するマルチプロキシアプローチの有効性を示す。 2) 有効DML性能指標として, 良好な安定性とフレキシブルな正規化割引利得(nDCG@k)測定値を確立する。 最後に, MPA損失の有効性を実証し, MPA損失は, 微細な画像のための2つのデータセットに対して, 新たな最先端性能を実現する。

Deep metric learning (DML) learns the mapping, which maps into embedding space in which similar data is near and dissimilar data is far. In this paper, we propose the new proxy-based loss and the new DML performance metric. This study contributes two following: (1) we propose multi-proxies anchor (MPA) loss, and we show the effectiveness of the multi-proxies approach on proxy-based loss. (2) we establish the good stability and flexible normalized discounted cumulative gain (nDCG@k) metric as the effective DML performance metric. Finally, we demonstrate MPA loss's effectiveness, and MPA loss achieves new state-of-the-art performance on two datasets for fine-grained images.
翻訳日:2021-10-12 11:11:44 公開日:2021-10-11