このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211208となっている論文です。

PDF登録状況(公開日: 20211208)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 学習画像圧縮のための大域的および局所的階層的事前処理 [全文訳有]

Joint Global and Local Hierarchical Priors for Learned Image Compression ( http://arxiv.org/abs/2112.04487v1 )

ライセンス: CC BY-SA 4.0
Jun-Hyuk Kim, Byeongho Heo, and Jong-Seok Lee(参考訳) 近年,BPGなどの手作り画像コーデックと比較して,学習画像圧縮法の性能が向上している。 学習画像圧縮の基本研究方向の1つは、量子化された潜在表現の確率分布を正確に推定するエントロピーモデルを開発することである。 他の視覚タスクと同様に、最近の学習エントロピーモデルのほとんどは畳み込みニューラルネットワーク(cnns)に基づいている。 しかし、CNNは局所接続の性質から遠方の領域間の依存性のモデリングに制限があり、空間冗長性の低減が鍵となる画像圧縮において重要なボトルネックとなる可能性がある。 この問題に対処するために,情報変換器(Informer)と呼ばれる新しいエントロピーモデルを提案する。 実験により,Informer は2次計算複雑性問題なく,Kodak および Tecnick データセット上での最先端手法よりも速度歪み性能を向上することを示した。

Recently, learned image compression methods have shown superior performance compared to the traditional hand-crafted image codecs including BPG. One of the fundamental research directions in learned image compression is to develop entropy models that accurately estimate the probability distribution of the quantized latent representation. Like other vision tasks, most of the recent learned entropy models are based on convolutional neural networks (CNNs). However, CNNs have a limitation in modeling dependencies between distant regions due to their nature of local connectivity, which can be a significant bottleneck in image compression where reducing spatial redundancy is a key point. To address this issue, we propose a novel entropy model called Information Transformer (Informer) that exploits both local and global information in a content-dependent manner using an attention mechanism. Our experiments demonstrate that Informer improves rate-distortion performance over the state-of-the-art methods on the Kodak and Tecnick datasets without the quadratic computational complexity problem.
翻訳日:2022-01-09 18:29:12 公開日:2021-12-08
# 軽量単一画像超解像のための動的残差セルフアテンションネットワーク

A Dynamic Residual Self-Attention Network for Lightweight Single Image Super-Resolution ( http://arxiv.org/abs/2112.04488v1 )

ライセンス: Link先を確認
Karam Park, Jae Woong Soh, Nam Ik Cho(参考訳) ディープラーニング法は多くのアプリケーションで優れた性能を示しており、例えばシングルイメージ超解像(SISR)がある。 残差接続アーキテクチャでは、深く積み重ねられた畳み込みニューラルネットワークはSISRに大幅な性能向上をもたらすが、その膨大なパラメータと計算負荷は現実世界のアプリケーションでは実用的ではない。 したがって、許容性能を持つ軽量モデルの設計は、現在のSISR研究における主要な課題の1つである。 軽量ネットワーク設計の目的は、計算負荷と再構成性能のバランスをとることである。 従来の手法の多くは手動で複雑で事前定義された固定構造を設計しており、多くの実験が必要であり、入力画像統計の多様性に柔軟性が欠けていた。 本稿では,ビルディングブロック間の残差接続の自動設計に着目し,軽量sisrのための動的残差セルフアテンションネットワーク(drsan)を提案する。 提案するdrsanは動的残留注意に基づく動的残留接続を持ち,入力統計量に応じて構造を適応的に変化させる。 具体的には,残差パスと入力画像統計の相互関係を見出すとともに,各残差パスに適切な重みを割り当てることで,draを明示的にモデル化する動的残差モジュールを提案する。 また,残余構造と協調して付加パラメータを伴わずに3次元のアテンションマップを生成する残余自己アテンション(RSA)モジュールを提案する。 DRAとRSAを組み合わせた動的スキームでは,計算複雑性とネットワーク性能のトレードオフが効果的である。 実験の結果、DRSANはSISRの既存の最先端軽量モデルに匹敵する性能を示した。

Deep learning methods have shown outstanding performance in many applications, including single-image super-resolution (SISR). With residual connection architecture, deeply stacked convolutional neural networks provide a substantial performance boost for SISR, but their huge parameters and computational loads are impractical for real-world applications. Thus, designing lightweight models with acceptable performance is one of the major tasks in current SISR research. The objective of lightweight network design is to balance a computational load and reconstruction performance. Most of the previous methods have manually designed complex and predefined fixed structures, which generally required a large number of experiments and lacked flexibility in the diversity of input image statistics. In this paper, we propose a dynamic residual self-attention network (DRSAN) for lightweight SISR, while focusing on the automated design of residual connections between building blocks. The proposed DRSAN has dynamic residual connections based on dynamic residual attention (DRA), which adaptively changes its structure according to input statistics. Specifically, we propose a dynamic residual module that explicitly models the DRA by finding the interrelation between residual paths and input image statistics, as well as assigning proper weights to each residual path. We also propose a residual self-attention (RSA) module to further boost the performance, which produces 3-dimensional attention maps without additional parameters by cooperating with residual structures. The proposed dynamic scheme, exploiting the combination of DRA and RSA, shows an efficient trade-off between computational complexity and network performance. Experimental results show that the DRSAN performs better than or comparable to existing state-of-the-art lightweight models for SISR.
翻訳日:2022-01-09 13:23:53 公開日:2021-12-08
# 言語モデルのスケーリング: トレーニング用gopherからのメソッド、分析、洞察

Scaling Language Models: Methods, Analysis & Insights from Training Gopher ( http://arxiv.org/abs/2112.11446v1 )

ライセンス: Link先を確認
Jack W. Rae, Sebastian Borgeaud, Trevor Cai, Katie Millican, Jordan Hoffmann, Francis Song, John Aslanides, Sarah Henderson, Roman Ring, Susannah Young, Eliza Rutherford, Tom Hennigan, Jacob Menick, Albin Cassirer, Richard Powell, George van den Driessche, Lisa Anne Hendricks, Maribeth Rauh, Po-Sen Huang, Amelia Glaese, Johannes Welbl, Sumanth Dathathri, Saffron Huang, Jonathan Uesato, John Mellor, Irina Higgins, Antonia Creswell, Nat McAleese, Amy Wu, Erich Elsen, Siddhant Jayakumar, Elena Buchatskaya, David Budden, Esme Sutherland, Karen Simonyan, Michela Paganini, Laurent Sifre, Lena Martens, Xiang Lorraine Li, Adhiguna Kuncoro, Aida Nematzadeh, Elena Gribovskaya, Domenic Donato, Angeliki Lazaridou, Arthur Mensch, Jean-Baptiste Lespiau, Maria Tsimpoukelli, Nikolai Grigorev, Doug Fritz, Thibault Sottiaux, Mantas Pajarskas, Toby Pohlen, Zhitao Gong, Daniel Toyama, Cyprien de Masson d'Autume, Yujia Li, Tayfun Terzi, Vladimir Mikulik, Igor Babuschkin, Aidan Clark, Diego de Las Casas, Aurelia Guy, Chris Jones, James Bradbury, Matthew Johnson, Blake Hechtman, Laura Weidinger, Iason Gabriel, William Isaac, Ed Lockhart, Simon Osindero, Laura Rimell, Chris Dyer, Oriol Vinyals, Kareem Ayoub, Jeff Stanway, Lorrayne Bennett, Demis Hassabis, Koray Kavukcuoglu, Geoffrey Irving(参考訳) 言語モデリングは、人間の知識の大規模なリポジトリを利用して、世界をよりよく予測し理解することで、インテリジェントなコミュニケーションシステムへのステップを提供する。 本稿では、数千万のパラメータを持つモデルから、Gopherと呼ばれる2800億のパラメータモデルまで、幅広いモデルスケールにわたるトランスフォーマーベースの言語モデル性能の分析を行う。 これらのモデルは152の多様なタスクで評価され、大多数で最先端のパフォーマンスを達成する。 スケールからの利益は理解、事実確認、有毒な言語の同定などの分野では最大だが、論理学や数学的推論の利点は少ない。 トレーニングデータセットとモデルの振る舞いを総合的に分析し,モデルスケールとバイアスと毒性の交点をカバーする。 最後に,ai安全性への言語モデルの応用と下流の被害軽減について論じる。

Language modelling provides a step towards intelligent communication systems by harnessing large repositories of written human knowledge to better predict and understand the world. In this paper, we present an analysis of Transformer-based language model performance across a wide range of model scales -- from models with tens of millions of parameters up to a 280 billion parameter model called Gopher. These models are evaluated on 152 diverse tasks, achieving state-of-the-art performance across the majority. Gains from scale are largest in areas such as reading comprehension, fact-checking, and the identification of toxic language, but logical and mathematical reasoning see less benefit. We provide a holistic analysis of the training dataset and model's behaviour, covering the intersection of model scale with bias and toxicity. Finally we discuss the application of language models to AI safety and the mitigation of downstream harms.
翻訳日:2021-12-26 13:21:22 公開日:2021-12-08
# プロシージャ、オブジェクト、アクター、コンポーネント、サービス、エージェントからエージェントへ -- プログラミング抽象化の歴史と進化の比較分析

From Procedures, Objects, Actors, Components, Services, to Agents -- A Comparative Analysis of the History and Evolution of Programming Abstractions ( http://arxiv.org/abs/2112.12508v1 )

ライセンス: Link先を確認
Jean-Pierre Briot(参考訳) この章の目的は、プログラミング抽象化の進化の振り返り分析を、 {\em procedure}, {\em actors}, {\em components}, {\em service} から {\em agent} まで、 % ソフトウェアコンポーネントとエージェント(およびマルチエージェントシステム)の概念を比較し、 % 選択した方法は、一般的な歴史的観点でそれらを置き換えることである。 3つの軸/次元を持つ一般的な参照式が選択される: 1つの実体のレベルでのアクション選択式、エンティティ間の結合柔軟性式、および、抽象レベル式。 実際に、より高い柔軟性を求める連続的な探求(例えば {\em late binding} や {\em connection} の {\em reification} など)とより高いレベルの {\em abstract} を観察することができる。 コンポーネント、サービス、エージェントの概念には共通の目的(特に、ソフトウェアモジュラリティと再構成可能性)があり、マルチエージェントシステムは、さらなる概念である「自動化」と「協調」を提起する。 特に「自己組織」の概念と「知識」の使用を通して。 この分析は、プログラミング抽象化の進歩を動機づける基本的な力のいくつかを強調し、将来のプログラミング抽象化の反映にいくつかの種を提供することを願っている。

The objective of this chapter is to propose some retrospective analysis of the evolution of programming abstractions, from {\em procedures}, {\em objects}, {\em actors}, {\em components}, {\em services}, up to {\em agents}, %have some compare concepts of software component and of agent (and multi-agent system), %The method chosen is to by replacing them within a general historical perspective. Some common referential with three axes/dimensions is chosen: {\em action selection} at the level of one entity, {\em coupling flexibility} between entities, and {\em abstraction level}. We indeed may observe some continuous quest for higher flexibility (through notions such as {\em late binding}, or {\em reification} of {\em connections}) and higher level of {\em abstraction}. Concepts of components, services and agents have some common objectives (notably, {\em software modularity and reconfigurability}), with multi-agent systems raising further concepts of {\em autonomy} and {\em coordination}. notably through the notion of {\em auto-organization} and the use of {\em knowledge}. We hope that this analysis helps at highlighting some of the basic forces motivating the progress of programming abstractions and therefore that it may provide some seeds for the reflection about future programming abstractions.
翻訳日:2021-12-26 13:19:08 公開日:2021-12-08
# 変圧器を用いた軌道予測

Transformer based trajectory prediction ( http://arxiv.org/abs/2112.04350v1 )

ライセンス: Link先を確認
Aleksey Postnikov, Aleksander Gamayunov, Gonzalo Ferrer(参考訳) 安全で効率的なルートを計画するには、自動運転車は周囲の他のエージェントの将来の動きを予測する必要がある。 運動予測は、最近研究コミュニティから大きな注目を集めた非常に困難な課題である。 本研究では,変圧器ニューラルネットワークを純粋にベースとした不確実な動作予測のための,単純かつ強力なベースラインを提案する。 実装が容易である一方で、提案手法は競争性能を達成し、2021年のシフト車両運動予測コンペティションで1$^{st}$にランク付けする。

To plan a safe and efficient route, an autonomous vehicle should anticipate future motions of other agents around it. Motion prediction is an extremely challenging task which recently gained significant attention of the research community. In this work, we present a simple and yet strong baseline for uncertainty aware motion prediction based purely on transformer neural networks, which has shown its effectiveness in conditions of domain change. While being easy-to-implement, the proposed approach achieves competitive performance and ranks 1$^{st}$ on the 2021 Shifts Vehicle Motion Prediction Competition.
翻訳日:2021-12-19 13:00:54 公開日:2021-12-08
# ディープ結合型オートエンコーダを用いたクロスドメインレコメンデータシステム

A cross-domain recommender system using deep coupled autoencoders ( http://arxiv.org/abs/2112.07617v1 )

ライセンス: Link先を確認
Alexandros Gkillas, Dimitrios Kosmopoulos(参考訳) 長期にわたるデータ分散とコールドスタートは、レコメンデーションシステムにとって厄介かつ難解な問題を構成する。 ドメイン適応フレームワークとしてのクロスドメインレコメンデーションは、複数のドメインの情報を活用することで、これらの課題に効率的に対処するために利用されています。 本研究では,2つの関連ドメイン,すなわちソースドメインとターゲットドメインが,ユーザの行動に関する機密情報を共有せずに共通項目を格納し,ユーザプライバシの漏洩を回避する,アイテムレベルの関連性ドメイン間推薦タスクについて検討する。 このシナリオを踏まえ、クロスドメインレコメンデーションのために2つの新しい結合型オートエンコーダに基づくディープラーニング手法を提案する。 第1の方法は、ソースとターゲットドメイン内のアイテムの固有表現を明らかにするために、2つのオートエンコーダを同時に学習することを目的としており、これらの表現間の非線形関係をモデル化する結合マッピング関数とともに、ソースから対象ドメインに有益な情報を転送する。 第2の方法は,2つのオートエンコーダを用いてユーザとアイテムラテント要素を深く非直線的に生成すると共に,データ駆動関数を学習して,項目ラテント要素をドメイン間でマッピングする,新たな共同正規化最適化問題に基づいて導出する。 2つの公開ベンチマークデータセットに関する広範な数値実験を行い、提案手法の優れた性能を示すとともに、いくつかの最先端のクロスドメインレコメンデーションフレームワークと比較した。

Long-standing data sparsity and cold-start constitute thorny and perplexing problems for the recommendation systems. Cross-domain recommendation as a domain adaptation framework has been utilized to efficiently address these challenging issues, by exploiting information from multiple domains. In this study, an item-level relevance cross-domain recommendation task is explored, where two related domains, that is, the source and the target domain contain common items without sharing sensitive information regarding the users' behavior, and thus avoiding the leak of user privacy. In light of this scenario, two novel coupled autoencoder-based deep learning methods are proposed for cross-domain recommendation. The first method aims to simultaneously learn a pair of autoencoders in order to reveal the intrinsic representations of the items in the source and target domains, along with a coupled mapping function to model the non-linear relationships between these representations, thus transferring beneficial information from the source to the target domain. The second method is derived based on a new joint regularized optimization problem, which employs two autoencoders to generate in a deep and non-linear manner the user and item-latent factors, while at the same time a data-driven function is learnt to map the item-latent factors across domains. Extensive numerical experiments on two publicly available benchmark datasets are conducted illustrating the superior performance of our proposed methods compared to several state-of-the-art cross-domain recommendation frameworks.
翻訳日:2021-12-19 13:00:43 公開日:2021-12-08
# 深層学習によるオープンワールド脳波デコーディングに向けて

Towards Open-World EEG Decoding via Deep Learning ( http://arxiv.org/abs/2112.06654v1 )

ライセンス: Link先を確認
Xun Chen, Chang Li, Aiping Liu, Martin J. McKeown, Ruobing Qian, Z. Jane Wang(参考訳) 脳波デコーディングは、非侵襲的に測定された脳活動に基づいて、神経処理の知覚的、意味的、認知的内容を特定することを目的としている。 従来のEEG復号法は、静的でよく制御された実験室環境で取得されたデータに適用された場合、適度な成功を収めた。 しかし、オープンワールド環境はより現実的な環境であり、脳波記録に影響を与える状況が予期せず出現し、既存の手法の堅牢性を著しく弱める。 近年,特徴抽出能力に優れる深層学習(DL)が,そのような問題の潜在的な解決策として浮上している。 これは、浅いアーキテクチャを使って抽出された‘手作業’機能や機能を定義するという制限を克服するが、一般的にはコストがかかり、専門的なデータを必要とする。 dlとドメイン固有の知識を組み合わせることで、小さなサンプルデータでも脳活動をデコードするための堅牢なアプローチの開発が可能になる。 脳波デコーディングの課題に対処するために様々なDL手法が提案されているが、特にオープンワールドアプリケーションのための体系的なチュートリアル概要は、現在不足している。 そこで本稿では,オープンワールドの脳波復号のためのDL手法を包括的に調査し,将来的な脳波復号法研究の方向性を明らかにする。

Electroencephalogram (EEG) decoding aims to identify the perceptual, semantic, and cognitive content of neural processing based on non-invasively measured brain activity. Traditional EEG decoding methods have achieved moderate success when applied to data acquired in static, well-controlled lab environments. However, an open-world environment is a more realistic setting, where situations affecting EEG recordings can emerge unexpectedly, significantly weakening the robustness of existing methods. In recent years, deep learning (DL) has emerged as a potential solution for such problems due to its superior capacity in feature extraction. It overcomes the limitations of defining `handcrafted' features or features extracted using shallow architectures, but typically requires large amounts of costly, expertly-labelled data - something not always obtainable. Combining DL with domain-specific knowledge may allow for development of robust approaches to decode brain activity even with small-sample data. Although various DL methods have been proposed to tackle some of the challenges in EEG decoding, a systematic tutorial overview, particularly for open-world applications, is currently lacking. This article therefore provides a comprehensive survey of DL methods for open-world EEG decoding, and identifies promising research directions to inspire future studies for EEG decoding in real-world applications.
翻訳日:2021-12-19 12:59:15 公開日:2021-12-08
# DriPP:M/EEG信号のモデル刺激誘起パターンに対するポイントプロセス

DriPP: Driven Point Processes to Model Stimuli Induced Patterns in M/EEG Signals ( http://arxiv.org/abs/2112.06652v1 )

ライセンス: Link先を確認
C\'edric Allain (PARIETAL), Alexandre Gramfort (PARIETAL), Thomas Moreau (PARIETAL), A Preprint(参考訳) 脳波(EEG)や脳磁図(MEG)からの非侵襲的電気生理学的信号の定量的解析は、誘発応答、過渡的な神経振動のバースト、データクリーニングのための点滅や心拍などの時間的パターンの同定に起因している。 これらのパターンは、例えば畳み込み辞書学習を用いて、教師なしの方法で効率的に抽出できることが、いくつかの研究で示されている。 これはイベントベースのデータ記述につながる。 これらの出来事を踏まえると、自然な疑問は、それらの発生が特定の認知タスクや実験的操作によってどのように調節されるかを評価することである。 そこで我々は,ポイントプロセスアプローチを提案する。 点過程は、過去に神経科学、特に単細胞記録(スパイクトレイン)で用いられてきたが、畳み込み辞書学習のような技法は、脳波/meg信号に基づく人間の研究に適している。 そこで我々は,点過程モデルの強度関数を刺激イベントに対応する点過程の集合に関連付ける,新しい統計点過程モデルである駆動時間点過程(DriPP)を開発した。 このモデルのパラメータを推定するために、高速かつ原理化された期待最大化(em)アルゴリズムを導出する。 シミュレーションにより、モデルパラメータが十分長い信号から識別できることが判明した。 標準MEGデータセットでは,事象関連神経応答が誘発・誘導・分離され,非タスク固有の時間パターンが抽出される。

The quantitative analysis of non-invasive electrophysiology signals from electroencephalograp hy (EEG) and magnetoencephalograp hy (MEG) boils down to the identification of temporal patterns such as evoked responses, transient bursts of neural oscillations but also blinks or heartbeats for data cleaning. Several works have shown that these patterns can be extracted efficiently in an unsupervised way, e.g., using Convolutional Dictionary Learning. This leads to an event-based description of the data. Given these events, a natural question is to estimate how their occurrences are modulated by certain cognitive tasks and experimental manipulations. To address it, we propose a point process approach. While point processes have been used in neuroscience in the past, in particular for single cell recordings (spike trains), techniques such as Convolutional Dictionary Learning make them amenable to human studies based on EEG/MEG signals. We develop a novel statistical point process model-called driven temporal point processes (DriPP)-where the intensity function of the point process model is linked to a set of point processes corresponding to stimulation events. We derive a fast and principled expectation-maximiza tion (EM) algorithm to estimate the parameters of this model. Simulations reveal that model parameters can be identified from long enough signals. Results on standard MEG datasets demonstrate that our methodology reveals event-related neural responses-both evoked and induced-and isolates non-task specific temporal patterns.
翻訳日:2021-12-19 12:58:54 公開日:2021-12-08
# (参考訳) 効率的な推論のためのニューラルネットワーク量子化:調査 [全文訳有]

Neural Network Quantization for Efficient Inference: A Survey ( http://arxiv.org/abs/2112.06126v1 )

ライセンス: CC BY 4.0
Olivia Weng(参考訳) しかし、ニューラルネットワークのパワーと正確性は、その深さと複雑さが主な原因であり、特にリソースに制約のあるデバイスでは、デプロイが困難である。 ニューラルネットワークの量子化は、ネットワークの精度を下げることによって、ニューラルネットワークのサイズと複雑さを減らすというこの要求を満たすために最近登場した。 より小さくシンプルなネットワークでは、ターゲットハードウェアの制約内でニューラルネットワークを実行することが可能になる。 本稿では,過去10年間に開発された多くのニューラルネットワーク量子化技術について検討する。 この調査とニューラルネットワーク量子化技術の比較に基づいて,この領域における今後の研究の方向性を提案する。

As neural networks have become more powerful, there has been a rising desire to deploy them in the real world; however, the power and accuracy of neural networks is largely due to their depth and complexity, making them difficult to deploy, especially in resource-constrained devices. Neural network quantization has recently arisen to meet this demand of reducing the size and complexity of neural networks by reducing the precision of a network. With smaller and simpler networks, it becomes possible to run neural networks within the constraints of their target hardware. This paper surveys the many neural network quantization techniques that have been developed in the last decade. Based on this survey and comparison of neural network quantization techniques, we propose future directions of research in the area.
翻訳日:2021-12-19 12:52:28 公開日:2021-12-08
# prnet:クラウドフロー予測のための周期的残留学習ネットワーク

PRNet: A Periodic Residual Learning Network for Crowd Flow Forecasting ( http://arxiv.org/abs/2112.06132v1 )

ライセンス: Link先を確認
Chengxin Wang, Yuxuan Liang and Gary Tan(参考訳) 群衆フロー予測(例えば、特定の地域に入ったり去ったりする群衆を予測する)は、現実世界の都市への応用において非常に重要である。 群集フローデータの鍵となる特性の1つは周期性であり、週ごとのパターンのような定期的な時間間隔で発生するパターンである。 このような周期性を捉えるために、既存の研究は周期的隠れ状態に基づいて明示的にモデル化するか、すべての周期的セグメントをニューラルネットワークに供給することで暗黙的に学習する。 本稿では,クラウドフローデータの周期性をモデル化するための,新しい周期的残差学習ネットワーク(PRNet)を提案する。 PRNetは既存の手法と異なり、入力(前の時間)と出力(将来の時間)のずれをモデル化することにより、周期的残差学習問題として予測する群集フローをモデル化する。 高ダイナミックな群集の流れを直接予測するよりも、そのような定常偏差の学習がずっと簡単であり、モデルトレーニングが容易になる。 さらに、学習した偏差により、ネットワークは将来の状況とそれに対応する週毎の観測の残差を各時間間隔で生成できるため、予測精度が大幅に向上する。 さらに,グローバルな空間相関と時間依存性を併用して,より強力な領域表現を構築するための軽量な空間チャネル拡張エンコーダを提案する。 2つの実世界のデータセットに対する実験結果から、PRNetは精度と堅牢性の両方の観点から最先端の手法よりも優れていることが示された。

Crowd flow forecasting, e.g., predicting the crowds entering or leaving certain regions, is of great importance to real-world urban applications. One of the key properties of crowd flow data is periodicity: a pattern that occurs at regular time intervals, such as a weekly pattern. To capture such periodicity, existing studies either explicitly model it based on the periodic hidden states or implicitly learn it by feeding all periodic segments into neural networks. In this paper, we devise a novel periodic residual learning network (PRNet) for better modeling the periodicity in crowd flow data. Differing from existing methods, PRNet frames the crowd flow forecasting as a periodic residual learning problem by modeling the deviation between the input (the previous time period) and the output (the future time period). As compared to predicting highly dynamic crowd flows directly, learning such stationary deviation is much easier, which thus facilitates the model training. Besides, the learned deviation enables the network to produce the residual between future conditions and its corresponding weekly observations at each time interval, and therefore contributes to substantially better predictions. We further propose a lightweight Spatial-Channel Enhanced Encoder to build more powerful region representations, by jointly capturing global spatial correlations and temporal dependencies. Experimental results on two real-world datasets demonstrate that PRNet outperforms the state-of-the-art methods in terms of both accuracy and robustness.
翻訳日:2021-12-19 12:28:09 公開日:2021-12-08
# ADBCMM : 対数と多言語混合による単語の曖昧化

ADBCMM : Acronym Disambiguation by Building Counterfactuals and Multilingual Mixing ( http://arxiv.org/abs/2112.08991v1 )

ライセンス: Link先を確認
Yixuan Weng, Fei Xia, Bin Li, Xiusheng Huang, Shizhu He, Kang Liu, Jun Zhao(参考訳) 科学文書には、しばしば多数の頭字語が含まれている。 これらの頭字語を曖昧にすることは、研究者が文書中の語彙の意味を理解するのに役立つだろう。 かつては、英文学の膨大なデータのおかげで、頭字語の仕事は主に英文学に適用されていた。 しかし、他の低リソース言語では、このタスクは優れた性能を得るのが困難であり、大量のアノテーションデータがないため注意を払わない。 そこで本稿では,adbcmmと名づけた頭字語不曖昧化手法を提案し,偽語と多言語混合により低リソース言語の性能を著しく向上させる手法を提案する。 具体的には、低リソースのランガウジでデータバイアスをバランスさせることで、ADBCMMはデータセット外のテストパフォーマンスを改善することができる。 SDU@AAAI-22 - Shared Task 2: Acronym Disambiguationでは、提案手法がフランス語とスペイン語で1位を獲得した。 結果をここで繰り返します。https://github.com/W ENGSYX/ADBCMM。

Scientific documents often contain a large number of acronyms. Disambiguation of these acronyms will help researchers better understand the meaning of vocabulary in the documents. In the past, thanks to large amounts of data from English literature, acronym task was mainly applied in English literature. However, for other low-resource languages, this task is difficult to obtain good performance and receives less attention due to the lack of large amount of annotation data. To address the above issue, this paper proposes an new method for acronym disambiguation, named as ADBCMM, which can significantly improve the performance of low-resource languages by building counterfactuals and multilingual mixing. Specifically, by balancing data bias in low-resource langauge, ADBCMM will able to improve the test performance outside the data set. In SDU@AAAI-22 - Shared Task 2: Acronym Disambiguation, the proposed method won first place in French and Spanish. You can repeat our results here https://github.com/W ENGSYX/ADBCMM.
翻訳日:2021-12-19 12:27:18 公開日:2021-12-08
# accoustate: スマートインフラストラクチャ下のicm生成アクティビティシグネチャの自動注釈

Accoustate: Auto-annotation of IMU-generated Activity Signatures under Smart Infrastructure ( http://arxiv.org/abs/2112.06651v1 )

ライセンス: Link先を確認
Soumyajit Chatterjee, Arun Singh, Bivas Mitra, and Sandip Chakraborty(参考訳) スマートインフラストラクチャ内のヒューマンアクティビティは、個人が着用するウェアラブルから大量のIMUデータを生成する。 既存の多くの研究は、人間の活動認識(HAR)のための感覚データに依存しているが、主要なボトルネックの1つは、事前に注釈付けされたデータやラベル付けされたデータに依存することである。 手動の人間駆動アノテーションはスケーラブルでも効率的でもないが、既存の自動アノテーション技術はビデオシグネチャに大きく依存している。 それでもビデオベースの自動アノテーションには高い計算リソースが必要であり、スマートホームのようなパーソナルスペースからのデータがクラウドに転送される場合、プライバシー上の懸念がある。 本稿では,人間の活動から発生する音響的シグネチャを利用してウェアラブルのIMUデータをエッジにラベル付けすることで,リソース要件とデータプライバシの懸念を軽減する。 同じ環境下で2人の個人が同時に異なる活動を行う場合であっても、音響ベースで事前学習したHARモデルを用いてIMUデータの相互ラベル付けを行う。 環境の音響的文脈における2人の個人による同時行動中に,重複しない音響的ギャップが高い確率で存在することを観察し,重複する活動のシグネチャを個別にラベル付けする。 2つの実生活内データセットに対する提案されたアプローチの原則的評価は、ワークショップとキッチン環境において、それぞれ$\mathbf{82.59\%}$(\mathbf{\pm 17.94\%}$)と$\mathbf{98.32\%}$(\mathbf{\pm 3.68\%}$)の精度で、両方の個人から、ラベル付けされていないIMUデータのかなりの量を正しく注釈付けできることを示している。

Human activities within smart infrastructures generate a vast amount of IMU data from the wearables worn by individuals. Many existing studies rely on such sensory data for human activity recognition (HAR); however, one of the major bottlenecks is their reliance on pre-annotated or labeled data. Manual human-driven annotations are neither scalable nor efficient, whereas existing auto-annotation techniques heavily depend on video signatures. Still, video-based auto-annotation needs high computation resources and has privacy concerns when the data from a personal space, like a smart-home, is transferred to the cloud. This paper exploits the acoustic signatures generated from human activities to label the wearables' IMU data at the edge, thus mitigating resource requirement and data privacy concerns. We utilize acoustic-based pre-trained HAR models for cross-modal labeling of the IMU data even when two individuals perform simultaneous but different activities under the same environmental context. We observe that non-overlapping acoustic gaps exist with a high probability during the simultaneous activities performed by two individuals in the environment's acoustic context, which helps us resolve the overlapping activity signatures to label them individually. A principled evaluation of the proposed approach on two real-life in-house datasets further augmented to create a dual occupant setup, shows that the framework can correctly annotate a significant volume of unlabeled IMU data from both individuals with an accuracy of $\mathbf{82.59\%}$ ($\mathbf{\pm 17.94\%}$) and $\mathbf{98.32\%}$ ($\mathbf{\pm 3.68\%}$), respectively, for a workshop and a kitchen environment.
翻訳日:2021-12-19 12:26:36 公開日:2021-12-08
# DiPS:レコメンダシステムにおけるスケッチのための微分可能なポリシー

DiPS: Differentiable Policy for Sketching in Recommender Systems ( http://arxiv.org/abs/2112.07616v1 )

ライセンス: Link先を確認
Aritra Ghosh, Saayan Mitra, Andrew Lan(参考訳) シーケンシャルなレコメンデーションシステムアプリケーションでは、ユーザの興味を時間とともに捉え、対話しそうな将来的なアイテムをうまく推薦できるモデルを開発することが重要である。 長い歴史を持つユーザにとって、リカレントニューラルネットワークに基づく典型的なモデルは、遠い過去の重要なアイテムを忘れがちである。 近年の研究では、過去の項目の小さなスケッチを保存することで、シーケンシャルなレコメンデーションタスクを改善することが示されている。 しかし、これらは全て静的なスケッチポリシー、すなわちスケッチに残るアイテムを選択するヒューリスティックスに依存しており、これは必ずしも最適ではなく、より多くのトレーニングデータで時間とともに改善することができない。 本稿では,データ駆動型スケッチポリシーをエンド・ツー・エンドで学習するフレームワークであるDigitalable Policy for sketching(DiPS)と,将来的な推奨品質を明示的に最大化するレコメンデーションシステムモデルを提案する。 また,計算効率のよいスケッチアルゴリズムパラメータを最適化するための勾配近似推定器を提案する。 実世界のデータセットにおけるDiPSの有効性を,さまざまな実践的条件下で検証し,既存のスケッチポリシーと同じ品質に達するためには,最大50\%のスケッチ項目を削減する必要があることを示す。

In sequential recommender system applications, it is important to develop models that can capture users' evolving interest over time to successfully recommend future items that they are likely to interact with. For users with long histories, typical models based on recurrent neural networks tend to forget important items in the distant past. Recent works have shown that storing a small sketch of past items can improve sequential recommendation tasks. However, these works all rely on static sketching policies, i.e., heuristics to select items to keep in the sketch, which are not necessarily optimal and cannot improve over time with more training data. In this paper, we propose a differentiable policy for sketching (DiPS), a framework that learns a data-driven sketching policy in an end-to-end manner together with the recommender system model to explicitly maximize recommendation quality in the future. We also propose an approximate estimator of the gradient for optimizing the sketching algorithm parameters that is computationally efficient. We verify the effectiveness of DiPS on real-world datasets under various practical settings and show that it requires up to $50\%$ fewer sketch items to reach the same predictive quality than existing sketching policies.
翻訳日:2021-12-19 12:25:39 公開日:2021-12-08
# 深層学習を用いた無ラベル仮想HER2免疫組織化学染色

Label-free virtual HER2 immunohistochemical staining of breast tissue using deep learning ( http://arxiv.org/abs/2112.05240v1 )

ライセンス: Link先を確認
Bijie Bai, Hongda Wang, Yuzhu Li, Kevin de Haan, Francesco Colonnese, Yujie Wan, Jingyi Zuo, Ngan B. Doan, Xiaoran Zhang, Yijie Zhang, Jingxi Li, Wenjie Dong, Morgan Angus Darrow, Elham Kamangar, Han Sung Lee, Yair Rivenson, Aydogan Ozcan(参考訳) ヒト上皮成長因子受容体2(her2)バイオマーカーの免疫組織化学的染色は、乳腺組織分析、前臨床研究、診断決定、がん治療の誘導、病原性の検討において広く実践されている。 HER2染色は、組織処理と化学処理を必要とするが、通常は実験室での準備に1日かかり、分析時間と関連するコストが増大する。 本稿では,無ラベル/無ラベル乳房組織切片の自己蛍光顕微鏡像を,同じ組織切片で化学的に実施する標準のher2 ihc染色法に適合した,明視野等価顕微鏡像に高速に変換するように訓練した条件付き生成逆向ネットワークを用いた,深層学習に基づく仮想her2 ihc染色法について述べる。 この仮想的なHER2染色法の有効性は, 3人の乳腺病理医が仮想染色および免疫組織化学的染色されたHER2全スライド画像(WSI)のHER2スコアをブラインドグレードし, 仮想IHC画像の検査により決定されたHER2スコアが免疫組織化学的染色されたものと同等に正確であることを示した。 また、同じ診断者による第2の定量的盲検により、実質的に染色されたher2画像は、免疫組織化学的に染色された画像に対して、核の細部、膜透明度、染色アーティファクトの欠如のレベルで同等の染色品質を示すことが明らかとなった。 この仮想HER2染色フレームワークは、実験室のコスト、労力、時間のかかるIHC染色手順をバイパスし、他の種類のバイオマーカーに拡張して、生命科学やバイオメディカルワークフローで使用されるIHC組織染色を加速することができる。

The immunohistochemical (IHC) staining of the human epidermal growth factor receptor 2 (HER2) biomarker is widely practiced in breast tissue analysis, preclinical studies and diagnostic decisions, guiding cancer treatment and investigation of pathogenesis. HER2 staining demands laborious tissue treatment and chemical processing performed by a histotechnologist, which typically takes one day to prepare in a laboratory, increasing analysis time and associated costs. Here, we describe a deep learning-based virtual HER2 IHC staining method using a conditional generative adversarial network that is trained to rapidly transform autofluorescence microscopic images of unlabeled/label-free breast tissue sections into bright-field equivalent microscopic images, matching the standard HER2 IHC staining that is chemically performed on the same tissue sections. The efficacy of this virtual HER2 staining framework was demonstrated by quantitative analysis, in which three board-certified breast pathologists blindly graded the HER2 scores of virtually stained and immunohistochemicall y stained HER2 whole slide images (WSIs) to reveal that the HER2 scores determined by inspecting virtual IHC images are as accurate as their immunohistochemicall y stained counterparts. A second quantitative blinded study performed by the same diagnosticians further revealed that the virtually stained HER2 images exhibit a comparable staining quality in the level of nuclear detail, membrane clearness, and absence of staining artifacts with respect to their immunohistochemicall y stained counterparts. This virtual HER2 staining framework bypasses the costly, laborious, and time-consuming IHC staining procedures in laboratory, and can be extended to other types of biomarkers to accelerate the IHC tissue staining used in life sciences and biomedical workflow.
翻訳日:2021-12-13 15:50:33 公開日:2021-12-08
# パレート最適モデルの集約

Aggregation of Pareto optimal models ( http://arxiv.org/abs/2112.04161v1 )

ライセンス: Link先を確認
Hamed Hamze Bajgiran and Houman Owhadi(参考訳) 統計決定論において、モデルがパレート最適(あるいは許容できる)であるとは、他のモデルが少なくとも一つの自然状態に対するリスクが少なく、他のモデルにこれ以上のリスクを示さない場合に言う。 パレート効率を保ちながら、パレート最適モデルの有限集合を合理的に集約/組み合わせるにはどうすればよいか。 重み付きモデル平均化は一般にパレート効率を保たないため、この問題は自明ではない。 1) 有理集約則はパレート効率を保存すべき(2) 完全類定理により、パレート最適モデルはベイズ型でなければならない、すなわち、自然の真の状態が以前よりも平均化されるリスクを最小限に抑える。 したがって、それぞれのパレート最適モデルを事前に関連付けることができ、パレート最適モデルを事前を通じて集約することでパレート効率を維持することができる。 (3) A prior can be interpreted as a preference ranking over models: prior $\pi$ prefers model A over model B if the average risk of A is lower than the average risk of B. (4) A rational/consistent aggregation rule should preserve this preference ranking: If both priors $\pi$ and $\pi'$ prefer model A over model B, then the prior obtained by aggregating $\pi$ and $\pi'$ must also prefer A over B. Under these four steps, we show that all rational/consistent aggregation rules are as follows: Give each individual Pareto optimal model a weight, introduce a weak order/ranking over the set of Pareto optimal models, aggregate a finite set of models S as the model associated with the prior obtained as the weighted average of the priors of the highest-ranked models in S. This result shows that all rational/consistent aggregation rules must follow a generalization of hierarchical Bayesian modeling. 主な結果に続いて,カーネルのスムース化,時間短縮モデル,投票機構に関するアプリケーションを提示する。

In statistical decision theory, a model is said to be Pareto optimal (or admissible) if no other model carries less risk for at least one state of nature while presenting no more risk for others. How can you rationally aggregate/combine a finite set of Pareto optimal models while preserving Pareto efficiency? This question is nontrivial because weighted model averaging does not, in general, preserve Pareto efficiency. This paper presents an answer in four logical steps: (1) A rational aggregation rule should preserve Pareto efficiency (2) Due to the complete class theorem, Pareto optimal models must be Bayesian, i.e., they minimize a risk where the true state of nature is averaged with respect to some prior. Therefore each Pareto optimal model can be associated with a prior, and Pareto efficiency can be maintained by aggregating Pareto optimal models through their priors. (3) A prior can be interpreted as a preference ranking over models: prior $\pi$ prefers model A over model B if the average risk of A is lower than the average risk of B. (4) A rational/consistent aggregation rule should preserve this preference ranking: If both priors $\pi$ and $\pi'$ prefer model A over model B, then the prior obtained by aggregating $\pi$ and $\pi'$ must also prefer A over B. Under these four steps, we show that all rational/consistent aggregation rules are as follows: Give each individual Pareto optimal model a weight, introduce a weak order/ranking over the set of Pareto optimal models, aggregate a finite set of models S as the model associated with the prior obtained as the weighted average of the priors of the highest-ranked models in S. This result shows that all rational/consistent aggregation rules must follow a generalization of hierarchical Bayesian modeling. Following our main result, we present applications to Kernel smoothing, time-depreciating models, and voting mechanisms.
翻訳日:2021-12-13 15:19:51 公開日:2021-12-08
# (参考訳) 微分一般化予測符号化 [全文訳有]

Differentiable Generalised Predictive Coding ( http://arxiv.org/abs/2112.03378v2 )

ライセンス: CC BY 4.0
Andr\'e Ofner, Sebastian Stober(参考訳) 本稿では,脳の機能を内部生成モデルの階層的洗練とみなすニューラルプロセス理論と相反する,微分可能な力学モデルについて述べる。 我々の研究は、勾配に基づく予測符号化の既存の実装を自動微分で拡張し、非線形状態パラメータ化のためのディープニューラルネットワークの統合を可能にする。 勾配に基づく予測符号化は、刺激から潜伏状態へ伝播する精度重み付き予測誤差を最適化することにより、各層に対する推定状態と重みを局所的に最適化する。 予測は潜伏状態から低い層へと逆向きに流れる。 ここで提案するモデルは、潜在状態の階層的および動的予測を最適化する。 階層的予測は期待内容と階層構造を符号化する。 動的予測は高次微分とともに符号化された内容の変化を捉える。 階層的および動的予測は、同じ潜在状態の異なる側面と相互作用し、対処する。 逐次データに対する様々な知覚・計画タスクにモデルを適用し,相互依存度を示す。 特に、離散時間ステップでサンプリングされたデータに対して、並列アドレスにおけるサンプリング距離の学習方法を示す。 線形階層の仮定を緩和し、創発特性を持つより柔軟なグラフ構造を支持する可能性について議論する。 モデルの粒度構造を生体ネットワークにおける予測符号化を記述する標準マイクロ回路と比較し,モジュール性を特徴づけるツールとしてマルコフ・ブランケッツとの接続をレビューする。 最後に、ネストした時空間階層における効率的な知覚と計画のためのアイデアをスケッチする。

This paper deals with differentiable dynamical models congruent with neural process theories that cast brain function as the hierarchical refinement of an internal generative model explaining observations. Our work extends existing implementations of gradient-based predictive coding with automatic differentiation and allows to integrate deep neural networks for non-linear state parameterization. Gradient-based predictive coding optimises inferred states and weights locally in for each layer by optimising precision-weighted prediction errors that propagate from stimuli towards latent states. Predictions flow backwards, from latent states towards lower layers. The model suggested here optimises hierarchical and dynamical predictions of latent states. Hierarchical predictions encode expected content and hierarchical structure. Dynamical predictions capture changes in the encoded content along with higher order derivatives. Hierarchical and dynamical predictions interact and address different aspects of the same latent states. We apply the model to various perception and planning tasks on sequential data and show their mutual dependence. In particular, we demonstrate how learning sampling distances in parallel address meaningful locations data sampled at discrete time steps. We discuss possibilities to relax the assumption of linear hierarchies in favor of more flexible graph structure with emergent properties. We compare the granular structure of the model with canonical microcircuits describing predictive coding in biological networks and review the connection to Markov Blankets as a tool to characterize modularity. A final section sketches out ideas for efficient perception and planning in nested spatio-temporal hierarchies.
翻訳日:2021-12-12 15:15:01 公開日:2021-12-08
# (参考訳) Learn2Reg: 深層学習時代の総合的マルチタスク医療画像登録課題とデータセットと評価 [全文訳有]

Learn2Reg: comprehensive multi-task medical image registration challenge, dataset and evaluation in the era of deep learning ( http://arxiv.org/abs/2112.04489v1 )

ライセンス: CC BY 4.0
Alessa Hering, Lasse Hansen, Tony C. W. Mok, Albert C. S. Chung, Hanna Siebert, Stephanie H\"ager, Annkristin Lange, Sven Kuckertz, Stefan Heldmann, Wei Shao, Sulaiman Vesal, Mirabela Rusu, Geoffrey Sonn, Th\'eo Estienne, Maria Vakalopoulou, Luyi Han, Yunzhi Huang, Mikael Brudfors, Ya\"el Balbastre, Samuel Joutard, Marc Modat, Gal Lifshitz, Dan Raviv, Jinxin Lv, Qiang Li, Vincent Jaouen, Dimitris Visvikis, Constance Fourcade, Mathieu Rubeaux, Wentao Pan, Zhe Xu, Bailiang Jian, Francesca De Benetti, Marek Wodzinski, Niklas Gunnarsson, Huaqi Qiu, Zeju Li, Christoph Gro{\ss}br\"ohmer, Andrew Hoopes, Ingerid Reinertsen, Yiming Xiao, Bennett Landman, Yuankai Huo, Keelin Murphy, Bram van Ginneken, Adrian Dalca, Mattias P. Heinrich(参考訳) これまで、医療画像登録アプローチを広範囲にわたる臨床関連課題で包括的に比較した研究は少ない。 これにより、実践研究における進歩の採用が制限され、競合するアプローチ間の公正なベンチマークが防止される。 過去5年間に多くの新しい学習ベースの手法が研究されてきたが、最適化、アーキテクチャ、メートル法が理想的に適しているかという疑問は未解決である。 Learn2Regは、脳、腹部、胸部、超音波、CT、MRI、人口、患者内および患者間、監督レベルなど幅広い解剖学をカバーしている。 3d登録のトレーニングと検証のために、より低いエントリ障壁を確立しました。これにより、20以上のユニークなチームから65以上のメソッドが提出された結果のコンパイルに役立ちました。 堅牢性、正確性、可視性、スピードなど、我々の補完的な指標は、医用画像登録の現状について独自の洞察を与える。 転送可能性、バイアス、監督の重要性に関するさらなる分析は、主にディープラーニングに基づくアプローチの優位性を疑問視し、GPUが加速する従来の最適化を活用するハイブリッド手法に新たな研究方向を開放する。

To date few studies have comprehensively compared medical image registration approaches on a wide-range of complementary clinically relevant tasks. This limits the adoption of advances in research into practice and prevents fair benchmarks across competing approaches. Many newer learning-based methods have been explored within the last five years, but the question which optimisation, architectural or metric strategy is ideally suited remains open. Learn2Reg covers a wide range of anatomies: brain, abdomen and thorax, modalities: ultrasound, CT, MRI, populations: intra- and inter-patient and levels of supervision. We established a lower entry barrier for training and validation of 3D registration, which helped us compile results of over 65 individual method submissions from more than 20 unique teams. Our complementary set of metrics, including robustness, accuracy, plausibility and speed enables unique insight into the current-state-of-the -art of medical image registration. Further analyses into transferability, bias and importance of supervision question the superiority of primarily deep learning based approaches and open exiting new research directions into hybrid methods that leverage GPU-accelerated conventional optimisation.
翻訳日:2021-12-11 02:47:32 公開日:2021-12-08
# (参考訳) BI-RADSのための新しい多視点深層学習手法とマンモグラムの密度評価 [全文訳有]

A novel multi-view deep learning approach for BI-RADS and density assessment of mammograms ( http://arxiv.org/abs/2112.04490v1 )

ライセンス: CC BY 4.0
Huyen T. X. Nguyen, Sam B. Tran, Dung B. Nguyen, Hieu H. Pham, Ha Q. Nguyen(参考訳) 高度なディープラーニング(DL)アルゴリズムは、乳房画像報告・データシステム(BI-RADS)と密度基準に基づいて、患者が乳がんを発症するリスクを予測する。 近年の研究では、マルチビュー分析の組み合わせにより、全乳検診分類が改善されていることが示唆されている。 本稿では,BI-RADSのための新しい多視点DL手法とマンモグラムの密度評価を提案する。 提案手法はまず,各ビューで特徴抽出を行うディープ畳み込みネットワークを分離して展開する。 抽出した特徴を積み重ねてLight Gradient Boosting Machine(LightGBM)分類器に入力し、BI-RADSと密度スコアを予測する。 我々は内部マンモグラフィーデータセットと公開データセットDigital Database for Screening Mammography (DDSM)の両方について広範な実験を行った。 実験の結果,提案手法は2つのベンチマークデータセットの単一ビュー分類手法よりも大きなマージン(内部データセットでは5%,DDSMデータセットでは10%)で優れていることが示された。 これらの結果は,乳がんリスク予測の性能向上に多視点情報を組み合わせることの重要性を強調した。

Advanced deep learning (DL) algorithms may predict the patient's risk of developing breast cancer based on the Breast Imaging Reporting and Data System (BI-RADS) and density standards. Recent studies have suggested that the combination of multi-view analysis improved the overall breast exam classification. In this paper, we propose a novel multi-view DL approach for BI-RADS and density assessment of mammograms. The proposed approach first deploys deep convolutional networks for feature extraction on each view separately. The extracted features are then stacked and fed into a Light Gradient Boosting Machine (LightGBM) classifier to predict BI-RADS and density scores. We conduct extensive experiments on both the internal mammography dataset and the public dataset Digital Database for Screening Mammography (DDSM). The experimental results demonstrate that the proposed approach outperforms the single-view classification approach on two benchmark datasets by huge margins (5% on the internal dataset and 10% on the DDSM dataset). These results highlight the vital role of combining multi-view information to improve the performance of breast cancer risk prediction.
翻訳日:2021-12-11 02:14:09 公開日:2021-12-08
# (参考訳) 双対変化誘導ハイパースペクトル多クラス変化検出 [全文訳有]

Binary Change Guided Hyperspectral Multiclass Change Detection ( http://arxiv.org/abs/2112.04493v1 )

ライセンス: CC BY 4.0
Meiqi Hu, Chen Wu, Bo Du, Liangpei Zhang(参考訳) スペクトル情報によって特徴付けられるハイパースペクトル画像は、微妙な変化を検出し、変化検出のための様々な変化クラスを識別することができる。 最近の研究は、ハイパースペクトラルなバイナリ変更検出が中心だが、微妙な変更クラス情報を提供できない。 また,高スペクトルマルチクラス変化検出 (HMCD) のためのスペクトルアンミキシングを取り入れたほとんどの手法は,時間的相関や誤差蓄積の無視に悩まされている。 本研究では,HMCDのための教師なし双対変化ガイド型ハイパースペクトルマルチクラス変化検出ネットワーク(BCG-Net)を提案する。 BCG-Netでは、複数時間スペクトルアンミキシングのために、新しい部分テーマ統一アンミキシングモジュールを設計し、バイナリ変化検出結果の擬似ラベルによって誘導される画期的な時間的相関制約を開発し、変化検出の観点から、変化した画素と変化した画素の重み付けをより正確にするためのアンミキシングプロセスを導出する。 さらに、従来のルールが数値に影響を及ぼすという問題に対処するために、革新的なバイナリ変更検出ルールが提案される。 スペクトル未混合過程と変化検出過程の反復最適化を提案し, 累積誤差とバイアスを未混合結果から除去し, 変化検出結果を得る。 実験結果から,提案するbcg-netは最先端のアプローチにおいて,マルチクラス変化検出の性能を比較評価し,同時にスペクトル非混合結果を得ることができた。

Characterized by tremendous spectral information, hyperspectral image is able to detect subtle changes and discriminate various change classes for change detection. The recent research works dominated by hyperspectral binary change detection, however, cannot provide fine change classes information. And most methods incorporating spectral unmixing for hyperspectral multiclass change detection (HMCD), yet suffer from the neglection of temporal correlation and error accumulation. In this study, we proposed an unsupervised Binary Change Guided hyperspectral multiclass change detection Network (BCG-Net) for HMCD, which aims at boosting the multiclass change detection result and unmixing result with the mature binary change detection approaches. In BCG-Net, a novel partial-siamese united-unmixing module is designed for multi-temporal spectral unmixing, and a groundbreaking temporal correlation constraint directed by the pseudo-labels of binary change detection result is developed to guide the unmixing process from the perspective of change detection, encouraging the abundance of the unchanged pixels more coherent and that of the changed pixels more accurate. Moreover, an innovative binary change detection rule is put forward to deal with the problem that traditional rule is susceptible to numerical values. The iterative optimization of the spectral unmixing process and the change detection process is proposed to eliminate the accumulated errors and bias from unmixing result to change detection result. The experimental results demonstrate that our proposed BCG-Net could achieve comparative or even outstanding performance of multiclass change detection among the state-of-the-art approaches and gain better spectral unmixing results at the same time.
翻訳日:2021-12-11 02:05:49 公開日:2021-12-08
# (参考訳) エンドツーエンドのAlexaデバイス調停 [全文訳有]

End-to-end Alexa Device Arbitration ( http://arxiv.org/abs/2112.04914v1 )

ライセンス: CC BY 4.0
Jarred Barber, Yifeng Fan, Tao Zhang(参考訳) 本稿では,デバイス調停と呼ぶ話者定位問題の変種について紹介する。 デバイス調停問題において、ユーザが複数の分散マイクロホンアレイ(スマートホームデバイス)によって検出されるキーワードを発話し、どのデバイスがユーザに最も近いかを判断したい。 完全なローカライズ問題を解決するのではなく、エンドツーエンドの機械学習システムを提案する。 このシステムは各デバイスで独立して計算される機能埋め込みを学習する。 各デバイスからの埋め込みを集約して最終的な仲裁判定を生成する。 我々は,大規模ルームシミュレーションを用いてトレーニングおよび評価データを生成し,本システムと信号処理ベースラインを比較した。

We introduce a variant of the speaker localization problem, which we call device arbitration. In the device arbitration problem, a user utters a keyword that is detected by multiple distributed microphone arrays (smart home devices), and we want to determine which device was closest to the user. Rather than solving the full localization problem, we propose an end-to-end machine learning system. This system learns a feature embedding that is computed independently on each device. The embeddings from each device are then aggregated together to produce the final arbitration decision. We use a large-scale room simulation to generate training and evaluation data, and compare our system against a signal processing baseline.
翻訳日:2021-12-11 01:41:11 公開日:2021-12-08
# (参考訳) 意味知識拡張を用いたプロンプトベースゼロショット関係分類 [全文訳有]

Prompt-based Zero-shot Relation Classification with Semantic Knowledge Augmentation ( http://arxiv.org/abs/2112.04539v1 )

ライセンス: CC BY 4.0
Jiaying Gong and Hoda Eldardiry(参考訳) トレーニングインスタンスなしで見過ごせない関係を認識することは、現実の世界では難しい課題です。 本稿では,ゼロショット設定下での未知の関係を認識するために,意味知識増強(ZS-SKA)を用いたプロンプトベースモデルを提案する。 新しい単語レベルの文翻訳規則に従って、見掛けられた関係を持つインスタンスから、見当たらない関係を持つ拡張インスタンスを生成する。 我々は,外部知識グラフに基づくプロンプトをデザインし,出現した関係から学習した意味的知識情報を統合する。 プロンプトテンプレートで実際のラベルセットを使用する代わりに、重み付き仮想ラベルワードを構築します。 拡張されたインスタンスとプロンプトとの関係の表現を原始的ネットワークを通して生成することにより、非知覚関係を予測するために距離が計算される。 3つの公開データセットで広範な実験を行った結果、zs-skaはゼロショットシナリオで最先端のメソッドよりも優れていた。 また,ZS-SKAの有効性とロバスト性についても検討した。

Recognizing unseen relations with no training instances is a challenging task in the real world. In this paper, we propose a prompt-based model with semantic knowledge augmentation (ZS-SKA) to recognize unseen relations under the zero-shot setting. We generate augmented instances with unseen relations from instances with seen relations following a new word-level sentence translation rule. We design prompts based on an external knowledge graph to integrate semantic knowledge information learned from seen relations. Instead of using the actual label sets in the prompt template, we construct weighted virtual label words. By generating the representations of both seen and unseen relations with augmented instances and prompts through prototypical networks, distance is calculated to predict unseen relations. Extensive experiments conducted on three public datasets show that ZS-SKA outperforms state-of-the-art methods under the zero-shot scenarios. Our experimental results also demonstrate the effectiveness and robustness of ZS-SKA.
翻訳日:2021-12-11 01:33:22 公開日:2021-12-08
# (参考訳) PATO:金属添加物製造のための深層学習を用いた生産性を考慮したトポロジー最適化 [全文訳有]

PATO: Producibility-Aware Topology Optimization using Deep Learning for Metal Additive Manufacturing ( http://arxiv.org/abs/2112.04552v1 )

ライセンス: CC BY 4.0
Naresh S. Iyer, Amir M. Mirzendehdel, Sathyanarayanan Raghavan, Yang Jiao, Erva Ulu, Morad Behandish, Saigopal Nelaturi, Dean M. Robinson(参考訳) 本稿では, 金属添加物製造(AM)を用いて作製した部品の設計空間を効率的に探索し, ひび割れに関する製造性を確保するために, PATO-a Producibility-Aware Topology Optimization (TO) フレームワークを提案する。 特に、レーザ粉末層融合により作製された部品は、ビルドプロセス中に発生する急な熱勾配から発生する高い残留応力値により、反りや割れなどの欠陥を生じやすい。 このような部品の設計と製造計画には数ヶ月から数年を要し、しばしば設計と製造エンジニア間の複数のハンドオフを含む。 PATOはクラックフリー設計の事前発見に基づいており、最適化された部品を最初から欠陥のないものにすることができる。 最適化中に設計がクラックフリーであることを保証するため、クラックインデックスを用いて、toの標準定式化内で生産性が明示的に符号化される。 複数のひび割れ指数を探索し, 実験的検証により, 最大せん断ひずみ指数 (MSSI) は正確なき裂指数であることが示された。 ビルドプロセスのシミュレーションは、結合されたマルチ物理計算であり、それをTOループに組み込むことは、計算が禁止される。 深層畳み込みニューラルネットワークの最近の進歩を活かし、注意に基づくu-netアーキテクチャに基づく高忠実度サーロゲートモデルを示し、mssi値を部分領域上の空間的に変化するフィールドとして予測する。 さらに, 入力設計変数に対する最大mssiの勾配を直接計算し, 負荷, 製造性, 機能性のトレードオフを考慮しつつ, 設計を最適化するために, 性能に基づく感度場を加味する。 提案手法の有効性を3次元のベンチマーク実験と実験的検証によって実証する。

In this paper, we propose PATO-a producibility-aware topology optimization (TO) framework to help efficiently explore the design space of components fabricated using metal additive manufacturing (AM), while ensuring manufacturability with respect to cracking. Specifically, parts fabricated through Laser Powder Bed Fusion are prone to defects such as warpage or cracking due to high residual stress values generated from the steep thermal gradients produced during the build process. Maturing the design for such parts and planning their fabrication can span months to years, often involving multiple handoffs between design and manufacturing engineers. PATO is based on the a priori discovery of crack-free designs, so that the optimized part can be built defect-free at the outset. To ensure that the design is crack free during optimization, producibility is explicitly encoded within the standard formulation of TO, using a crack index. Multiple crack indices are explored and using experimental validation, maximum shear strain index (MSSI) is shown to be an accurate crack index. Simulating the build process is a coupled, multi-physics computation and incorporating it in the TO loop can be computationally prohibitive. We leverage the current advances in deep convolutional neural networks and present a high-fidelity surrogate model based on an Attention-based U-Net architecture to predict the MSSI values as a spatially varying field over the part's domain. Further, we employ automatic differentiation to directly compute the gradient of maximum MSSI with respect to the input design variables and augment it with the performance-based sensitivity field to optimize the design while considering the trade-off between weight, manufacturability, and functionality. We demonstrate the effectiveness of the proposed method through benchmark studies in 3D as well as experimental validation.
翻訳日:2021-12-11 01:19:12 公開日:2021-12-08
# (参考訳) 誰の真実? データセットアノテーションに基づく個人および集団のアイデンティティの会計 [全文訳有]

Whose Ground Truth? Accounting for Individual and Collective Identities Underlying Dataset Annotation ( http://arxiv.org/abs/2112.04554v1 )

ライセンス: CC BY 4.0
Emily Denton, Mark D\'iaz, Ian Kivlichan, Vinodkumar Prabhakaran, Rachel Rosen(参考訳) ヒューマンアノテーションは機械学習(ML)の研究と開発において重要な役割を果たす。 しかし、MLデータセットの構築に関わるプロセスや決定に関する倫理的な考慮は、あまり注目を集めていない。 本稿では,クラウドソーシングされたデータセットアノテーションに関する倫理的考察に関する知見を提供する文献群を調査した。 我々はこれらの知見を合成し,(1)アノテータが誰なのか,(2)アノテータとクラウドソーシングプラットフォームとの関係と,その関係がそれらのアノテーションにどのような影響を与えるのか,という2つのレイヤに沿って,この分野の課題を概説する。 最後に、タスクの定式化、アノテータの選択、プラットフォームとインフラストラクチャの選択、データセットの分析と評価、データセットのドキュメントとリリースなど、MLデータパイプラインのさまざまな段階におけるデータセット開発者のための具体的な推奨事項と考慮事項を紹介した。

Human annotations play a crucial role in machine learning (ML) research and development. However, the ethical considerations around the processes and decisions that go into building ML datasets has not received nearly enough attention. In this paper, we survey an array of literature that provides insights into ethical considerations around crowdsourced dataset annotation. We synthesize these insights, and lay out the challenges in this space along two layers: (1) who the annotator is, and how the annotators' lived experiences can impact their annotations, and (2) the relationship between the annotators and the crowdsourcing platforms and what that relationship affords them. Finally, we put forth a concrete set of recommendations and considerations for dataset developers at various stages of the ML data pipeline: task formulation, selection of annotators, platform and infrastructure choices, dataset analysis and evaluation, and dataset documentation and release.
翻訳日:2021-12-11 00:55:05 公開日:2021-12-08
# (参考訳) SoK:アンチファシアル認識技術 [全文訳有]

SoK: Anti-Facial Recognition Technology ( http://arxiv.org/abs/2112.04558v1 )

ライセンス: CC BY 4.0
Emily Wenger, Shawn Shan, Haitao Zheng, Ben Y. Zhao(参考訳) 近年、政府や商業団体による顔認識技術(FR)の急速な採用により、市民の自由とプライバシーに対する懸念が高まっている。 これに対し、ユーザーが望ましくない顔認識を避けるために、いわゆる「反顔認証」(AFR)ツール群が開発された。 過去数年間に提案されたAFRツールのセットは広範囲で急速に進化しており、AFRシステムのより広い設計領域と長期的な課題を考えるために一歩後退する必要がある。 本稿では,このギャップを埋めることを目的として,AFR研究の展望を包括的に分析する。 FRシステムの運用段階を出発点として、異なるAFRアプローチの利点とトレードオフを分析するための体系的なフレームワークを作成します。 次に,AFRツールに直面する技術的課題と社会的課題について考察し,今後の研究の方向性を提案する。

The rapid adoption of facial recognition (FR) technology by both government and commercial entities in recent years has raised concerns about civil liberties and privacy. In response, a broad suite of so-called "anti-facial recognition" (AFR) tools has been developed to help users avoid unwanted facial recognition. The set of AFR tools proposed in the last few years is wide-ranging and rapidly evolving, necessitating a step back to consider the broader design space of AFR systems and long-term challenges. This paper aims to fill that gap and provides the first comprehensive analysis of the AFR research landscape. Using the operational stages of FR systems as a starting point, we create a systematic framework for analyzing the benefits and tradeoffs of different AFR approaches. We then consider both technical and social challenges facing AFR tools and propose directions for future research in this field.
翻訳日:2021-12-11 00:47:37 公開日:2021-12-08
# (参考訳) 曖昧な動的治療規則:強化学習アプローチ

Ambiguous Dynamic Treatment Regimes: A Reinforcement Learning Approach ( http://arxiv.org/abs/2112.04571v1 )

ライセンス: CC BY 4.0
Soroush Saghafian(参考訳) 様々な研究における主要な研究目標は、観測データセットを使用して、因果改善をもたらす新しい反事実ガイドラインを提供することである。 動的処理レジーム(DTR)はこのプロセスの形式化のために広く研究されている。 しかし、最適なDTRを見つけるための有効な方法は、現実世界の応用(例えば医療意思決定や公共政策)に違反する仮定に依存することが多い。 (a)観察されていない共同創設者の存在を無視することができない。 (b)未観測の共同設立者は、時間的変化がある(例えば、以前の行動の影響)。 そのような仮定が破られた場合、しばしば最適なDTRを得るために仮定される基礎となる因果モデルに関する曖昧さに直面します。 この曖昧さは、観測されていない共同創設者のダイナミクスと、観測されたデータの一部に対する因果的影響が、観測されたデータから理解できないため、避けられない。 当院で移植を施行し,移植後新発症糖尿病(nodat)と診断された患者に対して優れた治療レジームが得られた症例に動機づけられ,dtrsをadtrs(ambiguous dynamic treatment regimes)という新しい分類に拡張し,治療レジームのカジュアルな影響を潜在的因果モデルの「クラウド」に基づいて評価した。 そこで我々は,ADTRを,Saghafian (2018) が提唱したAmbiguous partial Observable Mark Decision Processs (APOMDPs) に接続し,DAV-Learning (Direct Augmented V-Learning) と Safe Augmented V-Learning (SAV-Learning) という2つの強化学習手法を開発した。 本研究では,(弱)一貫性と漸近正規性を含むこれらの学習方法に関する理論的結果を確立する。 ケーススタディとシミュレーション実験の両方において,これらの学習手法の性能を更に評価する。

A main research goal in various studies is to use an observational data set and provide a new set of counterfactual guidelines that can yield causal improvements. Dynamic Treatment Regimes (DTRs) are widely studied to formalize this process. However, available methods in finding optimal DTRs often rely on assumptions that are violated in real-world applications (e.g., medical decision-making or public policy), especially when (a) the existence of unobserved confounders cannot be ignored, and (b) the unobserved confounders are time-varying (e.g., affected by previous actions). When such assumptions are violated, one often faces ambiguity regarding the underlying causal model that is needed to be assumed to obtain an optimal DTR. This ambiguity is inevitable, since the dynamics of unobserved confounders and their causal impact on the observed part of the data cannot be understood from the observed data. Motivated by a case study of finding superior treatment regimes for patients who underwent transplantation in our partner hospital and faced a medical condition known as New Onset Diabetes After Transplantation (NODAT), we extend DTRs to a new class termed Ambiguous Dynamic Treatment Regimes (ADTRs), in which the casual impact of treatment regimes is evaluated based on a "cloud" of potential causal models. We then connect ADTRs to Ambiguous Partially Observable Mark Decision Processes (APOMDPs) proposed by Saghafian (2018), and develop two Reinforcement Learning methods termed Direct Augmented V-Learning (DAV-Learning) and Safe Augmented V-Learning (SAV-Learning), which enable using the observed data to efficiently learn an optimal treatment regime. We establish theoretical results for these learning methods, including (weak) consistency and asymptotic normality. We further evaluate the performance of these learning methods both in our case study and in simulation experiments.
翻訳日:2021-12-11 00:15:48 公開日:2021-12-08
# (参考訳) STAF: 短いビデオ分類のための時空間注意融合ネットワーク [全文訳有]

STAF: A Spatio-Temporal Attention Fusion Network for Few-shot Video Classification ( http://arxiv.org/abs/2112.04585v1 )

ライセンス: CC BY 4.0
Rex Liu, Huanle Zhang, Hamed Pirsiavash, Xin Liu(参考訳) 数ショットビデオ分類のための時空間注意融合ネットワークSTAFを提案する。 STAFは、まず3次元畳み込みニューラルネットワークの埋め込みネットワークを適用して、ビデオの粗い空間的特徴と時間的特徴を抽出する。 そして、自己アテンションと相互アテンションネットワークを使って抽出した特徴を微調整する。 最後に、STAFは、各クエリビデオの分類に軽量なフュージョンネットワークと近隣の分類器を適用している。 STAFを評価するために、我々は3つのベンチマーク(UCF101、HMDB51、Something-V2)で広範な実験を行った。 実験の結果、STAFは最先端の精度を大きなマージンで向上し、例えば、STAFはUCF101とHMDB51でそれぞれ5方向のワンショット精度を5.3%と7.0%向上させることがわかった。

We propose STAF, a Spatio-Temporal Attention Fusion network for few-shot video classification. STAF first extracts coarse-grained spatial and temporal features of videos by applying a 3D Convolution Neural Networks embedding network. It then fine-tunes the extracted features using self-attention and cross-attention networks. Last, STAF applies a lightweight fusion network and a nearest neighbor classifier to classify each query video. To evaluate STAF, we conduct extensive experiments on three benchmarks (UCF101, HMDB51, and Something-Something- V2). The experimental results show that STAF improves state-of-the-art accuracy by a large margin, e.g., STAF increases the five-way one-shot accuracy by 5.3% and 7.0% for UCF101 and HMDB51, respectively.
翻訳日:2021-12-11 00:14:29 公開日:2021-12-08
# (参考訳) 無害の周辺--ノイズロバスト凸損失を最小化する分類器の精度について [全文訳有]

The perils of being unhinged: On the accuracy of classifiers minimizing a noise-robust convex loss ( http://arxiv.org/abs/2112.04590v1 )

ライセンス: CC BY 4.0
Philip M. Long and Rocco A. Servedio(参考訳) van rooyenらは、ランダムな分類ノイズに対してロバストな凸損失関数の概念を導入し、この意味で「未知の」損失関数はロバストであることを示した。 本報告では, 損失の最小化により得られた2値分類器の精度について検討し, 単純な線形分離可能なデータ分布においても, 損失の最小化は, ランダムな推測よりも精度の高い2値分類器のみが得られることを検証した。

van Rooyen et al. introduced a notion of convex loss functions being robust to random classification noise, and established that the "unhinged" loss function is robust in this sense. In this note we study the accuracy of binary classifiers obtained by minimizing the unhinged loss, and observe that even for simple linearly separable data distributions, minimizing the unhinged loss may only yield a binary classifier with accuracy no better than random guessing.
翻訳日:2021-12-11 00:00:41 公開日:2021-12-08
# (参考訳) 逆問題における変分正規化と機械学習 [全文訳有]

Variational Regularization in Inverse Problems and Machine Learning ( http://arxiv.org/abs/2112.04591v1 )

ライセンス: CC BY 4.0
Martin Burger(参考訳) 本稿では,逆問題に対して開発された変分正規化法の基礎と最近の発展について論じる。 典型的な構成では、収束正規化スキームを得るために必要となる基本的な性質を考察し、さらに、凸汎関数のブレグマン距離など、それぞれに必要な量的推定の導出について論じる。 逆問題のために開発されたアプローチに加えて、機械学習における変分正規化についても論じ、古典正規化理論といくつかの関係を論じる。 特に、正規化理論の枠組みにおける機械学習問題の再解釈とリスク最小化の枠組みにおける逆問題に対する変分法の再解釈について論じる。 さらに,Bregman距離における誤差推定と一般化誤差との間には,これまで知られていなかったいくつかの接続を確立する。

This paper discusses basic results and recent developments on variational regularization methods, as developed for inverse problems. In a typical setup we review basic properties needed to obtain a convergent regularization scheme and further discuss the derivation of quantitative estimates respectively needed ingredients such as Bregman distances for convex functionals. In addition to the approach developed for inverse problems we will also discuss variational regularization in machine learning and work out some connections to the classical regularization theory. In particular we will discuss a reinterpretation of machine learning problems in the framework of regularization theory and a reinterpretation of variational methods for inverse problems in the framework of risk minimization. Moreover, we establish some previously unknown connections between error estimates in Bregman distances and generalization errors.
翻訳日:2021-12-10 23:51:24 公開日:2021-12-08
# (参考訳) InvGAN: Invertable GANs [全文訳有]

InvGAN: Invertable GANs ( http://arxiv.org/abs/2112.04598v1 )

ライセンス: CC BY 4.0
Partha Ghosh, Dominik Zietlow, Michael J. Black, Larry S. Davis, Xiaochen Hu(参考訳) フォトリアリスティック画像の生成、セマンティック編集、表現学習は、高解像度生成モデルの潜在的な応用のいくつかである。 GANの最近の進歩は、こうしたタスクに優れた選択肢として確立されている。 しかし、推論モデルを提供していないため、画像編集や分類などの下流タスクは、GANラテント空間を用いて実際の画像では実行できない。 推論モデルをトレーニングしたり、事前訓練されたジェネレータを反転させる反復的な手法を設計するための多くの努力にもかかわらず、以前の手法はデータセット(例えば、人間の顔画像)とアーキテクチャ(例えば、StyleGAN)である。 これらのメソッドを新しいデータセットやアーキテクチャに拡張するのは非自明です。 アーキテクチャやデータセットに依存しない汎用フレームワークを提案する。 私たちの重要な洞察は、推論と生成モデルを一緒に訓練することで、互いに適応し、よりよい品質モデルに収束できるということです。 Invertable GAN の略である我々の \textbf{InvGAN} は、高品質な生成モデルの潜在空間に実画像を埋め込むことに成功した。 これにより、画像のインペインティング、マージ、補間、オンラインデータ拡張が実行できます。 定性的かつ定量的な実験によってこれを実証する。

Generation of photo-realistic images, semantic editing and representation learning are a few of many potential applications of high resolution generative models. Recent progress in GANs have established them as an excellent choice for such tasks. However, since they do not provide an inference model, image editing or downstream tasks such as classification can not be done on real images using the GAN latent space. Despite numerous efforts to train an inference model or design an iterative method to invert a pre-trained generator, previous methods are dataset (e.g. human face images) and architecture (e.g. StyleGAN) specific. These methods are nontrivial to extend to novel datasets or architectures. We propose a general framework that is agnostic to architecture and datasets. Our key insight is that, by training the inference and the generative model together, we allow them to adapt to each other and to converge to a better quality model. Our \textbf{InvGAN}, short for Invertable GAN, successfully embeds real images to the latent space of a high quality generative model. This allows us to perform image inpainting, merging, interpolation and online data augmentation. We demonstrate this with extensive qualitative and quantitative experiments.
翻訳日:2021-12-10 23:34:21 公開日:2021-12-08
# (参考訳) イタリアの電力負荷の短期予測のための正規化手法

Regularization methods for the short-term forecasting of the Italian electric load ( http://arxiv.org/abs/2112.04604v1 )

ライセンス: CC BY 4.0
Alessandro Incremona and Giuseppe De Nicolao(参考訳) イタリアの電力負荷の24プロファイル全体を予測する問題はマルチタスク学習問題として対処され、その複雑性は代替正規化法によって制御される。 四半期毎のサンプリングでは96の予測器が使用され、それぞれ96の回帰器に依存している。 96x96行列重みは96x96行列を形成し、正方形領域にサンプルされた表面として見ることができる。 表面の自由度を下げるための規則化とスパーシリティの異なるアプローチを探索し、得られた予測をイタリアのトランスミッション・システム・オペレーター・テルナの予測と比較した。 準時間平均絶対パーセンテージ誤差と平均絶対エラーでTernaを上回り、予測残差はTernaと弱い相関があることが判明し、予測アグリゲーションからさらなる改善がもたらされることが示唆された。 実際、集計された予測は、考慮された3つのテスト年間で、四半期毎および日毎の平均絶対パーセンテージエラー、平均絶対誤差、ルート平均2乗誤差(最大30%)という観点で、さらに関連のある低下をもたらした。

The problem of forecasting the whole 24 profile of the Italian electric load is addressed as a multitask learning problem, whose complexity is kept under control via alternative regularization methods. In view of the quarter-hourly samplings, 96 predictors are used, each of which linearly depends on 96 regressors. The 96x96 matrix weights form a 96x96 matrix, that can be seen and displayed as a surface sampled on a square domain. Different regularization and sparsity approaches to reduce the degrees of freedom of the surface were explored, comparing the obtained forecasts with those of the Italian Transmission System Operator Terna. Besides outperforming Terna in terms of quarter-hourly mean absolute percentage error and mean absolute error, the prediction residuals turned out to be weakly correlated with Terna, which suggests that further improvement could ensue from forecasts aggregation. In fact, the aggregated forecasts yielded further relevant drops in terms of quarter-hourly and daily mean absolute percentage error, mean absolute error and root mean square error (up to 30%) over the three test years considered.
翻訳日:2021-12-10 23:19:01 公開日:2021-12-08
# (参考訳) 知識グラフ埋め込みを用いた化学物質の逆生物学的効果の予測

Prediction of Adverse Biological Effects of Chemicals Using Knowledge Graph Embeddings ( http://arxiv.org/abs/2112.04605v1 )

ライセンス: CC BY 4.0
Erik B. Myklebust, Ernesto Jim\'enez-Ruiz, Jiaoyan Chen, Raoul Wolf, Knut Erik Tollefsen(参考訳) 我々は生態毒性リスクアセスメントで使用される主要なデータソースに基づく知識グラフを作成した。 我々はこの知識グラフをリスク評価の重要な課題、すなわち化学効果予測に適用した。 この予測課題における幾何学的,分解的,畳み込み的モデルの選択から,9つの知識グラフ埋め込みモデルを評価した。 ナレッジグラフ埋め込みを用いることで,ニューラルネットワークによる効果予測の精度が向上することを示す。 さらに,知識グラフ埋め込みを効果予測タスクに適用し,よりよい性能を実現するための微調整アーキテクチャを実装した。 最後に,知識グラフ埋め込みモデルの特定の特性を評価し,個々のモデルの性能に光を当てる。

We have created a knowledge graph based on major data sources used in ecotoxicological risk assessment. We have applied this knowledge graph to an important task in risk assessment, namely chemical effect prediction. We have evaluated nine knowledge graph embedding models from a selection of geometric, decomposition, and convolutional models on this prediction task. We show that using knowledge graph embeddings can increase the accuracy of effect prediction with neural networks. Furthermore, we have implemented a fine-tuning architecture which adapts the knowledge graph embeddings to the effect prediction task and leads to a better performance. Finally, we evaluate certain characteristics of the knowledge graph embedding models to shed light on the individual model performance.
翻訳日:2021-12-10 23:17:56 公開日:2021-12-08
# (参考訳) 表現学習のための遠近関係近傍を用いた制約付き平均シフト [全文訳有]

Constrained Mean Shift Using Distant Yet Related Neighbors for Representation Learning ( http://arxiv.org/abs/2112.04607v1 )

ライセンス: CC BY 4.0
Ajinkya Tejankar, Soroush Abbasi Koohpayegani, KL Navaneet, Kossar Pourahmadi, Akshayvarun Subramanya, Hamed Pirsiavash(参考訳) 私たちは自己監督的、監督的、あるいは半監督的な環境での表現学習に興味を持っています。 自己教師付き学習に平均シフトのアイデアを適用する前の研究であるMSFは、クエリイメージを他の拡張に近づけるだけでなく、他の拡張の最も近い隣人(NN)にも近づけることで、BYOLのアイデアを一般化した。 この学習は、クエリにセマンティックに関連のある、遠く離れた隣人を選択することで得られると信じています。 そこで本研究では,近辺の探索空間を制約することで,MSFアルゴリズムの一般化を提案する。 提案手法は,制約が画像の異なる拡張を利用する場合,SSL環境ではMSFよりも優れており,NNがクエリと同じ擬似ラベルを持つことを保証した場合,トレーニングリソースの少ない半教師付き環境ではPAWSよりも優れていることを示す。

We are interested in representation learning in self-supervised, supervised, or semi-supervised settings. The prior work on applying mean-shift idea for self-supervised learning, MSF, generalizes the BYOL idea by pulling a query image to not only be closer to its other augmentation, but also to the nearest neighbors (NNs) of its other augmentation. We believe the learning can benefit from choosing far away neighbors that are still semantically related to the query. Hence, we propose to generalize MSF algorithm by constraining the search space for nearest neighbors. We show that our method outperforms MSF in SSL setting when the constraint utilizes a different augmentation of an image, and outperforms PAWS in semi-supervised setting with less training resources when the constraint ensures the NNs have the same pseudo-label as the query.
翻訳日:2021-12-10 23:17:02 公開日:2021-12-08
# (参考訳) 食品自動撮像と栄養摂取追跡技術(afini-t)による長期ケアにおける食物摂取追跡の強化

Enhancing Food Intake Tracking in Long-Term Care with Automated Food Imaging and Nutrient Intake Tracking (AFINI-T) Technology ( http://arxiv.org/abs/2112.04608v1 )

ライセンス: CC BY 4.0
Kaylen J. Pfisterer, Robert Amelard, Jennifer Boger, Audrey G. Chung, Heather H. Keller, Alexander Wong(参考訳) 長期医療(LTC)の住民の半数は、入院、死亡、死亡率、生活の質の低下が悪化している。 現在の追跡方法は主観的で時間を要する。 本稿では,LCCのための食品自動撮像・栄養摂取追跡技術(AFINI-T)について述べる。 食品分類のための新しい畳み込みオートエンコーダを提案し,拡張unimib2016データセットに基づいてトレーニングを行い,シミュレーションしたlcc食摂取データセット(食事シナリオ12名,最大15クラス,top-1分類精度88.9%,平均摂取誤差-0.4ml$\pm$36.7ml)でテストした。 体積による栄養素摂取量の推定は、質量(r^2$ 0.92 から 0.99)からの栄養素推定と、方法間の良好な一致(\sigma$= -2.7 から -0.01; 合意の範囲内で 0)と強く相関した。 AFINI-Tアプローチは、より正確に客観的にLCC常駐食品の摂取をトラッキングし、栄養失調の追跡戦略を支援し予防するための新しい手段を提供することができる。

Half of long-term care (LTC) residents are malnourished increasing hospitalization, mortality, morbidity, with lower quality of life. Current tracking methods are subjective and time consuming. This paper presents the automated food imaging and nutrient intake tracking (AFINI-T) technology designed for LTC. We propose a novel convolutional autoencoder for food classification, trained on an augmented UNIMIB2016 dataset and tested on our simulated LTC food intake dataset (12 meal scenarios; up to 15 classes each; top-1 classification accuracy: 88.9%; mean intake error: -0.4 mL$\pm$36.7 mL). Nutrient intake estimation by volume was strongly linearly correlated with nutrient estimates from mass ($r^2$ 0.92 to 0.99) with good agreement between methods ($\sigma$= -2.7 to -0.01; zero within each of the limits of agreement). The AFINI-T approach is a deep-learning powered computational nutrient sensing system that may provide a novel means for more accurately and objectively tracking LTC resident food intake to support and prevent malnutrition tracking strategies.
翻訳日:2021-12-10 22:52:21 公開日:2021-12-08
# (参考訳) 単純で効率的な深部スキャンパス予測 [全文訳有]

A Simple and efficient deep Scanpath Prediction ( http://arxiv.org/abs/2112.04610v1 )

ライセンス: CC BY 4.0
Mohamed Amine Kerkouri, Aladine Chetouani(参考訳) 視覚スキャンパスは、人間の視線が画像を観察しながら移動する固定点のシーケンスであり、その予測は画像の視覚的注意をモデル化するのに役立つ。 この目的のために、複雑なディープラーニングアーキテクチャとフレームワークを使用して、文献でいくつかのモデルが提案された。 本稿では,一般的なディープラーニングアーキテクチャを,単純な完全畳み込み回帰的に活用する効率について検討する。 これらのモデルが2つのデータセットでスカンパスをどの程度予測できるか実験する。 異なるメトリクスを使用した他のモデルと比較し、しばしば以前の複雑なアーキテクチャを上回る競合結果を示す。 また、異なる活用されたバックボーンアーキテクチャを実験のパフォーマンスに基づいて比較し、どのアーキテクチャがタスクに最も適しているかを推定します。

Visual scanpath is the sequence of fixation points that the human gaze travels while observing an image, and its prediction helps in modeling the visual attention of an image. To this end several models were proposed in the literature using complex deep learning architectures and frameworks. Here, we explore the efficiency of using common deep learning architectures, in a simple fully convolutional regressive manner. We experiment how well these models can predict the scanpaths on 2 datasets. We compare with other models using different metrics and show competitive results that sometimes surpass previous complex architectures. We also compare the different leveraged backbone architectures based on their performances on the experiment to deduce which ones are the most suitable for the task.
翻訳日:2021-12-10 22:51:13 公開日:2021-12-08
# 多分解能アプローチによる日ピーク電気負荷予測

Daily peak electrical load forecasting with a multi-resolution approach ( http://arxiv.org/abs/2112.04492v1 )

ライセンス: Link先を確認
Yvenn Amara-Ouali and Matteo Fasiolo and Yannig Goude and Hui Yan(参考訳) スマートグリッドとロードバランシングの文脈では、日々のピーク負荷予測はエネルギー産業の利害関係者にとって重要な活動となっている。 ピークシェービングのようなスマートグリッド戦略の実装には,ピークマグニチュードとタイミングの理解が最重要である。 本稿では,高分解能・低分解能情報を活用し,日々のピーク需要量とタイミングを予測するモデリング手法を提案する。 結果として生じるマルチレゾリューションモデリングフレームワークは、異なるモデルクラスに適応することができる。 この論文の主な貢献は a) マルチレゾリューション・モデリング・アプローチの一般的かつ公式な導入 ロ 一般化付加モデル及びニューラルネットワークを用いて実施した異なる解像度でのモデリングアプローチに関する議論 c) 英国電力市場における実データに関する実験結果 その結果,提案手法の予測性能は低分解能および高分解能の代替案と競合することがわかった。

In the context of smart grids and load balancing, daily peak load forecasting has become a critical activity for stakeholders of the energy industry. An understanding of peak magnitude and timing is paramount for the implementation of smart grid strategies such as peak shaving. The modelling approach proposed in this paper leverages high-resolution and low-resolution information to forecast daily peak demand size and timing. The resulting multi-resolution modelling framework can be adapted to different model classes. The key contributions of this paper are a) a general and formal introduction to the multi-resolution modelling approach, b) a discussion on modelling approaches at different resolutions implemented via Generalised Additive Models and Neural Networks and c) experimental results on real data from the UK electricity market. The results confirm that the predictive performance of the proposed modelling approach is competitive with that of low- and high-resolution alternatives.
翻訳日:2021-12-10 15:51:23 公開日:2021-12-08
# 説明可能なMLフレームワークに基づくTwitterボットの識別:US 2020選挙事例研究

Identification of Twitter Bots based on an Explainable ML Framework: the US 2020 Elections Case Study ( http://arxiv.org/abs/2112.04913v1 )

ライセンス: Link先を確認
Alexander Shevtsov, Christos Tzagkarakis, Despoina Antonakaki, Sotiris Ioannidis(参考訳) Twitterは何百万というユーザーを惹きつける最も人気のあるソーシャルネットワークの1つだが、オンライン談話のかなりの割合は捉えられている。 短いメッセージと効率的なアプリケーションプログラミングインターフェース(API)を備えたシンプルな利用フレームワークを提供し、研究コミュニティがこのソーシャルネットワークのいくつかの側面を研究し分析することができる。 しかし、twitterの利用の単純さは、さまざまなボットによる悪質な処理につながる可能性がある。 悪意のあるハンドリング現象は、特に選挙期間中に、普及し、拡散やコミュニケーションの目的で使われる正統なボットを除いて、世論を操り、特定の方向、特定のイデオロギー、政党に向けて選挙人を操作することが目的である。 本稿では,ラベル付きtwitterデータに基づくtwitterボット識別のための新システムの設計に着目する。 この目的のために、教師付き機械学習(ML)フレームワークがExtreme Gradient Boosting(XGBoost)アルゴリズムを使用して採用され、ハイパーパラメータはクロスバリデーションによってチューニングされる。 また,ゲーム理論に基づくShapley値を用いて,特徴量を計算することでMLモデル予測を説明するためのShapley Additive Explanations (SHAP)をデプロイした。 異なるtwitterデータセットの実験的評価は、最近の最先端のtwitterボット検出法と比較した場合、ボット検出精度の観点から、このアプローチの優位性を示している。

Twitter is one of the most popular social networks attracting millions of users, while a considerable proportion of online discourse is captured. It provides a simple usage framework with short messages and an efficient application programming interface (API) enabling the research community to study and analyze several aspects of this social network. However, the Twitter usage simplicity can lead to malicious handling by various bots. The malicious handling phenomenon expands in online discourse, especially during the electoral periods, where except the legitimate bots used for dissemination and communication purposes, the goal is to manipulate the public opinion and the electorate towards a certain direction, specific ideology, or political party. This paper focuses on the design of a novel system for identifying Twitter bots based on labeled Twitter data. To this end, a supervised machine learning (ML) framework is adopted using an Extreme Gradient Boosting (XGBoost) algorithm, where the hyper-parameters are tuned via cross-validation. Our study also deploys Shapley Additive Explanations (SHAP) for explaining the ML model predictions by calculating feature importance, using the game theoretic-based Shapley values. Experimental evaluation on distinct Twitter datasets demonstrate the superiority of our approach, in terms of bot detection accuracy, when compared against a recent state-of-the-art Twitter bot detection method.
翻訳日:2021-12-10 15:49:27 公開日:2021-12-08
# ニューロンから量子場理論を構築する

Building Quantum Field Theories Out of Neurons ( http://arxiv.org/abs/2112.04527v1 )

ライセンス: Link先を確認
James Halverson(参考訳) フィールド理論へのアプローチでは、フィールドは$n$構成のランダムニューロンから構成される。 ガウス理論は、神経細胞が独立に分布しているとき、中央極限定理を介して無限$N$極限に現れる一方、相互作用は有限$N$効果または非独立分散ニューロンによって生じる。 ニューロンのユークリッド不変なアンサンブルは、可変な2点関数を持ち、ユークリッド不変場理論の族を与える。 いくつかのガウス的ユークリッド不変理論は反射正則であり、ローレンツ不変量子場理論への解析的継続を可能にする。 無限-n$ で双対理論を与える例が提示されるが、有限-n$ で異なる対称性を持つ。 古典的なフィールド構成のランドスケープはパラメータ分布の局所極大によって決定される。 予測は混合磁場-ニューロン相関器から生じる。 近似ガウシアン性は、自然界の理論の特徴を説明するために、大きな n$ で示される。

An approach to field theory is studied in which fields are comprised of $N$ constituent random neurons. Gaussian theories arise in the infinite-$N$ limit when neurons are independently distributed, via the Central Limit Theorem, while interactions arise due to finite-$N$ effects or non-independently distributed neurons. Euclidean-invariant ensembles of neurons are engineered, with tunable two-point function, yielding families of Euclidean-invariant field theories. Some Gaussian, Euclidean invariant theories are reflection positive, which allows for analytic continuation to a Lorentz-invariant quantum field theory. Examples are presented that yield dual theories at infinite-$N$, but have different symmetries at finite-$N$. Landscapes of classical field configurations are determined by local maxima of parameter distributions. Predictions arise from mixed field-neuron correlators. Near-Gaussianity is exhibited at large-$N$, potentially explaining a feature of field theories in Nature.
翻訳日:2021-12-10 15:46:44 公開日:2021-12-08
# 金融における強化学習の最近の進歩

Recent Advances in Reinforcement Learning in Finance ( http://arxiv.org/abs/2112.04553v1 )

ライセンス: Link先を確認
Ben Hambly, Renyuan Xu and Huining Yang(参考訳) データの量の増加による金融業界の急速な変化は、データ処理とデータ分析の技術に革命をもたらし、新しい理論と計算の課題をもたらした。 従来の確率的制御理論や、モデル前提に強く答える金融決定問題の解決のための分析的アプローチとは対照的に、強化学習(RL)による新たな発展は、モデル前提よりも少ない大量の金融データをフル活用し、複雑な金融環境における意思決定を改善することができる。 本研究は、金融におけるRL手法の最近の展開と利用について概観することを目的とする。 我々は、よく使われているRLアプローチの多くの設定であるマルコフ決定プロセスについて紹介する。 様々なアルゴリズムが導入され、モデル前提を必要としない価値とポリシーに基づく手法に焦点が当てられる。 深いRLアルゴリズムを包含するフレームワークを拡張するために、ニューラルネットワークで接続する。 我々の調査は、最適実行、ポートフォリオ最適化、オプション価格とヘッジ、マーケットメイキング、スマートオーダールーティング、ロボアドバイスなど、金融におけるさまざまな意思決定問題におけるこれらのRLアルゴリズムの適用について議論することで締めくくっている。

The rapid changes in the finance industry due to the increasing amount of data have revolutionized the techniques on data processing and data analysis and brought new theoretical and computational challenges. In contrast to classical stochastic control theory and other analytical approaches for solving financial decision-making problems that heavily reply on model assumptions, new developments from reinforcement learning (RL) are able to make full use of the large amount of financial data with fewer model assumptions and to improve decisions in complex financial environments. This survey paper aims to review the recent developments and use of RL approaches in finance. We give an introduction to Markov decision processes, which is the setting for many of the commonly used RL approaches. Various algorithms are then introduced with a focus on value and policy based methods that do not require any model assumptions. Connections are made with neural networks to extend the framework to encompass deep RL algorithms. Our survey concludes by discussing the application of these RL algorithms in a variety of decision-making problems in finance, including optimal execution, portfolio optimization, option pricing and hedging, market making, smart order routing, and robo-advising.
翻訳日:2021-12-10 15:46:28 公開日:2021-12-08
# 状態に基づくオンライン機械部品インタラクション分類のための主題知識と深層畳み込みニューラルネットワークの融合

Merging Subject Matter Expertise and Deep Convolutional Neural Network for State-Based Online Machine-Part Interaction Classification ( http://arxiv.org/abs/2112.04572v1 )

ライセンス: Link先を確認
Hao Wang, Yassine Qamsane, James Moyne, Kira Barton(参考訳) 機械部品の相互作用分類は、スマートマニュファクチャリング(SM)の重要イネーブルであるCyber-Physical Systems(CPS)が必要とする重要な能力である。 過去の関連する研究は主に時系列分類に焦点を当てていたが、マシンの動作変化に関する時間的情報を提供するため、変化点検出は同様に重要である。 本研究では,Deep Convolutional Neural Network (CNN) ベースのフレームワークを用いて,機械部品間相互作用の点検出と時系列分類を行う。 このフレームワークのCNNは、2段階のエンコーダ分類構造を利用して、CPSの効率的な特徴表現と便利なデプロイメントカスタマイズを行う。 データ駆動型ではあるが、このフレームワークの設計と最適化は、SME(Subject Matter Expertise)がガイドされている。 間欠的誤分類を禁止するために、FSM(SME defined Finite State Machine)がフレームワークに組み込まれている。 本研究では,ミリングマシン上で機械部品間インタラクションの分類を行うためのフレームワークを実装し,テストデータセットとデプロイメントシミュレーションを用いて性能評価を行う。 テストデータセット上のクラスの平均F1スコアは0.946で、デプロイシミュレーションでは平均0.24秒遅れた。

Machine-part interaction classification is a key capability required by Cyber-Physical Systems (CPS), a pivotal enabler of Smart Manufacturing (SM). While previous relevant studies on the subject have primarily focused on time series classification, change point detection is equally important because it provides temporal information on changes in behavior of the machine. In this work, we address point detection and time series classification for machine-part interactions with a deep Convolutional Neural Network (CNN) based framework. The CNN in this framework utilizes a two-stage encoder-classifier structure for efficient feature representation and convenient deployment customization for CPS. Though data-driven, the design and optimization of the framework are Subject Matter Expertise (SME) guided. An SME defined Finite State Machine (FSM) is incorporated into the framework to prohibit intermittent misclassifications. In the case study, we implement the framework to perform machine-part interaction classification on a milling machine, and the performance is evaluated using a testing dataset and deployment simulations. The implementation achieved an average F1-Score of 0.946 across classes on the testing dataset and an average delay of 0.24 seconds on the deployment simulations.
翻訳日:2021-12-10 15:46:07 公開日:2021-12-08
# 証明からの拡張的チャンス制約運動計画のためのガウス過程制約学習

Gaussian Process Constraint Learning for Scalable Chance-Constrained Motion Planning from Demonstrations ( http://arxiv.org/abs/2112.04612v1 )

ライセンス: Link先を確認
Glen Chou, Hao Wang, Dmitry Berenson(参考訳) 本稿では,ガウス過程(GP)に代表される制約を,局所最適実験から学習する方法を提案する。 提案手法では,KKT(Karush-Kuhn-Tuc ker)最適条件を用いて,これらの状態における制約の厳密な位置と制約勾配のスケーリングを決定する。 次に、制約のGP表現をトレーニングし、この情報を一般化する。 さらに、GPの不確実性はキノダイナミックRT内で確率論的に安全な軌道計画に利用でき、プランナー内のGP構造を利用して特定の安全確率を正確に達成できることを示す。 本手法は,5次元非ホロノミックカー,12次元四重子,3リンク平面アームにおいて,制約の事前情報を最小にしつつ,複雑な非線形制約を学習できることを実証する。 以上の結果から,GP制約は精度が高く,事前知識を必要とする従来の制約学習手法よりも優れていたことが示唆された。

We propose a method for learning constraints represented as Gaussian processes (GPs) from locally-optimal demonstrations. Our approach uses the Karush-Kuhn-Tucker (KKT) optimality conditions to determine where on the demonstrations the constraint is tight, and a scaling of the constraint gradient at those states. We then train a GP representation of the constraint which is consistent with and which generalizes this information. We further show that the GP uncertainty can be used within a kinodynamic RRT to plan probabilistically-sa fe trajectories, and that we can exploit the GP structure within the planner to exactly achieve a specified safety probability. We demonstrate our method can learn complex, nonlinear constraints demonstrated on a 5D nonholonomic car, a 12D quadrotor, and a 3-link planar arm, all while requiring minimal prior information on the constraint. Our results suggest the learned GP constraint is accurate, outperforming previous constraint learning methods that require more a priori knowledge.
翻訳日:2021-12-10 15:45:49 公開日:2021-12-08
# 高次元における発散量の推定

Estimating Divergences in High Dimensions ( http://arxiv.org/abs/2112.04583v1 )

ライセンス: Link先を確認
Loong Kuan Lee, Nico Piatkowski, Fran\c{c}ois Petitjean, Geoffrey I. Webb(参考訳) 限られたサンプルで2つの高次元分布のばらつきを推定する問題は、機械学習などの様々な分野において重要な問題である。 従来の手法は適度な次元データでうまく機能するが、その精度は100のバイナリ変数の場合に低下し始める。 そこで,本稿では,高次元データにおける発散推定のための非可逆モデルの利用を提案する。 これにより、高次元分布の推定密度を低次元関数の積に分解することができる。 発散推定の文脈で分解性モデルを用いる場合の特性を検討するため,形式的および実験的解析を行う。 そこで本研究では,最大確率推定器からの分解可能モデルを用いたkullback-leiblerの発散推定が,次元が高い場合の既存の発散推定方法よりも優れており,利用可能なデータから有用な分解可能モデルを学ぶことができることを示す。

The problem of estimating the divergence between 2 high dimensional distributions with limited samples is an important problem in various fields such as machine learning. Although previous methods perform well with moderate dimensional data, their accuracy starts to degrade in situations with 100s of binary variables. Therefore, we propose the use of decomposable models for estimating divergences in high dimensional data. These allow us to factorize the estimated density of the high-dimensional distribution into a product of lower dimensional functions. We conduct formal and experimental analyses to explore the properties of using decomposable models in the context of divergence estimation. To this end, we show empirically that estimating the Kullback-Leibler divergence using decomposable models from a maximum likelihood estimator outperforms existing methods for divergence estimation in situations where dimensionality is high and useful decomposable models can be learnt from the available data.
翻訳日:2021-12-10 15:31:03 公開日:2021-12-08
# ミッション成功のためのスマートサポート

Smart Support for Mission Success ( http://arxiv.org/abs/2112.04957v1 )

ライセンス: Link先を確認
Juliette Mattioli and Pierre-Olivier Robic(参考訳) 今日の戦場環境は複雑でダイナミックで不確実であり、ミッションの成功を保証するために効率的な支援を必要とする。 これは、任務を遂行できる支援機器を提供するための適切な支援戦略に依存している。 システムと組織が複雑である防衛の文脈では、本質的なアプローチは困難であり、力と支援機関は効率的な意思決定支援システムに頼る必要がある。 ロジスティックス、準備性、持続性は資産管理にとって重要な要素であり、特に予測的かつ規範的なアプローチや運用上のリソースの効果的な管理に依存する"スマート・イン・サービス"レベルにAIの恩恵を受けることができる。 スマートサポート能力は適切なメトリクスで監視でき、マルチ基準決定支援システムと知識管理システムによって改善される。 情報と目的の観点からの運用状況に応じて、異なるAIパラダイム(データ駆動型AI、知識ベースAI)がハイブリッドAIによる組み合わせにも適している。

Today's battlefield environment is complex, dynamic and uncertain, and requires efficient support to ensure mission success. This relies on a proper support strategy to provide supported equipment able to fulfill the mission. In the context of defense where both systems and organization are complex, having a holistic approach is challenging by nature, forces and support agencies need to rely on an efficient decision support system. Logistics, readiness and sustainability are critical factors for asset management, which can benefit from AI to reach "Smart In Service" level relying especially on predictive and prescriptive approaches and on effective management of operational re-sources. Smart Support capacities can be then monitored by appropriate metrics and improved by multi-criteria decision support and knowledge management system. Depending on the operational context in terms of information and the objective, different AI paradigms (data-driven AI, knowledge-based AI) are suitable even a combination through hybrid AI.
翻訳日:2021-12-10 15:26:14 公開日:2021-12-08
# 画像復元のためのグローバル統計アグリゲーションの再検討

Revisiting Global Statistics Aggregation for Improving Image Restoration ( http://arxiv.org/abs/2112.04491v1 )

ライセンス: Link先を確認
Xiaojie Chu, Liangyu Chen, Chengpeng Chen, Xin Lu(参考訳) 全空間次元に沿って集約されたグローバル空間統計は、トップパフォーマンス画像復元装置で広く利用されている。 例えば、HINetで採用されるインスタンス正規化(IN)と、MPRNetに適用されるSqueezeおよびExcitation(SE)におけるグローバル平均プール(平均)の分散である。 本稿では,まず,訓練/テスト段階におけるパッチベース/強調画像に基づく特徴をそれぞれ集約した統計値が,非常に異なる分布を呈し,画像復元装置の性能低下に繋がることを示す。 以前の作品では広く見過ごされてきた。 この問題を解決するために,テスト時間のみ,グローバルからローカルへの統計集約操作の領域を置き換えたテスト時間ローカル統計変換器(TLSC)を提案する。 再トレーニングや微調整がなければ,画像復元器の性能は大幅に向上する。 特に、SEをTLSCで最先端モデルに拡張することで、GoProデータセット上のPSNRにおいて、MPRNetは0.65dB、33.31dB、前回の0.6dBを超えている。 さらに,TLSCを高レベル視覚タスク,すなわち意味的セグメンテーションに適用し,競争的な結果を得る。 TLSCが限界コストで問題を解決し、大きな利益を得ることを示すため、広範囲な量と品質実験を行った。 コードはhttps://github.com/m egvii-research/tlscで入手できる。

Global spatial statistics, which are aggregated along entire spatial dimensions, are widely used in top-performance image restorers. For example, mean, variance in Instance Normalization (IN) which is adopted by HINet, and global average pooling (i.e. mean) in Squeeze and Excitation (SE) which is applied to MPRNet. This paper first shows that statistics aggregated on the patches-based/entire -image-based feature in the training/testing phase respectively may distribute very differently and lead to performance degradation in image restorers. It has been widely overlooked by previous works. To solve this issue, we propose a simple approach, Test-time Local Statistics Converter (TLSC), that replaces the region of statistics aggregation operation from global to local, only in the test time. Without retraining or finetuning, our approach significantly improves the image restorer's performance. In particular, by extending SE with TLSC to the state-of-the-art models, MPRNet boost by 0.65 dB in PSNR on GoPro dataset, achieves 33.31 dB, exceeds the previous best result 0.6 dB. In addition, we simply apply TLSC to the high-level vision task, i.e. semantic segmentation, and achieves competitive results. Extensive quantity and quality experiments are conducted to demonstrate TLSC solves the issue with marginal costs while significant gain. The code is available at https://github.com/m egvii-research/tlsc.
翻訳日:2021-12-10 15:25:57 公開日:2021-12-08
# 動的多機能クラスガウス過程モデル

Dynamic multi feature-class Gaussian process models ( http://arxiv.org/abs/2112.04495v1 )

ライセンス: Link先を確認
Jean-Rassaire Fouefack, Bhushan Borotikar, Marcel L\"uthi, Tania S. Douglas, Val\'erie Burdin and Tinashe E.M. Mutsvangwa(参考訳) モデルに基づく医用画像解析において、興味のある3つの特徴は、興味のある構造の形状、相対的なポーズ、ある物理的性質を表す画像強度プロファイルである。 多くの場合、これらのモデルは統計モデルによって個別にモデル化され、対象の特徴を主測地線解析や主成分分析によって基底関数の集合に分解する。 本研究では, 医用画像の形状, ポーズ, 強度を自動的に学習する統計モデルを提案し, 動的多重特徴クラスガウス過程モデル (DMFC-GPM) と呼ぶ。 DMFC-GPM (DMFC-GPM) はガウス過程(GP)に基づくモデルであり、線形および非線形の変動を符号化する潜在空間を共有する。 本手法は, 変形場に基づく線形空間における形状, ポーズ, 強度特徴クラスを原理的に表現する連続領域で定義される。 変形場に基づく計量は、剛性変換(pose)の比較だけでなく、形状および強度特徴の変化をモデル化する方法に適応する。 さらに、DMFC-GPMは、縁化や回帰を含むGPに固有の性質を継承する。 さらに、画像取得プロセスから得られた特徴量に加えて、追加のポーズ特徴量(permutation modelling)を追加することができる。 DMFC-GPMを用いた画像解析タスクでは,メトロポリス・ハスティングスアルゴリズムを適用し,特徴量の予測を完全確率的に行う。 本手法を合成データを用いて検証し,肩のct画像から骨構造の実験を行い,ポーズ・形状特徴予測におけるモデルの有効性について検討した。 モデル性能の結果から,この新しいモデリングパラダイムは堅牢で,正確で,アクセシビリティが高く,筋骨格障害の管理や臨床的意思決定などの応用の可能性も示唆された。

In model-based medical image analysis, three features of interest are the shape of structures of interest, their relative pose, and image intensity profiles representative of some physical property. Often, these are modelled separately through statistical models by decomposing the object's features into a set of basis functions through principal geodesic analysis or principal component analysis. This study presents a statistical modelling method for automatic learning of shape, pose and intensity features in medical images which we call the Dynamic multi feature-class Gaussian process models (DMFC-GPM). A DMFC-GPM is a Gaussian process (GP)-based model with a shared latent space that encodes linear and non-linear variation. Our method is defined in a continuous domain with a principled way to represent shape, pose and intensity feature classes in a linear space, based on deformation fields. A deformation field-based metric is adapted in the method for modelling shape and intensity feature variation as well as for comparing rigid transformations (pose). Moreover, DMFC-GPMs inherit properties intrinsic to GPs including marginalisation and regression. Furthermore, they allow for adding additional pose feature variability on top of those obtained from the image acquisition process; what we term as permutation modelling. For image analysis tasks using DMFC-GPMs, we adapt Metropolis-Hastings algorithms making the prediction of features fully probabilistic. We validate the method using controlled synthetic data and we perform experiments on bone structures from CT images of the shoulder to illustrate the efficacy of the model for pose and shape feature prediction. The model performance results suggest that this new modelling paradigm is robust, accurate, accessible, and has potential applications including the management of musculoskeletal disorders and clinical decision making
翻訳日:2021-12-10 15:24:12 公開日:2021-12-08
# カラーファントム撮影における焦点定位のためのマルチスケールソフトマックスクロスエントロピー

Multiscale Softmax Cross Entropy for Fovea Localization on Color Fundus Photography ( http://arxiv.org/abs/2112.04499v1 )

ライセンス: Link先を確認
Yuli Wu, Peter Walter, Dorit Merhof(参考訳) foveaの局在は、眼科医用画像解析において最も一般的なタスクの一つであり、マキュラ・ルテアの中心点の座標、すなわちfovea centralisは、カラーファンデース画像に基づいて計算されるべきである。 そこで本研究では,x軸とy軸の座標を対象クラスとして,局所化問題を分類タスクとして扱う。 さらに,ソフトマックスアクティベーション関数とクロスエントロピー損失関数の組み合わせを多変量に修正し,予測座標を接地軌道に近づけるようにした。 カラーファンドス撮影画像に基づいて,提案するマルチスケールソフトマックスクロスエントロピーはバニラ版よりも優れた性能を示し,sgmoidアクティベーションによる平均二乗誤差損失よりも優れた性能が得られることを示した。

Fovea localization is one of the most popular tasks in ophthalmic medical image analysis, where the coordinates of the center point of the macula lutea, i.e. fovea centralis, should be calculated based on color fundus images. In this work, we treat the localization problem as a classification task, where the coordinates of the x- and y-axis are considered as the target classes. Moreover, the combination of the softmax activation function and the cross entropy loss function is modified to its multiscale variation to encourage the predicted coordinates to be located closely to the ground-truths. Based on color fundus photography images, we empirically show that the proposed multiscale softmax cross entropy yields better performance than the vanilla version and than the mean squared error loss with sigmoid activation, which provides a novel approach for coordinate regression.
翻訳日:2021-12-10 15:23:47 公開日:2021-12-08
# セグメントと完全:ロバストパッチ検出による対向パッチ攻撃に対する物体検出器の防御

Segment and Complete: Defending Object Detectors against Adversarial Patch Attacks with Robust Patch Detection ( http://arxiv.org/abs/2112.04532v1 )

ライセンス: Link先を確認
Jiang Liu, Alexander Levine, Chun Pong Lau, Rama Chellappa, Soheil Feizi(参考訳) オブジェクト検出は多くのセキュリティクリティカルなシステムにおいて重要な役割を果たす。 物理的な世界で容易に実装できる敵のパッチ攻撃は、最先端の物体検出装置に深刻な脅威をもたらす。 パッチ攻撃に対する物体探知器の信頼性の高い防御を開発することは重要であるが、厳格に検討されている。 本稿では,敵パッチの検出・削除を通じて,対象検知器をパッチ攻撃から守るための一般的なフレームワークであるSegment and Complete Defense (SAC)を提案する。 まず、逆パッチの画素レベルのローカライゼーションを提供するパッチマスクを出力するパッチセグメンタを訓練する。 次に、パッチセグメンタを堅牢化するための自己逆行訓練アルゴリズムを提案する。 さらに,パッチセグメンタの出力が接地トラス・パッチマスクの一定のハミング距離内にある場合,画像からパッチ全体を除去することが保証される頑健な形状補完アルゴリズムを設計する。 COCOおよびxViewデータセットに対する実験により、SACは、クリーンな画像に性能低下のない強い適応攻撃でも優れた堅牢性を実現し、見えないパッチ形状、アタック予算、および見えないアタック手法によく適応できることを示した。 さらに,APRICOT-Maskデータセットを提案する。APRICOTデータセットは,逆パッチの画素レベルのアノテーションで拡張される。 SACは、物理的パッチ攻撃の標的攻撃成功率を著しく低減できることを示す。

Object detection plays a key role in many security-critical systems. Adversarial patch attacks, which are easy to implement in the physical world, pose a serious threat to state-of-the-art object detectors. Developing reliable defenses for object detectors against patch attacks is critical but severely understudied. In this paper, we propose Segment and Complete defense (SAC), a general framework for defending object detectors against patch attacks through detecting and removing adversarial patches. We first train a patch segmenter that outputs patch masks that provide pixel-level localization of adversarial patches. We then propose a self adversarial training algorithm to robustify the patch segmenter. In addition, we design a robust shape completion algorithm, which is guaranteed to remove the entire patch from the images given the outputs of the patch segmenter are within a certain Hamming distance of the ground-truth patch masks. Our experiments on COCO and xView datasets demonstrate that SAC achieves superior robustness even under strong adaptive attacks with no performance drop on clean images, and generalizes well to unseen patch shapes, attack budgets, and unseen attack methods. Furthermore, we present the APRICOT-Mask dataset, which augments the APRICOT dataset with pixel-level annotations of adversarial patches. We show SAC can significantly reduce the targeted attack success rate of physical patch attacks.
翻訳日:2021-12-10 15:23:30 公開日:2021-12-08
# sirfyn: 隣人からの1枚の写真

SIRfyN: Single Image Relighting from your Neighbors ( http://arxiv.org/abs/2112.04497v1 )

ライセンス: Link先を確認
D.A. Forsyth, Anand Bhattad, Pranav Asthana, Yuanyi Zhong, Yuxiong Wang(参考訳) 一つの画像に描かれたシーンをリライトする方法を示します。 (a)全体のシェーディングが変化し、 (b)結果のイメージは、そのシーンの自然なイメージのように見える。 このような手順には、トレーニングデータの生成とオーサリング環境の構築が含まれる。 これを行う方法が失敗する。 シェーディングとアルベドは、例えば、シャープなシェーディングの境界線が、通常アルベドに現れる深さの不連続点に現れる傾向があるため、非常に強い関係がある。 同じ場面を様々な方法で照らすことができ、定説では、異なる照明が円錐(照明円錐)を形成する。 新たな理論では、同じシーンを使って、特定のシーンに適用する異なる照明を、有界な予測誤差で推定することができる。 本手法は,この理論を応用して,照明コーンのインデュート発生器の形で利用可能な照明場の表現を推定する。 この手順では高価な「逆グラフィックス」データセットは必要とせず、いかなる種類の根拠真理データも見ない。 質的評価は、ソフトな屋内シャドウを消去・復元し、シーン周辺の光を「ステアリング」できることを示唆している。 FIDの新たな応用法として,本手法を定量的に評価する。 FIDの拡張は、生成画像毎の評価を可能にする。 さらに,ユーザ調査により質的評価を行い,データ拡張に有効な画像を生成することを示す。

We show how to relight a scene, depicted in a single image, such that (a) the overall shading has changed and (b) the resulting image looks like a natural image of that scene. Applications for such a procedure include generating training data and building authoring environments. Naive methods for doing this fail. One reason is that shading and albedo are quite strongly related; for example, sharp boundaries in shading tend to appear at depth discontinuities, which usually apparent in albedo. The same scene can be lit in different ways, and established theory shows the different lightings form a cone (the illumination cone). Novel theory shows that one can use similar scenes to estimate the different lightings that apply to a given scene, with bounded expected error. Our method exploits this theory to estimate a representation of the available lighting fields in the form of imputed generators of the illumination cone. Our procedure does not require expensive "inverse graphics" datasets, and sees no ground truth data of any kind. Qualitative evaluation suggests the method can erase and restore soft indoor shadows, and can "steer" light around a scene. We offer a summary quantitative evaluation of the method with a novel application of the FID. An extension of the FID allows per-generated-image evaluation. Furthermore, we offer qualitative evaluation with a user study, and show that our method produces images that can successfully be used for data augmentation.
翻訳日:2021-12-10 15:04:46 公開日:2021-12-08
# 表現操作のための意味セグメンテーションと階層的生成逆ネットワークの統一アーキテクチャ

A Unified Architecture of Semantic Segmentation and Hierarchical Generative Adversarial Networks for Expression Manipulation ( http://arxiv.org/abs/2112.04603v1 )

ライセンス: Link先を確認
Rumeysa Bodur, Binod Bhattarai, Tae-Kyun Kim(参考訳) 私たちが望むものだけを変えて表情を編集することは、画像操作のためのGAN(Generative Adversarial Networks)における長年の研究課題である。 グローバルジェネレータのみに依存する既存のメソッドのほとんどは、通常、望ましくない属性とターゲット属性の変更に苦しむ。 近年、画像全体を扱うグローバルネットワークと、局所的な部分に焦点を当てた複数のローカルネットワークの両方からなる階層ネットワークが成功している。 しかし,これらの手法は,非微分的,不正確な,非現実的な顔キーポイントを中心とした境界ボックスによって局所領域を抽出する。 したがって、溶液は準最適となり、合成画像の全体的な品質を劣化させる望ましくないアーティファクトを導入する。 さらに、最近の研究では、顔の特徴と局所的な意味領域との間に強い相関が示されている。 この関係を利用するために,意味的セグメンテーションと階層的GANの統一アーキテクチャを設計した。 我々のフレームワークの独特な利点は、前もってセマンティックセグメンテーションネットワーク条件を生成モデルにパスし、後向きの階層的なGANからの勾配をセマンティックセグメンテーションネットワークに伝播させることで、フレームワークをエンドツーエンドの差別化可能なアーキテクチャにすることである。 これにより、両方のアーキテクチャが互いに利益を享受できる。 その利点を示すために,AffectNet と RaFD の2つの難解な表情翻訳ベンチマーク,およびセマンティックセグメンテーションベンチマークである CelebAMask-HQ を,BiSeNet と UNet の2つのアーキテクチャで比較検討した。 顔意味セグメンテーションと表情操作タスクの両方に関する広範囲な定量的・質的評価は,既存の最先端手法に対する作業の有効性を検証する。

Editing facial expressions by only changing what we want is a long-standing research problem in Generative Adversarial Networks (GANs) for image manipulation. Most of the existing methods that rely only on a global generator usually suffer from changing unwanted attributes along with the target attributes. Recently, hierarchical networks that consist of both a global network dealing with the whole image and multiple local networks focusing on local parts are showing success. However, these methods extract local regions by bounding boxes centred around the sparse facial key points which are non-differentiable, inaccurate and unrealistic. Hence, the solution becomes sub-optimal, introduces unwanted artefacts degrading the overall quality of the synthetic images. Moreover, a recent study has shown strong correlation between facial attributes and local semantic regions. To exploit this relationship, we designed a unified architecture of semantic segmentation and hierarchical GANs. A unique advantage of our framework is that on forward pass the semantic segmentation network conditions the generative model, and on backward pass gradients from hierarchical GANs are propagated to the semantic segmentation network, which makes our framework an end-to-end differentiable architecture. This allows both architectures to benefit from each other. To demonstrate its advantages, we evaluate our method on two challenging facial expression translation benchmarks, AffectNet and RaFD, and a semantic segmentation benchmark, CelebAMask-HQ across two popular architectures, BiSeNet and UNet. Our extensive quantitative and qualitative evaluations on both face semantic segmentation and face expression manipulation tasks validate the effectiveness of our work over existing state-of-the-art methods.
翻訳日:2021-12-10 15:04:25 公開日:2021-12-08
# 適応型カーネルグラフニューラルネットワーク

Adaptive Kernel Graph Neural Network ( http://arxiv.org/abs/2112.04575v1 )

ライセンス: Link先を確認
Mingxuan Ju, Shifu Hou, Yujie Fan, Jianan Zhao, Liang Zhao, Yanfang Ye(参考訳) グラフニューラルネットワーク(GNN)は,グラフ構造化データの表現学習において大きな成功を収めている。 GNNにおけるレイヤーワイドグラフの畳み込みは、グラフトポロジを捉えるのに強力であることが示されている。 この過程において、gnnは通常、ラプラシア行列、隣接行列、またはそれらの変異のような事前定義されたカーネルによって導かれる。 しかしながら、事前定義されたカーネルの採用により、異なるグラフへの汎用性が抑制される可能性がある。 例えば、低周波情報に焦点を当てたGNNは、高周波情報がグラフにとって重要である場合に満足できる性能を達成できない。 この問題を解決するために,本論文では,適応型カーネルグラフニューラルネットワーク(akgnn)という新しいフレームワークを提案し,最初の試みで最適なグラフカーネルへの適応を統一的に学習する。 提案したAKGNNでは,グラフラプラシアンの最大固有値を変更することで全パスフィルタと低パスフィルタのバランスを適応的に調整する,データ駆動型グラフカーネル学習機構を設計する。 このプロセスを通じて、AKGNNは高周波数信号と低周波数信号の最適閾値を学習し、一般性問題を緩和する。 その後、パラメータ化トリックによりパラメータの数をさらに減らし、大域的な読み出し関数によって表現力を高める。 認められたベンチマークデータセット上で広範な実験を行い,最先端gnnとの比較により,提案するaggnnの優れた性能を示す有望な結果を得た。 ソースコードは、https://github.com/j umxglhf/AKGNNで公開されている。

Graph neural networks (GNNs) have demonstrated great success in representation learning for graph-structured data. The layer-wise graph convolution in GNNs is shown to be powerful at capturing graph topology. During this process, GNNs are usually guided by pre-defined kernels such as Laplacian matrix, adjacency matrix, or their variants. However, the adoptions of pre-defined kernels may restrain the generalities to different graphs: mismatch between graph and kernel would entail sub-optimal performance. For example, GNNs that focus on low-frequency information may not achieve satisfactory performance when high-frequency information is significant for the graphs, and vice versa. To solve this problem, in this paper, we propose a novel framework - i.e., namely Adaptive Kernel Graph Neural Network (AKGNN) - which learns to adapt to the optimal graph kernel in a unified manner at the first attempt. In the proposed AKGNN, we first design a data-driven graph kernel learning mechanism, which adaptively modulates the balance between all-pass and low-pass filters by modifying the maximal eigenvalue of the graph Laplacian. Through this process, AKGNN learns the optimal threshold between high and low frequency signals to relieve the generality problem. Later, we further reduce the number of parameters by a parameterization trick and enhance the expressive power by a global readout function. Extensive experiments are conducted on acknowledged benchmark datasets and promising results demonstrate the outstanding performance of our proposed AKGNN by comparison with state-of-the-art GNNs. The source code is publicly available at: https://github.com/j umxglhf/AKGNN.
翻訳日:2021-12-10 14:52:14 公開日:2021-12-08
# cossl:不均衡半教師学習のための表現と分類の共学習

CoSSL: Co-Learning of Representation and Classifier for Imbalanced Semi-Supervised Learning ( http://arxiv.org/abs/2112.04564v1 )

ライセンス: Link先を確認
Yue Fan and Dengxin Dai and Bernt Schiele(参考訳) 本稿では,非バランスなSSLのための非結合表現学習と分類器学習を用いた新しいコラーニングフレームワーク(CoSSL)を提案する。 データ不均衡に対処するため、分類器学習のためのTFE(Tail-class Feature Enhancement)を考案した。 さらに、現在の不均衡sslの評価プロトコルは、実世界のシナリオで実用性に乏しいバランステストセットのみに焦点を当てている。 そこで我々は, 各種変遷試験分布において, 総合的な評価を行う。 実験では,CIFAR-10,CIFAR-100, ImageNet,Food-101などのベンチマークデータセットに対して,多数のシフト分布に対して他の手法よりも優れた性能を示すことを示す。 私たちのコードは公開されます。

In this paper, we propose a novel co-learning framework (CoSSL) with decoupled representation learning and classifier learning for imbalanced SSL. To handle the data imbalance, we devise Tail-class Feature Enhancement (TFE) for classifier learning. Furthermore, the current evaluation protocol for imbalanced SSL focuses only on balanced test sets, which has limited practicality in real-world scenarios. Therefore, we further conduct a comprehensive evaluation under various shifted test distributions. In experiments, we show that our approach outperforms other methods over a large range of shifted distributions, achieving state-of-the-art performance on benchmark datasets ranging from CIFAR-10, CIFAR-100, ImageNet, to Food-101. Our code will be made publicly available.
翻訳日:2021-12-10 14:17:16 公開日:2021-12-08
# グラフカラー化のための機械学習に基づく価格ヒューリスティックによるカラム生成の強化

Enhancing Column Generation by a Machine-Learning-Bas ed Pricing Heuristic for Graph Coloring ( http://arxiv.org/abs/2112.04906v1 )

ライセンス: Link先を確認
Yunzhuang Shen, Yuan Sun, Xiaodong Li, Andrew Eberhard, Andreas Ernst(参考訳) カラム生成(CG)は大規模最適化問題の解決に有効な手法である。 CGは、列のサブセット(変数)でサブプロブレムを解くことから始まり、徐々に現在のサブプロブレムの解を改善することができる新しいカラムを含む。 新しいカラムは、しばしばNPハードでCGアプローチのボトルネックとなる価格問題を繰り返し解決することで、必要に応じて生成される。 そこで本研究では,高品質なコラムを効率的に生成できる機械学習ベースの価格ヒューリスティック(mlph)を提案する。 CGの各イテレーションにおいて、MLPHはMLモデルを利用して価格問題の最適解を予測し、サンプリング手法を誘導して複数の高品質カラムを効率的に生成する。 グラフカラー化問題を用いて、MLPHは6つの最先端手法と比較してCGを大幅に向上し、CGの改良によりブランチ・アンド・プライス・正確な手法の性能が大幅に向上することを示した。

Column Generation (CG) is an effective method for solving large-scale optimization problems. CG starts by solving a sub-problem with a subset of columns (i.e., variables) and gradually includes new columns that can improve the solution of the current subproblem. The new columns are generated as needed by repeatedly solving a pricing problem, which is often NP-hard and is a bottleneck of the CG approach. To tackle this, we propose a Machine-Learning-bas ed Pricing Heuristic (MLPH)that can generate many high-quality columns efficiently. In each iteration of CG, our MLPH leverages an ML model to predict the optimal solution of the pricing problem, which is then used to guide a sampling method to efficiently generate multiple high-quality columns. Using the graph coloring problem, we empirically show that MLPH significantly enhancesCG as compared to six state-of-the-art methods, and the improvement in CG can lead to substantially better performance of the branch-and-price exact method.
翻訳日:2021-12-10 14:13:44 公開日:2021-12-08
# 学習型制御センシングによる異常検出のためのスケーラブル・分散アルゴリズム

Scalable and Decentralized Algorithms for Anomaly Detection via Learning-Based Controlled Sensing ( http://arxiv.org/abs/2112.04912v1 )

ライセンス: Link先を確認
Geethu Joseph, Chen Zhong, M. Cenk Gursoy, Senem Velipasalar, and Pramod K.Varshney(参考訳) 与えられた集合からプロセスを順次選択・観察し、それらの間に異常を見出す問題に対処する。 意思決定者は、任意の時点でプロセスのサブセットを瞬時に観察し、対応するプロセスが異常であるか否かのノイズの2値指標を得る。 本研究では,ある時刻に観測すべきプロセスを選択し,いつ観測を中止するかを判断し,異常なプロセスに関する決定を宣言する異常検出アルゴリズムを開発する。 検出アルゴリズムの目的は、決定の遅れを最小限に抑えつつ、所望値を超える精度で異常を識別することである。 我々は、プロセスが共通のエージェントによって共同で選択される集中型アルゴリズムと、プロセスを選択するかどうかが各プロセスごとに独立に決定される分散型アルゴリズムを考案する。 我々のアルゴリズムは、各過程が正常か異常かの限界確率を用いて定義されたマルコフ決定過程に依存する。 我々は,deep actor-critic reinforcement learningフレームワークを用いて検出アルゴリズムを実装した。 プロセス数に指数関数的複雑性を持つこのトピックの以前の作業とは異なり、我々のアルゴリズムは、プロセス数における多項式である計算とメモリの要求を持っている。 これらのアルゴリズムを最先端手法と比較し,数値実験を用いて実効性を示す。

We address the problem of sequentially selecting and observing processes from a given set to find the anomalies among them. The decision-maker observes a subset of the processes at any given time instant and obtains a noisy binary indicator of whether or not the corresponding process is anomalous. In this setting, we develop an anomaly detection algorithm that chooses the processes to be observed at a given time instant, decides when to stop taking observations, and declares the decision on anomalous processes. The objective of the detection algorithm is to identify the anomalies with an accuracy exceeding the desired value while minimizing the delay in decision making. We devise a centralized algorithm where the processes are jointly selected by a common agent as well as a decentralized algorithm where the decision of whether to select a process is made independently for each process. Our algorithms rely on a Markov decision process defined using the marginal probability of each process being normal or anomalous, conditioned on the observations. We implement the detection algorithms using the deep actor-critic reinforcement learning framework. Unlike prior work on this topic that has exponential complexity in the number of processes, our algorithms have computational and memory requirements that are both polynomial in the number of processes. We demonstrate the efficacy of these algorithms using numerical experiments by comparing them with state-of-the-art methods.
翻訳日:2021-12-10 14:12:32 公開日:2021-12-08
# マルチエージェントシミュレート株式市場における深層qラーニング市場

Deep Q-Learning Market Makers in a Multi-Agent Simulated Stock Market ( http://arxiv.org/abs/2112.04494v1 )

ライセンス: Link先を確認
Oscar Fern\'andez Vicente, Fernando Fern\'andez Rebollo, Francisco Javier Garc\'ia Polo(参考訳) 市場は流動性を提供することで金融市場で重要な役割を果たす。 彼らは通常、トレーダーが運営する代替価格水準を提供するために、購入と販売の制限命令を注文書に記入する。 本稿では,エージェントの観点から,これらのマーケットメーカーの戦略に関する研究に焦点をあてる。 特に,シミュレーション株式市場におけるインテリジェントマーケットマーカー作成のための強化学習(rl)の応用を提案する。 本研究は、RLマーケットメーカエージェントが非競争的(同時に1つのRLマーケットメーカが学習する)かつ競争シナリオ(複数のRLマーケットメーカが同時に学習する)でどのように振る舞うか、また、Sim2Realの範囲での戦略を興味深い結果に適応するかを分析する。 さらに、RLエージェントの性能に対する競合環境の影響を記述し、異なる実験間でのポリシー伝達の適用について述べる。 RLと深いRL技術は、利益を上げている市場メーカーのアプローチとして証明されており、株式市場における彼らの行動をよりよく理解している。

Market makers play a key role in financial markets by providing liquidity. They usually fill order books with buy and sell limit orders in order to provide traders alternative price levels to operate. This paper focuses precisely on the study of these markets makers strategies from an agent-based perspective. In particular, we propose the application of Reinforcement Learning (RL) for the creation of intelligent market markers in simulated stock markets. This research analyzes how RL market maker agents behaves in non-competitive (only one RL market maker learning at the same time) and competitive scenarios (multiple RL market markers learning at the same time), and how they adapt their strategies in a Sim2Real scope with interesting results. Furthermore, it covers the application of policy transfer between different experiments, describing the impact of competing environments on RL agents performance. RL and deep RL techniques are proven as profitable market maker approaches, leading to a better understanding of their behavior in stock markets.
翻訳日:2021-12-10 13:47:29 公開日:2021-12-08
# キャリブレーションによるベイズ最適化

Calibration Improves Bayesian Optimization ( http://arxiv.org/abs/2112.04620v1 )

ライセンス: Link先を確認
Shachi Deshpande, Volodymyr Kuleshov(参考訳) ベイズ最適化(英: bayesian optimization)は、ブラックボックス関数のグローバル最適化を得るための手順であり、ハイパーパラメータ最適化のようなアプリケーションで有用である。 目的関数の形状に関する不確実性推定は、最適化プロセスの指針となる。 しかし、これらの推定は、対象関数が基礎となるモデル(例えばガウス性)の仮定に違反した場合、不正確である。 本研究では,目的関数に対する後方分布の不確かさをベイズ最適化法の一部として校正する簡易アルゴリズムを提案する。 キャリブレーションによる後方分布の不確実性の推定を改善することにより、ベイズ最適化はより良い決定を行い、より少ないステップで世界最適に到達することを示す。 この手法により,標準ベンチマーク関数とハイパーパラメータ最適化タスクにおけるベイズ最適化の性能が向上することを示す。

Bayesian optimization is a procedure that allows obtaining the global optimum of black-box functions and that is useful in applications such as hyper-parameter optimization. Uncertainty estimates over the shape of the objective function are instrumental in guiding the optimization process. However, these estimates can be inaccurate if the objective function violates assumptions made within the underlying model (e.g., Gaussianity). We propose a simple algorithm to calibrate the uncertainty of posterior distributions over the objective function as part of the Bayesian optimization process. We show that by improving the uncertainty estimates of the posterior distribution with calibration, Bayesian optimization makes better decisions and arrives at the global optimum in fewer steps. We show that this technique improves the performance of Bayesian optimization on standard benchmark functions and hyperparameter optimization tasks.
翻訳日:2021-12-10 13:46:02 公開日:2021-12-08
# (参考訳) 構造文脈事前学習による知識グラフ表現学習の改善 [全文訳有]

Improving Knowledge Graph Representation Learning by Structure Contextual Pre-training ( http://arxiv.org/abs/2112.04087v1 )

ライセンス: CC BY 4.0
Ganqiang Ye, Wen Zhang, Zhen Bi, Chi Man Wong, Chen Hui and Huajun Chen(参考訳) 知識グラフ(KG)の表現学習モデルは、構造情報を符号化し、KGに対する推論を行うのに有効であることが証明されている。 本稿では,知識グラフ表現学習のための学習前微調整フレームワークを提案する。KGモデルをまず三重分類タスクで事前訓練し,続いてエンティティタイプ予測やエンティティアライメントなどの特定の下流タスクを識別微調整する。 一般的な事前学習された言語モデルにおける文脈的表現の深層学習の一般的な考え方に基づき、scopでは、目標のトリプルエンコードの構造的および文脈的トリプルで事前学習されたkg表現を学習する。 実験結果から, 微調整SCoPは下流タスクのポートフォリオにおけるベースラインの結果を上回るだけでなく, 面倒なタスク固有のモデル設計やパラメータトレーニングを回避していることがわかった。

Representation learning models for Knowledge Graphs (KG) have proven to be effective in encoding structural information and performing reasoning over KGs. In this paper, we propose a novel pre-training-then-fi ne-tuning framework for knowledge graph representation learning, in which a KG model is firstly pre-trained with triple classification task, followed by discriminative fine-tuning on specific downstream tasks such as entity type prediction and entity alignment. Drawing on the general ideas of learning deep contextualized word representations in typical pre-trained language models, we propose SCoP to learn pre-trained KG representations with structural and contextual triples of the target triple encoded. Experimental results demonstrate that fine-tuning SCoP not only outperforms results of baselines on a portfolio of downstream tasks but also avoids tedious task-specific model design and parameter training.
翻訳日:2021-12-10 00:22:48 公開日:2021-12-08
# (参考訳) FreeTalky: 遠慮するな! ペルソナ対話を用いたヒューマノイドロボットによる会話の容易化 [全文訳有]

FreeTalky: Don't Be Afraid! Conversations Made Easier by a Humanoid Robot using Persona-based Dialogue ( http://arxiv.org/abs/2112.04126v1 )

ライセンス: CC BY 4.0
Chanjun Park, Yoonna Jang, Seolhwa Lee, Sungjin Park, Heuiseok Lim(参考訳) 本稿では,ヒューマノイドロボットであるnaoと各種深層学習モデルを用いて,外国語に不安を抱く人々を対象とした,ディープラーニングベースの外国語学習プラットフォームfreetalkyを提案する。 NAOに埋め込まれたペルソナベースの対話システムは、ユーザにとって興味深く一貫したマルチターン対話を提供する。 また、文法誤り訂正システムは、ユーザの文法スキルの向上を促進する。 これにより、ペルソナ対話に基づくパーソナライズ学習が可能となり、文法誤差フィードバックを用いてユーザの文法学習が容易になる。 さらに, NAOロボットとの対話において, 実際の人間を置き換えることによって, キセノフォフォビアを緩和する上で, FreeTalkyが実用的な助けとなるかどうかを, 人間の評価によって検証した。

We propose a deep learning-based foreign language learning platform, named FreeTalky, for people who experience anxiety dealing with foreign languages, by employing a humanoid robot NAO and various deep learning models. A persona-based dialogue system that is embedded in NAO provides an interesting and consistent multi-turn dialogue for users. Also, an grammar error correction system promotes improvement in grammar skills of the users. Thus, our system enables personalized learning based on persona dialogue and facilitates grammar learning of a user using grammar error feedback. Furthermore, we verified whether FreeTalky provides practical help in alleviating xenoglossophobia by replacing the real human in the conversation with a NAO robot, through human evaluation.
翻訳日:2021-12-10 00:12:12 公開日:2021-12-08
# (参考訳) 二次元リーダーボード:手で言語を生成・評価する [全文訳有]

Bidimensional Leaderboards: Generate and Evaluate Language Hand in Hand ( http://arxiv.org/abs/2112.04139v1 )

ライセンス: CC BY 4.0
Jungo Kasai, Keisuke Sakaguchi, Ronan Le Bras, Lavinia Dunagan, Jacob Morrison, Alexander R. Fabbri, Yejin Choi, Noah A. Smith(参考訳) 自然言語処理の研究者は、生成タスクの評価方法の限界を特定し、自動メトリクスとクラウドワーカー判断の妥当性に関する新たな疑問を提起した。 一方、生成モデルを改善する努力は単純なn-gram重複メトリクス(BLEU、ROUGEなど)に焦点を当てる傾向にある。 モデルとメトリクスの新たな進歩は、互いに直接的に利益を与え、お互いに知らせるべきである、と私たちは主張する。 そこで我々は,評価のための言語生成タスクの進捗とメトリクスを同時に追跡する,リーダボード,双方向リーダーボード(ビルボード)の一般化を提案する。 提出されたシステムを所定のメトリクスでソートする従来の一次元リーダーボードとは異なり、ビルボードはジェネレータと評価メトリクスの両方を競合するエントリとして受け入れる。 Billboardは自動的にアンサンブルメトリックを生成し、ジェネレータ間のグローバル分析に基づいていくつかのメトリクスを選択し、線形に結合する。 さらに、指標は人的判断との相関に基づいてランク付けされる。 機械翻訳、要約、画像キャプションの4つのビルボードをリリースします。 我々は,いくつかの多様なメトリクスの線形アンサンブルが,時々,既存のメトリクスを分離して大幅に上回ることを実証する。 我々の混合エフェクトモデル分析は、ほとんどの自動メトリクス、特に参照ベースのメトリクスは、人間の生成よりもマシンをオーバーレイし、生成モデルがより強くなり(おそらく人間に近い)、メトリクスを更新することの重要性を示している。

Natural language processing researchers have identified limitations of evaluation methodology for generation tasks, with new questions raised about the validity of automatic metrics and of crowdworker judgments. Meanwhile, efforts to improve generation models tend to focus on simple n-gram overlap metrics (e.g., BLEU, ROUGE). We argue that new advances on models and metrics should each more directly benefit and inform the other. We therefore propose a generalization of leaderboards, bidimensional leaderboards (Billboards), that simultaneously tracks progress in language generation tasks and metrics for their evaluation. Unlike conventional unidimensional leaderboards that sort submitted systems by predetermined metrics, a Billboard accepts both generators and evaluation metrics as competing entries. A Billboard automatically creates an ensemble metric that selects and linearly combines a few metrics based on a global analysis across generators. Further, metrics are ranked based on their correlations with human judgments. We release four Billboards for machine translation, summarization, and image captioning. We demonstrate that a linear ensemble of a few diverse metrics sometimes substantially outperforms existing metrics in isolation. Our mixed-effects model analysis shows that most automatic metrics, especially the reference-based ones, overrate machine over human generation, demonstrating the importance of updating metrics as generation models become stronger (and perhaps more similar to humans) in the future.
翻訳日:2021-12-10 00:04:19 公開日:2021-12-08
# (参考訳) てんかん不確実性の信号としてのモデル値不整合 [全文訳有]

Model-Value Inconsistency as a Signal for Epistemic Uncertainty ( http://arxiv.org/abs/2112.04153v1 )

ライセンス: CC BY 4.0
Angelos Filos, Eszter V\'ertes, Zita Marinho, Gregory Farquhar, Diana Borsa, Abram Friesen, Feryal Behbahani, Tom Schaul, Andr\'e Barreto, Simon Osindero(参考訳) エージェントは、環境モデルと値関数を使用して、異なる長さのモデルをアンロールし、その値関数でブートストラップすることで、状態値の多くの推定値を構築することができる。 私たちの重要な洞察は、この値のセットをアンサンブルのタイプとして扱うことができ、それを \emph{implicit value ensemble} (IVE) と呼ぶことです。 したがって、これらの推定値の差はエージェントの認識の不確かさの代理として使用することができ、この信号は略して \emph{model-value inconsistency} または \emph{self-inconsistency} と呼ばれる。 多くのモデルと/または値関数のアンサンブルを訓練することで不確実性を推定する以前の仕事とは異なり、このアプローチは、モデルベースの強化学習アルゴリズムで既に学習されている単一のモデルと値関数のみを必要とする。 自己整合性が有用であることを示す画素からの表と関数の近似設定における実証的証拠を提供する。 (i)探検の合図として (ii)流通シフト時に安全に行うこと、及び (iii)モデルによる価値ベースの計画の堅牢化。

Using a model of the environment and a value function, an agent can construct many estimates of a state's value, by unrolling the model for different lengths and bootstrapping with its value function. Our key insight is that one can treat this set of value estimates as a type of ensemble, which we call an \emph{implicit value ensemble} (IVE). Consequently, the discrepancy between these estimates can be used as a proxy for the agent's epistemic uncertainty; we term this signal \emph{model-value inconsistency} or \emph{self-inconsistency} for short. Unlike prior work which estimates uncertainty by training an ensemble of many models and/or value functions, this approach requires only the single model and value function which are already being learned in most model-based reinforcement learning algorithms. We provide empirical evidence in both tabular and function approximation settings from pixels that self-inconsistency is useful (i) as a signal for exploration, (ii) for acting safely under distribution shifts, and (iii) for robustifying value-based planning with a model.
翻訳日:2021-12-09 23:33:41 公開日:2021-12-08
# (参考訳) ディープネットワークによる対称性の知覚:フィードフォワードアーキテクチャの不備と再帰接続による改善 [全文訳有]

Symmetry Perception by Deep Networks: Inadequacy of Feed-Forward Architectures and Improvements with Recurrent Connections ( http://arxiv.org/abs/2112.04162v1 )

ライセンス: CC BY 4.0
Shobhita Sundaram, Darius Sinha, Matthew Groth, Tomotake Sasaki, Xavier Boix(参考訳) シンメトリーは自然界において一様であり、多くの種の視覚システムによって認識される。 対称性の知覚は、画像領域間の非局所的な空間依存性の抽象化を必要とし、その基盤となる神経機構は解明され続けている。 本稿では,実例から対称性知覚を学習するタスクにおいて,Deep Neural Network(DNN)アーキテクチャを評価する。 対象認識タスクにおける人間のパフォーマンスのモデル化に優れるフィードフォワードDNNは、対称性の一般的な概念を得ることができないことを示す。 これは、DNNが‘dilated’畳み込みや最近導入された‘transformer’設計など、非ローカルな空間依存をキャプチャするように設計されている場合でも、そうである。 対照的に、リカレントアーキテクチャは、非局所的な空間依存を新しい画像に再利用可能な局所的な操作列に分解することで、対称性を知覚することができる。 これらの結果から, 繰り返し接続は, 生体系の対称性知覚において重要な役割を担っている可能性が示唆された。

Symmetry is omnipresent in nature and perceived by the visual system of many species, as it facilitates detecting ecologically important classes of objects in our environment. Symmetry perception requires abstraction of non-local spatial dependencies between image regions, and its underlying neural mechanisms remain elusive. In this paper, we evaluate Deep Neural Network (DNN) architectures on the task of learning symmetry perception from examples. We demonstrate that feed-forward DNNs that excel at modelling human performance on object recognition tasks, are unable to acquire a general notion of symmetry. This is the case even when the DNNs are architected to capture non-local spatial dependencies, such as through `dilated' convolutions and the recently introduced `transformers' design. By contrast, we find that recurrent architectures are capable of learning to perceive symmetry by decomposing the non-local spatial dependencies into a sequence of local operations, that are reusable for novel images. These results suggest that recurrent connections likely play an important role in symmetry perception in artificial systems, and possibly, biological ones too.
翻訳日:2021-12-09 23:03:32 公開日:2021-12-08
# (参考訳) 言語モデルとしてのゼロショット推薦 [全文訳有]

Zero-Shot Recommendation as Language Modeling ( http://arxiv.org/abs/2112.04184v1 )

ライセンス: CC BY 4.0
Damien Sileo, Wout Vossen, Robbe Raymaekers(参考訳) レコメンデーション(Recommendation)とは、個々のユーザーのニーズに応じてアイテム(映画や製品など)をランク付けするタスクである。 現在のシステムは協調フィルタリングとコンテンツベースの技術に依存しており、どちらも構造化されたトレーニングデータを必要とする。 本稿では,非構造化テキストコーパスのみをトレーニングデータとして使用する既成事前学習言語モデル(LM)を用いた推薦フレームワークを提案する。 a user $u$ liked \textit{Matrix} と \textit{Inception} は、例えば \textit{"Movies like Matrix, Inception, ${<}m{>}$"} のようなテキストプロンプトを構築し、$u$ と $m$ の親和性をLMの確率で推定する。 提案手法をコーパス分析でモチベーション化し,いくつかのプロンプト構造を評価し,異なるデータレジームで訓練された標準行列因子化とlmベースレコメンデーションを比較した。 実験のコードは公開されています(https://colab.resea rch.google.com/drive /1f1mlZ-FGaLGdo5rPzx f3vemKllbh2esT?usp= Share)。

Recommendation is the task of ranking items (e.g. movies or products) according to individual user needs. Current systems rely on collaborative filtering and content-based techniques, which both require structured training data. We propose a framework for recommendation with off-the-shelf pretrained language models (LM) that only used unstructured text corpora as training data. If a user $u$ liked \textit{Matrix} and \textit{Inception}, we construct a textual prompt, e.g. \textit{"Movies like Matrix, Inception, ${<}m{>}$"} to estimate the affinity between $u$ and $m$ with LM likelihood. We motivate our idea with a corpus analysis, evaluate several prompt structures, and we compare LM-based recommendation with standard matrix factorization trained on different data regimes. The code for our experiments is publicly available (https://colab.resea rch.google.com/drive /1f1mlZ-FGaLGdo5rPzx f3vemKllbh2esT?usp=sharing).
翻訳日:2021-12-09 22:46:49 公開日:2021-12-08
# (参考訳) 分散制約最適化問題に対する事前学習コストモデル [全文訳有]

Pretrained Cost Model for Distributed Constraint Optimization Problems ( http://arxiv.org/abs/2112.04187v1 )

ライセンス: CC BY 4.0
Yanchen Deng, Shufeng Kong, Bo An(参考訳) 分散制約最適化問題(DCOP)は、複数の自律エージェント間で情報と制御が分散される組合せ最適化問題の重要なサブクラスである。 これまで、機械学習(ml)は効果的なヒューリスティックスを学習することで組合せ最適化問題を解決するために広く用いられてきた。 しかし、既存のMLベースのヒューリスティック手法は、しばしば異なる探索アルゴリズムに対して一般化できない。 最も重要なことは、これらの手法は通常解決すべき問題に関する完全な知識を必要とし、地理的制限やプライバシー上の懸念のために集中化が現実的でない分散環境には適さないことである。 一般性問題に対処するため、DCOPのための新規な非巡回グラフ表現スキーマを提案し、グラフ表現を埋め込むためにグラフ注意ネットワーク(GAT)を利用する。 我々のモデルであるGAT-PCMは、オフラインで最適なラベル付きデータを事前学習し、効率的なヒューリスティックを構築し、局所探索やバックトラック探索などの部分割り当ての品質評価が重要なDCOPアルゴリズムを広範囲に拡張する。 さらに、分散モデル推論を実現するために、各エージェントが埋め込みベクトルのみを交換し、その可聴性と複雑さを示すGAT-PCMの分散埋め込みスキーマを提案する。 最後に,ローカル検索やバックトラッキング検索アルゴリズムと組み合わせることで,モデルの有効性を実証する。 GAT-PCM-boostedアルゴリズムは様々なベンチマークで最先端の手法よりも優れていた。 事前訓練されたモデルはhttps://github.com/d yc941126/GAT-PCMで入手できる。

Distributed Constraint Optimization Problems (DCOPs) are an important subclass of combinatorial optimization problems, where information and controls are distributed among multiple autonomous agents. Previously, Machine Learning (ML) has been largely applied to solve combinatorial optimization problems by learning effective heuristics. However, existing ML-based heuristic methods are often not generalizable to different search algorithms. Most importantly, these methods usually require full knowledge about the problems to be solved, which are not suitable for distributed settings where centralization is not realistic due to geographical limitations or privacy concerns. To address the generality issue, we propose a novel directed acyclic graph representation schema for DCOPs and leverage the Graph Attention Networks (GATs) to embed graph representations. Our model, GAT-PCM, is then pretrained with optimally labelled data in an offline manner, so as to construct effective heuristics to boost a broad range of DCOP algorithms where evaluating the quality of a partial assignment is critical, such as local search or backtracking search. Furthermore, to enable decentralized model inference, we propose a distributed embedding schema of GAT-PCM where each agent exchanges only embedded vectors, and show its soundness and complexity. Finally, we demonstrate the effectiveness of our model by combining it with a local search or a backtracking search algorithm. Extensive empirical evaluations indicate that the GAT-PCM-boosted algorithms significantly outperform the state-of-the-art methods in various benchmarks. The pretrained model is available at https://github.com/d yc941126/GAT-PCM.
翻訳日:2021-12-09 22:37:03 公開日:2021-12-08
# (参考訳) 逆パラメトリックポーズ [全文訳有]

Adversarial Parametric Pose Prior ( http://arxiv.org/abs/2112.04203v1 )

ライセンス: CC0 1.0
Andrey Davydov, Anastasia Remizova, Victor Constantin, Sina Honari, Mathieu Salzmann, Pascal Fua(参考訳) Skinned Multi-Person Linear (SMPL)モデルは、ポーズと形状パラメータをボディメッシュにマッピングすることで、人間の体を表現することができる。 これは、異なる学習モデルを通して画像から3Dのポーズと形状を推測することを容易にすることが示されている。 しかし、すべてのポーズや形状パラメータの値が物理的に評価可能あるいは現実的なボディメッシュを生成するわけではない。 言い換えれば、SMPLは制約が不足しているため、画像から直接パラメータを最適化したり、画像からこれらのパラメータへのマッピングを学習することで、画像から人間を再構成する際に無効な結果をもたらす可能性がある。 そこで本稿では,SMPLパラメータを現実的なポーズを生成する値に制限する事前学習を行う。 得られた先行学習は実データ分布の多様性をカバーし、2次元キーポイントからの3次元再構成の最適化を容易にし、画像からの回帰に使用する場合のポーズ推定精度を向上することを示す。 球面分布に基づく事前結果が最適であることがわかった。 さらに、これらすべてのタスクにおいて、SMPLパラメータの制約に対する最先端のVAEベースのアプローチよりも優れています。

The Skinned Multi-Person Linear (SMPL) model can represent a human body by mapping pose and shape parameters to body meshes. This has been shown to facilitate inferring 3D human pose and shape from images via different learning models. However, not all pose and shape parameter values yield physically-plausible or even realistic body meshes. In other words, SMPL is under-constrained and may thus lead to invalid results when used to reconstruct humans from images, either by directly optimizing its parameters, or by learning a mapping from the image to these parameters. In this paper, we therefore learn a prior that restricts the SMPL parameters to values that produce realistic poses via adversarial training. We show that our learned prior covers the diversity of the real-data distribution, facilitates optimization for 3D reconstruction from 2D keypoints, and yields better pose estimates when used for regression from images. We found that the prior based on spherical distribution gets the best results. Furthermore, in all these tasks, it outperforms the state-of-the-art VAE-based approach to constraining the SMPL parameters.
翻訳日:2021-12-09 22:17:16 公開日:2021-12-08
# (参考訳) 体験リプレイによるQ-Learningの収束結果

Convergence Results For Q-Learning With Experience Replay ( http://arxiv.org/abs/2112.04213v1 )

ライセンス: CC BY 4.0
Liran Szlak, Ohad Shamir(参考訳) RLにおける一般的なヒューリスティックは、学習者が過去の軌跡をオンラインのサンプルのように保存し再利用する経験再生(例:~\citet{lin 1993reinforcement, mnih2015human})である。 本研究では,表型q-learningの設定において,このヒューリスティックを厳密に研究する。 本稿では,リプレイ回数の頻度や回数といった重要なパラメータによるq-learningの収束と比較し,収束率の保証について考察する。 また,シンプルなMDPのクラスを導入,分析することにより,このヒューリスティックな性能向上が期待できることを示す理論的証拠も提示する。 最後に,理論的な知見を裏付ける実験を行った。

A commonly used heuristic in RL is experience replay (e.g.~\citet{lin1993reinforcement , mnih2015human}), in which a learner stores and re-uses past trajectories as if they were sampled online. In this work, we initiate a rigorous study of this heuristic in the setting of tabular Q-learning. We provide a convergence rate guarantee, and discuss how it compares to the convergence of Q-learning depending on important parameters such as the frequency and number of replay iterations. We also provide theoretical evidence showing when we might expect this heuristic to strictly improve performance, by introducing and analyzing a simple class of MDPs. Finally, we provide some experiments to support our theoretical findings.
翻訳日:2021-12-09 22:00:55 公開日:2021-12-08
# (参考訳) 専門家の局所的混合による多彩なスキルライブラリーの特殊化 [全文訳有]

Specializing Versatile Skill Libraries using Local Mixture of Experts ( http://arxiv.org/abs/2112.04216v1 )

ライセンス: CC BY 4.0
Onur Celik, Dongzhuoran Zhou, Ge Li, Philipp Becker, Gerhard Neumann(参考訳) ロボット工学における長年のビジョンは、人間の万能性と精度に合ったスキルをロボットに装備することである。 例えば、卓球を行う場合、ロボットは、所望の場所に正確に配置しながら、様々な方法でボールを返すことができるべきである。 このような多目的な振る舞いをモデル化するための一般的なアプローチは、各専門家が文脈運動プリミティブであるMixture of Experts(MoE)モデルを使用することである。 しかし、そのようなMoEsを学ぶことは、ほとんどの目的が、プリミティブの特殊化を防ぎ、より低品質なコンポーネントを生み出すために、モデル全体をカバーせざるを得なくなるため、難しい。 最大エントロピー強化学習(RL)から始めて, 目的を分解し, 混合成分あたりの個々の下界を最適化する。 さらに,コンポーネントを局所的なコンテキスト領域に集中させることで,高度に正確なスキル表現を学習できるカリキュラムを導入する。 この目的のために、我々はエキスパートプリミティブと共同で適応されたローカルコンテキスト分布を使用する。 私たちの下限では、新しいコンポーネントが現在のmoeでカバーされていないローカルコンテキスト領域に集中する、新しいコンポーネントの反復的な追加を提唱しています。 この局所的および漸進的な学習は、高い精度と汎用性のモジュラMOEモデルをもたらす。 我々はこれを広範囲にわたるアブレーションと、ロボットのスキル学習に挑戦する2つの課題で実証した。 我々は、様々なスキルを学ぶための既知の階層的ポリシー探索手法であるladipsとhirepsと比較した。

A long-cherished vision in robotics is to equip robots with skills that match the versatility and precision of humans. For example, when playing table tennis, a robot should be capable of returning the ball in various ways while precisely placing it at the desired location. A common approach to model such versatile behavior is to use a Mixture of Experts (MoE) model, where each expert is a contextual motion primitive. However, learning such MoEs is challenging as most objectives force the model to cover the entire context space, which prevents specialization of the primitives resulting in rather low-quality components. Starting from maximum entropy reinforcement learning (RL), we decompose the objective into optimizing an individual lower bound per mixture component. Further, we introduce a curriculum by allowing the components to focus on a local context region, enabling the model to learn highly accurate skill representations. To this end, we use local context distributions that are adapted jointly with the expert primitives. Our lower bound advocates an iterative addition of new components, where new components will concentrate on local context regions not covered by the current MoE. This local and incremental learning results in a modular MoE model of high accuracy and versatility, where both properties can be scaled by adding more components on the fly. We demonstrate this by an extensive ablation and on two challenging simulated robot skill learning tasks. We compare our achieved performance to LaDiPS and HiREPS, a known hierarchical policy search method for learning diverse skills.
翻訳日:2021-12-09 21:59:48 公開日:2021-12-08
# (参考訳) 部分観測線形系に対する全安定化非線形制御系の学習 [全文訳有]

Learning over All Stabilizing Nonlinear Controllers for a Partially-Observed Linear System ( http://arxiv.org/abs/2112.04219v1 )

ライセンス: CC BY 4.0
Ruigang Wang and Nicholas Barbara and Max Revay and Ian R. Manchester(参考訳) 本稿では、リカレント平衡ネットワーク(REN)と呼ばれる最近のニューラルネットワークのクラスに基づく線形力学系に対する非線形出力フィードバックコントローラのパラメータ化と、Youlaパラメータ化の非線形バージョンを提案する。 本手法は,制約を満たさずに部分的に観測可能な線形力学系の閉ループ安定性を保証する。 これにより、制約のない最適化手順が安定性を維持しながら適用できるため、モデルフィッティングが大幅に単純化される。 本稿では,精密および近似勾配法を用いて強化学習タスクを行う方法を示す。 シミュレーション研究により,本手法はより拡張性が高く,同じ問題設定で他の手法よりも優れていることが示された。

We propose a parameterization of nonlinear output feedback controllers for linear dynamical systems based on a recently developed class of neural network called the recurrent equilibrium network (REN), and a nonlinear version of the Youla parameterization. Our approach guarantees the closed-loop stability of partially observable linear dynamical systems without requiring any constraints to be satisfied. This significantly simplifies model fitting as any unconstrained optimization procedure can be applied whilst still maintaining stability. We demonstrate our method on reinforcement learning tasks with both exact and approximate gradient methods. Simulation studies show that our method is significantly more scalable and significantly outperforms other approaches in the same problem setting.
翻訳日:2021-12-09 21:36:47 公開日:2021-12-08
# (参考訳) ビデオシーングラフの時間的二部グラフ化 [全文訳有]

Classification-Then- Grounding: Reformulating Video Scene Graphs as Temporal Bipartite Graphs ( http://arxiv.org/abs/2112.04222v1 )

ライセンス: CC BY 4.0
Kaifeng Gao, Long Chen, Yulei Niu, Jian Shao, Jun Xiao(参考訳) 現代のVidSGGモデルは、すべて提案に基づく手法であり、まず、提案として複数の対象オブジェクトスニペットを生成し、各提案に対して述語分類を行う。 本稿では,この提案に基づくフレームワークに固有の欠点が3つあることを論じる。 1)提案の真正な述語ラベルは部分的に正しい。 2)同一の主観-対象対の異なる述語インスタンス間の高次関係を破る。 3) VidSGG の性能は提案の質に左右される。 この目的のために,我々はvidsggの3つの欠点をすべて回避できる新しい分類・接地フレームワークを提案する。 一方,この枠組みでは,映像シーングラフを時間的二部グラフとして再構成し,エンティティと述語は時間スロットを持つ2種類のノードであり,エッジはそれらのノード間で異なる意味的役割を示す。 この定式化は私たちの新しいフレームワークを最大限に活用します。 そこで我々は,新しいBIpartite GraphベースのSGGモデルBIGを提案する。 具体的には、BIGは分類段階と接地段階の2つの部分から構成され、前者はすべてのノードとエッジのカテゴリを分類することを目的としており、後者は各関係インスタンスの時間的位置をローカライズしようとする。 2つのVidSGGデータセットの大幅な改善により、我々のフレームワークとBIGの有効性が証明された。

Today's VidSGG models are all proposal-based methods, i.e., they first generate numerous paired subject-object snippets as proposals, and then conduct predicate classification for each proposal. In this paper, we argue that this prevalent proposal-based framework has three inherent drawbacks: 1) The ground-truth predicate labels for proposals are partially correct. 2) They break the high-order relations among different predicate instances of a same subject-object pair. 3) VidSGG performance is upper-bounded by the quality of the proposals. To this end, we propose a new classification-then- grounding framework for VidSGG, which can avoid all the three overlooked drawbacks. Meanwhile, under this framework, we reformulate the video scene graphs as temporal bipartite graphs, where the entities and predicates are two types of nodes with time slots, and the edges denote different semantic roles between these nodes. This formulation takes full advantage of our new framework. Accordingly, we further propose a novel BIpartite Graph based SGG model: BIG. Specifically, BIG consists of two parts: a classification stage and a grounding stage, where the former aims to classify the categories of all the nodes and the edges, and the latter tries to localize the temporal location of each relation instance. Extensive ablations on two VidSGG datasets have attested to the effectiveness of our framework and BIG.
翻訳日:2021-12-09 21:24:29 公開日:2021-12-08
# (参考訳) 微粒化認識のためのモバイルネットワークにおけるプログレッシブ多段階インタラクティブトレーニング [全文訳有]

Progressive Multi-stage Interactive Training in Mobile Network for Fine-grained Recognition ( http://arxiv.org/abs/2112.04223v1 )

ライセンス: CC BY 4.0
Zhenxin Wu, Qingliang Chen, Yifeng Liu, Yinqi Zhang, Chengkai Zhu, Yang Yu(参考訳) FGVCは、サブカテゴリからオブジェクトを識別することを目的としている。 クラス間の微妙な違いのため、非常に難しいタスクです。 既存の研究では、大規模畳み込みニューラルネットワークや視覚トランスフォーマーを特徴抽出器として採用している。 実際、現実世界の細かい認識のシナリオは、オフラインで利用できるより軽量なモバイルネットワークを必要とすることが多い。 しかし,モバイルネットワークの基本的な特徴抽出能力は,大規模モデルよりも弱い。 本稿では,ライトウェイトなMobilenetV2に基づいて,Recursive Mosaic Generator (RMG-PMSI) を用いたProgressive Multi-Stage Interactive Training法を提案する。 まず,異なる位相の粒度を持つ画像を生成する再帰的モザイク生成器(rmg)を提案する。 次に、異なるステージの特徴は、異なるステージの対応する特徴を強化し補完するマルチステージインタラクション(MSI)モジュールを通過する。 最後に、プログレッシブトレーニング(P)を用いて、異なる段階のモデルによって抽出された特徴を完全に活用し、融合させることができる。 RMG-PMSIは高い堅牢性と伝達性で性能を大幅に向上させることができる。

Fine-grained Visual Classification (FGVC) aims to identify objects from subcategories. It is a very challenging task because of the subtle inter-class differences. Existing research applies large-scale convolutional neural networks or visual transformers as the feature extractor, which is extremely computationally expensive. In fact, real-world scenarios of fine-grained recognition often require a more lightweight mobile network that can be utilized offline. However, the fundamental mobile network feature extraction capability is weaker than large-scale models. In this paper, based on the lightweight MobilenetV2, we propose a Progressive Multi-Stage Interactive training method with a Recursive Mosaic Generator (RMG-PMSI). First, we propose a Recursive Mosaic Generator (RMG) that generates images with different granularities in different phases. Then, the features of different stages pass through a Multi-Stage Interaction (MSI) module, which strengthens and complements the corresponding features of different stages. Finally, using the progressive training (P), the features extracted by the model in different stages can be fully utilized and fused with each other. Experiments on three prestigious fine-grained benchmarks show that RMG-PMSI can significantly improve the performance with good robustness and transferability.
翻訳日:2021-12-09 21:03:32 公開日:2021-12-08
# (参考訳) 安全のためのリプレイ [全文訳有]

Replay For Safety ( http://arxiv.org/abs/2112.04229v1 )

ライセンス: CC BY 4.0
Liran Szlak, Ohad Shamir(参考訳) Experience replay \citep{lin 1993reinforcement, mnih2015human} は、データの効率的な利用とRLアルゴリズムの性能向上を実現するために広く使われているテクニックである。 経験的なリプレイでは、過去の遷移はメモリバッファに格納され、学習中に再使用される。 リプレイバッファからのサンプリングスキームの様々な提案が過去の研究で提案され、最適ポリシーへの収束に最も寄与するこれらの経験を最適に選択しようとした。 ここでは,表形式でよく知られたq-learningアルゴリズムに着目し,収束を保証するリプレイサンプリングスキームの条件を示す。 コンバージェンスに十分な条件を設定した後、経験リプレイに若干異なる使用法を提案し、その結果のポリシーの性質を変更する手段として、バイアスのある方法で記憶を再生する。 経験リプレイを厳格に研究し,その結果のポリシーの特性を制御・修正するためのツールとした。 特に,適切なバイアスサンプリング方式を用いることで,emph{safe} ポリシーを実現できることを示す。 経験リプレイをバイアス機構として使用することで、結果のポリシーを望ましい方法で制御できるのは、多くのアプリケーションにとって有望な可能性を持つアイデアであると考えています。

Experience replay \citep{lin1993reinforcement , mnih2015human} is a widely used technique to achieve efficient use of data and improved performance in RL algorithms. In experience replay, past transitions are stored in a memory buffer and re-used during learning. Various suggestions for sampling schemes from the replay buffer have been suggested in previous works, attempting to optimally choose those experiences which will most contribute to the convergence to an optimal policy. Here, we give some conditions on the replay sampling scheme that will ensure convergence, focusing on the well-known Q-learning algorithm in the tabular setting. After establishing sufficient conditions for convergence, we turn to suggest a slightly different usage for experience replay - replaying memories in a biased manner as a means to change the properties of the resulting policy. We initiate a rigorous study of experience replay as a tool to control and modify the properties of the resulting policy. In particular, we show that using an appropriate biased sampling scheme can allow us to achieve a \emph{safe} policy. We believe that using experience replay as a biasing mechanism that allows controlling the resulting policy in desirable ways is an idea with promising potential for many applications.
翻訳日:2021-12-09 20:49:48 公開日:2021-12-08
# (参考訳) 攻撃パターンと弱点の意味モデルに基づく脅威モデリングの自動化に向けて [全文訳有]

Towards automation of threat modeling based on a semantic model of attack patterns and weaknesses ( http://arxiv.org/abs/2112.04231v1 )

ライセンス: CC BY 4.0
Andrei Brazhuk(参考訳) これはatt&ck, capec, cwe, cve security enumerationsを統合した形式的知識ベース(モデル)の構築と使用の課題を考察するものだ。 提案されたモデルは、攻撃手法、攻撃パターン、弱点、脆弱性の関係を学習し、脅威モデリングのために、特に様々な脅威ランドスケープを構築するために使用できる。 このモデルは、OWLおよびRDFフォーマットで自由に利用可能なデータセットを備えたオントロジーとして作成される。 ontologiesは、セキュリティ列挙を統合するための構造的およびグラフベースのアプローチの代替手段である。 本研究では、知識ベースとオントロジー駆動の脅威モデリングフレームワークに基づいて、ATT&CKのデータコンポーネントを用いた脅威モデリングのアプローチを検討する。 また、いくつかの評価、脅威モデリングのオントロジ的アプローチの活用、それに直面する課題についても検討する。

This works considers challenges of building and usage a formal knowledge base (model), which unites the ATT&CK, CAPEC, CWE, CVE security enumerations. The proposed model can be used to learn relations between attack techniques, attack pattern, weaknesses, and vulnerabilities in order to build various threat landscapes, in particular, for threat modeling. The model is created as an ontology with freely available datasets in the OWL and RDF formats. The use of ontologies is an alternative of structural and graph based approaches to integrate the security enumerations. In this work we consider an approach of threat modeling with the data components of ATT&CK based on the knowledge base and an ontology driven threat modeling framework. Also, some evaluations are made, how it can be possible to use the ontological approach of threat modeling and which challenges this can be faced.
翻訳日:2021-12-09 20:03:30 公開日:2021-12-08
# (参考訳) 深層強化学習の支払い詐欺への応用 [全文訳有]

Application of Deep Reinforcement Learning to Payment Fraud ( http://arxiv.org/abs/2112.04236v1 )

ライセンス: CC BY-SA 4.0
Siddharth Vimal, Kanishka Kayathwal, Hardik Wadhwa, Gaurav Dhama(参考訳) 今日消費者が利用できるさまざまなデジタル決済オプションは、過去10年間、電子商取引の鍵を握ってきた。 残念ながら、サイバー犯罪者や詐欺師は、ますます高度な詐欺攻撃を展開することによって、これらのシステムの脆弱性を常に探している。 典型的な不正検出システムは、詐欺リコール率の最大化に重点を置く標準的な教師付き学習手法を採用している。 しかし、そのような定式化は最適でない解につながると論じている。 これらの不正モデルの設計要件は、高いレベルのデータの不均衡に堅牢であり、不正パターンの変化に対応し、収益を最大化するために不正率と減少率のバランスを保ち、通常取引と不正実現の間に大きな遅延があるため、非同期フィードバックに適応することが必要である。 そこで本研究では,報酬関数の形でモデル内に有効性を最大化することにより,不正検出を逐次決定問題として定式化する。 歴史的減少率と不正率は、取引を承認または拒否する二元的行動空間を持つシステムの状態を定義する。 本研究は主にユーティリティの最大化に焦点をあて、この目的のために様々な報酬関数を探索する。 提案する強化学習システムの性能は, ディープqラーニングを用いた2つの不正データセットに対して評価され, 異なる分類器と比較された。 私たちは今後の仕事の残りの問題に対処することを目指している。

The large variety of digital payment choices available to consumers today has been a key driver of e-commerce transactions in the past decade. Unfortunately, this has also given rise to cybercriminals and fraudsters who are constantly looking for vulnerabilities in these systems by deploying increasingly sophisticated fraud attacks. A typical fraud detection system employs standard supervised learning methods where the focus is on maximizing the fraud recall rate. However, we argue that such a formulation can lead to sub-optimal solutions. The design requirements for these fraud models requires that they are robust to the high-class imbalance in the data, adaptive to changes in fraud patterns, maintain a balance between the fraud rate and the decline rate to maximize revenue, and be amenable to asynchronous feedback since usually there is a significant lag between the transaction and the fraud realization. To achieve this, we formulate fraud detection as a sequential decision-making problem by including the utility maximization within the model in the form of the reward function. The historical decline rate and fraud rate define the state of the system with a binary action space composed of approving or declining the transaction. In this study, we primarily focus on utility maximization and explore different reward functions to this end. The performance of the proposed Reinforcement Learning system has been evaluated for two publicly available fraud datasets using Deep Q-learning and compared with different classifiers. We aim to address the rest of the issues in future work.
翻訳日:2021-12-09 19:51:08 公開日:2021-12-08
# (参考訳) 多時代歴史的空中画像の特徴マッチング

Feature matching for multi-epoch historical aerial images ( http://arxiv.org/abs/2112.04255v1 )

ライセンス: CC BY 4.0
Lulin Zhang, Ewelina Rupnik, Marc Pierrot-Deseilligny(参考訳) 歴史的画像は高空間分解能と立体視的取得によって特徴付けられ、3Dランドカバー情報を復元するための貴重な資源を提供する。 進化する景観下での十分な特徴対応を見つけることが困難であるため、自己校正によるダイアクロニックな歴史的画像の正確な地理参照はボトルネックとなっている。 本研究では,異なる時刻(すなわち時代間)に撮影された歴史的画像の特徴対応を補助的データなしで検出するための完全自動手法を提案する。 同じエポック内(すなわち、エポック内)で計算された相対配向に基づいて、DSM(Digital Surface Model)を取得し、それらを粗と精度のマッチングに組み込む。 本手法は,(1)方向とDSM(すなわち3次元ヘルマート変換)を大まかに共登録するために適合するエポック間DSMと,(2)元のRGB画像を用いたエポック間特徴マッチングとからなる。 後者の生来の曖昧さは、共登録データを用いて検索空間を狭くすることで軽減される。 本研究では,地震による地盤変位を定量化し,ddo(dsmの相違),地盤チェックポイント,および(3)地盤変位の定量化により,画像の向きを洗練し,その結果を定量的に評価した。 本手法は,(1)ダイアクロニックな歴史的画像を自動的にジオリファレンスし,(2)不測のカメラパラメータによって引き起こされる系統的誤りを効果的に軽減し,(3)劇的なシーン変化にロバストであることを示す。 本手法は最先端技術と比較し,画像測位精度を2。 提案手法は,オープンソースのフォトグラムソフトウェアであるmicmacで実装されている。

Historical imagery is characterized by high spatial resolution and stereo-scopic acquisitions, providing a valuable resource for recovering 3D land-cover information. Accurate geo-referencing of diachronic historical images by means of self-calibration remains a bottleneck because of the difficulty to find sufficient amount of feature correspondences under evolving landscapes. In this research, we present a fully automatic approach to detecting feature correspondences between historical images taken at different times (i.e., inter-epoch), without auxiliary data required. Based on relative orientations computed within the same epoch (i.e., intra-epoch), we obtain DSMs (Digital Surface Model) and incorporate them in a rough-to-precise matching. The method consists of: (1) an inter-epoch DSMs matching to roughly co-register the orientations and DSMs (i.e, the 3D Helmert transformation), followed by (2) a precise inter-epoch feature matching using the original RGB images. The innate ambiguity of the latter is largely alleviated by narrowing down the search space using the co-registered data. With the inter-epoch features, we refine the image orientations and quantitatively evaluate the results (1) with DoD (Difference of DSMs), (2) with ground check points, and (3) by quantifying ground displacement due to an earthquake. We demonstrate that our method: (1) can automatically georeference diachronic historical images; (2) can effectively mitigate systematic errors induced by poorly estimated camera parameters; (3) is robust to drastic scene changes. Compared to the state-of-the-art, our method improves the image georeferencing accuracy by a factor of 2. The proposed methods are implemented in MicMac, a free, open-source photogrammetric software.
翻訳日:2021-12-09 19:38:37 公開日:2021-12-08
# (参考訳) 脳ネットワークにおける時空間ダイナミクスのモデル化 : グラフニューラルネットワークアーキテクチャの比較

Modeling Spatio-Temporal Dynamics in Brain Networks: A Comparison of Graph Neural Network Architectures ( http://arxiv.org/abs/2112.04266v1 )

ライセンス: CC BY 4.0
Simon Wein, Alina Sch\"uller, Ana Maria Tom\'e, Wilhelm M. Malloni, Mark W. Greenlee, Elmar W. Lang(参考訳) 神経力学の空間的特徴と時間的特性の相互作用を補完することは、人間の脳における情報処理の理解に寄与する。 グラフニューラルネットワーク(GNN)は、複雑な脳ネットワークで見られるようなグラフ構造化信号を解釈する新たな可能性を提供する。 本研究では、異なる時空間GNNアーキテクチャを比較し、機能的MRI(fMRI)研究で得られた神経活動分布を再現する能力について検討した。 我々はMRI研究における様々なシナリオにおけるGNNモデルの性能を評価し、現在主に機能接続解析に使われているVARモデルと比較した。 解剖学的基盤上での局所的な機能的相互作用を学習することにより、GNNベースのアプローチは、利用可能なデータが不足している場合でも、大規模ネットワーク研究に堅牢にスケール可能であることを示す。 情報伝達の物理基盤として解剖学的接続を含めることで、gnnは有向接続解析のマルチモーダルな視点を提供し、脳ネットワークにおける時空間ダイナミクスを調べる新しい可能性を提供する。

Comprehending the interplay between spatial and temporal characteristics of neural dynamics can contribute to our understanding of information processing in the human brain. Graph neural networks (GNNs) provide a new possibility to interpret graph structured signals like those observed in complex brain networks. In our study we compare different spatio-temporal GNN architectures and study their ability to replicate neural activity distributions obtained in functional MRI (fMRI) studies. We evaluate the performance of the GNN models on a variety of scenarios in MRI studies and also compare it to a VAR model, which is currently predominantly used for directed functional connectivity analysis. We show that by learning localized functional interactions on the anatomical substrate, GNN based approaches are able to robustly scale to large network studies, even when available data are scarce. By including anatomical connectivity as the physical substrate for information propagation, such GNNs also provide a multimodal perspective on directed connectivity analysis, offering a novel possibility to investigate the spatio-temporal dynamics in brain networks.
翻訳日:2021-12-09 19:37:14 公開日:2021-12-08
# (参考訳) グラフ表現を評価する何百もの論文における非現実的予測の利用について [全文訳有]

On the Use of Unrealistic Predictions in Hundreds of Papers Evaluating Graph Representations ( http://arxiv.org/abs/2112.04274v1 )

ライセンス: CC BY 4.0
Li-Chung Lin, Cheng-Hung Liu, Chih-Ming Chen, Kai-Chin Hsu, I-Feng Wu, Ming-Feng Tsai and Chih-Jen Lin(参考訳) 基底的真理を用いた予測は、機械学習のオキシモロンのように聞こえる。 しかし、そのような非現実的な設定は、グラフ表現を見つける領域において、何千もの論文が使われた。 得られた表現を用いてノード分類のマルチラベル問題を評価するため、各テストインスタンスのラベル数が分かっているという予測段階で多くの作品が想定される。 実際には、そのような真理情報はほとんど得られないが、このような不適切な設定は、現在この研究領域で広く使われていることを指摘する。 我々はその事情を詳しく調査する。 分析の結果,非現実的な情報では性能が過大評価される可能性が示唆された。 適切な予測が使われていない理由を確かめるため,複数ラベル技術の適用の難しさを明らかにする。 今後の研究において,実際に未知の情報を用いることなく,シンプルで効果的な設定を提案する。 最後に,マルチラベルノード分類における主要なグラフ表現学習手法を公平かつ真剣に比較する機会を得た。

Prediction using the ground truth sounds like an oxymoron in machine learning. However, such an unrealistic setting was used in hundreds, if not thousands of papers in the area of finding graph representations. To evaluate the multi-label problem of node classification by using the obtained representations, many works assume in the prediction stage that the number of labels of each test instance is known. In practice such ground truth information is rarely available, but we point out that such an inappropriate setting is now ubiquitous in this research area. We detailedly investigate why the situation occurs. Our analysis indicates that with unrealistic information, the performance is likely over-estimated. To see why suitable predictions were not used, we identify difficulties in applying some multi-label techniques. For the use in future studies, we propose simple and effective settings without using practically unknown information. Finally, we take this chance to conduct a fair and serious comparison of major graph-representation learning methods on multi-label node classification.
翻訳日:2021-12-09 19:36:00 公開日:2021-12-08
# (参考訳) DMRVisNet:フォッギー気象下での画素ワイズ可視性推定のための深層多頭部回帰ネットワーク [全文訳有]

DMRVisNet: Deep Multi-head Regression Network for Pixel-wise Visibility Estimation Under Foggy Weather ( http://arxiv.org/abs/2112.04278v1 )

ライセンス: CC BY 4.0
Jing You, Shaocheng Jia, Xin Pei, and Danya Yao(参考訳) シーン認識は意思決定と交通安全の推進に不可欠である。 しかし、霧は一般的な気象の一種として、特に山岳地帯の現実世界に頻繁に現れるため、周囲の環境を正確に観察することは困難である。 したがって、霧の天候下での視界を正確に推定することは、交通管理と安全に大きな利益をもたらす。 これを解決するため、現在のほとんどの方法は道路上の固定位置に配置されたプロの楽器を使用して可視性の測定を行う。 本稿では,画像データのみを用いたKoschmieder法則の可視性を推定する,革新的なエンドツーエンド畳み込みニューラルネットワークフレームワークを提案する。 提案手法は,畳み込みニューラルワークによる可視性を直接予測する代わりに,物理モデルとフレームワークの統合により可視性を推定する。 さらに,画像全体に対する単一の値のみを予測した従来の可視性測定手法に対して,画素単位の可視性マップとして可視性を推定する。 したがって, この手法の予測結果は, 特に霧のシナリオにおいて, より正確な早期警報システムの開発に有効であり, これにより, インテリジェントな交通インフラの保護と開発の促進に寄与すると考えられる。 このフレームワークを検証するために、異なる濃度で3000のフォギーイメージを含む仮想データセットfaciをairsimプラットフォームを使用して収集する。 詳細な実験により,提案手法は最先端手法と競合する性能を示す。

Scene perception is essential for driving decision-making and traffic safety. However, fog, as a kind of common weather, frequently appears in the real world, especially in the mountain areas, making it difficult to accurately observe the surrounding environments. Therefore, precisely estimating the visibility under foggy weather can significantly benefit traffic management and safety. To address this, most current methods use professional instruments outfitted at fixed locations on the roads to perform the visibility measurement; these methods are expensive and less flexible. In this paper, we propose an innovative end-to-end convolutional neural network framework to estimate the visibility leveraging Koschmieder's law exclusively using the image data. The proposed method estimates the visibility by integrating the physical model into the proposed framework, instead of directly predicting the visibility value via the convolutional neural work. Moreover, we estimate the visibility as a pixel-wise visibility map against those of previous visibility measurement methods which solely predict a single value for an entire image. Thus, the estimated result of our method is more informative, particularly in uneven fog scenarios, which can benefit to developing a more precise early warning system for foggy weather, thereby better protecting the intelligent transportation infrastructure systems and promoting its development. To validate the proposed framework, a virtual dataset, FACI, containing 3,000 foggy images in different concentrations, is collected using the AirSim platform. Detailed experiments show that the proposed method achieves performance competitive to those of state-of-the-art methods.
翻訳日:2021-12-09 19:24:05 公開日:2021-12-08
# (参考訳) 非対称・不確実性GANを用いた逆気象画像変換 [全文訳有]

Adverse Weather Image Translation with Asymmetric and Uncertainty-aware GAN ( http://arxiv.org/abs/2112.04283v1 )

ライセンス: CC BY 4.0
Jeong-gi Kwak, Youngsaeng Jin, Yuanming Li, Dongsik Yoon, Donghyeon Kim, Hanseok Ko(参考訳) 逆気象画像変換は、悪条件領域(例:雨の夜)を標準領域(例:日)に転送することを目的とした教師なしイメージ・ツー・イメージ(I2I)翻訳タスクに属する。 有害ドメインの画像にはいくつかのアーティファクトと不十分な情報があるため、これは難しい課題である。 近年, I2I翻訳においてGAN(Generative Adversarial Networks)を用いた研究が目覚ましい成功を収めているが, 悪天候改善には依然として限界がある。 非教師なしドメイン転送手法の標準フレームワークとして、双方向サイクル一貫性損失に基づく対称性アーキテクチャを採用する。 しかし、2つのドメインが不均衡な情報を持っている場合、翻訳結果が劣る可能性がある。 この問題に対処するために,非対称なドメイン翻訳アーキテクチャを持つ新しいGANモデル,すなわちAU-GANを提案する。 提案する機能転送ネットワーク({t}$-net)を通常のドメインジェネレータ(すなわち雨の夜->の日)のみに挿入し、悪質なドメインイメージのエンコードされた機能を強化する。 さらに、符号化された特徴の非対称な特徴マッチングを導入する。 最後に,循環再構成画像の局所的不確実性に対処するために,不確実性を認識するサイクルコンシスタンス損失を提案する。 本手法の有効性を,最先端モデルと定性的,定量的に比較した。 コードはhttps://github.com/j gkwak95/au-ganで入手できる。

Adverse weather image translation belongs to the unsupervised image-to-image (I2I) translation task which aims to transfer adverse condition domain (eg, rainy night) to standard domain (eg, day). It is a challenging task because images from adverse domains have some artifacts and insufficient information. Recently, many studies employing Generative Adversarial Networks (GANs) have achieved notable success in I2I translation but there are still limitations in applying them to adverse weather enhancement. Symmetric architecture based on bidirectional cycle-consistency loss is adopted as a standard framework for unsupervised domain transfer methods. However, it can lead to inferior translation result if the two domains have imbalanced information. To address this issue, we propose a novel GAN model, i.e., AU-GAN, which has an asymmetric architecture for adverse domain translation. We insert a proposed feature transfer network (${T}$-net) in only a normal domain generator (i.e., rainy night-> day) to enhance encoded features of the adverse domain image. In addition, we introduce asymmetric feature matching for disentanglement of encoded features. Finally, we propose uncertainty-aware cycle-consistency loss to address the regional uncertainty of a cyclic reconstructed image. We demonstrate the effectiveness of our method by qualitative and quantitative comparisons with state-of-the-art models. Codes are available at https://github.com/j gkwak95/AU-GAN.
翻訳日:2021-12-09 19:03:36 公開日:2021-12-08
# (参考訳) ビデオにおける異常検出のための階層型時空間グラフ畳み込みニューラルネットワーク [全文訳有]

A Hierarchical Spatio-Temporal Graph Convolutional Neural Network for Anomaly Detection in Videos ( http://arxiv.org/abs/2112.04294v1 )

ライセンス: CC BY 4.0
Xianlin Zeng, Yalong Jiang, Wenrui Ding, Hongguang Li, Yafeng Hao, Zifeng Qiu(参考訳) ディープラーニングモデルは監視ビデオの異常検出に広く利用されている。 典型的なモデルは、正常なビデオの再構成機能を備え、異常の程度を示すために異常なビデオの再構成エラーを評価する。 しかし、既存のアプローチには2つの欠点がある。 第一に、個々のアイデンティティの動きを、異常を示す可能性のあるアイデンティティ間の相互作用を考慮せずに、独立に符号化できる。 第2に、異なるシーンで固定された構造を持つ非フレキシブルモデルを活用し、この構成はシーンの理解を無効にする。 本稿では,これらの問題に対処する階層型時空間グラフ畳み込みニューラルネットワーク(HSTGCNN)を提案する。 高レベルグラフ表現は人の軌跡と複数のアイデンティティ間の相互作用をエンコードし、低レベルグラフ表現は各人の身体姿勢をエンコードする。 さらに,異なる場面でより優れた複数の枝を重み付けする手法を提案する。 このように、シングルレベルグラフ表現の改善が達成される。 シーンの理解が達成され、異常検出に役立つ。 ハイレベルグラフ表現は低解像度ビデオで人の移動速度と方向をエンコードするために高重みが割り当てられ、低レベルグラフ表現は高解像度ビデオで人間の骨格をエンコードするために高重みが割り当てられる。 実験結果から,提案したHSTGCNNは,学習可能なパラメータをはるかに少なくすることで,4つのベンチマークデータセット(UCSD Pedestrian, ShanghaiTech, CUHK Avenue, IITB-Corridor)の最先端モデルを著しく上回ることがわかった。

Deep learning models have been widely used for anomaly detection in surveillance videos. Typical models are equipped with the capability to reconstruct normal videos and evaluate the reconstruction errors on anomalous videos to indicate the extent of abnormalities. However, existing approaches suffer from two disadvantages. Firstly, they can only encode the movements of each identity independently, without considering the interactions among identities which may also indicate anomalies. Secondly, they leverage inflexible models whose structures are fixed under different scenes, this configuration disables the understanding of scenes. In this paper, we propose a Hierarchical Spatio-Temporal Graph Convolutional Neural Network (HSTGCNN) to address these problems, the HSTGCNN is composed of multiple branches that correspond to different levels of graph representations. High-level graph representations encode the trajectories of people and the interactions among multiple identities while low-level graph representations encode the local body postures of each person. Furthermore, we propose to weightedly combine multiple branches that are better at different scenes. An improvement over single-level graph representations is achieved in this way. An understanding of scenes is achieved and serves anomaly detection. High-level graph representations are assigned higher weights to encode moving speed and directions of people in low-resolution videos while low-level graph representations are assigned higher weights to encode human skeletons in high-resolution videos. Experimental results show that the proposed HSTGCNN significantly outperforms current state-of-the-art models on four benchmark datasets (UCSD Pedestrian, ShanghaiTech, CUHK Avenue and IITB-Corridor) by using much less learnable parameters.
翻訳日:2021-12-09 18:54:10 公開日:2021-12-08
# (参考訳) マルチウェイアンサンブルカルマンフィルタ [全文訳有]

Multiway Ensemble Kalman Filter ( http://arxiv.org/abs/2112.04322v1 )

ライセンス: CC BY 4.0
Yu Wang and Alfred Hero(参考訳) 本研究では, 偏微分方程式 (PDE) によって支配される動的過程の2次統計解析において, スパーシリティとマルチウェイ構造の出現について検討する。 アンサンブルカルマンフィルタ(EnKF)に組み込むと、物理駆動予測の文脈における精度と解釈可能性の観点から、いくつかの最先端のマルチウェイ共分散および逆共分散(精度)行列推定器について検討する。 特に,ポアソンおよび対流拡散型PDEから生成されたマルチウェイデータを,適切な共分散および精度行列推定器と統合した場合に,EnKFを介して正確に追跡可能であることを示す。

In this work, we study the emergence of sparsity and multiway structures in second-order statistical characterizations of dynamical processes governed by partial differential equations (PDEs). We consider several state-of-the-art multiway covariance and inverse covariance (precision) matrix estimators and examine their pros and cons in terms of accuracy and interpretability in the context of physics-driven forecasting when incorporated into the ensemble Kalman filter (EnKF). In particular, we show that multiway data generated from the Poisson and the convection-diffusion types of PDEs can be accurately tracked via EnKF when integrated with appropriate covariance and precision matrix estimators.
翻訳日:2021-12-09 18:27:39 公開日:2021-12-08
# (参考訳) 高精度コピー検出のための大きなメモリバンクと負埋め込み減算を用いたコントラスト学習 [全文訳有]

Contrastive Learning with Large Memory Bank and Negative Embedding Subtraction for Accurate Copy Detection ( http://arxiv.org/abs/2112.04323v1 )

ライセンス: CC BY 4.0
Shuhei Yokoo(参考訳) コピー検出は、画像がデータベース内の任意の画像の修正コピーであるかどうかを決定するタスクであり、未解決の問題である。 そこで我々は,コンボリューションニューラルネットワーク(CNN)の学習を対照的に行うことで,コピー検出に対処した。 大きなメモリバンクとハードデータ拡張によるトレーニングにより、cnnはより識別的な表現を得ることができる。 提案する負埋め込み減算はコピー検出精度をさらに向上させる。 私たちの方法では、Facebook AI Image similarity Challenge: Descriptor Trackで1位を獲得しました。 我々のコードはここで公開されている。 \url{https://github.com/l yakaap/ISC21-Descrip tor-Track-1st}

Copy detection, which is a task to determine whether an image is a modified copy of any image in a database, is an unsolved problem. Thus, we addressed copy detection by training convolutional neural networks (CNNs) with contrastive learning. Training with a large memory-bank and hard data augmentation enables the CNNs to obtain more discriminative representation. Our proposed negative embedding subtraction further boosts the copy detection accuracy. Using our methods, we achieved 1st place in the Facebook AI Image Similarity Challenge: Descriptor Track. Our code is publicly available here: \url{https://github.com/l yakaap/ISC21-Descrip tor-Track-1st}
翻訳日:2021-12-09 18:17:29 公開日:2021-12-08
# (参考訳) 深層学習と数学的直観: (Davies et al. 2021) [全文訳有]

Deep Learning and Mathematical Intuition: A Review of (Davies et al. 2021) ( http://arxiv.org/abs/2112.04324v1 )

ライセンス: CC BY 4.0
Ernest Davis(参考訳) Davies et al (2021) による最近の論文では、深層学習(DL)技術が2つの元の数学的結果(結び目理論では1つ、表現理論では1つ)を導いた可算仮説の発見にどのように使われたかが述べられている。 ここでは、このDL技術の数学への応用の重要性と新規性は、レビュー中の論文では著しく過大評価されており、ポピュラーな科学雑誌のいくつかの説明では、非常に過大評価されていると論じます。 結び目理論の結果,DLの役割は小さく,従来の統計分析では十分であったと考えられる。 表現論の結果では、dlの役割ははるかに大きいが、実験数学において何十年にもわたって行われたものとは大きく異なるものではない。 また,本論文で有用であるDLの特徴が,幅広い数学的問題に適用されるかどうかも明らかになっていない。 最後に、ここでのDLは「人間の直観を導く」ことであり、誤解を招くものであると私は論じます。 表現論の結果は、DLの数学的研究へのオリジナルで興味深い応用を表しているが、その大きな意義ははっきりしない。

A recent paper by Davies et al (2021) describes how deep learning (DL) technology was used to find plausible hypotheses that have led to two original mathematical results: one in knot theory, one in representation theory. I argue here that the significance and novelty of this application of DL technology to mathematics is significantly overstated in the paper under review and has been wildly overstated in some of the accounts in the popular science press. In the knot theory result, the role of DL was small, and a conventional statistical analysis would probably have sufficed. In the representation theory result, the role of DL is much larger; however, it is not very different in kind from what has been done in experimental mathematics for decades. Moreover, it is not clear whether the distinctive features of DL that make it useful here will apply across a wide range of mathematical problems. Finally, I argue that the DL here "guides human intuition" is unhelpful and misleading; what the DL does primarily does is to mark many possible conjectures as false and a few others as possibly worthy of study. Certainly the representation theory result represents an original and interesting application of DL to mathematical research, but its larger significance is uncertain.
翻訳日:2021-12-09 18:12:39 公開日:2021-12-08
# (参考訳) JABER: ジュニアアラビア・ベルト [全文訳有]

JABER: Junior Arabic BERt ( http://arxiv.org/abs/2112.04329v1 )

ライセンス: CC BY 4.0
Abbas Ghaddar, Yimeng Wu, Ahmad Rashid, Khalil Bibi, Mehdi Rezagholizadeh, Chao Xing, Yasheng Wang, Duan Xinyu, Zhefeng Wang, Baoxing Huai, Xin Jiang, Qun Liu and Philippe Langlais(参考訳) 言語固有の事前訓練されたモデルは、単言語評価設定において多言語モデルよりも正確であることが証明されており、アラビア語は例外ではない。 しかし、以前リリースされたアラビアBERTモデルは、かなり訓練を受けていないことがわかった。 本報告では,我々のアラビア語専用言語モデルのプロトタイプであるjaber, junior arabic bertについて述べる。 我々は,既存のアラビア語NLUタスクの多様なセットにおいて,モデルの性能を体系的に評価するための実証的研究を行った。 アラビア語理解評価のための新しいベンチマークであるALUEと、確立されたNERベンチマークにおいて、JABERが最先端のパフォーマンスを達成することを示す実験結果が得られた。

Language-specific pre-trained models have proven to be more accurate than multilingual ones in a monolingual evaluation setting, Arabic is no exception. However, we found that previously released Arabic BERT models were significantly under-trained. In this technical report, we present JABER, Junior Arabic BERt, our pretrained language model prototype dedicated for Arabic. We conduct an empirical study to systematically evaluate the performance of models across a diverse set of existing Arabic NLU tasks. Experimental results show that JABER achieves the state-of-the-art performances on ALUE, a new benchmark for Arabic Language Understanding Evaluation, as well as on a well-established NER benchmark
翻訳日:2021-12-09 18:05:02 公開日:2021-12-08
# (参考訳) 近似メッセージパッシングによる回転不変一般化線形モデルの推定

Estimation in Rotationally Invariant Generalized Linear Models via Approximate Message Passing ( http://arxiv.org/abs/2112.04330v1 )

ライセンス: CC BY 4.0
Ramji Venkataramanan, Kevin K\"ogler, and Marco Mondelli(参考訳) 回転不変設計行列によって定義される一般化線形モデルにおける信号推定の問題を考える。 これらの行列は任意のスペクトル分布を持つことができるため、このモデルはアプリケーションでしばしば発生する複雑な相関構造を捉えるのに適している。 本稿では,信号推定のための近似メッセージパッシング(amp)アルゴリズムの新たなファミリーを提案し,その性能を状態進化再帰による高次元限界で厳格に特徴付ける。 設計行列スペクトルの知識を仮定すると、我々の回転不変AMPはガウス行列の既存のAMPと同じ順序の複雑さを持つ。 数値計算の結果、ベクトルampに近い性能(いくつかの設定ではベイズ最適と推定される)を示すが、提案アルゴリズムは計算コストの高い特異値分解を必要としないため、より少ない複雑さで得られる。

We consider the problem of signal estimation in generalized linear models defined via rotationally invariant design matrices. Since these matrices can have an arbitrary spectral distribution, this model is well suited to capture complex correlation structures which often arise in applications. We propose a novel family of approximate message passing (AMP) algorithms for signal estimation, and rigorously characterize their performance in the high-dimensional limit via a state evolution recursion. Assuming knowledge of the design matrix spectrum, our rotationally invariant AMP has complexity of the same order as the existing AMP for Gaussian matrices; it also recovers the existing AMP as a special case. Numerical results showcase a performance close to Vector AMP (which is conjectured to be Bayes-optimal in some settings), but obtained with a much lower complexity, as the proposed algorithm does not require a computationally expensive singular value decomposition.
翻訳日:2021-12-09 17:50:50 公開日:2021-12-08
# (参考訳) 構造は重要か? 複雑な情報ニーズに対するデータ・テキスト生成の活用 [全文訳有]

Does Structure Matter? Leveraging Data-to-Text Generation for Answering Complex Information Needs ( http://arxiv.org/abs/2112.04344v1 )

ライセンス: CC BY 4.0
Hanane Djeddal, Thomas Gerald, Laure Soulier, Karen Pinel-Sauvagnat, Lynda Tamine(参考訳) 本研究の目的は,自然言語による複雑な情報要求に対する構造化された回答を提供することである。 特に,データからテキストへの生成の観点から,生成モデルの利用を想定する。 中間計画を生成することで回答を構造化することを目的とした,コンテンツ選択計画パイプラインの利用を提案する。 TREC Complex Answer Retrieval (CAR) データセットを用いて実験評価を行った。 生成した回答とその対応構造を評価し,テキスト・テキスト・モデルと比較し,計画ベースモデルの有効性を示す。

In this work, our aim is to provide a structured answer in natural language to a complex information need. Particularly, we envision using generative models from the perspective of data-to-text generation. We propose the use of a content selection and planning pipeline which aims at structuring the answer by generating intermediate plans. The experimental evaluation is performed using the TREC Complex Answer Retrieval (CAR) dataset. We evaluate both the generated answer and its corresponding structure and show the effectiveness of planning-based models in comparison to a text-to-text model.
翻訳日:2021-12-09 17:49:48 公開日:2021-12-08
# (参考訳) COSMIC:LTV用大規模データからの高速閉形式識別 [全文訳有]

COSMIC: fast closed-form identification from large-scale data for LTV systems ( http://arxiv.org/abs/2112.04355v1 )

ライセンス: CC BY 4.0
Maria Carvalho and Claudia Soares and Pedro Louren\c{c}o and Rodrigo Ventura(参考訳) 本稿では,データから離散時間線形時変系を同定するための閉形式法を提案し,学習問題を軌道内の滑らかな解を好む正規化最小二乗問題として定式化する。 最適性の保証と、軌道毎のインスタント数で線形に増加する複雑さを備えたクローズドフォームアルゴリズムを開発した。 COSMICアルゴリズムは大量のデータが存在する場合でも望ましい結果が得られる。 本手法は汎用凸解法よりも2桁少ない計算能力で解くことができ,特に確率ブロック座標降下法よりも約3倍高速であった。 一般目的解法がクラッシュした10k時間と100k時間であっても,本手法の計算時間は2分の1に留まった。 実世界のシステムへの適用性を証明するため,バネ質量減衰システムを用いて実験を行い,推定モデルを用いて最適制御経路を求める。 提案アルゴリズムは, 高速動環境下での搭載カメラの正確なポインティングを必要とする彗星インターセプターミッション用の低忠実度・機能工学シミュレーションの両方に適用した。 そこで本論文は, 線形時間変動システムに対する古典的システム識別手法の高速な代替手段を提供するとともに, 宇宙産業における応用の基盤となること, そして, このような安全クリティカルな環境におけるデータを活用するアルゴリズムの確立に向けての一歩を踏み出した。

We introduce a closed-form method for identification of discrete-time linear time-variant systems from data, formulating the learning problem as a regularized least squares problem where the regularizer favors smooth solutions within a trajectory. We develop a closed-form algorithm with guarantees of optimality and with a complexity that increases linearly with the number of instants considered per trajectory. The COSMIC algorithm achieves the desired result even in the presence of large volumes of data. Our method solved the problem using two orders of magnitude less computational power than a general purpose convex solver and was about 3 times faster than a Stochastic Block Coordinate Descent especially designed method. Computational times of our method remained in the order of magnitude of the second even for 10k and 100k time instants, where the general purpose solver crashed. To prove its applicability to real world systems, we test with spring-mass-damper system and use the estimated model to find the optimal control path. Our algorithm was applied to both a Low Fidelity and Functional Engineering Simulators for the Comet Interceptor mission, that requires precise pointing of the on-board cameras in a fast dynamics environment. Thus, this paper provides a fast alternative to classical system identification techniques for linear time-variant systems, while proving to be a solid base for applications in the Space industry and a step forward to the incorporation of algorithms that leverage data in such a safety-critical environment.
翻訳日:2021-12-09 17:41:14 公開日:2021-12-08
# (参考訳) 言語モデルによる危害の倫理的・社会的リスク

Ethical and social risks of harm from Language Models ( http://arxiv.org/abs/2112.04359v1 )

ライセンス: CC BY 4.0
Laura Weidinger, John Mellor, Maribeth Rauh, Conor Griffin, Jonathan Uesato, Po-Sen Huang, Myra Cheng, Mia Glaese, Borja Balle, Atoosa Kasirzadeh, Zac Kenton, Sasha Brown, Will Hawkins, Tom Stepleton, Courtney Biles, Abeba Birhane, Julia Haas, Laura Rimell, Lisa Anne Hendricks, William Isaac, Sean Legassick, Geoffrey Irving, Iason Gabriel(参考訳) 本稿では,大規模言語モデル(LM)に関連するリスクランドスケープの構築を支援することを目的とする。 責任あるイノベーションの進歩を促進するためには、これらのモデルによって生じる潜在的なリスクを深く理解する必要がある。 コンピュータ科学、言語学、社会科学から学際的な専門知識と文学を描き出し、さまざまな確立されたリスクと予測されるリスクを詳細に分析する。 I.識別,排他,毒性の6つの特定リスク領域について概説する。 情報ハザード、III。 Misinformation Harms, V. Malicious Uses, V. Human-Computer Interaction Harms, VI 自動化、アクセス、環境被害。 第1の領域は、ステレオタイプ、不公平な差別、排他的規範、有害言語、およびLMの社会的グループによる低いパフォーマンスに関するものである。 2つ目は、機密情報を正しく推測するプライベートデータリークやLMからのリスクに焦点を当てている。 第3の問題は、機密ドメインを含む貧弱、虚偽、誤解を招く情報や、共有情報への信頼の侵食などのノックオンリスクから生じるリスクに対処する。 第4部では、lmsを危険にさらそうとする俳優のリスクについて考察する。 第5章では、安全でない使用、操作、詐欺など、人間のユーザと対話する会話エージェントの基盤となるLLMに特有のリスクに焦点を当てている。 第6章では、異なる社会グループやコミュニティに異なる影響を与える可能性のある環境被害、仕事の自動化、その他の課題のリスクについて論じている。 総じて21のリスクを詳細に検討する。 異なるリスクの起点を議論し,潜在的な緩和アプローチを指摘する。 最後に、緩和の実施における組織的責任と、コラボレーションと参加の役割について論じる。 今後の研究の方向性,特にlmsの概要リスクの評価・評価のためのツールキットの拡大について紹介する。

This paper aims to help structure the risk landscape associated with large-scale Language Models (LMs). In order to foster advances in responsible innovation, an in-depth understanding of the potential risks posed by these models is needed. A wide range of established and anticipated risks are analysed in detail, drawing on multidisciplinary expertise and literature from computer science, linguistics, and social sciences. We outline six specific risk areas: I. Discrimination, Exclusion and Toxicity, II. Information Hazards, III. Misinformation Harms, V. Malicious Uses, V. Human-Computer Interaction Harms, VI. Automation, Access, and Environmental Harms. The first area concerns the perpetuation of stereotypes, unfair discrimination, exclusionary norms, toxic language, and lower performance by social group for LMs. The second focuses on risks from private data leaks or LMs correctly inferring sensitive information. The third addresses risks arising from poor, false or misleading information including in sensitive domains, and knock-on risks such as the erosion of trust in shared information. The fourth considers risks from actors who try to use LMs to cause harm. The fifth focuses on risks specific to LLMs used to underpin conversational agents that interact with human users, including unsafe use, manipulation or deception. The sixth discusses the risk of environmental harm, job automation, and other challenges that may have a disparate effect on different social groups or communities. In total, we review 21 risks in-depth. We discuss the points of origin of different risks and point to potential mitigation approaches. Lastly, we discuss organisational responsibilities in implementing mitigations, and the role of collaboration and participation. We highlight directions for further research, particularly on expanding the toolkit for assessing and evaluating the outlined risks in LMs.
翻訳日:2021-12-09 17:24:17 公開日:2021-12-08
# (参考訳) SoK:深部回転推定のための車両配向表現 [全文訳有]

SoK: Vehicle Orientation Representations for Deep Rotation Estimation ( http://arxiv.org/abs/2112.04421v1 )

ライセンス: CC BY 4.0
Huahong Tu, Siyuan Peng, Vladimir Leung, Richard Gao(参考訳) 近年、3d自動運転車の物体検出アルゴリズムが流入している。 しかし、方向予測にはほとんど注意が払わなかった。 既存の研究は様々な予測手法を提案したが、全体論的な決定的なレビューは行われていない。 実験により,KITTIの3Dオブジェクト検出データセットを用いて,既存の配向表現の精度を分類・実証的に比較し,新しい配向表現形式であるトリコシンを提案する。 これらのうち、2次元カルテシア表現(Single Bin)は、予測性能を向上しない追加のチャネル入力(位置エンコーディングと深度マップ)により、最も精度が高い。 私たちのコードはGithubで公開されています。

In recent years, an influx of 3D autonomous vehicle object detection algorithms. However, little attention was paid to orientation prediction. Existing research work proposed various prediction methods, but a holistic, conclusive review has not been conducted. Through our experiments, we categorize and empirically compare the accuracy performance of various existing orientation representations using the KITTI 3D object detection dataset, and propose a new form of orientation representation: Tricosine. Among these, the 2D Cartesian-based representation, or Single Bin, achieves the highest accuracy, with additional channeled inputs (positional encoding and depth map) not boosting prediction performance. Our code is published on Github: https://github.com/u md-fire-coml/KITTI-o rientation-learning
翻訳日:2021-12-09 17:23:03 公開日:2021-12-08
# (参考訳) 野生におけるオーディオ・ビジュアル同期 [全文訳有]

Audio-Visual Synchronisation in the wild ( http://arxiv.org/abs/2112.04432v1 )

ライセンス: CC BY 4.0
Honglie Chen, Weidi Xie, Triantafyllos Afouras, Arsha Nagrani, Andrea Vedaldi, Andrew Zisserman(参考訳) 本稿では,「音声以外の一般クラスのie」に適用される映像の視聴覚同期の問題点について考察する。 新しいタスクとして,vgg-sound syncという,高い視聴覚相関を持つテストセットを識別し,キュレーションする。 我々は,任意の長さの音響信号と視覚信号のモデル化を目的とし,トレーニング時のメモリ要求を大幅に削減しながら,トランスフォーマティブベースアーキテクチャのバリエーションをいくつか比較した。 さらに,キュレーションデータセットの詳細な分析を行い,オープンドメインオーディオ・ビジュアル同期のための評価基準を定義する。 本手法を標準読唇音声ベンチマーク, lrs2, lrs3に適用し, 様々な面でアブレーションを行った。 最後に、新しいVGG-Sound Syncビデオデータセットにおいて、160以上の多様なクラスと一般的な音声-視覚同期の最初のベンチマークを設定した。 いずれの場合においても,提案モデルはこれまでの最先端をかなり上回っている。

In this paper, we consider the problem of audio-visual synchronisation applied to videos `in-the-wild' (ie of general classes beyond speech). As a new task, we identify and curate a test set with high audio-visual correlation, namely VGG-Sound Sync. We compare a number of transformer-based architectural variants specifically designed to model audio and visual signals of arbitrary length, while significantly reducing memory requirements during training. We further conduct an in-depth analysis on the curated dataset and define an evaluation metric for open domain audio-visual synchronisation. We apply our method on standard lip reading speech benchmarks, LRS2 and LRS3, with ablations on various aspects. Finally, we set the first benchmark for general audio-visual synchronisation with over 160 diverse classes in the new VGG-Sound Sync video dataset. In all cases, our proposed model outperforms the previous state-of-the-art by a significant margin.
翻訳日:2021-12-09 17:06:41 公開日:2021-12-08
# FastSGD:分散機械学習のための高速圧縮SGDフレームワーク

FastSGD: A Fast Compressed SGD Framework for Distributed Machine Learning ( http://arxiv.org/abs/2112.04291v1 )

ライセンス: Link先を確認
Keyu Yang, Lu Chen, Zhihao Zeng, Yunjun Gao(参考訳) ビッグデータの急速な増加に伴い、分散機械学習(ML)は大規模モデルのトレーニングに広く適用されてきた。 Stochastic Gradient Descent (SGD) は間違いなくMLのワークホースアルゴリズムである。 SGDによって訓練された分散MLモデルは、分散MLのスケーラビリティを制限する大量の勾配通信を含む。 したがって、通信を減らすために勾配を圧縮することが重要である。 本稿では,分散MLのための高速圧縮SGDフレームワークであるFastSGDを提案する。 低コストで高い圧縮比を達成するために、FastSGDは勾配をキー値対として表現し、勾配鍵と値の両方を線形時間複雑性で圧縮する。 勾配値の圧縮のために、FastSGDはまず、逆マッパーを使用して元の値を相互値に変換する。 最後に、FastSGDフィルタは所定の閾値で勾配整数を減らした。 勾配鍵圧縮のために、fastsgdはより少ないビットで勾配鍵を格納する適応的細粒度デルタ符号化方法を提供する。 実用的なMLモデルとデータセットに関する大規模な実験は、FastSGDが最大4桁の圧縮比を達成し、最先端の手法と比較して最大8倍の収束時間を加速することを示した。

With the rapid increase of big data, distributed Machine Learning (ML) has been widely applied in training large-scale models. Stochastic Gradient Descent (SGD) is arguably the workhorse algorithm of ML. Distributed ML models trained by SGD involve large amounts of gradient communication, which limits the scalability of distributed ML. Thus, it is important to compress the gradients for reducing communication. In this paper, we propose FastSGD, a Fast compressed SGD framework for distributed ML. To achieve a high compression ratio at a low cost, FastSGD represents the gradients as key-value pairs, and compresses both the gradient keys and values in linear time complexity. For the gradient value compression, FastSGD first uses a reciprocal mapper to transform original values into reciprocal values, and then, it utilizes a logarithm quantization to further reduce reciprocal values to small integers. Finally, FastSGD filters reduced gradient integers by a given threshold. For the gradient key compression, FastSGD provides an adaptive fine-grained delta encoding method to store gradient keys with fewer bits. Extensive experiments on practical ML models and datasets demonstrate that FastSGD achieves the compression ratio up to 4 orders of magnitude, and accelerates the convergence time up to 8x, compared with state-of-the-art methods.
翻訳日:2021-12-09 16:47:51 公開日:2021-12-08
# 再構成可能なインテリジェントサーフェスを用いたオートエンコーダベースの通信

Autoencoder-based Communications with Reconfigurable Intelligent Surfaces ( http://arxiv.org/abs/2112.04441v1 )

ライセンス: Link先を確認
Tugba Erpek, Yalin E. Sagduyu, Ahmed Alkhateeb, Aylin Yener(参考訳) 本稿では、再構成可能なインテリジェントサーフェス(RIS)と、深層ニューラルネットワーク(DNN)の集合として訓練された送信機-受信機対の結合設計を行い、受信機におけるエンドツーエンド通信性能を最適化する手法を提案する。 RISはソフトウェアで定義された単位セルの配列であり、散乱と反射プロファイルによって送信機から受信機への受信信号を集中させることができる。 RISの利点は、視線(LoS)リンクの物理的障害を克服することで、無線通信のカバレッジとスペクトル効率を改善することである。 RISビームコードワード(予め定義されたコードブックのうち)の選択プロセスはDNNとして定式化され、一方、送信機と受信機ペアの操作は、2つのDNNとしてモデル化され、1つはエンコーダ(送信機)、もう1つはオートエンコーダ(受信機)のデコーダ(受信機)に対して、RISによって誘導されるチャネル効果を考慮に入れられる。 基礎となるDNNは、受信機のシンボルエラー率を最小限に抑えるために共同で訓練される。 数値的な結果から,RISを使用しない,あるいはRISビームの選択が送受信器ペアの設計から切り離された,様々なベースラインスキームに対する誤差性能の大きな向上が得られた。

This paper presents a novel approach for the joint design of a reconfigurable intelligent surface (RIS) and a transmitter-receiver pair that are trained together as a set of deep neural networks (DNNs) to optimize the end-to-end communication performance at the receiver. The RIS is a software-defined array of unit cells that can be controlled in terms of the scattering and reflection profiles to focus the incoming signals from the transmitter to the receiver. The benefit of the RIS is to improve the coverage and spectral efficiency for wireless communications by overcoming physical obstructions of the line-of-sight (LoS) links. The selection process of the RIS beam codeword (out of a pre-defined codebook) is formulated as a DNN, while the operations of the transmitter-receiver pair are modeled as two DNNs, one for the encoder (at the transmitter) and the other one for the decoder (at the receiver) of an autoencoder, by accounting for channel effects including those induced by the RIS in between. The underlying DNNs are jointly trained to minimize the symbol error rate at the receiver. Numerical results show that the proposed design achieves major gains in error performance with respect to various baseline schemes, where no RIS is used or the selection of the RIS beam is separated from the design of the transmitter-receiver pair.
翻訳日:2021-12-09 16:47:01 公開日:2021-12-08
# 学習によるコミュニケーションのためのアクティブセンシング

Active Sensing for Communications by Learning ( http://arxiv.org/abs/2112.04075v1 )

ライセンス: Link先を確認
Foad Sohrabi, Tao Jiang, Wei Cui, Wei Yu(参考訳) 本稿では,無線通信におけるアクティブセンシング問題に対して,エージェントが所定の時間枠上で環境と逐次対話して情報を収集し,有効機能を最大化するためのセンサ・アクティベーションタスクを実行する,深層学習アプローチを提案する。 このようなアクティブな学習環境では、エージェントはこれまでの観察に基づいて逐次適応型センシング戦略を設計する必要がある。 歴史的観測の次元が時間とともに大きくなるような課題に対処するために,観測順序の時間的相関を利用して各観測を固定サイズの状態情報ベクトルにマッピングするために,長期記憶(LSTM)ネットワークを提案する。 次に、ディープニューラルネットワーク(DNN)を使用して、各フレームのLSTM状態を次の測定ステップの設計にマッピングする。 最後に、最終LSTM状態を所望のソリューションにマッピングするために、別のDNNを使用します。 無線通信における適応チャネルセンシング問題に対する提案手法の性能について検討する。 特に,mm波ビームアライメントの適応ビームフォーミング問題と反射アライメントのための適応再構成可能なインテリジェント表面センシング問題を考える。 その結果,提案手法は,既存の適応的あるいは非適応的センシング方式よりも優れていることがわかった。

This paper proposes a deep learning approach to a class of active sensing problems in wireless communications in which an agent sequentially interacts with an environment over a predetermined number of time frames to gather information in order to perform a sensing or actuation task for maximizing some utility function. In such an active learning setting, the agent needs to design an adaptive sensing strategy sequentially based on the observations made so far. To tackle such a challenging problem in which the dimension of historical observations increases over time, we propose to use a long short-term memory (LSTM) network to exploit the temporal correlations in the sequence of observations and to map each observation to a fixed-size state information vector. We then use a deep neural network (DNN) to map the LSTM state at each time frame to the design of the next measurement step. Finally, we employ another DNN to map the final LSTM state to the desired solution. We investigate the performance of the proposed framework for adaptive channel sensing problems in wireless communications. In particular, we consider the adaptive beamforming problem for mmWave beam alignment and the adaptive reconfigurable intelligent surface sensing problem for reflection alignment. Numerical results demonstrate that the proposed deep active sensing strategy outperforms the existing adaptive or nonadaptive sensing schemes.
翻訳日:2021-12-09 16:46:09 公開日:2021-12-08
# KoopmanizingFlows: 安定なKoopman演算子を微分型で学習する

KoopmanizingFlows: Diffeomorphically Learning Stable Koopman Operators ( http://arxiv.org/abs/2112.04085v1 )

ライセンス: Link先を確認
Petar Bevanda, Max Beier, Sebastian Kerz, Armin Lederer, Stefan Sosnowski and Sandra Hirche(参考訳) 安定な非線形力学のクラスに対するクープマン作用素のデータ駆動表現のための線形時間不変(LTI)モデルを構築するための新しいフレームワークを提案する。 クープマン作用素(生成子)は有限次元の非線形システムを無限次元の線型特徴空間へ持ち上げる。 これをモデリングに利用するには、クープマン作用素の有限次元表現を見つける必要がある。 適切な機能を学ぶことは、Koopman不変な(動的に線形に進化する)LTI機能と、関連する(元の状態を拡大する)非教師付き学習タスクの両方を学ぶ必要があるため、難しい。 この問題に対する理論的に確立された解として、微分同相学習器を潜在線形モデルの昇降集合系で構成することにより、クープマン不変座標の学習を提案する。 上記の特徴構成とともに安定行列の非制約パラメータ化を用いて、関数の事前定義されたライブラリやスペクトルを知ることなくクープマン作用素の特徴を学習し、演算子近似の精度に関わらず安定性を確保する。 LASA手書きデータセットにおける最先端手法と比較して,提案手法の優れた有効性を示す。

We propose a novel framework for constructing linear time-invariant (LTI) models for data-driven representations of the Koopman operator for a class of stable nonlinear dynamics. The Koopman operator (generator) lifts a finite-dimensional nonlinear system to a possibly infinite-dimensional linear feature space. To utilize it for modeling, one needs to discover finite-dimensional representations of the Koopman operator. Learning suitable features is challenging, as one needs to learn LTI features that are both Koopman-invariant (evolve linearly under the dynamics) as well as relevant (spanning the original state) - a generally unsupervised learning task. For a theoretically well-founded solution to this problem, we propose learning Koopman-invariant coordinates by composing a diffeomorphic learner with a lifted aggregate system of a latent linear model. Using an unconstrained parameterization of stable matrices along with the aforementioned feature construction, we learn the Koopman operator features without assuming a predefined library of functions or knowing the spectrum, while ensuring stability regardless of the operator approximation accuracy. We demonstrate the superior efficacy of the proposed method in comparison to a state-of-the-art method on the well-known LASA handwriting dataset.
翻訳日:2021-12-09 16:44:10 公開日:2021-12-08
# 非線形故障検出のための学習可能な高速カーネルPCA:ディープオートエンコーダによる実現

Learnable Faster Kernel-PCA for Nonlinear Fault Detection: Deep Autoencoder-Based Realization ( http://arxiv.org/abs/2112.04193v1 )

ライセンス: Link先を確認
Zelin Ren, Xuebing Yang, Yuchen Jiang, Wensheng Zhang(参考訳) カーネル主成分分析(kpca)は、非線形故障検出タスクで広く用いられている、よく認識された非線形次元低減法である。 カーネルトリックベースの方法として、KPCAは2つの大きな問題を継承する。 第一に、カーネル関数の形式とパラメータは通常、試行錯誤により盲目的に選択される。 その結果、不適切な選択の場合、重大な性能劣化が発生する可能性がある。 第2に、オンライン監視ステージでは、カーネルメソッドがすべてのオフライントレーニングデータを活用する必要があるため、kpcaは計算負荷が大きく、リアルタイムパフォーマンスが低くなる。 本研究では,2つの欠点に対処するため,従来のKPCAのより高速な実現法を提案する。 核となる考え方は、新しい非線形DAE-FE(deep autoencoder based feature extract)フレームワークを用いて、すべての実現可能なカーネル関数をパラメータ化し、DAE-PCA(deep autoencoder based principal component analysis)アプローチを詳細に提案することである。 提案したDAE-PCA法は, KPCAと等価であることが証明されているが, 入力に応じて最適な非線形高次元空間の自動探索において, より有利である。 さらに、オンライン計算効率は従来のKPCAに比べて約100倍向上する。 テネシー・イーストマン(TE)プロセスベンチマークでは,提案手法の有効性と優位性を示す。

Kernel principal component analysis (KPCA) is a well-recognized nonlinear dimensionality reduction method that has been widely used in nonlinear fault detection tasks. As a kernel trick-based method, KPCA inherits two major problems. First, the form and the parameters of the kernel function are usually selected blindly, depending seriously on trial-and-error. As a result, there may be serious performance degradation in case of inappropriate selections. Second, at the online monitoring stage, KPCA has much computational burden and poor real-time performance, because the kernel method requires to leverage all the offline training data. In this work, to deal with the two drawbacks, a learnable faster realization of the conventional KPCA is proposed. The core idea is to parameterize all feasible kernel functions using the novel nonlinear DAE-FE (deep autoencoder based feature extraction) framework and propose DAE-PCA (deep autoencoder based principal component analysis) approach in detail. The proposed DAE-PCA method is proved to be equivalent to KPCA but has more advantage in terms of automatic searching of the most suitable nonlinear high-dimensional space according to the inputs. Furthermore, the online computational efficiency improves by approximately 100 times compared with the conventional KPCA. With the Tennessee Eastman (TE) process benchmark, the effectiveness and superiority of the proposed method is illustrated.
翻訳日:2021-12-09 16:43:51 公開日:2021-12-08
# 高強度運動のためのウェアラブルECGセンサの適応Rピーク検出

Adaptive R-Peak Detection on Wearable ECG Sensors for High-Intensity Exercise ( http://arxiv.org/abs/2112.04369v1 )

ライセンス: Link先を確認
Elisabetta De Giovanni, Tomas Teijeiro, Gr\'egoire P. Millet and David Atienza(参考訳) 目的: ウェアラブルセンサによる生体信号の連続モニタリングは, 医療・健康分野で急速に拡大している。 あとはバイタルパラメータの自動検出が一般的に正確である。 しかし、強度の高い運動のような条件では、信号に突然の生理的変化が生じ、標準アルゴリズムの頑健さを損なう。 方法: ベイズスロープと呼ばれる手法は, 教師なし学習, ベイズフィルタリング, 非線形正規化をベースとし, 予測位置に応じてRピークを高次かつ正確に検出する。 さらに,BayeSlopeは計算的に重く,デバイスバッテリを迅速に排水できるので,その頑丈さを突然の生理的変化に適応させるオンライン設計と,現在の組込みプラットフォームの異種資源への複雑性を提案する。 この方法はBayeSlopeと、異なる能力でコアで実行される軽量なアルゴリズムを組み合わせることで、精度を保ちながらエネルギー消費を減らす。 結果:BayeSlopeは20名の被験者による激しいサイクリング運動において、99.3%のF1スコアを達成した。 さらに、オンライン適応プロセスは5つの異なる運動強度に対して99%のF1スコアを獲得し、総エネルギー消費量は1.55+-0.54~mJである。 結論: 高強度運動などの課題条件下でRピーク検出を改善するため, 高精度でロバストな手法と, 最新の超低消費電力組込みプラットフォームにおける完全エネルギー効率実装を提案する。 意義:実験の結果、BayeSlopeは最先端のアルゴリズムを最大8.4%のF1スコアで上回り、オンライン適応方式は現代の異種ウェアラブルプラットフォームで最大38.7%の省エネを達成できることがわかった。

Objective: Continuous monitoring of biosignals via wearable sensors has quickly expanded in the medical and wellness fields. At rest, automatic detection of vital parameters is generally accurate. However, in conditions such as high-intensity exercise, sudden physiological changes occur to the signals, compromising the robustness of standard algorithms. Methods: Our method, called BayeSlope, is based on unsupervised learning, Bayesian filtering, and non-linear normalization to enhance and correctly detect the R peaks according to their expected positions in the ECG. Furthermore, as BayeSlope is computationally heavy and can drain the device battery quickly, we propose an online design that adapts its robustness to sudden physiological changes, and its complexity to the heterogeneous resources of modern embedded platforms. This method combines BayeSlope with a lightweight algorithm, executed in cores with different capabilities, to reduce the energy consumption while preserving the accuracy. Results: BayeSlope achieves an F1 score of 99.3% in experiments during intense cycling exercise with 20 subjects. Additionally, the online adaptive process achieves an F1 score of 99% across five different exercise intensities, with a total energy consumption of 1.55+-0.54~mJ. Conclusion: We propose a highly accurate and robust method, and a complete energy-efficient implementation in a modern ultra-low-power embedded platform to improve R peak detection in challenging conditions, such as during high-intensity exercise. Significance: The experiments show that BayeSlope outperforms a state-of-the-art algorithm up to 8.4% in F1 score, while our online adaptive method can reach energy savings up to 38.7% on modern heterogeneous wearable platforms.
翻訳日:2021-12-09 16:43:27 公開日:2021-12-08
# 自己教師機能付きロバストゼロショット音声変換モデルの訓練

Training Robust Zero-Shot Voice Conversion Models with Self-supervised Features ( http://arxiv.org/abs/2112.04424v1 )

ライセンス: Link先を確認
Trung Dang, Dung Tran, Peter Chin, Kazuhito Koishida(参考訳) Unsupervised Zero-Shot Voice Conversion (VC) は、発話の話者特性を、並列トレーニングデータに頼ることなく、未確認のターゲット話者と一致するように修正することを目的としている。 近年,音声表現の自己教師型学習は,VCモデルに直接渡すことができる転写文字を使わずに,有用な言語単位を生成することが示されている。 本稿では,vcモデルと異なる言語特徴抽出器とボコーダを併用することで,同じシーケンス長で動作させることなく,高品質な音声サンプルを実現することができることを示す。 提案手法は,VCTKデータセット上で多くのベースラインを上回り得ることを示した。 アーキテクチャを変更することなく、我々はさらにそれを実証した。 a) 同一話者の異なる音声セグメントのペアを使用すること b) サイクル一貫性損失の追加,及び c) 話者分類の損失の追加は、より優れた話者埋め込みを学ぶのに役立つ。 これらの手法を用いてLibriTTSを訓練したモデルは、話者の声によく伝達された音声サンプルを生成するとともに、文字誤り率の観点から実際の人間の発話に匹敵する言語コンテンツを保存する。

Unsupervised Zero-Shot Voice Conversion (VC) aims to modify the speaker characteristic of an utterance to match an unseen target speaker without relying on parallel training data. Recently, self-supervised learning of speech representation has been shown to produce useful linguistic units without using transcripts, which can be directly passed to a VC model. In this paper, we showed that high-quality audio samples can be achieved by using a length resampling decoder, which enables the VC model to work in conjunction with different linguistic feature extractors and vocoders without requiring them to operate on the same sequence length. We showed that our method can outperform many baselines on the VCTK dataset. Without modifying the architecture, we further demonstrated that a) using pairs of different audio segments from the same speaker, b) adding a cycle consistency loss, and c) adding a speaker classification loss can help to learn a better speaker embedding. Our model trained on LibriTTS using these techniques achieves the best performance, producing audio samples transferred well to the target speaker's voice, while preserving the linguistic content that is comparable with actual human utterances in terms of Character Error Rate.
翻訳日:2021-12-09 16:42:56 公開日:2021-12-08
# 単純なシームズネットワークと自己教師付き正規化による自己教師付き話者検証

Self-Supervised Speaker Verification with Simple Siamese Network and Self-Supervised Regularization ( http://arxiv.org/abs/2112.04459v1 )

ライセンス: Link先を確認
Mufan Sang, Haoqi Li, Fang Liu, Andrew O. Arnold, Li Wan(参考訳) 話者識別性とロバストな話者照合システムを話者ラベルなしでトレーニングすることは、いまだに難題であり、検討に値する。 本研究では,効果的な自己教師付き学習フレームワークと,自己教師付き話者表現学習を容易にする新しい正規化戦略を提案する。 対照的な学習に基づく自己教師あり学習法とは異なり、提案する自己教師あり正規化(SSReg)は、正のデータ対の潜在表現の類似性にのみ焦点をあてる。 また、時間領域と周波数領域の両方において、代替オンラインデータ拡張戦略の有効性について検討する。 提案するssregは,オンラインデータ拡張戦略の強化により,負のペアを使わずに自己教師付き学習の可能性を示すとともに,単純なsiameseネットワークアーキテクチャを用いて,自己教師付き話者表現学習の性能を大幅に向上させることができる。 VoxCelebデータセットに関する総合的な実験により、提案した自己教師型アプローチは、効果的な自己教師型正規化を加えて23.4%の相対的な改善を達成し、他の先行研究を上回った。

Training speaker-discriminati ve and robust speaker verification systems without speaker labels is still challenging and worthwhile to explore. In this study, we propose an effective self-supervised learning framework and a novel regularization strategy to facilitate self-supervised speaker representation learning. Different from contrastive learning-based self-supervised learning methods, the proposed self-supervised regularization (SSReg) focuses exclusively on the similarity between the latent representations of positive data pairs. We also explore the effectiveness of alternative online data augmentation strategies on both the time domain and frequency domain. With our strong online data augmentation strategy, the proposed SSReg shows the potential of self-supervised learning without using negative pairs and it can significantly improve the performance of self-supervised speaker representation learning with a simple Siamese network architecture. Comprehensive experiments on the VoxCeleb datasets demonstrate that our proposed self-supervised approach obtains a 23.4% relative improvement by adding the effective self-supervised regularization and outperforms other previous works.
翻訳日:2021-12-09 16:42:38 公開日:2021-12-08
# 分散反復ヘッシアンスケッチを用いた線形モデル学習

Learning Linear Models Using Distributed Iterative Hessian Sketching ( http://arxiv.org/abs/2112.04101v1 )

ライセンス: Link先を確認
Han Wang and James Anderson(参考訳) 本研究では,観測データから線形システムのマルコフパラメータを学習する問題を考察する。 最近の非漸近的システム同定の結果は、単一および複数ロールアウト設定におけるこの問題のサンプル複雑さを特徴付けている。 どちらの場合も、許容可能な推定値を得るために必要となるサンプルの数は、2次アルゴリズムに対する決定変数の難易度の高い数で最適化問題を生み出すことができる。 ヘッシアン・スケッチングに基づくランダム化分散ニュートンアルゴリズムは,$\epsilon$-optimal 解を生成でき,幾何学的に収束する。 さらに、アルゴリズムは自明に並列化可能である。 その結果,様々なスケッチ行列が得られ,その理論を数値的な例で示す。

This work considers the problem of learning the Markov parameters of a linear system from observed data. Recent non-asymptotic system identification results have characterized the sample complexity of this problem in the single and multi-rollout setting. In both instances, the number of samples required in order to obtain acceptable estimates can produce optimization problems with an intractably large number of decision variables for a second-order algorithm. We show that a randomized and distributed Newton algorithm based on Hessian-sketching can produce $\epsilon$-optimal solutions and converges geometrically. Moreover, the algorithm is trivially parallelizable. Our results hold for a variety of sketching matrices and we illustrate the theory with numerical examples.
翻訳日:2021-12-09 16:42:18 公開日:2021-12-08
# (参考訳) ソファの後ろに何があるの? 3次元シーン再構成のための指向性光距離関数(DRDF) [全文訳有]

What's Behind the Couch? Directed Ray Distance Functions (DRDF) for 3D Scene Reconstruction ( http://arxiv.org/abs/2112.04481v1 )

ライセンス: CC0 1.0
Nilesh Kulkarni, Justin Johnson, David F. Fouhey(参考訳) 未確認のRGB画像から隠蔽領域を含むシーンレベルの3D再構成手法を提案する。 われわれのアプローチは、実際の3Dスキャンと画像に基づいて訓練されている。 この問題は複数の理由により困難である: 実際のスキャンは水密ではなく、多くの方法が先行している; シーン内の距離は物体間の推論を必要とする(さらに難しい); そして、表面の位置に関する不確かさは、基本的な距離関数特性を欠いた出力を生成するのにネットワークを動機付ける。 本研究では,非構造スキャンで計算可能で,表面位置の不確かさ下での良好な挙動を持つ新しい距離関数を提案する。 この関数を線で計算すると複雑さはさらに減少する。 我々は,この関数を予測するために深層ネットワークをトレーニングし,Matterport3D,3D Front,ScanNetの他の手法よりも優れていることを示す。

We present an approach for scene-level 3D reconstruction, including occluded regions, from an unseen RGB image. Our approach is trained on real 3D scans and images. This problem has proved difficult for multiple reasons; Real scans are not watertight, precluding many methods; distances in scenes require reasoning across objects (making it even harder); and, as we show, uncertainty about surface locations motivates networks to produce outputs that lack basic distance function properties. We propose a new distance-like function that can be computed on unstructured scans and has good behavior under uncertainty about surface location. Computing this function over rays reduces the complexity further. We train a deep network to predict this function and show it outperforms other methods on Matterport3D, 3D Front, and ScanNet.
翻訳日:2021-12-09 16:41:28 公開日:2021-12-08
# 単語親密度の異なるインド人リスナーによるネイティブアメリカン英語音声認識に関する研究

A study on native American English speech recognition by Indian listeners with varying word familiarity level ( http://arxiv.org/abs/2112.04151v1 )

ライセンス: Link先を確認
Abhayjeet Singh, Achuth Rao MV, Rakesh Vaideeswaran, Chiranjeevi Yarra, Prasanta Kumar Ghosh(参考訳) 本研究は,インドにおける様々なナチビティの聴取者を対象に,アメリカの話者によるTIMIT発声の聴取と認識を依頼するものである。 発声を認識している間、各聴取者からの反応は3種類ある。 1.文の難易度 2.話者難易度評価及び話者難易度評価 3. 発声の転写 これらの書き起こしから、単語誤り率(WER)を算出し、認識された文と原文との類似性を評価する指標として使用し、その中の単語の頻度に基づいて、易度、中度、硬度の3つのグループに分類する。 文の難易度,難易度,WERが,文章の易易度から難易度へと増加するのを観察する。 また、音声モデル(am)と言語モデル(lm)の3つの組み合わせによる3つの自動音声認識(asr)を用いた音声認識性能の比較を行った。 asr1 amはインド起源の話者とティミットテキストで構築されたlmの録音で訓練され、asr2 amはネイティブアメリカンの話者の録音とlibri音声コーパスで構築されたlm、asr3 amはネイティブアメリカンの話者の録音を使用しており、lmはlibri音声とtimitテキストで構築されている。 我々は,HSR3が最高の性能を達成するのに対して,HSR1はASR1と似ていることを観察した。 話者識別に関する賢明な分析によると、一部の発話者の発話は、インド人の聴取者による認識が、他の一部の聴取者に比べて困難である。

In this study, listeners of varied Indian nativities are asked to listen and recognize TIMIT utterances spoken by American speakers. We have three kinds of responses from each listener while they recognize an utterance: 1. Sentence difficulty ratings, 2. Speaker difficulty ratings, and 3. Transcription of the utterance. From these transcriptions, word error rate (WER) is calculated and used as a metric to evaluate the similarity between the recognized and the original sentences.The sentences selected in this study are categorized into three groups: Easy, Medium and Hard, based on the frequency ofoccurrence of the words in them. We observe that the sentence, speaker difficulty ratings and the WERs increase from easy to hard categories of sentences. We also compare the human speech recognition performance with that using three automatic speech recognition (ASR) under following three combinations of acoustic model (AM) and language model(LM): ASR1) AM trained with recordings from speakers of Indian origin and LM built on TIMIT text, ASR2) AM using recordings from native American speakers and LM built ontext from LIBRI speech corpus, and ASR3) AM using recordings from native American speakers and LM build on LIBRI speech and TIMIT text. We observe that HSR performance is similar to that of ASR1 whereas ASR3 achieves the best performance. Speaker nativity wise analysis shows that utterances from speakers of some nativity are more difficult to recognize by Indian listeners compared to few other nativities
翻訳日:2021-12-09 15:28:04 公開日:2021-12-08
# 全微分近似と加速度勾配降下を用いた逆画像フィルタリング

Reverse image filtering using total derivative approximation and accelerated gradient descent ( http://arxiv.org/abs/2112.04121v1 )

ライセンス: Link先を確認
Fernando J. Galetto, Guang Deng(参考訳) 本稿では,線形あるいは非線形な画像フィルタの効果を逆転する新たな問題に対処する。 この仮定では、フィルタのアルゴリズムは未知であり、フィルタはブラックボックスとして利用できる。 この逆問題を,局所パッチベースのコスト関数を最小化し,勾配降下に使用される勾配を近似するために全微分を用いて近似する。 フーリエ領域における出力の収束と品質に影響する要因を分析した。 また,本論文で提案する3つの逆フィルタにおける加速度勾配降下アルゴリズムの適用について検討した。 本稿では,提案アルゴリズムの複雑さと有効性を評価するための実験結果について述べる。 その結果,提案アルゴリズムは,(1)最も高速な逆フィルタと同程度の複雑性で,また,(2)非常に複雑な逆フィルタの逆フィルタと同一のフィルタのリストを逆転させることができるが,その複雑さははるかに小さい。

In this paper, we address a new problem of reversing the effect of an image filter, which can be linear or nonlinear. The assumption is that the algorithm of the filter is unknown and the filter is available as a black box. We formulate this inverse problem as minimizing a local patch-based cost function and use total derivative to approximate the gradient which is used in gradient descent to solve the problem. We analyze factors affecting the convergence and quality of the output in the Fourier domain. We also study the application of accelerated gradient descent algorithms in three gradient-free reverse filters, including the one proposed in this paper. We present results from extensive experiments to evaluate the complexity and effectiveness of the proposed algorithm. Results demonstrate that the proposed algorithm outperforms the state-of-the-art in that (1) it is at the same level of complexity as that of the fastest reverse filter, but it can reverse a larger number of filters, and (2) it can reverse the same list of filters as that of the very complex reverse filter, but its complexity is much smaller.
翻訳日:2021-12-09 15:27:29 公開日:2021-12-08
# オンライン資源配分におけるエクイティプロモーション

Equity Promotion in Online Resource Allocation ( http://arxiv.org/abs/2112.04169v1 )

ライセンス: Link先を確認
Pan Xu and Yifan Xu(参考訳) 我々は、政府のような非営利組織によって限られた資源や少ない資源が管理される典型的な非営利環境下でのオンライン資源の配分を考える。 私たちは、到着した要求者は要求のような外部要因では均質であるが、人口統計のような内部属性では異質であると仮定することで、内部平等にフォーカスする。 具体的には、到着した各要求者を、その人口統計(人種、性別、年齢など)に基づいて1つまたは複数のグループに関連付け、各要求者集団が予め設定された目標比率に比例するリソースの公平なシェアを得られるように公平な分散戦略をデザインすることを目的とする。 2つのLPに基づくサンプリングアルゴリズムを提示し,ミネソタ州保健省が保有する実際のCOVID-19ワクチン接種データに基づいて理論的に(競争率分析の観点から)検討した。 理論的および数値的な結果から、当社のLPベースのサンプリング戦略は、特にCOVID-19ワクチンのロールアウトの初期段階で見られるように、到着人口が不均等に代表される場合に、効果的に株式を促進できることが示された。

We consider online resource allocation under a typical non-profit setting, where limited or even scarce resources are administered by a not-for-profit organization like a government. We focus on the internal-equity by assuming that arriving requesters are homogeneous in terms of their external factors like demands but heterogeneous for their internal attributes like demographics. Specifically, we associate each arriving requester with one or several groups based on their demographics (i.e., race, gender, and age), and we aim to design an equitable distributing strategy such that every group of requesters can receive a fair share of resources proportional to a preset target ratio. We present two LP-based sampling algorithms and investigate them both theoretically (in terms of competitive-ratio analysis) and experimentally based on real COVID-19 vaccination data maintained by the Minnesota Department of Health. Both theoretical and numerical results show that our LP-based sampling strategies can effectively promote equity, especially when the arrival population is disproportionately represented, as observed in the early stage of the COVID-19 vaccine rollout.
翻訳日:2021-12-09 15:24:38 公開日:2021-12-08
# 多元的最適輸送による因果効果のマッチング

Matching for causal effects via multimarginal optimal transport ( http://arxiv.org/abs/2112.04398v1 )

ライセンス: Link先を確認
Florian Gunsilius and Yuliang Xu(参考訳) 共変量のマッチングは、観察研究における因果効果を推定するための確立された枠組みである。 これらの設定の主な課題は、しばしば高次元構造が原因である。 この課題に対処するために多くの方法が導入されたが、計算と統計のパフォーマンスと解釈可能性に異なる利点と欠点がある。 さらに,2次治療シナリオにおける2つのサンプルのマッチングに焦点が当てられてきたが,複数の治療におけるサンプルのバランスを最適に調整できる専用手法は,これまで利用できなかった。 本稿では,これらの課題に対処するために,多くの有用な特性を有するエントロピー規則化マルチマルジナル最適輸送に基づく自然な最適マッチング手法を提案する。 パラメトリック率で集団の最適重みに収束する一致した個人の解釈可能な重みを与え、古典的反復比例結合法によって効率的に実施でき、同時に複数の治療腕に合わせることもできる。 また、非常に優れた有限なサンプル特性を持つ。

Matching on covariates is a well-established framework for estimating causal effects in observational studies. The principal challenge in these settings stems from the often high-dimensional structure of the problem. Many methods have been introduced to deal with this challenge, with different advantages and drawbacks in computational and statistical performance and interpretability. Moreover, the methodological focus has been on matching two samples in binary treatment scenarios, but a dedicated method that can optimally balance samples across multiple treatments has so far been unavailable. This article introduces a natural optimal matching method based on entropy-regularized multimarginal optimal transport that possesses many useful properties to address these challenges. It provides interpretable weights of matched individuals that converge at the parametric rate to the optimal weights in the population, can be efficiently implemented via the classical iterative proportional fitting procedure, and can even match several treatment arms simultaneously. It also possesses demonstrably excellent finite sample properties.
翻訳日:2021-12-09 15:24:16 公開日:2021-12-08
# ソーシャル・ネットワークにおける地域隠れコミュニティ構造の解明

Uncovering the Local Hidden Community Structure in Social Networks ( http://arxiv.org/abs/2112.04100v1 )

ライセンス: Link先を確認
Meng Wang, Boyu Li, Kun He, John E. Hopcroft(参考訳) 隠れたコミュニティは、最近ソーシャルネットワーク分析のために提案された有用な概念である。 本研究では,ネットワーク規模を急速に拡大させるため,地域視点から隠れたコミュニティの検出を探索し,元のネットワークからサンプリングしたサブグラフ上で各レイヤを反復的に検出・増強する手法を提案する。 まず,改良した局所スペクトル法に基づいて1つのシードノードからシードセットを拡張し,初期支配的地域コミュニティを検出する。 そして、このコミュニティのメンバと他のノードとの接続を一時的に削除し、残りのサブグラフにある全ての近所のコミュニティを検出します。 地域社会と地域社会は支配的な層を形成し、これらのコミュニティ内のエッジ重量を減らすことで、この層の構造を弱め、隠れた層を明らかにする。 最終的に、すべてのプロセスを繰り返し、シードノードを含むすべてのコミュニティを反復的に検出し、強化することができる。 提案手法は,壊れたコミュニティや地域コミュニティがサブグラフの1つのコミュニティと見なされる状況を回避することができ,グローバルな隠れコミュニティ検出手法によって引き起こされる検出の不正確さにつながることを理論的に示す。 広範な実験により,本手法は,グローバルに隠されたコミュニティ検出あるいは複数の地域コミュニティ検出のために設計された最先端のベースラインを著しく上回ることが示された。

Hidden community is a useful concept proposed recently for social network analysis. To handle the rapid growth of network scale, in this work, we explore the detection of hidden communities from the local perspective, and propose a new method that detects and boosts each layer iteratively on a subgraph sampled from the original network. We first expand the seed set from a single seed node based on our modified local spectral method and detect an initial dominant local community. Then we temporarily remove the members of this community as well as their connections to other nodes, and detect all the neighborhood communities in the remaining subgraph, including some "broken communities" that only contain a fraction of members in the original network. The local community and neighborhood communities form a dominant layer, and by reducing the edge weights inside these communities, we weaken this layer's structure to reveal the hidden layers. Eventually, we repeat the whole process and all communities containing the seed node can be detected and boosted iteratively. We theoretically show that our method can avoid some situations that a broken community and the local community are regarded as one community in the subgraph, leading to the inaccuracy on detection which can be caused by global hidden community detection methods. Extensive experiments show that our method could significantly outperform the state-of-the-art baselines designed for either global hidden community detection or multiple local community detection.
翻訳日:2021-12-09 15:23:36 公開日:2021-12-08
# 長距離センシングと貫通能力を維持したlidar監視によるレーダー占有率予測

Radar Occupancy Prediction with Lidar Supervision while Preserving Long-Range Sensing and Penetrating Capabilities ( http://arxiv.org/abs/2112.04282v1 )

ライセンス: Link先を確認
Pou-Chun Kung, Chieh-Chih Wang, Wen-Chieh Lin(参考訳) レーダーは、様々な気象条件下で長距離センシングを行うことで、自律走行の可能性を示す。 しかしレーダーは、レーダーノイズによるモダリティの検知も特に難しい。 近年,レーダー画像における自由空間と占有空間の分類において,ライダーラベルの監督を生かして大きな進歩を遂げている。 しかし、未解決の問題もいくつかある。 まず、ライダーのセンシング範囲によって結果のセンシング距離が制限される。 第2に,2つのセンサ間の物理的なセンサの差により,ライダーにより性能が劣化する。 例えば、ライダーから見える物はレーダーには見えず、ライダースキャンに隠された物はレーダーの透過能力のためにレーダー画像で見ることができる。 これらのセンシングの違いは、それぞれ偽陽性と侵入能力の低下を引き起こす。 本稿では,この問題を解決するために,トレーニングデータ前処理と極性スライディングウィンドウ推論を提案する。 データプリプロセッシングは、lidarスキャンにおけるレーダー不可視測定による効果を低減することを目的としている。 極性スライディングウィンドウ推論は、長距離領域に近距離訓練ネットワークを適用することにより、限られたセンシング範囲の問題を解決することを目的としている。 一般的なカルト表現の代わりに、極性表現を用いて長距離データと近距離データの形状の相違を低減することを提案する。 極空間における長距離領域推定への近距離訓練ネットワークの拡張は、カルテシアン空間の4.2倍のIoUを持つことがわかった。 さらに、偏光窓の推測は、推定領域の視点を変えることで、レーダーの透過性を保ち得るため、事前訓練されたネットワークでは観測できないように見える。

Radar shows great potential for autonomous driving by accomplishing long-range sensing under diverse weather conditions. But radar is also a particularly challenging sensing modality due to the radar noises. Recent works have made enormous progress in classifying free and occupied spaces in radar images by leveraging lidar label supervision. However, there are still several unsolved issues. Firstly, the sensing distance of the results is limited by the sensing range of lidar. Secondly, the performance of the results is degenerated by lidar due to the physical sensing discrepancies between the two sensors. For example, some objects visible to lidar are invisible to radar, and some objects occluded in lidar scans are visible in radar images because of the radar's penetrating capability. These sensing differences cause false positive and penetrating capability degeneration, respectively. In this paper, we propose training data preprocessing and polar sliding window inference to solve the issues. The data preprocessing aims to reduce the effect caused by radar-invisible measurements in lidar scans. The polar sliding window inference aims to solve the limited sensing range issue by applying a near-range trained network to the long-range region. Instead of using common Cartesian representation, we propose to use polar representation to reduce the shape dissimilarity between long-range and near-range data. We find that extending a near-range trained network to long-range region inference in the polar space has 4.2 times better IoU than in Cartesian space. Besides, the polar sliding window inference can preserve the radar penetrating capability by changing the viewpoint of the inference region, which makes some occluded measurements seem non-occluded for a pretrained network.
翻訳日:2021-12-09 15:23:12 公開日:2021-12-08
# 反事実シナリオにおける因果集団の非パラメトリック推定

Non parametric estimation of causal populations in a counterfactual scenario ( http://arxiv.org/abs/2112.04288v1 )

ライセンス: Link先を確認
Celine Beji, Florian Yger, Jamal Atif(参考訳) 因果関係において、推論を混同することなく治療の効果を推定することは、治療の有無にかかわらず結果を評価する必要があるため、依然として大きな問題である。 どちらも同時に観察できないため、潜在的結果の推定は依然として難しい課題である。 我々は,不足データモデルとして問題を再構成する革新的な手法を提案する。 目的は、治療と結果の関数として定義される 'emph{causal populations} の隠れ分布を推定することである。 Causal Auto-Encoder (CAE) は、治療と結果情報に先行依存して強化され、潜在空間を対象集団の確率分布に同化する。 この特徴は、潜在空間に縮小され、ネットワークの中間層に導入されたマスクによって制約された後に再構成され、処理情報と結果情報を含む。

In causality, estimating the effect of a treatment without confounding inference remains a major issue because requires to assess the outcome in both case with and without treatment. Not being able to observe simultaneously both of them, the estimation of potential outcome remains a challenging task. We propose an innovative approach where the problem is reformulated as a missing data model. The aim is to estimate the hidden distribution of \emph{causal populations}, defined as a function of treatment and outcome. A Causal Auto-Encoder (CAE), enhanced by a prior dependent on treatment and outcome information, assimilates the latent space to the probability distribution of the target populations. The features are reconstructed after being reduced to a latent space and constrained by a mask introduced in the intermediate layer of the network, containing treatment and outcome information.
翻訳日:2021-12-09 15:22:46 公開日:2021-12-08
# (参考訳) 3D画像, 位置, 姿勢の予測による人物の追跡 [全文訳有]

Tracking People by Predicting 3D Appearance, Location & Pose ( http://arxiv.org/abs/2112.04477v1 )

ライセンス: CC BY 4.0
Jathushan Rajasegaran, Georgios Pavlakos, Angjoo Kanazawa, Jitendra Malik(参考訳) 本稿では, モノクロ映像における人物の追跡に, 将来の3D表現を予測してアプローチを提案する。 これを実現するために、まず1つのフレームから3dに堅牢な方法で人々を持ち上げます。 このリフトには、人の3Dポーズ、彼の3D空間における位置、および3D外観に関する情報が含まれる。 人物を追跡すると、トラックレット表現で時間とともに3dの観察を収集する。 観測の3d特質を考えると、私たちは以前の属性のそれぞれに時間モデルを構築します。 これらのモデルを用いて,3D位置,3D外観,3Dポーズなど,トラックレットの将来状態を予測する。 将来のフレームに対しては,トラックレットの予測状態と単一フレーム観測との類似性を確率論的に計算する。 アソシエーションは単純なハンガリーのマッチングで解決され、マッチは各トラックレットを更新するために使用される。 様々なベンチマークにアプローチを評価し,その結果を報告する。

In this paper, we present an approach for tracking people in monocular videos, by predicting their future 3D representations. To achieve this, we first lift people to 3D from a single frame in a robust way. This lifting includes information about the 3D pose of the person, his or her location in the 3D space, and the 3D appearance. As we track a person, we collect 3D observations over time in a tracklet representation. Given the 3D nature of our observations, we build temporal models for each one of the previous attributes. We use these models to predict the future state of the tracklet, including 3D location, 3D appearance, and 3D pose. For a future frame, we compute the similarity between the predicted state of a tracklet and the single frame observations in a probabilistic manner. Association is solved with simple Hungarian matching, and the matches are used to update the respective tracklets. We evaluate our approach on various benchmarks and report state-of-the-art results.
翻訳日:2021-12-09 15:20:44 公開日:2021-12-08
# モデルサイズが最悪群一般化に及ぼす影響

The Effect of Model Size on Worst-Group Generalization ( http://arxiv.org/abs/2112.04094v1 )

ライセンス: Link先を確認
Alan Pham, Eunice Chan, Vikranth Srivatsa, Dhruba Ghosh, Yaoqing Yang, Yaodong Yu, Ruiqi Zhong, Joseph E. Gonzalez, Jacob Steinhardt(参考訳) 過パラメータ化は、希少なサブグループに対して、サブグループ情報が知られている様々な設定でテスト精度を低下させる。 より完全な図を得るには、サブグループ情報が未知である場合を考える。 モデルサイズが経験的リスク最小化 (erm) 下での最悪の集団一般化に与える影響を, 様々な設定で検討した。 1)アーキテクチャ(ResNet、VGG、BERT) 2)ドメイン(ビジョンまたは自然言語処理) 3)モデルサイズ(幅または深さ)、及び 4)初期化(事前訓練またはランダム重量)。 体系的な評価によって,モデルサイズの増加は損なわれず,すべてのセットアップでerm下での最悪のグループテストのパフォーマンスが向上する可能性があることが分かりました。 特に、事前訓練されたモデルサイズの増加は、WaterbirdsとMultiNLIのパフォーマンスを一貫して改善する。 サブグループラベルが不明な場合には,より大規模な事前学習モデルの使用を推奨する。

Overparameterization is shown to result in poor test accuracy on rare subgroups under a variety of settings where subgroup information is known. To gain a more complete picture, we consider the case where subgroup information is unknown. We investigate the effect of model size on worst-group generalization under empirical risk minimization (ERM) across a wide range of settings, varying: 1) architectures (ResNet, VGG, or BERT), 2) domains (vision or natural language processing), 3) model size (width or depth), and 4) initialization (with pre-trained or random weights). Our systematic evaluation reveals that increasing model size does not hurt, and may help, worst-group test performance under ERM across all setups. In particular, increasing pre-trained model size consistently improves performance on Waterbirds and MultiNLI. We advise practitioners to use larger pre-trained models when subgroup labels are unknown.
翻訳日:2021-12-09 15:03:10 公開日:2021-12-08
# ShinRL:理論的・実践的観点からRLアルゴリズムを評価するライブラリ

ShinRL: A Library for Evaluating RL Algorithms from Theoretical and Practical Perspectives ( http://arxiv.org/abs/2112.04123v1 )

ライセンス: Link先を確認
Toshinori Kitamura, Ryo Yonetani(参考訳) 本稿では,理論と実用の両方の観点から強化学習(rl)アルゴリズムの評価を専門とするオープンソースライブラリであるshinrlを提案する。 既存のRLライブラリでは、リターンを通じてディープRLアルゴリズムの実用的な性能を評価することができる。 しかしながら、これらのライブラリは、Q学習が真に最適なQ関数を達成するなど、アルゴリズムが理論上期待通りに機能するかどうかを分析するのに必ずしも有用ではない。 対照的に、ShinRLはRL環境インタフェースを提供し、学習されたQ値と最適なQ値と状態訪問頻度のギャップのようなRLアルゴリズムの振る舞いを掘り下げるためのメトリクスを計算できる。 さらに、理論的に正当化されたアルゴリズム(動的プログラミングや表計算RL)と実用的なアルゴリズム(ディープRL、通常いくつかの拡張や正規化を伴う)の両方を一貫した方法で評価するための柔軟なソルバインタフェースを導入する。 ケーススタディとして,shinrlのこれら2つの機能を組み合わせることで,深層q学習の動作解析が容易になることを示す。 さらに,S ShinRLは,KL正則化の効果や深部Q学習,エントロピー規則化ポリシの強靭性など,最近の理論的知見を実証的に検証するためにも有効であることを示す。 ShinRLのソースコードはGitHubで入手できる。

We present ShinRL, an open-source library specialized for the evaluation of reinforcement learning (RL) algorithms from both theoretical and practical perspectives. Existing RL libraries typically allow users to evaluate practical performances of deep RL algorithms through returns. Nevertheless, these libraries are not necessarily useful for analyzing if the algorithms perform as theoretically expected, such as if Q learning really achieves the optimal Q function. In contrast, ShinRL provides an RL environment interface that can compute metrics for delving into the behaviors of RL algorithms, such as the gap between learned and the optimal Q values and state visitation frequencies. In addition, we introduce a flexible solver interface for evaluating both theoretically justified algorithms (e.g., dynamic programming and tabular RL) and practically effective ones (i.e., deep RL, typically with some additional extensions and regularizations) in a consistent fashion. As a case study, we show that how combining these two features of ShinRL makes it easier to analyze the behavior of deep Q learning. Furthermore, we demonstrate that ShinRL can be used to empirically validate recent theoretical findings such as the effect of KL regularization for value iteration and for deep Q learning, and the robustness of entropy-regularized policies to adversarial rewards. The source code for ShinRL is available on GitHub: https://github.com/o mron-sinicx/ShinRL.
翻訳日:2021-12-09 15:02:59 公開日:2021-12-08
# パレートドメイン適応

Pareto Domain Adaptation ( http://arxiv.org/abs/2112.04137v1 )

ライセンス: Link先を確認
Fangrui Lv, Jian Liang, Kaixiong Gong, Shuang Li, Chi Harold Liu, Han Li, Di Liu, Guoren Wang(参考訳) ドメイン適応(DA)は、ラベル付きソースドメインから、ソースから異なる分布に従うラベル付きターゲットドメインへの知識の転送を試みる。 これを実現するため、DA法は、ソース知識を抽出するソース分類目的と、ドメインシフトを減少させるドメインアライメント目的とを包含し、知識伝達を保証する。 従来のDA法では、トレーニング目的を線形に組み合わせて全体目標を形成するために、いくつかの重み付きハイパーパラメータが採用されている。 しかし、これらの目的の勾配方向はドメインシフトによって互いに矛盾する可能性がある。 このような状況下では、線形最適化スキームは訓練対象の1つを損なうことなく全体目標値を減少させ、制限された解をもたらす可能性がある。 本稿では,勾配に基づく観点から,DAの最適化手法を再考する。 そこで本研究では,pareto domain adaptation (paretoda) アプローチを提案する。 具体的には、ターゲット領域上で望ましい解に到達するために、ターゲット分類を模倣した代理損失を設計する。 模倣を支援するための目標予測精度を向上させるため,ベイズの定理を用いてドメインラベルを利用する目標予測精錬機構を提案する。 一方,目的に対する重み付けスキームの事前知識は,対象領域の最適解に近づくための最適化を導くためにしばしば利用できないため,保持されたラベルなしの目標データセット上でのサーロゲート損失の勾配による協調最適化を動的に導く動的選好機構を提案する。 ParetoDAの有効性を示す画像分類とセマンティックセグメンテーションベンチマークに関する大規模な実験

Domain adaptation (DA) attempts to transfer the knowledge from a labeled source domain to an unlabeled target domain that follows different distribution from the source. To achieve this, DA methods include a source classification objective to extract the source knowledge and a domain alignment objective to diminish the domain shift, ensuring knowledge transfer. Typically, former DA methods adopt some weight hyper-parameters to linearly combine the training objectives to form an overall objective. However, the gradient directions of these objectives may conflict with each other due to domain shift. Under such circumstances, the linear optimization scheme might decrease the overall objective value at the expense of damaging one of the training objectives, leading to restricted solutions. In this paper, we rethink the optimization scheme for DA from a gradient-based perspective. We propose a Pareto Domain Adaptation (ParetoDA) approach to control the overall optimization direction, aiming to cooperatively optimize all training objectives. Specifically, to reach a desirable solution on the target domain, we design a surrogate loss mimicking target classification. To improve target-prediction accuracy to support the mimicking, we propose a target-prediction refining mechanism which exploits domain labels via Bayes' theorem. On the other hand, since prior knowledge of weighting schemes for objectives is often unavailable to guide optimization to approach the optimal solution on the target domain, we propose a dynamic preference mechanism to dynamically guide our cooperative optimization by the gradient of the surrogate loss on a held-out unlabeled target dataset. Extensive experiments on image classification and semantic segmentation benchmarks demonstrate the effectiveness of ParetoDA
翻訳日:2021-12-09 15:02:34 公開日:2021-12-08
# iRoPro: 対話型ロボットプログラミングフレームワーク

iRoPro: An interactive Robot Programming Framework ( http://arxiv.org/abs/2112.04289v1 )

ライセンス: Link先を確認
Ying Siu Liang, Damien Pellier, Humbert Fiorino and Sylvie Pesty(参考訳) 製造環境から個人家庭まで、エンドユーザータスクの多様さは、汎用アプリケーションのための事前プログラミングロボットを極めて困難にしている。 実際、これまで見つからなかったタスクのために再利用できるスクラッチからロボットに新しいアクションを教えることは難しい課題であり、一般的にはロボットの専門家に任されている。 本稿では,ロボットに新たな再利用可能な動作を教えるための技術知識のほとんど,あるいはまったく持たないエンドユーザを対象とする対話型ロボットプログラミングフレームワークであるiroproを提案する。 実演によるプログラミングと自動計画技術を組み合わせて, 審美的実演による新たな行動の指導により, ロボットの知識基盤の構築を可能にする。 アクションは、タスクプランナーによって一般化され、再利用され、ユーザーが以前に認識した問題を解決します。 バクスター・リサーチ・ロボットのエンド・ツー・エンド・エンドシステムとしてiRoProを実装し,ユーザがグラフィカル・ユーザ・インタフェースを通じてカスタマイズして特定のユースケースに適応できることを示す。 提案手法の有効性を評価するため,まず設計前実験を行い,ユーザが関与する概念や提案するロボットプログラミングプロセスの理解を深めた。 実験の結果を設計後の実験と比較し,実際のエンドユーザとアプローチのユーザビリティを検証するためにユーザ調査を行った。 全体として、異なるプログラミングレベルと教育歴を持つユーザーは、iroproとそのロボットプログラミングプロセスを簡単に学べることを示した。

The great diversity of end-user tasks ranging from manufacturing environments to personal homes makes pre-programming robots for general purpose applications extremely challenging. In fact, teaching robots new actions from scratch that can be reused for previously unseen tasks remains a difficult challenge and is generally left up to robotics experts. In this work, we present iRoPro, an interactive Robot Programming framework that allows end-users with little to no technical background to teach a robot new reusable actions. We combine Programming by Demonstration and Automated Planning techniques to allow the user to construct the robot's knowledge base by teaching new actions by kinesthetic demonstration. The actions are generalised and reused with a task planner to solve previously unseen problems defined by the user. We implement iRoPro as an end-to-end system on a Baxter Research Robot to simultaneously teach low- and high-level actions by demonstration that the user can customise via a Graphical User Interface to adapt to their specific use case. To evaluate the feasibility of our approach, we first conducted pre-design experiments to better understand the user's adoption of involved concepts and the proposed robot programming process. We compare results with post-design experiments, where we conducted a user study to validate the usability of our approach with real end-users. Overall, we showed that users with different programming levels and educational backgrounds can easily learn and use iRoPro and its robot programming process.
翻訳日:2021-12-09 15:02:07 公開日:2021-12-08
# 果樹園におけるロボットハーヴェスティングの形状を考慮した果実粒度推定

Geometry-Aware Fruit Grasping Estimation for Robotic Harvesting in Orchards ( http://arxiv.org/abs/2112.04363v1 )

ライセンス: Link先を確認
Hanwen Kang, Xing Wang, and Chao Chen(参考訳) フィールドロボット収穫は近年の農業の発展において有望な技術である。 自然果樹園での収穫前に果実を認識・局在化することがロボットにとって不可欠である。 しかし、果樹園で収穫するロボットの作業スペースは複雑で、多くの果実は枝や葉で囲まれている。 操作する前に各果実の適切な把握ポーズを推定することが重要である。 本研究では,rgb-dカメラからの色と形状の知覚データの両方を用いて,エンドツーエンドのインスタンスセグメンテーションと把持推定を行う幾何認識ネットワークa3nを提案する。 さらに、ワークスペース幾何モデリングはロボット操作を支援するために適用される。 さらに,2台のコンシューマレベルのRGB-Dカメラを用いて,ロボットが現場環境の果実を正確に認識し,回収できるグローバル・ローカル・スキャン戦略を実装した。 また,実験において提案したネットワークの精度とロバスト性を総合的に評価した。 実験の結果,a3nは平均計算時間35msのインスタンスセグメンテーション精度で0.873を達成し,平均把握精度は0.61 cm,4.8$^{\circ}$であった。 総じて、グローバル・ローカル・スキャンとA3Nを利用したロボットシステムは、収穫実験において70%から85パーセントの範囲で収穫の成功率を達成する。

Field robotic harvesting is a promising technique in recent development of agricultural industry. It is vital for robots to recognise and localise fruits before the harvesting in natural orchards. However, the workspace of harvesting robots in orchards is complex: many fruits are occluded by branches and leaves. It is important to estimate a proper grasping pose for each fruit before performing the manipulation. In this study, a geometry-aware network, A3N, is proposed to perform end-to-end instance segmentation and grasping estimation using both color and geometry sensory data from a RGB-D camera. Besides, workspace geometry modelling is applied to assist the robotic manipulation. Moreover, we implement a global-to-local scanning strategy, which enables robots to accurately recognise and retrieve fruits in field environments with two consumer-level RGB-D cameras. We also evaluate the accuracy and robustness of proposed network comprehensively in experiments. The experimental results show that A3N achieves 0.873 on instance segmentation accuracy, with an average computation time of 35 ms. The average accuracy of grasping estimation is 0.61 cm and 4.8$^{\circ}$ in centre and orientation, respectively. Overall, the robotic system that utilizes the global-to-local scanning and A3N, achieves success rate of harvesting ranging from 70\% - 85\% in field harvesting experiments.
翻訳日:2021-12-09 15:01:41 公開日:2021-12-08
# (参考訳) 視覚自己スーパービジョンとモデルロバスト性への影響について [全文訳有]

On visual self-supervision and its effect on model robustness ( http://arxiv.org/abs/2112.04367v1 )

ライセンス: CC BY 4.0
Michal Kucer, Diane Oyen, Garrett Kenyon(参考訳) 最近の自己スーパービジョン手法は、完全な監視からそれと競合する可能性のある特徴表現の学習に成功し、モデルにいくつかの点で有益であることが示されている。 本論文では,自己教師あり学習の方法をより正確に理解するために,経験的研究を行う。事前学習手法や,悪意あるトレーニングの一部として,モデルのロバスト性が$l_2$ と $l_{\infty}$ の対立的摂動と自然画像の腐敗に適合する。 自己監督はモデルロバスト性を改善することができるが、悪魔は細部にある。 敵の訓練に単純に自己スーパービジョンの損失を加えると、ロバストなモデルで訓練される$\epsilon_{train}$の値に比較して、敵の摂動を小さく評価することで、モデルの精度が向上する。 しかし、$\epsilon_{test} \ge \epsilon_{train}$の精度を観測すると、モデルの精度は低下する。 実際、監督損失の重さが大きいほど、パフォーマンスが低下し、すなわちモデルの堅牢性が損なわれる。 敵の訓練に自己超越を付加する主要な方法を特定し, 自己監督的損失を用いて両ネットワークパラメータを最適化し, 敵の例を見出すことにより, モデルロバスト性は向上し, アンサンブル対人訓練の一形態と見なすことができる。 自己監督型プレトレーニングは, ランダムウェイトの初期化と比較して, 対向トレーニングの改善に効果があるが, 自己監督型プレトレーニングを対向トレーニングに組み込んだ場合, モデル堅牢性や精度には何の利益も与えない。

Recent self-supervision methods have found success in learning feature representations that could rival ones from full supervision, and have been shown to be beneficial to the model in several ways: for example improving models robustness and out-of-distribution detection. In our paper, we conduct an empirical study to understand more precisely in what way can self-supervised learning - as a pre-training technique or part of adversarial training - affects model robustness to $l_2$ and $l_{\infty}$ adversarial perturbations and natural image corruptions. Self-supervision can indeed improve model robustness, however it turns out the devil is in the details. If one simply adds self-supervision loss in tandem with adversarial training, then one sees improvement in accuracy of the model when evaluated with adversarial perturbations smaller or comparable to the value of $\epsilon_{train}$ that the robust model is trained with. However, if one observes the accuracy for $\epsilon_{test} \ge \epsilon_{train}$, the model accuracy drops. In fact, the larger the weight of the supervision loss, the larger the drop in performance, i.e. harming the robustness of the model. We identify primary ways in which self-supervision can be added to adversarial training, and observe that using a self-supervised loss to optimize both network parameters and find adversarial examples leads to the strongest improvement in model robustness, as this can be viewed as a form of ensemble adversarial training. Although self-supervised pre-training yields benefits in improving adversarial training as compared to random weight initialization, we observe no benefit in model robustness or accuracy if self-supervision is incorporated into adversarial training.
翻訳日:2021-12-09 14:59:31 公開日:2021-12-08
# gpco : 教師なしグリーンポイントクラウドオドメトリー法

GPCO: An Unsupervised Green Point Cloud Odometry Method ( http://arxiv.org/abs/2112.04054v1 )

ライセンス: Link先を確認
Pranav Kadam, Min Zhang, Shan Liu, C.-C. Jay Kuo(参考訳) 視覚計測は、視覚センサが捉えた情報を用いて物体の漸進的な動きを追跡することを目的としている。 本研究では,lidar (light detection and ranging) によって得られた点雲スキャンのみを用いて物体の運動軌跡を推定する点雲オドメトリ問題について検討する。 ライトウェイトポイントクラウドオドメトリ (lightweight point cloud odometry) ソリューションが提案され、グリーンポイントクラウドオドメトリ (green point cloud odometry,gpco) と名付けられた。 GPCOは、連続点雲スキャンの特徴と一致することによって物体の動きを予測する教師なし学習法である。 3つのステップからなる。 まず、幾何対応の点サンプリングスキームを用いて、大きな点雲から識別点を選択する。 次に、ビューをオブジェクトを囲む4つのリージョンに分割し、PointHop++メソッドを使用してポイント特徴を抽出する。 第3に、2つの連続走査間の物体の動きを推定する点対応を確立する。 GPCO法の有効性を示すため,KITTIデータセットの実験を行った。 GPCOは,モデルサイズが大幅に小さく,トレーニング時間も少ないのに対して,ディープラーニング手法を精度良く評価する。

Visual odometry aims to track the incremental motion of an object using the information captured by visual sensors. In this work, we study the point cloud odometry problem, where only the point cloud scans obtained by the LiDAR (Light Detection And Ranging) are used to estimate object's motion trajectory. A lightweight point cloud odometry solution is proposed and named the green point cloud odometry (GPCO) method. GPCO is an unsupervised learning method that predicts object motion by matching features of consecutive point cloud scans. It consists of three steps. First, a geometry-aware point sampling scheme is used to select discriminant points from the large point cloud. Second, the view is partitioned into four regions surrounding the object, and the PointHop++ method is used to extract point features. Third, point correspondences are established to estimate object motion between two consecutive scans. Experiments on the KITTI dataset are conducted to demonstrate the effectiveness of the GPCO method. It is observed that GPCO outperforms benchmarking deep learning methods in accuracy while it has a significantly smaller model size and less training time.
翻訳日:2021-12-09 14:43:37 公開日:2021-12-08
# 学習意味ピラミッドを用いたフルコンテキスト認識画像のインペインティング

Fully Context-Aware Image Inpainting with a Learned Semantic Pyramid ( http://arxiv.org/abs/2112.04107v1 )

ライセンス: Link先を確認
Wendong Zhang, Yunbo Wang, Junwei Zhu, Ying Tai, Bingbing Ni, Xiaokang Yang(参考訳) 画像中の任意の欠落領域に対して、合理的で現実的なコンテンツを復元することは、重要な課題である。 最近の画像インパインティングモデルは、鮮明な視覚的詳細を生成するために大きな進歩を遂げているが、より複雑なシーンを扱う際には、テクスチャのぼやけや構造的歪みが生じる可能性がある。 この問題に対処するために,特定のプレテキストタスクから複数スケールのセマンティック・セマンティック・セマンティック・セマンティック・セマンティック・ネットワーク(SPN)を提案する。 SPNは2つのコンポーネントから構成される。 まず、プレテキストモデルからマルチスケールの特徴ピラミッドにセマンティック先行を蒸留し、グローバルコンテキストと局所構造を一貫した理解を達成する。 先行学習者の中では,様々な学習先行に駆動される確率的画像の着色を実現するために,変分推論のためのオプションモジュールを提案する。 SPNの第2のコンポーネントは、完全にコンテキスト対応の画像生成装置で、(確率的な)以前のピラミッドで複数のスケールで低レベルな視覚表現を適応的かつ漸進的に洗練する。 我々は,事前学習者および画像生成者を後処理なしで統一モデルとして訓練する。 当社のアプローチでは,Places2,Paris StreetView,CelebA,Ce lebA-HQといった複数のデータセット上で,決定論的および確率的インパインティング設定の下で,技術の現状を実現する。

Restoring reasonable and realistic content for arbitrary missing regions in images is an important yet challenging task. Although recent image inpainting models have made significant progress in generating vivid visual details, they can still lead to texture blurring or structural distortions due to contextual ambiguity when dealing with more complex scenes. To address this issue, we propose the Semantic Pyramid Network (SPN) motivated by the idea that learning multi-scale semantic priors from specific pretext tasks can greatly benefit the recovery of locally missing content in images. SPN consists of two components. First, it distills semantic priors from a pretext model into a multi-scale feature pyramid, achieving a consistent understanding of the global context and local structures. Within the prior learner, we present an optional module for variational inference to realize probabilistic image inpainting driven by various learned priors. The second component of SPN is a fully context-aware image generator, which adaptively and progressively refines low-level visual representations at multiple scales with the (stochastic) prior pyramid. We train the prior learner and the image generator as a unified model without any post-processing. Our approach achieves the state of the art on multiple datasets, including Places2, Paris StreetView, CelebA, and CelebA-HQ, under both deterministic and probabilistic inpainting setups.
翻訳日:2021-12-09 14:43:18 公開日:2021-12-08
# セマンティックセグメンテーションのための完全注意ネットワーク

Fully Attentional Network for Semantic Segmentation ( http://arxiv.org/abs/2112.04108v1 )

ライセンス: Link先を確認
Qi Song, Jie Li, Chenghong Li, Hao Guo, Rui Huang(参考訳) 近年の非局所的自己認識法は,意味的セグメンテーションのための長距離依存関係の捕捉に有効であることが証明されている。 これらの方法は、通常、(空間次元を圧縮することによって)RC*CやRHW*HWの類似性マップを形成し、(チャネルを圧縮することによって)チャネルまたは空間次元に沿った特徴関係を記述する(Cはチャネルの数、HとWは入力特徴写像の空間次元)。 しかし、このようなプラクティスは、他の次元に沿って機能依存性を凝縮し、注意をそらす傾向があり、小さな/薄いカテゴリや大きなオブジェクト内の一貫性のないセグメンテーションでは、結果が劣る可能性がある。 この問題に対処するため,FLANet (Fully Attentional Network) という新しい手法を提案し,高い計算効率を維持しつつ,空間とチャネルの両方の注意を単一の類似性マップに符号化する。 具体的には、各チャンネルマップに対して、フラネットは、新しい完全に注意深いモジュールを通して、他のすべてのチャンネルマップと関連する空間位置から特徴応答を収集できる。 提案手法は,Cityscapesテストセット,ADE20K検証セット,PASCAL VOCテストセットの3つの挑戦的セマンティックセマンティックセマンティクスデータセット,すなわち83.6%,46.99%,88.5%に対して,最先端の性能を達成した。

Recent non-local self-attention methods have proven to be effective in capturing long-range dependencies for semantic segmentation. These methods usually form a similarity map of RC*C (by compressing spatial dimensions) or RHW*HW (by compressing channels) to describe the feature relations along either channel or spatial dimensions, where C is the number of channels, H and W are the spatial dimensions of the input feature map. However, such practices tend to condense feature dependencies along the other dimensions,hence causing attention missing, which might lead to inferior results for small/thin categories or inconsistent segmentation inside large objects. To address this problem, we propose anew approach, namely Fully Attentional Network (FLANet),to encode both spatial and channel attentions in a single similarity map while maintaining high computational efficiency. Specifically, for each channel map, our FLANet can harvest feature responses from all other channel maps, and the associated spatial positions as well, through a novel fully attentional module. Our new method has achieved state-of-the-art performance on three challenging semantic segmentation datasets,i.e., 83.6%, 46.99%, and 88.5% on the Cityscapes test set,the ADE20K validation set, and the PASCAL VOC test set,respectively.
翻訳日:2021-12-09 14:42:51 公開日:2021-12-08
# 生成型逆ネットワークのための特徴統計混合正規化

Feature Statistics Mixing Regularization for Generative Adversarial Networks ( http://arxiv.org/abs/2112.04120v1 )

ライセンス: Link先を確認
Junho Kim, Yunjey Choi, Youngjung Uh(参考訳) 生成型adversarial networkでは、識別器の改善が生成性能の重要なコンポーネントの1つである。 画像分類器はテクスチャに偏り、デバイアスは精度を向上させる 1) 差別者が偏っている場合, 2) 判別者が偏差した場合は, 生成性能が向上する。 実際、識別者がイメージのスタイル(例えばテクスチャと色)に敏感であるという実証的な証拠が得られます。 そこで本研究では,判別器の予測を入力画像のスタイルに不変にするための特徴統計混合正則化(FSMR)を提案する。 具体的には、判別器の特徴空間における原画像と参照画像の混合特徴を生成し、その混合特徴の予測が原画像の予測と一致するように正規化を適用する。 我々は、我々の規則化がスタイルに対する感度を低下させ、9つのデータセット上の様々なGANアーキテクチャの性能を一貫して改善することを示すために、広範な実験を行う。 さらに、最近提案された拡張ベースのGANメソッドにFSMRを追加することにより、画質が向上する。 コードは研究コミュニティ向けにオンラインで公開されている。

In generative adversarial networks, improving discriminators is one of the key components for generation performance. As image classifiers are biased toward texture and debiasing improves accuracy, we investigate 1) if the discriminators are biased, and 2) if debiasing the discriminators will improve generation performance. Indeed, we find empirical evidence that the discriminators are sensitive to the style (\e.g., texture and color) of images. As a remedy, we propose feature statistics mixing regularization (FSMR) that encourages the discriminator's prediction to be invariant to the styles of input images. Specifically, we generate a mixed feature of an original and a reference image in the discriminator's feature space and we apply regularization so that the prediction for the mixed feature is consistent with the prediction for the original image. We conduct extensive experiments to demonstrate that our regularization leads to reduced sensitivity to style and consistently improves the performance of various GAN architectures on nine datasets. In addition, adding FSMR to recently-proposed augmentation-based GAN methods further improves image quality. Code will be publicly available online for the research community.
翻訳日:2021-12-09 14:42:24 公開日:2021-12-08
# ニューラルポイント:ニューラルフィールドを用いたポイントクラウド表現

Neural Points: Point Cloud Representation with Neural Fields ( http://arxiv.org/abs/2112.04148v1 )

ライセンス: Link先を確認
Wanquan Feng, Jin Li, Hongrui Cai, Xiaonan Luo, Juyong Zhang(参考訳) 本稿では,新しい点雲表現である \emph{Neural Points} を提案する。 従来の点雲表現では、各点が3次元空間における位置あるいは局所平面のみを表すのに対し、ニューラル点の各点は、ニューラルネットワークを介して局所的な連続幾何学的形状を表す。 したがって、ニューラルポイントはより複雑な詳細を表現できるため、より強力な表現能力を持つ。 ニューラルポイントは、リッチな幾何学的詳細を含む高分解能表面で訓練され、訓練されたモデルは様々な形状に十分な表現能力を持つ。 具体的には,2次元パラメトリック領域と3次元局所パッチ間の局所同型を通じて,点の深い局所的特徴を抽出し,神経場を構築する。 最後に、局所的な神経場が統合され、大域的な表面を形成する。 実験の結果, ニューラルポイントは強力な表現能力を有し, 優れた堅牢性と一般化能力を示すことがわかった。 ニューラルポイントでは、任意の解像度でポイントクラウドをサンプルすることができ、最先端のポイントクラウドアップサンプリングメソッドを大きなマージンで上回る。

In this paper, we propose \emph{Neural Points}, a novel point cloud representation. Unlike traditional point cloud representation where each point only represents a position or a local plane in the 3D space, each point in Neural Points represents a local continuous geometric shape via neural fields. Therefore, Neural Points can express much more complex details and thus have a stronger representation ability. Neural Points is trained with high-resolution surface containing rich geometric details, such that the trained model has enough expression ability for various shapes. Specifically, we extract deep local features on the points and construct neural fields through the local isomorphism between the 2D parametric domain and the 3D local patch. In the final, local neural fields are integrated together to form the global surface. Experimental results show that Neural Points has powerful representation ability and demonstrate excellent robustness and generalization ability. With Neural Points, we can resample point cloud with arbitrary resolutions, and it outperforms state-of-the-art point cloud upsampling methods by a large margin.
翻訳日:2021-12-09 14:42:07 公開日:2021-12-08
# Garment4D: ポイントクラウドシーケンスからのガーメント再構築

Garment4D: Garment Reconstruction from Point Cloud Sequences ( http://arxiv.org/abs/2112.04159v1 )

ライセンス: Link先を確認
Fangzhou Hong, Liang Pan, Zhongang Cai, Ziwei Liu(参考訳) 3dの衣服を再構築する学習は、異なる形状の人体を異なるポーズで着る上で重要である。 従来は入力として2D画像に頼っていたが、規模や曖昧さに悩まされていた。 2d画像による問題を回避するため,着替えのための3d点雲列を用いた基本枠組みであるwear4dを提案する。 Garment4Dには、シーケンシャルな衣服登録、標準的な衣服推定、服飾復元の3つの専用ステップがある。 主な課題は2つある。 1)詳細のための効果的な3D特徴学習 2)衣服と人体との相互作用による衣服の動態の把握,特にスカートのようなゆるい衣服について。 そこで本研究では,高レベルな意味的特徴と低レベルな幾何学的特徴を融合した,新しい階層的特徴ネットワークと反復的グラフ畳み込みネットワークを提案する。 さらに,スムースな衣服運動をキャプチャする時変圧器を提案する。 非パラメトリックな手法とは異なり,本手法で再構築した衣服メッシュは人体から分離可能であり,下流作業に適した強い解釈性を有する。 この課題の最初の試みとして、高品質な再構築結果は、広範囲な実験によって質的かつ定量的に示される。 コードはhttps://github.com/h ongfz16/garment4dで入手できる。

Learning to reconstruct 3D garments is important for dressing 3D human bodies of different shapes in different poses. Previous works typically rely on 2D images as input, which however suffer from the scale and pose ambiguities. To circumvent the problems caused by 2D images, we propose a principled framework, Garment4D, that uses 3D point cloud sequences of dressed humans for garment reconstruction. Garment4D has three dedicated steps: sequential garments registration, canonical garment estimation, and posed garment reconstruction. The main challenges are two-fold: 1) effective 3D feature learning for fine details, and 2) capture of garment dynamics caused by the interaction between garments and the human body, especially for loose garments like skirts. To unravel these problems, we introduce a novel Proposal-Guided Hierarchical Feature Network and Iterative Graph Convolution Network, which integrate both high-level semantic features and low-level geometric features for fine details reconstruction. Furthermore, we propose a Temporal Transformer for smooth garment motions capture. Unlike non-parametric methods, the reconstructed garment meshes by our method are separable from the human body and have strong interpretability, which is desirable for downstream tasks. As the first attempt at this task, high-quality reconstruction results are qualitatively and quantitatively illustrated through extensive experiments. Codes are available at https://github.com/h ongfz16/Garment4D.
翻訳日:2021-12-09 14:41:51 公開日:2021-12-08
# 参照誘導画像合成における単一画像の評価

Assessing a Single Image in Reference-Guided Image Synthesis ( http://arxiv.org/abs/2112.04163v1 )

ライセンス: Link先を確認
Jiayi Guo, Chaoqun Du, Jiangshan Wang, Huijuan Huang, Pengfei Wan, Gao Huang(参考訳) GAN(Generative Adversarial Networks)の性能評価は,その実用的意義から重要な話題となっている。 いくつかの評価指標が提案されているが、一般に生成した画像全体の品質を評価する。 参照誘導画像合成(ris)タスク、すなわち1つの生成画像の品質評価が不可欠である他の参照画像のスタイルでソース画像をレンダリングする場合、これらのメトリクスは適用されない。 本稿では,単一の画像の品質を定量的に評価する,一般的な学習ベースフレームワークRISA(Reference-Guide d Image Synthesis Assessment)を提案する。 特に、RISAのトレーニングは人間のアノテーションを必要としない。 具体的には、risaのトレーニングデータは、risのトレーニング手順から中間モデルによって取得され、画質とイテレーションの正の相関に基づいて、モデルのイテレーション数によって弱く注釈付けされる。 このアノテーションは、監督信号として粗いため、2つのテクニックを導入します。 1)粗いラベルを精錬する画素間補間スキーム、及び 2) na\"ive regressorを置換する複数のバイナリ分類器。 さらに、生成画像と参照画像とのスタイル類似性を効果的にキャプチャするために、教師なしのコントラスト損失を導入する。 様々なデータセットにおける実験結果から、RISAは人間の好みと極めて整合し、モデル間での転送が良好であることが示された。

Assessing the performance of Generative Adversarial Networks (GANs) has been an important topic due to its practical significance. Although several evaluation metrics have been proposed, they generally assess the quality of the whole generated image distribution. For Reference-guided Image Synthesis (RIS) tasks, i.e., rendering a source image in the style of another reference image, where assessing the quality of a single generated image is crucial, these metrics are not applicable. In this paper, we propose a general learning-based framework, Reference-guided Image Synthesis Assessment (RISA) to quantitatively evaluate the quality of a single generated image. Notably, the training of RISA does not require human annotations. In specific, the training data for RISA are acquired by the intermediate models from the training procedure in RIS, and weakly annotated by the number of models' iterations, based on the positive correlation between image quality and iterations. As this annotation is too coarse as a supervision signal, we introduce two techniques: 1) a pixel-wise interpolation scheme to refine the coarse labels, and 2) multiple binary classifiers to replace a na\"ive regressor. In addition, an unsupervised contrastive loss is introduced to effectively capture the style similarity between a generated image and its reference image. Empirical results on various datasets demonstrate that RISA is highly consistent with human preference and transfers well across models.
翻訳日:2021-12-09 14:41:29 公開日:2021-12-08
# 関連知識蒸留によるコントラスト学習の促進

Boosting Contrastive Learning with Relation Knowledge Distillation ( http://arxiv.org/abs/2112.04174v1 )

ライセンス: Link先を確認
Kai Zheng, Yuanjiang Wang, Ye Yuan(参考訳) 自己教師付き表現学習(SSL)は大きなモデルでは有効であることが証明されているが、同じソリューションに従う場合の軽量モデルでは、SSLと教師付きメソッドの間には大きなギャップがある。 この問題を掘り下げると、軽量モデルは、単にインスタンスのコントラストを実行する場合、セマンティック空間で崩壊しがちである。 この問題に対処するために,関係知識蒸留(Relation Knowledge Distillation, ReKD)を用いた相互比較パラダイムを提案する。 我々は,意味情報を明示的にマイニングし,新しい関係知識を学生に伝達する異種教師を紹介する(軽量モデル)。 理論的分析は、事例的コントラストの主な懸念を支持し、関係的コントラスト学習の有効性を検証する。 また,本手法が複数の軽量モデルにおいて大きな改善をもたらすことを示す。 特に、AlexNetの線形評価は、現在の最先端を44.7%から50.1%に改善し、監督された50.5%に近づいた最初の研究である。 コードは利用可能になる。

While self-supervised representation learning (SSL) has proved to be effective in the large model, there is still a huge gap between the SSL and supervised method in the lightweight model when following the same solution. We delve into this problem and find that the lightweight model is prone to collapse in semantic space when simply performing instance-wise contrast. To address this issue, we propose a relation-wise contrastive paradigm with Relation Knowledge Distillation (ReKD). We introduce a heterogeneous teacher to explicitly mine the semantic information and transferring a novel relation knowledge to the student (lightweight model). The theoretical analysis supports our main concern about instance-wise contrast and verify the effectiveness of our relation-wise contrastive learning. Extensive experimental results also demonstrate that our method achieves significant improvements on multiple lightweight models. Particularly, the linear evaluation on AlexNet obviously improves the current state-of-art from 44.7% to 50.1%, which is the first work to get close to the supervised 50.5%. Code will be made available.
翻訳日:2021-12-09 14:41:09 公開日:2021-12-08
# VISOLO: 効率的なオンラインビデオインスタンスセグメンテーションのためのグリッドベースの時空間アグリゲーション

VISOLO: Grid-Based Space-Time Aggregation for Efficient Online Video Instance Segmentation ( http://arxiv.org/abs/2112.04177v1 )

ライセンス: Link先を確認
Su Ho Han, Sukjun Hwang, Seoung Wug Oh, Yeonchool Park, Hyunwoo Kim, Min-Jung Kim and Seon Joo Kim(参考訳) オンラインビデオインスタンスセグメンテーション(VIS)では、従来のフレームからの情報を効率的に活用することがリアルタイムアプリケーションに不可欠である。 従来の手法のほとんどは、RPNやRoIAlignのような追加の計算を必要とする2段階のアプローチを踏襲しており、VISのすべてのサブタスクでビデオで利用可能な情報を十分に活用していない。 本稿では,グリッド構造特徴表現に基づくオンラインVISのための新しい単一ステージフレームワークを提案する。 グリッドベースの機能により、リアルタイム処理に完全な畳み込みネットワークを使用できるだけでなく、さまざまなコンポーネントで簡単に機能を再利用し共有することができます。 また、利用可能なフレームから情報を集約する協調動作モジュールを導入し、VISのすべてのサブタスクの機能を強化する。 我々の設計は、VISのすべてのタスクのグリッド形式の以前の情報を効率よく活用し、YouTube-VIS 2019と2021のオンラインVISメソッドの新たな最先端の精度(38.6 APと36.9 AP)とスピード(40.0 FPS)を達成した。

For online video instance segmentation (VIS), fully utilizing the information from previous frames in an efficient manner is essential for real-time applications. Most previous methods follow a two-stage approach requiring additional computations such as RPN and RoIAlign, and do not fully exploit the available information in the video for all subtasks in VIS. In this paper, we propose a novel single-stage framework for online VIS built based on the grid structured feature representation. The grid-based features allow us to employ fully convolutional networks for real-time processing, and also to easily reuse and share features within different components. We also introduce cooperatively operating modules that aggregate information from available frames, in order to enrich the features for all subtasks in VIS. Our design fully takes advantage of previous information in a grid form for all tasks in VIS in an efficient way, and we achieved the new state-of-the-art accuracy (38.6 AP and 36.9 AP) and speed (40.0 FPS) on YouTube-VIS 2019 and 2021 datasets among online VIS methods.
翻訳日:2021-12-09 14:40:49 公開日:2021-12-08
# スケルトンに基づく効率的な行動認識のためのトポロジー認識畳み込みニューラルネットワーク

Topology-aware Convolutional Neural Network for Efficient Skeleton-based Action Recognition ( http://arxiv.org/abs/2112.04178v1 )

ライセンス: Link先を確認
Kailin Xu, Fanfan Ye, Qiaoyong Zhong, Di Xie(参考訳) スケルトンに基づく行動認識では,グラフ畳み込みニューラルネットワーク (gcns) が急速に開発され,畳み込みニューラルネットワーク (cnns) は注目されていない。 1つの理由は、CNNが不規則な骨格トポロジーをモデル化するのに不十分であると考えられるからである。 本稿では,この制限を軽減するために,Topology-Aware CNN (Ta-CNN) という純粋CNNアーキテクチャを提案する。 特に,map-attend-group-ma p操作を組み合わせた新しいクロスチャネル機能拡張モジュールを開発した。 モジュールを座標レベルおよびジョイントレベルに適用することにより、トポロジの特徴を効果的に強化する。 特に,ジョイント次元をチャネルとして扱う場合,グラフ畳み込みが正規畳み込みの特別な場合であることを理論的に証明する。 これは、GCNのトポロジモデリング能力がCNNを用いて実装可能であることを確認する。 さらに,2人を独特な方法で混合し,パフォーマンスをさらに向上するSkeletonMix戦略を創造的に設計する。 Ta-CNNの有効性を検証するために、N-UCLA、SBU、NTU RGB+D、NTU RGB+D 120の4つの広く使われているデータセットに対して大規模な実験を行った。 我々は既存のCNNベースの手法をはるかに上回っている。 主要なGCNベースの手法と比較して、必要なGFLOPやパラメータに関して、はるかに少ない複雑さで同等のパフォーマンスを達成する。

In the context of skeleton-based action recognition, graph convolutional networks (GCNs) have been rapidly developed, whereas convolutional neural networks (CNNs) have received less attention. One reason is that CNNs are considered poor in modeling the irregular skeleton topology. To alleviate this limitation, we propose a pure CNN architecture named Topology-aware CNN (Ta-CNN) in this paper. In particular, we develop a novel cross-channel feature augmentation module, which is a combo of map-attend-group-map operations. By applying the module to the coordinate level and the joint level subsequently, the topology feature is effectively enhanced. Notably, we theoretically prove that graph convolution is a special case of normal convolution when the joint dimension is treated as channels. This confirms that the topology modeling power of GCNs can also be implemented by using a CNN. Moreover, we creatively design a SkeletonMix strategy which mixes two persons in a unique manner and further boosts the performance. Extensive experiments are conducted on four widely used datasets, i.e. N-UCLA, SBU, NTU RGB+D and NTU RGB+D 120 to verify the effectiveness of Ta-CNN. We surpass existing CNN-based methods significantly. Compared with leading GCN-based methods, we achieve comparable performance with much less complexity in terms of the required GFLOPs and parameters.
翻訳日:2021-12-09 14:40:08 公開日:2021-12-08
# マルチモーダルトレーニングによる一様顔分類

Unimodal Face Classification with Multimodal Training ( http://arxiv.org/abs/2112.04182v1 )

ライセンス: Link先を確認
Wenbin Teng and Chongyang Bai(参考訳) 顔認識は、セキュリティチェック、クレデンシャルアクセス、モーションセンシングゲームなど、様々なマルチメディアアプリケーションにおいて重要なタスクである。 しかし、入力面がノイズ(例えば、条件の悪いRGB画像)であるか、特定の情報(例えば、色のない3D顔)が欠けている場合、タスクは困難である。 本研究では,学習中の相互モダリティ関係を活用し,テスト中の不完全な単一モダリティ入力の補完として適用する,ロバストな顔分類のためのマルチモーダルトレーニングユニモダリティテスト(mtut)フレームワークを提案する。 技術面では,(1)モダリティ内およびモダリティ間オートエンコーダの両方を顔属性の助けを借りて構築し,マルチモーダル記述子として潜伏埋め込みを学習し,(2)異なるモダリティから不均一な特徴を整合させる新しい多モーダル埋め込み分散損失を提案する。 これにより、学習したオートエンコーダは、テストステージ上の単一モードの顔分類に堅牢な埋め込みを生成することができる。 2dと3dのモダリティがトレーニングに利用できる場合,(1)不良条件画像と(2)ポイントクラウド,または3d顔メッシュの2つの顔分類データセットと2種類のテスト入力でフレームワークを評価した。 MTUTフレームワークは、両方のデータセットの2Dおよび3D設定において、10のベースラインを一貫して上回ることを示す。

Face recognition is a crucial task in various multimedia applications such as security check, credential access and motion sensing games. However, the task is challenging when an input face is noisy (e.g. poor-condition RGB image) or lacks certain information (e.g. 3D face without color). In this work, we propose a Multimodal Training Unimodal Test (MTUT) framework for robust face classification, which exploits the cross-modality relationship during training and applies it as a complementary of the imperfect single modality input during testing. Technically, during training, the framework (1) builds both intra-modality and cross-modality autoencoders with the aid of facial attributes to learn latent embeddings as multimodal descriptors, (2) proposes a novel multimodal embedding divergence loss to align the heterogeneous features from different modalities, which also adaptively avoids the useless modality (if any) from confusing the model. This way, the learned autoencoders can generate robust embeddings in single-modality face classification on test stage. We evaluate our framework in two face classification datasets and two kinds of testing input: (1) poor-condition image and (2) point cloud or 3D face mesh, when both 2D and 3D modalities are available for training. We experimentally show that our MTUT framework consistently outperforms ten baselines on 2D and 3D settings of both datasets.
翻訳日:2021-12-09 14:39:45 公開日:2021-12-08
# 歩行者は注意を払うか? 野生における眼球接触検出

Do Pedestrians Pay Attention? Eye Contact Detection in the Wild ( http://arxiv.org/abs/2112.04212v1 )

ライセンス: Link先を確認
Younes Belkada, Lorenzo Bertoni, Romain Caristan, Taylor Mordan and Alexandre Alahi(参考訳) 都市や混雑した環境では、人間は近くの人々との迅速かつ効率的なコミュニケーションのためにアイコンタクトに頼る。 自律エージェントはまた、歩行者と対話し、安全に周囲を移動するためにアイコンタクトを検出する必要がある。 本稿では,環境や歩行者の距離を制御しない自律走行車における実世界のシナリオとして,野生のアイコンタクト検出に焦点をあてる。 我々は、セマンティックキーポイントを利用してアイコンタクトを検出するモデルを導入し、このハイレベルな表現を示す。 (i)公開データセットjaadの最先端結果を達成し、 (II) エンド・ツー・エンドのネットワークで生画像を利用するよりも、より優れた一般化特性を伝達する。 ドメイン適応を研究するために、私たちはlook: a large-scale dataset for eye contact detection in the wild(野生のアイコンタクト検出のための大規模データセット)を作成します。 ソースコードとLOOKデータセットは、オープンサイエンスミッションに向けて公開されています。

In urban or crowded environments, humans rely on eye contact for fast and efficient communication with nearby people. Autonomous agents also need to detect eye contact to interact with pedestrians and safely navigate around them. In this paper, we focus on eye contact detection in the wild, i.e., real-world scenarios for autonomous vehicles with no control over the environment or the distance of pedestrians. We introduce a model that leverages semantic keypoints to detect eye contact and show that this high-level representation (i) achieves state-of-the-art results on the publicly-available dataset JAAD, and (ii) conveys better generalization properties than leveraging raw images in an end-to-end network. To study domain adaptation, we create LOOK: a large-scale dataset for eye contact detection in the wild, which focuses on diverse and unconstrained scenarios for real-world generalization. The source code and the LOOK dataset are publicly shared towards an open science mission.
翻訳日:2021-12-09 14:39:15 公開日:2021-12-08
# SimulSLT: エンドツーエンドの手話翻訳

SimulSLT: End-to-End Simultaneous Sign Language Translation ( http://arxiv.org/abs/2112.04228v1 )

ライセンス: Link先を確認
Aoxiong Yin, Zhou Zhao, Jinglin Liu, Weike Jin, Meng Zhang, Xingshan Zeng, Xiaofei He(参考訳) 近年,社会的な意義の深い技術としての手話翻訳が研究者の興味を惹きつけている。 しかし、既存の手話翻訳手法では、翻訳を開始する前にすべてのビデオを読む必要があるため、推論のレイテンシが高く、実際のシナリオではアプリケーションを制限している。 そこで本研究では,手話動画をテキストに同時変換可能な,最初のエンドツーエンド同時手話翻訳モデルであるSimulSLTを提案する。 SimulSLTはテキストデコーダ、境界予測器、マスク付きエンコーダで構成される。 私たち 1) 同時翻訳にwait-k戦略を使用する。 2) 信号言語ビデオと光沢の対応をモデル化するために用いられる光沢境界を出力するために, 統合・消火モジュールに基づく新しい境界予測器を設計する。 3) モデルがより豊富な文脈情報を得るのに役立つ革新的な再符号化手法を提案する。 rwth-phoenix-weather 2014tデータセットで行った実験の結果、simulsltは低レイテンシを維持しながら最新のエンドツーエンドの非同種手話翻訳モデルを超えるbleuスコアを達成しており、この手法の有効性が証明された。

Sign language translation as a kind of technology with profound social significance has attracted growing researchers' interest in recent years. However, the existing sign language translation methods need to read all the videos before starting the translation, which leads to a high inference latency and also limits their application in real-life scenarios. To solve this problem, we propose SimulSLT, the first end-to-end simultaneous sign language translation model, which can translate sign language videos into target text concurrently. SimulSLT is composed of a text decoder, a boundary predictor, and a masked encoder. We 1) use the wait-k strategy for simultaneous translation. 2) design a novel boundary predictor based on the integrate-and-fire module to output the gloss boundary, which is used to model the correspondence between the sign language video and the gloss. 3) propose an innovative re-encode method to help the model obtain more abundant contextual information, which allows the existing video features to interact fully. The experimental results conducted on the RWTH-PHOENIX-Weather 2014T dataset show that SimulSLT achieves BLEU scores that exceed the latest end-to-end non-simultaneous sign language translation model while maintaining low latency, which proves the effectiveness of our method.
翻訳日:2021-12-09 14:39:02 公開日:2021-12-08
# fppn:自動運転のための疑似ライダーフレーム予測

FPPN: Future Pseudo-LiDAR Frame Prediction for Autonomous Driving ( http://arxiv.org/abs/2112.04401v1 )

ライセンス: Link先を確認
Xudong Huang, Chunyu Lin, Haojie Liu, Lang Nie and Yao Zhao(参考訳) LiDARセンサは、信頼性の高い3次元空間情報により、自律走行に広く利用されている。 しかし、LiDARのデータは希少であり、LiDARの周波数はカメラよりも低い。 空間的・時間的に高密度な点雲を生成するために,第1次擬似LiDARフレーム予測ネットワークを提案する。 連続したスパース深度マップとrgb画像から,まず,動的動き情報に基づく将来の濃厚深度マップを粗く予測する。 光フロー推定の誤差を解消するため, 歪んだ深度マップを適応重みで融合させるために, フレーム間アグリゲーションモジュールを提案する。 そして静的な文脈情報を用いて予測された深度マップを精査する。 将来の擬似LiDARフレームは、予測された高密度深度マップを対応する3D点雲に変換することで得ることができる。 実験の結果,本手法はkittiベンチマークの既存ソリューションよりも優れていた。

LiDAR sensors are widely used in autonomous driving due to the reliable 3D spatial information. However, the data of LiDAR is sparse and the frequency of LiDAR is lower than that of cameras. To generate denser point clouds spatially and temporally, we propose the first future pseudo-LiDAR frame prediction network. Given the consecutive sparse depth maps and RGB images, we first predict a future dense depth map based on dynamic motion information coarsely. To eliminate the errors of optical flow estimation, an inter-frame aggregation module is proposed to fuse the warped depth maps with adaptive weights. Then, we refine the predicted dense depth map using static contextual information. The future pseudo-LiDAR frame can be obtained by converting the predicted dense depth map into corresponding 3D point clouds. Experimental results show that our method outperforms the existing solutions on the popular KITTI benchmark.
翻訳日:2021-12-09 14:38:39 公開日:2021-12-08
# (参考訳) 数兆のトークンからの検索による言語モデルの改善

Improving language models by retrieving from trillions of tokens ( http://arxiv.org/abs/2112.04426v1 )

ライセンス: CC BY 4.0
Sebastian Borgeaud, Arthur Mensch, Jordan Hoffmann, Trevor Cai, Eliza Rutherford, Katie Millican, George van den Driessche, Jean-Baptiste Lespiau, Bogdan Damoc, Aidan Clark, Diego de Las Casas, Aurelia Guy, Jacob Menick, Roman Ring, Tom Hennigan, Saffron Huang, Loren Maggiore, Chris Jones, Albin Cassirer, Andy Brock, Michela Paganini, Geoffrey Irving, Oriol Vinyals, Simon Osindero, Karen Simonyan, Jack W. Rae, Erich Elsen, Laurent Sifre(参考訳) 我々は,先行トークンと局所的類似性に基づいて,大規模コーパスから取得した文書チャンクを条件付けすることで,自動回帰言語モデルを強化する。 2兆ドルのトークンデータベースを使用すれば、25$\times$パラメータが少ないにも関わらず、Retrieval-Enhanced Transformer(RETRO)は、Pile上のGPT-3やJurassic-1に匹敵するパフォーマンスを得ることができます。 微調整の後、RETROのパフォーマンスは質問応答のような下流の知識集約タスクに変換される。 RETROは、凍結したベルトレトリバー、微分可能なエンコーダ、チャンクされたクロスアテンション機構を組み合わせて、トレーニング中に通常消費されるものよりもはるかに多くのデータに基づいてトークンを予測する。 典型的には、RETROをゼロからトレーニングするが、事前訓練された変換器を迅速に検索でき、性能も良好である。 我々の研究は、前例のない規模で明示的なメモリを通して言語モデルを改善するための新しい道を開く。

We enhance auto-regressive language models by conditioning on document chunks retrieved from a large corpus, based on local similarity with preceding tokens. With a $2$ trillion token database, our Retrieval-Enhanced Transformer (RETRO) obtains comparable performance to GPT-3 and Jurassic-1 on the Pile, despite using 25$\times$ fewer parameters. After fine-tuning, RETRO performance translates to downstream knowledge-intensive tasks such as question answering. RETRO combines a frozen Bert retriever, a differentiable encoder and a chunked cross-attention mechanism to predict tokens based on an order of magnitude more data than what is typically consumed during training. We typically train RETRO from scratch, yet can also rapidly RETROfit pre-trained transformers with retrieval and still achieve good performance. Our work opens up new avenues for improving language models through explicit memory at unprecedented scale.
翻訳日:2021-12-09 14:38:24 公開日:2021-12-08
# 加算移動帯域におけるベストアーム識別

Best Arm Identification under Additive Transfer Bandits ( http://arxiv.org/abs/2112.04083v1 )

ライセンス: Link先を確認
Ojash Neopane, Aaditya Ramdas, Aarti Singh(参考訳) 多腕包帯(MAB)には2組のアーム(ソースとターゲット)が存在するため、最適なアーム識別(BAI)問題の変種を考察し、ソースアームのみを引っ張りながら最適なターゲットアームを決定することを目的とする。 本稿では,その手法が未知であるにも関わらず,ソースとターゲットのmabインスタンスの間に既知の付加的な関係がある場合について検討する。 我々のフレームワークは、これまで研究されてきた純粋探索問題をどのようにカバーし、さらに新しい問題を捉えるかを示す。 我々は,高確率で$\epsilon$-optimalターゲットアームを同定するlucb型アルゴリズムを提案し,理論的に解析する。 理論解析では,典型的な bai では発生しないトランスファー学習問題の側面を強調すると同時に,単一領域 bai に対して lucb アルゴリズムを特殊ケースとして復元する。

We consider a variant of the best arm identification (BAI) problem in multi-armed bandits (MAB) in which there are two sets of arms (source and target), and the objective is to determine the best target arm while only pulling source arms. In this paper, we study the setting when, despite the means being unknown, there is a known additive relationship between the source and target MAB instances. We show how our framework covers a range of previously studied pure exploration problems and additionally captures new problems. We propose and theoretically analyze an LUCB-style algorithm to identify an $\epsilon$-optimal target arm with high probability. Our theoretical analysis highlights aspects of this transfer learning problem that do not arise in the typical BAI setup, and yet recover the LUCB algorithm for single domain BAI as a special case.
翻訳日:2021-12-09 14:36:33 公開日:2021-12-08
# PACコンビネーション純粋探索のための高速アルゴリズム

A Fast Algorithm for PAC Combinatorial Pure Exploration ( http://arxiv.org/abs/2112.04197v1 )

ライセンス: Link先を確認
Noa Ben-David and Sivan Sabato(参考訳) 我々は,各アームの報酬が事前に不明であり,アームプルを用いて推定する必要がある場合に,組合せ集合や腕の報酬の高い発見を扱うコンビネーショナル純粋探索(CPE)の問題を考える。 この問題の以前のアルゴリズムは、多くのケースでサンプル複雑性の低減を得るが、計算量が非常に集中しており、比較的大きな問題であっても実用的ではない。 本研究では,pac設定における新しいcpeアルゴリズムを提案する。これは計算量的に軽量であり,数万の腕を持つ問題に容易に適用できる。 これは、提案アルゴリズムがごく少数の組合せオラクル呼び出しを必要とするためである。 このアルゴリズムは、問題の組合せ構造に基づく排除とともに、連続的なアームの受け入れに基づく。 提案アルゴリズムは,大規模な問題に対して有効性を示すとともに,従来のアルゴリズムは数ダースの腕でも問題を実行するには実用的でないことを示す。 アルゴリズムと実験のコードはhttps://github.com/n oabdavid/csale.comにある。

We consider the problem of Combinatorial Pure Exploration (CPE), which deals with finding a combinatorial set or arms with a high reward, when the rewards of individual arms are unknown in advance and must be estimated using arm pulls. Previous algorithms for this problem, while obtaining sample complexity reductions in many cases, are highly computationally intensive, thus making them impractical even for mildly large problems. In this work, we propose a new CPE algorithm in the PAC setting, which is computationally light weight, and so can easily be applied to problems with tens of thousands of arms. This is achieved since the proposed algorithm requires a very small number of combinatorial oracle calls. The algorithm is based on successive acceptance of arms, along with elimination which is based on the combinatorial structure of the problem. We provide sample complexity guarantees for our algorithm, and demonstrate in experiments its usefulness on large problems, whereas previous algorithms are impractical to run on problems of even a few dozen arms. The code for the algorithms and experiments is provided at https://github.com/n oabdavid/csale.
翻訳日:2021-12-09 14:36:18 公開日:2021-12-08
# 自己学習による対物分類の強化

Enhancing Counterfactual Classification via Self-Training ( http://arxiv.org/abs/2112.04461v1 )

ライセンス: Link先を確認
Ruijiang Gao, Max Biggs, Wei Sun, Ligong Han(参考訳) 従来の教師付き学習とは異なり、多くの設定では部分的なフィードバックしか利用できない。 我々は、選択した行動の結果のみを観察できるが、他の選択肢に関連する反実的な結果ではない。 このような設定は、価格、オンラインマーケティング、精密医療など、さまざまなアプリケーションをカバーする。 重要な課題は、観測データはシステムに展開された歴史的政策に影響され、偏りのあるデータ分布をもたらすことである。 本稿では,この課題をドメイン適応問題としてアプローチし,観察データにおける有限非知覚動作のカテゴリ値を用いて結果を導出し,擬似ラベルによるランダム化試行をシミュレートする自己学習アルゴリズムを提案する。 CST は疑似ラベルを反復的に入力し、モデルを再訓練する。 また,近年のpseudolabelingの理論解析で示された入力一貫性損失により,cstの性能がさらに向上することを示す。 本研究では,合成データと実データの両方に対する提案アルゴリズムの有効性を示す。

Unlike traditional supervised learning, in many settings only partial feedback is available. We may only observe outcomes for the chosen actions, but not the counterfactual outcomes associated with other alternatives. Such settings encompass a wide variety of applications including pricing, online marketing and precision medicine. A key challenge is that observational data are influenced by historical policies deployed in the system, yielding a biased data distribution. We approach this task as a domain adaptation problem and propose a self-training algorithm which imputes outcomes with categorical values for finite unseen actions in the observational data to simulate a randomized trial through pseudolabeling, which we refer to as Counterfactual Self-Training (CST). CST iteratively imputes pseudolabels and retrains the model. In addition, we show input consistency loss can further improve CST performance which is shown in recent theoretical analysis of pseudolabeling. We demonstrate the effectiveness of the proposed algorithms on both synthetic and real datasets.
翻訳日:2021-12-09 14:36:00 公開日:2021-12-08
# すべて一度に - ビデオ検索のためのマルチモーダル核融合変換器

Everything at Once -- Multi-modal Fusion Transformer for Video Retrieval ( http://arxiv.org/abs/2112.04446v1 )

ライセンス: Link先を確認
Nina Shvetsova, Brian Chen, Andrew Rouditchenko, Samuel Thomas, Brian Kingsbury, Rogerio Feris, David Harwath, James Glass, Hilde Kuehne(参考訳) ビデオデータからのマルチモーダル学習は、ゼロショット検索や分類といったタスクを人間のアノテーションなしで意味のある埋め込みを訓練できるため、近年注目を集めている。 本研究では,ビデオ,音声,テキストなどの複数のモダリティ間の情報を交換し,それらを結合したマルチモダリティ表現に統合することで,マルチモダリティな時間情報を集約した埋め込みを得るマルチモダリティ非依存型融合トランスフォーマー手法を提案する。 我々は,1つのモダリティだけでなく1対のモダリティも同時に組み合わせ損失を伴ってシステムを訓練し,位置やモダリティエンコーディングなどのアドオンを明示的に排除することを提案する。 テスト時には、結果のモデルは任意の数の入力モダリティを処理および融合することができる。 さらに、トランスの暗黙的特性により、異なる長さの入力を処理できる。 提案手法を評価するために,大規模なHowTo100Mデータセットを用いてモデルをトレーニングし,その結果の埋め込みスペースを,ゼロショットビデオ検索とゼロショットビデオアクションローカライゼーションの4つの挑戦的ベンチマークデータセット上で評価する。

Multi-modal learning from video data has seen increased attention recently as it allows to train semantically meaningful embeddings without human annotation enabling tasks like zero-shot retrieval and classification. In this work, we present a multi-modal, modality agnostic fusion transformer approach that learns to exchange information between multiple modalities, such as video, audio, and text, and integrate them into a joined multi-modal representation to obtain an embedding that aggregates multi-modal temporal information. We propose to train the system with a combinatorial loss on everything at once, single modalities as well as pairs of modalities, explicitly leaving out any add-ons such as position or modality encoding. At test time, the resulting model can process and fuse any number of input modalities. Moreover, the implicit properties of the transformer allow to process inputs of different lengths. To evaluate the proposed approach, we train the model on the large scale HowTo100M dataset and evaluate the resulting embedding space on four challenging benchmark datasets obtaining state-of-the-art results in zero-shot video retrieval and zero-shot video action localization.
翻訳日:2021-12-09 14:35:45 公開日:2021-12-08
# Transformaly -- 2つの(フィーチャースペース)が1より優れている

Transformaly -- Two (Feature Spaces) Are Better Than One ( http://arxiv.org/abs/2112.04185v1 )

ライセンス: Link先を確認
Matan Jacob Cohen, Shai Avidan(参考訳) 異常検出(英: Anomaly detection)は、所定の分布外のサンプルを識別しようとする、確立された研究分野である。 異常検出パイプラインは、(1)特徴抽出と(2)正規性スコア割り当ての2つの主ステージで構成される。 近年の論文では、事前学習したネットワークを特徴抽出の最先端化に活用している。 しかし、事前訓練ネットワークの利用は、列車時に利用できる通常のサンプルを十分に活用していない。 本論文は,教師養成による情報活用を提案する。 本設定では,教師ネットワークを用いて,通常のトレーニングサンプルに基づいて学生ネットワークをトレーニングする。 学生ネットワークは,通常のサンプルにのみ訓練されるため,異常例では教師ネットワークから逸脱することが期待される。 この差異は、事前訓練された特徴ベクトルの相補的な表現として機能する。 提案手法は,事前学習型視覚変換器(ViT)を用いて,前学習型(非学習型)機能と教師学習型(微調整型)機能の両方を抽出する。 本報告では, AUROCの現状を, 1つのクラスが正常とみなし, 残りのクラスが異常とみなす共通一元的設定と, 1つのクラスを除くすべてのクラスが正常とみなし, 1つのクラスのみ異常とみなすマルチモーダル設定の両方で報告する。 コードはhttps://github.com/M atanCohen1/Transform alyで入手できる。

Anomaly detection is a well-established research area that seeks to identify samples outside of a predetermined distribution. An anomaly detection pipeline is comprised of two main stages: (1) feature extraction and (2) normality score assignment. Recent papers used pre-trained networks for feature extraction achieving state-of-the-art results. However, the use of pre-trained networks does not fully-utilize the normal samples that are available at train time. This paper suggests taking advantage of this information by using teacher-student training. In our setting, a pretrained teacher network is used to train a student network on the normal training samples. Since the student network is trained only on normal samples, it is expected to deviate from the teacher network in abnormal cases. This difference can serve as a complementary representation to the pre-trained feature vector. Our method -- Transformaly -- exploits a pre-trained Vision Transformer (ViT) to extract both feature vectors: the pre-trained (agnostic) features and the teacher-student (fine-tuned) features. We report state-of-the-art AUROC results in both the common unimodal setting, where one class is considered normal and the rest are considered abnormal, and the multimodal setting, where all classes but one are considered normal, and just one class is considered abnormal. The code is available at https://github.com/M atanCohen1/Transform aly.
翻訳日:2021-12-09 14:33:57 公開日:2021-12-08
# 自己監督型モデルは継続的な学習者である

Self-Supervised Models are Continual Learners ( http://arxiv.org/abs/2112.04215v1 )

ライセンス: Link先を確認
Enrico Fini, Victor G. Turrisi da Costa, Xavier Alameda-Pineda, Elisa Ricci, Karteek Alahari, Julien Mairal(参考訳) 自己教師付きモデルでは、ラベルのない大規模データをオフラインでトレーニングする場合、教師付きモデルと同等あるいは優れた視覚的表現を生成することが示されている。 しかし、データを連続的にモデルに提示する連続学習(cl)シナリオでは、その効果は破滅的に低下する。 本稿では,表現の現在の状態を過去の状態にマッピングする予測ネットワークを追加することにより,自己教師付き損失関数をCLの蒸留機構にシームレスに変換できることを示す。 これにより、連続的な自己監督型視覚表現学習のためのフレームワークを作成できる。 (i)学習した表現の質を著しく向上させる。 (ii)最先端の自己管理目的と互換性があり、 (iii)ハイパーパラメータチューニングをほとんど必要としない。 提案手法は,様々なcl環境において6種類の自己教師付きモデルを訓練することで実証的に有効性を示す。

Self-supervised models have been shown to produce comparable or better visual representations than their supervised counterparts when trained offline on unlabeled data at scale. However, their efficacy is catastrophically reduced in a Continual Learning (CL) scenario where data is presented to the model sequentially. In this paper, we show that self-supervised loss functions can be seamlessly converted into distillation mechanisms for CL by adding a predictor network that maps the current state of the representations to their past state. This enables us to devise a framework for Continual self-supervised visual representation Learning that (i) significantly improves the quality of the learned representations, (ii) is compatible with several state-of-the-art self-supervised objectives, and (iii) needs little to no hyperparameter tuning. We demonstrate the effectiveness of our approach empirically by training six popular self-supervised models in various CL settings.
翻訳日:2021-12-09 14:33:32 公開日:2021-12-08
# GCA-Net : 画像のフォージェリ位置と検出を改善するためのゲーテッドコンテキストアテンションの利用

GCA-Net : Utilizing Gated Context Attention for Improving Image Forgery Localization and Detection ( http://arxiv.org/abs/2112.04298v1 )

ライセンス: Link先を確認
Sowmen Das, Md. Saiful Islam, Md. Ruhul Amin(参考訳) 法医学的分析は、操作された画像からの隠れた痕跡の同定に依存する。 従来のニューラルネットワークは、特徴の減衰や支配的な空間的特徴に依存しないため、このタスクでは失敗する。 本研究では,グローバルな文脈学習に非局所的注意ブロックを利用するGated Context Attention Network (GCA-Net)を提案する。 さらに,高密度デコーダネットワークと組み合わせたゲートアテンション機構を用いて,デコードフェーズにおける関連する特徴のフローを指示し,正確なローカライゼーションを実現する。 提案する注意フレームワークにより,ネットワークは粗い特徴をフィルタリングすることにより,関連する領域に集中することができる。 さらに,マルチスケール機能融合と効率的な学習戦略を利用することで,GCA-Netは操作領域のスケール変動をよりよく処理できる。 提案手法は,複数のベンチマークデータセットにおいて,平均4.2%-5.4%のAUCで最先端のネットワークより優れていることを示す。 最後に,画像鑑識に対するロバスト性を示すため,広範なアブレーション実験を行った。

Forensic analysis depends on the identification of hidden traces from manipulated images. Traditional neural networks fail in this task because of their inability in handling feature attenuation and reliance on the dominant spatial features. In this work we propose a novel Gated Context Attention Network (GCA-Net) that utilizes the non-local attention block for global context learning. Additionally, we utilize a gated attention mechanism in conjunction with a dense decoder network to direct the flow of relevant features during the decoding phase, allowing for precise localization. The proposed attention framework allows the network to focus on relevant regions by filtering the coarse features. Furthermore, by utilizing multi-scale feature fusion and efficient learning strategies, GCA-Net can better handle the scale variation of manipulated regions. We show that our method outperforms state-of-the-art networks by an average of 4.2%-5.4% AUC on multiple benchmark datasets. Lastly, we also conduct extensive ablation experiments to demonstrate the method's robustness for image forensics.
翻訳日:2021-12-09 14:33:20 公開日:2021-12-08
# Burn After Reading: クロスドメインストリーミングデータに対するオンライン適応

Burn After Reading: Online Adaptation for Cross-domain Streaming Data ( http://arxiv.org/abs/2112.04345v1 )

ライセンス: Link先を確認
Luyu Yang, Mingfei Gao, Zeyuan Chen, Ran Xu, Abhinav Shrivastava, Chetan Ramaiah(参考訳) オンラインプライバシの文脈では、多くの手法が機密データを保護するための複雑なプライバシとセキュリティ保護策を提案している。 本稿では、機密データを保管しないことがセキュリティの最良の方法である、と論じる。 そこで本稿では, 各オンラインサンプルを処理後, 即時削除する「読み終わった後に焼く」オンラインフレームワークを提案する。 一方,ラベル付きパブリックデータとラベル付きプライベートデータとの不可避な分散シフトを,教師なしドメイン適応の問題として取り組む。 具体的には,オンライン適応設定の最も基本的な課題である多種多様なデータペアの欠如を目的とした新しいアルゴリズムを提案する。 そこで我々はCroDoBoと呼ばれるクロスドメインブートストラッピングアプローチを設計し、ドメイン間の複合的な多様性を高める。 さらに,多様な組み合わせの相違点を十分に活用するために,複数の学習者の学習戦略を協調的に活用する。 CroDoBoは、4つのドメイン適応ベンチマークで最先端のオンラインパフォーマンスを達成する。

In the context of online privacy, many methods propose complex privacy and security preserving measures to protect sensitive data. In this paper, we argue that: not storing any sensitive data is the best form of security. Thus we propose an online framework that "burns after reading", i.e. each online sample is immediately deleted after it is processed. Meanwhile, we tackle the inevitable distribution shift between the labeled public data and unlabeled private data as a problem of unsupervised domain adaptation. Specifically, we propose a novel algorithm that aims at the most fundamental challenge of the online adaptation setting--the lack of diverse source-target data pairs. Therefore, we design a Cross-Domain Bootstrapping approach, called CroDoBo, to increase the combined diversity across domains. Further, to fully exploit the valuable discrepancies among the diverse combinations, we employ the training strategy of multiple learners with co-supervision. CroDoBo achieves state-of-the-art online performance on four domain adaptation benchmarks.
翻訳日:2021-12-09 14:33:02 公開日:2021-12-08
# 近距離成分分析レンズによるコントラスト学習の再検討:統合フレームワーク

Revisiting Contrastive Learning through the Lens of Neighborhood Component Analysis: an Integrated Framework ( http://arxiv.org/abs/2112.04468v1 )

ライセンス: Link先を確認
Ching-Yun Ko, Jeet Mohapatra, Sijia Liu, Pin-Yu Chen, Luca Daniel, Lily Weng(参考訳) 近年,自己指導型表現学習のセミナルツールとして,コントラスト学習が注目されている。 本質的には、対比学習(con contrastive learning)は、表現学習のための正と負のサンプルのペアを活用することを目的としている。 コントラスト学習と近傍成分分析(nca)の関連を調べることにより,新しい確率的近近距離のコントラスト学習の視点を提案し,その結果,既存のものよりも優れるコントラスト損失のシリーズを提案する。 提案手法では,下流タスクにおいて高い精度とロバスト性を同時に達成できるコントラスト損失を総合的に設計する新しい手法を提案する。 統合フレームワークにより,標準精度が最大6\%向上し,逆精度が17\%向上した。

As a seminal tool in self-supervised representation learning, contrastive learning has gained unprecedented attention in recent years. In essence, contrastive learning aims to leverage pairs of positive and negative samples for representation learning, which relates to exploiting neighborhood information in a feature space. By investigating the connection between contrastive learning and neighborhood component analysis (NCA), we provide a novel stochastic nearest neighbor viewpoint of contrastive learning and subsequently propose a series of contrastive losses that outperform the existing ones. Under our proposed framework, we show a new methodology to design integrated contrastive losses that could simultaneously achieve good accuracy and robustness on downstream tasks. With the integrated framework, we achieve up to 6\% improvement on the standard accuracy and 17\% improvement on the adversarial accuracy.
翻訳日:2021-12-09 14:32:48 公開日:2021-12-08
# 自己監督型映像表現学習における時間的粒度探索

Exploring Temporal Granularity in Self-Supervised Video Representation Learning ( http://arxiv.org/abs/2112.04480v1 )

ライセンス: Link先を確認
Rui Qian, Yeqing Li, Liangzhe Yuan, Boqing Gong, Ting Liu, Matthew Brown, Serge Belongie, Ming-Hsuan Yang, Hartwig Adam, Yin Cui(参考訳) 本研究は,ビデオ表現学習における時間的グラニュラリティの探索を目的とした,TeGという自己教師型学習フレームワークを提案する。 TeGでは、ビデオから長いクリップをサンプリングし、長いクリップの中に短いクリップを配置します。 そして、その密集した時間的埋め込みを抽出する。 訓練対象は2つの部分から構成される: 短いクリップと長いクリップに対応する時間的埋め込みの類似性を最大化する微粒な時間的学習目標と、2つのクリップのグローバルな埋め込みをまとめる持続的な時間的学習目標である。 本研究は, 時間的粒度の影響を3つの大きな知見で明らかにする。 1) 異なる映像課題は, 時間的粒度の異なる特徴を必要とする。 2)興味深いことに、時間的認識を必要とすると思われるタスクは、時間的持続性の特徴によって実際にうまく対処できる。 3) TeGの柔軟性は、8つのビデオベンチマークで最先端の結果をもたらし、ほとんどの場合、教師付き事前トレーニングよりも優れています。

This work presents a self-supervised learning framework named TeG to explore Temporal Granularity in learning video representations. In TeG, we sample a long clip from a video and a short clip that lies inside the long clip. We then extract their dense temporal embeddings. The training objective consists of two parts: a fine-grained temporal learning objective to maximize the similarity between corresponding temporal embeddings in the short clip and the long clip, and a persistent temporal learning objective to pull together global embeddings of the two clips. Our study reveals the impact of temporal granularity with three major findings. 1) Different video tasks may require features of different temporal granularities. 2) Intriguingly, some tasks that are widely considered to require temporal awareness can actually be well addressed by temporally persistent features. 3) The flexibility of TeG gives rise to state-of-the-art results on 8 video benchmarks, outperforming supervised pre-training in most cases.
翻訳日:2021-12-09 14:32:35 公開日:2021-12-08
# 垂直フェデレーションXGBoostの効率的なバッチ同型暗号化

Efficient Batch Homomorphic Encryption for Vertically Federated XGBoost ( http://arxiv.org/abs/2112.04261v1 )

ライセンス: Link先を確認
Wuxing Xu, Hao Fan, Kaixin Li, Kai Yang(参考訳) aiサービスのパフォーマンスを改善するために、外部データを使用するように努力する企業や機関がますます増えている。 データプライバシとセキュリティの懸念に対処するため、フェデレーション学習は学界と業界の両方から、複数の分離したデータプロバイダにまたがってセキュアにaiモデルを構築するという関心を集めている。 本稿では,実世界における広く使われているxgboostモデルを垂直フェデレーション学習環境に適用する効率問題について検討した。 最先端の垂直連合型XGBoostフレームワークは、多くの暗号化操作と暗号送信を必要とするため、モデルトレーニングはXGBoostモデルをローカルにトレーニングするよりもはるかに効率的である。 このギャップを埋めるため,我々は暗号関連計算と送信のコストをほぼ半分に削減するバッチ準同型暗号法を提案した。 これは、一階微分と二階微分を暗号化、暗号テキスト送信、準同型加算演算のための単一の番号に符号化することで達成される。 複数の一階微分と二階微分の和は、符号化された値の和から同時に復号することができる。 我々は、水平連合学習のためのBatchCryptの研究におけるバッチアイデアに動機付けられ、非常に少数の負の数を許容する制限に対処する新しいバッチメソッドを設計する。 提案手法の符号化手順は, シフト, 切断, 量子化, バッチ化の4ステップからなるが, 復号処理は非量子化と逆変換の4ステップからなる。 提案手法の利点は,理論解析と広範な数値実験によって実証される。

More and more orgainizations and institutions make efforts on using external data to improve the performance of AI services. To address the data privacy and security concerns, federated learning has attracted increasing attention from both academia and industry to securely construct AI models across multiple isolated data providers. In this paper, we studied the efficiency problem of adapting widely used XGBoost model in real-world applications to vertical federated learning setting. State-of-the-art vertical federated XGBoost frameworks requires large number of encryption operations and ciphertext transmissions, which makes the model training much less efficient than training XGBoost models locally. To bridge this gap, we proposed a novel batch homomorphic encryption method to cut the cost of encryption-related computation and transmission in nearly half. This is achieved by encoding the first-order derivative and the second-order derivative into a single number for encryption, ciphertext transmission, and homomorphic addition operations. The sum of multiple first-order derivatives and second-order derivatives can be simultaneously decoded from the sum of encoded values. We are motivated by the batch idea in the work of BatchCrypt for horizontal federated learning, and design a novel batch method to address the limitations of allowing quite few number of negative numbers. The encode procedure of the proposed batch method consists of four steps, including shifting, truncating, quantizing and batching, while the decoding procedure consists of de-quantization and shifting back. The advantages of our method are demonstrated through theoretical analysis and extensive numerical experiments.
翻訳日:2021-12-09 14:32:18 公開日:2021-12-08
# CoMPS: 継続的なメタポリシー検索

CoMPS: Continual Meta Policy Search ( http://arxiv.org/abs/2112.04467v1 )

ライセンス: Link先を確認
Glen Berseth, Zhiwei Zhang, Grace Zhang, Chelsea Finn, Sergey Levine(参考訳) 逐次マルチタスク学習における課題に対処する新しいメタ学習法を開発した。 この設定では、エージェントの目標は、あらゆるタスクに対して素早く高い報酬を達成することである。 事前のメタ強化学習アルゴリズムは、新しいタスクの獲得を加速する有望な結果を示している。 しかし、トレーニング中にすべてのタスクにアクセスする必要がある。 過去の経験を新しいタスクに移すだけでなく、私たちの目標は学習を学習する継続的強化学習アルゴリズムを考案し、以前のタスクでの経験を利用して新しいタスクをより迅速に学ぶことです。 本稿では,従来のタスクを再考することなく,各タスクに対して段階的にメタトレーニングを行うことにより,この制限を除去する手法であるCoMPSを提案する。 CoMPSは連続的に2つのサブルーチンを繰り返す: RLを使って新しいタスクを学習し、RLからの経験を使って完全にオフラインのメタ学習を行い、その後のタスク学習に備える。 CoMPSは、いくつかの課題のある連続制御タスクにおいて、事前の連続学習や外部のメタ強化手法よりも優れていた。

We develop a new continual meta-learning method to address challenges in sequential multi-task learning. In this setting, the agent's goal is to achieve high reward over any sequence of tasks quickly. Prior meta-reinforcement learning algorithms have demonstrated promising results in accelerating the acquisition of new tasks. However, they require access to all tasks during training. Beyond simply transferring past experience to new tasks, our goal is to devise continual reinforcement learning algorithms that learn to learn, using their experience on previous tasks to learn new tasks more quickly. We introduce a new method, continual meta-policy search (CoMPS), that removes this limitation by meta-training in an incremental fashion, over each task in a sequence, without revisiting prior tasks. CoMPS continuously repeats two subroutines: learning a new task using RL and using the experience from RL to perform completely offline meta-learning to prepare for subsequent task learning. We find that CoMPS outperforms prior continual learning and off-policy meta-reinforcement methods on several sequences of challenging continuous control tasks.
翻訳日:2021-12-09 14:30:45 公開日:2021-12-08
# Semantic TrueLearn:レコメンデーションシステムにおけるセマンティック知識グラフの利用

Semantic TrueLearn: Using Semantic Knowledge Graphs in Recommendation Systems ( http://arxiv.org/abs/2112.04368v1 )

ライセンス: Link先を確認
Sahan Bulathwela, Mar\'ia P\'erez-Ortiz, Emine Yilmaz, John Shawe-Taylor(参考訳) 情報レコメンデーションでは、知識領域間の意味的および階層的構造を扱う必要性から多くの課題が発生する。 本研究は,知識トピック間の意味的関連性を取り入れ,意味的関連トピック間の潜在情報を伝達する,状態対応型教育レコメンデーションシステムの構築を目指している。 本稿では,ウィキペディアリンクグラフを用いた学習資源における知識コンポーネント間のこの意味的関連性を利用して,生涯学習シナリオにおける学習者のエンゲージメントと潜伏した知識をより正確に予測することを目的とした,新しい学習モデルを提案する。 この意味で、Semantic TrueLearnは、ベイズ機械学習を活用して人間の直感的な知識表現を構築し、教育的エンゲージメントの予測性能を向上させる。 大規模データセットを用いた実験により,TrueLearnアルゴリズムの新たなセマンティックバージョンは,モデルにセマンティック認識を追加するシンプルな拡張により,予測性能の統計的に有意な改善を実現することが示された。

In informational recommenders, many challenges arise from the need to handle the semantic and hierarchical structure between knowledge areas. This work aims to advance towards building a state-aware educational recommendation system that incorporates semantic relatedness between knowledge topics, propagating latent information across semantically related topics. We introduce a novel learner model that exploits this semantic relatedness between knowledge components in learning resources using the Wikipedia link graph, with the aim to better predict learner engagement and latent knowledge in a lifelong learning scenario. In this sense, Semantic TrueLearn builds a humanly intuitive knowledge representation while leveraging Bayesian machine learning to improve the predictive performance of the educational engagement. Our experiments with a large dataset demonstrate that this new semantic version of TrueLearn algorithm achieves statistically significant improvements in terms of predictive performance with a simple extension that adds semantic awareness to the model.
翻訳日:2021-12-09 14:30:27 公開日:2021-12-08
# 一貫性規則化によるグラフニューラルネットワークの学習改善

Improving the Training of Graph Neural Networks with Consistency Regularization ( http://arxiv.org/abs/2112.04319v1 )

ライセンス: Link先を確認
Chenhui Zhang, Yufei He, Yukuo Cen, Zhenyu Hou, Jie Tang(参考訳) グラフニューラルネットワーク(GNN)は、半教師付き学習シナリオにおいて顕著な成功を収めた。 グラフニューラルネットワークのメッセージパッシングメカニズムは、ラベル付きノードがラベル付き隣人からの監視信号を収集するのに役立つ。 本研究では,半教師付き学習手法として広く採用されている一貫性規則化が,グラフニューラルネットワークの性能向上にどのように役立つかを検討する。 グラフニューラルネットワークにおける整合性正規化の2つの方法を再検討する。 1つは単純整合正則化(SCR)、もう1つは平均教師整合正則化(MCR)である。 一貫性正規化法を2つの最先端gnnと組み合わせ,ogbn-productsデータセット上で実験を行う。 一貫性の規則化により、最先端のGNNのパフォーマンスは、Open Graph Benchmark(OGB)のogbn-productsデータセットにおいて、外部データと非外部データの両方で0.3%向上することができる。

Graph neural networks (GNNs) have achieved notable success in the semi-supervised learning scenario. The message passing mechanism in graph neural networks helps unlabeled nodes gather supervision signals from their labeled neighbors. In this work, we investigate how consistency regularization, one of widely adopted semi-supervised learning methods, can help improve the performance of graph neural networks. We revisit two methods of consistency regularization for graph neural networks. One is simple consistency regularization (SCR), and the other is mean-teacher consistency regularization (MCR). We combine the consistency regularization methods with two state-of-the-art GNNs and conduct experiments on the ogbn-products dataset. With the consistency regularization, the performance of state-of-the-art GNNs can be improved by 0.3% on the ogbn-products dataset of Open Graph Benchmark (OGB) both with and without external data.
翻訳日:2021-12-09 14:29:37 公開日:2021-12-08
# ニューラルネットワークとして展開された反復回復アルゴリズムの一般化誤差境界

Generalization Error Bounds for Iterative Recovery Algorithms Unfolded as Neural Networks ( http://arxiv.org/abs/2112.04364v1 )

ライセンス: Link先を確認
Ekkehard Schnoor, Arash Behboodi and Holger Rauhut(参考訳) 学習型反復型ソフトしきい値アルゴリズム(lista)に動機づけられ,少数の線形測定値からスパース再構成に適したニューラルネットワークの一般クラスを導入する。 層間の重量共有を広範囲に行うことで、リカレントニューラルネットワークから標準フィードフォワードニューラルネットワークに近いネットワークまで、非常に異なるニューラルネットワークタイプに対する統一的な分析を可能にします。 トレーニングサンプルに基づいて,実験的リスク最小化により最適なネットワークパラメータを学習し,低次元線形測定から信号を再構成する最適ネットワークを実現する。 このような深層ネットワークからなる仮説クラスのラデマシェ複雑性を解析することにより一般化境界を導出し、閾値パラメータも考慮する。 我々は、基本的にパラメータの数と深さにのみ依存するサンプルの複雑さの推定値を得る。 我々は,辞書学習のための異なるアルゴリズムや畳み込みニューラルネットワークなど,いくつかの実例の具体的一般化境界を得るために主結果を適用する。

Motivated by the learned iterative soft thresholding algorithm (LISTA), we introduce a general class of neural networks suitable for sparse reconstruction from few linear measurements. By allowing a wide range of degrees of weight-sharing between the layers, we enable a unified analysis for very different neural network types, ranging from recurrent ones to networks more similar to standard feedforward neural networks. Based on training samples, via empirical risk minimization we aim at learning the optimal network parameters and thereby the optimal network that reconstructs signals from their low-dimensional linear measurements. We derive generalization bounds by analyzing the Rademacher complexity of hypothesis classes consisting of such deep networks, that also take into account the thresholding parameters. We obtain estimates of the sample complexity that essentially depend only linearly on the number of parameters and on the depth. We apply our main result to obtain specific generalization bounds for several practical examples, including different algorithms for (implicit) dictionary learning, and convolutional neural networks.
翻訳日:2021-12-09 14:29:24 公開日:2021-12-08
# 最適率:線形回帰における補間学習と正規化の統一理論

Optimistic Rates: A Unifying Theory for Interpolation Learning and Regularization in Linear Regression ( http://arxiv.org/abs/2112.04470v1 )

ライセンス: Link先を確認
Lijia Zhou and Frederic Koehler and Danica J. Sutherland and Nathan Srebro(参考訳) ガウスデータによる線形回帰に対して、「最適化率」(Panchenko 2002; Srebro et al. 2010)として知られる一様収束の局所的概念を研究する。 特に補間学習の理解において特に高次元の設定において重要であることが知られている既存の結果の隠れ定数と対数係数を回避する。 特例として,本分析では,良性過剰条件下での低ノルム補間器の集団リスクを強く特徴づけるKoehler et al. (2021) の保証を回復する。 しかし、楽観的な速度は、任意のトレーニングエラーで予測者を分析する。 これにより、ランダムな設計下でのリッジとLASSOの回帰に関する古典的な統計的保証を回復することができ、過度なパラメータ化状態における近補間子の過剰なリスクを正確に把握するのに役立つ。

We study a localized notion of uniform convergence known as an "optimistic rate" (Panchenko 2002; Srebro et al. 2010) for linear regression with Gaussian data. Our refined analysis avoids the hidden constant and logarithmic factor in existing results, which are known to be crucial in high-dimensional settings, especially for understanding interpolation learning. As a special case, our analysis recovers the guarantee from Koehler et al. (2021), which tightly characterizes the population risk of low-norm interpolators under the benign overfitting conditions. Our optimistic rate bound, though, also analyzes predictors with arbitrary training error. This allows us to recover some classical statistical guarantees for ridge and LASSO regression under random designs, and helps us obtain a precise understanding of the excess risk of near-interpolators in the over-parameterized regime.
翻訳日:2021-12-09 14:28:58 公開日:2021-12-08
# 弱言語による音楽音声表現の学習

Learning music audio representations via weak language supervision ( http://arxiv.org/abs/2112.04214v1 )

ライセンス: Link先を確認
Ilaria Manco, Emmanouil Benetos, Elio Quinton, Gyorgy Fazekas(参考訳) 音楽情報検索のための音声表現は通常、タスク固有の方法で教師付き学習によって学習される。 最先端の結果を生成するのに効果的であるが、このスキームはモデルが持つアプリケーションの範囲に関して柔軟性を欠き、広範囲に注釈付きデータセットを必要とする。 本研究は,音楽音声の汎用表現を学習する唯一の補助信号として,弱整列テキストを活用できるかどうかを問うものである。 この問題に対処するために、我々は、一連のプロキシタスクによって最適化された音楽および言語事前学習(MuLaP)のためのマルチモーダルアーキテクチャを設計する。 弱い監督は、トラックの全体的な音楽内容を伝えるノイズの多い自然言語記述の形で提供される。 事前トレーニング後、モデルのオーディオバックボーンを、音楽オーディオの分類と回帰タスクのセットに転送します。 本手法は,同じ音声バックボーンが生成する音声表現の性能を異なるトレーニング戦略と比較することにより,本手法の有用性を実証し,本手法が検討したすべてのタスクやデータセットにおいて,一貫して同等以上のスコアが得られることを示す。 また,本実験では,MuraPが音声のみの自己教師方式と競合する表現を学習するために,音声カプセルペアを効果的に活用していることを確認した。

Audio representations for music information retrieval are typically learned via supervised learning in a task-specific fashion. Although effective at producing state-of-the-art results, this scheme lacks flexibility with respect to the range of applications a model can have and requires extensively annotated datasets. In this work, we pose the question of whether it may be possible to exploit weakly aligned text as the only supervisory signal to learn general-purpose music audio representations. To address this question, we design a multimodal architecture for music and language pre-training (MuLaP) optimised via a set of proxy tasks. Weak supervision is provided in the form of noisy natural language descriptions conveying the overall musical content of the track. After pre-training, we transfer the audio backbone of the model to a set of music audio classification and regression tasks. We demonstrate the usefulness of our approach by comparing the performance of audio representations produced by the same audio backbone with different training strategies and show that our pre-training method consistently achieves comparable or higher scores on all tasks and datasets considered. Our experiments also confirm that MuLaP effectively leverages audio-caption pairs to learn representations that are competitive with audio-only and cross-modal self-supervised methods in the literature.
翻訳日:2021-12-09 14:28:42 公開日:2021-12-08
# 行列値エッジを持つグラフにおける最短経路:概念,アルゴリズムおよび3次元マルチ形状解析への応用

Shortest Paths in Graphs with Matrix-Valued Edges: Concepts, Algorithm and Application to 3D Multi-Shape Analysis ( http://arxiv.org/abs/2112.04165v1 )

ライセンス: Link先を確認
Viktoria Ehm, Daniel Cremers, Florian Bernard(参考訳) グラフの最も短い経路を見つけることは、画像分割、形状マッチング、離散面上の測地線距離の計算など、コンピュータビジョンやグラフィックの多くの問題に関係している。 伝統的に、最短経路の概念はスカラー辺重みを持つグラフについて考慮されており、個々の辺重みを加算することで経路の長さを計算することができる。 しかし、スカラー辺重みを持つグラフはその表現性において極めて制限されており、しばしばエッジはより複雑な相互関係を符号化するために使用される。 本研究では、このモデリング限界を補い、行列値の辺を持つグラフにおける最短経路の新たなグラフ理論的概念を導入する。 この目的のために,行列値エッジの経路長を定量化する有意義な方法を定義し,各最短経路を計算するための単純で効果的なアルゴリズムを提案する。 我々のフォーマリズムは普遍的であり、視覚、グラフィックなどの幅広い設定に適用できるが、我々はその利点を3次元多形解析の文脈で示すことに重点を置いている。

Finding shortest paths in a graph is relevant for numerous problems in computer vision and graphics, including image segmentation, shape matching, or the computation of geodesic distances on discrete surfaces. Traditionally, the concept of a shortest path is considered for graphs with scalar edge weights, which makes it possible to compute the length of a path by adding up the individual edge weights. Yet, graphs with scalar edge weights are severely limited in their expressivity, since oftentimes edges are used to encode significantly more complex interrelations. In this work we compensate for this modelling limitation and introduce the novel graph-theoretic concept of a shortest path in a graph with matrix-valued edges. To this end, we define a meaningful way for quantifying the path length for matrix-valued edges, and we propose a simple yet effective algorithm to compute the respective shortest path. While our formalism is universal and thus applicable to a wide range of settings in vision, graphics and beyond, we focus on demonstrating its merits in the context of 3D multi-shape analysis.
翻訳日:2021-12-09 14:28:11 公開日:2021-12-08
# 画像圧縮のための暗黙的ニューラル表現

Implicit Neural Representations for Image Compression ( http://arxiv.org/abs/2112.04267v1 )

ライセンス: Link先を確認
Yannick Str\"umpler, Janis Postels, Ren Yang, Luc van Gool, Federico Tombari(参考訳) 最近、暗黙的ニューラルネットワーク表現(inrs)は、様々なデータタイプの新しい効果的な表現として注目を集めた。 これまでの作業は主に再建性能の最適化に重点を置いていた。 本研究は、画像圧縮のためのツールとして、新しい視点からINRを調査する。 そこで本研究では, 量子化, 量子化アウェアリトレーニング, エントロピー符号化などのinrsに基づく最初の総合圧縮パイプラインを提案する。 データサンプルに過度に適合するINRによるエンコーディングは、典型的には桁違い遅い。 この欠点を軽減するために、MAMLに基づくメタ学習初期化を利用して、より少ない勾配更新のエンコーディングに到達し、INRの速度歪み性能も向上する。 inrsによるソース圧縮のアプローチは,画像専用に設計された一般的な圧縮アルゴリズムと競合しており,レート分散オートエンコーダに基づく最先端学習アプローチとのギャップを縮めている。 さらに,本手法の個別成分の重要性について広範なアブレーション研究を行い,新たな画像圧縮手法の今後の研究に期待する。

Recently Implicit Neural Representations (INRs) gained attention as a novel and effective representation for various data types. Thus far, prior work mostly focused on optimizing their reconstruction performance. This work investigates INRs from a novel perspective, i.e., as a tool for image compression. To this end, we propose the first comprehensive compression pipeline based on INRs including quantization, quantization-aware retraining and entropy coding. Encoding with INRs, i.e. overfitting to a data sample, is typically orders of magnitude slower. To mitigate this drawback, we leverage meta-learned initializations based on MAML to reach the encoding in fewer gradient updates which also generally improves rate-distortion performance of INRs. We find that our approach to source compression with INRs vastly outperforms similar prior work, is competitive with common compression algorithms designed specifically for images and closes the gap to state-of-the-art learned approaches based on Rate-Distortion Autoencoders. Moreover, we provide an extensive ablation study on the importance of individual components of our method which we hope facilitates future research on this novel approach to image compression.
翻訳日:2021-12-09 14:27:53 公開日:2021-12-08
# 汎用的で効率的なニューラルヒューマンレンダリングのための幾何学誘導プログレッシブNeRF

Geometry-Guided Progressive NeRF for Generalizable and Efficient Neural Human Rendering ( http://arxiv.org/abs/2112.04312v1 )

ライセンス: Link先を確認
Mingfei Chen, Jianfeng Zhang, Xiangyu Xu, Lijuan Liu, Jiashi Feng, Shuicheng Yan(参考訳) 本研究では,高忠実度自由視点人体合成のための汎用的で効率的なニューラル・ラジアンス・フィールド(nerf)パイプラインを開発した。 既存のnerfベースの手法は、人体のよりリアルな詳細を合成することができるが、入力が自己排他的である場合、特に目立たない視点下では、結果が低くなる傾向がある。 さらに、これらの手法はレンダリングに多くのサンプリングポイントを必要とすることが多いため、効率が低く、実際の適用性が制限される。 これらの課題に対処するために、幾何誘導型プログレッシブNeRF~(GP-NeRF)を提案する。 特に,入力ビューからの不完全な情報を統合する前に,推定幾何を利用する幾何学誘導多視点特徴統合手法を考案し,対象の人体に対して完全な幾何学ボリュームを構築する。 一方,高いレンダリング効率を実現するため,幾何学的特徴量と予測密度値を利用して,サンプリング点数を段階的に削減し,レンダリング処理を高速化する幾何誘導プログレッシブレンダリングパイプラインを導入する。 ZJU-MoCap と THUman のデータセットを用いた実験により,本手法は複数の一般化設定において,最先端の処理性能を著しく向上させる一方で,効率的なプログレッシブ・レンダリング・パイプラインを適用して,時間コストを70%以上削減することを示した。

In this work we develop a generalizable and efficient Neural Radiance Field (NeRF) pipeline for high-fidelity free-viewpoint human body synthesis under settings with sparse camera views. Though existing NeRF-based methods can synthesize rather realistic details for human body, they tend to produce poor results when the input has self-occlusion, especially for unseen humans under sparse views. Moreover, these methods often require a large number of sampling points for rendering, which leads to low efficiency and limits their real-world applicability. To address these challenges, we propose a Geometry-guided Progressive NeRF~(GP-NeRF). In particular, to better tackle self-occlusion, we devise a geometry-guided multi-view feature integration approach that utilizes the estimated geometry prior to integrate the incomplete information from input views and construct a complete geometry volume for the target human body. Meanwhile, for achieving higher rendering efficiency, we introduce a geometry-guided progressive rendering pipeline, which leverages the geometric feature volume and the predicted density values to progressively reduce the number of sampling points and speed up the rendering process. Experiments on the ZJU-MoCap and THUman datasets show that our method outperforms the state-of-the-arts significantly across multiple generalization settings, while the time cost is reduced >70% via applying our efficient progressive rendering pipeline.
翻訳日:2021-12-09 14:27:35 公開日:2021-12-08
# エンティティリンクのための次の理性的な選択を学習する

Learning to Select the Next Reasonable Mention for Entity Linking ( http://arxiv.org/abs/2112.04104v1 )

ライセンス: Link先を確認
Jian Sun, Yu Zhou, Chengqing Zong(参考訳) エンティティリンクは、ドキュメント内のエンティティ参照と知識グラフ(KG)の対応するエンティティとのリンクを確立することを目的としている。 前回の研究では、エンティティリンクに対するグローバルコヒーレンスの有効性が示されている。 しかし, 既存のグローバルリンク手法の多くは, 後続の意思決定を強化するために, 以前にリンクされたエンティティを利用する方法に重点を置いている。 これらの方法では、参照順が固定され、モデルが先のリンク結果に従って後のリンクターゲットを調整できないため、以前の情報が不当に利用される。 そこで本研究では,事前リンクされたエンティティに基づいて動的にリンク対象を調整し,先行リンクされた情報を完全に活用可能なリンクターゲットを選択できる新しいモデルdymenを提案する。 強化学習の動作サンプリング空間を縮小するために,スライディングウィンドウによる言及をサンプリングし,参照の意味的一貫性を維持する。 いくつかのベンチマークデータセットで実験を行い、提案モデルの有効性を示した。

Entity linking aims to establish a link between entity mentions in a document and the corresponding entities in knowledge graphs (KGs). Previous work has shown the effectiveness of global coherence for entity linking. However, most of the existing global linking methods based on sequential decisions focus on how to utilize previously linked entities to enhance the later decisions. In those methods, the order of mention is fixed, making the model unable to adjust the subsequent linking targets according to the previously linked results, which will cause the previous information to be unreasonably utilized. To address the problem, we propose a novel model, called DyMen, to dynamically adjust the subsequent linking target based on the previously linked entities via reinforcement learning, enabling the model to select a link target that can fully use previously linked information. We sample mention by sliding window to reduce the action sampling space of reinforcement learning and maintain the semantic coherence of mention. Experiments conducted on several benchmark datasets have shown the effectiveness of the proposed model.
翻訳日:2021-12-09 14:26:52 公開日:2021-12-08
# VIRT:仮想インタラクションによるテキストマッチングのための表現モデルの改良

VIRT: Improving Representation-based Models for Text Matching through Virtual Interaction ( http://arxiv.org/abs/2112.04195v1 )

ライセンス: Link先を確認
Dan Li, Yang Yang, Hongyin Tang, Jingang Wang, Tong Xu, Wei Wu, Enhong Chen(参考訳) 事前学習されたトランスフォーマーのブームにより、関連する自然言語アプリケーションをサポートするためのテキストペアモデリングが目覚ましい進歩を遂げた。 テキストマッチングのための2行のアプローチが開発され、テキストペア上で完全なインタラクションを実行するインタラクションベースモデルと、シアムエンコーダと独立してペアを符号化する表現ベースモデルである。 前者は深い相互作用モデリング能力を持つが、推論遅延を犠牲にして、魅力的なパフォーマンスを達成している。 後者は効率的で実用的な用途に広く採用されているが、相互作用の欠如により性能が著しく低下する。 いくつかの先行研究は、計算コストを考慮して、対話的知識を表現ベースモデルに統合しようとするが、それらは上位層での遅延相互作用や知識伝達のみを実行する。 下位層のインタラクティブな情報はいまだに欠落しており、表現ベースのソリューションのパフォーマンスが制限されている。 そこで本研究では,表現ベースモデルにおけるフル・ディープ・インタラクション・モデリングを実現するために,計算計算をせずに,virtと呼ばれる新しい \textit{virtual} インタラクション機構を提案する。 具体的には、VIRTは表現ベースのエンコーダに、対話ベースのモデルのように振舞いを模倣するために仮想インタラクションを実行するよう要求する。 さらに,対話型エンコーダから抽出した知識を教師あり信号とみなし,仮想対話の有効性を保証している。 仮想インタラクションはトレーニング段階でのみ発生するため、virtは推論コストを増加させることはない。 さらに、学習した仮想対話知識を完全に活用するために、VIRT対応の遅延対話戦略を設計する。

With the booming of pre-trained transformers, remarkable progress has been made on textual pair modeling to support relevant natural language applications. Two lines of approaches are developed for text matching: interaction-based models performing full interactions over the textual pair, and representation-based models encoding the pair independently with siamese encoders. The former achieves compelling performance due to its deep interaction modeling ability, yet with a sacrifice in inference latency. The latter is efficient and widely adopted for practical use, however, suffers from severe performance degradation due to the lack of interactions. Though some prior works attempt to integrate interactive knowledge into representation-based models, considering the computational cost, they only perform late interaction or knowledge transferring at the top layers. Interactive information in the lower layers is still missing, which limits the performance of representation-based solutions. To remedy this, we propose a novel \textit{Virtual} InteRacTion mechanism, termed as VIRT, to enable full and deep interaction modeling in representation-based models without \textit{actual} inference computations. Concretely, VIRT asks representation-based encoders to conduct virtual interactions to mimic the behaviors as interaction-based models do. In addition, the knowledge distilled from interaction-based encoders is taken as supervised signals to promise the effectiveness of virtual interactions. Since virtual interactions only happen at the training stage, VIRT would not increase the inference cost. Furthermore, we design a VIRT-adapted late interaction strategy to fully utilize the learned virtual interactive knowledge.
翻訳日:2021-12-09 14:25:11 公開日:2021-12-08
# Atariにおける深層強化学習のレビュー:ベンチマーク,課題,解決策

A Review for Deep Reinforcement Learning in Atari:Benchmarks, Challenges, and Solutions ( http://arxiv.org/abs/2112.04145v1 )

ライセンス: Link先を確認
Jiajun Fan(参考訳) アーケード学習環境(ale)は、多数のatari 2600ゲームにおけるエージェントの汎用性を評価するための評価プラットフォームとして提案されている。 ALEは様々な困難な問題を提供しており、深層強化学習(RL)コミュニティから大きな注目を集めている。 Deep Q-Networks (DQN) から Agent57 まで、RL エージェントは ALE において超人的性能を達成する。 しかし、これは当てはまりますか。 本稿では,まずatariベンチマークにおける現在の評価基準を概観し,その評価基準が不適切であることを明らかにした。 これらの問題に対処し、RL研究の発展を促進するために、人間の世界記録に基づく新しいAtariベンチマーク(HWR)を提案し、最終性能と学習効率の両面でRLエージェントのより高い要求を推し進める。 さらに,AtariベンチマークのSOTA(State-of-the-ar t)手法を要約し,人間の世界記録に基づく新しい評価指標に対するベンチマーク結果を提供する。 我々は、少なくとも4つのオープンな課題は、RLエージェントがこれらの新しいベンチマーク結果から超人的性能を達成することを妨げていると結論付けた。 最後に,これらの問題に対処するための有望な方法についても論じる。

The Arcade Learning Environment (ALE) is proposed as an evaluation platform for empirically assessing the generality of agents across dozens of Atari 2600 games. ALE offers various challenging problems and has drawn significant attention from the deep reinforcement learning (RL) community. From Deep Q-Networks (DQN) to Agent57, RL agents seem to achieve superhuman performance in ALE. However, is this the case? In this paper, to explore this problem, we first review the current evaluation metrics in the Atari benchmarks and then reveal that the current evaluation criteria of achieving superhuman performance are inappropriate, which underestimated the human performance relative to what is possible. To handle those problems and promote the development of RL research, we propose a novel Atari benchmark based on human world records (HWR), which puts forward higher requirements for RL agents on both final performance and learning efficiency. Furthermore, we summarize the state-of-the-art (SOTA) methods in Atari benchmarks and provide benchmark results over new evaluation metrics based on human world records. We concluded that at least four open challenges hinder RL agents from achieving superhuman performance from those new benchmark results. Finally, we also discuss some promising ways to handle those problems.
翻訳日:2021-12-09 14:24:46 公開日:2021-12-08
# TempAMLSI : 文法誘導に基づく時間行動モデル学習

TempAMLSI : Temporal Action Model Learning based on Grammar Induction ( http://arxiv.org/abs/2112.04286v1 )

ライセンス: Link先を確認
Maxence Grand, Damien Pellier and Humbert Fiorino(参考訳) ハンドエンコーディングpddlドメインは一般に困難で退屈でエラーやすいとして受け入れられる。 時間領域をエンコードする必要がある場合、その困難はさらに大きくなる。 実際、アクションは持続時間を持ち、その効果は瞬時ではない。 本稿では,時間領域を学習可能なamlsiアプローチに基づくアルゴリズムである tempamlsi を提案する。 tempamlsiは、時間計画において、非時間領域を時間領域に変換することができるという古典的な仮定に基づいている。 TempAMLSIは、単一のハードエンベロープとクッシング間隔で時間領域を学習できる最初のアプローチである。 実験により,temmulsiは,新たな計画問題の解法として,異なる動作並行処理形式を用いて,正確な時間領域(すなわち時間領域)を学習できることを示した。

Hand-encoding PDDL domains is generally accepted as difficult, tedious and error-prone. The difficulty is even greater when temporal domains have to be encoded. Indeed, actions have a duration and their effects are not instantaneous. In this paper, we present TempAMLSI, an algorithm based on the AMLSI approach able to learn temporal domains. TempAMLSI is based on the classical assumption done in temporal planning that it is possible to convert a non-temporal domain into a temporal domain. TempAMLSI is the first approach able to learn temporal domain with single hard envelope and Cushing's intervals. We show experimentally that TempAMLSI is able to learn accurate temporal domains, i.e., temporal domain that can be used directly to solve new planning problem, with different forms of action concurrency.
翻訳日:2021-12-09 14:24:26 公開日:2021-12-08
# (参考訳) FLAVA: 基礎言語とビジョンアライメントモデル [全文訳有]

FLAVA: A Foundational Language And Vision Alignment Model ( http://arxiv.org/abs/2112.04482v1 )

ライセンス: CC BY 4.0
Amanpreet Singh, Ronghang Hu, Vedanuj Goswami, Guillaume Couairon, Wojciech Galuba, Marcus Rohrbach, Douwe Kiela(参考訳) 最先端のビジョンとヴィジュアル・アンド・ランゲージモデルは、様々な下流タスクで優れたパフォーマンスを得るために、大規模な視覚言語事前訓練に依存している。 一般に、そのようなモデルは、しばしばクロスモーダル(contrastive)またはマルチモーダル(以前の融合を伴う)であるが、両方ではない。 真のビジョンと言語の基礎モデルは、ビジョンタスク、言語タスク、クロス・マルチモーダルなビジョンと言語タスクを得意とするべきである。 このようなモデルとしてFLAVAを導入し、これらの目標モダリティにまたがる35のタスクに対して印象的な性能を示す。

State-of-the-art vision and vision-and-language models rely on large-scale visio-linguistic pretraining for obtaining good performance on a variety of downstream tasks. Generally, such models are often either cross-modal (contrastive) or multi-modal (with earlier fusion) but not both; and they often only target specific modalities or tasks. A promising direction would be to use a single holistic universal model, as a "foundation", that targets all modalities at once -- a true vision and language foundation model should be good at vision tasks, language tasks, and cross- and multi-modal vision and language tasks. We introduce FLAVA as such a model and demonstrate impressive performance on a wide range of 35 tasks spanning these target modalities.
翻訳日:2021-12-09 14:22:37 公開日:2021-12-08
# SNEAK: 自然言語ビデオのローカライゼーションにおける同義語文のアタック

SNEAK: Synonymous Sentences-Aware Adversarial Attack on Natural Language Video Localization ( http://arxiv.org/abs/2112.04154v1 )

ライセンス: Link先を確認
Wenbo Gou, Wen Shi, Jian Lou, Lijie Huang, Pan Zhou, Ruixuan Li(参考訳) 自然言語ビデオローカライズ(nlvl)は視覚言語理解領域において重要なタスクであり、コンピュータビジョンと自然言語側だけでなく、より重要なことに両サイド間の相互作用を深く理解する必要がある。 敵対的脆弱性は、深層ニューラルネットワークモデルの重要なセキュリティ問題として認識されている。 ビデオや言語タスクにおいて広く研究されているにもかかわらず、NLVLのような視覚言語の共同作業における対角的堅牢性の現在の理解は、あまり発達していない。 そこで本研究では,NLVLモデルに対して,攻撃面と防御面の両方から,脆弱性の3つの側面を調べることで,敵のロバスト性を包括的に調査することを目的とする。 そこで本研究では,nlvl (sneak) に対する同義語文認識攻撃と呼ばれる,視覚と言語間の相互モダリティを捉える新しい攻撃パラダイムを提案する。

Natural language video localization (NLVL) is an important task in the vision-language understanding area, which calls for an in-depth understanding of not only computer vision and natural language side alone, but more importantly the interplay between both sides. Adversarial vulnerability has been well-recognized as a critical security issue of deep neural network models, which requires prudent investigation. Despite its extensive yet separated studies in video and language tasks, current understanding of the adversarial robustness in vision-language joint tasks like NLVL is less developed. This paper therefore aims to comprehensively investigate the adversarial robustness of NLVL models by examining three facets of vulnerabilities from both attack and defense aspects. To achieve the attack goal, we propose a new adversarial attack paradigm called synonymous sentences-aware adversarial attack on NLVL (SNEAK), which captures the cross-modality interplay between the vision and language sides.
翻訳日:2021-12-09 13:49:54 公開日:2021-12-08
# 視覚言語ナビゲーションのためのコントラスト学習

Contrastive Instruction-Trajecto ry Learning for Vision-Language Navigation ( http://arxiv.org/abs/2112.04138v1 )

ライセンス: Link先を確認
Xiwen Liang, Fengda Zhu, Yi Zhu, Bingqian Lin, Bing Wang, Xiaodan Liang(参考訳) 視覚言語ナビゲーション(VLN)タスクでは、エージェントが自然言語命令のガイダンスでターゲットに到達する必要がある。 以前の作業は、命令に従ってステップバイステップでナビゲートすることを学ぶ。 しかし、これらの著作は命令-主対間の類似性と不一致を区別できず、副指示の時間的連続性を無視できない可能性がある。 これらの問題はエージェントが視覚的な視覚と言語表現を学ぶことを妨げ、ナビゲーションポリシーの堅牢性と一般化性を損なう。 本稿では、類似データサンプル間の分散と、異なるデータサンプル間の分散を探索し、ロバストナビゲーションのための特徴表現を学習するContrastive Instruction-Trajecto ry Learning (CITL)フレームワークを提案する。 Specifically, we propose: (1) a coarse-grained contrastive learning objective to enhance vision-and-language representations by contrasting semantics of full trajectory observations and instructions, respectively; (2) a fine-grained contrastive learning objective to perceive instructions by leveraging the temporal information of the sub-instructions; (3) a pairwise sample-reweighting mechanism for contrastive learning to mine hard samples and hence mitigate the influence of data sampling bias in contrastive learning. 我々のCITLは、VLNバックボーンと容易に統合でき、新しい学習パラダイムを形成し、目に見えない環境でより良い一般化を実現することができる。 大規模な実験により,CITLを用いたモデルが従来のR2R,R4R,RxRの最先端手法を上回ることがわかった。

The vision-language navigation (VLN) task requires an agent to reach a target with the guidance of natural language instruction. Previous works learn to navigate step-by-step following an instruction. However, these works may fail to discriminate the similarities and discrepancies across instruction-trajecto ry pairs and ignore the temporal continuity of sub-instructions. These problems hinder agents from learning distinctive vision-and-language representations, harming the robustness and generalizability of the navigation policy. In this paper, we propose a Contrastive Instruction-Trajecto ry Learning (CITL) framework that explores invariance across similar data samples and variance across different ones to learn distinctive representations for robust navigation. Specifically, we propose: (1) a coarse-grained contrastive learning objective to enhance vision-and-language representations by contrasting semantics of full trajectory observations and instructions, respectively; (2) a fine-grained contrastive learning objective to perceive instructions by leveraging the temporal information of the sub-instructions; (3) a pairwise sample-reweighting mechanism for contrastive learning to mine hard samples and hence mitigate the influence of data sampling bias in contrastive learning. Our CITL can be easily integrated with VLN backbones to form a new learning paradigm and achieve better generalizability in unseen environments. Extensive experiments show that the model with CITL surpasses the previous state-of-the-art methods on R2R, R4R, and RxR.
翻訳日:2021-12-09 13:49:36 公開日:2021-12-08
# 視覚・言語モデリングのためのMLPアーキテクチャ:実証的研究

MLP Architectures for Vision-and-Language Modeling: An Empirical Study ( http://arxiv.org/abs/2112.04453v1 )

ライセンス: Link先を確認
Yixin Nie, Linjie Li, Zhe Gan, Shuohang Wang, Chenguang Zhu, Michael Zeng, Zicheng Liu, Mohit Bansal, Lijuan Wang(参考訳) 視覚・言語融合(VL)におけるMLPアーキテクチャの利用に関する最初の実証的研究を開始する。 5つのVLタスクと5つの堅牢なVQAベンチマークに関する広範な実験により、以下のことが判明した。 (i)事前学習なしでは、マルチモーダル核融合にMLPを使うことは、トランスに比べて顕著な性能差がある。 しかし、VL事前学習はパフォーマンスのギャップを埋めるのに役立ちます。 (iii)マルチヘッドの注目ではなく、mlpに小さなワンヘッドの注意を加えることでトランスフォーマーに匹敵する性能を実現するのに十分である。 さらに,より強靭なVQAベンチマークで評価すると,MPPとトランスフォーマーのパフォーマンスギャップは拡大せず,VL融合におけるMPPの使用はトランスフォーマーとほぼ同様の程度に一般化できることが示唆された。 これらの結果から,mlpは低レベルエンコーダから抽出した視覚特徴やテキスト特徴を,自己着脱に重きを置くことなく効果的に調整できることが示唆された。 VLモデリングのためのオールMLPアーキテクチャは、VL融合とビジョンエンコーダの両方をMLPに置き換えることができるのか? 以上の結果から,全MLP VLモデルと最先端のフル機能VLモデルとの差は,両者が事前訓練を受けた場合に比べて小さいことがわかった。 しかし、全mlpの事前トレーニングは、事前トレーニングなしで全機能トランスフォーマーモデルよりも驚くほど良い平均スコアが得られる。 このことは、VLモデリングのためのMLP様アーキテクチャの大規模事前学習の可能性を示し、より帰納的設計バイアスの少ない確立されたVLモデリングを簡素化するための今後の研究の方向性を示唆している。 私たちのコードは、https://github.com/e asonnie/mlp-vilで公開されています。

We initiate the first empirical study on the use of MLP architectures for vision-and-language (VL) fusion. Through extensive experiments on 5 VL tasks and 5 robust VQA benchmarks, we find that: (i) Without pre-training, using MLPs for multimodal fusion has a noticeable performance gap compared to transformers; (ii) However, VL pre-training can help close the performance gap; (iii) Instead of heavy multi-head attention, adding tiny one-head attention to MLPs is sufficient to achieve comparable performance to transformers. Moreover, we also find that the performance gap between MLPs and transformers is not widened when being evaluated on the harder robust VQA benchmarks, suggesting using MLPs for VL fusion can generalize roughly to a similar degree as using transformers. These results hint that MLPs can effectively learn to align vision and text features extracted from lower-level encoders without heavy reliance on self-attention. Based on this, we ask an even bolder question: can we have an all-MLP architecture for VL modeling, where both VL fusion and the vision encoder are replaced with MLPs? Our result shows that an all-MLP VL model is sub-optimal compared to state-of-the-art full-featured VL models when both of them get pre-trained. However, pre-training an all-MLP can surprisingly achieve a better average score than full-featured transformer models without pre-training. This indicates the potential of large-scale pre-training of MLP-like architectures for VL modeling and inspires the future research direction on simplifying well-established VL modeling with less inductive design bias. Our code is publicly available at: https://github.com/e asonnie/mlp-vil
翻訳日:2021-12-09 13:49:13 公開日:2021-12-08
# 外科的ランダム性によるユニバーサルgnnのトレーサビリティ

Trainability for Universal GNNs Through Surgical Randomness ( http://arxiv.org/abs/2112.04314v1 )

ライセンス: Link先を確認
Billy Joe Franks, Markus Anders, Marius Kloft, Pascal Schweitzer(参考訳) メッセージパッシングニューラルネットワーク(MPNN)には証明可能な制限があり、ユニバーサルネットワークによって克服できる。 しかし、ユニバーサルネットワークは通常実用的ではない。 唯一の例外はランダムノード初期化(rni, random node initialization)である。 残念ながら、RNIは緩やかな収束やハイパーパラメータの変化に対する高い感度といった深刻な欠点に悩まされている。 グラフ同型テストの実践的世界からMPNNに強力なテクニックを移行し,これらの欠点を解消する。 これにより、パーソナライゼーション・リファインメントノードの初期化(IRNI)が達成される。 RNIで用いられる無差別・ハファザードランダム性は、選択されたノード数ビットのみの外科的切開によって置き換える。 提案手法は,ネットワークの普遍性を維持しつつ,学習可能性の問題を解消する。 我々は、IRNIがMPNNの制限を克服しているという主張の普遍性を正式に証明し、実験的に裏付ける。 また,標準ベンチマークデータセット PROTEINS と NCI1 に対して,本手法の有効性を検証した。

Message passing neural networks (MPNN) have provable limitations, which can be overcome by universal networks. However, universal networks are typically impractical. The only exception is random node initialization (RNI), a data augmentation method that results in provably universal networks. Unfortunately, RNI suffers from severe drawbacks such as slow convergence and high sensitivity to changes in hyperparameters. We transfer powerful techniques from the practical world of graph isomorphism testing to MPNNs, resolving these drawbacks. This culminates in individualization-re finement node initialization (IRNI). We replace the indiscriminate and haphazard randomness used in RNI by a surgical incision of only a few random bits at well-selected nodes. Our novel non-intrusive data-augmentation scheme maintains the networks' universality while resolving the trainability issues. We formally prove the claimed universality and corroborate experimentally -- on synthetic benchmarks sets previously explicitly designed for that purpose -- that IRNI overcomes the limitations of MPNNs. We also verify the practical efficacy of our approach on the standard benchmark data sets PROTEINS and NCI1.
翻訳日:2021-12-09 13:48:24 公開日:2021-12-08
# 歴史的文書における共同手書きと名前付きエンティティ認識のためのトランスフォーマーに基づくアプローチ

Transformer-Based Approach for Joint Handwriting and Named Entity Recognition in Historical documents ( http://arxiv.org/abs/2112.04189v1 )

ライセンス: Link先を確認
Ahmed Cheikh Rouhoua, Marwa Dhiaf, Yousri Kessentini, Sinda Ben Salem(参考訳) 手書き文書における名前付きエンティティによる関連情報の抽出は依然として困難な課題である。 従来のテキスト転写やエンティティ認識を別個のタスクとして扱う従来の情報抽出手法とは異なり,本稿ではこれら2つのタスクを共同で実行するためのエンドツーエンドトランスフォーマー方式を提案する。 提案手法は段落レベルで動作しており、主な利点は2つある。 第一に、ラインセグメンテーションによる回復不可能な早期エラーを避けることができる。 第二に、モデルがより大きな2次元のコンテキスト情報を活用して意味カテゴリーを識別し、最終的な予測精度が向上する。 また、2段階の学習戦略によってモデルの最終的な予測精度を高めることができることを示す。 私たちが知る限り、この研究は手書き文書における名前付きエンティティ認識にトランスフォーマーネットワークを採用する最初のアプローチを示す。 提案手法では辞書や言語モデリング,ポストプロセッシングを一切使用していないにもかかわらず,esposallesデータベースを用いたicdar 2017情報抽出コンペティションにおいて,新たな最先端性能を実現する。

The extraction of relevant information carried out by named entities in handwriting documents is still a challenging task. Unlike traditional information extraction approaches that usually face text transcription and named entity recognition as separate subsequent tasks, we propose in this paper an end-to-end transformer-based approach to jointly perform these two tasks. The proposed approach operates at the paragraph level, which brings two main benefits. First, it allows the model to avoid unrecoverable early errors due to line segmentation. Second, it allows the model to exploit larger bi-dimensional context information to identify the semantic categories, reaching a higher final prediction accuracy. We also explore different training scenarios to show their effect on the performance and we demonstrate that a two-stage learning strategy can make the model reach a higher final prediction accuracy. As far as we know, this work presents the first approach that adopts the transformer networks for named entity recognition in handwritten documents. We achieve the new state-of-the-art performance in the ICDAR 2017 Information Extraction competition using the Esposalles database, for the complete task, even though the proposed technique does not use any dictionaries, language modeling, or post-processing.
翻訳日:2021-12-09 13:48:00 公開日:2021-12-08
# 効率的な映像理解のための視覚言語モデルの提案

Prompting Visual-Language Models for Efficient Video Understanding ( http://arxiv.org/abs/2112.04478v1 )

ライセンス: Link先を確認
Chen Ju, Tengda Han, Kunhao Zheng, Ya Zhang, Weidi Xie(参考訳) ビジュアル言語の事前学習は、大規模なwebデータから共同のビジュアルテキスト表現を学習するのに大きな成功を示し、ゼロショット一般化の顕著な能力を示している。 本稿では,事前学習された1つの視覚言語モデルを最小限の学習で新しいタスクに効率的に適応させる簡単な手法を提案する。 具体的には,新しいタスクを事前学習目的と同一の形式に変換する,連続的プロンプトベクトルと呼ばれるランダムベクトルを最適化することを提案する。 さらに、静的画像とビデオのギャップを埋めるために、時間情報はフレームワイドの視覚的特徴の上に積み重ねられた軽量トランスフォーマーでエンコードされる。 実験では, 重要な構成要素と必要条件を分析するため, 広範囲なアブレーション研究を行う。 アクション認識,アクションローカライズ,テキストビデオ検索の9つの公開ベンチマークにおいて,クローズドセット,少数ショット,オープンセットのシナリオにおいて,パラメータのトレーニングが著しく少ないにもかかわらず,既存の手法に対する競争力と最先端のパフォーマンスを達成している。

Visual-language pre-training has shown great success for learning joint visual-textual representations from large-scale web data, demonstrating remarkable ability for zero-shot generalisation. This paper presents a simple method to efficiently adapt one pre-trained visual-language model to novel tasks with minimal training, and here, we consider video understanding tasks. Specifically, we propose to optimise a few random vectors, termed as continuous prompt vectors, that convert the novel tasks into the same format as the pre-training objectives. In addition, to bridge the gap between static images and videos, temporal information is encoded with lightweight Transformers stacking on top of frame-wise visual features. Experimentally, we conduct extensive ablation studies to analyse the critical components and necessities. On 9 public benchmarks of action recognition, action localisation, and text-video retrieval, across closed-set, few-shot, open-set scenarios, we achieve competitive or state-of-the-art performance to existing methods, despite training significantly fewer parameters.
翻訳日:2021-12-09 13:47:40 公開日:2021-12-08
# BA-Net: 深層畳み込みニューラルネットワークのためのブリッジアテンション

BA-Net: Bridge Attention for Deep Convolutional Neural Networks ( http://arxiv.org/abs/2112.04150v1 )

ライセンス: Link先を確認
Yue Zhao, Junzhou Chen, Zirui Zhang and Ronghui Zhang(参考訳) 近年、チャネルアテンション機構は、ディープ畳み込みニューラルネットワーク(CNN)の性能を向上させる大きな可能性について広く研究されている。 しかし、ほとんどの既存手法では、チャネル重みを計算するために隣接する畳み込み層の出力のみを注意層に供給する。 他の畳み込み層からの情報は無視される。 これらの観測により, 橋梁注意網 (ba-net) と呼ばれる単純な戦略が提案されている。 この設計の主な考え方は、チャネル重み生成のためのスキップ接続を通じて、以前の畳み込み層の出力をブリッジすることである。 ba-netは、フィードフォワード時のチャネル重みを計算するためによりリッチな機能を提供するだけでなく、バックフォワード時にパラメータが更新されるパスを乗算できる。 包括的評価は,提案手法が従来の手法に比べて精度と速度を向上することを示す。 Bridge Attentionは、ニューラルネットワークアーキテクチャの設計に関する新たな視点を提供し、既存のチャネルアテンションメカニズムのパフォーマンスを改善する大きな可能性を示している。 コードは \url{https://github.com/z haoy376/Attention-me chanism で入手できる。

In recent years, channel attention mechanism is widely investigated for its great potential in improving the performance of deep convolutional neural networks (CNNs). However, in most existing methods, only the output of the adjacent convolution layer is fed to the attention layer for calculating the channel weights. Information from other convolution layers is ignored. With these observations, a simple strategy, named Bridge Attention Net (BA-Net), is proposed for better channel attention mechanisms. The main idea of this design is to bridge the outputs of the previous convolution layers through skip connections for channel weights generation. BA-Net can not only provide richer features to calculate channel weight when feedforward, but also multiply paths of parameters updating when backforward. Comprehensive evaluation demonstrates that the proposed approach achieves state-of-the-art performance compared with the existing methods in regards to accuracy and speed. Bridge Attention provides a fresh perspective on the design of neural network architectures and shows great potential in improving the performance of the existing channel attention mechanisms. The code is available at \url{https://github.com/z haoy376/Attention-me chanism
翻訳日:2021-12-09 13:46:55 公開日:2021-12-08
# ソフトアクタ批判と階層混合正規化に基づくハイパーパラメータ最適化

Hyper-parameter optimization based on soft actor critic and hierarchical mixture regularization ( http://arxiv.org/abs/2112.04084v1 )

ライセンス: Link先を確認
Chaoyue Liu, Yulai Zhang(参考訳) ハイパーパラメータ最適化は機械学習において重要な問題であり、あらゆるモデルで最先端のパフォーマンスを達成することを目指している。 この分野ではランダム探索、グリッド探索、ベイズ最適化などの大きな努力がなされている。 本稿では,ハイパーパラメータ最適化プロセスをマルコフ決定プロセスとしてモデル化し,強化学習を用いて対処する。 ソフトアクタ批判と階層的混合正規化に基づく新しいハイパーパラメータ最適化法が提案されている。 実験により,提案手法はより短時間でより優れたハイパーパラメータを得ることができることを示した。

Hyper-parameter optimization is a crucial problem in machine learning as it aims to achieve the state-of-the-art performance in any model. Great efforts have been made in this field, such as random search, grid search, Bayesian optimization. In this paper, we model hyper-parameter optimization process as a Markov decision process, and tackle it with reinforcement learning. A novel hyper-parameter optimization method based on soft actor critic and hierarchical mixture regularization has been proposed. Experiments show that the proposed method can obtain better hyper-parameters in a shorter time.
翻訳日:2021-12-09 13:46:16 公開日:2021-12-08
# (参考訳) SITA:シングルイメージテストタイム適応 [全文訳有]

SITA: Single Image Test-time Adaptation ( http://arxiv.org/abs/2112.02355v2 )

ライセンス: CC BY 4.0
Ansh Khurana, Sujoy Paul, Piyush Rai, Soma Biswas, Gaurav Aggarwal(参考訳) テスト時間適応(TTA)では、あるソースデータに基づいてトレーニングされたモデルを考えると、異なるディストリビューションからテストインスタンスに対してより良い予測を行うように適応することが目標である。 重要なことは、TTAはソースデータへのアクセスを前提とせず、ターゲットのディストリビューションからラベル付き/ラベルなしのサンプルも使用せず、ソースモデルを微調整する。 本稿では,TTAをSITA(Single Image Test-time Adaptation)と呼ぶ,より実用的な設定で考える。 ここで、各予測を行う際、モデルは、典型的には文献で考慮されているように、インスタンスのバッチではなく、与えられた単一のテストインスタンスのみにアクセスする。 これは、要求の"バッチ化"に遅れたり、バッチ処理のスコープがないエッジデバイス(携帯電話など)で推論が行われることのない、オンデマンドで推論が必要な現実的なシナリオによって動機付けられている。 SITAの適応プロセスは、推論時に起こるように非常に高速であるべきです。 そこで本研究では,前進伝播のみを必要とするSITA設定のための新しいアプローチAugBNを提案する。 このアプローチは、分類とセグメンテーションタスクの両方の個々のテストインスタンスに、トレーニング済みの任意のモデルを適用することができる。 augbnはラベル保存変換のある1つのフォワードパスのみを使用して、与えられたテスト画像から未検出のテスト分布の正規化統計を推定する。 AugBNはバックプロパゲーションを一切含まないため、最近の手法に比べてはるかに高速である。 私たちの知る限りでは、これは単一のテストイメージのみを使用して、このハード適応問題に対処する最初の仕事です。 非常に単純であるにもかかわらず、我々のフレームワークは、広範な実験やアブレーション研究に反映されているように、ターゲットインスタンスにソースモデルを直接適用することに比べて、大幅なパフォーマンス向上を達成できます。

In Test-time Adaptation (TTA), given a model trained on some source data, the goal is to adapt it to make better predictions for test instances from a different distribution. Crucially, TTA assumes no access to the source data or even any additional labeled/unlabeled samples from the target distribution to finetune the source model. In this work, we consider TTA in a more pragmatic setting which we refer to as SITA (Single Image Test-time Adaptation). Here, when making each prediction, the model has access only to the given single test instance, rather than a batch of instances, as has typically been considered in the literature. This is motivated by the realistic scenarios where inference is needed in an on-demand fashion that may not be delayed to "batch-ify" incoming requests or the inference is happening on an edge device (like mobile phone) where there is no scope for batching. The entire adaptation process in SITA should be extremely fast as it happens at inference time. To address this, we propose a novel approach AugBN for the SITA setting that requires only forward propagation. The approach can adapt any off-the-shelf trained model to individual test instances for both classification and segmentation tasks. AugBN estimates normalisation statistics of the unseen test distribution from the given test image using only one forward pass with label-preserving transformations. Since AugBN does not involve any back-propagation, it is significantly faster compared to other recent methods. To the best of our knowledge, this is the first work that addresses this hard adaptation problem using only a single test image. Despite being very simple, our framework is able to achieve significant performance gains compared to directly applying the source model on the target instances, as reflected in our extensive experiments and ablation studies.
翻訳日:2021-12-09 13:26:48 公開日:2021-12-08
# (参考訳) ニューラルネットワーク予測のためのペアワイズ学習 [全文訳有]

Pairwise Learning for Neural Link Prediction ( http://arxiv.org/abs/2112.02936v3 )

ライセンス: CC BY 4.0
Zhitao Wang, Yong Zhou, Litao Hong, Yuanhang Zou and Hanjing Su(参考訳) 本稿では,効果的なペアワイズ学習ニューラルネットワーク予測(plnlp)フレームワークを提供することを目的としている。 このフレームワークは、リンク予測を問題をランク付けするためのペアワイズ学習として扱い、近隣エンコーダ、リンク予測器、負のサンプリング器、客観的関数の4つの主要コンポーネントから構成される。 このフレームワークは、任意の汎用グラフニューラル畳み込みやリンク予測固有のニューラルアーキテクチャを近隣エンコーダとして使用することができる。 リンク予測のために、異なる種類のグラフに基づいて選択できる異なるスコアリング関数を設計した。 負のサンプラーでは、問題固有のいくつかのサンプリング戦略を提供する。 目的関数については,標準ランキング基準AUCをほぼ最大化する効果的なランキング損失を用いることを提案する。 提案するPLNLPフレームワークは, ogbl-ddi, ogbl-collab, ogbl-ppa, ogbl-ciation2を含むOpen Graph Benchmarkの4つのリンク特性予測データセット上で評価する。 PLNLPはogbl-ddiでトップ1、ogbl-collabとogbl-ciation2でトップ2のパフォーマンスは基本的なニューラルネットワークアーキテクチャでのみ達成している。 この性能はplnlpの有効性を示す。

In this paper, we aim at providing an effective Pairwise Learning Neural Link Prediction (PLNLP) framework. The framework treats link prediction as a pairwise learning to rank problem and consists of four main components, i.e., neighborhood encoder, link predictor, negative sampler and objective function. The framework is flexible that any generic graph neural convolution or link prediction specific neural architecture could be employed as neighborhood encoder. For link predictor, we design different scoring functions, which could be selected based on different types of graphs. In negative sampler, we provide several sampling strategies, which are problem specific. As for objective function, we propose to use an effective ranking loss, which approximately maximizes the standard ranking metric AUC. We evaluate the proposed PLNLP framework on 4 link property prediction datasets of Open Graph Benchmark, including ogbl-ddi, ogbl-collab, ogbl-ppa and ogbl-ciation2. PLNLP achieves Top 1 performance on ogbl-ddi, and Top 2 performance on ogbl-collab and ogbl-ciation2 only with basic neural architecture. The performance demonstrates the effectiveness of PLNLP.
翻訳日:2021-12-09 12:12:45 公開日:2021-12-08
# (参考訳) raceBERT -- 名前から人種と民族を予測するトランスフォーマーベースのモデル [全文訳有]

raceBERT -- A Transformer-based Model for Predicting Race and Ethnicity from Names ( http://arxiv.org/abs/2112.03807v2 )

ライセンス: CC BY 4.0
Prasanna Parasurama(参考訳) 本稿では、名前の文字列から人種や民族を予測するトランスフォーマーベースモデル raceBERT と、それに付随するpython パッケージを提案する。 フロリダ州の有権者登録データセットでトレーニングされたトランスフォーマーベースのモデルを使用して、このモデルは5つの米国国勢調査カテゴリー(白人、黒人、ヒスパニック、アジアと太平洋の島民、アメリカインディアンとアラスカ先住民)に属する名前の可能性を予測する。 私は Sood と Laohaprapanon (2018) を使って、LSTM モデルをトランスフォーマーベースモデル(事前トレーニングされたBERTモデルと、スクラッチからトレーニングされたRoBERTaモデル)に置き換えて、結果を比較します。 私の知る限りでは、 raceBERTは名前を使ったレース予測における最先端の結果を達成しており、平均f1スコアは0.86であり、以前の最先端よりも4.1%改善され、非白人名では15-17%改善されている。

This paper presents raceBERT -- a transformer-based model for predicting race and ethnicity from character sequences in names, and an accompanying python package. Using a transformer-based model trained on a U.S. Florida voter registration dataset, the model predicts the likelihood of a name belonging to 5 U.S. census race categories (White, Black, Hispanic, Asian & Pacific Islander, American Indian & Alaskan Native). I build on Sood and Laohaprapanon (2018) by replacing their LSTM model with transformer-based models (pre-trained BERT model, and a roBERTa model trained from scratch), and compare the results. To the best of my knowledge, raceBERT achieves state-of-the-art results in race prediction using names, with an average f1-score of 0.86 -- a 4.1% improvement over the previous state-of-the-art, and improvements between 15-17% for non-white names.
翻訳日:2021-12-09 12:03:02 公開日:2021-12-08
# CALVIN:長軸ロボット操作タスクのための言語条件ポリシー学習のベンチマーク

CALVIN: A Benchmark for Language-conditioned Policy Learning for Long-horizon Robot Manipulation Tasks ( http://arxiv.org/abs/2112.03227v2 )

ライセンス: Link先を確認
Oier Mees, Lukas Hermann, Erick Rosete-Beas, Wolfram Burgard(参考訳) 人間と環境に共存する汎用ロボットは、人間の言語と人間の認識や行動との関係を学習し、日々の作業に役立てる必要がある。 さらに、制約のない言語指示に従うことで、長期タスクを構成できる汎用スキルの多様なレパートリーを取得する必要がある。 本稿では,CALVIN(Composing Actions from Language and Vision)を提案する。 我々の目標は、ロボット操作のタスクを長時間にわたって、オンボードセンサーから、人間の言語でのみ特定できるエージェントの開発を可能にすることにある。 CALVINタスクは、既存の視覚・言語タスクデータセットよりもシーケンスの長さ、アクションスペース、言語が複雑であり、センサースイートの柔軟な仕様をサポートする。 我々は、ゼロショットのエージェントを、新しい言語命令や、新しい環境やオブジェクトに対して評価する。 マルチコンテキスト模倣学習に基づくベースラインモデルでは,calvinではパフォーマンスが悪く,このベンチマークで人間の言語と世界モデルとの関係を学習する革新的なエージェントを開発する余地があることが示唆された。

General-purpose robots coexisting with humans in their environment must learn to relate human language to their perceptions and actions to be useful in a range of daily tasks. Moreover, they need to acquire a diverse repertoire of general-purpose skills that allow composing long-horizon tasks by following unconstrained language instructions. In this paper, we present CALVIN (Composing Actions from Language and Vision), an open-source simulated benchmark to learn long-horizon language-conditioned tasks. Our aim is to make it possible to develop agents that can solve many robotic manipulation tasks over a long horizon, from onboard sensors, and specified only via human language. CALVIN tasks are more complex in terms of sequence length, action space, and language than existing vision-and-language task datasets and supports flexible specification of sensor suites. We evaluate the agents in zero-shot to novel language instructions and to novel environments and objects. We show that a baseline model based on multi-context imitation learning performs poorly on CALVIN, suggesting that there is significant room for developing innovative agents that learn to relate human language to their world models with this benchmark.
翻訳日:2021-12-09 11:57:39 公開日:2021-12-08
# なぜだ! --関係・因果構造の学習を支援する説明

Tell me why! -- Explanations support learning of relational and causal structure ( http://arxiv.org/abs/2112.03753v2 )

ライセンス: Link先を確認
Andrew K. Lampinen, Nicholas A. Roy, Ishita Dasgupta, Stephanie C. Y. Chan, Allison C. Tam, James L. McClelland, Chen Yan, Adam Santoro, Neil C. Rabinowitz, Jane X. Wang, Felix Hill(参考訳) 説明は人間の学習において重要な役割を担います。特に、AIの大きな課題である抽象化の形成と、世界のリレーショナルと因果構造について学ぶ領域においてです。 ここでは,強化学習エージェントが説明の恩恵を受けるかどうかを検討する。 我々は、集合内の奇数な対象(すなわち、多くの可能な特徴次元の1つに一意)を選択するための関係性タスクのファミリーを概説する。 オッドワンアウトタスクでは、エージェントは一連のオブジェクト間の多次元関係を推論する必要がある。 エージェントは報酬だけではこれらのタスクをうまく学習しないが、オブジェクトの特性や選択が正しくない理由を説明する言語を生成する訓練を受けた場合、90%以上のパフォーマンスを達成する。 さらなる実験では、予測説明がエージェントを曖昧で因果的結合のトレーニングから適切に一般化し、メタリーンは因果構造を識別するために実験的な介入を行うことができることを示す。 説明は,単純な特徴に固執するエージェントの傾向を克服し,説明のどの側面が最も有益かを探究する上で有効であることを示す。 我々の結果は、説明からの学習が強力な原則であり、より堅牢で一般的な機械学習システムのトレーニングに有望な道をもたらすことを示唆している。

Explanations play a considerable role in human learning, especially in areas that remain major challenges for AI -- forming abstractions, and learning about the relational and causal structure of the world. Here, we explore whether reinforcement learning agents might likewise benefit from explanations. We outline a family of relational tasks that involve selecting an object that is the odd one out in a set (i.e., unique along one of many possible feature dimensions). Odd-one-out tasks require agents to reason over multi-dimensional relationships among a set of objects. We show that agents do not learn these tasks well from reward alone, but achieve >90% performance when they are also trained to generate language explaining object properties or why a choice is correct or incorrect. In further experiments, we show how predicting explanations enables agents to generalize appropriately from ambiguous, causally-confounded training, and even to meta-learn to perform experimental interventions to identify causal structure. We show that explanations help overcome the tendency of agents to fixate on simple features, and explore which aspects of explanations make them most beneficial. Our results suggest that learning from explanations is a powerful principle that could offer a promising path towards training more robust and general machine learning systems.
翻訳日:2021-12-09 11:57:18 公開日:2021-12-08
# U2-Former:画像復元用のネスト型U字型トランス

U2-Former: A Nested U-shaped Transformer for Image Restoration ( http://arxiv.org/abs/2112.02279v2 )

ライセンス: Link先を確認
Haobo Ji, Xin Feng, Wenjie Pei, Jinxing Li, Guangming Lu(参考訳) Transformerは様々なハイレベルな視覚タスクにおいて顕著なパフォーマンスを実現しているが、画像復元におけるTransformerの潜在能力を最大限活用することは依然として困難である。 このクルックスは、イメージ復元のための典型的なエンコーダデコーダフレームワークにTransformerを適用するという限られた深さにある。 本稿では,トランスフォーマーをコア操作として利用し,深層符号化・復号化空間で画像復元を行うことのできる,深層かつ効率的なトランスフォーマーベースネットワークであるU2-Formerを提案する。 具体的には、ネストしたU字型構造を利用して、異なるサイズの特徴写像を持つ異なる層間の相互作用を促進する。 さらに,トークン表現を圧縮する特徴フィルタリング機構を導入することにより,基本トランスフォーマーブロックの計算効率を最適化する。 画像復元のための典型的な監督方法とは別に、u2-formerは複数の側面でコントラスト学習を行い、ノイズ成分を背景画像からさらに分離する。 反射除去, 雨ストレーク除去, デハジングなど, 様々な画像復元作業に関する広範囲な実験により, 提案するu2-formerの有効性が示された。

While Transformer has achieved remarkable performance in various high-level vision tasks, it is still challenging to exploit the full potential of Transformer in image restoration. The crux lies in the limited depth of applying Transformer in the typical encoder-decoder framework for image restoration, resulting from heavy self-attention computation load and inefficient communications across different depth (scales) of layers. In this paper, we present a deep and effective Transformer-based network for image restoration, termed as U2-Former, which is able to employ Transformer as the core operation to perform image restoration in a deep encoding and decoding space. Specifically, it leverages the nested U-shaped structure to facilitate the interactions across different layers with different scales of feature maps. Furthermore, we optimize the computational efficiency for the basic Transformer block by introducing a feature-filtering mechanism to compress the token representation. Apart from the typical supervision ways for image restoration, our U2-Former also performs contrastive learning in multiple aspects to further decouple the noise component from the background image. Extensive experiments on various image restoration tasks, including reflection removal, rain streak removal and dehazing respectively, demonstrate the effectiveness of the proposed U2-Former.
翻訳日:2021-12-09 11:56:57 公開日:2021-12-08
# 骨格ビデオ異常検出のための明示的分布モデルによる正規性学習

Regularity Learning via Explicit Distribution Modeling for Skeletal Video Anomaly Detection ( http://arxiv.org/abs/2112.03649v2 )

ライセンス: Link先を確認
Shoubin Yu, Zhongyin Zhao, Haoshu Fang, Andong Deng, Haisheng Su, Dongliang Wang, Weihao Gan, Cewu Lu, Wei Wu(参考訳) 監視ビデオにおける異常検出は、公共の安全を確保する上で困難かつ重要である。 画素ベースの異常検出方法と異なり、ポーズベースの手法は高度に構造化された骨格データを使用し、計算負担を低減し、背景雑音の負の影響を回避する。 しかし、光学フローなどの明示的な運動特徴を直接活用できる画素ベースの手法とは異なり、ポーズベースの手法は代替の動的表現が欠如している。 本稿では, 確率的視点からのポーズ動作表現を実現するために, 新たな動き埋め込み器 (me) を提案する。 さらに、タスク固有の空間時間変換器(STT)を自己教師型ポーズシーケンス再構築のために配置する。 これら2つのモジュールは、MoPRL(Motion Prior Regularity Learner)と呼ばれる、規則性学習のための統一されたフレームワークに統合される。 MoPRLは、いくつかの挑戦的なデータセットに対して平均4.7%のAUCの改善によって最先端のパフォーマンスを達成する。 広範な実験により、各モジュールの汎用性が検証された。

Anomaly detection in surveillance videos is challenging and important for ensuring public security. Different from pixel-based anomaly detection methods, pose-based methods utilize highly-structured skeleton data, which decreases the computational burden and also avoids the negative impact of background noise. However, unlike pixel-based methods, which could directly exploit explicit motion features such as optical flow, pose-based methods suffer from the lack of alternative dynamic representation. In this paper, a novel Motion Embedder (ME) is proposed to provide a pose motion representation from the probability perspective. Furthermore, a novel task-specific Spatial-Temporal Transformer (STT) is deployed for self-supervised pose sequence reconstruction. These two modules are then integrated into a unified framework for pose regularity learning, which is referred to as Motion Prior Regularity Learner (MoPRL). MoPRL achieves the state-of-the-art performance by an average improvement of 4.7% AUC on several challenging datasets. Extensive experiments validate the versatility of each proposed module.
翻訳日:2021-12-09 11:56:33 公開日:2021-12-08
# 正当性への活性化:教師なし正当性物体検出のための高品質ラベル形成

Activation to Saliency: Forming High-Quality Labels for Unsupervised Salient Object Detection ( http://arxiv.org/abs/2112.03650v2 )

ライセンス: Link先を確認
Huajun Zhou and Peijia Chen and Lingxiao Yang and Jianhuang Lai and Xiaohua Xie(参考訳) 非教師対象物検出(USOD)は産業アプリケーションと下流タスクの両方において最重要課題である。 既存のディープラーニング(DL)に基づくUDD法では、従来のSOD法によって抽出されたいくつかの低品質な唾液率予測を、主に画像の顕著な領域を捉えている。 さらに,他の視覚タスクで教師付き学習によって訓練されたモデルから得られた意味情報のアシスタントを用いて,これらのサリエンシー手がかりを洗練する。 本研究では,高品質な塩分濃度検出手段を効果的に生成する2段階活性化塩分濃度(A2S)フレームワークを提案する。 さらに重要なのは、トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。 第1段階では、事前学習されたネットワーク(moco v2)を、変換されたネットワークのトレーニングを支援するために適応決定境界(adb)が提案される単一のアクティベーションマップに集約する。 高品質な擬似ラベルの生成を容易にするために,画素とその手段間の特徴距離を拡大する損失関数を提案する。 第2段階では、オンラインラベル修正(OLR)戦略がトレーニングプロセス中に擬似ラベルを更新し、邪魔者のネガティブな影響を減らす。 さらに,2つのRAM(Residual Attention Modules)を用いて,エッジやカラーなどの低レベルの特徴を補完する情報を用いて,高レベルの特徴を洗練する軽量なサリエンシ検出器を構築した。 いくつかのSODベンチマークの大規模な実験により、既存のUSOD法と比較して、我々のフレームワークは大きな性能を報告している。 さらに,3000枚の画像上でのフレームワークのトレーニングには1時間程度かかり,従来の最先端の手法よりも30倍以上高速である。

Unsupervised Salient Object Detection (USOD) is of paramount significance for both industrial applications and downstream tasks. Existing deep-learning (DL) based USOD methods utilize some low-quality saliency predictions extracted by several traditional SOD methods as saliency cues, which mainly capture some conspicuous regions in images. Furthermore, they refine these saliency cues with the assistant of semantic information, which is obtained from some models trained by supervised learning in other related vision tasks. In this work, we propose a two-stage Activation-to-Salien cy (A2S) framework that effectively generates high-quality saliency cues and uses these cues to train a robust saliency detector. More importantly, no human annotations are involved in our framework during the whole training process. In the first stage, we transform a pretrained network (MoCo v2) to aggregate multi-level features to a single activation map, where an Adaptive Decision Boundary (ADB) is proposed to assist the training of the transformed network. To facilitate the generation of high-quality pseudo labels, we propose a loss function to enlarges the feature distances between pixels and their means. In the second stage, an Online Label Rectifying (OLR) strategy updates the pseudo labels during the training process to reduce the negative impact of distractors. In addition, we construct a lightweight saliency detector using two Residual Attention Modules (RAMs), which refine the high-level features using the complementary information in low-level features, such as edges and colors. Extensive experiments on several SOD benchmarks prove that our framework reports significant performance compared with existing USOD methods. Moreover, training our framework on 3000 images consumes about 1 hour, which is over 30x faster than previous state-of-the-art methods.
翻訳日:2021-12-09 11:56:19 公開日:2021-12-08
# 自己監督型映像表現学習のための正規化フローによる静的視覚キューの抑制

Suppressing Static Visual Cues via Normalizing Flows for Self-Supervised Video Representation Learning ( http://arxiv.org/abs/2112.03803v2 )

ライセンス: Link先を確認
Manlin Zhang, Jinpeng Wang, Andy J. Ma(参考訳) 深層畳み込みニューラルネットワークによる映像理解の進歩にもかかわらず、既存の方法で学習された特徴表現は静的な視覚的手がかりに偏っている可能性がある。 そこで本稿では,自己教師付きビデオ表現学習における確率論的解析に基づく静的視覚的手がかり(SSVC)の抑制手法を提案する。 本手法では,まずビデオフレームを符号化し,正規化フローによる標準正規分布下での潜在変数を得る。 ビデオ中の静的因子をランダム変数としてモデル化することにより、各潜伏変数の条件分布がシフトして正規化される。 そして、時間とともに変化の少ない潜伏変数を静的なキューとして選択し、動画の保存を抑える。 最後に、正のペアは、コントラスト学習のための運動保存ビデオによって構成され、表現バイアスの問題を静的な手がかりに緩和する。 バイアスの少ないビデオ表現は、様々な下流タスクにもっと一般化できる。 公開されているベンチマーク実験により,提案手法は,1つのRGBモダリティのみを事前学習に使用した場合に,技術状況よりも優れることが示された。

Despite the great progress in video understanding made by deep convolutional neural networks, feature representation learned by existing methods may be biased to static visual cues. To address this issue, we propose a novel method to suppress static visual cues (SSVC) based on probabilistic analysis for self-supervised video representation learning. In our method, video frames are first encoded to obtain latent variables under standard normal distribution via normalizing flows. By modelling static factors in a video as a random variable, the conditional distribution of each latent variable becomes shifted and scaled normal. Then, the less-varying latent variables along time are selected as static cues and suppressed to generate motion-preserved videos. Finally, positive pairs are constructed by motion-preserved videos for contrastive learning to alleviate the problem of representation bias to static cues. The less-biased video representation can be better generalized to various downstream tasks. Extensive experiments on publicly available benchmarks demonstrate that the proposed method outperforms the state of the art when only single RGB modality is used for pre-training.
翻訳日:2021-12-09 11:55:47 公開日:2021-12-08
# 原発性腫瘍生検標本の深層学習による早期乳癌の扁平上皮リンパ節転移の予測

Predicting Axillary Lymph Node Metastasis in Early Breast Cancer Using Deep Learning on Primary Tumor Biopsy Slides ( http://arxiv.org/abs/2112.02222v2 )

ライセンス: Link先を確認
Feng Xu, Chuang Zhu, Wenqi Tang, Ying Wang, Yu Zhang, Jie Li, Hongchuan Jiang, Zhongyue Shi, Jun Liu, Mulan Jin(参考訳) 目的: 早期乳癌(ebc)の臨床陰性aln患者において,alnリンパ節転移を術前に予測するために, 深部学習(dl)に基づく原発性腫瘍生検信号を開発し, 検証すること。 方法:2010年5月から2020年8月までにALNと診断されたEBC患者1,058例を登録した。 2人の病理医が注釈を付した乳腺CNB検体におけるDigitalized whole-slide image(WSIs)の癌領域から抽出したDL特徴を用いてALN状態を予測するために,DL-needle biopsy (DL-CNB)モデルを構築した。 精度, 感度, 特異性, 受信動作特性 (ROC) 曲線, ROC曲線 (AUC) 下の領域を解析し, 本モデルについて検討した。 結果: VGG16_BNを特徴抽出器としたDL-CNBモデルでは, 独立試験コホートにおけるALN転移の予測において, 0.816(95%信頼区間: 0.758, 0.865)のAUCが得られた。 さらに, dl-cnb+cとよばれる臨床データを組み込んだモデルでは, 50歳未満 (0.918, 95%ci: 0.825, 0.971) に対して, 0.831 (95%ci: 0.775, 0.878) の精度が得られた。 dl-cnbモデルの解釈により、aln転移の最も予測されるトップシグネチャは、密度(p$ = 0.015)、円周(p$ = 0.009)、円度(p$ = 0.010)、方位(p$ = 0.012)を含む核の特徴によって特徴づけられた。 結論:本研究は原発性腫瘍CNBスライドに新しいDLベースのバイオマーカーを付与し,EBC患者に対して術前にALNの転移状態を予測する。 コードとデータセットはhttps://github.com/b upt-ai-cz/balnmpで入手できる。

Objectives: To develop and validate a deep learning (DL)-based primary tumor biopsy signature for predicting axillary lymph node (ALN) metastasis preoperatively in early breast cancer (EBC) patients with clinically negative ALN. Methods: A total of 1,058 EBC patients with pathologically confirmed ALN status were enrolled from May 2010 to August 2020. A DL core-needle biopsy (DL-CNB) model was built on the attention-based multiple instance-learning (AMIL) framework to predict ALN status utilizing the DL features, which were extracted from the cancer areas of digitized whole-slide images (WSIs) of breast CNB specimens annotated by two pathologists. Accuracy, sensitivity, specificity, receiver operating characteristic (ROC) curves, and areas under the ROC curve (AUCs) were analyzed to evaluate our model. Results: The best-performing DL-CNB model with VGG16_BN as the feature extractor achieved an AUC of 0.816 (95% confidence interval (CI): 0.758, 0.865) in predicting positive ALN metastasis in the independent test cohort. Furthermore, our model incorporating the clinical data, which was called DL-CNB+C, yielded the best accuracy of 0.831 (95%CI: 0.775, 0.878), especially for patients younger than 50 years (AUC: 0.918, 95%CI: 0.825, 0.971). The interpretation of DL-CNB model showed that the top signatures most predictive of ALN metastasis were characterized by the nucleus features including density ($p$ = 0.015), circumference ($p$ = 0.009), circularity ($p$ = 0.010), and orientation ($p$ = 0.012). Conclusion: Our study provides a novel DL-based biomarker on primary tumor CNB slides to predict the metastatic status of ALN preoperatively for patients with EBC. The codes and dataset are available at https://github.com/b upt-ai-cz/BALNMP
翻訳日:2021-12-09 11:55:29 公開日:2021-12-08
# 走査型非教師型深層学習を用いたリラクソメトリーとMRフィンガープリントの高精度パラメータ推定

Accurate parameter estimation using scan-specific unsupervised deep learning for relaxometry and MR fingerprinting ( http://arxiv.org/abs/2112.03815v2 )

ライセンス: Link先を確認
Mengze Gao, Huihui Ye, Tae Hyung Kim, Zijing Zhang, Seohee So, Berkin Bilgic(参考訳) 緩和パラメータ推定のための教師なし畳み込みニューラルネットワーク(CNN)を提案する。 このネットワークは、隣接するボクセル間の残留学習と空間関係を生かしながら、信号緩和とブロッホシミュレーションを組み込んでいる。 数値シミュレーションにおける標準パラメータ推定法やマルチエコーt2, t2*マッピングのin vivoデータと比較して, 量子化精度と雑音に対するロバスト性は有意に向上した。 提案手法とサブスペースモデリングとMRフィンガープリント(MRF)を組み合わせることで,高品質なT1とT2マッピングを実現する。

We propose an unsupervised convolutional neural network (CNN) for relaxation parameter estimation. This network incorporates signal relaxation and Bloch simulations while taking advantage of residual learning and spatial relations across neighboring voxels. Quantification accuracy and robustness to noise is shown to be significantly improved compared to standard parameter estimation methods in numerical simulations and in vivo data for multi-echo T2 and T2* mapping. The combination of the proposed network with subspace modeling and MR fingerprinting (MRF) from highly undersampled data permits high quality T1 and T2 mapping.
翻訳日:2021-12-09 11:53:31 公開日:2021-12-08
# PTR-PPO:優先順位付き軌道リプレイによる近似的ポリシー最適化

PTR-PPO: Proximal Policy Optimization with Prioritized Trajectory Replay ( http://arxiv.org/abs/2112.03798v2 )

ライセンス: Link先を確認
Xingxing Liang and Yang Ma and Yanghe Feng and Zhong Liu(参考訳) on-policy 深層強化学習アルゴリズムは、データ利用量が少なく、政策改善にかなりの経験を必要とする。 本稿では,オン・ポリシー法とオフ・ポリシー法を組み合わせた優先順位付き軌道再生(ptr-ppo)を用いた近距離政策最適化アルゴリズムを提案する。 まず,1段階の総合的優位推定(GAE)値に基づく1段階の最大軌道と平均軌道の優先度と,正規化されていない累積報酬に基づく報酬軌道の優先度という3つの軌道の優先順位を設計する。 そこで我々は,PPOアルゴリズムに優先トラジェクトリ・リプレイを導入し,多段階経験下での重み付き重み付けによる高分散を克服する重み付け手法を提案し,非政治条件下でのPPOの政策改善損失関数を設計する。 我々は,Atari離散制御タスクの集合におけるPTR-PPOの性能を評価し,最先端の性能を実現する。 さらに,訓練中の優先メモリの様々な場所での優先度変化のヒートマップを解析することにより,メモリサイズとロールアウト長がトラジェクトリ優先度の分布に大きく影響し,従ってアルゴリズムの性能に影響を及ぼすことがわかった。

On-policy deep reinforcement learning algorithms have low data utilization and require significant experience for policy improvement. This paper proposes a proximal policy optimization algorithm with prioritized trajectory replay (PTR-PPO) that combines on-policy and off-policy methods to improve sampling efficiency by prioritizing the replay of trajectories generated by old policies. We first design three trajectory priorities based on the characteristics of trajectories: the first two being max and mean trajectory priorities based on one-step empirical generalized advantage estimation (GAE) values and the last being reward trajectory priorities based on normalized undiscounted cumulative reward. Then, we incorporate the prioritized trajectory replay into the PPO algorithm, propose a truncated importance weight method to overcome the high variance caused by large importance weights under multistep experience, and design a policy improvement loss function for PPO under off-policy conditions. We evaluate the performance of PTR-PPO in a set of Atari discrete control tasks, achieving state-of-the-art performance. In addition, by analyzing the heatmap of priority changes at various locations in the priority memory during training, we find that memory size and rollout length can have a significant impact on the distribution of trajectory priorities and, hence, on the performance of the algorithm.
翻訳日:2021-12-09 10:21:52 公開日:2021-12-08
# バンドフィードバックを持つ強いモノトーンゲームにおける最適非線形学習

Optimal No-Regret Learning in Strongly Monotone Games with Bandit Feedback ( http://arxiv.org/abs/2112.02856v2 )

ライセンス: Link先を確認
Tianyi Lin, Zhengyuan Zhou, Wenjia Ba, Jiawei Zhang(参考訳) 各エージェントは、その勾配ではなく、すべてのプレイヤーの現在の共同アクションによって決定される、各時点における報酬のみを観察する。 我々は,滑らかで強いモノトーンゲームのクラスに注目し,そこでの最適ノンリグレット学習を考察する。 自己一致バリア関数を活用することで,オンラインバンディット凸最適化アルゴリズムをまず構築し,平滑かつ強コンケーブなペイオフ関数の下で$\tilde{\theta}(\sqrt{t})$の単一エージェント最適後悔を達成することを示す。 すると、各エージェントがこの非回帰学習アルゴリズムを強い単調ゲームに適用すると、結合作用は、$\tilde{\Theta}(1/\sqrt{T})$の速度で、一意なナッシュ平衡に収束する。 我々の研究に先立ち、同じゲームのクラスにおける最良の知識収束率は$O(1/T^{1/3})$(異なるアルゴリズムによって達成される)であり、したがって最適な非回帰学習アルゴリズムの問題を解き放つ(既知の下界は$\Omega(1/\sqrt{T})$)。 そこで本研究では,この開放的課題を解決し,第1次バンディット最適学習アルゴリズムを同定することで,バンディットゲーム理論的学習の広い景観に寄与し,単一エージェント学習における最適後悔とマルチエージェント学習における最適ラストイテレート収束率の両方を(ログファクターまで)達成する。 また,提案アルゴリズムの有効性を実証するため,いくつかのシミュレーション研究 (Cournot competition, Kelly auctions, distributed regularized logistic regression) の結果も提示した。

We consider online no-regret learning in unknown games with bandit feedback, where each agent only observes its reward at each time -- determined by all players' current joint action -- rather than its gradient. We focus on the class of smooth and strongly monotone games and study optimal no-regret learning therein. Leveraging self-concordant barrier functions, we first construct an online bandit convex optimization algorithm and show that it achieves the single-agent optimal regret of $\tilde{\Theta}(\sqrt{T})$ under smooth and strongly-concave payoff functions. We then show that if each agent applies this no-regret learning algorithm in strongly monotone games, the joint action converges in \textit{last iterate} to the unique Nash equilibrium at a rate of $\tilde{\Theta}(1/\sqrt{T})$. Prior to our work, the best-know convergence rate in the same class of games is $O(1/T^{1/3})$ (achieved by a different algorithm), thus leaving open the problem of optimal no-regret learning algorithms (since the known lower bound is $\Omega(1/\sqrt{T})$). Our results thus settle this open problem and contribute to the broad landscape of bandit game-theoretical learning by identifying the first doubly optimal bandit learning algorithm, in that it achieves (up to log factors) both optimal regret in the single-agent learning and optimal last-iterate convergence rate in the multi-agent learning. We also present results on several simulation studies -- Cournot competition, Kelly auctions, and distributed regularized logistic regression -- to demonstrate the efficacy of our algorithm.
翻訳日:2021-12-09 10:21:25 公開日:2021-12-08