このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220212となっている論文です。

PDF登録状況(公開日: 20220212)

TitleAuthorsAbstract論文公表日・翻訳日
# モーメントにおける二重障壁質問検出

Double-Barreled Question Detection at Momentive ( http://arxiv.org/abs/2203.03545v1 )

ライセンス: Link先を確認
Peng Jiang, Krishna Sumanth Muppalla, Qing Wei, Chidambara Natarajan Gopal, Chun Wang(参考訳) Momentiveは市場調査、顧客エクスペリエンス、企業フィードバックのソリューションを提供する。 この技術は、何十億もの本当の反応から、プラットフォーム上で質問された質問へと導かれる。 しかし、人々は偏った質問をすることがある。 ダブルバレル質問(DBQ)は、ある質問において2つの側面を問うバイアス付き質問の一種である。 例えば、"食べ物はおいしいし、サービスは素晴らしい"という声明に同意しますか? このdbqは質問に2つの部分があるため、回答者を混乱させます。 DBQは調査回答者と調査所有者の両方に影響を与える。 MomentiveはDBQの検出と,高品質な偏見のない調査データ収集への変更を推奨する。 これまでの研究では、文法的結合の存在をチェックすることでdbqを検出することを提案している。 これは単純なルールベースのアプローチであるが、適切に構築された質問にも結合が存在するため、この方法はエラーを起こしやすい。 本稿では,DBQ分類のためのエンドツーエンド機械学習手法を提案する。 この不均衡なデータをアクティブラーニングを用いて処理し、最先端の埋め込みアルゴリズムを比較してテキストデータをベクトルに変換する。 さらに,質問文の各単語に対して,ベクトルレベルのシェープ値をシェープ値に伝達するモデル解釈手法を提案する。 我々は,最大プーリングを伴うword2vecサブワード埋め込みは,調査データを用いたオフライン実験において,精度と実行時間の観点から最適な単語埋め込み表現であると結論づけた。 a/bテストと製品メトリクスは、このモデルがビジネスにポジティブな変化をもたらすことを示している。 私たちの知る限りでは、これはDBQ検出のための最初の機械学習フレームワークであり、Momentiveをライバルと区別することに成功しています。 私たちは、バイアス問題検出のための機械学習アプローチに光を当てることを願っています。

Momentive offers solutions in market research, customer experience, and enterprise feedback. The technology is gleaned from the billions of real responses to questions asked on the platform. However, people may create biased questions. A double-barreled question (DBQ) is a common type of biased question that asks two aspects in one question. For example, "Do you agree with the statement: The food is yummy, and the service is great.". This DBQ confuses survey respondents because there are two parts in a question. DBQs impact both the survey respondents and the survey owners. Momentive aims to detect DBQs and recommend survey creators to make a change towards gathering high quality unbiased survey data. Previous research work has suggested detecting DBQs by checking the existence of grammatical conjunction. While this is a simple rule-based approach, this method is error-prone because conjunctions can also exist in properly constructed questions. We present an end-to-end machine learning approach for DBQ classification in this work. We handled this imbalanced data using active learning, and compared state-of-the-art embedding algorithms to transform text data into vectors. Furthermore, we proposed a model interpretation technique propagating the vector-level SHAP values to a SHAP value for each word in the questions. We concluded that the word2vec subword embedding with maximum pooling is the optimal word embedding representation in terms of precision and running time in the offline experiments using the survey data at Momentive. The A/B test and production metrics indicate that this model brings a positive change to the business. To the best of our knowledge, this is the first machine learning framework for DBQ detection, and it successfully differentiates Momentive from the competitors. We hope our work sheds light on machine learning approaches for bias question detection.
翻訳日:2022-03-13 14:00:12 公開日:2022-02-12
# Proximal PanNet: パンシャーピングのためのモデルベースディープネットワーク

Proximal PanNet: A Model-Based Deep Network for Pansharpening ( http://arxiv.org/abs/2203.04286v1 )

ライセンス: Link先を確認
Xiangyong Cao, Yang Chen, Wenfei Cao(参考訳) 近年,低分解能マルチスペクトル (LRMS) 画像と高分解能パンクロマティック (PAN) 画像とを融合させて高分解能マルチスペクトル (HRMS) 画像を生成するパンシャーピングの深層学習技術が広く研究されている。 しかし,既存の深層学習に基づくパンシャーピング手法では,LRMSとPANからHRMSへのマッピングを直接学習する。 これらのネットワークアーキテクチャには十分な解釈性がないため、さらなるパフォーマンス向上が制限される。 そこで本研究では,モデルベース手法とディープラーニング手法を組み合わせることにより,パンシャープ化のための新たな深層ネットワークを提案する。 まず、畳み込みスパース符号化(CSC)技術を用いてパンスハーペンの観測モデルを構築し、このモデルを解くための近似勾配アルゴリズムを設計する。 次に,畳み込みニューラルネットワークを用いて近位演算子を学習することにより,反復アルゴリズムを近位パンネットと呼ばれる深層ネットワークに展開する。 最後に、すべての学習可能なモジュールはエンドツーエンドで自動的に学習することができる。 いくつかのベンチマークデータセットの実験結果から、我々のネットワークは定量的にも定性的にも他の先進的な手法よりも優れた性能を示している。

Recently, deep learning techniques have been extensively studied for pansharpening, which aims to generate a high resolution multispectral (HRMS) image by fusing a low resolution multispectral (LRMS) image with a high resolution panchromatic (PAN) image. However, existing deep learning-based pansharpening methods directly learn the mapping from LRMS and PAN to HRMS. These network architectures always lack sufficient interpretability, which limits further performance improvements. To alleviate this issue, we propose a novel deep network for pansharpening by combining the model-based methodology with the deep learning method. Firstly, we build an observation model for pansharpening using the convolutional sparse coding (CSC) technique and design a proximal gradient algorithm to solve this model. Secondly, we unfold the iterative algorithm into a deep network, dubbed as Proximal PanNet, by learning the proximal operators using convolutional neural networks. Finally, all the learnable modules can be automatically learned in an end-to-end manner. Experimental results on some benchmark datasets show that our network performs better than other advanced methods both quantitatively and qualitatively.
翻訳日:2022-03-13 13:59:49 公開日:2022-02-12
# ガイド画像超解像のためのメモリ拡張Deep Unfolding Network

Memory-augmented Deep Unfolding Network for Guided Image Super-resolution ( http://arxiv.org/abs/2203.04960v1 )

ライセンス: Link先を確認
Man Zhou, Keyu Yan, Jinshan Pan, Wenqi Ren, Qi Xie, Xiangyong Cao(参考訳) 誘導画像超解像(GISR)は、HR画像の誘導の下で低解像度(LR)目標画像の空間分解能を高めて高解像度(HR)目標画像を得る。 しかし、従来のモデルベース手法は、主に全体像を捉え、HR目標像とHRガイダンス像との事前分布を仮定し、それらの間にある多くの非局所共通特性を無視している。 この問題を軽減するため,我々はまず,hr目標画像に先行する2つのタイプ,すなわち局所的暗黙的前置と大域的暗黙的前置を持つgisrの最大後部(map)推定モデルを提案する。 局所的暗黙の先行は、局所的な視点からHR目標画像とHRガイダンス画像の間の複雑な関係をモデル化することを目的としており、グローバル的暗黙の先行は、グローバル的な視点から2つの画像間の非局所的自己回帰性を考慮する。 第二に,このモデルをGISRで解くために,新しい交互最適化アルゴリズムを設計する。 このアルゴリズムは、よく使われるディープネットワーク構造に複製を容易にする簡潔なフレームワークである。 第3に、反復的な段階にわたる情報損失を低減するため、画像及び特徴空間内のLong短期記憶ユニット(LSTM)を利用して情報表現を増強する永続記憶機構を導入する。 このように、一定の解釈と高い表現能力を備えたディープネットワークを構築する。 超解像, 深度画像超解像, MR画像超解像など, 各種GISRタスクにおける提案手法の優位性を検証した。

Guided image super-resolution (GISR) aims to obtain a high-resolution (HR) target image by enhancing the spatial resolution of a low-resolution (LR) target image under the guidance of a HR image. However, previous model-based methods mainly takes the entire image as a whole, and assume the prior distribution between the HR target image and the HR guidance image, simply ignoring many non-local common characteristics between them. To alleviate this issue, we firstly propose a maximal a posterior (MAP) estimation model for GISR with two types of prior on the HR target image, i.e., local implicit prior and global implicit prior. The local implicit prior aims to model the complex relationship between the HR target image and the HR guidance image from a local perspective, and the global implicit prior considers the non-local auto-regression property between the two images from a global perspective. Secondly, we design a novel alternating optimization algorithm to solve this model for GISR. The algorithm is in a concise framework that facilitates to be replicated into commonly used deep network structures. Thirdly, to reduce the information loss across iterative stages, the persistent memory mechanism is introduced to augment the information representation by exploiting the Long short-term memory unit (LSTM) in the image and feature spaces. In this way, a deep network with certain interpretation and high representation ability is built. Extensive experimental results validate the superiority of our method on a variety of GISR tasks, including Pan-sharpening, depth image super-resolution, and MR image super-resolution.
翻訳日:2022-03-13 13:59:14 公開日:2022-02-12
# (参考訳) DeepSpeed Optimization Libraryのベンチマーク評価 [全文訳有]

Benchmark Assessment for DeepSpeed Optimization Library ( http://arxiv.org/abs/2202.12831v1 )

ライセンス: CC BY 4.0
Gongbo Liang and Izzat Alsmadi(参考訳) ディープラーニング(DL)モデルは、高い精度とパフォーマンスのメトリクスを生成しながら、大規模なデータセットを扱う能力とパフォーマンスのために、機械学習で広く使用されている。 このようなデータセットのサイズとDLモデルの複雑さは、そのようなモデルが複雑になり、大量のリソースとトレーニング時間を消費する。 最近のライブラリやアプリケーションはDLの複雑さと効率の問題に対処するために導入されている。 本稿では,分類タスクを通じてmicrosoft deepspeed libraryの例を1つ評価した。 deepspeed public sourcesは、lenetアーキテクチャの分類パフォーマンスメトリクスを報告した。 convolutional neural networks (cnns) や vision transformer (vit) など,現代的なニューラルネットワークアーキテクチャのライブラリの評価を通じて,これを拡張した。 結果から、deepspeedはいくつかのケースで改善できるが、他のケースには影響がない、あるいは否定的な結果が得られた。

Deep Learning (DL) models are widely used in machine learning due to their performance and ability to deal with large datasets while producing high accuracy and performance metrics. The size of such datasets and the complexity of DL models cause such models to be complex, consuming large amount of resources and time to train. Many recent libraries and applications are introduced to deal with DL complexity and efficiency issues. In this paper, we evaluated one example, Microsoft DeepSpeed library through classification tasks. DeepSpeed public sources reported classification performance metrics on the LeNet architecture. We extended this through evaluating the library on several modern neural network architectures, including convolutional neural networks (CNNs) and Vision Transformer (ViT). Results indicated that DeepSpeed, while can make improvements in some of those cases, it has no or negative impact on others.
翻訳日:2022-03-06 15:05:26 公開日:2022-02-12
# 暗号通貨価格予測のためのアンサンブルとマルチモーダルアプローチ

Ensemble and Multimodal Approach for Forecasting Cryptocurrency Price ( http://arxiv.org/abs/2202.08967v1 )

ライセンス: Link先を確認
Zeyd Boukhers and Azeddine Bouabdallah and Matthias Lohr and Jan J\"urjens(参考訳) 2009年のBitcoin誕生以来、仮想通貨は世界的な現象となり、重要な分散型金融資産となった。 この分散化により、これらのデジタル通貨の価値は、時間とともに非常に変動する。 したがって、仮想通貨為替レートの予測は極めて難しい課題である。 本稿では,ソーシャルメディアの感情,検索ボリューム,ブロックチェーン情報,トレーディングデータなどの価格変動を導出するすべてのモダリティを利用するマルチモーダルなAdaBoost-LSTMアンサンブル手法を提案する。 投資意思決定を支援するため、このアプローチは変動分布も予測する。 実験により, 取引データのみに代えて, マルチモダリティに依存する効果が示された。 さらなる実験では、既存のツールや手法と比較して19.29%の改善が見られた。

Since the birth of Bitcoin in 2009, cryptocurrencies have emerged to become a global phenomenon and an important decentralized financial asset. Due to this decentralization, the value of these digital currencies against fiat currencies is highly volatile over time. Therefore, forecasting the crypto-fiat currency exchange rate is an extremely challenging task. For reliable forecasting, this paper proposes a multimodal AdaBoost-LSTM ensemble approach that employs all modalities which derive price fluctuation such as social media sentiments, search volumes, blockchain information, and trading data. To better support investment decision making, the approach forecasts also the fluctuation distribution. The conducted extensive experiments demonstrated the effectiveness of relying on multimodalities instead of only trading data. Further experiments demonstrate the outperformance of the proposed approach compared to existing tools and methods with a 19.29% improvement.
翻訳日:2022-02-27 17:37:14 公開日:2022-02-12
# ファジィプール

Fuzzy Pooling ( http://arxiv.org/abs/2202.08372v1 )

ライセンス: Link先を確認
Dimitrios E. Diamantis and Dimitris K. Iakovidis(参考訳) 畳み込みニューラルネットワーク(英: Convolutional Neural Networks、CNN)は、一般的に2つの操作に基づく人工知能システムである。 CNNの分類性能におけるプールの影響は、いくつかの先行研究で強調され、様々な代替プール演算子が提案されている。 しかしながら、畳み込みを通じて、入力層から隠れた層の特徴マップに自然に伝播する不確実性に対処できるのはごくわずかである。 本稿では, (type-1) ファジィ集合に基づく新しいプーリング操作を行い, 特徴マップの局所的不適合に対処するとともに, その性能を画像分類の文脈で検証する。 ファジィプーリングは特徴写像近傍のファジィ化、凝集、脱ファジィ化によって行われる。 ファジィプーリング層(ファジィプーリング層)を構築するのに使われ、cnnアーキテクチャの現在の、くっきりとしたプール層を置き換えるのに使用できる。 公開データセットを用いたいくつかの実験により,提案手法はCNNの分類性能を向上させることができることが示された。 比較評価は、最先端のプーリングアプローチよりも優れていることを示している。

Convolutional Neural Networks (CNNs) are artificial learning systems typically based on two operations: convolution, which implements feature extraction through filtering, and pooling, which implements dimensionality reduction. The impact of pooling in the classification performance of the CNNs has been highlighted in several previous works, and a variety of alternative pooling operators have been proposed. However, only a few of them tackle with the uncertainty that is naturally propagated from the input layer to the feature maps of the hidden layers through convolutions. In this paper we present a novel pooling operation based on (type-1) fuzzy sets to cope with the local imprecision of the feature maps, and we investigate its performance in the context of image classification. Fuzzy pooling is performed by fuzzification, aggregation and defuzzification of feature map neighborhoods. It is used for the construction of a fuzzy pooling layer that can be applied as a drop-in replacement of the current, crisp, pooling layers of CNN architectures. Several experiments using publicly available datasets show that the proposed approach can enhance the classification performance of a CNN. A comparative evaluation shows that it outperforms state-of-the-art pooling approaches.
翻訳日:2022-02-20 16:23:32 公開日:2022-02-12
# (参考訳) ゲーム・オブ・人工知能:連続時間アプローチ

Games of Artificial Intelligence: A Continuous-Time Approach ( http://arxiv.org/abs/2202.05946v1 )

ライセンス: CC BY 4.0
Martino Banchio, Giacomo Mantegazza(参考訳) 本稿では,経済ゲームにおけるアルゴリズムの戦略的相互作用について考察する。 学習アルゴリズムが最高の戦略を追求しながら互いに対戦するゲームを分析する。 まず,連続時間における学習成果を特徴付ける流体近似手法を確立した。 このツールは、人工知能アルゴリズムがプレイするゲームの平衡を識別し、比較静的解析を行う。 その結果,従来の学習理論と応用モデルとのギャップを橋渡しし,従来の実験システムの定量的解析を可能にした。 本稿では,ソーシャルジレンマの結果を述べるとともに,Bertrandゲームにおける価格アルゴリズムの設計に関する分析ガイダンスを提供する。 アルゴリズムが支配的な戦略を学習できない可能性を説明する新しい現象、コーディネーションバイアスを明らかにする。

This paper studies the strategic interaction of algorithms in economic games. We analyze games where learning algorithms play against each other while searching for the best strategy. We first establish a fluid approximation technique that enables us to characterize the learning outcomes in continuous time. This tool allows to identify the equilibria of games played by Artificial Intelligence algorithms and perform comparative statics analysis. Thus, our results bridge a gap between traditional learning theory and applied models, allowing quantitative analysis of traditionally experimental systems. We describe the outcomes of a social dilemma, and we provide analytical guidance for the design of pricing algorithms in a Bertrand game. We uncover a new phenomenon, the coordination bias, which explains how algorithms may fail to learn dominant strategies.
翻訳日:2022-02-18 12:11:53 公開日:2022-02-12
# (参考訳) 人工知能とオークションデザイン

Artificial Intelligence and Auction Design ( http://arxiv.org/abs/2202.05947v1 )

ライセンス: CC BY 4.0
Martino Banchio, Andrzej Skrzypacz(参考訳) オンライン広告オークションに動機づけられ,単純な人工知能アルゴリズム(q-learning)による繰り返しオークションにおけるオークションデザインの研究を行った。 付加的なフィードバックのない第1価格オークションは暗黙的な結果(値よりも2倍低い)につながるが、第2価格オークションはそうではない。 この違いは、対決を1回の入札インセンティブで上回る価格オークションのインセンティブによって引き起こされることを示している。 これは実験段階の後に低入札の再調整を促進する。 また、Googleが第1価格のオークションに切り替えたときに導入した最低入札に関する情報が、オークションの競争力を高めることも示している。

Motivated by online advertising auctions, we study auction design in repeated auctions played by simple Artificial Intelligence algorithms (Q-learning). We find that first-price auctions with no additional feedback lead to tacit-collusive outcomes (bids lower than values), while second-price auctions do not. We show that the difference is driven by the incentive in first-price auctions to outbid opponents by just one bid increment. This facilitates re-coordination on low bids after a phase of experimentation. We also show that providing information about lowest bid to win, as introduced by Google at the time of switch to first-price auctions, increases competitiveness of auctions.
翻訳日:2022-02-18 12:11:06 公開日:2022-02-12
# (参考訳) 信頼するAI [全文訳有]

Confident AI ( http://arxiv.org/abs/2202.05957v1 )

ライセンス: CC BY 4.0
Jim Davis(参考訳) 本稿では,人工知能(AI)と機械学習(ML)システムを,モデル予測におけるアルゴリズムとユーザ信頼性の両方で設計する手段として,信頼度AIを提案する。 Confident AIの4つの基本原則は、反復性、信頼性、十分性、適応性である。 それぞれのテットは、現在のAI/MLシステムの基本的問題を探究するために使用され、共に信頼性AIに対する全体的なアプローチを提供する。

In this paper, we propose "Confident AI" as a means to designing Artificial Intelligence (AI) and Machine Learning (ML) systems with both algorithm and user confidence in model predictions and reported results. The 4 basic tenets of Confident AI are Repeatability, Believability, Sufficiency, and Adaptability. Each of the tenets is used to explore fundamental issues in current AI/ML systems and together provide an overall approach to Confident AI.
翻訳日:2022-02-18 12:10:12 公開日:2022-02-12
# (参考訳) 確率近似定理の形式化 [全文訳有]

Formalization of a Stochastic Approximation Theorem ( http://arxiv.org/abs/2202.05959v1 )

ライセンス: CC BY 4.0
Koundinya Vajjha, Barry Trager, Avraham Shinnar, Vasily Pestun(参考訳) 確率近似アルゴリズム(英: Stochastic approximation algorithm)は、目標が未知で直接観測がノイズによって破壊される環境において、目標値の近似に使用される反復的な手順である。 これらのアルゴリズムは、例えば、ターゲット関数やモデルが直接知られていない場合、ルートフィンディングや関数最小化に有用である。 もともと1951年にrobbinsとmonroによって発表された論文で、確率近似の分野は急速に成長し、適応的信号処理から人工知能まで応用領域に影響を与えるようになった。 例えば、機械学習の様々なサブドメインにおいてユビキタスである確率的勾配降下アルゴリズムは、確率的近似理論に基づいている。 本稿では、Aryeh Dvoretzkyによる一般収束定理の形式的証明(コーク証明アシスタント)を与える。これは、ロビンス・モンロやキーファー・ヴォルフォヴィッツアルゴリズムのような重要な古典的手法の収束を意味する。 この過程で、測度論的確率論と確率過程の包括的なcoqライブラリを構築する。

Stochastic approximation algorithms are iterative procedures which are used to approximate a target value in an environment where the target is unknown and direct observations are corrupted by noise. These algorithms are useful, for instance, for root-finding and function minimization when the target function or model is not directly known. Originally introduced in a 1951 paper by Robbins and Monro, the field of Stochastic approximation has grown enormously and has come to influence application domains from adaptive signal processing to artificial intelligence. As an example, the Stochastic Gradient Descent algorithm which is ubiquitous in various subdomains of Machine Learning is based on stochastic approximation theory. In this paper, we give a formal proof (in the Coq proof assistant) of a general convergence theorem due to Aryeh Dvoretzky, which implies the convergence of important classical methods such as the Robbins-Monro and the Kiefer-Wolfowitz algorithms. In the process, we build a comprehensive Coq library of measure-theoretic probability theory and stochastic processes.
翻訳日:2022-02-18 12:01:18 公開日:2022-02-12
# (参考訳) イベント型音声認識のためのオーディオ・ビジュアル融合層

Audio-Visual Fusion Layers for Event Type Aware Video Recognition ( http://arxiv.org/abs/2202.05961v1 )

ライセンス: CC BY 4.0
Arda Senocak, Junsik Kim, Tae-Hyun Oh, Hyeonggon Ryu, Dingzeyu Li, In So Kweon(参考訳) 人間の脳は、あらゆる瞬間に外界から来る多感覚情報とその複雑な相互作用に継続的に浸食される。 このような情報は脳内の結合や分離によって自動的に分析されます。 このタスクは人間の脳には不便に思えるかも知れませんが、複雑なインタラクションは単一のタイプの統合には対応できませんが、より高度なアプローチを必要とするため、同様のタスクを実行できるマシンを構築することは極めて困難です。 本稿では,マルチタスク学習方式において,個別のイベント固有層によるマルチセンサ統合問題に対処する新しいモデルを提案する。 単一タイプの融合が使用される以前の作品とは異なり、我々は異なる音声-視覚関係タスクを扱うためにイベント固有のレイヤを設計し、異なる音声-視覚関係の形成を可能にする。 実験の結果,映像中の音声と視覚の関係のユニークな特性を,イベント特異的な層が発見できることがわかった。 さらに,ネットワークは単一ラベルで定式化されているが,与えられたビデオを表現するために,さらに真のマルチラベルを出力することができる。 提案フレームワークは,一般的なベンチマークデータセットにおいて,ビデオデータのカテゴリワイドおよびデータセットワイドのモダリティバイアスを明らかにする。

Human brain is continuously inundated with the multisensory information and their complex interactions coming from the outside world at any given moment. Such information is automatically analyzed by binding or segregating in our brain. While this task might seem effortless for human brains, it is extremely challenging to build a machine that can perform similar tasks since complex interactions cannot be dealt with single type of integration but requires more sophisticated approaches. In this paper, we propose a new model to address the multisensory integration problem with individual event-specific layers in a multi-task learning scheme. Unlike previous works where single type of fusion is used, we design event-specific layers to deal with different audio-visual relationship tasks, enabling different ways of audio-visual formation. Experimental results show that our event-specific layers can discover unique properties of the audio-visual relationships in the videos. Moreover, although our network is formulated with single labels, it can output additional true multi-labels to represent the given videos. We demonstrate that our proposed framework also exposes the modality bias of the video data category-wise and dataset-wise manner in popular benchmark datasets.
翻訳日:2022-02-18 11:40:45 公開日:2022-02-12
# (参考訳) サイド情報を用いたプライベート適応最適化 [全文訳有]

Private Adaptive Optimization with Side Information ( http://arxiv.org/abs/2202.05963v1 )

ライセンス: CC BY 4.0
Tian Li, Manzil Zaheer, Sashank J. Reddi, Virginia Smith(参考訳) 適応最適化手法は多くの機械学習タスクのデフォルトの解法となっている。 残念ながら、適応性の利点は、適応型プレコンディショナーの有効性を低下させるため、差分プライバシーによるトレーニングで劣化する可能性がある。 そこで本研究では,非センシティブな側情報を用いて勾配をプリコンディショニングする汎用フレームワークであるadadpsを提案する。 我々は、AdaDPSが同様のプライバシー保証を実現するのに必要なノイズ量を削減し、最適化性能を向上させることを正式に示す。 実証的に、我々はAdaDPSの性能を調べるために、シンプルで容易に利用できるサイド情報を活用し、中央集権的および連合的両方の設定において強力なベースラインと比較した。 我々の結果は、AdaDPSが平均で7.7%(絶対)の精度向上を実現していることを示している。

Adaptive optimization methods have become the default solvers for many machine learning tasks. Unfortunately, the benefits of adaptivity may degrade when training with differential privacy, as the noise added to ensure privacy reduces the effectiveness of the adaptive preconditioner. To this end, we propose AdaDPS, a general framework that uses non-sensitive side information to precondition the gradients, allowing the effective use of adaptive methods in private settings. We formally show AdaDPS reduces the amount of noise needed to achieve similar privacy guarantees, thereby improving optimization performance. Empirically, we leverage simple and readily available side information to explore the performance of AdaDPS in practice, comparing to strong baselines in both centralized and federated settings. Our results show that AdaDPS improves accuracy by 7.7% (absolute) on average -- yielding state-of-the-art privacy-utility trade-offs on large-scale text and image benchmarks.
翻訳日:2022-02-18 11:38:39 公開日:2022-02-12
# (参考訳) 変動型パーソナライズおよび共感型対話エージェントにおける文脈コヒーレンスの改善 [全文訳有]

Improving Contextual Coherence in Variational Personalized and Empathetic Dialogue Agents ( http://arxiv.org/abs/2202.05971v1 )

ライセンス: CC BY 4.0
Jing Yang Lee, Kong Aik Lee and Woon Seng Gan(参考訳) 近年,パーソナライズされた対話生成と共感的対話生成の両方に,条件変分オートエンコーダ(CVAE)のような潜在変数モデルが適用されている。 以前の研究は、パーソナリティの一貫性と共感を示す多様な対話応答の生成に重点を置いてきた。 しかし、生成されたレスポンスのコンテキスト的一貫性に関しては、まだ改善の余地があります。 したがって,コンテキストコヒーレンスを改善するために,新しい不確実性認識CVAE(UA-CVAE)フレームワークを提案する。 UA-CVAEフレームワークは、応答生成中にアレタリック不確実性を近似し、組み込む。 我々は、パーソナライズされた対話生成と共感的な対話生成の両方に適用する。 実験結果から,本フレームワークは生成した応答の文脈的コヒーレンスを大幅に改善することが示された。 さらに,コンテキストコヒーレンス測定のための新しい自動測定基準を導入し,人間の判断と正の相関を示した。

In recent years, latent variable models, such as the Conditional Variational Auto Encoder (CVAE), have been applied to both personalized and empathetic dialogue generation. Prior work have largely focused on generating diverse dialogue responses that exhibit persona consistency and empathy. However, when it comes to the contextual coherence of the generated responses, there is still room for improvement. Hence, to improve the contextual coherence, we propose a novel Uncertainty Aware CVAE (UA-CVAE) framework. The UA-CVAE framework involves approximating and incorporating the aleatoric uncertainty during response generation. We apply our framework to both personalized and empathetic dialogue generation. Empirical results show that our framework significantly improves the contextual coherence of the generated response. Additionally, we introduce a novel automatic metric for measuring contextual coherence, which was found to correlate positively with human judgement.
翻訳日:2022-02-18 11:11:53 公開日:2022-02-12
# (参考訳) retinexに基づくアルゴリズムの展開と調整による低光度画像強調 [全文訳有]

Low-light Image Enhancement by Retinex Based Algorithm Unrolling and Adjustment ( http://arxiv.org/abs/2202.05972v1 )

ライセンス: CC BY 4.0
Xinyi Liu and Qi Xie and Qian Zhao and Hong Qang and Deyu Meng(参考訳) 近年の進歩により,低照度画像強調(LIE)問題にディープラーニング技術が広く応用されている。 その中でもレチネックス理論に基づくものは、主に分解調整パイプラインに従っており、物理的解釈と有望な性能のために重要な位置を占めてきた。 しかし、retinexベースのディープラーニングに関する現在の調査はまだ不十分であり、伝統的な方法から多くの有用な経験を無視している。 さらに、調整ステップは単純な画像処理技術で実行されるか、あるいは複雑なネットワークで実行されるが、どちらも実際は不満足である。 これらの問題に対処するために,我々はリー問題に対する新しいディープラーニングフレームワークを提案する。 提案手法は,アルゴリズムの展開に触発された分解ネットワークと,グローバル輝度と局所輝度感度の両方を考慮した調整ネットワークを含む。 アルゴリズムのアンロールにより、データから学んだ暗黙の事前と従来のメソッドから借りた明示的な事前の両方がネットワークに埋め込まれ、より良い分解が容易になる。 一方、グローバルとローカルの明るさを考慮すれば、シンプルで効果的なネットワークモジュールの設計を導くことができる。 また,手動のパラメータチューニングを避けるために,常に有望な性能を保証できる自己教師型微調整戦略を提案する。 代表的なリーデータセットを用いた実験により,既存の手法と比較して定量的および視覚的に提案手法の有効性が示された。

Motivated by their recent advances, deep learning techniques have been widely applied to low-light image enhancement (LIE) problem. Among which, Retinex theory based ones, mostly following a decomposition-adjust ment pipeline, have taken an important place due to its physical interpretation and promising performance. However, current investigations on Retinex based deep learning are still not sufficient, ignoring many useful experiences from traditional methods. Besides, the adjustment step is either performed with simple image processing techniques, or by complicated networks, both of which are unsatisfactory in practice. To address these issues, we propose a new deep learning framework for the LIE problem. The proposed framework contains a decomposition network inspired by algorithm unrolling, and adjustment networks considering both global brightness and local brightness sensitivity. By virtue of algorithm unrolling, both implicit priors learned from data and explicit priors borrowed from traditional methods can be embedded in the network, facilitate to better decomposition. Meanwhile, the consideration of global and local brightness can guide designing simple yet effective network modules for adjustment. Besides, to avoid manually parameter tuning, we also propose a self-supervised fine-tuning strategy, which can always guarantee a promising performance. Experiments on a series of typical LIE datasets demonstrated the effectiveness of the proposed method, both quantitatively and visually, as compared with existing methods.
翻訳日:2022-02-18 10:23:48 公開日:2022-02-12
# (参考訳) RSINet:トリプルGANフレームワークによるリモートセンシング画像のペイント [全文訳有]

RSINet: Inpainting Remotely Sensed Images Using Triple GAN Framework ( http://arxiv.org/abs/2202.05988v1 )

ライセンス: CC BY 4.0
Advait Kumar, Dipesh Tamboli, Shivam Pande, Biplab Banerjee(参考訳) リモートセンシング領域における画像インペインティングの問題に取り組む。 リモートセンシング画像は高解像度で地理的な変化があり、従来の塗装法では効果が低い。 これはさらに、画像内のスペクトル、空間的およびテクスト的ニュアンスを十分に捉えるための複雑さの高いモデルの必要性を伴い、その高い空間的変動から生じる。 そこで本稿では,タスク特定ganを用いて,エッジや色,テクスチャといった画像の各側面を個別に焦点をあてた新しいインペインティング手法を提案する。 さらに各ganは、スペクトルと空間の特徴を明示的に抽出するアテンション機構も組み込んでいる。 一貫した勾配フローを確保するため、モデルは残差学習パラダイムを使用し、ハイレベルと低レベルの機能を同時に扱う。 キャンバス上のOpen Cities AIとEarthという2つのよく知られたリモートセンシングデータセットに基づいて,我々のモデルと過去の技術モデルの評価を行い,競争力のあるパフォーマンスを実現した。

We tackle the problem of image inpainting in the remote sensing domain. Remote sensing images possess high resolution and geographical variations, that render the conventional inpainting methods less effective. This further entails the requirement of models with high complexity to sufficiently capture the spectral, spatial and textural nuances within an image, emerging from its high spatial variability. To this end, we propose a novel inpainting method that individually focuses on each aspect of an image such as edges, colour and texture using a task specific GAN. Moreover, each individual GAN also incorporates the attention mechanism that explicitly extracts the spectral and spatial features. To ensure consistent gradient flow, the model uses residual learning paradigm, thus simultaneously working with high and low level features. We evaluate our model, alongwith previous state of the art models, on the two well known remote sensing datasets, Open Cities AI and Earth on Canvas, and achieve competitive performance.
翻訳日:2022-02-18 09:45:34 公開日:2022-02-12
# (参考訳) モデルミス特定による観察からのロバスト学習 [全文訳有]

Robust Learning from Observation with Model Misspecification ( http://arxiv.org/abs/2202.06003v1 )

ライセンス: CC BY 4.0
Luca Viano, Yu-Ting Huang, Parameswaran Kamalaruban, Craig Innes, Subramanian Ramamoorthy, Adrian Weller(参考訳) 模倣学習(il)は、報奨関数を特定する場合のロボットシステムの訓練方針のための一般的なパラダイムである。 しかし、ILアルゴリズムが成功したにも拘わらず、専門家によるデモンストレーションは、新しい模倣者ポリシーが学習される同じ領域から来なければならないというやや非現実的な要件を課している。 実践的な環境を考えると (i)実際の(デプロイ)環境からの状態のみのエキスパートデモンストレーションが学習者に与えられる。 (ii)模倣学習者の方針は、トランジッションダイナミクスが実環境と若干異なるシミュレーション(訓練)環境において訓練される。 (iii)学習者は、与えられたデモンストレーションのバッチを超えて、訓練段階で実環境にアクセスできない。 現在のil法、例えば生成的敵意学習とその状態のみの変種は、上記の設定の下では最適な専門家の行動を模倣できない。 本稿では,強固な強化学習(rl)文献からの洞察を活用し,近年の敵対的模倣手法に基づいて,微調整することなく実環境に効果的に移行可能なポリシを学習する強固なilアルゴリズムを提案する。 さらに,本手法は実環境におけるゼロショット転送性能と異なる試験条件下でのロバストな性能において,最先端のIL法よりも優れていることを示す。

Imitation learning (IL) is a popular paradigm for training policies in robotic systems when specifying the reward function is difficult. However, despite the success of IL algorithms, they impose the somewhat unrealistic requirement that the expert demonstrations must come from the same domain in which a new imitator policy is to be learned. We consider a practical setting, where (i) state-only expert demonstrations from the real (deployment) environment are given to the learner, (ii) the imitation learner policy is trained in a simulation (training) environment whose transition dynamics is slightly different from the real environment, and (iii) the learner does not have any access to the real environment during the training phase beyond the batch of demonstrations given. Most of the current IL methods, such as generative adversarial imitation learning and its state-only variants, fail to imitate the optimal expert behavior under the above setting. By leveraging insights from the Robust reinforcement learning (RL) literature and building on recent adversarial imitation approaches, we propose a robust IL algorithm to learn policies that can effectively transfer to the real environment without fine-tuning. Furthermore, we empirically demonstrate on continuous-control benchmarks that our method outperforms the state-of-the-art state-only IL method in terms of the zero-shot transfer performance in the real environment and robust performance under different testing conditions.
翻訳日:2022-02-18 09:11:52 公開日:2022-02-12
# (参考訳) 2画素値順序付き1最小誤差展開による可逆データ隠蔽 [全文訳有]

Reversible data hiding with dual pixel-value-ordering and1minimum prediction error expansion ( http://arxiv.org/abs/2202.08100v1 )

ライセンス: CC BY 4.0
Md. Abdul Wahed and Hussain Nyeem(参考訳) Pixel Value Ordering (PVO)は、高忠実度Reversible Data Hiding (RDH)のための印象的な特性を持っている。 本稿では、予測誤差拡大(PEE)のための二重PVO(dPVO)を導入し、より優れたレート歪み特性を提供する新しいRDHスキームを開発する。 特に、前方と後方の2つのフェーズに組み込むように提案する。 前フェーズでは、古典的なPEEを持つPVOが、サイズ1x3のすべての非重複画像ブロックに適用される。 後方フェーズでは、前方フェーズで予測された画素から、最小セットと最大セットの画素を決定する。 最小セットは、最低予測画素のみを含み、最大セットは、各画像ブロックの最大の予測画素を含む。 次に、PEEで提案されたdPVOを両セットに適用し、最小セットの画素値を増大させ、最大セットの画素値を単位値で減少させる。 これにより、フォワード埋め込みで予測される画素を元の値に部分的に復元することができ、組込み画質が向上し、埋め込みレートが向上する。 実験結果から,pvoベースのrdhschemeと比較して,組込み画像品質が高い組込み率で大幅に向上する有望なレートゆらぎ性能が記録されている。

Pixel Value Ordering (PVO) holds an impressive property for high fidelity Reversible Data Hiding (RDH). In this paper, we introduce a dual-PVO (dPVO) for Prediction Error Expansion(PEE), and thereby develop a new RDH scheme to offer a better rate-distortion performance. Particularly, we propose to embed in two phases: forward and backward. In the forward phase, PVO with classic PEE is applied to every non-overlapping image block of size 1x3. In the backward phase,minimum-set and maximum-set of pixels are determined from the pixels predicted in the forward phase. The minimum set only contains the lowest predicted pixels and the maximum set contains the largest predicted pixels of each image block. Proposed dPVO withPEE is then applied to both sets, so that the pixel values of the minimum set are increased and that of the maximum set are decreased by a unit value. Thereby, the pixels predicted in the forward embedding can partially be restored to their original values resulting in both better-embedded image quality and a higher embedding rate. Experimental results have recorded a promising rate-distortion performance of our scheme with a significant improvement of embedded image quality at higher embedding rates compared to the popular and state-of-the-art PVO-based RDHschemes.
翻訳日:2022-02-18 08:47:09 公開日:2022-02-12
# (参考訳) ロバストなキーポイント表現を用いたロボット操作のエンドツーエンド強化学習 [全文訳有]

End-to-end Reinforcement Learning of Robotic Manipulation with Robust Keypoints Representation ( http://arxiv.org/abs/2202.06027v1 )

ライセンス: CC BY 4.0
Tianying Wang, En Yen Puang, Marcus Lee, Yan Wu, Wei Jing(参考訳) 本稿では,ロバストかつ効率的なキーポイント表現を用いて,ロボット操作タスクのためのエンドツーエンド強化学習(RL)フレームワークを提案する。 提案手法は,自己教師型オートエンコーダアーキテクチャを用いて,カメラ画像からキーポイントを状態表現として学習する。 キーポイントは幾何学的情報とツールとターゲットの関係をコンパクトな表現でエンコードし、効率的で堅牢な学習を可能にする。 キーポイント学習後、RLステップは抽出されたキーポイント状態表現からロボットの動きを学習する。 キーポイントとRL学習プロセスは完全にシミュレーション環境で行われます。 本手法は, ロボット操作作業において異なるシナリオにおいて, 把持や押下などの作業に有効であることを示す。 また,学習モデルの一般化能力についても検討する。 また,ロバストなキーポイント表現に加えて,実世界のロボット操作タスクにおけるゼロショット・シミュレートを実現するために,ドメインランダム化と対角訓練の例を適用した。

We present an end-to-end Reinforcement Learning(RL) framework for robotic manipulation tasks, using a robust and efficient keypoints representation. The proposed method learns keypoints from camera images as the state representation, through a self-supervised autoencoder architecture. The keypoints encode the geometric information, as well as the relationship of the tool and target in a compact representation to ensure efficient and robust learning. After keypoints learning, the RL step then learns the robot motion from the extracted keypoints state representation. The keypoints and RL learning processes are entirely done in the simulated environment. We demonstrate the effectiveness of the proposed method on robotic manipulation tasks including grasping and pushing, in different scenarios. We also investigate the generalization capability of the trained model. In addition to the robust keypoints representation, we further apply domain randomization and adversarial training examples to achieve zero-shot sim-to-real transfer in real-world robotic manipulation tasks.
翻訳日:2022-02-18 08:26:28 公開日:2022-02-12
# (参考訳) ニューラルNID規則 [全文訳有]

Neural NID Rules ( http://arxiv.org/abs/2202.06036v1 )

ライセンス: CC BY 4.0
Luca Viano and Johanni Brea(参考訳) 抽象オブジェクトの性質とその関係性は人間の常識に深く根付いており、新しい物理の法則によって支配されている状況でも世界のダイナミクスを予測することができる。 モデルに基づく強化学習における標準的な機械学習モデルは、このように一般化するには不十分である。 ノイズ非決定論的deictic(nid)規則の古典的な枠組みに触発されて,ニューラルネットワークを用いたオブジェクト間の抽象的オブジェクト特性と関係を学習する手法であるneural nidを紹介する。 モデルにより学習された遷移ダイナミクスを評価するために特別に設計された単純なベンチマークにおいて、ニューラルNIDのさらなる一般化能力を検証する。

Abstract object properties and their relations are deeply rooted in human common sense, allowing people to predict the dynamics of the world even in situations that are novel but governed by familiar laws of physics. Standard machine learning models in model-based reinforcement learning are inadequate to generalize in this way. Inspired by the classic framework of noisy indeterministic deictic (NID) rules, we introduce here Neural NID, a method that learns abstract object properties and relations between objects with a suitably regularized graph neural network. We validate the greater generalization capability of Neural NID on simple benchmarks specifically designed to assess the transition dynamics learned by the model.
翻訳日:2022-02-18 08:09:42 公開日:2022-02-12
# (参考訳) Text2Graph & Graph2Textのためのマルチタスク半教師付きフレームワーク [全文訳有]

A multi-task semi-supervised framework for Text2Graph & Graph2Text ( http://arxiv.org/abs/2202.06041v1 )

ライセンス: CC BY 4.0
Oriol Domingo, Marta R. Costa-juss\`a and Carlos Escolano(参考訳) 人工知能産業は、通常グラフ形式で表現される特定の、または一般的なドメインに関するデータリポジトリである知識ベースに大きく依存するアプリケーションを開発する。 他のデータベースと同様に、情報取り込みと情報検索という2つの大きな課題に直面している。 テキストからのグラフ抽出とグラフからのテキスト生成を共同で学習することで,これらの課題にアプローチする。 提案手法であるt5アーキテクチャはマルチタスク半教師付き環境で訓練され,非並列データもサイクルトレーニング方式に従って収集された。 WebNLGデータセットを用いた実験により,本手法はテキスト・トゥ・グラフやグラフ・トゥ・テキストの教師なし結果を上回ることがわかった。 より関連していますが、我々のフレームワークは教師付きモデルよりも、見つからないドメイン間で一貫性があります。 得られたモデルは、サイクルフレームワークにテキストやグラフを追加するだけで、並列でないデータを持つ任意の新しいドメインで簡単にトレーニングできます。

The Artificial Intelligence industry regularly develops applications that mostly rely on Knowledge Bases, a data repository about specific, or general, domains, usually represented in a graph shape. Similar to other databases, they face two main challenges: information ingestion and information retrieval. We approach these challenges by jointly learning graph extraction from text and text generation from graphs. The proposed solution, a T5 architecture, is trained in a multi-task semi-supervised environment, with our collected non-parallel data, following a cycle training regime. Experiments on WebNLG dataset show that our approach surpasses unsupervised state-of-the-art results in text-to-graph and graph-to-text. More relevantly, our framework is more consistent across seen and unseen domains than supervised models. The resulting model can be easily trained in any new domain with non-parallel data, by simply adding text and graphs about it, in our cycle framework.
翻訳日:2022-02-18 07:54:08 公開日:2022-02-12
# (参考訳) 乳腺組織の顕微鏡像の分類:領域複製に基づく自己スーパービジョンとオフザシェルフ深部表現 [全文訳有]

Classification of Microscopy Images of Breast Tissue: Region Duplication based Self-Supervision vs. Off-the Shelf Deep Representations ( http://arxiv.org/abs/2202.06073v1 )

ライセンス: CC BY 4.0
Aravind Ravi(参考訳) 乳がんは世界で女性の死亡率の主要な原因の1つである。 これは、進行の初期段階で診断を行うと減少する。 さらに、コンピュータ支援診断により、プロセスの効率を著しく向上させることができる。 ディープラーニングに基づくアプローチは、これを実現するためにうまく適用されています。 教師付き方法でディープネットワークをトレーニングするための制限要因の1つは、大量の専門家アノテートデータに依存することである。 実際には、大量のラベルなしのデータと少数の専門家による注釈付きデータしか利用できない。 このようなシナリオでは、転送学習アプローチと自己教師付き学習(SSL)ベースのアプローチを利用することができる。 本研究では,畳み込みニューラルネットワーク(cnn)を訓練し,ドメイン固有の特徴を抽出するための,新しい自己スーパービジョンプリテキストタスクを提案する。 この手法は imagenet で訓練された densenet-121 や resnet-50 のような事前訓練された cnn を用いて抽出された深い特徴と比較された。 さらに,2種類のパッチ結合法を導入し,多数決と比較した。 これらの手法をBACH顕微鏡画像データセットで検証した。 その結果,ResNet50を用いて抽出した深部機能に対して,パッチレベルの埋め込みを併用した99%の感度の最高の性能が得られた。 領域固有の特徴を抽出するSSLの予備的な結果から、顕微鏡画像の4クラス分類において、未ラベルデータの15%で高感度の94%が得られることが示された。

Breast cancer is one of the leading causes of female mortality in the world. This can be reduced when diagnoses are performed at the early stages of progression. Further, the efficiency of the process can be significantly improved with computer aided diagnosis. Deep learning based approaches have been successfully applied to achieve this. One of the limiting factors for training deep networks in a supervised manner is the dependency on large amounts of expert annotated data. In reality, large amounts of unlabelled data and only small amounts of expert annotated data are available. In such scenarios, transfer learning approaches and self-supervised learning (SSL) based approaches can be leveraged. In this study, we propose a novel self-supervision pretext task to train a convolutional neural network (CNN) and extract domain specific features. This method was compared with deep features extracted using pre-trained CNNs such as DenseNet-121 and ResNet-50 trained on ImageNet. Additionally, two types of patch-combination methods were introduced and compared with majority voting. The methods were validated on the BACH microscopy images dataset. Results indicated that the best performance of 99% sensitivity was achieved for the deep features extracted using ResNet50 with concatenation of patch-level embedding. Preliminary results of SSL to extract domain specific features indicated that with just 15% of unlabelled data a high sensitivity of 94% can be achieved for a four class classification of microscopy images.
翻訳日:2022-02-18 07:42:17 公開日:2022-02-12
# (参考訳) State of AI Ethics Report (Volume 6, February 2022)

State of AI Ethics Report (Volume 6, February 2022) ( http://arxiv.org/abs/2202.07435v1 )

ライセンス: CC BY 4.0
Abhishek Gupta (1, 2, 3), Connor Wright (1, 4), Marianna Bergamaschi Ganapini (1, 5), Masa Sweidan (1), Renjie Butalid (1) ((1) Montreal AI Ethics Institute, (2) Microsoft, (3) Green Software Foundation, (4) University of Exeter, (5) Union College)(参考訳) モントリオールAI倫理研究所(MAIEI)のこのレポートは、2021年後半のAI倫理分野における研究と報告の最も健全な進歩をカバーしている。 特に、"AIエコシステムの分析"、"Privacy"、"Bias"、"Social Media and Problematic Information"、"AI Design and Governance"、"Laws and Regulations"、"Trends"などの領域に重点が置かれている。 この2つのaiは、「aiが生成した芸術で性別を組み立て、分解する」ことに加え、「ミシュランのスターレストランで人工知能があなたの次の食事を調理するだろうか? MaIEIがAIを民主化する使命を負い、外部の協力者による「ベトナムにおけるAI開発戦略:資金、タレント、倫理」や「AIハームの予防のための表現とイマジネーション」といった作品の提出が取り上げられている。 このレポートは、AI倫理の分野における重要な課題が2021年にあったか、どのトレンドが創出しているか、どんなギャップがあるのか、そして2022年のAI倫理の分野から何が期待できるかを網羅した概要である。 この分野の研究者や実践者にとって、AI倫理の分野に貢献するために研究と開発アジェンダを設定するためのリソースである。

This report from the Montreal AI Ethics Institute (MAIEI) covers the most salient progress in research and reporting over the second half of 2021 in the field of AI ethics. Particular emphasis is placed on an "Analysis of the AI Ecosystem", "Privacy", "Bias", "Social Media and Problematic Information", "AI Design and Governance", "Laws and Regulations", "Trends", and other areas covered in the "Outside the Boxes" section. The two AI spotlights feature application pieces on "Constructing and Deconstructing Gender with AI-Generated Art" as well as "Will an Artificial Intellichef be Cooking Your Next Meal at a Michelin Star Restaurant?". Given MAIEI's mission to democratize AI, submissions from external collaborators have featured, such as pieces on the "Challenges of AI Development in Vietnam: Funding, Talent and Ethics" and using "Representation and Imagination for Preventing AI Harms". The report is a comprehensive overview of what the key issues in the field of AI ethics were in 2021, what trends are emergent, what gaps exist, and a peek into what to expect from the field of AI ethics in 2022. It is a resource for researchers and practitioners alike in the field to set their research and development agendas to make contributions to the field of AI ethics.
翻訳日:2022-02-18 07:31:45 公開日:2022-02-12
# (参考訳) 変圧器を有する胸部x線写真におけるマルチモーダル疾患分類の事前知識としての適応 [全文訳有]

Indication as Prior Knowledge for Multimodal Disease Classification in Chest Radiographs with Transformers ( http://arxiv.org/abs/2202.06076v1 )

ライセンス: CC BY 4.0
Grzegorz Jacenk\'ow, Alison Q. O'Neil, Sotirios A. Tsaftaris(参考訳) 臨床医は、画像検査のために患者を参照する場合、スキャン要求に理由(関連する患者歴、疑わしい疾患)が含まれる。 画像の解釈と報告は、この要求文に影響され、放射線学者に画像の特定の側面に焦点を当てるよう促す。 我々は、表示フィールドを用いて、一様事前学習された変換器ネットワーク(BERT)を、デュアル画像テキスト入力のマルチモーダル分類のために微調整することで、画像分類を改善する。 本手法をMIMIC-CXRデータセット上で評価し,適応場が分類性能に及ぼす影響について検討する。 実験の結果,ユニモーダル (84.4) とマルチモーダル (86.0) の分類では, 平均87.8マイクロオーロラを達成した。 私たちのコードはhttps://github.com/j acenkow/mmbtで利用可能です。

When a clinician refers a patient for an imaging exam, they include the reason (e.g. relevant patient history, suspected disease) in the scan request; this appears as the indication field in the radiology report. The interpretation and reporting of the image are substantially influenced by this request text, steering the radiologist to focus on particular aspects of the image. We use the indication field to drive better image classification, by taking a transformer network which is unimodally pre-trained on text (BERT) and fine-tuning it for multimodal classification of a dual image-text input. We evaluate the method on the MIMIC-CXR dataset, and present ablation studies to investigate the effect of the indication field on the classification performance. The experimental results show our approach achieves 87.8 average micro AUROC, outperforming the state-of-the-art methods for unimodal (84.4) and multimodal (86.0) classification. Our code is available at https://github.com/j acenkow/mmbt.
翻訳日:2022-02-18 07:29:16 公開日:2022-02-12
# (参考訳) 文字列ランドスケープから数学的ランドスケープへ:機械学習の展望 [全文訳有]

From the String Landscape to the Mathematical Landscape: a Machine-Learning Outlook ( http://arxiv.org/abs/2202.06086v1 )

ライセンス: CC BY 4.0
Yang-Hui He(参考訳) 本稿では,機械学習を用いた数学問題の展望を探るプログラムについて概説する。 このパラダイムを人間の直観のモデルとして — 自動定理証明のより形式的なアプローチと対照的に — では,AIが予想定式化やパターン認識,計算にどのように役立つか,いくつかの実験を取り上げている。

We review the recent programme of using machine-learning to explore the landscape of mathematical problems. With this paradigm as a model for human intuition - complementary to and in contrast with the more formalistic approach of automated theorem proving - we highlight some experiments on how AI helps with conjecture formulation, pattern recognition and computation.
翻訳日:2022-02-18 07:20:02 公開日:2022-02-12
# (参考訳) Typography-MNIST (TMNIST): グリフとフォントを分類するMNISTスタイルの画像データセット [全文訳有]

Typography-MNIST (TMNIST): an MNIST-Style Image Dataset to Categorize Glyphs and Font-Styles ( http://arxiv.org/abs/2202.08112v1 )

ライセンス: CC BY 4.0
Nimish Magre, Nicholas Brown(参考訳) タイポグラフィmnist (tmnist) は,google-fonts の様々なスタイルで 1,812 のユニークなグリフを表す 565,292 mnist スタイルのグレースケール画像からなるデータセットである。 グリフリストには、記号集合を持つ現代および歴史的言語スクリプトの150以上の共通文字が含まれており、各フォントスタイルは、全固有のグリフの様々なサブセットを表す。 このデータセットはCognitiveTypeプロジェクトの一部として開発され、型から認識へのリアルタイムマッピングのためのアイトラッキングツールの開発と、可読性などの認知特性を備えたフォントを簡単に設計できる計算ツールの開発を目指している。 異なるフォントスタイルのグリフ用のMNISTスタイルの画像を生成するデータセットとスクリプトは、https://github.com/a iskunks/CognitiveTyp eで無料で入手できる。

We present Typography-MNIST (TMNIST), a dataset comprising of 565,292 MNIST-style grayscale images representing 1,812 unique glyphs in varied styles of 1,355 Google-fonts. The glyph-list contains common characters from over 150 of the modern and historical language scripts with symbol sets, and each font-style represents varying subsets of the total unique glyphs. The dataset has been developed as part of the CognitiveType project which aims to develop eye-tracking tools for real-time mapping of type to cognition and to create computational tools that allow for the easy design of typefaces with cognitive properties such as readability. The dataset and scripts to generate MNIST-style images for glyphs in different font styles are freely available at https://github.com/a iskunks/CognitiveTyp e.
翻訳日:2022-02-18 07:08:01 公開日:2022-02-12
# 自動化と機械学習を組み合わせた化学構造・極性関係の高速発見

High-throughput discovery of chemical structure-polarity relationships combining automation and machine learning techniques ( http://arxiv.org/abs/2202.05962v1 )

ライセンス: Link先を確認
Hao Xu, Jinglong Lin, Qianyi Liu, Yuntian Chen, Jianning Zhang, Yang Yang, Michael C. Young, Yan Xu, Dongxiao Zhang, Fanyang Mo(参考訳) 有機化合物の重要な性質として、極性は溶解度や相転移温度などの多くの分子特性に大きく影響する。 薄層クロマトグラフィー(tlc)は、極性測定に一般的に用いられる技術である。 しかし、現在のTLC分析では、適切な条件を得るための多くの試みの必要性や、非標準化による不再現性など、いくつかの問題がある。 本稿では,TLC解析のための自動実験システムについて述べる。 このシステムはTLC解析を自動で行うように設計されており、標準化された条件下で大規模な実験データを収集することで高スループット実験を容易にする。 これらのデータセットを用いて、機械学習(ML)手法を用いて、有機化合物の構造とその極性に関連する代理モデルを構築する。 訓練されたMLモデルは、高い精度で有機化合物のRf値曲線を予測することができる。 さらに、これらのモデリング手法により化合物と極性との間の構成的関係も発見でき、基礎となるメカニズムは吸着理論によって合理化される。 訓練されたMLモデルは、TLC分析に現在必要な経験的最適化の必要性を減らすだけでなく、条件の選択に関する一般的なガイドラインを提供する。

As an essential attribute of organic compounds, polarity has a profound influence on many molecular properties such as solubility and phase transition temperature. Thin layer chromatography (TLC) represents a commonly used technique for polarity measurement. However, current TLC analysis presents several problems, including the need for a large number of attempts to obtain suitable conditions, as well as irreproducibility due to non-standardization. Herein, we describe an automated experiment system for TLC analysis. This system is designed to conduct TLC analysis automatically, facilitating high-throughput experimentation by collecting large experimental data under standardized conditions. Using these datasets, machine learning (ML) methods are employed to construct surrogate models correlating organic compounds' structures and their polarity using retardation factor (Rf). The trained ML models are able to predict the Rf value curve of organic compounds with high accuracy. Furthermore, the constitutive relationship between the compound and its polarity can also be discovered through these modeling methods, and the underlying mechanism is rationalized through adsorption theories. The trained ML models not only reduce the need for empirical optimization currently required for TLC analysis, but also provide general guidelines for the selection of conditions, making TLC an easily accessible tool for the broad scientific community.
翻訳日:2022-02-17 16:21:32 公開日:2022-02-12
# semiretro: 深い再合成予測を促進するセミテンプレートフレームワーク

SemiRetro: Semi-template framework boosts deep retrosynthesis prediction ( http://arxiv.org/abs/2202.08205v1 )

ライセンス: Link先を確認
Zhangyang Gao, Cheng Tan, Lirong Wu, Stan Z. Li(参考訳) 近年, テンプレートベース (TB) およびテンプレートフリー (TF) 分子グラフ学習法は, 再合成に有望な結果を示した。 TB法はプリエンコードされた反応テンプレートを用いてより正確であり、TF法はレトロ合成をサブプロブレムに分解することでよりスケーラブルである。 TBとTFの利点を両立させるために、フルテンプレートを複数の半テンプレートに分割し、2段階のTFフレームワークに埋め込むことを提案する。 多くの半テンプレートが複製されるため、テンプレートの冗長性を低減できるが、重要な化学知識はシントーンの完成を促進するために保存されている。 我々は,本手法をSemiRetroと呼び,センター識別を強化する新しいGNN層(DRGAT)を導入し,セミテンプレート分類を改善するための自己修正モジュールを提案する。 実験の結果,semiretroは既存のtb法とtf法を有意に上回っている。 スケーラビリティでは、SemiRetroは150の半テンプレートを使用して98.9\%のデータをカバーするが、以前のテンプレートベースのGLNは93.3\%のデータをカバーするために11,647のテンプレートを必要とする。 トップ1の精度では、SemiRetroはテンプレートフリーのG2G 4.8\%(クラス不明)と6.0\%(クラス不明)を超える。 さらに、SemiRetroは既存の方法よりも訓練効率が良い。

Recently, template-based (TB) and template-free (TF) molecule graph learning methods have shown promising results to retrosynthesis. TB methods are more accurate using pre-encoded reaction templates, and TF methods are more scalable by decomposing retrosynthesis into subproblems, i.e., center identification and synthon completion. To combine both advantages of TB and TF, we suggest breaking a full-template into several semi-templates and embedding them into the two-step TF framework. Since many semi-templates are reduplicative, the template redundancy can be reduced while the essential chemical knowledge is still preserved to facilitate synthon completion. We call our method SemiRetro, introduce a new GNN layer (DRGAT) to enhance center identification, and propose a novel self-correcting module to improve semi-template classification. Experimental results show that SemiRetro significantly outperforms both existing TB and TF methods. In scalability, SemiRetro covers 98.9\% data using 150 semi-templates, while previous template-based GLN requires 11,647 templates to cover 93.3\% data. In top-1 accuracy, SemiRetro exceeds template-free G2G 4.8\% (class known) and 6.0\% (class unknown). Besides, SemiRetro has better training efficiency than existing methods.
翻訳日:2022-02-17 14:28:10 公開日:2022-02-12
# (参考訳) NeuVV:没入型レンダリングと編集によるニューラルボリュームビデオ [全文訳有]

NeuVV: Neural Volumetric Videos with Immersive Rendering and Editing ( http://arxiv.org/abs/2202.06088v1 )

ライセンス: CC BY 4.0
Jiakai Zhang, Liao Wang, Xinhang Liu, Fuqiang Zhao, Minzhang Li, Haizhao Dai, Boyuan Zhang, Wei Yang, Lan Xu and Jingyi Yu(参考訳) metaverseが約束している最もエキサイティングな体験のいくつかは、例えば、仮想環境における仮想文字とのライブインタラクションは、リアルタイムのフォトリアリスティックなレンダリングを必要とする。 3D再構築によるレンダリング、アクティブ、あるいはパッシブなアプローチでは、メッシュやポイントクラウドの修正には大規模なクリーンアップ作業が必要になる。 本稿では,ニューラルボリュームビデオ (neural volumetric video) またはニューラルボリュームビデオ (neuvv) と呼ばれる,ボリュームビデオコンテンツの没入的,対話的,空間的,時間的レンダリングを支援するニューラルフォルムグラフィ手法を提案する。 NeuVVのコアは、動的神経放射場(NeRF)をレンダリング可能で編集可能なプリミティブに効率的にエンコードすることである。 本稿では,空間と時間のスムーズな色変化をモデル化するための超球面調和(HH)分解法と,急激な密度と動きによる色変化をモデル化するための学習可能な基底表現法を提案する。 NeuVV の分解は PlenOctree に類似した Video Octree (VOctree) に統合でき、メモリオーバーヘッドを減らしながらトレーニングを大幅に高速化できる。 リアルタイムneuvvレンダリングはさらに没入型コンテンツ編集ツールのクラスを可能にする。 具体的には、NeuVVは各VOctreeをプリミティブとして扱い、ボリュームベースの深度順序付けとアルファブレンディングを実装し、コンテンツ再購入のための時空間合成を実現する。 例えば、異なるタイミングで異なる3D地点で同じパフォーマンスの異なる位置を示すこと、パフォーマーの衣服の色やテクスチャを調整すること、スポットライトシャドウを鋳造すること、距離のオフライトを合成すること等をインタラクティブな速度で示す。 さらに,仮想3d空間において,前述のボリュームビデオの視聴と編集を初めて行えるように,コンシューマレベルのvrヘッドセットをサポートするハイブリッドニューラルラステリゼーションレンダリングフレームワークの開発を行った。

Some of the most exciting experiences that Metaverse promises to offer, for instance, live interactions with virtual characters in virtual environments, require real-time photo-realistic rendering. 3D reconstruction approaches to rendering, active or passive, still require extensive cleanup work to fix the meshes or point clouds. In this paper, we present a neural volumography technique called neural volumetric video or NeuVV to support immersive, interactive, and spatial-temporal rendering of volumetric video contents with photo-realism and in real-time. The core of NeuVV is to efficiently encode a dynamic neural radiance field (NeRF) into renderable and editable primitives. We introduce two types of factorization schemes: a hyper-spherical harmonics (HH) decomposition for modeling smooth color variations over space and time and a learnable basis representation for modeling abrupt density and color changes caused by motion. NeuVV factorization can be integrated into a Video Octree (VOctree) analogous to PlenOctree to significantly accelerate training while reducing memory overhead. Real-time NeuVV rendering further enables a class of immersive content editing tools. Specifically, NeuVV treats each VOctree as a primitive and implements volume-based depth ordering and alpha blending to realize spatial-temporal compositions for content re-purposing. For example, we demonstrate positioning varied manifestations of the same performance at different 3D locations with different timing, adjusting color/texture of the performer's clothing, casting spotlight shadows and synthesizing distance falloff lighting, etc, all at an interactive speed. We further develop a hybrid neural-rasterization rendering framework to support consumer-level VR headsets so that the aforementioned volumetric video viewing and editing, for the first time, can be conducted immersively in virtual 3D space.
翻訳日:2022-02-17 12:30:28 公開日:2022-02-12
# (参考訳) TATTOOED:拡散スペクトルチャネル符号化に基づくロバストなディープニューラルネットワーク透かし方式 [全文訳有]

TATTOOED: A Robust Deep Neural Network Watermarking Scheme based on Spread-Spectrum Channel Coding ( http://arxiv.org/abs/2202.06091v1 )

ライセンス: CC BY 4.0
Giulio Pagnotta, Dorjan Hitaj, Briland Hitaj, Fernando Perez-Cruz, Luigi V. Mancini(参考訳) いくつかの分野でディープラーニングの応用が急増し、成長を続ける多くの機関や企業からそのようなソリューションが急速に採用されるようになった。 これらのエンティティによって開発されたディープニューラルネットワーク(DNN)モデルは、プロプライエタリなデータに基づいてトレーニングされることが多い。 それらは強力な計算資源を必要とし、その結果のDNNモデルは会社のワークパイプラインに組み込まれるか、サービスとして提供される。 プロプライエタリな情報に基づいてトレーニングされたこれらのモデルは、オーナー企業にとって競争力のあるエッジを提供する。 同時に、これらのモデルは競争相手(または悪意あるエンティティ)にとって魅力的であり、最先端のセキュリティ攻撃を使ってこれらのモデルを盗み、利用することができる。 これらの攻撃は予防が難しいため、影響を受けるエンティティがDNNのオーナシップを高い信頼性で検証できるメカニズムを持つことが義務づけられる。 本稿では,拡散スペクトルチャネル符号化に基づく堅牢かつ効率的なDNN透かし技術であるTATTOOEDを提案する。 TATTOOEDはDNNモデルの性能に無視できる効果があり、DNNモデルを透かし出すのに1回しか必要としない。 DNNから透かしを除去するために用いられるいくつかの最先端メカニズムに対して,TATTOOEDを広範囲に評価した。 以上の結果から,TATTOOEDは極端なシナリオにおいても,このような除去手法に対して堅牢であることがわかった。 例えば、微調整やパラメータの刈り取りといった除去手法がモデルパラメータの99%まで変化した場合、TATTOOEDの透かしはDNNモデルに完全に存在するため、オーナシップの検証が保証される。

The proliferation of deep learning applications in several areas has led to the rapid adoption of such solutions from an ever-growing number of institutions and companies. The deep neural network (DNN) models developed by these entities are often trained on proprietary data. They require powerful computational resources, with the resulting DNN models being incorporated in the company's work pipeline or provided as a service. Being trained on proprietary information, these models provide a competitive edge for the owner company. At the same time, these models can be attractive to competitors (or malicious entities), which can employ state-of-the-art security attacks to steal and use these models for their benefit. As these attacks are hard to prevent, it becomes imperative to have mechanisms that enable an affected entity to verify the ownership of a DNN with high confidence. This paper presents TATTOOED, a robust and efficient DNN watermarking technique based on spread-spectrum channel coding. TATTOOED has a negligible effect on the performance of the DNN model and requires as little as one iteration to watermark a DNN model. We extensively evaluate TATTOOED against several state-of-the-art mechanisms used to remove watermarks from DNNs. Our results show that TATTOOED is robust to such removal techniques even in extreme scenarios. For example, if the removal techniques such as fine-tuning and parameter pruning change as much as 99\% of the model parameters, the TATTOOED watermark is still present in full in the DNN model, and ensures ownership verification.
翻訳日:2022-02-17 11:50:30 公開日:2022-02-12
# (参考訳) ディープフェイクコンテンツ検出のための深層学習に基づくアプローチのレビュー

A Review of Deep Learning-based Approaches for Deepfake Content Detection ( http://arxiv.org/abs/2202.06095v1 )

ライセンス: CC BY 4.0
Leandro A. Passos, Danilo Jodas, Kelton A. P. da Costa, Luis A. Souza J\'unior, Danilo Colombo, Jo\~ao Paulo Papa(参考訳) インターネット上で急速に広がる情報は、多くの公共事業サービスやエンターテイメントの迅速な供給を支援するために不可欠である。 ソーシャルネットワークとオンラインメディアは、現代的なタイムリーなコミュニケーションファシオンと、あらゆる種類の情報への便利なアクセスの道を開いた。 しかし、フェイクコンテンツを拡散して世論を操作するなど、大量のデータを不正に利用するための新たなチャンスも与えている。 近年, 偽造コンテンツの検出が注目され, ディープフェイク発生の進展が注目されている。 機械学習技術、特にディープラーニングの急速な成長は、偽画像やビデオ操作を含む、いくつかのアプリケーションドメインで偽コンテンツを予測することができる。 本稿では,ディープラーニングを用いたコンテンツ検出に関する最近の研究を概観する。 我々は,偽コンテンツ検出の異なるカテゴリを体系的にレビューすることにより,最先端の研究を広めることを目指している。 さらに,本研究のメリットと欠点を報告するとともに,深度検出に未解決の課題と欠点について述べる。

The fast-spreading information over the internet is essential to support the rapid supply of numerous public utility services and entertainment to users. Social networks and online media paved the way for modern, timely-communication -fashion and convenient access to all types of information. However, it also provides new chances for ill use of the massive amount of available data, such as spreading fake content to manipulate public opinion. Detection of counterfeit content has raised attention in the last few years for the advances in deepfake generation. The rapid growth of machine learning techniques, particularly deep learning, can predict fake content in several application domains, including fake image and video manipulation. This paper presents a comprehensive review of recent studies for deepfake content detection using deep learning-based approaches. We aim to broaden the state-of-the-art research by systematically reviewing the different categories of fake content detection. Furthermore, we report the advantages and drawbacks of the examined works and future directions towards the issues and shortcomings still unsolved on deepfake detection.
翻訳日:2022-02-17 11:21:17 公開日:2022-02-12
# (参考訳) RETE: 統一クエリ製品進化グラフによる検索強化時間イベント予測 [全文訳有]

RETE: Retrieval-Enhanced Temporal Event Forecasting on Unified Query Product Evolutionary Graph ( http://arxiv.org/abs/2202.06129v1 )

ライセンス: CC BY 4.0
Ruijie Wang, Zheng Li, Danqing Zhang, Qingyu Yin, Tong Zhao, Bing Yin, Tarek Abdelzaher(参考訳) eコマースプラットフォームへの需要が高まり、多くのユーザーアクション履歴が生まれている。 強化されたアクションレコードは、ユーザの関心や意図を理解するのに不可欠です。 近年,ユーザ行動予測の先行研究は主に製品側情報とのインタラクションに焦点を当てている。 しかし,ユーザと製品間のブリッジとして機能する検索クエリとのインタラクションについては,まだ検討中である。 本稿では,統一クエリ製品進化グラフにおけるユーザ行動予測タスクであるtemporal event forecastingという新しい問題について検討し,クエリと製品のレコメンデーションの両方を時間的手法で受け入れる。 この設定を実現するには,(1)ほとんどのユーザの行動データが不足している,(2)ユーザの好みが動的に進化し,時間とともに変化する,という2つの課題がある。 これらの課題に対処するため,我々は新しい検索強化時間イベント(RETE)予測フレームワークを提案する。 グラフ全体の連結エンティティからの情報を大まかに吸収してユーザ表現を強化する既存の方法とは異なり、RETEは、各ユーザの関連するエンティティを高品質なサブグラフとして効率よく動的に検索し、豊富な検索クエリを組み込んだ密集したグラフ構造からのノイズ伝搬を防止する。 そして、reteは、各時間ステップから検索されたユーザ表現を自己回帰的に蓄積し、共同クエリと製品予測のための進化パターンをキャプチャする。 実証的に、パブリックベンチマークと4つの実世界の産業データセットに関する広範な実験は、提案したRETE法の有効性を実証している。

With the increasing demands on e-commerce platforms, numerous user action history is emerging. Those enriched action records are vital to understand users' interests and intents. Recently, prior works for user behavior prediction mainly focus on the interactions with product-side information. However, the interactions with search queries, which usually act as a bridge between users and products, are still under investigated. In this paper, we explore a new problem named temporal event forecasting, a generalized user behavior prediction task in a unified query product evolutionary graph, to embrace both query and product recommendation in a temporal manner. To fulfill this setting, there involves two challenges: (1) the action data for most users is scarce; (2) user preferences are dynamically evolving and shifting over time. To tackle those issues, we propose a novel Retrieval-Enhanced Temporal Event (RETE) forecasting framework. Unlike existing methods that enhance user representations via roughly absorbing information from connected entities in the whole graph, RETE efficiently and dynamically retrieves relevant entities centrally on each user as high-quality subgraphs, preventing the noise propagation from the densely evolutionary graph structures that incorporate abundant search queries. And meanwhile, RETE autoregressively accumulates retrieval-enhanced user representations from each time step, to capture evolutionary patterns for joint query and product prediction. Empirically, extensive experiments on both the public benchmark and four real-world industrial datasets demonstrate the effectiveness of the proposed RETE method.
翻訳日:2022-02-17 11:20:08 公開日:2022-02-12
# 脳波型脳コンピューターインタフェースのための深層学習モデル解釈のベストプラクティスに向けて

Towards Best Practice of Interpreting Deep Learning Models for EEG-based Brain Computer Interfaces ( http://arxiv.org/abs/2202.06948v1 )

ライセンス: Link先を確認
Jian Cui, Bin Weng(参考訳) ディープラーニングモデルを理解することは、脳波ベースの脳-コンピュータインターフェース(BCI)にとって重要である。 しかし、ディープラーニングの解釈性は、この分野ではまだ大きな注目を集めていない。 既存の解釈技術がどの程度使われ、どの程度モデル決定を反映できるかは、まだ不明である。 本研究のギャップを埋めるため,脳波を用いたBCIのための深層学習モデルを理解するための,最初の定量的評価を行い,ベストプラクティスを探求する。 私たちはメトリクスを設計し、ベンチマークディープラーニングモデルでよく知られた7つの解釈手法をテストする。 その結果,GradientInput,DeepL IFT,Integrated Gragient,Layer-wise Relevance propagation (LRP) の手法は,Saliency Map,Deconvolution,ガイド付きバックプロパゲーション手法とよく似た性能を示し,モデル決定を解釈する。 また,解釈結果を理解可能かつ信頼性の高い方法で可視化するための一連の処理手順を提案する。 最後に、ディープラーニングの解釈が脳波ベースのbciの領域にどのように役立つかをサンプルで示す。 本研究は,脳波に基づくBCIに深層学習の解釈可能性を導入するための有望な方向性を示す。

Understanding deep learning models is important for EEG-based brain-computer interface (BCI), since it not only can boost trust of end users but also potentially shed light on reasons that cause a model to fail. However, deep learning interpretability has not yet raised wide attention in this field. It remains unknown how reliably existing interpretation techniques can be used and to which extent they can reflect the model decisions. In order to fill this research gap, we conduct the first quantitative evaluation and explore the best practice of interpreting deep learning models designed for EEG-based BCI. We design metrics and test seven well-known interpretation techniques on benchmark deep learning models. Results show that methods of GradientInput, DeepLIFT, integrated gradient, and layer-wise relevance propagation (LRP) have similar and better performance than saliency map, deconvolution and guided backpropagation methods for interpreting the model decisions. In addition, we propose a set of processing steps that allow the interpretation results to be visualized in an understandable and trusted way. Finally, we illustrate with samples on how deep learning interpretability can benefit the domain of EEG-based BCI. Our work presents a promising direction of introducing deep learning interpretability to EEG-based BCI.
翻訳日:2022-02-16 16:05:31 公開日:2022-02-12
# 軌道データセットの自動解析フレームワーク

An Automated Analysis Framework for Trajectory Datasets ( http://arxiv.org/abs/2202.07438v1 )

ライセンス: Link先を確認
Christoph Glasmacher, Robert Krajewski, Lutz Eckstein(参考訳) 近年,高度自動化車両の安全性検証において,道路利用者の軌道データセットの重要性が高まっている。 10万以上のトラックを持ついくつかの自然主義的軌道データセットがリリースされ、その他のデータセットが従う。 このデータ量を考慮すると、これらのデータセットを詳細に比較し、概観を得られるようにする必要があります。 現在までに、データセットの提供する情報は、主に、他のデータセットと一致しないメタデータと質的記述に限定されている。 これは、アプリケーション固有の選択のための新興データセットを区別するには不十分である。 そこで本研究では,自動分析フレームワークを提案する。 個々の線路の分析から、14の基本的な特徴、いわゆる検出型が導出され、この枠組みの基盤となっている。 各トラフィックシナリオを正確に記述するために、検出は共通メトリクス、クラスタリングメソッド、異常検出に分割される。 これらはモジュラーアプローチで結合される。 検出は、各トラックデータの3つの定義された属性を定量的に記述するために、新しいスコアで構成される。 これらの3つのスコアは、異なる抽象層に対して階層的に計算され、データセットだけでなく、トラック、空間領域、個々の状況についても概要を提供する。 したがって、データセット間の客観的比較を実現することができる。 さらに、記録されたインフラの深い理解と、それが道路利用者の行動に与える影響を理解するのに役立つ。 フレームワークの有効性を検証するため,評価スコアと人間の知覚を比較検討した。 さらに、いくつかのデータセットを比較する。

Trajectory datasets of road users have become more important in the last years for safety validation of highly automated vehicles. Several naturalistic trajectory datasets with each more than 10.000 tracks were released and others will follow. Considering this amount of data, it is necessary to be able to compare these datasets in-depth with ease to get an overview. By now, the datasets' own provided information is mainly limited to meta-data and qualitative descriptions which are mostly not consistent with other datasets. This is insufficient for users to differentiate the emerging datasets for application-specific selection. Therefore, an automated analysis framework is proposed in this work. Starting with analyzing individual tracks, fourteen elementary characteristics, so-called detection types, are derived and used as the base of this framework. To describe each traffic scenario precisely, the detections are subdivided into common metrics, clustering methods and anomaly detection. Those are combined using a modular approach. The detections are composed into new scores to describe three defined attributes of each track data quantitatively: interaction, anomaly and relevance. These three scores are calculated hierarchically for different abstract layers to provide an overview not just between datasets but also for tracks, spatial regions and individual situations. So, an objective comparison between datasets can be realized. Furthermore, it can help to get a deeper understanding of the recorded infrastructure and its effect on road user behavior. To test the validity of the framework, a study is conducted to compare the scores with human perception. Additionally, several datasets are compared.
翻訳日:2022-02-16 15:05:40 公開日:2022-02-12
# DeepPAMM: 生存分析における複雑なハザード構造に対する深度指数加算混合モデル

DeepPAMM: Deep Piecewise Exponential Additive Mixed Models for Complex Hazard Structures in Survival Analysis ( http://arxiv.org/abs/2202.07423v1 )

ライセンス: Link先を確認
Philipp Kopper, Simon Wiegrebe, Bernd Bischl, Andreas Bender, David R\"ugamer(参考訳) サバイバル分析(英: Survival analysis、SA)は、時間から時間への結果に関する研究の活発な分野であり、多くの領域、特にバイオメディカルな応用で普及している。 その重要性にもかかわらず、saは小規模データセットと複雑な結果分布のために依然として困難であり、切断と検閲のプロセスによって隠蔽されている。 pamm (splitwise exponential additive mixed model) は、これらの課題の多くに対処するモデルクラスであるが、pammは高次元の特徴設定や非構造化データやマルチモーダルデータでは適用できない。 私たちはDeepPAMMという,統計的視点から見れば十分だが,複雑なハザード構造をモデル化するのに十分な柔軟性を備えた,汎用的なディープラーニングフレームワークを提案することによって,既存のアプローチを統一する。 我々は,DeepPAMMがベンチマーク実験と拡張ケーススタディを通じて解釈可能性を維持しつつ,予測性能に関して他の機械学習手法と競合することを示す。

Survival analysis (SA) is an active field of research that is concerned with time-to-event outcomes and is prevalent in many domains, particularly biomedical applications. Despite its importance, SA remains challenging due to small-scale data sets and complex outcome distributions, concealed by truncation and censoring processes. The piecewise exponential additive mixed model (PAMM) is a model class addressing many of these challenges, yet PAMMs are not applicable in high-dimensional feature settings or in the case of unstructured or multimodal data. We unify existing approaches by proposing DeepPAMM, a versatile deep learning framework that is well-founded from a statistical point of view, yet with enough flexibility for modeling complex hazard structures. We illustrate that DeepPAMM is competitive with other machine learning approaches with respect to predictive performance while maintaining interpretability through benchmark experiments and an extended case study.
翻訳日:2022-02-16 14:30:31 公開日:2022-02-12
# DeepSensor: ニューロンの感度に基づくディープラーニングテストフレームワーク

DeepSensor: Deep Learning Testing Framework Based on Neuron Sensitivity ( http://arxiv.org/abs/2202.07464v1 )

ライセンス: Link先を確認
Haibo Jin, Ruoxi Chen, Haibin Zheng, Jinyin Chen, Zhenguang Liu, Qi Xuan, Yue Yu, Yao Cheng(参考訳) 優れた機能と優れたパフォーマンスにもかかわらず、ディープニューラルネットワーク(DNN)は、誤動作の頻発により、セキュリティ問題に対する公衆の懸念が高まっている。 したがって、実際のアプリケーションへのデプロイ前に体系的なテストを行う必要がある。 既存の試験法は、ニューロンのカバレッジに基づいたきめ細かい基準を提供し、高い探索的な試験レベルに達した。 しかし、ニューロンのカバレッジとモデルの堅牢性評価の間にはまだギャップがある。 このギャップを埋めるために,小さな摂動によって活性化値を劇的に変化させるニューロンが,不正確なコーナーケースを発生させる傾向が観察された。 そこで我々はDNNのための新しいホワイトボックステストフレームワークを提案し,DeepSensorとして寄贈した。 感度ニューロンの数は粒子群最適化によって最大化されるため、多様なコーナーケースが引き起こされ、ベースラインと比較してニューロンのカバレッジがさらに向上する。 さらに、再トレーニングにニューロンの感度に基づいたテスト例を採用すると、かなりの堅牢性向上が得られる。 スケーラブルなデータセットとモデルに実装された広範な実験は、deepsensorのテスト効率と堅牢性の改善を実証する。

Despite impressive capabilities and outstanding performance, deep neural network(DNN) has captured increasing public concern for its security problem, due to frequent occurrence of erroneous behaviors. Therefore, it is necessary to conduct systematically testing before its deployment to real-world applications. Existing testing methods have provided fine-grained criteria based on neuron coverage and reached high exploratory degree of testing. But there is still a gap between the neuron coverage and model's robustness evaluation. To bridge the gap, we observed that neurons which change the activation value dramatically due to minor perturbation are prone to trigger incorrect corner cases. Motivated by it, we propose neuron sensitivity and develop a novel white-box testing framework for DNN, donated as DeepSensor. The number of sensitive neurons is maximized by particle swarm optimization, thus diverse corner cases could be triggered and neuron coverage be further improved when compared with baselines. Besides, considerable robustness enhancement can be reached when adopting testing examples based on neuron sensitivity for retraining. Extensive experiments implemented on scalable datasets and models can well demonstrate the testing effectiveness and robustness improvement of DeepSensor.
翻訳日:2022-02-16 13:19:03 公開日:2022-02-12
# (参考訳) 脳血管疾患分類とMRI-PET翻訳のためのマルチタスク深層学習 [全文訳有]

Multi-task Deep Learning for Cerebrovascular Disease Classification and MRI-to-PET Translation ( http://arxiv.org/abs/2202.06142v1 )

ライセンス: CC0 1.0
Ramy Hussein, Moss Zhao, David Shin, Jia Guo, Kevin T. Chen, Rui D. Armindo, Guido Davidzon, Michael Moseley, and Greg Zaharchuk(参考訳) 脳血流の正確な定量化はモヤモヤ、頸動脈狭窄、動脈瘤、脳卒中などの脳血管疾患の診断と評価に不可欠である。 PET(Positron emission tomography)は、現在ヒト脳におけるCBF測定における金の標準とされている。 しかしPETイメージングは、その禁止コスト、電離放射線の使用、そして2分間の半減期である酸素-15放射性同位体を供給するために共局在サイクロトロンを必要とする論理的課題のために、広く利用できない。 対照的に磁気共鳴イメージング(mri)はより容易に利用可能であり、電離放射線は含まない。 本研究では,脳MRIからPETへの翻訳と疾患診断のためのマルチタスク学習フレームワークを提案する。 提案フレームワークは,(1)マルチコントラストMRI画像から高品質PET CBFマップを合成する注意型3Dエンコーダ・デコーダ畳み込みニューラルネットワーク(CNN)と,(2)入力されたMRI画像に対応する脳疾患を識別するマルチスケール3D CNNとからなる。 マルチタスク・フレームワークはMRI-PET翻訳のタスクにおいて,平均構造類似度指数(SSIM)が0.94,ピーク信号-雑音比(PSNR)が38dBで120の被験者で達成された。 また,複数のmriモードを統合することで,脳疾患の臨床診断を改善できることを示した。

Accurate quantification of cerebral blood flow (CBF) is essential for the diagnosis and assessment of cerebrovascular diseases such as Moyamoya, carotid stenosis, aneurysms, and stroke. Positron emission tomography (PET) is currently regarded as the gold standard for the measurement of CBF in the human brain. PET imaging, however, is not widely available because of its prohibitive costs, use of ionizing radiation, and logistical challenges, which require a co-localized cyclotron to deliver the 2 min half-life Oxygen-15 radioisotope. Magnetic resonance imaging (MRI), in contrast, is more readily available and does not involve ionizing radiation. In this study, we propose a multi-task learning framework for brain MRI-to-PET translation and disease diagnosis. The proposed framework comprises two prime networks: (1) an attention-based 3D encoder-decoder convolutional neural network (CNN) that synthesizes high-quality PET CBF maps from multi-contrast MRI images, and (2) a multi-scale 3D CNN that identifies the brain disease corresponding to the input MRI images. Our multi-task framework yields promising results on the task of MRI-to-PET translation, achieving an average structural similarity index (SSIM) of 0.94 and peak signal-to-noise ratio (PSNR) of 38dB on a cohort of 120 subjects. In addition, we show that integrating multiple MRI modalities can improve the clinical diagnosis of brain diseases.
翻訳日:2022-02-16 13:16:14 公開日:2022-02-12
# (参考訳) 自動問題分類器:問題報告の分類のための転送学習フレームワーク [全文訳有]

Automatic Issue Classifier: A Transfer Learning Framework for Classifying Issue Reports ( http://arxiv.org/abs/2202.06149v1 )

ライセンス: CC BY 4.0
Anas Nadeem, Muhammad Usman Sarwar and Muhammad Zubair Malik(参考訳) 問題追跡システムはソフトウェア産業において,ソフトウェアを堅牢かつ常に変化する業界要件に適合させるメンテナンス活動の促進に使用されている。 通常、ユーザはバグレポート、強化要求、ソフトウェアに関連する質問など、さまざまなラベルに分類できる問題を報告します。 問題追跡システムの多くは、これらの問題レポートのラベル付けを発行者に対して任意にしている。 本稿では,問題報告をそれぞれのカテゴリ,すなわちバグ,強化,問題に分類する最先端の手法を提案する。 これは問題レポートで非公式言語が一般的に使われているため、難しい作業です。 既存の研究では、従来の自然言語処理アプローチではキーワードベースの機能を採用しており、単語間の文脈的関係を取り入れず、偽陽性率と偽陰性率が高い。 さらに、以前の著作では、イシューレポートの分類にユニラベルアプローチを採用しているが、実際には、イシューサブミッターは、一度に複数のラベルでイシューレポートにタグを付けることができる。 本稿では,問題報告を複数ラベル設定で分類する手法を提案する。 私たちはRoBERTaと呼ばれる市販のニューラルネットワークを使用して、問題を分類します。 GitHubの多くの産業プロジェクトに属するイシューレポートに対するアプローチを検証する。 バグレポートや機能拡張,質問に対して,それぞれ81%,74%,80%の有望なf-1スコアを達成できたのです。 また、GitHubリポジトリに新たに報告された問題にラベルを自動的に割り当てるAutomatic Issue Classifier(AIC)という業界ツールも開発しています。

Issue tracking systems are used in the software industry for the facilitation of maintenance activities that keep the software robust and up to date with ever-changing industry requirements. Usually, users report issues that can be categorized into different labels such as bug reports, enhancement requests, and questions related to the software. Most of the issue tracking systems make the labelling of these issue reports optional for the issue submitter, which leads to a large number of unlabeled issue reports. In this paper, we present a state-of-the-art method to classify the issue reports into their respective categories i.e. bug, enhancement, and question. This is a challenging task because of the common use of informal language in the issue reports. Existing studies use traditional natural language processing approaches adopting key-word based features, which fail to incorporate the contextual relationship between words and therefore result in a high rate of false positives and false negatives. Moreover, previous works utilize a uni-label approach to classify the issue reports however, in reality, an issue-submitter can tag one issue report with more than one label at a time. This paper presents our approach to classify the issue reports in a multi-label setting. We use an off-the-shelf neural network called RoBERTa and fine-tune it to classify the issue reports. We validate our approach on issue reports belonging to numerous industrial projects from GitHub. We were able to achieve promising F-1 scores of 81%, 74%, and 80% for bug reports, enhancements, and questions, respectively. We also develop an industry tool called Automatic Issue Classifier (AIC), which automatically assigns labels to newly reported issues on GitHub repositories with high accuracy.
翻訳日:2022-02-16 12:59:29 公開日:2022-02-12
# (参考訳) 教師なし領域適応による行動による神経集団活動のクロスセッション記録のロバストアライメント [全文訳有]

Robust alignment of cross-session recordings of neural population activity by behaviour via unsupervised domain adaptation ( http://arxiv.org/abs/2202.06159v1 )

ライセンス: CC BY 4.0
Justin Jude, Matthew G Perich, Lee E Miller, Matthias H Hennig(参考訳) 多電極アレイを用いて記録されたデータの高次元性にもかかわらず、行動に関する神経集団活動は本質的に低次元であると推定されている。 そのため、潜時変動モデルを用いた場合、神経集団記録からの予測行動が最も効果的であることが示されている。 しかし、時間とともに単一ニューロンの活動がドリフトし、移植された神経プローブの動きによって異なるニューロンが記録される。 つまり、ある日の振る舞いを予測するために訓練されたデコーダは、別の日にテストした場合、さらに悪化する。 一方で、潜伏運動が数ヶ月や数年にわたって安定している可能性が示唆されている。 この考え方に基づき、復号器の校正を必要とせず、同一動物から記録された未確認データから行動関連潜伏動態を推定できるモデルを導入する。 教師なし領域適応と逐次変分オートエンコーダが組み合わさって複数のセッションで訓練され、未把握データに対する良好な一般化を達成し、従来の手法が故障した振る舞いを正確に予測できることを示す。 さらに,行動関連ニューラルダイナミクスは時間とともに低次元で安定し,より効果的で柔軟な脳コンピュータインタフェース技術の利用を可能にするという仮説をさらに支持する。

Neural population activity relating to behaviour is assumed to be inherently low-dimensional despite the observed high dimensionality of data recorded using multi-electrode arrays. Therefore, predicting behaviour from neural population recordings has been shown to be most effective when using latent variable models. Over time however, the activity of single neurons can drift, and different neurons will be recorded due to movement of implanted neural probes. This means that a decoder trained to predict behaviour on one day performs worse when tested on a different day. On the other hand, evidence suggests that the latent dynamics underlying behaviour may be stable even over months and years. Based on this idea, we introduce a model capable of inferring behaviourally relevant latent dynamics from previously unseen data recorded from the same animal, without any need for decoder recalibration. We show that unsupervised domain adaptation combined with a sequential variational autoencoder, trained on several sessions, can achieve good generalisation to unseen data and correctly predict behaviour where conventional methods fail. Our results further support the hypothesis that behaviour-related neural dynamics are low-dimensional and stable over time, and will enable more effective and flexible use of brain computer interface technologies.
翻訳日:2022-02-16 12:49:08 公開日:2022-02-12
# (参考訳) InfraredTags:低コストで赤外線ベースの3Dプリンティングとイメージングツールを用いた見えないARマーカーとバーコード埋め込み [全文訳有]

InfraredTags: Embedding Invisible AR Markers and Barcodes Using Low-Cost, Infrared-Based 3D Printing and Imaging Tools ( http://arxiv.org/abs/2202.06165v1 )

ライセンス: CC BY 4.0
Mustafa Doga Dogan (1), Ahmad Taka (1), Michael Lu (1), Yunyi Zhu (1), Akshat Kumar (1), Aakar Gupta (2), Stefanie Mueller (1) ((1) MIT CSAIL, Cambridge, MA, USA, (2) Facebook Reality Labs, Redmond, WA, USA)(参考訳) 既存の3Dオブジェクトに邪魔にならないタグを埋め込むには、複雑な加工や高コスト撮像装置が必要になる。 対象物の一部として3Dプリントできる裸眼では認識できない2Dマーカーとバーコードである赤外線タグを低コストの近赤外線カメラで迅速に検出する。 我々は、赤外線カメラが透視できる赤外線透過フィラメントからオブジェクトをプリントし、赤外線画像に異なる強度で現れるタグのビットに空気の隙間を埋めることにより、これを実現する。 我々は,共通タグ(QRコード,ArUcoマーカー)とオブジェクト形状の統合を容易にするユーザインターフェースを構築し,それを赤外線タグとして3Dプリント可能にする。 また,既存のモバイルデバイスを改良し,画像処理パイプラインを用いてタグをデコードする低コスト赤外線イメージングモジュールを開発した。 その結果,近赤外線(0.2lux)や250cmまでの距離からタグを検出できることがわかった。 本稿では,拡張現実と具体的インタラクションのためのオブジェクト追跡やメタデータ埋め込みなど,様々なアプリケーションを実現する方法を示す。

Existing approaches for embedding unobtrusive tags inside 3D objects require either complex fabrication or high-cost imaging equipment. We present InfraredTags, which are 2D markers and barcodes imperceptible to the naked eye that can be 3D printed as part of objects, and detected rapidly by low-cost near-infrared cameras. We achieve this by printing objects from an infrared-transmittin g filament, which infrared cameras can see through, and by having air gaps inside for the tag's bits, which appear at a different intensity in the infrared image. We built a user interface that facilitates the integration of common tags (QR codes, ArUco markers) with the object geometry to make them 3D printable as InfraredTags. We also developed a low-cost infrared imaging module that augments existing mobile devices and decodes tags using our image processing pipeline. Our evaluation shows that the tags can be detected with little near-infrared illumination (0.2lux) and from distances as far as 250cm. We demonstrate how our method enables various applications, such as object tracking and embedding metadata for augmented reality and tangible interactions.
翻訳日:2022-02-16 12:32:49 公開日:2022-02-12
# (参考訳) 自然言語推論からの間接的監督による超微細エンティティ型付け [全文訳有]

Ultra-fine Entity Typing with Indirect Supervision from Natural Language Inference ( http://arxiv.org/abs/2202.06167v1 )

ライセンス: CC BY 4.0
Bangzheng Li, Wenpeng Yin, Muhao Chen(参考訳) 超微細エンティティタイピング(UFET)の課題は、文中に言及されるエンティティの適切なタイプを記述する多様で自由な単語やフレーズを予測することである。 このタスクの重要な課題は、大量の型と1タイプあたりのアノテーション付きデータの不足にある。 既存のシステムはタスクをマルチウェイ分類問題として定式化し、直接または遠方の分類器を訓練する。 これは2つの問題を引き起こします (i)型はしばしばインデックスに変換されるため、分類器は型セマンティクスをキャプチャしない。 (ii) この方法で開発されたシステムは、事前定義された型セット内での予測に限られており、しばしば、トレーニングでめったに見られない、あるいは見えない型に一般化できない。 本研究は,エンティティ型付けを自然言語推論(NLI)問題として定式化するLITEを提案する。 一 テキスト仮説として有意義に表される型情報を推測し、データ不足の問題を緩和するためのNLIからの間接監督 (ii)型集合の前定義を避けるための学習対ランク目標。 実験により、LITEは訓練データに制限があるため、UFETタスクにおける最先端のパフォーマンスが得られることが示された。 さらに、LITEは、他のきめ細かいエンティティ型付けベンチマークで最高の結果を得るだけでなく、事前学習されたLITEシステムは、目に見えない型を含む新しいデータでうまく機能する。

The task of ultra-fine entity typing (UFET) seeks to predict diverse and free-form words or phrases that describe the appropriate types of entities mentioned in sentences. A key challenge for this task lies in the large amount of types and the scarcity of annotated data per type. Existing systems formulate the task as a multi-way classification problem and train directly or distantly supervised classifiers. This causes two issues: (i) the classifiers do not capture the type semantics since types are often converted into indices; (ii) systems developed in this way are limited to predicting within a pre-defined type set, and often fall short of generalizing to types that are rarely seen or unseen in training. This work presents LITE, a new approach that formulates entity typing as a natural language inference (NLI) problem, making use of (i) the indirect supervision from NLI to infer type information meaningfully represented as textual hypotheses and alleviate the data scarcity issue, as well as (ii) a learning-to-rank objective to avoid the pre-defining of a type set. Experiments show that, with limited training data, LITE obtains state-of-the-art performance on the UFET task. In addition, LITE demonstrates its strong generalizability, by not only yielding best results on other fine-grained entity typing benchmarks, more importantly, a pre-trained LITE system works well on new data containing unseen types.
翻訳日:2022-02-16 11:33:59 公開日:2022-02-12
# 規則のないオンラインベイズ勧告

Online Bayesian Recommendation with No Regret ( http://arxiv.org/abs/2202.06135v1 )

ライセンス: Link先を確認
Yiding Feng, Wei Tang, Haifeng Xu(参考訳) 我々は,オンライン・レコメンデーション・メカニズムを用いて,ユーザ集団と繰り返し対話しながら,製品の実用的関連状態を観察できるプラットフォームに対して,オンライン・ベイズ・レコメンデーション問題を紹介し,検討する。 このパラダイムは、現在のインターネット経済における幅広いシナリオにおいて一般的です。 自身の個人的な好みと信念を持つ各ユーザに対して、プラットフォームは、自身の情報優位性をプロダクトステートに活用して、自己関心のあるユーザにその推奨に従うように説得するための推奨戦略をコミットする。 プラットフォームはユーザの好みや信念を知らないため、プロセスにおけるユーザの好みや信念を徐々に学習するように、適応的な推奨戦略を使用する必要があります。 我々は、Stackelbergがプラットフォームに後悔せずにオンライン学習ポリシーを設計すること、すなわち、ユーザがベンチマークポリシーに対応する行動を適用するという仮定の下で、後ろ向きに最適なポリシーに反対することを目的としている。 私たちの最初の成果は、ラウンド数に対する二重対数後悔を達成できるオンラインポリシーです。 次に、適応的なオンラインポリシーがラウンド数により良い依存で後悔を達成できないことを示す難易度結果を示す。 最後に,oracle access のメンバシップによるリニアプログラムの最適化としてプラットフォームの問題を定式化することにより,ラウンド数に対数依存性があるにも関わらず,多項式依存性を伴って後悔を実現する,第2のオンラインポリシを提案する。

We introduce and study the online Bayesian recommendation problem for a platform, who can observe a utility-relevant state of a product, repeatedly interacting with a population of myopic users through an online recommendation mechanism. This paradigm is common in a wide range of scenarios in the current Internet economy. For each user with her own private preference and belief, the platform commits to a recommendation strategy to utilize his information advantage on the product state to persuade the self-interested user to follow the recommendation. The platform does not know user's preferences and beliefs, and has to use an adaptive recommendation strategy to persuade with gradually learning user's preferences and beliefs in the process. We aim to design online learning policies with no Stackelberg regret for the platform, i.e., against the optimum policy in hindsight under the assumption that users will correspondingly adapt their behaviors to the benchmark policy. Our first result is an online policy that achieves double logarithm regret dependence on the number of rounds. We then present a hardness result showing that no adaptive online policy can achieve regret with better dependency on the number of rounds. Finally, by formulating the platform's problem as optimizing a linear program with membership oracle access, we present our second online policy that achieves regret with polynomial dependence on the number of states but logarithm dependence on the number of rounds.
翻訳日:2022-02-15 18:22:55 公開日:2022-02-12
# 情報フローと接続コストの最適なバランスを持つニューラルネットワークの進化

Evolving Neural Networks with Optimal Balance between Information Flow and Connections Cost ( http://arxiv.org/abs/2202.06163v1 )

ライセンス: Link先を確認
Abdullah Khalili, Abdelhamid Bouchachia(参考訳) Evolving Neural Networks (NN)は、最近、もっと成功するかもしれない代替パスとして関心が高まっている。 NNのアーキテクチャを学ぶなど、他のアプローチと比べて多くの利点がある。 しかし、非常に大きな探索空間と多くの複雑な相互作用部分の存在は依然として大きな障害である。 近年,アルゴリズムのガイドと大規模検索空間の削減のために,多くの基準が検討されている。 近年,NNの設計を改善するためにネットワーク科学から洞察を得る研究が増えている。 本稿では,実世界のネットワークにおいて最も基本的な特性を持つnnsアーキテクチャ,すなわち接続コストと情報フローの最適バランスについて検討する。 このバランスを表わすさまざまな指標の性能を評価し,このバランスにより多くの選択圧力をかける精度の向上を3つのデータセットで示す。

Evolving Neural Networks (NNs) has recently seen an increasing interest as an alternative path that might be more successful. It has many advantages compared to other approaches, such as learning the architecture of the NNs. However, the extremely large search space and the existence of many complex interacting parts still represent a major obstacle. Many criteria were recently investigated to help guide the algorithm and to cut down the large search space. Recently there has been growing research bringing insights from network science to improve the design of NNs. In this paper, we investigate evolving NNs architectures that have one of the most fundamental characteristics of real-world networks, namely the optimal balance between connections cost and information flow. The performance of different metrics that represent this balance is evaluated and the improvement in the accuracy of putting more selection pressure toward this balance is demonstrated on three datasets.
翻訳日:2022-02-15 18:22:30 公開日:2022-02-12
# ディープパフォーマー:スコアからオーディオへの演奏合成

Deep Performer: Score-to-Audio Music Performance Synthesis ( http://arxiv.org/abs/2202.06034v1 )

ライセンス: Link先を確認
Hao-Wen Dong, Cong Zhou, Taylor Berg-Kirkpatrick, Julian McAuley(参考訳) 音楽演奏合成は、楽譜を自然な演奏に合成することを目的としている。 本稿では,テキスト対音声合成の最近の進歩を借用し,スコア対音声音楽演奏合成のための新しいシステムである深層演奏者を提案する。 音声とは異なり、音楽はしばしばポリフォニーと長い音符を含んでいる。 そこで本研究では,ポリフォニック入力を扱うための2つの新しい手法を提案し,変換器エンコーダ・デコーダモデルに微細な条件付けを提供する。 提案するシステムをトレーニングするために,記録とスコアのペアによる新しいバイオリンデータセットと,それら間のアライメントを推定する。 提案するモデルは、明瞭なポリフォニーと調和構造を持つ楽曲を合成できることを示す。 聴取テストでは,音のピッチ精度,音色,雑音レベルの観点から,条件付き生成音声モデルであるベースラインモデルと競合する品質を実現する。 さらに,提案モデルでは,既存のピアノデータセットのベースラインを全体の品質で大幅に上回っている。

Music performance synthesis aims to synthesize a musical score into a natural performance. In this paper, we borrow recent advances in text-to-speech synthesis and present the Deep Performer -- a novel system for score-to-audio music performance synthesis. Unlike speech, music often contains polyphony and long notes. Hence, we propose two new techniques for handling polyphonic inputs and providing a fine-grained conditioning in a transformer encoder-decoder model. To train our proposed system, we present a new violin dataset consisting of paired recordings and scores along with estimated alignments between them. We show that our proposed model can synthesize music with clear polyphony and harmonic structures. In a listening test, we achieve competitive quality against the baseline model, a conditional generative audio model, in terms of pitch accuracy, timbre and noise level. Moreover, our proposed model significantly outperforms the baseline on an existing piano dataset in overall quality.
翻訳日:2022-02-15 18:16:45 公開日:2022-02-12
# 高次元固有ソルバーのスケーリング深度学習のための物理誘導問題分解法 : Schr\"{o}dinger 方程式の場合

Physics-Guided Problem Decomposition for Scaling Deep Learning of High-dimensional Eigen-Solvers: The Case of Schr\"{o}dinger's Equation ( http://arxiv.org/abs/2202.05994v1 )

ライセンス: Link先を確認
Sangeeta Srivastava, Samuel Olin, Wei-Cheng Lee, Anuj Karpatne, Viktor Podolskiy, Anish Arora(参考訳) 非線形マッピングを効果的に学習し、高速な推論を行う能力から、ディープニューラルネットワーク(NN)は、多くの科学的応用の基礎となる高次元固有値方程式(HDE)を解くための従来のシミュレーション駆動アプローチの代替手段として提案されている。 残念ながら、これらの科学的応用における学習モデルが一般化を達成するためには、大きく、多様で、好ましくは注釈付きデータセットが必要である。 さらに、学習したモデルは、主に出力層のサイズのため、メモリと計算集約性が高い傾向にある。 一般化、特に外挿は物理損失の形で物理的制約を課すことによって試みられているが、モデルのスケーラビリティの問題はまだ残っている。 本稿では,物理知識を用いて高次元固有ベクトルを複数の単純なサブタスクに予測する複雑な回帰タスクを分解することで,出力層の計算ボトルネックを軽減し,それぞれを単純な「専門家」ネットワークで学習する。 我々は、特殊専門家による物理誘導混合専門家(pg-moe)のアーキテクチャと呼ぶ。 量子力学におけるschr\"{o}dinger方程式の場合には,そのような物理誘導問題分解の有効性を示す。 提案したPG-MoEモデルは基底状態解,すなわち最小の固有値に対応する固有ベクトルを予測する。 モデルは、一般化の競争力を維持しながら複雑なタスクを学習するために訓練されたネットワークよりも150倍小さい。 また、PG-MoEの一般化を改善するために、変動エネルギーに基づく物理誘導損失関数を用い、量子力学の原理により、出力は基底状態解である。

Given their ability to effectively learn non-linear mappings and perform fast inference, deep neural networks (NNs) have been proposed as a viable alternative to traditional simulation-driven approaches for solving high-dimensional eigenvalue equations (HDEs), which are the foundation for many scientific applications. Unfortunately, for the learned models in these scientific applications to achieve generalization, a large, diverse, and preferably annotated dataset is typically needed and is computationally expensive to obtain. Furthermore, the learned models tend to be memory- and compute-intensive primarily due to the size of the output layer. While generalization, especially extrapolation, with scarce data has been attempted by imposing physical constraints in the form of physics loss, the problem of model scalability has remained. In this paper, we alleviate the compute bottleneck in the output layer by using physics knowledge to decompose the complex regression task of predicting the high-dimensional eigenvectors into multiple simpler sub-tasks, each of which are learned by a simple "expert" network. We call the resulting architecture of specialized experts Physics-Guided Mixture-of-Experts (PG-MoE). We demonstrate the efficacy of such physics-guided problem decomposition for the case of the Schr\"{o}dinger's Equation in Quantum Mechanics. Our proposed PG-MoE model predicts the ground-state solution, i.e., the eigenvector that corresponds to the smallest possible eigenvalue. The model is 150x smaller than the network trained to learn the complex task while being competitive in generalization. To improve the generalization of the PG-MoE, we also employ a physics-guided loss function based on variational energy, which by quantum mechanics principles is minimized iff the output is the ground-state solution.
翻訳日:2022-02-15 18:06:13 公開日:2022-02-12
# 生レベル協調認知のためのオンラインv2xスケジューリング

Online V2X Scheduling for Raw-Level Cooperative Perception ( http://arxiv.org/abs/2202.06085v1 )

ライセンス: Link先を確認
Yukuan Jia, Ruiqing Mao, Yuxuan Sun, Sheng Zhou, Zhisheng Niu(参考訳) 視覚領域が単独の知性を制限すると、コラボレーティブな車両の認識が救われる。 生レベルの協調認識は、ほとんどの情報を精度を保証するために保存するが、通信帯域幅と計算能力は要求されている。 したがって、補足的な視点と安定したネットワーク接続の観点から、最も有益な車両がセンサを共有するようにスケジュールすることが重要である。 本稿では,マルチアーム付きバンディット(mab)問題の変種として,センサ共有スケジューリングのエネルギー最小化問題を定式化する。 具体的には、隣接する車両のボラティリティ、V2Xチャネルの不均一性、時間変動交通状況を考慮する。 次に,対数的性能損失を伴うオンライン学習ベースのアルゴリズムを提案し,探索と搾取のまともなトレードオフを実現する。 異なるシナリオによるシミュレーション結果から,提案アルゴリズムは最適協調車両のスケジュールを迅速に学習し,ベースラインアルゴリズムと比較してより多くのエネルギーを節約できることがわかった。

Cooperative perception of connected vehicles comes to the rescue when the field of view restricts stand-alone intelligence. While raw-level cooperative perception preserves most information to guarantee accuracy, it is demanding in communication bandwidth and computation power. Therefore, it is important to schedule the most beneficial vehicle to share its sensor in terms of supplementary view and stable network connection. In this paper, we present a model of raw-level cooperative perception and formulate the energy minimization problem of sensor sharing scheduling as a variant of the Multi-Armed Bandit (MAB) problem. Specifically, volatility of the neighboring vehicles, heterogeneity of V2X channels, and the time-varying traffic context are taken into consideration. Then we propose an online learning-based algorithm with logarithmic performance loss, achieving a decent trade-off between exploration and exploitation. Simulation results under different scenarios indicate that the proposed algorithm quickly learns to schedule the optimal cooperative vehicle and saves more energy as compared to baseline algorithms.
翻訳日:2022-02-15 18:05:43 公開日:2022-02-12
# 畳み込みニューラルネットワークを用いた脳波信号の把持・リフト検出

Grasp-and-Lift Detection from EEG Signal Using Convolutional Neural Network ( http://arxiv.org/abs/2202.06128v1 )

ライセンス: Link先を確認
Md. Kamrul Hasan, Sifat Redwan Wahid, Faria Rahman, Shanjida Khan Maliha, Sauda Binte Rahman(参考訳) 神経筋機能障害や切断肢の患者は、自動補綴器具を必要とする。 このような人工装具の開発において、脳運動の正確な検出は、Grasp-and-Lift(GAL)タスクに必須である。 低コストかつ非侵襲的な脳波検査(eeg)により、人工装具の制御中に運動動作を検出するのが広く好まれる。 本稿では,32チャネル脳波信号から手動動作ビズGALを検出する手法を自動化した。 提案するパイプラインは、基本的に前処理とエンドツーエンド検出ステップを組み合わせることで、手作りの機能エンジニアリングの要件をなくす。 プリプロセッシング動作は、離散ウェーブレット変換(DWT)またはハイパスまたは帯域通過フィルタリングとデータ標準化を用いて生信号の復号化を行う。 検出ステップは、畳み込みニューラルネットワーク(CNN)またはLong Short Term Memory(LSTM)ベースのモデルで構成される。 すべての調査では6つの異なるGALイベントを持つWAY-EEG-GALデータセットが公開されている。 最適実験により,提案手法は DWT に基づくデノナイジングフィルタ,データ標準化,CNN に基づく検出モデルを用いて 0.944 の ROC 曲線の平均領域を達成できることがわかった。 得られた結果は、脳波信号からGALイベントを検出し、補綴器具、脳-コンピュータインタフェース、ロボットアームなどに適用する手法の優れた成果を示す。

People undergoing neuromuscular dysfunctions and amputated limbs require automatic prosthetic appliances. In developing such prostheses, the precise detection of brain motor actions is imperative for the Grasp-and-Lift (GAL) tasks. Because of the low-cost and non-invasive essence of Electroencephalograp hy (EEG), it is widely preferred for detecting motor actions during the controls of prosthetic tools. This article has automated the hand movement activity viz GAL detection method from the 32-channel EEG signals. The proposed pipeline essentially combines preprocessing and end-to-end detection steps, eliminating the requirement of hand-crafted feature engineering. Preprocessing action consists of raw signal denoising, using either Discrete Wavelet Transform (DWT) or highpass or bandpass filtering and data standardization. The detection step consists of Convolutional Neural Network (CNN)- or Long Short Term Memory (LSTM)-based model. All the investigations utilize the publicly available WAY-EEG-GAL dataset, having six different GAL events. The best experiment reveals that the proposed framework achieves an average area under the ROC curve of 0.944, employing the DWT-based denoising filter, data standardization, and CNN-based detection model. The obtained outcome designates an excellent achievement of the introduced method in detecting GAL events from the EEG signals, turning it applicable to prosthetic appliances, brain-computer interfaces, robotic arms, etc.
翻訳日:2022-02-15 17:46:30 公開日:2022-02-12
# 非凸分散学習のための局所摂動SGDのバイアス分散化によるサドルポイントの回避

Escaping Saddle Points with Bias-Variance Reduced Local Perturbed SGD for Communication Efficient Nonconvex Distributed Learning ( http://arxiv.org/abs/2202.06083v1 )

ライセンス: Link先を確認
Tomoya Murata and Taiji Suzuki(参考訳) 最近の集中型非凸分散学習と連合学習では、ローカルメソッドはコミュニケーション時間を短縮するための有望なアプローチの1つだ。 しかし、既存の研究は主に一階最適性保証の研究に重点を置いている。 一方、非分散最適化文献では、二階最適性保証アルゴリズムが広く研究されている。 本稿では,バイアス分散低減局所摂動sgd(bvr-l-psgd)と呼ばれる,既存のバイアス分散還元勾配推定器とパラメータ摂動を組み合わせて,集中型非凸分散最適化における2次最適点を求める新しい局所アルゴリズムについて検討する。 BVR-L-PSGDは、BVR-L-SGDの最もよく知られているものとほぼ同じ通信量で2階最適性を楽しむ。 特に、ローカルデータセットの不均一性がローカル損失の滑らかさよりも小さい場合、通信複雑性は非ローカルメソッドよりも優れている。 極端な場合、通信複雑性は局所的なデータセットの不均一性がゼロになるときに$\widetilde \Theta(1)$に近づく。

In recent centralized nonconvex distributed learning and federated learning, local methods are one of the promising approaches to reduce communication time. However, existing work has mainly focused on studying first-order optimality guarantees. On the other side, second-order optimality guaranteed algorithms have been extensively studied in the non-distributed optimization literature. In this paper, we study a new local algorithm called Bias-Variance Reduced Local Perturbed SGD (BVR-L-PSGD), that combines the existing bias-variance reduced gradient estimator with parameter perturbation to find second-order optimal points in centralized nonconvex distributed optimization. BVR-L-PSGD enjoys second-order optimality with nearly the same communication complexity as the best known one of BVR-L-SGD to find first-order optimality. Particularly, the communication complexity is better than non-local methods when the local datasets heterogeneity is smaller than the smoothness of the local loss. In an extreme case, the communication complexity approaches to $\widetilde \Theta(1)$ when the local datasets heterogeneity goes to zero.
翻訳日:2022-02-15 17:40:51 公開日:2022-02-12
# 階層的注意に基づくグラフニューラルネットワークによるフラッド検出の改善

Improving Fraud detection via Hierarchical Attention-based Graph Neural Network ( http://arxiv.org/abs/2202.06096v1 )

ライセンス: Link先を確認
Yajing Liu, Zhengya Sun, Wensheng Zhang(参考訳) グラフニューラルネットワーク(GNN)は、不正検出タスクの強力なツールとして登場し、異なる関係を通じて近隣情報を集約することで不正ノードを特定する。 このような検出を回避するために、巧妙な詐欺師は、正統なユーザ(リレーション・カモフラージュ)や、一見正統なフィードバック(フィーチャー・カモフラージュ)によってカモフラージュを利用する。 ワイドスプレッドソリューションは、元のノードの特徴に応じて隣のセレクタでGNN集約プロセスを補強する。 この方法は、関係カモフラージュだけでなく、特徴カモフラージュによって隣人の正体を区別することが困難になる詐欺師を識別する際に制限を課す。 本稿では,カモフラージュに対する異なる関係にまたがる重み付き隣接行列を組み込んだ,不正検出のための階層的注意型グラフニューラルネットワーク(ha-gnn)を提案する。 これは関係密度理論に動機付けられ、階層的注意に基づくグラフニューラルネットワークの形成に利用されている。 具体的には、2つのノード間の結合強度を反映する関係注意モジュールを設計、一方、近傍注意モジュールをグラフに関連付けられた長距離構造親和性をキャプチャする。 ローカル/ロングレンジ構造と元のノード特徴から情報を集約してノード埋め込みを生成する。 実世界の3つのデータセットの実験は、最先端技術に対する我々のモデルの有効性を実証している。

Graph neural networks (GNN) have emerged as a powerful tool for fraud detection tasks, where fraudulent nodes are identified by aggregating neighbor information via different relations. To get around such detection, crafty fraudsters resort to camouflage via connecting to legitimate users (i.e., relation camouflage) or providing seemingly legitimate feedbacks (i.e., feature camouflage). A wide-spread solution reinforces the GNN aggregation process with neighbor selectors according to original node features. This method may carry limitations when identifying fraudsters not only with the relation camouflage, but with the feature camouflage making them hard to distinguish from their legitimate neighbors. In this paper, we propose a Hierarchical Attention-based Graph Neural Network (HA-GNN) for fraud detection, which incorporates weighted adjacency matrices across different relations against camouflage. This is motivated in the Relational Density Theory and is exploited for forming a hierarchical attention-based graph neural network. Specifically, we design a relation attention module to reflect the tie strength between two nodes, while a neighborhood attention module to capture the long-range structural affinity associated with the graph. We generate node embeddings by aggregating information from local/long-range structures and original node features. Experiments on three real-world datasets demonstrate the effectiveness of our model over the state-of-the-arts.
翻訳日:2022-02-15 17:40:31 公開日:2022-02-12
# エネルギー収穫顧客によるフェデレーション学習について

On Federated Learning with Energy Harvesting Clients ( http://arxiv.org/abs/2202.06105v1 )

ライセンス: Link先を確認
Cong Shen, Jing Yang, Jie Xu(参考訳) 本稿では,モノのインターネットの普及とエッジにおける分散機械学習を例として,エネルギー収穫型連合学習(EHFL)フレームワークを提案する。 EHの導入は、クライアントのFLラウンドへの参加が保証できないことを意味しており、理論的解析を複雑にしている。 我々は,非凸損失関数を持つ並列および局所確率勾配降下(SGD)に対して,参加クライアントのランダムなEH特性による時間変化デバイスアベイラビリティの影響を捉える新しい収束境界を導出した。 その結果、FLプロセス全体を通して最小クライアント数を最大化する一様クライアントスケジューリングが望ましいことが示唆され、現実のFLタスクと最先端のEHスケジューラを用いた数値実験によりさらに裏付けられる。

Catering to the proliferation of Internet of Things devices and distributed machine learning at the edge, we propose an energy harvesting federated learning (EHFL) framework in this paper. The introduction of EH implies that a client's availability to participate in any FL round cannot be guaranteed, which complicates the theoretical analysis. We derive novel convergence bounds that capture the impact of time-varying device availabilities due to the random EH characteristics of the participating clients, for both parallel and local stochastic gradient descent (SGD) with non-convex loss functions. The results suggest that having a uniform client scheduling that maximizes the minimum number of clients throughout the FL process is desirable, which is further corroborated by the numerical experiments using a real-world FL task and a state-of-the-art EH scheduler.
翻訳日:2022-02-15 17:40:06 公開日:2022-02-12
# MIONet: テンソル積による複数入力演算子学習

MIONet: Learning multiple-input operators via tensor product ( http://arxiv.org/abs/2202.06137v1 )

ライセンス: Link先を確認
Pengzhan Jin, Shuai Meng, Lu Lu(参考訳) 科学機械学習における新たなパラダイムとして、ニューラルネットワークを通じて、無限次元の関数空間をマップするオペレータを学習することを目指している。 いくつかのニューラル作用素が最近開発された。 しかし、既存の全てのニューラル演算子は、単一のバナッハ空間(すなわち、演算子の入力は単一の関数である)で定義される演算子を学ぶためにのみ設計されている。 ここでは,バナッハ空間の積上で定義される多入力作用素に対するニューラルネットワークによる演算子回帰を初めて研究する。 まず、連続多重入力作用素の普遍近似定理を証明する。 また,ネットワークアーキテクチャ設計のガイダンスを提供する近似誤差を含む詳細な理論解析も提供する。 本理論と低ランク近似に基づいて,複数の入力演算子を学習するための新しいニューラル演算子mionetを提案する。 MIONetは入力関数をエンコードするいくつかの分岐ネットと、出力関数のドメインをエンコードするトランクネットで構成されている。 MIONetは常微分方程式と偏微分方程式によって支配されるシステムを含む解作用素を学習できることを実証する。 計算例では、線形性や周期性といった基礎となるシステムの事前知識をmionetに付与することで、精度をさらに向上できることを示した。

As an emerging paradigm in scientific machine learning, neural operators aim to learn operators, via neural networks, that map between infinite-dimensional function spaces. Several neural operators have been recently developed. However, all the existing neural operators are only designed to learn operators defined on a single Banach space, i.e., the input of the operator is a single function. Here, for the first time, we study the operator regression via neural networks for multiple-input operators defined on the product of Banach spaces. We first prove a universal approximation theorem of continuous multiple-input operators. We also provide detailed theoretical analysis including the approximation error, which provides a guidance of the design of the network architecture. Based on our theory and a low-rank approximation, we propose a novel neural operator, MIONet, to learn multiple-input operators. MIONet consists of several branch nets for encoding the input functions and a trunk net for encoding the domain of the output function. We demonstrate that MIONet can learn solution operators involving systems governed by ordinary and partial differential equations. In our computational examples, we also show that we can endow MIONet with prior knowledge of the underlying system, such as linearity and periodicity, to further improve the accuracy.
翻訳日:2022-02-15 17:39:52 公開日:2022-02-12
# 確率的戦略的患者購入者:ポスト価格による収益の最大化

Stochastic Strategic Patient Buyers: Revenue maximization using posted prices ( http://arxiv.org/abs/2202.06143v1 )

ライセンス: Link先を確認
Eitan-Hai Mashiah and Idan Attias and Yishay Mansour(参考訳) 我々は、決定を遅らせる能力を持つ買い手と直面している売り手について検討し、忍耐と呼ぶ。 各バイヤーのタイプは、価値と忍耐性で構成されており、分布からi.i.d.をサンプリングする。 売り手は上場価格を使い、買い手への売りから得た収入を最大限にしたい。 主な結果は以下のとおりである。 $\bullet$ この設定を形式化し、結果のStackelberg均衡を特徴付けます。 $\bullet$: 最高の固定価格、最高の純粋な戦略、固定価格のシーケンスである最良の混合戦略、そして、価格のシーケンスで配布される最良の混合戦略の分離を示す。 $\bullet$ 売り手の最適な純粋な戦略と売り手の混合戦略に対する買い手の最良の対応戦略の両方を特徴付ける。 $\bullet$ 最適な純粋戦略を効率的に計算し、最適混合戦略(最大忍耐率において指数的である)のアルゴリズムを与える方法を示す。 次に、販売者が購入者のタイプよりも分布にアクセスできないような学習環境を考える。 主な結果は以下のとおりである。 $\bullet$ この設定の脂肪散布次元を計算することによって、近似的な最適純粋戦略の学習に結びついたサンプル複雑性を導出する。 $\bullet$ 近似最適混合戦略に縛られる一般的なサンプル複雑性を与える。 $\bullet$オンライン設定を考えると、最適な純粋な戦略と最適な混合戦略の両方に関して、消滅する後悔を招きます。

We consider a seller faced with buyers which have the ability to delay their decision, which we call patience. Each buyer's type is composed of value and patience, and it is sampled i.i.d. from a distribution. The seller, using posted prices, would like to maximize her revenue from selling to the buyer. Our main results are the following. $\bullet$ We formalize this setting and characterize the resulting Stackelberg equilibrium, where the seller first commits to her strategy and then the buyers best respond. $\bullet$ We show a separation between the best fixed price, the best pure strategy, which is a fixed sequence of prices, and the best mixed strategy, which is a distribution over price sequences. $\bullet$ We characterize both the optimal pure strategy of the seller and the buyer's best response strategy to any seller's mixed strategy. $\bullet$ We show how to compute efficiently the optimal pure strategy and give an algorithm for the optimal mixed strategy (which is exponential in the maximum patience). We then consider a learning setting, where the seller does not have access to the distribution over buyer's types. Our main results are the following. $\bullet$ We derive a sample complexity bound for the learning of an approximate optimal pure strategy, by computing the fat-shattering dimension of this setting. $\bullet$ We give a general sample complexity bound for the approximate optimal mixed strategy. $\bullet$ We consider an online setting and derive a vanishing regret bound with respect to both the optimal pure strategy and the optimal mixed strategy.
翻訳日:2022-02-15 17:39:34 公開日:2022-02-12
# ソフトウェア工学における依存変数の離散化ノイズが機械学習分類器に与える影響

Impact of Discretization Noise of the Dependent variable on Machine Learning Classifiers in Software Engineering ( http://arxiv.org/abs/2202.06146v1 )

ライセンス: Link先を確認
Gopi Krishnan Rajbahadur, Shaowei Wang, Yasutaka Kamei, Ahmed E. Hassan(参考訳) 研究者は通常、連続依存変数を2つのターゲットクラスに識別し、人工的離散化しきい値(例えば中央値)を導入する。 しかし、そのような離散化は、人工しきい値に近いデータポイントのあいまいなクラス忠誠によってノイズ(すなわち、離散化ノイズ)を引き起こす可能性がある。 これまでの研究では、離散化ノイズが分類器に与える影響とその処理方法に関する明確な指示は示されていない。 本稿では,識別ノイズが分類器に与える影響を,様々な性能指標や分類器の解釈に与える影響を,研究者や実践者が体系的に評価するための枠組みを提案する。 7つのソフトウェアエンジニアリングデータセットのケーススタディを通じて、次のことが分かりました。 1)識別ノイズは,異なるデータセットに対して異なる分類器の性能指標に影響を与える。 2) 分類器の解釈は全体としては離散化ノイズの影響を受けているが, 最上位3つの特徴は離散化ノイズの影響を受けない。 そこで,本研究の実践者や研究者は,識別ノイズが構築した分類器の性能に与える影響を把握し,そのノイズの負の影響を避けるために,データセットから捨てるべき識別ノイズの正確な量を推定する。

Researchers usually discretize a continuous dependent variable into two target classes by introducing an artificial discretization threshold (e.g., median). However, such discretization may introduce noise (i.e., discretization noise) due to ambiguous class loyalty of data points that are close to the artificial threshold. Previous studies do not provide a clear directive on the impact of discretization noise on the classifiers and how to handle such noise. In this paper, we propose a framework to help researchers and practitioners systematically estimate the impact of discretization noise on classifiers in terms of its impact on various performance measures and the interpretation of classifiers. Through a case study of 7 software engineering datasets, we find that: 1) discretization noise affects the different performance measures of a classifier differently for different datasets; 2) Though the interpretation of the classifiers are impacted by the discretization noise on the whole, the top 3 most important features are not affected by the discretization noise. Therefore, we suggest that practitioners and researchers use our framework to understand the impact of discretization noise on the performance of their built classifiers and estimate the exact amount of discretization noise to be discarded from the dataset to avoid the negative impact of such noise.
翻訳日:2022-02-15 17:39:09 公開日:2022-02-12
# オンライン最適化からpidコントローラへ:運動量によるミラー降下

From Online Optimization to PID Controllers: Mirror Descent with Momentum ( http://arxiv.org/abs/2202.06152v1 )

ライセンス: Link先を確認
Santiago R. Balseiro, Haihao Lu, Vahab Mirrokni, Balasubramanian Sivan(参考訳) 我々は,オンライン凸最適化のためのミラー降下に基づく一階法の一群について検討し,オンラインミラー降下と運動量(OMDM)をダブする。 我々のアルゴリズムには特別な場合として勾配降下と指数重みがモーメントで更新される。 モーメントが増加するにつれて減少する後悔境界を生じる確率的設定において、モーメントに基づく新しい単純かつ簡単な解析を行う。 このことは、モーメントが凸非滑らかな最適化における確率的下降降下の収束に役立つことを直ちに証明する。 我々は,OMDMに対する最初の非自明な後悔境界を与える逆条件で解析を行うことにより,アルゴリズムの堅牢性を示す。 我々の研究は、最近の経験的成功にもかかわらず、運動量に基づく手法の利点をよりよく理解することを目的としている。 最後に,OMDMがコンピュータ科学と運用研究の中心的な問題である確率的オンライン割当問題にどのように適用できるかを論じる。 そこで我々は,PIDコントローラなどの最適制御から,OMDMと一般的なアプローチとの重要なつながりを確立し,PIDコントローラの性能に不利な制約を与える。 運動量の改善は、ステップサイズが大きくなると最も顕著になるため、運動量がチューニングパラメータの誤特定に対して堅牢であることを示す。 アルゴリズムの堅牢性を検証する数値評価を行う。

We study a family of first-order methods with momentum based on mirror descent for online convex optimization, which we dub online mirror descent with momentum (OMDM). Our algorithms include as special cases gradient descent and exponential weights update with momentum. We provide a new and simple analysis of momentum-based methods in a stochastic setting that yields a regret bound that decreases as momentum increases. This immediately establishes that momentum can help in the convergence of stochastic subgradient descent in convex nonsmooth optimization. We showcase the robustness of our algorithm by also providing an analysis in an adversarial setting that gives the first non-trivial regret bounds for OMDM. Our work aims to provide a better understanding of the benefits of momentum-based methods, which despite their recent empirical success, is incomplete. Finally, we discuss how OMDM can be applied to stochastic online allocation problems, which are central problems in computer science and operations research. In doing so, we establish an important connection between OMDM and popular approaches from optimal control such as PID controllers, thereby providing regret bounds on the performance of PID controllers. The improvements of momentum are most pronounced when the step-size is large, thereby indicating that momentum provides a robustness to misspecification of tuning parameters. We provide a numerical evaluation that verifies the robustness of our algorithms.
翻訳日:2022-02-15 17:38:51 公開日:2022-02-12
# 回帰モデルを用いた欠陥分類器の構築が与える影響

The Impact of Using Regression Models to Build Defect Classifiers ( http://arxiv.org/abs/2202.06157v1 )

ライセンス: Link先を確認
Gopi Krishnan Rajbahadur, Shaowei Wang, Yasutaka Kamei, Ahmed E. Hassan(参考訳) 継続的欠陥数を欠陥クラスと非欠陥クラスに分類し、欠陥分類器を構築する際にターゲット変数として使用するのが一般的である。 しかし、この連続的な欠陥カウントの離散化は、欠陥分類器の性能と解釈に影響を与える可能性のある情報損失につながる。 欠陥分類器を構築する別の可能なアプローチは回帰モデルを使用することで、予測された欠陥数を欠陥的および非欠陥的クラス(回帰に基づく分類器)に識別する。 本稿では,従来の機械学習分類器(線形/論理回帰,ランダムフォレスト,KNN,SVM,CART,ニューラルネットワーク)と17のデータセットの2つのアプローチ(離散化分類器と回帰ベース分類器)を用いて構築された欠陥分類器の性能と解釈を比較した。 私たちはそれを見つけました 一 双方の分類器構築アプローチにおいて、他の分類器(ベストAUC)より優れるランダムフォレストに基づく分類器 二 一般の慣行とは対照的に、離散化された欠陥数(離散化された分類器)を用いて欠陥分類器を構築することは、必ずしも優れた性能をもたらすとは限らない。 したがって、将来の欠陥分類研究は回帰に基づく分類器の構築を考慮すべきである(特にモデルデータセットの欠陥比率が低い場合)。 さらに,欠陥分類器構築のための2つのアプローチを検討すべきであるので,最も影響力のある特徴を決定する際に最適な分類器を使用できる。

It is common practice to discretize continuous defect counts into defective and non-defective classes and use them as a target variable when building defect classifiers (discretized classifiers). However, this discretization of continuous defect counts leads to information loss that might affect the performance and interpretation of defect classifiers. Another possible approach to build defect classifiers is through the use of regression models then discretizing the predicted defect counts into defective and non-defective classes (regression-based classifiers). In this paper, we compare the performance and interpretation of defect classifiers that are built using both approaches (i.e., discretized classifiers and regression-based classifiers) across six commonly used machine learning classifiers (i.e., linear/logistic regression, random forest, KNN, SVM, CART, and neural networks) and 17 datasets. We find that: i) Random forest based classifiers outperform other classifiers (best AUC) for both classifier building approaches; ii) In contrast to common practice, building a defect classifier using discretized defect counts (i.e., discretized classifiers) does not always lead to better performance. Hence we suggest that future defect classification studies should consider building regression-based classifiers (in particular when the defective ratio of the modeled dataset is low). Moreover, we suggest that both approaches for building defect classifiers should be explored, so the best-performing classifier can be used when determining the most influential features.
翻訳日:2022-02-15 17:38:29 公開日:2022-02-12
# ロバストな半教師付き学習 - 簡単な紹介

Robust Deep Semi-Supervised Learning: A Brief Introduction ( http://arxiv.org/abs/2202.05975v1 )

ライセンス: Link先を確認
Lan-Zhe Guo and Zhi Zhou and Yu-Feng Li(参考訳) 半教師付き学習(SSL)は、ラベルが不十分なときにラベル付きデータを活用することによって学習性能を向上させることを目的とした機械学習の分野である。 最近、ディープモデルによるSSLは標準ベンチマークタスクで成功したことが証明されている。 しかし、これらのベンチマークは完全なラベルのないデータを提供するが、現実的なシナリオではラベルのないデータは破損する可能性がある。 多くの研究者が、不正なラベル付きデータを悪用した後、SSLは深刻なパフォーマンス劣化の問題を抱えていると指摘している。 したがって、破損した未ラベルのデータで堅牢に動作するSSLアルゴリズムを開発する必要がある。 堅牢なSSLを十分に理解するために、調査研究を行う。 まず、マシンラーニングの観点から、ロバストSSLの正式な定義を明確にする。 次に、ロバストネスの脅威を3つのカテゴリに分類する。 一 分配腐敗、すなわち、ラベルのないデータ分布がラベル付きデータと不一致であること。 二 特徴腐敗、即ち、ラベルなし例の特徴が反対に攻撃されていること。 三 ラベルの腐敗、すなわちラベルのないデータのラベルの分布が不均衡であること。 この統合された分類学の下で、これらの問題に焦点を当てた最近の研究の徹底的なレビューと議論を行う。 最後に,将来研究への洞察を提供するため,堅牢なsslにおける有望な方向性を提案する。

Semi-supervised learning (SSL) is the branch of machine learning that aims to improve learning performance by leveraging unlabeled data when labels are insufficient. Recently, SSL with deep models has proven to be successful on standard benchmark tasks. However, they are still vulnerable to various robustness threats in real-world applications as these benchmarks provide perfect unlabeled data, while in realistic scenarios, unlabeled data could be corrupted. Many researchers have pointed out that after exploiting corrupted unlabeled data, SSL suffers severe performance degradation problems. Thus, there is an urgent need to develop SSL algorithms that could work robustly with corrupted unlabeled data. To fully understand robust SSL, we conduct a survey study. We first clarify a formal definition of robust SSL from the perspective of machine learning. Then, we classify the robustness threats into three categories: i) distribution corruption, i.e., unlabeled data distribution is mismatched with labeled data; ii) feature corruption, i.e., the features of unlabeled examples are adversarially attacked; and iii) label corruption, i.e., the label distribution of unlabeled data is imbalanced. Under this unified taxonomy, we provide a thorough review and discussion of recent works that focus on these issues. Finally, we propose possible promising directions within robust SSL to provide insights for future research.
翻訳日:2022-02-15 17:15:10 公開日:2022-02-12
# 複数分散データストリームのためのオンラインオフライン学習の結合

Coupling Online-Offline Learning for Multi-distributional Data Streams ( http://arxiv.org/abs/2202.05996v1 )

ライセンス: Link先を確認
Zhilin Zhao and Longbing Cao and Yuanyu Wan(参考訳) 実際のデータストリームの分布は通常、非定常であり、あるエキサイティングな設定は、ストリームが一定の時間軸を持つ複数のオフライン間隔に分解できるが、異なる分布と分散のオンライン間隔に分解できるということである。 このようなデータをマルチディストリビューションデータストリームと呼び、未確認サンプルのオンザフライの専門家を望ましい一般化で学習することは、マルチディストリビューションストリーミングの性質のため、特にオンラインインターバルでデータに制限がある場合、非常に困難である。 これらの課題に対処するため,本研究では,知識伝達,後悔,一般化誤差に関する理論的保証を伴うオンラインオフライン学習(co$_2$)のカップリングという新しい最適化手法を提案する。 CO$_2$は、オフラインの専門家をオフラインインターバルごとに訓練して知識を抽出し、オンラインインターバルで市販のオンライン最適化方法によってオンライン専門家を更新する。 co$_2$は、オフラインの専門家と基盤となるオンラインエキスパートの両方を、ダイナミックな環境に適応するための専門家追跡戦略を通じて適応的に結合することで、各サンプルの仮説を出力する。 アウトプット仮説の一般化性能を検討するために,損失関数特性,仮説クラス,データ分布,後悔に関連する過大リスクを解析するための一般理論を提案する。

The distributions of real-life data streams are usually nonstationary, where one exciting setting is that a stream can be decomposed into several offline intervals with a fixed time horizon but different distributions and an out-of-distribution online interval. We call such data multi-distributional data streams, on which learning an on-the-fly expert for unseen samples with a desirable generalization is demanding yet highly challenging owing to the multi-distributional streaming nature, particularly when initially limited data is available for the online interval. To address these challenges, this work introduces a novel optimization method named coupling online-offline learning (CO$_2$) with theoretical guarantees about the knowledge transfer, the regret, and the generalization error. CO$_2$ extracts knowledge by training an offline expert for each offline interval and update an online expert by an off-the-shelf online optimization method in the online interval. CO$_2$ outputs a hypothesis for each sample by adaptively coupling both the offline experts and the underlying online expert through an expert-tracking strategy to adapt to the dynamic environment. To study the generalization performance of the output hypothesis, we propose a general theory to analyze its excess risk bound related to the loss function properties, the hypothesis class, the data distribution, and the regret.
翻訳日:2022-02-15 17:14:52 公開日:2022-02-12
# 0/1 adamによる大規模学習における通信効率の最大化

Maximizing Communication Efficiency for Large-scale Training via 0/1 Adam ( http://arxiv.org/abs/2202.06009v1 )

ライセンス: Link先を確認
Yucheng Lu, Conglong Li, Minjia Zhang, Christopher De Sa, Yuxiong He(参考訳) 1ビット通信はモデルトレーニングのスケールアップに有効な手法であり、SGDで広く研究されている。 しかし、Adamベースのモデルトレーニング(BERTやGPTなど)に関して、その利点は未解決のままである。 そこで本稿では,本論文で提案する0/1 adam について,(1) トレーニングの初期段階で高価な全精度通信を行う必要がなくなる適応分散状態凍結 (adaptive variance state freezing) と,(2) アダムのオプティマイザ状態,運動量,分散に対してビットフリーの同期で通信ラウンドをスキップできる1ビット同期 (1bit sync) という2つの新設計による改善を提案する。 理論的には、滑らかな非凸目的に対する 0/1 adam の収束解析を提供し、ある条件下では元の adam よりも複雑性境界の方が優れていることを示す。 BERT-Base/Large事前トレーニングやImageNetなどのベンチマークでは、0/1 Adamが最大128のGPUで、データボリュームの90%、通信ラウンドの54%、最先端の1ビットAdamと比較して最大2倍のスループットを実現し、GLUEデータセットとImageNet検証セットで同じ統計的収束速度とエンドツーエンドモデル精度を享受できることを示した。

1-bit communication is an effective method to scale up model training, and has been studied extensively on SGD. Its benefits, however, remain an open question on Adam-based model training (e.g. BERT and GPT). In this paper, we propose 0/1 Adam, which improves upon the state-of-the-art 1-bit Adam via two novel designs: (1) adaptive variance state freezing, which eliminates the requirement of running expensive full-precision communication at early stage of training; (2) 1-bit sync, which allows skipping communication rounds with bit-free synchronization over Adam's optimizer states, momentum and variance. In theory, we provide convergence analysis for 0/1 Adam on smooth non-convex objectives, and show the complexity bound is better than original Adam under certain conditions. On various benchmarks such as BERT-Base/Large pretraining and ImageNet, we demonstrate on up to 128 GPUs that 0/1 Adam is able to reduce up to 90% of data volume, 54% of communication rounds, and achieve up to 2X higher throughput compared to the state-of-the-art 1-bit Adam while enjoying the same statistical convergence speed and end-to-end model accuracy on GLUE dataset and ImageNet validation set.
翻訳日:2022-02-15 17:14:30 公開日:2022-02-12
# ランダム森林を用いた汚染レベルの予測:フィリピン・ブラカン州マラオ川を事例として

Predicting Pollution Level Using Random Forest: A Case Study of Marilao River in Bulacan Province, Philippines ( http://arxiv.org/abs/2202.06066v1 )

ライセンス: Link先を確認
Jayson M. Victoriano, Manuel Luis C. Delos Santos, Albert A. Vinluan and Jennifer T. Carpio(参考訳) 本研究はフィリピンのブラカン州にあるマリラオ川を脅かす汚染レベルを予測することを目的としている。 現在、この地域の住民は汚染にさらされている。 この水路の汚染は、使用済み鉛蓄電池、オープン・ダンプサイト・メタル精製、その他の有毒金属など、公式および非公式の産業から来ている。 溶存酸素 (DO) や水素ポテンシャル (pH) , 生化学的酸素負荷 (BOD) やTSS (Total Suspended Solids) といった水質パラメータを用いて汚染レベルを予測する。 本研究は,2013年1月から2017年11月までのサンプルデータに基づくデータマイニング手法を用いた。 これらは, 緑, 黄色, 汚染度が高く, オレンジ色, 汚染度が高く, 河川の環境を推定するために, 訓練データおよび試験結果として用いられた。 モデルの精度は91.75%で、kappa の値は 0.8115 であり、合意のレベルにおいて強いと解釈された。

This study aims to predict the pollution level that threatens the Marilao River, located in the province of Bulacan, Philippines. The inhabitants of this area are now being exposed to pollution. Contamination of this waterway comes from both formal and informal industries, such as a used lead-acid battery, open dumpsites metal refining, and other toxic metals. Using various water quality parameters like Dissolved Oxygen (DO), Potential of Hydrogen (pH), Biochemical Oxygen Demand (BOD) and Total Suspended Solids (TSS) were the basis for predicting the pollution level. This study used the Data Mining technique based on the sample data collected from January of 2013 to November of 2017. These were used as a training data and test results to predict the river condition with its corresponding pollution level classification indicated with the used of colors such as Green for Normal, Yellow for Average, Orange for Polluted and Red for Highly Polluted. The model got an accuracy of 91.75% with a Kappa value of 0.8115, interpreted as Strong in terms of the level of agreement.
翻訳日:2022-02-15 17:14:01 公開日:2022-02-12
# EREBA:適応型ニューラルネットワークのブラックボックスエネルギーテスト

EREBA: Black-box Energy Testing of Adaptive Neural Networks ( http://arxiv.org/abs/2202.06084v1 )

ライセンス: Link先を確認
Mirazul Haque, Yaswanth Yadlapalli, Wei Yang, and Cong Liu(参考訳) 近年,エネルギー制約の厳しい組込みシステムなどの環境において,様々なディープニューラルネットワーク(dnn)モデルが提案されている。 エネルギー消費に関するDNNのロバスト性(エネルギーロバスト性)を決定するという根本的な問題は、精度に基づくロバスト性よりも比較的未探索である。 本研究では、多くのエネルギー感受性ドメインに対して提案された省エネルギーDNNの一種であるAdaptive Neural Networks (AdNNs) のエネルギーロバスト性を調べた。 本稿では,adnnのエネルギーロバスト性を決定する最初のブラックボックステスト手法であるerebaを提案する。 EREBAは、入力とAdNNのエネルギー消費の関係を調べ、推し進めるサンプルを生成する。 3つの最先端AdNNを用いた大規模な実装と評価は、EREBAが生成したテスト入力がシステムの性能を著しく低下させることを示した。 EREBAによって生成されたテスト入力は、元の入力と比較して2000%のエネルギー消費を増大させることができる。 また,EREBAを用いて生成したテスト入力は,エネルギサージ入力の検出に有用であることを示す。

Recently, various Deep Neural Network (DNN) models have been proposed for environments like embedded systems with stringent energy constraints. The fundamental problem of determining the robustness of a DNN with respect to its energy consumption (energy robustness) is relatively unexplored compared to accuracy-based robustness. This work investigates the energy robustness of Adaptive Neural Networks (AdNNs), a type of energy-saving DNNs proposed for many energy-sensitive domains and have recently gained traction. We propose EREBA, the first black-box testing method for determining the energy robustness of an AdNN. EREBA explores and infers the relationship between inputs and the energy consumption of AdNNs to generate energy surging samples. Extensive implementation and evaluation using three state-of-the-art AdNNs demonstrate that test inputs generated by EREBA could degrade the performance of the system substantially. The test inputs generated by EREBA can increase the energy consumption of AdNNs by 2,000% compared to the original inputs. Our results also show that test inputs generated via EREBA are valuable in detecting energy surging inputs.
翻訳日:2022-02-15 17:13:42 公開日:2022-02-12
# RoPGen: 自動コーディングスタイル変換によるロバストなコードオーサリング属性の実現

RoPGen: Towards Robust Code Authorship Attribution via Automatic Coding Style Transformation ( http://arxiv.org/abs/2202.06043v1 )

ライセンス: Link先を確認
Zhen Li, Guenevere (Qian) Chen, Chen Chen, Yayi Zou, Shouhuai Xu(参考訳) ソースコードのオーサシップの帰属は、ソフトウェア検査、バグフィックス、ソフトウェア品質分析などのアプリケーションでしばしば発生する重要な問題である。 最近の研究では、現在のソースコードオーサシップの帰属方法が、敵の例やコーディングスタイル操作を悪用する攻撃者によって危険に晒されることが示されている。 これにより、コードオーサシップの帰属問題に対する堅牢なソリューションが要求される。 本稿では,Deep Learning(DL)に基づくコードオーサシップのロバスト化に関する研究を開始する。 ロバストコーディングスタイルパターン生成(ropgen: robust coding style patterns generation)と呼ばれる革新的なフレームワークを提案する。 鍵となるアイデアは、逆行訓練フェーズにおけるデータ強化と勾配増強を組み合わせることだ。 これにより、トレーニング例の多様性を効果的に増加させ、ディープニューラルネットワークの勾配に対する有意義な摂動を生成し、コーディングスタイルの多様化表現を学ぶ。 C、C++、Javaで書かれたプログラムの4つのデータセットを用いてRoPGenの有効性を評価する。 実験の結果、ropgenはdlベースのコードオーサシップ属性のロバスト性を大幅に向上し、目標攻撃と目標攻撃の成功率の22.8%と41.0%をそれぞれ削減できることが示されている。

Source code authorship attribution is an important problem often encountered in applications such as software forensics, bug fixing, and software quality analysis. Recent studies show that current source code authorship attribution methods can be compromised by attackers exploiting adversarial examples and coding style manipulation. This calls for robust solutions to the problem of code authorship attribution. In this paper, we initiate the study on making Deep Learning (DL)-based code authorship attribution robust. We propose an innovative framework called Robust coding style Patterns Generation (RoPGen), which essentially learns authors' unique coding style patterns that are hard for attackers to manipulate or imitate. The key idea is to combine data augmentation and gradient augmentation at the adversarial training phase. This effectively increases the diversity of training examples, generates meaningful perturbations to gradients of deep neural networks, and learns diversified representations of coding styles. We evaluate the effectiveness of RoPGen using four datasets of programs written in C, C++, and Java. Experimental results show that RoPGen can significantly improve the robustness of DL-based code authorship attribution, by respectively reducing 22.8% and 41.0% of the success rate of targeted and untargeted attacks on average.
翻訳日:2022-02-15 17:08:44 公開日:2022-02-12
# USTED:統一音声とテキストエンコーダデコーダによるASRの改善

USTED: Improving ASR with a Unified Speech and Text Encoder-Decoder ( http://arxiv.org/abs/2202.06045v1 )

ライセンス: Link先を確認
Bolaji Yusuf, Ankur Gandhe and Alex Sokolov(参考訳) 外部テキストデータの導入によるエンドツーエンド音声認識の改善は,長年にわたる研究課題である。 最近のE2E ASRモデルのトレーニングでは、推論時に外部言語モデルを評価する余分なコストを発生させることなく、外部テキストデータのパフォーマンス上の利点を得ることができる。 本研究では,デコーダとエンコーダの一部を共有するテキスト・テキスト・テキスト補助タスクのセットと共同で,ASRモデルのトレーニングを提案する。 960 時間 Librispeech と Opensubtitles のデータを併用して ASR とマスク付き言語モデルを共同でトレーニングすると,提案モデルと同一のテキストデータでデコーダを訓練する MUTE-L ベースラインと比較して,ASR のみのベースライン上での WER の16% と 20% の削減,および 6% と 8% の削減が観察できる。 我々は、Librispeechデータ上でマスク付き言語モデルを訓練したり、機械翻訳を補助タスクとして使用する場合、タスク自体の性能を著しく損なうことなく、さらなる改善を実現する。

Improving end-to-end speech recognition by incorporating external text data has been a longstanding research topic. There has been a recent focus on training E2E ASR models that get the performance benefits of external text data without incurring the extra cost of evaluating an external language model at inference time. In this work, we propose training ASR model jointly with a set of text-to-text auxiliary tasks with which it shares a decoder and parts of the encoder. When we jointly train ASR and masked language model with the 960-hour Librispeech and Opensubtitles data respectively, we observe WER reductions of 16% and 20% on test-other and test-clean respectively over an ASR-only baseline without any extra cost at inference time, and reductions of 6% and 8% compared to a stronger MUTE-L baseline which trains the decoder with the same text data as our model. We achieve further improvements when we train masked language model on Librispeech data or when we use machine translation as the auxiliary task, without significantly sacrificing performance on the task itself.
翻訳日:2022-02-15 17:05:38 公開日:2022-02-12
# ジオメトリアウェア一貫性トレーニングによる半教師付き医用画像セグメンテーション

Semi-supervised Medical Image Segmentation via Geometry-aware Consistency Training ( http://arxiv.org/abs/2202.06104v1 )

ライセンス: Link先を確認
Zihang Liu, Chunhui Zhao(参考訳) 医療画像分割のための教師付き深層学習手法の性能はラベル付きデータの不足によって制限されることが多い。 有望な研究方向として、半教師付き学習は、ラベルなしのデータ情報を利用して学習プロセスを支援することで、このジレンマに対処する。 本稿では,整合性に基づく医用画像セグメンテーションのための新しい幾何学的半教師付き学習フレームワークを提案する。 対象領域は対象境界付近を中心に配置されているため,大域的な幾何学的情報を学習するための補助予測タスクを導入する。 幾何学的制約に基づき、あいまいな境界領域は、ラベル付きデータとラベル付きデータの両方をよりよく活用するためのモデルトレーニングのための指数関数的な重み付け戦略によって強調される。 さらに、異なる視点からのセグメンテーションを行い、予測の不確実性を低減するために、デュアルビューネットワークが設計されている。 提案手法は,公開左心房ベンチマークデータセットで評価され,10%のラベル付き画像でdiceで8.7%,20%のラベル付き画像で4.3%の完全教師あり方式を改善した。 一方、我々のフレームワークは6つの最先端半教師付きセグメンテーション法より優れている。

The performance of supervised deep learning methods for medical image segmentation is often limited by the scarcity of labeled data. As a promising research direction, semi-supervised learning addresses this dilemma by leveraging unlabeled data information to assist the learning process. In this paper, a novel geometry-aware semi-supervised learning framework is proposed for medical image segmentation, which is a consistency-based method. Considering that the hard-to-segment regions are mainly located around the object boundary, we introduce an auxiliary prediction task to learn the global geometric information. Based on the geometric constraint, the ambiguous boundary regions are emphasized through an exponentially weighted strategy for the model training to better exploit both labeled and unlabeled data. In addition, a dual-view network is designed to perform segmentation from different perspectives and reduce the prediction uncertainty. The proposed method is evaluated on the public left atrium benchmark dataset and improves fully supervised method by 8.7% in Dice with 10% labeled images, while 4.3% with 20% labeled images. Meanwhile, our framework outperforms six state-of-the-art semi-supervised segmentation methods.
翻訳日:2022-02-15 17:03:15 公開日:2022-02-12
# 病理組織像を用いた乳癌検出

Breast Cancer Detection using Histopathological Images ( http://arxiv.org/abs/2202.06109v1 )

ライセンス: Link先を確認
Jitendra Maan, Harsh Maan(参考訳) がんは世界で最も一般的で致命的な病気の1つです。 乳癌は女性8人に1人、男性800人に1人に影響する。 したがって,癌の早期発見は癌を効果的に治すのに役立つため,がんの早期発見を主目的とすべきである。 そこで本研究では,より高度な深層学習技術の助けを借りて,診断関連領域の局所化のための病理医の行動をエミュレートするシステムを提案する。 cnn(vgg16, resnet architecture)を訓練し, 乳癌の5つの診断カテゴリーの同定を行った。 BreakHisデータセットを使ってモデルをトレーニングしました。 病理組織像における癌領域の検出と分類に焦点をあてる。 診断関連領域は健全である。 この検出システムは、病理学者や医療機関が利用できるオープンソースのWebアプリケーションとして利用できる。

Cancer is one of the most common and fatal diseases in the world. Breast cancer affects one in every eight women and one in every eight hundred men. Hence, our prime target should be early detection of cancer because the early detection of cancer can be helpful to cure cancer effectively. Therefore, we propose a saliency detection system with the help of advanced deep learning techniques, such that the machine will be taught to emulate actions of pathologists for localization of diagnostically pertinent regions. We study identification of five diagnostic categories of breast cancer by training a CNN (VGG16, ResNet architecture). We have used BreakHis dataset to train our model. We focus on both detection and classification of cancerous regions in histopathology images. The diagnostically relevant regions are salient. The detection system will be available as an open source web application which can be used by pathologists and medical institutions.
翻訳日:2022-02-15 17:02:54 公開日:2022-02-12
# 実行による学習:因果性、制御、強化学習を用いた動的システムの制御

Learning by Doing: Controlling a Dynamical System using Causality, Control, and Reinforcement Learning ( http://arxiv.org/abs/2202.06052v1 )

ライセンス: Link先を確認
Sebastian Weichwald, S{\o}ren Wengel Mogensen, Tabitha Edith Lee, Dominik Baumann, Oliver Kroemer, Isabelle Guyon, Sebastian Trimpe, Jonas Peters, Niklas Pfister(参考訳) 因果性、制御、強化学習に関する質問は、古典的な機械学習の予測タスク、すなわち、観測に基づくものである。 代わりに、これらの分野は、応答変数に特定の効果を達成するためにシステムを積極的に摂動させる方法を学ぶ問題を考える。 制御においては、通常、興奮戦略によって最初にシステムを特定し、その後、システムを制御するためにモデルベースの設計技術を適用することを目的としています。 非モデルベースの強化学習では、報酬を直接最適化する。 因果関係において、一つの焦点は因果構造の識別性である。 異なる視点を組み合わせることでシナジーが生まれると我々は信じており、この競争はこのようなシナジーへの第一歩である。 参加者は動的システムによって生成された観察的および(オフライン)介入データにアクセスできた。 トラック・チェムは、ダイナミクスの開始時の一つのインパルスをセットできるオープンループ問題を考える一方、トラック・ロボは、各時間ステップで制御変数を設定できるクローズドループ問題を考える。 両方のトラックの目標は、システムを望ましい状態に導く制御を推論することである。 コードはオープンソース(https://github.com/ LearningByDoingCompe tition/learningbydoi ng-comp)で、競争の勝利したソリューションを再現し、競争タスクにおける新しいメソッドの試行を容易にする。

Questions in causality, control, and reinforcement learning go beyond the classical machine learning task of prediction under i.i.d. observations. Instead, these fields consider the problem of learning how to actively perturb a system to achieve a certain effect on a response variable. Arguably, they have complementary views on the problem: In control, one usually aims to first identify the system by excitation strategies to then apply model-based design techniques to control the system. In (non-model-based) reinforcement learning, one directly optimizes a reward. In causality, one focus is on identifiability of causal structure. We believe that combining the different views might create synergies and this competition is meant as a first step toward such synergies. The participants had access to observational and (offline) interventional data generated by dynamical systems. Track CHEM considers an open-loop problem in which a single impulse at the beginning of the dynamics can be set, while Track ROBO considers a closed-loop problem in which control variables can be set at each time step. The goal in both tracks is to infer controls that drive the system to a desired state. Code is open-sourced ( https://github.com/L earningByDoingCompet ition/learningbydoin g-comp ) to reproduce the winning solutions of the competition and to facilitate trying out new methods on the competition tasks.
翻訳日:2022-02-15 15:58:54 公開日:2022-02-12
# 大規模言語モデルのためのセマンティクス指向無ラベルプライミング

Semantic-Oriented Unlabeled Priming for Large-Scale Language Models ( http://arxiv.org/abs/2202.06133v1 )

ライセンス: Link先を確認
Yanchen Liu, Timo Schick, Hinrich Sch\"utze(参考訳) 大規模言語モデルの微調整に伴うコストが高いため、近年の様々な研究は、コンテキスト内学習によるパラメータ更新なしに、特定のタスクに適用することを提案している。 残念なことに、コンテキスト内学習では、ラベルのないデータを活用する方法が現在存在しない。 そこで本研究では,事前学習された言語モデルのゼロショット性能を,微調整することなく改善する方法について検討する。我々は,意味的に類似した無ラベルの例を検索し,ゼロショットの方法でラベルを割り当て,文脈内学習に使用する,意味指向無ラベルプライミング(soup)を導入する。 また,私たちの設定に適した新しいプライミング戦略であるbag-of-contexts primingを提案し,コンテキストウィンドウに適合する以上のサンプルの使用を可能にした。

Due to the high costs associated with finetuning large language models, various recent works propose to adapt them to specific tasks without any parameter updates through in-context learning. Unfortunately, for in-context learning there is currently no way to leverage unlabeled data, which is often much easier to obtain in large quantities than labeled examples. In this work, we therefore investigate ways to make use of unlabeled examples to improve the zero-shot performance of pretrained language models without any finetuning: We introduce Semantic-Oriented Unlabeled Priming (SOUP), a method that classifies examples by retrieving semantically similar unlabeled examples, assigning labels to them in a zero-shot fashion, and then using them for in-context learning. We also propose bag-of-contexts priming, a new priming strategy that is more suitable for our setting and enables the usage of more examples than fit into the context window.
翻訳日:2022-02-15 15:57:59 公開日:2022-02-12
# 連続的一貫性公理に向けて

Towards Continuous Consistency Axiom ( http://arxiv.org/abs/2202.06015v1 )

ライセンス: Link先を確認
Mieczyslaw A. Klopotek and Robert A. Klopotek(参考訳) 機械学習、特にクラスタリングの分野での新しいアルゴリズムの開発は、このようなアルゴリズムの比較研究とソフトウェア工学の原則によるテストには、ラベル付きデータセットの可用性が必要である。 標準ベンチマークは利用可能であるが、オーバーフィッティングの問題を避けるためには、そのようなデータセットの幅広い範囲が必要である。 この文脈では、クラスタリングアルゴリズムの公理化に関する理論的研究、特にクラスタリング保存変換の公理は、既存のアルゴリズムからラベル付きデータセットを生成するための非常に安価な方法である。 しかし、頻繁に引用されるクラインバーグ:2002 の公理系は、本論文で示すように、k$-means のような多くのアルゴリズムが作用する有限次元ユークリッド空間には適用できない。 特に、いわゆる外部整合公理は、データポイント位置の小さな変更で失敗し、内部整合公理は一般的な設定におけるアイデンティティ変換にのみ有効である。 そこで我々は,クラインバーグの内的整合性公理を中心的一貫性公理に置き換え,外的一貫性公理を運動的一貫性公理に置き換えた別の公理系を提案する。 我々は、新しいシステムが、自動調整された$k$を持つ$k$-meansの階層的なバージョンに適合していることを示し、矛盾しない。 さらに、$k$-meansは凸クラスタのみを生成するので、凹クラスタを検出するバージョンを作成することが可能であり、それでも公理系は満足できることを示す。 このような公理系の実践的応用分野は、クラスタリングアルゴリズムテストのための既存のシステムから新しいラベル付きテストデータを生成することである。 %) この欠損を伴わない置換物として重力一貫性を提案する。

Development of new algorithms in the area of machine learning, especially clustering, comparative studies of such algorithms as well as testing according to software engineering principles requires availability of labeled data sets. While standard benchmarks are made available, a broader range of such data sets is necessary in order to avoid the problem of overfitting. In this context, theoretical works on axiomatization of clustering algorithms, especially axioms on clustering preserving transformations are quite a cheap way to produce labeled data sets from existing ones. However, the frequently cited axiomatic system of Kleinberg:2002, as we show in this paper, is not applicable for finite dimensional Euclidean spaces, in which many algorithms like $k$-means, operate. In particular, the so-called outer-consistency axiom fails upon making small changes in datapoint positions and inner-consistency axiom is valid only for identity transformation in general settings. Hence we propose an alternative axiomatic system, in which Kleinberg's inner consistency axiom is replaced by a centric consistency axiom and outer consistency axiom is replaced by motion consistency axiom. We demonstrate that the new system is satisfiable for a hierarchical version of $k$-means with auto-adjusted $k$, hence it is not contradictory. Additionally, as $k$-means creates convex clusters only, we demonstrate that it is possible to create a version detecting concave clusters and still the axiomatic system can be satisfied. The practical application area of such an axiomatic system may be the generation of new labeled test data from existent ones for clustering algorithm testing. %We propose the gravitational consistency as a replacement which does not have this deficiency.
翻訳日:2022-02-15 15:54:36 公開日:2022-02-12
# オブジェクト検出のためのバランスドドメイン分類器に基づくドメイン不変の提案

Domain-Invariant Proposals based on a Balanced Domain Classifier for Object Detection ( http://arxiv.org/abs/2202.05941v1 )

ライセンス: Link先を確認
Zhize Wu, Xiaofeng Wang, Tong Xu, Xuebin Yang, Le Zou, Lixiang Xu and Thomas Weise(参考訳) 画像からのオブジェクト認識は、興味のあるオブジェクトを自動的に見つけ、カテゴリと位置情報を返すことを意味する。 畳み込みニューラルネットワーク~(CNN)や生成的敵ネットワークのような深層学習の研究により、特に同様の分布からトレーニングやテストデータを引き出す場合、この分野のパフォーマンスは大幅に改善されている。 しかし、分布のミスマッチ、すなわちドメインシフトは、大幅なパフォーマンス低下につながる。 本稿では,逆訓練によるドメイン分類器の学習により,ドメイン不変検出器を構築する。 画像とインスタンスレベルの特徴を整合させる以前の作業に基づいて、Faster \mbox{R-CNN}内の領域レベルにドメイン適応コンポーネントを導入することで、ドメインシフトをさらに緩和する。 逆学習を用いて,領域分類ネットワーク~(RPN)にドメイン分類ネットワークを組み込む。 RPNは、機能間で効果的に整列することで、異なるドメインの正確なリージョン提案を生成することができる。 対向学習における不安定な収束を緩和するため、バランスの取れたドメイン分類器とネットワーク学習率調整戦略を導入する。 4つの標準データセットを用いて総合的な実験を行う。 その結果、ドメインシフトシナリオにおけるオブジェクト検出手法の有効性と堅牢性を示した。

Object recognition from images means to automatically find object(s) of interest and to return their category and location information. Benefiting from research on deep learning, like convolutional neural networks~(CNNs) and generative adversarial networks, the performance in this field has been improved significantly, especially when training and test data are drawn from similar distributions. However, mismatching distributions, i.e., domain shifts, lead to a significant performance drop. In this paper, we build domain-invariant detectors by learning domain classifiers via adversarial training. Based on the previous works that align image and instance level features, we mitigate the domain shift further by introducing a domain adaptation component at the region level within Faster \mbox{R-CNN}. We embed a domain classification network in the region proposal network~(RPN) using adversarial learning. The RPN can now generate accurate region proposals in different domains by effectively aligning the features between them. To mitigate the unstable convergence during the adversarial learning, we introduce a balanced domain classifier as well as a network learning rate adjustment strategy. We conduct comprehensive experiments using four standard datasets. The results demonstrate the effectiveness and robustness of our object detection approach in domain shift scenarios.
翻訳日:2022-02-15 15:53:22 公開日:2022-02-12
# クリーン・アドバーサル相互学習によるオープンセット・アドバーサルディフェンス

Open-set Adversarial Defense with Clean-Adversarial Mutual Learning ( http://arxiv.org/abs/2202.05953v1 )

ライセンス: Link先を確認
Rui Shao, Pramuditha Perera, Pong C. Yuen, Vishal M. Patel(参考訳) open-set recognitionとadversarial defenseは、現実世界の展開に不可欠なディープラーニングの2つの重要な側面を研究する。 オープンセット認識の目的は、テスト中にオープンセットクラスからサンプルを識別することであり、一方、敵対的防御は、知覚不能な敵対的ノイズによって妨害される画像に対してネットワークを堅牢化することを目的としている。 本稿では, オープンセット認識システムは, 対向サンプルに対して脆弱であることを示す。 さらに,本論文では,既知のクラスで訓練された対人防御機構が,オープンセットサンプルに対して十分に一般化できないことを示す。 これらの観測により,我々はオープンセット・ディフェンス(OSAD)機構の必要性を強調した。 本稿では,OSAD問題に対する解決策として,OSDN-CAMLを用いたオープンセット防衛ネットワークを提案する。 提案ネットワークは,チャネルや空間的減衰フィルタによって誘導される対向ノイズを適応的に除去する雑音のない潜在特徴表現を学習するために,分類器と結合した二重減衰特徴層を持つエンコーダを設計する。 対向防御とオープンセット認識の性能向上を目的とした,ノイズフリーで情報に富む潜在特徴空間を学習するために,いくつかの手法が用いられている。 まず,得られた潜在特徴からクリーンな画像を適切に再構成できるようにデコーダを組み込んだ。 次に、補助的なタスクを実行するのに十分な情報を提供するために、自己スーパービジョンが使用される。 最後に、クリーン画像分類からのより相補的な知識を活用し、特徴の分類を容易にし、オープンセット認識のためのより一般化された局所的最小値を探すため、さらに、ピアネットワーク(クリーン画像分類)を導入して、分類器(敵画像分類)と相互に学習するクリーン逆相互学習を提案する。

Open-set recognition and adversarial defense study two key aspects of deep learning that are vital for real-world deployment. The objective of open-set recognition is to identify samples from open-set classes during testing, while adversarial defense aims to robustify the network against images perturbed by imperceptible adversarial noise. This paper demonstrates that open-set recognition systems are vulnerable to adversarial samples. Furthermore, this paper shows that adversarial defense mechanisms trained on known classes are unable to generalize well to open-set samples. Motivated by these observations, we emphasize the necessity of an Open-Set Adversarial Defense (OSAD) mechanism. This paper proposes an Open-Set Defense Network with Clean-Adversarial Mutual Learning (OSDN-CAML) as a solution to the OSAD problem. The proposed network designs an encoder with dual-attentive feature-denoising layers coupled with a classifier to learn a noise-free latent feature representation, which adaptively removes adversarial noise guided by channel and spatial-wise attentive filters. Several techniques are exploited to learn a noise-free and informative latent feature space with the aim of improving the performance of adversarial defense and open-set recognition. First, we incorporate a decoder to ensure that clean images can be well reconstructed from the obtained latent features. Then, self-supervision is used to ensure that the latent features are informative enough to carry out an auxiliary task. Finally, to exploit more complementary knowledge from clean image classification to facilitate feature denoising and search for a more generalized local minimum for open-set recognition, we further propose clean-adversarial mutual learning, where a peer network (classifying clean images) is further introduced to mutually learn with the classifier (classifying adversarial images).
翻訳日:2022-02-15 15:53:03 公開日:2022-02-12
# ビデオベース歩行者検索用変圧器における多方向・多スケールピラミッド

Multi-direction and Multi-scale Pyramid in Transformer for Video-based Pedestrian Retrieval ( http://arxiv.org/abs/2202.06014v1 )

ライセンス: Link先を確認
Xianghao Zang, Ge Li, Wei Gao(参考訳) ビデオサーベイランスでは、歩行者検索(人物再特定とも呼ばれる)が重要な課題である。 このタスクは、重複しないカメラから歩行者を回収することを目的としている。 近年,トランスフォーマーモデルがこの課題に対して大きな進歩を遂げている。 しかし、これらのモデルは、きめ細かい部分情報を無視している。 本稿では, この問題を解決するために, トランスフォーマー(PiT)の多方向・マルチスケールピラミッドを提案する。 トランスフォーマーベースのアーキテクチャでは、各歩行者イメージは多数のパッチに分割される。 そして、これらのパッチを変圧器層に供給し、この画像の特徴表現を得る。 そこで本研究では,これらのパッチに垂直分割と水平分割を適用し,異なる方向の人体部品を生成することを提案する。 これらの部品はよりきめ細かい情報を提供する。 マルチスケールの特徴表現を融合するために,グローバルレベルの情報と,さまざまなスケールのローカルレベルの情報を含むピラミッド構造を提案する。 同じビデオから得られたすべての歩行者画像の特徴ピラミッドは融合され、最終的な多方向およびマルチスケールの特徴表現を形成する。 MARSとiLIDS-VIDという2つの挑戦的なビデオベースベンチマークの実験結果から、提案したPiTが最先端のパフォーマンスを達成することを示す。 大規模なアブレーション研究は、提案されたピラミッド構造の優位性を示している。 コードはhttps://git.openi.or g.cn/zangxh/PiT.gitで入手できる。

In video surveillance, pedestrian retrieval (also called person re-identification) is a critical task. This task aims to retrieve the pedestrian of interest from non-overlapping cameras. Recently, transformer-based models have achieved significant progress for this task. However, these models still suffer from ignoring fine-grained, part-informed information. This paper proposes a multi-direction and multi-scale Pyramid in Transformer (PiT) to solve this problem. In transformer-based architecture, each pedestrian image is split into many patches. Then, these patches are fed to transformer layers to obtain the feature representation of this image. To explore the fine-grained information, this paper proposes to apply vertical division and horizontal division on these patches to generate different-direction human parts. These parts provide more fine-grained information. To fuse multi-scale feature representation, this paper presents a pyramid structure containing global-level information and many pieces of local-level information from different scales. The feature pyramids of all the pedestrian images from the same video are fused to form the final multi-direction and multi-scale feature representation. Experimental results on two challenging video-based benchmarks, MARS and iLIDS-VID, show the proposed PiT achieves state-of-the-art performance. Extensive ablation studies demonstrate the superiority of the proposed pyramid structure. The code is available at https://git.openi.or g.cn/zangxh/PiT.git.
翻訳日:2022-02-15 15:52:30 公開日:2022-02-12
# 顔認識における楽しい自撮りフィルター:影響評価と除去

Fun Selfie Filters in Face Recognition: Impact Assessment and Removal ( http://arxiv.org/abs/2202.06022v1 )

ライセンス: Link先を確認
Cristian Botezatu, Mathias Ibsen, Christian Rathgeb, Christoph Busch(参考訳) 本研究は、自撮りの修正に頻繁に使用される楽しい自撮りフィルターが顔認識システムに与える影響について検討する。 利用可能なモバイルアプリケーションの質的評価と分類に基づいて、データベースを作成するために10の関連する楽しい自撮りフィルタが選択される。 これにより、選択したフィルタは、公開顔画像データベースの顔画像に自動的に適用される。 Dlib, RetinaFace, COTS法, FaceQNet と MagFace で推定されたサンプル品質, ArcFace と COTS アルゴリズムによる認識精度, による顔検出性能への影響を評価するために, 最先端の異なる手法が用いられている。 その結果、セルフィーフィルターは顔認識モジュールに悪影響を及ぼすことが示され、特に口、鼻、目を覆う顔の広い領域を楽しいセルフィーフィルターがカバーする場合に顕著である。 このような不要な効果を軽減するため、セグメント化モジュール、知覚ネットワーク、生成モジュールからなるGANベースの自撮りフィルタ除去アルゴリズムを提案する。 データベース横断実験において,提案した自撮りフィルタ除去技術の適用により,基礎となる顔認識システムの生体特性が著しく向上することが示されている。

This work investigates the impact of fun selfie filters, which are frequently used to modify selfies, on face recognition systems. Based on a qualitative assessment and classification of freely available mobile applications, ten relevant fun selfie filters are selected to create a database. To this end, the selected filters are automatically applied to face images of public face image databases. Different state-of-the-art methods are used to evaluate the influence of fun selfie filters on the performance of face detection using dlib, RetinaFace, and a COTS method, sample quality estimated by FaceQNet and MagFace, and recognition accuracy employing ArcFace and a COTS algorithm. The obtained results indicate that selfie filters negatively affect face recognition modules, especially if fun selfie filters cover a large region of the face, where the mouth, nose, and eyes are covered. To mitigate such unwanted effects, a GAN-based selfie filter removal algorithm is proposed which consists of a segmentation module, a perceptual network, and a generation module. In a cross-database experiment the application of the presented selfie filter removal technique has shown to significantly improve the biometric performance of the underlying face recognition systems.
翻訳日:2022-02-15 15:52:11 公開日:2022-02-12
# OctAttention:ポイントクラウド圧縮のためのOctreeベースの大規模コンテキストモデル

OctAttention: Octree-based Large-scale Contexts Model for Point Cloud Compression ( http://arxiv.org/abs/2202.06028v1 )

ライセンス: Link先を確認
Chunyang Fu, Ge Li, Rui Song, Wei Gao, Shan Liu(参考訳) ポイントクラウド圧縮では、ポイントクラウドの分散をモデル化するのに十分なコンテキストが重要である。 しかし、以前のvoxelベースのメソッドが集めたコンテキストは、スパースポイントクラウドを扱う際に減少する。 そこで本研究では,ポイントクラウドのためのメモリ効率の高い表現であるoctree構造を用いた,ocattentionと呼ばれる多コンテキストディープラーニングフレームワークを提案する。 本手法では,兄弟ノードと祖先ノードの情報を収集することで,octreeシンボルシーケンスを損失のない方法でエンコードする。 明快に言うと、我々はまずoctreeでポイントクラウドを表現し、空間冗長性を低減し、異なる解像度のポイントクラウドに対して堅牢である。 次に、兄弟および祖先のコンテキストをモデル化し、隣接するノード間の強い依存性を活用し、コンテキスト内の相関ノードを強調する注意機構を用いて、条件付きエントロピーモデルを設計する。 さらに,コーディング時間と性能のトレードオフを実現するために,トレーニングとテスト中にマスク操作を導入する。 従来の最先端技術と比較すると,LiDARベンチマーク(SemanticKITTIなど)とオブジェクトポイントクラウドデータセット(MPEG 8i,MVUBなど)で10%-35%のBD-Rateゲインを得ることができ,ボクセルベースラインと比較して95%のコーディング時間を節約できる。 コードはhttps://github.com/z b12138/OctAttentionで入手できる。

In point cloud compression, sufficient contexts are significant for modeling the point cloud distribution. However, the contexts gathered by the previous voxel-based methods decrease when handling sparse point clouds. To address this problem, we propose a multiple-contexts deep learning framework called OctAttention employing the octree structure, a memory-efficient representation for point clouds. Our approach encodes octree symbol sequences in a lossless way by gathering the information of sibling and ancestor nodes. Expressly, we first represent point clouds with octree to reduce spatial redundancy, which is robust for point clouds with different resolutions. We then design a conditional entropy model with a large receptive field that models the sibling and ancestor contexts to exploit the strong dependency among the neighboring nodes and employ an attention mechanism to emphasize the correlated nodes in the context. Furthermore, we introduce a mask operation during training and testing to make a trade-off between encoding time and performance. Compared to the previous state-of-the-art works, our approach obtains a 10%-35% BD-Rate gain on the LiDAR benchmark (e.g. SemanticKITTI) and object point cloud dataset (e.g. MPEG 8i, MVUB), and saves 95% coding time compared to the voxel-based baseline. The code is available at https://github.com/z b12138/OctAttention.
翻訳日:2022-02-15 15:51:50 公開日:2022-02-12
# ビデオサリエント物体検出のための深度共動作型トライモーダルネットワーク

Depth-Cooperated Trimodal Network for Video Salient Object Detection ( http://arxiv.org/abs/2202.06060v1 )

ライセンス: Link先を確認
Yukang Lu, Dingyao Min, Keren Fu, Qijun Zhao(参考訳) 深度はsod(salient object detection)に有用な地理的手がかりを提供することができ、最近のrgb-d sod法で有用であることが証明されている。 しかし、既存のビデオサリエント物体検出(vsod)法は時空間情報のみを使用し、深度情報をほとんど利用しない。 本稿では,深度情報を組み込んでVSODを支援するDCTNet for VSODという,深度協調型三モーダルネットワークを提案する。 この目的のために、まずRGBフレームから深度を生成し、次に3つのモダリティを不等に扱うアプローチを提案する。 特に、マルチモーダルアテンションモジュール(mam)は、メインモダリティ(rgb)と2つの補助モダリティ(深さ、光フロー)の間のマルチモーダル長距離依存性をモデル化するように設計されている。 また、各モードの雑音を抑えるための改良融合モジュール(RFM)を導入し、機能改善のために有用な情報を動的に選択する。 最後に, 改良後の段階的融合戦略を採用し, 最終段階の相互融合を実現する。 5つのベンチマークデータセットの実験では、12の最先端手法に対する深度協調モデルの優位性を示し、深度の必要性も検証されている。

Depth can provide useful geographical cues for salient object detection (SOD), and has been proven helpful in recent RGB-D SOD methods. However, existing video salient object detection (VSOD) methods only utilize spatiotemporal information and seldom exploit depth information for detection. In this paper, we propose a depth-cooperated trimodal network, called DCTNet for VSOD, which is a pioneering work to incorporate depth information to assist VSOD. To this end, we first generate depth from RGB frames, and then propose an approach to treat the three modalities unequally. Specifically, a multi-modal attention module (MAM) is designed to model multi-modal long-range dependencies between the main modality (RGB) and the two auxiliary modalities (depth, optical flow). We also introduce a refinement fusion module (RFM) to suppress noises in each modality and select useful information dynamically for further feature refinement. Lastly, a progressive fusion strategy is adopted after the refined features to achieve final cross-modal fusion. Experiments on five benchmark datasets demonstrate the superiority of our depth-cooperated model against 12 state-of-the-art methods, and the necessity of depth is also validated.
翻訳日:2022-02-15 15:51:25 公開日:2022-02-12
# 手書き文書コレクションにおける認識フリー質問応答

Recognition-free Question Answering on Handwritten Document Collections ( http://arxiv.org/abs/2202.06080v1 )

ライセンス: Link先を確認
Oliver T\"uselmann, Friedrich M\"uller, Fabian Wolf and Gernot A. Fink(参考訳) 近年,文書画像における質問回答(QA)の研究領域において,かなりの進展が見られる。 現在のDocument Image AnalysisコミュニティのQAアプローチは、主に機械印刷されたドキュメントに焦点を当てており、手書きに限られている。 これは主に手書き文書の認識性能の低下によるものである。 この問題に対処するために,特に手書き文書画像コレクション用に設計された認識自由なQA手法を提案する。 本稿では,堅牢な文書検索手法と2つのqaモデルを提案する。 我々のアプローチは、挑戦的なBenthamQAとHW-SQuADデータセットに関する最先端の認識自由モデルよりも優れています。

In recent years, considerable progress has been made in the research area of Question Answering (QA) on document images. Current QA approaches from the Document Image Analysis community are mainly focusing on machine-printed documents and perform rather limited on handwriting. This is mainly due to the reduced recognition performance on handwritten documents. To tackle this problem, we propose a recognition-free QA approach, especially designed for handwritten document image collections. We present a robust document retrieval method, as well as two QA models. Our approaches outperform the state-of-the-art recognition-free models on the challenging BenthamQA and HW-SQuAD datasets.
翻訳日:2022-02-15 15:51:01 公開日:2022-02-12
# 特徴共分散推定の緩和:線形回帰における良性オーバーフィッティングのための時間変化境界

Relaxing the Feature Covariance Assumption: Time-Variant Bounds for Benign Overfitting in Linear Regression ( http://arxiv.org/abs/2202.06054v1 )

ライセンス: Link先を確認
Jing Xu, Jiaye Teng, Andrew Chi-Chih Yao(参考訳) benign overfittingは、過パラメータモデルがノイズの多いトレーニングデータを適合させながら、テストデータでうまく機能することを示している。 しかし、線形回帰における最後のミンノルム解のみを考慮し、アルゴリズム情報と対応するトレーニング手順を無視する。 本稿では,min-norm解の代わりに学習軌跡全体に対する良性オーバーフィットの概念を一般化し,軌道解析に基づく時間変動境界を導出する。 時間変動境界から始めて、与えられた特徴共分散に対する一貫した一般化誤差を保証するのに十分な時間間隔を導出する。 既存のアプローチとは異なり、新しく提案された一般化境界は、特徴共変性の時間変化有効次元によって特徴づけられる。 時間因子を導入することで,前回の良性オーバーフィッティングにおいて要求される特徴共分散行列の厳密な仮定を,勾配降下を伴う過パラメータ線形回帰法の下で緩和する。 本稿では,良性オーバーフィッティングのスコープを拡張し,実験結果から,提案する境界条件が経験的証拠と合致することを示す。

Benign overfitting demonstrates that overparameterized models can perform well on test data while fitting noisy training data. However, it only considers the final min-norm solution in linear regression, which ignores the algorithm information and the corresponding training procedure. In this paper, we generalize the idea of benign overfitting to the whole training trajectory instead of the min-norm solution and derive a time-variant bound based on the trajectory analysis. Starting from the time-variant bound, we further derive a time interval that suffices to guarantee a consistent generalization error for a given feature covariance. Unlike existing approaches, the newly proposed generalization bound is characterized by a time-variant effective dimension of feature covariance. By introducing the time factor, we relax the strict assumption on the feature covariance matrix required in previous benign overfitting under the regimes of overparameterized linear regression with gradient descent. This paper extends the scope of benign overfitting, and experiment results indicate that the proposed bound accords better with empirical evidence.
翻訳日:2022-02-15 15:36:44 公開日:2022-02-12
# テキストと画像誘導3次元アバター生成と操作

Text and Image Guided 3D Avatar Generation and Manipulation ( http://arxiv.org/abs/2202.06079v1 )

ライセンス: Link先を確認
Zehranaz Canfes, M. Furkan Atasoy, Alara Dirik, Pinar Yanardag(参考訳) 潜在空間の操作は、最近、生成モデル分野において興味深いトピックとなっている。 近年の研究では、特定の属性に対する画像操作に潜伏方向を用いることができる。 しかし,3次元生成モデルの生成過程の制御は依然として課題である。 本研究では,「若い顔」や「驚いた顔」といったテキストや画像に基づくプロンプトを用いて,モデルの形状とテクスチャの両方を操作できる新しい3次元操作手法を提案する。 Contrastive Language-Image Pre-Training(CLIP)モデルと、顔アバターを生成するように設計された3D GANモデルを活用し、メッシュを操作するための完全に微分可能なレンダリングパイプラインを作成する。 具体的には,テキストや画像のプロンプトによって指定された対象属性が存在または拡張され,他の属性がほとんど影響を受けないように,入力潜時コードを用いて修正する。 提案手法は操作に5分しかかからず,広範囲な結果と比較を行い,本手法の有効性を実証する。

The manipulation of latent space has recently become an interesting topic in the field of generative models. Recent research shows that latent directions can be used to manipulate images towards certain attributes. However, controlling the generation process of 3D generative models remains a challenge. In this work, we propose a novel 3D manipulation method that can manipulate both the shape and texture of the model using text or image-based prompts such as 'a young face' or 'a surprised face'. We leverage the power of Contrastive Language-Image Pre-training (CLIP) model and a pre-trained 3D GAN model designed to generate face avatars, and create a fully differentiable rendering pipeline to manipulate meshes. More specifically, our method takes an input latent code and modifies it such that the target attribute specified by a text or image prompt is present or enhanced, while leaving other attributes largely unaffected. Our method requires only 5 minutes per manipulation, and we demonstrate the effectiveness of our approach with extensive results and comparisons.
翻訳日:2022-02-15 15:33:51 公開日:2022-02-12
# 不均一曲率を用いた適応帯域凸最適化

Adaptive Bandit Convex Optimization with Heterogeneous Curvature ( http://arxiv.org/abs/2202.06150v1 )

ライセンス: Link先を確認
Haipeng Luo, Mengxiao Zhang, Peng Zhao(参考訳) 本稿では,各関数に対してのみ関数評価を施した任意の凸損失関数列に対するオンライン学習という,逆帯域凸最適化の問題について考察する。 従来のすべての研究は、これらの損失関数について既知の等質な曲率を仮定するが、各関数が独自の曲率を持つ不均一な設定を学習者が決定した後のみ明らかにする。 我々は,ハエの曲率に適応できる効率的なアルゴリズムを開発した。 Specifically, our algorithm not only recovers or \emph{even improves} existing results for several homogeneous settings, but also leads to surprising results for some heterogeneous settings -- for example, while Hazan and Levy (2014) showed that $\widetilde{O}(d^{3/2}\sqrt{T})$ regret is achievable for a sequence of $T$ smooth and strongly convex $d$-dimensional functions, our algorithm reveals that the same is achievable even if $T^{3/4}$ of them are not strongly convex, and sometimes even if a constant fraction of them are not strongly convex. 我々のアプローチは、同様の異質な設定をしたがより強い勾配フィードバックで研究したBartlett et al. (2007) の枠組みに着想を得たものである。 バンドイットフィードバック設定にフレームワークを拡張するには、実現可能なドメインを持ち上げたり、対数的に均質な自己調和障壁正規化器を使用するといった新しいアイデアが必要である。

We consider the problem of adversarial bandit convex optimization, that is, online learning over a sequence of arbitrary convex loss functions with only one function evaluation for each of them. While all previous works assume known and homogeneous curvature on these loss functions, we study a heterogeneous setting where each function has its own curvature that is only revealed after the learner makes a decision. We develop an efficient algorithm that is able to adapt to the curvature on the fly. Specifically, our algorithm not only recovers or \emph{even improves} existing results for several homogeneous settings, but also leads to surprising results for some heterogeneous settings -- for example, while Hazan and Levy (2014) showed that $\widetilde{O}(d^{3/2}\sqrt{T})$ regret is achievable for a sequence of $T$ smooth and strongly convex $d$-dimensional functions, our algorithm reveals that the same is achievable even if $T^{3/4}$ of them are not strongly convex, and sometimes even if a constant fraction of them are not strongly convex. Our approach is inspired by the framework of Bartlett et al. (2007) who studied a similar heterogeneous setting but with stronger gradient feedback. Extending their framework to the bandit feedback setting requires novel ideas such as lifting the feasible domain and using a logarithmically homogeneous self-concordant barrier regularizer.
翻訳日:2022-02-15 14:47:09 公開日:2022-02-12
# バンディットの大きなバンドの結合:リニアバンディットに対する後悔の切り替えに関するケーススタディ

Corralling a Larger Band of Bandits: A Case Study on Switching Regret for Linear Bandits ( http://arxiv.org/abs/2202.06151v1 )

ライセンス: Link先を確認
Haipeng Luo, Mengxiao Zhang, Peng Zhao, Zhi-Hua Zhou(参考訳) そこで本研究では,一組の逆バンディットアルゴリズムと適応的に最良を追尾するという課題について考察する。 agarwal et al. (2017) とその変種 (foster et al., 2020a) のcorralアルゴリズムは、$m$ が基本アルゴリズム数、$t$ がタイムホライズン数である場合、$\widetilde{o}(\sqrt{mt})$ という命令の残念なオーバーヘッドでこの目標を達成している。 しかし、$m$ の多項式依存性は、$m$ が poly$(t)$ 以上の多くのアプリケーションにこれらのアルゴリズムを適用することを妨げている。 この問題に触発されて,いくつかの条件が満たされる限り,残余オーバーヘッドが$M$にのみ依存する,より大きな帯域幅のバンディットアルゴリズムを相関させる新しいレシピを提案する。 主な例として、我々のレシピを、$d$-dimensional $\ell_p$ unit-ball for $p \in (1,2]$ の逆線形バンディット問題に適用します。 t$ベースアルゴリズムの大規模なセットを、それぞれ異なる時間ステップで展開することで、最終的なアルゴリズムは、$s$スイッチを持つコンパレータのシーケンスと競合した場合に、最初の最適スイッチングプリット$\widetilde{o}(\sqrt{d s t})$を達成する。 さらに、滑らかで強い凸領域上の線形バンディットや、制約のない線形バンディットにまで結果を拡張します。

We consider the problem of combining and learning over a set of adversarial bandit algorithms with the goal of adaptively tracking the best one on the fly. The CORRAL algorithm of Agarwal et al. (2017) and its variants (Foster et al., 2020a) achieve this goal with a regret overhead of order $\widetilde{O}(\sqrt{MT})$ where $M$ is the number of base algorithms and $T$ is the time horizon. The polynomial dependence on $M$, however, prevents one from applying these algorithms to many applications where $M$ is poly$(T)$ or even larger. Motivated by this issue, we propose a new recipe to corral a larger band of bandit algorithms whose regret overhead has only \emph{logarithmic} dependence on $M$ as long as some conditions are satisfied. As the main example, we apply our recipe to the problem of adversarial linear bandits over a $d$-dimensional $\ell_p$ unit-ball for $p \in (1,2]$. By corralling a large set of $T$ base algorithms, each starting at a different time step, our final algorithm achieves the first optimal switching regret $\widetilde{O}(\sqrt{d S T})$ when competing against a sequence of comparators with $S$ switches (for some known $S$). We further extend our results to linear bandits over a smooth and strongly convex domain as well as unconstrained linear bandits.
翻訳日:2022-02-15 14:46:44 公開日:2022-02-12
# 小型ウェアラブルタスクにおけるコントラスト学習とは何か?

What Makes Good Contrastive Learning on Small-Scale Wearable-based Tasks? ( http://arxiv.org/abs/2202.05998v1 )

ライセンス: Link先を確認
Hangwei Qian, Tian Tian, Chunyan Miao(参考訳) 自己監督学習は、ラベルアノテーションの少ない、あるいは全くない表現を学習する新しいパラダイムを確立します。 近年,大規模なコントラスト学習モデルでは,大量の計算資源を必要とするが,小規模タスクにはあまり適していない。 このギャップを埋めるために,ウェアラブル型アクティビティ認識タスクにおけるコントラスト学習について検討する。 具体的には,アルゴリズムレベルとタスクレベルの両方の観点から,コントラスト学習の詳細な研究を行う。 アルゴリズムレベルの分析では,コントラスト学習の背後にある有効性と理論的根拠をよりよく理解するために,コントラストモデルをいくつかの重要な構成要素に分解し,厳密な実験評価を行う。 さらに重要なことは、タスクレベルの分析において、ウェアラブルベースの信号が既存のコントラストモデルに固有の課題や機会をもたらすことを示し、既存のアルゴリズムでは容易には解決できない。 我々の徹底した実証研究は重要な実践を示し、将来の研究課題を浮き彫りにする。 本稿では,オープンソースのpytorchライブラリである \texttt{cl-har} について述べる。 ライブラリは高度にモジュール化され、使いやすく、将来、新しい対照的なモデルを素早く探求するための道を開く。

Self-supervised learning establishes a new paradigm of learning representations with much fewer or even no label annotations. Recently there has been remarkable progress on large-scale contrastive learning models which require substantial computing resources, yet such models are not practically optimal for small-scale tasks. To fill the gap, we aim to study contrastive learning on the wearable-based activity recognition task. Specifically, we conduct an in-depth study of contrastive learning from both algorithmic-level and task-level perspectives. For algorithmic-level analysis, we decompose contrastive models into several key components and conduct rigorous experimental evaluations to better understand the efficacy and rationale behind contrastive learning. More importantly, for task-level analysis, we show that the wearable-based signals bring unique challenges and opportunities to existing contrastive models, which cannot be readily solved by existing algorithms. Our thorough empirical studies suggest important practices and shed light on future research challenges. In the meantime, this paper presents an open-source PyTorch library \texttt{CL-HAR}, which can serve as a practical tool for researchers. The library is highly modularized and easy to use, which opens up avenues for exploring novel contrastive models quickly in the future.
翻訳日:2022-02-15 14:30:19 公開日:2022-02-12
# コントラストロス強化バッチ注意による半教師付き新しいイベント型誘導と記述

Semi-supervised New Event Type Induction and Description via Contrastive Loss-Enforced Batch Attention ( http://arxiv.org/abs/2202.05943v1 )

ライセンス: Link先を確認
Carl Edwards and Heng Ji(参考訳) ほとんどのイベント抽出メソッドは、伝統的にアノテーション付きイベントタイプのセットに依存している。 しかし、イベントオントロジーの作成や教師付きトレーニングデータのアノテートは高価で時間を要する。 従来の研究では、新しいイベントタイプを自動的に発見する方法を学ぶために、(注釈付き)表示型を活用した半教師付きアプローチが提案されていた。 state-of-the-artメソッドは、半教師または完全に教師なしの両方で、コンテキスト内の特定のトークンに対する再構成損失の形式を使用する。 対照的に,データミニバッチ上で注意機構を強制することにより,事象言及間の類似性を学習するマスク付きコントラスト損失を用いた,半教師付き新しいイベント型誘導手法を提案する。 さらに,データの基盤となる多様体を近似することにより,相互情報の正規化を図り,絶対値の20%以上のfowlkes-mallowスコアを得ることができた。 これらのクラスタリング結果に基づいて、発見されたクラスタの型名を予測し、FrameNetフレームにリンクする2つの新しいタスクにアプローチを拡張します。

Most event extraction methods have traditionally relied on an annotated set of event types. However, creating event ontologies and annotating supervised training data are expensive and time-consuming. Previous work has proposed semi-supervised approaches which leverage seen (annotated) types to learn how to automatically discover new event types. State-of-the-art methods, both semi-supervised or fully unsupervised, use a form of reconstruction loss on specific tokens in a context. In contrast, we present a novel approach to semi-supervised new event type induction using a masked contrastive loss, which learns similarities between event mentions by enforcing an attention mechanism over the data minibatch. We further disentangle the discovered clusters by approximating the underlying manifolds in the data, which allows us to increase normalized mutual information and Fowlkes-Mallows scores by over 20% absolute. Building on these clustering results, we extend our approach to two new tasks: predicting the type name of the discovered clusters and linking them to FrameNet frames.
翻訳日:2022-02-15 14:14:07 公開日:2022-02-12
# uncalibrated modelsは、人間とaiのコラボレーションを改善する

Uncalibrated Models Can Improve Human-AI Collaboration ( http://arxiv.org/abs/2202.05983v1 )

ライセンス: Link先を確認
Kailas Vodrahalli, Tobias Gerstenberg, and James Zou(参考訳) AIの多くの実践的応用において、AIモデルは人間のユーザーのための意思決定支援として使用される。 AIは、人間(時には)が意思決定プロセスに組み込むアドバイスを提供する。 AIアドバイスは、人間がどれだけ頼りにするかを調整したり、アドバイスを信頼したりするのに使える「自信」の尺度で示されることが多い。 本稿では、オリジナルのAIが十分に校正された場合でも、AIモデルを実際によりも自信を持って提示することで、人間とAIのパフォーマンス(AIアドバイスを見た後の人間の最終的な予測の正確さと信頼性として測定される)を向上させることを実証する。 私たちはまず、何千もの人間のインタラクションのデータを使って、人間がAIアドバイスを組み込む方法のモデルを学びます。 これにより、最終的な人間の予測を改善するために、AIの予測信頼性の変換方法を明示的に見積もることができる。 私たちは、画像、テキスト、表データを扱う4つの異なるタスクで結果を検証することで、数百人の人間が参加します。 シミュレーション分析でさらに研究結果を支持した。 この結果から,AIモデルのみを最適化する標準パラダイムとは対照的に,人間とAIシステムの協調最適化のためのフレームワークの重要性が示唆された。

In many practical applications of AI, an AI model is used as a decision aid for human users. The AI provides advice that a human (sometimes) incorporates into their decision-making process. The AI advice is often presented with some measure of "confidence" that the human can use to calibrate how much they depend on or trust the advice. In this paper, we demonstrate that presenting AI models as more confident than they actually are, even when the original AI is well-calibrated, can improve human-AI performance (measured as the accuracy and confidence of the human's final prediction after seeing the AI advice). We first learn a model for how humans incorporate AI advice using data from thousands of human interactions. This enables us to explicitly estimate how to transform the AI's prediction confidence, making the AI uncalibrated, in order to improve the final human prediction. We empirically validate our results across four different tasks -- dealing with images, text and tabular data -- involving hundreds of human participants. We further support our findings with simulation analysis. Our findings suggest the importance of and a framework for jointly optimizing the human-AI system as opposed to the standard paradigm of optimizing the AI model alone.
翻訳日:2022-02-15 14:04:22 公開日:2022-02-12
# (参考訳) ハミルトンニューラルネットワークの帰納的バイアスを分解する [全文訳有]

Deconstructing the Inductive Biases of Hamiltonian Neural Networks ( http://arxiv.org/abs/2202.04836v2 )

ライセンス: CC BY 4.0
Nate Gruver, Marc Finzi, Samuel Stanton, Andrew Gordon Wilson(参考訳) 物理学に触発されたニューラルネットワーク(nns)は、ハミルトンやラグランジュのnnsのように、強い帰納的バイアスを利用して、他の学習力学モデルを大きく上回る。 しかし、これらのモデルは、エネルギーを保存せず、接触も含まない、ロボット工学や強化学習の一般的な設定など、多くの現実世界システムに適用することは困難である。 本稿では,物理に触発されたモデルを実際に成功させる誘導バイアスについて検討する。 従来の知恵とは対照的に,HNNの一般化は加速を直接モデル化し,シンプレクティック構造やエネルギー保存ではなく,座標系から人工的な複雑さを避ける結果である。 これらのモデルの帰納バイアスを緩和することにより、エネルギー保存システムの性能に適合または超えることができ、実用的な非保守システムの性能を劇的に向上させることができることを示す。 このアプローチを一般的なMujoco環境の遷移モデル構築に拡張し、モデルベースの制御に必要な柔軟性と帰納バイアスを適切にバランスさせることができることを示す。

Physics-inspired neural networks (NNs), such as Hamiltonian or Lagrangian NNs, dramatically outperform other learned dynamics models by leveraging strong inductive biases. These models, however, are challenging to apply to many real world systems, such as those that don't conserve energy or contain contacts, a common setting for robotics and reinforcement learning. In this paper, we examine the inductive biases that make physics-inspired models successful in practice. We show that, contrary to conventional wisdom, the improved generalization of HNNs is the result of modeling acceleration directly and avoiding artificial complexity from the coordinate system, rather than symplectic structure or energy conservation. We show that by relaxing the inductive biases of these models, we can match or exceed performance on energy-conserving systems while dramatically improving performance on practical, non-conservative systems. We extend this approach to constructing transition models for common Mujoco environments, showing that our model can appropriately balance inductive biases with the flexibility required for model-based control.
翻訳日:2022-02-15 13:54:54 公開日:2022-02-12
# 画像再構成のための等分散正規化

Equivariance Regularization for Image Reconstruction ( http://arxiv.org/abs/2202.05062v2 )

ライセンス: Link先を確認
Junqi Tang(参考訳) 本研究では,不完全測定条件下での画像逆問題に対する新しい構造適応正規化手法であるRegularization-by-Eq uivariance (REV)を提案する。 この正規化スキームは、トモグラフィ画像再構成のような多くの逆問題で一般的な測定の物理学における同変構造を利用して、逆問題の不適切さを緩和する。 提案手法は,高速化勾配降下/fistaなどの従来の一階最適化アルゴリズムと並行して,プラグ・アンド・プレイ方式で適用できる。 スパースビューX線CT画像再構成タスクにおける数値実験により,本手法の有効性が示された。

In this work, we propose Regularization-by-Eq uivariance (REV), a novel structure-adaptive regularization scheme for solving imaging inverse problems under incomplete measurements. This regularization scheme utilizes the equivariant structure in the physics of the measurements -- which is prevalent in many inverse problems such as tomographic image reconstruction -- to mitigate the ill-poseness of the inverse problem. Our proposed scheme can be applied in a plug-and-play manner alongside with any classic first-order optimization algorithm such as the accelerated gradient descent/FISTA for simplicity and fast convergence. The numerical experiments in sparse-view X-ray CT image reconstruction tasks demonstrate the effectiveness of our approach.
翻訳日:2022-02-15 12:22:25 公開日:2022-02-12
# FILM:大きな動きのためのフレーム補間

FILM: Frame Interpolation for Large Motion ( http://arxiv.org/abs/2202.04901v2 )

ライセンス: Link先を確認
Fitsum Reda, Janne Kontkanen, Eric Tabellion, Deqing Sun, Caroline Pantofaru, Brian Curless(参考訳) 本稿では,2つの入力画像から複数の中間フレームを合成するフレーム補間アルゴリズムを提案する。 最近の手法では、複数のネットワークを用いて光学的流れや深度を推定し、フレーム合成に特化したネットワークを分離している。 これはしばしば複雑で、光学的流れや深さの地中真実を欠く必要がある。 本稿では,すべてのスケールで重みを共有し,フレームのみから学習可能なマルチスケール特徴抽出器を用いて,単一の統一ネットワークを提案する。 明快なフレームを合成するために,特徴地図間の相関差を測定するグラム行列損失を用いたネットワークの最適化を提案する。 提案手法はXiph大運動ベンチマークの最先端手法より優れている。 また,知覚的損失を用いた手法と比較して,Vimeo-90K,Middlebur y,UCF101のスコアも高い。 本研究では,重量共有と運動範囲増加データセットを用いたトレーニングの効果について検討した。 最後に,本モデルの有効性を実証し,高画質映像と時間的コヒーレント映像を,難解な近重複写真データセット上で合成する。 コードと事前学習されたモデルはhttps://github.com/g oogle-research/frame -interpolationで入手できる。

We present a frame interpolation algorithm that synthesizes multiple intermediate frames from two input images with large in-between motion. Recent methods use multiple networks to estimate optical flow or depth and a separate network dedicated to frame synthesis. This is often complex and requires scarce optical flow or depth ground-truth. In this work, we present a single unified network, distinguished by a multi-scale feature extractor that shares weights at all scales, and is trainable from frames alone. To synthesize crisp and pleasing frames, we propose to optimize our network with the Gram matrix loss that measures the correlation difference between feature maps. Our approach outperforms state-of-the-art methods on the Xiph large motion benchmark. We also achieve higher scores on Vimeo-90K, Middlebury and UCF101, when comparing to methods that use perceptual losses. We study the effect of weight sharing and of training with datasets of increasing motion range. Finally, we demonstrate our model's effectiveness in synthesizing high quality and temporally coherent videos on a challenging near-duplicate photos dataset. Codes and pre-trained models are available at https://github.com/g oogle-research/frame -interpolation.
翻訳日:2022-02-15 12:21:43 公開日:2022-02-12