このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211227となっている論文です。

PDF登録状況(公開日: 20211227)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) ディープラーニングアーキテクチャの改良によるタンパク質の簡潔化部位の予測 [全文訳有]

Predicting Succinylation Sites in Proteins with Improved Deep Learning Architecture ( http://arxiv.org/abs/2201.11215v1 )

ライセンス: CC BY 4.0
Olusola Odeyomi, and Gergely Zaruba(参考訳) タンパク質の翻訳後修飾(PTM)は翻訳の後に起こる。 PTMは、デオキシリボヌクレイン酸(DNA)の修復、細胞シグナル伝達、細胞死など、多くの細胞プロセスに関与している。 最近のPTMの1つは簡潔化である。 サクシニル化はリジン残基を1$-1$から1$に修飾する。 質量分析法のような実験手法による簡潔な部位の配置は非常に困難である。 したがって、計算手法は機械学習技術を用いて好まれる。 本稿では,簡潔化サイトを予測するためのディープラーニングアーキテクチャを提案する。 提案アーキテクチャの性能は、最先端のディープラーニングアーキテクチャや、簡潔化のための従来の機械学習技術と比較される。 性能指標から,提案手法が計算速度と分類精度との間に良好なトレードオフをもたらすことを示す。

Post-translational modifications (PTMs) in proteins occur after the process of translation. PTMs account for many cellular processes such as deoxyribonucleic acid (DNA) repair, cell signaling and cell death. One of the recent PTMs is succinylation. Succinylation modifies lysine residue from $-1$ to $+1$. Locating succinylation sites using experimental methods, such as mass spectrometry is very laborious. Hence, computational methods are favored using machine learning techniques. This paper proposes a deep learning architecture to predict succinylation sites. The performance of the proposed architecture is compared to the state-of-the-art deep learning architecture and other traditional machine learning techniques for succinylation. It is shown from the performance metrics that the proposed architecture provides a good trade-off between speed of computation and classification accuracy.
翻訳日:2022-01-30 14:22:40 公開日:2021-12-27
# MHATC:マルチヘッドアテンションエンコーダと時間的統合モジュールを用いた自閉症スペクトラム障害の同定

MHATC: Autism Spectrum Disorder identification utilizing multi-head attention encoder along with temporal consolidation modules ( http://arxiv.org/abs/2201.00404v1 )

ライセンス: Link先を確認
Ranjeet Ranjan Jha, Abhishek Bhardwaj, Devin Garg, Arnav Bhavsar, Aditya Nigam(参考訳) 静止状態fMRIは、ネットワークベースの機能接続を用いて自閉症スペクトラム障害(ASD)の診断に一般的に用いられる。 ASDは脳の領域とその相互結合に関連があることが示されている。 しかし、コントロール集団の画像データとALD患者の脳のイメージデータ間の接続パターンに基づく識別は、簡単な作業ではない。 本稿では,この分類課題に取り組むために,ASD患者として個人を分類するための多面的注意と時間的統合モジュールからなる新しいディープラーニングアーキテクチャ(MHATC)を提案する。 考案されたアーキテクチャは、類似のアプリケーションに対する現在のディープニューラルネットワークソリューションの制限を深く分析した結果である。 私たちのアプローチは堅牢なだけでなく、計算効率も高く、他の様々な研究や臨床で採用することが可能です。

Resting-state fMRI is commonly used for diagnosing Autism Spectrum Disorder (ASD) by using network-based functional connectivity. It has been shown that ASD is associated with brain regions and their inter-connections. However, discriminating based on connectivity patterns among imaging data of the control population and that of ASD patients' brains is a non-trivial task. In order to tackle said classification task, we propose a novel deep learning architecture (MHATC) consisting of multi-head attention and temporal consolidation modules for classifying an individual as a patient of ASD. The devised architecture results from an in-depth analysis of the limitations of current deep neural network solutions for similar applications. Our approach is not only robust but computationally efficient, which can allow its adoption in a variety of other research and clinical settings.
翻訳日:2022-01-09 12:57:33 公開日:2021-12-27
# アンテナ傾き最適化のためのグラフ注意学習手法

A Graph Attention Learning Approach to Antenna Tilt Optimization ( http://arxiv.org/abs/2112.14843v1 )

ライセンス: Link先を確認
Yifei Jin, Filippo Vannella, Maxime Bouton, Jaeseong Jeong and Ezeddin Al Hakim(参考訳) 6Gはモバイルネットワークを複雑さのレベルに引き上げる。 この複雑さに対処するため、ネットワークパラメータの最適化は、動的ネットワーク環境に対する高い性能とタイムリーな適応性を保証する鍵となる。 アンテナ傾きの最適化は、ネットワークのカバレッジと容量を改善するための実用的でコスト効率のよい方法を提供する。 強化学習(rl)に基づく従来の手法は,従来の傾き最適化法よりも適応ポリシーを学習することにより,傾き最適化に大きな期待を寄せている。 しかし、既存のRLメソッドの多くはシングルセルの特徴表現に基づいており、エージェントの状態を完全に特徴付けることができず、結果としてサブ最適性能が得られる。 また、このような手法の多くは、状態-作用の爆発と一般化能力によりスケーラビリティに欠ける。 本稿では,傾き最適化のためのグラフ注意q-learning(gaq)アルゴリズムを提案する。 GAQはグラフ注意機構を利用して、関連する隣人情報を選択し、エージェントの状態表現を改善し、Deep Q-Network (DQN) を用いた観測履歴に基づいて傾き制御ポリシーを更新する。 GAQは,重要なネットワーク情報を効率よく取得し,ローカル情報による標準DQNよりも高い性能を示す。 さらに,サイズや密度の異なるネットワーク展開に一般化できることを実証する。

6G will move mobile networks towards increasing levels of complexity. To deal with this complexity, optimization of network parameters is key to ensure high performance and timely adaptivity to dynamic network environments. The optimization of the antenna tilt provides a practical and cost-efficient method to improve coverage and capacity in the network. Previous methods based on Reinforcement Learning (RL) have shown great promise for tilt optimization by learning adaptive policies outperforming traditional tilt optimization methods. However, most existing RL methods are based on single-cell features representation, which fails to fully characterize the agent state, resulting in suboptimal performance. Also, most of such methods lack scalability, due to state-action explosion, and generalization ability. In this paper, we propose a Graph Attention Q-learning (GAQ) algorithm for tilt optimization. GAQ relies on a graph attention mechanism to select relevant neighbors information, improve the agent state representation, and update the tilt control policy based on a history of observations using a Deep Q-Network (DQN). We show that GAQ efficiently captures important network information and outperforms standard DQN with local information by a large margin. In addition, we demonstrate its ability to generalize to network deployments of different sizes and densities.
翻訳日:2022-01-09 12:42:50 公開日:2021-12-27
# (参考訳) 地図による経済活動の予測 [全文訳有]

Using maps to predict economic activity ( http://arxiv.org/abs/2112.13850v1 )

ライセンス: CC BY 4.0
Imryoung Jeong and Hyunjoo Yang(参考訳) 本稿では,歴史地図と現代地図を用いて経済統計を体系的に予測する新しい機械学習手法を提案する。 リモートセンシングデータは、地域経済活動の信頼できるプロキシとして使われてきた。 しかし、これらは近年しか利用できないため、長期的な分析の適用性は制限されている。 一方、歴史地図は数十年前に遡る。 簡単なアルゴリズムでは,色組成に基づいて地図から意味のある特徴を抽出する。 本手法によるグリッドレベルの人口予測は,従来のCNNによる生地図画像による予測よりも優れていた。 また、夜間衛星画像や土地被覆分類を入力として、他のアプローチよりも人口を予測している。

We introduce a novel machine learning approach to leverage historical and contemporary maps to systematically predict economic statistics. Remote sensing data have been used as reliable proxies for local economic activity. However, they have only become available in recent years, thus limiting their applicability for long-term analysis. Historical maps, on the other hand, date back several decades. Our simple algorithm extracts meaningful features from the maps based on their color compositions. The grid-level population predictions by our approach outperform the conventional CNN-based predictions using raw map images. It also predicts population better than other approaches using night light satellite images or land cover classifications as the input for predictions.
翻訳日:2021-12-31 08:42:19 公開日:2021-12-27
# (参考訳) 生成逆ネットワークによる天文画像のカラー化とアップスケーリング [全文訳有]

Astronomical Image Colorization and upscaling with Generative Adversarial Networks ( http://arxiv.org/abs/2112.13865v1 )

ライセンス: CC BY 4.0
Shreyas Kalvankar, Hrushikesh Pandit, Pranav Parwate, Atharva Patil and Snehal Kamalapur(参考訳) 人間の介入を伴わない画像の自動着色は、機械学習コミュニティにおいて短期間の関心の対象となっている。 画像に色を割り当てることは、非常に高い自由度を持つという本質的な性質から、非常に不適切な問題である。 カラー化に加えて、画像の再構成における別の問題は、低解像度画像を高解像度に変換することを目的としたSingle Image Super Resolutionである。 本研究では,天体画像の特定領域に着目し,gan(generative adversarial network)を用いて処理することにより,この問題に対する自動的アプローチを提供することを目的としている。 RGBとL*a*bという2つの異なる色空間における様々なモデルの利用について検討する。 私たちは、小さなデータセットのために転送学習を使い、事前訓練されたresnet-18をバックボーン、すなわちu-netのエンコーダとして使用し、さらにそれを微調整します。 このモデルは、画像に存在しない高解像度で色付けされたデータを幻覚させる視覚的に魅力的な画像を生成する。 本研究では,各色空間におけるL1距離,L2距離などの距離測定値を用いて,GANを定量的に評価し,比較分析を行った。 本稿では,frechetインセプション距離(fid)を用いて,生成画像の分布と実画像の分布を比較し,モデルの性能を評価する。

Automatic colorization of images without human intervention has been a subject of interest in the machine learning community for a brief period of time. Assigning color to an image is a highly ill-posed problem because of its innate nature of possessing very high degrees of freedom; given an image, there is often no single color-combination that is correct. Besides colorization, another problem in reconstruction of images is Single Image Super Resolution, which aims at transforming low resolution images to a higher resolution. This research aims to provide an automated approach for the problem by focusing on a very specific domain of images, namely astronomical images, and process them using Generative Adversarial Networks (GANs). We explore the usage of various models in two different color spaces, RGB and L*a*b. We use transferred learning owing to a small data set, using pre-trained ResNet-18 as a backbone, i.e. encoder for the U-net and fine-tune it further. The model produces visually appealing images which hallucinate high resolution, colorized data in these results which does not exist in the original image. We present our results by evaluating the GANs quantitatively using distance metrics such as L1 distance and L2 distance in each of the color spaces across all channels to provide a comparative analysis. We use Frechet inception distance (FID) to compare the distribution of the generated images with the distribution of the real image to assess the model's performance.
翻訳日:2021-12-31 08:32:43 公開日:2021-12-27
# (参考訳) 社会的オントロジー的知識表現は機械学習を用いて測定できるか? [全文訳有]

Can Social Ontological Knowledge Representations be Measured Using Machine Learning? ( http://arxiv.org/abs/2112.13870v1 )

ライセンス: CC BY 4.0
Ahmed Izzidien(参考訳) 個人社会オントロジー (personal social ontology, pso) とは、個人が用語のオントロジー的性質をどのように知覚するかである。 例えば、絶対的致命論者は、人からいかなる形の代理者も排除する用語を使う。 このような致命論は、例えば勝利、勝利、成功といった存在論的に定義された行為が、非ファタリストが存在論的にそれらを定義する方法とは逆の方法で影響する。 致命論者と非致命論者の両方がこれらの用語の辞書定義について同意するが、それらは何とどのように引き起こされるかによって異なる。 この2つの個人の違いは、各個人が使用する用語の共起から引き起こすことができると論じられている。 このような共起は、その人に特有の社会的存在論を暗示している。 社会心理学や社会神経科学の文献で証明されているように、主要な社会的知覚の使用は、そのようなテキストを特徴付けるための実行可能な方法として提案されている。 これらの機能の自然言語的特徴化により、機械学習パイプラインで使用できるようになる。

Personal Social Ontology (PSO), it is proposed, is how an individual perceives the ontological properties of terms. For example, an absolute fatalist would arguably use terms that remove any form of agency from a person. Such fatalism has the impact of ontologically defining acts such as winning, victory and success, for example, in a manner that is contrary to how a non-fatalist would ontologically define them. While both a fatalist and non-fatalist would agree on the dictionary definition of these terms, they would differ on what and how they can be caused. This difference between the two individuals, it is argued, can be induced from the co-occurrence of terms used by each individual. That such co-occurrence carries an implied social ontology, one that is specific to that person. The use of principal social perceptions -as evidenced by the social psychology and social neuroscience literature, is put forward as a viable method to feature engineer such texts. With the natural language characterisation of these features, they are then usable in machine learning pipelines.
翻訳日:2021-12-31 08:20:31 公開日:2021-12-27
# (参考訳) spvit:soft token pruningによる視覚トランスフォーマーの高速化 [全文訳有]

SPViT: Enabling Faster Vision Transformers via Soft Token Pruning ( http://arxiv.org/abs/2112.13890v1 )

ライセンス: CC BY 4.0
Zhenglun Kong, Peiyan Dong, Xiaolong Ma, Xin Meng, Wei Niu, Mengshu Sun, Bin Ren, Minghai Qin, Hao Tang, Yanzhi Wang(参考訳) 近年,ビジョントランスフォーマー (ViT) はコンピュータビジョン分野において新たなマイルストーンを継続的に確立しており,高い計算とメモリコストが産業生産における伝播を困難にしている。 ハードウェア効率の伝統的なモデル圧縮パラダイムであるPruningは、様々なDNN構造に広く応用されている。 それでも、ViT構造上で排他的プルーニングを行う方法については曖昧である。 我々は,vitの構造特性,vitの内部データパターン,関連するエッジデバイス配置の3つのキーポイントを考慮し,入力トークンスパーシティを活用し,プール型vit (pit) などのフラット構造およびcnn型構造のバニラトランス上に設定可能な,計算対応なソフトプルーニングフレームワークを提案する。 より具体的には、適応型インスタンス単位のトークン選択のための軽量モジュールである動的アテンションベースのマルチヘッドトークンセレクタを設計する。 我々はさらに,セレクタモジュールが生成する情報量が少ないトークンをパッケージトークンに統合するソフトプルーニング技術についても紹介する。 我々のフレームワークは,提案した計算対応トレーニング戦略を通じて,特定のエッジデバイスの精度と計算制約のトレードオフに縛られている。 実験の結果,vitsの計算コストを大幅に削減し,画像分類における同等の性能を維持した。 さらに,本フレームワークは,モバイルデバイスやFPGAのリソース仕様を満たすための特定モデルを保証し,モバイルプラットフォーム上でのDeiT-Tのリアルタイム実行を実現する。 例えば、当社の手法では、モバイルデバイス上のDeiT-Tのレイテンシを26ミリ秒(既存の作業よりも41%高い26%)に短縮し、ImageNetでは0.25%$\sim $4%高いトップ1精度を実現しています。 私たちのコードはまもなくリリースされます。

Recently, Vision Transformer (ViT) has continuously established new milestones in the computer vision field, while the high computation and memory cost makes its propagation in industrial production difficult. Pruning, a traditional model compression paradigm for hardware efficiency, has been widely applied in various DNN structures. Nevertheless, it stays ambiguous on how to perform exclusive pruning on the ViT structure. Considering three key points: the structural characteristics, the internal data pattern of ViTs, and the related edge device deployment, we leverage the input token sparsity and propose a computation-aware soft pruning framework, which can be set up on vanilla Transformers of both flatten and CNN-type structures, such as Pooling-based ViT (PiT). More concretely, we design a dynamic attention-based multi-head token selector, which is a lightweight module for adaptive instance-wise token selection. We further introduce a soft pruning technique, which integrates the less informative tokens generated by the selector module into a package token that will participate in subsequent calculations rather than being completely discarded. Our framework is bound to the trade-off between accuracy and computation constraints of specific edge devices through our proposed computation-aware training strategy. Experimental results show that our framework significantly reduces the computation cost of ViTs while maintaining comparable performance on image classification. Moreover, our framework can guarantee the identified model to meet resource specifications of mobile devices and FPGA, and even achieve the real-time execution of DeiT-T on mobile platforms. For example, our method reduces the latency of DeiT-T to 26 ms (26%$\sim $41% superior to existing works) on the mobile device with 0.25%$\sim $4% higher top-1 accuracy on ImageNet. Our code will be released soon.
翻訳日:2021-12-31 08:09:03 公開日:2021-12-27
# (参考訳) 勾配統計とフィードフォワードニューラルネットワークを用いたディジタル画像の非参照品質モニタリング

Non-Reference Quality Monitoring of Digital Images using Gradient Statistics and Feedforward Neural Networks ( http://arxiv.org/abs/2112.13893v1 )

ライセンス: CC BY 4.0
Nisar Ahmed, Hafiz Muhammad Shahzad Asif, Hassan Khalid(参考訳) デジタル画像には多くの冗長性が含まれているため、画像品質を損なうことなく画像サイズを小さくするために圧縮を適用する。 画像シーケンスを含むビデオと高い圧縮比が低スループットネットワークで達成される場合には、同様のことがより顕著になる。 このようなシナリオにおける画像の品質評価は特に注目される。 ほとんどのシナリオにおける主観的評価は実現不可能となり、客観的評価が望ましい。 3つの客観的品質指標のうち、完全参照法と縮小参照法は、放送やipビデオのようなシナリオでは実現不可能な品質スコアを計算するために、何らかの形でオリジナル画像を必要とする。 そこで,非参照品質尺度を提案し,輝度と多スケール勾配の統計量を計算するデジタル画像の品質と平均減算コントラスト正規化積を,スケール化共役勾配を用いたフィードフォワードニューラルネットワークの学習機能として評価する。 トレーニングされたネットワークは、優れた回帰とR2測定を提供し、LIVE画像品質評価データベースリリース2でのさらなるテストは、有望な結果を示している。 ピアソン、ケンドール、スピアマンの相関は予測された品質スコアと実際の品質スコアの間で計算され、その結果は最先端のシステムに匹敵する。 さらに,提案手法は,提案手法よりも計算速度が速く,画像シーケンスの品質評価に使用できる。

Digital images contain a lot of redundancies, therefore, compressions are applied to reduce the image size without the loss of reasonable image quality. The same become more prominent in the case of videos that contains image sequences and higher compression ratios are achieved in low throughput networks. Assessment of the quality of images in such scenarios becomes of particular interest. Subjective evaluation in most of the scenarios becomes infeasible so objective evaluation is preferred. Among the three objective quality measures, full-reference and reduced-reference methods require an original image in some form to calculate the quality score which is not feasible in scenarios such as broadcasting or IP video. Therefore, a non-reference quality metric is proposed to assess the quality of digital images which calculates luminance and multiscale gradient statistics along with mean subtracted contrast normalized products as features to train a Feedforward Neural Network with Scaled Conjugate Gradient. The trained network has provided good regression and R2 measures and further testing on LIVE Image Quality Assessment database release-2 has shown promising results. Pearson, Kendall, and Spearman's correlation are calculated between predicted and actual quality scores and their results are comparable to the state-of-the-art systems. Moreover, the proposed metric is computationally faster than its counterparts and can be used for the quality assessment of image sequences.
翻訳日:2021-12-31 07:44:54 公開日:2021-12-27
# (参考訳) スパース・スパース・ネットワークのパフォーマンスの利点を解き放つ2つのスパリティ

Two Sparsities Are Better Than One: Unlocking the Performance Benefits of Sparse-Sparse Networks ( http://arxiv.org/abs/2112.13896v1 )

ライセンス: CC BY 4.0
Kevin Lee Hunter, Lawrence Spracklen and Subutai Ahmad(参考訳) 原則として、スパースニューラルネットワークは従来の高密度ネットワークよりもはるかに効率的であるべきです。 脳内のニューロンは2種類あり、緩やかに相互に結合し、わずかに活動する。 これら2種類の疎度は、重み間隔とアクティベーション間隔と呼ばれ、組み合わせることで、ニューラルネットワークの計算コストを2桁に削減する可能性がある。 この可能性にもかかわらず、今日のニューラルネットワークは、重みのスパースのみを使用して、ささやかなパフォーマンスの利点しか提供しない。 本稿では,既存のハードウェア上での二重スパースネットワークの性能を大幅に向上させる新しい手法であるComplementary Sparsityを紹介する。 我々は,高パフォーマンスな重み分散ネットワークを実現できることを実証し,アクティベーションスパーシティを組み込むことで,高速化を実現する。 また,Complementary Sparsityを用いてFPGAのスループットとエネルギー効率を最大100倍向上させる。 ResNet-50やMobileNetV2のような商用畳み込みネットワークに典型的なカーネルのスケーラビリティとリソースのトレードオフを分析する。 その結果, 重みと活性化のスパース性は, 将来のaiモデルを効率的にスケーリングするための強力な組み合わせであることが示唆された。

In principle, sparse neural networks should be significantly more efficient than traditional dense networks. Neurons in the brain exhibit two types of sparsity; they are sparsely interconnected and sparsely active. These two types of sparsity, called weight sparsity and activation sparsity, when combined, offer the potential to reduce the computational cost of neural networks by two orders of magnitude. Despite this potential, today's neural networks deliver only modest performance benefits using just weight sparsity, because traditional computing hardware cannot efficiently process sparse networks. In this article we introduce Complementary Sparsity, a novel technique that significantly improves the performance of dual sparse networks on existing hardware. We demonstrate that we can achieve high performance running weight-sparse networks, and we can multiply those speedups by incorporating activation sparsity. Using Complementary Sparsity, we show up to 100X improvement in throughput and energy efficiency performing inference on FPGAs. We analyze scalability and resource tradeoffs for a variety of kernels typical of commercial convolutional networks such as ResNet-50 and MobileNetV2. Our results with Complementary Sparsity suggest that weight plus activation sparsity can be a potent combination for efficiently scaling future AI models.
翻訳日:2021-12-31 07:43:59 公開日:2021-12-27
# (参考訳) 位置情報を用いた深度推定の改善 [全文訳有]

Improving Depth Estimation using Location Information ( http://arxiv.org/abs/2112.13925v1 )

ライセンス: CC BY 4.0
Ahmed Zaitoon, Hossam El Din Abd El Munim, Hazem Abbas(参考訳) 深度情報を正確に推定する能力は、周囲を囲む環境を認識し、重要な物体の深さを予測する多くの自律的アプリケーションにとって不可欠である。 最も最近使用されているテクニックの1つは、単一の画像から深さマップを推測する単眼深度推定である。 本稿では,自己教師付き深層学習手法を改良し,高精度な単眼深度推定を行う。 主なアイデアは、異なるフレームのシーケンスを考慮し、各フレームに位置情報を付加してジオタグを付けるようにディープモデルにトレーニングすることだ。 これにより、モデルが与えられた領域のセマンティクスの深さ推定を強化することができる。 深度推定結果を改善するためのモデルの有効性を示す。 モデルは現実的な環境で訓練され、モデルトレーニングフェーズに位置データを付加した後の深度マップの改善を示す。

The ability to accurately estimate depth information is crucial for many autonomous applications to recognize the surrounded environment and predict the depth of important objects. One of the most recently used techniques is monocular depth estimation where the depth map is inferred from a single image. This paper improves the self-supervised deep learning techniques to perform accurate generalized monocular depth estimation. The main idea is to train the deep model to take into account a sequence of the different frames, each frame is geotagged with its location information. This makes the model able to enhance depth estimation given area semantics. We demonstrate the effectiveness of our model to improve depth estimation results. The model is trained in a realistic environment and the results show improvements in the depth map after adding the location data to the model training phase.
翻訳日:2021-12-31 07:42:48 公開日:2021-12-27
# (参考訳) 連続制御のためのマルチエージェントモデルに基づくクレジット割り当て [全文訳有]

Multiagent Model-based Credit Assignment for Continuous Control ( http://arxiv.org/abs/2112.13937v1 )

ライセンス: CC BY 4.0
Dongge Han, Chris Xiaoxuan Lu, Tomasz Michalak, Michael Wooldridge(参考訳) 深部強化学習(RL)は最近、ロボット連続制御タスクにおいて大きな可能性を示している。 それでも、この研究は、ロボットのすべてのコンポーネント間のコミュニケーションの可用性に大きく依存する集中的な学習環境を中心に行われた。 しかし、現実世界のエージェントは、レイテンシの要求、限られた電力予算、安全上の懸念により、通信なしで分散的に運用されることが多い。 分散エージェントのシステムとしてロボットコンポーネントを定式化することにより,連続制御のための分散マルチエージェント強化学習フレームワークを提案する。 そこで,我々はまず,訓練中の集中型最適化と実行時の分散型運用を可能にする協調型マルチエージェントppoフレームワークを開発した。 しかし、システムは、各エージェントに属さないグローバル報酬信号を受信するだけである。 この課題に対処するために,エージェント固有の報酬信号を計算する汎用ゲーム理論クレジット割り当てフレームワークを提案する。 最後に重要なことは、モデルベースのRLモジュールをクレジット割り当てフレームワークに組み込むことで、サンプル効率が大幅に向上することです。 ムジョコ運動制御タスクにおける実験結果に対するフレームワークの有効性を示す。 デモビデオは、https://youtu.be/gfy vpm4svey。

Deep reinforcement learning (RL) has recently shown great promise in robotic continuous control tasks. Nevertheless, prior research in this vein center around the centralized learning setting that largely relies on the communication availability among all the components of a robot. However, agents in the real world often operate in a decentralised fashion without communication due to latency requirements, limited power budgets and safety concerns. By formulating robotic components as a system of decentralised agents, this work presents a decentralised multiagent reinforcement learning framework for continuous control. To this end, we first develop a cooperative multiagent PPO framework that allows for centralized optimisation during training and decentralised operation during execution. However, the system only receives a global reward signal which is not attributed towards each agent. To address this challenge, we further propose a generic game-theoretic credit assignment framework which computes agent-specific reward signals. Last but not least, we also incorporate a model-based RL module into our credit assignment framework, which leads to significant improvement in sample efficiency. We demonstrate the effectiveness of our framework on experimental results on Mujoco locomotion control tasks. For a demo video please visit: https://youtu.be/gFy VPm4svEY.
翻訳日:2021-12-31 07:29:02 公開日:2021-12-27
# (参考訳) SPIDER:フェデレーションラーニングのためのパーソナライズされたニューラルネットワーク [全文訳有]

SPIDER: Searching Personalized Neural Architecture for Federated Learning ( http://arxiv.org/abs/2112.13939v1 )

ライセンス: CC BY 4.0
Erum Mushtaq, Chaoyang He, Jie Ding, Salman Avestimehr(参考訳) federated learning(fl)は、プライバシと規制上の制約のためにデータが集中型サーバと共有できない場合に、分散機械学習を支援する効率的な学習フレームワークである。 FLの最近の進歩は、すべてのクライアントに対して事前定義されたアーキテクチャベースの学習を使用する。 しかし、クライアントのデータがサーバに見えず、データ分散がクライアント間で識別できないことを考えると、集中的な設定で発見された事前定義されたアーキテクチャは、FLのすべてのクライアントにとって最適な解決策ではないかもしれない。 この課題に動機づけられた本研究では、フェデレーション学習のためのパーソナライズされたニューラルネットワークアーキテクチャ検索を目的としたアルゴリズムフレームワークであるSPIDERを紹介する。 spiderは、1つのアーキテクチャに均質なグローバルモデル(スーパーネット)をジェネリックfl方式で交互に最適化する2つの特徴と、重み共有に基づく正規化によってグローバルモデルと接続される1つのアーキテクチャヘテロジェンスローカルモデル (2)新しいニューラルネットワーク探索(nas)法によるアーキテクチャヘテロジェンスローカルモデルの実現 操作レベルの摂動を基準として、最適なサブネットを段階的に選択できる。 実験の結果、SPIDERは他の最先端のパーソナライズ手法よりも優れており、検索されたパーソナライズされたアーキテクチャの方が推論効率が高いことがわかった。

Federated learning (FL) is an efficient learning framework that assists distributed machine learning when data cannot be shared with a centralized server due to privacy and regulatory restrictions. Recent advancements in FL use predefined architecture-based learning for all the clients. However, given that clients' data are invisible to the server and data distributions are non-identical across clients, a predefined architecture discovered in a centralized setting may not be an optimal solution for all the clients in FL. Motivated by this challenge, in this work, we introduce SPIDER, an algorithmic framework that aims to Search Personalized neural architecture for federated learning. SPIDER is designed based on two unique features: (1) alternately optimizing one architecture-homogen eous global model (Supernet) in a generic FL manner and one architecture-heterog eneous local model that is connected to the global model by weight sharing-based regularization (2) achieving architecture-heterog eneous local model by a novel neural architecture search (NAS) method that can select optimal subnet progressively using operation-level perturbation on the accuracy value as the criterion. Experimental results demonstrate that SPIDER outperforms other state-of-the-art personalization methods, and the searched personalized architectures are more inference efficient.
翻訳日:2021-12-31 07:07:06 公開日:2021-12-27
# 同時多目的・多忠実度最適化のための超体積改善の期待

Expected hypervolume improvement for simultaneous multi-objective and multi-fidelity optimization ( http://arxiv.org/abs/2112.13901v1 )

ライセンス: Link先を確認
Faran Irshad, Stefan Karsch and Andreas D\"opp(参考訳) ベイズ最適化は費用対評価システムの効率的な最適化方法であることが証明されている。 しかし、単一観測のコストによっては、1つまたはそれ以上の目的の多次元最適化は禁止的に高価である。 多重忠実度最適化は、数値シミュレーションにおいて低分解能近似のようなより安価な複数の情報源を含むことでこの問題を改善する。 多重忠実度最適化のための獲得関数は、通常、複数の目的に対する最適化と組み合わせが難しい探索重度アルゴリズムに基づいている。 ここでは,期待される超ボリューム改善政策が,多くの状況において適切な代替手段として機能することを示す。 評価コストは2段階評価または1つの取得関数に付加的忠実性に関連した目的を組み込む。 これにより、多目的および多忠実性の同時最適化が可能となり、パレート集合とフロントを分数コストで正確に確立することができる。 ベンチマークは1桁以上のオーダーのコスト削減を示している。 これにより,超拡張ブラックボックス関数のパレート最適化が可能となる。 提案したメソッドは、既存の最適化されたベイズ最適化フレームワークで簡単に実装でき、すぐにバッチ最適化に拡張できる。 この技術は、様々な連続的および/または離散的忠実度次元を組み合わせるためにも使用することができ、プラズマ物理学、流体力学、その他多くの科学計算分野におけるシミュレーション問題に特に関係している。

Bayesian optimization has proven to be an efficient method to optimize expensive-to-evaluat e systems. However, depending on the cost of single observations, multi-dimensional optimizations of one or more objectives may still be prohibitively expensive. Multi-fidelity optimization remedies this issue by including multiple, cheaper information sources such as low-resolution approximations in numerical simulations. Acquisition functions for multi-fidelity optimization are typically based on exploration-heavy algorithms that are difficult to combine with optimization towards multiple objectives. Here we show that the expected hypervolume improvement policy can act in many situations as a suitable substitute. We incorporate the evaluation cost either via a two-step evaluation or within a single acquisition function with an additional fidelity-related objective. This permits simultaneous multi-objective and multi-fidelity optimization, which allows to accurately establish the Pareto set and front at fractional cost. Benchmarks show a cost reduction of an order of an order of magnitude or more. Our method thus allows for Pareto optimization of extremely expansive black-box functions. The presented methods are simple and straightforward to implement in existing, optimized Bayesian optimization frameworks and can immediately be extended to batch optimization. The techniques can also be used to combine different continuous and/or discrete fidelity dimensions, which makes them particularly relevant for simulation problems in plasma physics, fluid dynamics and many other branches of scientific computing.
翻訳日:2021-12-30 16:38:12 公開日:2021-12-27
# RELDEC: 正規長LDPC符号の強化学習に基づく復号化

RELDEC: Reinforcement Learning-Based Decoding of Moderate Length LDPC Codes ( http://arxiv.org/abs/2112.13934v1 )

ライセンス: Link先を確認
Salman Habib, Allison Beemer, and Joerg Kliewer(参考訳) 本研究では,中等長低密度パリティチェック(LDPC)符号の逐次復号化手法であるRELDECを提案する。 RELDECの背景にある主要な考え方は、マルコフ決定プロセス(MDP)に基づいた強化学習によって最適化された復号法が得られたことである。 エージェントがひとつのグループ(クラスタ)内の1つのチェックノード(cn)だけをスケジュールすることを学ぶ以前の作業とは対照的に、この作業では、エージェントにクラスタ内のすべてのcnと、イテレーション毎にすべてのクラスタをスケジュールするようにトレーニングします。 すなわち、RELDECの各学習ステップにおいて、エージェントは特定のクラスタのスケジューリング結果に関連する報酬に応じて、CNクラスタを順次スケジュールすることを学ぶ。 また、MPPの状態空間の表現も変更し、RELDECが以前の研究よりも大きなブロック長LDPC符号に適合できるようにした。 さらに,様々なチャネル条件下での復号化に対処するため,メタ強化学習を用いたアジャイルメタRELDEC (AM-RELDEC) とメタRELDEC (M-RELDEC) の2つの手法を提案する。 提案したRELDEC方式は,5G新無線用に設計されたコードを含む様々なLDPC符号に対して,標準的なフラッディングとランダムなシーケンシャルデコーディングを著しく上回っている。

In this work we propose RELDEC, a novel approach for sequential decoding of moderate length low-density parity-check (LDPC) codes. The main idea behind RELDEC is that an optimized decoding policy is subsequently obtained via reinforcement learning based on a Markov decision process (MDP). In contrast to our previous work, where an agent learns to schedule only a single check node (CN) within a group (cluster) of CNs per iteration, in this work we train the agent to schedule all CNs in a cluster, and all clusters in every iteration. That is, in each learning step of RELDEC an agent learns to schedule CN clusters sequentially depending on a reward associated with the outcome of scheduling a particular cluster. We also modify the state space representation of the MDP, enabling RELDEC to be suitable for larger block length LDPC codes than those studied in our previous work. Furthermore, to address decoding under varying channel conditions, we propose two related schemes, namely, agile meta-RELDEC (AM-RELDEC) and meta-RELDEC (M-RELDEC), both of which employ meta-reinforcement learning. The proposed RELDEC scheme significantly outperforms standard flooding and random sequential decoding for a variety of LDPC codes, including codes designed for 5G new radio.
翻訳日:2021-12-30 16:37:52 公開日:2021-12-27
# 確率制約モデル予測制御による安全強化学習

Safe Reinforcement Learning with Chance-constrained Model Predictive Control ( http://arxiv.org/abs/2112.13941v1 )

ライセンス: Link先を確認
Samuel Pfrommer, Tanmay Gautam, Alec Zhou, Somayeh Sojoudi(参考訳) 現実世界の強化学習(rl)問題はしばしば、エージェントが設計された制約に従うことで安全に振る舞うことを要求する。 本稿では,モデル予測制御(MPC)に基づく安全ガイドを,連続動作を伴う線形設定で変更したポリシー勾配フレームワークに結合することにより,安全RLの課題に対処する。 本ガイドでは,MPCの定式化において,安全要件をチャンス制約として組み込むことで,システムの安全な運転を実施できる。 次に、ポリシー勾配トレーニングステップは、ベースポリシーを安全に振る舞うように訓練する安全ペナルティを含む。 このペナルティがトレーニング後の安全ガイドの除去を可能にすることを理論的に示し,シミュレータを用いた実験を用いてその方法を説明する。

Real-world reinforcement learning (RL) problems often demand that agents behave safely by obeying a set of designed constraints. We address the challenge of safe RL by coupling a safety guide based on model predictive control (MPC) with a modified policy gradient framework in a linear setting with continuous actions. The guide enforces safe operation of the system by embedding safety requirements as chance constraints in the MPC formulation. The policy gradient training step then includes a safety penalty which trains the base policy to behave safely. We show theoretically that this penalty allows for the safety guide to be removed after training and illustrate our method using experiments with a simulator quadrotor.
翻訳日:2021-12-30 16:37:23 公開日:2021-12-27
# ハニカムブロックの輪郭認識アルゴリズム

Algorithm for recognizing the contour of a honeycomb block ( http://arxiv.org/abs/2112.13846v1 )

ライセンス: Link先を確認
Maksim Viktorovich Kubrikov, Mikhail Vladimirovich Saramud, Ivan Alekseevich Paulin, Evgeniy Petrovich Talay(参考訳) この記事では,ハニカムブロックの断片の輪郭を認識するアルゴリズムについて論じる。 OpenCVライブラリの既製の機能の適用性を示す。 2つのアルゴリズムが提案されている。 直接走査アルゴリズムは、二値化画像中の極端に白い画素を見つけ、製品の凸形状に適切に作用するが、凹部や製品キャビティの輪郭は見当たらない。 この問題を解決するために、任意の形状の製品に対して正しく動作するスライディングマトリックスを用いた走査アルゴリズムを提案する。

The article discusses an algorithm for recognizing the contour of fragments of a honeycomb block. The inapplicability of ready-made functions of the OpenCV library is shown. Two proposed algorithms are considered. The direct scanning algorithm finds the extreme white pixels in the binarized image, it works adequately on convex shapes of products, but does not find a contour on concave areas and in cavities of products. To solve this problem, a scanning algorithm using a sliding matrix is proposed, which works correctly on products of any shape.
翻訳日:2021-12-30 16:10:37 公開日:2021-12-27
# MedShift:医療データセットのキュレーションのためのシフトデータ識別

MedShift: identifying shift data for medical dataset curation ( http://arxiv.org/abs/2112.13885v1 )

ライセンス: Link先を確認
Xiaoyuan Guo, Judy Wawira Gichoya, Hari Trivedi, Saptarshi Purkayastha and Imon Banerjee(参考訳) 高品質なデータセットをキュレートするには、内部および外部ソース間のデータのばらつきを特定することが基本的で重要なステップである。 しかし,データの変化やばらつきを検出する手法は研究されていない。 これに対する課題は、データセットの密接な表現を学ぶための効果的なアプローチの欠如と、医療機関間でプライベートデータを共有することの難しさである。 この問題を解決するため,トップレベルのシフトサンプルを検出し,医用キュレーションを容易にするため,MedShiftと呼ばれる統合パイプラインを提案する。 ベースソースとして内部データセットaが与えられると、まず各クラスのデータセットaの異常検出器を訓練し、教師なしの方法で内部分布を学習する。 第二に、ソース間でデータを交換することなく、各クラスの外部データセットB上でトレーニングされた異常検出を実行します。 異常スコアの高いデータサンプルをシフトデータとして識別する。 外部データセットのシフトを定量化するために、得られたスコアに基づいてBのデータをクラスワイズにクラスタリングする。 次に、a 上の多重クラス分類器を訓練し、b 上の分類器のパフォーマンスのばらつきでシフト度を測定し、各クラスで最大のアノマリースコアを持つ群を徐々に落としていく。 さらに,複数の医療ソースの分布差を調べるために,データセットの品質指標を適用した。 筋骨格X線写真(MU)と胸部X線データを用いたMedShiftの有効性を検討した。 提案するシフトデータ検出パイプラインは、医療センターがより効率的に高品質なデータセットをキュレートするのに有用であることを示す。 結果を視覚化するインターフェース紹介ビデオはhttps://youtu.be/V3B F0P1sxQEで公開されている。

To curate a high-quality dataset, identifying data variance between the internal and external sources is a fundamental and crucial step. However, methods to detect shift or variance in data have not been significantly researched. Challenges to this are the lack of effective approaches to learn dense representation of a dataset and difficulties of sharing private data across medical institutions. To overcome the problems, we propose a unified pipeline called MedShift to detect the top-level shift samples and thus facilitate the medical curation. Given an internal dataset A as the base source, we first train anomaly detectors for each class of dataset A to learn internal distributions in an unsupervised way. Second, without exchanging data across sources, we run the trained anomaly detectors on an external dataset B for each class. The data samples with high anomaly scores are identified as shift data. To quantify the shiftness of the external dataset, we cluster B's data into groups class-wise based on the obtained scores. We then train a multi-class classifier on A and measure the shiftness with the classifier's performance variance on B by gradually dropping the group with the largest anomaly score for each class. Additionally, we adapt a dataset quality metric to help inspect the distribution differences for multiple medical sources. We verify the efficacy of MedShift with musculoskeletal radiographs (MURA) and chest X-rays datasets from more than one external source. Experiments show our proposed shift data detection pipeline can be beneficial for medical centers to curate high-quality datasets more efficiently. An interface introduction video to visualize our results is available at https://youtu.be/V3B F0P1sxQE.
翻訳日:2021-12-30 16:10:27 公開日:2021-12-27
# 単一スパースrgb-d入力によるヒューマンビュー合成

Human View Synthesis using a Single Sparse RGB-D Input ( http://arxiv.org/abs/2112.13889v1 )

ライセンス: Link先を確認
Phong Nguyen, Nikolaos Sarafianos, Christoph Lassner, Janne Heikkila, Tony Tung(参考訳) 動き中の人間の新しいビュー合成は、自由視点ビデオのような応用を可能にするコンピュータビジョンの問題である。 既存のメソッドは通常、複数の入力ビュー、3d監督、あるいは新しいアイデンティティーにうまく一般化しない事前学習されたモデルを持つ複雑なセットアップを使用する。 これらの制約に対処するために,低解像度の深度カメラやアクター固有のモデルを用いない,低解像度のRGB-Dの単一ビューセンサから撮影した人間をリアルにレンダリングするビュー合成フレームワークを提案する。 本研究では,球面型ニューラルレンダリングによって得られた新しいビューの密集した特徴を学習し,グローバルコンテキストインパインティングモデルを用いて完全なレンダリングを作成するアーキテクチャを提案する。 さらに、エンハンサーネットワークは、元のビューから隠された領域でも全体の忠実さを活用し、細部まで細部までクリップレンダリングを生成する。 提案手法は,rgb-d入力の少ない合成・実演者の高画質な斬新な映像を生成する。 身元不明、新しいポーズ、忠実に表情を再構築するために一般化される。 提案手法は,従来の人間の視点合成法よりも優れており,異なるレベルの入力スパーシティに頑健である。

Novel view synthesis for humans in motion is a challenging computer vision problem that enables applications such as free-viewpoint video. Existing methods typically use complex setups with multiple input views, 3D supervision, or pre-trained models that do not generalize well to new identities. Aiming to address these limitations, we present a novel view synthesis framework to generate realistic renders from unseen views of any human captured from a single-view sensor with sparse RGB-D, similar to a low-cost depth camera, and without actor-specific models. We propose an architecture to learn dense features in novel views obtained by sphere-based neural rendering, and create complete renders using a global context inpainting model. Additionally, an enhancer network leverages the overall fidelity, even in occluded areas from the original view, producing crisp renders with fine details. We show our method generates high-quality novel views of synthetic and real human actors given a single sparse RGB-D input. It generalizes to unseen identities, new poses and faithfully reconstructs facial expressions. Our approach outperforms prior human view synthesis methods and is robust to different levels of input sparsity.
翻訳日:2021-12-30 16:10:00 公開日:2021-12-27
# エッジの不均質性を考慮した資源効率と遅延対応型フェデレーション学習設計

Resource-Efficient and Delay-Aware Federated Learning Design under Edge Heterogeneity ( http://arxiv.org/abs/2112.13926v1 )

ライセンス: Link先を確認
David Nickel and Frank Po-Chen Lin and Seyyedali Hosseinalipour and Nicolo Michelusi and Christopher G. Brinton(参考訳) フェデレーテッド・ラーニング(FL)は、ワイヤレスエッジデバイスに機械学習を分散するための一般的な方法論として登場した。 本稿では,デバイスサーバ間通信遅延とデバイス計算の不均一性を考慮した,flにおけるモデル性能とリソース利用のトレードオフの最適化について検討する。 提案するstofeddelavアルゴリズムは,局所大域モデル結合器をfl同期ステップに組み込む。 理論上,stofeddelavの収束挙動を特徴付け,各装置における大域モデル遅延と予測局所勾配誤差を考慮した最適結合重みを求める。 次に,各機器のミニバッチサイズを調整し,エネルギー消費と機械学習トレーニング損失を最小化し,一連の凸近似を用いて非凸問題を解くネットワーク対応最適化問題を定式化する。 シミュレーションの結果,stofeddelavは,ミニバッチサイズとコンバインタ重みを調整した場合のモデル収束速度とネットワーク資源利用率で,flの現在の技術を上回ることがわかった。 さらに,本手法は,モデルトレーニング期間中に必要となるアップリンク通信ラウンド数を削減し,同じ精度を実現する。

Federated learning (FL) has emerged as a popular methodology for distributing machine learning across wireless edge devices. In this work, we consider optimizing the tradeoff between model performance and resource utilization in FL, under device-server communication delays and device computation heterogeneity. Our proposed StoFedDelAv algorithm incorporates a local-global model combiner into the FL synchronization step. We theoretically characterize the convergence behavior of StoFedDelAv and obtain the optimal combiner weights, which consider the global model delay and expected local gradient error at each device. We then formulate a network-aware optimization problem which tunes the minibatch sizes of the devices to jointly minimize energy consumption and machine learning training loss, and solve the non-convex problem through a series of convex approximations. Our simulations reveal that StoFedDelAv outperforms the current art in FL in terms of model convergence speed and network resource utilization when the minibatch size and the combiner weights are adjusted. Additionally, our method can reduce the number of uplink communication rounds required during the model training period to reach the same accuracy.
翻訳日:2021-12-30 16:06:23 公開日:2021-12-27
# ニューラルネットワーク識別器の深度と特徴学習はおそらく有用である

Depth and Feature Learning are Provably Beneficial for Neural Network Discriminators ( http://arxiv.org/abs/2112.13867v1 )

ライセンス: Link先を確認
Carles Domingo-Enrich(参考訳) 分布の対を$\mu_d, \nu_d$ on $\mathbb{R}^d$とすると、ある3層ReLUネットワークに対して$\Omega(1/d^2)$として$|\mathbb{E}_{x \sim \mu_d} [F(x)] - \mathbb{E}_{x \sim \nu_d} [F(x)]|$が$\Omega(1/d^2)$として減少する。 このことは、深いGAN差別者は浅い差別者ができない分布を区別できることを示している。 類似して、$\mu_d, \nu_d$ on $\mathbb{R}^d$ {\displaystyle $|\mathbb{E}_{x \sim \mu_d} [F(x)]\mathbb{E}_{x \sim \nu_d} [F(x)]|$は多項式重みを持つ2層ReLUネットワークに対して$\Omega(1/(d\log d))$として減少するが、関連するRKHSの有界ノルム関数に対して指数関数的に減少する。 これは、特徴学習が差別者にとって有益であることを確認する。 我々の境界はフーリエ変換に基づいている。

We construct pairs of distributions $\mu_d, \nu_d$ on $\mathbb{R}^d$ such that the quantity $|\mathbb{E}_{x \sim \mu_d} [F(x)] - \mathbb{E}_{x \sim \nu_d} [F(x)]|$ decreases as $\Omega(1/d^2)$ for some three-layer ReLU network $F$ with polynomial width and weights, while declining exponentially in $d$ if $F$ is any two-layer network with polynomial weights. This shows that deep GAN discriminators are able to distinguish distributions that shallow discriminators cannot. Analogously, we build pairs of distributions $\mu_d, \nu_d$ on $\mathbb{R}^d$ such that $|\mathbb{E}_{x \sim \mu_d} [F(x)] - \mathbb{E}_{x \sim \nu_d} [F(x)]|$ decreases as $\Omega(1/(d\log d))$ for two-layer ReLU networks with polynomial weights, while declining exponentially for bounded-norm functions in the associated RKHS. This confirms that feature learning is beneficial for discriminators. Our bounds are based on Fourier transforms.
翻訳日:2021-12-30 15:47:51 公開日:2021-12-27
# AET-SGD:非同期イベントトリガー型確率勾配

AET-SGD: Asynchronous Event-triggered Stochastic Gradient Descent ( http://arxiv.org/abs/2112.13935v1 )

ライセンス: Link先を確認
Nhuong Nguyen, Song Han(参考訳) 効果的な分散学習アルゴリズムを設計する上で,通信コストが大きなボトルネックとなっている。 近年,計算ノード間の情報交換を削減し,通信コストの軽減を図るイベントトリガー手法が提案されている。 しかしながら、既存のイベントトリガードアプローチのほとんどは、ヒューリスティックなイベントトリガードしきい値のみを考慮する。 また、トレーニングのパフォーマンスに重要な役割を果たす計算とネットワーク遅延の影響も無視する。 本稿では,AET-SGD(Asynchronou s Event-Triggered Stochastic Gradient Descent)フレームワークを提案する。 一 計算ノード間の通信コストの削減、及び 二 遅延の影響を軽減すること。 AET-SGDは, ベースラインのイベントトリガー方式と比較して, サンプリングサイズを線形に増加させ, コンバージェンス性能を維持しつつ通信コストを大幅に削減することができる。 我々は、AET-SGDを実装し、MNIST、FashionMNIST、KMNIST、CIFAR10を含む複数の代表データセットの性能を評価する。 実験により, 設計の正しさを検証し, 技術状況と比較して, 通信コストを44倍から120倍に低減した。 また, AET-SGDは, 良好な性能と所望のスピードアップ比を得ながら, ストラグラーノードからの大きな遅延に抵抗できることを示した。

Communication cost is the main bottleneck for the design of effective distributed learning algorithms. Recently, event-triggered techniques have been proposed to reduce the exchanged information among compute nodes and thus alleviate the communication cost. However, most existing event-triggered approaches only consider heuristic event-triggered thresholds. They also ignore the impact of computation and network delay, which play an important role on the training performance. In this paper, we propose an Asynchronous Event-triggered Stochastic Gradient Descent (SGD) framework, called AET-SGD, to i) reduce the communication cost among the compute nodes, and ii) mitigate the impact of the delay. Compared with baseline event-triggered methods, AET-SGD employs a linear increasing sample size event-triggered threshold, and can significantly reduce the communication cost while keeping good convergence performance. We implement AET-SGD and evaluate its performance on multiple representative data sets, including MNIST, FashionMNIST, KMNIST and CIFAR10. The experimental results validate the correctness of the design and show a significant communication cost reduction from 44x to 120x, compared to the state of the art. Our results also show that AET-SGD can resist large delay from the straggler nodes while obtaining a decent performance and a desired speedup ratio.
翻訳日:2021-12-30 15:47:00 公開日:2021-12-27
# 単語の断片:バグ・オブ・ワード・スーパービジョンから伝達可能な視覚モデルを学ぶ

A Fistful of Words: Learning Transferable Visual Models from Bag-of-Words Supervision ( http://arxiv.org/abs/2112.13884v1 )

ライセンス: Link先を確認
Ajinkya Tejankar, Ajinkya Tejankar, Bichen Wu, Saining Xie, Madian Khabsa, Hamed Pirsiavash, Hamed Firooz(参考訳) 自然言語を視覚認識モデルの訓練の監督として使用することは大きな約束である。 近年の研究では、大規模なトレーニングデータセットにおける画像とキャプションのアライメントの形でこのような監督が使われる場合、結果のアライメントモデルは、下流タスク2のようにゼロショット分類でうまく機能することが示された。 本稿では,ゼロショット画像分類モデルの学習において,言語指導のどの部分が不可欠かを理解することに焦点を当てる。 広範囲で慎重な実験を通して 1) 単純なBag-of-Words(BoW)キャプションをデータセットのほとんどのイメージキャプションの代替として使用することができる。 驚くことに、このアプローチは単語のバランスと組み合わせることでゼロショット分類のパフォーマンスが向上する。 2)BoW事前学習モデルを用いて,キャプションを持たない画像に擬似BoWキャプションを生成することにより,より多くのトレーニングデータを得ることができる。 実画像と疑似画像のキャプションで訓練されたモデルは、ゼロショット性能が向上する。 ImageNet-1kゼロショット評価では、3Mイメージキャプションペアのみを使用する最良のモデルが、15Mイメージキャプションペア(31.5%対31.3%)でトレーニングされたCLIPモデルでオンパーを実行する。

Using natural language as a supervision for training visual recognition models holds great promise. Recent works have shown that if such supervision is used in the form of alignment between images and captions in large training datasets, then the resulting aligned models perform well on zero-shot classification as downstream tasks2. In this paper, we focus on teasing out what parts of the language supervision are essential for training zero-shot image classification models. Through extensive and careful experiments, we show that: 1) A simple Bag-of-Words (BoW) caption could be used as a replacement for most of the image captions in the dataset. Surprisingly, we observe that this approach improves the zero-shot classification performance when combined with word balancing. 2) Using a BoW pretrained model, we can obtain more training data by generating pseudo-BoW captions on images that do not have a caption. Models trained on images with real and pseudo-BoW captions achieve stronger zero-shot performance. On ImageNet-1k zero-shot evaluation, our best model, that uses only 3M image-caption pairs, performs on-par with a CLIP model trained on 15M image-caption pairs (31.5% vs 31.3%).
翻訳日:2021-12-30 15:30:39 公開日:2021-12-27
# SurFit: 表面のフィットを学ぶことで、ポイントクラウドでのショット学習が改善

SurFit: Learning to Fit Surfaces Improves Few Shot Learning on Point Clouds ( http://arxiv.org/abs/2112.13942v1 )

ライセンス: Link先を確認
Gopal Sharma and Bidya Dash and Matheus Gadelha and Aruni RoyChowdhury and Marios Loizou and Evangelos Kalogerakis and Liangliang Cao and Erik Learned-Miller and Rui Wang andSubhransu Maji(参考訳) 本稿では,SurFitという3次元形状分割ネットワークのラベル付き学習手法を提案する。 SurFitは3次元形状の表面を幾何学的プリミティブに分解する自己指導型タスクに基づいている。 3次元形状セグメンテーションのための既存のネットワークアーキテクチャに容易に適用でき、広く使われているshapenetとpartnetベンチマークで示されるように、少数の設定でパフォーマンスが向上する。 この設定では、SurFitは以前の最先端よりも優れており、プリミティブへの分解性は意味的な部分の予測を学習する上で有用であることを示している。 提案手法の有効性を実証するために,幾何的プリミティブと下流タスクの選択を変える実験をいくつか提示する。

We present SurFit, a simple approach for label efficient learning of 3D shape segmentation networks. SurFit is based on a self-supervised task of decomposing the surface of a 3D shape into geometric primitives. It can be readily applied to existing network architectures for 3D shape segmentation and improves their performance in the few-shot setting, as we demonstrate in the widely used ShapeNet and PartNet benchmarks. SurFit outperforms the prior state-of-the-art in this setting, suggesting that decomposability into primitives is a useful prior for learning representations predictive of semantic parts. We present a number of experiments varying the choice of geometric primitives and downstream tasks to demonstrate the effectiveness of the method.
翻訳日:2021-12-30 15:30:17 公開日:2021-12-27
# ユークリッド距離測定によるGPU加速平均シフト

GPU-accelerated Faster Mean Shift with euclidean distance metrics ( http://arxiv.org/abs/2112.13891v1 )

ライセンス: Link先を確認
Le You, Han Jiang, Jinyong Hu, Chorng Chang, Lingxi Chen, Xintong Cui, Mengyang Zhao(参考訳) クラスタリング問題は、データ統計、パターン認識、画像処理において重要である。 一般的な教師なしアルゴリズムである平均シフトアルゴリズムは、クラスタリング問題を解決するために広く使われている。 しかし、平均シフトアルゴリズムはその膨大な計算資源コストによって制限される。 前研究[10]では,コサイン埋め込みクラスタリング問題を大幅に高速化するGPUアクセラレーション高速平均シフトアルゴリズムを提案した。 本研究では,ユークリッド距離測定値を扱うために,従来のアルゴリズムを拡張し改良する。 従来のGPUベースの平均シフトアルゴリズムとは違って,提案アルゴリズムはSeed Selection & Early Stoppingアプローチを採用し,計算速度を大幅に向上させ,GPUメモリ使用量を削減する。 シミュレーションテストでは,200k点のクラスタリング問題を処理する場合,gpuメモリ消費を最適化したgpuベース平均シフトアルゴリズムと比較して,約3倍の高速化を達成した。 さらに,本研究では,より高速な平均シフトアルゴリズムのためのプラグ・アンド・プレイモデルを実装した。 (プラグアンドプレイモデルはhttps://github.com/m asqm/faster-mean-shi ft-euc)

Handling clustering problems are important in data statistics, pattern recognition and image processing. The mean-shift algorithm, a common unsupervised algorithms, is widely used to solve clustering problems. However, the mean-shift algorithm is restricted by its huge computational resource cost. In previous research[10], we proposed a novel GPU-accelerated Faster Mean-shift algorithm, which greatly speed up the cosine-embedding clustering problem. In this study, we extend and improve the previous algorithm to handle Euclidean distance metrics. Different from conventional GPU-based mean-shift algorithms, our algorithm adopts novel Seed Selection & Early Stopping approaches, which greatly increase computing speed and reduce GPU memory consumption. In the simulation testing, when processing a 200K points clustering problem, our algorithm achieved around 3 times speedup compared to the state-of-the-art GPU-based mean-shift algorithms with optimized GPU memory consumption. Moreover, in this study, we implemented a plug-and-play model for faster mean-shift algorithm, which can be easily deployed. (Plug-and-play model is available: https://github.com/m asqm/Faster-Mean-Shi ft-Euc)
翻訳日:2021-12-30 14:48:56 公開日:2021-12-27
# CLIPは医療領域における視覚的質問応答に一般領域と同じくらい適しているか?

Does CLIP Benefit Visual Question Answering in the Medical Domain as Much as it Does in the General Domain? ( http://arxiv.org/abs/2112.13906v1 )

ライセンス: Link先を確認
Sedigheh Eslami, Gerard de Melo, Christoph Meinel(参考訳) コントラスト言語-画像事前学習(CLIP)は、大量の画像テキストペアをオンラインで収集し、モダクティブな相互監督による学習において顕著な成功を収めた。 これまでのところ、CLIPの有効性は、主に汎用マルチモーダル問題において研究されている。 本研究は,MedVQA(MedVQA)の課題に対するCLIPの有効性を評価する。 この目的のために, PubMedCLIPは, PubMedの記事に基づく医療領域用CLIPの微調整版である。 我々は,2つのMedVQAベンチマークデータセットを用いて,MEVF(Mixture of Enhanced Visual Features)とQCR(Question answering via Conditional Reasoning)という2つのMedVQA手法について検討した。 それぞれについて,従来のCLIPであるPubMedCLIPと,ビジュアルデータのみに基づいて事前学習した最先端MAML(Model-Agnostic Meta-Learning)ネットワークを用いて,視覚表現学習のメリットを評価する。 MedVQAパイプラインのコードをオープンソース化し、PubMedCLIPを事前トレーニングしています。 CLIPとPubMedCLIPは、MAMLのビジュアルエンコーダと比較して改善されている。 pubmedclipは、全体の精度を最大3%向上させることで、最高の結果を得る。 個々の例は、これまで広く使われていたMAMLネットワークと比較してPubMedCLIPの強みを示している。 PubMedCLIPにおける視覚表現学習は、MedVQAに顕著な改善をもたらす。 実験により,従来の研究で提供されていない2つのMedVQAベンチマークデータセットの分布差が明らかになり,PubMedCLIPの異なるバックエンドビジュアルエンコーダがこれらのデータセットに異なる振る舞いを示す。 さらに,VQAの医療領域と医療領域の基本的な性能差を観察した。

Contrastive Language--Image Pre-training (CLIP) has shown remarkable success in learning with cross-modal supervision from extensive amounts of image--text pairs collected online. Thus far, the effectiveness of CLIP has been investigated primarily in general-domain multimodal problems. This work evaluates the effectiveness of CLIP for the task of Medical Visual Question Answering (MedVQA). To this end, we present PubMedCLIP, a fine-tuned version of CLIP for the medical domain based on PubMed articles. Our experiments are conducted on two MedVQA benchmark datasets and investigate two MedVQA methods, MEVF (Mixture of Enhanced Visual Features) and QCR (Question answering via Conditional Reasoning). For each of these, we assess the merits of visual representation learning using PubMedCLIP, the original CLIP, and state-of-the-art MAML (Model-Agnostic Meta-Learning) networks pre-trained only on visual data. We open source the code for our MedVQA pipeline and pre-training PubMedCLIP. CLIP and PubMedCLIP achieve improvements in comparison to MAML's visual encoder. PubMedCLIP achieves the best results with gains in the overall accuracy of up to 3%. Individual examples illustrate the strengths of PubMedCLIP in comparison to the previously widely used MAML networks. Visual representation learning with language supervision in PubMedCLIP leads to noticeable improvements for MedVQA. Our experiments reveal distributional differences in the two MedVQA benchmark datasets that have not been imparted in previous work and cause different back-end visual encoders in PubMedCLIP to exhibit different behavior on these datasets. Moreover, we witness fundamental performance differences of VQA in general versus medical domains.
翻訳日:2021-12-30 14:04:11 公開日:2021-12-27
# (参考訳) ToxTree:hERGとNav1.5の心臓毒性障害予測のためのディスクリプタベースの機械学習モデル [全文訳有]

ToxTree: descriptor-based machine learning models for both hERG and Nav1.5 cardiotoxicity liability predictions ( http://arxiv.org/abs/2112.13467v1 )

ライセンス: CC BY 4.0
Issar Arab and Khaled Barakat(参考訳) 薬物による電位ゲートカリウムチャネル(hERG)と電圧ゲートナトリウムチャネル(Nav1.5)の遮断は、重症心血管合併症を引き起こす。 この懸念は、多くの承認された薬物からの心臓毒性の頻発によって使用が中止されるか、場合によっては市場から撤退するなど、薬物開発分野に反映されている。 薬物発見プロセスの初期段階でhERGとNav1.5ブロッカーを予測することはこの問題を解決し、そのため、安全な薬物を開発するための時間とコストを削減できる。 高速かつ費用対効果の高いアプローチの1つは、シリコ予測法を用いて薬開発の初期段階において、潜在的なhergおよびnav1.5ブロッカーを除草することである。 本稿では,hergとnav1.5の双方に対するロバストな2次元ディスクリプタに基づくqsar予測モデルを提案する。 ランダムフォレストモデルのパイプラインであるToxTree-hERG分類器(英語版)は8380個のユニークな分子化合物からなる大規模キュレートデータセットでトレーニングされた。 一方、カーネル化されたSVMモデルのパイプラインであるToxTree-Nav1.5分類器は、ChEMBLとPubChemから取得した1550個のユニークな化合物からなる大規模な手作業で訓練された。 提案されたhERGインデューサは、最先端の公開モデルやその他の既存のツールの指標よりも優れていた。 さらに,最初のnav1.5負債予測モデルを導入することで,q4 = 74.9%,q2 = 86.7%,mcc = 71.2%の2次分類が可能となる。 このプロジェクトで使用されるキュレートされたデータセットは、研究コミュニティで公開されています。

Drug-mediated blockade of the voltage-gated potassium channel(hERG) and the voltage-gated sodium channel (Nav1.5) can lead to severe cardiovascular complications. This rising concern has been reflected in the drug development arena, as the frequent emergence of cardiotoxicity from many approved drugs led to either discontinuing their use or, in some cases, their withdrawal from the market. Predicting potential hERG and Nav1.5 blockers at the outset of the drug discovery process can resolve this problem and can, therefore, decrease the time and expensive cost of developing safe drugs. One fast and cost-effective approach is to use in silico predictive methods to weed out potential hERG and Nav1.5 blockers at the early stages of drug development. Here, we introduce two robust 2D descriptor-based QSAR predictive models for both hERG and Nav1.5 liability predictions. The machine learning models were trained for both regression, predicting the potency value of a drug, and multiclass classification at three different potency cut-offs (i.e. 1{\mu}M, 10{\mu}M, and 30{\mu}M), where ToxTree-hERG Classifier, a pipeline of Random Forest models, was trained on a large curated dataset of 8380 unique molecular compounds. Whereas ToxTree-Nav1.5 Classifier, a pipeline of kernelized SVM models, was trained on a large manually curated set of 1550 unique compounds retrieved from both ChEMBL and PubChem publicly available bioactivity databases. The proposed hERG inducer outperformed most metrics of the state-of-the-art published model and other existing tools. Additionally, we are introducing the first Nav1.5 liability predictive model achieving a Q4 = 74.9% and a binary classification of Q2 = 86.7% with MCC = 71.2% evaluated on an external test set of 173 unique compounds. The curated datasets used in this project are made publicly available to the research community.
翻訳日:2021-12-29 02:37:07 公開日:2021-12-27
# (参考訳) 大規模セキュリティ制約付き経済分散のための学習最適化プロキシ [全文訳有]

Learning Optimization Proxies for Large-Scale Security-Constrained Economic Dispatch ( http://arxiv.org/abs/2112.13469v1 )

ライセンス: CC BY 4.0
Wenbo Chen, Seonho Park, Mathieu Tanneau, Pascal Van Hentenryck(参考訳) SCED(Security-Constr ained Economic Dispatch)は、送電系統オペレーター(TSO)が電力網の信頼性を確保しつつ、リアルタイムエネルギー市場をクリアするための基本的な最適化モデルである。 再生可能発電機や分散型エネルギー資源の普及により、運用の不確実性が高まる中で、オペレーターは、負荷や再生可能エネルギーのさまざまな変化下でのシステムの挙動を迅速に評価し、リアルタイムでリスクを継続的に監視しなければならない。 残念ながら、リアルタイム操作の厳密な制約を考えると、このようなシナリオごとに最適化問題を体系的に解くことは現実的ではない。 この制限を克服するために,本論文では,sceの最適化プロキシ,すなわちsceの最適解をミリ秒で予測可能な機械学習(ml)モデルについて学ぶことを提案する。 そこで本稿では,misoの市場開拓最適化の原理的分析に動機づけられ,sceソリューション学習の主な課題,すなわち負荷変動,再生可能生産,生産コスト,コミットメント決定の組合せ構造に対処する新しいmlパイプラインを提案する。 また,SCEDソリューションの挙動をさらに把握するために,新たな分類・解釈アーキテクチャを提案する。 数値実験はフランスの伝送システムで報告され、リアルタイム操作と互換性のある時間枠内で、相対誤差を0.6\%$以下にする正確な最適化プロキシを生成する手法の能力を示す。

The Security-Constrained Economic Dispatch (SCED) is a fundamental optimization model for Transmission System Operators (TSO) to clear real-time energy markets while ensuring reliable operations of power grids. In a context of growing operational uncertainty, due to increased penetration of renewable generators and distributed energy resources, operators must continuously monitor risk in real-time, i.e., they must quickly assess the system's behavior under various changes in load and renewable production. Unfortunately, systematically solving an optimization problem for each such scenario is not practical given the tight constraints of real-time operations. To overcome this limitation, this paper proposes to learn an optimization proxy for SCED, i.e., a Machine Learning (ML) model that can predict an optimal solution for SCED in milliseconds. Motivated by a principled analysis of the market-clearing optimizations of MISO, the paper proposes a novel ML pipeline that addresses the main challenges of learning SCED solutions, i.e., the variability in load, renewable output and production costs, as well as the combinatorial structure of commitment decisions. A novel Classification-Then- Regression architecture is also proposed, to further capture the behavior of SCED solutions. Numerical experiments are reported on the French transmission system, and demonstrate the approach's ability to produce, within a time frame that is compatible with real-time operations, accurate optimization proxies that produce relative errors below $0.6\%$.
翻訳日:2021-12-29 02:08:23 公開日:2021-12-27
# (参考訳) ロバスト画像透かしのためのコンパクトニューラルネットワークアルゴリズム [全文訳有]

A Compact Neural Network-based Algorithm for Robust Image Watermarking ( http://arxiv.org/abs/2112.13491v1 )

ライセンス: CC BY 4.0
Hong-Bo Xu, Rong Wang, Jia Wei, Shao-Ping Lu(参考訳) デジタル画像透かしは、デジタル画像にメッセージを埋め込んで抽出する不正アクセスからデジタルメディア情報を保護することを目的としており、画像圧縮やインタラクティブなコンテンツ編集など、さまざまなデータ処理においてノイズや歪みが適用されている。 従来の画像透かしソリューションは、いくつかの制約で指定された場合、容易に堅牢性に悩まされるが、近年のディープラーニングベースの透かし手法は、様々な機能エンコーダとデコーダのパイプラインにおいて、情報損失問題にうまく対処できなかった。 本稿では,Invertible Watermarking Network (IWN) という,コンパクトなニューラルネットワークを用いた新しいデジタル画像透かしソリューションを提案する。 我々のIWNアーキテクチャは、単一のInvertible Neural Network (INN) に基づいており、この単射伝搬フレームワークは、メッセージ埋め込みと抽出の課題を、互いに逆問題として受け取り、安定した非可逆写像を学習することで、同時に解決することができる。 ウォーターマーキングソリューションのロバスト性を高めるため,埋め込みするビットメッセージを凝縮するためのシンプルだが効果的なビットメッセージ正規化モジュールを導入し,IWNフレームワーク下での様々な実用的な攻撃をシミュレートするノイズ層を設計した。 大規模な実験は、様々な歪み下での解の優越性を実証する。

Digital image watermarking seeks to protect the digital media information from unauthorized access, where the message is embedded into the digital image and extracted from it, even some noises or distortions are applied under various data processing including lossy image compression and interactive content editing. Traditional image watermarking solutions easily suffer from robustness when specified with some prior constraints, while recent deep learning-based watermarking methods could not tackle the information loss problem well under various separate pipelines of feature encoder and decoder. In this paper, we propose a novel digital image watermarking solution with a compact neural network, named Invertible Watermarking Network (IWN). Our IWN architecture is based on a single Invertible Neural Network (INN), this bijective propagation framework enables us to effectively solve the challenge of message embedding and extraction simultaneously, by taking them as a pair of inverse problems for each other and learning a stable invertible mapping. In order to enhance the robustness of our watermarking solution, we specifically introduce a simple but effective bit message normalization module to condense the bit message to be embedded, and a noise layer is designed to simulate various practical attacks under our IWN framework. Extensive experiments demonstrate the superiority of our solution under various distortions.
翻訳日:2021-12-29 01:50:38 公開日:2021-12-27
# (参考訳) ブロックモデリング誘導グラフ畳み込みニューラルネットワーク [全文訳有]

Block Modeling-Guided Graph Convolutional Neural Networks ( http://arxiv.org/abs/2112.13507v1 )

ライセンス: CC BY 4.0
Dongxiao He and Chundong Liang and Huixin Liu and Mingxiang Wen and Pengfei Jiao and Zhiyong Feng(参考訳) グラフ畳み込みネットワーク(GCN)はグラフ表現を探索する著しい可能性を示している。 しかし、GCN集約機構は、現実世界のネットワークに一般的に存在する多くのノードが異なるクラスから隣接しているヘテロフィリーのネットワークに一般化できない。 gcnの伝播・凝集機構をホモフィアとヘテロフィアリー(またはそれらの混合物)の両方に適合させるため、gcnのフレームワークにブロックモデリングを導入し、「ブロック誘導された機密集約」を実現し、異なるクラスの近隣のアグリゲーションルールを自動的に学習する。 ブロックモデリングを集約プロセスに組み込むことにより、gcnはホモフィリシー度に応じてホモ親和性およびヘテロ親和性の隣人からの情報を識別的に集約することができる。 我々はこのアルゴリズムを異種問題を扱う最先端手法と比較した。 実験により,同好性データセットにおける競合性能を維持しつつ,異好性データセットにおける既存手法に対する新たなアプローチの優位性を実証した。

Graph Convolutional Network (GCN) has shown remarkable potential of exploring graph representation. However, the GCN aggregating mechanism fails to generalize to networks with heterophily where most nodes have neighbors from different classes, which commonly exists in real-world networks. In order to make the propagation and aggregation mechanism of GCN suitable for both homophily and heterophily (or even their mixture), we introduce block modeling into the framework of GCN so that it can realize "block-guided classified aggregation", and automatically learn the corresponding aggregation rules for neighbors of different classes. By incorporating block modeling into the aggregation process, GCN is able to aggregate information from homophilic and heterophilic neighbors discriminately according to their homophily degree. We compared our algorithm with state-of-art methods which deal with the heterophily problem. Empirical results demonstrate the superiority of our new approach over existing methods in heterophilic datasets while maintaining a competitive performance in homophilic datasets.
翻訳日:2021-12-29 01:28:12 公開日:2021-12-27
# (参考訳) duck swarm algorithm: 新しいswarm intelligenceアルゴリズム [全文訳有]

Duck swarm algorithm: a novel swarm intelligence algorithm ( http://arxiv.org/abs/2112.13508v1 )

ライセンス: CC BY 4.0
Mengjian Zhang, Guihua Wen, and Jing Yang(参考訳) 本稿では,duck swarm algorithm (dsa) と呼ばれる群知能に基づく最適化アルゴリズムを提案する。 このアルゴリズムは、食物源の探索とアヒル群れの採餌行動に触発されている。 dsaの性能は18のベンチマーク関数を用いて検証され、統計(最高値、平均値、標準偏差、平均実行時間)の結果は、粒子群最適化(pso)、fireflyアルゴリズム(fa)、チキン群最適化(cso)、grey wolf optimizationr(gwo)、sine cosineアルゴリズム(sca)、marine-predatorsアルゴリズム(mpa)、archimedes最適化アルゴリズム(aoa)といった7つのよく知られたアルゴリズムと比較される。 さらに、他のアルゴリズムに対するDSAの優位性を証明するために、ウィルコクソンランクサム試験、フリードマン試験、および比較結果の収束曲線を用いる。 その結果、DSAは高次元最適化関数を解くための収束速度と探索-探索バランスの観点から高性能な最適化手法であることが示された。 また、DSAは2つの制約付きエンジニアリング問題(三バートラス問題とソーミル演算問題)の最適設計に適用される。 さらに、提案されたdsaの性能を分析するために4つのエンジニアリング制約問題も用いられている。 比較の結果,dsaは様々な最適化問題を解決するための有望で非常に競争力のあるアルゴリズムであることが判明した。

A swarm intelligence-based optimization algorithm, named Duck Swarm Algorithm (DSA), is proposed in this paper. This algorithm is inspired by the searching for food sources and foraging behaviors of the duck swarm. The performance of DSA is verified by using eighteen benchmark functions, where it is statistical (best, mean, standard deviation, and average running time) results are compared with seven well-known algorithms like Particle swarm optimization (PSO), Firefly algorithm (FA), Chicken swarm optimization (CSO), Grey wolf optimizer (GWO), Sine cosine algorithm (SCA), and Marine-predators algorithm (MPA), and Archimedes optimization algorithm (AOA). Moreover, the Wilcoxon rank-sum test, Friedman test, and convergence curves of the comparison results are used to prove the superiority of the DSA against other algorithms. The results demonstrate that DSA is a high-performance optimization method in terms of convergence speed and exploration-exploita tion balance for solving high-dimension optimization functions. Also, DSA is applied for the optimal design of two constrained engineering problems (the Three-bar truss problem, and the Sawmill operation problem). Additionally, four engineering constraint problems have also been used to analyze the performance of the proposed DSA. Overall, the comparison results revealed that the DSA is a promising and very competitive algorithm for solving different optimization problems.
翻訳日:2021-12-29 01:15:35 公開日:2021-12-27
# (参考訳) dnn訓練における最適通信スケジューリングの自動構成 [全文訳有]

Automatic Configuration for Optimal Communication Scheduling in DNN Training ( http://arxiv.org/abs/2112.13509v1 )

ライセンス: CC BY 4.0
Yiqing Ma, Hao Wang, Yiming Zhang, Kai Chen(参考訳) ByteSchedulerは、分散Deep Neural Network(DNN)トレーニングの通信効率を改善するために、テンソル送信を分割して再配置する。 ハイパーパラメータの構成(すなわち、パーティショニングサイズとクレジットサイズ)は、パーティショニングと再配置の有効性に不可欠である。 現在ByteSchedulerは、ハイパーパラメータの最適設定を事前に見つけるためにBayesian Optimization (BO)を採用している。 しかし実際には、様々なランタイム要因(例えば、ワーカーノードの状態とネットワーク条件)が時間とともに変化し、静的に決定されたワンショット構成結果が現実世界のDNNトレーニングに最適化される。 この問題を解決するために、トレーニングシステムが動的に変化するにつれて最適なハイパーパラメータを自動的にタイムリーに検索するリアルタイム構成法(AutoByte)を提案する。 AutoByteはByteSchedulerフレームワークをメタネットワークで拡張し、システムのランタイム統計を入力として、特定の設定下でのスピードアップの予測を出力する。 様々なDNNモデルの評価結果から、AutoByteはリソース使用量の少ないハイパーパラメータを動的にチューニングでき、ByteSchedulerの最高の静的構成よりも最大33.2\%高いパフォーマンスを提供する。

ByteScheduler partitions and rearranges tensor transmissions to improve the communication efficiency of distributed Deep Neural Network (DNN) training. The configuration of hyper-parameters (i.e., the partition size and the credit size) is critical to the effectiveness of partitioning and rearrangement. Currently, ByteScheduler adopts Bayesian Optimization (BO) to find the optimal configuration for the hyper-parameters beforehand. In practice, however, various runtime factors (e.g., worker node status and network conditions) change over time, making the statically-determine d one-shot configuration result suboptimal for real-world DNN training. To address this problem, we present a real-time configuration method (called AutoByte) that automatically and timely searches the optimal hyper-parameters as the training systems dynamically change. AutoByte extends the ByteScheduler framework with a meta-network, which takes the system's runtime statistics as its input and outputs predictions for speedups under specific configurations. Evaluation results on various DNN models show that AutoByte can dynamically tune the hyper-parameters with low resource usage, and deliver up to 33.2\% higher performance than the best static configuration in ByteScheduler.
翻訳日:2021-12-29 00:50:36 公開日:2021-12-27
# (参考訳) 事前訓練言語モデルを用いた放射線診断報告からのイベントベース臨床所見抽出 [全文訳有]

Event-based clinical findings extraction from radiology reports with pre-trained language model ( http://arxiv.org/abs/2112.13512v1 )

ライセンス: CC BY 4.0
Wilson Lau, Kevin Lybarger, Martin L. Gunn, Meliha Yetisgen(参考訳) 放射線医学報告には、画像の解釈中に放射線技師によって記録された多様で豊富な臨床異常が含まれている。 放射線学的所見の包括的意味表現は、診断、トリアージ、結果予測、臨床研究をサポートするための幅広い二次的応用を可能にする。 本稿では,臨床所見を付加した新しい放射線診断報告のコーパスについて述べる。 このアノテーションスキーマは,画像診断や医療上の問題(医学的問題)で観察可能な病理所見の詳細な表現を抽出する。 スキーマはイベントベースの表現を使用して、アサーション、解剖学、特性、サイズ、カウントなど、詳細な詳細をキャプチャした。 金の標準コーパスには、計500の注釈付きct (annotated ct) が記録された。 BERTを含む2つの最先端ディープラーニングアーキテクチャを用いて、トリガと引数エンティティを抽出した。 次に, bertに基づく関係抽出モデルを用いて, トリガーエンティティと引数エンティティ(引数ロールと呼ばれる)の連鎖を予測した。 当施設の放射線学報告300万件に事前学習したBERTモデルを用いて, 引き金の発見に90.9%-93.4%, 引き金の発見に72.0%-85.6%, F1が有効であった。 モデル一般化性を評価するために,MIMIC Chest X-ray(MIMIC-CXR)データベースからランダムにサンプリングされた外部検証セットを用いた。 この検証セットの抽出性能は95.6%が引き金の発見、79.1%-89.7%が引数の役割の発見であり、モデルは異なる画像モダリティを持つクロスインスティカルデータによく一般化されたことを示した。 我々はMIMIC-CXRデータベースの全放射線学報告から発見イベントを抽出し,研究コミュニティに提供した。

Radiology reports contain a diverse and rich set of clinical abnormalities documented by radiologists during their interpretation of the images. Comprehensive semantic representations of radiological findings would enable a wide range of secondary use applications to support diagnosis, triage, outcomes prediction, and clinical research. In this paper, we present a new corpus of radiology reports annotated with clinical findings. Our annotation schema captures detailed representations of pathologic findings that are observable on imaging ("lesions") and other types of clinical problems ("medical problems"). The schema used an event-based representation to capture fine-grained details, including assertion, anatomy, characteristics, size, count, etc. Our gold standard corpus contained a total of 500 annotated computed tomography (CT) reports. We extracted triggers and argument entities using two state-of-the-art deep learning architectures, including BERT. We then predicted the linkages between trigger and argument entities (referred to as argument roles) using a BERT-based relation extraction model. We achieved the best extraction performance using a BERT model pre-trained on 3 million radiology reports from our institution: 90.9%-93.4% F1 for finding triggers 72.0%-85.6% F1 for arguments roles. To assess model generalizability, we used an external validation set randomly sampled from the MIMIC Chest X-ray (MIMIC-CXR) database. The extraction performance on this validation set was 95.6% for finding triggers and 79.1%-89.7% for argument roles, demonstrating that the model generalized well to the cross-institutional data with a different imaging modality. We extracted the finding events from all the radiology reports in the MIMIC-CXR database and provided the extractions to the research community.
翻訳日:2021-12-29 00:32:11 公開日:2021-12-27
# (参考訳) ベイズ推論としての力学系解釈

Interpreting Dynamical Systems as Bayesian Reasoners ( http://arxiv.org/abs/2112.13523v1 )

ライセンス: CC BY 4.0
Nathaniel Virgo and Martin Biehl and Simon McGregor(参考訳) アクティブ推論における中心的な概念は、物理系の内部状態が外界の状態上の確率測度をパラメトリするということである。 これらはエージェントの信念と見なすことができ、ベイジアンの前置または後置として表現される。 ここでは、国家をこの方法での信念を表すものとして解釈することが適切であるかどうかを示す一般的な理論の開発を始める。 本稿では,システムがベイズフィルタあるいはベイズ推論のいずれかを実行すると解釈できる場合に焦点を当てる。 カテゴリ理論の手法を用いて,そのような解釈が存在することの意味を形式的に定義する。

A central concept in active inference is that the internal states of a physical system parametrise probability measures over states of the external world. These can be seen as an agent's beliefs, expressed as a Bayesian prior or posterior. Here we begin the development of a general theory that would tell us when it is appropriate to interpret states as representing beliefs in this way. We focus on the case in which a system can be interpreted as performing either Bayesian filtering or Bayesian inference. We provide formal definitions of what it means for such an interpretation to exist, using techniques from category theory.
翻訳日:2021-12-29 00:12:29 公開日:2021-12-27
# (参考訳) wasserstein flowがreplicator dynamicsを満たす - actor-criticにおける表現学習の平均場解析

Wasserstein Flow Meets Replicator Dynamics: A Mean-Field Analysis of Representation Learning in Actor-Critic ( http://arxiv.org/abs/2112.13530v1 )

ライセンス: CC0 1.0
Yufeng Zhang, Siyu Chen, Zhuoran Yang, Michael I. Jordan, Zhaoran Wang(参考訳) ニューラルネットワークによるアクタ-クリティック(ac)アルゴリズムは近年、実証的な成功を収めている。 しかしながら、既存のACアルゴリズムの理論的サポートのほとんどは、トレーニング中に特徴表現が固定される線形関数近似や線形化ニューラルネットワークの場合に焦点を当てている。 このような制限は、実用的な問題において重要な神経交流における表現学習のキーとなる側面を捉えることに失敗する。 本研究では,特徴量に基づくニューラル ac の進化と収束について,平均場的視点から考察する。 具体的には、アクターと批評家が過パラメータ化された2層ニューラルネットワークで表現され、2段階の学習率で更新されるACのバージョンを検討する。 批評家は時間差学習(TD)によってより大きなステップサイズで更新され、アクターはより小さなステップサイズでPPOによって更新される。 連続時間および無限幅制限系では、時間スケールが適切に分離された場合、ニューラルACはサブリニアレートで世界的最適ポリシーを見出す。 さらに,批判ネットワークによって誘導される特徴表現が,初期近傍で進化することが証明された。

Actor-critic (AC) algorithms, empowered by neural networks, have had significant empirical success in recent years. However, most of the existing theoretical support for AC algorithms focuses on the case of linear function approximations, or linearized neural networks, where the feature representation is fixed throughout training. Such a limitation fails to capture the key aspect of representation learning in neural AC, which is pivotal in practical problems. In this work, we take a mean-field perspective on the evolution and convergence of feature-based neural AC. Specifically, we consider a version of AC where the actor and critic are represented by overparameterized two-layer neural networks and are updated with two-timescale learning rates. The critic is updated by temporal-difference (TD) learning with a larger stepsize while the actor is updated via proximal policy optimization (PPO) with a smaller stepsize. In the continuous-time and infinite-width limiting regime, when the timescales are properly separated, we prove that neural AC finds the globally optimal policy at a sublinear rate. Additionally, we prove that the feature representation induced by the critic network is allowed to evolve within a neighborhood of the initial one.
翻訳日:2021-12-29 00:11:43 公開日:2021-12-27
# (参考訳) ドメイン一般化意味セグメンテーションのためのメタ学習特徴批判 [全文訳有]

Meta-Learned Feature Critics for Domain Generalized Semantic Segmentation ( http://arxiv.org/abs/2112.13538v1 )

ライセンス: CC BY 4.0
Zu-Yun Shiau, Wei-Wei Lin, Ci-Siang Lin, Yu-Chiang Frank Wang(参考訳) ドメイン間で視覚データを認識またはセグメンテーションする際のドメインシフトの処理方法は、学習とビジョンコミュニティによって研究されている。 本稿では、セグメンテーションモデルを複数のソースドメインで訓練し、非知覚データドメインに一般化することが期待されるドメイン一般化意味セグメンテーションについて述べる。 本稿では,セマンティクスセグメンテーションのためのドメイン不変特徴をドメイン一般化保証付きで導出する特徴的不等角化能力を備えた新しいメタラーニング手法を提案する。 特に、クラス固有の特徴批判モジュールをフレームワークに導入し、ドメインの一般化を保証することで、アンタングル化された視覚的特徴を強制する。 最後に,提案モデルの有効性とロバスト性を確認し,セグメント化における最先端領域適応と一般化手法に好意的に対応した。

How to handle domain shifts when recognizing or segmenting visual data across domains has been studied by learning and vision communities. In this paper, we address domain generalized semantic segmentation, in which the segmentation model is trained on multiple source domains and is expected to generalize to unseen data domains. We propose a novel meta-learning scheme with feature disentanglement ability, which derives domain-invariant features for semantic segmentation with domain generalization guarantees. In particular, we introduce a class-specific feature critic module in our framework, enforcing the disentangled visual features with domain generalization guarantees. Finally, our quantitative results on benchmark datasets confirm the effectiveness and robustness of our proposed model, performing favorably against state-of-the-art domain adaptation and generalization methods in segmentation.
翻訳日:2021-12-29 00:09:45 公開日:2021-12-27
# (参考訳) 視覚領域横断メタラーニングによる未確認領域のFew-Shot分類 [全文訳有]

Few-Shot Classification in Unseen Domains by Episodic Meta-Learning Across Visual Domains ( http://arxiv.org/abs/2112.13539v1 )

ライセンス: CC BY 4.0
Yuan-Chia Cheng, Ci-Siang Lin, Fu-En Yang, Yu-Chiang Frank Wang(参考訳) 興味のあるカテゴリのラベル付き例がほとんどないため、いくつかのショット分類が目的である。 いくつかのアプローチが提案されているが、既存のいくつかのショットラーニング(FSL)モデルは、ベースクラスと新しいクラスが同じデータドメインから引き出されると仮定している。 未知のドメインで新しいクラスデータを認識する場合、これはドメインの一般化された少数ショット分類のさらに困難なタスクとなる。 本稿では,ベースクラスは均質な複数ソースドメインから,新しいクラスはトレーニング中に見ない対象ドメインから,という,ドメイン一般化された少数ショット分類のためのユニークな学習フレームワークを提案する。 メタラーニング戦略の進展により、我々の学習フレームワークは、複数のソースドメインにまたがるデータを利用して、ドメイン不変の機能をキャプチャし、サポートとクエリーデータ間のメトリックラーニングベースのメカニズムによってFSL機能を導入します。 提案する学習フレームワークの有効性を検証するために広範な実験を行い、小規模ながら均質なソースデータからの学習が、大規模学習に対して好適であることを示す。 さらに、ドメイン一般化された少数ショット分類のためのバックボーンモデルの選択に関する洞察を提供する。

Few-shot classification aims to carry out classification given only few labeled examples for the categories of interest. Though several approaches have been proposed, most existing few-shot learning (FSL) models assume that base and novel classes are drawn from the same data domain. When it comes to recognizing novel-class data in an unseen domain, this becomes an even more challenging task of domain generalized few-shot classification. In this paper, we present a unique learning framework for domain-generalized few-shot classification, where base classes are from homogeneous multiple source domains, while novel classes to be recognized are from target domains which are not seen during training. By advancing meta-learning strategies, our learning framework exploits data across multiple source domains to capture domain-invariant features, with FSL ability introduced by metric-learning based mechanisms across support and query data. We conduct extensive experiments to verify the effectiveness of our proposed learning framework and show learning from small yet homogeneous source data is able to perform preferably against learning from large-scale one. Moreover, we provide insights into choices of backbone models for domain-generalized few-shot classification.
翻訳日:2021-12-29 00:00:13 公開日:2021-12-27
# (参考訳) ViR:Vision Reservoir [全文訳有]

ViR:the Vision Reservoir ( http://arxiv.org/abs/2112.13545v1 )

ライセンス: CC BY 4.0
Bin Wang and Jiehuang Shi and Xian Wei(参考訳) 最新の年では、画像分類にViT(Vision Transformer)を適用することに成功した。 しかし、ViTが2つの側面に苦しむことを示す証拠がまだ残っている。 一 大規模データセットにおける事前学習のための複数の変圧器層の適用による高計算とメモリ負担 二 小さいデータセットをスクラッチからトレーニングするときの過度な適合 これらの問題に対処するために,vitと並行して画像分類のための新しい手法であるvision reservoir computing (vir) が提案されている。 各画像を一定長さのトークン列に分割することで、ViRは、ほぼ完全に接続された位相を持つ純粋な貯水池を構築し、ViTのTransformerモジュールを置き換える。 その後、ネットワーク性能を向上させるために2種類のディープViRモデルが提案されている。 いくつかの画像分類ベンチマークにおいて、ViRとViTの比較実験を行った。 事前学習プロセスがなければ、ViRはモデルと計算の複雑さの両方でViTより優れている。 具体的には、ViRのパラメータの数はViTの約15%または5%であり、メモリフットプリントはViTの約20%から40%である。 ViR性能の優位性は、Small-World特性、リアプノフ指数、メモリ容量によって説明される。

The most recent year has witnessed the success of applying the Vision Transformer (ViT) for image classification. However, there are still evidences indicating that ViT often suffers following two aspects, i) the high computation and the memory burden from applying the multiple Transformer layers for pre-training on a large-scale dataset, ii) the over-fitting when training on small datasets from scratch. To address these problems, a novel method, namely, Vision Reservoir computing (ViR), is proposed here for image classification, as a parallel to ViT. By splitting each image into a sequence of tokens with fixed length, the ViR constructs a pure reservoir with a nearly fully connected topology to replace the Transformer module in ViT. Two kinds of deep ViR models are subsequently proposed to enhance the network performance. Comparative experiments between the ViR and the ViT are carried out on several image classification benchmarks. Without any pre-training process, the ViR outperforms the ViT in terms of both model and computational complexity. Specifically, the number of parameters of the ViR is about 15% even 5% of the ViT, and the memory footprint is about 20% to 40% of the ViT. The superiority of the ViR performance is explained by Small-World characteristics, Lyapunov exponents, and memory capacity.
翻訳日:2021-12-28 23:51:30 公開日:2021-12-27
# (参考訳) FitAct: 微粒化ポストトレインアクティベーション関数による誤差回復型ディープニューラルネットワーク [全文訳有]

FitAct: Error Resilient Deep Neural Networks via Fine-Grained Post-Trainable Activation Functions ( http://arxiv.org/abs/2112.13544v1 )

ライセンス: CC BY 4.0
Behnam Ghavami, Mani Sadati, Zhenman Fang, and Lesley Shannon(参考訳) ディープニューラルネットワーク(DNN)は、パーソナルヘルスケアデバイスや自動運転車などの安全クリティカルなシステムにますます導入されている。 このようなDNNベースのシステムでは、DNN推論の欠陥が誤予測や安全性の危険をもたらす可能性があるため、エラーレジリエンスが最優先事項である。 リソース制約のあるエッジデバイス上での遅延クリティカルなdnn推論では、従来の冗長性に基づくフォールトトレランス手法を適用することは非自明である。 本稿では,DNNの微粒化後のアクティベーション機能を実装することで,DNNのエラーレジリエンスを高めるための低コストなアプローチであるFitActを提案する。 主なアイデアは、個々のニューロンの活性化値をニューロン単位の活性化関数を介して正確に束縛し、ネットワーク内の障害伝播を防ぐことである。 複雑なDNNモデルの再訓練を避けるため、精度トレーニングとレジリエンストレーニングを分離し、これらのアクティベーション関数を正確なバウンド値で学習するための軽量な後学習フェーズを開発することを提案する。 alexnet、vgg16、resnet50といった広く使われているdnnモデルの実験結果によると、fitactはdnnエラーのレジリエンスを広範囲の障害率で向上させ、ランタイムとメモリ空間のオーバーヘッドを管理できるという。

Deep neural networks (DNNs) are increasingly being deployed in safety-critical systems such as personal healthcare devices and self-driving cars. In such DNN-based systems, error resilience is a top priority since faults in DNN inference could lead to mispredictions and safety hazards. For latency-critical DNN inference on resource-constrained edge devices, it is nontrivial to apply conventional redundancy-based fault tolerance techniques. In this paper, we propose FitAct, a low-cost approach to enhance the error resilience of DNNs by deploying fine-grained post-trainable activation functions. The main idea is to precisely bound the activation value of each individual neuron via neuron-wise bounded activation functions so that it could prevent fault propagation in the network. To avoid complex DNN model re-training, we propose to decouple the accuracy training and resilience training and develop a lightweight post-training phase to learn these activation functions with precise bound values. Experimental results on widely used DNN models such as AlexNet, VGG16, and ResNet50 demonstrate that FitAct outperforms state-of-the-art studies such as Clip-Act and Ranger in enhancing the DNN error resilience for a wide range of fault rates while adding manageable runtime and memory space overheads.
翻訳日:2021-12-28 23:37:22 公開日:2021-12-27
# (参考訳) 畳み込みニューラルネットワーク(CNN)を用いた肺癌の病理組織像の分類 [全文訳有]

Classification of Histopathology Images of Lung Cancer Using Convolutional Neural Network (CNN) ( http://arxiv.org/abs/2112.13553v1 )

ライセンス: CC0 1.0
Neha Baranwal, Preethi Doravari and Renu Kachhoria(参考訳) がんは人体内の異常な細胞の制御不能な細胞分裂であり、他の臓器に拡がることがある。 非免疫性疾患(NCD)の1つであり、NCDは全世界で死者の71%を占めており、肺癌は女性乳癌に次ぐ2番目に診断されたがんである。 肺癌の生存率は19%である。 X線、CTスキャン、PET-CTスキャン、気管支鏡、生検など、肺がんの診断には様々な方法がある。 しかし、組織型HおよびE染色に基づく肺癌の亜型を知るために広く用いられており、生検で吸引された組織上で染色を行う。 研究によると、この組織学のタイプは肺癌の予後と治療に関連している。 したがって,早期かつ正確な肺がん組織診は必要不可欠であり,その治療は病の組織像の種類,分子プロファイル,ステージに依存しているため,肺癌の病理像を解析することが最も重要である。 したがって, 肺癌の診断を迅速化し, 病理医の負担を軽減するため, 深層学習技術が用いられている。 これらの手法は、がんの病理組織学的スライスの解析において改善された効果を示した。 コンボリューションニューラルネットワーク(CNN)は脳、皮膚、乳房、肺、大腸癌などの様々ながんの病理組織像の分類において重要であると報告されている。 本研究では,ResNet 50,VGG-19,Inception_ ResNet_V2,DenseNetを用いて肺がん画像(正常,腺癌,扁平上皮癌)の3カテゴリ分類を行い,CNNを誘導し,クラスタ間距離を増大させ,クラスタ内距離を減少させる。

Cancer is the uncontrollable cell division of abnormal cells inside the human body, which can spread to other body organs. It is one of the non-communicable diseases (NCDs) and NCDs accounts for 71% of total deaths worldwide whereas lung cancer is the second most diagnosed cancer after female breast cancer. Cancer survival rate of lung cancer is only 19%. There are various methods for the diagnosis of lung cancer, such as X-ray, CT scan, PET-CT scan, bronchoscopy and biopsy. However, to know the subtype of lung cancer based on the tissue type H and E staining is widely used, where the staining is done on the tissue aspirated from a biopsy. Studies have reported that the type of histology is associated with prognosis and treatment in lung cancer. Therefore, early and accurate detection of lung cancer histology is an urgent need and as its treatment is dependent on the type of histology, molecular profile and stage of the disease, it is most essential to analyse the histopathology images of lung cancer. Hence, to speed up the vital process of diagnosis of lung cancer and reduce the burden on pathologists, Deep learning techniques are used. These techniques have shown improved efficacy in the analysis of histopathology slides of cancer. Several studies reported the importance of convolution neural networks (CNN) in the classification of histopathological pictures of various cancer types such as brain, skin, breast, lung, colorectal cancer. In this study tri-category classification of lung cancer images (normal, adenocarcinoma and squamous cell carcinoma) are carried out by using ResNet 50, VGG-19, Inception_ResNet_V2 and DenseNet for the feature extraction and triplet loss to guide the CNN such that it increases inter-cluster distance and reduces intra-cluster distance.
翻訳日:2021-12-28 23:23:59 公開日:2021-12-27
# (参考訳) マルチパースペクティブな選好モデルによるeコマースにおけるパーソナライズされた回答生成 [全文訳有]

Towards Personalized Answer Generation in E-Commerce via Multi-Perspective Preference Modeling ( http://arxiv.org/abs/2112.13556v1 )

ライセンス: CC BY 4.0
Yang Deng, Yaliang Li, Wenxuan Zhang, Bolin Ding, Wai Lam(参考訳) 近年,Eコマースプラットフォーム上での製品質問回答(PQA)は,インテリジェントなオンラインショッピングアシスタントとして機能し,顧客ショッピング体験を改善することで注目を集めている。 その鍵となる機能である製品関連質問に対する自動回答生成は、質問関連回答中にコンテンツ保存を生成することを目的として研究されている。 しかし、PQAの重要な特徴、すなわちパーソナライゼーションは既存の手法では無視されている。 多くの顧客は、製品面や情報ニーズに対する自身の好みを考慮に入れて、カスタマイズされた情報のみを使ったパーソナライズされた回答を自分自身で見ることを好まないため、すべての顧客に同じ「完全に要約された」回答を提供することは不十分です。 この課題に対処するため、PQAにおけるパーソナライズされた回答を生成するために、過去のユーザ生成コンテンツをモデル化するマルチパースペクティブ・プライオリティ・モデリングを用いたPAGE(Personalized Answer GEneration Method)を提案する。 具体的には,まず質問関連ユーザ履歴を外部知識として検索し,知識レベルのユーザ嗜好をモデル化する。 次に,gaussian softmax分散モデルを用いて潜在的なアスペクトレベルのユーザ嗜好を捉える。 最後に,パーソナライズされたポインターネットワークを開発し,個人的ユーザ嗜好と動的ユーザ語彙を用いて,コンテンツとスタイルの両方からパーソナライズされた回答を生成する。 実世界のEコマースQAデータセットに対する実験結果から,提案手法は情報的,カスタマイズされた回答を生成し,既存の手法よりも優れており,Eコマースにおける回答生成はパーソナライズによるメリットがあることが示された。

Recently, Product Question Answering (PQA) on E-Commerce platforms has attracted increasing attention as it can act as an intelligent online shopping assistant and improve the customer shopping experience. Its key function, automatic answer generation for product-related questions, has been studied by aiming to generate content-preserving while question-related answers. However, an important characteristic of PQA, i.e., personalization, is neglected by existing methods. It is insufficient to provide the same "completely summarized" answer to all customers, since many customers are more willing to see personalized answers with customized information only for themselves, by taking into consideration their own preferences towards product aspects or information needs. To tackle this challenge, we propose a novel Personalized Answer GEneration method (PAGE) with multi-perspective preference modeling, which explores historical user-generated contents to model user preference for generating personalized answers in PQA. Specifically, we first retrieve question-related user history as external knowledge to model knowledge-level user preference. Then we leverage Gaussian Softmax distribution model to capture latent aspect-level user preference. Finally, we develop a persona-aware pointer network to generate personalized answers in terms of both content and style by utilizing personal user preference and dynamic user vocabulary. Experimental results on real-world E-Commerce QA datasets demonstrate that the proposed method outperforms existing methods by generating informative and customized answers, and show that answer generation in E-Commerce can benefit from personalization.
翻訳日:2021-12-28 22:58:07 公開日:2021-12-27
# (参考訳) ダイアリー対話データにおける会話分析のための丁寧な感情対話行為 [全文訳有]

Polite Emotional Dialogue Acts for Conversational Analysis in Dialy Dialog Data ( http://arxiv.org/abs/2112.13572v1 )

ライセンス: CC BY 4.0
Chandrakant Bothe(参考訳) 多くの社会言語学的な手がかりは、感情、感情、対話行動などの会話分析に使われている。 基本的な社会的手がかりの1つは丁寧さであり、言語的に会話分析に有用な特性を持っている。 本稿では、これらの社会言語学的な手がかり間の関係関係を関連づけることができる、丁寧な感情対話行動の簡単な発見について述べる。 感情のクラスでは、Anger と Disgust の発話は、幸福と悲しみが丁寧であるのに対して、不愉快である傾向が見られた。 同様の現象は対話行為で起こり、情報とコミュニケーションは質問や指示よりも多くの丁寧な発話を含んでいる。 最後に,これらの知見の今後の研究についてまとめる。

Many socio-linguistic cues are used in the conversational analysis, such as emotion, sentiment, and dialogue acts. One of the fundamental social cues is politeness, which linguistically possesses properties useful in conversational analysis. This short article presents some of the brief findings of polite emotional dialogue acts, where we can correlate the relational bonds between these socio-linguistics cues. We found that the utterances with emotion classes Anger and Disgust are more likely to be impolite while Happiness and Sadness to be polite. Similar phenomenon occurs with dialogue acts, Inform and Commissive contain many polite utterances than Question and Directive. Finally, we will conclude on the future work of these findings.
翻訳日:2021-12-28 22:30:16 公開日:2021-12-27
# (参考訳) ワイブル塩基強度を有するホークス過程に基づく圧縮機ステーションの生存率解析

Survival Analysis of the Compressor Station Based on Hawkes Process with Weibull Base Intensity ( http://arxiv.org/abs/2112.13581v1 )

ライセンス: CC BY 4.0
Lu-ning Zhang, Jian-wei Liu, Xin Zuo(参考訳) 本稿では, ホークス法を用いて, コンプレッサーステーションの故障シーケンス, すなわち, コンプレッサーステーションの故障イベントをモデル化し, コンプレッサーステーションの各種故障事象の生存解析を行う。 しかし、これまでホークス点過程のほぼすべての関連する文献は、条件付強度関数の基底強度は時間不変であると仮定している。 この仮定は、検証するには厳しすぎるようだ。 例えば、財務分析、信頼性分析、サバイバル分析、社会ネットワーク分析といった実用的な応用では、真理条件強度関数の基本強度は、時間変動である可能性が非常に高い。 一定のベース強度は、時間とともに発生する失敗のベース確率を反映しない。 そこで本稿では,この問題を解決するために,例えばワイブル分布の時間変化ベース強度を提案する。 まず,Weibull分布の基底強度を導入し,最大確率推定器による効果的な学習アルゴリズムを提案する。 時間変化ベース強度合成データ,時間変化ベース強度合成データ,実世界のデータを用いた実験により,ホークス過程のトリガパターンと時間変化ベース強度を同時に,強固に学習できることが判明した。 実世界のデータによる実験では、さまざまな種類の障害のグレンジャー因果関係と、時間とともに変化する障害のベース確率が明らかになった。

In this paper, we use the Hawkes process to model the sequence of failure, i.e., events of compressor station and conduct survival analysis on various failure events of the compressor station. However, until now, nearly all relevant literatures of the Hawkes point processes assume that the base intensity of the conditional intensity function is time-invariant. This assumption is apparently too harsh to be verified. For example, in the practical application, including financial analysis, reliability analysis, survival analysis and social network analysis, the base intensity of the truth conditional intensity function is very likely to be time-varying. The constant base intensity will not reflect the base probability of the failure occurring over time. Thus, in order to solve this problem, in this paper, we propose a new time-varying base intensity, for example, which is from Weibull distribution. First, we introduce the base intensity from the Weibull distribution, and then we propose an effective learning algorithm by maximum likelihood estimator. Experiments on the constant base intensity synthetic data, time-varying base intensity synthetic data, and real-world data show that our method can learn the triggering patterns of the Hawkes processes and the time-varying base intensity simultaneously and robustly. Experiments on the real-world data reveal the Granger causality of different kinds of failures and the base probability of failure varying over time.
翻訳日:2021-12-28 22:24:44 公開日:2021-12-27
# (参考訳) グラフニューラルネットワークにおける層間接続の学習 [全文訳有]

Learn Layer-wise Connections in Graph Neural Networks ( http://arxiv.org/abs/2112.13585v1 )

ライセンス: CC BY 4.0
Lanning Wei, Huan Zhao, Zhiqiang He(参考訳) 近年、グラフニューラルネットワーク(GNN)は、現実世界のデータセット上の多様なアプリケーションにおいて、優れたパフォーマンスを示している。 モデルキャパシティの向上と過平滑化問題を緩和するため,レイヤワイド接続により中間層を組み込む手法が提案されている。 しかし,グラフの種類が非常に多様であるため,既存手法の性能は多種多様であり,データ固有のレイヤワイド接続方式が必要である。 この問題に対処するために,ニューラルアーキテクチャサーチ(NAS)に基づく新しいフレームワーク LLC(Learn Layer-wise Connections)を提案し,GNNにおける中間層間の適応接続を学習する。 LLCには、3種類のブロックと学習可能な接続からなる新しい検索空間と、効率的な検索プロセスを実現するための1つの異なる検索アルゴリズムが含まれている。 実世界の5つのデータセットに関する広範囲な実験を行い,検索した層間接続が性能を向上させるだけでなく,余計な問題も軽減できることを示した。

In recent years, Graph Neural Networks (GNNs) have shown superior performance on diverse applications on real-world datasets. To improve the model capacity and alleviate the over-smoothing problem, several methods proposed to incorporate the intermediate layers by layer-wise connections. However, due to the highly diverse graph types, the performance of existing methods vary on diverse graphs, leading to a need for data-specific layer-wise connection methods. To address this problem, we propose a novel framework LLC (Learn Layer-wise Connections) based on neural architecture search (NAS) to learn adaptive connections among intermediate layers in GNNs. LLC contains one novel search space which consists of 3 types of blocks and learnable connections, and one differentiable search algorithm to enable the efficient search process. Extensive experiments on five real-world datasets are conducted, and the results show that the searched layer-wise connections can not only improve the performance but also alleviate the over-smoothing problem.
翻訳日:2021-12-28 22:23:30 公開日:2021-12-27
# (参考訳) マルチモーダル画像合成と編集:調査 [全文訳有]

Multimodal Image Synthesis and Editing: A Survey ( http://arxiv.org/abs/2112.13592v1 )

ライセンス: CC BY 4.0
Fangneng Zhan, Yingchen Yu, Rongliang Wu, Jiahui Zhang, Shijian Lu(参考訳) 実世界の様々なモダリティに情報が存在するため、コンピュータビジョンやディープラーニング研究において、マルチモーダル情報間の効果的な相互作用と融合がマルチモーダルデータの生成と認識に重要な役割を果たしている。 近年,マルチモーダル情報間の相互作用をモデル化するスーパーパワーによって,マルチモーダル画像合成と編集が注目されている。 明確な手がかりを提供する従来のビジュアルガイダンスとは異なり、マルチモーダルガイダンスは画像合成と編集において直感的で柔軟な手段を提供する。 一方で、本分野は、固有のモダリティギャップ、高解像度画像の合成、忠実な評価指標など、特徴のアライメントに関するいくつかの課題にも直面している。 本研究では,最近のマルチモーダル画像合成の進歩を包括的に理解し,データモダリティとモデルアーキテクチャによる分類学の定式化を行う。 まず、画像合成と編集における様々な種類のガイダンスモダリティの導入から始める。 次に,多モード画像合成と編集手法について,gan(generative adversarial network),ganインバージョン,トランスフォーマー,およびnrfや拡散モデルなどの他の手法など,詳細なフレームワークを用いて詳細に述べる。 続いて、マルチモーダル画像合成と編集に広く採用されているベンチマークデータセットと対応する評価指標の包括的な説明と、それぞれの利点と限界の分析と異なる合成方法の詳細な比較が行われる。 最後に,現在の研究課題と今後の研究方向性について考察する。 この調査に関連するプロジェクトはhttps://github.com/f nzhan/miseで入手できる。

As information exists in various modalities in real world, effective interaction and fusion among multimodal information plays a key role for the creation and perception of multimodal data in computer vision and deep learning research. With superb power in modelling the interaction among multimodal information, multimodal image synthesis and editing have become a hot research topic in recent years. Different from traditional visual guidance which provides explicit clues, multimodal guidance offers intuitive and flexible means in image synthesis and editing. On the other hand, this field is also facing several challenges in alignment of features with inherent modality gaps, synthesis of high-resolution images, faithful evaluation metrics, etc. In this survey, we comprehensively contextualize the advance of the recent multimodal image synthesis \& editing and formulate taxonomies according to data modality and model architectures. We start with an introduction to different types of guidance modalities in image synthesis and editing. We then describe multimodal image synthesis and editing approaches extensively with detailed frameworks including Generative Adversarial Networks (GANs), GAN Inversion, Transformers, and other methods such as NeRF and Diffusion models. This is followed by a comprehensive description of benchmark datasets and corresponding evaluation metrics as widely adopted in multimodal image synthesis and editing, as well as detailed comparisons of different synthesis methods with analysis of respective advantages and limitations. Finally, we provide insights into the current research challenges and possible future research directions. A project associated with this survey is available at https://github.com/f nzhan/MISE
翻訳日:2021-12-28 22:14:33 公開日:2021-12-27
# (参考訳) MIMO干渉チャンネル上でのオーバー・ザ・エアマルチタスクフェデレーション学習 [全文訳有]

Over-the-Air Multi-Task Federated Learning Over MIMO Interference Channel ( http://arxiv.org/abs/2112.13603v1 )

ライセンス: CC BY 4.0
Chenxi Zhong, Huiyuan Yang, and Xiaojun Yuan(参考訳) データと無線機器の爆発的な成長により、大規模インテリジェントシステムにとって有望な技術としてフェデレートラーニング(FL)が誕生した。 電磁波のアナログ重ね合わせを利用して、over-the-air計算はflモデルアグリゲーションにおける通信の負担を軽減するための魅力的な手法である。 しかし、インテリジェントシステムに対する緊急の要求により、オーバー・ザ・エア計算による複数のタスクの訓練により、通信資源の不足はさらに増大する。 この問題は、共有通信リソースと並行して複数のタスクをトレーニングすることである程度緩和できるが、後者は必然的にタスク間干渉の問題をもたらす。 本稿では,マルチ入力マルチタスクfl(oa-mtfl)をmimo(multiple-input multiple-output)干渉チャネル上で検討する。 本稿では,異なる機器の局所勾配のアライメントのための新しいモデル集約法を提案し,チャネルの不均一性による空域計算において広く存在するストラグラー問題を緩和する。 我々は、デバイス間の空間的相関を考慮したOA-MTFL方式の統一的な通信計算分析フレームワークを構築し、トランシーバビームフォーミングとデバイス選択を設計する最適化問題を定式化する。 この問題を解決するために交互最適化(ao)と分数プログラミング(fp)を用いて,タスク間干渉がfl学習性能に与える影響を効果的に軽減するアルゴリズムを開発した。 提案手法では,新しいモデルアグリゲーション手法を用いることで,デバイス選択が不要となり,デバイス選択によって生じる計算負荷を回避できることを示した。 解析結果から,解析の正確さと提案手法の優れた性能が示された。

With the explosive growth of data and wireless devices, federated learning (FL) has emerged as a promising technology for large-scale intelligent systems. Utilizing the analog superposition of electromagnetic waves, over-the-air computation is an appealing approach to reduce the burden of communication in the FL model aggregation. However, with the urgent demand for intelligent systems, the training of multiple tasks with over-the-air computation further aggravates the scarcity of communication resources. This issue can be alleviated to some extent by training multiple tasks simultaneously with shared communication resources, but the latter inevitably brings about the problem of inter-task interference. In this paper, we study over-the-air multi-task FL (OA-MTFL) over the multiple-input multiple-output (MIMO) interference channel. We propose a novel model aggregation method for the alignment of local gradients for different devices, which alleviates the straggler problem that exists widely in over-the-air computation due to the channel heterogeneity. We establish a unified communication-comput ation analysis framework for the proposed OA-MTFL scheme by considering the spatial correlation between devices, and formulate an optimization problem of designing transceiver beamforming and device selection. We develop an algorithm by using alternating optimization (AO) and fractional programming (FP) to solve this problem, which effectively relieves the impact of inter-task interference on the FL learning performance. We show that due to the use of the new model aggregation method, device selection is no longer essential to our scheme, thereby avoiding the heavy computational burden caused by implementing device selection. The numerical results demonstrate the correctness of the analysis and the outstanding performance of the proposed scheme.
翻訳日:2021-12-28 21:12:03 公開日:2021-12-27
# (参考訳) 3次元強化α-GANを用いたラット脳MRI画像の合成 [全文訳有]

Generation of Synthetic Rat Brain MRI scans with a 3D Enhanced Alpha-GAN ( http://arxiv.org/abs/2112.13626v1 )

ライセンス: CC BY-SA 4.0
Andr\'e Ferreira (1), Ricardo Magalh\~aes (2), S\'ebastien M\'eriaux (2), Victor Alves (1) ((1) Centro Algoritmi, University of Minho, Braga, Portugal, (2) Universit\'e Paris-Saclay, CEA, CNRS, BAOBAB, NeuroSpin, Gif-sur-Yvette, France)(参考訳) 磁気共鳴イメージング(MRI)を用いた翻訳脳の研究は、動物モデルが科学研究の不可欠な部分であり、超高磁場スキャナーがより利用できるようになるにつれて、ますます人気が高まっている。 MRIの欠点は、MRIスキャナーの可用性と完全なスキャンセッションの実行に必要な時間(通常は30分以上かかる)である。 データ保護法と3R倫理規則により、ディープラーニングモデルをトレーニングするための大規模なデータセットの作成も困難になる。 GAN(Generative Adversarial Networks)は他の技術よりも高い品質でデータ拡張を行うことができる。 この研究で、α-GANアーキテクチャは、ラット脳の現実的な3DMRIスキャンを生成する能力をテストするために使用される。 著者たちが認識している限り、GANに基づくアプローチが前臨床データのデータ拡張に使用されるのはこれが初めてである。 生成したスキャンは、様々な質的および定量的指標を用いて評価される。 4人の専門家によるチューリングテストでは、生成されたスキャンはほとんどの専門家を騙すことができる。 生成されたスキャンは、ラットの脳の白質、灰白質、脳脊髄液のセグメンテーションのために開発された既存のディープラーニングモデルのパフォーマンスに与える影響を評価するためにも用いられた。 モデルはDiceスコアを用いて比較された。 全脳と白質のセグメンテーションの最良の結果は、0.0172と0.00129の改善で、174のリアルスキャンと348の合成スキャンを用いたことである。 174のリアルスキャンと87の合成スキャンを用いることで、0.0038と0.0764の灰白質と脳脊髄液の分画が改善された。 そこで, 提案した新しい正規化層と損失関数を用いて, 生成したラットMRIスキャンのリアリズムを改善することができ, 生成したデータにより, 従来のデータ拡張よりもセグメンテーションモデルを改善した。

Translational brain research using Magnetic Resonance Imaging (MRI) is becoming increasingly popular as animal models are an essential part of scientific studies and ultra-high-field scanners become more available. Some drawbacks of MRI are MRI scanner availability, and the time needed to perform a full scanning session (it usually takes over 30 minutes). Data protection laws and 3R ethical rule also make it difficult to create large data sets for training Deep Learning models. Generative Adversarial Networks (GAN) have been shown capable of performing data augmentation with higher quality than other techniques. In this work, the alpha-GAN architecture is used to test its ability to generate realistic 3D MRI scans of the rat brain. As far as the authors are aware, this is the first time an approach based on GANs is used for data augmentation in preclinical data. The generated scans are evaluated using various qualitative and quantitative metrics. A Turing test performed by 4 experts has shown that the generated scans can trick almost any expert. The generated scans were also used to evaluate their impact on the performance of an existing deep learning model developed for rat brain segmentation of white matter, grey matter, and cerebrospinal fluid. The models were compared using the Dice score. The best results for the segmentation of whole brain and white matter were achieved when 174 real scans and 348 synthetic ones were used, with improvements of 0.0172 and 0.0129. The use of 174 real scans and 87 synthetic ones led to improvements of 0.0038 and 0.0764 of grey matter and cerebrospinal fluid segmentation. Thus, by using the proposed new normalisation layer and loss functions, it was possible to improve the realism of the generated rat MRI scans and it was demonstrated that using the data generated improved the segmentation model more than using conventional data augmentation.
翻訳日:2021-12-28 20:35:54 公開日:2021-12-27
# (参考訳) AdaptivePose: 適応ポイントとしての人間部品 [全文訳有]

AdaptivePose: Human Parts as Adaptive Points ( http://arxiv.org/abs/2112.13635v1 )

ライセンス: CC BY 4.0
Yabo Xiao, Xiaojuan Wang, Dongdong Yu, Guoli Wang, Qian Zhang, Mingshu He(参考訳) 複数の人物のポーズ推定法は一般にトップダウンとボトムアップのパラダイムに従っており、どちらも2段階のアプローチとみなすことができ、高い計算コストと低い効率をもたらす。 本稿では、多人数ポーズ推定タスクのためのコンパクトで効率的なパイプラインに向けて、人間部位をポイントとして表現し、人間中心を含む適応点集合と、7つの人間関連点を活用して、より細かな方法で人間のインスタンスを表現する新しいボディ表現を提案する。 斬新な表現は、様々なポーズの変形を捉えることができ、長距離中心対結合の変位を適応的に分解することで、AdaptivePoseと呼ばれるより正確に複数の人物のポーズを復元するシングルステージの微分可能なネットワークを提供する。 推測のために,提案するネットワークはグループ化と改良を排除し,複数対人ポーズを形成するための単一ステップの切り離しプロセスのみを必要とする。 DLA-34では67.4% AP / 29.4 fps、COCOテストデブデータセットでは71.3% AP / 9.1 fps、HRNet-W48では9.1 fpsである。

Multi-person pose estimation methods generally follow top-down and bottom-up paradigms, both of which can be considered as two-stage approaches thus leading to the high computation cost and low efficiency. Towards a compact and efficient pipeline for multi-person pose estimation task, in this paper, we propose to represent the human parts as points and present a novel body representation, which leverages an adaptive point set including the human center and seven human-part related points to represent the human instance in a more fine-grained manner. The novel representation is more capable of capturing the various pose deformation and adaptively factorizes the long-range center-to-joint displacement thus delivers a single-stage differentiable network to more precisely regress multi-person pose, termed as AdaptivePose. For inference, our proposed network eliminates the grouping as well as refinements and only needs a single-step disentangling process to form multi-person pose. Without any bells and whistles, we achieve the best speed-accuracy trade-offs of 67.4% AP / 29.4 fps with DLA-34 and 71.3% AP / 9.1 fps with HRNet-W48 on COCO test-dev dataset.
翻訳日:2021-12-28 20:22:09 公開日:2021-12-27
# (参考訳) マルチグラニュラ性知覚を用いた弱教師付き視聴覚サリエンシー検出 [全文訳有]

Weakly Supervised Visual-Auditory Saliency Detection with Multigranularity Perception ( http://arxiv.org/abs/2112.13697v1 )

ライセンス: CC BY 4.0
Guotao Wang, Chenglizhao Chen, Dengping Fan, Aimin Hao, and Hong Qin(参考訳) ディープラーニング技術の急激な進歩と大規模トレーニングセットの広範な利用により,ビデオサリエンシ検出モデルの性能は着実に向上している。 しかし、ディープラーニングベースのvisualaudioフィクスレーション予測はまだ初期段階にある。 現在、実際の視覚音響環境において実際の固定が記録されているのは、少数の視覚音響シーケンスのみである。 したがって、同じ視覚的な状況下で実際の固定を再現することは効率的でも必要でもない。 そこで本研究では,視覚・音響モデルトレーニングのための大規模トレーニングセットの需要を軽減するために,弱教師付きアプローチを提案する。 ビデオカテゴリタグのみを用いて、選択型クラスアクティベーションマッピング(SCAM)とそのアップグレード(SCAM+)を提案する。 空間的-時間的-聴覚的状況において、前者は最も識別的な領域を選択するための粗い対極戦略に従っており、これらの領域は通常、実際の人間の眼の固定と高い一貫性を示すことができる。 後者はSCAMに追加の多粒性知覚機構を備えており、実際の人間の視覚システムとプロセス全体がより整合している。 さらに,これらの領域の知識を蒸留して空間-時間-音声(sta)固定化予測(fp)ネットワークを新たに構築し,ビデオタグが利用できない場合に幅広い応用が可能となった。 実際の人目固定に頼らず、これらのSTA FPネットワークの性能は、完全に監督されたネットワークと同等である。 コードと結果はhttps://github.com/g uotaowang/STANetで公開されている。

Thanks to the rapid advances in deep learning techniques and the wide availability of large-scale training sets, the performance of video saliency detection models has been improving steadily and significantly. However, deep learning-based visualaudio fixation prediction is still in its infancy. At present, only a few visual-audio sequences have been furnished, with real fixations being recorded in real visual-audio environments. Hence, it would be neither efficient nor necessary to recollect real fixations under the same visual-audio circumstances. To address this problem, this paper promotes a novel approach in a weakly supervised manner to alleviate the demand of large-scale training sets for visual-audio model training. By using only the video category tags, we propose the selective class activation mapping (SCAM) and its upgrade (SCAM+). In the spatial-temporal-aud io circumstance, the former follows a coarse-to-fine strategy to select the most discriminative regions, and these regions are usually capable of exhibiting high consistency with the real human-eye fixations. The latter equips the SCAM with an additional multi-granularity perception mechanism, making the whole process more consistent with that of the real human visual system. Moreover, we distill knowledge from these regions to obtain complete new spatial-temporal-aud io (STA) fixation prediction (FP) networks, enabling broad applications in cases where video tags are not available. Without resorting to any real human-eye fixation, the performances of these STA FP networks are comparable to those of fully supervised networks. The code and results are publicly available at https://github.com/g uotaowang/STANet.
翻訳日:2021-12-28 20:07:49 公開日:2021-12-27
# (参考訳) 多視点3次元ポーズ推定のための擬似ラベルを用いた能動学習 [全文訳有]

Active Learning with Pseudo-Labels for Multi-View 3D Pose Estimation ( http://arxiv.org/abs/2112.13709v1 )

ライセンス: CC BY 4.0
Qi Feng, Kun He, He Wen, Cem Keskin, Yuting Ye(参考訳) 人体/手の位置推定はコンピュータビジョンの基本的な問題であり、学習ベースのソリューションは大量の注釈付きデータを必要とする。 注釈予算が限られている場合、ラベル効率を向上させるための一般的なアプローチはアクティブラーニング(al)であり、注釈に最も価値のある例を選択するが、選択戦略を選択することはしばしば非自明である。 本研究では,多視点設定における3次元ポーズ推定問題に対するアクティブラーニングの改善について述べる。 我々は,既存の単一視点al戦略を効率的に拡張可能なフレームワークを開発し,マルチビュー幾何学をフルに活用する2つの新しいal戦略を提案する。 さらに,自己学習の形式である予測擬似ラベルを組み込むことにより,さらなる性能向上を示す。 このシステムは,CMU Panoptic Studio と InterHand2.6M の2つの大規模ベンチマークにおいて,3次元ボディでのベースラインと手ポーズの精度を著しく向上させる。 特に、CMU Panoptic Studioでは、ラベル付きトレーニングデータの20%しか使用せず、完全に教師されたモデルのパフォーマンスにマッチできる。

Pose estimation of the human body/hand is a fundamental problem in computer vision, and learning-based solutions require a large amount of annotated data. Given limited annotation budgets, a common approach to increasing label efficiency is Active Learning (AL), which selects examples with the highest value to annotate, but choosing the selection strategy is often nontrivial. In this work, we improve Active Learning for the problem of 3D pose estimation in a multi-view setting, which is of increasing importance in many application scenarios. We develop a framework that allows us to efficiently extend existing single-view AL strategies, and then propose two novel AL strategies that make full use of multi-view geometry. Moreover, we demonstrate additional performance gains by incorporating predicted pseudo-labels, which is a form of self-training. Our system significantly outperforms baselines in 3D body and hand pose estimation on two large-scale benchmarks: CMU Panoptic Studio and InterHand2.6M. Notably, on CMU Panoptic Studio, we are able to match the performance of a fully-supervised model using only 20% of labeled training data.
翻訳日:2021-12-28 19:24:55 公開日:2021-12-27
# (参考訳) マルチドメインバランスサンプリングによる胸部X線病変予測モデルの一般化 [全文訳有]

Multi-Domain Balanced Sampling Improves Out-of-Generalizatio n of Chest X-ray Pathology Prediction Models ( http://arxiv.org/abs/2112.13734v1 )

ライセンス: CC BY 4.0
Enoch Tetteh, Joseph Viviano, Yoshua Bengio, David Krueger, Joseph Paul Cohen(参考訳) 医療画像の異なる分布シフトの下で一般化する学習モデルは、長年にわたる研究課題である。 視覚研究実践者の間では、特に敏感でクリティカルなバイオメディカル領域において、効率的で堅牢な視覚表現学習が提案されている。 本稿では,単純なバランスのとれたバッチサンプリング手法を用いた胸部x線病理の分散的一般化を提案する。 複数のトレーニングデータセット間のバランスの取れたサンプリングは、バランスを取らずにトレーニングされたベースラインモデルよりもパフォーマンスが向上する。

Learning models that generalize under different distribution shifts in medical imaging has been a long-standing research challenge. There have been several proposals for efficient and robust visual representation learning among vision research practitioners, especially in the sensitive and critical biomedical domain. In this paper, we propose an idea for out-of-distribution generalization of chest X-ray pathologies that uses a simple balanced batch sampling technique. We observed that balanced sampling between the multiple training datasets improves the performance over baseline models trained without balancing.
翻訳日:2021-12-28 19:07:38 公開日:2021-12-27
# (参考訳) Hamtajoo: 学術文書のためのペルシャのプラジャリズムチェッカー [全文訳有]

Hamtajoo: A Persian Plagiarism Checker for Academic Manuscripts ( http://arxiv.org/abs/2112.13742v1 )

ライセンス: CC BY 4.0
Vahid Zarrabi, Salar Mohtaj, Habibollah Asghari(参考訳) 近年,Web を利用した電子文書の高可用性により,特に学者の間では,盗用が深刻な課題となっている。 テキストの再使用を防止し、盗作に対抗するために様々な盗作検出システムが開発されている。 学術写本における重複テキストの発見はほぼ容易であるが、意味的に変化したテキスト再利用のパターンを見つけることは極めて重要である。 もうひとつの重要な問題は、リソースの少ない言語に対処することであり、トレーニング目的のテキスト量は少なく、NLPアプリケーション向けのツールのパフォーマンスも低い。 本稿では,ペルシャ語による学術写本の盗作検知システムであるハムタジョを紹介する。 さらに,各ステージで使用されるアルゴリズムとともに,システム全体の構造について述べる。 提案システムの性能を評価するために,PAN規格に準拠した盗作検出コーパスを用いた。

In recent years, due to the high availability of electronic documents through the Web, the plagiarism has become a serious challenge, especially among scholars. Various plagiarism detection systems have been developed to prevent text re-use and to confront plagiarism. Although it is almost easy to detect duplicate text in academic manuscripts, finding patterns of text re-use that has been semantically changed is of great importance. Another important issue is to deal with less resourced languages, which there are low volume of text for training purposes and also low performance in tools for NLP applications. In this paper, we introduce Hamtajoo, a Persian plagiarism detection system for academic manuscripts. Moreover, we describe the overall structure of the system along with the algorithms used in each stage. In order to evaluate the performance of the proposed system, we used a plagiarism detection corpus comply with the PAN standards.
翻訳日:2021-12-28 19:02:49 公開日:2021-12-27
# (参考訳) 微分プライベートサブリニア時間クラスタリング [全文訳有]

Differentially-Priva te Sublinear-Time Clustering ( http://arxiv.org/abs/2112.13751v1 )

ライセンス: CC BY 4.0
Jeremiah Blocki, Elena Grigorescu, Tamalika Mukherjee(参考訳) クラスタリングは教師なし機械学習において必須のプリミティブである。 本稿では,研究の自然な方向性として,サブ線形時間差分的クラスタリングの問題を提起する。 mishra et al. (soda, 2001) と czumaj and sohler (rand. struct. and algorithms, 2007) の k$-means と $k$-median sublinear-time の結果と、balcan et al. (icml 2017) と gupta et al. (soda, 2010) と ghazi et al. (neurips, 2020) のプライベートクラスタリングに関する最近の結果とを組み合わせることで、サブサンプリングを通じてサブリニアタイムのプライベート $k$-means と $k$median アルゴリズムを得ることができる。 グループプライバシに対するサブサンプリングのプライバシーメリットについても検討する。

Clustering is an essential primitive in unsupervised machine learning. We bring forth the problem of sublinear-time differentially-priva te clustering as a natural and well-motivated direction of research. We combine the $k$-means and $k$-median sublinear-time results of Mishra et al. (SODA, 2001) and of Czumaj and Sohler (Rand. Struct. and Algorithms, 2007) with recent results on private clustering of Balcan et al. (ICML 2017), Gupta et al. (SODA, 2010) and Ghazi et al. (NeurIPS, 2020) to obtain sublinear-time private $k$-means and $k$-median algorithms via subsampling. We also investigate the privacy benefits of subsampling for group privacy.
翻訳日:2021-12-28 18:54:52 公開日:2021-12-27
# (参考訳) インフルエンザ検出のためのウェアラブルセンサ時系列データの自己監督 [全文訳有]

Self-supervision of wearable sensors time-series data for influenza detection ( http://arxiv.org/abs/2112.13755v1 )

ライセンス: CC BY 4.0
Arinbj\"orn Kolbeinsson, Piyusha Gade, Raghu Kainkaryam, Filip Jankovic, Luca Foschini(参考訳) セルフスーパービジョンは、下流タスクにおけるモデルパフォーマンスを高める可能性がある。 しかし、最も適応可能なモデルを生み出す自己監督対象を選択するための原則的な方法はない。 本稿では,インフルエンザ様疾患(ili)の発症を検出するウェアラブルセンサから発生する時系列データを用いて,この問題について検討する。 まず,自己教師付き学習を用いて次の日の時系列値を予測することにより,精度の高いili予測に適応可能な豊かな表現を学習できることを示す。 第2に、ILI予測への適応性を評価するために、3つの異なる自己監督対象の実証分析を行った。 その結果,翌日の安静時心拍数や睡眠中の就寝時間を予測することで,ili予測の表現が向上した。 これらの知見は,活動データからの自己教師あり学習の実践的応用を実証し,健康予測の改善に寄与する。

Self-supervision may boost model performance in downstream tasks. However, there is no principled way of selecting the self-supervised objectives that yield the most adaptable models. Here, we study this problem on daily time-series data generated from wearable sensors used to detect onset of influenza-like illness (ILI). We first show that using self-supervised learning to predict next-day time-series values allows us to learn rich representations which can be adapted to perform accurate ILI prediction. Second, we perform an empirical analysis of three different self-supervised objectives to assess their adaptability to ILI prediction. Our results show that predicting the next day's resting heart rate or time-in-bed during sleep provides better representations for ILI prediction. These findings add to previous work demonstrating the practical application of self-supervised learning from activity data to improve health predictions.
翻訳日:2021-12-28 18:29:56 公開日:2021-12-27
# (参考訳) ニューラルネットワークによる疾患コードアサインメントのための臨床問題リストの二次的活用 [全文訳有]

Secondary Use of Clinical Problem List Entries for Neural Network-Based Disease Code Assignment ( http://arxiv.org/abs/2112.13756v1 )

ライセンス: CC BY 4.0
Markus Kreuzthaler and Stefan Schulz(参考訳) 臨床情報システムは、半構造化アノテートされた医療データのための大規模なリポジトリとなり、教師付きデータ駆動ニューラルネットワークアプローチで興味深い重要な質量に達している。 国際疾病分類分類(icd-10)を用いて50文字の長期臨床課題リスト項目の自動符号化を行い、上位100のicd-103桁コードで3種類のネットワークアーキテクチャを評価した。 fastTextベースラインは、マクロ平均F1測定値0.83に達し、その後、マクロ平均F1測定値0.84の文字レベルLSTMが続いた。 トップパフォーマンスは、マクロ平均F1測定値0.88のカスタム言語モデルを使用した、ダウンストリームのRoBERTaモデルである。 ニューラルネットワークのアクティベーション解析と偽陽性と偽陰性の調査により、手作業による符号化が主な制限要因であることが明らかとなった。

Clinical information systems have become large repositories for semi-structured annotated healthcare data, which have reached a critical mass that makes them interesting for supervised data-driven neural network approaches. We explored automated coding of 50 character long clinical problem list entries using the International Classification of Diseases (ICD-10) and evaluated three different types of network architectures on the top 100 ICD-10 three-digit codes. A fastText baseline reached a macro-averaged F1-measure of 0.83, followed by a character-level LSTM with a macro-averaged F1-measure of 0.84. Top performing was a downstreamed RoBERTa model using a custom language model with a macro-averaged F1-measure of 0.88. A neural network activation analysis together with an investigation of the false positives and false negatives unveiled inconsistent manual coding as a main limiting factor.
翻訳日:2021-12-28 18:23:57 公開日:2021-12-27
# (参考訳) スマートウォーターメータデータの社会経済特性を明らかにするための動的時温クラスタリング [全文訳有]

Dynamic Time Warping Clustering to Discover Socio-Economic Characteristics in Smart Water Meter Data ( http://arxiv.org/abs/2112.13778v1 )

ライセンス: CC BY-SA 4.0
D. B. Steffelbauer, E. J. M. Blokker, S. G. Buchberger, A. Knobbe, E. Abraham(参考訳) 社会経済的特性は、水需要の時間的・空間的変動に影響を与えている。 これらの影響に関する知識を向上させることで、需要の不確実性を減らすことができる。 本稿では,日々の需要パターンに動的時間変化量を用いたクラスタリングアルゴリズムを適用し,スマートウォーターメーターデータと社会経済的ユーザ特性を結びつけることを目的とする。 このアプローチは、シミュレーションおよび測定されたシングルファミリーホームデータセットでテストされる。 提案アルゴリズムは,クラスタの適切な数の探索やパターンの割り当てにおいて,一般的なクラスタリング手法と比較して,優れた性能を示すことを示す。 さらに、この方法論は需要パターンのクラスタ内の異常値を特定するのに使うことができる。 さらに, 社会経済的特性(雇用状況, 居住者数など)が, 単一集団内に存在するかを調査し, その結果, 集団のバリセンタの形状と関連づけられるかを検討した。 将来,提案手法と確率的需要モデルを組み合わせることで,水理モデルにおけるデータギャップを埋めることができる。

Socio-economic characteristics are influencing the temporal and spatial variability of water demand - the biggest source of uncertainties within water distribution system modeling. Improving our knowledge on these influences can be utilized to decrease demand uncertainties. This paper aims to link smart water meter data to socio-economic user characteristics by applying a novel clustering algorithm that uses a dynamic time warping metric on daily demand patterns. The approach is tested on simulated and measured single family home datasets. We show that the novel algorithm performs better compared to commonly used clustering methods, both, in finding the right number of clusters as well as assigning patterns correctly. Additionally, the methodology can be used to identify outliers within clusters of demand patterns. Furthermore, this study investigates which socio-economic characteristics (e.g. employment status, number of residents) are prevalent within single clusters and, consequently, can be linked to the shape of the cluster's barycenters. In future, the proposed methods in combination with stochastic demand models can be used to fill data-gaps in hydraulic models.
翻訳日:2021-12-28 18:10:18 公開日:2021-12-27
# (参考訳) ロボットの視覚・触覚物体認識のためのAUデータセット [全文訳有]

AU Dataset for Visuo-Haptic Object Recognition for Robots ( http://arxiv.org/abs/2112.13761v1 )

ライセンス: CC BY 4.0
Lasse Emil R. Bonner, and Daniel Daugaard Buhl, and Kristian Kristensen, and Nicol\'as Navarro-Guerrero(参考訳) マルチモーダルオブジェクト認識はまだ新興分野である。 したがって、公開されているデータセットはまだ稀で、サイズも小さい。 このデータセットは、この空白を埋めるために開発され、視覚的および触覚的曖昧さのある63のオブジェクトに対してマルチモーダルデータを提示する。 データセットには、視覚、審美、触覚(オーディオ/振動)データが含まれている。 感覚の曖昧さを完全に解決するには、感覚統合/融合が必要である。 本報告ではデータセットの作成と構造について述べる。 最初のセクションでは、オブジェクトの視覚的および触覚的特性をキャプチャするために使用される基礎となるアプローチを説明します。 第2のセクションでは、データ収集に必要な技術的側面(実験的なセットアップ)について説明する。 第3のセクションではオブジェクトを紹介し、最後のセクションではデータセットの構造と内容について説明する。

Multimodal object recognition is still an emerging field. Thus, publicly available datasets are still rare and of small size. This dataset was developed to help fill this void and presents multimodal data for 63 objects with some visual and haptic ambiguity. The dataset contains visual, kinesthetic and tactile (audio/vibrations) data. To completely solve sensory ambiguity, sensory integration/fusion would be required. This report describes the creation and structure of the dataset. The first section explains the underlying approach used to capture the visual and haptic properties of the objects. The second section describes the technical aspects (experimental setup) needed for the collection of the data. The third section introduces the objects, while the final section describes the structure and content of the dataset.
翻訳日:2021-12-28 17:49:36 公開日:2021-12-27
# マスク誘導型多極性統合ニューラルネットワークによる異種土壌環境における樹木根のパラメータ推定

Estimating Parameters of the Tree Root in Heterogeneous Soil Environments via Mask-Guided Multi-Polarimetric Integration Neural Network ( http://arxiv.org/abs/2112.13494v1 )

ライセンス: Link先を確認
Hai-Han Sun, Yee Hui Lee, Qiqi Dai, Chongyi Li, Genevieve Ow, Mohamed Lokman Mohd Yusof, and Abdulkadir C. Yucel(参考訳) 地中レーダ(GPR)は樹木根検査の非破壊ツールとして使用されている。 GPRレーダグラムから根関連パラメータを推定することは根の健康モニタリングとイメージングを大いに促進する。 しかし、ルート反射は複数のルートパラメータとルート配向の複雑な関数であるため、根関連パラメータを推定する作業は困難である。 既存の手法では、他のパラメータやルート方向の影響を考慮せずに、一度に1つのルートパラメータを推定できるため、異なるルート条件下での推定精度は限られている。 さらに、土壌の不均一性はGPRレーダグラムに乱れを導入し、データ処理と解釈をさらに困難にする。 これらの問題に対処するために、マスク誘導多極性統合ニューラルネットワーク(MMI-Net)と呼ばれる新しいニューラルネットワークアーキテクチャを提案し、異種土壌環境における複数のルート関連パラメータを自動かつ同時に推定する。 MMI-Netには2つのサブネットワークがある: マスクを予測してルート反射領域をハイライトし、干渉する環境クラッタを除去するMaskNetと、予測マスクをガイダンスとして使用して5つの主要なルート関連パラメータを正確に推定するマルチポーラリメトリックレーダグラムにおける情報的特徴の統合、抽出、強調するParaNetである。 パラメータには、根の深さ、直径、相対誘電率、水平方向および垂直方向角が含まれる。 MMI-Netはこれらのルート関連パラメータにおいて高い推定精度が得られることを示す。 これは、ルートパラメータと空間方向の結合寄与を考慮し、同時に複数のルート関連パラメータを推定する最初の仕事である。 この論文で実装されたデータとコードはhttps://haihan-sun.g ithub.io/GPR.htmlで見ることができる。

Ground-penetrating radar (GPR) has been used as a non-destructive tool for tree root inspection. Estimating root-related parameters from GPR radargrams greatly facilitates root health monitoring and imaging. However, the task of estimating root-related parameters is challenging as the root reflection is a complex function of multiple root parameters and root orientations. Existing methods can only estimate a single root parameter at a time without considering the influence of other parameters and root orientations, resulting in limited estimation accuracy under different root conditions. In addition, soil heterogeneity introduces clutter in GPR radargrams, making the data processing and interpretation even harder. To address these issues, a novel neural network architecture, called mask-guided multi-polarimetric integration neural network (MMI-Net), is proposed to automatically and simultaneously estimate multiple root-related parameters in heterogeneous soil environments. The MMI-Net includes two sub-networks: a MaskNet that predicts a mask to highlight the root reflection area to eliminate interfering environmental clutter, and a ParaNet that uses the predicted mask as guidance to integrate, extract, and emphasize informative features in multi-polarimetric radargrams for accurate estimation of five key root-related parameters. The parameters include the root depth, diameter, relative permittivity, horizontal and vertical orientation angles. Experimental results demonstrate that the proposed MMI-Net achieves high estimation accuracy in these root-related parameters. This is the first work that takes the combined contributions of root parameters and spatial orientations into account and simultaneously estimates multiple root-related parameters. The data and code implemented in the paper can be found at https://haihan-sun.g ithub.io/GPR.html.
翻訳日:2021-12-28 17:41:14 公開日:2021-12-27
# dam-al: 3次元乳児脳画像分割における注意損失を伴う拡張注意機構

DAM-AL: Dilated Attention Mechanism with Attention Loss for 3D Infant Brain Image Segmentation ( http://arxiv.org/abs/2112.13559v1 )

ライセンス: Link先を確認
Dinh-Hieu Hoang, Gia-Han Diep, Minh-Triet Tran and Ngan T.H Le(参考訳) 磁気共鳴イメージング(MRI)は、乳児の脳分析において重要な役割を担っているが、MRIを灰白質(GM)、白質(WM)、髄液(CSF)などの多くの組織に分割することは、約6~9ヶ月の組織間の非常に低いコントラスト、増幅ノイズ、ミエリン化、不完全体積のために重要で複雑である。 そこで本稿では,本論文では,拡張注意機構とハードケース注意損失という2つの主な貢献を含む,新しい深層学習モデルであるdam-alを開発した。 DAM-ALネットワークはスキップブロック層とアトラスブロック畳み込みによって設計されている。 高レベルの空間的特徴に対するチャネルワイドの注意と低レベルの空間的特徴に対する空間的注意の両方を含んでいる。 我々の注意喪失は、地域情報とハードサンプルの注意に対応する2つの用語からなる。 提案するdam-alは乳児脳iseg 2017データセットで評価され,検証とテストの両方で実験が行われている。 我々はDice係数とASD値のDAM-ALをベンチマークし、最先端の手法と比較した。

While Magnetic Resonance Imaging (MRI) has played an essential role in infant brain analysis, segmenting MRI into a number of tissues such as gray matter (GM), white matter (WM), and cerebrospinal fluid (CSF) is crucial and complex due to the extremely low intensity contrast between tissues at around 6-9 months of age as well as amplified noise, myelination, and incomplete volume. In this paper, we tackle those limitations by developing a new deep learning model, named DAM-AL, which contains two main contributions, i.e., dilated attention mechanism and hard-case attention loss. Our DAM-AL network is designed with skip block layers and atrous block convolution. It contains both channel-wise attention at high-level context features and spatial attention at low-level spatial structural features. Our attention loss consists of two terms corresponding to region information and hard samples attention. Our proposed DAM-AL has been evaluated on the infant brain iSeg 2017 dataset and the experiments have been conducted on both validation and testing sets. We have benchmarked DAM-AL on Dice coefficient and ASD metrics and compared it with state-of-the-art methods.
翻訳日:2021-12-28 17:40:43 公開日:2021-12-27
# sim-to-real転送を用いた内視鏡の深さ推定

Depth estimation of endoscopy using sim-to-real transfer ( http://arxiv.org/abs/2112.13595v1 )

ライセンス: Link先を確認
Bong Hyuk Jeong, Hang Keun Kim, and Young Don Son(参考訳) ナビゲーションシステムを効果的に利用するためには,深度センサなどの距離情報センサが不可欠である。 深度センサは内視鏡での使用が困難であるため,多くのグループが畳み込みニューラルネットワークを用いた手法を提案する。 本稿では,ct大腸造影法で分割した大腸モデルを用いて内視鏡シミュレーションを行い,深度像と内視鏡像の基底的真理を明らかにした。 光実写シミュレーション画像は、内視鏡画像にCycleGANを用いたシミュレートリアルアプローチを用いて作成することができる。 生成されたデータセットをトレーニングすることにより,定量的な内視鏡深度推定ネットワークを提案する。 提案手法は,既存の教師なし学習結果よりも優れた評価スコアを示す。

In order to use the navigation system effectively, distance information sensors such as depth sensors are essential. Since depth sensors are difficult to use in endoscopy, many groups propose a method using convolutional neural networks. In this paper, the ground truth of the depth image and the endoscopy image is generated through endoscopy simulation using the colon model segmented by CT colonography. Photo-realistic simulation images can be created using a sim-to-real approach using cycleGAN for endoscopy images. By training the generated dataset, we propose a quantitative endoscopy depth estimation network. The proposed method represents a better-evaluated score than the existing unsupervised training-based results.
翻訳日:2021-12-28 17:40:15 公開日:2021-12-27
# パーキンソン病DaTscan画像の自己正規化分類

Self-normalized Classification of Parkinson's Disease DaTscan Images ( http://arxiv.org/abs/2112.13637v1 )

ライセンス: Link先を確認
Yuan Zhou and Hemant D. Tagare(参考訳) SPECT画像の分類には、正規化領域を使用して画像を正規化する前処理ステップが必要である。 正規化領域の選択は標準ではなく、異なる正規化領域を使用することで正規化領域依存の変動性がもたらされる。 本稿では、正規化領域の効果を数学的に解析し、正規化分類が乗法同値下の画像の半光線の部分空間分離と正確に等価であることを示す。 この幾何を用いて、新しい自己正規化分類戦略を提案する。 この戦略は正規化領域を完全に排除する。 この理論は、パーキンソン病(PD)とパーキンソン進歩マーカーイニシアチブ(PPMI)の208人の健康管理(HC)被験者のDaTscan画像の分類に用いられている。 この理論は、PD進行をベースラインから年4まで理解するためにも用いられる。

Classifying SPECT images requires a preprocessing step which normalizes the images using a normalization region. The choice of the normalization region is not standard, and using different normalization regions introduces normalization region-dependent variability. This paper mathematically analyzes the effect of the normalization region to show that normalized-classific ation is exactly equivalent to a subspace separation of the half rays of the images under multiplicative equivalence. Using this geometry, a new self-normalized classification strategy is proposed. This strategy eliminates the normalizing region altogether. The theory is used to classify DaTscan images of 365 Parkinson's disease (PD) subjects and 208 healthy control (HC) subjects from the Parkinson's Progression Marker Initiative (PPMI). The theory is also used to understand PD progression from baseline to year 4.
翻訳日:2021-12-28 17:40:06 公開日:2021-12-27
# 時間拘束型ニューラルネットワーク(TCNN):半教師付きビデオセマンティックセグメンテーションのためのフレームワーク

Temporally Constrained Neural Networks (TCNN): A framework for semi-supervised video semantic segmentation ( http://arxiv.org/abs/2112.13815v1 )

ライセンス: Link先を確認
Deepak Alapatt, Pietro Mascagni, Armine Vardazaryan, Alain Garcia, Nariaki Okamoto, Didier Mutter, Jacques Marescaux, Guido Costamagna, Bernard Dallemagne, Nicolas Padoy(参考訳) 効果的なセマンティクスセグメンテーション、特にビデオセマンティクスセグメンテーションのためのモデルを構築する上での大きな障害は、大きな注釈付きデータセットの欠如である。 このボトルネックは、ビデオ意味セマンティクスのセグメンテーションが重要な用途を持つが、データや専門家のアノテーションが不足する、医療や手術のような高度に専門的で規制された分野において、特に禁止されている。 これらの設定では、時間的手がかりと解剖学的制約がトレーニング中に活用され、パフォーマンスが向上する。 本稿では,手術ビデオのセマンティックセグメンテーションに使用される半教師付きフレームワークであるTCNNを紹介する。 本研究では,自動エンコーダネットワークを用いて,空間的および時間的監視信号を効率的に提供し,ディープラーニングモデルをトレーニングできることを示す。 本手法は,腹腔鏡下胆嚢摘出術,内分泌術,白内障手術の適応の動画データセットであるCaDISを用いて試験を行った。 予測マスクの低次元表現は、推論時に余分な計算コストを伴わないスパースラベル付きデータセットに一貫した改善をもたらすことができることを示す。 さらに、tcnnフレームワークはモデルに依存しず、最小限の複雑さで他のモデル設計選択と併用することができる。

A major obstacle to building models for effective semantic segmentation, and particularly video semantic segmentation, is a lack of large and well annotated datasets. This bottleneck is particularly prohibitive in highly specialized and regulated fields such as medicine and surgery, where video semantic segmentation could have important applications but data and expert annotations are scarce. In these settings, temporal clues and anatomical constraints could be leveraged during training to improve performance. Here, we present Temporally Constrained Neural Networks (TCNN), a semi-supervised framework used for video semantic segmentation of surgical videos. In this work, we show that autoencoder networks can be used to efficiently provide both spatial and temporal supervisory signals to train deep learning models. We test our method on a newly introduced video dataset of laparoscopic cholecystectomy procedures, Endoscapes, and an adaptation of a public dataset of cataract surgeries, CaDIS. We demonstrate that lower-dimensional representations of predicted masks can be leveraged to provide a consistent improvement on both sparsely labeled datasets with no additional computational cost at inference time. Further, the TCNN framework is model-agnostic and can be used in conjunction with other model design choices with minimal additional complexity.
翻訳日:2021-12-28 17:38:46 公開日:2021-12-27
# Mind the Gap:階層的知識強化による言語間情報検索

Mind the Gap: Cross-Lingual Information Retrieval with Hierarchical Knowledge Enhancement ( http://arxiv.org/abs/2112.13510v1 )

ライセンス: Link先を確認
Fuwei Zhang, Zhao Zhang, Xiang Ao, Dehong Gao, Fuzhen Zhuang, Yi Wei, Qing He(参考訳) Cross-Lingual Information Retrieval (CLIR) は、ユーザのクエリとは異なる言語で書かれたドキュメントをランク付けすることを目的としている。 異なる言語間の固有のギャップは、CLIRにとって重要な課題である。 本稿では,複数の言語におけるエンティティの十分な情報により,多言語知識グラフ(KG)をCLIRタスクに導入する。 クエリとドキュメント間の明示的なアライメントを同時に実行し、クエリの表現を広げる「銀の弾丸」と見なされている。 また,階層的知識向上(HIKE)を用いたCLIRというモデルを提案する。 提案モデルでは,クエリやドキュメント,KGのテキスト情報を多言語BERTでエンコードし,クエリ文書マッチングプロセスに階層的な情報融合機構を組み込む。 特に、HIKEはまず、KGのエンティティとその周辺を知識レベルの融合とクエリ表現に統合し、ソース言語とターゲット言語の両方からの知識を組み合わせて言語レベルの融合と言語ギャップをさらに緩和する。 最後に,実験結果から,HIKEは最先端の競争相手よりも大幅に改善されていることが示された。

Cross-Lingual Information Retrieval (CLIR) aims to rank the documents written in a language different from the user's query. The intrinsic gap between different languages is an essential challenge for CLIR. In this paper, we introduce the multilingual knowledge graph (KG) to the CLIR task due to the sufficient information of entities in multiple languages. It is regarded as a "silver bullet" to simultaneously perform explicit alignment between queries and documents and also broaden the representations of queries. And we propose a model named CLIR with hierarchical knowledge enhancement (HIKE) for our task. The proposed model encodes the textual information in queries, documents and the KG with multilingual BERT, and incorporates the KG information in the query-document matching process with a hierarchical information fusion mechanism. Particularly, HIKE first integrates the entities and their neighborhood in KG into query representations with a knowledge-level fusion, then combines the knowledge from both source and target languages to further mitigate the linguistic gap with a language-level fusion. Finally, experimental results demonstrate that HIKE achieves substantial improvements over state-of-the-art competitors.
翻訳日:2021-12-28 17:31:58 公開日:2021-12-27
# シナリオ適応混合によるクリックスルー率予測

SAME: Scenario Adaptive Mixture-of-Experts for Promotion-Aware Click-Through Rate Prediction ( http://arxiv.org/abs/2112.13747v1 )

ライセンス: Link先を確認
Xiaofeng Pan, Yibin Shen, Jing Zhang, Keren Yu, Hong Wen, Shui Liu, Chengjun Mao and Bo Cao(参考訳) eコマースプラットフォームでは、顧客を惹きつけ、売上を増やすためにプロモーションがより重要で普及している。 しかし、レコメンデータシステムにおけるクリックスルーレート(CTR)予測手法は、このような状況にうまく対応できない。 1) オンラインデータ配信が不確実であるため,今後の昇進が期待できるため,サービス提供に適さない。 2) シナリオ信号に十分な注意を払わずに,各シナリオに共存する異なる特徴表現パターンを学習することができない。 本研究では,プロモーショナルシナリオとノーマルシナリオの両方に対応する,単純かつ効果的なモデルであるsame(adaptive mix-of-experts)を提案する。 技術的には、複数の専門家を用いて特徴表現を学習し、注意機構を通じて特徴ゲーテッドネットワーク(FGN)によって変調される。 高品質な表現を得るために,各専門家がユーザ動作シーケンスをよりよく処理できるように,SPAU(Stacked Parallel Attention Unit)を設計する。 分布の不確実性に対処するために、時系列予測の観点からシナリオ信号のセットを精巧に考案し、FGNに入力し、その出力を各専門家の特徴表現と結合して注意を喚起する。 これにより、シナリオ適応的に特徴表現の混合を取得し、最終的なCTR予測に使用する。 このようにして、各専門家は識別表現パターンを学ぶことができる。 我々の知る限りでは、CTR予測の促進を意識した最初の研究である。 実世界のデータセットにおける実験結果は、その優越性を検証する。 オンラインA/Bテストでは、PASEはCTRで3.58%、IPVで5.94%、通常日で3.93%、そして6.57%の大幅な上昇を示している。

Promotions are becoming more important and prevalent in e-commerce platforms to attract customers and boost sales. However, Click-Through Rate (CTR) prediction methods in recommender systems are not able to handle such circumstances well since: 1) they can't generalize well to serving because the online data distribution is uncertain due to the potentially upcoming promotions; 2) without paying enough attention to scenario signals, they are incapable of learning different feature representation patterns which coexist in each scenario. In this work, we propose Scenario Adaptive Mixture-of-Experts (SAME), a simple yet effective model that serves both promotion and normal scenarios. Technically, it follows the idea of Mixture-of-Experts by adopting multiple experts to learn feature representations, which are modulated by a Feature Gated Network (FGN) via an attention mechanism. To obtain high-quality representations, we design a Stacked Parallel Attention Unit (SPAU) to help each expert better handle user behavior sequence. To tackle the distribution uncertainty, a set of scenario signals are elaborately devised from a perspective of time series prediction and fed into the FGN, whose output is concatenated with feature representation from each expert to learn the attention. Accordingly, a mixture of the feature representations is obtained scenario-adaptively and used for the final CTR prediction. In this way, each expert can learn a discriminative representation pattern. To the best of our knowledge, this is the first study for promotion-aware CTR prediction. Experimental results on real-world datasets validate the superiority of SAME. Online A/B test also shows SAME achieves significant gains of 3.58% on CTR and 5.94% on IPV during promotion periods as well as 3.93% and 6.57% in normal days, respectively.
翻訳日:2021-12-28 17:31:39 公開日:2021-12-27
# 小規模レコメンデーションシナリオにおけるメタラーニングによるコンバージョン率予測

Conversion Rate Prediction via Meta Learning in Small-Scale Recommendation Scenarios ( http://arxiv.org/abs/2112.13753v1 )

ライセンス: Link先を確認
Xiaofeng Pan, Ming Li, Jing Zhang, Keren Yu, Luping Wang, Hong Wen, Chengjun Mao and Bo Cao(参考訳) taobaoやamazonのような大規模プラットフォームとは異なり、小規模レコメンデーションシナリオでのcvrモデルの開発は、深刻なデータ分散変動(ddf)の問題のため、より困難である。 DDFは既存のCVRモデルが有効になるのを防ぐ 1)小さなシナリオで十分なCVRモデルをトレーニングするためには、数ヶ月のデータが必要であり、トレーニングとオンラインサービスの間にかなりの分散不一致が生じます。 2)電子商取引の促進は小規模なシナリオに多大な影響を与え、今後の期間の流通の不確実性をもたらす。 本研究では,メタ学習の観点からメタCVRという新しいCVR手法を提案し,DDF問題に対処する。 まず、機能表現ネットワーク(frn)と出力層からなるベースcvrモデルを精巧に設計し、数ヶ月にわたってサンプルで十分に訓練する。 そして、異なるデータ分布を持つ期間を異なる機会として扱い、対応するサンプルと予め訓練されたfrnを用いて、各機会に正負のプロトタイプを得る。 その後、分散距離ネットワーク(DMN)が考案され、各サンプルとプロトタイプ間の距離メトリクスを計算し、分布の不確実性を緩和する。 最終的に、FRNとDMNの出力を組み込んだEnsemble Prediction Network (EPN)を開発し、最終的なCVR予測を行う。 この段階では、FRNを凍結し、近年のサンプルでDMNとEPNを訓練することにより、分散の相違を効果的に緩和する。 我々の知る限りでは、小規模なレコメンデーションシナリオにおけるDFF問題を対象としたCVR予測の最初の研究である。 MetaCVRとオンラインA/Bテストの優位性を実証する実世界のデータセットの実験結果からも、PCVRでは11.92%、GMVでは8.64%という驚くべき成果が得られた。

Different from large-scale platforms such as Taobao and Amazon, developing CVR models in small-scale recommendation scenarios is more challenging due to the severe Data Distribution Fluctuation (DDF) issue. DDF prevents existing CVR models from being effective since 1) several months of data are needed to train CVR models sufficiently in small scenarios, leading to considerable distribution discrepancy between training and online serving; and 2) e-commerce promotions have much more significant impacts on small scenarios, leading to distribution uncertainty of the upcoming time period. In this work, we propose a novel CVR method named MetaCVR from a perspective of meta learning to address the DDF issue. Firstly, a base CVR model which consists of a Feature Representation Network (FRN) and output layers is elaborately designed and trained sufficiently with samples across months. Then we treat time periods with different data distributions as different occasions and obtain positive and negative prototypes for each occasion using the corresponding samples and the pre-trained FRN. Subsequently, a Distance Metric Network (DMN) is devised to calculate the distance metrics between each sample and all prototypes to facilitate mitigating the distribution uncertainty. At last, we develop an Ensemble Prediction Network (EPN) which incorporates the output of FRN and DMN to make the final CVR prediction. In this stage, we freeze the FRN and train the DMN and EPN with samples from recent time period, therefore effectively easing the distribution discrepancy. To the best of our knowledge, this is the first study of CVR prediction targeting the DDF issue in small-scale recommendation scenarios. Experimental results on real-world datasets validate the superiority of our MetaCVR and online A/B test also shows our model achieves impressive gains of 11.92% on PCVR and 8.64% on GMV.
翻訳日:2021-12-28 17:31:07 公開日:2021-12-27
# 最悪の場合の予測誤差に対する高速アルゴリズムと定数下限

Faster Algorithms and Constant Lower Bounds for the Worst-Case Expected Error ( http://arxiv.org/abs/2112.13832v1 )

ライセンス: Link先を確認
Jonah Brown-Cohen(参考訳) データ値の分布的仮定を伴わない統計的推定法の研究が最近, chen, valiant, valiant (neurips 2020) によって紹介された。 このフレームワークでは、最悪のエラーを最小限に抑える推定器を設計することが目標である。 ここでは、一部の個体群から既知のランダム化データ収集プロセスが期待され、個体群の各要素に対応するデータ値が最悪のケースであると仮定する。 Chen, Valiant および Valiant は、データ値が $\ell_{\infty}$-正規化されているとき、半線形推定器の自然クラスにおける最適値の係数 $\frac{\pi}{2}$ 内の最悪の予測誤差の平均に対する推定器を計算する多項式時間アルゴリズムが存在することを示した。 しかし、それらのアルゴリズムは、正の半定値行列の制約付き集合に対して幾分複雑な凸目的関数を最適化することに基づいているため、入力における多項式時間以上の明示的なランタイム保証は持たない。 本稿では,オンライン凸最適化に基づく最適半線形推定器の近似アルゴリズムの設計を行う。 データ値が$\ell_{\infty}$-正規化されている場合、我々のアルゴリズムは標準SDPの列を反復的に解くことによって$\frac{\pi}{2}$-近似を達成する。 データ値が$\ell_2$正規化されるとき、このアルゴリズムは行列列の最上位固有ベクトルを反復計算し、乗法近似係数を失うことはない。 データ収集プロセスで満たされた場合、平均の任意の(必ずしも半線形ではない)推定器が常に最悪のケース予測誤差を持つことを示す単純な組合せ条件を述べることで、これらの肯定的な結果を補完する。

The study of statistical estimation without distributional assumptions on data values, but with knowledge of data collection methods was recently introduced by Chen, Valiant and Valiant (NeurIPS 2020). In this framework, the goal is to design estimators that minimize the worst-case expected error. Here the expectation is over a known, randomized data collection process from some population, and the data values corresponding to each element of the population are assumed to be worst-case. Chen, Valiant and Valiant show that, when data values are $\ell_{\infty}$-normalized, there is a polynomial time algorithm to compute an estimator for the mean with worst-case expected error that is within a factor $\frac{\pi}{2}$ of the optimum within the natural class of semilinear estimators. However, their algorithm is based on optimizing a somewhat complex concave objective function over a constrained set of positive semidefinite matrices, and thus does not come with explicit runtime guarantees beyond being polynomial time in the input. In this paper we design provably efficient algorithms for approximating the optimal semilinear estimator based on online convex optimization. In the setting where data values are $\ell_{\infty}$-normalized, our algorithm achieves a $\frac{\pi}{2}$-approximation by iteratively solving a sequence of standard SDPs. When data values are $\ell_2$-normalized, our algorithm iteratively computes the top eigenvector of a sequence of matrices, and does not lose any multiplicative approximation factor. We complement these positive results by stating a simple combinatorial condition which, if satisfied by a data collection process, implies that any (not necessarily semilinear) estimator for the mean has constant worst-case expected error.
翻訳日:2021-12-28 17:30:36 公開日:2021-12-27
# (参考訳) MSeg: マルチドメインセマンティックセグメンテーションのための複合データセット [全文訳有]

MSeg: A Composite Dataset for Multi-domain Semantic Segmentation ( http://arxiv.org/abs/2112.13762v1 )

ライセンス: CC BY-SA 4.0
John Lambert, Zhuang Liu, Ozan Sener, James Hays, Vladlen Koltun(参考訳) セマンティックセグメンテーションデータセットを異なるドメインから統合する合成データセットであるMSegを提案する。 構成データセットのナイーブなマージは、一貫性のない分類とアノテーションのプラクティスのためにパフォーマンスが低下する。 我々は分類学を精査し、20万枚以上のオブジェクトマスクを8万枚以上の画像で再現することでピクセルレベルのアノテーションを調整し、1.34年以上のアノテータの努力を要する。 その結果得られた複合データセットは、ドメイン間で効果的に機能し、トレーニング中に見えないデータセットに一般化する単一の意味セグメンテーションモデルのトレーニングを可能にする。 モデルのロバスト性を体系的に評価するベンチマークとしてゼロショットクロスデータセット転送を採用し、MSegトレーニングは、個々のデータセットのトレーニングや、提案されたコントリビューションを伴わないデータセットの単純混合と比較して、よりロバストなモデルを生成することを示す。 MSegでトレーニングされたモデルは、WildDash-v1のリーダーボードで、トレーニング中にWildDashのデータに触れることなく、堅牢なセマンティックセグメンテーションのためにランク付けされている。 我々は,2020年のロバスト・ビジョン・チャレンジ(RVC)で,このモデルを極端な一般化実験として評価した。 MSegトレーニングセットには、RVCの7つのデータセットのうち3つしか含まれていない。 驚いたことに、私たちのモデルは競争力のあるパフォーマンスを示し、ランキング2位です。 堅牢で効率的、かつ完全なシーン理解という大きな目標にどれほど近いかを評価するため、データセットを使用してインスタンスセグメンテーションとpanopticセグメンテーションモデルをトレーニングすることで、セマンティックセグメンテーションを超えていきます。 さらに,解決法や計算効率など,様々な工学的設計判断や指標についても評価した。 私たちのモデルは、この大きな目標には程遠いが、進歩には総合的な評価が不可欠である。 すべてのモデルとコードをコミュニティと共有しています。

We present MSeg, a composite dataset that unifies semantic segmentation datasets from different domains. A naive merge of the constituent datasets yields poor performance due to inconsistent taxonomies and annotation practices. We reconcile the taxonomies and bring the pixel-level annotations into alignment by relabeling more than 220,000 object masks in more than 80,000 images, requiring more than 1.34 years of collective annotator effort. The resulting composite dataset enables training a single semantic segmentation model that functions effectively across domains and generalizes to datasets that were not seen during training. We adopt zero-shot cross-dataset transfer as a benchmark to systematically evaluate a model's robustness and show that MSeg training yields substantially more robust models in comparison to training on individual datasets or naive mixing of datasets without the presented contributions. A model trained on MSeg ranks first on the WildDash-v1 leaderboard for robust semantic segmentation, with no exposure to WildDash data during training. We evaluate our models in the 2020 Robust Vision Challenge (RVC) as an extreme generalization experiment. MSeg training sets include only three of the seven datasets in the RVC; more importantly, the evaluation taxonomy of RVC is different and more detailed. Surprisingly, our model shows competitive performance and ranks second. To evaluate how close we are to the grand aim of robust, efficient, and complete scene understanding, we go beyond semantic segmentation by training instance segmentation and panoptic segmentation models using our dataset. Moreover, we also evaluate various engineering design decisions and metrics, including resolution and computational efficiency. Although our models are far from this grand aim, our comprehensive evaluation is crucial for progress. We share all the models and code with the community.
翻訳日:2021-12-28 17:23:15 公開日:2021-12-27
# 政策に基づく深層強化学習によるインテリジェントトラヒックライト

Intelligent Traffic Light via Policy-based Deep Reinforcement Learning ( http://arxiv.org/abs/2112.13817v1 )

ライセンス: Link先を確認
Yue Zhu, Mingyu Cai, Chris Schwarz, Junchao Li, and Shaoping Xiao(参考訳) スマートシティのインテリジェントな交通ライトは、交通渋滞を最適に減らすことができる。 本研究では,都市移動シミュレータ上で交通信号の制御エージェントを訓練するために強化学習を利用する。 従来の作業と異なり,政策に基づく深層強化学習手法であるPPO(Proximal Policy Optimization)が,Deep Q Network(DQN)やDouble DQN(DDQN)といった価値ベースの手法以外に利用される。 まず、PPOから得られた最適ポリシーをDQNおよびDDQNから得たポリシーと比較する。 PPOの方針は他の政策よりも優れていることが判明した。 次に,一定のインターバルのトラヒック光位相ではなく,時間間隔の異なる光位相を採用することにより,トラヒックフローを通過させるポリシが向上する。 そして,学習ベースコントローラが頑健であることを示すため,環境と行動障害の影響について検討した。 最終的に、バランスの取れていない交通の流れを考慮し、バランスの取れていない交通シナリオに対してインテリジェントな交通信号が適度に機能することを発見した。

Intelligent traffic lights in smart cities can optimally reduce traffic congestion. In this study, we employ reinforcement learning to train the control agent of a traffic light on a simulator of urban mobility. As a difference from existing works, a policy-based deep reinforcement learning method, Proximal Policy Optimization (PPO), is utilized other than value-based methods such as Deep Q Network (DQN) and Double DQN (DDQN). At first, the obtained optimal policy from PPO is compared to those from DQN and DDQN. It is found that the policy from PPO performs better than the others. Next, instead of the fixed-interval traffic light phases, we adopt the light phases with variable time intervals, which result in a better policy to pass the traffic flow. Then, the effects of environment and action disturbances are studied to demonstrate the learning-based controller is robust. At last, we consider unbalanced traffic flows and find that an intelligent traffic light can perform moderately well for the unbalanced traffic scenarios, although it learns the optimal policy from the balanced traffic scenarios only.
翻訳日:2021-12-28 16:51:26 公開日:2021-12-27
# 一般信念ベースリビジョンの意味的特徴

Semantic Characterizations of General Belief Base Revision ( http://arxiv.org/abs/2112.13557v1 )

ライセンス: Link先を確認
Faiq Miftakhul Falakh, Sebastian Rudolph, Kai Sauerwald(参考訳) The AGM postulates by Alchourr\'on, G\"ardenfors, and Makinson continue to represent a cornerstone in research related to belief change. Katsuno and Mendelzon (K&M) adopted the AGM postulates for changing belief bases and characterized AGM belief base revision in propositional logic over finite signatures. We generalize K&M's approach to the setting of (multiple) base revision in arbitrary Tarskian logics, covering all logics with a classical model-theoretic semantics and hence a wide variety of logics used in knowledge representation and beyond. Our generic formulation applies to various notions of "base" (such as belief sets, arbitrary or finite sets of sentences, or single sentences). The core result is a representation theorem showing a two-way correspondence between AGM base revision operators and certain "assignments": functions mapping belief bases to total - yet not transitive"preference" relations between interpretations. 同時に、AGMの構文独立性の仮定が放棄された場合の相補的な結果を示す。 我々はまた、この結果が(K&Mの原著のように)推移的選好関係を生み出す代入に強化され、構文依存と独立性に応じて、そのような論理に対する2つのさらなる表現定理がもたらされるような全ての論理の特徴づけも提供する。

The AGM postulates by Alchourr\'on, G\"ardenfors, and Makinson continue to represent a cornerstone in research related to belief change. Katsuno and Mendelzon (K&M) adopted the AGM postulates for changing belief bases and characterized AGM belief base revision in propositional logic over finite signatures. We generalize K&M's approach to the setting of (multiple) base revision in arbitrary Tarskian logics, covering all logics with a classical model-theoretic semantics and hence a wide variety of logics used in knowledge representation and beyond. Our generic formulation applies to various notions of "base" (such as belief sets, arbitrary or finite sets of sentences, or single sentences). The core result is a representation theorem showing a two-way correspondence between AGM base revision operators and certain "assignments": functions mapping belief bases to total - yet not transitive - "preference" relations between interpretations. Alongside, we present a companion result for the case when the AGM postulate of syntax-independence is abandoned. We also provide a characterization of all logics for which our result can be strengthened to assignments producing transitive preference relations (as in K&M's original work), giving rise to two more representation theorems for such logics, according to syntax dependence vs. independence.
翻訳日:2021-12-28 16:50:18 公開日:2021-12-27
# (参考訳) 『インドへの旅』:インド語への事前教育語埋め込み [全文訳有]

"A Passage to India": Pre-trained Word Embeddings for Indian Languages ( http://arxiv.org/abs/2112.13800v1 )

ライセンス: CC BY 4.0
Kumar Saurav, Kumar Saunack, Diptesh Kanojia, Pushpak Bhattacharyya(参考訳) センセーショナルな単語ベクトルや単語の埋め込みは、機械翻訳(MT)、質問回答(QA)、単語センスの曖昧さ(WSD)、情報検索(IR)といったNLPタスクに不可欠なものになっている。 本稿では,14のインドの言語に複数の単語を埋め込む手法について述べる。 これらすべての言語に対して、viz., assamese, bengali, gujarati, hindi, kannada, konkani, malayalam, marathi, nepali, odiya, punjabi, sanskrit, tamil, teluguの埋め込みを単一のリポジトリに配置します。 比較的新しいアプローチでは、コンテキストへのキャタリング(BERT、ELMoなど)が大幅に改善されているが、使用可能なモデルを生成するには大量のリソースが必要である。 文脈的手法と非文脈的手法の両方を用いて事前学習した埋め込みを生成する。 また、MUSEとXLMを使って、上記の言語のすべてのペアに対して言語間埋め込みをトレーニングしています。 組込みの有効性を示すために、これらすべての言語に対するxpos、upos、nerタスクの組込みモデルを評価します。 8つの異なるアプローチで合計436モデルをリリースします。 資源制約のあるインド語NLPに役立てることを願っている。 本書の題名は1924年に出版されたE・M・フォースターの有名な小説「インドへの旅」にちなむ。

Dense word vectors or 'word embeddings' which encode semantic properties of words, have now become integral to NLP tasks like Machine Translation (MT), Question Answering (QA), Word Sense Disambiguation (WSD), and Information Retrieval (IR). In this paper, we use various existing approaches to create multiple word embeddings for 14 Indian languages. We place these embeddings for all these languages, viz., Assamese, Bengali, Gujarati, Hindi, Kannada, Konkani, Malayalam, Marathi, Nepali, Odiya, Punjabi, Sanskrit, Tamil, and Telugu in a single repository. Relatively newer approaches that emphasize catering to context (BERT, ELMo, etc.) have shown significant improvements, but require a large amount of resources to generate usable models. We release pre-trained embeddings generated using both contextual and non-contextual approaches. We also use MUSE and XLM to train cross-lingual embeddings for all pairs of the aforementioned languages. To show the efficacy of our embeddings, we evaluate our embedding models on XPOS, UPOS and NER tasks for all these languages. We release a total of 436 models using 8 different approaches. We hope they are useful for the resource-constrained Indian language NLP. The title of this paper refers to the famous novel 'A Passage to India' by E.M. Forster, published initially in 1924.
翻訳日:2021-12-28 16:44:20 公開日:2021-12-27
# 局所スムースネス推定による深部画像マッチングの改善

Improving Deep Image Matting Via Local Smoothness Assumption ( http://arxiv.org/abs/2112.13809v1 )

ライセンス: Link先を確認
Rui Wang and Jun Xie and Jiacheng Han and Dezhen Qi(参考訳) 自然な画像マッチングは、基本的で挑戦的なコンピュータビジョンタスクである。 従来、問題は制約の少ない問題として定式化されていた。 問題は正しくないため、その問題をうまく提示するためには、データ分布に関するさらなる仮定が必要である。 古典的なマットング法では、前景と背景色における局所的な滑らかさの仮定が一般的である。 しかし,このような仮定は,深層学習に基づくマットリングでは体系的に考慮されなかった。 本研究では,深部画像マッチングモデルの改善に役立つ2つの局所滑らか性仮定について考察する。 局所的な滑らかさの仮定に基づいて、深部画像マッチングモデルの性能を大幅に向上させることができるトレーニングセットの洗練、色増色、バックプロパゲーションの3つの手法を提案する。 提案アルゴリズムの有効性を検討する実験を行った。 実験の結果,提案手法は既存手法と比較して良好な性能を示した。

Natural image matting is a fundamental and challenging computer vision task. Conventionally, the problem is formulated as an underconstrained problem. Since the problem is ill-posed, further assumptions on the data distribution are required to make the problem well-posed. For classical matting methods, a commonly adopted assumption is the local smoothness assumption on foreground and background colors. However, the use of such assumptions was not systematically considered for deep learning based matting methods. In this work, we consider two local smoothness assumptions which can help improving deep image matting models. Based on the local smoothness assumptions, we propose three techniques, i.e., training set refinement, color augmentation and backpropagating refinement, which can improve the performance of the deep image matting model significantly. We conduct experiments to examine the effectiveness of the proposed algorithm. The experimental results show that the proposed method has favorable performance compared with existing matting methods.
翻訳日:2021-12-28 16:33:01 公開日:2021-12-27
# 因果推論のための深層治療適応ネットワーク

Deep Treatment-Adaptive Network for Causal Inference ( http://arxiv.org/abs/2112.13502v1 )

ライセンス: Link先を確認
Qian Li, Zhichao Wang, Shaowu Liu, Gang Li, Guandong Xu(参考訳) 因果推論は、様々な領域における意思決定に利益をもたらす治療効果(すなわち、結果に対する治療の因果効果)を推定することができる。 この研究の基本的な課題は、観察データにおける治療課題の偏りである。 因果推論に関する観察的研究の妥当性を高めるために,最先端の表現ベース手法が治療効果推定の優れた性能を示している。 ほとんどの表現に基づく方法は、すべての観察された共変体が前処理(すなわち、治療の影響を受けない)であると仮定し、これらの観察された共変体から平衡表現を学び、治療効果を推定する。 残念なことに、この仮定は実際には厳格すぎるため、一部の共変種は治療の介入(つまり後処理)によって変更される。 対照的に、変化しない共変量から学習した平衡表現は、処理効果の推定をバイアスする。

Causal inference is capable of estimating the treatment effect (i.e., the causal effect of treatment on the outcome) to benefit the decision making in various domains. One fundamental challenge in this research is that the treatment assignment bias in observational data. To increase the validity of observational studies on causal inference, representation based methods as the state-of-the-art have demonstrated the superior performance of treatment effect estimation. Most representation based methods assume all observed covariates are pre-treatment (i.e., not affected by the treatment), and learn a balanced representation from these observed covariates for estimating treatment effect. Unfortunately, this assumption is often too strict a requirement in practice, as some covariates are changed by doing an intervention on treatment (i.e., post-treatment). By contrast, the balanced representation learned from unchanged covariates thus biases the treatment effect estimation.
翻訳日:2021-12-28 16:26:03 公開日:2021-12-27
# リプシッツ制約下での一変数学習モデル

Sparsest Univariate Learning Models Under Lipschitz Constraint ( http://arxiv.org/abs/2112.13542v1 )

ライセンス: Link先を確認
Shayan Aziznejad, Thomas Debarre, Michael Unser(参考訳) 予測誤差の最小化に加えて、回帰スキームの最も望ましい2つの特性は安定性と解釈性である。 これらの原理に基づいて、1次元回帰問題に対する連続領域の定式化を提案する。 最初のアプローチでは、リプシッツ定数を正規化器として使用し、学習したマッピングの全体的なロバスト性が暗黙的にチューニングされます。 第2のアプローチでは、ユーザ定義上界を用いて明示的にリプシッツ定数を制御し、スパーシティープロモーティング正規化器を用いてより単純な(そしてより解釈可能な)ソリューションを選択する。 後者の定式化の理論的な研究は、リプシッツに制約された2層単層ニューラルネットワークの強化線形単位(ReLU)アクティベーションと重み減衰のトレーニングにより、その等価性によって部分的に動機づけられる。 代表者定理の証明により、両問題とも連続かつピースワイズ線形(CPWL)関数である大域最小化を許容することを示した。 さらに,最小の線形領域を持つCPWLマッピングという,各問題の最も広い解を求める効率的なアルゴリズムを提案する。 最後に, 定式化の結果を数値的に示す。

Beside the minimization of the prediction error, two of the most desirable properties of a regression scheme are stability and interpretability. Driven by these principles, we propose continuous-domain formulations for one-dimensional regression problems. In our first approach, we use the Lipschitz constant as a regularizer, which results in an implicit tuning of the overall robustness of the learned mapping. In our second approach, we control the Lipschitz constant explicitly using a user-defined upper-bound and make use of a sparsity-promoting regularizer to favor simpler (and, hence, more interpretable) solutions. The theoretical study of the latter formulation is motivated in part by its equivalence, which we prove, with the training of a Lipschitz-constraine d two-layer univariate neural network with rectified linear unit (ReLU) activations and weight decay. By proving representer theorems, we show that both problems admit global minimizers that are continuous and piecewise-linear (CPWL) functions. Moreover, we propose efficient algorithms that find the sparsest solution of each problem: the CPWL mapping with the least number of linear regions. Finally, we illustrate numerically the outcome of our formulations.
翻訳日:2021-12-28 16:25:48 公開日:2021-12-27
# ホモフィリーとヘテロフィリーの適応的伝播機構を持つ強力なグラフコンボリューティアルネットワーク

Powerful Graph Convolutioal Networks with Adaptive Propagation Mechanism for Homophily and Heterophily ( http://arxiv.org/abs/2112.13562v1 )

ライセンス: Link先を確認
Tao Wang and Rui Wang and Di Jin and Dongxiao He and Yuxiao Huang(参考訳) グラフ畳み込みネットワーク(GCN)は、グラフ構造化データ処理において大きな影響力を持つため、様々な分野に広く応用されている。 典型的なGCNとその変種はホモフィリーな仮定の下で作用する(すなわち、同じクラスを持つノードは互いに接続する傾向がある)一方で、多くの現実世界のネットワークに存在するヘテロフィリーを無視している(すなわち、異なるクラスを持つノードはエッジを形成する傾向がある)。 既存の手法では、主に高階の近傍を集約したり、直接表現を混ぜたりすることでヘテロフィリを扱う。 しかし、これらの手法は、ホモフィリーな仮定の下で機能する伝播機構(GCNの基本的な部分)を変えなかった。 これにより、異なるクラスからノードの表現を区別することが困難になる。 この問題に対処するために,ノード間のホモフィリーやヘテロフィリーに応じて自動的に伝搬と凝集の過程を変更できる新しい伝搬機構を設計する。 伝搬過程を適応的に学習するために,位相情報と属性情報に基づいて学習したノードペア間のホモフィリディエンスの測定を2つ導入する。 次に、学習可能なホモフィリ次数をグラフ畳み込みフレームワークに組み込み、エンドツーエンドのスキーマでトレーニングし、ホモフィリの仮定を超えることができるようにする。 さらに重要なことは、我々のモデルは、そのホモフィリー次数に応じてノード間の表現の類似性を制限できることを理論的に証明する。 7つの実世界のデータセットの実験により、この新しいアプローチはヘテロフィリーまたは低ホモフィリーの下で最先端の手法よりも優れ、ホモフィリーの下での競争性能が向上することを示した。

Graph Convolutional Networks (GCNs) have been widely applied in various fields due to their significant power on processing graph-structured data. Typical GCN and its variants work under a homophily assumption (i.e., nodes with same class are prone to connect to each other), while ignoring the heterophily which exists in many real-world networks (i.e., nodes with different classes tend to form edges). Existing methods deal with heterophily by mainly aggregating higher-order neighborhoods or combing the immediate representations, which leads to noise and irrelevant information in the result. But these methods did not change the propagation mechanism which works under homophily assumption (that is a fundamental part of GCNs). This makes it difficult to distinguish the representation of nodes from different classes. To address this problem, in this paper we design a novel propagation mechanism, which can automatically change the propagation and aggregation process according to homophily or heterophily between node pairs. To adaptively learn the propagation process, we introduce two measurements of homophily degree between node pairs, which is learned based on topological and attribute information, respectively. Then we incorporate the learnable homophily degree into the graph convolution framework, which is trained in an end-to-end schema, enabling it to go beyond the assumption of homophily. More importantly, we theoretically prove that our model can constrain the similarity of representations between nodes according to their homophily degree. Experiments on seven real-world datasets demonstrate that this new approach outperforms the state-of-the-art methods under heterophily or low homophily, and gains competitive performance under homophily.
翻訳日:2021-12-28 16:25:27 公開日:2021-12-27
# 異種材料における高速2次元き裂進展予測の確率モデル

A probabilistic model for fast-to-evaluate 2D crack path prediction in heterogeneous materials ( http://arxiv.org/abs/2112.13578v1 )

ライセンス: Link先を確認
Kathleen Pele (ECM, MIST), Jean Baccou (IRSN, MIST), Lo\"ic Daridon (MIST, M\'eTICE), Jacques Liandrat (ECM, I2M), Thibaut Le Gouic (ECM, I2M), Yann Monerie (MIST, M\'eTICE), Fr\'ed\'eric P\'eral\`es (IRSN, MIST)(参考訳) 本稿では, コンクリート状構造物における2次元き裂経路予測のための新しい高速評価モデルの構築に着目する。 モデルはマルコフ連鎖モデルを用いて選択されたセグメンテーション点を持つ断片的線形き裂経路を生成する。 マルコフ連鎖核は機械的関心の局所指標を含み、そのパラメータはxperと呼ばれる凝集体積有限要素解法を用いてクレーキングの数値フルフィールド2次元シミュレーションから学習される。 結果として得られたモデルは、XPERのシミュレーションと比較してCPU時間を大幅に改善した。

This paper is devoted to the construction of a new fast-to-evaluate model for the prediction of 2D crack paths in concrete-like microstructures. The model generates piecewise linear cracks paths with segmentation points selected using a Markov chain model. The Markov chain kernel involves local indicators of mechanical interest and its parameters are learnt from numerical full-field 2D simulations of craking using a cohesive-volumetric finite element solver called XPER. The resulting model exhibits a drastic improvement of CPU time in comparison to simulations from XPER.
翻訳日:2021-12-28 16:24:57 公開日:2021-12-27
# (参考訳) 乳幼児の脳年齢分類:2D CNNは小データセットで3D CNNより優れている [全文訳有]

Infant Brain Age Classification: 2D CNN Outperforms 3D CNN in Small Dataset ( http://arxiv.org/abs/2112.13811v1 )

ライセンス: CC BY 4.0
Mahdieh Shabanian, Markus Wenzel, John P. DeVincenzo(参考訳) 脳が正常に発達しているかどうかを決定することは、小児神経放射線学と神経学の重要な要素である。 乳児の脳磁気共鳴画像(MRI)は、単純なミエリン化以上の発達パターンを示す。 放射線学者は、ミエリン化パターン、脳形態、大きさの特徴を年齢に合った脳の成熟度を決定するために用いているが、これは小児神経放射線学における長年の経験を必要とする。 標準的な基準がないため、3歳以前のmriから脳の構造成熟度を視覚的に推定することは、オブザーバ間およびオブザーバ内変動によって支配されている。 より客観的な脳発達年齢の推定は、医師がより早くより確実に多くの神経発達状態や疾患を特定するのに役立つ。 しかし、そのようなデータを得るのは自然に困難であり、観察者は評価の主観性のために金本位制の真理をあまり持っていない。 本研究では,t1重み付き,t2重み付き,およびプロトン密度 (pd) の融合を訓練した2次元および3次元畳み込みニューラルネットワーク (cnn) を,出生から3歳までの4つの年齢グループに分けた84名の被験者の重み付きシーケンスに適用する。 中央軸厚スラブ上に2次元CNNを用いて0.90[95% CI:0.86-0.94]の精度を実現した。 本稿では,3次元ネットワークとの比較を行い,その性能を1つのシーケンス(T1w)で比較した。 結論として、3D CNNアプローチの理論的優位性にもかかわらず、限られたデータ状況では、そのようなアプローチはより単純なアーキテクチャよりも劣っている。 コードはhttps://github.com/s habanian2018/Age_MRI -Classificationにある。

Determining if the brain is developing normally is a key component of pediatric neuroradiology and neurology. Brain magnetic resonance imaging (MRI) of infants demonstrates a specific pattern of development beyond simply myelination. While radiologists have used myelination patterns, brain morphology and size characteristics to determine age-adequate brain maturity, this requires years of experience in pediatric neuroradiology. With no standardized criteria, visual estimation of the structural maturity of the brain from MRI before three years of age remains dominated by inter-observer and intra-observer variability. A more objective estimation of brain developmental age could help physicians identify many neurodevelopmental conditions and diseases earlier and more reliably. Such data, however, is naturally hard to obtain, and the observer ground truth not much of a gold standard due to subjectivity of assessment. In this light, we explore the general feasibility to tackle this task, and the utility of different approaches, including two- and three-dimensional convolutional neural networks (CNN) that were trained on a fusion of T1-weighted, T2-weighted, and proton density (PD) weighted sequences from 84 individual subjects divided into four age groups from birth to 3 years of age. In the best performing approach, we achieved an accuracy of 0.90 [95% CI:0.86-0.94] using a 2D CNN on a central axial thick slab. We discuss the comparison to 3D networks and show how the performance compares to the use of only one sequence (T1w). In conclusion, despite the theoretical superiority of 3D CNN approaches, in limited-data situations, such approaches are inferior to simpler architectures. The code can be found in https://github.com/s habanian2018/Age_MRI -Classification
翻訳日:2021-12-28 16:22:29 公開日:2021-12-27
# MSHT : 膵癌のROSE画像解析のための多段階ハイブリッドトランス

MSHT: Multi-stage Hybrid Transformer for the ROSE Image Analysis of Pancreatic Cancer ( http://arxiv.org/abs/2112.13513v1 )

ライセンス: Link先を確認
Tianyi Zhang, Yunlu Feng, Yu Zhao, Guangda Fan, Aiming Yang, Shangqin Lyu, Peng Zhang, Fan Song, Chenbin Ma, Yangyang Sun, Youdan Feng, and Guanglei Zhang(参考訳) 膵癌は世界で最も悪性ながんの1つであり、非常に高い死亡率で急速に悪化する。 迅速オンサイト評価 (ROSE) 技術は, 早期の染色細胞病理像を現場病理医に即時解析することで, そのワークフローを革新し, 時間的圧迫による診断を高速化する。 しかし、ROSEの診断範囲の拡大は、経験豊富な病理医の欠如によって妨げられている。 この問題を解決するために、我々は、自動化ワークフローを実現するためのハイブリッドな高性能ディープラーニングモデルを提案する。 まず,多段ハイブリッド設計によるトランスフォーマーブロックの導入により,畳み込みニューラルネットワーク(cnn)が生成する空間的特徴により,トランスフォーマーグローバルモデリングが大幅に向上した。 この設計は、cnnの帰納的バイアスとトランスフォーマの洗練されたグローバルモデリング能力との強固さを組み合わせたものである。 4240個のROSE画像のデータセットを収集し、この未探索領域における手法を評価する。 提案する多段ハイブリッド変圧器 (msht) は分類精度95.68%を達成し, 最新モデルよりも顕著に高い。 解釈可能性の必要性に直面したMSHTは、より正確な注意領域を持つ相手よりも優れている。 以上の結果から,MSHTは前例のない画像スケールでがん検体を正確に識別し,自動判定システムの構築と臨床実践におけるROSEの拡張を可能にする基盤を築き上げた。 コードとレコードは、https://github.com/s agizty/Multi-Stage-H ybrid-Transformerで入手できる。

Pancreatic cancer is one of the most malignant cancers in the world, which deteriorates rapidly with very high mortality. The rapid on-site evaluation (ROSE) technique innovates the workflow by immediately analyzing the fast stained cytopathological images with on-site pathologists, which enables faster diagnosis in this time-pressured process. However, the wider expansion of ROSE diagnosis has been hindered by the lack of experienced pathologists. To overcome this problem, we propose a hybrid high-performance deep learning model to enable the automated workflow, thus freeing the occupation of the valuable time of pathologists. By firstly introducing the Transformer block into this field with our particular multi-stage hybrid design, the spatial features generated by the convolutional neural network (CNN) significantly enhance the Transformer global modeling. Turning multi-stage spatial features as global attention guidance, this design combines the robustness from the inductive bias of CNN with the sophisticated global modeling power of Transformer. A dataset of 4240 ROSE images is collected to evaluate the method in this unexplored field. The proposed multi-stage hybrid Transformer (MSHT) achieves 95.68% in classification accuracy, which is distinctively higher than the state-of-the-art models. Facing the need for interpretability, MSHT outperforms its counterparts with more accurate attention regions. The results demonstrate that the MSHT can distinguish cancer samples accurately at an unprecedented image scale, laying the foundation for deploying automatic decision systems and enabling the expansion of ROSE in clinical practice. The code and records are available at: https://github.com/s agizty/Multi-Stage-H ybrid-Transformer.
翻訳日:2021-12-28 16:12:21 公開日:2021-12-27
# グラフ協調推論

Graph Collaborative Reasoning ( http://arxiv.org/abs/2112.13705v1 )

ライセンス: Link先を確認
Hanxiong Chen, Yunqi Li, Shaoyun Shi, Shuchang Liu, He Zhu and Yongfeng Zhang(参考訳) グラフはエンティティ間の関係情報を表現し、グラフ構造は検索、レコメンデーション、質問応答など多くの知的なタスクで広く使われている。 しかし、実際にはグラフ構造データの多くは不完全性に苦しむため、リンク予測は重要な研究課題となる。 リンク予測には多くのモデルが提案されているが,(1) 関連リンクからの豊富な情報を使わずにリンクを個別にモデル化する手法がほとんどであり,(2) 既存のモデルは連想学習に基づいて設計されており,考察されていない。 本稿では,グラフの論理的推論の観点から,グラフ上の関係推論に隣接リンク情報を利用するグラフ協調推論(GCR)を提案する。 グラフ構造を論理式に変換するための単純なアプローチを提供し、リンク予測タスクをニューラルネットワークの推論問題に変換することができる。 論理的制約付きニューラルネットワークを用いて、論理的表現に従ってネットワークアーキテクチャを構築し、モデルパラメータを効率的に学習し、統一アーキテクチャにおける微分可能な学習と記号的推論を橋渡しする。 本研究の有効性を示すために,一般的なベンチマークデータセットに基づくリンク予測やレコメンデーションなどのグラフ関連タスクの実験を行い,グラフコラボレーティブ推論手法により最先端のパフォーマンスを実現する。

Graphs can represent relational information among entities and graph structures are widely used in many intelligent tasks such as search, recommendation, and question answering. However, most of the graph-structured data in practice suffers from incompleteness, and thus link prediction becomes an important research problem. Though many models are proposed for link prediction, the following two problems are still less explored: (1) Most methods model each link independently without making use of the rich information from relevant links, and (2) existing models are mostly designed based on associative learning and do not take reasoning into consideration. With these concerns, in this paper, we propose Graph Collaborative Reasoning (GCR), which can use the neighbor link information for relational reasoning on graphs from logical reasoning perspectives. We provide a simple approach to translate a graph structure into logical expressions, so that the link prediction task can be converted into a neural logic reasoning problem. We apply logical constrained neural modules to build the network architecture according to the logical expression and use back propagation to efficiently learn the model parameters, which bridges differentiable learning and symbolic reasoning in a unified architecture. To show the effectiveness of our work, we conduct experiments on graph-related tasks such as link prediction and recommendation based on commonly used benchmark datasets, and our graph collaborative reasoning approach achieves state-of-the-art performance.
翻訳日:2021-12-28 16:11:51 公開日:2021-12-27
# 対話的意思決定の統計的複雑性

The Statistical Complexity of Interactive Decision Making ( http://arxiv.org/abs/2112.13487v1 )

ライセンス: Link先を確認
Dylan J. Foster and Sham M. Kakade and Jian Qian and Alexander Rakhlin(参考訳) バンディット問題から強化学習まで,インタラクティブな学習と意思決定における基本的な課題は,サンプル効率が高く適応的な学習アルゴリズムを提供することである。 この問題は、学習の統計的複雑さを管理するよく知られた複雑性尺度(VC次元やラデマチャー複雑性など)が存在する、最適(教師付き)統計学習という古典的な問題に類似している。 しかし,対話型学習の統計的複雑性を特徴付けることは,問題に適応性があることから,かなり困難である。 この研究の主な結果は、サンプル効率の良い対話型学習に必要かつ十分であることが証明された、複雑性尺度、決定・推定係数を提供する。 特に、1) 対話的な意思決定問題に対する最適後悔の限界を低くし、決定推定係数を基本的な限界として確立する。 2. 統合されたアルゴリズム設計原則である推定決定(E2D)は、教師付き推定のための任意のアルゴリズムを意思決定のためのオンラインアルゴリズムに変換する。 E2Dは、我々の下界と一致する残差境界に達し、決定推定係数によって特徴づけられる最適なサンプル効率学習を実現する。 これらの結果は,対話型意思決定における学習可能性の理論を構成する。 強化学習設定に適用すると、決定推定係数は本質的に既存のハードネス結果と下限値を回復する。 より広くは、このアプローチは古典的なル・カム理論の統計的推定における決定論的類似と見なすことができる。

A fundamental challenge in interactive learning and decision making, ranging from bandit problems to reinforcement learning, is to provide sample-efficient, adaptive learning algorithms that achieve near-optimal regret. This question is analogous to the classical problem of optimal (supervised) statistical learning, where there are well-known complexity measures (e.g., VC dimension and Rademacher complexity) that govern the statistical complexity of learning. However, characterizing the statistical complexity of interactive learning is substantially more challenging due to the adaptive nature of the problem. The main result of this work provides a complexity measure, the Decision-Estimation Coefficient, that is proven to be both necessary and sufficient for sample-efficient interactive learning. In particular, we provide: 1. a lower bound on the optimal regret for any interactive decision making problem, establishing the Decision-Estimation Coefficient as a fundamental limit. 2. a unified algorithm design principle, Estimation-to-Decisi ons (E2D), which transforms any algorithm for supervised estimation into an online algorithm for decision making. E2D attains a regret bound matching our lower bound, thereby achieving optimal sample-efficient learning as characterized by the Decision-Estimation Coefficient. Taken together, these results constitute a theory of learnability for interactive decision making. When applied to reinforcement learning settings, the Decision-Estimation Coefficient recovers essentially all existing hardness results and lower bounds. More broadly, the approach can be viewed as a decision-theoretic analogue of the classical Le Cam theory of statistical estimation; it also unifies a number of existing approaches -- both Bayesian and frequentist.
翻訳日:2021-12-28 16:11:28 公開日:2021-12-27
# 中国語学習者の中国語/i/から一般アメリカ英語への音素移動 : 知覚と生産実験からの証拠

Chinese Learners' Phonetic Transfer of /i/ from Mandarin Chinese to General American English: Evidence from Perception and Production Experiments ( http://arxiv.org/abs/2112.13571v1 )

ライセンス: Link先を確認
Lintao Chen(参考訳) 1950年代にコントラスト分析 (Contrastive Analysis, CA) が開発されて以来、言語学者は第二言語習得における母語の影響を体系的に探求し始めている。 この現象は後に「言語伝達」と定義される。 本論文は,中国語学習者による英語母音/i/とそのラックスの習得に係わる伝達現象に着目し,音素レベルでの言語伝達について述べる。 先進的な中国語学習者(ELL)が/i/とその語彙を正確に区別できるかどうかを判断し、それらを正確に英語で発音することで、中国語のELLの言語移行をさらに研究するための参考となる。 まず,母音/i/とlaxを区別する学習者の知覚能力について検討し,次に音素伝達の効果について検討した。 これら2つの目的を達成するために知覚試験と生産試験が用いられた。 両試験は12名の中国人EL、男性6名、女性6名によって完了した。 その結果、男女ともに意識的に/i/とLaxの区別が可能であった。 すべての参加者は発音に否定的な音韻伝達を経験する徴候を持っているが、現在のデータは、英語の単語における女性の前ラックス母音獲得に対する音韻移動の影響を決定的に反映していない。

Ever since the development of Contrastive Analysis (CA) in the 1950s, which focuses on comparing and contrasting two language systems, linguists have started to systematically explore the influence of the mother tongue on acquiring a second language. This phenomenon is later defined as "language transfer". The current paper concerns language transfer at the phonetic level and concentrates on the transfer phenomenon existing in advanced-level Chinese learners' acquisition of English vowels /i/ and its lax counterpart. By determining whether advanced-level Chinese English-language learners (ELLs) can accurately distinguish between /i/ and its lax counterpart, and pronounce them in English words precisely, this paper serves as a reference for further studying Chinese ELLs' language transfer. Two objectives were to be met: firstly, learners' perceptual ability to distinguish between vowels /i/ and its lax counterpart should be examined; and secondly, the effect of the phonetic transfer should be determined. A perception test and a production test were used to attain these two objectives. Both tests were completed by 12 advanced-level Chinese ELLs, six males and six females. Results indicate that both male and female participants could consciously distinguish between /i/ and its lax counterpart. All participants have signs of experiencing negative phonetic transfer in their pronunciation, except that the current data do not decisively reflect an impact of the phonetic transfer on female ELLs' acquisition of the high front lax vowel in English words.
翻訳日:2021-12-28 16:08:28 公開日:2021-12-27
# CUGE: 中国語理解と生成評価ベンチマーク

CUGE: A Chinese Language Understanding and Generation Evaluation Benchmark ( http://arxiv.org/abs/2112.13610v1 )

ライセンス: Link先を確認
Yuan Yao, Qingxiu Dong, Jian Guan, Boxi Cao, Zhengyan Zhang, Chaojun Xiao, Xiaozhi Wang, Fanchao Qi, Junwei Bao, Jinran Nie, Zheni Zeng, Yuxian Gu, Kun Zhou, Xuancheng Huang, Wenhao Li, Shuhuai Ren, Jinliang Lu, Chengqiang Xu, Huadong Wang, Guoyang Zeng, Zile Zhou, Jiajun Zhang, Juanzi Li, Minlie Huang, Rui Yan, Xiaodong He, Xiaojun Wan, Xin Zhao, Xu Sun, Yang Liu, Zhiyuan Liu, Xianpei Han, Erhong Yang, Zhifang Sui, Maosong Sun(参考訳) 汎用言語インテリジェンスの実現は、標準評価ベンチマークが基本的で指針となる自然言語処理の長年の目標である。 汎用言語インテリジェンス評価には,ベンチマーク自体を包括的かつ体系的にする必要がある。 この目的のために,中国における言語理解・生成評価ベンチマークCUGEを提案する。(1)階層型ベンチマークフレームワークでは,データセットを主に選択し,言語能力-タスク-データセット階層で整理する。 2)マルチレベルのスコアリング戦略では,階層的な枠組みに基づいて異なるレベルのモデル性能が提供される。 CUGEを容易にするために、フレキシブルモデル判定基準をサポートするためにカスタマイズ可能なパブリックリーダーボードを提供する。 代表的な事前学習言語モデルの評価結果は、汎用言語インテリジェンスに向けた改善の余地が十分にあることを示している。 CUGEはcuge.baai.ac.cnで公開されている。

Realizing general-purpose language intelligence has been a longstanding goal for natural language processing, where standard evaluation benchmarks play a fundamental and guiding role. We argue that for general-purpose language intelligence evaluation, the benchmark itself needs to be comprehensive and systematic. To this end, we propose CUGE, a Chinese Language Understanding and Generation Evaluation benchmark with the following features: (1) Hierarchical benchmark framework, where datasets are principally selected and organized with a language capability-task-data set hierarchy. (2) Multi-level scoring strategy, where different levels of model performance are provided based on the hierarchical framework. To facilitate CUGE, we provide a public leaderboard that can be customized to support flexible model judging criteria. Evaluation results on representative pre-trained language models indicate ample room for improvement towards general-purpose language intelligence. CUGE is publicly available at cuge.baai.ac.cn.
翻訳日:2021-12-28 16:08:05 公開日:2021-12-27
# パラメータ微分に基づく多言語ニューラルマシン翻訳

Parameter Differentiation based Multilingual Neural Machine Translation ( http://arxiv.org/abs/2112.13619v1 )

ライセンス: Link先を確認
Qian Wang and Jiajun Zhang(参考訳) MNMT(Multilingual Neural Machine Translation)は、複数の言語を単一のモデルで翻訳することを目的としており、共通のパラメータを持つ異なる言語間で効果的な知識伝達が成功している。 しかし、どのパラメータを共有すべきか、どのパラメータをタスク固有にする必要があるのかはまだ不明だ。 現在、言語固有のモジュールをヒューリスティックに設計または検索することが一般的であり、最適な構成を見つけるのは難しい。 本稿では,学習中にどのパラメータが言語固有であるべきかをモデルが決定できる,パラメータ分化に基づく新しい手法を提案する。 細胞分化にインスパイアされた本手法の共有パラメータは,動的により特殊な型に分化することができる。 さらに、微分基準をタスク間の勾配類似性として定義する。 したがって、タスク間の勾配が相反するパラメータは言語固有のものが多い。 多言語データセットに対する大規模な実験により,パラメータ共有構成の異なる強力なベースラインを著しく上回ることを示した。 さらに分析した結果,本手法で得られたパラメータ共有構成は,言語的近さとよく相関していることがわかった。

Multilingual neural machine translation (MNMT) aims to translate multiple languages with a single model and has been proved successful thanks to effective knowledge transfer among different languages with shared parameters. However, it is still an open question which parameters should be shared and which ones need to be task-specific. Currently, the common practice is to heuristically design or search language-specific modules, which is difficult to find the optimal configuration. In this paper, we propose a novel parameter differentiation based method that allows the model to determine which parameters should be language-specific during training. Inspired by cellular differentiation, each shared parameter in our method can dynamically differentiate into more specialized types. We further define the differentiation criterion as inter-task gradient similarity. Therefore, parameters with conflicting inter-task gradients are more likely to be language-specific. Extensive experiments on multilingual datasets have demonstrated that our method significantly outperforms various strong baselines with different parameter sharing configurations. Further analyses reveal that the parameter sharing configuration obtained by our method correlates well with the linguistic proximities.
翻訳日:2021-12-28 16:07:51 公開日:2021-12-27
# 非英語質問回答データセットに関する調査

A Survey on non-English Question Answering Dataset ( http://arxiv.org/abs/2112.13634v1 )

ライセンス: Link先を確認
Andreas Chandra, Affandy Fahrizain, Ibrahim, Simon Willyanto Laufried(参考訳) データセットとモデルの質問に答えるリサーチは、研究コミュニティで多くの注目を集めています。 それらの多くは、データセットとモデルに答える独自の質問をリリースしている。 この研究領域では、非常に進歩しています。 この調査の目的は、多くの研究者がリリースした既存のデータセット、特に英語以外のデータセット、研究コードや評価指標などのリソースを認識し、要約し、分析することである。 本稿では,フランス語,ドイツ語,日本語,中国語,アラビア語,ロシア語など,英語以外の共通言語で利用できる質問応答データセットと,多言語および多言語間の質問応答データセットについて述べる。

Research in question answering datasets and models has gained a lot of attention in the research community. Many of them release their own question answering datasets as well as the models. There is tremendous progress that we have seen in this area of research. The aim of this survey is to recognize, summarize and analyze the existing datasets that have been released by many researchers, especially in non-English datasets as well as resources such as research code, and evaluation metrics. In this paper, we review question answering datasets that are available in common languages other than English such as French, German, Japanese, Chinese, Arabic, Russian, as well as the multilingual and cross-lingual question-answering datasets.
翻訳日:2021-12-28 16:07:33 公開日:2021-12-27
# Pedagogical Word Recommendation:L2学習者のためのパーソナライズされた語彙獲得のための新しいタスクとデータセット

Pedagogical Word Recommendation: A novel task and dataset on personalized vocabulary acquisition for L2 learners ( http://arxiv.org/abs/2112.13808v1 )

ライセンス: Link先を確認
Jamin Shin, Juneyoung Park(参考訳) 第二言語(L2)を学ぶとき、その非効率さと非効率さで生徒を非難する最も重要だが退屈な要素の1つは語彙習得、またはより単純に記憶する単語である。 それを踏まえて、学習者の語彙知識状態を追跡するパーソナライズされた教育用語彙レコメンデーションシステムは、両方の問題を解決することができるので、大きな学習への影響をもたらすだろう。 そこで本稿では, Pedagogical Word Recommendation (PWR) と呼ばれる新しいタスクのためのデータの提案と公開を行う。 PWRの主な目的は、学習者が既に見た他の単語に基づいて、ある単語を知っているかどうかを予測することである。 そこで我々は,このデータを,標準英語試験(TOEIC)を勉強する1万L2学習者に提供した知能学習システム(ITS)を介して収集する。 その特徴として、生徒は単語ブックを作成するために解決した質問から知らない単語を直接示すことができる。 最後に,探索的データ分析とともに,ニューラルコラボレーティブフィルタリング手法の評価結果を報告し,今後の研究のベースラインとしてのデータセットの効果と有効性について考察する。

When learning a second language (L2), one of the most important but tedious components that often demoralizes students with its ineffectiveness and inefficiency is vocabulary acquisition, or more simply put, memorizing words. In light of such, a personalized and educational vocabulary recommendation system that traces a learner's vocabulary knowledge state would have an immense learning impact as it could resolve both issues. Therefore, in this paper, we propose and release data for a novel task called Pedagogical Word Recommendation (PWR). The main goal of PWR is to predict whether a given learner knows a given word based on other words the learner has already seen. To elaborate, we collect this data via an Intelligent Tutoring System (ITS) that is serviced to ~1M L2 learners who study for the standardized English exam, TOEIC. As a feature of this ITS, students can directly indicate words they do not know from the questions they solved to create wordbooks. Finally, we report the evaluation results of a Neural Collaborative Filtering approach along with an exploratory data analysis and discuss the impact and efficacy of this dataset as a baseline for future studies on this task.
翻訳日:2021-12-28 16:07:22 公開日:2021-12-27
# 大きな言語モデルはスクリプトについて何を学ぶのか?

What do Large Language Models Learn about Scripts? ( http://arxiv.org/abs/2112.13834v1 )

ライセンス: Link先を確認
Abhilasha Sancheti and Rachel Rudinger(参考訳) スクリプト知識(Schank and Abelson, 1975)は、物語の未発表情報を埋めるのに役立つため、言語理解にとって非常に重要であると長年認識されてきた。 しかし、そのような知識は、レポートバイアスによるテキストから手作業で作り出すのが難しく、コストがかかる(Gordon and Van Durme, 2013)。 本研究では,事前学習された生成言語モデル(LM)を通じて,明示的なスクリプト知識が存在するか,アクセス可能であるか,という科学的問題に関心を持つ。 そこで本稿では,自然言語プロンプトの形式でシナリオが与えられたイベントシーケンス記述(ESD)を生成するタスクを紹介する。 ゼロショット探索実験では、生成型LMは、主に省略、無関係、繰り返し、または誤順序のイベントを発生させる。 そこで本研究では,パイプラインベースのスクリプトインダクションフレームワーク (sif) を提案する。 SIFは2段階のフレームワークで、最初の段階で小さなESDの例でLMを微調整する。 第2段階では、目に見えないシナリオのために生成されたESDは、RoBERTaベースのモデルを使用して後処理され、無関係なイベントをフィルタリングし、繰り返しを削除し、時間的に誤ったイベントを順序付けする。 自動的および手動的な評価により、SIFは微調整されたLMに対して実質的な改善(1$-$3$ BLUE)を得ることを示した。 しかし,手動による分析では,スクリプトの知識を誘導する新たな研究の方向性として,改善の余地が十分にあることが示された。

Script Knowledge (Schank and Abelson, 1975) has long been recognized as crucial for language understanding as it can help in filling in unstated information in a narrative. However, such knowledge is expensive to produce manually and difficult to induce from text due to reporting bias (Gordon and Van Durme, 2013). In this work, we are interested in the scientific question of whether explicit script knowledge is present and accessible through pre-trained generative language models (LMs). To this end, we introduce the task of generating full event sequence descriptions (ESDs) given a scenario in the form of natural language prompts. In zero-shot probing experiments, we find that generative LMs produce poor ESDs with mostly omitted, irrelevant, repeated or misordered events. To address this, we propose a pipeline-based script induction framework (SIF) which can generate good quality ESDs for unseen scenarios (e.g., bake a cake). SIF is a two-staged framework that fine-tunes LM on a small set of ESD examples in the first stage. In the second stage, ESD generated for an unseen scenario is post-processed using RoBERTa-based models to filter irrelevant events, remove repetitions, and reorder the temporally misordered events. Through automatic and manual evaluations, we demonstrate that SIF yields substantial improvements ($1$-$3$ BLUE points) over a fine-tuned LM. However, manual analysis shows that there is great room for improvement, offering a new research direction for inducing script knowledge.
翻訳日:2021-12-28 16:05:35 公開日:2021-12-27
# answer-setプログラム更新の簡単な歴史

A Brief History of Updates of Answer-Set Programs ( http://arxiv.org/abs/2112.13477v1 )

ライセンス: Link先を確認
Jo\~ao Leite, Martin Slota(参考訳) 過去数十年にわたり、安定したモデルセマンティクス(すなわち、応答セットプログラム)の下で論理プログラムを更新するという問題や、言い換えれば、世界が変化を記述したときに論理プログラムを最新のものにするという結果を特徴付ける問題に、多くの努力が費やされてきた。 最先端のアプローチは、古典論理学の文脈における信念の更新と同じ基本的な直観と願望によって導かれるが、それらは根本的に異なる原則と方法に基づいて構築されており、信念とルールの更新の両方を取り入れ得る統一フレームワークを妨げている。 本稿では,本トピックにおける研究が直面した課題を指摘した上で,回答セットプログラミング更新に関する主なアプローチと結果について概説する。

Over the last couple of decades, there has been a considerable effort devoted to the problem of updating logic programs under the stable model semantics (a.k.a. answer-set programs) or, in other words, the problem of characterising the result of bringing up-to-date a logic program when the world it describes changes. Whereas the state-of-the-art approaches are guided by the same basic intuitions and aspirations as belief updates in the context of classical logic, they build upon fundamentally different principles and methods, which have prevented a unifying framework that could embrace both belief and rule updates. In this paper, we will overview some of the main approaches and results related to answer-set programming updates, while pointing out some of the main challenges that research in this topic has faced.
翻訳日:2021-12-28 16:04:42 公開日:2021-12-27
# 階層的トランスフォーマによる共商品化のためのビデオジョイントモデリング

Video Joint Modelling Based on Hierarchical Transformer for Co-summarization ( http://arxiv.org/abs/2112.13478v1 )

ライセンス: Link先を確認
Li Haopeng, Ke Qiuhong, Gong Mingming, Zhang Rui(参考訳) ビデオ要約は、ビデオの要約(ストーリーボードまたはビデオスキム)を自動的に生成することを目的としている。 既存の手法のほとんどは個々のビデオでビデオ要約を行い、類似したビデオ間の相関を無視する。 しかし,このような相関関係は映像理解や映像要約にも有用である。 この制限に対処するために,ビデオ間のセマンティック依存関係を考慮した階層変換器(VJMHT)を用いたビデオジョイントモデリングを提案する。 具体的には、vjmhtはトランスフォーマーの2層で構成され、第1層は類似したビデオの個々のショットから意味表現を抽出し、第2層はショットレベルのビデオジョイントモデリングを行い、ビデオ間の意味情報を集約する。 つまり、完全なクロスビデオのハイレベルパターンは、個々のビデオの要約のために明示的にモデル化され、学習される。 さらに,トランスフォーマーに基づく映像表現再構成を導入し,要約とオリジナル映像との高レベルな類似性を最大化する。 提案したモジュールの有効性と,F測定およびランクベース評価の観点からVJMHTの優位性を検証するために,広範囲な実験を行った。

Video summarization aims to automatically generate a summary (storyboard or video skim) of a video, which can facilitate large-scale video retrieving and browsing. Most of the existing methods perform video summarization on individual videos, which neglects the correlations among similar videos. Such correlations, however, are also informative for video understanding and video summarization. To address this limitation, we propose Video Joint Modelling based on Hierarchical Transformer (VJMHT) for co-summarization, which takes into consideration the semantic dependencies across videos. Specifically, VJMHT consists of two layers of Transformer: the first layer extracts semantic representation from individual shots of similar videos, while the second layer performs shot-level video joint modelling to aggregate cross-video semantic information. By this means, complete cross-video high-level patterns are explicitly modelled and learned for the summarization of individual videos. Moreover, Transformer-based video representation reconstruction is introduced to maximize the high-level similarity between the summary and the original video. Extensive experiments are conducted to verify the effectiveness of the proposed modules and the superiority of VJMHT in terms of F-measure and rank-based evaluation.
翻訳日:2021-12-28 15:58:45 公開日:2021-12-27
# 小型データセットのための視覚トランスフォーマー

Vision Transformer for Small-Size Datasets ( http://arxiv.org/abs/2112.13492v1 )

ライセンス: Link先を確認
Seung Hoon Lee, Seunghyun Lee, Byung Cheol Song(参考訳) 近年、画像分類タスクにトランス構造を適用した視覚変換器(ViT)は、畳み込みニューラルネットワークよりも優れています。 しかし、JFT-300Mのような大規模データセットを用いた事前学習によるViTの性能向上は、局所性誘導バイアスの低いため、大規模なデータセットへの依存を解釈する。 本稿では、局所性帰納バイアスの欠如を効果的に解決し、小規模なデータセットでもスクラッチから学習できるシフトトパッチトークン化(SPT)と局所性自己認識(LSA)を提案する。 さらに、SPT と LSA は、様々な ViT に容易に適用可能な汎用的で効果的なアドオンモジュールである。 実験の結果、sptとlsaの両方をvitsに適用すると、代表的な小型データセットであるtiny-imagenetでは、パフォーマンスが平均2.96%向上した。 特にSwin TransformerはSPTとLSAによって4.08%の性能向上を達成した。

Recently, the Vision Transformer (ViT), which applied the transformer structure to the image classification task, has outperformed convolutional neural networks. However, the high performance of the ViT results from pre-training using a large-size dataset such as JFT-300M, and its dependence on a large dataset is interpreted as due to low locality inductive bias. This paper proposes Shifted Patch Tokenization (SPT) and Locality Self-Attention (LSA), which effectively solve the lack of locality inductive bias and enable it to learn from scratch even on small-size datasets. Moreover, SPT and LSA are generic and effective add-on modules that are easily applicable to various ViTs. Experimental results show that when both SPT and LSA were applied to the ViTs, the performance improved by an average of 2.96% in Tiny-ImageNet, which is a representative small-size dataset. Especially, Swin Transformer achieved an overwhelming performance improvement of 4.08% thanks to the proposed SPT and LSA.
翻訳日:2021-12-28 15:58:21 公開日:2021-12-27
# 顔偽検出のための二重コントラスト学習

Dual Contrastive Learning for General Face Forgery Detection ( http://arxiv.org/abs/2112.13522v1 )

ライセンス: Link先を確認
Ke Sun, Taiping Yao, Shen Chen, Shouhong Ding, Jilin L, Rongrong Ji(参考訳) 様々な顔操作技術が生まれ、顔偽造検出はセキュリティ上の懸念から注目を集めている。 従来の研究は常に、クロスエントロピー損失に基づく分類問題として顔偽造検出を定式化しており、これは、実在の顔と偽の顔の本質的な相違よりもカテゴリーレベルの差異を強調し、目に見えない領域におけるモデル一般化を制限する。 そこで本研究では, 正と負のペアデータを構築し, 異なる粒度で設計したコントラスト学習を行い, 一般化した特徴表現を学習する, デュアルコントラスト学習 (dcl) という新しい顔偽造検出フレームワークを提案する。 具体的には,厳密なサンプル選択戦略と組み合わせて,特にインスタンスペアの構築によるタスク関連識別特徴学習を促進するために,Inter-ICL(Inter-Ins tance Contrastive Learning)を提案する。 さらに、本質的な相違点をさらに探求するため、インスタンス内の局所領域ペアを構築して、偽顔で広く見られる局所的内容の不整合に焦点を合わせるために、イントラインスタンスコントラストラーニング(Intra-ICL)を導入している。 いくつかのデータセットにおける広範囲な実験と可視化は、最先端の競合相手に対する手法の一般化を示している。

With various facial manipulation techniques arising, face forgery detection has drawn growing attention due to security concerns. Previous works always formulate face forgery detection as a classification problem based on cross-entropy loss, which emphasizes category-level differences rather than the essential discrepancies between real and fake faces, limiting model generalization in unseen domains. To address this issue, we propose a novel face forgery detection framework, named Dual Contrastive Learning (DCL), which specially constructs positive and negative paired data and performs designed contrastive learning at different granularities to learn generalized feature representation. Concretely, combined with the hard sample selection strategy, Inter-Instance Contrastive Learning (Inter-ICL) is first proposed to promote task-related discriminative features learning by especially constructing instance pairs. Moreover, to further explore the essential discrepancies, Intra-Instance Contrastive Learning (Intra-ICL) is introduced to focus on the local content inconsistencies prevalent in the forged faces by constructing local-region pairs inside instances. Extensive experiments and visualizations on several datasets demonstrate the generalization of our method against the state-of-the-art competitors.
翻訳日:2021-12-28 15:58:05 公開日:2021-12-27
# エネルギーベース潜在空間を用いた学習生成型視覚トランスによる塩分予測

Learning Generative Vision Transformer with Energy-Based Latent Space for Saliency Prediction ( http://arxiv.org/abs/2112.13528v1 )

ライセンス: Link先を確認
Jing Zhang, Jianwen Xie, Nick Barnes, Ping Li(参考訳) ビジョントランスフォーマーネットワークは多くのコンピュータビジョンタスクにおいて優れている。 本稿では, 有意エネルギーに基づく物体検出に先立って, 潜在変数を持つ新しい生成視覚変換器を提案することにより, さらなる一歩を踏み出した。 視覚変換器ネットワークとエネルギーベース先行モデルの両方はマルコフ連鎖モンテカルロによる最大推定により共同で訓練され、この場合、遅延変数の抽出可能な後方および先行分布からのサンプリングはランゲヴィンダイナミクスによって実行される。 また、生成視覚変換器を用いて画像から画素方向の不確かさマップを容易に得ることができ、画像からの塩分予測に対するモデルの信頼度を示す。 既約変数の事前分布を単純な等方性ガウス分布として定義する既存の生成モデルとは異なり、本モデルはエネルギーに基づく情報的前置法を用い、データの潜在空間をより表現豊かに捉えることができる。 提案手法をrgbおよびrgb-dサルエントオブジェクト検出タスクに適用する。 広範な実験結果から,我々の枠組みは,正確な塩分予測だけでなく,人間の知覚と整合する有意義な不確実性マップを実現できることが示された。

Vision transformer networks have shown superiority in many computer vision tasks. In this paper, we take a step further by proposing a novel generative vision transformer with latent variables following an informative energy-based prior for salient object detection. Both the vision transformer network and the energy-based prior model are jointly trained via Markov chain Monte Carlo-based maximum likelihood estimation, in which the sampling from the intractable posterior and prior distributions of the latent variables are performed by Langevin dynamics. Further, with the generative vision transformer, we can easily obtain a pixel-wise uncertainty map from an image, which indicates the model confidence in predicting saliency from the image. Different from the existing generative models which define the prior distribution of the latent variables as a simple isotropic Gaussian distribution, our model uses an energy-based informative prior which can be more expressive to capture the latent space of the data. We apply the proposed framework to both RGB and RGB-D salient object detection tasks. Extensive experimental results show that our framework can achieve not only accurate saliency predictions but also meaningful uncertainty maps that are consistent with the human perception.
翻訳日:2021-12-28 15:57:45 公開日:2021-12-27
# 画像エッジ復元フィルタ

Image Edge Restoring Filter ( http://arxiv.org/abs/2112.13540v1 )

ライセンス: Link先を確認
Qian Liu, Yongpeng Li, Zhihang Wang(参考訳) コンピュータビジョン、画像処理、コンピュータグラフィックスにおいて、画像平滑化フィルタリングは非常に基本的で重要な課題であり、良好なエッジ保存平滑化特性を有することが期待される。 ここでは、多くの局所スムースティングフィルタのエッジ保存能力を改善する必要がある問題に対処する。 本稿では,局所的な平滑化フィルタの出力のぼやけたエッジ画素をクリアに復元するための画像エッジ復元フィルタ(ERF)を提案する。 提案フィルタは,ボックスフィルタ,ガウスフィルタ,バイラテラルフィルタ,ガイドフィルタなど,多くの局所スムージングフィルタの後に実装可能である。 元の局所平滑フィルタ+ERF」の組み合わせは、元の局所平滑フィルタよりもエッジ保存平滑性が高い。 画像平滑化,画像雑音除去,画像強調実験により,提案フィルタの優れたエッジ復元性能と,"オリジナル局所平滑化フィルタ+erf"の組み合わせによるエッジ保存平滑化特性が実証された。 提案するフィルタは, 平滑化フィルタが多用され, 基本操作となるため, 様々な応用が期待できる。

In computer vision, image processing and computer graphics, image smoothing filtering is a very basic and important task and to be expected possessing good edge-preserving smoothing property. Here we address the problem that the edge-preserving ability of many popular local smoothing filters needs to be improved. In this paper, we propose the image Edge Restoring Filter (ERF) to restore the blur edge pixels in the output of local smoothing filters to be clear. The proposed filter can been implemented after many local smoothing filter (such as Box filter, Gaussian filter, Bilateral Filter, Guided Filter and so on). The combinations of "original local smoothing filters + ERF" have better edge-preserving smoothing property than the original local smoothing filters. Experiments on image smoothing, image denoising and image enhancement demonstrate the excellent edges restoring ability of the proposed filter and good edgepreserving smoothing property of the combination "original local smoothing filters + ERF". The proposed filter would benefit a great variety of applications given that smoothing filtering is a high frequently used and fundamental operation.
翻訳日:2021-12-28 15:57:26 公開日:2021-12-27
# 応答型リスニングヘッド生成:ベンチマークデータセットとベースライン

Responsive Listening Head Generation: A Benchmark Dataset and Baseline ( http://arxiv.org/abs/2112.13548v1 )

ライセンス: Link先を確認
Mohan Zhou, Yalong Bai, Wei Zhang, Tiejun Zhao, Tao Mei(参考訳) 対面会話中のレスポンシブリスニングは、社会的相互作用の重要な要素であり、心理的研究においてよく確立されている。 話者の言葉、イントネーション、行動に応答する非言語的信号によって、リスナーはどのように対話を行うかを示す。 本研究では,67人の話者と76人のリスナーによる3つの異なる態度の会話ビデオコーパスであるResponsive Listener Dataset (RLD)を構築した。 我々は、応答型リスニングヘッド生成タスクを、話者の音声や視覚信号を含む複数の入力に応答する動きや表現を持つ非言語ヘッドの合成として定義する。 音声駆動ジェスチャや音声ヘッド生成と異なり,人間間インタラクション,ビデオ間翻訳,クロスモーダル理解,生成など,いくつかの研究分野のメリットを期待して,この課題により多くのモーダルを導入する。 さらに,姿勢条件付きリスニングヘッド生成ベースラインをリリースする。 プロジェクトページ: \url{https://project.mhzh ou.com/rld}。

Responsive listening during face-to-face conversations is a critical element of social interaction and is well established in psychological research. Through non-verbal signals response to the speakers' words, intonations, or behaviors in real-time, listeners show how they are engaged in dialogue. In this work, we build the Responsive Listener Dataset (RLD), a conversation video corpus collected from the public resources featuring 67 speakers, 76 listeners with three different attitudes. We define the responsive listening head generation task as the synthesis of a non-verbal head with motions and expressions reacting to the multiple inputs, including the audio and visual signal of the speaker. Unlike speech-driven gesture or talking head generation, we introduce more modals in this task, hoping to benefit several research fields, including human-to-human interaction, video-to-video translation, cross-modal understanding, and generation. Furthermore, we release an attitude conditioned listening head generation baseline. Project page: \url{https://project.mhzh ou.com/rld}.
翻訳日:2021-12-28 15:57:04 公開日:2021-12-27
# 分離構造変換によるロバスト・軽量モデルの学習

Learning Robust and Lightweight Model through Separable Structured Transformations ( http://arxiv.org/abs/2112.13551v1 )

ライセンス: Link先を確認
Yanhui Huang, Yangyu Xu and Xian Wei(参考訳) モバイルデバイスやモノのインターネットの普及に伴い、ディープラーニングモデルは、限られたコンピューティングリソースとメモリを持つデバイスにますますデプロイされ、敵対的ノイズの脅威にさらされている。 これらの機器には軽量で堅牢な深層モデルを学ぶ必要がある。 しかし、現在のディープラーニングソリューションでは、これら2つの特性を持つモデルを、どちらか一方を劣化させることなく学習することは困難である。 よく知られているように、完全連結層は畳み込みニューラルネットワークのパラメータの大半に寄与する。 そこでは, 完全連結層の大規模重み行列を, 分離可能な小型行列のテンソル積で分解し, パラメータを小さくするために, 完全連結層の分離可能な構造変換を行う。 画像などのデータは、完全に接続された層に供給される前にフラット化される必要がなくなり、データの貴重な空間幾何学的情報を保持することに注意されたい。 さらに, 軽量性, 堅牢性を両立させるため, これらの分離可能な行列に課される疎度と微分可能な条件数の合同制約を提案する。 MLP, VGG-16, Vision Transformer に対する提案手法の評価を行った。 ImageNet, SVHN, CIFAR-100, CIFAR10などのデータセットを用いた実験結果から, ネットワークパラメータの90%削減に成功し, 頑健な精度損失は1.5%未満であり, 元の完全接続層に基づくSOTA法よりも優れていることがわかった。 興味深いことに、200倍のような高い圧縮速度でも圧倒的な利点が得られる。

With the proliferation of mobile devices and the Internet of Things, deep learning models are increasingly deployed on devices with limited computing resources and memory, and are exposed to the threat of adversarial noise. Learning deep models with both lightweight and robustness is necessary for these equipments. However, current deep learning solutions are difficult to learn a model that possesses these two properties without degrading one or the other. As is well known, the fully-connected layers contribute most of the parameters of convolutional neural networks. We perform a separable structural transformation of the fully-connected layer to reduce the parameters, where the large-scale weight matrix of the fully-connected layer is decoupled by the tensor product of several separable small-sized matrices. Note that data, such as images, no longer need to be flattened before being fed to the fully-connected layer, retaining the valuable spatial geometric information of the data. Moreover, in order to further enhance both lightweight and robustness, we propose a joint constraint of sparsity and differentiable condition number, which is imposed on these separable matrices. We evaluate the proposed approach on MLP, VGG-16 and Vision Transformer. The experimental results on datasets such as ImageNet, SVHN, CIFAR-100 and CIFAR10 show that we successfully reduce the amount of network parameters by 90%, while the robust accuracy loss is less than 1.5%, which is better than the SOTA methods based on the original fully-connected layer. Interestingly, it can achieve an overwhelming advantage even at a high compression rate, e.g., 200 times.
翻訳日:2021-12-28 15:56:45 公開日:2021-12-27
# 画像検索のためのハードサンプル誘導ハッシュ

Hard Example Guided Hashing for Image Retrieval ( http://arxiv.org/abs/2112.13565v1 )

ライセンス: Link先を確認
Hai Su, Meiyin Han, Junle Liang, Jun Liang, Songsen Yu(参考訳) 従来のハッシュ法と比較して、深いハッシュ法はリッチな意味情報を持つハッシュコードを生成し、画像検索領域の性能を大幅に向上させる。 しかし, ハードサンプルの類似性を予測するため, 現在のディープハッシュ法には不満足である。 ハードサンプルの学習能力に影響を及ぼす主な要因は2つあり、これは弱い特徴抽出とハードサンプルの不足である。 本稿では,実例から重要な特徴を抽出し,正確な意味情報を持つハッシュコードを得るための,新しいエンドツーエンドモデルを提案する。 さらに,厳密なペアワイズ損失関数を再設計し,実例の厳密度を評価し,ペナルティ重みを更新する。 困難例の不足問題を効果的に軽減する。 CIFAR-10 と NUS-WIDE の実験結果から,本モデルが主流のハッシュ画像検索手法より優れていることが示された。

Compared with the traditional hashing methods, deep hashing methods generate hash codes with rich semantic information and greatly improves the performances in the image retrieval field. However, it is unsatisfied for current deep hashing methods to predict the similarity of hard examples. It exists two main factors affecting the ability of learning hard examples, which are weak key features extraction and the shortage of hard examples. In this paper, we give a novel end-to-end model to extract the key feature from hard examples and obtain hash code with the accurate semantic information. In addition, we redesign a hard pair-wise loss function to assess the hard degree and update penalty weights of examples. It effectively alleviates the shortage problem in hard examples. Experimental results on CIFAR-10 and NUS-WIDE demonstrate that our model outperformances the mainstream hashing-based image retrieval methods.
翻訳日:2021-12-28 15:55:18 公開日:2021-12-27
# 航空機搭載LiDAR3次元点雲からの植生成層活動予測

Vegetation Stratum Occupancy Prediction from Airborne LiDAR 3D Point Clouds ( http://arxiv.org/abs/2112.13583v1 )

ライセンス: Link先を確認
Ekaterina Kalinicheva, Loic Landrieu, Cl\'ement Mallet, Nesrine Chehata(参考訳) 本研究では,空中プラットフォームから採取した3次元点雲から植生層を推定する新しい深層学習手法を提案する。 本モデルでは,低地,中地,高地の三植生のラスタ化占有マップを予測した。 我々のトレーニングスキームでは、我々のネットワークは、ピクセルワイドやポイントワイドのアノテーションよりも簡単に生成できる円筒プロットに集約された値でのみ重畳される。 本手法は,手作りのベースラインと深層学習のベースラインを精度で上回り,同時に視覚的かつ解釈可能な予測を提供する。 本手法のオープンソース実装と,199個の農業プロットのデータセットを用いて,居住回帰アルゴリズムの訓練と評価を行う。

We propose a new deep learning-based method for estimating the occupancy of vegetation strata from 3D point clouds captured from an aerial platform. Our model predicts rasterized occupancy maps for three vegetation strata: lower, medium, and higher strata. Our training scheme allows our network to only being supervized with values aggregated over cylindrical plots, which are easier to produce than pixel-wise or point-wise annotations. Our method outperforms handcrafted and deep learning baselines in terms of precision while simultaneously providing visual and interpretable predictions. We provide an open-source implementation of our method along along a dataset of 199 agricultural plots to train and evaluate occupancy regression algorithms.
翻訳日:2021-12-28 15:55:03 公開日:2021-12-27
# 物体検出のための加算ニューラルネットワークの実験的検討

An Empirical Study of Adder Neural Networks for Object Detection ( http://arxiv.org/abs/2112.13608v1 )

ライセンス: Link先を確認
Xinghao Chen, Chang Xu, Minjing Dong, Chunjing Xu, Yunhe Wang(参考訳) 加算ニューラルネットワーク(AdderNets)は、加算操作のみを含む画像分類において印象的な性能を示しており、乗算で構築された従来の畳み込みニューラルネットワークよりもエネルギー効率が高い。 分類と比較すると、自動運転や顔検出のような現実世界のアプリケーションのための加算網による現代の物体検出器のエネルギー消費を減らすという強い需要がある。 本稿では,オブジェクト検出のためのAdderNetの実証的研究を行う。 まず,事前学習した加算器バックボーンのバッチ正規化統計を凍結すべきではないことを明らかにした。 さらに,ネック部により多くのショートカット接続を挿入し,加算層のスパースな特徴を回避するための新機能フュージョンアーキテクチャを設計する。 我々は,加算器検出器の設計選択を探究するために,広範なアブレーション研究を行う。 COCOとPASCAL VOCのベンチマークで最先端との比較を行った。 具体的には、提案されたAdder FCOSは、COCO val集合上で37.8 %のAPを達成し、約1.4 倍のエネルギー還元で畳み込み型と同等の性能を示す。

Adder neural networks (AdderNets) have shown impressive performance on image classification with only addition operations, which are more energy efficient than traditional convolutional neural networks built with multiplications. Compared with classification, there is a strong demand on reducing the energy consumption of modern object detectors via AdderNets for real-world applications such as autonomous driving and face detection. In this paper, we present an empirical study of AdderNets for object detection. We first reveal that the batch normalization statistics in the pre-trained adder backbone should not be frozen, since the relatively large feature variance of AdderNets. Moreover, we insert more shortcut connections in the neck part and design a new feature fusion architecture for avoiding the sparse features of adder layers. We present extensive ablation studies to explore several design choices of adder detectors. Comparisons with state-of-the-arts are conducted on COCO and PASCAL VOC benchmarks. Specifically, the proposed Adder FCOS achieves a 37.8\% AP on the COCO val set, demonstrating comparable performance to that of the convolutional counterpart with an about $1.4\times$ energy reduction.
翻訳日:2021-12-28 15:54:51 公開日:2021-12-27
# 注意に基づく集約による畳み込みネットワークの拡張

Augmenting Convolutional networks with attention-based aggregation ( http://arxiv.org/abs/2112.13692v1 )

ライセンス: Link先を確認
Hugo Touvron, Matthieu Cord, Alaaeldin El-Nouby, Piotr Bojanowski, Armand Joulin, Gabriel Synnaeve, Herv\'e J\'egou(参考訳) 非局所的推論を実現するために,注意に基づくグローバルマップを用いた畳み込みネットワークの拡張方法を示す。 最終平均プーリングを1つの変圧器ブロックに似たアテンションベースのアグリゲーション層に置き換え、パッチが分類決定にどのように関与しているかを重み付けする。 この学習集約層を2つのパラメータ(幅と深さ)でパラメータ化した単純パッチベースの畳み込みネットワークで接続する。 ピラミッドの設計とは対照的に、このアーキテクチャファミリーはすべてのレイヤにまたがる入力パッチの解像度を維持している。 これは、オブジェクトの分類、画像分割、検出といった様々なコンピュータビジョンタスクの実験で示されるように、正確性と複雑さ、特にメモリ消費の面で驚くほど競合的なトレードオフをもたらします。

We show how to augment any convolutional network with an attention-based global map to achieve non-local reasoning. We replace the final average pooling by an attention-based aggregation layer akin to a single transformer block, that weights how the patches are involved in the classification decision. We plug this learned aggregation layer with a simplistic patch-based convolutional network parametrized by 2 parameters (width and depth). In contrast with a pyramidal design, this architecture family maintains the input patch resolution across all the layers. It yields surprisingly competitive trade-offs between accuracy and complexity, in particular in terms of memory consumption, as shown by our experiments on various computer vision tasks: object classification, image segmentation and detection.
翻訳日:2021-12-28 15:54:32 公開日:2021-12-27
# 深度画像からの視覚的位置表現と認識

Visual Place Representation and Recognition from Depth Images ( http://arxiv.org/abs/2112.13707v1 )

ライセンス: Link先を確認
Farah Ibelaiden and Slimane Larabi(参考訳) 本研究は,シーンアーキテクチャに基づく新しい位置認識手法を提案する。 深度映像から3Dモデルを計算し,提案アルゴリズムのコアを構成するためにシーン記述子を推論した2Dマップを幾何学的に導出し記述する。 得られた結果から,シーンの出現変化や光の変動に対する推定ディスクリプタの効率性とロバスト性が示された。

This work proposes a new method for place recognition based on the scene architecture. From depth video, we compute the 3D model and we derive and describe geometrically the 2D map from which the scene descriptor is deduced to constitute the core of the proposed algorithm. The obtained results show the efficiency and the robustness of the propounded descriptor to scene appearance changes and light variations.
翻訳日:2021-12-28 15:54:20 公開日:2021-12-27
# smoothnet:ビデオで人間のポーズを磨くためのプラグ&プレイネットワーク

SmoothNet: A Plug-and-Play Network for Refining Human Poses in Videos ( http://arxiv.org/abs/2112.13715v1 )

ライセンス: Link先を確認
Ailing Zeng, Lei Yang, Xuan Ju, Jiefeng Li, Jianyi Wang, Qiang Xu(参考訳) 人間のモーションビデオを分析する際、既存のポーズ推定器からの出力ジッタは高度に不均衡である。 ほとんどのフレームはわずかなジッタしか持たないが、多くのジッタはオクルージョンや画質の悪いフレームで発生する。 このような複雑なポーズはビデオでしばしば持続し、推定結果の悪い連続フレームと大きなジッタに繋がる。 時間的畳み込みネットワーク、リカレントニューラルネットワーク、ローパスフィルタに基づく既存のポーズ平滑化ソリューションは、ジッタリングビデオセグメント内の重要かつ永続的なエラーを考慮せずに、そのような長期的なジッタ問題に対処することはできない。 そこで本研究では,既存のポーズ推定器にスムースネットを接続し,時間的平滑性の向上とフレーム単位の精度向上を両立させた新しいプラグ・アンド・プレイ・リファインメントネットワークを提案する。 特にSMOOTHNETは、大きな受容場を持つシンプルで効果的なデータ駆動完全接続ネットワークであり、信頼性の低い推定結果で長期ジッタの影響を効果的に軽減する。 2次元および3次元ポーズ推定、ボディリカバリ、ダウンストリームタスクにまたがる7つのデータセットを含む12のバックボーンネットワークについて広範な実験を行った。 提案したSMOOTHNETは,特に高い誤差と長期的ジッタを有するクリップにおいて,既存のソリューションよりも一貫して優れていることを示す。

When analyzing human motion videos, the output jitters from existing pose estimators are highly-unbalanced. Most frames only suffer from slight jitters, while significant jitters occur in those frames with occlusion or poor image quality. Such complex poses often persist in videos, leading to consecutive frames with poor estimation results and large jitters. Existing pose smoothing solutions based on temporal convolutional networks, recurrent neural networks, or low-pass filters cannot deal with such a long-term jitter problem without considering the significant and persistent errors within the jittering video segment. Motivated by the above observation, we propose a novel plug-and-play refinement network, namely SMOOTHNET, which can be attached to any existing pose estimators to improve its temporal smoothness and enhance its per-frame precision simultaneously. Especially, SMOOTHNET is a simple yet effective data-driven fully-connected network with large receptive fields, effectively mitigating the impact of long-term jitters with unreliable estimation results. We conduct extensive experiments on twelve backbone networks with seven datasets across 2D and 3D pose estimation, body recovery, and downstream tasks. Our results demonstrate that the proposed SMOOTHNET consistently outperforms existing solutions, especially on those clips with high errors and long-term jitters.
翻訳日:2021-12-28 15:54:13 公開日:2021-12-27
# (参考訳) バンドの腕の重度変化の追跡 [全文訳有]

Tracking Most Severe Arm Changes in Bandits ( http://arxiv.org/abs/2112.13838v1 )

ライセンス: CC BY 4.0
Joe Suk and Samory Kpotufe(参考訳) 分布シフトを伴う帯域幅において、報酬分布の変化の未知数$L$を自動的に検出し、必要に応じて探索を再開することを目的としている。 この問題は長年公にされてきたが、最近の Auer et al. (2018, 2019) のブレークスルーは、$L$の知識のない$T$ラウンドに対して最適(動的)後悔$\sqrt{LT}$を保証するための最初の適応手順を提供する。 しかし、全ての分布シフトが等しく深刻であるわけではない、例えば、最高のアームスイッチが起こらないと仮定すると、後悔の$O(\sqrt{T})$が引き続き可能であると断定することはできない。 様々な試み(auer et al., 2019, foster et al., 2020)にもかかわらず、このことはあいまいなままである。 ここでは、$\tilde {O}(\sqrt{\tilde{L} T})$で、$\tilde L \ll L$は、未知の数の深刻なベストアーム変更をキャプチャする。 その結果、これらの厳しいシフト以外の分布シフトの任意の数$L$に対して、我々の手順は単に$\tilde{O}(\sqrt{T})\ll \tilde{O}(\sqrt{LT})$である。 最後に,重度シフトの概念は,確率的スイッチングバンディットと逆バンディットの両方の古典的な設定に適用できる点に留意する。

In bandits with distribution shifts, one aims to automatically detect an unknown number $L$ of changes in reward distribution, and restart exploration when necessary. While this problem remained open for many years, a recent breakthrough of Auer et al. (2018, 2019) provide the first adaptive procedure to guarantee an optimal (dynamic) regret $\sqrt{LT}$, for $T$ rounds, with no knowledge of $L$. However, not all distributional shifts are equally severe, e.g., suppose no best arm switches occur, then we cannot rule out that a regret $O(\sqrt{T})$ may remain possible; in other words, is it possible to achieve dynamic regret that optimally scales only with an unknown number of severe shifts? This unfortunately has remained elusive, despite various attempts (Auer et al., 2019, Foster et al., 2020). We resolve this problem in the case of two-armed bandits: we derive an adaptive procedure that guarantees a dynamic regret of order $\tilde{O}(\sqrt{\tilde{L} T})$, where $\tilde L \ll L$ captures an unknown number of severe best arm changes, i.e., with significant switches in rewards, and which last sufficiently long to actually require a restart. As a consequence, for any number $L$ of distributional shifts outside of these severe shifts, our procedure achieves regret just $\tilde{O}(\sqrt{T})\ll \tilde{O}(\sqrt{LT})$. Finally, we note that our notion of severe shift applies in both classical settings of stochastic switching bandits and of adversarial bandits.
翻訳日:2021-12-28 15:52:55 公開日:2021-12-27
# 永続的進化戦略をもつアンロール型計算グラフの非バイアス勾配推定

Unbiased Gradient Estimation in Unrolled Computation Graphs with Persistent Evolution Strategies ( http://arxiv.org/abs/2112.13835v1 )

ライセンス: Link先を確認
Paul Vicol, Luke Metz, Jascha Sohl-Dickstein(参考訳) 未ロール計算グラフは、rnnのトレーニング、未ロール最適化によるハイパーパラメータのチューニング、学習したオプティマイザのトレーニングなど、多くのシナリオで発生します。 このような計算グラフのパラメータを最適化する現在のアプローチは、高い分散勾配、バイアス、遅い更新、大きなメモリ使用に苦しむ。 そこで我々は,PES(Persistent Evolution Strategies)と呼ばれる手法を導入し,計算グラフを一連の切り離されたアンロールに分割し,各アンロール後の進化戦略に基づく更新ステップを実行する。 pesは、アンロールのシーケンス全体にわたって補正項を蓄積することにより、これらの切断からバイアスを取り除く。 PESは高速なパラメータ更新を可能にし、メモリ使用量が少なく、バイアスがなく、合理的な分散特性を持つ。 合成タスクの勾配推定法と比較して, PESの利点を実験的に実証し, 学習したオプティマイザのトレーニングやハイパーパラメータのチューニングへの適用性を示した。

Unrolled computation graphs arise in many scenarios, including training RNNs, tuning hyperparameters through unrolled optimization, and training learned optimizers. Current approaches to optimizing parameters in such computation graphs suffer from high variance gradients, bias, slow updates, or large memory usage. We introduce a method called Persistent Evolution Strategies (PES), which divides the computation graph into a series of truncated unrolls, and performs an evolution strategies-based update step after each unroll. PES eliminates bias from these truncations by accumulating correction terms over the entire sequence of unrolls. PES allows for rapid parameter updates, has low memory usage, is unbiased, and has reasonable variance characteristics. We experimentally demonstrate the advantages of PES compared to several other methods for gradient estimation on synthetic tasks, and show its applicability to training learned optimizers and tuning hyperparameters.
翻訳日:2021-12-28 15:17:15 公開日:2021-12-27
# PRIME: 民事破壊でロバスト性を高めるプリミティブは少ない

PRIME: A Few Primitives Can Boost Robustness to Common Corruptions ( http://arxiv.org/abs/2112.13547v1 )

ライセンス: Link先を確認
Apostolos Modas, Rahul Rade, Guillermo Ortiz-Jim\'enez, Seyed-Mohsen Moosavi-Dezfooli, Pascal Frossard(参考訳) 画像分類タスクにおける優れたパフォーマンスにもかかわらず、ディープネットワークはデータの多くの一般的な破損を一般化するのは難しい。 この脆弱性を修正するために、以前の作業は主にトレーニングパイプラインの複雑さを増し、多様性という名目で複数のメソッドを組み合わせることに焦点を当てていた。 しかし、本研究では、我々は一歩後退し、共通の腐敗に対する堅牢性を達成するための原則的なアプローチに従う。 本稿では,最大エントロピー画像変換の単純なファミリーからなる汎用データ拡張スキームPRIMEを提案する。 PRIMEは従来の汚損防止技術よりも優れており,そのシンプルさとプラグアンドプレイ性により,他の手法と組み合わせて堅牢性をさらに向上させることができる。 さらに, 画像の合成における混合戦略の重要性に光を当てるためにPRIMEを解析し, 共通の腐敗の文脈で生じるロバスト性-精度トレードオフを明らかにする。 最後に,本手法の計算効率は,オンラインとオフラインのデータ拡張方式の両方において容易に利用できることを示す。

Despite their impressive performance on image classification tasks, deep networks have a hard time generalizing to many common corruptions of their data. To fix this vulnerability, prior works have mostly focused on increasing the complexity of their training pipelines, combining multiple methods, in the name of diversity. However, in this work, we take a step back and follow a principled approach to achieve robustness to common corruptions. We propose PRIME, a general data augmentation scheme that consists of simple families of max-entropy image transformations. We show that PRIME outperforms the prior art for corruption robustness, while its simplicity and plug-and-play nature enables it to be combined with other methods to further boost their robustness. Furthermore, we analyze PRIME to shed light on the importance of the mixing strategy on synthesizing corrupted images, and to reveal the robustness-accuracy trade-offs arising in the context of common corruptions. Finally, we show that the computational efficiency of our method allows it to be easily used in both on-line and off-line data augmentation schemes.
翻訳日:2021-12-28 15:16:33 公開日:2021-12-27
# マルチチャネル学習による性能向上

A Multi-channel Training Method Boost the Performance ( http://arxiv.org/abs/2112.13727v1 )

ライセンス: Link先を確認
Yingdong Hu(参考訳) 深層畳み込みニューラルネットワークは大きな革命を遂げ、分類やセグメンテーションといったコンピュータビジョンタスクにおいて優れたパフォーマンスを示している。 近年,携帯電話などの組み込みシステムにおけるメモリ容量の制限に適応するため,ネットワーク規模を拡大する努力が盛んに行われている。 本稿では,ターゲットネットワークの性能とロバストを高度に向上させるマルチチャネル学習手法を提案する。 提案手法は,組込みプラットフォームの計算能力に独立して作用する2組のネットワークと2組の情報パイプラインを含むが,平均的に分類精度も良好に向上している。

Deep convolutional neural network has made huge revolution and shown its superior performance on computer vision tasks such as classification and segmentation. Recent years, researches devote much effort to scaling down size of network while maintaining its ability, to adapt to the limited memory on embedded systems like mobile phone. In this paper, we propose a multi-channel training procedure which can highly facilitate the performance and robust of the target network. The proposed procedure contains two sets of networks and two information pipelines which can work independently hinge on the computation ability of the embedded platform, while in the mean time, the classification accuracy is also admirably enhanced.
翻訳日:2021-12-28 15:16:13 公開日:2021-12-27
# ストックムーブメント予測のためのマルチモーダルアテンションネットワーク

Multi-modal Attention Network for Stock Movements Prediction ( http://arxiv.org/abs/2112.13593v1 )

ライセンス: Link先を確認
Shwai He and Shi Gu(参考訳) 株価は、純粋にランダムなウォークではなく、断片的なトレンド変動として動く。 伝統的に、将来の株価変動の予測は歴史取引記録に基づいている。 今日では、ソーシャルメディアの発展に伴い、市場の多くのアクティブな参加者が自身の戦略を公表することを選び、ソーシャルメディアの背景にある意味を抽出し、将来の動きに対する市場全体の態度を垣間見る機会を提供している。 しかし、ソーシャルメディアには矛盾する情報が含まれており、歴史的記録を完全に置き換えることはできない。 本研究では,競合を低減し,意味的特徴と数値的特徴を統合し,将来の株価変動を包括的に予測する多モードアテンションネットワークを提案する。 具体的には、まずソーシャルメディアから意味情報を抽出し、ポスターのアイデンティティと評判に基づいて信頼性を推定する。 そして、オンライン投稿のセマンティクスと歴史的記録の数値的特徴を取り入れ、取引戦略を作ります。 実験の結果,予測精度 (61.20\%) と取引利益 (9.13\%) の両面で, 従来の手法よりも優れていた。 本手法は, 株価変動予測の性能を向上し, 将来の株価変動予測に向けた多モード融合研究の成果を示す。

Stock prices move as piece-wise trending fluctuation rather than a purely random walk. Traditionally, the prediction of future stock movements is based on the historical trading record. Nowadays, with the development of social media, many active participants in the market choose to publicize their strategies, which provides a window to glimpse over the whole market's attitude towards future movements by extracting the semantics behind social media. However, social media contains conflicting information and cannot replace historical records completely. In this work, we propose a multi-modality attention network to reduce conflicts and integrate semantic and numeric features to predict future stock movements comprehensively. Specifically, we first extract semantic information from social media and estimate their credibility based on posters' identity and public reputation. Then we incorporate the semantic from online posts and numeric features from historical records to make the trading strategy. Experimental results show that our approach outperforms previous methods by a significant margin in both prediction accuracy (61.20\%) and trading profits (9.13\%). It demonstrates that our method improves the performance of stock movements prediction and informs future research on multi-modality fusion towards stock prediction.
翻訳日:2021-12-28 15:13:44 公開日:2021-12-27
# 強化学習は,ミオピックフォロワを持つ一般サムマルコフゲームにおいて,stackelberg-nash平衡を見つけることができるか?

Can Reinforcement Learning Find Stackelberg-Nash Equilibria in General-Sum Markov Games with Myopic Followers? ( http://arxiv.org/abs/2112.13521v1 )

ライセンス: Link先を確認
Han Zhong, Zhuoran Yang, Zhaoran Wang, Michael I. Jordan(参考訳) 我々は,マルチプレイヤーのジェネラルサムマルコフゲームについて,リーダーとフォロワーとみなすプレイヤーの1人を用いて研究した。 特に、フォロワーが近視的であり、即座の報酬を最大化することを目的としているゲームの種類に焦点をあてる。 このようなゲームの場合、我々の目標は、ポリシーペア $(\pi^*, \nu^*)$ であるstackelberg-nash equilibrium (sne) を見つけることである。 (i)$\pi^*$は、常にフォロワーが最善の反応をするときに、リーダーにとって最適なポリシーであり、 (ii)$\nu^*$はフォロワーの最良のレスポンスポリシーであり、$\pi^*$によって誘導されるフォロワーのゲームのナッシュ均衡である。 オンラインとオフラインの両方でSNEのためのサンプル効率強化学習(RL)アルゴリズムを開発した。 我々のアルゴリズムは最小二乗値反復の楽観的で悲観的な変種であり、大きな状態空間の設定に関数近似ツールを組み込むことができる。 さらに, 線形関数近似の場合, オンラインおよびオフライン環境において, アルゴリズムがそれぞれsublinear regretとsuboptimalityを達成することを証明した。 我々の知識を最大限に活用するために、筋電図フォロワーを持つ一般的なマルコフゲームにおいて、SNEを解くための最初の証明可能なRLアルゴリズムを確立する。

We study multi-player general-sum Markov games with one of the players designated as the leader and the other players regarded as followers. In particular, we focus on the class of games where the followers are myopic, i.e., they aim to maximize their instantaneous rewards. For such a game, our goal is to find a Stackelberg-Nash equilibrium (SNE), which is a policy pair $(\pi^*, \nu^*)$ such that (i) $\pi^*$ is the optimal policy for the leader when the followers always play their best response, and (ii) $\nu^*$ is the best response policy of the followers, which is a Nash equilibrium of the followers' game induced by $\pi^*$. We develop sample-efficient reinforcement learning (RL) algorithms for solving for an SNE in both online and offline settings. Our algorithms are optimistic and pessimistic variants of least-squares value iteration, and they are readily able to incorporate function approximation tools in the setting of large state spaces. Furthermore, for the case with linear function approximation, we prove that our algorithms achieve sublinear regret and suboptimality under online and offline setups respectively. To the best of our knowledge, we establish the first provably efficient RL algorithms for solving for SNEs in general-sum Markov games with myopic followers.
翻訳日:2021-12-28 15:10:21 公開日:2021-12-27
# 高分解能微分方程式による鞍点オプティマイザのラストイテレート収束

Last-Iterate Convergence of Saddle Point Optimizers via High-Resolution Differential Equations ( http://arxiv.org/abs/2112.13826v1 )

ライセンス: Link先を確認
Tatjana Chavdarova, Michael I. Jordan and Manolis Zampetakis(参考訳) 広く使われている一階サドル点最適化法は、勾配降下上昇法 (gda) 法と同一の連続時間常微分方程式 (ode) を与える。 しかし、それらの収束特性は単純双線型ゲームでも大きく異なる。 高分解能微分方程式(hrdes)と呼ばれる流体力学の手法を用いて複数の鞍点最適化法のodeを設計する。 双線型ゲームでは、導出したHRDEの収束特性は開始離散法の収束特性に対応する。 これらの手法を用いて,OGDA (Optimistic Gradient Descent Ascent) のHRDEは,一般単調変分不等式に対する最終点収束性を示す。 我々の知る限り、これはそのような一般的な設定に収束することが示されている最初の連続時間力学である。 さらに, 単調作用素の1次滑らかさにのみ依存して, OGDA法の最適点収束率を示す。

Several widely-used first-order saddle point optimization methods yield an identical continuous-time ordinary differential equation (ODE) to that of the Gradient Descent Ascent (GDA) method when derived naively. However, their convergence properties are very different even on simple bilinear games. We use a technique from fluid dynamics called High-Resolution Differential Equations (HRDEs) to design ODEs of several saddle point optimization methods. On bilinear games, the convergence properties of the derived HRDEs correspond to that of the starting discrete methods. Using these techniques, we show that the HRDE of Optimistic Gradient Descent Ascent (OGDA) has last-iterate convergence for general monotone variational inequalities. To our knowledge, this is the first continuous-time dynamics shown to converge for such a general setting. Moreover, we provide the rates for the best-iterate convergence of the OGDA method, relying solely on the first-order smoothness of the monotone operator.
翻訳日:2021-12-28 15:09:55 公開日:2021-12-27
# (参考訳) HeteroQA:異種グラフモデリングによる複数の情報ソースによる質問・回答の学習 [全文訳有]

HeteroQA: Learning towards Question-and-Answeri ng through Multiple Information Sources via Heterogeneous Graph Modeling ( http://arxiv.org/abs/2112.13597v1 )

ライセンス: CC BY 4.0
Shen Gao, Yuchi Zhang, Yongliang Wang, Yang Dong, Xiuying Chen, Dongyan Zhao and Rui Yan(参考訳) コミュニティ質問回答(Community Question Answering, CQA)は、Eコマースやオンラインユーザコミュニティなど、多くのシナリオで利用することができる、明確に定義されたタスクである。 これらのコミュニティでは、ユーザーは記事の投稿、コメントの投稿、質問の募集、それに答えることができる。 これらのデータは、各情報ソースが独自の特殊構造と文脈(記事や関連質問に添付された記事)を持つ異種情報ソースを形成する。 CQAの手法のほとんどは、知識を抽出し、ユーザの質問に答えるために記事やウィキペディアしか含まない。 しかし、コミュニティ内の様々な情報ソースはこれらのCQA手法によって完全には探索されておらず、これらの複数の情報ソース(MIS)は、ユーザの質問にもっと関連性のある知識を提供することができる。 そこで本研究では,MISをユーザコミュニティに組み込んで回答を自動的に生成する問合せ対応の異種グラフ変換器を提案する。 提案手法を評価するために、ベンチマークデータセットMS-MARCOの修正版である$\text{MSM}^{\text{plus}}と、4種類のMISを持つ最初の大規模CQAデータセットであるAntQAデータセットの2つのデータセットで実験を行った。 2つのデータセットに対する大規模な実験は、我々のモデルがすべての指標ですべてのベースラインを上回っていることを示している。

Community Question Answering (CQA) is a well-defined task that can be used in many scenarios, such as E-Commerce and online user community for special interests. In these communities, users can post articles, give comment, raise a question and answer it. These data form the heterogeneous information sources where each information source have their own special structure and context (comments attached to an article or related question with answers). Most of the CQA methods only incorporate articles or Wikipedia to extract knowledge and answer the user's question. However, various types of information sources in the community are not fully explored by these CQA methods and these multiple information sources (MIS) can provide more related knowledge to user's questions. Thus, we propose a question-aware heterogeneous graph transformer to incorporate the MIS in the user community to automatically generate the answer. To evaluate our proposed method, we conduct the experiments on two datasets: $\text{MSM}^{\text{plus}}$ the modified version of benchmark dataset MS-MARCO and the AntQA dataset which is the first large-scale CQA dataset with four types of MIS. Extensive experiments on two datasets show that our model outperforms all the baselines in terms of all the metrics.
翻訳日:2021-12-28 15:07:18 公開日:2021-12-27
# 非同期イベントベースデータの逆攻撃

Adversarial Attack for Asynchronous Event-based Data ( http://arxiv.org/abs/2112.13534v1 )

ライセンス: Link先を確認
Wooju Lee and Hyun Myung(参考訳) 深層ニューラルネットワーク(dnn)は、ディープラーニングモデルに誤りをもたらすよう慎重に設計されている敵の例に対して脆弱である。 2次元画像と3次元点雲の逆例は広く研究されているが、事象に基づくデータの研究は限られている。 イベントベースのデータは、自律運転などの高速動作下での2D画像の代替となる。 しかし、特定の敵のイベントによって、現在のディープラーニングモデルは安全性の問題に対して脆弱になる。 この作業では、逆の例を生成し、イベントベースのデータの堅牢なモデルを初めてトレーニングします。 アルゴリズムは元のイベントの時刻をシフトし、さらに逆のイベントを生成する。 追加の反対イベントは2段階に分けて発生する。 まず、nullイベントがイベントベースのデータに追加され、追加の敵イベントが生成される。 摂動サイズはnullイベントの数で制御できる。 次に、追加の敵イベントの位置と時刻が、勾配に基づく攻撃でDNNを誤解させるように設定される。 N-Caltech101データセットの攻撃成功率は97.95 %である。 さらに、敵意トレーニングモデルでは、敵意イベントデータのロバスト性が元のモデルと比較して向上する。

Deep neural networks (DNNs) are vulnerable to adversarial examples that are carefully designed to cause the deep learning model to make mistakes. Adversarial examples of 2D images and 3D point clouds have been extensively studied, but studies on event-based data are limited. Event-based data can be an alternative to a 2D image under high-speed movements, such as autonomous driving. However, the given adversarial events make the current deep learning model vulnerable to safety issues. In this work, we generate adversarial examples and then train the robust models for event-based data, for the first time. Our algorithm shifts the time of the original events and generates additional adversarial events. Additional adversarial events are generated in two stages. First, null events are added to the event-based data to generate additional adversarial events. The perturbation size can be controlled with the number of null events. Second, the location and time of additional adversarial events are set to mislead DNNs in a gradient-based attack. Our algorithm achieves an attack success rate of 97.95\% on the N-Caltech101 dataset. Furthermore, the adversarial training model improves robustness on the adversarial event data compared to the original model.
翻訳日:2021-12-28 14:46:25 公開日:2021-12-27
# 財務データに基づく感情予測のための文脈文分析

Contextual Sentence Analysis for the Sentiment Prediction on Financial Data ( http://arxiv.org/abs/2112.13790v1 )

ライセンス: Link先を確認
Elvys Linhares Pontes, Mohamed Benjannet(参考訳) ニューズレターやソーシャルネットワークは、アナリストや一般大衆が企業が提供する製品やサービスに関して、市場や特定の株式についての意見を反映することができる。 したがって、これらのテキストの感情分析は、投資家が市場で取引するのに役立つ有用な情報を提供する。 本稿では,企業や株式に関する感情を,-1~+1の範囲のスコア(データ型実数)を予測し,階層的なトランスフォーマーモデルスタックを提案する。 具体的には、見出しとマイクロブログを処理するためにRoBERTaモデルを微調整し、さらにトランスフォーマー層と組み合わせて、感情分析を改善するために感情辞書を用いて文解析を処理した。 我々はSemEval-2017 Task 5の財務データに基づいて評価を行い、SemEval-2017 Task 5の最高のシステムと強力なベースラインよりも優れた性能を示した。 実際、文脈分析と金融および一般感情辞書の組み合わせは、モデルに有用な情報を提供し、より信頼性の高い感情スコアを生成することができた。

Newsletters and social networks can reflect the opinion about the market and specific stocks from the perspective of analysts and the general public on products and/or services provided by a company. Therefore, sentiment analysis of these texts can provide useful information to help investors trade in the market. In this paper, a hierarchical stack of Transformers model is proposed to identify the sentiment associated with companies and stocks, by predicting a score (of data type real) in a range between -1 and +1. Specifically, we fine-tuned a RoBERTa model to process headlines and microblogs and combined it with additional Transformer layers to process the sentence analysis with sentiment dictionaries to improve the sentiment analysis. We evaluated it on financial data released by SemEval-2017 task 5 and our proposition outperformed the best systems of SemEval-2017 task 5 and strong baselines. Indeed, the combination of contextual sentence analysis with the financial and general sentiment dictionaries provided useful information to our model and allowed it to generate more reliable sentiment scores.
翻訳日:2021-12-28 14:45:53 公開日:2021-12-27
# RoBERTaのムードを理解する: 抑うつ予測のためのユーザ表現としてのコンテキスト埋め込みの役割

Understanding RoBERTa's Mood: The Role of Contextual-Embedding s as User-Representations for Depression Prediction ( http://arxiv.org/abs/2112.13795v1 )

ライセンス: Link先を確認
Matthew Matero, Albert Hung, H. Andrew Schwartz(参考訳) 自然言語処理に関する多くの研究は、個人の談話と個性、人口統計、精神保健状態との関係を示している。 しかしながら、そのような人間の特性を予測する機械学習モデルの多くは、事前訓練された言語モデルと文脈埋め込みの役割を十分に考慮していない。 人の抑うつの程度をケーススタディとして使用し,人間レベルのnlpタスクに適用した場合,オフ・ザ・セット言語モデル,個々のレイヤ,レイヤの組み合わせが最も有望であることを示す経験的分析を行った。 注目すべきは、過去の2層目と最後の4層の両方の使用を推奨する作業の標準にもかかわらず、19層(最後は6層目)はそれ自体が最も理想的なものであるのに対して、複数の層を使用する場合、24層の後半(つまり12層以上)に分散するのが最善である、ということです。

Many works in natural language processing have shown connections between a person's personal discourse and their personality, demographics, and mental health states. However, many of the machine learning models that predict such human traits have yet to fully consider the role of pre-trained language models and contextual embeddings. Using a person's degree of depression as a case study, we do an empirical analysis on which off-the-shelf language model, individual layers, and combinations of layers seem most promising when applied to human-level NLP tasks. Notably, despite the standard in past work of suggesting use of either the second-to-last or the last 4 layers, we find layer 19 (sixth-to last) is the most ideal by itself, while when using multiple layers, distributing them across the second half(i.e. Layers 12+) of the 24 layers is best.
翻訳日:2021-12-28 14:45:37 公開日:2021-12-27
# BALanCe: 等価クラスアニーリングによるディープベイズ的アクティブラーニング

BALanCe: Deep Bayesian Active Learning via Equivalence Class Annealing ( http://arxiv.org/abs/2112.13737v1 )

ライセンス: Link先を確認
Renyu Zhang, Aly A. Khan, Robert L. Grossman, Yuxin Chen(参考訳) アクティブラーニングは多くの分野でデータ効率を示している。 既存のアクティブラーニングアルゴリズム、特にディープベイズアクティブモデルの文脈では、モデルの不確実性推定の品質に大きく依存している。 しかし、このような不確実性の推定は、特に限られた不均衡なトレーニングデータでは、非常に偏りがある。 本稿では,このようなバイアスの影響を軽減するベイズ型深層アクティブ学習フレームワークである balance を提案する。 具体的には、バランスは同値仮説クラスによってキャプチャされた構造を利用し、異なる同値クラス間の分化を促進する新しい獲得関数を用いる。 直感的には、各同値クラスは類似の予測を持つ深層モデルのインスタンス化で構成され、バランスは学習が進むにつれて同値クラスのサイズを適応的に調整する。 完全逐次設定の他に,逐次アルゴリズムのバッチ設定への一般化であるバッチバランスも提案し,モデル改善に協調的に有効であるトレーニング例のバッチを効率的に選択する。 Batch-BALanCeは、アクティブラーニングのためのいくつかのベンチマークデータセットで最先端のパフォーマンスを実現し、両方のアルゴリズムが、しばしばマルチクラスとアンバランスなデータを含む現実的な課題を効果的に処理できることを示します。

Active learning has demonstrated data efficiency in many fields. Existing active learning algorithms, especially in the context of deep Bayesian active models, rely heavily on the quality of uncertainty estimations of the model. However, such uncertainty estimates could be heavily biased, especially with limited and imbalanced training data. In this paper, we propose BALanCe, a Bayesian deep active learning framework that mitigates the effect of such biases. Concretely, BALanCe employs a novel acquisition function which leverages the structure captured by equivalence hypothesis classes and facilitates differentiation among different equivalence classes. Intuitively, each equivalence class consists of instantiations of deep models with similar predictions, and BALanCe adaptively adjusts the size of the equivalence classes as learning progresses. Besides the fully sequential setting, we further propose Batch-BALanCe -- a generalization of the sequential algorithm to the batched setting -- to efficiently select batches of training examples that are jointly effective for model improvement. We show that Batch-BALanCe achieves state-of-the-art performance on several benchmark datasets for active learning, and that both algorithms can effectively handle realistic challenges that often involve multi-class and imbalanced data.
翻訳日:2021-12-28 14:39:33 公開日:2021-12-27
# カプセルネットワークを用いた高次元データセットの異常検出

Anomaly Detection using Capsule Networks for High-dimensional Datasets ( http://arxiv.org/abs/2112.13514v1 )

ライセンス: Link先を確認
Inderjeet Singh and Nandyala Hemachandra(参考訳) 異常検出は機械学習の重要な問題である。 アプリケーション領域には、ネットワークセキュリティ、医療、不正検出など、高次元データセットが含まれる。 典型的な異常検出システムは、クラス間のサンプルサイズが大きく異なるという形で常にクラス不均衡問題に直面している。 クラスオーバーラップの問題が多い。 本研究は,異常検出タスクにカプセルネットワークを用いた。 我々の知る限りでは、これはカプセルネットワークが高次元の複雑なデータ設定における異常検出タスクのために解析される最初の例である。 また,関連する新奇性および異常検出問題にも対処する。 カプセルネットワークのアーキテクチャはバイナリ分類タスクに好適に修正された。 カプセルネットワークは、内部カプセルアーキテクチャで捉えた視点不変性や視点等価性の影響により、異常を検出するための優れた選択肢を提供する。 カプセルを含む第2層と第3層の6層非完全オートエンコーダアーキテクチャを用いた。 カプセルは動的ルーティングアルゴリズムを用いて訓練された。 私たちはオリジナルのMNISTデータセットから10ドルの不均衡データセットを作成し、カプセルネットワークのパフォーマンスを5ドルのベースラインモデルと比較しました。 我々の主要なテストセットは、ROC曲線の下でのマイノリティクラスとエリアに対するF1スコアである。 カプセルネットワークは,データレベルやアルゴリズムレベルでのアプローチを使わずに,トレーニングに10エポックしか使わないことで,異常検出タスクにおける他のすべてのベースラインモデルよりも優れていた。 その結果,カプセルネットワークは複雑な高次元不均衡データセットのモデル化に優れることがわかった。

Anomaly detection is an essential problem in machine learning. Application areas include network security, health care, fraud detection, etc., involving high-dimensional datasets. A typical anomaly detection system always faces the class-imbalance problem in the form of a vast difference in the sample sizes of different classes. They usually have class overlap problems. This study used a capsule network for the anomaly detection task. To the best of our knowledge, this is the first instance where a capsule network is analyzed for the anomaly detection task in a high-dimensional non-image complex data setting. We also handle the related novelty and outlier detection problems. The architecture of the capsule network was suitably modified for a binary classification task. Capsule networks offer a good option for detecting anomalies due to the effect of viewpoint invariance captured in its predictions and viewpoint equivariance captured in internal capsule architecture. We used six-layered under-complete autoencoder architecture with second and third layers containing capsules. The capsules were trained using the dynamic routing algorithm. We created $10$-imbalanced datasets from the original MNIST dataset and compared the performance of the capsule network with $5$ baseline models. Our leading test set measures are F1-score for minority class and area under the ROC curve. We found that the capsule network outperformed every other baseline model on the anomaly detection task by using only ten epochs for training and without using any other data level and algorithm level approach. Thus, we conclude that capsule networks are excellent in modeling complex high-dimensional imbalanced datasets for the anomaly detection task.
翻訳日:2021-12-28 14:38:29 公開日:2021-12-27
# 行列ベース Renyi のエントロピーに対する計算効率の良い近似法

Computationally Efficient Approximations for Matrix-based Renyi's Entropy ( http://arxiv.org/abs/2112.13720v1 )

ライセンス: Link先を確認
Tieliang Gong and Yuxin Dong and Shujian Yu and Hong Chen and Bo Dong and Chen Li and Qinghua Zheng(参考訳) 最近開発されたRenyiのエントロピーは、基盤となるデータ分布を推定することなく、カーネルヒルベルト空間を再現する対称正半定値行列の固有スペクトルを用いてデータ中の情報を測定することができる。 この興味深い性質は、複数の統計的推論および学習タスクにおいて、新しい情報測定を広く採用する。 しかし、そのような量の計算には、PSD行列の$G$上のトレース作用素が$\alpha$(すなわち$tr(G^\alpha)$)を出力し、通常の複雑さは$O(n^3)$に近くなり、サンプル数(すなわち$n$)が大きければその実用的利用を著しく損なう。 本研究では,この新しいエントロピー関数を計算効率良く近似し,その複雑性を最大で$o(n^2)$ 以下まで低減する手法を提案する。 この目的のために、まずランダム化近似を$\tr(\G^\alpha)$に発展させ、トレース推定を行列ベクトル乗法問題に変換する。 そのような戦略を$\alpha$(整数または非整数)の任意の値に対して拡張する。 次に、行列ベースのRenyiのエントロピーとPSD行列近似の接続を確立することにより、クラスタリングと$\G$の低ランク構造の両方を利用でき、計算コストをさらに削減できる。 理論的には近似精度保証を提供し、異なる近似の特性を示す。 合成データと実世界のデータの両方に関する大規模な実験的評価は、理論的な結果と相関し、精度の低下を無視できるスピードアップを示す。

The recently developed matrix based Renyi's entropy enables measurement of information in data simply using the eigenspectrum of symmetric positive semi definite (PSD) matrices in reproducing kernel Hilbert space, without estimation of the underlying data distribution. This intriguing property makes the new information measurement widely adopted in multiple statistical inference and learning tasks. However, the computation of such quantity involves the trace operator on a PSD matrix $G$ to power $\alpha$(i.e., $tr(G^\alpha)$), with a normal complexity of nearly $O(n^3)$, which severely hampers its practical usage when the number of samples (i.e., $n$) is large. In this work, we present computationally efficient approximations to this new entropy functional that can reduce its complexity to even significantly less than $O(n^2)$. To this end, we first develop randomized approximations to $\tr(\G^\alpha)$ that transform the trace estimation into matrix-vector multiplications problem. We extend such strategy for arbitrary values of $\alpha$ (integer or non-integer). We then establish the connection between the matrix-based Renyi's entropy and PSD matrix approximation, which enables us to exploit both clustering and block low-rank structure of $\G$ to further reduce the computational cost. We theoretically provide approximation accuracy guarantees and illustrate the properties of different approximations. Large-scale experimental evaluations on both synthetic and real-world data corroborate our theoretical findings, showing promising speedup with negligible loss in accuracy.
翻訳日:2021-12-28 14:38:11 公開日:2021-12-27
# (参考訳) 階層的確率的注意による変圧器の不確かさ推定 [全文訳有]

Transformer Uncertainty Estimation with Hierarchical Stochastic Attention ( http://arxiv.org/abs/2112.13776v1 )

ライセンス: CC BY 4.0
Jiahuan Pei, Cheng Wang, Gy\"orgy Szarvas(参考訳) トランスフォーマーは幅広いnlpタスクにおいて最先端であり、多くの現実世界製品にも適用されている。 トランスフォーマーモデル予測の信頼性と確実性を理解することは、信頼できる機械学習アプリケーションを構築するために重要である。 近年,多くの変圧器拡張が提案されているが,変圧器モデルの不確実性評価は未検討である。 本研究では, トランスフォーマーが不確実性推定能力を持ち, かつ, 当初の予測性能を維持するための新しい手法を提案する。 これは、それぞれ値と学習可能なセントロイドの集合に対応する階層的確率的自己認識を学習することで達成される。 次に、Gumbel-Softmaxトリックを用いて、サンプルのセントロイドを混合した新しい注目ヘッドを形成する。 ガムベル分布からのサンプリングによる自己アテンション近似が上界的であることを理論的に示す。 我々は、ドメイン内(ID)とドメイン外(OOD)の両方のデータセットを用いて、2つのテキスト分類タスクでモデルを実証的に評価する。 その結果,(1)比較手法の最適予測性能と不確実性トレードオフを達成し,(2)idデータセット上で非常に競合性の高い(ほとんどの場合は改善された)予測性能を示すこと,(3)oodデータセットにおける不確実性推定においてモンテカルロドロップアウトやアンサンブル法と同等であることがわかった。

Transformers are state-of-the-art in a wide range of NLP tasks and have also been applied to many real-world products. Understanding the reliability and certainty of transformer model predictions is crucial for building trustable machine learning applications, e.g., medical diagnosis. Although many recent transformer extensions have been proposed, the study of the uncertainty estimation of transformer models is under-explored. In this work, we propose a novel way to enable transformers to have the capability of uncertainty estimation and, meanwhile, retain the original predictive performance. This is achieved by learning a hierarchical stochastic self-attention that attends to values and a set of learnable centroids, respectively. Then new attention heads are formed with a mixture of sampled centroids using the Gumbel-Softmax trick. We theoretically show that the self-attention approximation by sampling from a Gumbel distribution is upper bounded. We empirically evaluate our model on two text classification tasks with both in-domain (ID) and out-of-domain (OOD) datasets. The experimental results demonstrate that our approach: (1) achieves the best predictive performance and uncertainty trade-off among compared methods; (2) exhibits very competitive (in most cases, improved) predictive performance on ID datasets; (3) is on par with Monte Carlo dropout and ensemble methods in uncertainty estimation on OOD datasets.
翻訳日:2021-12-28 14:35:05 公開日:2021-12-27
# HOPE:より効果的なMT評価に向けたプロフェッショナルポスト編集を用いたタスク指向・人間中心評価フレームワーク

HOPE: A Task-Oriented and Human-Centric Evaluation Framework Using Professional Post-Editing Towards More Effective MT Evaluation ( http://arxiv.org/abs/2112.13833v1 )

ライセンス: Link先を確認
Serge Gladkoff, Lifeng Han(参考訳) 機械翻訳の伝統的な自動評価指標は、言語学者によって、その正確さの低さ、透明性の欠如、意味論よりも言語力学の重視、人的品質評価との低一致により広く批判されている。 MQMライクなスコアカードの形式での人間による評価は、クライアントと翻訳サービスプロバイダ(TSP)の両方によって、常に実業界環境で行われてきた。 しかし、従来の人間の翻訳品質の評価は、高い言語的詳細度を保ち、レート間信頼性(irr)の問題を提起し、高級翻訳よりも悪い品質を測定するようには設計されていない。 本稿では,プロのポスト編集アノテーションに基づく機械翻訳出力のためのタスク指向・人間中心の評価フレームワークであるhopeを紹介する。 一般的に発生するエラータイプは限られており、各翻訳ユニットに対するエラー重大度レベルを反映したエラーペナルティポイント(epps)の幾何進行を伴うスコアリングモデルを使用する。 高い技術領域から得られたテキストのマーケティング内容タイプに関する英語とロシア語のペアMT出力に関する実験結果から,システムレベルの性能とセグメントレベルの透明性の両方に関して,MT出力品質を反映する上で,我々の評価フレームワークが極めて有効であることを明らかにした。 このアプローチには、異なるシステムからの完全なMT出力を測定および比較する能力、品質に対する人間の認識を示す能力、MT出力を高品質にするために必要となる労力の即時見積、低コストで高速なアプリケーション、より高いIRRなど、いくつかの重要な利点がある。 実験データは \url{https://github.com/l han87/hope} で入手できます。

Traditional automatic evaluation metrics for machine translation have been widely criticized by linguists due to their low accuracy, lack of transparency, focus on language mechanics rather than semantics, and low agreement with human quality evaluation. Human evaluations in the form of MQM-like scorecards have always been carried out in real industry setting by both clients and translation service providers (TSPs). However, traditional human translation quality evaluations are costly to perform and go into great linguistic detail, raise issues as to inter-rater reliability (IRR) and are not designed to measure quality of worse than premium quality translations. In this work, we introduce HOPE, a task-oriented and human-centric evaluation framework for machine translation output based on professional post-editing annotations. It contains only a limited number of commonly occurring error types, and use a scoring model with geometric progression of error penalty points (EPPs) reflecting error severity level to each translation unit. The initial experimental work carried out on English-Russian language pair MT outputs on marketing content type of text from highly technical domain reveals that our evaluation framework is quite effective in reflecting the MT output quality regarding both overall system-level performance and segment-level transparency, and it increases the IRR for error type interpretation. The approach has several key advantages, such as ability to measure and compare less than perfect MT output from different systems, ability to indicate human perception of quality, immediate estimation of the labor effort required to bring MT output to premium quality, low-cost and faster application, as well as higher IRR. Our experimental data is available at \url{https://github.com/l Han87/HOPE}.
翻訳日:2021-12-28 14:18:20 公開日:2021-12-27
# (参考訳) ギャップを埋める:深い音響表現を用いて知覚と生音声から基底言語を学習する [全文訳有]

Bridging the Gap: Using Deep Acoustic Representations to Learn Grounded Language from Percepts and Raw Speech ( http://arxiv.org/abs/2112.13758v1 )

ライセンス: CC BY 4.0
Gaoussou Youssouf Kebe, Luke E. Richards, Edward Raff, Francis Ferraro, Cynthia Matuszek(参考訳) 自然言語と知覚をつなぐ基底言語を理解することを学ぶことは重要な研究分野である。 基礎言語習得の以前の仕事は、主にテキスト入力に焦点を当てていた。 本研究は,対の視覚知覚と生の音声入力を用いた基礎的言語獲得の実現可能性を示す。 これにより、エンドユーザーから新しいタスクや環境に関する言語が学習され、テキスト入力への依存を減らし、広く利用可能な音声認識システムで見られる人口統計バイアスの影響を軽減することができる。 自己教師型音声表現モデルにおける最近の研究を活用し、学習した音声表現が言語基盤システムをより特定のグループに包括的にし、一般的な性能を維持したり、さらに向上させたりすることができることを示す。

Learning to understand grounded language, which connects natural language to percepts, is a critical research area. Prior work in grounded language acquisition has focused primarily on textual inputs. In this work we demonstrate the feasibility of performing grounded language acquisition on paired visual percepts and raw speech inputs. This will allow interactions in which language about novel tasks and environments is learned from end users, reducing dependence on textual inputs and potentially mitigating the effects of demographic bias found in widely available speech recognition systems. We leverage recent work in self-supervised speech representation models and show that learned representations of speech can make language grounding systems more inclusive towards specific groups while maintaining or even increasing general performance.
翻訳日:2021-12-28 14:14:35 公開日:2021-12-27
# マルチイメージビジュアル質問応答

Multi-Image Visual Question Answering ( http://arxiv.org/abs/2112.13706v1 )

ライセンス: Link先を確認
Harsh Raj, Janhavi Dadhania, Akhilesh Bhardwaj(参考訳) Visual Question Answeringの問題に対処するモデルの開発には、多くの作業が行われているが、これらのモデルが問題と画像の特徴を関連付ける能力はまだ検討されていない。 損失関数の異なる特徴抽出法について実験的検討を行った。 本稿では,複数の画像入力が1つの基礎的真理しか持たない視覚質問応答タスクのための新しいデータセットを提案し,その結果をベンチマークする。 resnet + rcnnイメージ機能とbert埋め込みを利用する最終モデルは、stacked attention networkにインスパイアされて、39%の単語精度と99%の画像精度を賢く+tinyimagenetデータセットに与えます。

While a lot of work has been done on developing models to tackle the problem of Visual Question Answering, the ability of these models to relate the question to the image features still remain less explored. We present an empirical study of different feature extraction methods with different loss functions. We propose New dataset for the task of Visual Question Answering with multiple image inputs having only one ground truth, and benchmark our results on them. Our final model utilising Resnet + RCNN image features and Bert embeddings, inspired from stacked attention network gives 39% word accuracy and 99% image accuracy on CLEVER+TinyImagenet dataset.
翻訳日:2021-12-28 13:56:44 公開日:2021-12-27