このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210812となっている論文です。

PDF登録状況(公開日: 20210812)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) コンピュータ科学が森林再生にどう役立つか [全文訳有]

How Computer Science Can Aid Forest Restoration ( http://arxiv.org/abs/2109.07898v1 )

ライセンス: CC BY 4.0
Gemma Gordon, Amelia Holcomb, Tom Kelly, Srinivasan Keshav, Jon Ludlum, Anil Madhavapeddy(参考訳) 世界は気候変動と生物多様性の喪失という2つの危機に直面している。 荒廃した土地と余剰の農地の森林修復は、炭素の隔離と生物多様性の再確立に重要な役割を果たしている。 森林の修復にはかなりの研究と実践がある。 しかし、コンピュータ科学者がこの重要な作業領域に強力な計算技術を持ち込むことは、おそらく認識の欠如のためにほとんど行われていない。 このギャップを埋めるために,コンピュータサイエンスの技法が,概して言えば,森林修復における現在の実践にどのように役立つのか,というビジョンを提示する。

The world faces two interlinked crises: climate change and loss of biodiversity. Forest restoration on degraded lands and surplus croplands can play a significant role both in sequestering carbon and re-establishing bio-diversity. There is a considerable body of research and practice that addresses forest restoration. However, there has been little work by computer scientists to bring powerful computational techniques to bear on this important area of work, perhaps due to a lack of awareness. In an attempt to bridge this gap, we present our vision of how techniques from computer science, broadly speaking, can aid current practice in forest restoration.
翻訳日:2021-09-19 17:21:24 公開日:2021-08-12
# (参考訳) VTLayout: ドキュメントレイアウト分析のためのビジュアルとテキストの融合 [全文訳有]

VTLayout: Fusion of Visual and Text Features for Document Layout Analysis ( http://arxiv.org/abs/2108.13297v1 )

ライセンス: CC0 1.0
Shoubin Li, Xuyan Ma, Shuaiqun Pan, Jun Hu, Lin Shi and Qing Wang(参考訳) ドキュメントは複雑な物理的構造を含むことが多く、ドキュメントレイアウト分析(DLA)タスクは困難である。 コンテンツ抽出の前処理ステップとして、dlaは歴史的文書や科学文書の豊富な情報を大規模に捉えることができる。 コンピュータビジョンの深層学習に基づく多くの手法は、文書から \emph{Figure} を検出するのに既に優れた性能を発揮しているが、DLAの \emph{List}, \emph{Table}, \emph{Text}, \emph{Title} のカテゴリブロックを認識することにはまだ満足できない。 本稿では,文書の深い視覚,浅い視覚,テキストの特徴を融合して,カテゴリブロックの局所化と識別を行うvtlayoutモデルを提案する。 モデルは主に2段階を含み、3つの特徴抽出器は2段階に構築されている。 第1段階では、カスケードマスクr-cnnモデルを直接適用し、文書のすべてのカテゴリブロックをローカライズする。 第2段階では、文書のカテゴリブロックを特定するために融合するために、深部視覚、浅部視覚、テキストの特徴を抽出する。 その結果,既存のローカライズ手法に基づき,異なるカテゴリブロックの分類能力が向上する。 実験の結果,VTLayoutの識別能力はPubLayNetデータセットに基づく最も高度なDLA法よりも優れており,F1スコアは0.9599であることがわかった。

Documents often contain complex physical structures, which make the Document Layout Analysis (DLA) task challenging. As a pre-processing step for content extraction, DLA has the potential to capture rich information in historical or scientific documents on a large scale. Although many deep-learning-based methods from computer vision have already achieved excellent performance in detecting \emph{Figure} from documents, they are still unsatisfactory in recognizing the \emph{List}, \emph{Table}, \emph{Text} and \emph{Title} category blocks in DLA. This paper proposes a VTLayout model fusing the documents' deep visual, shallow visual, and text features to localize and identify different category blocks. The model mainly includes two stages, and the three feature extractors are built in the second stage. In the first stage, the Cascade Mask R-CNN model is applied directly to localize all category blocks of the documents. In the second stage, the deep visual, shallow visual, and text features are extracted for fusion to identify the category blocks of documents. As a result, we strengthen the classification power of different category blocks based on the existing localization technique. The experimental results show that the identification capability of the VTLayout is superior to the most advanced method of DLA based on the PubLayNet dataset, and the F1 score is as high as 0.9599.
翻訳日:2021-09-05 13:18:07 公開日:2021-08-12
# 機械学習回帰アルゴリズムを用いた6061AA上の摩擦スター溶接のプロセスパラメータ最適化

Process parameter optimization of Friction Stir Welding on 6061AA using Supervised Machine Learning Regression-based Algorithms ( http://arxiv.org/abs/2109.00570v1 )

ライセンス: Link先を確認
Akshansh Mishra, Eyob Messele Sefene, Assefa Asmare Tsegaw(参考訳) 最大強度と重量比の基準は、重量減少が不可欠である事実上すべての地域で好奇心を惹きつけている。 軽量材料とその接合プロセスは、製造業における最近の研究要求のポイントでもある。 fswは、第3の材料(フィラーロッド)を添加することなく、親材の融点より下を接合することなく接合する最近の進歩の1つである。 このプロセスは、類似した異種金属、特にアルミニウム、銅、マグネシウム合金のような軽量な非鉄材料を接合するのに広く使われている。 本稿では, 溶接継手の機械的特性向上のための最適プロセスパラメータの検証を行った。 実験は5mm 6061アルミニウム合金板で行われた。 プロセスパラメータ, 工具材, 回転速度, 横速度, 軸力を利用した。 引張試験により溶接継手の機械的性質を調べたところ, 最大継手の強度効率は94.2%に達した。 教師付き機械学習ベースの回帰アルゴリズムとして、決定木、ランダムフォレスト、勾配ブースティングアルゴリズムが用いられた。 その結果、ランダムフォレストアルゴリズムは決定値の最大係数0.926となり、他のアルゴリズムと比較して最適であることがわかった。

The highest strength-to-weight ratio criterion has fascinated curiosity increasingly in virtually all areas where heft reduction is indispensable. Lightweight materials and their joining processes are also a recent point of research demands in the manufacturing industries. Friction Stir Welding (FSW) is one of the recent advancements for joining materials without adding any third material (filler rod) and joining below the melting point of the parent material. The process is widely used for joining similar and dissimilar metals, especially lightweight non-ferrous materials like aluminum, copper, and magnesium alloys. This paper presents verdicts of optimum process parameters on attaining enhanced mechanical properties of the weld joint. The experiment was conducted on a 5 mm 6061 aluminum alloy sheet. Process parameters; tool material, rotational speed, traverse speed, and axial forces were utilized. Mechanical properties of the weld joint are examined employing a tensile test, and the maximum joint strength efficiency was reached 94.2%. Supervised Machine Learning based Regression algorithms such as Decision Trees, Random Forest, and Gradient Boosting Algorithm were used. The results showed that the Random Forest algorithm yielded highest coefficient of determination value of 0.926 which means it gives a best fit in comparison to other algorithms.
翻訳日:2021-09-05 08:50:37 公開日:2021-08-12
# クレデンシャルスコーリングのためのバグ修正オートエンコーダ分類器

Bagging Supervised Autoencoder Classifier for Credit Scoring ( http://arxiv.org/abs/2108.07800v1 )

ライセンス: Link先を確認
Mahsan Abdoli, Mohammad Akbari, Jamal Shahrabi(参考訳) 銀行や金融機関が依存する最も強力なリスク管理ツールである信用スコアモデルは、過去数十年間、研究対象として人気を博してきた。 そのため、ローン申請者の分類と意思決定の改善・促進の課題に対処する多くのアプローチが開発されている。 信用スコアデータセットの不均衡の性質、および信用スコアデータセットの特徴の不均質性は、効果的な信用スコアモデルの開発と実行において困難を生じさせ、見えないデータに基づく分類モデルの一般化力をターゲットにしている。 本稿では,マルチタスク学習の原則に基づいて,クレジットスコアリングの究極の分類タスクに関して,入力データの低次元埋め込みを学習する教師付きオートエンコーダの優れた性能を主に活用する,バッキング教師付きオートエンコーダ分類器(bsac)を提案する。 BSACはまた、過半数クラスのアンサンプに基づいて、Bagingプロセスの変種を採用することで、データ不均衡の問題にも対処する。 ベンチマークおよび実生活信用スコアデータセットを用いた実験から得られた結果は,信用スコアモデルのポジティブな発展と見なされるローン申請者の分類における,袋詰め型自動エンコーダ分類器の頑健性と有効性を示す。

Credit scoring models, which are among the most potent risk management tools that banks and financial institutes rely on, have been a popular subject for research in the past few decades. Accordingly, many approaches have been developed to address the challenges in classifying loan applicants and improve and facilitate decision-making. The imbalanced nature of credit scoring datasets, as well as the heterogeneous nature of features in credit scoring datasets, pose difficulties in developing and implementing effective credit scoring models, targeting the generalization power of classification models on unseen data. In this paper, we propose the Bagging Supervised Autoencoder Classifier (BSAC) that mainly leverages the superior performance of the Supervised Autoencoder, which learns low-dimensional embeddings of the input data exclusively with regards to the ultimate classification task of credit scoring, based on the principles of multi-task learning. BSAC also addresses the data imbalance problem by employing a variant of the Bagging process based on the undersampling of the majority class. The obtained results from our experiments on the benchmark and real-life credit scoring datasets illustrate the robustness and effectiveness of the Bagging Supervised Autoencoder Classifier in the classification of loan applicants that can be regarded as a positive development in credit scoring models.
翻訳日:2021-08-22 14:42:42 公開日:2021-08-12
# (参考訳) FIRE 2020におけるHASOCトラックの概要:インド・ヨーロッパ語におけるヘイトスピーチと攻撃的内容同定 [全文訳有]

Overview of the HASOC track at FIRE 2020: Hate Speech and Offensive Content Identification in Indo-European Languages ( http://arxiv.org/abs/2108.05927v1 )

ライセンス: CC BY 4.0
Thomas Mandla, Sandip Modha, Gautam Kishore Shahi, Amit Kumar Jaiswal, Durgesh Nandini, Daksh Patel, Prasenjit Majumder and Johannes Sch\"afer(参考訳) ソーシャルメディアの成長に伴い、ヘイトスピーチの普及も急速に増加している。 ソーシャルメディアは多くの国で広く使われている。 また、これらの国でヘイトスピーチが広まっている。 これは多言語ヘイトスピーチ検出アルゴリズムの必要性をもたらす。 現在、この地域の多くの研究は英語に捧げられている。 HASOCトラックはヒンディー語、ドイツ語、英語のヘイトスピーチ検出アルゴリズムを開発し最適化するためのプラットフォームを提供する。 データセットはtwitterアーカイブから収集され、機械学習システムによって事前に分類される。 タスクAは2進分類問題(Hate and Not Offensive)であり、タスクBは3つのクラス(Hate)のスピーチ、OFENSIVE、ProFANITYの詳細な分類問題である。 合計252台が40チームによって提出された。 タスクAの最良の分類アルゴリズムのパフォーマンスは、英語、ヒンディー語、ドイツ語でそれぞれ0.51、0.53、0.52である。 タスクbでは、最適な分類アルゴリズムは英語、ヒンディー語、ドイツ語でそれぞれ0.26、0.33、0.29である。 この記事では、タスクとデータ開発と結果について紹介します。 最高の性能のアルゴリズムは主に変換器アーキテクチャ BERT の変種である。 しかし、他のシステムも大きな成功を収めた。

With the growth of social media, the spread of hate speech is also increasing rapidly. Social media are widely used in many countries. Also Hate Speech is spreading in these countries. This brings a need for multilingual Hate Speech detection algorithms. Much research in this area is dedicated to English at the moment. The HASOC track intends to provide a platform to develop and optimize Hate Speech detection algorithms for Hindi, German and English. The dataset is collected from a Twitter archive and pre-classified by a machine learning system. HASOC has two sub-task for all three languages: task A is a binary classification problem (Hate and Not Offensive) while task B is a fine-grained classification problem for three classes (HATE) Hate speech, OFFENSIVE and PROFANITY. Overall, 252 runs were submitted by 40 teams. The performance of the best classification algorithms for task A are F1 measures of 0.51, 0.53 and 0.52 for English, Hindi, and German, respectively. For task B, the best classification algorithms achieved F1 measures of 0.26, 0.33 and 0.29 for English, Hindi, and German, respectively. This article presents the tasks and the data development as well as the results. The best performing algorithms were mainly variants of the transformer architecture BERT. However, also other systems were applied with good success
翻訳日:2021-08-16 22:14:20 公開日:2021-08-12
# (参考訳) グラフニューラルネットワークを用いた床平面グラフの部屋分類 [全文訳有]

Room Classification on Floor Plan Graphs using Graph Neural Networks ( http://arxiv.org/abs/2108.05947v1 )

ライセンス: CC BY 4.0
Abhishek Paudel, Roshan Dhakal and Sakshat Bhattarai(参考訳) 本稿では,床計画図を無向グラフとして表現し,グラフニューラルネットワークを用いて部屋分類を予測することにより,建物の床計画図の部屋分類タスクを改善する手法を提案する。 フロアプランの部屋はグラフのノードとして表現され、エッジはマップの隣接性を表す。 ベクター形式のフロアプランマップとマルチ層パーセプトロンとグラフニューラルネットワークを訓練するHouse-GANデータセットを実験した。 以上の結果から,グラフニューラルネットワーク,特にGraphSAGEとTopology Adaptive GCNは,それぞれベースライン多層パーセプトロンの精度を15%以上向上させることができた。

We present our approach to improve room classification task on floor plan maps of buildings by representing floor plans as undirected graphs and leveraging graph neural networks to predict the room categories. Rooms in the floor plans are represented as nodes in the graph with edges representing their adjacency in the map. We experiment with House-GAN dataset that consists of floor plan maps in vector format and train multilayer perceptron and graph neural networks. Our results show that graph neural networks, specifically GraphSAGE and Topology Adaptive GCN were able to achieve accuracy of 80% and 81% respectively outperforming baseline multilayer perceptron by more than 15% margin.
翻訳日:2021-08-16 21:58:26 公開日:2021-08-12
# (参考訳) ターゲット検出システムに対する深い敵対攻撃 [全文訳有]

Deep adversarial attack on target detection systems ( http://arxiv.org/abs/2108.05948v1 )

ライセンス: CC BY 4.0
Uche M. Osahor and Nasser M. Nasrabadi(参考訳) ターゲット検出システムは、興味のある入力画像に座標をローカライズすることでターゲットを識別する。 これは、画像中の各ピクセルを背景または潜在的ターゲット画素としてラベル付けすることで理想的に達成される。 deep convolutional neural network (dcnn) 分類器はコンピュータビジョンアプリケーションで成功したツールであることが証明されている。 しかし、先行研究により、美術分類器のモデルでさえ敵対的な攻撃を受けやすいことが確認された。 本稿では,ターゲット領域に小さな摂動を加え,dcnnベースのターゲット検出器を目立ったレベルで欺くことで,逆赤外線画像を生成する方法を示す。 我々は、専門家が目標を視覚的に認識できるが、DCNNベースの目標検出器では画像中のターゲットを検出できない、視覚的に認識不能な対赤外画像の開発において、大きな進歩を示す。

Target detection systems identify targets by localizing their coordinates on the input image of interest. This is ideally achieved by labeling each pixel in an image as a background or a potential target pixel. Deep Convolutional Neural Network (DCNN) classifiers have proven to be successful tools for computer vision applications. However,prior research confirms that even state of the art classifier models are susceptible to adversarial attacks. In this paper, we show how to generate adversarial infrared images by adding small perturbations to the targets region to deceive a DCNN-based target detector at remarkable levels. We demonstrate significant progress in developing visually imperceptible adversarial infrared images where the targets are visually recognizable by an expert but a DCNN-based target detector cannot detect the targets in the image.
翻訳日:2021-08-16 21:51:28 公開日:2021-08-12
# (参考訳) 学校選択問題におけるボストンメカニズムの高度化とガレ共有アルゴリズム [全文訳有]

Sophisticated Students in Boston Mechanism and Gale-Shapley Algorithm for School Choice Problem ( http://arxiv.org/abs/2108.05951v1 )

ライセンス: CC BY 4.0
Abhishek Paudel(参考訳) 本研究は,ボストン機構とGale-Shapleyアルゴリズムの2つのアルゴリズムを用いて,各集団の他グループに対する完全な選好リストに基づいて,生徒の学校への配当を扱う学校選択問題をシミュレーションした実験結果を示す。 これら2つのアルゴリズムについて,高度な学生による選好リストの変更の効果を比較した。 シミュレーションの結果,複数の評価指標に基づくGalle-Shapleyアルゴリズムと比較して,高度な学生がボストンのメカニズムの恩恵を受ける可能性が示唆された。

We present our experimental results of simulating the school choice problem which deals with the assignment of students to schools based on each group's complete preference list for the other group using two algorithms: Boston mechanism and student-proposing Gale-Shapley algorithm. We compare the effects of sophisticated students altering their preference lists with regards to these two algorithms. Our simulation results show that sophisticated students can benefit more in Boston mechanism compared to Gale-Shapley algorithm based on multiple evaluation metrics.
翻訳日:2021-08-16 21:45:22 公開日:2021-08-12
# 深部因子化マシンモデルによるアルツハイマー病の診断

Alzheimer's Disease Diagnosis via Deep Factorization Machine Models ( http://arxiv.org/abs/2108.05916v1 )

ライセンス: Link先を確認
Raphael Ronge and Kwangsik Nho and Christian Wachinger and Sebastian P\"olsterl(参考訳) アルツハイマー病の診断のための現在の最先端ディープニューラルネットワーク(DNN)は、異なるバイオマーカーの組み合わせを使用して患者を分類しているが、バイオマーカーの相互作用に関する知識を抽出することはできない。 しかし, 本疾患の理解を深めるためには, 学習モデルから知識を抽出することが最重要である。 本稿では,dnnが複雑な関係を学習する能力と,線形モデルの解釈容易性を組み合わせた深い因子分解機械モデルを提案する。 提案モデルでは, 疎分類データを扱う埋め込み層 (i) 対の相互作用を効率的に学習するファクトリゼーションマシン (ii) と高次相互作用を暗黙的にモデル化するDNN (iii) の3部で構成されている。 アルツハイマー病神経画像イニシアチブのデータを用いた実験では,提案モデルが認知正常,軽度認知障害,認知認知障害の患者を競合モデルよりも正確に分類することを示した。 また,バイオマーカー間の相互作用に関する貴重な知識が得られることを示す。

The current state-of-the-art deep neural networks (DNNs) for Alzheimer's Disease diagnosis use different biomarker combinations to classify patients, but do not allow extracting knowledge about the interactions of biomarkers. However, to improve our understanding of the disease, it is paramount to extract such knowledge from the learned model. In this paper, we propose a Deep Factorization Machine model that combines the ability of DNNs to learn complex relationships and the ease of interpretability of a linear model. The proposed model has three parts: (i) an embedding layer to deal with sparse categorical data, (ii) a Factorization Machine to efficiently learn pairwise interactions, and (iii) a DNN to implicitly model higher order interactions. In our experiments on data from the Alzheimer's Disease Neuroimaging Initiative, we demonstrate that our proposed model classifies cognitive normal, mild cognitive impaired, and demented patients more accurately than competing models. In addition, we show that valuable knowledge about the interactions among biomarkers can be obtained.
翻訳日:2021-08-16 13:12:13 公開日:2021-08-12
# エルゴノミクスによる知的人間-ロボットインタラクション:姿勢推定,評価,最適化

Ergonomically Intelligent Physical Human-Robot Interaction: Postural Estimation, Assessment, and Optimization ( http://arxiv.org/abs/2108.05971v1 )

ライセンス: Link先を確認
Amir Yazdani, Roya Sabbagh Novin, Andrew Merryweather, Tucker Hermans(参考訳) エルゴノミクスと人間の快適性は、物理的人間とロボットの相互作用の応用において必須の関心事であり、一般的な実用的な方法は、咬合による正しい姿勢の推定に失敗するか、姿勢最適化法において正確なエルゴノミクスモデルに苦しむかのどちらかである。 そこで本研究では,人間とロボットの相互作用に対する姿勢推定,評価,最適化のための新しい枠組みを提案する。 対話型ロボットの軌道のみから人間の姿勢を推定できることを示す。 我々は,微分可能な人間工学モデルであるdulaを提案し,協調操作や遠隔操作などの物理的ヒューマン・ロボットインタラクションタスクに対する勾配フリーな姿勢最適化に使用する。 我々は、人間とシミュレーション実験を通して、その枠組みを評価する。

Ergonomics and human comfort are essential concerns in physical human-robot interaction applications, and common practical methods either fail in estimating the correct posture due to occlusion or suffer from less accurate ergonomics models in their postural optimization methods. Instead, we propose a novel framework for posture estimation, assessment, and optimization for ergonomically intelligent physical human-robot interaction. We show that we can estimate human posture solely from the trajectory of the interacting robot. We propose DULA, a differentiable ergonomics model, and use it in gradient-free postural optimization for physical human-robot interaction tasks such as co-manipulation and teleoperation. We evaluate our framework through human and simulation experiments.
翻訳日:2021-08-16 13:11:17 公開日:2021-08-12
# Scalable3-BO: Big Data meets HPC - スーパーコンピュータ上のスケーラブルな非同期並列高次元ベイズ最適化フレームワーク

Scalable3-BO: Big Data meets HPC - A scalable asynchronous parallel high-dimensional Bayesian optimization framework on supercomputers ( http://arxiv.org/abs/2108.05969v1 )

ライセンス: Link先を確認
Anh Tran(参考訳) ベイズ最適化(BO)は、計算コストの高いシミュレーションベースのアプリケーションに適した柔軟で強力なフレームワークであり、グローバルな最適化への統計的収束を保証する。 最も一般的な最適化手法の1つとして残っているが、その能力はデータのサイズ、考慮された問題の次元、逐次最適化の性質によって妨げられている。 これらのスケーラビリティ問題は相互に絡み合っており、同時に取り組まなければならない。 本研究では,Sparse GP を基礎となるサロゲートモデルとして活用してビッグデータを包含する Scalable$^3$-BO フレームワークを提案する。 Scalable$^3$-BOフレームワークは、計算予算内でHPC上の計算リソースを完全に活用する非同期並列化機能によってさらに活用される。 その結果、提案するScalable$^3$-BOフレームワークは、データサイズ、次元性、HPC上の計算資源の3つの独立した観点でスケーラブルである。 この研究の目的は、BOのフロンティアをよく知られたスケーラビリティの問題を超えて、高次元の計算コストのアプリケーションを最適化するための待ち時間を最小化することである。 我々は,100万データポイント,10,000次元問題,HPC環境における20人の並行作業員によるScalable$^3$-BOの能力を示す。

Bayesian optimization (BO) is a flexible and powerful framework that is suitable for computationally expensive simulation-based applications and guarantees statistical convergence to the global optimum. While remaining as one of the most popular optimization methods, its capability is hindered by the size of data, the dimensionality of the considered problem, and the nature of sequential optimization. These scalability issues are intertwined with each other and must be tackled simultaneously. In this work, we propose the Scalable$^3$-BO framework, which employs sparse GP as the underlying surrogate model to scope with Big Data and is equipped with a random embedding to efficiently optimize high-dimensional problems with low effective dimensionality. The Scalable$^3$-BO framework is further leveraged with asynchronous parallelization feature, which fully exploits the computational resource on HPC within a computational budget. As a result, the proposed Scalable$^3$-BO framework is scalable in three independent perspectives: with respect to data size, dimensionality, and computational resource on HPC. The goal of this work is to push the frontiers of BO beyond its well-known scalability issues and minimize the wall-clock waiting time for optimizing high-dimensional computationally expensive applications. We demonstrate the capability of Scalable$^3$-BO with 1 million data points, 10,000-dimensional problems, with 20 concurrent workers in an HPC environment.
翻訳日:2021-08-16 13:10:48 公開日:2021-08-12
# TVT:unsupervised domain Adaptationのための転送可能なビジョン変換器

TVT: Transferable Vision Transformer for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2108.05988v1 )

ライセンス: Link先を確認
Jinyu Yang, Jingjing Liu, Ning Xu, Junzhou Huang(参考訳) Unsupervised domain adapt (UDA) は、ラベル付きソースドメインから学習した知識をラベル付きターゲットドメインに転送することを目的としている。 従来の研究は主に畳み込みニューラルネットワーク(cnns)に基づいて、ドメイン不変表現を学習している。 近年、視覚タスクに視覚変換器(ViT)を適用する指数関数的増加に伴い、ドメイン間の知識を適応するViTの能力は、文献では未解明のままである。 このギャップを埋めるために,本論文はまず,様々な領域適応タスクにおけるViTの転送可能性について包括的に検討する。 意外なことに、ViTはCNNベースのシステムよりも大きなマージンで優れた転送性を示し、対向適応を組み込むことでパフォーマンスをさらに向上させることができる。 しかしながら、cnnsベースの適応戦略を直接使用する場合には、知識伝達において重要な役割を果たすvit固有のメリット(注意機構や逐次画像表現など)を活用できない。 そこで本稿では,ドメイン適応のためのVTの転送可能性を完全に活用するために,Transferable Vision Transformer (TVT) という統合フレームワークを提案する。 具体的には,トランスファービリティ適応モジュール(TAM)と呼ばれる,新規で効果的なユニットを微妙に考案する。 学習した伝達能力を注目ブロックに注入することで、TAMはViTを伝達性および識別性の両方に焦点を当てる。 さらに、差別的クラスタリングを活用して、対立ドメインアライメント時に損なわれる特徴の多様性と分離を高める。 その汎用性を検証するために,4つのベンチマークでTVTを広範囲に研究し,その実験結果から,既存の最先端UDA手法と比較して,TVTが大幅に改善されていることが示された。

Unsupervised domain adaptation (UDA) aims to transfer the knowledge learnt from a labeled source domain to an unlabeled target domain. Previous work is mainly built upon convolutional neural networks (CNNs) to learn domain-invariant representations. With the recent exponential increase in applying Vision Transformer (ViT) to vision tasks, the capability of ViT in adapting cross-domain knowledge, however, remains unexplored in the literature. To fill this gap, this paper first comprehensively investigates the transferability of ViT on a variety of domain adaptation tasks. Surprisingly, ViT demonstrates superior transferability over its CNNs-based counterparts with a large margin, while the performance can be further improved by incorporating adversarial adaptation. Notwithstanding, directly using CNNs-based adaptation strategies fails to take the advantage of ViT's intrinsic merits (e.g., attention mechanism and sequential image representation) which play an important role in knowledge transfer. To remedy this, we propose an unified framework, namely Transferable Vision Transformer (TVT), to fully exploit the transferability of ViT for domain adaptation. Specifically, we delicately devise a novel and effective unit, which we term Transferability Adaption Module (TAM). By injecting learned transferabilities into attention blocks, TAM compels ViT focus on both transferable and discriminative features. Besides, we leverage discriminative clustering to enhance feature diversity and separation which are undermined during adversarial domain alignment. To verify its versatility, we perform extensive studies of TVT on four benchmarks and the experimental results demonstrate that TVT attains significant improvements compared to existing state-of-the-art UDA methods.
翻訳日:2021-08-16 13:09:35 公開日:2021-08-12
# MUSIQ:マルチスケール画像品質変換器

MUSIQ: Multi-scale Image Quality Transformer ( http://arxiv.org/abs/2108.05997v1 )

ライセンス: Link先を確認
Junjie Ke, Qifei Wang, Yilin Wang, Peyman Milanfar, Feng Yang(参考訳) 画像品質評価(IQA)は視覚経験の理解と改善のための重要な研究課題である。 現在のIQA法は畳み込みニューラルネットワーク(CNN)に基づいている。 CNNベースのモデルの性能は、バッチトレーニングにおける固定形状制約によってしばしば損なわれる。 これに対応するため、通常、入力画像は再サイズされ、一定の形状にトリミングされ、画質が劣化する。 そこで我々は,マルチスケール画像品質変換器 (MUSIQ) を設計し,サイズやアスペクト比の異なるネイティブ解像度画像を処理する。 マルチスケール画像表現により,提案手法は画像品質を異なる粒度で捉えることができる。 さらに,マルチスケール表現における位置埋め込みをサポートするため,ハッシュベースの2次元空間埋め込みとスケール埋め込みを提案する。 実験の結果,PaQ-2-PiQ,SPAQ,KonI Q-10kなどの大規模IQAデータセット上での最先端性能が得られた。

Image quality assessment (IQA) is an important research topic for understanding and improving visual experience. The current state-of-the-art IQA methods are based on convolutional neural networks (CNNs). The performance of CNN-based models is often compromised by the fixed shape constraint in batch training. To accommodate this, the input images are usually resized and cropped to a fixed shape, causing image quality degradation. To address this, we design a multi-scale image quality Transformer (MUSIQ) to process native resolution images with varying sizes and aspect ratios. With a multi-scale image representation, our proposed method can capture image quality at different granularities. Furthermore, a novel hash-based 2D spatial embedding and a scale embedding is proposed to support the positional embedding in the multi-scale representation. Experimental results verify that our method can achieve state-of-the-art performance on multiple large scale IQA datasets such as PaQ-2-PiQ, SPAQ and KonIQ-10k.
翻訳日:2021-08-16 13:09:05 公開日:2021-08-12
# hatemoji: 絵文字ベースの憎悪のベンチマークと検出のためのテストスイートと逆生成データセット

Hatemoji: A Test Suite and Adversarially-Genera ted Dataset for Benchmarking and Detecting Emoji-based Hate ( http://arxiv.org/abs/2108.05921v1 )

ライセンス: Link先を確認
Hannah Rose Kirk and Bertram Vidgen and Paul R\"ottger and Scott A. Hale(参考訳) オンラインヘイトの検出は複雑な作業であり、低パフォーマンス検出モデルはコンテンツモデレーションのようなセンシティブなアプリケーションで使用されると有害な結果をもたらす。 絵文字によるヘイト検出は、オンラインヘイト検出の重要な課題だ。 我々は3,930の短い文からなるテストスイートであるHatemojiCheckを紹介し、絵文字で表現された憎しみのある言語で検出モデルがどのように機能するかを評価することができる。 テストスイートを使用すると、既存のヘイト検出モデルの弱点が明らかになる。 これらの弱点に対処するために、革新的な人間・モデル・イン・ザ・ループアプローチを使用して、HatemojiTrainデータセットを作成します。 これら5,912件の敵対的例に基づいて訓練されたモデルは、テキストのみのヘイトに対する強いパフォーマンスを維持しながら、絵文字ベースのヘイトを検出する能力を大幅に向上させる。 HatemojiCheckとHatemojiTrainの両方が公開されている。

Detecting online hate is a complex task, and low-performing detection models have harmful consequences when used for sensitive applications such as content moderation. Emoji-based hate is a key emerging challenge for online hate detection. We present HatemojiCheck, a test suite of 3,930 short-form statements that allows us to evaluate how detection models perform on hateful language expressed with emoji. Using the test suite, we expose weaknesses in existing hate detection models. To address these weaknesses, we create the HatemojiTrain dataset using an innovative human-and-model-in-t he-loop approach. Models trained on these 5,912 adversarial examples perform substantially better at detecting emoji-based hate, while retaining strong performance on text-only hate. Both HatemojiCheck and HatemojiTrain are made publicly available.
翻訳日:2021-08-16 13:05:39 公開日:2021-08-12
# 多様体上の力学の非線形データ駆動モデルに対するチャートとアトラス

Charts and atlases for nonlinear data-driven models of dynamics on manifolds ( http://arxiv.org/abs/2108.05928v1 )

ライセンス: Link先を確認
Daniel Floryan, Michael D. Graham(参考訳) 多くのプロセスで発生するような低次元多様体上の高次元時系列データから最小次元の動的モデルを学習する手法を提案する。 任意の多様体に対して、滑らかな大域座標表現は存在しないので、微分位相の形式主義に従うと、多様体はチャートのアトラスとして表される。 まずデータを重複するリージョンに分割します。 次に、不完全オートエンコーダを用いて各領域の低次元座標表現を求める。 次に、各領域の力学モデルを学ぶためにデータを使用し、同時に大域的な低次元力学モデルを生成する。 本手法は, 単純周期力学から, 名目上は高次元非周期バースト力学まで, 倉本-シヴァシンスキー方程式の例に適用する。 1) 従来の手法では一般的には不可能であった最小次元の動的モデルを生成でき、(2) スケーラビリティ、並列化可能性、適応性などの計算上の利点を示し、(3) 状態空間を異なる振る舞いの領域に分離することができる。

We introduce a method for learning minimal-dimensional dynamical models from high-dimensional time series data that lie on a low-dimensional manifold, as arises for many processes. For an arbitrary manifold, there is no smooth global coordinate representation, so following the formalism of differential topology we represent the manifold as an atlas of charts. We first partition the data into overlapping regions. Then undercomplete autoencoders are used to find low-dimensional coordinate representations for each region. We then use the data to learn dynamical models in each region, which together yield a global low-dimensional dynamical model. We apply this method to examples ranging from simple periodic dynamics to complex, nominally high-dimensional non-periodic bursting dynamics of the Kuramoto-Sivashinsky equation. We demonstrate that it: (1) can yield dynamical models of the lowest possible dimension, where previous methods generally cannot; (2) exhibits computational benefits including scalability, parallelizability, and adaptivity; and (3) separates state space into regions of distinct behaviours.
翻訳日:2021-08-16 13:05:25 公開日:2021-08-12
# データ品質ツールキット:機械学習データセットのデータ品質と改善の自動評価

Data Quality Toolkit: Automatic assessment of data quality and remediation for machine learning datasets ( http://arxiv.org/abs/2108.05935v1 )

ライセンス: Link先を確認
Nitin Gupta, Hima Patel, Shazia Afzal, Naveen Panwar, Ruhi Sharma Mittal, Shanmukha Guttula, Abhinav Jain, Lokesh Nagalapatti, Sameep Mehta, Sandeep Hans, Pranay Lohia, Aniya Aggarwal, Diptikalyan Saha(参考訳) トレーニングデータの質は、機械学習タスクの効率、正確性、複雑さに大きな影響を与えます。 一般的なクリーニングやプロファイリングチェックに関して、データ品質を評価するさまざまなツールやテクニックが利用可能である。 しかし、これらのテクニックは、ノイズラベルや重複クラスの存在など、機械学習タスクのコンテキストにおけるデータ問題を検出するには適用できない。 機械学習パイプライン構築のコンテキストにおいて、データ品質の問題を再検討し、データ内の問題を検出し、説明し、修正するツールを構築し、データに適用されるすべての変更を体系的かつ自動的にキャプチャする。 我々は、機械学習のためのデータ品質ツールキットを、機械学習プロジェクトのための構造化トレーニングデータセットの可読性を分析し、強化するための重要な品質指標と関連する修復テクニックのライブラリとして紹介する。 このツールキットは、データ準備パイプラインのターンアラウンド時間を短縮し、データ品質評価プロセスを合理化することができる。 私たちのツールキットはIBM API Hub [1]プラットフォームで公開されており、任意の開発者がIBMのData Quality for AI apis [2]を使ってデータ品質を評価することができます。 詳細なチュートリアルもIBM Learning Path [3]で公開されている。

The quality of training data has a huge impact on the efficiency, accuracy and complexity of machine learning tasks. Various tools and techniques are available that assess data quality with respect to general cleaning and profiling checks. However these techniques are not applicable to detect data issues in the context of machine learning tasks, like noisy labels, existence of overlapping classes etc. We attempt to re-look at the data quality issues in the context of building a machine learning pipeline and build a tool that can detect, explain and remediate issues in the data, and systematically and automatically capture all the changes applied to the data. We introduce the Data Quality Toolkit for machine learning as a library of some key quality metrics and relevant remediation techniques to analyze and enhance the readiness of structured training datasets for machine learning projects. The toolkit can reduce the turn-around times of data preparation pipelines and streamline the data quality assessment process. Our toolkit is publicly available via IBM API Hub [1] platform, any developer can assess the data quality using the IBM's Data Quality for AI apis [2]. Detailed tutorials are also available on IBM Learning Path [3].
翻訳日:2021-08-16 13:05:06 公開日:2021-08-12
# ST-PCNN:ダイナミクス予測のための時空間物理結合ニューラルネットワーク

ST-PCNN: Spatio-Temporal Physics-Coupled Neural Networks for Dynamics Forecasting ( http://arxiv.org/abs/2108.05940v1 )

ライセンス: Link先を確認
Yu Huang, James Li, Min Shi, Hanqi Zhuang, Xingquan Zhu, Laurent Ch\'erubin, James VanZwieten, and Yufei Tang(参考訳) 海洋電流、流体力学、その他多くの時空間物理力学系は宇宙の重要な構成要素である。 そのような系の重要な特徴の1つは、ある物理法則(通常の偏微分方程式(odes/pdes)として表される)が時間や位置に関係なくプロセス全体を支配することである。 物理情報学習は、最近、正確な予測のために物理学を学ぶために現れたが、しばしば局所的な空間的および時間的相関を利用したり、ハードコードされた物理パラメータに依存するメカニズムを欠いている。 本稿では,システムの物理を規定するパラメータを学習するための物理結合ニューラルネットワークモデルを提案し,学習した物理を結合して繰り返しダイナミクスの学習を支援する。 時空間物理結合ニューラルネットワーク(ST-PCNN)モデルは,(1)基礎となる物理パラメータの学習,(2)時空間間の局所情報の遷移,(3)力学系の将来の値予測という3つの目標を達成するために提案される。 物理結合学習は、学習された物理パラメータを用いて提案されたモデルを大幅に改善し、良好な長距離予測(例えば30段階以上)を達成することを保証する。 シミュレーションとフィールド収集による海流データを用いた実験は、st-pcnnが既存の物理モデルよりも優れていることを検証している。

Ocean current, fluid mechanics, and many other spatio-temporal physical dynamical systems are essential components of the universe. One key characteristic of such systems is that certain physics laws -- represented as ordinary/partial differential equations (ODEs/PDEs) -- largely dominate the whole process, irrespective of time or location. Physics-informed learning has recently emerged to learn physics for accurate prediction, but they often lack a mechanism to leverage localized spatial and temporal correlation or rely on hard-coded physics parameters. In this paper, we advocate a physics-coupled neural network model to learn parameters governing the physics of the system, and further couple the learned physics to assist the learning of recurring dynamics. A spatio-temporal physics-coupled neural network (ST-PCNN) model is proposed to achieve three goals: (1) learning the underlying physics parameters, (2) transition of local information between spatio-temporal regions, and (3) forecasting future values for the dynamical system. The physics-coupled learning ensures that the proposed model can be tremendously improved by using learned physics parameters, and can achieve good long-range forecasting (e.g., more than 30-steps). Experiments, using simulated and field-collected ocean current data, validate that ST-PCNN outperforms existing physics-informed models.
翻訳日:2021-08-16 13:04:48 公開日:2021-08-12
# フェデレーション学習の操作者分割ビュー

An Operator Splitting View of Federated Learning ( http://arxiv.org/abs/2108.05974v1 )

ライセンス: Link先を確認
Saber Malekmohammadi, Kiarash Shaloudegi, Zeou Hu, Yaoliang Yu(参考訳) 過去数年間、連盟学習($\texttt{FL}$)コミュニティは、新しい$\texttt{FL}$アルゴリズムの急増を目撃してきた。 しかし、$\texttt{FL}$の理論の基盤はいまだ断片化されており、これらのアルゴリズムの完全な形式的な比較はいまだ解明されていない。 このギャップによって、既存の$\texttt{FL}$アルゴリズムの多くは、演算子分割の観点から理解可能であることを示す。 この統合により、異なるアルゴリズムを容易に比較し、前の収束結果を洗練し、新しいアルゴリズムの変種を明らかにすることができる。 特に,我々は,ステップサイズが持つ重要な役割を,$\texttt{FL}$アルゴリズムで明らかにした。 統一はまた、通信オーバーヘッドを発生させずに$\texttt{FL}$アルゴリズムを加速する、合理化され経済的な方法をもたらす。 コンベックスモデルと非凸モデルの両方で数値実験を行い,その結果を検証した。

Over the past few years, the federated learning ($\texttt{FL}$) community has witnessed a proliferation of new $\texttt{FL}$ algorithms. However, our understating of the theory of $\texttt{FL}$ is still fragmented, and a thorough, formal comparison of these algorithms remains elusive. Motivated by this gap, we show that many of the existing $\texttt{FL}$ algorithms can be understood from an operator splitting point of view. This unification allows us to compare different algorithms with ease, to refine previous convergence results and to uncover new algorithmic variants. In particular, our analysis reveals the vital role played by the step size in $\texttt{FL}$ algorithms. The unification also leads to a streamlined and economic way to accelerate $\texttt{FL}$ algorithms, without incurring any communication overhead. We perform numerical experiments on both convex and nonconvex models to validate our findings.
翻訳日:2021-08-16 13:04:25 公開日:2021-08-12
# 医用画像解析のための伝達学習の体系的ベンチマーク分析

A Systematic Benchmarking Analysis of Transfer Learning for Medical Image Analysis ( http://arxiv.org/abs/2108.05930v1 )

ライセンス: Link先を確認
Mohammad Reza Hosseinzadeh Taher, Fatemeh Haghighi, Ruibin Feng, Michael B. Gotway, Jianming Liang(参考訳) 教師付きイメージネットモデルからの転送学習は、医用画像解析で頻繁に使われている。 しかし、医用画像解析のために新たに開発した事前学習技術の有効性を評価するための大規模な評価は行われていない。 この方向への第一歩として、最新の大規模微粒化データセットであるiNat2021で事前訓練されたモデルの転送可能性に関する体系的研究を行い、教師付きImageNetモデルと比較して7つの多様な医療タスクにおけるトップ14のイメージネットモデルについて検討した。 さらに,医用画像上の教師付き画像ネットモデルを継続的に(事前)訓練することにより,自然画像と医用画像の領域ギャップを埋める実践的なアプローチを提案する。 包括的評価では,(1)細粒度データの事前学習モデルでは,医用セグメンテーションタスクに適した局所表現が得られ,(2)自己教師型イメージネットモデルでは,教師型イメージネットモデルよりも包括的特徴が効果的に学習され,(3)連続型事前学習では,自然画像と医用画像の領域ギャップを埋めることができる。 転送学習の大規模オープン評価が,医用画像の深層学習研究を後押しすることを期待している。 オープンサイエンスとして、すべてのコードと事前学習されたモデルは、githubのページhttps://github.com/j lianglab/benchmarktr ansferlearningで利用可能です。

Transfer learning from supervised ImageNet models has been frequently used in medical image analysis. Yet, no large-scale evaluation has been conducted to benchmark the efficacy of newly-developed pre-training techniques for medical image analysis, leaving several important questions unanswered. As the first step in this direction, we conduct a systematic study on the transferability of models pre-trained on iNat2021, the most recent large-scale fine-grained dataset, and 14 top self-supervised ImageNet models on 7 diverse medical tasks in comparison with the supervised ImageNet model. Furthermore, we present a practical approach to bridge the domain gap between natural and medical images by continually (pre-)training supervised ImageNet models on medical images. Our comprehensive evaluation yields new insights: (1) pre-trained models on fine-grained data yield distinctive local representations that are more suitable for medical segmentation tasks, (2) self-supervised ImageNet models learn holistic features more effectively than supervised ImageNet models, and (3) continual pre-training can bridge the domain gap between natural and medical images. We hope that this large-scale open evaluation of transfer learning can direct the future research of deep learning for medical imaging. As open science, all codes and pre-trained models are available on our GitHub page https://github.com/J LiangLab/BenchmarkTr ansferLearning.
翻訳日:2021-08-16 13:02:28 公開日:2021-08-12
# 機械学習を用いた工学系学生のコンピュータ支援設計における成功予測

Using Machine Learning to Predict Engineering Technology Students' Success with Computer Aided Design ( http://arxiv.org/abs/2108.05955v1 )

ライセンス: Link先を確認
Jasmine Singh, Viranga Perera, Alejandra J. Magana, Brittany Newell, Jin Wei-Kocsis, Ying Ying Seah, Greg J. Strimel, Charles Xie(参考訳) コンピュータ支援設計(CAD)プログラムは、低コストのイテレーションによるより良い設計を可能にするため、エンジニアリングに不可欠である。 CADプログラムは通常、学生に職業スキルとして教えられるが、そのようなソフトウェアは、学生が工学の概念を学ぶのに役立つ。 CADプログラム(特に教育目的のために設計されたプログラム)の現在の制限は、学生に自動リアルタイム支援を提供することができないことである。 CADプログラムの学生支援を促すために,AladdinというフリーのオープンソースCADソフトウェアを用いて学生が生成したデータを用いて,学生のデータと機械学習技術を組み合わせることで,特定の学生がデザインタスクでどれだけうまく機能するかを予測する。 我々は,導入工学技術学部課程の一環として,ゼロエネルギーを消費する家を設計するよう学生に求めた。 128人の学生とscikit-learn python machine learning libraryのデータを使って、デザインアクションの総数とインプットとしてのデザインアクションのシーケンスの両方を使ってモデルをテストしました。 初期設計シーケンスアクションを用いたモデルが予測に特に有用であることが分かりました。 我々のロジスティック回帰モデルは、学生がゼロネットエネルギーハウスの設計に成功するかどうかを60%の確率で予測できた。 以上の結果から,Aladdinは学生の半年ほどで学生に有用なフィードバックを提供することが可能であることが示唆された。 これらのモデルのさらなる改善は、早期の予測につながり、学習を早めるために学生のフィードバックを提供する。

Computer-aided design (CAD) programs are essential to engineering as they allow for better designs through low-cost iterations. While CAD programs are typically taught to undergraduate students as a job skill, such software can also help students learn engineering concepts. A current limitation of CAD programs (even those that are specifically designed for educational purposes) is that they are not capable of providing automated real-time help to students. To encourage CAD programs to build in assistance to students, we used data generated from students using a free, open source CAD software called Aladdin to demonstrate how student data combined with machine learning techniques can predict how well a particular student will perform in a design task. We challenged students to design a house that consumed zero net energy as part of an introductory engineering technology undergraduate course. Using data from 128 students, along with the scikit-learn Python machine learning library, we tested our models using both total counts of design actions and sequences of design actions as inputs. We found that our models using early design sequence actions are particularly valuable for prediction. Our logistic regression model achieved a >60% chance of predicting if a student would succeed in designing a zero net energy house. Our results suggest that it would be feasible for Aladdin to provide useful feedback to students when they are approximately halfway through their design. Further improvements to these models could lead to earlier predictions and thus provide students feedback sooner to enhance their learning.
翻訳日:2021-08-16 13:01:12 公開日:2021-08-12
# (参考訳) 医用画像分割の弱さ [全文訳有]

Weakly Supervised Medical Image Segmentation ( http://arxiv.org/abs/2108.05476v1 )

ライセンス: CC BY-SA 4.0
Pedro H. T. Gama, Hugo Oliveira and Jefersson A. dos Santos(参考訳) 本稿では,スパースラベル付き画像を用いた少数ショットセマンティックセマンティックセグメンテーションのための新しいアプローチを提案する。 医用シナリオにおいて, モデル非依存型メタラーニング(MAML)アルゴリズムに基づく手法の有効性について検討し, スパースラベリングと少数ショットを用いることで, 新たな注釈付きデータセットの作成コストを軽減できることを示す。 メタテストでは,スパースラベルをメタトレーニングや高密度ラベルに使用することにより,スパースラベルから高密度ラベルを予測することができる。 我々は4つのチェストX線データセットを用いて2種類のアノテーション(グリッドとポイント)を評価する実験を行った。 提案手法は,画像の2%未満の画素を用いて,高密度ラベルに匹敵するJaccardスコアを達成し,ターゲットドメインがソースドメインと大きく異なる場合に最も適していることを示す。

In this paper, we propose a novel approach for few-shot semantic segmentation with sparse labeled images. We investigate the effectiveness of our method, which is based on the Model-Agnostic Meta-Learning (MAML) algorithm, in the medical scenario, where the use of sparse labeling and few-shot can alleviate the cost of producing new annotated datasets. Our method uses sparse labels in the meta-training and dense labels in the meta-test, thus making the model learn to predict dense labels from sparse ones. We conducted experiments with four Chest X-Ray datasets to evaluate two types of annotations (grid and points). The results show that our method is the most suitable when the target domain highly differs from source domains, achieving Jaccard scores comparable to dense labels, using less than 2% of the pixels of an image with labels in few-shot scenarios.
翻訳日:2021-08-14 02:45:45 公開日:2021-08-12
# (参考訳) 衛星画像における灌水検出のための自己教師付きコントラスト学習 [全文訳有]

Self-supervised Contrastive Learning for Irrigation Detection in Satellite Imagery ( http://arxiv.org/abs/2108.05484v1 )

ライセンス: CC BY 4.0
Chitra Agastya, Sirak Ghebremusse, Ian Anderson, Colorado Reed, Hossein Vahabi, Alberto Todeschini(参考訳) 気候変動は河川流出の減少と帯水層再資源化を招き、淡水利用率の低下による水需要の持続不可能さが増している。 農業用水の利用状況の監視・追跡を慎重に行う必要があるため、持続可能な方法での食料の確保は引き続き大きな課題となる。 歴史的に、水の使用の監視は、多くの不完全さと悪用を伴う、遅くて高価な手動プロセスであった。 マシーン学習とリモートセンシングの開発は、自動的に灌水パターンをモニタリングする能力を高めてきたが、既存の技術では、開発途上国のような影響のある地域には、高価で時間を要する灌水データを必要とすることが多い。 本稿では,未確認・無ラベル衛星画像を用いた灌水検出のエンド・ツー・エンドの現実世界への応用について検討する。 光リモートセンシングデータに最先端の自己教師型深層学習技術を適用し,従来の教師付き学習法に比べて最大9倍の精度,90%のリコール,40%の一般化能力で灌水を検出できることを確認した。

Climate change has caused reductions in river runoffs and aquifer recharge resulting in an increasingly unsustainable crop water demand from reduced freshwater availability. Achieving food security while deploying water in a sustainable manner will continue to be a major challenge necessitating careful monitoring and tracking of agricultural water usage. Historically, monitoring water usage has been a slow and expensive manual process with many imperfections and abuses. Ma-chine learning and remote sensing developments have increased the ability to automatically monitor irrigation patterns, but existing techniques often require curated and labelled irrigation data, which are expensive and time consuming to obtain and may not exist for impactful areas such as developing countries. In this paper, we explore an end-to-end real world application of irrigation detection with uncurated and unlabeled satellite imagery. We apply state-of-the-art self-supervised deep learning techniques to optical remote sensing data, and find that we are able to detect irrigation with up to nine times better precision, 90% better recall and 40% more generalization ability than the traditional supervised learning methods.
翻訳日:2021-08-14 02:42:46 公開日:2021-08-12
# (参考訳) 注意駆動型グラフクラスタリングネットワーク [全文訳有]

Attention-driven Graph Clustering Network ( http://arxiv.org/abs/2108.05499v1 )

ライセンス: CC BY 4.0
Zhihao Peng, Hui Liu, Yuheng Jia, Junhui Hou(参考訳) 従来の畳み込みネットワーク(すなわちオートエンコーダ)とグラフ畳み込みネットワークの組み合わせは、クラスタリングにおいて多くの注目を集めており、自動エンコーダはノード属性の特徴を抽出し、グラフ畳み込みネットワークはトポロジカルグラフの特徴をキャプチャする。 しかし、既存の研究 (i) では、識別表現を学ぶための2種類の特徴を適応的に融合させる柔軟な組み合わせ機構が欠如しており、(ii) その後のクラスタ割り当てのために異なる層に埋め込まれたマルチスケール情報を見落とし、クラスタリング結果が劣る。 そこで本研究では,AGCN(Attention-driv en Graph Clustering Network)と呼ばれる新しいディープクラスタリング手法を提案する。 具体的には、AGCNは不均一な融合モジュールを利用して、ノード属性特徴とトポロジグラフ特徴を動的に融合する。 さらにagcnは、異なる層に埋め込まれたマルチスケール機能を適応的に集約するスケールワイズフュージョンモジュールを開発した。 統一最適化フレームワークに基づいて、AGCNは教師なしの方法で特徴学習とクラスタ割り当てを共同で行うことができる。 従来のディープクラスタリング手法と比較して,ネットワークに埋め込まれた多数の識別情報を包括的に検討し,クラスタリング結果を直接生成するため,より柔軟かつ効果的である。 一般的に使用されているベンチマークデータセットの大規模な定量的および定性的な結果から、AGCNが一貫して最先端の手法より優れていることが確認できます。

The combination of the traditional convolutional network (i.e., an auto-encoder) and the graph convolutional network has attracted much attention in clustering, in which the auto-encoder extracts the node attribute feature and the graph convolutional network captures the topological graph feature. However, the existing works (i) lack a flexible combination mechanism to adaptively fuse those two kinds of features for learning the discriminative representation and (ii) overlook the multi-scale information embedded at different layers for subsequent cluster assignment, leading to inferior clustering results. To this end, we propose a novel deep clustering method named Attention-driven Graph Clustering Network (AGCN). Specifically, AGCN exploits a heterogeneity-wise fusion module to dynamically fuse the node attribute feature and the topological graph feature. Moreover, AGCN develops a scale-wise fusion module to adaptively aggregate the multi-scale features embedded at different layers. Based on a unified optimization framework, AGCN can jointly perform feature learning and cluster assignment in an unsupervised fashion. Compared with the existing deep clustering methods, our method is more flexible and effective since it comprehensively considers the numerous and discriminative information embedded in the network and directly produces the clustering results. Extensive quantitative and qualitative results on commonly used benchmark datasets validate that our AGCN consistently outperforms state-of-the-art methods.
翻訳日:2021-08-14 02:32:47 公開日:2021-08-12
# (参考訳) Ethereum データ構造 [全文訳有]

Ethereum Data Structures ( http://arxiv.org/abs/2108.05513v1 )

ライセンス: CC BY 4.0
Kamil Jezek(参考訳) ethereumプラットフォームは、データ構造やハッシュ、コーディング関数の豊富なスペクトルで動作する。 それらを説明する主要な情報源はYellowペーパーであり、多くの非公式なブログが補完している。 これらの資料は何らかの制限がある。 特に、黄色い紙は簡潔さと細部を理想的にバランスさせていないが、一部では細部であり、他の場所では浅すぎる。 一方ブログはあいまいすぎることが多く、ある場合には誤った情報を含んでいる。 ソリューションとして、Ethereumで使用されるデータ構造を要約したこのドキュメントを提供する。 目標は、簡潔さを維持しながら十分な詳細を提供することです。 十分に詳細な形式的見解は、明確性の拡張例で富む。

Ethereum platform operates with rich spectrum of data structures and hashing and coding functions. The main source describing them is the Yellow paper, complemented by a lot of informal blogs. These sources are somehow limited. In particular, the Yellow paper does not ideally balance brevity and detail, in some parts it is very detail, while too shallow elsewhere. The blogs on the other hand are often too vague and in certain cases contain incorrect information. As a solution, we provide this document, which summarises data structures used in Ethereum. The goal is to provide sufficient detail while keeping brevity. Sufficiently detailed formal view is enriched with examples to extend on clarity.
翻訳日:2021-08-14 02:15:47 公開日:2021-08-12
# (参考訳) テキストアンカーを用いたスモールフットプリントキーワードスポッティングのためのメトリック学習 [全文訳有]

Text Anchor Based Metric Learning for Small-footprint Keyword Spotting ( http://arxiv.org/abs/2108.05516v1 )

ライセンス: CC0 1.0
Li Wang, Rongzhi Gu, Nuo Chen, Yuexian Zou(参考訳) キーワードスポッティング(KWS)は、小さなフットプリントと高い精度のトレードオフを達成するために依然として困難である。 最近提案された計量学習手法により,KWSタスクのモデルの一般化性が向上し,1D-CNNに基づくKWSモデルは,モデルサイズの観点から最先端技術(SOTA)を達成した。 しかし、距離学習においては、データ制限のため、音声アンカーは音響環境や話者に非常に影響を受けやすい。 また,1d-cnnモデルは長時間の音響特徴を捉える能力に限界があることに注意した。 以上の問題を解決するために,テキストアンカーを用いてアンカーの安定性を向上させることを提案する。 さらに,1D-CNNと自己注意に基づく長期音響特徴モデリングを促進するために,LG-Netと呼ばれる新しいモデルを提案する。 Google Speech Commands Datasetバージョン1(GSCDv1)と2(GSCDv2)で実験が行われる。 その結果,提案手法は,代表的CNNモデル上での音声アンカーよりも一貫した改善を示した。 さらに,lg-netモデルは2つのデータセットで97.67%,96.79%のsoma精度を実現している。 74kパラメータの軽いLG-Netでは、GSCDv1では96.82%、GSCDv2では95.77%のKWS精度が得られる。

Keyword Spotting (KWS) remains challenging to achieve the trade-off between small footprint and high accuracy. Recently proposed metric learning approaches improved the generalizability of models for the KWS task, and 1D-CNN based KWS models have achieved the state-of-the-arts (SOTA) in terms of model size. However, for metric learning, due to data limitations, the speech anchor is highly susceptible to the acoustic environment and speakers. Also, we note that the 1D-CNN models have limited capability to capture long-term temporal acoustic features. To address the above problems, we propose to utilize text anchors to improve the stability of anchors. Furthermore, a new type of model (LG-Net) is exquisitely designed to promote long-short term acoustic feature modeling based on 1D-CNN and self-attention. Experiments are conducted on Google Speech Commands Dataset version 1 (GSCDv1) and 2 (GSCDv2). The results demonstrate that the proposed text anchor based metric learning method shows consistent improvements over speech anchor on representative CNN-based models. Moreover, our LG-Net model achieves SOTA accuracy of 97.67% and 96.79% on two datasets, respectively. It is encouraged to see that our lighter LG-Net with only 74k parameters obtains 96.82% KWS accuracy on the GSCDv1 and 95.77% KWS accuracy on the GSCDv2.
翻訳日:2021-08-14 01:54:36 公開日:2021-08-12
# (参考訳) 複数視点による歩行認識のためのシルエット型ビュー埋め込み [全文訳有]

Silhouette based View embeddings for Gait Recognition under Multiple Views ( http://arxiv.org/abs/2108.05524v1 )

ライセンス: CC BY-SA 4.0
Tianrui Chai, Xinyu Mei, Annan Li, Yunhong Wang(参考訳) 複数視点での歩行認識は重要なコンピュータビジョンとパターン認識課題である。 進化する畳み込みニューラルネットワークに基づくアプローチでは、視角に関する情報はある程度無視される。 ビュー固有認識モデルを直接推定し,訓練する代わりに,既存の歩行認識アーキテクチャにビュー情報を埋め込むための互換性のあるフレームワークを提案する。 埋め込みは単に選択的投影層によって達成される。 2つの大規模な公開データセットの実験結果から,提案フレームワークは非常に有効であることが示された。

Gait recognition under multiple views is an important computer vision and pattern recognition task. In the emerging convolutional neural network based approaches, the information of view angle is ignored to some extent. Instead of direct view estimation and training view-specific recognition models, we propose a compatible framework that can embed view information into existing architectures of gait recognition. The embedding is simply achieved by a selective projection layer. Experimental results on two large public datasets show that the proposed framework is very effective.
翻訳日:2021-08-14 01:53:02 公開日:2021-08-12
# (参考訳) コンテキストアポイントスケジューリング問題 [全文訳有]

The Contextual Appointment Scheduling Problem ( http://arxiv.org/abs/2108.05531v1 )

ライセンス: CC BY 4.0
Nima Salehi Sadghiani, Saeid Motiian(参考訳) 本研究は、一定期間のジョブの順序に対する最適なアポイントタイムの決定に関するものである。 データ駆動型アポポインメントスケジューリング問題(ASP)について,ジョブや履歴データに関連する機能(変数)を$n$で観測した場合に検討する。 タスクベース損失関数を用いた統合的推定と最適化問題としてASPを定式化する。 我々は、文脈の使用を正当化するために、それらを含むことが不一致な決定に結びつくことを示す。 我々は2つの数値実験を通してアプローチを検証する。

This study is concerned with the determination of optimal appointment times for a sequence of jobs with uncertain duration. We investigate the data-driven Appointment Scheduling Problem (ASP) when one has $n$ observations of $p$ features (covariates) related to the jobs as well as historical data. We formulate ASP as an Integrated Estimation and Optimization problem using a task-based loss function. We justify the use of contexts by showing that not including the them yields to inconsistent decisions, which translates to sub-optimal appointments. We validate our approach through two numerical experiments.
翻訳日:2021-08-14 01:43:38 公開日:2021-08-12
# (参考訳) 線形関数近似を用いた効率的局所計画法 [全文訳有]

Efficient Local Planning with Linear Function Approximation ( http://arxiv.org/abs/2108.05533v1 )

ライセンス: CC BY 4.0
Dong Yin, Botao Hao, Yasin Abbasi-Yadkori, Nevena Lazi\'{c}, Csaba Szepesv\'{a}ri(参考訳) 線形関数近似とシミュレータを用いたクエリと計算効率のよい計画アルゴリズムについて検討する。 エージェントはシミュレーターへのローカルアクセスのみを持っていると仮定し、エージェントは以前訪問した状態のシミュレーターにのみ問い合わせることができる。 この設定は、生成モデルによる強化学習に関する多くの先行研究よりも実用的である。 本稿では,モンテカルロ最小二乗政策反復(MC-LSPI)というアルゴリズムを提案する。 全ての決定論的ポリシーのQ-関数が、状態-作用ペアの既知の特徴において線形であるという仮定の下で、我々のアルゴリズムは、状態空間のサイズによらず、特徴の次元、効率的な計画的地平線、対象の準最適性において多項式的クエリと計算的複雑度を有することを示す。 我々の研究の技術的貢献の1つは、仮想ポリシー反復アルゴリズムを利用した新しい証明手法の導入である。 この手法は,シミュレータにローカルアクセスした場合のみ,与えられた初期状態に対する最適ポリシーをアルゴリズムが学習可能であることを示すために,$\ell_\infty$-bound ed approximate policy iteration に既存の結果を利用する。 このテクニックは、この作業を超えて広範な設定にまで拡張できると考えています。

We study query and computationally efficient planning algorithms with linear function approximation and a simulator. We assume that the agent only has local access to the simulator, meaning that the agent can only query the simulator at states that have been visited before. This setting is more practical than many prior works on reinforcement learning with a generative model. We propose an algorithm named confident Monte Carlo least square policy iteration (Confident MC-LSPI) for this setting. Under the assumption that the Q-functions of all deterministic policies are linear in known features of the state-action pairs, we show that our algorithm has polynomial query and computational complexities in the dimension of the features, the effective planning horizon and the targeted sub-optimality, while these complexities are independent of the size of the state space. One technical contribution of our work is the introduction of a novel proof technique that makes use of a virtual policy iteration algorithm. We use this method to leverage existing results on $\ell_\infty$-bounde d approximate policy iteration to show that our algorithm can learn the optimal policy for the given initial state even only with local access to the simulator. We believe that this technique can be extended to broader settings beyond this work.
翻訳日:2021-08-14 01:30:15 公開日:2021-08-12
# (参考訳) 胸部X線撮影によるCovid-19の分類と他の呼吸器疾患との比較 [全文訳有]

Intelligent computational model for the classification of Covid-19 with chest radiography compared to other respiratory diseases ( http://arxiv.org/abs/2108.05536v1 )

ライセンス: CC BY 4.0
Paula Santos(参考訳) 統計的および計算的な方法で処理された肺X線画像は、肺炎と新型コロナウイルスを区別することができる。 本研究は, マラリア, デング, H1N1, 結核, Streptococcus pneumonia を鑑別し, 肺X線学的特徴を抽出し, 患者を検査し, 診断する方法を改善することができることを示す。 より正確には、肺X線画像を処理し、その画像が新型コロナウイルス患者のものであるかどうかを分類するインテリジェントな計算モデルが開発された。 画像は処理され,その特徴を抽出した。 これらの特徴は、教師なし統計学習法、PCA、クラスタリングの入力データであり、コビッド19でX線画像の特徴を特定できた。 統計モデルの導入により、ベイズ情報基準(CIB)に関連するX平均クラスタリング手法を用いた高速アルゴリズムが実現された。 開発したアルゴリズムはX線画像から各肺病理を効率よく識別する。 感度は良好であった。 平均認識精度は0.93と0.051であった。

Lung X-ray images, if processed using statistical and computational methods, can distinguish pneumonia from COVID-19. The present work shows that it is possible to extract lung X-ray characteristics to improve the methods of examining and diagnosing patients with suspected COVID-19, distinguishing them from malaria, dengue, H1N1, tuberculosis, and Streptococcus pneumonia. More precisely, an intelligent computational model was developed to process lung X-ray images and classify whether the image is of a patient with COVID-19. The images were processed and extracted their characteristics. These characteristics were the input data for an unsupervised statistical learning method, PCA, and clustering, which identified specific attributes of X-ray images with Covid-19. The introduction of statistical models allowed a fast algorithm, which used the X-means clustering method associated with the Bayesian Information Criterion (CIB). The developed algorithm efficiently distinguished each pulmonary pathology from X-ray images. The method exhibited excellent sensitivity. The average recognition accuracy of COVID-19 was 0.93 and 0.051.
翻訳日:2021-08-14 01:04:43 公開日:2021-08-12
# (参考訳) 連合学習のための契約理論に基づくインセンティブ機構 [全文訳有]

A Contract Theory based Incentive Mechanism for Federated Learning ( http://arxiv.org/abs/2108.05568v1 )

ライセンス: CC BY 4.0
Mengmeng Tian, Yuxin Chen, Yuan Liu, Zehui Xiong, Cyril Leung, Chunyan Miao(参考訳) フェデレートラーニング(FL)は、データプライバシ保護機械学習パラダイムとして機能し、分散クライアントによってトレーニングされた協調モデルを実現する。 FLタスクを達成するために、タスクパブリッシャはFLサーバに金銭的なインセンティブを支払う必要があり、FLサーバはFLクライアントにタスクをオフロードする。 タスクがクライアントによってプライベートにトレーニングされているという事実から、flクライアントに適切なインセンティブを設計することは困難である。 本稿では,契約理論に基づくFLタスクトレーニングモデルを提案する。各FLトレーニングラウンドにおいて,クライアントが個別に合理的(IR)かつインセンティブ互換(IC)である場合のインセンティブ予算を最小化する。 データ品質と計算作業という2種類のプライベートクライアントを正式に定義することで,2次元契約モデルを設計する。 モデルを効果的に集約するために,契約ベースのアグリゲータを提案する。 提案する契約モデルに対する実現可能かつ最適な契約ソリューションについて分析する。 %実験の結果,提案手法と契約モデルがflタスクの生成精度を効果的に向上できることが確認された。 実験の結果,契約ベースのアグリゲーションを適用したインセンティブ機構により,flタスクの一般化精度を向上させることができた。

Federated learning (FL) serves as a data privacy-preserved machine learning paradigm, and realizes the collaborative model trained by distributed clients. To accomplish an FL task, the task publisher needs to pay financial incentives to the FL server and FL server offloads the task to the contributing FL clients. It is challenging to design proper incentives for the FL clients due to the fact that the task is privately trained by the clients. This paper aims to propose a contract theory based FL task training model towards minimizing incentive budget subject to clients being individually rational (IR) and incentive compatible (IC) in each FL training round. We design a two-dimensional contract model by formally defining two private types of clients, namely data quality and computation effort. To effectively aggregate the trained models, a contract-based aggregator is proposed. We analyze the feasible and optimal contract solutions to the proposed contract model. %Experimental results demonstrate that the proposed framework and contract model can effective improve the generation accuracy of FL tasks. Experimental results show that the generalization accuracy of the FL tasks can be improved by the proposed incentive mechanism where contract-based aggregation is applied.
翻訳日:2021-08-14 00:54:36 公開日:2021-08-12
# (参考訳) Kicktionary-LOME: ドメイン特有な多言語フレーム意味解析モデル [全文訳有]

Kicktionary-LOME: A Domain-Specific Multilingual Frame Semantic Parsing Model for Football Language ( http://arxiv.org/abs/2108.05575v1 )

ライセンス: CC BY-SA 4.0
Gosse Minnema(参考訳) この技術報告では、"Kicktionary"ドメイン固有のフレームネットリソースに従って自動的にテキストを注釈付けできるLOMEフレーム意味解析モデル(Xia et al., EACL 2021)の適応版を紹介する。 利用可能なトレーニングデータに制限のあるモデルでもトレーニングする方法がいくつか提案されている。 利用可能なアノテーションの性質に関する評価にはいくつかの課題があるが、事前の結果は非常に有望であり、最良のモデルはF1スコア0.83(フレーム予測)と0.81(セマンティックロール予測)に達する。

This technical report introduces an adapted version of the LOME frame semantic parsing model (Xia et al., EACL 2021) which is capable of automatically annotating texts according to the "Kicktionary" domain-specific framenet resource. Several methods for training a model even with limited available training data are proposed. While there are some challenges for evaluation related to the nature of the available annotations, preliminary results are very promising, with the best model reaching F1-scores of 0.83 (frame prediction) and 0.81 (semantic role prediction).
翻訳日:2021-08-14 00:43:39 公開日:2021-08-12
# (参考訳) iButter:人間の自由視点レンダリングのためのニューラルインタラクティブなブレットタイムジェネレータ [全文訳有]

iButter: Neural Interactive Bullet Time Generator for Human Free-viewpoint Rendering ( http://arxiv.org/abs/2108.05577v1 )

ライセンス: CC BY 4.0
Liao Wang, Ziyu Wang, Pei Lin, Yuheng Jiang, Xin Suo, Minye Wu, Lan Xu, Jingyi Yu(参考訳) 人間の自由視点ビデオの ‘bullet-time’ 効果の生成は没入型視覚効果とVR/AR体験にとって重要である。 最近のニューラルアドバンスでは、人間の自由視点レンダリングのための制御可能で対話的な弾道設計能力が欠けており、特に軌道認識タスクのリアルタイム、動的、そして一般的な設定下にある。 このギャップを埋めるために、高密度RGBストリームからの光リアルな人間の自由視点レンダリングのためのニューラル・インタラクティブ・弾道時生成器(iButter)を提案し、人間の弾道時視覚効果の柔軟でインタラクティブな設計を可能にした。 当社のiButterアプローチは、リアルタイムプレビューとデザインのステージと、軌跡認識の洗練ステージで構成されています。 プレビュー期間中に,NeRFレンダリングをリアルタイムかつダイナミックな設定に拡張し,退屈なシーンごとのトレーニングを不要にすることで,対話型弾道設計手法を提案する。 この目的を達成するために,我々は,ハイブリッドトレーニングセット,軽量ネットワーク設計,効率的なシルエットベースのサンプリング戦略を用いる。 改良の過程では, 空間的, 時間的整合性, 意味的な手がかりを協調的に符号化し, 人間の活動の写実的弾頭時間体験を実現する, 20分以内の効率的な軌跡認識方式を導入する。 広汎な実験により,インタラクティブな弾頭時間設計と写真リアルな人間の自由視点映像生成のためのアプローチの有効性が示された。

Generating ``bullet-time'' effects of human free-viewpoint videos is critical for immersive visual effects and VR/AR experience. Recent neural advances still lack the controllable and interactive bullet-time design ability for human free-viewpoint rendering, especially under the real-time, dynamic and general setting for our trajectory-aware task. To fill this gap, in this paper we propose a neural interactive bullet-time generator (iButter) for photo-realistic human free-viewpoint rendering from dense RGB streams, which enables flexible and interactive design for human bullet-time visual effects. Our iButter approach consists of a real-time preview and design stage as well as a trajectory-aware refinement stage. During preview, we propose an interactive bullet-time design approach by extending the NeRF rendering to a real-time and dynamic setting and getting rid of the tedious per-scene training. To this end, our bullet-time design stage utilizes a hybrid training set, light-weight network design and an efficient silhouette-based sampling strategy. During refinement, we introduce an efficient trajectory-aware scheme within 20 minutes, which jointly encodes the spatial, temporal consistency and semantic cues along the designed trajectory, achieving photo-realistic bullet-time viewing experience of human activities. Extensive experiments demonstrate the effectiveness of our approach for convenient interactive bullet-time design and photo-realistic human free-viewpoint video generation.
翻訳日:2021-08-14 00:35:51 公開日:2021-08-12
# (参考訳) perf4sight: エッジgpu上でcnnトレーニングパフォーマンスをモデル化するツールフロー [全文訳有]

perf4sight: A toolflow to model CNN training performance on Edge GPUs ( http://arxiv.org/abs/2108.05580v1 )

ライセンス: CC BY 4.0
Aditya Rajagopal, Christos-Savvas Bouganis(参考訳) 今日のエッジデバイスのメモリと処理能力の増大は、エッジインテリジェンスを向上する機会を生み出します。 視覚領域では、畳み込みニューラルネットワーク(cnn)の構造とパラメータを入力データ分布に適応させる能力は、メモリフットプリント、レイテンシ、消費電力の低減につながる。 しかし、エッジデバイス上での計算資源とメモリ予算が限られているため、ネットワークトポロジーとデバイスの組み合わせの好ましいトレーニング構成を特定し、効率的なネットワーク適応のために、システムはトレーニングプロセスのレイテンシとメモリフットプリントを予測できる必要がある。 この研究は、ターゲットデバイスとネットワークからCNNのトレーニングメモリフットプリントとレイテンシを予測する、正確なモデルを開発する自動化手法であるperf4sightを提案する。 これにより、リソース消費の少ないエッジデバイス上で再トレーニング可能なネットワークトポロジの迅速な識別が可能になる。 PyTorchをフレームワークとして、NVIDIA Jetson TX2をターゲットデバイスとして、開発したモデルは、幅広いネットワークに対してそれぞれ95%と91%の精度でトレーニングメモリフットプリントとレイテンシを予測し、エッジGPU上で効率的なネットワーク適応への道を開く。

The increased memory and processing capabilities of today's edge devices create opportunities for greater edge intelligence. In the domain of vision, the ability to adapt a Convolutional Neural Network's (CNN) structure and parameters to the input data distribution leads to systems with lower memory footprint, latency and power consumption. However, due to the limited compute resources and memory budget on edge devices, it is necessary for the system to be able to predict the latency and memory footprint of the training process in order to identify favourable training configurations of the network topology and device combination for efficient network adaptation. This work proposes perf4sight, an automated methodology for developing accurate models that predict CNN training memory footprint and latency given a target device and network. This enables rapid identification of network topologies that can be retrained on the edge device with low resource consumption. With PyTorch as the framework and NVIDIA Jetson TX2 as the target device, the developed models predict training memory footprint and latency with 95% and 91% accuracy respectively for a wide range of networks, opening the path towards efficient network adaptation on edge GPUs.
翻訳日:2021-08-14 00:19:39 公開日:2021-08-12
# (参考訳) 画像分類のための能動学習への強化学習アプローチ

Reinforcement Learning Approach to Active Learning for Image Classification ( http://arxiv.org/abs/2108.05595v1 )

ライセンス: CC BY 4.0
Thorben Werner(参考訳) 機械学習はモデルに適合するために大量のラベル付きデータを必要とする。 多くのデータセットがすでに公開されているが、これらのパブリックデータセットのドメインに機械学習の応用可能性を強制している。 新しいアプリケーション領域における機械学習アルゴリズムの浸透は、これらの新しいドメインのデータを必要とするソリューションを必要とする。 この論文は、タスクのための強力なモデルのトレーニングに特に役立つデータポイントのみを処理することによって、手作業で処理すべきデータ量を削減するための、アクティブな学習の可能なソリューションとして機能する。 強化学習問題としてアクティブラーニングワークフローをフレーミングするためのフレームワークを新たに提案し, 画像分類に適用し, 一連の3つの実験を行った。 それぞれの実験を評価し、アプローチに関する潜在的な問題を概説する。 次に次の実験でフレームワークの改善を提案し、その影響を評価する。 最後の実験の後、最終的な結論が示され、残念ながらこの研究の仮説は否定され、現在提案されたフレームワークは訓練された強化学習エージェントで画像分類のためのアクティブラーニングを改善することができないことを概説する。

Machine Learning requires large amounts of labeled data to fit a model. Many datasets are already publicly available, nevertheless forcing application possibilities of machine learning to the domains of those public datasets. The ever-growing penetration of machine learning algorithms in new application areas requires solutions for the need for data in those new domains. This thesis works on active learning as one possible solution to reduce the amount of data that needs to be processed by hand, by processing only those datapoints that specifically benefit the training of a strong model for the task. A newly proposed framework for framing the active learning workflow as a reinforcement learning problem is adapted for image classification and a series of three experiments is conducted. Each experiment is evaluated and potential issues with the approach are outlined. Each following experiment then proposes improvements to the framework and evaluates their impact. After the last experiment, a final conclusion is drawn, unfortunately rejecting this work's hypothesis and outlining that the proposed framework at the moment is not capable of improving active learning for image classification with a trained reinforcement learning agent.
翻訳日:2021-08-13 23:58:38 公開日:2021-08-12
# (参考訳) 弱い時間的行動定位に先立つ深部運動 [全文訳有]

Deep Motion Prior for Weakly-Supervised Temporal Action Localization ( http://arxiv.org/abs/2108.05607v1 )

ライセンス: CC BY 4.0
Meng Cao, Can Zhang, Long Chen, Mike Zheng Shou, Yuexian Zou(参考訳) Weakly-Supervised Temporal Action Localization (WSTAL) は、ビデオレベルのラベルのみを持つ未編集ビデオにおけるアクションのローカライズを目的としている。 現在、最先端のWSTALメソッドのほとんどは、まずスニペットレベルの予測を生成し、次にビデオレベルの予測に集約するマルチインスタンス学習(MIL)パイプラインに従っています。 しかし, 既存の手法では, 1) 動作情報の不適切な使用, 2) 先行するクロスエントロピー訓練の損失の非互換性の2つの重要な欠点を見落としている。 本稿では,光学的流れの特徴の背後にある動きの手がかりが相補的な情報であることを示す。 これに触発されて、動作性と呼ばれる文脈依存的な動きを事前に構築することを提案する。 具体的には、局所運動キャリア(例えば光の流れ)に基づいて動きをモデル化するために動きグラフを導入する。 さらに、より情報的なビデオスニペットを強調するために、運動性スコアに基づくネットワークトレーニングを変調する動き誘導損失を提案する。 広範囲にわたるアブレーション研究により、運動性は利害行為を効果的にモデル化し、運動誘導損失はより正確な結果をもたらすことが確認された。 また,動作誘導損失はプラグアンドプレイ損失関数であり,既存のWSTAL法にも適用可能である。 標準のMILパイプラインをベースとした一般性を失うことなく、THUMOS'14、ActivityNet v1.2、v1.3を含む3つの挑戦的なベンチマークにおいて、新しい最先端性能を実現する。

Weakly-Supervised Temporal Action Localization (WSTAL) aims to localize actions in untrimmed videos with only video-level labels. Currently, most state-of-the-art WSTAL methods follow a Multi-Instance Learning (MIL) pipeline: producing snippet-level predictions first and then aggregating to the video-level prediction. However, we argue that existing methods have overlooked two important drawbacks: 1) inadequate use of motion information and 2) the incompatibility of prevailing cross-entropy training loss. In this paper, we analyze that the motion cues behind the optical flow features are complementary informative. Inspired by this, we propose to build a context-dependent motion prior, termed as motionness. Specifically, a motion graph is introduced to model motionness based on the local motion carrier (e.g., optical flow). In addition, to highlight more informative video snippets, a motion-guided loss is proposed to modulate the network training conditioned on motionness scores. Extensive ablation studies confirm that motionness efficaciously models action-of-interest, and the motion-guided loss leads to more accurate results. Besides, our motion-guided loss is a plug-and-play loss function and is applicable with existing WSTAL methods. Without loss of generality, based on the standard MIL pipeline, our method achieves new state-of-the-art performance on three challenging benchmarks, including THUMOS'14, ActivityNet v1.2 and v1.3.
翻訳日:2021-08-13 23:57:39 公開日:2021-08-12
# (参考訳) FreaAI: 機械学習モデルをテストするためのデータスライスの自動抽出 [全文訳有]

FreaAI: Automated extraction of data slices to test machine learning models ( http://arxiv.org/abs/2108.05620v1 )

ライセンス: CC BY 4.0
Samuel Ackerman, Orna Raz, Marcel Zalmanovici(参考訳) 機械学習(ML)ソリューションが一般的である。 しかし、これらのソリューションをビジネスグレードにする上で、多くの課題が存在する。 大きな課題のひとつは、MLソリューションがその期待されるビジネス価値を提供するようにすることだ。 そのためには、MLモデルのパフォーマンスの測定方法とソリューション要件のギャップを埋める必要があります。 以前の研究 (barash et al, "bridging the gap...") では,このギャップを橋渡しする上で,機能モデルの有効性を実証した。 分類器の精度やF1スコアなどのMLパフォーマンス指標は、平均的なMLパフォーマンスを測定するのが一般的だが、機能モデルは、その平均から遠すぎる説明可能なデータスライスに光を当てたため、満足できない要求を示す可能性がある。 例えば、銀行のテキスト用語分類器の全体的な精度は非常に高く、例えば$98\% \pm 2\%$であるが、短い説明や商業口座に由来する用語ではうまく機能しない。 トレーニングデータに暗黙的な可能性のあるビジネス要件は、説明のタイプや説明の長さに関係なくうまく機能することかもしれません。 したがって、短い説明と商用アカウントを含むパフォーマンスの低いデータスライスは、不適切な要件を示唆している。 そこで本研究では,ml ソリューションがアンダーパーフォーミングするデータスライスを導出する特徴モデルを自動的に抽出する可能性を示す。 我々の新しい技術であるIBM FreaAI aka FreaAIは、構造化MLテストデータや他のラベル付きデータからそのようなスライスを抽出する。 FreaAIは、7つのオープンデータセット上で、説明可能な統計的に重要なデータスライスを自動生成できることを実証する。

Machine learning (ML) solutions are prevalent. However, many challenges exist in making these solutions business-grade. One major challenge is to ensure that the ML solution provides its expected business value. In order to do that, one has to bridge the gap between the way ML model performance is measured and the solution requirements. In previous work (Barash et al, "Bridging the gap...") we demonstrated the effectiveness of utilizing feature models in bridging this gap. Whereas ML performance metrics, such as the accuracy or F1-score of a classifier, typically measure the average ML performance, feature models shed light on explainable data slices that are too far from that average, and therefore might indicate unsatisfied requirements. For example, the overall accuracy of a bank text terms classifier may be very high, say $98\% \pm 2\%$, yet it might perform poorly for terms that include short descriptions and originate from commercial accounts. A business requirement, which may be implicit in the training data, may be to perform well regardless of the type of account and length of the description. Therefore, the under-performing data slice that includes short descriptions and commercial accounts suggests poorly-met requirements. In this paper we show the feasibility of automatically extracting feature models that result in explainable data slices over which the ML solution under-performs. Our novel technique, IBM FreaAI aka FreaAI, extracts such slices from structured ML test data or any other labeled data. We demonstrate that FreaAI can automatically produce explainable and statistically-signif icant data slices over seven open datasets.
翻訳日:2021-08-13 23:41:20 公開日:2021-08-12
# (参考訳) フレキシブルインターバルサンプリングと正規化を用いた時空間人間行動認識モデル [全文訳有]

Spatio-Temporal Human Action Recognition Modelwith Flexible-interval Sampling and Normalization ( http://arxiv.org/abs/2108.05633v1 )

ライセンス: CC BY 4.0
Yuke, Yang(参考訳) ヒューマンアクション認識(human action recognition)は、人間が実際に行っている行動を特定するためのコンピュータビジョンおよびパターン認識タスクである。 そこで本稿では,赤緑青(RGB)入力ビデオのためのヒューマン・アクション・システムを提案し,その動作の時空間的特徴と時空間的特徴を兼ね備えた単一人間のキーポイント情報を抽出する。 時空間特徴抽出のための効率的な Gated Recurrent Unit (GRU) に基づいて,人間の行動を認識するために,サンプルモジュールと正規化モジュールを追加し,モデルの性能を向上させる。 さらに,人間のキーポイント予測と行動認識の両方に対して,類似した背景と識別行動を持つ新しいデータセットを構築する。 より良い結果を得るために、新しいデータセットでポーズモデルを再トレーニングし、パフォーマンスを改善します。 実験の結果,提案モデルが人間の行動認識データセットといくつかの公開データセットに与える影響が実証された。

Human action recognition is a well-known computer vision and pattern recognition task of identifying which action a man is actually doing. Extracting the keypoint information of a single human with both spatial and temporal features of action sequences plays an essential role to accomplish the task.In this paper, we propose a human action system for Red-Green-Blue(RGB) input video with our own designed module. Based on the efficient Gated Recurrent Unit(GRU) for spatio-temporal feature extraction, we add another sampling module and normalization module to improve the performance of the model in order to recognize the human actions. Furthermore, we build a novel dataset with a similar background and discriminative actions for both human keypoint prediction and behavior recognition. To get a better result, we retrain the pose model with our new dataset to get better performance. Experimental results demonstrate the effectiveness of the proposed model on our own human behavior recognition dataset and some public datasets.
翻訳日:2021-08-13 23:27:55 公開日:2021-08-12
# (参考訳) 浅いReLUネットワークの最小表現について [全文訳有]

On minimal representations of shallow ReLU networks ( http://arxiv.org/abs/2108.05643v1 )

ライセンス: CC BY 4.0
S. Dereich and S. Kassing(参考訳) 浅いReLUネットワークの実現関数は、連続かつ断片的なアフィン関数 $f:\mathbb R^d\to \mathbb R$ であり、そこで領域 $\mathbb R^{d}$ は、$f$がアフィンであるセルに$n$超平面の集合によって分割される。 f$の最小表現は$n$、$n+1$または$n+2$のどちらかを使い、3つのケースをそれぞれ特徴付ける。 入力層が1次元の場合、最小表現は常に最大$n+1$のニューロンで使用されるが、全ての高次元設定において、$n+2$のニューロンが必要な関数が存在する。 次に、$f$ を表す最小ネットワークの集合が $c^\infty$-submanifold $m$ を形成し、次元と接続されたコンポーネントの数 $m$ を導出する。 さらに,任意のReLUネットワークの実現関数が連続的かつ断片的なアフィン関数であることを保証した超平面に対する基準を与える。

The realization function of a shallow ReLU network is a continuous and piecewise affine function $f:\mathbb R^d\to \mathbb R$, where the domain $\mathbb R^{d}$ is partitioned by a set of $n$ hyperplanes into cells on which $f$ is affine. We show that the minimal representation for $f$ uses either $n$, $n+1$ or $n+2$ neurons and we characterize each of the three cases. In the particular case, where the input layer is one-dimensional, minimal representations always use at most $n+1$ neurons but in all higher dimensional settings there are functions for which $n+2$ neurons are needed. Then we show that the set of minimal networks representing $f$ forms a $C^\infty$-submanifold $M$ and we derive the dimension and the number of connected components of $M$. Additionally, we give a criterion for the hyperplanes that guarantees that all continuous, piecewise affine functions are realization functions of appropriate ReLU networks.
翻訳日:2021-08-13 23:21:38 公開日:2021-08-12
# (参考訳) UniFaceGAN: 一時的な顔画像編集のための統一フレームワーク [全文訳有]

UniFaceGAN: A Unified Framework for Temporally Consistent Facial Video Editing ( http://arxiv.org/abs/2108.05650v1 )

ライセンス: CC BY 4.0
Meng Cao, Haozhi Huang, Hao Wang, Xuan Wang, Li Shen, Sheng Wang, Linchao Bao, Zhifeng Li, Jiebo Luo(参考訳) 近年の研究では、顔交換や顔の再現など、顔画像編集タスクの進歩が見られた。 しかし、これらのメソッドは一度にひとつの特定のタスクを扱うことに限定される。 さらに、ビデオの顔編集では、従来の手法では、フレーム単位での変換を単純に適用するか、複数のフレームを連結的または反復的に利用することで、目立った視覚的なフリックを生じる。 本稿では,ユニファガンと呼ばれる時間的一貫性のある顔映像編集フレームワークを提案する。 3次元再構成モデルと簡単な動的トレーニングサンプル選択機構に基づいて,顔のスワッピングと顔の再現を同時に行うように設計されている。 時間的一貫性を強制するために、バリ中心座標補間に基づく新しい3次元時間的損失制約を導入する。 さらに,従来のAdaINやSPADEを代替し,よりコンテキスト調和な結果を合成する領域対応条件正規化層を提案する。 現状の顔画像編集法と比較すると,本フレームワークはより写実的で時間的に滑らかな映像像を生成する。

Recent research has witnessed advances in facial image editing tasks including face swapping and face reenactment. However, these methods are confined to dealing with one specific task at a time. In addition, for video facial editing, previous methods either simply apply transformations frame by frame or utilize multiple frames in a concatenated or iterative fashion, which leads to noticeable visual flickers. In this paper, we propose a unified temporally consistent facial video editing framework termed UniFaceGAN. Based on a 3D reconstruction model and a simple yet efficient dynamic training sample selection mechanism, our framework is designed to handle face swapping and face reenactment simultaneously. To enforce the temporal consistency, a novel 3D temporal loss constraint is introduced based on the barycentric coordinate interpolation. Besides, we propose a region-aware conditional normalization layer to replace the traditional AdaIN or SPADE to synthesize more context-harmonious results. Compared with the state-of-the-art facial image editing methods, our framework generates video portraits that are more photo-realistic and temporally smooth.
翻訳日:2021-08-13 22:59:51 公開日:2021-08-12
# (参考訳) 事前学習と微調整のパラダイムによる関係ランキングのモデル化 [全文訳有]

Modeling Relevance Ranking under the Pre-training and Fine-tuning Paradigm ( http://arxiv.org/abs/2108.05652v1 )

ライセンス: CC BY 4.0
Lin Bo, Liang Pang, Gang Wang, Jun Xu, XiuQiang He, Ji-Rong Wen(参考訳) 近年,BERT などの事前学習言語モデルは,まず未ラベルの大規模コーパス上で汎用言語モデルを事前学習し,専門家ラベルの関連データセット上でランキング固有の微調整を行う情報検索のための文書ランキングに応用されている。 理想的には、IRシステムは、ユーザのビューとシステムのビューという、ユーザシステムの双対性から妥当性をモデル化する。 ユーザビューは"実際のユーザ"のアクティビティに基づいて関連性を判断する一方で、システムのビューはシステム側、例えば専門家やアルゴリズムからの関連シグナルに焦点を当てている。 本稿では,ユーザ・システム関連ビューと事前学習言語モデルの成功に触発されて,事前学習および微調整のパラダイムの下で,ユーザ・ビューとシステム・ビューの両方を考慮に入れたPre-Rankという新しいランキングフレームワークを提案する。 具体的には、ユーザの関連性のビューをモデル化するために、クリックログなどの大規模ユーザアクティビティデータに基づいて、最初のクエリドキュメント表現を事前トレーニングする。 システムの妥当性をモデル化するために、Pre-Rankはエキスパートラベルの関連データに基づいてモデルをさらに微調整する。 さらに重要なのは、事前訓練された表現は、広範で深いネットワークアーキテクチャの下で、手作りの学習 to ランク機能とともに微調整されることだ。 このようにして、Pre-Rankは、実際の検索ユーザーとIRの専門家の両方から関連する知識とシグナルを取り入れることで、関連性をモデル化することができる。 Pre-Rankの有効性を検証するために,BERT と SetRank の2つの実装を基礎となるランキングモデルとして用いた。 3つの公開ベンチマークの実験結果から、Pre-Rankはいずれも基礎となるランキングモデルを上回っ、最先端のパフォーマンスを達成した。

Recently, pre-trained language models such as BERT have been applied to document ranking for information retrieval, which first pre-train a general language model on an unlabeled large corpus and then conduct ranking-specific fine-tuning on expert-labeled relevance datasets. Ideally, an IR system would model relevance from a user-system dualism: the user's view and the system's view. User's view judges the relevance based on the activities of "real users" while the system's view focuses on the relevance signals from the system side, e.g., from the experts or algorithms, etc. Inspired by the user-system relevance views and the success of pre-trained language models, in this paper we propose a novel ranking framework called Pre-Rank that takes both user's view and system's view into consideration, under the pre-training and fine-tuning paradigm. Specifically, to model the user's view of relevance, Pre-Rank pre-trains the initial query-document representations based on large-scale user activities data such as the click log. To model the system's view of relevance, Pre-Rank further fine-tunes the model on expert-labeled relevance data. More importantly, the pre-trained representations, are fine-tuned together with handcrafted learning-to-rank features under a wide and deep network architecture. In this way, Pre-Rank can model the relevance by incorporating the relevant knowledge and signals from both real search users and the IR experts. To verify the effectiveness of Pre-Rank, we showed two implementations by using BERT and SetRank as the underlying ranking model, respectively. Experimental results base on three publicly available benchmarks showed that in both of the implementations, Pre-Rank can respectively outperform the underlying ranking models and achieved state-of-the-art performances.
翻訳日:2021-08-13 22:44:23 公開日:2021-08-12
# (参考訳) 意味グラフから多様な記述を生成する [全文訳有]

Generating Diverse Descriptions from Semantic Graphs ( http://arxiv.org/abs/2108.05659v1 )

ライセンス: CC BY-SA 4.0
Jiuzhou Han, Daniel Beck, Trevor Cohn(参考訳) 意味グラフからのテキスト生成は伝統的に決定論的手法で行われ、入力グラフが与えられたユニークな記述を生成する。 しかし、生成問題は許容可能なテキスト出力の範囲を認め、語彙的、構文的、意味的変化を示す。 この断絶に対処するため、主な貢献は2つある。 まず,エンコーダ-デコーダモデルに潜在変数を組み込んだ確率的グラフ-テキストモデルとそのアンサンブルでの使用を提案する。 第2に,生成した文の多様性を評価するために,複数参照環境での出力の多様性と品質を共同で評価する新しい自動評価指標を提案する。 我々は,WebNLGデータセットを英語とロシア語で評価し,様々な文の集合を生成する確率的モデルの集合を示すとともに,最先端のモデルに類似した品質を維持した。

Text generation from semantic graphs is traditionally performed with deterministic methods, which generate a unique description given an input graph. However, the generation problem admits a range of acceptable textual outputs, exhibiting lexical, syntactic and semantic variation. To address this disconnect, we present two main contributions. First, we propose a stochastic graph-to-text model, incorporating a latent variable in an encoder-decoder model, and its use in an ensemble. Second, to assess the diversity of the generated sentences, we propose a new automatic evaluation metric which jointly evaluates output diversity and quality in a multi-reference setting. We evaluate the models on WebNLG datasets in English and Russian, and show an ensemble of stochastic models produces diverse sets of generated sentences, while retaining similar quality to state-of-the-art models.
翻訳日:2021-08-13 22:23:34 公開日:2021-08-12
# (参考訳) オートエンコーダ圧縮重み更新を用いた大規模フェデレーション学習における通信最適化 [全文訳有]

Communication Optimization in Large Scale Federated Learning using Autoencoder Compressed Weight Updates ( http://arxiv.org/abs/2108.05670v1 )

ライセンス: CC0 1.0
Srikanth Chandar, Pravin Chandran, Raghavendra Bhat, Avinash Chakravarthi(参考訳) Federated Learning(FL)は、データプライバシと計算上の課題に関する、この10年間の懸念の多くを解決する。 flは、データが存在する場所でトレーニングされたモデルがソースを離れないことを保証する。 しかし、FLには独自の課題が伴う。 この分散環境におけるモデル重み付け更新の通信には、ネットワーク帯域幅の大幅なコストが伴う。 本稿では,重み更新のデータ特徴を学習し,その後に圧縮を行う自動エンコーダ(AE)を用いて重み更新を圧縮する機構を提案する。 トレーニングが行われる各ノードにエンコーダが設定され、デコーダが重みが集約されるノードに設定される。 この設定はエンコーダによる圧縮を実現し、デコーダを使用して各通信ラウンドの終端の重みを再現する。 提案手法は,500倍から1720倍までの圧縮率を達成できるだけでなく,その精度や計算能力,その他fl設定の要件にもとづく修正が可能であるため,大規模flにおいて,aeベースの動的・直交的な重み圧縮技術は有利な代替(またはアドオン)として機能することを示す。

Federated Learning (FL) solves many of this decade's concerns regarding data privacy and computation challenges. FL ensures no data leaves its source as the model is trained at where the data resides. However, FL comes with its own set of challenges. The communication of model weight updates in this distributed environment comes with significant network bandwidth costs. In this context, we propose a mechanism of compressing the weight updates using Autoencoders (AE), which learn the data features of the weight updates and subsequently perform compression. The encoder is set up on each of the nodes where the training is performed while the decoder is set up on the node where the weights are aggregated. This setup achieves compression through the encoder and recreates the weights at the end of every communication round using the decoder. This paper shows that the dynamic and orthogonal AE based weight compression technique could serve as an advantageous alternative (or an add-on) in a large scale FL, as it not only achieves compression ratios ranging from 500x to 1720x and beyond, but can also be modified based on the accuracy requirements, computational capacity, and other requirements of the given FL setup.
翻訳日:2021-08-13 22:03:19 公開日:2021-08-12
# (参考訳) デモ映像からの視力グラウンドの学習 [全文訳有]

Learning Visual Affordance Grounding from Demonstration Videos ( http://arxiv.org/abs/2108.05675v1 )

ライセンス: CC BY 4.0
Hongchen Luo, Wei Zhai, Jing Zhang, Yang Cao, Dacheng Tao(参考訳) 視覚的アベイランスグラウンドティングは、人間とオブジェクト間のすべての可能な相互作用領域を画像/ビデオから分割することを目的としており、ロボットの把握や行動認識といった多くのアプリケーションに有用である。 しかし、既存の手法は主に画像の各領域を分割するオブジェクトの外観的特徴に依存しており、これは次の2つの問題に直面している: (i) 人間が対話するオブジェクトには複数の可能な領域があり、 (ii) 同一のオブジェクト領域に複数の人間的相互作用が存在する。 そこで,本研究では,実演ビデオにおいて手の位置と動作によって提供される支援手掛かりを活用し,複数の可能性を排除し,対象のインタラクション領域をよりよく特定する,手持ち手当接地ネットワーク(hagnet)を提案する。 具体的には、HAG-Netはデモビデオとオブジェクト画像を処理するデュアルブランチ構造を持つ。 ビデオ・ブランチでは、各ビデオ・フレーム内の手まわりの領域を拡大し、LSTMネットワークを用いてアクション・フィーチャを集約する。 オブジェクトブランチに対して、アクションクラスに応じて、ネットワークがオブジェクトの異なる部分にフォーカスするようにセマンティックエンハンスメントモジュール(SEM)を導入し、蒸留損失を利用して、オブジェクトブランチの出力特徴とビデオブランチの出力特徴を一致させ、ビデオブランチの知識をオブジェクトブランチに転送する。 2つの挑戦的データセットの定量的および定性的な評価は、我々の手法がアベイランスグラウンドティングの最先端の結果を得たことを示している。 ソースコードは一般公開される予定だ。

Visual affordance grounding aims to segment all possible interaction regions between people and objects from an image/video, which is beneficial for many applications, such as robot grasping and action recognition. However, existing methods mainly rely on the appearance feature of the objects to segment each region of the image, which face the following two problems: (i) there are multiple possible regions in an object that people interact with; and (ii) there are multiple possible human interactions in the same object region. To address these problems, we propose a Hand-aided Affordance Grounding Network (HAGNet) that leverages the aided clues provided by the position and action of the hand in demonstration videos to eliminate the multiple possibilities and better locate the interaction regions in the object. Specifically, HAG-Net has a dual-branch structure to process the demonstration video and object image. For the video branch, we introduce hand-aided attention to enhance the region around the hand in each video frame and then use the LSTM network to aggregate the action features. For the object branch, we introduce a semantic enhancement module (SEM) to make the network focus on different parts of the object according to the action classes and utilize a distillation loss to align the output features of the object branch with that of the video branch and transfer the knowledge in the video branch to the object branch. Quantitative and qualitative evaluations on two challenging datasets show that our method has achieved stateof-the-art results for affordance grounding. The source code will be made available to the public.
翻訳日:2021-08-13 21:52:53 公開日:2021-08-12
# (参考訳) 非整合関数とデータセットの難易度が等式分類器の効率に与える影響 [全文訳有]

How Nonconformity Functions and Difficulty of Datasets Impact the Efficiency of Conformal Classifiers ( http://arxiv.org/abs/2108.05677v1 )

ライセンス: CC BY 4.0
Marharyta Aleksandrova, Oleg Chertov(参考訳) 所要の精度を保証するための共形予測器の特性は、この枠組みを様々な応用に魅了する。 しかし、この特性は精度の低下の価格で達成される。 共形分類の場合、システムは1つではなく複数のクラスラベルを出力できる。 文献からも、非共形関数の選択は共形分類器の効率に大きな影響を与えることが知られている。 近年、異なるモデルに依存しない非整合関数が、異なる特徴を持つ共形分類器をもたらすことが示されている。 ニューラルネットワークベースの共形分類器では、逆確率(あるいはヒンジ損失)は平均予測ラベル数を最小化することができ、マージンはシングルトン予測の比率を増加させる。 本研究は,本研究をさらに拡張することを目的としている。 8種類の分類アルゴリズムを用いて実験評価を行い,その関係が成立するか否かについて検討した。 さらに,これら2つの非共形関数の特性を結合する手法を提案する。 実験は11個の実データと5個の合成データセットを用いて行った。

The property of conformal predictors to guarantee the required accuracy rate makes this framework attractive in various practical applications. However, this property is achieved at a price of reduction in precision. In the case of conformal classification, the systems can output multiple class labels instead of one. It is also known from the literature, that the choice of nonconformity function has a major impact on the efficiency of conformal classifiers. Recently, it was shown that different model-agnostic nonconformity functions result in conformal classifiers with different characteristics. For a Neural Network-based conformal classifier, the inverse probability (or hinge loss) allows minimizing the average number of predicted labels, and margin results in a larger fraction of singleton predictions. In this work, we aim to further extend this study. We perform an experimental evaluation using 8 different classification algorithms and discuss when the previously observed relationship holds or not. Additionally, we propose a successful method to combine the properties of these two nonconformity functions. The experimental evaluation is done using 11 real and 5 synthetic datasets.
翻訳日:2021-08-13 21:19:33 公開日:2021-08-12
# (参考訳) 有限角トモグラフィによる深部微小局所再構成

Deep Microlocal Reconstruction for Limited-Angle Tomography ( http://arxiv.org/abs/2108.05732v1 )

ライセンス: CC BY 4.0
H\'ector Andrade-Loarca, Gitta Kutyniok, Ozan \"Oktem, Philipp Petersen(参考訳) トモグラフィー画像における再構成問題とウェーブフロントセット抽出問題を共同で解くための深層学習に基づくアルゴリズムを提案する。 このアルゴリズムは、最近開発されたデジタルウェーブフロント集合抽出器と、ラドン変換に対するよく知られたマイクロ局所正準関係に基づいている。 我々は,x線データに関するウェーブフロント情報を用いて,基盤となるニューラルネットワークに対して,正しい地中真理ウェーブフロントセットと地中真理画像を同時に抽出することを要求することにより,再構成を改善する。 必要な理論的ステップとして,深層畳み込み残留ニューラルネットワークのディジタルマイクロローカル正準関係を同定する。 我々はこのアプローチの有効性を示す強力な数値的証拠を見つける。

We present a deep learning-based algorithm to jointly solve a reconstruction problem and a wavefront set extraction problem in tomographic imaging. The algorithm is based on a recently developed digital wavefront set extractor as well as the well-known microlocal canonical relation for the Radon transform. We use the wavefront set information about x-ray data to improve the reconstruction by requiring that the underlying neural networks simultaneously extract the correct ground truth wavefront set and ground truth image. As a necessary theoretical step, we identify the digital microlocal canonical relations for deep convolutional residual neural networks. We find strong numerical evidence for the effectiveness of this approach.
翻訳日:2021-08-13 21:01:06 公開日:2021-08-12
# (参考訳) Correlate-and-Excite : Guided Cost Volume Excitationによるリアルタイムステレオマッチング [全文訳有]

Correlate-and-Excite : Real-Time Stereo Matching via Guided Cost Volume Excitation ( http://arxiv.org/abs/2108.05773v1 )

ライセンス: CC BY 4.0
Antyanta Bangunharcana, Jae Won Cho, Seokju Lee, In So Kweon, Kyung-Soo Kim, Soohyun Kim(参考訳) ステレオマッチングへのボリューム型ディープラーニングアプローチは、3次元畳み込みを用いた入力左右画像から計算したコストボリュームを集約する。 近年の研究では,3次元畳み込みを補完する画像特徴と空間的に変化するコスト容積の蓄積の利用が示されている。 しかし、空間的に異なる操作を持つ既存の手法は複雑であり、計算にかなりのコストがかかり、メモリ消費が増加する。 本研究では,ガイド付きコストボリューム励起(gce)を構築し,画像ガイド付きコストボリュームの簡易チャネル励起により,性能が大幅に向上することを示す。 さらに,最終不等式推定値を計算するために,ソフト・アーグミン不等式回帰に先立ってトップk選択を用いる新しい手法を提案する。 新たな貢献を組み合わせることで,我々はcoex(relation-and-ex cite)と呼ぶエンドツーエンドネットワークを提案する。 SceneFlow、KITTI 2012、KITTI 2015データセットにおける我々のモデルの大規模な実験は、我々のモデルの有効性と効率を実証し、我々のモデルは他の速度ベースアルゴリズムよりも優れており、他の最先端アルゴリズムと競合していることを示す。 コードはhttps://github.com/a ntabangun/coexで入手できる。

Volumetric deep learning approach towards stereo matching aggregates a cost volume computed from input left and right images using 3D convolutions. Recent works showed that utilization of extracted image features and a spatially varying cost volume aggregation complements 3D convolutions. However, existing methods with spatially varying operations are complex, cost considerable computation time, and cause memory consumption to increase. In this work, we construct Guided Cost volume Excitation (GCE) and show that simple channel excitation of cost volume guided by image can improve performance considerably. Moreover, we propose a novel method of using top-k selection prior to soft-argmin disparity regression for computing the final disparity estimate. Combining our novel contributions, we present an end-to-end network that we call Correlate-and-Excite (CoEx). Extensive experiments of our model on the SceneFlow, KITTI 2012, and KITTI 2015 datasets demonstrate the effectiveness and efficiency of our model and show that our model outperforms other speed-based algorithms while also being competitive to other state-of-the-art algorithms. Codes will be made available at https://github.com/a ntabangun/coex.
翻訳日:2021-08-13 21:00:11 公開日:2021-08-12
# (参考訳) HopfE:逆ホップフィブレーションを用いた知識グラフ表現学習 [全文訳有]

HopfE: Knowledge Graph Representation Learning using Inverse Hopf Fibrations ( http://arxiv.org/abs/2108.05774v1 )

ライセンス: CC BY 4.0
Anson Bastos, Kuldeep Singh, Abhishek Nadgeri, Saeedeh Shekarpour, Isaiah Onando Mulang, Johannes Hoffart(参考訳) 近年,高密度ベクトル空間における実体と関係を表現するためにいくつかの知識グラフ埋め込み (KGE) アプローチが考案され,リンク予測などの下流タスクに用いられている。 いくつかのKGE技術は解釈可能性、すなわち関係の接続パターン(対称/非対称、逆、合成)を回転のような幾何学的解釈にマッピングする。 他のアプローチでは、4次元空間 (4d) のような高次元空間における表現をモデル化し、接続パターン(つまり表現力)を推測する能力を高める。 しかし、4次元空間における関係と実体のモデリングは、しばしば解釈可能性のコストがかかる。 本稿では, 4次元空間における推論関係の解釈可能性の実現を目的とした新しいKGE手法HopfEを提案する。 まず、3次元ユークリッド空間における構造埋め込みをモデル化し、関係作用素をSO(3)回転と見なす。 次に、3次元空間から4次元超球面への実体埋め込みベクトルを逆ホップフィブレーションを用いてマッピングし、KGオントロジーからの意味情報を埋め込む。 したがって、hopfeは表現力や解釈性を失うことなく、エンティティの構造的および意味的性質を考える。 4つのよく知られたベンチマークに対する実験結果は、KG完了タスクの最先端性能を達成する。

Recently, several Knowledge Graph Embedding (KGE) approaches have been devised to represent entities and relations in dense vector space and employed in downstream tasks such as link prediction. A few KGE techniques address interpretability, i.e., mapping the connectivity patterns of the relations (i.e., symmetric/asymmetric , inverse, and composition) to a geometric interpretation such as rotations. Other approaches model the representations in higher dimensional space such as four-dimensional space (4D) to enhance the ability to infer the connectivity patterns (i.e., expressiveness). However, modeling relation and entity in a 4D space often comes at the cost of interpretability. This paper proposes HopfE, a novel KGE approach aiming to achieve the interpretability of inferred relations in the four-dimensional space. We first model the structural embeddings in 3D Euclidean space and view the relation operator as an SO(3) rotation. Next, we map the entity embedding vector from a 3D space to a 4D hypersphere using the inverse Hopf Fibration, in which we embed the semantic information from the KG ontology. Thus, HopfE considers the structural and semantic properties of the entities without losing expressivity and interpretability. Our empirical results on four well-known benchmarks achieve state-of-the-art performance for the KG completion task.
翻訳日:2021-08-13 20:45:56 公開日:2021-08-12
# (参考訳) ファインジェネライゼーションのための熟達したダンプ先生からの学び [全文訳有]

Learning from Matured Dumb Teacher for Fine Generalization ( http://arxiv.org/abs/2108.05776v1 )

ライセンス: CC BY 4.0
HeeSeung Jung, Kangil Kim, Hoyong Kim and Jong-Hun Shin(参考訳) トレーニングデータによって誘導されないニューラルネットワークにおける決定境界の柔軟性は、一般化法で通常解決されるよく知られた問題である。 近年の知識蒸留(KD)文献の驚くべき結果は、ランダムで、訓練されていない、均等に構造化された教師ネットワークが、一般化性能を大幅に向上させることができることである。 これは不確実領域の一般化に有用な未発見の仮定の存在の可能性を高める。 本稿では, 単純およびKDに基づく一般化手法における決定境界と信頼性分布を解析することにより, 仮定に光を当てる。 決定境界が入力標本空間上の最も一般的な区別傾向(つまり、最も単純な仮説)を表すものであると仮定すると、仮説を使用する際のメソッドの様々な制限を示す。 そこで,これらの制約を解決するために,熟成した教師ベースkdを提案し,学習情報の大量破壊を伴わずに,学習者の一般化仮説を保守的に伝達する。 MNIST, CIFAR-10, CIFAR-100データセットにおける画像分類タスクのためのフィードフォワードおよび畳み込みニューラルネットワークの実用化実験において, 提案手法は, 格子探索における最適試験性能を安定的に向上することを示した。 その結果,提案手法は既存の手法よりも細部まで一般化できることが示唆された。

The flexibility of decision boundaries in neural networks that are unguided by training data is a well-known problem typically resolved with generalization methods. A surprising result from recent knowledge distillation (KD) literature is that random, untrained, and equally structured teacher networks can also vastly improve generalization performance. It raises the possibility of existence of undiscovered assumptions useful for generalization on an uncertain region. In this paper, we shed light on the assumptions by analyzing decision boundaries and confidence distributions of both simple and KD-based generalization methods. Assuming that a decision boundary exists to represent the most general tendency of distinction on an input sample space (i.e., the simplest hypothesis), we show the various limitations of methods when using the hypothesis. To resolve these limitations, we propose matured dumb teacher based KD, conservatively transferring the hypothesis for generalization of the student without massive destruction of trained information. In practical experiments on feed-forward and convolution neural networks for image classification tasks on MNIST, CIFAR-10, and CIFAR-100 datasets, the proposed method shows stable improvement to the best test performance in the grid search of hyperparameters. The analysis and results imply that the proposed method can provide finer generalization than existing methods.
翻訳日:2021-08-13 20:28:26 公開日:2021-08-12
# (参考訳) DiagViB-6:ショートカットと一般化の機会を考慮した視覚モデル診断ベンチマークスイート [全文訳有]

DiagViB-6: A Diagnostic Benchmark Suite for Vision Models in the Presence of Shortcut and Generalization Opportunities ( http://arxiv.org/abs/2108.05779v1 )

ライセンス: CC BY 4.0
Elias Eulig, Piyapat Saranrittichai, Chaithanya Kumar Mummadi, Kilian Rambach, William Beluch, Xiahan Shi, Volker Fischer(参考訳) 画像分類のための一般的なディープニューラルネットワーク(DNN)は、予測的かつ容易に表現できる視覚因子の形でショートカット機会(SO)に依存することが示されている。 これはショートカット学習と呼ばれ、一般化の障害につながる。 本研究は, 形状, 色, テクスチャなどの変化(FoV)の基本的な視覚的要因のみを予測する場合, 一般的なDNNもショートカット学習に苦しむことを示す。 我々は、ショートカット機会の他に、一般化機会(GO)は現実の視覚データの本質的な部分であり、予測クラスとFoV間の部分的な独立から生じると論じる。 また,短絡学習を克服するためには,DNNがGOを活用する必要があるとも主張する。 ネットワークの近道脆弱性と6つの独立したfovの一般化機能を研究するためのデータセットとメトリクスを含む、診断ビジョンベンチマークスイートdiagvib-6の導入が中心です。 特にDiagViB-6では、データセット内のSOとGOの型と度合いを制御できる。 私たちは幅広い一般的なビジョンアーキテクチャをベンチマークし、goを限られた範囲で活用できることを示しています。

Common deep neural networks (DNNs) for image classification have been shown to rely on shortcut opportunities (SO) in the form of predictive and easy-to-represent visual factors. This is known as shortcut learning and leads to impaired generalization. In this work, we show that common DNNs also suffer from shortcut learning when predicting only basic visual object factors of variation (FoV) such as shape, color, or texture. We argue that besides shortcut opportunities, generalization opportunities (GO) are also an inherent part of real-world vision data and arise from partial independence between predicted classes and FoVs. We also argue that it is necessary for DNNs to exploit GO to overcome shortcut learning. Our core contribution is to introduce the Diagnostic Vision Benchmark suite DiagViB-6, which includes datasets and metrics to study a network's shortcut vulnerability and generalization capability for six independent FoV. In particular, DiagViB-6 allows controlling the type and degree of SO and GO in a dataset. We benchmark a wide range of popular vision architectures and show that they can exploit GO only to a limited extent.
翻訳日:2021-08-13 20:14:37 公開日:2021-08-12
# (参考訳) 農業におけるコンピュータビジョンタスクのための作物・雑草の研究室・フィールドイメージデータセットの提案 [全文訳有]

Presenting an extensive lab- and field-image dataset of crops and weeds for computer vision tasks in agriculture ( http://arxiv.org/abs/2108.05789v1 )

ライセンス: CC BY-SA 4.0
Michael A. Beck, Chen-Yi Liu, Christopher P. Bidinosti, Christopher J. Henry, Cara M. Godee, Manisha Ajmani(参考訳) 機械学習とコンピュータビジョンモデルのトレーニングに適したラベル付き植物画像の大規模なデータセットを2つ提示する。 最初のデータセットは、カナダのプレーリーや多くの州に共通する120万以上の屋内栽培作物と雑草の画像を書いている日である。 第2のデータセットは、農地で撮影された45万以上の植物の画像で構成されている。 すべての屋内植物画像は種によってラベル付けされ、個々の画像のレベルで豊富なetaデータを提供する。 この包括的なデータベースは、例えば作物の種類や植物の年齢など、ユーザ定義仕様の下でデータセットをフィルタリングすることができる。 さらに、屋内データセットは、プロファイルショット、トップダウンショット、アングルドパースペクティブなど、幅広い角度から撮影された植物の画像を含む。 畑の植物から撮影された画像は、すべてトップダウンの視点からであり、通常、画像ごとに複数の植物を含んでいる。 これらの画像のメタデータも利用できる。 本稿では, 植物の種類, 植物年齢, 画像数に関して, 両方のデータセットの特徴について述べる。 さらに、我々のデータセットでカバーされた各種の画像を含む屋内データセットのオープンアクセスサンプルを紹介します。 これらは合計14,000枚の画像から選択され、種ごとの植物年齢と n 種毎の植物について代表的な標本を形成する。 このサンプルはデータセットへの新規ユーザの簡単なエントリポイントとして機能し、数十万の個々のイメージを扱うことなく、小さなスケールでデータを探索し、アプリケーションにとって最も有用なデータのパラメータを見つけることができる。

We present two large datasets of labelled plant-images that are suited towards the training of machine learning and computer vision models. The first dataset encompasses as the day of writing over 1.2 million images of indoor-grown crops and weeds common to the Canadian Prairies and many US states. The second dataset consists of over 540,000 images of plants imaged in farmland. All indoor plant images are labelled by species and we provide rich etadata on the level of individual images. This comprehensive database allows to filter the datasets under user-defined specifications such as for example the crop-type or the age of the plant. Furthermore, the indoor dataset contains images of plants taken from a wide variety of angles, including profile shots, top-down shots, and angled perspectives. The images taken from plants in fields are all from a top-down perspective and contain usually multiple plants per image. For these images metadata is also available. In this paper we describe both datasets' characteristics with respect to plant variety, plant age, and number of images. We further introduce an open-access sample of the indoor-dataset that contains 1,000 images of each species covered in our dataset. These, in total 14,000 images, had been selected, such that they form a representative sample with respect to plant age and ndividual plants per species. This sample serves as a quick entry point for new users to the dataset, allowing them to explore the data on a small scale and find the parameters of data most useful for their application without having to deal with hundreds of thousands of individual images.
翻訳日:2021-08-13 19:38:40 公開日:2021-08-12
# (参考訳) 単眼3次元物体検出のためのプログレッシブ座標変換 [全文訳有]

Progressive Coordinate Transforms for Monocular 3D Object Detection ( http://arxiv.org/abs/2108.05793v1 )

ライセンス: CC BY 4.0
Li Wang, Li Zhang, Yi Zhu, Zhi Zhang, Tong He, Mu Li, Xiangyang Xue(参考訳) 3D空間における物体の認識とローカライズは、AIエージェントが周囲の環境を知覚する重要な能力である。 高価なlidarポイント雲では大きな進歩を遂げているが、単眼像のみを想定して3dオブジェクト検出には大きな課題がある。 この問題に対処するための代替手段はいくつかあるが、RGBと深度情報を融合する重いネットワークを備えていたり、数百万の擬似LiDARポイントを処理するのに実証的に効果がなかったりする。 詳細な検査により、これらの制限が不正確な物体の局在に根ざしていることが分かる。 本稿では,学習座標表現を容易にするために,PCT(Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。 具体的には, 位置推定を段階的に洗練するために, 信頼度認識損失を伴う位置推定促進機構を導入する。 さらに、セマンティックイメージ表現はパッチ提案の使用を補うためにも利用される。 軽量でシンプルであるにもかかわらず、我々の戦略はkittiおよびwaymo open dataset monocular 3d detection benchmarksに優れた改善をもたらす。 同時に,提案するpctは,ほとんどの座標に基づく3d検出フレームワークに対する大きな一般化を示す。 https://github.com/ amazon-research/prog ressive-coordinate-t ransforms。

Recognizing and localizing objects in the 3D space is a crucial ability for an AI agent to perceive its surrounding environment. While significant progress has been achieved with expensive LiDAR point clouds, it poses a great challenge for 3D object detection given only a monocular image. While there exist different alternatives for tackling this problem, it is found that they are either equipped with heavy networks to fuse RGB and depth information or empirically ineffective to process millions of pseudo-LiDAR points. With in-depth examination, we realize that these limitations are rooted in inaccurate object localization. In this paper, we propose a novel and lightweight approach, dubbed Progressive Coordinate Transforms (PCT) to facilitate learning coordinate representations. Specifically, a localization boosting mechanism with confidence-aware loss is introduced to progressively refine the localization prediction. In addition, semantic image repre- sentation is also exploited to compensate for the usage of patch proposals. Despite being lightweight and simple, our strategy leads to superior improvements on the KITTI and Waymo Open Dataset monocular 3D detection benchmarks. At the same time, our proposed PCT shows great generalization to most coordinate- based 3D detection frameworks. The code is available at: https://github.com/ amazon-research/prog ressive-coordinate-t ransforms.
翻訳日:2021-08-13 19:28:23 公開日:2021-08-12
# (参考訳) 自己超越によるスケーラブルな実用的コミュニケーション [全文訳有]

Scalable pragmatic communication via self-supervision ( http://arxiv.org/abs/2108.05799v1 )

ライセンス: CC BY 4.0
Jennifer Hu, Roger Levy, Noga Zaslavsky(参考訳) 文脈に敏感なコミュニケーションのモデルは、しばしばRational Speech Act framework(RSA; Frank & Goodman, 2012)を使用し、協調推論プロセスにおいてリスナーと話者を定式化する。 しかし、標準的なRSAの定式化は小さなドメインにのみ適用でき、大規模アプリケーションは人間の振る舞いを模倣することに頼っている。 本稿では,最近の理論的結果(Zaslavsky et al., 2020)に基づいて,汎用情報理論の原理から実用的推論を特徴付ける,スケーラブルなプラグマティクスの新しいアプローチを提案する。 具体的には,エージェントが人間のデータを模倣するのではなく,自己スーパービジョンによって実践的なポリシーを取得するアーキテクチャと学習プロセスを提案する。 本研究は, 実用的理論と情報理論の両方に基礎を置き, 自己スーパービジョンによる実践的スキルを人工エージェントに応用するための新しい原理的アプローチを提案する。

Models of context-sensitive communication often use the Rational Speech Act framework (RSA; Frank & Goodman, 2012), which formulates listeners and speakers in a cooperative reasoning process. However, the standard RSA formulation can only be applied to small domains, and large-scale applications have relied on imitating human behavior. Here, we propose a new approach to scalable pragmatics, building upon recent theoretical results (Zaslavsky et al., 2020) that characterize pragmatic reasoning in terms of general information-theoreti c principles. Specifically, we propose an architecture and learning process in which agents acquire pragmatic policies via self-supervision instead of imitating human data. This work suggests a new principled approach for equipping artificial agents with pragmatic skills via self-supervision, which is grounded both in pragmatic theory and in information theory.
翻訳日:2021-08-13 19:10:55 公開日:2021-08-12
# (参考訳) Uniswap v3の流動性マイニングについて [全文訳有]

On Liquidity Mining for Uniswap v3 ( http://arxiv.org/abs/2108.05800v1 )

ライセンス: CC BY 4.0
Jimmy Yin and Mac Ren(参考訳) 最近提案されたUnixwap v3は、可燃性流動性プロバイダトークン(LPトークン)を非可燃性トークンに置き換え、流動性マイニングの設計をより困難にしている。 本稿では,局所的な報酬の微調整を通じて全体の流動性分布を実現するフレキシブルな流動性マイニング手法を提案する。 流動性提供者の見地からすると、流動性提供戦略はマルチプレイヤーのゼロサムゲームを形成する。 我々はnash平衡とそれに対応する戦略を概ね分析し, 報酬分布に比例する流動性分布を, 特定の場合において展開し, 一般的な状況の誘導に利用する。 上記の戦略的対応に基づき、鉱業報酬提供者は低すべりや価格の安定化といった目的のために流動性の配分を最適化することができる。

The recently proposed Uniswap v3 replaces the fungible liquidity provider token (LP token) into non-fungible ones, making the design for liquidity mining more difficult. In this paper, we propose a flexible liquidity mining scheme that realizes the overall liquidity distribution through the fine control of local rewards. From the liquidity provider's point of view, the liquidity provision strategy forms a multiplayer zero-sum game. We analyze the Nash Equilibrium and the corresponding strategy, approximately, deploying the liquidity proportional to the reward distribution, in some special cases and use it to guide the general situations. Based on the strategic response above, such a scheme allows the mining rewards provider to optimize the distribution of liquidity for the purpose such as low slippage and price stabilization.
翻訳日:2021-08-13 19:02:40 公開日:2021-08-12
# (参考訳) 自律車両の再想像 [全文訳有]

Reimagining an autonomous vehicle ( http://arxiv.org/abs/2108.05805v1 )

ライセンス: CC BY 4.0
Jeffrey Hawke, Haibo E, Vijay Badrinarayanan, Alex Kendall(参考訳) 2021年の自動運転の挑戦は、今世紀における宇宙レースの技術的同等であり、現在、開発の第2段階に入る。 テクノロジーの解決は、自動車自体の発明と平行する社会変革を生み出すだろう。 今日の自動運転技術は、10年前に行われた決定に根ざしている。 我々は、業界を巻き込んだDARPAの課題から得られた知識の体系に照らして、自動運転車(AV)の問題を再考する、再考が必要であると主張している。 AV2.0はどんなものか? 我々は、機械学習による運転のレシピと、運転研究のための大きな課題という、別のビジョンを提示します。

The self driving challenge in 2021 is this century's technological equivalent of the space race, and is now entering the second major decade of development. Solving the technology will create social change which parallels the invention of the automobile itself. Today's autonomous driving technology is laudable, though rooted in decisions made a decade ago. We argue that a rethink is required, reconsidering the autonomous vehicle (AV) problem in the light of the body of knowledge that has been gained since the DARPA challenges which seeded the industry. What does AV2.0 look like? We present an alternative vision: a recipe for driving with machine learning, and grand challenges for research in driving.
翻訳日:2021-08-13 18:54:27 公開日:2021-08-12
# (参考訳) AIリテラシーへのコンピテンシーモデルアプローチ:初期フレームワークからモデルへの研究パス [全文訳有]

Competency Model Approach to AI Literacy: Research-based Path from Initial Framework to Model ( http://arxiv.org/abs/2108.05809v1 )

ライセンス: CC BY 4.0
Farhana Faruqe, Ryan Watkins, Larry Medsker(参考訳) 近年の人工知能(AI)技術の発展は、教育者や教育機関に対して、AIの職場で成功するための基礎知識とスキルを持つあらゆる年齢の学生を準備するカリキュラムとリソースに対処するよう呼びかけている。 AIリテラシーの研究は、これらのスキルを開発するための効果的で実用的なプラットフォームにつながる可能性がある。 我々は、AI教育の実用的で有用なツールとして、AIリテラシーを開発するための経路を提案し、提唱する。 このような規律は、概念的な枠組みを超えて、関連する能力評価を伴う多段階の能力モデルに移行する必要がある。 このAIリテラシーへのアプローチは、さまざまなグループ(コンシューマ、同僚、共同作業者、クリエーターなど)を準備しながら、今後の教育コンテンツの開発を導く可能性がある。 本稿では,AIリテラシー研究のロードマップ構築に向けた最初のステップとして,出版物や研究資金の支援による体系的かつ協調的な取り組みと,能力と評価の分野を拡大する研究マトリックスを提案する。

The recent developments in Artificial Intelligence (AI) technologies challenge educators and educational institutions to respond with curriculum and resources that prepare students of all ages with the foundational knowledge and skills for success in the AI workplace. Research on AI Literacy could lead to an effective and practical platform for developing these skills. We propose and advocate for a pathway for developing AI Literacy as a pragmatic and useful tool for AI education. Such a discipline requires moving beyond a conceptual framework to a multi-level competency model with associated competency assessments. This approach to an AI Literacy could guide future development of instructional content as we prepare a range of groups (i.e., consumers, co-workers, collaborators, and creators). We propose here a research matrix as an initial step in the development of a roadmap for AI Literacy research, which requires a systematic and coordinated effort with the support of publication outlets and research funding, to expand the areas of competency and assessments.
翻訳日:2021-08-13 18:42:42 公開日:2021-08-12
# (参考訳) PatrickStar: Chunkベースのメモリ管理による事前学習モデルの並列トレーニング [全文訳有]

PatrickStar: Parallel Training of Pre-trained Models via a Chunk-based Memory Management ( http://arxiv.org/abs/2108.05818v1 )

ライセンス: CC BY 4.0
Jiarui Fang, Yang Yu, Shenggui Li, Yang You, Jie Zhou(参考訳) 事前訓練されたモデル(PTM)は、人工知能(AI)技術に革命をもたらす。 巨大なテキストで一般的な言語機能を持つモデルを学習し、タスク固有のデータセットを使用してモデルを微調整する。 残念なことにptmのトレーニングには、非常に高価なコンピューティングデバイス、特に微調整が必要である。 高品質なデバイス上でのPTMトレーニングを実現するPatrickStarは、PTMを誰でも利用できるようにした。 patrickstarはcpu-gpuヘテロジニアスメモリ空間を使用してパラメータ、勾配、オプティマイザ状態からなるモデルデータを格納することで、コンピューティングプラットフォームのメモリ要件を削減する。 モデルデータに利用可能なGPUメモリは、潮のようなパターンで定期的に変化し、反復的に減少し増大する。 しかし、既存の異種訓練は、このパターンを生かしていない。 その代わり、モデルデータをcpuとgpuに静的に分割し、メモリ浪費とメモリ乱用の両方を引き起こします。 対照的にpatrickstarはモデルデータをチャンクで管理し、異種メモリ空間に動的に分散する。 チャンクは、トレーニング中に有限状態マシンとして実行されるステートフルテンソルで構成される。 ウォームアップイテレーションで収集されたランタイムメモリ統計によってガイドされ、チャンクはヘテロジニアスメモリで効率的にオーケストレーションされ、低CPU-GPUデータ転送ボリュームを生成する。 zero redundancyオプティマイザとの共生により、patrickstarはデータ並列性を使用して複数のgpuにスケールする。 実験の結果、PatrickStarは8-V100と240GBのCPUメモリノード上で、STOAよりも2倍の12億パラメータのGPTモデルを訓練し、同じモデルサイズでより効率的であることがわかった。

The pre-trained model (PTM) is revolutionizing Artificial intelligence (AI) technology. It learns a model with general language features on the vast text and then fine-tunes the model using a task-specific dataset. Unfortunately, PTM training requires prohibitively expensive computing devices, especially fine-tuning, which is still a game for a small proportion of people in the AI community. Enabling PTMs training on low-quality devices, PatrickStar now makes PTM accessible to everyone. PatrickStar reduces memory requirements of computing platforms by using the CPU-GPU heterogeneous memory space to store model data, consisting of parameters, gradients, and optimizer states. We observe that the GPU memory available for model data changes regularly, in a tide-like pattern, decreasing and increasing iteratively. However, the existing heterogeneous training works do not take advantage of this pattern. Instead, they statically partition the model data among CPU and GPU, leading to both memory waste and memory abuse. In contrast, PatrickStar manages model data in chunks, which are dynamically distributed in heterogeneous memory spaces. Chunks consist of stateful tensors which run as finite state machines during training. Guided by the runtime memory statistics collected in a warm-up iteration, chunks are orchestrated efficiently in heterogeneous memory and generate lower CPU-GPU data transmission volume. Symbiosis with the Zero Redundancy Optimizer, PatrickStar scales to multiple GPUs using data parallelism, with the lowest communication bandwidth requirements and more efficient bandwidth utilization. Experimental results show PatrickStar trains a 12 billion parameters GPT model, 2x larger than the STOA work, on an 8-V100 and 240GB CPU memory node, and is also more efficient on the same model size.
翻訳日:2021-08-13 18:36:28 公開日:2021-08-12
# (参考訳) グラフベースと方向スパンベースの射影的依存性解析を組み合わせる [全文訳有]

Combining (second-order) graph-based and headed span-based projective dependency parsing ( http://arxiv.org/abs/2108.05838v1 )

ライセンス: CC BY 4.0
Songlin Yang, Kewei Tu(参考訳) グラフベースのメソッドは、数十年間の依存性解析で人気がある。 最近 \citet{yang2021headed} は、方向付きスパンベースの方法を提案する。 両者とも可能な全ての木を採点し、世界で最も高い木を見つける。 本稿では,これらの2種類の手法を組み合わせて,共同推論のための動的プログラミングアルゴリズムを設計する。 提案手法の有効性を示す実験は,<url{https://github.com/s ustcsonglin/span-bas ed-dependency-parsin g}で公開されている。 }.

Graph-based methods are popular in dependency parsing for decades. Recently, \citet{yang2021headed} propose a headed span-based method. Both of them score all possible trees and globally find the highest-scoring tree. In this paper, we combine these two kinds of methods, designing several dynamic programming algorithms for joint inference. Experiments show the effectiveness of our proposed methods\footnote{Our code is publicly available at \url{https://github.com/s ustcsonglin/span-bas ed-dependency-parsin g}.}.
翻訳日:2021-08-13 18:18:06 公開日:2021-08-12
# (参考訳) Logit Attenuating Weight Normalization [全文訳有]

Logit Attenuating Weight Normalization ( http://arxiv.org/abs/2108.05839v1 )

ライセンス: CC BY 4.0
Aman Gupta, Rohan Ramanath, Jun Shi, Anika Ramachandran, Sirou Zhou, Mingzhou Zhou, S. Sathiya Keerthi(参考訳) 勾配に基づくオプティマイザを用いてトレーニングされた過度パラメータ付きディープネットワークは、分類とランキングの問題を解決するための一般的な選択肢である。 適切に調整された$\ell_2$正規化や重量減少がなければ、そのようなネットワークは出力スコア(ログ)とネットワーク重みを大きくする傾向があり、トレーニング損失が小さくなり、ネットワークはパラメータ空間での適応性(移動能力)を失う。 正規化は一般的に過度に適合する観点から理解されるが、ネットワークをより適応させ、一般化の悪い重みからより簡単に逃れる役割を強調する。 そのような機能を実現するため,任意の勾配に基づく最適化器に積み重ねることができるLogit Attenuating Weight Normalization (LAWN) という手法を提案する。 LAWNは最終均質サブネットワークにおける層の重みノルムを制限してロジットを制御する。 実験により,最適化器のLAWN変異は,大規模画像分類およびレコメンダシステムにおいて,より優れた一般化性能を持つミニマの発見に適応できることを示す。 LAWNはAdamの改善に特に優れていますが、大きなバッチサイズで使用する場合、すべてのオプティマイザを大幅に改善します。

Over-parameterized deep networks trained using gradient-based optimizers are a popular choice for solving classification and ranking problems. Without appropriately tuned $\ell_2$ regularization or weight decay, such networks have the tendency to make output scores (logits) and network weights large, causing training loss to become too small and the network to lose its adaptivity (ability to move around) in the parameter space. Although regularization is typically understood from an overfitting perspective, we highlight its role in making the network more adaptive and enabling it to escape more easily from weights that generalize poorly. To provide such a capability, we propose a method called Logit Attenuating Weight Normalization (LAWN), that can be stacked onto any gradient-based optimizer. LAWN controls the logits by constraining the weight norms of layers in the final homogeneous sub-network. Empirically, we show that the resulting LAWN variant of the optimizer makes a deep network more adaptive to finding minimas with superior generalization performance on large-scale image classification and recommender systems. While LAWN is particularly impressive in improving Adam, it greatly improves all optimizers when used with large batch sizes
翻訳日:2021-08-13 18:12:02 公開日:2021-08-12
# (参考訳) 連続的ニューラルマッピング:連続観察から暗黙のシーン表現を学習する [全文訳有]

Continual Neural Mapping: Learning An Implicit Scene Representation from Sequential Observations ( http://arxiv.org/abs/2108.05851v1 )

ライセンス: CC BY 4.0
Zike Yan, Yuxin Tian, Xuesong Shi, Ping Guo, Peng Wang, Hongbin Zha(参考訳) 近年の進歩により、単一のニューラルネットワークが暗黙のシーン表現として機能し、空間座標とシーン特性のマッピング機能を確立している。 本稿では,逐次的な観察,すなわち連続的ニューラルマッピングから暗黙的なシーン表現の連続的な学習に向けてさらに一歩進める。 提案した問題設定は、バッチトレーニングされた暗黙のニューラル表現と、ロボットやビジョンコミュニティで一般的に使用されるストリーミングデータとのギャップを埋めるものである。 本稿では,連続的距離関数(SDF)をシーン形状表現として逐次深度画像から近似する,連続的ニューラルマッピングの模範的課題に取り組むための経験的リプレイ手法を提案する。 我々は,1つのネットワークが時間をかけて連続的にシーンの幾何学を表現できることを示すとともに,その精度と効率のトレードオフが期待できることを示す。

Recent advances have enabled a single neural network to serve as an implicit scene representation, establishing the mapping function between spatial coordinates and scene properties. In this paper, we make a further step towards continual learning of the implicit scene representation directly from sequential observations, namely Continual Neural Mapping. The proposed problem setting bridges the gap between batch-trained implicit neural representations and commonly used streaming data in robotics and vision communities. We introduce an experience replay approach to tackle an exemplary task of continual neural mapping: approximating a continuous signed distance function (SDF) from sequential depth images as a scene geometry representation. We show for the first time that a single network can represent scene geometry over time continually without catastrophic forgetting, while achieving promising trade-offs between accuracy and efficiency.
翻訳日:2021-08-13 17:46:01 公開日:2021-08-12
# (参考訳) 抽出質問応答におけるグレディ復号法は最適か? [全文訳有]

How Optimal is Greedy Decoding for Extractive Question Answering? ( http://arxiv.org/abs/2108.05857v1 )

ライセンス: CC0 1.0
Or Castel, Ori Ram, Avia Efrat, Omer Levy(参考訳) 微調整された言語モデルは、相対的に成功した理解質問を読むのに欲深いデコードを使用する。 しかし、このアプローチは、その答えが与えられた通路のスパンであることを保証するものではなく、最も可能性の高いものであることも保証しない。 欲望のデコーディングは、これらの特性に固執するアルゴリズムよりも悪いのか? グリーディ復号法の性能と最適性について検討するため,最も確率の高い解を効率よく検出する完全抽出アルゴリズムを提案する。 ゼロショットおよび少数ショット抽出質問応答における復号アルゴリズムとT5の性能を比較した。 トレーニングの例が得られない場合、正確な抽出はgreedyデコードよりも大幅に優れます。 しかし、greedy decodingは、いくつかのトレーニング例の導入によって、正確な抽出のパフォーマンスに素早く収束し、トレーニングセットが大きくなるにつれて、より抽出され、より好まれるようになり、最も可能なスパンを生成するようになる。 また, 自己教師付きトレーニングでは, モデルの抽出行動への偏りが生じ, ゼロショット設定のパフォーマンスが向上することを示した。 総じて,事前学習された言語モデルは,抽出的質問応答に適応するのに非常に優れており,最適な復号戦略をエミュレートするグリーディアルゴリズムのための小さなトレーニングセットを微調整するのに十分である可能性が示唆された。

Fine-tuned language models use greedy decoding to answer reading comprehension questions with relative success. However, this approach does not ensure that the answer is a span in the given passage, nor does it guarantee that it is the most probable one. Does greedy decoding actually perform worse than an algorithm that does adhere to these properties? To study the performance and optimality of greedy decoding, we present exact-extract, a decoding algorithm that efficiently finds the most probable answer span in the context. We compare the performance of T5 with both decoding algorithms on zero-shot and few-shot extractive question answering. When no training examples are available, exact-extract significantly outperforms greedy decoding. However, greedy decoding quickly converges towards the performance of exact-extract with the introduction of a few training examples, becoming more extractive and increasingly likelier to generate the most probable span as the training set grows. We also show that self-supervised training can bias the model towards extractive behavior, increasing performance in the zero-shot setting without resorting to annotated examples. Overall, our results suggest that pretrained language models are so good at adapting to extractive question answering, that it is often enough to fine-tune on a small training set for the greedy algorithm to emulate the optimal decoding strategy.
翻訳日:2021-08-13 17:29:47 公開日:2021-08-12
# (参考訳) m-RevNet: モーメント付きディープ可逆ニューラルネットワーク [全文訳有]

m-RevNet: Deep Reversible Neural Networks with Momentum ( http://arxiv.org/abs/2108.05862v1 )

ライセンス: CC BY 4.0
Duo Li and Shang-Hua Gao(参考訳) 近年,深層残留ネットワークと一階常微分方程式(odes)の関係が明らかにされている。 本研究では,2階のODEでディープ・ニューラル・アーキテクチャの設計をさらにブリッジし,m-RevNetと呼ばれる新しい可逆ニューラルネットワークを提案する。 可逆性により、前方パスのアクティベーション値にアクセスすることなく後方パスを行うことができ、トレーニング中の記憶負荷を大幅に軽減できる。 さらに、二階 odes に基づく理論的基礎は、バニラ残差ネットワークよりも強力な表現力を持つ m-revnet を付与する。 ある種の学習シナリオでは、標準的なResNetが失敗しながらm-RevNetが成功することを分析的に実証的に明らかにします。 画像分類と意味セグメンテーションベンチマークに関する包括的実験により,メモリ効率と認識性能の両方において,resnetよりもm-revnetが優れていることが示された。

In recent years, the connections between deep residual networks and first-order Ordinary Differential Equations (ODEs) have been disclosed. In this work, we further bridge the deep neural architecture design with the second-order ODEs and propose a novel reversible neural network, termed as m-RevNet, that is characterized by inserting momentum update to residual blocks. The reversible property allows us to perform backward pass without access to activation values of the forward pass, greatly relieving the storage burden during training. Furthermore, the theoretical foundation based on second-order ODEs grants m-RevNet with stronger representational power than vanilla residual networks, which potentially explains its performance gains. For certain learning scenarios, we analytically and empirically reveal that our m-RevNet succeeds while standard ResNet fails. Comprehensive experiments on various image classification and semantic segmentation benchmarks demonstrate the superiority of our m-RevNet over ResNet, concerning both memory efficiency and recognition performance.
翻訳日:2021-08-13 17:11:35 公開日:2021-08-12
# (参考訳) 分布深さに基づく物体調音モデルの推定 [全文訳有]

Distributional Depth-Based Estimation of Object Articulation Models ( http://arxiv.org/abs/2108.05875v1 )

ライセンス: CC BY 4.0
Ajinkya Jain, Stephen Giguere, Rudolf Lioutikov and Scott Niekum(参考訳) 本研究では,音節モデルカテゴリを事前に知ることなく,奥行き画像から直接,調音モデルパラメータの分布を効率よく学習する手法を提案する。 対照的に、生観測から調音モデルを学習する既存の手法は、通常、調音対象の安全な操作を保証するには不十分なモデルパラメータの点推定しか予測できない。 我々の中心となる貢献には、ねじ理論、フォン・ミセス・フィッシャー分布、スティーフェル多様体に基づく剛体変換および調音モデルパラメータ上の分布の新たな表現が含まれる。 これらの概念を組み合わせることで、剛体変換や調音が従わなければならない制約を暗黙的に満たす、効率的で数学的に健全な表現が可能になる。 本稿では,この表現を活用し,カテゴリ非依存な調音モデル推定を行うとともに,モデルの不確実性も提供する,新しい深層学習に基づくアプローチであるダストネットを提案する。 いくつかのベンチマークデータセットと実世界のオブジェクトに対するアプローチを評価し、その性能を2つの最先端手法と比較した。 以上の結果から, DUST-netは, 従来手法よりも精度の高い点推定値を生成し, 雑音による予測モデルパラメータの不確かさを効果的に把握できることを示す。

We propose a method that efficiently learns distributions over articulation model parameters directly from depth images without the need to know articulation model categories a priori. By contrast, existing methods that learn articulation models from raw observations typically only predict point estimates of the model parameters, which are insufficient to guarantee the safe manipulation of articulated objects. Our core contributions include a novel representation for distributions over rigid body transformations and articulation model parameters based on screw theory, von Mises-Fisher distributions, and Stiefel manifolds. Combining these concepts allows for an efficient, mathematically sound representation that implicitly satisfies the constraints that rigid body transformations and articulations must adhere to. Leveraging this representation, we introduce a novel deep learning based approach, DUST-net, that performs category-independent articulation model estimation while also providing model uncertainties. We evaluate our approach on several benchmarking datasets and real-world objects and compare its performance with two current state-of-the-art methods. Our results demonstrate that DUST-net can successfully learn distributions over articulation models for novel objects across articulation model categories, which generate point estimates with better accuracy than state-of-the-art methods and effectively capture the uncertainty over predicted model parameters due to noisy inputs.
翻訳日:2021-08-13 16:53:12 公開日:2021-08-12
# (参考訳) DexMV:人間のビデオからのデクサラスマニピュレーションのための模倣学習 [全文訳有]

DexMV: Imitation Learning for Dexterous Manipulation from Human Videos ( http://arxiv.org/abs/2108.05877v1 )

ライセンス: CC BY 4.0
Yuzhe Qin, Yueh-Hua Wu, Shaowei Liu, Hanwen Jiang, Ruihan Yang, Yang Fu, Xiaolong Wang(参考訳) 我々はコンピュータビジョンにおける手動物体の相互作用の理解に大きな進歩を遂げてきたが、ロボットが複雑な操作を行うことは依然として非常に困難である。 本稿では,コンピュータビジョンとロボット学習のギャップを埋めるために,模倣学習を行うための新しいプラットフォームとパイプラインであるdexmv(dex manipulation from videos)を提案する。 i) マルチフィンガーロボットハンドによる複雑なデクスタース操作タスクのためのシミュレーションシステムと, (ii) 人間の手が同じタスクを実行する大規模デモンストレーションを記録するためのコンピュータビジョンシステム。 新しいパイプラインでは、ビデオから3Dの手とオブジェクトのポーズを抽出し、モーションリターゲティングによってロボットのデモに変換する。 次に,複数の模倣学習アルゴリズムを実演と比較した。 実演ではロボット学習を大きなマージンで改善することができ、強化学習だけでは解決できない複雑なタスクを解くことができる。 プロジェクトページ: https://yzqin.github .io/dexmv/

While we have made significant progress on understanding hand-object interactions in computer vision, it is still very challenging for robots to perform complex dexterous manipulation. In this paper, we propose a new platform and pipeline, DexMV (Dex Manipulation from Videos), for imitation learning to bridge the gap between computer vision and robot learning. We design a platform with: (i) a simulation system for complex dexterous manipulation tasks with a multi-finger robot hand and (ii) a computer vision system to record large-scale demonstrations of a human hand conducting the same tasks. In our new pipeline, we extract 3D hand and object poses from the videos, and convert them to robot demonstrations via motion retargeting. We then apply and compare multiple imitation learning algorithms with the demonstrations. We show that the demonstrations can indeed improve robot learning by a large margin and solve the complex tasks which reinforcement learning alone cannot solve. Project page with video: https://yzqin.github .io/dexmv/
翻訳日:2021-08-13 16:32:01 公開日:2021-08-12
# (参考訳) 規則構造をもつ特徴工学 [全文訳有]

Feature Engineering with Regularity Structures ( http://arxiv.org/abs/2108.05879v1 )

ライセンス: CC BY 4.0
Ilya Chevyrev, Andris Gerasimovics, Hendrik Weber(参考訳) 機械学習タスクの特徴として,正則構造理論のモデルの利用について検討する。 モデル(英: model)は、偏微分方程式(pdes)に対する近似解として設計された時空信号の多重線形関数である。 モデルは経路のシグネチャの自然な多次元一般化と見なすことができ、我々の研究は、時間順データの文脈を超えて、データサイエンスにおけるシグネチャの最近の使用を拡大することを目的としている。 本研究では、時空信号に付随するモデル特徴ベクトルの柔軟な定義と、これらの特徴を線形回帰と組み合わせる方法を示す2つのアルゴリズムを提供する。 我々はこれらのアルゴリズムを、与えられた強制と境界データを用いてPDEの解を学ぶために設計されたいくつかの数値実験に適用する。 実験には強制力のある半線形放物型および波動方程式と強制力のないバーガーズ方程式を含む。 いくつかの代替手法と比較すると,アルゴリズムに有利な点がある。 さらに,バーガース方程式を用いた実験では,観測結果にノイズが加わった場合の予測力の安定性に気付いた。

We investigate the use of models from the theory of regularity structure as features in machine learning tasks. A model is a multi-linear function of a space-time signal designed to well-approximate solutions to partial differential equations (PDEs), even in low regularity regimes. Models can be seen as natural multi-dimensional generalisations of signatures of paths; our work therefore aims to extend the recent use of signatures in data science beyond the context of time-ordered data. We provide a flexible definition of a model feature vector associated to a space-time signal, along with two algorithms which illustrate ways in which these features can be combined with linear regression. We apply these algorithms in several numerical experiments designed to learn solutions to PDEs with a given forcing and boundary data. Our experiments include semi-linear parabolic and wave equations with forcing, and Burgers' equation with no forcing. We find an advantage in favour of our algorithms when compared to several alternative methods. Additionally, in the experiment with Burgers' equation, we noticed stability in the prediction power when noise is added to the observations.
翻訳日:2021-08-13 16:10:20 公開日:2021-08-12
# (参考訳) eコマースアイテムレコメンデーションのページレベルの最適化 [全文訳有]

Page-level Optimization of e-Commerce Item Recommendations ( http://arxiv.org/abs/2108.05891v1 )

ライセンス: CC BY 4.0
Chieh Lo, Hongliang Yu, Xin Yin, Krutika Shetty, Changchen He, Kathy Hu, Justin Platz, Adam Ilardi, Sriganesh Madhvanath(参考訳) アイテム詳細ページ (IDP) は、特定の商品や商品の一覧情報を提供するeコマースウェブサイトのウェブページである。 このページのアイテムの詳細の下に、買い手は通常、他の関連するアイテムのレコメンデーションを見つけることができる。 これらは典型的には一連のモジュールまたはカルーセルの形式で、各モジュールには推奨項目のセットが含まれている。 これらのアイテムレコメンデーションモジュールの選択と順序は、関連するアイテムの発見可能性を高め、ユーザーのエンゲージメントを高めると同時に、インベントリの多様性と他のビジネス目的を満足させることを目的としている。 IDPのアイテムレコメンデーションモジュールは、パーソナライゼーションの機会を無視して、しばしばキュレーションされ、静的に設定されます。 本稿では,idp上のアイテムレコメンデーションモジュールのパーソナライズされた選択と順序を,ディープニューラルネットワークを用いてリアルタイムに最適化する,スケーラブルなエンドツーエンド生産システムを提案する。 大規模なオフライン実験とオンラインA/Bテストにより,提案手法は既存の手法に比べてクリックスルーや変換率を大幅に向上することを示す。 オンラインa/bテストでは,クリックスルー率を2.48%,購入スルー率を7.34%改善した。

The item details page (IDP) is a web page on an e-commerce website that provides information on a specific product or item listing. Just below the details of the item on this page, the buyer can usually find recommendations for other relevant items. These are typically in the form of a series of modules or carousels, with each module containing a set of recommended items. The selection and ordering of these item recommendation modules are intended to increase discover-ability of relevant items and encourage greater user engagement, while simultaneously showcasing diversity of inventory and satisfying other business objectives. Item recommendation modules on the IDP are often curated and statically configured for all customers, ignoring opportunities for personalization. In this paper, we present a scalable end-to-end production system to optimize the personalized selection and ordering of item recommendation modules on the IDP in real-time by utilizing deep neural networks. Through extensive offline experimentation and online A/B testing, we show that our proposed system achieves significantly higher click-through and conversion rates compared to other existing methods. In our online A/B test, our framework improved click-through rate by 2.48% and purchase-through rate by 7.34% over a static configuration.
翻訳日:2021-08-13 15:47:06 公開日:2021-08-12
# (参考訳) 自然言語の構成性のパラドックス--ニューラルマシン翻訳の事例研究 [全文訳有]

The paradox of the compositionality of natural language: a neural machine translation case study ( http://arxiv.org/abs/2108.05885v1 )

ライセンス: CC BY 4.0
Verna Dankers, Elia Bruni and Dieuwke Hupkes(参考訳) 人間のような言語パフォーマンスへの移行は、しばしば構成の一般化を必要とすると論じられる。 この能力を示すニューラルネットワークが一般的に人工言語を用いて研究され、入力フラグメントの構成性が保証され、その意味が代数的に合成される。 しかし、自然言語の合成性はこの厳密な算術的な構成性よりもはるかに複雑であり、そのような人工的な構成性テストは、より現実的なシナリオにおけるニューラルモデルがどのように構成性を扱うかについての結論を引き出すことができない。 本研究では,3つの構成性試験を文献から再検証し,ニューラルマシン翻訳(NMT)のために再検討する。 NMTモデルの一貫性のない動作と(正しく)局所的処理と大域的処理の間を変調できないことの2つの主要な課題を浮き彫りにしている。 私たちは、自然言語のニューラルネットワークにおける構成性の評価を再考する必要があります。

Moving towards human-like linguistic performance is often argued to require compositional generalisation. Whether neural networks exhibit this ability is typically studied using artificial languages, for which the compositionality of input fragments can be guaranteed and their meanings algebraically composed. However, compositionality in natural language is vastly more complex than this rigid, arithmetics-like version of compositionality, and as such artificial compositionality tests do not allow us to draw conclusions about how neural models deal with compositionality in more realistic scenarios. In this work, we re-instantiate three compositionality tests from the literature and reformulate them for neural machine translation (NMT). The results highlight two main issues: the inconsistent behaviour of NMT models and their inability to (correctly) modulate between local and global processing. Aside from an empirical study, our work is a call to action: we should rethink the evaluation of compositionality in neural networks of natural language, where composing meaning is not as straightforward as doing the math.
翻訳日:2021-08-13 15:21:16 公開日:2021-08-12
# アンサンブル機械学習を用いた日常血液検査からの無リスク新型コロナウイルススクリーニングアルゴリズムの開発

Development of Risk-Free COVID-19 Screening Algorithm from Routine Blood Test using Ensemble Machine Learning ( http://arxiv.org/abs/2108.05660v1 )

ライセンス: Link先を確認
Md. Mohsin Sarker Raihan, Md. Mohi Uddin Khan, Laboni Akter and Abdullah Bin Shams(参考訳) 逆転写ポリメラーゼ連鎖反応(Reverse Transcription Polymerase Chain Reaction, RTPCR)は、ウイルス感染を識別するための銀の弾丸診断試験である。 ラピッド抗原検出(rapid antigen detection)は、ウイルス陽性患者を15分以内で同定するスクリーニング検査であるが、pcr検査よりも感度が低い。 複数の標準テストキットを持つのに加えて、多くの人々が感染し、キットの不足やコスト、不要な専門家や研究所の欠如、特に開発途上国や未開発国での大量人口と比較して、テストの前にも回復または死亡している。 本研究は、新型コロナウイルス患者の免疫学的および血液学的プロファイルにおけるパラメトリックな偏差に起因し、リスクフリーで高精度なスタックド・アンサンブル・機械学習モデルを用いて、新型コロナウイルス患者を、有望な精度、精度、リコール、F1スコアの100%で、共同で利用可能なワイドスプレッドチープの血液検査から識別する。 R曲線の解析は、実装すべきリスクフリーモデルの正確性を示す。 提案手法は, 大規模ユビキタスな低コストスクリーニングアプリケーションの可能性を有する。 これにより、感染した感染者の数を最小限に抑え、無症状または症状前の人々を早期に特定することでパンデミックを抑えるための追加的な保護層が加わる可能性がある。

The Reverse Transcription Polymerase Chain Reaction (RTPCR) test is the silver bullet diagnostic test to discern COVID infection. Rapid antigen detection is a screening test to identify COVID positive patients in little as 15 minutes, but has a lower sensitivity than the PCR tests. Besides having multiple standardized test kits, many people are getting infected & either recovering or dying even before the test due to the shortage and cost of kits, lack of indispensable specialists and labs, time-consuming result compared to bulk population especially in developing and underdeveloped countries. Intrigued by the parametric deviations in immunological & hematological profile of a COVID patient, this research work leveraged the concept of COVID-19 detection by proposing a risk-free and highly accurate Stacked Ensemble Machine Learning model to identify a COVID patient from communally available-widespread -cheap routine blood tests which gives a promising accuracy, precision, recall & F1-score of 100%. Analysis from R-curve also shows the preciseness of the risk-free model to be implemented. The proposed method has the potential for large scale ubiquitous low-cost screening application. This can add an extra layer of protection in keeping the number of infected cases to a minimum and control the pandemic by identifying asymptomatic or pre-symptomatic people early.
翻訳日:2021-08-13 14:47:54 公開日:2021-08-12
# 関数近似を用いた政策勾配法の関数ミラー上昇ビュー

A functional mirror ascent view of policy gradient methods with function approximation ( http://arxiv.org/abs/2108.05828v1 )

ライセンス: Link先を確認
Sharan Vaswani, Olivier Bachem, Simone Totaro, Robert Mueller, Matthieu Geist, Marlos C. Machado, Pablo Samuel Castro, Nicolas Le Roux(参考訳) 本稿では,FMA-PG(Functional mirror ascent)を用いて,政策勾配法を設計するための一般的なフレームワークを提案する。 機能的視点は、ポリシーの機能的表現(その十分な統計量)とそのパラメータ化(これらの統計はどのように表現されるか)を区別し、自然に計算効率のよいオフポリシーな更新をもたらす。 単純なポリシーパラメータ化のために、FMA-PGフレームワークは、最適なポリシーが更新の固定点であることを保証します。 また、ポリシーの改善を保証しながら、複雑なポリシーパラメータ化(ニューラルネットワークなど)を処理できます。 本フレームワークは複数のpgメソッドを統合し,既存のメソッドのサンプル効率のよい変種を設計する方法を開く。 さらに、重要な実装ヒューリスティック(例えば、フォワードとリバースklの分岐を使う)を原則的に復元する。 ソフトマックス関数表現では、FMA-PGはTRPOの変種として望ましい性質を持つ。 また、PPOの改良版が提案されており、その堅牢性と効率性は MuJoCo 上で実証的に実証されている。 単純な強化学習問題に対する実験により,FMA-PGによるアルゴリズムの評価を行った。

We use functional mirror ascent to propose a general framework (referred to as FMA-PG) for designing policy gradient methods. The functional perspective distinguishes between a policy's functional representation (what are its sufficient statistics) and its parameterization (how are these statistics represented) and naturally results in computationally efficient off-policy updates. For simple policy parameterizations, the FMA-PG framework ensures that the optimal policy is a fixed point of the updates. It also allows us to handle complex policy parameterizations (e.g., neural networks) while guaranteeing policy improvement. Our framework unifies several PG methods and opens the way for designing sample-efficient variants of existing methods. Moreover, it recovers important implementation heuristics (e.g., using forward vs reverse KL divergence) in a principled way. With a softmax functional representation, FMA-PG results in a variant of TRPO with additional desirable properties. It also suggests an improved variant of PPO, whose robustness and efficiency we empirically demonstrate on MuJoCo. Via experiments on simple reinforcement learning problems, we evaluate algorithms instantiated by FMA-PG.
翻訳日:2021-08-13 14:47:26 公開日:2021-08-12
# ベースラインのリセット:Deep Transfer Learningを用いたCTベースのCOVID-19診断は、広く考えられているほど正確ではない

Resetting the baseline: CT-based COVID-19 diagnosis with Deep Transfer Learning is not as accurate as widely thought ( http://arxiv.org/abs/2108.05649v1 )

ライセンス: Link先を確認
Fouzia Altaf, Syed M.S. Islam, Naveed Akhtar(参考訳) ディープラーニングは、新型コロナウイルス(covid-19)のコンピュータ診断で瞬時に人気を集めている。 この疾患に対するCT(Computed Tomography)の高感度性のため、画像モデルを用いたCTベースのCOVID-19検出は、現在医療画像研究の最前線にある。 この方向で発表された成果は、深層移動学習下での高精度な検出をしばしば主張している。 このことが、深層トランスファー学習がこの問題のメインストリームな解決策であると考える医療技術者を導いている。 しかし,本論文の批判的分析により,発表結果の相違が明らかとなった。 そこで我々は,CT画像を用いたCOVID-19検出における深層移動学習の有効性を系統的に検討した。 200以上のモデルトレーニングセッションを持つ14の最先端のビジュアルモデルについて検討し、出版文献が高名な科学資料でさえ、問題に対する転校学習性能を過大評価していると結論づけた。 過大評価の根源は不適切なデータキュレーションにまで遡る。 さらに,より現実的なシナリオを考察したケーススタディを提供し,この問題に対する透過的なベースラインを確立する。 再現可能な調査は、新型コロナウイルスの診断の重大な問題に対する誇大広告による主張を抑えるのに役立ち、CTベースの新型コロナウイルス検出技術をより透明に評価する道を開くことを願っている。

Deep learning is gaining instant popularity in computer aided diagnosis of COVID-19. Due to the high sensitivity of Computed Tomography (CT) to this disease, CT-based COVID-19 detection with visual models is currently at the forefront of medical imaging research. Outcomes published in this direction are frequently claiming highly accurate detection under deep transfer learning. This is leading medical technologists to believe that deep transfer learning is the mainstream solution for the problem. However, our critical analysis of the literature reveals an alarming performance disparity between different published results. Hence, we conduct a systematic thorough investigation to analyze the effectiveness of deep transfer learning for COVID-19 detection with CT images. Exploring 14 state-of-the-art visual models with over 200 model training sessions, we conclusively establish that the published literature is frequently overestimating transfer learning performance for the problem, even in the prestigious scientific sources. The roots of overestimation trace back to inappropriate data curation. We also provide case studies that consider more realistic scenarios, and establish transparent baselines for the problem. We hope that our reproducible investigation will help in curbing hype-driven claims for the critical problem of COVID-19 diagnosis, and pave the way for a more transparent performance evaluation of techniques for CT-based COVID-19 detection.
翻訳日:2021-08-13 14:47:09 公開日:2021-08-12
# マルチタスク視覚表現のための視覚トランスフォーマーを用いた10億規模の事前学習

Billion-Scale Pretraining with Vision Transformers for Multi-Task Visual Representations ( http://arxiv.org/abs/2108.05887v1 )

ライセンス: Link先を確認
Josh Beal, Hao-Yu Wu, Dong Huk Park, Andrew Zhai, Dmitry Kislyuk(参考訳) 大規模なビジュアル表現の事前トレーニングは、様々なベンチマークコンピュータビジョンタスクで最先端のパフォーマンスをもたらすが、複雑なプロダクションシステムにおけるこれらのテクニックの極端な利点は、比較的探究されていない。 このような表現は、ユースケース固有の視覚的理解から、マルチタスク学習でトレーニングされる、一般的なビジュアルディスカバリ製品の場合を考える。 スキントーン分類) すべての視覚コンテンツ(例)に対する一般的な表現学習 検索のための埋め込み)。 本研究では,(1)視覚的表現の性能を向上させるために,大規模な教師付き事前訓練を通じて10億以上の画像を持つデータセットを生成する方法,(2)従来の畳み込みバックボーンを置き換えるためにトランスフォーマーを活用し,特に1B+画像スケールにおけるシステムとパフォーマンスの改善について考察する。 このバックボーンモデルをサポートするために,異種テキスト信号から弱い教師付き画像アノテーションを導出する体系的アプローチを詳述し,画像ラベルの長テール分布を扱うクラスタリング手法の利点を実証した。 オフラインおよびオンライン評価の総合的研究を通じて,大規模トランスフォーマーベースの事前学習が,産業用コンピュータビジョンアプリケーションに多大な効果をもたらすことを示す。 モデルは製品用ビジュアルショッピングシステムにデプロイされ、トップ1の関連性は36%改善され、クリックスルーボリュームは23%改善された。 我々は、Transformerベースのアーキテクチャ、データセットスケール、プロダクションビジョンシステムの性能といった経験的関係をよりよく理解するための広範な実験を行う。

Large-scale pretraining of visual representations has led to state-of-the-art performance on a range of benchmark computer vision tasks, yet the benefits of these techniques at extreme scale in complex production systems has been relatively unexplored. We consider the case of a popular visual discovery product, where these representations are trained with multi-task learning, from use-case specific visual understanding (e.g. skin tone classification) to general representation learning for all visual content (e.g. embeddings for retrieval). In this work, we describe how we (1) generate a dataset with over a billion images via large weakly-supervised pretraining to improve the performance of these visual representations, and (2) leverage Transformers to replace the traditional convolutional backbone, with insights into both system and performance improvements, especially at 1B+ image scale. To support this backbone model, we detail a systematic approach to deriving weakly-supervised image annotations from heterogenous text signals, demonstrating the benefits of clustering techniques to handle the long-tail distribution of image labels. Through a comprehensive study of offline and online evaluation, we show that large-scale Transformer-based pretraining provides significant benefits to industry computer vision applications. The model is deployed in a production visual shopping system, with 36% improvement in top-1 relevance and 23% improvement in click-through volume. We conduct extensive experiments to better understand the empirical relationships between Transformer-based architectures, dataset scale, and the performance of production vision systems.
翻訳日:2021-08-13 14:45:59 公開日:2021-08-12
# 構造マッチングによるDeep Metric Learningの解釈に向けて

Towards Interpretable Deep Metric Learning with Structural Matching ( http://arxiv.org/abs/2108.05889v1 )

ライセンス: Link先を確認
Wenliang Zhao, Yongming Rao, Ziyi Wang, Jiwen Lu, Jie Zhou(参考訳) ニューラルネットワークはどのように2つの画像を区別するか? 監視やアクセス制御といった多くの危険な視覚的応用のために、信頼性の高いインテリジェントシステムを開発するためのディープモデルのマッチングメカニズムを理解することが重要である。 しかし,既存のディープメトリック学習手法は画像の空間構造を無視する特徴ベクトルを比較することで画像と一致し,解釈性に欠ける。 本稿では、より透過的な埋め込み学習のための深層解釈可能なメトリック学習(DIML)法を提案する。 従来の特徴ベクトル比較に基づく計量学習法とは異なり,2つの画像の特徴写像間の最適マッチングフローを計算し,空間埋め込みを明示的に整列する構造マッチング戦略を提案する。 提案手法は,2つの画像の類似性を複数の部分的類似性に分解し,それらが全体類似性に寄与する,より人間フレンドリな方法でメトリクスを学習することを可能にする。 本手法は,既製のバックボーンネットワークやメトリック学習手法に適用可能なモデルに依存しない。 我々は,CUB200-2011,Cars196 ,Stanford Online Productsの3つの大規模メトリクス学習ベンチマークを用いて評価を行い,高い解釈性を有する一般的なメトリック学習手法よりも大幅に改善した。 コードはhttps://github.com/w l-zhao/DIMLで入手できる。

How do the neural networks distinguish two images? It is of critical importance to understand the matching mechanism of deep models for developing reliable intelligent systems for many risky visual applications such as surveillance and access control. However, most existing deep metric learning methods match the images by comparing feature vectors, which ignores the spatial structure of images and thus lacks interpretability. In this paper, we present a deep interpretable metric learning (DIML) method for more transparent embedding learning. Unlike conventional metric learning methods based on feature vector comparison, we propose a structural matching strategy that explicitly aligns the spatial embeddings by computing an optimal matching flow between feature maps of the two images. Our method enables deep models to learn metrics in a more human-friendly way, where the similarity of two images can be decomposed to several part-wise similarities and their contributions to the overall similarity. Our method is model-agnostic, which can be applied to off-the-shelf backbone networks and metric learning methods. We evaluate our method on three major benchmarks of deep metric learning including CUB200-2011, Cars196, and Stanford Online Products, and achieve substantial improvements over popular metric learning methods with better interpretability. Code is available at https://github.com/w l-zhao/DIML
翻訳日:2021-08-13 14:45:33 公開日:2021-08-12
# MISS GAN:画像から図形への変換のための多言語スタイル生成支援ネットワーク

MISS GAN: A Multi-IlluStrator Style Generative Adversarial Network for image to illustration translation ( http://arxiv.org/abs/2108.05693v1 )

ライセンス: Link先を確認
Noa Barzilay, Tal Berkovitz Shalev, Raja Giryes(参考訳) 訓練されたジェネレータ1つだけで様々な入力スタイルをサポートする教師なしのスタイル転送は、コンピュータビジョンにおいて挑戦的で興味深いタスクです。 本稿では, 教師なし画像合成のためのマルチスタイルフレームワークであるMISS GAN(Multi-IlluStrato r Style Generative Adversarial Network)を提案する。 イラストレーションデータセットは、7つの異なるイラストレーターのイラストで構成されているため、さまざまなスタイルを含んでいるため、難しい。 既存の方法は、様々なイラストレーターのスタイルを扱うために複数のジェネレータ(イラストレーターの数など)を訓練するか、あるいはイラストレーターの他の画像に提供されるスタイル情報を無視するイメージ特定ネットワークを訓練する必要がある。 MISS GANは入力画像固有であり、訓練された1つのモデルのみを使用して他の画像の情報を使用する。

Unsupervised style transfer that supports diverse input styles using only one trained generator is a challenging and interesting task in computer vision. This paper proposes a Multi-IlluStrator Style Generative Adversarial Network (MISS GAN) that is a multi-style framework for unsupervised image-to-illustratio n translation, which can generate styled yet content preserving images. The illustrations dataset is a challenging one since it is comprised of illustrations of seven different illustrators, hence contains diverse styles. Existing methods require to train several generators (as the number of illustrators) to handle the different illustrators' styles, which limits their practical usage, or require to train an image specific network, which ignores the style information provided in other images of the illustrator. MISS GAN is both input image specific and uses the information of other images using only one trained model.
翻訳日:2021-08-13 14:44:47 公開日:2021-08-12
# テキスト埋め込みによるランク付けアルゴリズムに対する攻撃:リクルートアルゴリズムを事例として

Attacks against Ranking Algorithms with Text Embeddings: a Case Study on Recruitment Algorithms ( http://arxiv.org/abs/2108.05490v1 )

ライセンス: Link先を確認
Anahita Samadi, Debapriya Banerjee, Shirin Nilizadeh(参考訳) 近年,テキスト分類タスクは中毒や回避攻撃に弱いことが研究で示されている。 しかし,テキスト埋め込みを用いた意思決定アルゴリズムに対する攻撃についてはほとんど研究されていない。 本稿では,求職者の履歴書に対するテキスト埋め込みを用いた採用プロセスにおけるランク付けアルゴリズムに着目した。 我々は,テキストアイテムを識別するホワイトボックスとブラックボックスの両方を,埋め込みスペースにおける位置に基づいて,履歴書とジョブ記述との類似点の増大に大きく貢献することを示す。 敵はこれらのテキストアイテムを使用して履歴書のランキングを改善させる。 汎用文エンコーダ (use) と項周波数逆文書周波数 (tf idf) から得られた類似度スコアを用いたリクルートアルゴリズムをテストした。 結果は,両敵の状況において,攻撃者が平均的に成功していることを示している。 また,TF IDFに対する攻撃はUSEと比較してより成功した。

Recently, some studies have shown that text classification tasks are vulnerable to poisoning and evasion attacks. However, little work has investigated attacks against decision making algorithms that use text embeddings, and their output is a ranking. In this paper, we focus on ranking algorithms for recruitment process, that employ text embeddings for ranking applicants resumes when compared to a job description. We demonstrate both white box and black box attacks that identify text items, that based on their location in embedding space, have significant contribution in increasing the similarity score between a resume and a job description. The adversary then uses these text items to improve the ranking of their resume among others. We tested recruitment algorithms that use the similarity scores obtained from Universal Sentence Encoder (USE) and Term Frequency Inverse Document Frequency (TF IDF) vectors. Our results show that in both adversarial settings, on average the attacker is successful. We also found that attacks against TF IDF is more successful compared to USE.
翻訳日:2021-08-13 14:44:29 公開日:2021-08-12
# 暗黙のスパース正規化:深さと早期停止の影響

Implicit Sparse Regularization: The Impact of Depth and Early Stopping ( http://arxiv.org/abs/2108.05574v1 )

ライセンス: Link先を確認
Jiangyuan Li, Thanh V. Nguyen, Chinmay Hegde and Raymond K. W. Wong(参考訳) 本稿では,スパース回帰に対する勾配降下の暗黙バイアスについて検討する。 本研究では,より現実的なノイズ設定と相関設計の下で,深さ2対角線形ネットワークの2次パラメトリゼーションによる回帰の結果を,より一般的な深さnネットワークに拡張する。 初期停止は勾配降下がスパースモデル(暗黙的スパース正規化と呼ばれる現象)に収束する上で不可欠であることを示す。 この結果は、ノイズレスおよび非相関設計の場合の既知の結果と対照的である。 我々は, 深さと早期停止の影響を特徴付けるとともに, 一般深度パラメータNに対して, 早期停止による勾配降下が, 十分に小さい初期化とステップサイズで, 最適スパース回復を達成することを示す。 特に,深度の増加は作業初期化の規模と早期停止ウィンドウを増大させ,スパース回復のためのより安定した勾配経路をもたらすことを示す。

In this paper, we study the implicit bias of gradient descent for sparse regression. We extend results on regression with quadratic parametrization, which amounts to depth-2 diagonal linear networks, to more general depth-N networks, under more realistic settings of noise and correlated designs. We show that early stopping is crucial for gradient descent to converge to a sparse model, a phenomenon that we call implicit sparse regularization. This result is in sharp contrast to known results for noiseless and uncorrelated-design cases. We characterize the impact of depth and early stopping and show that for a general depth parameter N, gradient descent with early stopping achieves minimax optimal sparse recovery with sufficiently small initialization and step size. In particular, we show that increasing depth enlarges the scale of working initialization and the early-stopping window, which leads to more stable gradient paths for sparse recovery.
翻訳日:2021-08-13 14:44:07 公開日:2021-08-12
# 逆問題に対するダーツ:ハイパーパラメータ感度に関する研究

DARTS for Inverse Problems: a Study on Hyperparameter Sensitivity ( http://arxiv.org/abs/2108.05647v1 )

ライセンス: Link先を確認
Jonas Geiping, Jovita Lukasik, Margret Keuper, Michael Moeller(参考訳) differentiable architecture search (darts) は、画像分類に有望な結果をもたらすため、広く研究されているニューラルアーキテクチャ検索ツールである。 DARTSの主な利点は、効率的なアーキテクチャ探索を可能にするウェイトシェアリングワンショットパラダイムによって達成される効果である。 本研究では,DARTSを逆問題に対する体系的なケーススタディとして検討し,これらの潜在的な利点を制御された方法で分析する。 画像分類から再構成まで,dartsの成功が拡張可能であることを実証したが,本実験では,dartsに基づく手法の評価に3つの根本的な困難が生じている。 第2に、最終性能はオプティマイザのハイパーパラメータに大きく依存する。 第三に、トレーニングで使用される重量共有アーキテクチャのパフォーマンスは、見いだされたアーキテクチャの最終的なパフォーマンスを反映していない。 そこで,本研究では,1)複数の実行中のdartsベースのメソッドの結果とその基礎となる性能統計を報告すること,2)トレーニングと最終的なアーキテクチャ性能の相関性を示すこと,3)dartの計算効率がハイパーパラメータ最適化と複数実行のコストを上回るかどうかを慎重に検討することの必要性を結論する。

Differentiable architecture search (DARTS) is a widely researched tool for neural architecture search, due to its promising results for image classification. The main benefit of DARTS is the effectiveness achieved through the weight-sharing one-shot paradigm, which allows efficient architecture search. In this work, we investigate DARTS in a systematic case study of inverse problems, which allows us to analyze these potential benefits in a controlled manner. Although we demonstrate that the success of DARTS can be extended from image classification to reconstruction, our experiments yield three fundamental difficulties in the evaluation of DARTS-based methods: First, the results show a large variance in all test cases. Second, the final performance is highly dependent on the hyperparameters of the optimizer. And third, the performance of the weight-sharing architecture used during training does not reflect the final performance of the found architecture well. Thus, we conclude the necessity to 1) report the results of any DARTS-based methods from several runs along with its underlying performance statistics, 2) show the correlation of the training and final architecture performance, and 3) carefully consider if the computational efficiency of DARTS outweighs the costs of hyperparameter optimization and multiple runs.
翻訳日:2021-08-13 14:43:52 公開日:2021-08-12
# MT-ORL:マルチタスクオクルージョン関係学習

MT-ORL: Multi-Task Occlusion Relationship Learning ( http://arxiv.org/abs/2108.05722v1 )

ライセンス: Link先を確認
Panhe Feng, Qi She, Lei Zhu, Jiaxin Li, Lin ZHANG, Zijian Feng, Changhu Wang, Chunpeng Li, Xuejing Kang and Anlong Ming(参考訳) 一つの画像における物体間の咬合関係の検索は、画像の境界がずれているため困難である。 まず,2つのサブタスク間のデコーダ段階において,限定的な結合量を利用するアーキテクチャが欠如していること,すなわち,オクルージョン境界抽出とオクルージョン配向予測,および,オクルージョン配向の不適切な表現について考察する。 本稿では,共有された高レベル特徴量と,タスク固有の低レベル特徴量における構造化空間情報を用いて,リッチ・オクルージョン・キューを活用し,第1の課題を解決するオクルージョン・シェアド・パス分離ネットワーク(opnet)と呼ばれる新しいアーキテクチャを提案する。 次に,2つ目の問題に取り組むために,単純だが効果的な直交閉塞表現(OOR)を設計する。 本手法は,標準PIOD/BSDSオーナシップデータセット上でのバウンダリーAPの6.1%/8.3%,オリエンテーションAPの6.5%/10%を超越する手法である。 コードはhttps://github.com/f engpanhe/mt-orlで入手できる。

Retrieving occlusion relation among objects in a single image is challenging due to sparsity of boundaries in image. We observe two key issues in existing works: firstly, lack of an architecture which can exploit the limited amount of coupling in the decoder stage between the two subtasks, namely occlusion boundary extraction and occlusion orientation prediction, and secondly, improper representation of occlusion orientation. In this paper, we propose a novel architecture called Occlusion-shared and Path-separated Network (OPNet), which solves the first issue by exploiting rich occlusion cues in shared high-level features and structured spatial information in task-specific low-level features. We then design a simple but effective orthogonal occlusion representation (OOR) to tackle the second issue. Our method surpasses the state-of-the-art methods by 6.1%/8.3% Boundary-AP and 6.5%/10% Orientation-AP on standard PIOD/BSDS ownership datasets. Code is available at https://github.com/f engpanhe/MT-ORL.
翻訳日:2021-08-13 14:43:06 公開日:2021-08-12
# MicroNet:極低FLOPによる画像認識の改善

MicroNet: Improving Image Recognition with Extremely Low FLOPs ( http://arxiv.org/abs/2108.05894v1 )

ライセンス: Link先を確認
Yunsheng Li and Yinpeng Chen and Xiyang Dai and Dongdong Chen and Mengchen Liu and Lu Yuan and Zicheng Liu and Lei Zhang and Nuno Vasconcelos(参考訳) 本稿では,計算コストが極端に低い場合(例えば,性能劣化の問題)に対処することを目的とする。 5M FLOPs on ImageNet Classification)。 その結果,sparse connectivity と dynamic activation function の2つの因子が精度向上に有効であることがわかった。 前者はネットワーク幅の大幅な削減を回避し、後者はネットワーク深さの削減の障害を軽減する。 技術的には,畳み込み行列を低階行列に分解し,スパース接続を畳み込みに組み込むマイクロファクター畳み込みを提案する。 また,入力特徴マップと円チャンネルシフトとの複数の動的融合を最大化することで非線形性を改善するために,dynamic shift maxという新しい動的活性化関数を提案する。 これら2つの新しい演算子を基盤として、我々はMicroNetと呼ばれるネットワークのファミリに到達し、低いFLOP体制下での最先端の性能向上を実現した。 例えば、12MのFLOPの制約の下で、MicroNetはImageNet分類において59.4\%のトップ-1の精度を達成し、MobileNetV3を9.6\%上回る。 ソースコードは \href{https://github.com/l iyunsheng13/micronet }{https://github.com/l iyunsheng13/micronet }にある。

This paper aims at addressing the problem of substantial performance degradation at extremely low computational cost (e.g. 5M FLOPs on ImageNet classification). We found that two factors, sparse connectivity and dynamic activation function, are effective to improve the accuracy. The former avoids the significant reduction of network width, while the latter mitigates the detriment of reduction in network depth. Technically, we propose micro-factorized convolution, which factorizes a convolution matrix into low rank matrices, to integrate sparse connectivity into convolution. We also present a new dynamic activation function, named Dynamic Shift Max, to improve the non-linearity via maxing out multiple dynamic fusions between an input feature map and its circular channel shift. Building upon these two new operators, we arrive at a family of networks, named MicroNet, that achieves significant performance gains over the state of the art in the low FLOP regime. For instance, under the constraint of 12M FLOPs, MicroNet achieves 59.4\% top-1 accuracy on ImageNet classification, outperforming MobileNetV3 by 9.6\%. Source code is at \href{https://github.com/l iyunsheng13/micronet }{https://github.com/l iyunsheng13/micronet }.
翻訳日:2021-08-13 14:42:44 公開日:2021-08-12
# Mobile-Former: MobileNetとTransformerのブリッジ

Mobile-Former: Bridging MobileNet and Transformer ( http://arxiv.org/abs/2108.05895v1 )

ライセンス: Link先を確認
Yinpeng Chen and Xiyang Dai and Dongdong Chen and Mengchen Liu and Xiaoyi Dong and Lu Yuan and Zicheng Liu(参考訳) 本稿では,モバイルネットとトランスフォーマの並列設計であるmobile-formerについて述べる。 この構造は、ローカル処理におけるMobileNetの利点とグローバルインタラクションにおけるトランスフォーマーを利用する。 そしてこの橋は、ローカルとグローバル機能の双方向の融合を可能にする。 近年のvision transformerと異なり、mobile-formerのtransformerにはごくわずかなトークン(例えば)が含まれている。 ランダムに初期化されるトークンは6つ未満で、計算コストが低くなります。 提案された軽量クロスアテンションと組み合わせることで、Mobile-Formerは計算効率が向上するだけでなく、表示能力も向上し、画像Net分類上の25Mから500MのFLOPよりも低FLOPでMobileNetV3を上回っている。 例えば、294M FLOPsで77.9\%のTop-1精度を実現し、MobileNetV3で1.3\%を獲得したが、17\%の計算を節約した。 オブジェクト検出に転送する場合、Mobile-FormerはMobileNetV3を8.6 APで上回る。

We present Mobile-Former, a parallel design of MobileNet and Transformer with a two-way bridge in between. This structure leverages the advantage of MobileNet at local processing and transformer at global interaction. And the bridge enables bidirectional fusion of local and global features. Different with recent works on vision transformer, the transformer in Mobile-Former contains very few tokens (e.g. less than 6 tokens) that are randomly initialized, resulting in low computational cost. Combining with the proposed light-weight cross attention to model the bridge, Mobile-Former is not only computationally efficient, but also has more representation power, outperforming MobileNetV3 at low FLOP regime from 25M to 500M FLOPs on ImageNet classification. For instance, it achieves 77.9\% top-1 accuracy at 294M FLOPs, gaining 1.3\% over MobileNetV3 but saving 17\% of computations. When transferring to object detection, Mobile-Former outperforms MobileNetV3 by 8.6 AP.
翻訳日:2021-08-13 14:42:23 公開日:2021-08-12
# 推薦のためのグラフトレンドネットワーク

Graph Trend Networks for Recommendations ( http://arxiv.org/abs/2108.05552v1 )

ライセンス: Link先を確認
Wenqi Fan, Xiaorui Liu, Wei Jin, Xiangyu Zhao, Jiliang Tang, Qing Li(参考訳) Recommenderのシステムは、パーソナライズされたサービスをユーザに提供し、私たちの日常生活においてますます重要な役割を担っている。 推薦システムの鍵は、ユーザーが過去のオンライン行動、例えばクリック、車への追加、購入などに基づいてアイテムと対話する可能性を予測することである。 これらのユーザ間インタラクションを利用するため、ユーザ間インタラクションをユーザ間2部グラフとして考慮し、グラフニューラルネットワーク(gnns)を介してグラフ内の情報伝達を行う取り組みが増えている。 グラフ表現学習におけるGNNの能力を考えると、これらのGNNベースのレコメンデーション手法はリコメンデーション性能を大幅に向上させた。 その成功にもかかわらず、既存のGNNベースのレコメンダシステムは、信頼できない振る舞い(例えばランダム/ベイトクリック)によって引き起こされる相互作用の存在を見逃し、全ての相互作用を均一に扱い、それが準最適で不安定なパフォーマンスをもたらす。 本稿では,既存のGNNレコメンデーション手法の欠点(例えば,非適応伝搬と非ロマンス性)について検討する。 これらの欠点に対処するため,我々はgtn(graph trend network for recommendations)を提案する。 提案フレームワークの有効性を検証するための総合的な実験とアブレーション研究を行った。 実装とデータセットは公開後にリリースできます。

Recommender systems aim to provide personalized services to users and are playing an increasingly important role in our daily lives. The key of recommender systems is to predict how likely users will interact with items based on their historical online behaviors, e.g., clicks, add-to-cart, purchases, etc. To exploit these user-item interactions, there are increasing efforts on considering the user-item interactions as a user-item bipartite graph and then performing information propagation in the graph via Graph Neural Networks (GNNs). Given the power of GNNs in graph representation learning, these GNN-based recommendation methods have remarkably boosted the recommendation performance. Despite their success, most existing GNN-based recommender systems overlook the existence of interactions caused by unreliable behaviors (e.g., random/bait clicks) and uniformly treat all the interactions, which can lead to sub-optimal and unstable performance. In this paper, we investigate the drawbacks (e.g., non-adaptive propagation and non-robustness) of existing GNN-based recommendation methods. To address these drawbacks, we propose the Graph Trend Networks for recommendations (GTN) with principled designs that can capture the adaptive reliability of the interactions. Comprehensive experiments and ablation studies are presented to verify and understand the effectiveness of the proposed framework. Our implementation and datasets can be released after publication.
翻訳日:2021-08-13 14:41:44 公開日:2021-08-12
# 効率的なブール機能合成エンジンの工学

Engineering an Efficient Boolean Functional Synthesis Engine ( http://arxiv.org/abs/2108.05717v1 )

ライセンス: Link先を確認
Priyanka Golia, Friedrich Slivovsky, Subhajit Roy, Kuldeep S. Meel(参考訳) 入力と出力の間のブール仕様が与えられた場合、ブール関数合成の問題は、各出力を仕様が満たされるような入力の関数として合成することである。 過去数年間、アルゴリズムの激しい開発が見られたが、スケーラビリティを達成することが聖杯のままである。 最先端のアプローチは、機械学習と自動推論を組み合わせて、ブール関数を効率的に合成する。 本稿では,関数合成のためのデータ駆動型フレームワークのアルゴリズム改良を4つ提案する:依存性駆動型多クラス化器を用いて候補関数を学習し,補間,変数保持,語彙的MaxSATを用いて一意に定義された関数を抽出し,候補を修復する。 manthanと呼ばれる最先端のフレームワークにこれらの改善を実装します。 提案されたフレームワークはManthan2と呼ばれる。 Manthan2はManthanに比べて実行時のパフォーマンスが大幅に向上した。 609ベンチマークに関する広範な実験的評価において、Manthan2は、Manthanによって解決された356インスタンスと比較して、509インスタンスのBoolean関数ベクトルを合成することができる。 これを考慮すると、Manthan氏は以前の最先端を76インスタンスで改善した。

Given a Boolean specification between a set of inputs and outputs, the problem of Boolean functional synthesis is to synthesise each output as a function of inputs such that the specification is met. Although the past few years have witnessed intense algorithmic development, accomplishing scalability remains the holy grail. The state-of-the-art approach combines machine learning and automated reasoning to efficiently synthesise Boolean functions. In this paper, we propose four algorithmic improvements for a data-driven framework for functional synthesis: using a dependency-driven multi-classifier to learn candidate function, extracting uniquely defined functions by interpolation, variables retention, and using lexicographic MaxSAT to repair candidates. We implement these improvements in the state-of-the-art framework, called Manthan. The proposed framework is called Manthan2. Manthan2 shows significantly improved runtime performance compared to Manthan. In an extensive experimental evaluation on 609 benchmarks, Manthan2 is able to synthesise a Boolean function vector for 509 instances compared to 356 instances solved by Manthan--- an increment of 153 instances over the state-of-the-art. To put this into perspective, Manthan improved on the prior state-of-the-art by only 76 instances.
翻訳日:2021-08-13 14:41:21 公開日:2021-08-12
# StaPLRを用いた階層的多視点MRIデータの解析:アルツハイマー病分類への応用

Analyzing hierarchical multi-view MRI data with StaPLR: An application to Alzheimer's disease classification ( http://arxiv.org/abs/2108.05761v1 )

ライセンス: Link先を確認
Wouter van Loon, Frank de Vos, Marjolein Fokkema, Botond Szabo, Marisa Koini, Reinhold Schmidt, Mark de Rooij(参考訳) マルチビューデータ(multi-view data)は、機能が異なるソースに対応するため、機能セットに分割する設定を指す。 Stacked Penalized Logistic regression (StaPLR)は、最近導入された手法であり、分類に使用でき、予測に最も重要なビューを自動的に選択できる。 本稿では,この手法を階層的マルチビュー構造を有する設定に容易に拡張できることを示す。 StaPLRをアルツハイマー病分類に適用し, 構造MRI, 拡散強調MRI, 静止状態fMRIの3種類の画像からMRI測定値が算出された。 StaPLRは、どのスキャンタイプとどのMRI測定が分類において最も重要であるかを識別でき、分類性能において弾性ネット回帰よりも優れる。

Multi-view data refers to a setting where features are divided into feature sets, for example because they correspond to different sources. Stacked penalized logistic regression (StaPLR) is a recently introduced method that can be used for classification and automatically selecting the views that are most important for prediction. We show how this method can easily be extended to a setting where the data has a hierarchical multi-view structure. We apply StaPLR to Alzheimer's disease classification where different MRI measures have been calculated from three scan types: structural MRI, diffusion-weighted MRI, and resting-state fMRI. StaPLR can identify which scan types and which MRI measures are most important for classification, and it outperforms elastic net regression in classification performance.
翻訳日:2021-08-13 14:41:03 公開日:2021-08-12
# レンデブーと光ナビゲーションのためのロボットテストベッド:マルチソース校正と機械学習のユースケース

Robotic Testbed for Rendezvous and Optical Navigation: Multi-Source Calibration and Machine Learning Use Cases ( http://arxiv.org/abs/2108.05529v1 )

ライセンス: Link先を確認
Tae Ha Park, Juergen Bosse, Simone D'Amico(参考訳) この研究は、スタンフォード大学のランデブー・オプティカルナビゲーション(tron)のためのロボットテストベッドの最新の進歩を示すものである。 TRON施設は2つの6自由度KUKAロボットアームと、カメラとターゲットモックアップモデルの間の任意の相対的なポーズを再構成するViconモーショントラックカメラから構成されている。 施設には複数のアースアルベドライトボックスとサンランプがあり、高忠実な宇宙空間の照明条件を再現する。 本研究は, 施設の概観後, 対象物とカメラの相対的な姿勢をミリレベルの位置とミリ度の方位精度で推定できるマルチソースキャリブレーション法について詳述する。 最後に、合成画像に予め訓練された畳み込みニューラルネットワーク(cnn)を用いて合成画像とトロンシミュレーション画像の比較分析を行う。 その結果、cnnのパフォーマンスにかなりのギャップがあることが示され、トロンシミュレーション画像はコンピュータグラフィックスからよりアクセスしやすい合成画像で訓練された任意の機械学習アルゴリズムの頑健性を検証するのに使用できることが示唆された。

This work presents the most recent advances of the Robotic Testbed for Rendezvous and Optical Navigation (TRON) at Stanford University - the first robotic testbed capable of validating machine learning algorithms for spaceborne optical navigation. The TRON facility consists of two 6 degrees-of-freedom KUKA robot arms and a set of Vicon motion track cameras to reconfigure an arbitrary relative pose between a camera and a target mockup model. The facility includes multiple Earth albedo light boxes and a sun lamp to recreate the high-fidelity spaceborne illumination conditions. After the overview of the facility, this work details the multi-source calibration procedure which enables the estimation of the relative pose between the object and the camera with millimeter-level position and millidegree-level orientation accuracies. Finally, a comparative analysis of the synthetic and TRON simulated imageries is performed using a Convolutional Neural Network (CNN) pre-trained on the synthetic images. The result shows a considerable gap in the CNN's performance, suggesting the TRON simulated images can be used to validate the robustness of any machine learning algorithms trained on more easily accessible synthetic imagery from computer graphics.
翻訳日:2021-08-13 14:40:48 公開日:2021-08-12
# AMMUS : 自然言語処理におけるトランスフォーマーに基づく事前学習モデルの検討

AMMUS : A Survey of Transformer-based Pretrained Models in Natural Language Processing ( http://arxiv.org/abs/2108.05542v1 )

ライセンス: Link先を確認
Katikapalli Subramanyam Kalyan, Ajit Rajasekharan, Sivanesan Sangeetha(参考訳) トランスフォーマーベースの事前訓練言語モデル(T-PTLM)は、ほぼすべてのNLPタスクで大きな成功を収めている。 これらのモデルの進化はGPTとBERTで始まった。 これらのモデルは、トランスフォーマー、自己教師付き学習、転送学習の上に構築されている。 変換されたPTLMは、自己教師付き学習を用いて大量のテキストデータから普遍的な言語表現を学び、その知識を下流のタスクに転送する。 これらのモデルは下流のタスクに適切なバックグラウンド知識を提供し、下流のモデルのトレーニングをスクラッチから回避します。 本稿ではまず,自己指導型学習の概要について概説する。 次に,プリトレーニング,プリトレーニングメソッド,プリトレーニングタスク,埋め込みメソッド,ダウンストリーム適応メソッドなど,さまざまなコア概念について説明する。 次に,T-PTLMの新しい分類法を提案し,本質的および外生的両方のベンチマークについて概説する。 本稿では,T-PTLMを扱うための様々な有用なライブラリの概要を紹介する。 最後に,これらのモデルをさらに改良する今後の研究の方向性を紹介する。 我々は、この総合的な調査論文が、T-PTLMの最近の出来事に沿うように、コアコンセプトを学ぶための良い参考となると強く信じている。

Transformer-based pretrained language models (T-PTLMs) have achieved great success in almost every NLP task. The evolution of these models started with GPT and BERT. These models are built on the top of transformers, self-supervised learning and transfer learning. Transformed-based PTLMs learn universal language representations from large volumes of text data using self-supervised learning and transfer this knowledge to downstream tasks. These models provide good background knowledge to downstream tasks which avoids training of downstream models from scratch. In this comprehensive survey paper, we initially give a brief overview of self-supervised learning. Next, we explain various core concepts like pretraining, pretraining methods, pretraining tasks, embeddings and downstream adaptation methods. Next, we present a new taxonomy of T-PTLMs and then give brief overview of various benchmarks including both intrinsic and extrinsic. We present a summary of various useful libraries to work with T-PTLMs. Finally, we highlight some of the future research directions which will further improve these models. We strongly believe that this comprehensive survey paper will serve as a good reference to learn the core concepts as well as to stay updated with the recent happenings in T-PTLMs.
翻訳日:2021-08-13 14:40:27 公開日:2021-08-12
# 生成課題:精度評価共有課題の結果

Generation Challenges: Results of the Accuracy Evaluation Shared Task ( http://arxiv.org/abs/2108.05644v1 )

ライセンス: Link先を確認
Craig Thomson and Ehud Reiter(参考訳) スポーツレポートドメインにおいて,ニューラルなNLGシステムによって作成されたテキストの事実的正確性を評価する技術(手動と自動の両方)に焦点を当てた評価タスク。 4つのチームが、まったく異なるアプローチとテクニックを使用して、このタスクの評価手法を提出しました。 最高のパフォーマンスの応募は、この難しいタスクで励まされた。 しかし、すべての自動提出は、意味的または実用的複雑である事実的誤り(例えば、不正な計算や推論に基づく)を検出するのに苦労した。

The Shared Task on Evaluating Accuracy focused on techniques (both manual and automatic) for evaluating the factual accuracy of texts produced by neural NLG systems, in a sports-reporting domain. Four teams submitted evaluation techniques for this task, using very different approaches and techniques. The best-performing submissions did encouragingly well at this difficult task. However, all automatic submissions struggled to detect factual errors which are semantically or pragmatically complex (for example, based on incorrect computation or inference).
翻訳日:2021-08-13 14:40:10 公開日:2021-08-12
# (Un)解決形態変化:Lemma Overlap人工膨らませモデルの性能

(Un)solving Morphological Inflection: Lemma Overlap Artificially Inflates Models' Performance ( http://arxiv.org/abs/2108.05682v1 )

ライセンス: Link先を確認
Omer Goldman, David Guriel, Reut Tsarfaty(参考訳) 形態学の分野では、インフレクションは基本的な重要な課題であり、SIGMORPHONの共有タスクを通じて近年多くの注目を集めている。 全ての言語のスコアよりも0.9以上の精度で、このタスクは比較的汎用的なニューラルシークエンスモデルを用いてほとんど解決されていない。 本研究では,模型の一般化能力に挑戦する列車試験分割の難易度を生かして形態的変形モデルを再評価する。 特に、na\\ive split-by-formとは対照的に、既存のベンチマークのパフォーマンスに挑戦するスプリット・バイ・レンマ法を提案する。 SIGMORPHONの2020年の共有タスクにおける上位3つのシステムによる実験により、レマ・スプリットは、90言語を含むマクロ平均で平均30ポイントの減少を示した。 この効果は、95ポイントまで低下する低リソース言語にとって最も重要であるが、高リソース言語でさえ平均で約10ポイント減少している。 以上の結果から,未発見の補題への帰納法の一般化は解決に至らず,より洗練されたモデルを促進するための単純かつ効果的な方法を示していることが明らかとなった。

In the domain of Morphology, Inflection is a fundamental and important task that gained a lot of traction in recent years, mostly via SIGMORPHON's shared-tasks. With average accuracy above 0.9 over the scores of all languages, the task is considered mostly solved using relatively generic neural sequence-to-sequence models, even with little data provided. In this work, we propose to re-evaluate morphological inflection models by employing harder train-test splits that will challenge the generalization capacity of the models. In particular, as opposed to the na\"ive split-by-form, we propose a split-by-lemma method to challenge the performance on existing benchmarks. Our experiments with the three top-ranked systems on the SIGMORPHON's 2020 shared-task show that the lemma-split presents an average drop of 30 percentage points in macro-average for the 90 languages included. The effect is most significant for low-resourced languages with a drop as high as 95 points, but even high-resourced languages lose about 10 points on average. Our results clearly show that generalizing inflection to unseen lemmas is far from being solved, presenting a simple yet effective means to promote more sophisticated models.
翻訳日:2021-08-13 14:40:00 公開日:2021-08-12
# Syntax Matters! テキストスタイル転送における構文制御

Syntax Matters! Syntax-Controlled in Text Style Transfer ( http://arxiv.org/abs/2108.05869v1 )

ライセンス: Link先を確認
Zhiqiang Hu, Roy Ka-Wei Lee, Charu C. Aggarwal(参考訳) 既存のtext style transfer (tst)メソッドは、テキストの内容とテキストスタイル転送のスタイル属性を分離するスタイル分類子に依存している。 スタイル分類器は既存のTST法において重要な役割を担っているが,そのTST法に対する影響は分かっていない。 本稿では,既存のTST手法におけるスタイル分類器の限界に関する実証的研究を行う。 既存のスタイル分類器は文構文を効果的に学習できず、結果として既存のTSTモデルの性能が悪化することを示した。 この問題に対処するために,TSTの構文情報を効果的にキャプチャする学習スタイル潜在表現を保証する構文認識型分類器を含む,新しい構文認識制御可能生成(SACG)モデルを提案する。 2つのTSTタスクの広範な実験を通して,提案手法が最先端の手法よりも優れていることを示す。 ケーススタディでは,SACGが原文を保存した流動的なターゲットスタイルの文を生成する能力も実証されている。

Existing text style transfer (TST) methods rely on style classifiers to disentangle the text's content and style attributes for text style transfer. While the style classifier plays a critical role in existing TST methods, there is no known investigation on its effect on the TST methods. In this paper, we conduct an empirical study on the limitations of the style classifiers used in existing TST methods. We demonstrate that the existing style classifiers cannot learn sentence syntax effectively and ultimately worsen existing TST models' performance. To address this issue, we propose a novel Syntax-Aware Controllable Generation (SACG) model, which includes a syntax-aware style classifier that ensures learned style latent representations effectively capture the syntax information for TST. Through extensive experiments on two popular TST tasks, we show that our proposed method significantly outperforms the state-of-the-art methods. Our case studies have also demonstrated SACG's ability to generate fluent target-style sentences that preserved the original content.
翻訳日:2021-08-13 14:39:38 公開日:2021-08-12
# UMAPによるクラスタリング - 接続性の重要性と理由

Clustering with UMAP: Why and How Connectivity Matters ( http://arxiv.org/abs/2108.05525v1 )

ライセンス: Link先を確認
Ayush Dalmia, Suzanna Sia(参考訳) t-SNE や UMAP のようなトポロジーに基づく次元削減手法は、高次元データにおいて成功と人気が高まっている。 これらの方法は強い数学的基礎を持ち、低次元の位相は高次元の位相に近いべきという直観に基づいている。 最初の位相構造がアルゴリズムの成功の先駆けであることを考えると、これは自然に疑問を提起する。 %Insightを組み込むことで、ローカル構造とグローバル構造の両方を考慮したより良いアルゴリズムを設計できます。 本稿では,umapに着目し,ノード接続(k-nearest neighbors対 \textit{mutual} k-nearest neighbors)と相対近傍(path neighbors経由の隣接)が次元減少に与える影響について検討する。 これらの概念は、MNIST、FMNIST、20NG、AGの4つの標準画像およびテキストデータセットに関する広範囲にわたるアブレーション研究を通して探求する。 その結果,局所近傍(パス近傍)を柔軟に構築する手法とともに,より洗練された接続性(最小スパンディングツリーを持つk-nearest近傍)の概念が,ダウンストリームクラスタリング性能で測定したように,既定のumapよりもはるかに優れた表現を実現できることがわかった。

Topology based dimensionality reduction methods such as t-SNE and UMAP have seen increasing success and popularity in high-dimensional data. These methods have strong mathematical foundations and are based on the intuition that the topology in low dimensions should be close to that of high dimensions. Given that the initial topological structure is a precursor to the success of the algorithm, this naturally raises the question: What makes a "good" topological structure for dimensionality reduction? %Insight into this will enable us to design better algorithms which take into account both local and global structure. In this paper which focuses on UMAP, we study the effects of node connectivity (k-Nearest Neighbors vs \textit{mutual} k-Nearest Neighbors) and relative neighborhood (Adjacent via Path Neighbors) on dimensionality reduction. We explore these concepts through extensive ablation studies on 4 standard image and text datasets; MNIST, FMNIST, 20NG, AG, reducing to 2 and 64 dimensions. Our findings indicate that a more refined notion of connectivity (\textit{mutual} k-Nearest Neighbors with minimum spanning tree) together with a flexible method of constructing the local neighborhood (Path Neighbors), can achieve a much better representation than default UMAP, as measured by downstream clustering performance.
翻訳日:2021-08-13 14:39:14 公開日:2021-08-12
# HAC Explore:階層的強化学習による探索の高速化

HAC Explore: Accelerating Exploration with Hierarchical Reinforcement Learning ( http://arxiv.org/abs/2108.05872v1 )

ライセンス: Link先を確認
Willie McClinton, Andrew Levy, George Konidaris(参考訳) 厳格な報酬と長期の地平線は、強化学習アルゴリズムでは難しいままだ。 探索ボーナスは、エージェントに状態空間を探索するよう促すことによって、報酬設定を疎くするのに役立つ一方、階層的アプローチは、長いタスクを短いサブタスクに分解することで、長いホリゾンタスクを補助する。 HAC Explore(HACx)は,探索ボーナス法(RND)を階層的アプローチである階層的アクター・クリティカル(HAC)に統合することで,これらの手法を組み合わせる新しい手法である。 HACxは、階層構造と探索を組み合わせた既存のアプローチと同様に、独自のコンポーネントメソッドよりも優れています。 HACxは1000以上のアクションを必要とするスパース報酬連続制御タスクを解決する最初のRL手法である。

Sparse rewards and long time horizons remain challenging for reinforcement learning algorithms. Exploration bonuses can help in sparse reward settings by encouraging agents to explore the state space, while hierarchical approaches can assist with long-horizon tasks by decomposing lengthy tasks into shorter subtasks. We propose HAC Explore (HACx), a new method that combines these approaches by integrating the exploration bonus method Random Network Distillation (RND) into the hierarchical approach Hierarchical Actor-Critic (HAC). HACx outperforms either component method on its own, as well as an existing approach to combining hierarchy and exploration, in a set of difficult simulated robotics tasks. HACx is the first RL method to solve a sparse reward, continuous-control task that requires over 1,000 actions.
翻訳日:2021-08-13 14:38:33 公開日:2021-08-12
# 自動視線分析:ディープラーニングに基づくアプローチに関する調査

Automatic Gaze Analysis: A Survey of DeepLearning based Approaches ( http://arxiv.org/abs/2108.05479v1 )

ライセンス: Link先を確認
Shreya Ghosh, Abhinav Dhall, Munawar Hayat, Jarrod Knibbe, Qiang Ji(参考訳) 視線分析は、コンピュータビジョンと人間-コンピュータインタラクション(hci)の分野で重要な研究課題である。 ここ数年の著しい進歩にもかかわらず、視線の自動分析は目、視線、眼球運動、咬合、画質、照明条件の個性のために依然として困難である。 事前知識のない制約のない環境において、視線方向を解釈するための重要な手がかりと、それらをリアルタイムにエンコードする方法について、いくつかの疑問がある。 我々は,様々な視線分析タスクと応用の進歩を概観し,これらの基本的な疑問に照らし出し,視線分析の効果的な方法を特定し,今後の方向性を示唆する。 本稿では,近年の視線推定とセグメンテーション手法,特に教師なし・弱教師付き領域において,その利点に基づいて分析を行い,評価指標を報告する。 分析の結果,厳密で汎用的な視線分析手法の開発は,制約のない設定や学習といった現実的な課題に,より少ない監督で対処する必要があることがわかった。 我々は、コンピュータビジョン、AR(拡張現実)、VR(バーチャルリアリティ)、HCI(Human Computer Interaction)など他の領域に伝播する現実世界の視線分析システムを設計するための今後の研究方向性について議論する。

Eye gaze analysis is an important research problem in the field of computer vision and Human-Computer Interaction (HCI). Even with significant progress in the last few years, automatic gaze analysis still remains challenging due to the individuality of eyes, eye-head interplay, occlusion, image quality, and illumination conditions. There are several open questions including what are the important cues to interpret gaze direction in an unconstrained environment without prior knowledge and how to encode them in real-time. We review the progress across a range of gaze analysis tasks and applications to shed light on these fundamental questions; identify effective methods in gaze analysis and provide possible future directions. We analyze recent gaze estimation and segmentation methods, especially in the unsupervised and weakly supervised domain, based on their advantages and reported evaluation metrics. Our analysis shows that the development of a robust and generic gaze analysis method still needs to address real-world challenges such as unconstrained setup and learning with less supervision. We conclude by discussing future research directions for designing a real-world gaze analysis system that can propagate to other domains including computer vision, AR (Augmented Reality), VR (Virtual Reality), and HCI (Human Computer Interaction).
翻訳日:2021-08-13 14:37:12 公開日:2021-08-12
# グラフニューラルネットワークによるホロスティック知識の蒸留

Distilling Holistic Knowledge with Graph Neural Networks ( http://arxiv.org/abs/2108.05507v1 )

ライセンス: Link先を確認
Sheng Zhou, Yucheng Wang, Defang Chen, Jiawei Chen, Xin Wang, Can Wang, Jiajun Bu(参考訳) 知識蒸留(KD)は,より大規模に最適化された教師ネットワークからより小規模な学習可能な学生ネットワークへ知識を伝達することを目的としている。 しかし、これらの2つのタイプの知識は通常独立してモデル化されるが、それら間の固有の相関はほとんど無視される。 学生のネットワーク学習において,個々の知識と関係知識を一体化し,その関係性を維持することが重要である。 本稿では,インスタンス間に構築された属性グラフに基づいて,新しい包括的知識を蒸留することを提案する。 全体的知識は,グラフニューラルネットワークを用いた関係近傍のサンプルから個々の知識を集約することにより,統一的なグラフベース埋め込みとして表現される。 提案手法の有効性について, ベンチマークデータセットを用いて実験およびアブレーション実験を行った。 コードはhttps://github.com/w yc-ruiker/HKDで公開されている。

Knowledge Distillation (KD) aims at transferring knowledge from a larger well-optimized teacher network to a smaller learnable student network.Existing KD methods have mainly considered two types of knowledge, namely the individual knowledge and the relational knowledge. However, these two types of knowledge are usually modeled independently while the inherent correlations between them are largely ignored. It is critical for sufficient student network learning to integrate both individual knowledge and relational knowledge while reserving their inherent correlation. In this paper, we propose to distill the novel holistic knowledge based on an attributed graph constructed among instances. The holistic knowledge is represented as a unified graph-based embedding by aggregating individual knowledge from relational neighborhood samples with graph neural networks, the student network is learned by distilling the holistic knowledge in a contrastive manner. Extensive experiments and ablation studies are conducted on benchmark datasets, the results demonstrate the effectiveness of the proposed method. The code has been published in https://github.com/w yc-ruiker/HKD
翻訳日:2021-08-13 14:36:47 公開日:2021-08-12
# HandFoldingNet: 2次元ハンド骨格のマルチスケールガイド型フォルダリングを用いた3次元ハンドポース推定ネットワーク

HandFoldingNet: A 3D Hand Pose Estimation Network Using Multiscale-Feature Guided Folding of a 2D Hand Skeleton ( http://arxiv.org/abs/2108.05545v1 )

ライセンス: Link先を確認
Wencan Cheng, Jae Hyun Park and Jong Hwan Ko(参考訳) 人-コンピュータインタラクションアプリケーションにおける3Dハンドポーズ推定の適用の増大に伴い、畳み込みニューラルネットワーク(CNN)に基づく推定モデルが積極的に研究されている。 しかし、既存のモデルは許容できる精度と引き換えに複雑なアーキテクチャや冗長な計算資源を必要とする。 この制限に対処するため,本論文では,通常の3Dハンドポイントクラウド入力から手関節位置を復元する高精度かつ効率的な手ポーズ推定器であるHandFoldingNetを提案する。 提案モデルは、与えられた2dハンドスケルトンを対応するジョイント座標に折り畳む折り畳み式デコーダを用いる。 高い推定精度を得るために、折り畳みはグローバルな特徴とジョイントワイドな特徴の両方を含むマルチスケールの特徴によって導かれる。 実験結果から,提案モデルでは,3つの手振りベンチマークデータセットにおいて,最低パラメータ条件で既存手法よりも優れた性能を示した。 コードはhttps://github.com/c wc1260/handfoldで入手できる。

With increasing applications of 3D hand pose estimation in various human-computer interaction applications, convolution neural networks (CNNs) based estimation models have been actively explored. However, the existing models require complex architectures or redundant computational resources to trade with the acceptable accuracy. To tackle this limitation, this paper proposes HandFoldingNet, an accurate and efficient hand pose estimator that regresses the hand joint locations from the normalized 3D hand point cloud input. The proposed model utilizes a folding-based decoder that folds a given 2D hand skeleton into the corresponding joint coordinates. For higher estimation accuracy, folding is guided by multi-scale features, which include both global and joint-wise local features. Experimental results show that the proposed model outperforms the existing methods on three hand pose benchmark datasets with the lowest model parameter requirement. Code is available at https://github.com/c wc1260/HandFold.
翻訳日:2021-08-13 14:36:29 公開日:2021-08-12
# 単一RGB画像からの高能率スペクトル再構成のための深部修正グラディエントDescence

Deep Amended Gradient Descent for Efficient Spectral Reconstruction from Single RGB Images ( http://arxiv.org/abs/2108.05547v1 )

ライセンス: Link先を確認
Zhiyu Zhu, Hui Liu, Junhui Hou, Sen Jia, and Qingfu Zhang(参考訳) 本稿では,単一のRGB画像からハイパースペクトル(HS)画像を復元する問題について検討する。 そこで本研究では, 物理的に解釈可能で, コンパクトで, 効率良く, エンドツーエンドの学習ベースフレームワーク agd-net を提案する。 正確には、撮像プロセスを利用して、古典的な勾配降下アルゴリズムに基づいて問題を明示的に定式化する。 そこで,本研究では,高効率な畳み込みと新しいスペクトルゼロ平均正規化が提案され,初期化,基本勾配,漸進勾配を回帰する空間スペクトル特性を効果的に抽出する,多段階構造を有する軽量ニューラルネットワークの設計を行った。 また,hs画像の近似低ランク特性に基づいて,トレーニング中の特異値重み付け戦略に最適化された再構成hs画像の全体構造と接地hs画像との類似性を促進するための新しいランクロスを提案する。 また,1回トレーニング後の単一ネットワークであるagd-netは,様々なスペクトル応答関数を用いた再構成に柔軟である。 3つの一般的なベンチマークデータセットにわたる広範囲な実験により、agd-netは、最先端のメソッドと比較して67$\times$パラメータと32$\times$ flopsを節約しながら、平均1.0db以上のコンストラクション品質を改善できることが示されている。 コードはhttps://github.com/z bzhzhy/gd-netで公開されている。

This paper investigates the problem of recovering hyperspectral (HS) images from single RGB images. To tackle such a severely ill-posed problem, we propose a physically-interpret able, compact, efficient, and end-to-end learning-based framework, namely AGD-Net. Precisely, by taking advantage of the imaging process, we first formulate the problem explicitly based on the classic gradient descent algorithm. Then, we design a lightweight neural network with a multi-stage architecture to mimic the formed amended gradient descent process, in which efficient convolution and novel spectral zero-mean normalization are proposed to effectively extract spatial-spectral features for regressing an initialization, a basic gradient, and an incremental gradient. Besides, based on the approximate low-rank property of HS images, we propose a novel rank loss to promote the similarity between the global structures of reconstructed and ground-truth HS images, which is optimized with our singular value weighting strategy during training. Moreover, AGD-Net, a single network after one-time training, is flexible to handle the reconstruction with various spectral response functions. Extensive experiments over three commonly-used benchmark datasets demonstrate that AGD-Net can improve the reconstruction quality by more than 1.0 dB on average while saving 67$\times$ parameters and 32$\times$ FLOPs, compared with state-of-the-art methods. The code will be publicly available at https://github.com/z bzhzhy/GD-Net.
翻訳日:2021-08-13 14:36:10 公開日:2021-08-12
# 参照セグメンテーションのためのビジョンランゲージ変換器とクエリ生成

Vision-Language Transformer and Query Generation for Referring Segmentation ( http://arxiv.org/abs/2108.05565v1 )

ライセンス: Link先を確認
Henghui Ding, Chang Liu, Suchen Wang, Xudong Jiang(参考訳) 本研究では,セグメンテーションの参照という課題に対処する。 セグメンテーションを参照するクエリ式は、通常、他のオブジェクトとの関係を記述することによってターゲットオブジェクトを示す。 したがって、画像中の全てのインスタンスのターゲットの1つを見つけるためには、モデルが全体像の全体像を理解する必要がある。 これを実現するために,問合せ言語表現が最もよく対応している画像内の領域を見つけるという,直接的な注意課題としてセグメンテーションの参照を再構成する。 本稿では,トランスフォーマーとマルチヘッドアテンションを導入して,言語表現で与えられた画像を"クエリ"するエンコーダ・デコーダアテンション機構アーキテクチャを備えたネットワークを構築する。 さらに,様々な面から言語表現の多角的理解を表現する,注意重みの異なる複数の問合せ集合を生成するクエリ生成モジュールを提案する。 同時に,視覚的な手がかりに基づく多様な理解から最善の方法を見出すため,より優れたマスク生成のために,これらのクエリの出力特徴を適応的に選択するクエリバランスモジュールを提案する。 ベルとホイッスルがなければ、我々のアプローチは軽量であり、3つの参照セグメンテーションデータセットであるRefCOCO、RefCOCO+、G-Refに対して、新しい最先端性能を実現する。 私たちのコードはhttps://github.com/h enghuiding/Vision-La nguage-Transformerで利用可能です。

In this work, we address the challenging task of referring segmentation. The query expression in referring segmentation typically indicates the target object by describing its relationship with others. Therefore, to find the target one among all instances in the image, the model must have a holistic understanding of the whole image. To achieve this, we reformulate referring segmentation as a direct attention problem: finding the region in the image where the query language expression is most attended to. We introduce transformer and multi-head attention to build a network with an encoder-decoder attention mechanism architecture that "queries" the given image with the language expression. Furthermore, we propose a Query Generation Module, which produces multiple sets of queries with different attention weights that represent the diversified comprehensions of the language expression from different aspects. At the same time, to find the best way from these diversified comprehensions based on visual clues, we further propose a Query Balance Module to adaptively select the output features of these queries for a better mask generation. Without bells and whistles, our approach is light-weight and achieves new state-of-the-art performance consistently on three referring segmentation datasets, RefCOCO, RefCOCO+, and G-Ref. Our code is available at https://github.com/h enghuiding/Vision-La nguage-Transformer.
翻訳日:2021-08-13 14:35:42 公開日:2021-08-12
# LabOR: ドメイン適応セマンティックセマンティックセグメンテーションに必要な場合のみラベリング

LabOR: Labeling Only if Required for Domain Adaptive Semantic Segmentation ( http://arxiv.org/abs/2108.05570v1 )

ライセンス: Link先を確認
Inkyu Shin, Dong-jin Kim, Jae Won Cho, Sanghyun Woo, Kwanyong Park, In So Kweon(参考訳) セマンティックセグメンテーションのための教師なしドメイン適応(UDA)は、ラベル豊富なソースデータとラベルなしターゲットデータの間のドメインギャップを軽減するために活発に研究されている。 こうした努力にもかかわらず、udaは依然として完全に監督されたパフォーマンスに到達するための長い道のりがある。 そこで,本研究では,UDAモデルが不確実である点に対して,少ないラベルを適応的に付与する手法を提案する。 この不確実点を見つけるために,提案した適応画素セレクタを用いて不整合マスクを生成し,これらのセグメントベース領域をラベル付けして,少数(約2.2%)の接地真理点しか持たないほぼ教師付き性能を実現し,これを「セグメンションベースPixel-Labeling(SPL)」と呼ぶ。 また,人間のアノテータの努力をさらに軽減するため,生成した不整合マスク内でのラベル付けを最も代表する「ポイントベースPixel-Labeling (PPL)」を提案する。 これにより、性能劣化を最小限に抑えつつ、2.2%のセグメントラベルから40のポイントラベルへの労力を削減できる。 広範な実験を通じて、この新たなフレームワークの、人間の労働コストを最小限に抑えながら、ドメイン適応意味セグメンテーションの利点を示す。

Unsupervised Domain Adaptation (UDA) for semantic segmentation has been actively studied to mitigate the domain gap between label-rich source data and unlabeled target data. Despite these efforts, UDA still has a long way to go to reach the fully supervised performance. To this end, we propose a Labeling Only if Required strategy, LabOR, where we introduce a human-in-the-loop approach to adaptively give scarce labels to points that a UDA model is uncertain about. In order to find the uncertain points, we generate an inconsistency mask using the proposed adaptive pixel selector and we label these segment-based regions to achieve near supervised performance with only a small fraction (about 2.2%) ground truth points, which we call "Segment based Pixel-Labeling (SPL)". To further reduce the efforts of the human annotator, we also propose "Point-based Pixel-Labeling (PPL)", which finds the most representative points for labeling within the generated inconsistency mask. This reduces efforts from 2.2% segment label to 40 points label while minimizing performance degradation. Through extensive experimentation, we show the advantages of this new framework for domain adaptive semantic segmentation while minimizing human labor costs.
翻訳日:2021-08-13 14:35:18 公開日:2021-08-12
# 空間配向ネットワークを用いた多モードMRI再構成

Multi-Modal MRI Reconstruction with Spatial Alignment Network ( http://arxiv.org/abs/2108.05603v1 )

ライセンス: Link先を確認
Kai Xuan, Lei Xiang, Xiaoqian Huang, Lichi Zhang, Shu Liao, Dinggang Shen, and Qian Wang(参考訳) 臨床において、複数のコントラストを持つmri(mri)は通常、ヒトの興味のある同じ領域の異なる特性を評価するために単一の研究で取得される。 取得プロセス全体は、k空間に1つ以上のモダリティをアンダーサンプリングすることで促進することができる。 近年の研究では、異なるコントラストやモダリティの冗長性を考慮すると、k空間にアンダーサンプリングされたMRIの目標モードは、完全にサンプリングされたシーケンス(つまり参照モード)の助けを借りてよりよく再構成可能であることが示されている。 これは、同じ主題の同じ研究において、高効率なマルチモーダル再構成の目的のために複数のシーケンスを併用できることを示唆している。 しかし,マルチモーダル・リコンストラクションは,臨床で一般的に見られる異なる配列間の微妙な空間的不一致に悪影響を及ぼす可能性がある。 本稿では,空間アライメントネットワークと再構成を統合し,再構成対象のモダリティの質を向上させる。 具体的には、空間アライメントネットワークは、全サンプル参照とアンダーサンプル対象画像との空間アライメントを推定し、それに応じて基準画像をワープする。 そして、アライメントされた完全サンプリングされた参照画像が再構成ネットワーク内のアンダーサンプリングされたターゲット画像と結合し、高品質なターゲット画像を生成する。 対象と参照との対比を考慮し、特にクロスモダリティ合成に基づく登録損失を再構成損失と組み合わせて設計し、空間アライメントネットワークと再構成ネットワークを共同で訓練する。 臨床MRIとマルチコイルk空間の生データを用いた実験により,空間アライメントネットワークの優位性とロバスト性を示した。 コードはhttps://github.com/w oxuankai/spatialalig nmentnetworkで公開されている。

In clinical practice, magnetic resonance imaging (MRI) with multiple contrasts is usually acquired in a single study to assess different properties of the same region of interest in human body. The whole acquisition process can be accelerated by having one or more modalities under-sampled in the k-space. Recent researches demonstrate that, considering the redundancy between different contrasts or modalities, a target MRI modality under-sampled in the k-space can be better reconstructed with the helps from a fully-sampled sequence (i.e., the reference modality). It implies that, in the same study of the same subject, multiple sequences can be utilized together toward the purpose of highly efficient multi-modal reconstruction. However, we find that multi-modal reconstruction can be negatively affected by subtle spatial misalignment between different sequences, which is actually common in clinical practice. In this paper, we integrate the spatial alignment network with reconstruction, to improve the quality of the reconstructed target modality. Specifically, the spatial alignment network estimates the spatial misalignment between the fully-sampled reference and the under-sampled target images, and warps the reference image accordingly. Then, the aligned fully-sampled reference image joins the under-sampled target image in the reconstruction network, to produce the high-quality target image. Considering the contrast difference between the target and the reference, we particularly design the cross-modality-synth esis-based registration loss, in combination with the reconstruction loss, to jointly train the spatial alignment network and the reconstruction network. Our experiments on both clinical MRI and multi-coil k-space raw data demonstrate the superiority and robustness of our spatial alignment network. Code is publicly available at https://github.com/w oxuankai/SpatialAlig nmentNetwork.
翻訳日:2021-08-13 14:34:55 公開日:2021-08-12
# トレーニングサンプルの少ないカスケードバッグによる精度予測

Cascade Bagging for Accuracy Prediction with Few Training Samples ( http://arxiv.org/abs/2108.05613v1 )

ライセンス: Link先を確認
Ruyi Zhang, Ziwei Yang, Zhi Yang, Xubo Yang, Lei Wang and Zheyang Li(参考訳) 精度予測器は、そのアーキテクチャエンコーディングからネットワークの検証精度を予測するように訓練される。 ネットワークの設計やニューラルアーキテクチャ検索(NAS)の効率向上を効果的に支援できる。 しかし、高性能な予測器は適切なトレーニングサンプルに依存しており、計算のオーバーヘッドは十分ではない。 この問題を軽減するために,少ないトレーニングサンプルで精度予測器を訓練するための新しい枠組みを提案する。 このフレームワークは、データ拡張方法とアンサンブル学習アルゴリズムからなる。 データ拡張方法は弱いラベルを校正し、特徴空間にノイズを注入する。 カスケードバッキングと呼ばれるアンサンブル学習アルゴリズムは、データと特徴をサンプリングして2段階モデルを訓練する。 最後に,CVPR2021 1st Lightweight NAS Challengeにおいて,上記の手法の利点が証明された。 私たちのコードは、https://github.com/d longry/Solutionto-CV PR2021-NAS-Track2で公開されています。

Accuracy predictor is trained to predict the validation accuracy of an network from its architecture encoding. It can effectively assist in designing networks and improving Neural Architecture Search(NAS) efficiency. However, a high-performance predictor depends on adequate trainning samples, which requires unaffordable computation overhead. To alleviate this problem, we propose a novel framework to train an accuracy predictor under few training samples. The framework consists ofdata augmentation methods and an ensemble learning algorithm. The data augmentation methods calibrate weak labels and inject noise to feature space. The ensemble learning algorithm, termed cascade bagging, trains two-level models by sampling data and features. In the end, the advantages of above methods are proved in the Performance Prediciton Track of CVPR2021 1st Lightweight NAS Challenge. Our code is made public at: https://github.com/d longry/Solutionto-CV PR2021-NAS-Track2.
翻訳日:2021-08-13 14:34:23 公開日:2021-08-12
# DnD:クラウド型動的屋内シーンにおける深度推定

DnD: Dense Depth Estimation in Crowded Dynamic Indoor Scenes ( http://arxiv.org/abs/2108.05615v1 )

ライセンス: Link先を確認
Dongki Jung, Jaehoon Choi, Yonghan Lee, Deokhwa Kim, Changick Kim, Dinesh Manocha, Donghwan Lee(参考訳) 本稿では,デパートや地下鉄駅など,複雑で混み合った屋内環境を移動する際に,単眼カメラから奥行きを推定するための新しい手法を提案する。 本手法は,動的シーンのトレーニングにより,静的背景と複数の移動者からなるシーン全体にわたる絶対規模深度マップを推定する。 密集した屋内環境から密集した深度マップを収集することは困難であるため,深度検知装置から発生する深度を必要とせずにトレーニングフレームワークを設計する。 本ネットワークは,従来の3次元再構成法から生成したrgb画像とスパース深度マップを用いて,密集深度マップを推定する。 動作を明示的に追跡することなく、厳格に動かない人たちに2つの制約を課す。 我々はNAVERLABSデータセットにおいて,複雑で混み合ったシーンを含む最近の深度推定手法よりも一貫した改善が得られたことを示す。

We present a novel approach for estimating depth from a monocular camera as it moves through complex and crowded indoor environments, e.g., a department store or a metro station. Our approach predicts absolute scale depth maps over the entire scene consisting of a static background and multiple moving people, by training on dynamic scenes. Since it is difficult to collect dense depth maps from crowded indoor environments, we design our training framework without requiring depths produced from depth sensing devices. Our network leverages RGB images and sparse depth maps generated from traditional 3D reconstruction methods to estimate dense depth maps. We use two constraints to handle depth for non-rigidly moving people without tracking their motion explicitly. We demonstrate that our approach offers consistent improvements over recent depth estimation methods on the NAVERLABS dataset, which includes complex and crowded scenes.
翻訳日:2021-08-13 14:34:12 公開日:2021-08-12
# 宝物へのトラッシュ:オープンセットセミスーパービジョン学習のためのクロスモーダルマッチングを用いたOODデータのハーベスティング

Trash to Treasure: Harvesting OOD Data with Cross-Modal Matching for Open-Set Semi-Supervised Learning ( http://arxiv.org/abs/2108.05617v1 )

ライセンス: Link先を確認
Junkai Huang, Chaowei Fang, Weikai Chen, Zhenhua Chai, Xiaolin Wei, Pengxu Wei, Liang Lin, Guanbin Li(参考訳) オープンセット半教師付き学習(Open-set SSL)では、ラベルなしデータにOOD(Out-of-distribut ion)サンプルを含む、難しいが実用的なシナリオを調査する。 本手法は,半教師付き学習(SSL)のためのOODサンプルを完全にフィルタリングすることを目的としているが,機能学習の強化のためにOODデータの存在を効果的に活用し,SSLに対する悪影響を回避できる新たなトレーニング機構を提案する。 この目標を達成するために、まず、ID(In-distriion)とOOD(OOD)の両方を含むラベルのないすべてのデータを活用するウォームアップトレーニングを導入する。 具体的には、トレーニング画像の高レベルな意味理解を得るために、機能抽出子を強制するプリテキストタスクを実行し、下流タスクに有利なより識別的な特徴を導出します。 OODサンプルはSSLに対して必然的に有害であるため,OODサンプルを検出するための新たなクロスモーダルマッチング戦略を提案する。 バイナリ分類を直接適用する代わりに、データサンプルが割り当てられた1ホットクラスラベルと一致するかどうかを予測するためにネットワークをトレーニングする。 二項分類に対するクロスモーダルマッチングの提案の魅力は、コア分類タスクと整合する互換性のある特徴空間を生成する能力である。 大規模な実験により,オープンセットSSLの性能は大幅に向上し,最先端技術よりも高い性能を示した。

Open-set semi-supervised learning (open-set SSL) investigates a challenging but practical scenario where out-of-distribution (OOD) samples are contained in the unlabeled data. While the mainstream technique seeks to completely filter out the OOD samples for semi-supervised learning (SSL), we propose a novel training mechanism that could effectively exploit the presence of OOD data for enhanced feature learning while avoiding its adverse impact on the SSL. We achieve this goal by first introducing a warm-up training that leverages all the unlabeled data, including both the in-distribution (ID) and OOD samples. Specifically, we perform a pretext task that enforces our feature extractor to obtain a high-level semantic understanding of the training images, leading to more discriminative features that can benefit the downstream tasks. Since the OOD samples are inevitably detrimental to SSL, we propose a novel cross-modal matching strategy to detect OOD samples. Instead of directly applying binary classification, we train the network to predict whether the data sample is matched to an assigned one-hot class label. The appeal of the proposed cross-modal matching over binary classification is the ability to generate a compatible feature space that aligns with the core classification task. Extensive experiments show that our approach substantially lifts the performance on open-set SSL and outperforms the state-of-the-art by a large margin.
翻訳日:2021-08-13 14:33:55 公開日:2021-08-12
# DIODE:拡張可能なインクリメンタルオブジェクト検出

DIODE: Dilatable Incremental Object Detection ( http://arxiv.org/abs/2108.05627v1 )

ライセンス: Link先を確認
Can Peng, Kun Zhao, Sam Maksoud, Tianren Wang, Brian C. Lovell(参考訳) 現実世界の急速な変化に対応するため、人間の認知システムは概念を継続的に学習することができる。 それとは対照的に、従来のディープラーニングモデルには、以前に学習した知識を保存する能力がない。 ニューラルネットワークが新しいタスクを学習するために微調整されると、トレーニング済みのタスクに対するパフォーマンスは大幅に低下する。 最近のインクリメンタルなオブジェクト検出に関する多くの研究は、高度な正規化を導入することでこの問題に取り組んでいる。 これらの手法は有望な結果を示しているが、利益はしばしば最初の段階的なステップの後に短命である。 多段階のインクリメンタル学習では、古い知識保存と新しいタスク学習のトレードオフが徐々に厳しくなる。 したがって、正規化に基づくインクリメンタルオブジェクト検出器の性能は、その後の学習ステップで徐々に低下する。 本稿では,ディレイタブルインクリメンタル物体検出器(diode)を提案することにより,マルチステップインクリメンタル検出タスクにおけるこの性能低下を緩和することを目的とする。 タスク共有パラメータでは,従来のタスクにおける重要な重み付けの変化を適応的にペナルティ化する。 同時に、モデルの構造は限られたタスク固有のパラメータによって拡張または拡張され、新しいタスク学習を促進する。 PASCAL VOCとCOCOデータセットに関する大規模な実験は、最先端の手法よりも大幅に改善されている。 特に,最新の手法と比較して,新たに学習したタスク毎にパラメータ数を1.2%増やすことで,最大6.0%の性能向上を実現している。

To accommodate rapid changes in the real world, the cognition system of humans is capable of continually learning concepts. On the contrary, conventional deep learning models lack this capability of preserving previously learned knowledge. When a neural network is fine-tuned to learn new tasks, its performance on previously trained tasks will significantly deteriorate. Many recent works on incremental object detection tackle this problem by introducing advanced regularization. Although these methods have shown promising results, the benefits are often short-lived after the first incremental step. Under multi-step incremental learning, the trade-off between old knowledge preserving and new task learning becomes progressively more severe. Thus, the performance of regularization-based incremental object detectors gradually decays for subsequent learning steps. In this paper, we aim to alleviate this performance decay on multi-step incremental detection tasks by proposing a dilatable incremental object detector (DIODE). For the task-shared parameters, our method adaptively penalizes the changes of important weights for previous tasks. At the same time, the structure of the model is dilated or expanded by a limited number of task-specific parameters to promote new task learning. Extensive experiments on PASCAL VOC and COCO datasets demonstrate substantial improvements over the state-of-the-art methods. Notably, compared with the state-of-the-art methods, our method achieves up to 6.0% performance improvement by increasing the number of parameters by just 1.2% for each newly learned task.
翻訳日:2021-08-13 14:33:29 公開日:2021-08-12
# 3D-SiamRPN:生起点クラウドを用いたリアルタイム3次元物体追跡のためのエンドツーエンド学習手法

3D-SiamRPN: An End-to-End Learning Method for Real-Time 3D Single Object Tracking Using Raw Point Cloud ( http://arxiv.org/abs/2108.05630v1 )

ライセンス: Link先を確認
Zheng Fang, Sifan Zhou, Yubo Cui, Sebastian Scherer(参考訳) 3Dオブジェクト追跡は、自律的な追従ロボットにとって重要な問題であり、ロボットは、効率的な追従のためにターゲットをしっかりと追跡し、正確に位置決めする必要がある。 本稿では,生の3dポイントクラウドデータを用いて,単一の対象オブジェクトを追跡する3d-siamrpnネットワークと呼ばれる3d追跡手法を提案する。 提案するネットワークは2つのサブネットワークで構成される。 最初のサブネットワークは、ポイントクラウドの特徴抽出と融合に使用される機能埋め込みサブネットワークである。 このサブネットワークでは、まずpointnet++を使用して、テンプレートと検索ブランチからpoint cloudの機能を抽出する。 次に,2つのブランチの特徴の情報を融合し,それらの類似性を得るため,pointcloud-wise と point-wise の2つの相互相関モジュールを提案する。 第2のサブネットワークは領域提案ネットワーク(RPN)であり、相互相関モジュールからの融合特性に基づいて、ターゲットオブジェクトの最終3次元境界ボックスを取得するために使用される。 このサブネットワークでは、領域提案サブネットワークの回帰と分類の分岐を利用して提案とスコアを取得し、ターゲットオブジェクトの最終的な3Dバウンディングボックスを取得する。 KITTIデータセットを用いた実験結果から,提案手法は最先端の手法と比較して精度と精度の両面で競争力があり,20.8FPSでリアルタイムに動作可能であることがわかった。 さらに,H3Dデータセットを用いた実験結果から,提案手法の一般化能力も良好であり,新たなシーンでのトラッキング性能が向上することを示した。

3D single object tracking is a key issue for autonomous following robot, where the robot should robustly track and accurately localize the target for efficient following. In this paper, we propose a 3D tracking method called 3D-SiamRPN Network to track a single target object by using raw 3D point cloud data. The proposed network consists of two subnetworks. The first subnetwork is feature embedding subnetwork which is used for point cloud feature extraction and fusion. In this subnetwork, we first use PointNet++ to extract features of point cloud from template and search branches. Then, to fuse the information of features in the two branches and obtain their similarity, we propose two cross correlation modules, named Pointcloud-wise and Point-wise respectively. The second subnetwork is region proposal network(RPN), which is used to get the final 3D bounding box of the target object based on the fusion feature from cross correlation modules. In this subnetwork, we utilize the regression and classification branches of a region proposal subnetwork to obtain proposals and scores, thus get the final 3D bounding box of the target object. Experimental results on KITTI dataset show that our method has a competitive performance in both Success and Precision compared to the state-of-the-art methods, and could run in real-time at 20.8 FPS. Additionally, experimental results on H3D dataset demonstrate that our method also has good generalization ability and could achieve good tracking performance in a new scene without re-training.
翻訳日:2021-08-13 14:33:10 公開日:2021-08-12
# 動作映像予測のための条件付き時間変動オートエンコーダ

Conditional Temporal Variational AutoEncoder for Action Video Prediction ( http://arxiv.org/abs/2108.05658v1 )

ライセンス: Link先を確認
Xiaogang Xu, Yi Wang, Liwei Wang, Bei Yu, Jiaya Jia(参考訳) 単一の人間の画像に基づいてリアルなアクションシーケンスを合成するためには、アクションビデオの動作パターンと多様性の両方をモデル化することが重要である。 本稿では,動作予測精度の向上と動きの多様性の獲得を目的とした動作条件時変自動エンコーダ(ACT-VAE)を提案する。 ACT-VAEは単一の入力画像からアクションクリップのポーズシーケンスを予測する。 動作カテゴリに応じて時間的コヒーレンスを維持する深層生成モデルとして実装され, 潜時空間上での新しい時間的モデリングを行う。 さらにACT-VAEは一般的なアクションシーケンス予測フレームワークである。 プラグアンドプレイのP2Iネットワークに接続すると、ACT-VAEは画像シーケンスを合成できる。 広範な実験により,本手法は正確なポーズを予測し,最先端のアプローチを上回って現実的な画像シーケンスを合成できることがわかった。 既存の方法と比較して、ACT-VAEはモデルの精度を改善し、多様性を維持する。

To synthesize a realistic action sequence based on a single human image, it is crucial to model both motion patterns and diversity in the action video. This paper proposes an Action Conditional Temporal Variational AutoEncoder (ACT-VAE) to improve motion prediction accuracy and capture movement diversity. ACT-VAE predicts pose sequences for an action clips from a single input image. It is implemented as a deep generative model that maintains temporal coherence according to the action category with a novel temporal modeling on latent space. Further, ACT-VAE is a general action sequence prediction framework. When connected with a plug-and-play Pose-to-Image (P2I) network, ACT-VAE can synthesize image sequences. Extensive experiments bear out our approach can predict accurate pose and synthesize realistic image sequences, surpassing state-of-the-art approaches. Compared to existing methods, ACT-VAE improves model accuracy and preserves diversity.
翻訳日:2021-08-13 14:32:43 公開日:2021-08-12
# 物体検出のためのオブジェクト指向R-CNN

Oriented R-CNN for Object Detection ( http://arxiv.org/abs/2108.05699v1 )

ライセンス: Link先を確認
Xingxing Xie, Gong Cheng, Jiabao Wang, Xiwen Yao, Junwei Han(参考訳) 最先端の2段階検出器は、時間消費スキームを通じて指向的な提案を生成する。 これにより検出器の速度が低下し、高度指向オブジェクト検出システムにおける計算ボトルネックとなる。 本研究は, 汎用的な2段階指向型検出器であるOriented R-CNNとよばれる, 効率的かつ簡便なオブジェクト指向物体検出フレームワークを提案する。 具体的には,第1段階では,高品質な提案をほぼコストのかかる方法で直接生成する指向型地域提案ネットワーク(指向型rpn)を提案する。 第2段階は、R-CNNヘッダで、関心の領域(オブジェクト指向RoI)を精製し、認識する。 ResNet50を用いたオブジェクト指向R-CNNは、DOTA (75.87% mAP) とHRSC2016 (96.50% mAP) を含む2つのオブジェクト指向検出用データセットの最先端検出精度を達成し、画像サイズは1024$\times$1024である。 我々の研究がオブジェクト指向検出器の設計を再考し、オブジェクト指向物体検出のベースラインとして機能することを願っている。 コードはhttps://github.com/j bwang1997/OBBDetecti onで入手できる。

Current state-of-the-art two-stage detectors generate oriented proposals through time-consuming schemes. This diminishes the detectors' speed, thereby becoming the computational bottleneck in advanced oriented object detection systems. This work proposes an effective and simple oriented object detection framework, termed Oriented R-CNN, which is a general two-stage oriented detector with promising accuracy and efficiency. To be specific, in the first stage, we propose an oriented Region Proposal Network (oriented RPN) that directly generates high-quality oriented proposals in a nearly cost-free manner. The second stage is oriented R-CNN head for refining oriented Regions of Interest (oriented RoIs) and recognizing them. Without tricks, oriented R-CNN with ResNet50 achieves state-of-the-art detection accuracy on two commonly-used datasets for oriented object detection including DOTA (75.87% mAP) and HRSC2016 (96.50% mAP), while having a speed of 15.1 FPS with the image size of 1024$\times$1024 on a single RTX 2080Ti. We hope our work could inspire rethinking the design of oriented detectors and serve as a baseline for oriented object detection. Code is available at https://github.com/j bwang1997/OBBDetecti on.
翻訳日:2021-08-13 14:32:30 公開日:2021-08-12
# ドメイン適応のための意味集中

Semantic Concentration for Domain Adaptation ( http://arxiv.org/abs/2108.05720v1 )

ライセンス: Link先を確認
Shuang Li, Mixue Xie, Fangrui Lv, Chi Harold Liu, Jian Liang, Chen Qin, Wei Li(参考訳) ドメイン適応(DA)は、ラベル豊富なソースドメインから関連するがラベルのないターゲットドメインへの知識転送によるラベルアノテーションとデータセットバイアスの問題に対する道を開く。 DA手法の主流は、2つのドメインの特徴分布を調整することである。 しかし、その大半は、無関係な意味情報、例えば乱雑な背景が必然的に埋め込まれている画像機能全体に焦点を当てている。 このような場合、特徴アライメントを強制することは、オブジェクトの正しいマッチングに悪影響を及ぼし、その結果、無関係な意味論の混乱による意味的に負の移動につながる。 この問題に対処するために,予測分布の対対逆アライメントによってモデルを最も主要な特徴に集中させるセマンティック集中型ドメイン適応(SCDA)を提案する。 具体的には,各サンプルペアの予測分布の発散をクラスごとに最大化するように分類器を訓練し,同じサンプルのクラス間で大きな差異のある領域をモデルで見つける。 一方、特徴抽出器は、同じ種類のサンプルの異種領域の特徴を抑制し、主成分の特徴を強調する不一致を最小化しようとする。 一般的な方法として、scdaは様々なdaメソッドに簡単に統合でき、その性能をさらに高めることができる。 クロスドメインベンチマークの大規模な実験はSCDAの有効性を示している。

Domain adaptation (DA) paves the way for label annotation and dataset bias issues by the knowledge transfer from a label-rich source domain to a related but unlabeled target domain. A mainstream of DA methods is to align the feature distributions of the two domains. However, the majority of them focus on the entire image features where irrelevant semantic information, e.g., the messy background, is inevitably embedded. Enforcing feature alignments in such case will negatively influence the correct matching of objects and consequently lead to the semantically negative transfer due to the confusion of irrelevant semantics. To tackle this issue, we propose Semantic Concentration for Domain Adaptation (SCDA), which encourages the model to concentrate on the most principal features via the pair-wise adversarial alignment of prediction distributions. Specifically, we train the classifier to class-wisely maximize the prediction distribution divergence of each sample pair, which enables the model to find the region with large differences among the same class of samples. Meanwhile, the feature extractor attempts to minimize that discrepancy, which suppresses the features of dissimilar regions among the same class of samples and accentuates the features of principal parts. As a general method, SCDA can be easily integrated into various DA methods as a regularizer to further boost their performance. Extensive experiments on the cross-domain benchmarks show the efficacy of SCDA.
翻訳日:2021-08-13 14:32:04 公開日:2021-08-12
# TF-Blender:ビデオオブジェクト検出のための時間的特徴ブレンダー

TF-Blender: Temporal Feature Blender for Video Object Detection ( http://arxiv.org/abs/2108.05821v1 )

ライセンス: Link先を確認
Yiming Cui, Liqi Yan, Zhiwen Cao, Dongfang Liu(参考訳) ビデオの対物検出は、分離されたビデオフレームが外観劣化に遭遇し、検出に大きな混乱をもたらすため、困難な作業である。 一般的な解決策の1つは、時間的情報を活用し、隣接するフレームからの特徴を集約することでフレーム毎の表現を強化することである。 検出精度は向上したが,既存の手法では,特徴表現を高めるために,下位の時間関係をモデル化するのではなく,アグリゲーションのための高レベルビデオフレームの選択に重点を置いている。 この制限に対処するために, tf-blender という新しい解法を提案する。(1) 時間的関係は現在のフレームとその隣接フレームの関係を修飾し, 空間情報を保存する。 2). 3) 特徴ブレンダーは、最初の2つのモジュールからの出力を組み合わせて、後続の検知タスクのためにより強力な特徴を生成する。 その単純さのために、TF-Blenderはあらゆる検出ネットワークに懸命に接続して検出動作を改善することができる。 ImageNet VIDとYouTube-VISベンチマークの大規模な評価は、最近の最先端手法でTF-Blenderを使用することによるパフォーマンス保証を示している。

Video objection detection is a challenging task because isolated video frames may encounter appearance deterioration, which introduces great confusion for detection. One of the popular solutions is to exploit the temporal information and enhance per-frame representation through aggregating features from neighboring frames. Despite achieving improvements in detection, existing methods focus on the selection of higher-level video frames for aggregation rather than modeling lower-level temporal relations to increase the feature representation. To address this limitation, we propose a novel solution named TF-Blender,which includes three modules: 1) Temporal relation mod-els the relations between the current frame and its neighboring frames to preserve spatial information. 2). Feature adjustment enriches the representation of every neigh-boring feature map; 3) Feature blender combines outputs from the first two modules and produces stronger features for the later detection tasks. For its simplicity, TF-Blender can be effortlessly plugged into any detection network to improve detection behavior. Extensive evaluations on ImageNet VID and YouTube-VIS benchmarks indicate the performance guarantees of using TF-Blender on recent state-of-the-art methods.
翻訳日:2021-08-13 14:31:42 公開日:2021-08-12
# AdaFit: ポイントクラウドにおける学習に基づく正規推定の再考

AdaFit: Rethinking Learning-based Normal Estimation on Point Clouds ( http://arxiv.org/abs/2108.05836v1 )

ライセンス: Link先を確認
Runsong Zhu, Yuan Liu, Zhen Dong, Tengping Jiang, Yuan Wang, Wenping Wang, Bisheng Yang(参考訳) 本稿では,AdaFit という,雑音と密度の変動を伴う点雲に対処可能な,点雲上でのロバストな正規推定のためのニューラルネットワークを提案する。 既存の研究はネットワークを用いて、重み付けされた最小二乗曲面の点重みを学習し、正規度を推定するが、これは複素領域の正確な正規度を見つけるのに困難である。 重み付けされた最小二乗表面フィッティングのステップを分析することで、嵌合面の多項式次数を決定することは困難であり、嵌合面は外れ値に敏感であることがわかった。 これらの問題に対処するため,我々は,正規推定の質を改善するために追加のオフセット予測を付加する,単純かつ効果的な解を提案する。 さらに, 異なる近傍の大きさの点を利用するために, ネットワークがより正確な点方向のオフセットと重みを予測できるように, 新たなカスケードスケールアグリゲーション層を提案する。 大規模な実験により、AdaFitは合成PCPNetデータセットと実単語SceneNNデータセットの両方で最先端のパフォーマンスを実現する。

This paper presents a neural network for robust normal estimation on point clouds, named AdaFit, that can deal with point clouds with noise and density variations. Existing works use a network to learn point-wise weights for weighted least squares surface fitting to estimate the normals, which has difficulty in finding accurate normals in complex regions or containing noisy points. By analyzing the step of weighted least squares surface fitting, we find that it is hard to determine the polynomial order of the fitting surface and the fitting surface is sensitive to outliers. To address these problems, we propose a simple yet effective solution that adds an additional offset prediction to improve the quality of normal estimation. Furthermore, in order to take advantage of points from different neighborhood sizes, a novel Cascaded Scale Aggregation layer is proposed to help the network predict more accurate point-wise offsets and weights. Extensive experiments demonstrate that AdaFit achieves state-of-the-art performance on both the synthetic PCPNet dataset and the real-word SceneNN dataset.
翻訳日:2021-08-13 14:31:21 公開日:2021-08-12
# Babelのタワー:マルチモーダルビジョン学習のための画像・言語・3次元形状の組み合わせ

Towers of Babel: Combining Images, Language, and 3D Geometry for Learning Multimodal Vision ( http://arxiv.org/abs/2108.05863v1 )

ライセンス: Link先を確認
Xiaoshi Wu, Hadar Averbuch-Elor, Jin Sun and Noah Snavely(参考訳) ランドマークや都市のインターネット写真が豊富で豊富であることは、観光写真から世界のランドマークを自動3d再構成するなど、過去20年間で3dビジョンの大幅な進歩をもたらした。 しかし、これらの3d表示されたコレクションで利用可能な主要な情報源は、画像キャプションから名付けられた言語である。 本研究はWikiScenesを,字幕と階層的カテゴリ名という形で記述文を含むランドマーク写真コレクションの大規模データセットとして紹介する。 WikiScenesは、画像、テキスト、および3D幾何学を含むマルチモーダル推論のための新しいテストベッドを形成する。 画像と3Dモデルを用いたセマンティック概念学習におけるWikiScenesの有用性を実証する。 弱教師付きフレームワークは,イメージと3d構造,セマンティクスをつなぐ。3dジオメトリが提供する強い制約を利用して,意味概念を画像画素と3dポイントに関連付ける。

The abundance and richness of Internet photos of landmarks and cities has led to significant progress in 3D vision over the past two decades, including automated 3D reconstructions of the world's landmarks from tourist photos. However, a major source of information available for these 3D-augmented collections---namely language, e.g., from image captions---has been virtually untapped. In this work, we present WikiScenes, a new, large-scale dataset of landmark photo collections that contains descriptive text in the form of captions and hierarchical category names. WikiScenes forms a new testbed for multimodal reasoning involving images, text, and 3D geometry. We demonstrate the utility of WikiScenes for learning semantic concepts over images and 3D models. Our weakly-supervised framework connects images, 3D structure, and semantics---utilizin g the strong constraints provided by 3D geometry---to associate semantic concepts to image pixels and 3D points.
翻訳日:2021-08-13 14:31:01 公開日:2021-08-12
# 候補強化とプログレッシブトレーニングによるスーパーネットのランク付け相関の改善

Improving Ranking Correlation of Supernet with Candidates Enhancement and Progressive Training ( http://arxiv.org/abs/2108.05866v1 )

ライセンス: Link先を確認
Ziwei Yang, Ruyi Zhang, Zhi Yang, Xubo Yang, Lei Wang and Zheyang Li(参考訳) ワンショットニューラルアーキテクチャサーチ(NAS)は、自動アーキテクチャ設計の計算オーバーヘッドを軽減するために、ウェイトシェアリングスーパーネットを適用している。 しかし、ウェイトシェアリング技術は、異なる候補ネットワーク間の干渉による性能のランキング一貫性を悪化させる。 そこで本研究では,スーパーネットのランキング相関性を改善するための候補強化法とプログレッシブトレーニングパイプラインを提案する。 具体的には、スーパーネットのサブネットワークを慎重に再設計し、元のスーパーネットを高容量の新しいネットワークにマッピングする。 さらに,サブネットワーク間の相互干渉を効果的に緩和する重み共有の程度を低減するため,スーパーネットの細分枝を徐々に追加する。 最後に,本手法はCVPR2021 1st Lightweight NAS Challengeのスーパーネットトラックにおける第1位にランク付けする。

One-shot neural architecture search (NAS) applies weight-sharing supernet to reduce the unaffordable computation overhead of automated architecture designing. However, the weight-sharing technique worsens the ranking consistency of performance due to the interferences between different candidate networks. To address this issue, we propose a candidates enhancement method and progressive training pipeline to improve the ranking correlation of supernet. Specifically, we carefully redesign the sub-networks in the supernet and map the original supernet to a new one of high capacity. In addition, we gradually add narrow branches of supernet to reduce the degree of weight sharing which effectively alleviates the mutual interference between sub-networks. Finally, our method ranks the 1st place in the Supernet Track of CVPR2021 1st Lightweight NAS Challenge.
翻訳日:2021-08-13 14:30:43 公開日:2021-08-12
# 非条件シーングラフ生成

Unconditional Scene Graph Generation ( http://arxiv.org/abs/2108.05884v1 )

ライセンス: Link先を確認
Sarthak Garg, Helisa Dhamo, Azade Farshad, Sabrina Musatian, Nassir Navab, Federico Tombari(参考訳) 単一ドメインや単一オブジェクトの画像生成の進歩にもかかわらず、多様な複数のオブジェクトとその相互作用を含む複雑なシーンを生成することは依然として困難である。 オブジェクトとしてのノードとオブジェクト間の関係としての有向エッジで構成されるシーングラフは、イメージよりも意味的に接地されたシーンの代替表現を提供する。 我々は,シーングラフの生成モデルが,実世界のシーンの基盤となる意味構造を,画像よりも効果的に学習できるかもしれないことを仮定し,シーングラフの形で現実的な新しいシーンを生成する。 本研究では,セマンティックシーングラフの非条件生成のための新しいタスクについて検討する。 階層的リカレントアーキテクチャを用いてラベル付きおよび有向グラフ上の確率分布を直接学習できる,scenegraphgenと呼ばれる深い自己回帰モデルを開発した。 モデルはシードオブジェクトを入力として、ステップのシーケンスでシーングラフを生成し、各ステップがオブジェクトノードを生成し、その後、前のノードに接続する関係エッジのシーケンスを生成する。 SceneGraphGenによって生成されたシーングラフは多様であり、実世界のシーンのセマンティックなパターンに従う。 さらに,生成したグラフの画像合成,異常検出,シーングラフ補完への応用を実演する。

Despite recent advancements in single-domain or single-object image generation, it is still challenging to generate complex scenes containing diverse, multiple objects and their interactions. Scene graphs, composed of nodes as objects and directed-edges as relationships among objects, offer an alternative representation of a scene that is more semantically grounded than images. We hypothesize that a generative model for scene graphs might be able to learn the underlying semantic structure of real-world scenes more effectively than images, and hence, generate realistic novel scenes in the form of scene graphs. In this work, we explore a new task for the unconditional generation of semantic scene graphs. We develop a deep auto-regressive model called SceneGraphGen which can directly learn the probability distribution over labelled and directed graphs using a hierarchical recurrent architecture. The model takes a seed object as input and generates a scene graph in a sequence of steps, each step generating an object node, followed by a sequence of relationship edges connecting to the previous nodes. We show that the scene graphs generated by SceneGraphGen are diverse and follow the semantic patterns of real-world scenes. Additionally, we demonstrate the application of the generated graphs in image synthesis, anomaly detection and scene graph completion.
翻訳日:2021-08-13 14:30:29 公開日:2021-08-12
# シャドウトランスを用いたマルチビュー検出(及びビューコヒーレントデータ拡張)

Multiview Detection with Shadow Transformer (and View-Coherent Data Augmentation) ( http://arxiv.org/abs/2108.05888v1 )

ライセンス: Link先を確認
Yunzhong Hou and Liang Zheng(参考訳) マルチビュー検出には複数のカメラビューが組み込まれており、その中心的な問題はマルチビューアグリゲーションである。 複数のビューから共通の接地面に特徴写像を投影すると、最先端の手法は畳み込みによってこの問題に対処し、オブジェクトの位置に関係なく同じ計算を適用できる。 しかし、このような翻訳不変の挙動は、物体の位置やカメラに応じて様々な投影歪みを受けるため、最善の選択ではないかもしれない。 本稿では,新たに導入されたシャドウトランスフォーマを使用してマルチビュー情報を集約する,新しいマルチビュー検出器mvdetrを提案する。 畳み込みとは異なり、シャドウトランスフォーマーは異なる位置やカメラで様々なシャドウのような歪みを扱う。 マルチビュー整合性を維持しながらランダムな拡張を適用する新しいビューコヒーレントデータ拡張手法を含む効果的なトレーニング手法を提案する。 2つのマルチビュー検出ベンチマークにおいて,提案システムを用いた最新の精度について報告する。 コードはhttps://github.com/h ou-yz/mvdetrで入手できる。

Multiview detection incorporates multiple camera views to deal with occlusions, and its central problem is multiview aggregation. Given feature map projections from multiple views onto a common ground plane, the state-of-the-art method addresses this problem via convolution, which applies the same calculation regardless of object locations. However, such translation-invarian t behaviors might not be the best choice, as object features undergo various projection distortions according to their positions and cameras. In this paper, we propose a novel multiview detector, MVDeTr, that adopts a newly introduced shadow transformer to aggregate multiview information. Unlike convolutions, shadow transformer attends differently at different positions and cameras to deal with various shadow-like distortions. We propose an effective training scheme that includes a new view-coherent data augmentation method, which applies random augmentations while maintaining multiview consistency. On two multiview detection benchmarks, we report new state-of-the-art accuracy with the proposed system. Code is available at https://github.com/h ou-yz/MVDeTr.
翻訳日:2021-08-13 14:30:10 公開日:2021-08-12
# PixelSynth:1枚の画像から3D連続体験を生成する

PixelSynth: Generating a 3D-Consistent Experience from a Single Image ( http://arxiv.org/abs/2108.05892v1 )

ライセンス: Link先を確認
Chris Rockwell, David F. Fouhey, Justin Johnson(参考訳) 微分可能レンダリングと3D推論の最近の進歩は、単一の画像から新しいビュー合成のエキサイティングな結果をもたらした。 現実的な結果にもかかわらず、メソッドは比較的小さなビューの変更に限定されます。 没入的なシーンを合成するためには、モデルも外挿可能である必要がある。 本稿では, 自己回帰モデルを用いた3次元推論を融合させ, シーン合成を可能にするアプローチを提案する。 シミュレーションおよび実データ間での様々な方法や可能な変種と比較して,単一画像大角ビュー合成結果の大幅な改善を示す。 また,他の蓄積法と比較して3次元の整合性も向上した。 プロジェクトウェブサイト: https://crockwell.gi thub.io/pixelsynth/

Recent advancements in differentiable rendering and 3D reasoning have driven exciting results in novel view synthesis from a single image. Despite realistic results, methods are limited to relatively small view change. In order to synthesize immersive scenes, models must also be able to extrapolate. We present an approach that fuses 3D reasoning with autoregressive modeling to outpaint large view changes in a 3D-consistent manner, enabling scene synthesis. We demonstrate considerable improvement in single image large-angle view synthesis results compared to a variety of methods and possible variants across simulated and real datasets. In addition, we show increased 3D consistency compared to alternative accumulation methods. Project website: https://crockwell.gi thub.io/pixelsynth/
翻訳日:2021-08-13 14:29:52 公開日:2021-08-12
# 難読度検索のための教師なしコーパス認識言語モデル事前学習

Unsupervised Corpus Aware Language Model Pre-training for Dense Passage Retrieval ( http://arxiv.org/abs/2108.05540v1 )

ライセンス: Link先を確認
Luyu Gao, Jamie Callan(参考訳) 近年,高密度検索における微調整言語モデル~(LM)の有効性が実証されている。 しかし、密集したレトリバーは訓練が困難であり、その潜在能力を十分に実現するためには、高度に設計された微調整パイプラインが必要である。 本稿では,高密度レトリバーの根底にある2つの問題に対処する:i) データのノイズを訓練するための柔軟性と,i) 埋め込み空間をしっかり学習するために大きなバッチを必要とする。 我々は,最近提案するコンデンサプリトレーニングアーキテクチャを用いて,lmプリトレーニングにより情報を高密度ベクトルに凝縮することを学ぶ。 さらに,パス埋め込み空間を暖めるために,教師なしコーパスレベルのコントラスト損失を加えたcoCondenserを提案する。 MS-MARCO、Nature Question、Trivia QAデータセットの検索実験は、coCondenserが強化、合成、フィルタリングといった重データエンジニアリングの必要性を排除し、大規模なバッチトレーニングの必要性を示している。 rocketqaは最先端の高度に設計されたシステムで、単純なバッチの微調整で性能が向上している。

Recent research demonstrates the effectiveness of using fine-tuned language models~(LM) for dense retrieval. However, dense retrievers are hard to train, typically requiring heavily engineered fine-tuning pipelines to realize their full potential. In this paper, we identify and address two underlying problems of dense retrievers: i)~fragility to training data noise and ii)~requiring large batches to robustly learn the embedding space. We use the recently proposed Condenser pre-training architecture, which learns to condense information into the dense vector through LM pre-training. On top of it, we propose coCondenser, which adds an unsupervised corpus-level contrastive loss to warm up the passage embedding space. Retrieval experiments on MS-MARCO, Natural Question, and Trivia QA datasets show that coCondenser removes the need for heavy data engineering such as augmentation, synthesis, or filtering, as well as the need for large batch training. It shows comparable performance to RocketQA, a state-of-the-art, heavily engineered system, using simple small batch fine-tuning.
翻訳日:2021-08-13 14:29:43 公開日:2021-08-12
# doi:深層生成モデルを用いた発散型分布指標

DOI: Divergence-based Out-of-Distribution Indicators via Deep Generative Models ( http://arxiv.org/abs/2108.05509v1 )

ライセンス: Link先を確認
Wenxiao Chen, Xiaohui Nie, Mingliang Li, Dan Pei(参考訳) 頑健で信頼性の高い分類結果を確保するために,最近,深層生成モデルに基づくood(out-of-distribut ion)インジケータが提案されている。 本稿では,既存のoodインジケータに対して,最初の大規模ベンチマーク(92組のデータセットペアを含む,従来よりも1桁大きい)を実施し,正常に動作しないことを示す。 したがって、OoDインジケータの評価には大量のベンチマークが必須である。 深層生成モデルにおいて, 発散に基づく分散指標(従来の確率に基づく指標に代えて)のための新しい理論的枠組みであるdoiを提案する。 このフレームワークに続いて,よりシンプルで効果的なOoD検出アルゴリズムであるシングルショットファインチューンを提案する。 AUROCでは過去の5~8倍の性能を示し、その性能は最適に近い。 近年では,oodの検出には可能性基準が有効でないことが示されている。 シングルショット・ファインツーンは,よく訓練されたモデルを微調整した後に,試験試料の確率が向上するかどうかを判断するための新しいファインツーン基準を提案する。 きめの細かい条件は明確で簡単に従える基準であり、oodドメインを新しい段階へと導く。

To ensure robust and reliable classification results, OoD (out-of-distribution ) indicators based on deep generative models are proposed recently and are shown to work well on small datasets. In this paper, we conduct the first large collection of benchmarks (containing 92 dataset pairs, which is 1 order of magnitude larger than previous ones) for existing OoD indicators and observe that none perform well. We thus advocate that a large collection of benchmarks is mandatory for evaluating OoD indicators. We propose a novel theoretical framework, DOI, for divergence-based Out-of-Distribution indicators (instead of traditional likelihood-based) in deep generative models. Following this framework, we further propose a simple and effective OoD detection algorithm: Single-shot Fine-tune. It significantly outperforms past works by 5~8 in AUROC, and its performance is close to optimal. In recent, the likelihood criterion is shown to be ineffective in detecting OoD. Single-shot Fine-tune proposes a novel fine-tune criterion to detect OoD, by whether the likelihood of the testing sample is improved after fine-tuning a well-trained model on it. Fine-tune criterion is a clear and easy-following criterion, which will lead the OoD domain into a new stage.
翻訳日:2021-08-13 14:28:02 公開日:2021-08-12
# 食品検査の公平な意思決定

Fair Decision-Making for Food Inspections ( http://arxiv.org/abs/2108.05523v1 )

ライセンス: Link先を確認
Shubham Singh, Bhuvni Shah, Ian A. Kash(参考訳) 我々は,シカゴ公衆衛生局の予測モデルを用いて,飲食店の検査をスケジュールし,食品コードの重大な違反の検出を優先する方法について再検討する。 フェアネスの観点から最初の分析を行ったところ,本モデルでは,検査を行った正当性に基づく検査を不平等に扱うことができ,また,モデルのメリットには地理的・人口的格差があることがわかった。 より公平な方法で元のモデルを使うための2つのアプローチと、フェアネスを達成するためにモデルをトレーニングする方法と、以前のアプローチでより多くの成功を収める方法を調べます。 このアプリケーションからの課題は、個人ではなく集合体との公平性、プロキシとしての批判的違反の使用、動的スケジューリングシステムにおける公平な分類と公正性の分離に関する今後の作業にとって重要な方向を示す。

We revisit the application of predictive models by the Chicago Department of Public Health to schedule restaurant inspections and prioritize the detection of critical violations of the food code. Performing the first analysis from the perspective of fairness to the population served by the restaurants, we find that the model treats inspections unequally based on the sanitarian who conducted the inspection and that in turn there are both geographic and demographic disparities in the benefits of the model. We examine both approaches to use the original model in a fairer way and ways to train the model to achieve fairness and find more success with the former class of approaches. The challenges from this application point to important directions for future work around fairness with collective entities rather than individuals, the use of critical violations as a proxy, and the disconnect between fair classification and fairness in the dynamic scheduling system.
翻訳日:2021-08-13 14:27:38 公開日:2021-08-12
# AffRankNet+: プライヴィグド情報による影響ランク付け

AffRankNet+: Ranking Affect Using Privileged Information ( http://arxiv.org/abs/2108.05598v1 )

ライセンス: Link先を確認
Konstantinos Makantasis(参考訳) 影響モデリングタスクの多くは、トレーニングとテスト時間の間の非対称な情報の分布を示しており、テスト時に利用できないトレーニングデータに関する追加情報が提供される。 この条件下での学習はLearning Under Privileged Information (LUPI)と呼ばれる。 同時に、影響アノテーションの常習性から、教師付き学習ランキング問題として、モデルタスクの定式化がAffective Computing Research Community内で定着している。 以上の2つの事実に触発され、本研究では、トレーニングデータに関する追加情報を特権情報として扱うランキングモデルを導入し、状態を正確にランク付けする。 私たちのランキングモデルは、よく知られたranknetモデルをlupiパラダイムに拡張します。 私たちの知る限りでは、ニューラルネットワークに基づくランキングモデルが特権情報を利用するのは初めてです。 Afew-VAデータセット上で提案したモデルの性能を評価し,特権情報を使用しないRランクネットモデルと比較した。 実験の結果, AffRankNet+モデルでは性能が大幅に向上した。

Many of the affect modelling tasks present an asymmetric distribution of information between training and test time; additional information is given about the training data, which is not available at test time. Learning under this setting is called Learning Under Privileged Information (LUPI). At the same time, due to the ordinal nature of affect annotations, formulating affect modelling tasks as supervised learning ranking problems is gaining ground within the Affective Computing research community. Motivated by the two facts above, in this study, we introduce a ranking model that treats additional information about the training data as privileged information to accurately rank affect states. Our ranking model extends the well-known RankNet model to the LUPI paradigm, hence its name AffRankNet+. To the best of our knowledge, it is the first time that a ranking model based on neural networks exploits privileged information. We evaluate the performance of the proposed model on the public available Afew-VA dataset and compare it against the RankNet model, which does not use privileged information. Experimental evaluation indicates that the AffRankNet+ model can yield significantly better performance.
翻訳日:2021-08-13 14:27:23 公開日:2021-08-12
# 神経抽象化の制約に対する数学的アプローチと高次認知へのスケールに必要なメカニズム

A Mathematical Approach to Constraining Neural Abstraction and the Mechanisms Needed to Scale to Higher-Order Cognition ( http://arxiv.org/abs/2108.05494v1 )

ライセンス: Link先を確認
Ananta Nair(参考訳) 人工知能は過去10年で大きな進歩を遂げてきたが、人工知能の最もよく知られている例である人間の脳にはまだ及ばない。 神経のプロセスについてはあまり知られていないが、脳は、柔軟に動的に結合し、再結合し、新しい方法で適用できる知識構造を創り出す能力の限界をはるかに越えて、跳躍を実現することができる。 本稿では,グラフ理論とスペクトルグラフ理論を用いた数学的アプローチを提案する。 この仮説は階層的に応用され、最小から最大の知識の集合にスケールアップされ、最終的にはモデルの構築と推論に繋がる。

Artificial intelligence has made great strides in the last decade but still falls short of the human brain, the best-known example of intelligence. Not much is known of the neural processes that allow the brain to make the leap to achieve so much from so little beyond its ability to create knowledge structures that can be flexibly and dynamically combined, recombined, and applied in new and novel ways. This paper proposes a mathematical approach using graph theory and spectral graph theory, to hypothesize how to constrain these neural clusters of information based on eigen-relationships. This same hypothesis is hierarchically applied to scale up from the smallest to the largest clusters of knowledge that eventually lead to model building and reasoning.
翻訳日:2021-08-13 14:26:51 公開日:2021-08-12
# 熊を椅子に乗せろ! ロボットイマジネーションによる従来の見えない物体との知能ロボットインタラクション

Put the Bear on the Chair! Intelligent Robot Interaction with Previously Unseen Objects via Robot Imagination ( http://arxiv.org/abs/2108.05539v1 )

ライセンス: Link先を確認
Hongtao Wu, Xin Meng, Sipu Ruan, Gregory Chirikjian(参考訳) 本稿では,テディベアをそれまで目に見えない椅子に自律的に設置する問題について検討する。 この目的を達成するために、椅子に座っている仮想ヒューマノイドエージェントを物理的にシミュレートすることで、クマの座るポーズをロボットが想像する新しい方法を提案する。 また、運動計画を利用して、人間型ロボットが椅子に歩けるようSE(2)運動を計画し、その上に熊を乗せる全身運動を計画するロボットシステムを開発した。 さらに、椅子がクマを配置するためのアクセス可能な姿勢になっていない場合に対処するために、人間がロボットが椅子を回転させ、椅子をアクセスしやすくするための言語指示に従う、人間とロボットの相互作用(hri)フレームワークを導入する。 我々はロボットアームとヒューマノイドロボットを用いて本手法を実装した。 提案するシステムを3つの椅子で校正し,未発見の12の椅子に広く適用可能なポーズとアクセス不能なポーズでテストを行う。 その結果,ロボットがテディベアを12個の目立たずの椅子に自律的に設置し,成功率が高いことがわかった。 HRIフレームワークは椅子のアクセシビリティを変更するのに非常に効果的であることも示されている。 ソースコードは利用可能である。 ビデオデモはhttps://chirikjianla b.github.io/putbearo nchair/で見ることができる。

In this letter, we study the problem of autonomously placing a teddy bear on a previously unseen chair for sitting. To achieve this goal, we present a novel method for robots to imagine the sitting pose of the bear by physically simulating a virtual humanoid agent sitting on the chair. We also develop a robotic system which leverages motion planning to plan SE(2) motions for a humanoid robot to walk to the chair and whole-body motions to put the bear on it, respectively. Furthermore, to cope with the cases where the chair is not in an accessible pose for placing the bear, a human-robot interaction (HRI) framework is introduced in which a human follows language instructions given by the robot to rotate the chair and help make the chair accessible. We implement our method with a robot arm and a humanoid robot. We calibrate the proposed system with 3 chairs and test on 12 previously unseen chairs in both accessible and inaccessible poses extensively. Results show that our method enables the robot to autonomously put the teddy bear on the 12 unseen chairs with a very high success rate. The HRI framework is also shown to be very effective in changing the accessibility of the chair. Source code will be available. Video demos are available at https://chirikjianla b.github.io/putbearo nchair/.
翻訳日:2021-08-13 14:26:38 公開日:2021-08-12
# 不均一グラフニューラルネットワークを用いたセッションベースレコメンデーション

Session-based Recommendation with Heterogeneous Graph Neural Network ( http://arxiv.org/abs/2108.05641v1 )

ライセンス: Link先を確認
Jinpeng Chen, Haiyang Li, Fan Zhang, Senzhang Wang, and Kaimin Wei(参考訳) Session-Based Recommendation Systemの目的は、前のセッションシーケンスに従ってユーザの次のクリックを予測することである。 本研究は一般に,ユーザのセッションシーケンスの項目の遷移に応じてユーザの好みを学習する。 しかし、セッションシーケンス内の他の効果的な情報、例えばユーザプロファイルは無視されているため、モデルがユーザの特定の好みを学習できない可能性がある。 本稿では、異種グラフニューラルネットワーク(HetGNN)によるセッション埋め込みを学習し、匿名ユーザの特定の好みを把握できる、SR-HetGNNという、異種グラフニューラルネットワークに基づくセッションレコメンデーション手法を提案する。 具体的には、SR-HetGNNはセッションシーケンスに従って、さまざまな種類のノードを含む異種グラフを構築し、アイテム、ユーザ、セッション間の依存関係をキャプチャする。 第二に、HetGNNはアイテム間の複雑な遷移を捉え、ユーザ情報を含むアイテムの埋め込みを学習する。 最後に,ユーザの長期的・短期的嗜好の影響を考慮し,地域的・グローバルなセッション埋め込みと注目ネットワークを組み合わせることで,最終セッション埋め込みを得る。 SR-HetGNNは、DigineticaとTmallの2つの実際の大規模データセットに対する広範な実験を通じて、既存の最先端セッションベースのレコメンデーション手法よりも優れていることが示されている。

The purpose of the Session-Based Recommendation System is to predict the user's next click according to the previous session sequence. The current studies generally learn user preferences according to the transitions of items in the user's session sequence. However, other effective information in the session sequence, such as user profiles, are largely ignored which may lead to the model unable to learn the user's specific preferences. In this paper, we propose a heterogeneous graph neural network-based session recommendation method, named SR-HetGNN, which can learn session embeddings by heterogeneous graph neural network (HetGNN), and capture the specific preferences of anonymous users. Specifically, SR-HetGNN first constructs heterogeneous graphs containing various types of nodes according to the session sequence, which can capture the dependencies among items, users, and sessions. Second, HetGNN captures the complex transitions between items and learns the item embeddings containing user information. Finally, to consider the influence of users' long and short-term preferences, local and global session embeddings are combined with the attentional network to obtain the final session embedding. SR-HetGNN is shown to be superior to the existing state-of-the-art session-based recommendation methods through extensive experiments over two real large datasets Diginetica and Tmall.
翻訳日:2021-08-13 14:26:16 公開日:2021-08-12
# Lutz's Spoiler Technique Revisited: An Unified Approach to Worst-Case Optimal Entailment of Conjunctive Queries in Locally-Forward Description Logics

Lutz's Spoiler Technique Revisited: A Unified Approach to Worst-Case Optimal Entailment of Unions of Conjunctive Queries in Locally-Forward Description Logics ( http://arxiv.org/abs/2108.05680v1 )

ライセンス: Link先を確認
Bartosz Bednarczyk(参考訳) 本稿では,「局所フォワード」記述論理の幅広いクラスにおける結合クエリ(u)cqsの(有限かつ非制限の)最悪の場合の最適包含に関する統一的アプローチを提案する。 私たちが採用する主なテクニックは、元来alchqのcq対応のために開発されたlutzのスポイラーテクニックの一般化です。 以上の結果から,alchbregqに含まれるalcの表層相に対する(u)cq問合せの時間的完全性が示唆され,多くの新たなシナリオにおいてブラックボックスとして採用されるのに十分な抽象性が得られた。

We present a unified approach to (both finite and unrestricted) worst-case optimal entailment of (unions of) conjunctive queries (U)CQs in the wide class of "locally-forward" ; description logics. The main technique that we employ is a generalisation of Lutz's spoiler technique, originally developed for CQ entailment in ALCHQ. Our result closes numerous gaps present in the literature, most notably implying ExpTime-completeness of (U)CQ-querying for any superlogic of ALC contained in ALCHbregQ, and, as we believe, is abstract enough to be employed as a black-box in many new scenarios.
翻訳日:2021-08-13 14:25:53 公開日:2021-08-12
# bridger: 科学フィルターバブルの破裂と新規著者発見によるイノベーションの促進に向けて

Bridger: Toward Bursting Scientific Filter Bubbles and Boosting Innovation via Novel Author Discovery ( http://arxiv.org/abs/2108.05669v1 )

ライセンス: Link先を確認
Jason Portenoy, Marissa Radensky, Jevin West, Eric Horvitz, Daniel Weld and Tom Hope(参考訳) 科学的なサイロはイノベーションを妨げる。 これらの情報「フィルターバブル」と情報過負荷の課題は文学全体において認識を制限し、新たなものの発見はさておき、より狭い関心領域の追跡を困難にしている。 アルゴリズムによるキュレーションとレコメンデーションは、しばしば関連性を重視し、これらのバブルをさらに強化することができる。 これに対し、Bridgerは、研究者とその研究の発見を促進するシステムであり、関連する新しい推奨事項間のデザイントレードオフを探索する。 論文から抽出した情報と推定されたペルソナを用いて著者の対面表現を構築する。 我々は、新しいコンテンツの推薦と、慣れ親しんでいない著者の仕事を研究者が理解するのに役立つ方法で表示することの両方のアプローチを探求する。 コンピュータサイエンス研究者による研究では、このアプローチはユーザーの能力を大幅に向上させる。 我々は、科学者間の共通点とコントラストを見つけるアプローチを開発し、厳密な類似性ではなく、部分的に類似した著者を回収する。 このアプローチは、最先端のニューラルモデルよりも高い速度で、仕事に関連性のある新しい研究アイデアを生み出すのに役立つ著者を見つけるのに役立つ。 分析の結果、ブリッジャーは、異なる引用プロファイルを持ち、異なる会場で出版し、社会的共著者ネットワークでより遠い著者を結びつけ、多様なコミュニティを橋渡しし、発見を促進する可能性を高めていることが明らかとなった。

Scientific silos can hinder innovation. These information "filter bubbles" and the growing challenge of information overload limit awareness across the literature, making it difficult to keep track of even narrow areas of interest, let alone discover new ones. Algorithmic curation and recommendation, which often prioritize relevance, can further reinforce these bubbles. In response, we describe Bridger, a system for facilitating discovery of scholars and their work, to explore design tradeoffs among relevant and novel recommendations. We construct a faceted representation of authors using information extracted from their papers and inferred personas. We explore approaches both for recommending new content and for displaying it in a manner that helps researchers to understand the work of authors who they are unfamiliar with. In studies with computer science researchers, our approach substantially improves users' abilities to do so. We develop an approach that locates commonalities and contrasts between scientists---retriev ing partially similar authors, rather than aiming for strict similarity. We find this approach helps users discover authors useful for generating novel research ideas of relevance to their work, at a higher rate than a state-of-art neural model. Our analysis reveals that Bridger connects authors who have different citation profiles, publish in different venues, and are more distant in social co-authorship networks, raising the prospect of bridging diverse communities and facilitating discovery.
翻訳日:2021-08-13 14:25:38 公開日:2021-08-12
# パッチワーク:3次元LiDARセンサを用いた地盤形状推定による同心域型地域区分

Patchwork: Concentric Zone-based Region-wise Ground Segmentation with Ground Likelihood Estimation Using a 3D LiDAR Sensor ( http://arxiv.org/abs/2108.05560v1 )

ライセンス: Link先を確認
Hyungtae Lim, Minho Oh, Hyun Myung(参考訳) 地上のセグメンテーションは、地上の移動プラットフォームがナビゲーションや隣接する物体認識を行うために不可欠である。 残念なことに、地面は急な斜面、曲がりくねった道路、あるいは縁石や花壇などの物体を特徴としているため、平らではない。 この問題に対処するため,本論文では,低セグメンテーション問題に対処し,40Hz以上の動作が可能な新しいグラウンドセグメンテーション法である「textit{Patchwork}」を提案する。 本稿では, 点雲を同心域モデルに基づく表現に符号化し, 計算的に複雑でない方法で, ビン間の雲点の適切な密度を割り当てる。 これに続いて、各ビンの部分的な接地を推定するために、リージョンワイドの接地面フィッティングが行われる。 最後に、偽陽性を劇的に減らすために、Sarth Likelihood Estimationを導入する。 提案手法は,SemanticKITTIおよび粗地形データセットで実験的に検証され,現状の手法と比較して有望な性能を示し,既存の平面フィッティング法と比較して高速な性能を示す。 コードは:https://github.com/ LimHyungTae/patchwor k

Ground segmentation is crucial for terrestrial mobile platforms to perform navigation or neighboring object recognition. Unfortunately, the ground is not flat, as it features steep slopes; bumpy roads; or objects, such as curbs, flower beds, and so forth. To tackle the problem, this paper presents a novel ground segmentation method called \textit{Patchwork}, which is robust for addressing the under-segmentation problem and operates at more than 40 Hz. In this paper, a point cloud is encoded into a Concentric Zone Model-based representation to assign an appropriate density of cloud points among bins in a way that is not computationally complex. This is followed by Region-wise Ground Plane Fitting, which is performed to estimate the partial ground for each bin. Finally, Ground Likelihood Estimation is introduced to dramatically reduce false positives. As experimentally verified on SemanticKITTI and rough terrain datasets, our proposed method yields promising performance compared with the state-of-the-art methods, showing faster speed compared with existing plane fitting--based methods. Code is available: https://github.com/L imHyungTae/patchwork
翻訳日:2021-08-13 14:25:14 公開日:2021-08-12
# Deep Camera Obscura:レンズレスピンホール撮影のための画像修復パイプライン

Deep Camera Obscura: An Image Restoration Pipeline for Lensless Pinhole Photography ( http://arxiv.org/abs/2108.05563v1 )

ライセンス: Link先を確認
Joshua D. Rego, Huaijin Chen, Shuai Li, Jinwei Gu, Suren Jayasuriya(参考訳) レンズレスピンホールカメラは、おそらくレンズの代わりにピンホールサイズの開口部のみを使用する撮像システムの最も早く、最も単純な形態である。 被写界深度を無限に捉え、レンズベースのレンズよりも光歪みがより自由になる。 しかし、ピンホール系固有の限界は、光学回折によるぼかしによるシャープネスの低下と、小さな開口部の光のスループットの低下によるノイズレベルの上昇を招き、よく露出した画像をキャプチャするのに非常に長い露光時間を要する。 本稿では, ピンホールシステムの深層学習とドメイン知識を用いた画像復元パイプラインを探索し, ジョイント denoise と deblur によるピンホール画像の品質向上を図る。 このアプローチは、手持ち写真の露光時間をより実用的なものにし、高い画質を提供し、サイズとコストを低く保ちながら、他のレンズレスカメラよりも日々の撮影に適しています。 これにより、スマートフォンなどの小型デバイスで使用されるピンホールカメラの可能性が開ける。

The lensless pinhole camera is perhaps the earliest and simplest form of an imaging system using only a pinhole-sized aperture in place of a lens. They can capture an infinite depth-of-field and offer greater freedom from optical distortion over their lens-based counterparts. However, the inherent limitations of a pinhole system result in lower sharpness from blur caused by optical diffraction and higher noise levels due to low light throughput of the small aperture, requiring very long exposure times to capture well-exposed images. In this paper, we explore an image restoration pipeline using deep learning and domain-knowledge of the pinhole system to enhance the pinhole image quality through a joint denoise and deblur approach. Our approach allows for more practical exposure times for hand-held photography and provides higher image quality, making it more suitable for daily photography compared to other lensless cameras while keeping size and cost low. This opens up the potential of pinhole cameras to be used in smaller devices, such as smartphones.
翻訳日:2021-08-13 14:24:50 公開日:2021-08-12
# オフロード非構造自然環境のためのメモリベースセマンティックセマンティックセグメンテーション

Memory-based Semantic Segmentation for Off-road Unstructured Natural Environments ( http://arxiv.org/abs/2108.05635v1 )

ライセンス: Link先を確認
Youngsaeng Jin, David K. Han and Hanseok Ko(参考訳) 都市景観における自律走行に適した多くのデータセットが利用可能となり、都市走行シーンのセマンティックセグメンテーションは大きな進歩を遂げた。 しかし、オフロード、非構造化環境のセマンティクスセグメンテーションは広く研究されていない。 既存のセグメンテーションネットワークを直接適用すると、照明などの環境における固有の問題を克服できないため、性能が劣化することが多い。 本稿では,これらの問題を解決するためにセマンティックセグメンテーションのためのメモリモジュールを提案する。 メモリモジュールはトレーニングイメージのかなりの表現をメモリアイテムとして格納する。 アイテムを埋め込んだエンコーダに加えて、提案するメモリモジュールは、組み込み機能に大きな違いがある場合でも、同じクラスのインスタンスをクラスタリングするように特別に設計されている。 そのため、セグメンテーションネットワークは、予期せぬ照明変更に対処する。 三重項損失は、メモリモジュールの識別表現を格納する冗長性を最小化するためにトレーニングに使用される。 提案したメモリモジュールは、様々なネットワークで採用できるように一般化されている。 オフロード・非構造化自然環境から収集したrugd(robot unstructured ground driving)データセットとrellisデータセットについて実験を行った。 実験の結果,提案するメモリモジュールは,既存のセグメンテーションネットワークの性能を向上し,計算コストとネットワークパラメータの等価な,様々なオフロード,非構造化自然シーン上の不明瞭なオブジェクトをキャプチャするのに役立つことがわかった。 提案手法は小型ネットワークに組み込むことができるため,資源限定の小型自律型プラットフォームの実現が可能である。

With the availability of many datasets tailored for autonomous driving in real-world urban scenes, semantic segmentation for urban driving scenes achieves significant progress. However, semantic segmentation for off-road, unstructured environments is not widely studied. Directly applying existing segmentation networks often results in performance degradation as they cannot overcome intrinsic problems in such environments, such as illumination changes. In this paper, a built-in memory module for semantic segmentation is proposed to overcome these problems. The memory module stores significant representations of training images as memory items. In addition to the encoder embedding like items together, the proposed memory module is specifically designed to cluster together instances of the same class even when there are significant variances in embedded features. Therefore, it makes segmentation networks better deal with unexpected illumination changes. A triplet loss is used in training to minimize redundancy in storing discriminative representations of the memory module. The proposed memory module is general so that it can be adopted in a variety of networks. We conduct experiments on the Robot Unstructured Ground Driving (RUGD) dataset and RELLIS dataset, which are collected from off-road, unstructured natural environments. Experimental results show that the proposed memory module improves the performance of existing segmentation networks and contributes to capturing unclear objects over various off-road, unstructured natural scenes with equivalent computational cost and network parameters. As the proposed method can be integrated into compact networks, it presents a viable approach for resource-limited small autonomous platforms.
翻訳日:2021-08-13 14:24:32 公開日:2021-08-12
# 近似アーチ型解析のための確率論的手法

Probabilistic methods for approximate archetypal analysis ( http://arxiv.org/abs/2108.05767v1 )

ライセンス: Link先を確認
Ruijian Han, Braxton Osting, Dong Wang, Yiming Xu(参考訳) Archetypal Analysisは探索データ分析のための教師なし学習手法である。 アーキティパル解析の適用性を制限する大きな課題の1つは、既存のアルゴリズム固有の計算複雑性である。 本稿では,この問題を部分的に解決するための新しい近似手法を提案する。 確率的アイデアを高次元幾何から利用して,データの次元と表現の濃度をそれぞれ減少させる2つの前処理手法を導入する。 低次元の線型部分空間におおむね埋め込まれており、対応する表現の凸包がいくつかの頂点を持つポリトープによってよく近似されている場合、本手法はアーチ型解析のスケーリングを効果的に低減できることを示す。 さらに、還元問題の解は予測誤差の点でほぼ最適である。 本手法は他の加速度法と組み合わせることで,根本的解析の複雑さをさらに軽減することができる。 本手法を適度な大規模データセットの要約に応用し,本手法の有用性を示す。

Archetypal analysis is an unsupervised learning method for exploratory data analysis. One major challenge that limits the applicability of archetypal analysis in practice is the inherent computational complexity of the existing algorithms. In this paper, we provide a novel approximation approach to partially address this issue. Utilizing probabilistic ideas from high-dimensional geometry, we introduce two preprocessing techniques to reduce the dimension and representation cardinality of the data, respectively. We prove that, provided the data is approximately embedded in a low-dimensional linear subspace and the convex hull of the corresponding representations is well approximated by a polytope with a few vertices, our method can effectively reduce the scaling of archetypal analysis. Moreover, the solution of the reduced problem is near-optimal in terms of prediction errors. Our approach can be combined with other acceleration techniques to further mitigate the intrinsic complexity of archetypal analysis. We demonstrate the usefulness of our results by applying our method to summarize several moderately large-scale datasets.
翻訳日:2021-08-13 14:24:05 公開日:2021-08-12
# 条件付きシーケンシャルスレート最適化

Conditional Sequential Slate Optimization ( http://arxiv.org/abs/2108.05618v1 )

ライセンス: Link先を確認
Yipeng Zhang, Mingjian Lu, Saratchandra Indrakanti, Manojkumar Rangasamy Kannadasan, Abraham Bagherjeiran(参考訳) 第1ページに表示されたユーザクエリにマッチする上位検索結果は、検索システムの有効性と知覚に極めて重要である。 検索ランキングシステムは通常、検索結果を独立したクエリ文書スコアで順序付けし、検索結果のスレートを生成する。 しかし、そのような一方的なスコアリング手法は、ユーザが敏感なドキュメント間の依存関係をキャプチャできないため、サブ最適スレートを生成する。 さらに,eコマース検索のような現実のアプリケーションの多くは,ビジネス目的や長期のユーザ保持目標のために,特定の流通基準をスレートレベルで強制する必要がある。 結果の一方的なスコアリングは、スレートに関してそのような目的の最適化を明示的にサポートしない。 したがって、スレート最適化問題の解法は、スレートレベルの分布基準に従うとともに、文書の最適選択と順序を考慮する必要がある。 そこで我々は,条件付きスレート最適化問題を解くために,従来のスレート最適化から拡張したハイブリッドフレームワークを提案する。 本稿では,従来のランク付け指標の最適化と,スレート内の文書の所定の分布基準を共同で学習する条件付きシーケンシャルスレート最適化(CSSO)を提案する。 提案手法は,eコマース検索結果の多様性の強化,トップ検索結果のバイアス軽減,結果のパーソナライズなど,現実的な課題に適用できる。 パブリックデータセットとeコマースデータセットによる実世界のデータに関する実験は、cssoが分布基準への順守という観点で、人気の高い比較ランキング手法を上回っていることを示している。

The top search results matching a user query that are displayed on the first page are critical to the effectiveness and perception of a search system. A search ranking system typically orders the results by independent query-document scores to produce a slate of search results. However, such unilateral scoring methods may fail to capture inter-document dependencies that users are sensitive to, thus producing a sub-optimal slate. Further, in practice, many real-world applications such as e-commerce search require enforcing certain distributional criteria at the slate-level, due to business objectives or long term user retention goals. Unilateral scoring of results does not explicitly support optimizing for such objectives with respect to a slate. Hence, solutions to the slate optimization problem must consider the optimal selection and order of the documents, along with adherence to slate-level distributional criteria. To that end, we propose a hybrid framework extended from traditional slate optimization to solve the conditional slate optimization problem. We introduce conditional sequential slate optimization (CSSO), which jointly learns to optimize for traditional ranking metrics as well as prescribed distribution criteria of documents within the slate. The proposed method can be applied to practical real world problems such as enforcing diversity in e-commerce search results, mitigating bias in top results and personalization of results. Experiments on public datasets and real-world data from e-commerce datasets show that CSSO outperforms popular comparable ranking methods in terms of adherence to distributional criteria while producing comparable or better relevance metrics.
翻訳日:2021-08-13 14:23:05 公開日:2021-08-12
# 動的注意に基づくコミュニケーション効率のよい連合学習

Dynamic Attention-based Communication-Effici ent Federated Learning ( http://arxiv.org/abs/2108.05765v1 )

ライセンス: Link先を確認
Zihan Chen, Kai Fong Ernest Chong, Tony Q. S. Quek(参考訳) フェデレートラーニング(FL)は、クライアントにローカルに保存されたデータにアクセスすることなく、データのプライバシを維持しながら、グローバル機械学習モデルをトレーニングするソリューションを提供する。 しかし、FLはクライアントデータの分散が非IIDである場合に性能劣化に悩まされ、この劣化に対処するための長い訓練期間は通信制限のため必ずしも実現できない。 この課題に対処するために,新しい適応学習アルゴリズムである$\texttt{adafl}$を提案する。これは, (i) クライアント間の公平なトレーニングスキームのための注意に基づくクライアント選択機構, (ii) パフォーマンスの安定性と通信効率のトレードオフをバランスさせる動的分数法である。 実験の結果、我々の$\texttt{adafl}$アルゴリズムは、通常の$\texttt{fedavg}$アルゴリズムよりも優れており、モデル精度、性能安定性、通信効率の3つの側面に関して、様々な最先端flアルゴリズムをさらに改善するために組み込むことができる。

Federated learning (FL) offers a solution to train a global machine learning model while still maintaining data privacy, without needing access to data stored locally at the clients. However, FL suffers performance degradation when client data distribution is non-IID, and a longer training duration to combat this degradation may not necessarily be feasible due to communication limitations. To address this challenge, we propose a new adaptive training algorithm $\texttt{AdaFL}$, which comprises two components: (i) an attention-based client selection mechanism for a fairer training scheme among the clients; and (ii) a dynamic fraction method to balance the trade-off between performance stability and communication efficiency. Experimental results show that our $\texttt{AdaFL}$ algorithm outperforms the usual $\texttt{FedAvg}$ algorithm, and can be incorporated to further improve various state-of-the-art FL algorithms, with respect to three aspects: model accuracy, performance stability, and communication efficiency.
翻訳日:2021-08-13 14:22:41 公開日:2021-08-12
# デコーダフュージョンRNN:軌道予測のためのデコーダのコンテキストとインタラクション

Decoder Fusion RNN: Context and Interaction Aware Decoders for Trajectory Prediction ( http://arxiv.org/abs/2108.05814v1 )

ライセンス: Link先を確認
Edoardo Mello Rella (1), Jan-Nico Zaech (1), Alexander Liniger (1), Luc Van Gool (1 and 2) ((1) Computer Vision Lab, ETH Z\"uurich (2) PSI, KU Leuven)(参考訳) 周囲の交通機関の将来の行動を予測することは、安全で信頼性の高い自動運転システムを実現するための重要な課題である。 エージェントは、意図、他者の行動、および道路レイアウトに応じて行動を調整するため、難しい問題である。 本稿では,動き予測のための繰り返し注意に基づくアプローチであるDecoder Fusion RNN (DF-RNN)を提案する。 我々のネットワークは、繰り返し振舞いエンコーダ、エージェント間マルチヘッドアテンションモジュール、コンテキスト認識デコーダで構成されている。 ポリラインセグメントを埋め込み、グラフ構造を作成するためにそれらを結合し、それらの関連部分とエージェントの埋め込みをマージするマップエンコーダを設計する。 符号化された地図情報をデコーダ内でのみ、さらにエージェント間相互作用で融合し、利用可能な情報を効果的に活用する方法として明示的なトレーニングを提案する。 本手法の有効性をargoverse motion forecasting dataset上で検証し,その最新性能を公開ベンチマークで示す。

Forecasting the future behavior of all traffic agents in the vicinity is a key task to achieve safe and reliable autonomous driving systems. It is a challenging problem as agents adjust their behavior depending on their intentions, the others' actions, and the road layout. In this paper, we propose Decoder Fusion RNN (DF-RNN), a recurrent, attention-based approach for motion forecasting. Our network is composed of a recurrent behavior encoder, an inter-agent multi-headed attention module, and a context-aware decoder. We design a map encoder that embeds polyline segments, combines them to create a graph structure, and merges their relevant parts with the agents' embeddings. We fuse the encoded map information with further inter-agent interactions only inside the decoder and propose to use explicit training as a method to effectively utilize the information available. We demonstrate the efficacy of our method by testing it on the Argoverse motion forecasting dataset and show its state-of-the-art performance on the public benchmark.
翻訳日:2021-08-13 14:22:17 公開日:2021-08-12
# COVINS: 集中コラボレーションのためのビジュアル慣性SLAM

COVINS: Visual-Inertial SLAM for Centralized Collaboration ( http://arxiv.org/abs/2108.05756v1 )

ライセンス: Link先を確認
Patrik Schmuck, Thomas Ziegler, Marco Karrer, Jonathan Perraudin, Margarita Chli(参考訳) コラボレーティブslamにより、エージェントのグループが同時に環境をローカライズし、協調的にマップすることが可能となり、外部インフラストラクチャや事前構築されたマップの必要性をなくし、マルチロボット認識やマルチユーザarエクスペリエンスの幅広いアプリケーションへの道を開くことができる。 この記事では、大規模環境および10以上のエージェントからなる大規模チームにおいて、マルチエージェントでスケーラブルなSLAMを可能にする、新しい協調SLAMシステムであるCOVINSについて述べる。 ここでのパラダイムは、各エージェントが独立して視覚的慣性オドメティを実行し、その自律性を確保すると同時に、強力なローカルPCまたはリモートクラウドサーバ上で動作するCOVINSサーババックエンドとマップ情報を共有することである。 サーババックエンドは、コントリビューションされたデータから正確な協調的グローバルな見積もりを確立し、正確なSLAMプロセスを保証するために、場所認識、グローバルな最適化、冗長なデータの除去によって共同見積を精算する。 COVINSの徹底的な評価により、協調SLAM推定の精度が向上し、冗長情報の除去と調整オーバーヘッドの低減の効率が向上し、12のエージェントが共同でSLAMを行う大規模ミッションでの運用が成功した。

Collaborative SLAM enables a group of agents to simultaneously co-localize and jointly map an environment, thus paving the way to wide-ranging applications of multi-robot perception and multi-user AR experiences by eliminating the need for external infrastructure or pre-built maps. This article presents COVINS, a novel collaborative SLAM system, that enables multi-agent, scalable SLAM in large environments and for large teams of more than 10 agents. The paradigm here is that each agent runs visual-inertial odomety independently onboard in order to ensure its autonomy, while sharing map information with the COVINS server back-end running on a powerful local PC or a remote cloud server. The server back-end establishes an accurate collaborative global estimate from the contributed data, refining the joint estimate by means of place recognition, global optimization and removal of redundant data, in order to ensure an accurate, but also efficient SLAM process. A thorough evaluation of COVINS reveals increased accuracy of the collaborative SLAM estimates, as well as efficiency in both removing redundant information and reducing the coordination overhead, and demonstrates successful operation in a large-scale mission with 12 agents jointly performing SLAM.
翻訳日:2021-08-13 14:21:59 公開日:2021-08-12
# 文脈推論を用いたセマンティクス・ネイティブコミュニケーション

Semantics-Native Communication with Contextual Reasoning ( http://arxiv.org/abs/2108.05681v1 )

ライセンス: Link先を確認
Hyowoon Seo, Jihong Park, Mehdi Bennis, M\'erouane Debbah(参考訳) 近年,Shannon 以降のコミュニケーションに対する関心が高まり,セマンティクスを活用することで,タスク間のコミュニケーション効率が大幅に向上することが示されている。 本稿では,人的コミュニケーションに触発されて,話者がエンティティを参照し,セマンティクスを抽出し,そのシンボル表現を対象リスナーに伝達する,汎用タスクのためのシステム1意味論的コミュニケーション(SNC)の新しい確率モデルを提案する。 さらに、その潜在能力を最大限に発揮するために、話者が局所的にかつ反復的に自己通信を行うように文脈推論をSNCに注入し、物理的リスナー独自の意味論、すなわちコミュニケーションコンテキストをコーディングする仮想エージェントを構築する。 System 2 SNCは、話者がリスナーの最も効果的な意味を抽出することを可能にする。 提案した確率モデルを用いて,システム2SNCの信頼性は意味概念の数に応じて向上し,抽出した有効意味論を定量化する期待意味表現(SR)ビット長が導出されることを示す。 また,システム2 SNCは,通信信頼性を損なうことなく,SR長を大幅に削減することを示した。

Spurred by a huge interest in the post-Shannon communication, it has recently been shown that leveraging semantics can significantly improve the communication effectiveness across many tasks. In this article, inspired by human communication, we propose a novel stochastic model of System 1 semantics-native communication (SNC) for generic tasks, where a speaker has an intention of referring to an entity, extracts the semantics, and communicates its symbolic representation to a target listener. To further reach its full potential, we additionally infuse contextual reasoning into SNC such that the speaker locally and iteratively self-communicates with a virtual agent built on the physical listener's unique way of coding its semantics, i.e., communication context. The resultant System 2 SNC allows the speaker to extract the most effective semantics for its listener. Leveraging the proposed stochastic model, we show that the reliability of System 2 SNC increases with the number of meaningful concepts, and derive the expected semantic representation (SR) bit length which quantifies the extracted effective semantics. It is also shown that System 2 SNC significantly reduces the SR length without compromising communication reliability.
翻訳日:2021-08-13 14:21:36 公開日:2021-08-12
# RW-Resnet:生波形を用いた新しい音声アンチスプーフィングモデル

RW-Resnet: A Novel Speech Anti-Spoofing Model Using Raw Waveform ( http://arxiv.org/abs/2108.05684v1 )

ライセンス: Link先を確認
Youxuan Ma, Zongze Ren, Shugong Xu(参考訳) 近年,TTS(Advanced Text-to-Speech)システムとVC(Voice conversion)システムによって生成される合成音声は,自動話者検証(ASV)システムに大きな打撃を与え,ASVシステムを保護するための合成音声検出システムの設計を促している。 本稿では,ResWavegram-Resnet( RW-Resnet)という新しい音声合成モデルを提案する。 モデルにはConv1D ResblocksとBackbone Resnet34という2つの部分が含まれている。 Conv1D Resblockは残コネクションを持つConv1Dブロックに基づいている。 まず最初に、生波形を入力として使用し、それを積み重ねたConv1D Resblocksに供給してResWavegramを得る。 従来の手法と比較して、ResWavegramは音声信号から全ての情報を保存し、特徴を抽出する能力が強い。 第2部では、抽出された特徴をspoofed又はbonafide決定のためにbackbone resnet34に供給する。 ASVspoof2019 論理アクセス (LA) コーパスを用いて提案した RW-Resnet の評価を行った。 実験の結果、RW-Resnetは他の最先端のアンチスプーフィングモデルよりも優れた性能を示し、合成音声攻撃の検出の有効性を示した。

In recent years, synthetic speech generated by advanced text-to-speech (TTS) and voice conversion (VC) systems has caused great harms to automatic speaker verification (ASV) systems, urging us to design a synthetic speech detection system to protect ASV systems. In this paper, we propose a new speech anti-spoofing model named ResWavegram-Resnet (RW-Resnet). The model contains two parts, Conv1D Resblocks and backbone Resnet34. The Conv1D Resblock is based on the Conv1D block with a residual connection. For the first part, we use the raw waveform as input and feed it to the stacked Conv1D Resblocks to get the ResWavegram. Compared with traditional methods, ResWavegram keeps all the information from the audio signal and has a stronger ability in extracting features. For the second part, the extracted features are fed to the backbone Resnet34 for the spoofed or bonafide decision. The ASVspoof2019 logical access (LA) corpus is used to evaluate our proposed RW-Resnet. Experimental results show that the RW-Resnet achieves better performance than other state-of-the-art anti-spoofing models, which illustrates its effectiveness in detecting synthetic speech attacks.
翻訳日:2021-08-13 14:21:12 公開日:2021-08-12
# 手振り特性の予測可能性に関するマルチモーダル解析

Multimodal analysis of the predictability of hand-gesture properties ( http://arxiv.org/abs/2108.05762v1 )

ライセンス: Link先を確認
Taras Kucherenko, Rajmund Nagy, Michael Neff, Hedvig Kjellstr\"om, Gustav Eje Henter(参考訳) 身近な会話エージェントは、ジェスチャーで彼らのスピーチに同行できることの恩恵を受ける。 近年, ジェスチャ生成へのデータ駆動型アプローチが数多く提案されているが, 意味を伝達するジェスチャを連続的に生成できるかどうかは不明である。 現代ディープラーニングを用いて,音声テキストや音声からジェスチャ特性(フェーズ,カテゴリ,セマンティクス)を予測できるかを検討する。 広範にわたる実験において,ジェスチャの意味(意味やカテゴリー)に関連するジェスチャ特性は,テキストの特徴(タイムアライメントされたbert埋め込み)だけでは予測できるが,韻律的音声特徴からではなく,一方,リズム関連ジェスチャ特性(フェーズ)は音声,テキスト(単語レベルのタイミング情報を含む),あるいはその両方から予測できることを示した。 これらの結果は,機械学習モデルを用いて,具体的エージェントに内容的に意味のある共同音声ジェスチャーを付与できることを示唆するものである。

Embodied conversational agents benefit from being able to accompany their speech with gestures. Although many data-driven approaches to gesture generation have been proposed in recent years, it is still unclear whether such systems can consistently generate gestures that convey meaning. We investigate which gesture properties (phase, category, and semantics) can be predicted from speech text and/or audio using contemporary deep learning. In extensive experiments, we show that gesture properties related to gesture meaning (semantics and category) are predictable from text features (time-aligned BERT embeddings) alone, but not from prosodic audio features, while rhythm-related gesture properties (phase) on the other hand can be predicted from either audio, text (with word-level timing information), or both. These results are encouraging as they indicate that it is possible to equip an embodied agent with content-wise meaningful co-speech gestures using a machine-learning model.
翻訳日:2021-08-13 14:20:50 公開日:2021-08-12
# Agnostic Online Learning and Excellent Sets

Agnostic Online Learning and Excellent Sets ( http://arxiv.org/abs/2108.05569v1 )

ライセンス: Link先を確認
Maryanthe Malliaris and Shay Moran(参考訳) 我々はモデル理論とコンビネータの相互作用、すなわち$k$-edge安定グラフ(つまりリトルストーンクラス)において ``$\epsilon$-excellent ,''' と呼ばれる大きな ``indivisible'' 集合の存在から重要なアイデアを再検討する。 確率の言語に換算すると、Littlestoneクラスにおける$\epsilon$-excellent 集合の存在証明は、オンライン学習における後悔すべき境界を用いて、かなり異なる。 この証明は、元の証明の$<{1}/{2^{2^k}}$ などと比較して、任意の$\epsilon < {1}/{2}$ に適用される。 閉包特性とVC定理を用いた第二の証明を含むが、その他の利点はあるがより弱い境界を持つ。 単純な系として、リトルストーン次元は定義に対する自然な修正の下で有限である。 これらの証明における1つのテーマは、測度と階数や次元から生じる2つの抽象的多数概念の相互作用である。 最後の節ではいくつかの未解決の問題を列挙している。

We revisit a key idea from the interaction of model theory and combinatorics, the existence of large ``indivisible'' sets, called ``$\epsilon$-excellent ,'' in $k$-edge stable graphs (equivalently, Littlestone classes). Translating to the language of probability, we find a quite different existence proof for $\epsilon$-excellent sets in Littlestone classes, using regret bounds in online learning. This proof applies to any $\epsilon < {1}/{2}$, compared to $< {1}/{2^{2^k}}$ or so in the original proof. We include a second proof using closure properties and the VC theorem, with other advantages but weaker bounds. As a simple corollary, the Littlestone dimension remains finite under some natural modifications to the definition. A theme in these proofs is the interaction of two abstract notions of majority, arising from measure, and from rank or dimension; we prove that these densely often coincide and that this is characteristic of Littlestone (stable) classes. The last section lists several open problems.
翻訳日:2021-08-13 14:20:30 公開日:2021-08-12
# ni-uda: 非共有および不均衡ビッグデータから小さな不均衡アプリケーションへのグラフ逆ドメイン適応

NI-UDA: Graph Adversarial Domain Adaptation from Non-shared-and-Imbal anced Big Data to Small Imbalanced Applications ( http://arxiv.org/abs/2108.05061v2 )

ライセンス: Link先を確認
Guangyi Xiao, Weiwei Xiang, Huan Liu, Hao Chen, Shun Peng, Jingzhi Guo and Zhiguo Gong(参考訳) 本稿では,非共有・不均衡なクラスを持つビッグデータから,非共有・不均衡なアプリケーション (NI-UDA) への非教師なしドメイン適応 (UDA) の問題を解決するための,クラス構造の意味的知識推論に基づく汎用グラフ適応型ドメイン適応 (GADA) を提案する。 私たちの目標は、優先順位階層の知識を活用して、グラフ推論によるドメインの逆アライメント機能表現を強化することです。 本稿では, NI-UDAにおける2つの課題に対処するため, 階層グラフ推論(HGR)層とソース分類フィルタ(SCF)を用いて, 対向領域適応を行う。 スパースクラス転送チャレンジでは、ノード予測によって階層グラフノードに局所的特徴を集約し、スパースクラスに対する階層グラフ推論によるドメイン逆アライメント機能を強化する。 我々のHGRは、自己注意、非線形マッピング、グラフ正規化における階層的注意によるスパースクラスの直接的な意味パターンの学習に貢献する。 我々のSCFは,低信頼な非共有データをHGR層にフィルタリングすることで,非共有データからの知識共有を負の伝達効果なしで実現する。 2つのベンチマークデータセットの実験では、GAD手法が最先端のUDAアルゴリズムを一貫して改善していることが示されている。 GADA(HGR) は、Meal300データセットにおける不均衡なソースタスクに対して、それぞれ \textbf{7.19\%} と GVB-GD によって MDD の f1 を大幅に改善することができる。 コードはhttps://gadatransfer .wixsite.com/gada.co mで入手できる。

We propose a new general Graph Adversarial Domain Adaptation (GADA) based on semantic knowledge reasoning of class structure for solving the problem of unsupervised domain adaptation (UDA) from the big data with non-shared and imbalanced classes to specified small and imbalanced applications (NI-UDA), where non-shared classes mean the label space out of the target domain. Our goal is to leverage priori hierarchy knowledge to enhance domain adversarial aligned feature representation with graph reasoning. In this paper, to address two challenges in NI-UDA, we equip adversarial domain adaptation with Hierarchy Graph Reasoning (HGR) layer and the Source Classifier Filter (SCF). For sparse classes transfer challenge, our HGR layer can aggregate local feature to hierarchy graph nodes by node prediction and enhance domain adversarial aligned feature with hierarchy graph reasoning for sparse classes. Our HGR contributes to learn direct semantic patterns for sparse classes by hierarchy attention in self-attention, non-linear mapping and graph normalization. our SCF is proposed for the challenge of knowledge sharing from non-shared data without negative transfer effect by filtering low-confidence non-shared data in HGR layer. Experiments on two benchmark datasets show our GADA methods consistently improve the state-of-the-art adversarial UDA algorithms, e.g. GADA(HGR) can greatly improve f1 of the MDD by \textbf{7.19\%} and GVB-GD by \textbf{7.89\%} respectively on imbalanced source task in Meal300 dataset. The code is available at https://gadatransfer .wixsite.com/gada.
翻訳日:2021-08-13 11:29:03 公開日:2021-08-12
# 自己教師付き学習は, きめ細かい頭部ポーズ推定にどのように役立つか?

How Self-Supervised Learning Can be Used for Fine-Grained Head Pose Estimation? ( http://arxiv.org/abs/2108.04893v2 )

ライセンス: Link先を確認
Mahdi Pourmirzaei and Gholam Ali Montazer and Farzaneh Esmaili(参考訳) 自己監視学習(SSL)の最近の進歩は、コンピュータビジョン分野におけるこれらの手法の能力を示している。 しかし、この進歩は、ヘッドポーズ推定のようなきめ細かいタスクの約束を示さなかった。 SSLはどのようにしてヘッドポーズ推定に使えるのか? 一般的にsslを使うための主なアプローチは2つある。 トレーニング済みのウェイトを使用することで、ImageNetでの事前トレーニングやSSLタスクで実行できる。 2. SSLをスーパーバイザードラーニング(SL)タスクに加えて、補助的なコトレーニングタスクとして活用する。 本研究では,sslプリテキストタスクとしてjigsaw puzzlingとローテーションの修正版を使用し,提案するハイブリッドマルチタスク学習 (hmtl) のための最善のアーキテクチャを見いだした。 最後に、ベースラインとしてHopeNet法を選択し、HMTLとSLの両方でSSL事前トレーニングとImageNet事前トレーニングの影響を比較した。 htmlメソッドによるエラー率は11%まで減少し、slと比較した。 さらにhmtl法では,ランダム,イメージネット,sslプリトレーニングウェイトなど,すべての初期重み付けが良好であった。 また,パズル画像を用いた場合,局所的な空間的特徴の重要性を示すSLとHMTLの平均誤差率をグローバルな空間的特徴と比較した。

Recent progress of Self-Supervised Learning (SSL) demonstrates the capability of these methods in computer vision field. However, this progress could not show any promises for fine-grained tasks such as Head Pose estimation. In this article, we have tried to answer a question: How SSL can be used for Head Pose estimation? In general, there are two main approaches to use SSL: 1. Using pre-trained weights which can be done via weights pre-training on ImageNet or via SSL tasks. 2. Leveraging SSL as an auxiliary co-training task besides of Supervised Learning (SL) tasks at the same time. In this study, modified versions of jigsaw puzzling and rotation as SSL pre-text tasks are used and the best architecture for our proposed Hybrid Multi-Task Learning (HMTL) is found. Finally, the HopeNet method as a baseline is selected and the impact of SSL pre-training and ImageNet pre-training on both HMTL and SL are compared. The error rate reduced by the HTML method up to 11% compare to the SL. Moreover, HMTL method showed that it was good with all kinds of initial weights: random, ImageNet and SSL pre-training weights. Also, it was observed, when puzzled images are used for SL alone, the average error rate placed between SL and HMTL which showed the importance of local spatial features compare to global spatial features.
翻訳日:2021-08-13 11:27:56 公開日:2021-08-12
# 逆気象下における3次元物体検出のための実LiDAR点雲の霧シミュレーション

Fog Simulation on Real LiDAR Point Clouds for 3D Object Detection in Adverse Weather ( http://arxiv.org/abs/2108.05249v2 )

ライセンス: Link先を確認
Martin Hahner, Christos Sakaridis, Dengxin Dai, Luc Van Gool(参考訳) 本研究は,霧の天候下でのLiDARによる3次元物体検出の課題に対処する。 このようなシナリオでデータの収集と注釈は、非常に時間と労力とコストがかかります。 本稿では,晴天時に収集された既存の実データ集合をタスクに再利用できるように,物理的に正確な霧をクリアウィーザーシーンにシミュレートすることで,この問題に取り組む。 1)任意のLiDARデータセットに適用可能な物理的に有効な霧シミュレーション手法を開発する。 これにより、大規模なフォグジートレーニングデータの取得は、追加コストなしで解放される。 これらの部分合成データは、実霧データ上での3次元物体検出と追跡、同時局在化とマッピングなど、複数の知覚方法のロバスト性を改善するために使用できる。 2) 最先端検出手法を用いた広範囲な実験により, 霧の存在下での3次元物体検出の性能向上にフォグシミュレーションを活用できることを実証した。 そこで,我々はフォグデータセットを用いた観測において,強い3次元物体検出ベースラインを最初に提供した。 私たちのコードはwww.trace.ethz.ch/li dar_fog_simulationで利用可能です。

This work addresses the challenging task of LiDAR-based 3D object detection in foggy weather. Collecting and annotating data in such a scenario is very time, labor and cost intensive. In this paper, we tackle this problem by simulating physically accurate fog into clear-weather scenes, so that the abundant existing real datasets captured in clear weather can be repurposed for our task. Our contributions are twofold: 1) We develop a physically valid fog simulation method that is applicable to any LiDAR dataset. This unleashes the acquisition of large-scale foggy training data at no extra cost. These partially synthetic data can be used to improve the robustness of several perception methods, such as 3D object detection and tracking or simultaneous localization and mapping, on real foggy data. 2) Through extensive experiments with several state-of-the-art detection approaches, we show that our fog simulation can be leveraged to significantly improve the performance for 3D object detection in the presence of fog. Thus, we are the first to provide strong 3D object detection baselines on the Seeing Through Fog dataset. Our code is available at www.trace.ethz.ch/li dar_fog_simulation.
翻訳日:2021-08-13 11:27:35 公開日:2021-08-12
# ホルダ拡大下における凸最適化のための不規則近点アルゴリズムの計算複雑性

Computational complexity of Inexact Proximal Point Algorithm for Convex Optimization under Holderian Growth ( http://arxiv.org/abs/2108.04482v3 )

ライセンス: Link先を確認
Andrei Patrascu, Paul Irofti(参考訳) 数十年前、PPA (Proximal Point Algorithm) は抽象演算子理論と数値最適化のコミュニティの両方に長期の魅力をもたらすと表明した。 現代の応用においても、研究者は非滑らかさを克服するスケーラブルなアルゴリズムを設計するために近位最小化理論を用いる。 Fer:91,Ber:82constra ined,Ber:89parallel, Tom:11} は PPA の収束挙動と目的関数の正則性の間の密接な関係を確立した。 この写本では、完全かつ不正確なPPAの漸近反復複雑性を導出し、凸関数を$\gamma-$Holderian growth: $\BigO{\log(1/\epsilon)}$($\gamma \in [1,2]$)および$\BigO{1/\epsilon^{\gamma - 2}}$($\gamma > 2$)で最小化する。 特に, ppa における有限収束と二次成長に対する線形収束について, 不正確性の存在下でもよく知られた結果が得られた。 しかしながら、各PPAイテレーションの計算に費やされる具体的な計算労力を考慮せずに、イテレーションの複雑さは抽象的で純粋に有益である。 したがって、不正確なPPA反復を計算する内部(近)勾配/下位のメソッドサブルーチンを用いて、第二に、目的関数の成長に関する情報がない場合に利用可能な、再実行された不正確なPPA上の新しい計算複雑性境界を示す。 数値実験により,本フレームワークの実用的性能と実装性を確認した。

\noindent Several decades ago the Proximal Point Algorithm (PPA) stated to gain a long-lasting attraction for both abstract operator theory and numerical optimization communities. Even in modern applications, researchers still use proximal minimization theory to design scalable algorithms that overcome nonsmoothness. Remarkable works as \cite{Fer:91,Ber:82constra ined,Ber:89parallel, Tom:11} established tight relations between the convergence behaviour of PPA and the regularity of the objective function. In this manuscript we derive nonasymptotic iteration complexity of exact and inexact PPA to minimize convex functions under $\gamma-$Holderian growth: $\BigO{\log(1/\epsilon)}$ (for $\gamma \in [1,2]$) and $\BigO{1/\epsilon^{\gamma - 2}}$ (for $\gamma > 2$). In particular, we recover well-known results on PPA: finite convergence for sharp minima and linear convergence for quadratic growth, even under presence of inexactness. However, without taking into account the concrete computational effort paid for computing each PPA iteration, any iteration complexity remains abstract and purely informative. Therefore, using an inner (proximal) gradient/subgradient method subroutine that computes inexact PPA iteration, we secondly show novel computational complexity bounds on a restarted inexact PPA, available when no information on the growth of the objective function is known. In the numerical experiments we confirm the practical performance and implementability of our framework.
翻訳日:2021-08-13 11:27:16 公開日:2021-08-12
# エンティティアライメントには負のサンプルが必要か? 高性能,スケーラビリティ,堅牢性を備えたアプローチ

Are Negative Samples Necessary in Entity Alignment? An Approach with High Performance, Scalability and Robustness ( http://arxiv.org/abs/2108.05278v2 )

ライセンス: Link先を確認
Xin Mao, Wenting Wang, Yuanbin Wu, Man Lan(参考訳) エンティティアライメント(EA)は、複数のKGを統合する上で重要なステップである、異なるKGに等価なエンティティを見つけることを目的としている。 しかし、既存のeaメソッドの多くはスケーラビリティが悪く、大規模なデータセットに対応できない。 我々は,(1)非効率的なグラフエンコーダ,(2)負のサンプリングのジレンマ,(3)半教師あり学習における「破滅的な忘れ」という3つの課題を要約する。 これらの課題に対処するため,我々は,(1)関係グラフサンプリングによる簡易グラフエンコーダ,(2)対称負非アライメント損失,(3)漸進的半教師付き学習という,高性能,高スケーラビリティ,高ロバスト性(psr)を実現するための3つの新しいコンポーネントを用いた新しいea手法を提案する。 さらに,提案手法の有効性と有効性を検討するため,いくつかの公開データセットについて詳細な実験を行った。 実験の結果,PSRは従来のSOTAを超えるだけでなく,スケーラビリティや堅牢性にも優れていた。

Entity alignment (EA) aims to find the equivalent entities in different KGs, which is a crucial step in integrating multiple KGs. However, most existing EA methods have poor scalability and are unable to cope with large-scale datasets. We summarize three issues leading to such high time-space complexity in existing EA methods: (1) Inefficient graph encoders, (2) Dilemma of negative sampling, and (3) "Catastrophic forgetting" in semi-supervised learning. To address these challenges, we propose a novel EA method with three new components to enable high Performance, high Scalability, and high Robustness (PSR): (1) Simplified graph encoder with relational graph sampling, (2) Symmetric negative-free alignment loss, and (3) Incremental semi-supervised learning. Furthermore, we conduct detailed experiments on several public datasets to examine the effectiveness and efficiency of our proposed method. The experimental results show that PSR not only surpasses the previous SOTA in performance but also has impressive scalability and robustness.
翻訳日:2021-08-13 11:26:39 公開日:2021-08-12
# 触覚・視覚知覚のための弾性触覚シミュレーション

Elastic Tactile Simulation Towards Tactile-Visual Perception ( http://arxiv.org/abs/2108.05013v2 )

ライセンス: Link先を確認
Yikai Wang, Wenbing Huang, Bin Fang, Fuchun Sun, Chang Li(参考訳) 触覚はロボットの知覚や操作に重要な役割を果たしている。 データ収集の現実的な限界を克服するために、仮想環境における触覚応答のシミュレーションは、ロボット研究の望ましい方向性となる。 本稿では,触覚シミュレーションのための粒子の弾性相互作用(EIP)を提案する。 既存の作品の多くは触覚センサーを剛性のある多体体としてモデル化しており、触覚センサーの弾性特性を反映させることができず、2つの物体間のきめ細かい物理的相互作用を特徴づけることができない。 対照的に、EIPは触覚センサを座標粒子群としてモデル化し、弾性特性を適用して接触時の粒子の変形を調節する。 EIPによる触覚シミュレーションにより,触覚データと視覚画像との情報融合を可能にする触覚知覚ネットワークを提案する。 知覚ネットワークは、多スケールの触覚特徴を、触覚位置と方向の誘導により視覚的モダリティの対応する局所領域に集約するグローバル・ローカル融合機構に基づいている。 融合法は3次元幾何再構成作業において優位性を示す。

Tactile sensing plays an important role in robotic perception and manipulation tasks. To overcome the real-world limitations of data collection, simulating tactile response in a virtual environment comes as a desirable direction of robotic research. In this paper, we propose Elastic Interaction of Particles (EIP) for tactile simulation. Most existing works model the tactile sensor as a rigid multi-body, which is incapable of reflecting the elastic property of the tactile sensor as well as characterizing the fine-grained physical interaction between the two objects. By contrast, EIP models the tactile sensor as a group of coordinated particles, and the elastic property is applied to regulate the deformation of particles during contact. With the tactile simulation by EIP, we further propose a tactile-visual perception network that enables information fusion between tactile data and visual images. The perception network is based on a global-to-local fusion mechanism where multi-scale tactile features are aggregated to the corresponding local region of the visual modality with the guidance of tactile positions and directions. The fusion method exhibits superiority regarding the 3D geometric reconstruction task.
翻訳日:2021-08-13 11:26:19 公開日:2021-08-12
# FakeAVCeleb:新しいオーディオビデオマルチモーダルディープフェイクデータセット

FakeAVCeleb: A Novel Audio-Video Multimodal Deepfake Dataset ( http://arxiv.org/abs/2108.05080v2 )

ライセンス: Link先を確認
Hasam Khalid and Shahroz Tariq and Simon S. Woo(参考訳) ディープフェイク(deepfakes)と呼ばれる偽造ビデオやオーディオの生成において、ディープラーニング技術を使用した大きな進歩があるため、その誤用の問題は現在よく知られた問題である。 近年,人間のクローン音声や合成音声を生成する新たな課題が浮上している。 AIベースのディープラーニングモデルは、わずか数秒のオーディオを必要とする人の声を合成することができる。 ディープフェイクビデオとオーディオを使った偽装攻撃の脅威が出現する中、ビデオとオーディオの両方に焦点を当てた新しいディープフェイク検出器が必要である。 ディープフェイクの検出は難しい作業であり、研究者は数多くの試みを行い、いくつかのディープフェイク検出方法を提案した。 優れたディープフェイク検出器を開発するには、現実世界のシナリオをキャプチャする、かなり高品質なデータセットが必要です。 多くの研究者がこの原因に寄与し、いくつかのディープフェイクデータセット、自己生成、そしてその内在性を提供した。 しかし、これらのデータセットのほとんどがディープフェイクビデオかオーディオを含んでいる。 さらに、研究者が最近提案したdeepfakeデータセットには、人種的バイアスがある。 したがって、優れたディープフェイクビデオとオーディオのディープフェイクデータセットが必要である。 このギャップを埋めるために,我々は,deepfakeビデオだけでなく,合成された各クローン音声も含む新しいオーディオビデオdeepfakeデータセット(fakeavceleb)を提案する。 私たちは最近最も人気のあるdeepfake生成手法を使ってデータセットを作成し、ビデオとオーディオは完全にリップシンクされます。 より現実的なデータセットを生成するために、人種的偏見問題に対処するために4つの人種的背景(白人、黒人、東アジア、南アジア)を持つ有名人のYouTubeビデオを選択しました。 最後に,我々は,マルチモーダル・オーディオ・ビデオ・ディープフェイクデータセットに基づいて,ディープフェイク映像とオーディオを検出する新しいマルチモーダル検出手法を提案する。

With the significant advancements made in generation of forged video and audio, commonly known as deepfakes, using deep learning technologies, the problem of its misuse is a well-known issue now. Recently, a new problem of generating cloned or synthesized human voice of a person is emerging. AI-based deep learning models can synthesize any person's voice requiring just a few seconds of audio. With the emerging threat of impersonation attacks using deepfake videos and audios, new deepfake detectors are need that focuses on both, video and audio. Detecting deepfakes is a challenging task and researchers have made numerous attempts and proposed several deepfake detection methods. To develop a good deepfake detector, a handsome amount of good quality dataset is needed that captures the real world scenarios. Many researchers have contributed in this cause and provided several deepfake dataset, self generated and in-the-wild. However, almost all of these datasets either contains deepfake videos or audio. Moreover, the recent deepfake datasets proposed by researchers have racial bias issues. Hence, there is a crucial need of a good deepfake video and audio deepfake dataset. To fill this gap, we propose a novel Audio-Video Deepfake dataset (FakeAVCeleb) that not only contains deepfake videos but respective synthesized cloned audios as well. We generated our dataset using recent most popular deepfake generation methods and the videos and audios are perfectly lip-synced with each other. To generate a more realistic dataset, we selected real YouTube videos of celebrities having four racial backgrounds (Caucasian, Black, East Asian and South Asian) to counter the racial bias issue. Lastly, we propose a novel multimodal detection method that detects deepfake videos and audios based on our multimodal Audio-Video deepfake dataset.
翻訳日:2021-08-13 11:26:02 公開日:2021-08-12
# 脳活動から音楽と生成アートを生成する

Generating Music and Generative Art from Brain activity ( http://arxiv.org/abs/2108.04316v2 )

ライセンス: Link先を確認
Ricardo Andres Diaz Rincon(参考訳) 今日、技術進歩は全ての人間の活動に影響を与え、新しいダイナミクスとコミュニケーションの方法を生み出している。 この文脈において、一部の芸術家はこれらの進歩を創造的プロセスに取り入れ、文学で「生成的芸術」として言及される独特の美的表現を生み出し、創造的プロセスの一部を特定の自律性を持つシステムに割り当てることによって特徴付けられる(galanter, 2003)。 本研究は,BCI(Brain-Computer Interface)を用いて,デジタルアートワークにおけるユーザの脳活動を表す生成アートを作成する計算システムを提案する。 このようにして、ユーザは創造プロセスにおいてアクティブな役割を担います。 視覚的, 音的表現により, ユーザの精神状態の芸術的部分において, 提案するシステムが実現可能であることを示すため, BCI装置が送信したデータの信頼性を確保するために, いくつかのテストを実施した。 生成されたアートワークは、脳の信号と幾何学、色、空間的位置の概念を使って、自律的な構成を複雑にします。 付加価値として、視覚及び聴覚の産生には、多モード通信キャラクタを提供する芸術作品を補完する嗅覚及び審美成分が伴う。

Nowadays, technological advances have influenced all human activities, creating new dynamics and ways of communication. In this context, some artists have incorporated these advances in their creative process, giving rise to unique aesthetic expressions referred to in the literature as Generative Art, which is characterized by assigning part of the creative process to a system that acts with certain autonomy (Galanter, 2003). This research work introduces a computational system for creating generative art using a Brain-Computer Interface (BCI) which portrays the user's brain activity in a digital artwork. In this way, the user takes an active role in the creative process. In aims of showing that the proposed system materializes in an artistic piece the user's mental states by means of a visual and sound representation, several tests are carried out to ensure the reliability of the BCI device sent data. The generated artwork uses brain signals and concepts of geometry, color and spatial location to give complexity to the autonomous construction. As an added value, the visual and auditory production is accompanied by an olfactory and kinesthetic component which complements the art pieces providing a multimodal communication character.
翻訳日:2021-08-13 11:25:30 公開日:2021-08-12
# Paraviewにおけるデータ駆動フィルタを目指して

Towards data-driven filters in Paraview ( http://arxiv.org/abs/2108.05196v2 )

ライセンス: Link先を確認
Drishti Maharjan and Peter Zaspel(参考訳) 科学的可視化の最近の進歩は、可視化のスコープを単なるプレゼンテーションの方法から分析と発見のツールへと拡大した。 与えられた可視化結果は通常、基礎となるデータに一連の変換やフィルタを適用することで生成される。 今日では、そのようなフィルタは決定論的アルゴリズムを使ってデータを処理する。 本研究では,この手法をデータ駆動フィルタへ拡張し,事前学習した機械学習モデルの能力を可視化システムへ公開することを目的としている。 このようなデータ駆動フィルタの使用は、セグメンテーションや分類など、機械学習モデルが既存のアルゴリズムアプローチを定期的に上回る分野に特に関心がある。 このアイデアを紹介するために、よく知られたフロー視覚化ツールであるParaviewと、ディープラーニングフレームワークであるPyTorchを組んだ。 Paraviewはプラグインによって拡張されており、ユーザが選択したトレーニング済みモデルを新たに開発されたフィルタ形式でロードすることができる。 フィルタは入力データをモデルに入力することで変換し、残りの視覚化パイプラインへの入力としてモデルの出力を提供する。 画像および流体データに対する分割と分類のための一連の簡易なユースケースを示し、将来の複雑な解析タスクのためのParaviewにおけるこのようなデータ駆動変換の技術的適用性を示す。

Recent progress in scientific visualization has expanded the scope of visualization from being merely a way of presentation to an analysis and discovery tool. A given visualization result is usually generated by applying a series of transformations or filters to the underlying data. Nowadays, such filters use deterministic algorithms to process the data. In this work, we aim at extending this methodology towards data-driven filters, thus filters that expose the abilities of pre-trained machine learning models to the visualization system. The use of such data-driven filters is of particular interest in fields like segmentation, classification, etc., where machine learning models regularly outperform existing algorithmic approaches. To showcase this idea, we couple Paraview, the well-known flow visualization tool, with PyTorch, a deep learning framework. Paraview is extended by plugins that allow users to load pre-trained models of their choice in the form of newly developed filters. The filters transform the input data by feeding it into the model and then provide the model's output as input to the remaining visualization pipeline. A series of simplistic use cases for segmentation and classification on image and fluid data is presented to showcase the technical applicability of such data-driven transformations in Paraview for future complex analysis tasks.
翻訳日:2021-08-13 11:25:08 公開日:2021-08-12
# 圧縮による分散複合最適化

Decentralized Composite Optimization with Compression ( http://arxiv.org/abs/2108.04448v2 )

ライセンス: Link先を確認
Yao Li, Xiaorui Liu, Jiliang Tang, Ming Yan, Kun Yuan(参考訳) 分散最適化と通信圧縮は、実際に通信ボトルネックを緩和することにより、分散機械学習を加速する大きな可能性を示した。 通信圧縮を伴う既存の分散化アルゴリズムは、スムーズなコンポーネントのみの問題に主に焦点をあてるが、非滑らかなコンポーネントを含む分散化確率的複合最適化問題について検討する。 一般確率的設定と有限サム設定における厳密な理論解析を用いて, 圧縮型集中型アルゴリズム prox-lead を提案する。 我々の定理は、prox-leadは任意の圧縮精度で動作し、通信コストをほぼ無償で大幅に削減することを示している。 提案手法は,コンバージェンス複雑度と数値実験の観点から,最先端アルゴリズムとの比較により優れていることを示す。 我々のアルゴリズムフレームワークは、通常、他の原始的アルゴリズムに対する圧縮通信を啓蒙し、不正確な反復の影響を減少させます。

Decentralized optimization and communication compression have exhibited their great potential in accelerating distributed machine learning by mitigating the communication bottleneck in practice. While existing decentralized algorithms with communication compression mostly focus on the problems with only smooth components, we study the decentralized stochastic composite optimization problem with a potentially non-smooth component. A \underline{Prox}imal gradient \underline{L}in\underline{EA}r convergent \underline{D}ecentralized algorithm with compression, Prox-LEAD, is proposed with rigorous theoretical analyses in the general stochastic setting and the finite-sum setting. Our theorems indicate that Prox-LEAD works with arbitrary compression precision, and it tremendously reduces the communication cost almost for free. The superiorities of the proposed algorithms are demonstrated through the comparison with state-of-the-art algorithms in terms of convergence complexities and numerical experiments. Our algorithmic framework also generally enlightens the compressed communication on other primal-dual algorithms by reducing the impact of inexact iterations, which might be of independent interest.
翻訳日:2021-08-13 11:24:49 公開日:2021-08-12