このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220402となっている論文です。

PDF登録状況(公開日: 20220402)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) ニューラルネットワークによる負荷予測を用いた粒子群最適化に基づく需要応答 [全文訳有]

Particle Swarm Optimization Based Demand Response Using Artificial Neural Network Based Load Prediction ( http://arxiv.org/abs/2204.13990v1 )

ライセンス: CC BY 4.0
Nasrin Bayat, Mehrdad Setayeshnazar(参考訳) 本研究では,ニューラルネットワーク(ann)を用いた負荷予測のための粒子群最適化(pso)に基づく需要応答(dr)モデルを提案する。 テキサス州オースチン市の住宅地の電気負荷と気候データは、ANNの入力として使用される。 そして、日頭価格データによる結果を用いて、負荷シフトおよびコスト削減問題を解決する。 その結果,提案モデルでは,支払いコストとピーク負荷を低減できることがわかった。

In the present study, a Particle Swarm Optimization (PSO) based Demand Response (DR) model, using Artificial Neural Network (ANN) to predict load is proposed. The electrical load and climatological data of a residential area in Austin city in Texas are used as the inputs of the ANN. Then, the outcomes with the day-ahead prices data are used to solve the load shifting and cost reduction problem. According to the results, the proposed model has the ability to decrease payment costs and peak load.
翻訳日:2022-05-09 06:45:46 公開日:2022-04-02
# マルチモーダル・マルチタスク・ニューラルサバイバルネットワークによる広告創造的中断予測

Ad Creative Discontinuation Prediction with Multi-Modal Multi-Task Neural Survival Networks ( http://arxiv.org/abs/2204.11588v1 )

ライセンス: Link先を確認
Shunsuke Kitada, Hitoshi Iyatomi, Yoshifumi Seki(参考訳) 適切なタイミングで広告制作を中止することは、売上に大きな影響を与える可能性のある最も重要な広告操作の1つだ。 不効果的な広告に対するこのような運用サポートは、効果的な広告よりも調査されていない。 10万の現実世界の広告クリエーターを事前に分析した結果、短期(カットアウト)と長期(摩耗アウト)の2種類の廃止が判明した。 本稿では,生存分析にインスパイアされたハザード関数に基づく損失関数を持つ広告クリエイティビティの廃止に関する現実的な予測枠組みを提案する。 当社のフレームワークは、広告創造性を入力とするマルチモーダル深層ニューラルネットワーク(例えば、テキスト、カテゴリ、画像、数値的特徴など)による中断を予測する。 販売に寄与する2種類の広告制作者に対する予測性能を向上させるために,(1)マルチタスク学習による2項推定手法,(2)損失関数のためのクリックスルーレート重み付け手法という2つの新しい手法を提案する。 大規模な広告クリエイティビティデータセットを用いて,100億のインプレッションを含む私たちのフレームワークを評価した。 concordance index (短縮: 0.896, 長さ: 0.939, 総計: 0.792) では, 従来の手法 (0.531) よりも大幅に性能が向上した。 さらに、我々のフレームワークは、 (i)短期の場合には手作業と同じ程度に中止効果が示された。 (ii) 広告の継続順序を正確に予測することは, 長期にわたる広告制作において重要である。

Discontinuing ad creatives at an appropriate time is one of the most important ad operations that can have a significant impact on sales. Such operational support for ineffective ads has been less explored than that for effective ads. After pre-analyzing 1,000,000 real-world ad creatives, we found that there are two types of discontinuation: short-term (i.e., cut-out) and long-term (i.e., wear-out). In this paper, we propose a practical prediction framework for the discontinuation of ad creatives with a hazard function-based loss function inspired by survival analysis. Our framework predicts the discontinuations with a multi-modal deep neural network that takes as input the ad creative (e.g., text, categorical, image, numerical features). To improve the prediction performance for the two different types of discontinuations and for the ad creatives that contribute to sales, we introduce two new techniques: (1) a two-term estimation technique with multi-task learning and (2) a click-through rate-weighting technique for the loss function. We evaluated our framework using the large-scale ad creative dataset, including 10 billion scale impressions. In terms of the concordance index (short: 0.896, long: 0.939, and overall: 0.792), our framework achieved significantly better performance than the conventional method (0.531). Additionally, we confirmed that our framework (i) demonstrated the same degree of discontinuation effect as manual operations for short-term cases, and (ii) accurately predicted the ad discontinuation order, which is important for long-running ad creatives for long-term cases.
翻訳日:2022-05-01 09:25:41 公開日:2022-04-02
# 広告割り当てのための深層強化学習におけるハイブリッド転送

Hybrid Transfer in Deep Reinforcement Learning for Ads Allocation ( http://arxiv.org/abs/2204.11589v1 )

ライセンス: Link先を確認
Guogang Liao, Ze Wang, Xiaowen Shi, Xiaoxu Wu, Chuheng Zhang, Bingqi Zhu, Yongkang Wang, Xingxing Wang, Dong Wang(参考訳) プラットフォーム収益の最大化を目的として、限られたスロットに広告やオーガニックアイテムを割り当てる広告割当が一般的な問題となっている。 しかし、電子商取引プラットフォームは通常、異なるカテゴリーの複数の入り口があり、いくつかの入り口には訪問がほとんどない。 これらの入り口に蓄積されたデータは、良いエージェントの学習をほとんど支援できない。 そこで本研究では,類似度に基づく広告アロケーションのためのハイブリッド・トランスファー(shtaa)を提案する。 具体的には、異なる入り口のMDP類似性を推定できる不確実性を考慮したマルコフ決定プロセス(MDP)の類似性を定義する。 mdpの類似性に基づき、サンプルと知識を一つの入り口から別の入り口へ効率的に転送するためのハイブリッド転送手法(インスタンス転送と戦略転送)を設計する。 meituan food delivery platform(meituan)のオフラインおよびオンライン実験は、データポーアエントランスのエージェントを学習し、プラットフォームの売上を増やすのに役立つことを実証する。

Ads allocation, that allocates ads and organic items to limited slots in feed with the purpose of maximizing platform revenue, has become a popular problem. However, e-commerce platforms usually have multiple entrances for different categories and some entrances have few visits. Data accumulated on these entrances can hardly support the learning of a good agent. To address this challenge, we present Similarity-based Hybrid Transfer for Ads Allocation (SHTAA), which can effectively transfer the samples as well as the knowledge from data-rich entrance to other data-poor entrance. Specifically, we define an uncertainty-aware Markov Decision Process (MDP) similarity which can estimate the MDP similarity of different entrances. Based on the MDP similarity, we design a hybrid transfer method (consisting of instance transfer and strategy transfer) to efficiently transfer the samples and the knowledge from one entrance to another. Both offline and online experiments on Meituan food delivery platform demonstrate that our method can help to learn better agent for data-poor entrance and increase the revenue for the platform.
翻訳日:2022-05-01 09:25:11 公開日:2022-04-02
# (参考訳) 勧告に対する否定的サンプリング [全文訳有]

Negative Sampling for Recommendation ( http://arxiv.org/abs/2204.06520v1 )

ライセンス: CC BY 4.0
Bin Liu and Bang Wang(参考訳) 高品質なネガティブなインスタンスを効果的にサンプルする方法は、レコメンデーションモデルを適切にトレーニングするために重要である。 我々は、高品質な負は \textit{informativeness} と \textit{unbiasedness} の両方であるべきだと主張する。 従来の研究では、陰性サンプリングにおける情報性に対処するいくつかのアプローチが提案されているが、偽陰性サンプリングと真陰性サンプリングを区別する試みはほとんど行われていない。 本稿では,まずパラメータ学習の観点から,損失勾配に基づくモデルトレーニングにおける負のインフォメーション性と偏りを分析する。 否定的サンプリングと協調的フィルタリングの両方に負の分類の暗黙的なタスクが含まれており、そこから予測された負のスコアにおける順序関係についての洞察に富むが有益な発見を報告している。 我々の発見と確率変数としての負について、次に真負のクラス条件密度と偽負のクラス条件密度を導出する。 また,否定分類のためのベイズ分類器も設計し,そこから負の量的不偏性尺度を定義する。 最後に,高品質な負をサンプリングするために,情報量と偏りの調和平均を用いることを提案する。 実験では, サンプリング品質の向上と推薦性能向上の観点から, 負サンプリングアルゴリズムが他よりも優れていることを検証した。

How to effectively sample high-quality negative instances is important for well training a recommendation model. We argue that a high-quality negative should be both \textit{informativeness} and \textit{unbiasedness}. Although previous studies have proposed some approaches to address the informativeness in negative sampling, few has been done to discriminating false negative from true negative for unbiased negative sampling, not to mention taking both into consideration. This paper first adopts a parameter learning perspective to analyze negative informativeness and unbiasedness in loss gradient-based model training. We argue that both negative sampling and collaborative filtering include an implicit task of negative classification, from which we report an insightful yet beneficial finding about the order relation in predicted negatives' scores. Based on our finding and by regarding negatives as random variables, we next derive the class condition density of true negatives and that of false negatives. We also design a Bayesian classifier for negative classification, from which we define a quantitative unbiasedness measure for negatives. Finally, we propose to use a harmonic mean of informativeness and unbiasedness to sample high-quality negatives. Experimental studies validate the superiority of our negative sampling algorithm over the peers in terms of better sampling quality and better recommendation performance.
翻訳日:2022-04-17 08:14:29 公開日:2022-04-02
# (参考訳) 睡眠ステージスコアリングのための脳波信号の適応スパイク様表現 [全文訳有]

Adaptive Spike-Like Representation of EEG Signals for Sleep Stages Scoring ( http://arxiv.org/abs/2204.03565v1 )

ライセンス: CC BY 4.0
Lingwei Zhu, Koki Odani, Ziwei Yang, Guang Shi, Yirong Kan, Zheng Chen, Renyuan Zhang(参考訳) 近年,脳波(EEG)から時空間的特徴を抽出し,自動ステージスコアリングに有望な結果が得られた。 このような手法には、手作業による機能工学とドメイン知識が伴います。 本研究では,信号強度の半ガウス確率による入力信号を確率的に符号化し,フィルタし,蓄積する適応的手法を提案する。 その後、適応表現は変換器モデルに入力され、特徴と対応するステージの関連性を自動的にマイニングする。 最先端手法に対する最大の公開データセットに関する広範な実験により,提案手法の有効性が検証され,今後の方向性が明らかにされる。

Recently there has seen promising results on automatic stage scoring by extracting spatio-temporal features from electroencephalogram (EEG). Such methods entail laborious manual feature engineering and domain knowledge. In this study, we propose an adaptive scheme to probabilistically encode, filter and accumulate the input signals and weight the resultant features by the half-Gaussian probabilities of signal intensities. The adaptive representations are subsequently fed into a transformer model to automatically mine the relevance between features and corresponding stages. Extensive experiments on the largest public dataset against state-of-the-art methods validate the effectiveness of our proposed method and reveal promising future directions.
翻訳日:2022-04-10 11:22:45 公開日:2022-04-02
# (参考訳) Transfinite Modal Logic:ベイズ推論のための半定量的説明 [全文訳有]

Transfinite Modal Logic: a Semi-quantitative Explanation for Bayesian Reasoning ( http://arxiv.org/abs/2204.03563v1 )

ライセンス: CC BY 4.0
Xinyu Wang(参考訳) ベイズ推論は人間の合理性と機械学習において重要な役割を果たしている。 本稿では,モーダル論理と順序算術を組み合わせ,半定量的にベイズ論理を定式化するために,超有限モーダル論理を導入する。 技術的には、順序数算術の非自明な性質を最初に検討し、通常の様相論理のセマンティクスを新しい様相論理に自然かつエレガントに拡張し、クリプケモデルの通常の定義を完全に無傷で維持する。 すべての超有限数学的定義にもかかわらず、実際には、この論理は実際には完全に有限な解釈にも適合すると主張する。 我々は、超有限様相論理がベイズ的推論の本質をかなり明確で単純な形で捉えていることを示唆し、特に、シャーロック・ホームズの有名な言い回しに対して「不可能を取り除いた時、残されているものは何でも真実でなければならない」と完璧な説明を与えている。 また、論理学に対する有限モデルプロパティ定理の対向性も証明する。

Bayesian reasoning plays a significant role both in human rationality and in machine learning. In this paper, we introduce transfinite modal logic, which combines modal logic with ordinal arithmetic, in order to formalize Bayesian reasoning semi-quantitatively. Technically, we first investigate some nontrivial properties of ordinal arithmetic, which then enable us to expand normal modal logic's semantics naturally and elegantly onto the novel transfinite modal logic, while still keeping the ordinary definition of Kripke models totally intact. Despite all the transfinite mathematical definition, we argue that in practice, this logic can actually fit into a completely finite interpretation as well. We suggest that transfinite modal logic captures the essence of Bayesian reasoning in a rather clear and simple form, in particular, it provides a perfect explanation for Sherlock Holmes' famous saying, "When you have eliminated the impossible, whatever remains, however improbable, must be the truth." We also prove a counterpart of finite model property theorem for our logic.
翻訳日:2022-04-10 11:07:08 公開日:2022-04-02
# (参考訳) データのアライメントを望まない方法で単純化する学習 [全文訳有]

Learning to Simplify with Data Hopelessly Out of Alignment ( http://arxiv.org/abs/2204.00741v1 )

ライセンス: CC BY-SA 4.0
Tadashi Nomoto(参考訳) 複雑な真理文と基底的真理文の文別アライメントからなる「並列」コーパスを頼らずに、テキスト簡易化が可能かどうかを検討する。 そこで我々は,Conjoined Twin Networks, Flip-Flop Auto-Encoders (FFA), Adversarial Networks (GAN) など,いくつかの新しい概念を紹介した。 Jensen-Shannon氏(JS-GAN)とWasserstein GAN氏(リンク)の比較を行い、パフォーマンスにどのように影響するかを確認した。 wikipediaから派生した大規模データセットを用いて実験を行ったところ、現在のベストパフォーマンスシステムよりも、ffaとjs-ganを備えたツインネットワークが優れていることがわかった。 さらに,過去文献における完全教師付き手法との関連について検討し,教師なしシステムによって生成された簡素な文間に存在する質的差異を例示して強調する。

We consider whether it is possible to do text simplification without relying on a "parallel" corpus, one that is made up of sentence-by-sentence alignments of complex and ground truth simple sentences. To this end, we introduce a number of concepts, some new and some not, including what we call Conjoined Twin Networks, Flip-Flop Auto-Encoders (FFA) and Adversarial Networks (GAN). A comparison is made between Jensen-Shannon (JS-GAN) and Wasserstein GAN, to see how they impact performance, with stronger results for the former. An experiment we conducted with a large dataset derived from Wikipedia found the solid superiority of Twin Networks equipped with FFA and JS-GAN, over the current best performing system. Furthermore, we discuss where we stand in a relation to fully supervised methods in the past literature, and highlight with examples qualitative differences that exist among simplified sentences generated by supervision-free systems.
翻訳日:2022-04-07 12:35:41 公開日:2022-04-02
# (参考訳) エンティティ指向探索のためのレコメンデーション生成 [全文訳有]

Generating recommendations for entity-oriented exploratory search ( http://arxiv.org/abs/2204.00743v1 )

ライセンス: CC BY 4.0
David Wadden, Nikita Gupta, Kenton Lee, Kristina Toutanova(参考訳) 本稿では,エンティティ指向探索のためのレコメンデーションセット生成のタスクを紹介する。 入力検索クエリがオープンあるいは未指定である場合、ドメイン探索やユーザ意図の明確化を目的として、容易に理解可能なクエリレコメンデーションのコレクションをユーザに提示する。 従来のクエリレコメンデーションシステムでは、検索した文書中の有能なキーワードを識別したり、既存の分類や知識ベースに関連概念を問い合わせたりすることでレコメンデーションを選択する。 本研究では,既存の分類や検索された文書のセットにはない新しい概念を提案できる「ソフトな」知識ベースとして言語モデルを用いて,推薦のコレクションを直接生成できるテキスト対テキストモデルを構築した。 総合性,興味,非冗長性を促進するために設計されたコスト関数を最適化するレコメンデーションセットを生成するようにモデルをトレーニングする。 群集作業員による徹底的な評価では,提案手法の一般化可能性と,生成した推奨事項の質が確認できた。

We introduce the task of recommendation set generation for entity-oriented exploratory search. Given an input search query which is open-ended or under-specified, the task is to present the user with an easily-understandabl e collection of query recommendations, with the goal of facilitating domain exploration or clarifying user intent. Traditional query recommendation systems select recommendations by identifying salient keywords in retrieved documents, or by querying an existing taxonomy or knowledge base for related concepts. In this work, we build a text-to-text model capable of generating a collection of recommendations directly, using the language model as a "soft" knowledge base capable of proposing new concepts not found in an existing taxonomy or set of retrieved documents. We train the model to generate recommendation sets which optimize a cost function designed to encourage comprehensiveness, interestingness, and non-redundancy. In thorough evaluations performed by crowd workers, we confirm the generalizability of our approach and the high quality of the generated recommendations.
翻訳日:2022-04-07 10:55:46 公開日:2022-04-02
# (参考訳) 人間と物体の相互作用を検知するための意味的および空間的精細変換器

What to look at and where: Semantic and Spatial Refined Transformer for detecting human-object interactions ( http://arxiv.org/abs/2204.00746v1 )

ライセンス: CC BY 4.0
A S M Iftekhar, Hao Chen, Kaustav Kundu, Xinyu Li, Joseph Tighe, Davide Modolo(参考訳) 本研究では,人間と物体の局所化を必要とするヒューマン・オブジェクトのインタラクション検出タスクを解くために,一段階のトランスフォーマーベースセマンティック・空間改良トランスフォーマ(SSRT)を提案する。 TransformerベースのHOIアプローチとは違い、最終的な検出のためのデコーダ出力の設計の改善に重点を置いているSSRTでは、イメージ内で最も関連性の高いオブジェクト-アクションペアを選択し、リッチな意味的特徴と空間的特徴を使用してクエリの表現を洗練するための2つの新しいモジュールを導入している。 これらの拡張は、最も人気のある2つのHOIベンチマークであるV-COCOとHICO-DETの最先端結果につながる。

We propose a novel one-stage Transformer-based semantic and spatial refined transformer (SSRT) to solve the Human-Object Interaction detection task, which requires to localize humans and objects, and predicts their interactions. Differently from previous Transformer-based HOI approaches, which mostly focus at improving the design of the decoder outputs for the final detection, SSRT introduces two new modules to help select the most relevant object-action pairs within an image and refine the queries' representation using rich semantic and spatial features. These enhancements lead to state-of-the-art results on the two most popular HOI benchmarks: V-COCO and HICO-DET.
翻訳日:2022-04-07 10:32:10 公開日:2022-04-02
# (参考訳) シーケンスレコメンデーションのための辞書学習による動的ユーザ嗜好のモデル化 [全文訳有]

Modeling Dynamic User Preference via Dictionary Learning for Sequential Recommendation ( http://arxiv.org/abs/2204.00752v1 )

ライセンス: CC BY 4.0
Chao Chen, Dongsheng Li, Junchi Yan, Xiaokang Yang(参考訳) ユーザの好みのダイナミックさを捉えることは、ユーザの将来の行動を予測する上で非常に重要です。 浅層と深層の両方を含む既存のレコメンデーションアルゴリズムの多くは、独立してそのようなダイナミクスをモデル化することが多い。 本稿では,ユーザの嗜好の潜在空間にユーザのシーケンシャルな動作を組み込む問題,すなわち嗜好へのシーケンシャル変換について検討する。 この目的のために,逐次レコメンデーションタスクを辞書学習問題として定式化し,学習する。 1)共有辞書行列であって,各行がユーザ間で共有されるユーザの動的嗜好の部分的な信号を表すもの 2 ゲートリカレントユニット(gru)と統合した深い自己回帰モデルを用いた後方分布推定装置は、過去の行動に基づいて条件づけられたユーザの動的嗜好を表す辞書の関連行を選択できる。 Netflixデータセットの質的研究は、提案手法が時間とともにユーザの好みのドリフトをキャプチャできることを示し、複数の実世界のデータセットの定量的研究により、提案手法が最先端の分解法やニューラルネットワークシーケンシャルレコメンデーション手法と比較して高い精度を達成可能であることを示す。 コードはhttps://github.com/c chao0116/s2pnm-tkde2 021で入手できる。

Capturing the dynamics in user preference is crucial to better predict user future behaviors because user preferences often drift over time. Many existing recommendation algorithms -- including both shallow and deep ones -- often model such dynamics independently, i.e., user static and dynamic preferences are not modeled under the same latent space, which makes it difficult to fuse them for recommendation. This paper considers the problem of embedding a user's sequential behavior into the latent space of user preferences, namely translating sequence to preference. To this end, we formulate the sequential recommendation task as a dictionary learning problem, which learns: 1) a shared dictionary matrix, each row of which represents a partial signal of user dynamic preferences shared across users; and 2) a posterior distribution estimator using a deep autoregressive model integrated with Gated Recurrent Unit (GRU), which can select related rows of the dictionary to represent a user's dynamic preferences conditioned on his/her past behaviors. Qualitative studies on the Netflix dataset demonstrate that the proposed method can capture the user preference drifts over time and quantitative studies on multiple real-world datasets demonstrate that the proposed method can achieve higher accuracy compared with state-of-the-art factorization and neural sequential recommendation methods. The code is available at https://github.com/c chao0116/S2PNM-TKDE2 021.
翻訳日:2022-04-07 10:31:13 公開日:2022-04-02
# (参考訳) POMDPのシールドによる安全強化学習 [全文訳有]

Safe Reinforcement Learning via Shielding for POMDPs ( http://arxiv.org/abs/2204.00755v1 )

ライセンス: CC BY 4.0
Steven Carr, Nils Jansen, Sebastian Junges and Ufuk Topcu(参考訳) 安全クリティカルな環境での強化学習(RL)は、破滅的な結果の決定を避けるためにエージェントを必要とする。 この問題を解決するために、rlの安全性に取り組む様々なアプローチが存在する。 特に、いわゆるシールドは、エージェントの環境の(部分的な)モデルに基づくRLエージェントの挙動に関する正式な安全保証を提供する。 しかし、最先端技術は一般的にエージェントの完全な感知能力を前提としています。 限られたセンシングでシナリオをキャプチャする標準的なモデルは、部分的に観測可能なマルコフ決定プロセス(POMDP)である。 これらのモデルの安全RLは、今のところ未解決の問題である。 本稿では,PMDPと最先端の深層RLアルゴリズムとの密接な統合と,部分可観測性の下でポリシーを安全に学習する効率的な手法を提案する。 我々は, シールドを用いたrlエージェントが, 安全性に留まらず, 期待報酬の高い値に収束することを示す。 さらに、遮蔽エージェントは、非遮蔽エージェントよりも非常に少ない訓練エピソードを必要とする。

Reinforcement learning (RL) in safety-critical environments requires an agent to avoid decisions with catastrophic consequences. Various approaches addressing the safety of RL exist to mitigate this problem. In particular, so-called shields provide formal safety guarantees on the behavior of RL agents based on (partial) models of the agents' environment. Yet, the state-of-the-art generally assumes perfect sensing capabilities of the agents, which is unrealistic in real-life applications. The standard models to capture scenarios with limited sensing are partially observable Markov decision processes (POMDPs). Safe RL for these models remains an open problem so far. We propose and thoroughly evaluate a tight integration of formally-verified shields for POMDPs with state-of-the-art deep RL algorithms and create an efficacious method that safely learns policies under partial observability. We empirically demonstrate that an RL agent using a shield, beyond being safe, converges to higher values of expected reward. Moreover, shielded agents need an order of magnitude fewer training episodes than unshielded agents, especially in challenging sparse-reward settings.
翻訳日:2022-04-07 10:04:23 公開日:2022-04-02
# (参考訳) 二次ニューロンによる不均一なオートエンコーダ [全文訳有]

Heterogeneous Autoencoder Empowered by Quadratic Neurons ( http://arxiv.org/abs/2204.01707v1 )

ライセンス: CC BY 4.0
Jing-Xiao Liao, Bo-Jian Hou, Hang-Cheng Dong, Hao Zhang, Jianwei Ma, Jinwei Sun, Shiping Zhang, Feng-Lei Fan(参考訳) 生物ニューロンの複雑さと多様性に触発されて、現在のニューロンの内積を単純化された二次機能に置き換える二次ニューロンが提案されている。 このような新しいタイプのニューロンを採用することは、ディープラーニングの開発に新たな視点をもたらす。 二次ニューロンの解析では、不均質ネットワークが多項式数のニューロンとよく近似できる関数が存在するが、純粋に従来的または二次的なネットワークは、同じレベルの誤差を達成するために指数関数的なニューロン数を必要とする。 ヘテロジニアスネットワークにおけるこの理論的な結果によって、我々は従来のニューロンと二次ニューロンを直接オートエンコーダに統合し、新しいタイプのヘテロジニアスオートエンコーダを作成する。 異常検出実験により、異種オートエンコーダは他の最先端モデルと比較して競合的に機能することを確認した。

Inspired by the complexity and diversity of biological neurons, a quadratic neuron is proposed to replace the inner product in the current neuron with a simplified quadratic function. Employing such a novel type of neurons offers a new perspective on developing deep learning. When analyzing quadratic neurons, we find that there exists a function such that a heterogeneous network can approximate it well with a polynomial number of neurons but a purely conventional or quadratic network needs an exponential number of neurons to achieve the same level of error. Encouraged by this inspiring theoretical result on heterogeneous networks, we directly integrate conventional and quadratic neurons in an autoencoder to make a new type of heterogeneous autoencoders. Anomaly detection experiments confirm that heterogeneous autoencoders perform competitively compared to other state-of-the-art models.
翻訳日:2022-04-07 09:45:00 公開日:2022-04-02
# (参考訳) オンライン多項式narmax識別のための変分メッセージパッシング [全文訳有]

Variational message passing for online polynomial NARMAX identification ( http://arxiv.org/abs/2204.00769v1 )

ライセンス: CC BY 4.0
Wouter Kouw, Albert Podusenko, Magnus Koudahl, Maarten Schoukens(参考訳) オンライン非線形システム同定のための変分ベイズ推論手法を提案する。 各アウトプット観測では、パラメータの後続分布が更新され、将来のアウトプットに対する後続予測分布を形成するために使用される。 我々は多項式 NARMAX モデルのクラスに焦点をあて、確率形式にし、Forney-style factor graph の項で表す。 このグラフにおける推論は、変分メッセージパッシングアルゴリズムにより効率よく実行される。 我々の変動ベイズ推定器は、オンライン再帰的最小二乗推定器よりも優れており、特に小さなサンプルサイズ設定と低ノイズレジームにおいて、オフラインで訓練された反復的最小二乗推定器と同等の性能を発揮する。

We propose a variational Bayesian inference procedure for online nonlinear system identification. For each output observation, a set of parameter posterior distributions is updated, which is then used to form a posterior predictive distribution for future outputs. We focus on the class of polynomial NARMAX models, which we cast into probabilistic form and represent in terms of a Forney-style factor graph. Inference in this graph is efficiently performed by a variational message passing algorithm. We show empirically that our variational Bayesian estimator outperforms an online recursive least-squares estimator, most notably in small sample size settings and low noise regimes, and performs on par with an iterative least-squares estimator trained offline.
翻訳日:2022-04-07 09:14:37 公開日:2022-04-02
# (参考訳) wav2vec2を用いたdysarthric asrの話者適応 [全文訳有]

Speaker adaptation for Wav2vec2 based dysarthric ASR ( http://arxiv.org/abs/2204.00770v1 )

ライセンス: CC BY 4.0
Murali Karthick Baskar, Tim Herzig, Diana Nguyen, Mireia Diez, Tim Polzehl, Luk\'a\v{s} Burget and Jan "Honza'' \v{C}ernock\'y(参考訳) dysarthric音声認識は、トレーニングデータの欠如と話者特性の不一致により、大きな課題となっている。 近年のASRシステムは、認識性能を向上させるために、wav2vec2のような容易に利用できる事前訓練モデルの恩恵を受けている。 fmllr と xvector を用いた話者適応は, 適応データが少なく, 構音障害に対する大きな改善をもたらした。 しかしながら、wav2vec2ファインタニング中のwav2vec2とfMLLR機能またはxvectorsの統合はまだ検討されていない。 本研究では,fMLLR特徴量を用いた微調整wav2vec2の適応ネットワークを提案する。 適応ネットワークは、xvectorのような他の話者適応機能を扱うためにも柔軟である。 UASpeechデータセットでは,全ての障害重大度レベルにまたがって,57.72\% WERを高い重大度で達成した。 提案手法の整合性を検証するため,ドイツにおけるデータセットの実験も行った。

Dysarthric speech recognition has posed major challenges due to lack of training data and heavy mismatch in speaker characteristics. Recent ASR systems have benefited from readily available pretrained models such as wav2vec2 to improve the recognition performance. Speaker adaptation using fMLLR and xvectors have provided major gains for dysarthric speech with very little adaptation data. However, integration of wav2vec2 with fMLLR features or xvectors during wav2vec2 finetuning is yet to be explored. In this work, we propose a simple adaptation network for fine-tuning wav2vec2 using fMLLR features. The adaptation network is also flexible to handle other speaker adaptive features such as xvectors. Experimental analysis show steady improvements using our proposed approach across all impairment severity levels and attains 57.72\% WER for high severity in UASpeech dataset. We also performed experiments on German dataset to substantiate the consistency of our proposed approach across diverse domains.
翻訳日:2022-04-07 08:59:18 公開日:2022-04-02
# (参考訳) 機械学習に基づくライドプリッティングとその決定要因の現実的CO2排出削減に関する研究

Revealing the real-world CO2 emission reduction of ridesplitting and its determinants based on machine learning ( http://arxiv.org/abs/2204.00777v1 )

ライセンス: CC0 1.0
Wenxiang Li, Yuanyuan Li, Ziyuan Pu, Long Cheng, Lei Wang, Linchuan Yang(参考訳) Ridesplittingは、プールドライドソーシングサービスの一種で、ライドソーシングが環境に与える影響を緩和する大きな可能性を秘めている。 しかし、既存のほとんどの研究は、最適化モデルとシミュレーションに基づく理論的な環境効果を探求しただけである。 本研究は,中国成都で観測された配車ソーシングデータに基づき,配車者の実世界の排出削減とその要因を明らかにすることを目的としている。 本研究は,COPERTモデルと組み合わせて,共有乗車(ライドスプリット)のCO2排出量と代替乗車(レギュラーライドソーシング)を算出し,各ライドスプリットトリップのCO2排出量削減を推定する。 結果は、すべてのライドシェアリング旅行が現実世界でのライドソーシングからの排出を減らすわけではないことを示している。 ライドプリッティングのCO2排出削減率は、旅行から旅行まで様々であり、平均43.15g/kmである。 次に, 解釈可能な機械学習モデル, 勾配向上機を適用し, 配電系統のCO2排出削減率と決定要因との関係について検討した。 SHapley Additive exPlanations法では, シェアライドの重複率とデトゥール率を, ライドプリッティングのCO2排出削減率を決定する最も重要な要因として同定した。 オーバーラップ率、共有乗車数、平均速度、ライド距離比を増加させ、転輪率、実際の走行距離、ライド距離ギャップを減少させることで、ライディングのco2排出削減率を増加させることができる。 さらに,いくつかの重要な因子の非線形効果と相互作用を部分依存プロットを用いて検討した。 本研究は,ライドプリッティングの環境効果をよりよく評価し,最適化するための,政府および配車会社のための科学的手法を提供する。

Ridesplitting, which is a form of pooled ridesourcing service, has great potential to alleviate the negative impacts of ridesourcing on the environment. However, most existing studies only explored its theoretical environmental benefits based on optimization models and simulations. To put into practice, this study aims to reveal the real-world emission reduction of ridesplitting and its determinants based on the observed data of ridesourcing in Chengdu, China. Integrating the trip data with the COPERT model, this study calculates the CO2 emissions of shared rides (ridesplitting) and their substituted single rides (regular ridesourcing) to estimate the CO2 emission reduction of each ridesplitting trip. The results show that not all ridesplitting trips reduce emissions from ridesourcing in the real world. The CO2 emission reduction rate of ridesplitting varies from trip to trip, averaging at 43.15g/km. Then, the interpretable machine learning models, gradient boosting machines, are applied to explore the relationship between the CO2 emission reduction rate of ridesplitting and its determinants. Based on the SHapley Additive exPlanations method, the overlap rate and detour rate of shared rides are identified to be the most important factors that determine the CO2 emission reduction rate of ridesplitting. Increasing the overlap rate, the number of shared rides, average speed, and ride distance ratio and decreasing the detour rate, actual trip distance, ride distance gap can increase the CO2 emission reduction rate of ridesplitting. In addition, nonlinear effects and interactions of several key factors are examined through the partial dependence plots. This study provides a scientific method for the government and ridesourcing companies to better assess and optimize the environmental benefits of ridesplitting.
翻訳日:2022-04-07 08:47:03 公開日:2022-04-02
# (参考訳) SAD:合成開口レーダ画像における空港検出のための大規模データセット [全文訳有]

SAD: A Large-scale Dataset towards Airport Detection in Synthetic Aperture Radar Images ( http://arxiv.org/abs/2204.00790v1 )

ライセンス: CC BY 4.0
Fan Zhang, Daochang Wang, Fei Ma, Qiang Yin, Deliang Xiang, and Yongsheng Zhou(参考訳) 空港は軍事と民間の両方で重要な役割を担っている。 近年,合成開口レーダ(SAR)による空港検出が注目されている。 しかし、SAR画像とアノテーションのコストが高いため、空港検出のためのSARデータセットは公開されていない。 その結果,空港検出作業において深層学習が完全には使われていないことがわかった。 SAR画像における空港検出のためのベンチマークとして,大規模SAR空港データセット(SAD)を提案する。 実世界の応用の要求を適切に反映するために、Sentinel 1Bからの624のSAR画像を含み、異なるスケール、向き、形状を持つ104の飛行場インスタンスをカバーしている。 このデータセットに対する複数のディープラーニングアプローチの実験は、その効果を証明している。 現在最先端の空港エリア検出アルゴリズムや関連するタスクを開発している。

Airports have an important role in both military and civilian domains. The synthetic aperture radar (SAR) based airport detection has received increasing attention in recent years. However, due to the high cost of SAR imaging and annotation process, there is no publicly available SAR dataset for airport detection. As a result, deep learning methods have not been fully used in airport detection tasks. To provide a benchmark for airport detection research in SAR images, this paper introduces a large-scale SAR Airport Dataset (SAD). In order to adequately reflect the demands of real world applications, it contains 624 SAR images from Sentinel 1B and covers 104 airfield instances with different scales, orientations and shapes. The experiments of multiple deep learning approach on this dataset proves its effectiveness. It developing state-of-the-art airport area detection algorithms or other relevant tasks.
翻訳日:2022-04-07 08:44:35 公開日:2022-04-02
# (参考訳) IR-GAN:インクリメント推論による言語指導による画像操作 [全文訳有]

IR-GAN: Image Manipulation with Linguistic Instruction by Increment Reasoning ( http://arxiv.org/abs/2204.00792v1 )

ライセンス: CC BY 4.0
Zhenhuan Liu, Jincan Deng, Liang Li, Shaofei Cai, Qianqian Xu, Shuhui Wang, Qingming Huang(参考訳) 条件付き画像生成は、text2imageや画像翻訳を含む活発な研究トピックである。 近年,言語指導による画像操作は,マルチモーダル条件生成の新たな課題をもたらす。 しかし、従来の条件付き画像生成モデルは、主に高品質で視覚的にリアルな画像を生成することに焦点を当てており、画像と命令の間の部分的一貫性の解決に欠ける。 本稿では,画像の視覚的インクリメントと命令の意味的インクリメントとの整合性の推論を目的としたインクリメント推論生成適応ネットワーク(IR-GAN)を提案する。 まず,単語レベルの命令エンコーダを導入し,履歴関連命令からユーザの意図を意味的インクリメントとして学習する。 第2に、対象画像を生成するために、意味的インクリメントの表現をソースイメージに組み込んで、ソースイメージが補助的参照の役割を担っている。 最後に,視覚インクリメントと意味インクリメントの一貫性を測定し,ユーザの意図を浄化し,生成された対象画像の良質な論理を保証する推論判別器を提案する。 2つのデータセットで行われた大規模な実験と可視化は、IR-GANの有効性を示している。

Conditional image generation is an active research topic including text2image and image translation. Recently image manipulation with linguistic instruction brings new challenges of multimodal conditional generation. However, traditional conditional image generation models mainly focus on generating high-quality and visually realistic images, and lack resolving the partial consistency between image and instruction. To address this issue, we propose an Increment Reasoning Generative Adversarial Network (IR-GAN), which aims to reason the consistency between visual increment in images and semantic increment in instructions. First, we introduce the word-level and instruction-level instruction encoders to learn user's intention from history-correlated instructions as semantic increment. Second, we embed the representation of semantic increment into that of source image for generating target image, where source image plays the role of referring auxiliary. Finally, we propose a reasoning discriminator to measure the consistency between visual increment and semantic increment, which purifies user's intention and guarantees the good logic of generated target image. Extensive experiments and visualization conducted on two datasets show the effectiveness of IR-GAN.
翻訳日:2022-04-07 08:38:00 公開日:2022-04-02
# (参考訳) R(Det)^2:オブジェクト検出のためのランダムな決定ルーティング [全文訳有]

R(Det)^2: Randomized Decision Routing for Object Detection ( http://arxiv.org/abs/2204.00794v1 )

ライセンス: CC BY 4.0
Ya-Li Li and Shengjin Wang(参考訳) オブジェクト検出のパラダイムにおいて、決定ヘッドは重要な部分であり、検出性能に大きな影響を及ぼす。 しかし、ハイパフォーマンスな意思決定ヘッドを設計する方法は、まだ未解決の問題だ。 本稿では,物体検出のためのエンドツーエンド学習方式で決定木とディープニューラルネットワークを組み合わせる新しい手法を提案する。 まず,ソフト決定木をニューラルネットワークに挿入することで,意思決定と予測値を分離する。 効果的な学習を容易にするために,ノード選択と連想損失を伴うランダム化決定ルーティングを提案し,特徴代表学習とネットワーク決定を同時に促進する。 第2に、異なるノードから異なる決定を得るために、狭い分岐を持つオブジェクト検出のための決定ヘッドを開発し、ルーティング確率とマスクを生成する。 R(Det)$^2$と略して、オブジェクト検出のためのランダム化決定ルーティングとして、このアプローチを命名する。 MS-COCOデータセットの実験では、R(Det)$^2$が検出性能の向上に有効であることが示されている。 既存の検出器を搭載し、1.4\sim 3.6$\%のAP改善を実現している。

In the paradigm of object detection, the decision head is an important part, which affects detection performance significantly. Yet how to design a high-performance decision head remains to be an open issue. In this paper, we propose a novel approach to combine decision trees and deep neural networks in an end-to-end learning manner for object detection. First, we disentangle the decision choices and prediction values by plugging soft decision trees into neural networks. To facilitate effective learning, we propose randomized decision routing with node selective and associative losses, which can boost the feature representative learning and network decision simultaneously. Second, we develop the decision head for object detection with narrow branches to generate the routing probabilities and masks, for the purpose of obtaining divergent decisions from different nodes. We name this approach as the randomized decision routing for object detection, abbreviated as R(Det)$^2$. Experiments on MS-COCO dataset demonstrate that R(Det)$^2$ is effective to improve the detection performance. Equipped with existing detectors, it achieves $1.4\sim 3.6$\% AP improvement.
翻訳日:2022-04-07 08:22:48 公開日:2022-04-02
# (参考訳) 知覚運動の一貫性を考慮した教師なしコヒーレントビデオカートーン化 [全文訳有]

Unsupervised Coherent Video Cartoonization with Perceptual Motion Consistency ( http://arxiv.org/abs/2204.00795v1 )

ライセンス: CC BY 4.0
Zhenhuan Liu, Liang Li, Huajie Jiang, Xin Jin, Dandan Tu, Shuhui Wang, Zheng-Jun Zha(参考訳) 近年では、スタイル転送やニューラル写真編集といったクリエイティブなコンテンツ世代が注目されている。 このうち、現実のシーンの漫画化はエンターテイメントや産業に有望な応用をもたらした。 生成画像のスタイル効果の改善に焦点を当てた画像翻訳とは異なり、映像の漫画化には時間的一貫性に関する追加の要件がある。 本稿では,コヒーレントな映像マンガライズのための知覚的動作一貫性を備えた空間適応型意味的アライメントフレームワークを提案する。 セマンティクスアライメントモジュールは、エンコーダ-デコーダアーキテクチャで失われた空間情報に起因するセマンティクス構造の変形を復元するように設計されている。 さらに,時空間相関マップを,知覚運動の整合性に基づくスタイルに依存しないグローバルな正規化として考案する。 写真フレームと漫画フレームの高レベル特徴の類似度測定から、光学フローにおける原画素値を超える大域的意味情報をキャプチャする。 さらに、類似度測定は、時間的関係をドメイン固有のスタイル特性から切り離し、漫画画像のスタイル効果を損なうことなく時間的一貫性を規則化する。 定性的かつ定量的な実験により,本手法は高度にスタイリスティックで時間的に一貫した漫画ビデオを生成することができることを示した。

In recent years, creative content generations like style transfer and neural photo editing have attracted more and more attention. Among these, cartoonization of real-world scenes has promising applications in entertainment and industry. Different from image translations focusing on improving the style effect of generated images, video cartoonization has additional requirements on the temporal consistency. In this paper, we propose a spatially-adaptive semantic alignment framework with perceptual motion consistency for coherent video cartoonization in an unsupervised manner. The semantic alignment module is designed to restore deformation of semantic structure caused by spatial information lost in the encoder-decoder architecture. Furthermore, we devise the spatio-temporal correlative map as a style-independent, global-aware regularization on the perceptual motion consistency. Deriving from similarity measurement of high-level features in photo and cartoon frames, it captures global semantic information beyond raw pixel-value in optical flow. Besides, the similarity measurement disentangles temporal relationships from domain-specific style properties, which helps regularize the temporal consistency without hurting style effects of cartoon images. Qualitative and quantitative experiments demonstrate our method is able to generate highly stylistic and temporal consistent cartoon videos.
翻訳日:2022-04-07 08:10:37 公開日:2022-04-02
# (参考訳) AdaSmooth: 効果的な比率に基づく適応的学習率法 [全文訳有]

AdaSmooth: An Adaptive Learning Rate Method based on Effective Ratio ( http://arxiv.org/abs/2204.00825v1 )

ライセンス: CC BY 4.0
Jun Lu(参考訳) Momentum、AdaGrad、AdaDelta、その他の確率最適化器のハイパーパラメータを選択する必要があることはよく知られている。 多くの場合、ハイパーパラメータは科学というよりも芸術になる経験に基づいて退屈に調整される。 本稿では,AdaSmooth と呼ばれる勾配勾配勾配の1次元学習率法を提案する。 この手法はハイパーパラメータに敏感であるため、Momentum、AdaGrad、AdaDeltaなどのハイパーパラメータを手動でチューニングする必要がなくなる。 様々な畳み込みニューラルネットワーク、多層パーセプトロン、代替機械学習タスクにおける他の手法と比較して有望な結果を示す。 実験の結果, adasmoothは実際にうまく動作し, ニューラルネットワークの他の確率的最適化手法と比較した。

It is well known that we need to choose the hyper-parameters in Momentum, AdaGrad, AdaDelta, and other alternative stochastic optimizers. While in many cases, the hyper-parameters are tuned tediously based on experience becoming more of an art than science. We present a novel per-dimension learning rate method for gradient descent called AdaSmooth. The method is insensitive to hyper-parameters thus it requires no manual tuning of the hyper-parameters like Momentum, AdaGrad, and AdaDelta methods. We show promising results compared to other methods on different convolutional neural networks, multi-layer perceptron, and alternative machine learning tasks. Empirical results demonstrate that AdaSmooth works well in practice and compares favorably to other stochastic optimization methods in neural networks.
翻訳日:2022-04-07 07:59:46 公開日:2022-04-02
# (参考訳) トランスクリプトミクスデータを用いた組込み教師なし学習による癌サブタイピング [全文訳有]

Cancer Subtyping via Embedded Unsupervised Learning on Transcriptomics Data ( http://arxiv.org/abs/2204.02278v1 )

ライセンス: CC BY 4.0
Ziwei Yang, Lingwei Zhu, Zheng Chen, Ming Huang, Naoaki Ono, MD Altaf-Ul-Amin, Shigehiko Kanaya(参考訳) がんは世界でも最も致命的な病気の1つです。 がんサブタイプの正確な診断と分類は効果的な臨床治療には不可欠である。 近年, 様々な深層学習手法の出現に伴い, 自動癌サブタイピングの成果が公表されている。 しかし、このような自動システムは高次元と希少性のためにしばしばデータに過度に適合する。 本稿では,教師なし学習の観点から,基礎となるデータ分布を直接構築することにより,自動サブタイピングを検証し,オーバーフィッティングの問題を軽減するのに十分なデータを生成することを提案する。 具体的には、ベクトル量子化による小さめのサンプルによる教師なし学習サブタイプ文学において、通常存在するが失敗する強いガウス性仮定をバイパスする。 提案手法は, 潜在空間の特徴をよりよく把握し, 分子レベルでの癌サブタイプの発現をモデル化するものである。

Cancer is one of the deadliest diseases worldwide. Accurate diagnosis and classification of cancer subtypes are indispensable for effective clinical treatment. Promising results on automatic cancer subtyping systems have been published recently with the emergence of various deep learning methods. However, such automatic systems often overfit the data due to the high dimensionality and scarcity. In this paper, we propose to investigate automatic subtyping from an unsupervised learning perspective by directly constructing the underlying data distribution itself, hence sufficient data can be generated to alleviate the issue of overfitting. Specifically, we bypass the strong Gaussianity assumption that typically exists but fails in the unsupervised learning subtyping literature due to small-sized samples by vector quantization. Our proposed method better captures the latent space features and models the cancer subtype manifestation on a molecular basis, as demonstrated by the extensive experimental results.
翻訳日:2022-04-07 07:38:40 公開日:2022-04-02
# (参考訳) 深部ニューラルネットワークのリプシッツ定数推定のための弦間距離 [全文訳有]

Chordal Sparsity for Lipschitz Constant Estimation of Deep Neural Networks ( http://arxiv.org/abs/2204.00846v1 )

ライセンス: CC BY 4.0
Anton Xue, Lars Lindemann, Alexander Robey, Hamed Hassani, George J. Pappas, and Rajeev Alur(参考訳) ニューラルネットワークのリプシッツ定数は、画像分類の堅牢性、コントローラ設計の安全性、トレーニングデータを超えた一般化性を保証する。 リプシッツ定数の計算はNPハードであるため、リプシッツ定数を推定する手法はスケーラビリティと精度のトレードオフをナビゲートする必要がある。 本研究では,LipSDPと呼ばれる半定値プログラミング手法のスケーラビリティフロンティアを大幅に推し進め,精度損失をゼロにする。 まず,LipSDPは弦の間隔が小さいことを示し,このことにより,弦の粗い定式化を導出する。 鍵となる利点は、大きな半定義的な制約であるlipsdpの主な計算ボトルネックが、より小さなものの集合に分解されることだ: ネットワークの深さが大きくなるにつれて、chordal-lipsdpがlipsdpよりも優れる。 さらに,計算コストを増大させることなく,より厳密な推定が可能となる可変スパルシティパラメータを用いる。 我々は,我々のアプローチのスケーラビリティを広範囲な数値実験によって示す。

Lipschitz constants of neural networks allow for guarantees of robustness in image classification, safety in controller design, and generalizability beyond the training data. As calculating Lipschitz constants is NP-hard, techniques for estimating Lipschitz constants must navigate the trade-off between scalability and accuracy. In this work, we significantly push the scalability frontier of a semidefinite programming technique known as LipSDP while achieving zero accuracy loss. We first show that LipSDP has chordal sparsity, which allows us to derive a chordally sparse formulation that we call Chordal-LipSDP. The key benefit is that the main computational bottleneck of LipSDP, a large semidefinite constraint, is now decomposed into an equivalent collection of smaller ones: allowing Chordal-LipSDP to outperform LipSDP particularly as the network depth grows. Moreover, our formulation uses a tunable sparsity parameter that enables one to gain tighter estimates without incurring a significant computational cost. We illustrate the scalability of our approach through extensive numerical experiments.
翻訳日:2022-04-07 07:31:22 公開日:2022-04-02
# (参考訳) 差異プライバシを検証したカテゴリデータの作成:概念と機械学習への応用

Production of Categorical Data Verifying Differential Privacy: Conception and Applications to Machine Learning ( http://arxiv.org/abs/2204.00850v1 )

ライセンス: CC BY 4.0
H\'eber H. Arcolezi(参考訳) 民間および公共の組織は、定期的に、仲間、ボランティア、クライアントなどに関するデジタルデータを収集し、分析する。 しかし、ほとんどの個人データは機密性が高いため、プライバシー保護システムを設計する上で重要な課題がある。 プライバシの懸念に対処するため、研究コミュニティはプライバシを保護するための異なる方法を提案し、差分プライバシ(dp)は、プライバシ利用のトレードオフを定量化するための公式な定義として位置づけられている。 さらに、ローカルdp(ldp)モデルでは、サーバに送信する前にデータをローカルにサニタイズすることができる。 この論文の目的は2つある: o$_1$) ldp保証の下での複数の周波数推定における有用性とプライバシを改善することである。 そして、O$_2$) 異なるプライベートデータでトレーニングされた機械学習(ML)モデルのプライバシユーティリティトレードオフを評価する。 o$_1$の場合、私たちは最初に、ユーティリティにフォーカスしながら、複数の属性と複数のコレクションという、2つの"多重"の観点から問題に取り組んだ。 第2に,複数の属性の側面のみに注目して,有用性を維持しつつプライバシを重視したソリューションを提案する。 どちらの場合も、現状のLCPプロトコルよりも提案したソリューションの利点を解析的および実験的に検証する。 O$_2$の場合,DP保証を確保しつつ実世界の問題を解決するMLベースのソリューションを実証的に評価した。 実際、我々はプライバシ保護ML文献からの入力データ摂動設定を主に使用した。 これは、データセット全体が独立して衛生化されている状況であり、集中型データオーナの観点からLDPアルゴリズムを実装した。 いずれの場合も、微分プライベートなMLモデルは、非プライベートなモデルとほぼ同じユーティリティメトリクスを達成すると結論付けた。

Private and public organizations regularly collect and analyze digitalized data about their associates, volunteers, clients, etc. However, because most personal data are sensitive, there is a key challenge in designing privacy-preserving systems. To tackle privacy concerns, research communities have proposed different methods to preserve privacy, with Differential privacy (DP) standing out as a formal definition that allows quantifying the privacy-utility trade-off. Besides, with the local DP (LDP) model, users can sanitize their data locally before transmitting it to the server. The objective of this thesis is thus two-fold: O$_1$) To improve the utility and privacy in multiple frequency estimates under LDP guarantees, which is fundamental to statistical learning. And O$_2$) To assess the privacy-utility trade-off of machine learning (ML) models trained over differentially private data. For O$_1$, we first tackled the problem from two "multiple" perspectives, i.e., multiple attributes and multiple collections throughout time, while focusing on utility. Secondly, we focused our attention on the multiple attributes aspect only, in which we proposed a solution focusing on privacy while preserving utility. In both cases, we demonstrate through analytical and experimental validations the advantages of our proposed solutions over state-of-the-art LDP protocols. For O$_2$, we empirically evaluated ML-based solutions designed to solve real-world problems while ensuring DP guarantees. Indeed, we mainly used the input data perturbation setting from the privacy-preserving ML literature. This is the situation in which the whole dataset is sanitized independently and, thus, we implemented LDP algorithms from the perspective of the centralized data owner. In all cases, we concluded that differentially private ML models achieve nearly the same utility metrics as non-private ones.
翻訳日:2022-04-07 07:13:03 公開日:2022-04-02
# (参考訳) 敵対的ネオンビーム:DNNに対するロバストな物理世界対抗攻撃 [全文訳有]

Adversarial Neon Beam: Robust Physical-World Adversarial Attack to DNNs ( http://arxiv.org/abs/2204.00853v1 )

ライセンス: CC BY 4.0
Chengyin Hu and Kalibinuer Tiliwalidi(参考訳) 物理的な世界では、光はディープニューラルネットワークの性能に影響を与える。 今日では、ディープニューラルネットワークに基づく製品が日常生活に取り入れられている。 深層ニューラルネットワークモデルの性能に対する光の影響に関する研究はほとんどない。 しかし、光によって生じる逆摂動はこれらの系に非常に危険な影響を与える可能性がある。 本研究では, 対向ネオンビーム(advnb)と呼ばれる攻撃手法を提案する。 実験により,ディジタルテストと物理テストの両方において,高度な攻撃効果が得られた。 デジタル環境では99.3%の攻撃成功率が達成され、物理的環境では100%攻撃成功率が達成された。 最も高度な物理攻撃手法と比較すると,本手法はより優れた物理摂動隠蔽を実現することができる。 さらに, 実験データの解析により, 敵対的ネオンビーム攻撃による新たな現象を明らかにした。

In the physical world, light affects the performance of deep neural networks. Nowadays, many products based on deep neural network have been put into daily life. There are few researches on the effect of light on the performance of deep neural network models. However, the adversarial perturbations generated by light may have extremely dangerous effects on these systems. In this work, we propose an attack method called adversarial neon beam (AdvNB), which can execute the physical attack by obtaining the physical parameters of adversarial neon beams with very few queries. Experiments show that our algorithm can achieve advanced attack effect in both digital test and physical test. In the digital environment, 99.3% attack success rate was achieved, and in the physical environment, 100% attack success rate was achieved. Compared with the most advanced physical attack methods, our method can achieve better physical perturbation concealment. In addition, by analyzing the experimental data, we reveal some new phenomena brought about by the adversarial neon beam attack.
翻訳日:2022-04-07 07:11:22 公開日:2022-04-02
# (参考訳) 高次元・スパースデータに対する差分進化強化潜在因子分析モデル [全文訳有]

A Differential Evolution-Enhanced Latent Factor Analysis Model for High-dimensional and Sparse Data ( http://arxiv.org/abs/2204.00861v1 )

ライセンス: CC BY 4.0
Jia Chen, Di Wu, and Xin Luo(参考訳) 高次元およびスパース(hid)行列は、様々なビッグデータ関連システムやアプリケーションにおける複雑な関係を記述するために頻繁に用いられる。 位置遷移潜在因子分析(PLFA)モデルは、HiDS行列を正確かつ効率的に表すことができる。 しかしながら、その潜伏因子は、特定の勾配方向が段階的に進行する確率的勾配降下によって最適化され、亜最適解を引き起こす可能性がある。 本稿では,PLFAモデルにより最適化された潜在因子を改良し,高精度なSGDE-PLFAモデルをHiDS行列に適用するためのSGDEアルゴリズムを提案する。 4つのHiDS行列の実験で示されたように、SGDE-PLFAモデルは最先端モデルよりも優れている。

High-dimensional and sparse (HiDS) matrices are frequently adopted to describe the complex relationships in various big data-related systems and applications. A Position-transitiona l Latent Factor Analysis (PLFA) model can accurately and efficiently represent an HiDS matrix. However, its involved latent factors are optimized by stochastic gradient descent with the specific gradient direction step-by-step, which may cause a suboptimal solution. To address this issue, this paper proposes a Sequential-Group-Dif ferential- Evolution (SGDE) algorithm to refine the latent factors optimized by a PLFA model, thereby achieving a highly-accurate SGDE-PLFA model to HiDS matrices. As demonstrated by the experiments on four HiDS matrices, a SGDE-PLFA model outperforms the state-of-the-art models.
翻訳日:2022-04-07 06:59:35 公開日:2022-04-02
# (参考訳) ランドサット7号データに機械学習を組み込んだ森林デジタル双生児 [全文訳有]

Forestry digital twin with machine learning in Landsat 7 data ( http://arxiv.org/abs/2204.01709v1 )

ライセンス: CC BY 4.0
Xuetao Jiang, Meiyu Jiang, YuChun Gou, Qian Li, and Qingguo Zhou(参考訳) 歴史的データを用いた森林のモデリングにより、より正確な進化分析が可能となり、他の研究にとって重要な基盤となる。 リモートセンシングは,森林分析において重要な役割を担っている。 木の種類、被覆率、樹冠密度など、森林に関する情報を導き出すために利用することができる。 統計値を用いた森林時系列モデリング研究は数多くあるが,リモートセンシング画像を用いた場合はほとんどない。 画像予測デジタルツインはデジタルツインの実装であり、過去のデータに基づいて将来のイメージベースを予測することを目的としている。 本論文では,20年以内にLandsat 7リモートセンシング画像を用いたLSTMを用いた森林モデリング手法を提案する。 実験の結果,本稿の予測ツイン法は,研究領域の将来像を効果的に予測できることがわかった。

Modeling forests using historical data allows for more accurately evolution analysis, thus providing an important basis for other studies. As a recognized and effective tool, remote sensing plays an important role in forestry analysis. We can use it to derive information about the forest, including tree type, coverage and canopy density. There are many forest time series modeling studies using statistic values, but few using remote sensing images. Image prediction digital twin is an implementation of digital twin, which aims to predict future images bases on historical data. In this paper, we propose an LSTM-based digital twin approach for forest modeling, using Landsat 7 remote sensing image within 20 years. The experimental results show that the prediction twin method in this paper can effectively predict the future images of study area.
翻訳日:2022-04-07 06:48:49 公開日:2022-04-02
# (参考訳) 原理的語彙制約付き復号のための正確なオンライン後置アライメント [全文訳有]

Accurate Online Posterior Alignments for Principled Lexically-Constraine d Decoding ( http://arxiv.org/abs/2204.00871v1 )

ライセンス: CC BY-SA 4.0
Soumya Chatterjee, Sunita Sarawagi, Preethi Jyothi(参考訳) 機械翻訳におけるオンラインアライメント(オンラインアライメント)とは、ターゲットシーケンスが部分的にデコードされただけで、ターゲットワードをソースワードにアライメントするタスクを指す。 優れたオンラインアライメントは、ユーザーが定義した辞書を使って語彙制約を翻訳モデルに注入する語彙制約付き翻訳のような重要な応用を促進する。 本稿では,従来の手法に比べてアライメントエラー率に優れ,実行時に真にオンラインである新しいアライメント手法を提案する。 提案手法は,アライメントとトークンの確率を原理的に考慮し,既存の制約付きビーム探索復号アルゴリズムにシームレスに統合することができる。 2つの言語ペアを含む5つの言語ペアにおいて、アライメントエラー率の一貫した低下を実現する。 語彙的に制約された7つの翻訳タスクにデプロイすると、BLEUの特に制約された位置に関する大幅な改善が達成される。

Online alignment in machine translation refers to the task of aligning a target word to a source word when the target sequence has only been partially decoded. Good online alignments facilitate important applications such as lexically constrained translation where user-defined dictionaries are used to inject lexical constraints into the translation model. We propose a novel posterior alignment technique that is truly online in its execution and superior in terms of alignment error rates compared to existing methods. Our proposed inference technique jointly considers alignment and token probabilities in a principled manner and can be seamlessly integrated within existing constrained beam-search decoding algorithms. On five language pairs, including two distant language pairs, we achieve consistent drop in alignment error rates. When deployed on seven lexically constrained translation tasks, we achieve significant improvements in BLEU specifically around the constrained positions.
翻訳日:2022-04-07 06:38:49 公開日:2022-04-02
# (参考訳) 音声分解と補助特徴に基づく音響-調音インバージョン [全文訳有]

Acoustic-to-articula tory Inversion based on Speech Decomposition and Auxiliary Feature ( http://arxiv.org/abs/2204.00873v1 )

ライセンス: CC BY 4.0
Jianrong Wang, Jinyu Liu, Longxuan Zhao, Shanyu Wang, Ruiguo Yu, Li Liu(参考訳) アコースティック・トゥ・アコースティック・インバージョン (AAI) は、音声信号から調音器の動きを得る。 これまで、話者に依存しないAAIを実現することは、限られたデータを考えると、依然として課題である。 さらに、現在のほとんどの作品は音声のみを入力として使用しており、必然的なパフォーマンスボトルネックを引き起こしている。 これらの問題を解決するために,まず,音声分解ネットワークを事前学習し,話者非依存の場合に対応する新しいパーソナライズされた音声特徴として,音声を話者埋め込みとコンテンツ埋め込みに分解する。 次に,AAIをさらに改善するために,上述のパーソナライズされた音声特徴から唇補助特徴を推定する新たな補助特徴ネットワークを提案する。 3つの公開データセットを用いた実験の結果, 提案手法は, 音声特徴量のみを用いた場合と比較して平均rmseを0.25に減らし, 話者依存の場合の平均相関係数を2.0%増加させることがわかった。 さらに、平均RMSEは0.29減少し、平均相関係数は話者非依存の場合は5.0%上昇する。

Acoustic-to-articula tory inversion (AAI) is to obtain the movement of articulators from speech signals. Until now, achieving a speaker-independent AAI remains a challenge given the limited data. Besides, most current works only use audio speech as input, causing an inevitable performance bottleneck. To solve these problems, firstly, we pre-train a speech decomposition network to decompose audio speech into speaker embedding and content embedding as the new personalized speech features to adapt to the speaker-independent case. Secondly, to further improve the AAI, we propose a novel auxiliary feature network to estimate the lip auxiliary features from the above personalized speech features. Experimental results on three public datasets show that, compared with the state-of-the-art only using the audio speech feature, the proposed method reduces the average RMSE by 0.25 and increases the average correlation coefficient by 2.0% in the speaker-dependent case. More importantly, the average RMSE decreases by 0.29 and the average correlation coefficient increases by 5.0% in the speaker-independent case.
翻訳日:2022-04-07 06:15:25 公開日:2022-04-02
# (参考訳) SciNoBo : 科学出版の階層型マルチラベル分類器 [全文訳有]

SciNoBo : A Hierarchical Multi-Label Classifier of Scientific Publications ( http://arxiv.org/abs/2204.00880v1 )

ライセンス: CC BY 4.0
Nikolaos Gialitsis, Sotiris Kotitsas, Haris Papageorgiou(参考訳) fos(field-of-science )による科学出版物の分類は、資金提供者、出版者、学者、企業、その他の利害関係者がより効果的に科学文献を整理できるように、非常に重要である。 現存する作品の多くは、会場レベルでの分類、あるいは研究出版物のテキストの内容のみに基づく分類である。 SciNoBoは、FoS分類の分類体系であり、出版物の構造的特性と、多層ネットワークで編成された引用と参照を活用する。 他の研究とは対照的に,本システムは多分野の可能性を考慮して,出版物の複数分野への割り当てを支援する。 引用・公開関係からなる共通多層ネットワーク構造の下で出版物と会場を統一することにより、会場レベルの分類を出版レベルの分類で拡張することができる。 我々は、Microsoft Academic Graphから抽出した出版物のデータセット上でSciNoBoを評価し、最先端のニューラルネットワークベースラインに対して比較分析を行う。 その結果,本システムは出版物の高品質な分類を作成できることが判明した。

Classifying scientific publications according to Field-of-Science (FoS) taxonomies is of crucial importance, allowing funders, publishers, scholars, companies and other stakeholders to organize scientific literature more effectively. Most existing works address classification either at venue level or solely based on the textual content of a research publication. We present SciNoBo, a novel classification system of publications to predefined FoS taxonomies, leveraging the structural properties of a publication and its citations and references organised in a multilayer network. In contrast to other works, our system supports assignments of publications to multiple fields by considering their multidisciplinarity potential. By unifying publications and venues under a common multilayer network structure made up of citing and publishing relationships, classifications at the venue-level can be augmented with publication-level classifications. We evaluate SciNoBo on a publications' dataset extracted from Microsoft Academic Graph and we perform a comparative analysis against a state-of-the-art neural-network baseline. The results reveal that our proposed system is capable of producing high-quality classifications of publications.
翻訳日:2022-04-07 06:06:31 公開日:2022-04-02
# (参考訳) 画像スパム検出のための畳み込みニューラルネットワーク [全文訳有]

Convolutional Neural Networks for Image Spam Detection ( http://arxiv.org/abs/2204.01710v1 )

ライセンス: CC BY 4.0
Tazmina Sharmin and Fabio Di Troia and Katerina Potika and Mark Stamp(参考訳) スパムは、不十分なバルクメールと定義できる。 テキストベースのフィルターを避けるために、スパマーは画像にスパムテキストを埋め込むことがある。 本研究では,画像解析に基づく画像スパム検出の問題点について考察する。 畳み込みニューラルネットワーク(cnn)をこの問題に適用し,cnnを用いて得られた結果を他の機械学習手法と比較し,これまでの研究と比較した。 実世界の画像スパムと、画像スパムライクなデータセットの両方を考える。 本研究は,生画像とキャニーエッジの組み合わせからなる新しい特徴集合に基づくcnnを用いて,これまでの作業を改善するものである。

Spam can be defined as unsolicited bulk email. In an effort to evade text-based filters, spammers sometimes embed spam text in an image, which is referred to as image spam. In this research, we consider the problem of image spam detection, based on image analysis. We apply convolutional neural networks (CNN) to this problem, we compare the results obtained using CNNs to other machine learning techniques, and we compare our results to previous related work. We consider both real-world image spam and challenging image spam-like datasets. Our results improve on previous work by employing CNNs based on a novel feature set consisting of a combination of the raw image and Canny edges.
翻訳日:2022-04-07 05:47:45 公開日:2022-04-02
# (参考訳) コントラスト非依存アプリケーションのための混合自己教師付き学習 [全文訳有]

Mix-up Self-Supervised Learning for Contrast-agnostic Applications ( http://arxiv.org/abs/2204.00901v1 )

ライセンス: CC BY 4.0
Yichen Zhang, Yifang Yin, Ying Zhang, Roger Zimmermann(参考訳) 対照的な自己教師付き学習は近年、大きな研究の注目を集めている。 ラベルのないデータから効果的な視覚的表現を学習し、同じ画像の拡張ビューを互いに近接させて、異なる画像の埋め込みを押し出す。 ImageNet分類、COCOオブジェクト検出などにおいて大きな成功を収めたにもかかわらず、その性能はコントラスト非依存のアプリケーション、例えば、すべての画像が視覚的に似ている医療画像分類に低下している。 これにより、画像間の距離がかなり小さいため、埋め込み空間の最適化が困難になる。 この問題を解決するために,コントラスト非依存アプリケーションのための,最初のミックスアップ自己教師付き学習フレームワークを提案する。 領域間混合に基づく画像間の低分散に対処し、画像再構成と透明性予測という2つの相乗的目的に基づいて、プレテキストタスクを構築する。 その結果,従来の自己教師型学習法と比較して2.5%~7.4%の精度向上が得られた。

Contrastive self-supervised learning has attracted significant research attention recently. It learns effective visual representations from unlabeled data by embedding augmented views of the same image close to each other while pushing away embeddings of different images. Despite its great success on ImageNet classification, COCO object detection, etc., its performance degrades on contrast-agnostic applications, e.g., medical image classification, where all images are visually similar to each other. This creates difficulties in optimizing the embedding space as the distance between images is rather small. To solve this issue, we present the first mix-up self-supervised learning framework for contrast-agnostic applications. We address the low variance across images based on cross-domain mix-up and build the pretext task based on two synergistic objectives: image reconstruction and transparency prediction. Experimental results on two benchmark datasets validate the effectiveness of our method, where an improvement of 2.5% ~ 7.4% in top-1 accuracy was obtained compared to existing self-supervised learning methods.
翻訳日:2022-04-07 05:37:05 公開日:2022-04-02
# (参考訳) 感情関連質問に対するBERT支援セマンティックアノテーション補正 [全文訳有]

BERT-Assisted Semantic Annotation Correction for Emotion-Related Questions ( http://arxiv.org/abs/2204.00916v1 )

ライセンス: CC BY 4.0
Abe Kazemzadeh(参考訳) 注釈付きデータは伝統的に、教師付き機械学習(ML)モデルをトレーニングするための入力を提供するために使われてきた。 しかし、現在の自然言語処理(NLP)のための事前訓練されたMLモデルには、アノテーションプロセスの通知に使用できる組み込み言語情報が含まれている。 EMO20Q(Emotion Twenty Questions)と呼ばれる,対話行動の意味的なラベル付けを含むアノテーションタスクに情報をフィードバックするために,BERTニューラル言語モデルを使用する。 まず、BERT、EMO20Qデータ、およびアノテーションタスクの背景について述べる。 次に、アノテーション付きラベルをチェックするためにbertを微調整する方法について述べる。 これを実現するために、同じアノテーションラベルを持つ全ての発話が互いにパラフレーズに分類されていることを確認する手段として、パラフレーズタスクを使用する。 本手法は,複雑な発話レベル意味ラベルを用いたテキストユーザデータのアノテーションの評価と修正に有効な手法であることを示す。

Annotated data have traditionally been used to provide the input for training a supervised machine learning (ML) model. However, current pre-trained ML models for natural language processing (NLP) contain embedded linguistic information that can be used to inform the annotation process. We use the BERT neural language model to feed information back into an annotation task that involves semantic labelling of dialog behavior in a question-asking game called Emotion Twenty Questions (EMO20Q). First we describe the background of BERT, the EMO20Q data, and assisted annotation tasks. Then we describe the methods for fine-tuning BERT for the purpose of checking the annotated labels. To do this, we use the paraphrase task as a way to check that all utterances with the same annotation label are classified as paraphrases of each other. We show this method to be an effective way to assess and revise annotations of textual user data with complex, utterance-level semantic labels.
翻訳日:2022-04-07 05:25:20 公開日:2022-04-02
# (参考訳) AutoProtoNet: プロトタイプネットワークの解釈可能性 [全文訳有]

AutoProtoNet: Interpretability for Prototypical Networks ( http://arxiv.org/abs/2204.00929v1 )

ライセンス: CC BY 4.0
Pedro Sandoval-Segura and Wallace Lawson(参考訳) メタラーニングのアプローチでは、モデルがどのような表現をしているかを実践者が理解することは困難である。 この能力がなければ、モデルが何を知っているかを理解することと、意味のある修正を行うことの両方を理解することは困難である。 これらの課題に対処するために,我々は,入力の再構成に適した埋め込み空間をトレーニングすることで,プロトタイプネットワークに解釈可能性を構築するautoprotonetを導入する。 この埋め込み空間内の点を可視化し、クラス表現を理解する方法を示す。 また,ヒトが不適切な分類パラメータをデバッグできるプロトタイプの改良手法も考案した。 我々は、このデバッグ手法をカスタム分類タスクで使用し、wildイメージからなる検証セットの精度向上に繋がることを示す。 我々はメタラーニングアプローチにおける解釈可能性を主張し、人間がメタラーニングアルゴリズムを強化するインタラクティブな方法が存在することを示す。

In meta-learning approaches, it is difficult for a practitioner to make sense of what kind of representations the model employs. Without this ability, it can be difficult to both understand what the model knows as well as to make meaningful corrections. To address these challenges, we introduce AutoProtoNet, which builds interpretability into Prototypical Networks by training an embedding space suitable for reconstructing inputs, while remaining convenient for few-shot learning. We demonstrate how points in this embedding space can be visualized and used to understand class representations. We also devise a prototype refinement method, which allows a human to debug inadequate classification parameters. We use this debugging technique on a custom classification task and find that it leads to accuracy improvements on a validation set consisting of in-the-wild images. We advocate for interpretability in meta-learning approaches and show that there are interactive ways for a human to enhance meta-learning algorithms.
翻訳日:2022-04-07 05:13:16 公開日:2022-04-02
# (参考訳) 変圧器を用いた極多ラベルテキスト分類における局所的特徴とグローバルな特徴の抽出 [全文訳有]

Exploiting Local and Global Features in Transformer-based Extreme Multi-label Text Classification ( http://arxiv.org/abs/2204.00933v1 )

ライセンス: CC BY 4.0
Ruohong Zhang, Yau-Shian Wang, Yiming Yang, Tom Vu, Likun Lei(参考訳) エクストリームマルチラベルテキスト分類(extreme multi-label text classification, xmtc)は、定義済みのカテゴリの非常に大きな空間から関連するラベルを各ドキュメントにタグ付けするタスクである。 近年,大規模な事前学習型トランスフォーマーモデルでは,XMTCの性能が大幅に向上している。XMTCは特別なCRSトークンを埋め込んで,文書のセマンティクス全体をグローバルな特徴ベクトルとして表現し,候補ラベルと比較する。 しかし、このようなグローバルな特徴ベクトルは文書内の意味論の粒度の異なるレベルを表現するには不十分であり、それを局所的な単語レベルの特徴と補完することは、さらなる利益をもたらす可能性があると論じる。 そこで本研究では,Transformerモデルによる局所的特徴とグローバル的特徴を組み合わせ,分類器の予測能力を向上させる手法を提案する。 本実験は,提案モデルがベンチマークデータセットの最先端手法よりも優れているか,あるいは同等であることを示す。

Extreme multi-label text classification (XMTC) is the task of tagging each document with the relevant labels from a very large space of predefined categories. Recently, large pre-trained Transformer models have made significant performance improvements in XMTC, which typically use the embedding of the special CLS token to represent the entire document semantics as a global feature vector, and match it against candidate labels. However, we argue that such a global feature vector may not be sufficient to represent different granularity levels of semantics in the document, and that complementing it with the local word-level features could bring additional gains. Based on this insight, we propose an approach that combines both the local and global features produced by Transformer models to improve the prediction power of the classifier. Our experiments show that the proposed model either outperforms or is comparable to the state-of-the-art methods on benchmark datasets.
翻訳日:2022-04-07 05:02:10 公開日:2022-04-02
# (参考訳) 向き付け勾配のヒストグラムがディープラーニングに適合する - 医用画像セマンティクスセグメンテーションのための新しいマルチタスク深層ネットワーク [全文訳有]

Histogram of Oriented Gradients Meet Deep Learning: A Novel Multi-task Deep Network for Medical Image Semantic Segmentation ( http://arxiv.org/abs/2204.01712v1 )

ライセンス: CC BY 4.0
Binod Bhattarai, Ronast Subedi, Rebati Raman Gaire, Eduard Vazquez, Danail Stoyanov(参考訳) 本稿では,医療画像分割のための深層マルチタスク学習手法を提案する。 既存のマルチタスクメソッドは、プライマリタスクと補助タスクの両方に基礎的な真理アノテーションを要求する。 それに対して,補助タスクの擬似ラベルを教師なしで生成することを提案する。 擬似ラベルを生成するために、最も広く使われ、強力な手作りによる検出機能である向き付け勾配(HOG)のヒストグラムを利用する。 基本タスクのための基底的真理セマンティクスセマンティクスマスクと補助タスクのための擬似ラベルとを組み合わせることで、深層ネットワークのパラメータを学習し、主タスクと補助タスクの両方の損失を最小化する。 unetとu2netという2つの強力で広く使われているセマンティクスセグメンテーションネットワークを用いて,マルチタスク環境でのトレーニングを行った。 本仮説を検証するために,2つの異なる医用画像セグメンテーションデータセットの実験を行った。 定量的および定性的な結果から,本手法は反部法と比較して常に性能を向上することを示した。 さらに,本手法は,MICCAI 2021とともに組織されたセマンティックセグメンテーションに関するFetReg Endovis Sub-challengeの勝者である。

We present our novel deep multi-task learning method for medical image segmentation. Existing multi-task methods demand ground truth annotations for both the primary and auxiliary tasks. Contrary to it, we propose to generate the pseudo-labels of an auxiliary task in an unsupervised manner. To generate the pseudo-labels, we leverage Histogram of Oriented Gradients (HOGs), one of the most widely used and powerful hand-crafted features for detection. Together with the ground truth semantic segmentation masks for the primary task and pseudo-labels for the auxiliary task, we learn the parameters of the deep network to minimise the loss of both the primary task and the auxiliary task jointly. We employed our method on two powerful and widely used semantic segmentation networks: UNet and U2Net to train in a multi-task setup. To validate our hypothesis, we performed experiments on two different medical image segmentation data sets. From the extensive quantitative and qualitative results, we observe that our method consistently improves the performance compared to the counter-part method. Moreover, our method is the winner of FetReg Endovis Sub-challenge on Semantic Segmentation organised in conjunction with MICCAI 2021.
翻訳日:2022-04-07 04:54:10 公開日:2022-04-02
# 進化的計算に基づく筋電制御器の電力効率設計に向けて

Towards Power-Efficient Design of Myoelectric Controller based on Evolutionary Computation ( http://arxiv.org/abs/2204.02179v1 )

ライセンス: Link先を確認
Ahmed Aqeel Shaikh, Anand Kumar Mukhopadhyay, Soumyajit Poddar, and Suman Samui(参考訳) 筋電図認識は上肢義肢や生体ロボティックハンドムーブメントシステムを含む様々な応用のための制御戦略の設計において重要な側面の1つである。 本研究は, 表面筋電図(SEMG)信号の復号化のためのSVM分類器を用いた教師あり学習フレームワークを応用して, 筋運動を推定し, エネルギー効率の高いEMGベースのコントローラを設計する手法を提案する。 EMGをベースとした制御器の最適化性能を達成するため,分類器設計の主な戦略は,システム全体の誤動作を低減することである(EMGをベースとした制御器が'Rest'位置にある場合)。 この目的のために,従来のソフトマージンカーネル化svmの単一学習目標とは異なり,提案する教師付き学習システムの学習アルゴリズムを,汎用的な制約付き多目的最適化問題として定式化した。 SVMハイパーパラメータのチューニングには、非支配的なソート遺伝的アルゴリズムNSGA-II(Non-Maninate d sorting genetic algorithm II)が使用される。 5つの異なる上肢位置において11名の被験者から収集したsEMG信号からなるデータセットを用いて実験を行った。 提案手法は,emgベースの制御器のエネルギー効率を最適化するための分類器のパラメータ選択において,設計者にはるかに柔軟性を与える。

Myoelectric pattern recognition is one of the important aspects in the design of the control strategy for various applications including upper-limb prostheses and bio-robotic hand movement systems. The current work has proposed an approach to design an energy-efficient EMG-based controller by considering a supervised learning framework using a kernelized SVM classifier for decoding the information of surface electromyography (sEMG) signals to infer the underlying muscle movements. In order to achieve the optimized performance of the EMG-based controller, our main strategy of classifier design is to reduce the false movements of the overall system (when the EMG-based controller is at the `Rest' position). To this end, unlike the traditional single training objective of soft margin kernelized SVM, we have formulated the training algorithm of the proposed supervised learning system as a general constrained multi-objective optimization problem. An elitist multi-objective evolutionary algorithm $-$ the non-dominated sorting genetic algorithm II (NSGA-II) has been used for the tuning of SVM hyperparameters. We have presented the experimental results by performing the experiments on a dataset consisting of the sEMG signals collected from eleven subjects at five different upper limb positions. It is evident from the presented result that the proposed approach provides much more flexibility to the designer in selecting the parameters of the classifier to optimize the energy efficiency of the EMG-based controller.
翻訳日:2022-04-06 14:00:55 公開日:2022-04-02
# MRIを用いたマルチタスクデカップリング学習によるアルツハイマー病の検出とMMSEスコア予測:マルチサイト検証

MRI-based Multi-task Decoupling Learning for Alzheimer's Disease Detection and MMSE Score Prediction: A Multi-site Validation ( http://arxiv.org/abs/2204.01708v1 )

ライセンス: Link先を確認
Xu Tian, Jin Liu, Hulin Kuang, Yu Sheng, Jianxin Wang and The Alzheimer's Disease Neuroimaging Initiative(参考訳) アルツハイマー病(AD)の正確な検出とMMSE(Mini-mental state examination)スコアの予測は,MRI(MRI)による高齢者の健康管理において重要な課題である。 これら2つのタスクの以前の方法のほとんどは、シングルタスク学習に基づいており、それら間の相関を考慮することは滅多にない。 AD診断の重要な基礎であるMMSEスコアは、認知障害の進行を反映できるため、これらの2つの課題にマルチタスク学習手法を適用し始めた研究もある。 しかし,これらの手法では,機能相関の活用が課題となっている。 この課題を包括的に解決するために,AD検出とMMSEスコア予測のためのMRIに基づくマルチタスク分離学習手法を提案する。 まず,2つのタスクのバックボーン間に3つのマルチタスクインタラクション層を追加することで,特徴相関を利用した広告検出とmmseスコア予測を実現するマルチタスク学習ネットワークを提案する。 各マルチタスク相互作用層は、2つの機能分離モジュールと1つの機能相互作用モジュールを含む。 さらに,特徴デカップリングモジュールによって選択された特徴のタスク間の一般化を促進するため,特徴整合損失制約機能デカップリングモジュールを提案する。 最後に、mmseスコアの特定の分布情報を異なるグループで活用するために、モデル性能をさらに高めるために分布損失を提案する。 提案手法を多地点データセット上で評価する。 実験の結果,提案手法は単一タスク学習や他の既存手法よりも優れた性能を実現していることがわかった。 提案手法のソースコードはhttps://github.com/m iacsu/mtdl.com/。

Accurately detecting Alzheimer's disease (AD) and predicting mini-mental state examination (MMSE) score are important tasks in elderly health by magnetic resonance imaging (MRI). Most of the previous methods on these two tasks are based on single-task learning and rarely consider the correlation between them. Since the MMSE score, which is an important basis for AD diagnosis, can also reflect the progress of cognitive impairment, some studies have begun to apply multi-task learning methods to these two tasks. However, how to exploit feature correlation remains a challenging problem for these methods. To comprehensively address this challenge, we propose a MRI-based multi-task decoupled learning method for AD detection and MMSE score prediction. First, a multi-task learning network is proposed to implement AD detection and MMSE score prediction, which exploits feature correlation by adding three multi-task interaction layers between the backbones of the two tasks. Each multi-task interaction layer contains two feature decoupling modules and one feature interaction module. Furthermore, to enhance the generalization between tasks of the features selected by the feature decoupling module, we propose the feature consistency loss constrained feature decoupling module. Finally, in order to exploit the specific distribution information of MMSE score in different groups, a distribution loss is proposed to further enhance the model performance. We evaluate our proposed method on multi-site datasets. Experimental results show that our proposed multi-task decoupled representation learning method achieves good performance, outperforming single-task learning and other existing state-of-the-art methods. The source code of our proposed method is available at https://github.com/m iacsu/MTDL.
翻訳日:2022-04-06 13:59:45 公開日:2022-04-02
# 非局所変分オートエンコーダを用いた単一画像内分布計測

Single Image Internal Distribution Measurement Using Non-Local Variational Autoencoder ( http://arxiv.org/abs/2204.01711v1 )

ライセンス: Link先を確認
Yeahia Sarker, Abdullah-Al-Zubaer Imran, Md Hafiz Ahamed, Ripon K. Chakrabortty, Michael J. Ryan and Sajal K. Das(参考訳) 深層学習に基づく超解像法は、特に単一画像超解像(SISR)タスクにおいて非常に有望である。 性能向上にもかかわらず、これらの手法はモデルトレーニングのための協調データに依存しているため制限されている。 さらに, 教師付きSISRソリューションは, 低次元画像の再構成のための特徴学習プロセスのみに焦点をあてて, 周辺情報に頼っている。 さらに、制約された受容領域のため、グローバルな文脈に乗じることができない。 これらの課題に対処するため,本研究では,非局所変分オートエンコーダ(\texttt{NLVAE})という新たな画像固有解を提案し,先行訓練を必要とせず,高分解能(HR)画像を単一低分解能(LR)画像から再構成する。 各種受容領域と高画質合成画像の最大精細度を抽出するために,非局所領域からの歪み情報を用いて高解像度画像を再構成する自己教師型戦略として,‘texttt{NLVAE} を導入した。 7つのベンチマークデータセットによる実験結果は,texttt{NLVAE}モデルの有効性を示す。 さらに,提案手法は,質的・定量的評価により,様々なベースライン法や最先端法を上回った。

Deep learning-based super-resolution methods have shown great promise, especially for single image super-resolution (SISR) tasks. Despite the performance gain, these methods are limited due to their reliance on copious data for model training. In addition, supervised SISR solutions rely on local neighbourhood information focusing only on the feature learning processes for the reconstruction of low-dimensional images. Moreover, they fail to capitalize on global context due to their constrained receptive field. To combat these challenges, this paper proposes a novel image-specific solution, namely non-local variational autoencoder (\texttt{NLVAE}), to reconstruct a high-resolution (HR) image from a single low-resolution (LR) image without the need for any prior training. To harvest maximum details for various receptive regions and high-quality synthetic images, \texttt{NLVAE} is introduced as a self-supervised strategy that reconstructs high-resolution images using disentangled information from the non-local neighbourhood. Experimental results from seven benchmark datasets demonstrate the effectiveness of the \texttt{NLVAE} model. Moreover, our proposed model outperforms a number of baseline and state-of-the-art methods as confirmed through extensive qualitative and quantitative evaluations.
翻訳日:2022-04-06 13:59:20 公開日:2022-04-02
# (参考訳) 少数ショット画像分類のためのマッチング特徴セット [全文訳有]

Matching Feature Sets for Few-Shot Image Classification ( http://arxiv.org/abs/2204.00949v1 )

ライセンス: CC BY 4.0
Arman Afrasiyabi, Hugo Larochelle, Jean-Fran\c{c}ois Lalonde, Christian Gagn\'e(参考訳) 画像分類では、ディープネットワークを訓練して入力画像毎に単一の特徴ベクトルを抽出するのが一般的である。 この傾向にほとんど従わない分類法もほとんどない。 本研究では、この確立した方向から離れ、各画像の特徴ベクトルの集合を抽出することを提案する。 私たちは、セットベースの表現が本質的にベースクラスからよりリッチなイメージ表現を構築していると論じる。 そこで我々は,既存の特徴抽出器を用いて画像から特徴ベクトルの集合を生成することを提案する。 このアプローチはsetfeatと呼ばれ、既存のエンコーダアーキテクチャに浅い自己着脱機構を組み込む。 注目モジュールは軽量であり,本手法により,元のバージョンとほぼ同じ数のパラメータを持つエンコーダが生成される。 トレーニングと推論の間、画像分類を行うためにセット・ツー・セットのマッチングメトリックが使用される。 提案したアーキテクチャとメトリクスの有効性は,標準の少ショットデータセット(miniImageNet, tieredImageNet, CUB)を1ショットと5ショットの両方のシナリオで徹底的に実験することで実証される。 いずれにしても、我々の手法は最先端の手法よりも優れている。

In image classification, it is common practice to train deep networks to extract a single feature vector per input image. Few-shot classification methods also mostly follow this trend. In this work, we depart from this established direction and instead propose to extract sets of feature vectors for each image. We argue that a set-based representation intrinsically builds a richer representation of images from the base classes, which can subsequently better transfer to the few-shot classes. To do so, we propose to adapt existing feature extractors to instead produce sets of feature vectors from images. Our approach, dubbed SetFeat, embeds shallow self-attention mechanisms inside existing encoder architectures. The attention modules are lightweight, and as such our method results in encoders that have approximately the same number of parameters as their original versions. During training and inference, a set-to-set matching metric is used to perform image classification. The effectiveness of our proposed architecture and metrics is demonstrated via thorough experiments on standard few-shot datasets -- namely miniImageNet, tieredImageNet, and CUB -- in both the 1- and 5-shot scenarios. In all cases but one, our method outperforms the state-of-the-art.
翻訳日:2022-04-06 11:49:33 公開日:2022-04-02
# (参考訳) 高再生力グリッドのリスク意識制御と最適化 [全文訳有]

Risk-Aware Control and Optimization for High-Renewable Power Grids ( http://arxiv.org/abs/2204.00950v1 )

ライセンス: CC BY 4.0
Neil Barry, Minas Chatzos, Wenbo Chen, Dahye Han, Chaofan Huang, Roshan Joseph, Michael Klamkin, Seonho Park, Mathieu Tanneau, Pascal Van Hentenryck, Shangkun Wang, Hanyu Zhang and Haoruo Zhao(参考訳) 化石燃料から再生可能エネルギー源への電力網の移行は、その運用を推進する市場開拓アルゴリズムに根本的な課題をもたらす。 実際、負荷の確率性の増加と再生可能エネルギー源のボラティリティは予測誤差を著しく増加させ、既存の決定論的最適化モデルの信頼性と効率に影響を与える。 RAMCプロジェクトは、この決定論的設定から、不確実性を明示的に定量化し、市場浄化最適化に組み込むリスク認識フレームワークに移行する方法について、調査を開始した。 リスクを意識した市場浄化は、主に計算の観点から、独自の課題を提起する。 本稿では,ramcがリスク対応市場のクリアリングにどのようにアプローチするかをレビューし,不確実性定量化,最適化,機械学習におけるそのイノベーションをいくつか提示する。 実ネットワーク上での実験結果を示す。

The transition of the electrical power grid from fossil fuels to renewable sources of energy raises fundamental challenges to the market-clearing algorithms that drive its operations. Indeed, the increased stochasticity in load and the volatility of renewable energy sources have led to significant increases in prediction errors, affecting the reliability and efficiency of existing deterministic optimization models. The RAMC project was initiated to investigate how to move from this deterministic setting into a risk-aware framework where uncertainty is quantified explicitly and incorporated in the market-clearing optimizations. Risk-aware market-clearing raises challenges on its own, primarily from a computational standpoint. This paper reviews how RAMC approaches risk-aware market clearing and presents some of its innovations in uncertainty quantification, optimization, and machine learning. Experimental results on real networks are presented.
翻訳日:2022-04-06 11:25:31 公開日:2022-04-02
# (参考訳) 深層学習を用いた作物分類とセグメンテーションのためのSentinel-2多年マルチカントリーベンチマークデータセット [全文訳有]

A Sentinel-2 multi-year, multi-country benchmark dataset for crop classification and segmentation with deep learning ( http://arxiv.org/abs/2204.00951v1 )

ライセンス: CC BY-SA 4.0
Dimitrios Sykas, Maria Sdraka, Dimitrios Zografakis, Ioannis Papoutsis(参考訳) 本研究では,sen4agrinetについて紹介する。sen4agrinetはsentinel-2ベースの時系列マルチカントリーベンチマークデータセットで,機械学習とディープラーニングを用いた農業モニタリングアプリケーション用に最適化されている。 Sen4AgriNetデータセットは、カントリーワイドラベルを調和させるためにLand Parcel Identification System (LPIS)を介して収集されたファーマー宣言から注釈付けされている。 これらの宣言は、最近公開データとして利用可能になったばかりであり、地上真実データから衛星画像のラベリングが初めて可能となった。 我々は、食品農業機関(FAO)の指標作物分類スキームに基づいて、共通農業政策(CAP)のニーズに対応する、ヨーロッパ全域で新しい作物型分類の提案と標準化を進める。 Sen4AgriNetは、すべてのスペクトル情報を含む、唯一のマルチカントリー、マルチ年データセットである。 カタルーニャとフランスの2016-2020年期間をカバーするために建設され、追加の国を含めることができる。 現在、4250万個の小包が含まれているため、他のアーカイブよりはるかに大きい。 我々は、さまざまなディープラーニングアプリケーション、Object Aggregated Dataset(OAD)とPatches Assembled Dataset(PAD)の2つのサブデータセットを抽出し、その価値を強調する。 OADは各パーセルの地域統計を大まかに利用し、分類アルゴリズムのための強力なラベル-機能インスタンスを作成する。 一方、PAD構造は、パーセル抽出とセマンティックセグメンテーションとラベル付けに分類問題を一般化する。 パッドとoadは3つの異なるシナリオで検討され、異なる年月と異なる国における空間的および時間的変動の影響を示し、モデル化する。

In this work we introduce Sen4AgriNet, a Sentinel-2 based time series multi country benchmark dataset, tailored for agricultural monitoring applications with Machine and Deep Learning. Sen4AgriNet dataset is annotated from farmer declarations collected via the Land Parcel Identification System (LPIS) for harmonizing country wide labels. These declarations have only recently been made available as open data, allowing for the first time the labeling of satellite imagery from ground truth data. We proceed to propose and standardise a new crop type taxonomy across Europe that address Common Agriculture Policy (CAP) needs, based on the Food and Agriculture Organization (FAO) Indicative Crop Classification scheme. Sen4AgriNet is the only multi-country, multi-year dataset that includes all spectral information. It is constructed to cover the period 2016-2020 for Catalonia and France, while it can be extended to include additional countries. Currently, it contains 42.5 million parcels, which makes it significantly larger than other available archives. We extract two sub-datasets to highlight its value for diverse Deep Learning applications; the Object Aggregated Dataset (OAD) and the Patches Assembled Dataset (PAD). OAD capitalizes zonal statistics of each parcel, thus creating a powerful label-to-features instance for classification algorithms. On the other hand, PAD structure generalizes the classification problem to parcel extraction and semantic segmentation and labeling. The PAD and OAD are examined under three different scenarios to showcase and model the effects of spatial and temporal variability across different years and different countries.
翻訳日:2022-04-06 11:11:45 公開日:2022-04-02
# (参考訳) 因果性不確かさ時のモデルフリー・モデルベース政策評価 [全文訳有]

Model-Free and Model-Based Policy Evaluation when Causality is Uncertain ( http://arxiv.org/abs/2204.00956v1 )

ライセンス: CC BY 4.0
David Bruns-Smith(参考訳) 意思決定者が直接介入できる場合、ポリシー評価アルゴリズムは適切な因果推定を与える。 オフ・ポリシー・アセスメント(ope)では、ダイナミクスに影響を与える変数と未知の行動ポリシーによって使用される変数の両方が存在する可能性がある。 これらの「共同設立者」は、急激な相関を導入し、新しい政策の予測がバイアスを受けるだろう。 我々は、各期間に共同創設者が引かれるとき、有限の地平線でこれらの未観測の共同創設者に対する感受性を評価するために最悪のケース境界を開発する。 我々は、堅牢なMDPを持つモデルベースアプローチが、動的にドメイン知識を活用することにより、より低い境界を与えることを示した。 最後に、観測されていない共同設立者が時間とともに持続している場合、OPEははるかに困難であり、既存の技術が極めて保守的な境界を生んでいることを示す。

When decision-makers can directly intervene, policy evaluation algorithms give valid causal estimates. In off-policy evaluation (OPE), there may exist unobserved variables that both impact the dynamics and are used by the unknown behavior policy. These "confounders" will introduce spurious correlations and naive estimates for a new policy will be biased. We develop worst-case bounds to assess sensitivity to these unobserved confounders in finite horizons when confounders are drawn iid each period. We demonstrate that a model-based approach with robust MDPs gives sharper lower bounds by exploiting domain knowledge about the dynamics. Finally, we show that when unobserved confounders are persistent over time, OPE is far more difficult and existing techniques produce extremely conservative bounds.
翻訳日:2022-04-06 10:40:45 公開日:2022-04-02
# (参考訳) 擬似ラベル記述を用いた長尾複数ラベルテキスト分類 [全文訳有]

Long-tailed Extreme Multi-label Text Classification with Generated Pseudo Label Descriptions ( http://arxiv.org/abs/2204.00958v1 )

ライセンス: CC BY 4.0
Ruohong Zhang, Yau-Shian Wang, Yiming Yang, Donghan Yu, Tom Vu, Likun Lei(参考訳) XMTC(Extreme Multi-label Text Classification)は、ラベル空間の重大さと、高度に歪んだ分布におけるレアラベルの長い尾に関連する深刻なデータ不足の問題により、機械学習の研究と応用において難しい課題となっている。 本稿では,厳密なデータ不足条件下で情報的ラベル記述を生成するための訓練されたbag-of-words(BoW)分類器の有効性と,関連するラベル記述に対する入力文書(クエリ)にニューラルネットワークを組み込んだ検索モデルの有効性を組み合わせ,テールラベル予測の課題に対処する。 提案手法はXMTCベンチマークデータセット上での最先端性能を実現し,これまでで最高の手法であるテールラベル予測を著しく上回っている。 また,bowerモデルとneural model w.r.t.の性能低下に関する理論的解析を行う。

Extreme Multi-label Text Classification (XMTC) has been a tough challenge in machine learning research and applications due to the sheer sizes of the label spaces and the severe data scarce problem associated with the long tail of rare labels in highly skewed distributions. This paper addresses the challenge of tail label prediction by proposing a novel approach, which combines the effectiveness of a trained bag-of-words (BoW) classifier in generating informative label descriptions under severe data scarce conditions, and the power of neural embedding based retrieval models in mapping input documents (as queries) to relevant label descriptions. The proposed approach achieves state-of-the-art performance on XMTC benchmark datasets and significantly outperforms the best methods so far in the tail label prediction. We also provide a theoretical analysis for relating the BoW and neural models w.r.t. performance lower bound.
翻訳日:2022-04-06 10:24:24 公開日:2022-04-02
# Paoding: ロバスト性保存型データフリーニューラルネットワークプルーニング

Paoding: Supervised Robustness-preservin g Data-free Neural Network Pruning ( http://arxiv.org/abs/2204.00783v1 )

ライセンス: Link先を確認
Mark Huasong Meng, Guangdong Bai, Sin Gee Teo, Jin Song Dong(参考訳) トレーニング済みニューラルネットワークモデルを現実世界のアプリケーションにデプロイする場合、モデルコンシューマは、モバイルやスマートデバイスといったリソース制約のプラットフォームに遭遇することが多い。 彼らは通常、プルーニング技術を使ってモデルのサイズと複雑さを減らし、リソース消費の少ないより軽いものを生成する。 それにもかかわらず、既存のプルーニング手法のほとんどは、プルーニング後のモデルが元のトレーニングデータに基づいて微調整されるか、あるいは再訓練される可能性があるという前提で提案されている。 データコントローラはモデルコンシューマに元のデータを提供するのを嫌がることが多いため、実際には非現実的かもしれない。 本研究では,予測の正確さだけでなく,オープンワールド展開における望ましくない入力に対して堅牢な軽量モデルを実現することを目的とした,‘emph{data-free}コンテキストにおけるニューラルネットワークプルーニングについて検討する。 ミスプレイングされたユニットを修正できる微調整と再訓練の欠如を考えると、従来の攻撃的なワンショット戦略をプログレッシブなプロセスとして扱う保守的な戦略に置き換える。 本研究では, 確率的最適化に基づくプルーニング手法を提案し, プルーニング過程の導出にロバストネス関連の指標を用いる。 この手法は \textsc{paoding} と呼ばれるpythonパッケージとして実装され、様々なニューラルネットワークモデルに関する一連の実験によって評価される。 実験の結果、ロバスト性保存と精度の面では、既存のワンショットデータフリープルーニングアプローチを大きく上回っていることがわかった。

When deploying pre-trained neural network models in real-world applications, model consumers often encounter resource-constraint platforms such as mobile and smart devices. They typically use the pruning technique to reduce the size and complexity of the model, generating a lighter one with less resource consumption. Nonetheless, most existing pruning methods are proposed with a premise that the model after being pruned has a chance to be fine-tuned or even retrained based on the original training data. This may be unrealistic in practice, as the data controllers are often reluctant to provide their model consumers with the original data. In this work, we study the neural network pruning in the \emph{data-free} context, aiming to yield lightweight models that are not only accurate in prediction but also robust against undesired inputs in open-world deployments. Considering the absence of the fine-tuning and retraining that can fix the mis-pruned units, we replace the traditional aggressive one-shot strategy with a conservative one that treats the pruning as a progressive process. We propose a pruning method based on stochastic optimization that uses robustness-related metrics to guide the pruning process. Our method is implemented as a Python package named \textsc{Paoding} and evaluated with a series of experiments on diverse neural network models. The experimental results show that it significantly outperforms existing one-shot data-free pruning approaches in terms of robustness preservation and accuracy.
翻訳日:2022-04-05 17:04:38 公開日:2022-04-02
# Extreme Edgeのインテリジェンス:改革可能なTinyMLに関する調査

Intelligence at the Extreme Edge: A Survey on Reformable TinyML ( http://arxiv.org/abs/2204.00827v1 )

ライセンス: Link先を確認
Visal Rajapakse, Ishan Karunanayake, Nadeem Ahmed(参考訳) 低出力処理のための機械学習(ML)の急速な小型化は、極端端(センサやアクチュエータなど)での認識を提供するためのゲートウェイを開放した。 TinyML(TinyML)と呼ばれるこの上昇する研究分野は、Fragal Microcontroller Units(MCU)における機械学習(ML)とディープラーニング(DL)の使用を民主化することを提案する。 MCUは、数ミリワット以下の電力で動作可能なエネルギー効率の高い普及装置である。 しかし、多くのソリューションは、TinyMLは推論しか実行できないと仮定している。 それにもかかわらず、TinyMLへの関心が高まり、TinyMLが一度デプロイされると改善できるような作業が修正可能になった。 これに合わせて、MCUベースのソリューション全般において、物理アクセスの削減やMCUの長期展開といった障害が生じ、TinyMLがより効果的なソリューションにおいて重要な役割を果たすと期待されている。 本稿では,分離の容易化のための新しい分類法を提案するとともに,修正可能なtinymlソリューションに関する調査を行う。 本稿では,分類学における各階層層の適合性についても論じる。 これらに加えて、TinyMLのワークフローを調査し、特定されたデプロイメントスキームと利用可能なベンチマークツールを分析します。 さらに,再生可能なtinymlが選択したいくつかの産業領域にどのように影響を与えるかを議論し,課題と今後の方向性について論じる。

The rapid miniaturization of Machine Learning (ML) for low powered processing has opened gateways to provide cognition at the extreme edge (E.g., sensors and actuators). Dubbed Tiny Machine Learning (TinyML), this upsurging research field proposes to democratize the use of Machine Learning (ML) and Deep Learning (DL) on frugal Microcontroller Units (MCUs). MCUs are highly energy-efficient pervasive devices capable of operating with less than a few Milliwatts of power. Nevertheless, many solutions assume that TinyML can only run inference. Despite this, growing interest in TinyML has led to work that makes them reformable, i.e., work that permits TinyML to improve once deployed. In line with this, roadblocks in MCU based solutions in general, such as reduced physical access and long deployment periods of MCUs, deem reformable TinyML to play a significant part in more effective solutions. In this work, we present a survey on reformable TinyML solutions with the proposal of a novel taxonomy for ease of separation. Here, we also discuss the suitability of each hierarchical layer in the taxonomy for allowing reformability. In addition to these, we explore the workflow of TinyML and analyze the identified deployment schemes and the scarcely available benchmarking tools. Furthermore, we discuss how reformable TinyML can impact a few selected industrial areas and discuss the challenges and future directions.
翻訳日:2022-04-05 17:04:11 公開日:2022-04-02
# RFVTM:リモートセンシング画像登録のための頂点切削マッチングの回復とフィルタリング

RFVTM: A Recovery and Filtering Vertex Trichotomy Matching for Remote Sensing Image Registration ( http://arxiv.org/abs/2204.00818v1 )

ライセンス: Link先を確認
Ming Zhao, Bowen An, Yongpeng Wu, Huynh Van Luong, Andr\'e Kaup(参考訳) 信頼性の高い特徴点マッチングは、機能ベースの画像登録において極めて困難なプロセスである。 本稿では,rfvtm(recovery and filter vertex trichotomy matching)と呼ばれるロバストな特徴点マッチングアルゴリズムを提案する。 頂点三分法記述子と呼ばれる新しいアフィン不変記述子は、各頂点を三分法集合にマッピングして構成したアフィン変換の後、頂点と線の間の幾何的関係が保存されることに基づいて提案される。 Vertex Trichotomy Matching (VTM) における外乱除去は、対応する頂点三分法記述子の相違を反復的に比較することによって行われる。 大量の外れ値によって誤って検証されたいくつかの不確かさは、VTM反復で除去され、正しい位置に近い残余の外れ値は同じグラフ構造では除外できない。 したがって、同じ頂点分割記述子と制限された変換誤差に基づいて、いくつかのイリアーを回復するリカバリおよびフィルタリング戦略が設計されている。 追加の回復インリアーの支援により、拡張された頂点集合の同一グラフに到達する過程で残差アウトリアーをフィルターアウトすることもできる。 実験の結果,大規模な変換,重複パターン,スペクトル内容の不整合など,様々な条件下でのアルゴリズムの精度と安定性に関する優れた性能が示された。

Reliable feature point matching is a vital yet challenging process in feature-based image registration. In this paper,a robust feature point matching algorithm called Recovery and Filtering Vertex Trichotomy Matching (RFVTM) is proposed to remove outliers and retain sufficient inliers for remote sensing images. A novel affine invariant descriptor called vertex trichotomy descriptor is proposed on the basis of that geometrical relations between any of vertices and lines are preserved after affine transformations, which is constructed by mapping each vertex into trichotomy sets. The outlier removals in Vertex Trichotomy Matching (VTM) are implemented by iteratively comparing the disparity of corresponding vertex trichotomy descriptors. Some inliers mistakenly validated by a large amount of outliers are removed in VTM iterations, and several residual outliers close to correct locations cannot be excluded with the same graph structures. Therefore, a recovery and filtering strategy is designed to recover some inliers based on identical vertex trichotomy descriptors and restricted transformation errors. Assisted with the additional recovered inliers, residual outliers can also be filtered out during the process of reaching identical graph for the expanded vertex sets. Experimental results demonstrate the superior performance on precision and stability of this algorithm under various conditions, such as remote sensing images with large transformations, duplicated patterns, or inconsistent spectral content.
翻訳日:2022-04-05 16:33:33 公開日:2022-04-02
# ラインサポート領域分割と幾何学的外乱除去によるコンテンツ不整合画像の自動登録

Automatic Registration of Images with Inconsistent Content Through Line-Support Region Segmentation and Geometrical Outlier Removal ( http://arxiv.org/abs/2204.00832v1 )

ライセンス: Link先を確認
Ming Zhao, Yongpeng Wu, Shengda Pan, Fan Zhou, Bowen An, Andr\'e Kaup(参考訳) 自動画像登録の実装は、様々なアプリケーションで依然として困難である。 本稿では,線支持領域分割と幾何外乱除去(ALRS-GOR)による自動画像登録手法を提案する。 この新しいアプローチは、スペクトル内容の異なるリモートセンシング画像やノイズ干渉、一貫性のないアノテーションによる画像のマップなど、アフィン変形と一貫性のないコンテンツによる画像登録に関連する問題に対処するように設計されている。 まず、画像に存在する一貫性のないコンテンツの問題に対処するために、線支持領域、すなわち、点が略同じ画像勾配角を共有する直線領域を抽出する。 ラインセグメントの不完全性を軽減するため、画像の詳細やノイズによって全解像度で隠蔽されたグローバル構造を保存するために、多重解像度の反復戦略を用いる。 次に,siftによって初期化される対応マッチに対するアフィン不変な幾何学的分類に基づく,信頼性の高い特徴点マッチングを提供するために,幾何学的外れ値除去(gor)を開発した。 局所幾何学的関係にのみ依存する従来の手法に代えて、全てのマッチの累積分類の相違を比較することにより、候補外乱が選択される。 本稿では,アフィン変形を模擬した航空画像,異なる状況(マルチスペクトル,マルチセンサ,マルチタイム)で撮影されたリモートセンシング光学および合成開口レーダ画像,一貫性のないアノテーションによる地図画像など,提案手法の評価のために様々な画像セットを検討した。 実験の結果,提案手法はデータセット全体の既存手法よりも優れた性能を示すことができた。

The implementation of automatic image registration is still difficult in various applications. In this paper, an automatic image registration approach through line-support region segmentation and geometrical outlier removal (ALRS-GOR) is proposed. This new approach is designed to address the problems associated with the registration of images with affine deformations and inconsistent content, such as remote sensing images with different spectral content or noise interference, or map images with inconsistent annotations. To begin with, line-support regions, namely a straight region whose points share roughly the same image gradient angle, are extracted to address the issues of inconsistent content existing in images. To alleviate the incompleteness of line segments, an iterative strategy with multi-resolution is employed to preserve global structures that are masked at full resolution by image details or noise. Then, Geometrical Outlier Removal (GOR) is developed to provide reliable feature point matching, which is based on affineinvariant geometrical classifications for corresponding matches initialized by SIFT. The candidate outliers are selected by comparing the disparity of accumulated classifications among all matches, instead of conventional methods which only rely on local geometrical relations. Various image sets have been considered in this paper for the evaluation of the proposed approach, including aerial images with simulated affine deformations, remote sensing optical and synthetic aperture radar images taken at different situations (multispectral, multisensor, and multitemporal), and map images with inconsistent annotations. Experimental results demonstrate the superior performance of the proposed method over the existing approaches for the whole data set.
翻訳日:2022-04-05 16:33:06 公開日:2022-04-02
# pixelfolder:画像生成のための効率的なプログレッシブピクセル合成ネットワーク

PixelFolder: An Efficient Progressive Pixel Synthesis Network for Image Generation ( http://arxiv.org/abs/2204.00833v1 )

ライセンス: Link先を確認
Jing He, Yiyi Zhou, Qi Zhang, Yunhang Shen, Xiaoshuai Sun, Chao Chen, Rongrong Ji(参考訳) 画素合成は画像生成において有望な研究パラダイムであり、画像生成のためのピクセル単位の事前知識をうまく活用することができる。 しかし、既存のメソッドは依然として過度のメモリフットプリントと計算オーバーヘッドに悩まされている。 本稿では,PixelFolder を用いた画像生成のためのプログレッシブピクセル合成ネットワークを提案する。 具体的には、PixelFolderはプログレッシブピクセル回帰問題として画像生成を定式化し、多段階パラダイムで画像を合成することで、大きなテンソル変換によるオーバーヘッドを大幅に削減することができる。 さらに,エンド・ツー・エンド回帰の事前知識を維持しつつ,モデルの効率をさらに向上させるため,新たな画素折り畳み操作を導入する。 これらの革新的な設計により、CIPSと呼ばれる最新の画素合成法と比較して、90%の計算と57%のパラメータの削減など、ピクセル合成の費用を大幅に削減する。 このアプローチを検証するために、FFHQとLSUN Churchという2つのベンチマークデータセットについて広範な実験を行った。 実験結果から,PixelFolderは2つのベンチマークデータセット,すなわちFFHQとLSUN Churchにおける3.77 FIDと2.45 FIDに対して,新たなSOTA(State-of-the-ar t)性能を得ることができた。 一方、PixelFolderはStyleGAN2のようなSOTAメソッドよりも効率的で、それぞれ74%の計算と36%のパラメータを削減している。 これらの結果は,提案したPixelFolderの有効性を大いに検証した。

Pixel synthesis is a promising research paradigm for image generation, which can well exploit pixel-wise prior knowledge for generation. However, existing methods still suffer from excessive memory footprint and computation overhead. In this paper, we propose a progressive pixel synthesis network towards efficient image generation, coined as PixelFolder. Specifically, PixelFolder formulates image generation as a progressive pixel regression problem and synthesizes images by a multi-stage paradigm, which can greatly reduce the overhead caused by large tensor transformations. In addition, we introduce novel pixel folding operations to further improve model efficiency while maintaining pixel-wise prior knowledge for end-to-end regression. With these innovative designs, we greatly reduce the expenditure of pixel synthesis, e.g., reducing 90% computation and 57% parameters compared to the latest pixel synthesis method called CIPS. To validate our approach, we conduct extensive experiments on two benchmark datasets, namely FFHQ and LSUN Church. The experimental results show that with much less expenditure, PixelFolder obtains new state-of-the-art (SOTA) performance on two benchmark datasets, i.e., 3.77 FID and 2.45 FID on FFHQ and LSUN Church, respectively. Meanwhile, PixelFolder is also more efficient than the SOTA methods like StyleGAN2, reducing about 74% computation and 36% parameters, respectively. These results greatly validate the effectiveness of the proposed PixelFolder.
翻訳日:2022-04-05 16:32:38 公開日:2022-04-02
# 滑らか性を超えて:非パラメトリック密度推定に低ランク解析を組み込む

Beyond Smoothness: Incorporating Low-Rank Analysis into Nonparametric Density Estimation ( http://arxiv.org/abs/2204.00930v1 )

ライセンス: Link先を確認
Robert A. Vandermeulen and Antoine Ledent(参考訳) 最も一般的な普遍的一貫した非パラメトリック密度推定器の構成と理論的解析は、1つの機能的性質(滑らかさ)にヒンジする。 本稿では,低ランクモデルの一種である多視点潜在変数モデルを非パラメトリック密度推定に組み込む理論的意義について検討する。 これを実現するために,マルチビューモデルを統合するヒストグラム型推定器の詳細な解析を行う。 我々の分析は、有限個のリプシッツ連続成分を持つ任意のマルチビューモデルに、$L^1$エラーで$\widetilde{O}(1/\sqrt[3]{n})$の速度で収束する普遍的に一貫したヒストグラム型推定器が存在することを示す。 対照的に、標準的なヒストグラム推定器は、1/\sqrt[d]{n}$よりも同じ密度のクラスで遅い速度で収束することができる。 また,タッカー分解に基づく新しい非パラメトリック潜在変数モデルを提案する。 提案手法の初歩的な実装により,標準ヒストグラム推定器よりもかなりの性能向上が実証された。 また,タッカー分解に基づくモデルのサンプル複雑性と,他の様々な結果の詳細な分析を行った。 そこで本論文は,低ランク手法を非パラメトリック設定に拡張するための理論基盤を提供する。

The construction and theoretical analysis of the most popular universally consistent nonparametric density estimators hinge on one functional property: smoothness. In this paper we investigate the theoretical implications of incorporating a multi-view latent variable model, a type of low-rank model, into nonparametric density estimation. To do this we perform extensive analysis on histogram-style estimators that integrate a multi-view model. Our analysis culminates in showing that there exists a universally consistent histogram-style estimator that converges to any multi-view model with a finite number of Lipschitz continuous components at a rate of $\widetilde{O}(1/\sqrt[3]{n})$ in $L^1$ error. In contrast, the standard histogram estimator can converge at a rate slower than $1/\sqrt[d]{n}$ on the same class of densities. We also introduce a new nonparametric latent variable model based on the Tucker decomposition. A rudimentary implementation of our estimators experimentally demonstrates a considerable performance improvement over the standard histogram estimator. We also provide a thorough analysis of the sample complexity of our Tucker decomposition-based model and a variety of other results. Thus, our paper provides solid theoretical foundations for extending low-rank techniques to the nonparametric setting
翻訳日:2022-04-05 16:26:48 公開日:2022-04-02
# 複数の補助課題を伴う広告アロケーションの強化学習におけるリストワイズ表現の学習

Learning List-wise Representation in Reinforcement Learning for Ads Allocation with Multiple Auxiliary Tasks ( http://arxiv.org/abs/2204.00888v1 )

ライセンス: Link先を確認
Guogang Liao, Ze Wang, Xiaowen Shi, Xiaoxu Wu, Chuheng Zhang, Yongkang Wang, Xingxing Wang, Dong Wang(参考訳) 近年の強化学習(RL)の普及に伴い、レコメンデーションプラットフォーム(eコマースやニュースフィードサイトなど)における広告アロケーションにRLを活用することへの大きな関心が高まっている。 パフォーマンス向上のために、最近のRLベースの広告アロケーションエージェントは、リストワイドアイテムアレンジメントの表現に基づいて決定を行う。 この結果、高次元の状態作用空間となり、効率的で一般化可能なリストワイズ表現を学ぶのが難しくなる。 そこで本研究では,meituan food delivery platformにおけるタスク固有信号を利用して,より優れた表現を学習するための新しいアルゴリズムを提案する。 具体的には,再構築,予測,コントラスト学習に基づく3種類の補助課題を提案する。 我々は,これらの補助タスクの有効性に関する広範囲なオフライン実験を行い,本手法を実世界の食品配送プラットフォーム上でテストする。 実験の結果,提案手法はリスト毎の表現を学習し,プラットフォームに対して高い収益を得ることができた。

With the recent prevalence of reinforcement learning (RL), there have been tremendous interests in utilizing RL for ads allocation in recommendation platforms (e.g., e-commerce and news feed sites). For better performance, recent RL-based ads allocation agent makes decisions based on representations of list-wise item arrangement. This results in a high-dimensional state-action space, which makes it difficult to learn an efficient and generalizable list-wise representation. To address this problem, we propose a novel algorithm to learn a better representation by leveraging task-specific signals on Meituan food delivery platform. Specifically, we propose three different types of auxiliary tasks that are based on reconstruction, prediction, and contrastive learning respectively. We conduct extensive offline experiments on the effectiveness of these auxiliary tasks and test our method on real-world food delivery platform. The experimental results show that our method can learn better list-wise representations and achieve higher revenue for the platform.
翻訳日:2022-04-05 16:06:41 公開日:2022-04-02
# 適応的特徴統合を用いた知識蒸留によるクラスインクリメンタル学習

Class-Incremental Learning by Knowledge Distillation with Adaptive Feature Consolidation ( http://arxiv.org/abs/2204.00895v1 )

ライセンス: Link先を確認
Minsoo Kang, Jaeyoo Park, and Bohyung Han(参考訳) 本稿では,より深いニューラルネットワークに基づく新しいクラスインクリメンタル学習手法を提案する。 本アルゴリズムは知識蒸留を基本とし,新しいタスクに効果的に適応しながら,古いモデルの表現を維持するための原理的な方法を提供する。 提案手法は,モデル更新によって生じる表現変化と結果損失の関係を推定する。 これは、バックボーンモデル内の各特徴マップの推定重要性を利用する表現を使用して、損失の増加の上限を最小化する。 重要度に基づいて、モデルは堅牢性のために重要な機能のアップデートを制限し、柔軟性のために重要でない機能の変更を可能にする。 この最適化戦略は、以前のタスクにおけるデータのアクセシビリティの制限にもかかわらず、悪名高い破滅的な忘れ問題を効果的に軽減する。 実験の結果,提案アルゴリズムは標準データセット上の既存手法に比べて精度が大幅に向上した。 コードは利用可能。

We present a novel class incremental learning approach based on deep neural networks, which continually learns new tasks with limited memory for storing examples in the previous tasks. Our algorithm is based on knowledge distillation and provides a principled way to maintain the representations of old models while adjusting to new tasks effectively. The proposed method estimates the relationship between the representation changes and the resulting loss increases incurred by model updates. It minimizes the upper bound of the loss increases using the representations, which exploits the estimated importance of each feature map within a backbone model. Based on the importance, the model restricts updates of important features for robustness while allowing changes in less critical features for flexibility. This optimization strategy effectively alleviates the notorious catastrophic forgetting problem despite the limited accessibility of data in the previous tasks. The experimental results show significant accuracy improvement of the proposed algorithm over the existing methods on the standard datasets. Code is available.
翻訳日:2022-04-05 16:06:24 公開日:2022-04-02
# Network Automation Journeyに応用可能な人工知能入門

Introduction to the Artificial Intelligence that can be applied to the Network Automation Journey ( http://arxiv.org/abs/2204.00800v1 )

ライセンス: Link先を確認
Gilbert Moisio, Alexandre Gonzalvez, Noam Zeitoun(参考訳) コンピュータネットワークの世界は変化しており、NetDevOpsのアプローチは、アプリケーションとシステムのダイナミクスを通信インフラの分野に持ち込んだ。 ビジネスは変化し、ビジネスはそれらのインフラストラクチャを構成するハードウェアとソフトウェアの多様性に関わる困難に直面しています。 intent-based networking - concept and definitions"ドキュメントには,netdevopsに関わるエコシステムのさまざまな部分について説明されている。 認識、生成、翻訳、洗練にはアルゴリズムを実装する新しい方法が必要である。 これが人工知能の出番だ。

The computer network world is changing and the NetDevOps approach has brought the dynamics of applications and systems into the field of communication infrastructure. Businesses are changing and businesses are faced with difficulties related to the diversity of hardware and software that make up those infrastructures. The "Intent-Based Networking - Concepts and Definitions" document describes the different parts of the ecosystem that could be involved in NetDevOps. The recognize, generate intent, translate and refine features need a new way to implement algorithms. This is where artificial intelligence comes in.
翻訳日:2022-04-05 16:01:02 公開日:2022-04-02
# ペアトレーニングデータのない音声からの固有エンティティ認識のためのエンドツーエンドモデル

End-to-end model for named entity recognition from speech without paired training data ( http://arxiv.org/abs/2204.00803v1 )

ライセンス: Link先を確認
Salima Mdhaffar, Jarod Duret, Titouan Parcollet, Yannick Est\`eve(参考訳) 近年の研究では、音声言語理解(SLU)において、エンドツーエンドのニューラルアプローチが非常に人気がある傾向が示されている。 エンドツーエンドという用語を通じて、音声信号から直接意味情報を抽出するために最適化された単一のモデルを使用することを考える。 このようなモデルの大きな問題は、セマンティックアノテーションを備えたペア音声とテキストデータの欠如である。 本稿では,ゼロペアの音声データが得られるシナリオにおいて意味情報を抽出するために,エンドツーエンドのニューラルモデルを構築する手法を提案する。 本手法は,テキストからベクトル表現列を生成するように訓練された外部モデルを用いたものである。 これらの表現は、音声信号を処理することによって、エンドツーエンドの自動音声認識(ASR)モデル内で生成できる隠れ表現を模倣する。 SLUニューラルネットワークモジュールは、これらの表現を入力として、アノテーション付きテキストを出力としてトレーニングされる。 最後に、SLUモジュールはASRモデルの上位層を置き換えることで、エンドツーエンドモデルの構築を実現する。 quEROコーパスを用いた名前付きエンティティ認識実験により,このアプローチは非常に有望であり,同等のカスケードアプローチや合成音声よりも優れた結果が得られることが示された。

Recent works showed that end-to-end neural approaches tend to become very popular for spoken language understanding (SLU). Through the term end-to-end, one considers the use of a single model optimized to extract semantic information directly from the speech signal. A major issue for such models is the lack of paired audio and textual data with semantic annotation. In this paper, we propose an approach to build an end-to-end neural model to extract semantic information in a scenario in which zero paired audio data is available. Our approach is based on the use of an external model trained to generate a sequence of vectorial representations from text. These representations mimic the hidden representations that could be generated inside an end-to-end automatic speech recognition (ASR) model by processing a speech signal. An SLU neural module is then trained using these representations as input and the annotated text as output. Last, the SLU module replaces the top layers of the ASR model to achieve the construction of the end-to-end model. Our experiments on named entity recognition, carried out on the QUAERO corpus, show that this approach is very promising, getting better results than a comparable cascade approach or than the use of synthetic voices.
翻訳日:2022-04-05 15:59:35 公開日:2022-04-02
# タスク指向対話システム評価のためのメタフォリカルユーザシミュレータ

Metaphorical User Simulators for Evaluating Task-oriented Dialogue Systems ( http://arxiv.org/abs/2204.00763v1 )

ライセンス: Link先を確認
Weiwei Sun and Shuyu Guo and Shuo Zhang and Pengjie Ren and Zhumin Chen and Maarten de Rijke and Zhaochun Ren(参考訳) タスク指向対話システム(TDS)は、主にオフラインまたは人間による評価によって評価される。 評価は、しばしばシングルターンまたは非常に時間集中に制限される。 代替として、ユーザ動作を模倣するユーザシミュレータにより、幅広いユーザ目標を考慮し、シミュレーションされた評価のための人間的な会話を生成することができる。 TDSの対話ポリシーを最適化し,限られた評価能力を有するため,既存のユーザシミュレータをTDS評価に利用することは困難である。 さらに,ユーザシミュレータの評価はオープンな課題である。 本研究では,エンド・ツー・エンドTDS評価のためのメタファ型ユーザシミュレータを提案する。 また,異なる機能を持つ対話システムを生成するための,テスタに基づく評価フレームワークを提案する。 ユーザシミュレータは,新しい項目に遭遇したときの事前知識を参照して,シミュレータの推論を支援するメタファ的ユーザモデルを構築している。 シミュレータと変種間の模擬相互作用をチェックすることでシミュレータの品質を推定する。 3つのTDSデータセットを用いて実験を行った。 メタファ的ユーザシミュレータは、3つのデータセット上のアジェンダベースのシミュレータやseq2seqモデルよりも手作業による評価との一貫性が優れています。

Task-oriented dialogue systems (TDSs) are assessed mainly in an offline setting or through human evaluation. The evaluation is often limited to single-turn or very time-intensive. As an alternative, user simulators that mimic user behavior allow us to consider a broad set of user goals to generate human-like conversations for simulated evaluation. Employing existing user simulators to evaluate TDSs is challenging as user simulators are primarily designed to optimize dialogue policies for TDSs and have limited evaluation capability. Moreover, the evaluation of user simulators is an open challenge. In this work, we proposes a metaphorical user simulator for endto-end TDS evaluation. We also propose a tester-based evaluation framework to generate variants, i.e., dialogue systems with different capabilities. Our user simulator constructs a metaphorical user model that assists the simulator in reasoning by referring to prior knowledge when encountering new items. We estimate the quality of simulators by checking the simulated interactions between simulators and variants. Our experiments are conducted using three TDS datasets. The metaphorical user simulator demonstrates better consistency with manual evaluation than Agenda-based simulator and Seq2seq model on three datasets; our tester framework demonstrates efficiency, and our approach demonstrates better generalization and scalability.
翻訳日:2022-04-05 15:37:10 公開日:2022-04-02
# ベイズフィルタを用いたrfidを用いた屋内空間問合せ評価

RFID-Based Indoor Spatial Query Evaluation with Bayesian Filtering Techniques ( http://arxiv.org/abs/2204.00747v1 )

ライセンス: Link先を確認
Bo Hui, Wenlu Wang, Jiao Yu, Zhitao Gong, Wei-Shinn Ku, Min-Te Sun, Hua Lu(参考訳) 人々は屋内空間(オフィスビル、地下鉄システムなど)で日常生活でかなりの時間を過ごす。 したがって,様々な位置対応アプリケーションを支援するために,効率的な屋内空間探索アルゴリズムを開発することが重要である。 しかし,室内空間は室内のフロアプランに従わなければならないため,屋外空間とは異なる。 さらに、屋内環境における位置決めは主にGPSデバイスではなく、センサーデバイス(例えばRFIDリーダー)に基づいている。 その結果,この新しい課題に対して,既存の空間的問合せ評価手法を屋外環境に適用することは不可能である。 そこで本研究では,ベイズフィルタを用いた位置推定手法を提案する。ベイズフィルタは,ノイズの多いrfid生データを用いて室内空間クエリを評価するための基礎として,ベイズフィルタに基づく位置推定手法を提案する。 さらに,屋内環境における物体位置追跡のために,屋内歩行グラフモデルとアンカーポイント索引モデルという2つの新しいモデルを作成した。 推論手法と追跡モデルに基づいて、革新的な屋内範囲とk近傍のクエリアルゴリズム(kNN)を開発する。 合成データと実世界のデータの両方を用いてソリューションを検証する。 提案手法は室内空間クエリを効果的かつ効率的に評価できることを示す。 コード、データ、フロアプランはhttps://github.com/D ataScienceLab18/Indo orToolKit.orgで公開しています。

People spend a significant amount of time in indoor spaces (e.g., office buildings, subway systems, etc.) in their daily lives. Therefore, it is important to develop efficient indoor spatial query algorithms for supporting various location-based applications. However, indoor spaces differ from outdoor spaces because users have to follow the indoor floor plan for their movements. In addition, positioning in indoor environments is mainly based on sensing devices (e.g., RFID readers) rather than GPS devices. Consequently, we cannot apply existing spatial query evaluation techniques devised for outdoor environments for this new challenge. Because Bayesian filtering techniques can be employed to estimate the state of a system that changes over time using a sequence of noisy measurements made on the system, in this research, we propose the Bayesian filtering-based location inference methods as the basis for evaluating indoor spatial queries with noisy RFID raw data. Furthermore, two novel models, indoor walking graph model and anchor point indexing model, are created for tracking object locations in indoor environments. Based on the inference method and tracking models, we develop innovative indoor range and k nearest neighbor (kNN) query algorithms. We validate our solution through use of both synthetic data and real-world data. Our experimental results show that the proposed algorithms can evaluate indoor spatial queries effectively and efficiently. We open-source the code, data, and floor plan at https://github.com/D ataScienceLab18/Indo orToolKit.
翻訳日:2022-04-05 14:47:49 公開日:2022-04-02
# 単眼3次元物体検出におけるホモグラフィ損失

Homography Loss for Monocular 3D Object Detection ( http://arxiv.org/abs/2204.00754v1 )

ライセンス: Link先を確認
Jiaqi Gu, Bojian Wu, Lubin Fan, Jianqiang Huang, Shen Cao, Zhiyu Xiang, Xian-Sheng Hua(参考訳) モノクロ3D物体検出は自律運転において不可欠な課題である。 しかし、現在のほとんどの手法では、シーン内の各3次元オブジェクトを独立したトレーニングサンプルと見なしているが、それら固有の幾何学的関係を無視しているため、必然的に空間的制約を活用できない。 本稿では,すべての物体を考慮に入れ,相互関係を探求し,より正確な3Dボックスの推定を支援する手法を提案する。 さらに,現在より信頼性が高いため,検出された2Dボックスを,対応する予測された3Dボックスの最適化をグローバルに制約するためのガイダンスとして利用する方法についても検討する。 この目的を達成するために,2次元情報と3次元情報の両方を利用して,グローバル制約による異物間の位置関係のバランスを図り,より正確に予測可能な3次元ボックスを得るための微分損失関数が提案されている。 この簡潔な設計のおかげで、損失関数は普遍的であり、任意の成熟した単分子3D検出器に差し込むことができる。 実験の結果,KITTIの3Dデータセットでは,他の最先端技術と比較して高い性能(2021年12月)が得られた。

Monocular 3D object detection is an essential task in autonomous driving. However, most current methods consider each 3D object in the scene as an independent training sample, while ignoring their inherent geometric relations, thus inevitably resulting in a lack of leveraging spatial constraints. In this paper, we propose a novel method that takes all the objects into consideration and explores their mutual relationships to help better estimate the 3D boxes. Moreover, since 2D detection is more reliable currently, we also investigate how to use the detected 2D boxes as guidance to globally constrain the optimization of the corresponding predicted 3D boxes. To this end, a differentiable loss function, termed as Homography Loss, is proposed to achieve the goal, which exploits both 2D and 3D information, aiming at balancing the positional relationships between different objects by global constraints, so as to obtain more accurately predicted 3D boxes. Thanks to the concise design, our loss function is universal and can be plugged into any mature monocular 3D detector, while significantly boosting the performance over their baseline. Experiments demonstrate that our method yields the best performance (Nov. 2021) compared with the other state-of-the-arts by a large margin on KITTI 3D datasets.
翻訳日:2022-04-05 14:44:56 公開日:2022-04-02
# 学習表現は因果関係を尊重するのか?

Do learned representations respect causal relationships? ( http://arxiv.org/abs/2204.00762v1 )

ライセンス: Link先を確認
Lan Wang and Vishnu Naresh Boddeti(参考訳) データはしばしば、相互に因果関係を持つ多くのセマンティック属性を持つ。 しかし、属性固有のデータ表現は、同じ因果関係をも尊重するのか? 私たちはこの質問に3つのステップで答える。 まず,高次元データから観測因果探索を行うNCINetを提案する。 純粋に合成的に生成された表現に基づいて訓練され、実際の表現に適用でき、この2つの間のドメインギャップを軽減するために特別に設計されている。 第二に、ncinet をラベル間の既知の因果関係と未知の因果関係を持つ異なる属性の対の画像表現間の因果関係の同定に適用する。 本研究では,複数の属性をアノテートした3次元形状,CelebA,CASIA-WebFac eデータセットの属性予測のための画像表現について考察する。 第3に,様々なデザイン選択によって引き起こされる学習表現間の因果関係が,表現学習に与える影響を分析した。 実験の結果,(1)ncinetは,無作為標本のペア間の因果関係を推定する既存の観測因果関係発見手法と,(2)制御されたシナリオでは,学習された表現がそれぞれのラベル間の因果関係を実際に満たすことができ,(3)因果関係はそれらの表現の予測能力と正の相関関係にあることが示唆された。

Data often has many semantic attributes that are causally associated with each other. But do attribute-specific learned representations of data also respect the same causal relations? We answer this question in three steps. First, we introduce NCINet, an approach for observational causal discovery from high-dimensional data. It is trained purely on synthetically generated representations and can be applied to real representations, and is specifically designed to mitigate the domain gap between the two. Second, we apply NCINet to identify the causal relations between image representations of different pairs of attributes with known and unknown causal relations between the labels. For this purpose, we consider image representations learned for predicting attributes on the 3D Shapes, CelebA, and the CASIA-WebFace datasets, which we annotate with multiple multi-class attributes. Third, we analyze the effect on the underlying causal relation between learned representations induced by various design choices in representation learning. Our experiments indicate that (1) NCINet significantly outperforms existing observational causal discovery approaches for estimating the causal relation between pairs of random samples, both in the presence and absence of an unobserved confounder, (2) under controlled scenarios, learned representations can indeed satisfy the underlying causal relations between their respective labels, and (3) the causal relations are positively correlated with the predictive capability of the representations.
翻訳日:2022-04-05 14:44:36 公開日:2022-04-02
# 意味認識ドメイン一般化セグメンテーション

Semantic-Aware Domain Generalized Segmentation ( http://arxiv.org/abs/2204.00822v1 )

ライセンス: Link先を確認
Duo Peng, Yinjie Lei, Munawar Hayat, Yulan Guo, Wen Li(参考訳) ソースドメインでトレーニングされたディープモデルは、異なるデータ分布を持つ未確認対象ドメインでの評価時に一般化を欠く。 適応のためにターゲットドメインのサンプルにアクセスできない場合、問題はより顕著になります。 本稿では,セグメンテーションモデルが対象領域データを用いずにドメイン不変であるように訓練される領域一般化意味セグメンテーションについて述べる。 この問題に取り組む既存のアプローチは、データを統一ディストリビューションに標準化する。 このような標準化はグローバルな正規化を促進するが、結果として得られる特徴は明確なセグメンテーション境界を得るのに十分な差別的ではない。 ドメイン不変性を同時に促進しながらカテゴリ間の分離を強化するために,セマンティック・アウェア正規化(SAN)とセマンティック・アウェア・ホワイトニング(SAW)の2つの新しいモジュールを含むフレームワークを提案する。 具体的には、SANは、異なるイメージスタイルの特徴間のカテゴリレベルのセンターアライメントに焦点を当てており、SAWは、既にセンターアライメントされた機能に対して分散アライメントを強制している。 SANとSAWの助けを借りて,カテゴリー内コンパクト性とカテゴリ間分離性を両立させる。 我々は、広く使われているデータセット(GTAV、SynTHIA、Cityscapes、Mapillary、BDDS)の広範な実験を通じて、アプローチを検証する。 我々のアプローチは、様々なバックボーンネットワーク上の既存の最先端よりも大幅に改善されている。 コードはhttps://github.com/l eolyj/SAN-SAWで公開されている。

Deep models trained on source domain lack generalization when evaluated on unseen target domains with different data distributions. The problem becomes even more pronounced when we have no access to target domain samples for adaptation. In this paper, we address domain generalized semantic segmentation, where a segmentation model is trained to be domain-invariant without using any target domain data. Existing approaches to tackle this problem standardize data into a unified distribution. We argue that while such a standardization promotes global normalization, the resulting features are not discriminative enough to get clear segmentation boundaries. To enhance separation between categories while simultaneously promoting domain invariance, we propose a framework including two novel modules: Semantic-Aware Normalization (SAN) and Semantic-Aware Whitening (SAW). Specifically, SAN focuses on category-level center alignment between features from different image styles, while SAW enforces distributed alignment for the already center-aligned features. With the help of SAN and SAW, we encourage both intra-category compactness and inter-category separability. We validate our approach through extensive experiments on widely-used datasets (i.e. GTAV, SYNTHIA, Cityscapes, Mapillary and BDDS). Our approach shows significant improvements over existing state-of-the-art on various backbone networks. Code is available at https://github.com/l eolyj/SAN-SAW
翻訳日:2022-04-05 14:44:14 公開日:2022-04-02
# オンライン畳み込み再パラメータ化

Online Convolutional Re-parameterization ( http://arxiv.org/abs/2204.00826v1 )

ライセンス: Link先を確認
Mu Hu, Junyi Feng, Jiashen Hua, Baisheng Lai, Jianqiang Huang, Xiaojin Gong, Xiansheng Hua(参考訳) 構造的再パラメータ化は様々なコンピュータビジョンタスクにおいて注目を集めている。 推論時間コストを導入することなく、ディープモデルのパフォーマンスを改善することを目指している。 推論の効率は良いが、これらのモデルは高い精度を達成するために複雑な訓練時間ブロックに大きく依存しているため、追加の訓練コストが大きい。 本稿では,複雑なトレーニング時間ブロックを1つの畳み込みに絞り込むことで,膨大なトレーニングオーバヘッドを削減することを目的とした,2段パイプラインのオンライン畳み込み再パラメータ化(orepa)を提案する。 この目的を達成するために,オンラインブロックを最適化するための線形スケーリング層を導入する。 トレーニングコストの削減の支援として,より効果的な再パラメータコンポーネントについても検討する。 最先端のリパラムモデルと比較して、orepaはトレーニング時のメモリコストを約70%削減し、トレーニング速度を約2倍に抑えることができる。 一方、orepaを装備したモデルは、imagenetの以前のメソッドを最大で0.6%上回る。 また,オブジェクト検出と意味セグメンテーションの実験を行い,下流タスクにおける一貫した改善を示す。 コードはhttps://github.com/j ugghm/orepa_cvpr2022 で入手できる。

Structural re-parameterization has drawn increasing attention in various computer vision tasks. It aims at improving the performance of deep models without introducing any inference-time cost. Though efficient during inference, such models rely heavily on the complicated training-time blocks to achieve high accuracy, leading to large extra training cost. In this paper, we present online convolutional re-parameterization (OREPA), a two-stage pipeline, aiming to reduce the huge training overhead by squeezing the complex training-time block into a single convolution. To achieve this goal, we introduce a linear scaling layer for better optimizing the online blocks. Assisted with the reduced training cost, we also explore some more effective re-param components. Compared with the state-of-the-art re-param models, OREPA is able to save the training-time memory cost by about 70% and accelerate the training speed by around 2x. Meanwhile, equipped with OREPA, the models outperform previous methods on ImageNet by up to +0.6%.We also conduct experiments on object detection and semantic segmentation and show consistent improvements on the downstream tasks. Codes are available at https://github.com/J UGGHM/OREPA_CVPR2022 .
翻訳日:2022-04-05 14:42:32 公開日:2022-04-02
# 人物再同定のためのフリーランチ:自動生成ノイズトラックレットから学ぶ

A Free Lunch to Person Re-identification: Learning from Automatically Generated Noisy Tracklets ( http://arxiv.org/abs/2204.00891v1 )

ライセンス: Link先を確認
Hehan Teng, Tao He, Yuchen Guo, Zhenhua Guo, Guiguang Ding(参考訳) Re-IDデータセットのアノテートに要する高作業コストの問題を解決するために、教師なしのビデオベース再識別(re-ID)手法が提案されている。 しかし、彼らのパフォーマンスは監督対象よりもはるかに低い。 平均すると、ノイズのないクリーンなデータセットがこれらの手法で使用されるが、現実的ではない。 本稿では,複数のオブジェクト追跡(MOT)アルゴリズムを用いて,自動生成した人物追跡レットからre-IDモデルを学習することで,この問題に対処することを提案する。 この目的のために,トラックレットベースのマルチレベルクラスタリング(tmc)フレームワークを設計し,ノイズの多いトラックレットから再idモデルを効果的に学習する。 第1に、トラックレット内のIDスイッチノイズを低減するために、第2に、IDフラグメンテーションノイズを取り除くためにトラックレット間アソシエーションと擬似ラベルを用いたネットワークトレーニングを交互に行う。 各種手動騒音を用いたMARSの大規模実験により,提案手法の有効性が示された。 具体的には、提案されたフレームワークは、最も強いノイズを持つシミュレーショントラックレットにおいて、mAP 53.4%とランク-1.63.7%を達成した。 結果から,自動生成したノイズトラックレットからre-IDモデルを構築することは合理的なアプローチであり,実世界のアプリケーションでre-IDモデルを実現する上でも重要な方法であると考えている。

A series of unsupervised video-based re-identification (re-ID) methods have been proposed to solve the problem of high labor cost required to annotate re-ID datasets. But their performance is still far lower than the supervised counterparts. In the mean time, clean datasets without noise are used in these methods, which is not realistic. In this paper, we propose to tackle this problem by learning re-ID models from automatically generated person tracklets by multiple objects tracking (MOT) algorithm. To this end, we design a tracklet-based multi-level clustering (TMC) framework to effectively learn the re-ID model from the noisy person tracklets. First, intra-tracklet isolation to reduce ID switch noise within tracklets; second, alternates between using inter-tracklet association to eliminate ID fragmentation noise and network training using the pseudo label. Extensive experiments on MARS with various manually generated noises show the effectiveness of the proposed framework. Specifically, the proposed framework achieved mAP 53.4% and rank-1 63.7% on the simulated tracklets with strongest noise, even outperforming the best existing method on clean tracklets. Based on the results, we believe that building re-ID models from automatically generated noisy tracklets is a reasonable approach and will also be an important way to make re-ID models feasible in real-world applications.
翻訳日:2022-04-05 14:42:15 公開日:2022-04-02
# 原点雲からの複数円原始物質抽出のための深部代数的フィッティング

Deep Algebraic Fitting for Multiple Circle Primitives Extraction from Raw Point Clouds ( http://arxiv.org/abs/2204.00920v1 )

ライセンス: Link先を確認
Zeyong Wei, Honghua Chen, Hao Tang, Qian Xie, Mingqiang Wei, Jun Wang(参考訳) 円の形状は人工工学の基本的な幾何学的原始の1つである。 したがって、スキャンされた点雲からの円の抽出は、3次元幾何学データ処理において非常に重要なタスクである。 しかしながら、既存の円抽出法は、円境界点を分類する場合の原点雲の品質に敏感であるか、円パラメータを後退させる際に適切に設計された適合関数を必要とする。 そこで本研究では,深部円界特徴学習と重み付き代数的フィッティングの相乗効果に基づいて,エンドツーエンドのポイントクラウドサークル代数フィッティングネットワーク(Circle-Net)を提案する。 まず,各点の局所的およびグローバルな隣接状況を考慮した円界学習モジュールを設計し,任意の円界点を検出する。 第2に,重み付き代数的フィッティングにおける外接点の影響を回避するため,重み付き代数的フィッティングのための深い特徴に基づく円周パラメータ学習モジュールを開発した。 近縁円抽出の知恵のほとんどとは異なり,提案した分類・適合モジュールはもともと,抽出された円の質を高めるために,包括的損失とともに訓練されている。 公開時には、github上でトレーニングと評価を行うためのコード、モデル、データをリリースします。

The shape of circle is one of fundamental geometric primitives of man-made engineering objects. Thus, extraction of circles from scanned point clouds is a quite important task in 3D geometry data processing. However, existing circle extraction methods either are sensitive to the quality of raw point clouds when classifying circle-boundary points, or require well-designed fitting functions when regressing circle parameters. To relieve the challenges, we propose an end-to-end Point Cloud Circle Algebraic Fitting Network (Circle-Net) based on a synergy of deep circle-boundary point feature learning and weighted algebraic fitting. First, we design a circle-boundary learning module, which considers local and global neighboring contexts of each point, to detect all potential circle-boundary points. Second, we develop a deep feature based circle parameter learning module for weighted algebraic fitting, without designing any weight metric, to avoid the influence of outliers during fitting. Unlike most of the cutting-edge circle extraction wisdoms, the proposed classification-and-f itting modules are originally co-trained with a comprehensive loss to enhance the quality of extracted circles.Comparisons on the established dataset and real-scanned point clouds exhibit clear improvements of Circle-Net over SOTAs in terms of both noise-robustness and extraction accuracy. We will release our code, model, and data for both training and evaluation on GitHub upon publication.
翻訳日:2022-04-05 14:41:50 公開日:2022-04-02
# 孤立符号と後処理を用いた連続手話における単語分離

Word separation in continuous sign language using isolated signs and post-processing ( http://arxiv.org/abs/2204.00923v1 )

ライセンス: Link先を確認
Razieh Rastgoo, Kourosh Kiani, Sergio Escalera(参考訳) 連続手話認識(cslr)は、手話中の単語間の明示的な境界を検出するのが困難であるため、コンピュータビジョンにおいて長い課題である。 この課題に対処するため,我々は2段階モデルを提案する。 第1段階では、CNN、SVD、LSTMの組み合わせを含む予測モデルが、孤立した標識で訓練される。 第2段階では,モデルの第一部分から得られたソフトマックス出力に後処理アルゴリズムを適用し,連続符号の孤立した符号を分離する。 符号列とそれに対応する孤立符号の両方を含む大きなデータセットがないため、独立手話認識(ISLR)、RKS-PERSIANSIGN、ASLVIDの2つの公開データセットが評価に使用される。 連続手話ビデオの結果は、孤立手話境界検出に対処するために提案したモデルの効率性を確認する。

Continuous Sign Language Recognition (CSLR) is a long challenging task in Computer Vision due to the difficulties in detecting the explicit boundaries between the words in a sign sentence. To deal with this challenge, we propose a two-stage model. In the first stage, the predictor model, which includes a combination of CNN, SVD, and LSTM, is trained with the isolated signs. In the second stage, we apply a post-processing algorithm to the Softmax outputs obtained from the first part of the model in order to separate the isolated signs in the continuous signs. Due to the lack of a large dataset, including both the sign sequences and the corresponding isolated signs, two public datasets in Isolated Sign Language Recognition (ISLR), RKS-PERSIANSIGN and ASLVID, are used for evaluation. Results of the continuous sign videos confirm the efficiency of the proposed model to deal with isolated sign boundaries detection.
翻訳日:2022-04-05 14:41:22 公開日:2022-04-02
# SinNeRF:1枚の画像から複雑なシーンの神経放射場を訓練する

SinNeRF: Training Neural Radiance Fields on Complex Scenes from a Single Image ( http://arxiv.org/abs/2204.00928v1 )

ライセンス: Link先を確認
Dejia Xu, Yifan Jiang, Peihao Wang, Zhiwen Fan, Humphrey Shi, Zhangyang Wang(参考訳) ニューラル・レージアンス・フィールド (Neural Radiance Field, NeRF) の急速な発展にもかかわらず、密度の高いカバーの必要性は、その幅広い応用をほとんど禁止している。 この問題に対処しようとする最近の研究はいくつかあるが、スパースビュー(まだいくつかあるが)や単純なオブジェクト/シーンで動作する。 本研究では,より野心的な課題である,神経放射野の訓練,現実的に複雑な視覚シーン,すなわち1つのビューのみを用いて「1回だけ見る」ことによる学習について考察する。 この目的を達成するために、慎重に設計されたセマンティックおよび幾何正規化からなるシングルビューNeRF(SinNeRF)フレームワークを提案する。 具体的には、sinnerfは半教師付き学習プロセスを構築し、幾何学的擬似ラベルと意味的擬似ラベルを導入し、プログレッシブトレーニングプロセスを導く。 NeRF合成データセット、Local Light Field Fusionデータセット、DTUデータセットなど、複雑なシーンベンチマークで大規模な実験が行われた。 マルチビューデータセットを事前トレーニングしなくても、sinnerfはフォトリアリスティックなノベルビュー合成結果が得られる。 単一の画像設定の下では、SinNeRFはすべてのケースにおいて現在の最先端のNeRFベースラインよりも著しく優れている。 プロジェクトページ: https://vita-group.g ithub.io/SinNeRF/

Despite the rapid development of Neural Radiance Field (NeRF), the necessity of dense covers largely prohibits its wider applications. While several recent works have attempted to address this issue, they either operate with sparse views (yet still, a few of them) or on simple objects/scenes. In this work, we consider a more ambitious task: training neural radiance field, over realistically complex visual scenes, by "looking only once", i.e., using only a single view. To attain this goal, we present a Single View NeRF (SinNeRF) framework consisting of thoughtfully designed semantic and geometry regularizations. Specifically, SinNeRF constructs a semi-supervised learning process, where we introduce and propagate geometry pseudo labels and semantic pseudo labels to guide the progressive training process. Extensive experiments are conducted on complex scene benchmarks, including NeRF synthetic dataset, Local Light Field Fusion dataset, and DTU dataset. We show that even without pre-training on multi-view datasets, SinNeRF can yield photo-realistic novel-view synthesis results. Under the single image setting, SinNeRF significantly outperforms the current state-of-the-art NeRF baselines in all cases. Project page: https://vita-group.g ithub.io/SinNeRF/
翻訳日:2022-04-05 14:41:03 公開日:2022-04-02
# A-ACT:サイクル変換による行動予測

A-ACT: Action Anticipation through Cycle Transformations ( http://arxiv.org/abs/2204.00942v1 )

ライセンス: Link先を確認
Akash Gupta, Jingen Liu, Liefeng Bo, Amit K. Roy-Chowdhury, Tao Mei(参考訳) アクション予測は近年多くの研究の関心を集めているが、ほとんどの研究は観察された視覚的手がかりを直接的に予測することに焦点を当てている。 本研究では、未来を予測できる人間の能力が機械学習アルゴリズムにどのように移行できるかを分析する。 この能力をインテリジェントシステムに組み込むには、どのようにして期待できるのだろうか? 過去の経験から将来の行動を予測するか? あるいは、現在からのヒントに基づいてシナリオをシミュレートするのでしょうか? 人間の心理学に関する最近の研究は、発生を予測して、人間の脳が両方のシステムにカウントされていることを説明している。 本研究では,行動予測作業における各システムの影響について検討し,学習フレームワークに統合するためのパラダイムを導入する。 我々は、心理的予測モデルを利用して設計された知的システムは、人間の行動予測のタスクにおいてより微妙な仕事をすると信じている。 さらに,特徴ラベル空間と意味ラベル空間における時間次元の周期的変換を導入し,予測された未来に基づいて過去の行動の推論能力を高める。 epic-kitchen, breakfast, 50saladsデータセットの実験により、2つのシステムの組み合わせで学習したアクション予測モデルは、様々な最先端のアプローチに対して好都合に機能することが示された。

While action anticipation has garnered a lot of research interest recently, most of the works focus on anticipating future action directly through observed visual cues only. In this work, we take a step back to analyze how the human capability to anticipate the future can be transferred to machine learning algorithms. To incorporate this ability in intelligent systems a question worth pondering upon is how exactly do we anticipate? Is it by anticipating future actions from past experiences? Or is it by simulating possible scenarios based on cues from the present? A recent study on human psychology explains that, in anticipating an occurrence, the human brain counts on both systems. In this work, we study the impact of each system for the task of action anticipation and introduce a paradigm to integrate them in a learning framework. We believe that intelligent systems designed by leveraging the psychological anticipation models will do a more nuanced job at the task of human action prediction. Furthermore, we introduce cyclic transformation in the temporal dimension in feature and semantic label space to instill the human ability of reasoning of past actions based on the predicted future. Experiments on Epic-Kitchen, Breakfast, and 50Salads dataset demonstrate that the action anticipation model learned using a combination of the two systems along with the cycle transformation performs favorably against various state-of-the-art approaches.
翻訳日:2022-04-05 14:40:39 公開日:2022-04-02
# TripleNet: 低パラメータネットワークの低コンピューティングパワープラットフォーム

TripleNet: A Low Computing Power Platform of Low-Parameter Network ( http://arxiv.org/abs/2204.00943v1 )

ライセンス: Link先を確認
Rui-Yang Ju, Ting-Yu Lin, Jia-Hao Jian, and Jen-Shiun Chiang(参考訳) コンピュータビジョンの分野でのディープラーニング技術の優れたパフォーマンスにより、畳み込みニューラルネットワーク(CNN)アーキテクチャがコンピュータビジョンタスク技術の主要なバックボーンとなっている。 モバイルデバイスの普及に伴い、コンピューティング能力の低いプラットフォームに基づくニューラルネットワークモデルが徐々に注目されている。 本稿では,軽量畳み込みニューラルネットワークモデルとして,ハードネットとthreshnetに基づく改良型畳み込みニューラルネットワークであるtriplenetを提案する。 triplenetは3つの異なる畳み込み層を結合して新しいモデルアーキテクチャとし、これはhardnetやthreshnetよりもパラメータの数が少ない。 CIFAR-10とSVHNデータセットは,HarDNet,ThreshNet,提案したTripleNetを用いて画像分類を行った。 実験の結果,HarDNetと比較してTripleNetのパラメータは66%減少し,精度は18%向上し,ThreshNetと比較してTripleNetのパラメータは37%減少し,精度は5%向上した。

With the excellent performance of deep learning technology in the field of computer vision, convolutional neural network (CNN) architecture has become the main backbone of computer vision task technology. With the widespread use of mobile devices, neural network models based on platforms with low computing power are gradually being paid attention. This paper proposes a lightweight convolutional neural network model, TripleNet, an improved convolutional neural network based on HarDNet and ThreshNet, inheriting the advantages of small memory usage and low power consumption of the mentioned two models. TripleNet uses three different convolutional layers combined into a new model architecture, which has less number of parameters than that of HarDNet and ThreshNet. CIFAR-10 and SVHN datasets were used for image classification by employing HarDNet, ThreshNet, and our proposed TripleNet for verification. Experimental results show that, compared with HarDNet, TripleNet's parameters are reduced by 66% and its accuracy rate is increased by 18%; compared with ThreshNet, TripleNet's parameters are reduced by 37% and its accuracy rate is increased by 5%.
翻訳日:2022-04-05 14:40:18 公開日:2022-04-02
# 埋め込みcnnを用いたprogressive minimal path法

Progressive Minimal Path Method with Embedded CNN ( http://arxiv.org/abs/2204.00944v1 )

ライセンス: Link先を確認
Wei Liao(参考訳) 本稿では,畳み込みニューラルネットワーク(cnns)をプログレッシブ・ミニマルパス法に埋め込み,管状構造の中心線をセグメンテーションする方法であるpath-cnnを提案する。 最小経路法はトポロジーを意識した中心線セグメンテーションに広く用いられているが、通常は手動画像の特徴に頼っている。 対照的に、CNNは画像から自動的に学習される強力な画像特徴を使用する。 しかし、CNNは通常、結果のトポロジを考慮しておらず、トレーニングに大量のアノテーションを必要とすることが多い。 CNNは最小経路の決定を改善するために学習された画像特徴を使い、最小経路法は分割された中心線の正確なトポロジを保証し、CNNの性能を高めるために強力な幾何学的事前情報を提供し、CNNのトレーニングのためのアノテーションの量を著しく削減する。 本手法は近年の多くの手法よりもハードウェア要件が低い。 他の手法と定性的かつ定量的に比較すると、Path-CNNは特に困難環境において複雑な形状の管状構造を扱う場合、優れた性能を発揮する。

We propose Path-CNN, a method for the segmentation of centerlines of tubular structures by embedding convolutional neural networks (CNNs) into the progressive minimal path method. Minimal path methods are widely used for topology-aware centerline segmentation, but usually these methods rely on weak, hand-tuned image features. In contrast, CNNs use strong image features which are learned automatically from images. But CNNs usually do not take the topology of the results into account, and often require a large amount of annotations for training. We integrate CNNs into the minimal path method, so that both techniques benefit from each other: CNNs employ learned image features to improve the determination of minimal paths, while the minimal path method ensures the correct topology of the segmented centerlines, provides strong geometric priors to increase the performance of CNNs, and reduces the amount of annotations for the training of CNNs significantly. Our method has lower hardware requirements than many recent methods. Qualitative and quantitative comparison with other methods shows that Path-CNN achieves better performance, especially when dealing with tubular structures with complex shapes in challenging environments.
翻訳日:2022-04-05 14:40:00 公開日:2022-04-02
# ディメンジョンレス機械学習:正確な単位等分散を課す

Dimensionless machine learning: Imposing exact units equivariance ( http://arxiv.org/abs/2204.00887v1 )

ライセンス: Link先を確認
Soledad Villar and Weichi Yao and David W. Hogg and Ben Blum-Smith and Bianca Dumitrascu(参考訳) 単位同値(英: Units equivariance)は、測定された物理量間の関係が自己整合次元スケーリングに従う必要があるという要求から従う正確な対称性である。 そこで,同変機械学習の次元解析とアイデアを用いて,単位同変機械学習の2段階学習手法を提案する。 与えられた学習タスクに対して、まず、次元解析の古典的な結果を用いて、その入力の次元のないバージョンを構築し、次に次元のない空間で推論を行う。 このアプローチは、回転や他の群に同変する幅広い機械学習手法にまたがって単位等分散を課すのに使うことができる。 対称性が重要である記号回帰やエミュレーションのような文脈で得られるサンプル内およびサンプル外予測精度について論じる。 物理学および生態学における力学系を含む簡単な数値例を用いて,このアプローチを説明する。

Units equivariance is the exact symmetry that follows from the requirement that relationships among measured quantities of physics relevance must obey self-consistent dimensional scalings. Here, we employ dimensional analysis and ideas from equivariant machine learning to provide a two stage learning procedure for units-equivariant machine learning. For a given learning task, we first construct a dimensionless version of its inputs using classic results from dimensional analysis, and then perform inference in the dimensionless space. Our approach can be used to impose units equivariance across a broad range of machine learning methods which are equivariant to rotations and other groups. We discuss the in-sample and out-of-sample prediction accuracy gains one can obtain in contexts like symbolic regression and emulation, where symmetry is important. We illustrate our approach with simple numerical examples involving dynamical systems in physics and ecology.
翻訳日:2022-04-05 14:13:21 公開日:2022-04-02
# cl-xabsa: 言語横断型感情分析のためのコントラスト学習

CL-XABSA: Contrastive Learning for Cross-lingual Aspect-based Sentiment Analysis ( http://arxiv.org/abs/2204.00791v1 )

ライセンス: Link先を確認
Nankai Lin, Yingwen Fu, Xiaotian Lin, Aimin Yang, Shengyi Jiang(参考訳) 自然言語処理(NLP)分野における広範な研究として、アスペクトベース感情分析(ABSA)は、対応するアスペクトに対してテキストで表現された感情を予測するタスクである。 残念なことに、ほとんどの言語には十分なアノテーションリソースがないため、近年の研究者は言語横断的なアスペクトベースの感情分析(XABSA)に注力している。 しかし、最近の研究は、モデルアライメントではなく、言語間データアライメントのみに集中している。 そこで本研究では,言語横断型感情分析のための新しい枠組み cl-xabsa: contrastive learning を提案する。 具体的には、トークン埋め込み(TL-CTE)のトークンレベルのコントラスト学習とトークン埋め込み(SL-CTE)の感情レベルのコントラスト学習という2つのコントラスト戦略を設計し、ソースとターゲット言語のセマンティクス空間をより均一に調整する。 我々のフレームワークは訓練中に複数の言語でデータセットを受信できるので、XABSAタスクだけでなく、マルチリンガルなアスペクトベースの感情分析(MABSA)にも適用できます。 モデルの性能をさらに向上させるために,ラベルなしの目標言語からのデータを活用した知識蒸留技術を行う。 蒸留XABSAタスクでは、異なるデータ(ソースデータセット、翻訳データセット、コード変更データセット)の比較の有効性について検討する。 その結果,提案手法はXABSA, 蒸留XABSA, MABSAの3つのタスクにおいて一定の改善が得られた。 本論文のコードはhttps://github.com/G KLMIP/CL-XABSA.comで公開されている。

As an extensive research in the field of Natural language processing (NLP), aspect-based sentiment analysis (ABSA) is the task of predicting the sentiment expressed in a text relative to the corresponding aspect. Unfortunately, most languages lack of sufficient annotation resources, thus more and more recent researchers focus on cross-lingual aspect-based sentiment analysis (XABSA). However, most recent researches only concentrate on cross-lingual data alignment instead of model alignment. To this end, we propose a novel framework, CL-XABSA: Contrastive Learning for Cross-lingual Aspect-Based Sentiment Analysis. Specifically, we design two contrastive strategies, token level contrastive learning of token embeddings (TL-CTE) and sentiment level contrastive learning of token embeddings (SL-CTE), to regularize the semantic space of source and target language to be more uniform. Since our framework can receive datasets in multiple languages during training, our framework can be adapted not only for XABSA task, but also for multilingual aspect-based sentiment analysis (MABSA). To further improve the performance of our model, we perform knowledge distillation technology leveraging data from unlabeled target language. In the distillation XABSA task, we further explore the comparative effectiveness of different data (source dataset, translated dataset, and code-switched dataset). The results demonstrate that the proposed method has a certain improvement in the three tasks of XABSA, distillation XABSA and MABSA. For reproducibility, our code for this paper is available at https://github.com/G KLMIP/CL-XABSA.
翻訳日:2022-04-05 14:06:51 公開日:2022-04-02
# 低リソースクロスリンガルエンティティ認識のためのデュアルコントラストフレームワーク

A Dual-Contrastive Framework for Low-Resource Cross-Lingual Named Entity Recognition ( http://arxiv.org/abs/2204.00796v1 )

ライセンス: Link先を確認
Yingwen Fu, Nankai Lin, Ziyu Yang and Shengyi Jiang(参考訳) クロスランガルな名前付きエンティティ認識(NER)は、低リソース言語におけるデータ空白問題を緩和できるため、最近研究ホットスポットになっている。 しかし、いくつかの特定のドメインにおいて、ソース言語ラベル付きデータも制限されるシナリオに注目した研究は少ない。 このシナリオの一般的なアプローチは、翻訳や生成ベースのデータ拡張メソッドを通じて、より多くのトレーニングデータを生成することだ。 残念ながら、ソースコードデータと対応する翻訳データを組み合わせるだけでは、翻訳データを完全に活用できないことが分かり、得られた改善はある程度制限されている。 本稿では, 限定されたソース言語ラベル付きデータのシナリオに基づいて, クロスリンガルnerのための, デュアルコントラストフレームワークconcnerについて述べる。 具体的には、ソース言語サンプルとそれらの翻訳に基づいて、異なる文法レベルでの言語間NERのための2つの対照的な目標、すなわち翻訳文ペア間の文表現のクローズ化(TCL)と、同一ラベル内のトークン表現のクローズ化(LCL)を設計する。 さらに、上記のNERモデルを教師として使用し、未ラベルのターゲット言語データに基づいて学生モデルを訓練し、ターゲット言語に適合させる知識蒸留手法を利用する。 対象とする言語を多種多様に実験した結果, ConCNER は複数のベースライン法より優れていることが示された。 本論文のコードは,再現性のためにhttps://github.com/G KLMIP/ConCNER.comで公開されている。

Cross-lingual Named Entity Recognition (NER) has recently become a research hotspot because it can alleviate the data-hungry problem for low-resource languages. However, few researches have focused on the scenario where the source-language labeled data is also limited in some specific domains. A common approach for this scenario is to generate more training data through translation or generation-based data augmentation method. Unfortunately, we find that simply combining source-language data and the corresponding translation cannot fully exploit the translated data and the improvements obtained are somewhat limited. In this paper, we describe our novel dual-contrastive framework ConCNER for cross-lingual NER under the scenario of limited source-language labeled data. Specifically, based on the source-language samples and their translations, we design two contrastive objectives for cross-language NER at different grammatical levels, namely Translation Contrastive Learning (TCL) to close sentence representations between translated sentence pairs and Label Contrastive Learning (LCL) to close token representations within the same labels. Furthermore, we utilize knowledge distillation method where the NER model trained above is used as the teacher to train a student model on unlabeled target-language data to better fit the target language. We conduct extensive experiments on a wide variety of target languages, and the results demonstrate that ConCNER tends to outperform multiple baseline methods. For reproducibility, our code for this paper is available at https://github.com/G KLMIP/ConCNER.
翻訳日:2022-04-05 14:06:24 公開日:2022-04-02
# 多目的最適化による抽象的臨床テキスト要約の精度向上

Improving the Factual Accuracy of Abstractive Clinical Text Summarization using Multi-Objective Optimization ( http://arxiv.org/abs/2204.00797v1 )

ライセンス: Link先を確認
Amanuel Alambo, Tanvi Banerjee, Krishnaprasad Thirunarayan, Mia Cajita(参考訳) 近年,ニュース記事や学術記事,ブログ投稿など,さまざまな分野に適用される抽象要約の進展が報告されているが,これらの手法を臨床テキスト要約に適用することは限られている。 これは主に、大規模なトレーニングデータがないことと、大規模なトレーニングデータが構造化されたり半構造化されたりする他のドメインと対照的に、臨床ノートの散らばった/非構造的な性質に起因している。 さらに, 臨床テキスト要約の最も調査の少ない重要な要素の1つは, 臨床要約の事実的精度である。 これは特に医療領域、特に心臓学において特に重要であり、ソースノートの事実を保存する正確な要約生成は患者の幸福のために重要である。 本研究では,知識誘導多目的最適化を用いた臨床テキストの抽象的要約の事実的精度向上のための枠組みを提案する。 提案する3つのコスト関数 - 生成的損失, 実体的損失, 知識的損失 - を共同で最適化し, 提案アーキテクチャの評価を行う。 1)本研究のために収集した心不全(HF)の臨床ノート,および 2)2つのベンチマークデータセット,インディアナ大学胸部X線収集(IU X線)とMIMIC-CXRが公開されている。 本研究では,3つの変圧器エンコーダ・デコーダアーキテクチャを実験し,異なる損失関数の最適化により,実体レベルの事実精度が向上することを示した。

While there has been recent progress in abstractive summarization as applied to different domains including news articles, scientific articles, and blog posts, the application of these techniques to clinical text summarization has been limited. This is primarily due to the lack of large-scale training data and the messy/unstructured nature of clinical notes as opposed to other domains where massive training data come in structured or semi-structured form. Further, one of the least explored and critical components of clinical text summarization is factual accuracy of clinical summaries. This is specifically crucial in the healthcare domain, cardiology in particular, where an accurate summary generation that preserves the facts in the source notes is critical to the well-being of a patient. In this study, we propose a framework for improving the factual accuracy of abstractive summarization of clinical text using knowledge-guided multi-objective optimization. We propose to jointly optimize three cost functions in our proposed architecture during training: generative loss, entity loss and knowledge loss and evaluate the proposed architecture on 1) clinical notes of patients with heart failure (HF), which we collect for this study; and 2) two benchmark datasets, Indiana University Chest X-ray collection (IU X-Ray), and MIMIC-CXR, that are publicly available. We experiment with three transformer encoder-decoder architectures and demonstrate that optimizing different loss functions leads to improved performance in terms of entity-level factual accuracy.
翻訳日:2022-04-05 14:05:59 公開日:2022-04-02
# 階層型テキスト分類のための制約付き列列列生成

Constrained Sequence-to-Tree Generation for Hierarchical Text Classification ( http://arxiv.org/abs/2204.00811v1 )

ライセンス: Link先を確認
Chao Yu, Yi Shen, Yue Mao, Longjun Cai(参考訳) 階層的テキスト分類(HTC)は、分類学内で複数の階層的に構造化されたカテゴリに文書を割り当てる難題である。 以前の研究の多くはhtcをフラットなマルチレーベル分類問題と見なしており、それは必然的に"ラベルの不一貫性"問題につながる。 本稿では,htcをシーケンス生成タスクとして定式化し,階層的ラベル構造をモデル化するシーケンシャル・トゥ・ツリー・フレームワーク(seq2tree)を提案する。 さらに,制約付き復号戦略を動的語彙で設計し,結果のラベル一貫性を確保する。 従来の研究と比較すると,提案手法は3つのベンチマークデータセットに対して顕著かつ一貫した改善を実現する。

Hierarchical Text Classification (HTC) is a challenging task where a document can be assigned to multiple hierarchically structured categories within a taxonomy. The majority of prior studies consider HTC as a flat multi-label classification problem, which inevitably leads to "label inconsistency" problem. In this paper, we formulate HTC as a sequence generation task and introduce a sequence-to-tree framework (Seq2Tree) for modeling the hierarchical label structure. Moreover, we design a constrained decoding strategy with dynamic vocabulary to secure the label consistency of the results. Compared with previous works, the proposed approach achieves significant and consistent improvements on three benchmark datasets.
翻訳日:2022-04-05 14:05:34 公開日:2022-04-02
# Co-VQA : 対話型質問系列による回答

Co-VQA : Answering by Interactive Sub Question Sequence ( http://arxiv.org/abs/2204.00879v1 )

ライセンス: Link先を確認
Ruonan Wang, Yuxi Qian, Fangxiang Feng, Xiaojie Wang and Huixing Jiang(参考訳) 既存のVQA(Visual Question Answering)のアプローチの多くは直接質問に答えるが、複雑な質問を単純なサブ質問列に分解し、サブ質問列(SQS)に答えた後、最終的に元の質問への回答を得るのが普通である。 プロセスのシミュレーションにより,質問,Oracle,Answererの3つのコンポーネントから構成される会話ベースのVQA(Co-VQA)フレームワークを提案する。 質問者は拡張HREDモデルを使ってサブ質問を提起し、Oracleはそれらを1つずつ答える。 Answerer の適応型連鎖視覚推論モデル (ACVRM) も提案され,質問応答ペアを用いて視覚表現を逐次更新する。 モデル毎に教師あり学習を行うために,VQA 2.0 と VQA-CP v2 データセット上で,各質問に対する SQS を構築する方法を提案する。 実験の結果,VQA-CP v2の最先端化が得られた。 さらに分析したところ、SQSは質問と画像間の直接的な意味的接続を構築し、質問適応型可変長推論チェーンを提供し、明示的な解釈可能性とエラートレーサビリティを提供する。

Most existing approaches to Visual Question Answering (VQA) answer questions directly, however, people usually decompose a complex question into a sequence of simple sub questions and finally obtain the answer to the original question after answering the sub question sequence(SQS). By simulating the process, this paper proposes a conversation-based VQA (Co-VQA) framework, which consists of three components: Questioner, Oracle, and Answerer. Questioner raises the sub questions using an extending HRED model, and Oracle answers them one-by-one. An Adaptive Chain Visual Reasoning Model (ACVRM) for Answerer is also proposed, where the question-answer pair is used to update the visual representation sequentially. To perform supervised learning for each model, we introduce a well-designed method to build a SQS for each question on VQA 2.0 and VQA-CP v2 datasets. Experimental results show that our method achieves state-of-the-art on VQA-CP v2. Further analyses show that SQSs help build direct semantic connections between questions and images, provide question-adaptive variable-length reasoning chains, and with explicit interpretability as well as error traceability.
翻訳日:2022-04-05 14:05:22 公開日:2022-04-02
# 有限次元リー群表現を用いたパス開発ネットワーク

Path Development Network with Finite-dimensional Lie Group Representation ( http://arxiv.org/abs/2204.00740v1 )

ライセンス: Link先を確認
Hang Lou, Siran Li, Hao Ni(参考訳) シーケンシャルデータの数学的原理と普遍的な特徴であるパスシグネチャは、補完的な特徴として、様々なシーケンシャルなデータタスクにおけるディープラーニングベースのモデルのパフォーマンスを向上させる。 しかし、道の寸法が高いときは次元の呪いに悩まされる。 そこで本稿では,有限次元行列リー群の助けを借りて,逐次データの表現を利用する新しい学習可能な経路展開層を提案する。 また、自明化として知られる多様体上の最適化手法により、開発層のバックプロパゲーションアルゴリズムを設計する。 数値実験により、経路の発達は、複数の経験的データセットのシグネチャの特徴の正確さと寸法の点で、一貫して著しく優れていることが示されている。 さらに、LSTMを適切な行列リー群で開発層に積み重ねることで、LSTMの勾配問題を緩和し、その結果のハイブリッドモデルが最先端の性能を達成することを実証的に証明する。

The path signature, a mathematically principled and universal feature of sequential data, leads to a performance boost of deep learning-based models in various sequential data tasks as a complimentary feature. However, it suffers from the curse of dimensionality when the path dimension is high. To tackle this problem, we propose a novel, trainable path development layer, which exploits representations of sequential data with the help of finite-dimensional matrix Lie groups. We also design the backpropagation algorithm of the development layer via an optimisation method on manifolds known as trivialisation. Numerical experiments demonstrate that the path development consistently and significantly outperforms, in terms of accuracy and dimensionality, signature features on several empirical datasets. Moreover, stacking the LSTM with the development layer with a suitable matrix Lie group is empirically proven to alleviate the gradient issues of LSTMs and the resulting hybrid model achieves the state-of-the-art performance.
翻訳日:2022-04-05 13:32:19 公開日:2022-04-02
# 配電用勾配昇降機

Distributional Gradient Boosting Machines ( http://arxiv.org/abs/2204.00778v1 )

ライセンス: Link先を確認
Alexander M\"arz, Thomas Kneib(参考訳) 本稿では,共変量関数としての単変量応答変数の条件分布全体をモデル化し,予測する回帰タスクのための統一確率勾配向上フレームワークを提案する。 我々の可能性に基づくアプローチでは、パラメトリック分布のすべての条件モーメントをモデル化するか、正規化フローによる条件累積分布関数を近似することができる。 我々のフレームワークはXGBoostとLightGBMをベースにしています。 条件分布全体のモデル化と予測は、予測間隔と興味のある分数を導出できる確率的予測を可能にするため、既存の木ベースの勾配ブースティング実装を大幅に強化する。 実験結果から,本フレームワークは最先端の予測精度を実現する。

We present a unified probabilistic gradient boosting framework for regression tasks that models and predicts the entire conditional distribution of a univariate response variable as a function of covariates. Our likelihood-based approach allows us to either model all conditional moments of a parametric distribution, or to approximate the conditional cumulative distribution function via Normalizing Flows. As underlying computational backbones, our framework is based on XGBoost and LightGBM. Modelling and predicting the entire conditional distribution greatly enhances existing tree-based gradient boosting implementations, as it allows to create probabilistic forecasts from which prediction intervals and quantiles of interest can be derived. Empirical results show that our framework achieves state-of-the-art forecast accuracy.
翻訳日:2022-04-05 13:32:03 公開日:2022-04-02
# 身体言語理解のためのモーメントに基づく会話学習

Moment-based Adversarial Training for Embodied Language Comprehension ( http://arxiv.org/abs/2204.00889v1 )

ライセンス: Link先を確認
Shintaro Ishikawa, Komei Sugiura(参考訳) 本稿では,ロボットが家庭作業を行うように指示される視覚言語タスクに注目した。 マグカップを外してコーヒーメーカーに配置する」という指示を与えられたロボットは、マグカップを見つけ、洗ってコーヒーメーカーに入れなければならない。 ロボットは命令文をサブゴールに分解し、正しい順序で実行する必要があるため、これは難しい。 ALFREDベンチマークでは、最先端の手法のパフォーマンスは人間よりもはるかに低い。 これは、既存のメソッドが命令文で明示的に指定されていないサブゴールを推論できないことがあるためである。 対人訓練における摂動更新に2種類のモーメントを用いた対人訓練(MAT)を提案する。 命令、サブゴール、状態表現の埋め込み空間にMATを導入し、それらの多様体を扱います。 提案手法をALFREDベンチマークで検証し,提案手法がベンチマーク上のすべての指標の基準法よりも優れていることを示した。

In this paper, we focus on a vision-and-language task in which a robot is instructed to execute household tasks. Given an instruction such as "Rinse off a mug and place it in the coffee maker," the robot is required to locate the mug, wash it, and put it in the coffee maker. This is challenging because the robot needs to break down the instruction sentences into subgoals and execute them in the correct order. On the ALFRED benchmark, the performance of state-of-the-art methods is still far lower than that of humans. This is partially because existing methods sometimes fail to infer subgoals that are not explicitly specified in the instruction sentences. We propose Moment-based Adversarial Training (MAT), which uses two types of moments for perturbation updates in adversarial training. We introduce MAT to the embedding spaces of the instruction, subgoals, and state representations to handle their varieties. We validated our method on the ALFRED benchmark, and the results demonstrated that our method outperformed the baseline method for all the metrics on the benchmark.
翻訳日:2022-04-05 13:30:53 公開日:2022-04-02
# SkeleVision:マルチタスク学習による人物追跡の逆レジリエンスを目指して

SkeleVision: Towards Adversarial Resiliency of Person Tracking with Multi-Task Learning ( http://arxiv.org/abs/2204.00734v1 )

ライセンス: Link先を確認
Nilaksh Das, Sheng-Yun Peng, Duen Horng Chau(参考訳) コンピュータビジョン技術を用いた人物追跡には、自動運転、ホームセキュリティ、スポーツ分析など幅広い応用がある。 しかし、敵攻撃の脅威が高まると、そのような技術のセキュリティと信頼性に関する深刻な懸念が持ち上がる。 本研究では,多タスク学習(MTL)が広く使用されているSiamRPNトラッカーの対角的堅牢性に与える影響を,人物追跡の文脈で検討する。 具体的には、人追跡と人間のキーポイント検出のセマンティックな類似タスクと共同学習の効果について検討する。 我々は、物理的に実現可能な、より強力な敵攻撃による広範な実験を行い、我々のアプローチの実践的価値を実証する。 シミュレーションと実世界のデータセットを用いた実証研究により、MTLを用いたトレーニングは、人追跡の単一タスクのみのトレーニングに比べて、常にSiamRPNトラッカーを攻撃しにくくすることが明らかになった。

Person tracking using computer vision techniques has wide ranging applications such as autonomous driving, home security and sports analytics. However, the growing threat of adversarial attacks raises serious concerns regarding the security and reliability of such techniques. In this work, we study the impact of multi-task learning (MTL) on the adversarial robustness of the widely used SiamRPN tracker, in the context of person tracking. Specifically, we investigate the effect of jointly learning with semantically analogous tasks of person tracking and human keypoint detection. We conduct extensive experiments with more powerful adversarial attacks that can be physically realizable, demonstrating the practical value of our approach. Our empirical study with simulated as well as real-world datasets reveals that training with MTL consistently makes it harder to attack the SiamRPN tracker, compared to typically training only on the single task of person tracking.
翻訳日:2022-04-05 13:30:18 公開日:2022-04-02
# CTRLEval: 制御されたテキスト生成を評価するための教師なし参照フリーメトリック

CTRLEval: An Unsupervised Reference-Free Metric for Evaluating Controlled Text Generation ( http://arxiv.org/abs/2204.00862v1 )

ライセンス: Link先を確認
Pei Ke, Hao Zhou, Yankai Lin, Peng Li, Jie Zhou, Xiaoyan Zhu, Minlie Huang(参考訳) 既存の参照フリーメトリクスは、制御されたテキスト生成モデルを評価するための明確な制限がある。 教師なしメトリクスは、人間の判断と弱く相関するタスク非依存な評価結果しか提供できないが、教師なしメトリクスは、他のデータセットに対する一般化能力の悪いタスク固有データに過剰に適合する可能性がある。 本稿では,CTRLEvalと呼ばれる非教師付き参照フリーメトリックを提案し,各アスペクトを複数のテキスト入力タスクに定式化することにより,異なる側面から制御されたテキスト生成を評価する。 これらのタスクに加えて、メトリックはモデルトレーニングなしで事前訓練された言語モデルから生成確率を組み立てる。 実験結果から,本尺度は他の基準値よりも高い相関性を示し,異なるモデルと異なる品質で生成したテキストのより優れた一般化が得られた。

Existing reference-free metrics have obvious limitations for evaluating controlled text generation models. Unsupervised metrics can only provide a task-agnostic evaluation result which correlates weakly with human judgments, whereas supervised ones may overfit task-specific data with poor generalization ability to other datasets. In this paper, we propose an unsupervised reference-free metric called CTRLEval, which evaluates controlled text generation from different aspects by formulating each aspect into multiple text infilling tasks. On top of these tasks, the metric assembles the generation probabilities from a pre-trained language model without any model training. Experimental results show that our metric has higher correlations with human judgments than other baselines, while obtaining better generalization of evaluating generated texts from different models and with different qualities.
翻訳日:2022-04-05 13:10:42 公開日:2022-04-02
# Inverse is Better! Few-shot Slot Taggingのための高速かつ高精度なプロンプト

Inverse is Better! Fast and Accurate Prompt for Few-shot Slot Tagging ( http://arxiv.org/abs/2204.00885v1 )

ライセンス: Link先を確認
Yutai Hou, Cheng Chen, Xianzhen Luo, Bohan Li, Wanxiang Che(参考訳) プロンプティング手法は最近、数発の学習で驚くべき成功を収めた。 これらの方法は入力サンプルをプロンプト文で修正し、サンプルを対応するラベルにマップするためにラベルトークンをデコードする。 しかし、そのようなパラダイムはスロットタギングのタスクでは非効率である。 スロットタグ付けサンプルは文中の複数の連続した単語であるため、すべてのn-gramsトークンスパンを列挙して可能なスロットを見つける必要があるため、予測が大幅に遅くなる。 これに対処するために,プロンプトのための逆パラダイムを導入する。 ラベルにトークンをマッピングする古典的なプロンプトと異なり、スロット型が与えられたスロット値を逆向きに予測する。 このような逆プロンプトはスロットタイプごとに1ターンの予測しか必要とせず、予測を大幅に高速化する。 さらに,異なるスロットタイプ間の関係を考慮し,モデルが予測を洗練させることを学習する,新しい反復予測戦略を提案する。 驚くべきことに,提案手法はより高速に予測できるだけでなく,効果(10ショットで6.1F1スコア以上)を大幅に改善し,新たな最先端性能を実現する。

Prompting methods recently achieve impressive success in few-shot learning. These methods modify input samples with prompt sentence pieces, and decode label tokens to map samples to corresponding labels. However, such a paradigm is very inefficient for the task of slot tagging. Since slot tagging samples are multiple consecutive words in a sentence, the prompting methods have to enumerate all n-grams token spans to find all the possible slots, which greatly slows down the prediction. To tackle this, we introduce an inverse paradigm for prompting. Different from the classic prompts mapping tokens to labels, we reversely predict slot values given slot types. Such inverse prompting only requires a one-turn prediction for each slot type and greatly speeds up the prediction. Besides, we propose a novel Iterative Prediction Strategy, from which the model learns to refine predictions by considering the relations between different slot types. We find, somewhat surprisingly, the proposed method not only predicts faster but also significantly improves the effect (improve over 6.1 F1-scores on 10-shot setting) and achieves new state-of-the-art performance.
翻訳日:2022-04-05 13:10:29 公開日:2022-04-02
# 空中画像におけるスケール不変マハラノビス距離による回転物体検出

Rotated Object Detection via Scale-invariant Mahalanobis Distance in Aerial Images ( http://arxiv.org/abs/2204.00840v1 )

ライセンス: Link先を確認
Siyang Wen, Wei Guo, Ruijie Wu and Yi Liu(参考訳) 空中画像における回転物体検出は、物体が密に配置され任意の向きを持つため、有意義だが困難な作業である。 回転物体検出における8パラメータ法は通常、lnノルム損失(l1損失、l2損失、滑らかなl1損失)を損失関数として使用する。 ln-ノルムの損失は、主に非スケール不変ミンコフスキー距離に基づいており、ln-ノルムの損失を用いると、検出距離の回転交叉(IoU)とトレーニング不安定性に矛盾する。 そこで本研究では,8パラメータ回転物体検出のためのマハラノビス距離損失(marahnobis distance loss, mdl)という新たな損失関数を提案する。 マハラノビス距離はスケール不変であるため、MDLはln-ノルム損失よりも検出基準と一致し、訓練中に安定である。 他の8パラメータ法と同様に境界不連続性の問題を軽減するため, MDL を境界条件で連続させるために最小損失値を求める。 提案手法により,DOTA-v1.0の最先端性能を実現する。 さらに, 同一条件下での滑らかなL1損失の比較実験により, MDLは回転物体検出において良好な性能を示した。

Rotated object detection in aerial images is a meaningful yet challenging task as objects are densely arranged and have arbitrary orientations. The eight-parameter (coordinates of box vectors) methods in rotated object detection usually use ln-norm losses (L1 loss, L2 loss, and smooth L1 loss) as loss functions. As ln-norm losses are mainly based on non-scale-invariant Minkowski distance, using ln-norm losses will lead to inconsistency with the detection metric rotational Intersection-over-Un ion (IoU) and training instability. To address the problems, we use Mahalanobis distance to calculate loss between the predicted and the target box vertices' vectors, proposing a new loss function called Mahalanobis Distance Loss (MDL) for eight-parameter rotated object detection. As Mahalanobis distance is scale-invariant, MDL is more consistent with detection metric than ln-norm losses and more stable during training. To alleviate the problem of boundary discontinuity like all other eight-parameter methods, we further take the minimum loss value to make MDL continuous at boundary cases. We achieve state-of-art performance on DOTA-v1.0 with the proposed method MDL. Furthermore, with the comparative experiment of smooth L1 loss under the same condi-tion, we find that MDL performs better in rotated object detection.
翻訳日:2022-04-05 13:09:55 公開日:2022-04-02
# 文埋め込みの効率的比較

Efficient comparison of sentence embeddings ( http://arxiv.org/abs/2204.00820v1 )

ライセンス: Link先を確認
Spyros Zoupanos, Stratis Kolovos, Athanasios Kanavos, Orestis Papadimitriou, Manolis Maragoudakis(参考訳) 自然言語処理(NLP)の領域は、ここ数年で大きく進化してきたが、近年の単語と文の埋め込みの進歩から大きな恩恵を受けている。 このような埋め込みは、意味的類似性や質問と回答(Q\&A)のような複雑なNLPタスクを、ベクトル比較をより簡単に行うことができる。 しかし、そのような問題変換は埋め込みの効率的な比較や操作といった新しい課題を引き起こす。 本稿では,様々な単語・文埋め込みアルゴリズムについて議論し,文埋め込みアルゴリズムbertを選択アルゴリズムとして選択し,文埋め込みの特定の問題における2つのベクトル比較手法faissとelasticsearchの性能評価を行う。 結果によると、FAISSは、単一のノードしか持たない集中環境、特に大きなデータセットを含む場合、Elasticsearchよりも優れています。

The domain of natural language processing (NLP), which has greatly evolved over the last years, has highly benefited from the recent developments in word and sentence embeddings. Such embeddings enable the transformation of complex NLP tasks, like semantic similarity or Question and Answering (Q\&A), into much simpler to perform vector comparisons. However, such a problem transformation raises new challenges like the efficient comparison of embeddings and their manipulation. In this work, we will discuss about various word and sentence embeddings algorithms, we will select a sentence embedding algorithm, BERT, as our algorithm of choice and we will evaluate the performance of two vector comparison approaches, FAISS and Elasticsearch, in the specific problem of sentence embeddings. According to the results, FAISS outperforms Elasticsearch when used in a centralized environment with only one node, especially when big datasets are included.
翻訳日:2022-04-05 13:06:32 公開日:2022-04-02
# hldc:ヒンディーの法律文書コーパス

HLDC: Hindi Legal Documents Corpus ( http://arxiv.org/abs/2204.00806v1 )

ライセンス: Link先を確認
Arnav Kapoor and Mudit Dhawan and Anmol Goel and T.H. Arjun and Akshala Bhatnagar and Vibhu Agrawal and Amul Agrawal and Arnab Bhattacharya and Ponnurangam Kumaraguru and Ashutosh Modi(参考訳) インドを含む多くの人口国は、訴訟のかなりの棚上げに苦しめられている。 法的文書を処理し、法律実務者を増やす自動化システムの開発は、これを緩和することができる。 しかし、このようなデータ駆動システムを開発するために必要な高品質なコーパスが多数存在する。 この問題は、ヒンディー語のような低リソース言語の場合、さらに顕著になる。 本稿では,ヒンディー語の法的文書900万以上のコーパスであるヒンディー法文書コーパス(hldc)を紹介する。 ドキュメントはクリーンで構造化されており、下流アプリケーションの開発を可能にする。 さらに,コーパスのユースケースとして,保釈予測の課題を紹介する。 本稿では,モデルのバッテリを実験し,Multi-Task Learning(MTL)に基づくモデルを提案する。 MTLモデルは、補助タスクとして要約を使用し、保釈予測を主タスクとする。 異なるモデルを用いた実験は、この分野におけるさらなる研究の必要性を示している。 本論文でコーパスとモデル実装のコードを公開します。

Many populous countries including India are burdened with a considerable backlog of legal cases. Development of automated systems that could process legal documents and augment legal practitioners can mitigate this. However, there is a dearth of high-quality corpora that is needed to develop such data-driven systems. The problem gets even more pronounced in the case of low resource languages such as Hindi. In this resource paper, we introduce the Hindi Legal Documents Corpus (HLDC), a corpus of more than 900K legal documents in Hindi. Documents are cleaned and structured to enable the development of downstream applications. Further, as a use-case for the corpus, we introduce the task of bail prediction. We experiment with a battery of models and propose a Multi-Task Learning (MTL) based model for the same. MTL models use summarization as an auxiliary task along with bail prediction as the main task. Experiments with different models are indicative of the need for further research in this area. We release the corpus and model implementation code with this paper: https://github.com/E xploration-Lab/HLDC
翻訳日:2022-04-05 12:36:57 公開日:2022-04-02