このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220310となっている論文です。

PDF登録状況(公開日: 20220310)

TitleAuthorsAbstract論文公表日・翻訳日
# 法領域に応用された人工知能技術の現状

State of the Art in Artificial Intelligence applied to the Legal Domain ( http://arxiv.org/abs/2204.07047v1 )

ライセンス: Link先を確認
Jo\~ao Dias, Pedro A. Santos, Nuno Cordeiro, Ana Antunes, Bruno Martins, Jorge Baptista, and Carlos Gon\c{c}alves(参考訳) 人工知能が法律分野に適用されることは、前世紀に起源を持つトピックであるが、人工知能の最近の進歩は、それを革命させる可能性がある。 この研究は、自然言語処理の分野における主な進歩と、これらの進歩が法的テキスト分析における技術状況のさらなる向上にどのように利用されているかの概要と文脈を提示する。

While Artificial Intelligence applied to the legal domain is a topic with origins in the last century, recent advances in Artificial Intelligence are posed to revolutionize it. This work presents an overview and contextualizes the main advances on the field of Natural Language Processing and how these advances have been used to further the state of the art in legal text analysis.
翻訳日:2022-04-17 07:28:36 公開日:2022-03-10
# パーキンソン病解析のためのマルチモーダルアプローチ

A multimodal approach for Parkinson disease analysis ( http://arxiv.org/abs/2203.15517v1 )

ライセンス: Link先を確認
Marcos Faundez-Zanuy, Antonio Satue-Villar, Jiri Mekyska, Viridiana Arreola, Pilar Sanz, Carles Paul, Luis Guirao, Mateu Serra, Laia Rofes, Pere Clav\'e, Enric Sesa-Nogueras, Josep Roure(参考訳) パーキンソン病(Parkinson's disease、PD)は、一般人口が0.1-1%に達する2番目に頻度の高い神経変性疾患である。 PDの診断時の平均年齢は55歳であり、ほとんどの患者は50歳から80歳である。 最も明白な症状は運動関連であり、震え、剛性、運動の遅さ、歩行困難がある。 これらはしばしばPD診断につながる症状である。 その後、思考や行動の問題が起こり、認知障害や感覚障害、睡眠、感情障害などの症状が生じる。 本稿では,音声・手書き分析が,PDにおける摂食・バランス障害の予測・指標として信頼性が高いかどうかを評価するプロジェクトについて述べる。 音声および手書き分析の重要な利点は、その低侵入性と臨床実践の容易な実施である。 したがって、これらの簡易分析と金標準ビデオ・フルオロスコープ分析との間に有意な相関がある場合、患者の診断検査がより簡単で、より安価な分析システムを使用することが示される。

Parkinson's disease (PD) is the second most frequent neurodegenerative disease with prevalence among general population reaching 0.1-1 %, and an annual incidence between 1.3-2.0/10000 inhabitants. The mean age at diagnosis of PD is 55 and most patients are between 50 and 80 years old. The most obvious symptoms are movement-related; these include tremor, rigidity, slowness of movement and walking difficulties. Frequently these are the symptoms that lead to the PD diagnoses. Later, thinking and behavioral problems may arise, and other symptoms include cognitive impairment and sensory, sleep and emotional problems. In this paper we will present an ongoing project that will evaluate if voice and handwriting analysis can be reliable predictors/indicator s of swallowing and balance impairments in PD. An important advantage of voice and handwritten analysis is its low intrusiveness and easy implementation in clinical practice. Thus, if a significant correlation between these simple analyses and the gold standard video-fluoroscopic analysis will imply simpler and less stressing diagnostic test for the patients as well as the use of cheaper analysis systems.
翻訳日:2022-04-03 18:27:04 公開日:2022-03-10
# (参考訳) YouTube(AI-EVL)を重視した効率的な視覚学習環境におけるAIアノテーションの提案 [全文訳有]

AI Annotated Recommendations in an Efficient Visual Learning Environment with Emphasis on YouTube (AI-EVL) ( http://arxiv.org/abs/2203.11157v1 )

ライセンス: CC BY 4.0
Faeze Gholamrezaie, Melika Bahman-Abadi, and M. B. Ghaznavi-Ghoushchi(参考訳) 本稿では,AI-EVLと呼ばれるシステムについて述べる。 これは注釈付き学習システムである。 AIを学習経験に拡張します。 メインのYouTubeページのユーザがYouTubeビデオを閲覧し、AI-EVLシステムのユーザが同じことをすると、使用するトラフィックはずっと少なくなります。 帯域幅の削減を示す望ましくないコンテンツを無視しているためである。 このシステムは、カリキュラムを充実させるために、オンライン学習ツールやプラットフォームを組み込むように設計されている。 Google 2020トレンドデータを用いたシステム評価では,各データから豊富なオントロジ情報を抽出することができた。 収集されたデータのうち34.86%はWolfram、30.41%はDBpedia、34.73%はWikipediaに属する。 ビデオ字幕情報は、再生中にユーザに対してインタラクティブかつ機能的に表示される。 この効果的な視覚学習システムは、ユニークな特徴のため、ユーザの注意をそらさず、学習をより集中させる。 字幕テキストに関する情報は、AIアノテートされたトピック、Wikipedia/DBpedia、インタラクティブかつビジュアルなウィジェットを通じて強化されたテキストなど、複数のレイヤに表示される。

In this article, we create a system called AI-EVL. This is an annotated-based learning system. We extend AI to learning experience. If a user from the main YouTube page browses YouTube videos and a user from the AI-EVL system does the same, the amount of traffic used will be much less. It is due to ignoring unwanted contents which indicates a reduction in bandwidth usage too. This system is designed to be embedded with online learning tools and platforms to enrich their curriculum. In evaluating the system using Google 2020 trend data, we were able to extract rich ontological information for each data. Of the data collected, 34.86% belong to wolfram, 30.41% to DBpedia, and 34.73% to Wikipedia. The video subtitle information is displayed interactively and functionally to the user over time as the video is played. This effective visual learning system, due to the unique features, prevents the user's distraction and makes learning more focused. The information about the subtitle text is displayed in multiple layers including AI-annotated topics, Wikipedia/DBpedia, and Wolfram enriched texts via interactive and visual widgets.
翻訳日:2022-03-27 11:18:47 公開日:2022-03-10
# (参考訳) HiSA-SMFM:歴史・感性分析に基づく株式市場予測モデル [全文訳有]

HiSA-SMFM: Historical and Sentiment Analysis based Stock Market Forecasting Model ( http://arxiv.org/abs/2203.08143v1 )

ライセンス: CC BY 4.0
Ishu Gupta and Tarun Kumar Madan and Sukhman Singh and Ashutosh Kumar Singh(参考訳) 国の経済を構築するための柱の1つは株式市場である。 長年にわたり、人々は自分の保有する金額からできるだけ多くの利益を得るために株式市場に投資してきた。 したがって、将来の株価を正確に予測できる予測モデルを持つことが不可欠である。 機械学習の助けを借りて、適切にモデル化された機械学習技術が最高の予測値を提供できるなら、それは不可能なタスクではない。 これにより、投資家は株式を売買するか保有するかを決めることができる。 本論文の目的は、企業の金融株の将来を精度良く予測することである。 本稿では,LSTMを適用して株価を効率的に予測するための履歴データと感情データの利用を提案する。 感情分析の分野での既存の研究を分析した結果、株価の動きとニュース記事の発行との間には強い相関関係があることが判明した。 そこで本稿では,これらの要因を統合し,より正確な株価予測を行う。

One of the pillars to build a country's economy is the stock market. Over the years, people are investing in stock markets to earn as much profit as possible from the amount of money that they possess. Hence, it is vital to have a prediction model which can accurately predict future stock prices. With the help of machine learning, it is not an impossible task as the various machine learning techniques if modeled properly may be able to provide the best prediction values. This would enable the investors to decide whether to buy, sell or hold the share. The aim of this paper is to predict the future of the financial stocks of a company with improved accuracy. In this paper, we have proposed the use of historical as well as sentiment data to efficiently predict stock prices by applying LSTM. It has been found by analyzing the existing research in the area of sentiment analysis that there is a strong correlation between the movement of stock prices and the publication of news articles. Therefore, in this paper, we have integrated these factors to predict the stock prices more accurately.
翻訳日:2022-03-20 23:06:06 公開日:2022-03-10
# (参考訳) タッカー分解によるビデオ用CNNカーネル圧縮:軽量CNNアプリケーションに向けて [全文訳有]

Compressing CNN Kernels for Videos Using Tucker Decompositions: Towards Lightweight CNN Applications ( http://arxiv.org/abs/2203.07033v1 )

ライセンス: CC BY 4.0
Tobias Engelhardt Rasmussen, Line H Clemmensen and Andreas Baum(参考訳) 畳み込みニューラルネットワーク(CNN)は、ビジュアルコンピューティングの分野における最先端技術である。 しかし、CNNの大きな問題は大量の浮動小数点演算(FLOP)が大きな入力に対して畳み込みを行うのに必要なことである。 ビデオデータへのcnnの適用を考えると、畳み込みフィルタは余分な時間次元のためさらに複雑になる。 これにより、スマートフォンやタブレット、マイクロコントローラなど、各アプリケーションがモバイルデバイスにデプロイされる場合、計算能力の低下を示す問題が発生する。 Kim et al. (2016) は、ネットワークの複雑さ、すなわちFLOPの数を減らすために、事前訓練されたネットワークの畳み込みカーネルを圧縮するためにタッカー分解を用いて提案した。 本稿では、前述のビデオ(および他の3D信号)に適用するための手法を一般化し、テニスショットを行う個人のビデオを含むTheTISデータセットの修正版に対して提案手法の評価を行う。 その結果、圧縮されたネットワークは、メモリ圧縮を51倍の精度で示しながら、同等の精度に達することが分かった。 しかし、実際の計算スピードアップ(第1.4因子)は、理論上導かれた期待(第6因子)を満たさない。

Convolutional Neural Networks (CNN) are the state-of-the-art in the field of visual computing. However, a major problem with CNNs is the large number of floating point operations (FLOPs) required to perform convolutions for large inputs. When considering the application of CNNs to video data, convolutional filters become even more complex due to the extra temporal dimension. This leads to problems when respective applications are to be deployed on mobile devices, such as smart phones, tablets, micro-controllers or similar, indicating less computational power. Kim et al. (2016) proposed using a Tucker-decomposition to compress the convolutional kernel of a pre-trained network for images in order to reduce the complexity of the network, i.e. the number of FLOPs. In this paper, we generalize the aforementioned method for application to videos (and other 3D signals) and evaluate the proposed method on a modified version of the THETIS data set, which contains videos of individuals performing tennis shots. We show that the compressed network reaches comparable accuracy, while indicating a memory compression by a factor of 51. However, the actual computational speed-up (factor 1.4) does not meet our theoretically derived expectation (factor 6).
翻訳日:2022-03-20 07:37:45 公開日:2022-03-10
# (参考訳) 深層学習法を用いた複雑地形地域における風力発電の確率的予測-北極圏の場合- [全文訳有]

Probabilistic forecasts of wind power generation in regions with complex topography using deep learning methods: An Arctic case ( http://arxiv.org/abs/2203.07080v1 )

ライセンス: CC BY 4.0
Odin Foldvik Eikeland, Finn Dag Hovem, Tom Eirik Olsen, Matteo Chiesa, and Filippo Maria Bianchi(参考訳) エネルギー市場は、動的バランスを保つ必要がある需要と発電の両方の予測能力に依存している。 今日、再生可能エネルギー発電に関して、このような決定は自由化された電力市場環境においてますます行われており、将来的な発電は契約やオークションメカニズムを通じて提供されなければならないため、予測に基づいている。 再生可能エネルギー源からの高断続的発電のシェアの増加は、将来の発電に関する不確実性を高める。 ポイント予測はそのような不確実性を考慮しない。 これらの不確実性を考慮すると、確率的予測が可能である。 この研究はまず,ディープラーニングを用いた確率的予測に関する重要な概念とアプローチを示す。 次に、ノルウェー北部にある風力発電所からの日頭発電の確率的予測にディープラーニングモデルを用いる。 異なるディープラーニングモデルと共変量のセットに対して、得られた予測間隔の品質の観点で性能を比較する。 その結果,観測した気象の履歴データと数値天気予報(NWP)を外因性変数として含めると,予測精度が向上することがわかった。 これにより、歴史的測定データを用いてNWPの系統的バイアスを自動的に補正することができる。 また,NWPのみを用いて,気象を外生変数として測定し,予測性能が低下した。

The energy market relies on forecasting capabilities of both demand and power generation that need to be kept in dynamic balance. Today, when it comes to renewable energy generation, such decisions are increasingly made in a liberalized electricity market environment, where future power generation must be offered through contracts and auction mechanisms, hence based on forecasts. The increased share of highly intermittent power generation from renewable energy sources increases the uncertainty about the expected future power generation. Point forecast does not account for such uncertainties. To account for these uncertainties, it is possible to make probabilistic forecasts. This work first presents important concepts and approaches concerning probabilistic forecasts with deep learning. Then, deep learning models are used to make probabilistic forecasts of day-ahead power generation from a wind power plant located in Northern Norway. The performance in terms of obtained quality of the prediction intervals is compared for different deep learning models and sets of covariates. The findings show that the accuracy of the predictions improves when historical data on measured weather and numerical weather predictions (NWPs) were included as exogenous variables. This allows the model to auto-correct systematic biases in the NWPs using the historical measurement data. Using only NWPs, or only measured weather as exogenous variables, worse prediction performances were obtained.
翻訳日:2022-03-20 07:28:24 公開日:2022-03-10
# (参考訳) 可算mdpにおけるポイントペイオフ・平均ペイオフ・トータルペイオフの戦略複雑性

Strategy Complexity of Point Payoff, Mean Payoff and Total Payoff Objectives in Countable MDPs ( http://arxiv.org/abs/2203.07079v1 )

ライセンス: CC BY 4.0
Richard Mayr and Eric Munday(参考訳) 実数値遷移報酬を用いた無数のマルコフ決定過程(MDP)について検討する。 すべての無限ランは以下のペイオフ列を誘導する。 1.ポイントペイオフ(直接見られる移行報酬の順序) 2.支払額(これまでのすべての報酬の合計をステップ数で割った順序)及び 3.トータル・ペイオフ(これまでの全報酬の合計の順序) 各ペイオフタイプについて、目的は$\liminf$ が非負である確率を最大化することである。 我々は、これらの目的、すなわち、$\varepsilon$-optima l (resp. optimal)戦略に必要なメモリ量と十分なメモリ量に関する戦略の複雑さの全体像を確立する。 記憶のない決定論的戦略で勝つ場合もあり、ステップカウンタ、報酬カウンタ、あるいはその両方を必要とする場合もある。

We study countably infinite Markov decision processes (MDPs) with real-valued transition rewards. Every infinite run induces the following sequences of payoffs: 1. Point payoff (the sequence of directly seen transition rewards), 2. Mean payoff (the sequence of the sums of all rewards so far, divided by the number of steps), and 3. Total payoff (the sequence of the sums of all rewards so far). For each payoff type, the objective is to maximize the probability that the $\liminf$ is non-negative. We establish the complete picture of the strategy complexity of these objectives, i.e., how much memory is necessary and sufficient for $\varepsilon$-optima l (resp. optimal) strategies. Some cases can be won with memoryless deterministic strategies, while others require a step counter, a reward counter, or both.
翻訳日:2022-03-20 07:13:28 公開日:2022-03-10
# 電気自動車の充電ステーションの場所をウェブマイニングで知らせる

Web Mining to Inform Locations of Charging Stations for Electric Vehicles ( http://arxiv.org/abs/2203.07081v1 )

ライセンス: Link先を確認
Philipp Hummler, Christof Naumzik, Stefan Feuerriegel(参考訳) 充電ステーションの利用は、カーボンフレンドリーな輸送手段として電気自動車(EV)を推進するための重要な要素である。 したがって、都市計画者にとって重要な問題は、充電ステーションをどこに配置して大きな利用率に達するかである。 ここでは、EV所有者が充電ステーションとPOIの間を歩く意思に一定の制限があるため、EV充電ステーションの利用は、関心のポイント(POI)に近接して行われると仮定する。 そこで我々は,OpenStreetMap の異なる POI が充電ステーションの利用に与える影響を特徴付けるために,Web マイニングの利用を提案する。 そこで本研究では,POIと充電ステーションの空間分布を考慮に入れた補間解釈可能なモデルを提案する。 これにより、異なるPOIタイプの影響の距離と大きさを見積もることができます。 モデルの評価はおおよそのデータで行います。 300の充電ステーションと4,000のpoisがオランダのアムステルダムにある。 我々のモデルは最先端のベースラインよりも優れたパフォーマンスを実現し、それに加えて、未整合レベルの解釈性を提供することができる。 我々の知る限りでは、POIが関連する空間的近接度を推定することにより、実際の利用データから充電ステーション利用への影響を定量化していない。 その結果,都市プランナーが充電ステーションの有効位置を特定するのに役立つことがわかった。

The availability of charging stations is an important factor for promoting electric vehicles (EVs) as a carbon-friendly way of transportation. Hence, for city planners, the crucial question is where to place charging stations so that they reach a large utilization. Here, we hypothesize that the utilization of EV charging stations is driven by the proximity to points-of-interest (POIs), as EV owners have a certain limited willingness to walk between charging stations and POIs. To address our research question, we propose the use of web mining: we characterize the influence of different POIs from OpenStreetMap on the utilization of charging stations. For this, we present a tailored interpretable model that takes into account the full spatial distributions of both the POIs and the charging stations. This allows us then to estimate the distance and magnitude of the influence of different POI types. We evaluate our model with data from approx. 300 charging stations and 4,000 POIs in Amsterdam, Netherlands. Our model achieves a superior performance over state-of-the-art baselines and, on top of that, is able to offer an unmatched level of interpretability. To the best of our knowledge, no previous paper has quantified the POI influence on charging station utilization from real-world usage data by estimating the spatial proximity in which POIs are relevant. As such, our findings help city planners in identifying effective locations for charging stations.
翻訳日:2022-03-15 17:12:36 公開日:2022-03-10
# (参考訳) 制御における構成一般化のための政策アーキテクチャ [全文訳有]

Policy Architectures for Compositional Generalization in Control ( http://arxiv.org/abs/2203.05960v1 )

ライセンス: CC BY 4.0
Allan Zhou, Vikash Kumar, Chelsea Finn, Aravind Rajeswaran(参考訳) 制御、ロボット工学、計画における多くのタスクは、環境における様々なエンティティの所望のゴール設定を使用して指定できる。 目標条件のポリシーを学ぶことは、そのようなタスクを解決する自然なパラダイムです。 しかし、現在のアプローチは、環境エンティティの数の変化や目標の構成など、タスクの複雑さが増すにつれて学習と一般化に苦慮している。 本稿では、タスクにおけるエンティティベースの構成構造をモデル化するフレームワークを導入し、この構造を活用できる適切なポリシー設計を作成する。 Deep SetsやSelf Attentionといったアーキテクチャを利用する私たちのポリシは柔軟で、アクションプリミティブを必要とせずにエンドツーエンドでトレーニングすることが可能です。 シミュレーションロボット操作タスクで標準的な強化および模倣学習手法を用いてトレーニングすると、これらのアーキテクチャは少ないデータではるかに高い成功率を達成できることがわかった。 また、これらのアーキテクチャはより広範かつ構成的な一般化を可能にし、トレーニングで見られる異なる数のエンティティに外挿するポリシーを作成し、新しい方法で学習スキルを縫い合わせる(つまり構成する)。 結果のビデオはhttps://sites.google .com/view/comp-gen-r l.comで見ることができる。

Many tasks in control, robotics, and planning can be specified using desired goal configurations for various entities in the environment. Learning goal-conditioned policies is a natural paradigm to solve such tasks. However, current approaches struggle to learn and generalize as task complexity increases, such as variations in number of environment entities or compositions of goals. In this work, we introduce a framework for modeling entity-based compositional structure in tasks, and create suitable policy designs that can leverage this structure. Our policies, which utilize architectures like Deep Sets and Self Attention, are flexible and can be trained end-to-end without requiring any action primitives. When trained using standard reinforcement and imitation learning methods on a suite of simulated robot manipulation tasks, we find that these architectures achieve significantly higher success rates with less data. We also find these architectures enable broader and compositional generalization, producing policies that extrapolate to different numbers of entities than seen in training, and stitch together (i.e. compose) learned skills in novel ways. Videos of the results can be found at https://sites.google .com/view/comp-gen-r l.
翻訳日:2022-03-14 23:28:28 公開日:2022-03-10
# (参考訳) 医用画像セグメンテーションのためのラベル効率のハイブリッド教師あり学習 [全文訳有]

Label-efficient Hybrid-supervised Learning for Medical Image Segmentation ( http://arxiv.org/abs/2203.05956v1 )

ライセンス: CC BY 4.0
Junwen Pan and Qi Bi and Yanzhan Yang and Pengfei Zhu and Cheng Bian(参考訳) 医用画像アノテーションの専門知識の欠如により,医用画像分割のためのラベル効率の高い手法の検討が注目される。 最近の進歩は、多くの非専門的なシナリオで同等のセグメンテーション性能を達成するために、弱いアノテーションと強い注釈付きラベルの効率的な利用に焦点を当てている。 しかしながら、これらのアプローチは、強いアノテーションと弱いアノテーションのインスタンス間の管理上の不整合のみに集中するが、弱いアノテーションのインスタンス内のインスタンスの不整合は無視する。 この問題を解決するために,各弱アノテーションインスタンスを個別に検討し,強アノテーションインスタンスの勾配方向で案内される重みを学習し,強アノテーションインスタンスに先行する高品質をより活用し,弱アノテーションインスタンスをより正確に表現する,ラベル効率のよいハイブリッド監視フレームワークを提案する。 特に、設計した動的インスタンスインジケータ(DII)は、上記の目的を実現し、弱いアノテーションの歪みからの誤蓄積を軽減するために、動的共規則化(DCR)フレームワークに適応する。 2つのハイブリッド型医用セグメンテーションデータセットの広範な実験により、10%の強いラベルしか持たず、提案フレームワークは弱いラベルを効率的に活用し、100%強いラベルを監督するシナリオに対して競争性能を達成することができることを示した。

Due to the lack of expertise for medical image annotation, the investigation of label-efficient methodology for medical image segmentation becomes a heated topic. Recent progresses focus on the efficient utilization of weak annotations together with few strongly-annotated labels so as to achieve comparable segmentation performance in many unprofessional scenarios. However, these approaches only concentrate on the supervision inconsistency between strongly- and weakly-annotated instances but ignore the instance inconsistency inside the weakly-annotated instances, which inevitably leads to performance degradation. To address this problem, we propose a novel label-efficient hybrid-supervised framework, which considers each weakly-annotated instance individually and learns its weight guided by the gradient direction of the strongly-annotated instances, so that the high-quality prior in the strongly-annotated instances is better exploited and the weakly-annotated instances are depicted more precisely. Specially, our designed dynamic instance indicator (DII) realizes the above objectives, and is adapted to our dynamic co-regularization (DCR) framework further to alleviate the erroneous accumulation from distortions of weak annotations. Extensive experiments on two hybrid-supervised medical segmentation datasets demonstrate that with only 10% strong labels, the proposed framework can leverage the weak labels efficiently and achieve competitive performance against the 100% strong-label supervised scenario.
翻訳日:2022-03-14 23:08:33 公開日:2022-03-10
# (参考訳) 気候変動とコンピュータ・オーディション:地球を救うための行動とオーディオ・インテリジェンスの概要 [全文訳有]

Climate Change & Computer Audition: A Call to Action and Overview on Audio Intelligence to Help Save the Planet ( http://arxiv.org/abs/2203.06064v1 )

ライセンス: CC BY 4.0
Bj\"orn W. Schuller, Alican Akman, Yi Chang, Harry Coppock, Alexander Gebhard, Alexander Kathan, Esther Rituerto-Gonz\'alez, Andreas Triantafyllopoulos, and Florian B. Pokorny(参考訳) 2030年のアジェンダで提案され、国連加盟国で採用されている17の持続可能な開発目標のうち、13$^{th}$ SDGは、より良い世界のために気候変動と戦うための行動である。 この研究では、オーディオインテリジェンス -- 強力だが、この状況では、技術はほとんど考慮されていない -- が、気候に関わる課題を克服するのに寄与する領域の概要を述べる。 我々は、古代ギリシア人が提唱した地球、水、空気、火、エーテルの5つの要素に従って、潜在的なコンピュータオーディションの応用を分類し、この分類は、異なる生態学的側面に関してコンピュータオーディションを議論する枠組みとして機能する。 地球と水は、環境変化の早期発見と、人間や動物の保護、土地や水生生物の監視に関係している。 空中音声は、鳥類と昆虫の個体群に関する情報の監視と取得に使用される。 さらに、音響測定は気象やその他の気象現象のモニタリングと予測に関連した情報を提供することができる。 第4の要素は火である。 化石燃料の燃焼、結果としてCO$2$の排出の増加とそれに伴う温度上昇により、火は人為的な気候変動の象徴として使用され、この文脈では騒音汚染の監視、機械、および山火事の早期発見が含まれる。 これらすべての領域において、コンピュータオーディションは気候変動対策に役立つ。 Aetherはそれを可能にする技術そのものに対応する。 本研究は,コンピュータオーディションを方法論的代替物と位置づけながら,これらの分野を探究し,応用可能性について議論する。

Among the seventeen Sustainable Development Goals (SDGs) proposed within the 2030 Agenda and adopted by all the United Nations member states, the 13$^{th}$ SDG is a call for action to combat climate change for a better world. In this work, we provide an overview of areas in which audio intelligence -- a powerful but in this context so far hardly considered technology -- can contribute to overcome climate-related challenges. We categorise potential computer audition applications according to the five elements of earth, water, air, fire, and aether, proposed by the ancient Greeks in their five element theory; this categorisation serves as a framework to discuss computer audition in relation to different ecological aspects. Earth and water are concerned with the early detection of environmental changes and, thus, with the protection of humans and animals, as well as the monitoring of land and aquatic organisms. Aerial audio is used to monitor and obtain information about bird and insect populations. Furthermore, acoustic measures can deliver relevant information for the monitoring and forecasting of weather and other meteorological phenomena. The fourth considered element is fire. Due to the burning of fossil fuels, the resulting increase in CO$_2$ emissions and the associated rise in temperature, fire is used as a symbol for man-made climate change and in this context includes the monitoring of noise pollution, machines, as well as the early detection of wildfires. In all these areas, computer audition can help counteract climate change. Aether then corresponds to the technology itself that makes this possible. This work explores these areas and discusses potential applications, while positioning computer audition in relation to methodological alternatives.
翻訳日:2022-03-14 22:53:05 公開日:2022-03-10
# (参考訳) neos: 高エネルギー物理学のためのエンドツーエンド最適化された要約統計 [全文訳有]

neos: End-to-End-Optimised Summary Statistics for High Energy Physics ( http://arxiv.org/abs/2203.05570v1 )

ライセンス: CC BY 4.0
Nathan Simpson and Lukas Heinrich(参考訳) ディープラーニングの出現は、計算の勾配を自動的に計算する強力なツールを生み出した。 これは、ニューラルネットワークのトレーニングが、勾配降下を使ってパラメータを反復的に更新し、損失関数の最小値を求めるためである。 エンド・ツー・エンドの最適化可能な自由なパラメータを備えたワークフローは、ずっと勾配を追跡し続けることができる。 完全に微分可能な高エネルギーの物理ワークフローのこのパラダイムに従って、分析の期待される感度に関して学習可能な要約統計を最適化できる実装の例を紹介します。 この結果、体系的な不確実性のモデル化と処理を意識した最適化プロセスが実現される。

The advent of deep learning has yielded powerful tools to automatically compute gradients of computations. This is because training a neural network equates to iteratively updating its parameters using gradient descent to find the minimum of a loss function. Deep learning is then a subset of a broader paradigm; a workflow with free parameters that is end-to-end optimisable, provided one can keep track of the gradients all the way through. This work introduces neos: an example implementation following this paradigm of a fully differentiable high-energy physics workflow, capable of optimising a learnable summary statistic with respect to the expected sensitivity of an analysis. Doing this results in an optimisation process that is aware of the modelling and treatment of systematic uncertainties.
翻訳日:2022-03-14 22:17:34 公開日:2022-03-10
# (参考訳) デュアルエネルギーCT再構成のためのマルチチャネル畳み込み解析演算子学習 [全文訳有]

Multi-Channel Convolutional Analysis Operator Learning for Dual-Energy CT Reconstruction ( http://arxiv.org/abs/2203.05968v1 )

ライセンス: CC BY 4.0
Alessandro Perelli, Suxer Alfonso Garcia, Alexandre Bousse, Jean-Pierre Tasu, Nikolaos Efthimiadis, Dimitris Visvikis(参考訳) 目的。 デュアルエネルギー計算トモグラフィ(DECT)はコントラストを改善し、アーティファクトを低減し、高度なイメージングアプリケーションで物質分解を行う能力を持つ。 放射線照射量の増加や測定値の増加は、エネルギー当たりの投射数やx線源の強度を減少させるのに不可欠であるが、このため断層撮影による再構成は不適切である。 アプローチ。 そこで本研究では,マルチチャネル畳み込み解析演算子学習(mcaol)法を考案し,畳み込み解析演算子学習(caol)アルゴリズムを用いて,事前学習した畳み込みフィルタにより得られたばらばらな特徴に対して,低・高エネルギーの減衰画像を同時に再構成する最適化手法を提案する。 主な結果。 提案手法の有効性を検証するために,シミュレーションおよび実ctデータを用いた広範囲な実験を行い,caolおよび単関節全変量(tv)正則化を用いた反復法と比較し,再構成精度の向上を報告した。 重要なこと。 Sparse-views と Low-Dose DECT の質的および定量的結果から,提案手法はMCAOL 法を独立に各エネルギーに適用し,既存の MBIR (State-of-the-the-th e-art model-based Iterative reconstruction) 法よりも優れており,線量削減の道が拓かれた。

Objective. Dual-energy computed tomography (DECT) has the potential to improve contrast, reduce artifacts and the ability to perform material decomposition in advanced imaging applications. The increased number or measurements results with a higher radiation dose and it is therefore essential to reduce either number of projections per energy or the source X-ray intensity, but this makes tomographic reconstruction more ill-posed. Approach. We developed the multi-channel convolutional analysis operator learning (MCAOL) method to exploit common spatial features within attenuation images at different energies and we propose an optimization method which jointly reconstructs the attenuation images at low and high energies with a mixed norm regularization on the sparse features obtained by pre-trained convolutional filters through the convolutional analysis operator learning (CAOL) algorithm. Main results. Extensive experiments with simulated and real computed tomography (CT) data were performed to validate the effectiveness of the proposed methods and we reported increased reconstruction accuracy compared to CAOL and iterative methods with single and joint total-variation (TV) regularization. Significance. Qualitative and quantitative results on sparse-views and low-dose DECT demonstrate that the proposed MCAOL method outperforms both CAOL applied on each energy independently and several existing state-of-the-art model-based iterative reconstruction (MBIR) techniques, thus paving the way for dose reduction.
翻訳日:2022-03-14 22:08:48 公開日:2022-03-10
# (参考訳) マスクオートエンコーダを用いた医用画像解析のための自己事前訓練 [全文訳有]

Self Pre-training with Masked Autoencoders for Medical Image Analysis ( http://arxiv.org/abs/2203.05573v1 )

ライセンス: CC BY 4.0
Lei Zhou, Huidong Liu, Joseph Bae, Junjun He, Dimitris Samaras, Prateek Prasanna(参考訳) Masked Autoencoder (MAE) は視覚変換器 (ViT) の自然画像解析に有効であることが最近示されている。 部分的な観察のみからオリジナル画像を再構成するプリテキストタスクを実行することにより、ViTであるエンコーダは、コンテキスト情報を集約してマスクされた画像領域の内容を推測する。 このコンテキストアグリゲーション能力は、各解剖学的構造が他の構造や領域と機能的および機械的に結びついている医療画像領域にも不可欠であると考えている。 しかし、事前トレーニングのためのImageNetスケールの医療画像データセットは存在しない。 そこで本稿では,医療画像に対するmaeを用いた自己事前学習パラダイム,すなわち,同じ対象データセット上で事前学習されるモデルについて検討する。 mae自己訓練の妥当性を検証するため,胸部x線疾患分類,ct腹部多臓器分画,mri脳腫瘍分画の3つの医用画像課題を検討した。 MAEの自己学習は、すべてのタスクに顕著なメリットがある。 特に肺疾患分類のmAUCは9.4%増加する。 脳腫瘍セグメンテーションの平均DSCは77.4%から78.9%に改善されている。 興味深いことに、小規模のマルチオーガンセグメンテーションデータセット(n=30)では、平均dscが78.8%から83.5%に改善され、hd95は60%削減され、限られたデータシナリオでの有効性が示される。 セグメンテーションと分類の結果から,医療画像解析におけるMAE自己訓練の可能性が示された。

Masked Autoencoder (MAE) has recently been shown to be effective in pre-training Vision Transformers (ViT) for natural image analysis. By performing the pretext task of reconstructing the original image from only partial observations, the encoder, which is a ViT, is encouraged to aggregate contextual information to infer content in masked image regions. We believe that this context aggregation ability is also essential to the medical image domain where each anatomical structure is functionally and mechanically connected to other structures and regions. However, there is no ImageNet-scale medical image dataset for pre-training. Thus, in this paper, we investigate a self pre-training paradigm with MAE for medical images, i.e., models are pre-trained on the same target dataset. To validate the MAE self pre-training, we consider three diverse medical image tasks including chest X-ray disease classification, CT abdomen multi-organ segmentation and MRI brain tumor segmentation. It turns out MAE self pre-training benefits all the tasks markedly. Specifically, the mAUC on lung disease classification is increased by 9.4%. The average DSC on brain tumor segmentation is improved from 77.4% to 78.9%. Most interestingly, on the small-scale multi-organ segmentation dataset (N=30), the average DSC improves from 78.8% to 83.5% and the HD95 is reduced by 60%, indicating its effectiveness in limited data scenarios. The segmentation and classification results reveal the promising potential of MAE self pre-training for medical image analysis.
翻訳日:2022-03-14 21:42:05 公開日:2022-03-10
# (参考訳) 画像の縫合に基づく顔画像の一部からの人間の顔認識 [全文訳有]

Human Face Recognition from Part of a Facial Image based on Image Stitching ( http://arxiv.org/abs/2203.05601v1 )

ライセンス: CC BY 4.0
Osama R. Shahin, Rami Ayedi, Alanazi Rayan, Rasha M. Abd El-Aziz, Ahmed I. Taloba(参考訳) 現在の顔認識技術のほとんどは、認識対象者の全顔の存在を必要としており、この状況は実際に達成することは困難であり、必要な人物が顔の一部で現れる可能性があり、そのためには、現れていない部分の予測が必要となる。 現在の予測プロセスの大部分は、画像補間(image interpolation)と呼ばれるもので、特に欠落部分が大きい場合には、信頼性の高い結果を与えない。 本研究では,人間の顔がほとんどが対称性によって特徴付けられるという事実に応じて,画像に示される部分の反転により欠落部分を完成させて顔を縫い合わせる方法を採用した。 完全なモデルを作成するために、アルゴリズムの効率を証明するために2つの顔認識手法が用いられた。 ここで適用される顔認識アルゴリズムは固有顔と幾何学的手法である。 画像ステッチ(英: image stitching)とは、特定の写真画像を組み合わせて完全なシーンや高解像度画像を作る過程である。 複数の画像が統合され、広角パノラマ画像を形成する。 縫合画像と原画像との類似性を算出し、縫合画像を介して縫合線の有無により、縫合の品質を判定する。 EigenfacesアプローチはPCA計算を利用して特徴ベクトル次元を縮小する。 これは、低次元空間を発見するための効果的なアプローチを提供する。 さらに,提案アルゴリズムが顔を認識するためには,顔の分類を迅速かつ効果的に行うことができる。 特徴抽出のフェーズは分類器フェーズに続きます。

Most of the current techniques for face recognition require the presence of a full face of the person to be recognized, and this situation is difficult to achieve in practice, the required person may appear with a part of his face, which requires prediction of the part that did not appear. Most of the current forecasting processes are done by what is known as image interpolation, which does not give reliable results, especially if the missing part is large. In this work, we adopted the process of stitching the face by completing the missing part with the flipping of the part shown in the picture, depending on the fact that the human face is characterized by symmetry in most cases. To create a complete model, two facial recognition methods were used to prove the efficiency of the algorithm. The selected face recognition algorithms that are applied here are Eigenfaces and geometrical methods. Image stitching is the process during which distinctive photographic images are combined to make a complete scene or a high-resolution image. Several images are integrated to form a wide-angle panoramic image. The quality of the image stitching is determined by calculating the similarity among the stitched image and original images and by the presence of the seam lines through the stitched images. The Eigenfaces approach utilizes PCA calculation to reduce the feature vector dimensions. It provides an effective approach for discovering the lower-dimensional space. In addition, to enable the proposed algorithm to recognize the face, it also ensures a fast and effective way of classifying faces. The phase of feature extraction is followed by the classifier phase.
翻訳日:2022-03-14 21:32:26 公開日:2022-03-10
# (参考訳) 畳み込みニューラルネットワークに基づく障害者のジェスチャーに基づくアラビア語手話認識 [全文訳有]

Gesture based Arabic Sign Language Recognition for Impaired People based on Convolution Neural Network ( http://arxiv.org/abs/2203.05602v1 )

ライセンス: CC BY 4.0
Rady El Rwelli, Osama R. Shahin, Ahmed I. Taloba(参考訳) アラビア語の手話は、深層学習手法を用いてジェスチャーや手話の識別に優れた研究成果を支えてきた。 コミュニケーションの形式」という用語は、聴覚障害者がコミュニケーションに使用する行動を指す。 これらの行動は一般人にとって理解が難しい。 アラビア手話 (ArSL) の認識は、アラビア手話 (ArSL) が、ある領域から別の領域へ、そして州内で変化するため、難しい研究課題となっている。 畳み込みニューラルネットワークは,機械学習技術に基づく提案システムにカプセル化されている。 アラビア手話の認識には、ウェアラブルセンサが使用される。 このアプローチは、すべてのアラビア語のジェスチャーに適合する別のシステムを使用しています。 これは、地元のアラビア人コミュニティの障害を受けた人々によって使用される。 研究方法は適度かつ適度な精度で使用されてきた。 センシング装置が収集したデータから特徴を抽出するために、当初は深い畳み込みネットワークが開発された。 これらのセンサーはアラビア手話の30文字を確実に認識することができる。 DG5-Vハンドグローブとウェアラブルセンサーで手の動きを捉えた。 分類の目的では、cnn技術が用いられる。 提案システムは、アラビア語手話手のジェスチャーを入力とし、発声音声を出力として出力する。 結果は90%の人に認識された。

The Arabic Sign Language has endorsed outstanding research achievements for identifying gestures and hand signs using the deep learning methodology. The term "forms of communication" refers to the actions used by hearing-impaired people to communicate. These actions are difficult for ordinary people to comprehend. The recognition of Arabic Sign Language (ArSL) has become a difficult study subject due to variations in Arabic Sign Language (ArSL) from one territory to another and then within states. The Convolution Neural Network has been encapsulated in the proposed system which is based on the machine learning technique. For the recognition of the Arabic Sign Language, the wearable sensor is utilized. This approach has been used a different system that could suit all Arabic gestures. This could be used by the impaired people of the local Arabic community. The research method has been used with reasonable and moderate accuracy. A deep Convolutional network is initially developed for feature extraction from the data gathered by the sensing devices. These sensors can reliably recognize the Arabic sign language's 30 hand sign letters. The hand movements in the dataset were captured using DG5-V hand gloves with wearable sensors. For categorization purposes, the CNN technique is used. The suggested system takes Arabic sign language hand gestures as input and outputs vocalized speech as output. The results were recognized by 90% of the people.
翻訳日:2022-03-14 21:21:57 公開日:2022-03-10
# (参考訳) 深層学習に基づくバイオニックビジョンのための知覚刺激エンコーダ [全文訳有]

Deep Learning-Based Perceptual Stimulus Encoder for Bionic Vision ( http://arxiv.org/abs/2203.05604v1 )

ライセンス: CC BY 4.0
Lucas Relic, Bowen Zhang, Yi-Lin Tuan, Michael Beyeler(参考訳) 網膜インプラントは、難治性の視覚障害を治療する可能性があるが、それらが生み出す人工視覚の品質は依然として必須である。 優れた課題は、視覚知覚(ホスフィン)につながる電極の活性化パターンを特定することである。 本稿では、所望の視覚知覚を生成するために必要な電極活性化パターンを予測するために、エンドツーエンドで訓練されたCNNに基づくPSEを提案する。 MNISTに対するエンコーダの有効性を、個々の網膜インプラント使用者に適した精神生理学的に検証されたホスフェインモデルを用いて実証した。 本研究は網膜インプラントによる人工視覚の質向上に向けた重要な第一歩となる。

Retinal implants have the potential to treat incurable blindness, yet the quality of the artificial vision they produce is still rudimentary. An outstanding challenge is identifying electrode activation patterns that lead to intelligible visual percepts (phosphenes). Here we propose a PSE based on CNN that is trained in an end-to-end fashion to predict the electrode activation patterns required to produce a desired visual percept. We demonstrate the effectiveness of the encoder on MNIST using a psychophysically validated phosphene model tailored to individual retinal implant users. The present work constitutes an essential first step towards improving the quality of the artificial vision provided by retinal implants.
翻訳日:2022-03-14 21:11:12 公開日:2022-03-10
# (参考訳) 文脈型感覚運動ノルム:曖昧な英語単語に対する知覚運動強度の多次元計測 [全文訳有]

Contextualized Sensorimotor Norms: multi-dimensional measures of sensorimotor strength for ambiguous English words, in context ( http://arxiv.org/abs/2203.05648v1 )

ライセンス: CC BY 4.0
Sean Trott and Benjamin Bergen(参考訳) ほとんどの大きな言語モデルは言語入力だけで訓練されているが、人間は感覚運動経験における単語の理解を基盤にしているように見える。 自然な解法は、単語の知覚的関連(例えばランカスター知覚的ノルム)の人間の判断によるLM表現を強化することであるが、これは別の課題を生じさせる: ほとんどの単語は曖昧であり、孤立した単語の判断は、この多義性(例:「木テーブル」対「データテーブル」)を説明できない。 我々は,4つの文脈で評価された112の英単語に対して,文脈化感性判断の新しい語彙資源を構築することにより,この問題に対処しようとした。 これらの評価はLancaster Sensorimotor Normsと重複するが、異なる情報を符号化し、BERTから派生した他の指標(例えば、関連性)も予測していることを示す。 理論的な疑問に光を当てるだけでなく、これらの評価は、基礎言語モデルを構築する研究者のための「チャレンゲセット」として使用できることを示唆する。

Most large language models are trained on linguistic input alone, yet humans appear to ground their understanding of words in sensorimotor experience. A natural solution is to augment LM representations with human judgments of a word's sensorimotor associations (e.g., the Lancaster Sensorimotor Norms), but this raises another challenge: most words are ambiguous, and judgments of words in isolation fail to account for this multiplicity of meaning (e.g., "wooden table" vs. "data table"). We attempted to address this problem by building a new lexical resource of contextualized sensorimotor judgments for 112 English words, each rated in four different contexts (448 sentences total). We show that these ratings encode overlapping but distinct information from the Lancaster Sensorimotor Norms, and that they also predict other measures of interest (e.g., relatedness), above and beyond measures derived from BERT. Beyond shedding light on theoretical questions, we suggest that these ratings could be of use as a "challenge set" for researchers building grounded language models.
翻訳日:2022-03-14 21:05:14 公開日:2022-03-10
# (参考訳) ポートフォリオ最適化のためのセンチメントと資産価格予測の融合 [全文訳有]

Fusion of Sentiment and Asset Price Predictions for Portfolio Optimization ( http://arxiv.org/abs/2203.05673v1 )

ライセンス: CC BY 4.0
Mufhumudzi Muthivhi, Terence L. van Zyl(参考訳) 株式価格予測を伴うテキスト形式での世論データの融合は、金融コミュニティ内での関心の高まりのトピックである。 しかし、研究文献はポートフォリオ選択問題における投資家感情の応用をほとんど探求していない。 本稿では,感情認識ポートフォリオ選択問題の理解を深め,解き明かすことを目的とする。 この目的のために、研究はセマンティック・アテンション・モデルを用いて資産に対する感情を予測する。 感情認識型Long Short Term Memory(LSTM)リカレントニューラルネットワークを用いて、価格予測と平均分散戦略により最適なポートフォリオを選択する。 当社のセンチメントポートフォリオ戦略は、非センチメント対応モデルよりも売上が大幅に増加した。 しかし,我々の戦略は,安定性の観点から,従来のポートフォリオ割り当て戦略を上回りません。 我々は、価格予測とポートフォリオ最適化の組み合わせによる感情予測の融合が、ポートフォリオ選択戦略の強化につながると論じる。

The fusion of public sentiment data in the form of text with stock price prediction is a topic of increasing interest within the financial community. However, the research literature seldom explores the application of investor sentiment in the Portfolio Selection problem. This paper aims to unpack and develop an enhanced understanding of the sentiment aware portfolio selection problem. To this end, the study uses a Semantic Attention Model to predict sentiment towards an asset. We select the optimal portfolio through a sentiment-aware Long Short Term Memory (LSTM) recurrent neural network for price prediction and a mean-variance strategy. Our sentiment portfolio strategies achieved on average a significant increase in revenue above the non-sentiment aware models. However, the results show that our strategy does not outperform traditional portfolio allocation strategies from a stability perspective. We argue that an improved fusion of sentiment prediction with a combination of price prediction and portfolio optimization leads to an enhanced portfolio selection strategy.
翻訳日:2022-03-14 20:46:59 公開日:2022-03-10
# BASIL:クラス不均衡データセットのためのバランス付きアクティブ半教師付き学習

BASIL: Balanced Active Semi-supervised Learning for Class Imbalanced Datasets ( http://arxiv.org/abs/2203.05651v1 )

ライセンス: Link先を確認
Suraj Kothawade, Pavan Kumar Reddy, Ganesh Ramakrishnan, Rishabh Iyer(参考訳) 現在の半教師付き学習(SSL)メソッドは、ラベル付きデータセットとラベル付きデータセットの両方で、各クラスで利用可能なデータポイントの数とバランスをとる。 しかし、ほとんどの実世界のデータセットには自然にクラス不均衡が存在する。 このような不均衡なデータセットのトレーニングモデルがバイアスモデルにつながることが知られており、結果としてより頻繁なクラスに対するバイアス付き予測につながっている。 この問題はSSLメソッドでさらに強調され、トレーニング中に(ラベルなしのデータ上で)擬似ラベルを取得するためにこのバイアス付きモデルを使用する。 本稿では、SSLのためのバランスのとれたラベル付きデータセットを選択することで、バイアスのないモデルに対処する。 残念ながら、1ショットでクラス不均衡分布からバランス付きラベル付きデータセットを取得することは難しい。 本稿では,クラスごとにサブモジュラル相互情報(smi)機能を最適化し,アクティブラーニングループでバランスのとれたデータセットを徐々に選択する新しいアルゴリズムであるbasil(balanced active semi-supervised learning)を提案する。 重要なことに,この技術はSSLメソッドの性能向上に有効である。 幅広いSSL手法を対象としたPath-MNISTおよびOrgan-MNISTの医療データセットに関する実験により,バジルの有効性が示された。 さらに、SMI関数がよりバランスの取れたデータセットを選択するため、Basilは最先端の多様性と不確実性に基づくアクティブラーニング手法よりも優れています。

Current semi-supervised learning (SSL) methods assume a balance between the number of data points available for each class in both the labeled and the unlabeled data sets. However, there naturally exists a class imbalance in most real-world datasets. It is known that training models on such imbalanced datasets leads to biased models, which in turn lead to biased predictions towards the more frequent classes. This issue is further pronounced in SSL methods, as they would use this biased model to obtain psuedo-labels (on the unlabeled data) during training. In this paper, we tackle this problem by attempting to select a balanced labeled dataset for SSL that would result in an unbiased model. Unfortunately, acquiring a balanced labeled dataset from a class imbalanced distribution in one shot is challenging. We propose BASIL (Balanced Active Semi-supervIsed Learning), a novel algorithm that optimizes the submodular mutual information (SMI) functions in a per-class fashion to gradually select a balanced dataset in an active learning loop. Importantly, our technique can be efficiently used to improve the performance of any SSL method. Our experiments on Path-MNIST and Organ-MNIST medical datasets for a wide array of SSL methods show the effectiveness of Basil. Furthermore, we observe that Basil outperforms the state-of-the-art diversity and uncertainty based active learning methods since the SMI functions select a more balanced dataset.
翻訳日:2022-03-14 13:58:30 公開日:2022-03-10
# レコメンダシステムの消費者価値とビジネス価値のバランス:シミュレーションに基づく分析

Balancing Consumer and Business Value of Recommender Systems: A Simulation-based Analysis ( http://arxiv.org/abs/2203.05952v1 )

ライセンス: Link先を確認
Nada Ghanem, Stephan Leitner, Dietmar Jannach(参考訳) 現在、多くのオンラインプラットフォームで自動レコメンデーションが利用可能であり、そのようなレコメンデーションは消費者とプロバイダーにかなりの価値をもたらす可能性がある。 しかし、推奨アイテムがすべて同じ利益率であるとは限らないため、提供者は利益を最大化する商品を宣伝する誘惑を受けることがある。 短期的には、消費者は最適でない推奨を受け入れるかもしれないが、長期的には信頼を失うかもしれない。 最終的には、消費者とプロバイダの両方の価値を考慮し、継続的なビジネス成功につながる、バランスのとれたレコメンデーション戦略を設計することに繋がる。 本研究は,様々なレコメンデーション戦略の縦断的ダイナミクスを探索するためのエージェントベースモデリングに基づくシミュレーションフレームワークを提案する。 本モデルでは,消費者エージェントが提供者からレコメンデーションを受け取り,レコメンデーションの質が時間の経過とともに消費者の信頼に影響を及ぼす。 また、ポジティブな経験とネガティブな経験がソーシャルメディア上で他人と共有されるネットワーク効果についても検討する。 我々の枠組みによるシミュレーションは、双方の利害関係者を考慮したバランスの取れた戦略が、実際に安定した消費者信頼と持続的な収益性をもたらすことを示している。 また、ソーシャルメディアは、ネガティブな体験の場合の信頼の喪失のような現象を補強できることがわかった。 再現性を確保するため,我々はフレキシブル・シミュレーション・フレームワークを公開している。

Automated recommendations can nowadays be found on many online platforms, and such recommendations can create substantial value for consumers and providers. Often, however, not all recommendable items have the same profit margin, and providers might thus be tempted to promote items that maximize their profit. In the short run, consumers might accept non-optimal recommendations, but they may lose their trust in the long run. Ultimately, this leads to the problem of designing balanced recommendation strategies, which consider both consumer and provider value and lead to sustained business success. This work proposes a simulation framework based on Agent-based Modeling designed to help providers explore longitudinal dynamics of different recommendation strategies. In our model, consumer agents receive recommendations from providers, and the perceived quality of the recommendations influences the consumers' trust over time. In addition, we consider network effects where positive and negative experiences are shared with others on social media. Simulations with our framework show that balanced strategies that consider both stakeholders indeed lead to stable consumer trust and sustained profitability. We also find that social media can reinforce phenomena like the loss of trust in the case of negative experiences. To ensure reproducibility and foster future research, we publicly share our flexible simulation framework.
翻訳日:2022-03-14 13:54:48 公開日:2022-03-10
# 高精度産業用コネクタ-ソケットインサーション用触覚ニュートニアVAE

Tactile-Sensitive NewtonianVAE for High-Accuracy Industrial Connector-Socket Insertion ( http://arxiv.org/abs/2203.05955v1 )

ライセンス: Link先を確認
Ryo Okumura, Nobuki Nishio and Tadahiro Taniguchi(参考訳) 工業用コネクタソケット挿入タスクは、コネクタのグリップポーズのサブミリ位置決めと補償を必要とする。 したがって、ソケットとコネクタ間の相対的なポーズの高精度な推定は、タスクを実現する上で重要な要素である。 世界モデルはバイスオモーター制御に有望な技術である。 彼らは特徴抽出と潜在力学モデルを協調的に最適化する制御のための適切な状態表現を得る。 近年の研究では、世界モデルの一種であるNewtonianVAEが、画像から物理座標へのマッピングに相当する潜在空間を取得している。 比例制御はニュートンVAEの潜在空間で達成できる。 しかし,newtonianvaeの物理環境における高精度産業タスクへの応用は未解決の問題である。 さらに、把握ポーズを考慮した潜在空間における目標位置を補償する一般的な枠組みは存在しない。 本研究では,usbコネクタの挿入にnewtonianvaeを応用し,物理的環境におけるポーズ変化を把握した。 ゲルアイ型触覚センサを採用し,コネクタの把持姿勢によって補償される挿入位置を推定する。 本手法では, 潜在空間をエンドツーエンドに訓練し, 単純な比例制御が可能となる。 そのため、追加のエンジニアリングやアノテーションは不要である。 実験の結果, 触覚に敏感なnewtonianvae法は, 回帰型把持姿勢推定器と座標変換のナイーブな組み合わせよりも優れていることがわかった。 さらに、元のnewtonianvaeは何らかの状況では機能せず、ドメイン知識誘導によってモデルの精度が向上することを示す。 このドメイン知識は、ロボットの仕様や測定から容易に知ることができる。

An industrial connector-socket insertion task requires sub-millimeter positioning and compensation of grasp pose of a connector. Thus high accurate estimation of relative pose between socket and connector is a key factor to achieve the task. World models are promising technology for visuo-motor control. They obtain appropriate state representation for control to jointly optimize feature extraction and latent dynamics model. Recent study shows NewtonianVAE, which is a kind of the world models, acquires latent space which is equivalent to mapping from images to physical coordinate. Proportional control can be achieved in the latent space of NewtonianVAE. However, application of NewtonianVAE to high accuracy industrial tasks in physical environments is open problem. Moreover, there is no general frameworks to compensate goal position in the obtained latent space considering the grasp pose. In this work, we apply NewtonianVAE to USB connector insertion with grasp pose variation in the physical environments. We adopt a GelSight type tactile sensor and estimate insertion position compensated by the grasp pose of the connector. Our method trains the latent space in an end-to-end manner, and simple proportional control is available. Therefore, it requires no additional engineering and annotation. Experimental results show that the proposed method, Tactile-Sensitive NewtonianVAE, outperforms naive combination of regression-based grasp pose estimator and coordinate transformation. Moreover, we reveal the original NewtonianVAE does not work in some situation, and demonstrate that domain knowledge induction improves model accuracy. This domain knowledge is easy to be known from specification of robots or measurement.
翻訳日:2022-03-14 13:54:24 公開日:2022-03-10
# 話者検証のためのパラメータフリーアテンテーティブ・スコーリング

Parameter-Free Attentive Scoring for Speaker Verification ( http://arxiv.org/abs/2203.05642v1 )

ライセンス: Link先を確認
Jason Pelecanos, Quan Wang, Yiling Huang, Ignacio Lopez Moreno(参考訳) 本稿では,話者検証のためのパラメータフリー注意点定法を提案する。 パラメータフリースコアリングは、付随するパラメトリックスコアリングモデルを必要としない話者表現を比較する柔軟性を提供する。 トランスフォーマーニューラルネットワークのアテンション成分に着想を得て,参加者とテストセグメントの表現を比較するために,スケールドドット製品アテンション機構の変種を提案する。 さらに、この研究は、パフォーマンスへの影響を探求する。 (i)異なる種類の正規化。 (ii)独立対連結クエリ/キー推定 三 キー-値対の数及び数の変更 (iv)複数の登録発話統計をプールすること。 4タスク平均に対する実験結果から, 単純なパラメータフリー注意スコアリング機構により, 最高のコサイン類似度ベースラインよりも平均EERを10%向上させることができることがわかった。

This paper presents a novel study of parameter-free attentive scoring for speaker verification. Parameter-free scoring provides the flexibility of comparing speaker representations without the need of an accompanying parametric scoring model. Inspired by the attention component in Transformer neural networks, we propose a variant of the scaled dot product attention mechanism to compare enrollment and test segment representations. In addition, this work explores the effect on performance of (i) different types of normalization, (ii) independent versus tied query/key estimation, (iii) varying the number of key-value pairs and (iv) pooling multiple enrollment utterance statistics. Experimental results for a 4 task average show that a simple parameter-free attentive scoring mechanism can improve the average EER by 10% over the best cosine similarity baseline.
翻訳日:2022-03-14 13:53:32 公開日:2022-03-10
# LiftReg: 限定アングル2D/3Dデフォルマブル登録

LiftReg: Limited Angle 2D/3D Deformable Registration ( http://arxiv.org/abs/2203.05565v1 )

ライセンス: Link先を確認
Lin Tian, Yueh Z. Lee, Ra\'ul San Jos\'e Est\'epar, Marc Niethammer(参考訳) 2d/3d変形可能な登録アプローチであるliftregを提案する。 LiftRegは、デジタル再構成されたラジオグラフ(DRR)とCT(Computerd tomography)イメージペアのセットを使用してトレーニングされる、深い登録フレームワークである。 シミュレーションされたトレーニングデータを使用することで、liftregは高品質のct-ct画像類似度測定を行うことができる。 登録品質をさらに向上させ,非常に限られた角度取得の固有深度あいまいさに対処するために,バックプロジェクションされた2D画像から抽出した特徴と統計的変形モデルを提案する。 このアプローチをdirlabの肺登録データセットでテストし,既存の学習に基づくペアワイズ登録アプローチよりも優れていることを示す。

We propose LiftReg, a 2D/3D deformable registration approach. LiftReg is a deep registration framework which is trained using sets of digitally reconstructed radiographs (DRR) and computed tomography (CT) image pairs. By using simulated training data, LiftReg can use a high-quality CT-CT image similarity measure, which helps the network to learn a high-quality deformation space. To further improve registration quality and to address the inherent depth ambiguities of very limited angle acquisitions, we propose to use features extracted from the backprojected 2D images and a statistical deformation model. We test our approach on the DirLab lung registration dataset and show that it outperforms an existing learning-based pairwise registration approach.
翻訳日:2022-03-14 13:53:22 公開日:2022-03-10
# ctフィルム写真からの医用画像の復元

Recovering medical images from CT film photos ( http://arxiv.org/abs/2203.05567v1 )

ライセンス: Link先を確認
Quan Quan, Qiyuan Wang, Yuanqi Du, Liu Li, S. Kevin Zhou(参考訳) コンピュータ断層撮影(CT)などの医用画像は病院PACSのDICOM形式で保存されているが, セルフストレージや二次コンサルテーションのために, フィルムを転写可能な媒体として印刷することは, 多くの国で日常的に行われている。 また、携帯電話カメラのユビキタス化により、不運にも幾何学的変形や照明の変化に悩まされるCTフィルムの撮影が一般的である。 本研究は,文献に「最初の試み」と記されたctフィルムの回収問題を,我々の知識を最大限に活用するために検討するものである。 まず,広く使用されているコンピュータグラフィックスソフトウェアであるBlenderを用いて,約2万枚の画像からなる大規模頭部CTフィルムデータベースCTFilm20Kを構築した。 また,幾何学的変形(3次元座標,深さ,正規分布,紫外線図など)と照明変化(アルベド写像など)に関する全ての情報を記録した。 そこで我々は,CTフィルムから抽出した複数の地図を用いて,形状変形と照明変化に対処し,回復過程を協調的に導出するフレームワークを,textbf{F}ilm \textbf{I}mage \textbf{Re}covery \textbf{Net}work (\textbf{FIReNet}work) と呼ぶ。 最後に,放射能特徴抽出などのさらなる解析のためにカスケードモデルを用いてデワート画像をdicomファイルに変換する。 大規模な実験は、我々のアプローチが以前のアプローチよりも優れていることを示す。 我々は,ctフィルム画像解析研究を促進すべく,シミュレーション画像と深層モデルをオープンソースとして公開する予定である。

While medical images such as computed tomography (CT) are stored in DICOM format in hospital PACS, it is still quite routine in many countries to print a film as a transferable medium for the purposes of self-storage and secondary consultation. Also, with the ubiquitousness of mobile phone cameras, it is quite common to take pictures of CT films, which unfortunately suffer from geometric deformation and illumination variation. In this work, we study the problem of recovering a CT film, which marks \textbf{the first attempt} in the literature, to the best of our knowledge. We start with building a large-scale head CT film database CTFilm20K, consisting of approximately 20,000 pictures, using the widely used computer graphics software Blender. We also record all accompanying information related to the geometric deformation (such as 3D coordinate, depth, normal, and UV maps) and illumination variation (such as albedo map). Then we propose a deep framework called \textbf{F}ilm \textbf{I}mage \textbf{Re}covery \textbf{Net}work (\textbf{FIReNet}) to tackle geometric deformation and illumination variation using the multiple maps extracted from the CT films to collaboratively guide the recovery process. Finally, we convert the dewarped images to DICOM files with our cascade model for further analysis such as radiomics feature extraction. Extensive experiments demonstrate the superiority of our approach over the previous approaches. We plan to open source the simulated images and deep models for promoting the research on CT film image analysis.
翻訳日:2022-03-14 13:52:46 公開日:2022-03-10
# ブラインド画像超解像のための展開深部カーネル推定

Unfolded Deep Kernel Estimation for Blind Image Super-resolution ( http://arxiv.org/abs/2203.05568v1 )

ライセンス: Link先を確認
Hongyi Zheng, Hongwei Yong, Lei Zhang(参考訳) ブラインド画像超解像(BISR)は、未知のぼやけたカーネルとノイズによって劣化した低解像度画像から高解像度画像を再構成することを目的としている。 画像劣化モデルを考慮せずにこの問題に取り組むために,深層ニューラルネットワークに基づく手法が数多く提案されている。 しかし、それらは主にトレーニングセットに依存しており、推論中に見えないぼやけたカーネルでイメージを処理できないことが多い。 劣化モデルを利用してBISRを実行するための深部展開法も提案されている。 それでも、既存のDeep Openfoldingメソッドは、展開対象関数のデータ項を明示的に解決することができず、カーネル推定の能力を制限している。 本研究では,我々の最良知識に対して初めて,データ項を高効率で明示的に解き明かす,新しい展開された深層カーネル推定法を提案する。 UDKEベースのBISR法は、画像とカーネルの事前情報をエンドツーエンドで共同学習することができ、トレーニングデータと画像劣化モデルの両方で効果的に活用することができる。 ベンチマークデータセットと実世界のデータを用いた実験により、提案したUDKE法は、推論において複雑で見えない非ガウスのぼかしカーネルを予測し、最先端技術よりもBISR性能が著しく向上することを示した。 UDKEのソースコードは、https://github.com/n atezhenghy/UDKEで入手できる。

Blind image super-resolution (BISR) aims to reconstruct a high-resolution image from its low-resolution counterpart degraded by unknown blur kernel and noise. Many deep neural network based methods have been proposed to tackle this challenging problem without considering the image degradation model. However, they largely rely on the training sets and often fail to handle images with unseen blur kernels during inference. Deep unfolding methods have also been proposed to perform BISR by utilizing the degradation model. Nonetheless, the existing deep unfolding methods cannot explicitly solve the data term of the unfolding objective function, limiting their capability in blur kernel estimation. In this work, we propose a novel unfolded deep kernel estimation (UDKE) method, which, for the first time to our best knowledge, explicitly solves the data term with high efficiency. The UDKE based BISR method can jointly learn image and kernel priors in an end-to-end manner, and it can effectively exploit the information in both training data and image degradation model. Experiments on benchmark datasets and real-world data demonstrate that the proposed UDKE method could well predict complex unseen non-Gaussian blur kernels in inference, achieving significantly better BISR performance than state-of-the-art. The source code of UDKE is available at: https://github.com/n atezhenghy/UDKE.
翻訳日:2022-03-14 13:52:13 公開日:2022-03-10
# 磁気共鳴画像を用いたグリオーマの分子サブタイピングのための深部畳み込みニューラルネットワーク

Deep Convolutional Neural Networks for Molecular Subtyping of Gliomas Using Magnetic Resonance Imaging ( http://arxiv.org/abs/2203.05571v1 )

ライセンス: Link先を確認
Dong Wei, Yiming Li, Yinyan Wang, Tianyi Qian, and Yefeng Zheng(参考訳) グリオーマの分子サブタイプに関する知識は、調整された治療に有用な情報を提供する。 本研究は,2016年に世界保健機関(WHO)が発表した新しい分類法に基づき,放射線画像データを用いた非侵襲性グリオーマに対するディープ畳み込みニューラルネットワーク(DCNN)の使用について検討することを目的とした。 方法: 階層的分類パラダイムに基づく5つのグリオーマサブタイプの予測のためにdcnnモデルを開発した。 このモデルでは、T1重み付き、T1重み付き、コントラスト強調付き、T2重み付き画像を含む、トリモーダルMRIデータの2.5次元入力を処理するために、3つの並列、重み共有、ディープ残差学習ネットワークを使用した。 現像患者1,016名を対象に, 開発したDCNNモデルの評価を行った。 受信機動作特性解析から,曲線下領域(AUC)を用いて予測性能を評価した。 比較のために,放射能に基づくアプローチの性能評価を行った。 結果: 階層分類パラダイムにおける4つの分類課題に対するDCNNモデルのAUCは, それぞれ0.89, 0.89, 0.85, 0.66であり, 放射能アプローチでは0.85, 0.75, 0.67, 0.59であった。 結論: 開発したDCNNモデルでは, 十分な非平衡トレーニングデータから, グリオーマサブタイプを有望な性能で予測できることがわかった。

Knowledge of molecular subtypes of gliomas can provide valuable information for tailored therapies. This study aimed to investigate the use of deep convolutional neural networks (DCNNs) for noninvasive glioma subtyping with radiological imaging data according to the new taxonomy announced by the World Health Organization in 2016. Methods: A DCNN model was developed for the prediction of the five glioma subtypes based on a hierarchical classification paradigm. This model used three parallel, weight-sharing, deep residual learning networks to process 2.5-dimensional input of trimodal MRI data, including T1-weighted, T1-weighted with contrast enhancement, and T2-weighted images. A data set comprising 1,016 real patients was collected for evaluation of the developed DCNN model. The predictive performance was evaluated via the area under the curve (AUC) from the receiver operating characteristic analysis. For comparison, the performance of a radiomics-based approach was also evaluated. Results: The AUCs of the DCNN model for the four classification tasks in the hierarchical classification paradigm were 0.89, 0.89, 0.85, and 0.66, respectively, as compared to 0.85, 0.75, 0.67, and 0.59 of the radiomics approach. Conclusion: The results showed that the developed DCNN model can predict glioma subtypes with promising performance, given sufficient, non-ill-balanced training data.
翻訳日:2022-03-14 13:51:51 公開日:2022-03-10
# 医用画像分割のためのオンザフライテスト時間適応

On-the-Fly Test-time Adaptation for Medical Image Segmentation ( http://arxiv.org/abs/2203.05574v1 )

ライセンス: Link先を確認
Jeya Maria Jose Valanarasu, Pengfei Guo, Vibashan VS, and Vishal M. Patel(参考訳) 医学的イメージングのためのディープラーニングベースのソリューションにおける大きな問題の1つは、モデルがトレーニングされたものとは異なるデータディストリビューション上でテストされた場合、パフォーマンスが低下することである。 テスト時のデータ分散にソースモデルを適用することは、データシフト問題の効率的な解決策である。 以前の手法では、エントロピー最小化や正規化といった手法を用いて、モデルをターゲットの分布に適応させることでこれを解決する。 これらの方法では、完全なテストデータ分布に対する教師なし損失を使用して、バックプロパゲーションによってモデルが更新される。 実際の臨床環境では、モデルがオンザフライで新しいテストイメージに適応し、プライバシの懸念とデプロイ時のコンピューティングリソースの不足のために推論中のモデル更新を避ける方がより合理的です。 この目的のために、ゼロショットでエピソディックなOn-the-Fly Adaptationを新たに提案する(つまり、モデルは一度に1つの画像に適合し、テスト期間中にバックプロパゲーションを行わない)。 そこで本研究では,各畳み込みブロックに適応型バッチ正規化層を設けたadaptive unetという新しいフレームワークを提案する。 ドメインコードは、医療画像の大きなコーパスで訓練された訓練済みエンコーダを用いて生成される。 テスト中のモデルは、新しいテストイメージだけを取り込んで、テストデータに従ってソースモデルの特徴を適合させるためにドメインコードを生成する。 従来のテスト時間適応法よりも優れた性能が得られる2次元および3次元データ分散シフトの性能を検証した。 コードはhttps://github.com/j eya-maria-jose/On-Th e-Fly-Adaptationで入手できる。

One major problem in deep learning-based solutions for medical imaging is the drop in performance when a model is tested on a data distribution different from the one that it is trained on. Adapting the source model to target data distribution at test-time is an efficient solution for the data-shift problem. Previous methods solve this by adapting the model to target distribution by using techniques like entropy minimization or regularization. In these methods, the models are still updated by back-propagation using an unsupervised loss on complete test data distribution. In real-world clinical settings, it makes more sense to adapt a model to a new test image on-the-fly and avoid model update during inference due to privacy concerns and lack of computing resource at deployment. To this end, we propose a new setting - On-the-Fly Adaptation which is zero-shot and episodic (i.e., the model is adapted to a single image at a time and also does not perform any back-propagation during test-time). To achieve this, we propose a new framework called Adaptive UNet where each convolutional block is equipped with an adaptive batch normalization layer to adapt the features with respect to a domain code. The domain code is generated using a pre-trained encoder trained on a large corpus of medical images. During test-time, the model takes in just the new test image and generates a domain code to adapt the features of source model according to the test data. We validate the performance on both 2D and 3D data distribution shifts where we get a better performance compared to previous test-time adaptation methods. Code is available at https://github.com/j eya-maria-jose/On-Th e-Fly-Adaptation
翻訳日:2022-03-14 13:51:26 公開日:2022-03-10
# 移動地エージェントの街路・サテライト画像の地域化

City-wide Street-to-Satellite Image Geolocalization of a Mobile Ground Agent ( http://arxiv.org/abs/2203.05612v1 )

ライセンス: Link先を確認
Lena M. Downes, Dong-Ki Kim, Ted J. Steiner and Jonathan P. How(参考訳) クロスビュー画像のジオローカライゼーションは、GPSを必要とせずに、局地画像とオーバーヘッド衛星画像とをマッチングすることにより、エージェントのグローバルな位置を推定する。 地上画像と正しい衛星画像とを確実に一致させることは、画像に重要な視点差があるため困難である。 既存の研究は、小さな領域の制約されたシナリオで局所化を実証しているが、より大規模なローカライゼーションは示していない。 我々のアプローチはワイド・エリア・ジオローカライゼーション (WAG) と呼ばれ、ニューラルネットワークと粒子フィルタを組み合わせることで、GPSを付加した環境で移動するエージェントのグローバルな位置推定を達成し、都市域への効率よくスケーリングする。 WAGは、シームズネットワークのトリノミカルロス関数を導入し、非中心画像対を頑健にマッチングし、探索領域を粗い離散化することで、より小さな衛星画像データベースを作成することができる。 また, 局所化精度と収束性を改善するため, 粒子フィルタ重み付け法を改良した。 WAGのネットワークトレーニングと粒子フィルタ重み付けは,20mのオーダーで都市規模の位置推定精度を達成し,ベースライントレーニングと重み付けのアプローチと比較して98%の削減を実現している。 小規模のテスト領域に適用すると、WAGは文献の最先端ベースラインと比較して最終位置推定誤差を64%削減する。 WAGの検索空間の離散化はストレージと処理の要求を著しく削減する。

Cross-view image geolocalization provides an estimate of an agent's global position by matching a local ground image to an overhead satellite image without the need for GPS. It is challenging to reliably match a ground image to the correct satellite image since the images have significant viewpoint differences. Existing works have demonstrated localization in constrained scenarios over small areas but have not demonstrated wider-scale localization. Our approach, called Wide-Area Geolocalization (WAG), combines a neural network with a particle filter to achieve global position estimates for agents moving in GPS-denied environments, scaling efficiently to city-scale regions. WAG introduces a trinomial loss function for a Siamese network to robustly match non-centered image pairs and thus enables the generation of a smaller satellite image database by coarsely discretizing the search area. A modified particle filter weighting scheme is also presented to improve localization accuracy and convergence. Taken together, WAG's network training and particle filter weighting approach achieves city-scale position estimation accuracies on the order of 20 meters, a 98% reduction compared to a baseline training and weighting approach. Applied to a smaller-scale testing area, WAG reduces the final position estimation error by 64% compared to a state-of-the-art baseline from the literature. WAG's search space discretization additionally significantly reduces storage and processing requirements.
翻訳日:2022-03-14 13:50:56 公開日:2022-03-10
# 高定義, 過度, 水中マッピング

High Definition, Inexpensive, Underwater Mapping ( http://arxiv.org/abs/2203.05640v1 )

ライセンス: Link先を確認
Bharat Joshi, Marios Xanthidis, Sharmin Rahman, Ioannis Rekleitis(参考訳) 本稿では,安価センサを用いた水中スラムの完全な枠組みを提案する。 近年、水中領域の困難な条件下でも、アクションカメラの撮像技術は驚くべき成果を上げている。 GoPro 9カメラは、単一のmp4ファイルにエンコードされた慣性計測ユニット(IMU)データストリームと同期して高精細ビデオを提供する。 視覚慣性SLAMフレームワークは、各ループ閉鎖後のマップを調整するために拡張される。 サウスカロライナ海岸の人工難破船やフロリダ州の洞窟や洞窟で収集されたデータは、様々な条件下で提案されたアプローチの堅牢性を示している。

In this paper we present a complete framework for Underwater SLAM utilizing a single inexpensive sensor. Over the recent years, imaging technology of action cameras is producing stunning results even under the challenging conditions of the underwater domain. The GoPro 9 camera provides high definition video in synchronization with an Inertial Measurement Unit (IMU) data stream encoded in a single mp4 file. The visual inertial SLAM framework is augmented to adjust the map after each loop closure. Data collected at an artificial wreck of the coast of South Carolina and in caverns and caves in Florida demonstrate the robustness of the proposed approach in a variety of conditions.
翻訳日:2022-03-14 13:50:30 公開日:2022-03-10
# SUPERNOVA:リスクベーステストと機械学習を用いたAAAゲームにおけるテスト選択と欠陥防止の自動化

SUPERNOVA: Automating Test Selection and Defect Prevention in AAA Video Games Using Risk Based Testing and Machine Learning ( http://arxiv.org/abs/2203.05566v1 )

ライセンス: Link先を確認
Alexander Senchenko, Jordan Patterson, Hamman Samuel, Dan Isper(参考訳) 従来の手法がソフトウェアシステムの成長とともにスケールできないため、ビデオゲームのテストはますます難しくなっている。 手動テストは非常に労働集約的なプロセスなので、すぐにコスト禁止になります。 自動テストにスクリプトを使用するのは手頃な価格だが、非決定的な環境ではスクリプトが有効ではない。 現代のゲームの複雑さ、スコープ、プレイヤーの期待は、品質管理が生産コストと納入リスクの大きな部分を占めるように急速に増大している。 このリスクを低減し、生産を実現することは、現在業界にとって大きな課題です。 生産コストを前後的に現実的なものにするため、テストやデータ分析の自動化と並行して、予防的な品質保証戦略に重点を置いています。 本稿では,自動ハブとして機能しながら,テスト選択と欠陥防止を行うシステムであるSUPERNOVA(Selection of Testing and Universal defect Prevention in external Repositories for Novel Objective Verification of Software Anomalies)を提案する。 データ分析機能と機械学習機能を統合することで、SUPERNOVAは品質保証テスタのバグ発見と欠陥の低減を支援し、プロダクションサイクルの安定性を改善し、テストコストをコントロールできる。 この直接的な影響は、これらのテスト選択最適化を使用して出荷された未公開のスポーツゲームタイトルのテスト時間を55%以上削減することが観察されている。 さらに、半教師付き機械学習モデルによって生成されたリスクスコアを用いて、71%の精度で検出でき、77%がバグを誘発する変更リストの確率を思い出すことができ、この推論の詳細な説明を開発者に提供できる。 これらの取り組みはワークフローを改善し、開発中のゲームタイトルに必要なテスト時間を削減する。

Testing video games is an increasingly difficult task as traditional methods fail to scale with growing software systems. Manual testing is a very labor-intensive process, and therefore quickly becomes cost prohibitive. Using scripts for automated testing is affordable, however scripts are ineffective in non-deterministic environments, and knowing when to run each test is another problem altogether. The modern game's complexity, scope, and player expectations are rapidly increasing where quality control is a big portion of the production cost and delivery risk. Reducing this risk and making production happen is a big challenge for the industry currently. To keep production costs realistic up-to and after release, we are focusing on preventive quality assurance tactics alongside testing and data analysis automation. We present SUPERNOVA (Selection of tests and Universal defect Prevention in External Repositories for Novel Objective Verification of software Anomalies), a system responsible for test selection and defect prevention while also functioning as an automation hub. By integrating data analysis functionality with machine and deep learning capability, SUPERNOVA assists quality assurance testers in finding bugs and developers in reducing defects, which improves stability during the production cycle and keeps testing costs under control. The direct impact of this has been observed to be a reduction in 55% or more testing hours for an undisclosed sports game title that has shipped, which was using these test selection optimizations. Furthermore, using risk scores generated by a semi-supervised machine learning model, we are able to detect with 71% precision and 77% recall the probability of a change-list being bug inducing, and provide a detailed breakdown of this inference to developers. These efforts improve workflow and reduce testing hours required on game titles in development.
翻訳日:2022-03-14 13:46:57 公開日:2022-03-10
# 多路数分割最適化のための線形時間局所最適アルゴリズム

A Linearithmic Time Locally Optimal Algorithm for the Multiway Number Partition Optimization ( http://arxiv.org/abs/2203.05618v1 )

ライセンス: Link先を確認
Kaan Gokcesu, Hakan Gokcesu(参考訳) 決定,学習,最適化の文献に無数の応用があるマルチウェイ数分割最適化の問題について検討する。 もともとのマルチウェイ分割問題はnp-hardであり、指数関数的時間複雑性アルゴリズムを必要とするが、我々はより簡単な最適化問題を定式化している。 このような局所最適解を生成できる線形時間複雑性$o(n\log n)$アルゴリズムを提案する。 我々の手法は入力に対して堅牢であり、正の入力も整数の入力も不要である。

We study the problem of multiway number partition optimization, which has a myriad of applications in the decision, learning and optimization literature. Even though the original multiway partitioning problem is NP-hard and requires exponential time complexity algorithms; we formulate an easier optimization problem, where our goal is to find a solution that is locally optimal. We propose a linearithmic time complexity $O(N\log N)$ algorithm that can produce such a locally optimal solution. Our method is robust against the input and requires neither positive nor integer inputs.
翻訳日:2022-03-14 13:42:49 公開日:2022-03-10
# PETR:多視点3次元物体検出のための位置埋め込み変換

PETR: Position Embedding Transformation for Multi-View 3D Object Detection ( http://arxiv.org/abs/2203.05625v1 )

ライセンス: Link先を確認
Yingfei Liu, Tiancai Wang, Xiangyu Zhang, Jian Sun(参考訳) 本稿では,多視点3次元物体検出のための位置埋め込み変換(PETR)を開発する。 PETRは3D座標の位置情報を画像特徴にエンコードし、3D位置認識特徴を生成する。 オブジェクトクエリは、3D位置認識機能を認識し、エンドツーエンドのオブジェクト検出を実行する。 PETRは標準的なnuScenesデータセット上で最先端のパフォーマンス(50.4% NDSと44.1% mAP)を達成し、ベンチマークで1位にランクインした。 将来の研究のベースラインとしてシンプルで強力な役割を果たすことができる。

In this paper, we develop position embedding transformation (PETR) for multi-view 3D object detection. PETR encodes the position information of 3D coordinates into image features, producing the 3D position-aware features. Object query can perceive the 3D position-aware features and perform end-to-end object detection. PETR achieves state-of-the-art performance (50.4% NDS and 44.1% mAP) on standard nuScenes dataset and ranks 1st place on the benchmark. It can serve as a simple yet strong baseline for future research.
翻訳日:2022-03-14 13:12:08 公開日:2022-03-10
# LiDAR3次元物体検出のための点密度対応ボクセル

Point Density-Aware Voxels for LiDAR 3D Object Detection ( http://arxiv.org/abs/2203.05662v1 )

ライセンス: Link先を確認
Jordan S. K. Hu, Tianshu Kuai, Steven L. Waslander(参考訳) LiDARは、自動運転における主要な3Dオブジェクト検出センサーの1つとなっている。 しかし、LiDARの発散点パターンは距離が大きくなると、離散化された体積特徴抽出に不適な一様サンプル点雲が生じる。 現在の方法では、酸素化点雲に依存するか、密度変化による有害な影響を緩和するために非効率な極端点サンプリングを用いるが、特徴としての点密度とLiDARセンサからの距離との予測可能な関係をほとんど無視する。 提案手法であるポイント密度認識Voxel Network (PDV) は,これらの点密度の変動を考慮した2段階のLiDARオブジェクト検出アーキテクチャである。 pdvは3dスパース畳み込みバックボーンからvoxel点センタロイドを介してvoxel機能を効率的にローカライズする。 空間的局所化されたボクセル特徴は、カーネル密度推定(KDE)と点密度位置符号化による自己アテンションを用いて密度対応のRoIグリッドプーリングモジュールを介して集約される。 最後に、LDARの点密度を距離関係に利用して、最終的な境界ボックスの信頼性を向上する。 PDVはWaymo Open Datasetのすべての最先端メソッドを上回り、KITTIデータセット上での競合的な結果を達成する。 PDVのコードリリースはhttps://github.com/T RAILab/PDVで公開しています。

LiDAR has become one of the primary 3D object detection sensors in autonomous driving. However, LiDAR's diverging point pattern with increasing distance results in a non-uniform sampled point cloud ill-suited to discretized volumetric feature extraction. Current methods either rely on voxelized point clouds or use inefficient farthest point sampling to mitigate detrimental effects caused by density variation but largely ignore point density as a feature and its predictable relationship with distance from the LiDAR sensor. Our proposed solution, Point Density-Aware Voxel network (PDV), is an end-to-end two stage LiDAR 3D object detection architecture that is designed to account for these point density variations. PDV efficiently localizes voxel features from the 3D sparse convolution backbone through voxel point centroids. The spatially localized voxel features are then aggregated through a density-aware RoI grid pooling module using kernel density estimation (KDE) and self-attention with point density positional encoding. Finally, we exploit LiDAR's point density to distance relationship to refine our final bounding box confidences. PDV outperforms all state-of-the-art methods on the Waymo Open Dataset and achieves competitive results on the KITTI dataset. We provide a code release for PDV which is available at https://github.com/T RAILab/PDV.
翻訳日:2022-03-14 13:11:59 公開日:2022-03-10
# ヒューマン・オブジェクト間インタラクション認識における見過ごされた分類器

The Overlooked Classifier in Human-Object Interaction Recognition ( http://arxiv.org/abs/2203.05676v1 )

ライセンス: Link先を確認
Ying Jin, Yinpeng Chen, Lijuan Wang, Jianfeng Wang, Pei Yu, Lin Liang, Jenq-Neng Hwang, Zicheng Liu(参考訳) ヒューマン・オブジェクト・インタラクション(HOI)の認識は,(1)クラス間の大きな不均衡,(2)画像ごとに複数のラベルを必要とする,という2つの要因により困難である。 本稿では,この2つの課題を,バックボーンアーキテクチャを未修正で分類器を改善することで効果的に解決できることを示す。 まず,hoisの言語埋め込みによる重み付けを初期化することにより,クラス間の意味相関を分類ヘッドに符号化する。 その結果、特に少数ショットのサブセットでは、パフォーマンスが大幅に向上する。 第2に,LSE-Sign という新たな損失を提案し,長い尾を持つデータセット上でのマルチラベル学習を強化する。 我々は,物体検出と人間のポーズを明確なマージンで求める最先端技術よりも優れた,検出不要なHOI分類を可能にする。 さらに, 対象物検出装置に接続することで, 分類モデルをインスタンスレベルのHOI検出に転送する。 我々は細かな調整を加えることなく最先端を達成する。

Human-Object Interaction (HOI) recognition is challenging due to two factors: (1) significant imbalance across classes and (2) requiring multiple labels per image. This paper shows that these two challenges can be effectively addressed by improving the classifier with the backbone architecture untouched. Firstly, we encode the semantic correlation among classes into the classification head by initializing the weights with language embeddings of HOIs. As a result, the performance is boosted significantly, especially for the few-shot subset. Secondly, we propose a new loss named LSE-Sign to enhance multi-label learning on a long-tailed dataset. Our simple yet effective method enables detection-free HOI classification, outperforming the state-of-the-arts that require object detection and human pose by a clear margin. Moreover, we transfer the classification model to instance-level HOI detection by connecting it with an off-the-shelf object detector. We achieve state-of-the-art without additional fine-tuning.
翻訳日:2022-03-14 13:11:36 公開日:2022-03-10
# 医用画像分類のための深層マルチモーダル指導

Deep Multimodal Guidance for Medical Image Classification ( http://arxiv.org/abs/2203.05683v1 )

ライセンス: Link先を確認
Mayur Mallya and Ghassan Hamarneh(参考訳) 医用画像は現代医学における治療と診断の基礎である。 しかし、特定の脳機能障害に対する画像モダリティの選択は、通常、特定のモダリティ(例えば、短い待ち時間、低コスト、高速な取得、放射線/侵襲性の低下)と臨床タスク(例えば、診断精度、治療計画の有効性、ガイダンス)の期待性能の間のトレードオフを伴う。 本研究は,実現可能でないが優れた(上位)モダリティから学んだ知識を応用し,より実現可能であり,実行不能な(間接的な)モダリティの利用を誘導し,パフォーマンス向上に向けてそれを進めることを目的とする。 深層学習のイメージベース診断への応用に焦点をあてる。 我々は,優劣モダリティのみを消費するモデルを訓練する際に,優劣モダリティから学習した潜在表現を活用する軽量誘導モデルを開発した。 臨床および皮膚内視鏡画像からのマルチタスク皮膚病変の分類と、MRI(Multi-sequence MRI)および病理像からの脳腫瘍の分類の2つの臨床応用の文脈において、本手法の利点を検討する。 いずれのシナリオにおいても,下位モダリティの診断性能は,優れたモダリティを必要とせずに向上することが示された。 さらに,脳腫瘍の分類では,上様相を訓練したモデルよりも優れており,推論中に両方の様相を用いたモデルと同等の結果が得られた。

Medical imaging is a cornerstone of therapy and diagnosis in modern medicine. However, the choice of imaging modality for a particular theranostic task typically involves trade-offs between the feasibility of using a particular modality (e.g., short wait times, low cost, fast acquisition, reduced radiation/invasivene ss) and the expected performance on a clinical task (e.g., diagnostic accuracy, efficacy of treatment planning and guidance). In this work, we aim to apply the knowledge learned from the less feasible but better-performing (superior) modality to guide the utilization of the more-feasible yet under-performing (inferior) modality and steer it towards improved performance. We focus on the application of deep learning for image-based diagnosis. We develop a light-weight guidance model that leverages the latent representation learned from the superior modality, when training a model that consumes only the inferior modality. We examine the advantages of our method in the context of two clinical applications: multi-task skin lesion classification from clinical and dermoscopic images and brain tumor classification from multi-sequence magnetic resonance imaging (MRI) and histopathology images. For both these scenarios we show a boost in diagnostic performance of the inferior modality without requiring the superior modality. Furthermore, in the case of brain tumor classification, our method outperforms the model trained on the superior modality while producing comparable results to the model that uses both modalities during inference.
翻訳日:2022-03-14 13:09:03 公開日:2022-03-10
# PC-SwinMorph:unsuper vised Medical Image Registration and Segmentationのためのパッチ表現

PC-SwinMorph: Patch Representation for Unsupervised Medical Image Registration and Segmentation ( http://arxiv.org/abs/2203.05684v1 )

ライセンス: Link先を確認
Lihao Liu, Zhening Huang, Pietro Li\`o, Carola-Bibiane Sch\"onlieb, and Angelica I. Aviles-Rivero(参考訳) 医療画像の登録とセグメンテーションは、いくつかの臨床手順において重要な課題である。 これらのタスクのマニュアル実現には時間がかかり、品質は医師の専門知識のレベルに大きく依存する。 その手間を省くために、ほとんどのソリューションが教師付き技術である自動ツールが開発されている。 しかし、医学領域では、表現力に富んだ基礎的真理を持つという強い仮定は現実的とはほど遠い。 この課題を克服するため、教師なしの技術が研究されている。 しかし、それらはまだ性能が限られており、妥当な結果が得られない。 そこで本研究では,PC-SwinMorphと呼ぶ,画像登録とセグメント化のための統一的アントラクショナルフレームワークを提案する。 当社のフレームワークの中核となるのは2つのパッチベースの戦略です。 まず,局所性条件とよりリッチな特徴表現を強制するパッチベースのコントラスト戦略を導入する。 第2に、3Dウィンドウ/シフトウィンドウマルチヘッド自己保持モジュールをパッチステッチ戦略として利用し、パッチ分割からアーティファクトを除去する。 数値的および視覚的な結果の集合を通して、我々の技術が現在最先端の教師なし技術より優れていることを示す。

Medical image registration and segmentation are critical tasks for several clinical procedures. Manual realisation of those tasks is time-consuming and the quality is highly dependent on the level of expertise of the physician. To mitigate that laborious task, automatic tools have been developed where the majority of solutions are supervised techniques. However, in medical domain, the strong assumption of having a well-representative ground truth is far from being realistic. To overcome this challenge, unsupervised techniques have been investigated. However, they are still limited in performance and they fail to produce plausible results. In this work, we propose a novel unified unsupervised framework for image registration and segmentation that we called PC-SwinMorph. The core of our framework is two patch-based strategies, where we demonstrate that patch representation is key for performance gain. We first introduce a patch-based contrastive strategy that enforces locality conditions and richer feature representation. Secondly, we utilise a 3D window/shifted-windo w multi-head self-attention module as a patch stitching strategy to eliminate artifacts from the patch splitting. We demonstrate, through a set of numerical and visual results, that our technique outperforms current state-of-the-art unsupervised techniques.
翻訳日:2022-03-14 13:08:36 公開日:2022-03-10
# 交通信号制御のためのランダムアンサンブル強化学習

Random Ensemble Reinforcement Learning for Traffic Signal Control ( http://arxiv.org/abs/2203.05961v1 )

ライセンス: Link先を確認
Ruijie Qi, Jianbin Huang, He Li, Qinglin Tan, Longji Huang and Jiangtao Cui(参考訳) 交通信号の制御は、インテリジェント輸送の構築において重要な部分である。 効率的な交通信号制御戦略は、交通渋滞を低減し、都市交通効率を向上し、人々の生活を促進する。 既存の信号制御のための強化学習アプローチは主に、独立したニューラルネットワークによる学習に焦点を当てている。 このような独立したニューラルネットワークは、トレーニング結果の局所的最適化に陥る可能性がある。 さらに悪いことに、収集されたデータは一度しかサンプリングできないため、データ利用率が低い。 そこで我々はRandom Ensemble Double DQN Light (RELight) モデルを提案する。 強化学習により交通信号制御戦略を動的に学習し、ランダムアンサンブル学習を組み合わせることで、最適戦略に到達するために局所最適に陥ることを避けることができる。 さらに,データ再利用量を制御するために更新データ(UTD)比を導入し,低利用率の問題を改善する。 さらに,合成データと実世界のデータについて十分な実験を行い,提案手法が既存の最適手法よりも優れた交通信号制御効果を達成できることを実証した。

Traffic signal control is a significant part of the construction of intelligent transportation. An efficient traffic signal control strategy can reduce traffic congestion, improve urban road traffic efficiency and facilitate people's lives. Existing reinforcement learning approaches for traffic signal control mainly focus on learning through a separate neural network. Such an independent neural network may fall into the local optimum of the training results. Worse more, the collected data can only be sampled once, so the data utilization rate is low. Therefore, we propose the Random Ensemble Double DQN Light (RELight) model. It can dynamically learn traffic signal control strategies through reinforcement learning and combine random ensemble learning to avoid falling into the local optimum to reach the optimal strategy. Moreover, we introduce the Update-To-Data (UTD) ratio to control the number of data reuses to improve the problem of low data utilization. In addition, we have conducted sufficient experiments on synthetic data and real-world data to prove that our proposed method can achieve better traffic signal control effects than the existing optimal methods.
翻訳日:2022-03-14 12:26:09 公開日:2022-03-10
# 未知, 正規埋め込み部分多様体上の動物運動推定のためのクープマン法

Koopman Methods for Estimation of Animal Motions over Unknown, Regularly Embedded Submanifolds ( http://arxiv.org/abs/2203.05646v1 )

ライセンス: Link先を確認
Nathan Powell, Bowei Liu, and Andrew J. Kurdila(参考訳) 本稿では,ある種の動物運動モデルに対する前方運動学マップのデータ依存近似を提案する。 運動は、高次元ユークリッド空間 $x:=\mathbb{r}^d$ に定期的に埋め込まれる低次元で未知な構成多様体 $q$ 上で支持されていると仮定される。 本稿では、未知の構成部分多様体$Q$から$n$次元ユークリッド空間$Y:=\mathbb{R}^n$までの前方運動学を推定する手法を提案する。 既知の再生カーネルヒルベルト空間(RKHS)は、既知のカーネル関数の観点から、周囲空間$X$上で定義され、周囲空間$X$で定義された既知のカーネルを用いて計算が行われる。 推定値は、既知のカーネルで定義されたKoopman演算子のデータ依存近似を用いて$X$で構成される。 しかし、近似の収束率は未知多様体 $q$ に対する制限空間で研究されている。 収束の強い速度は未知の構成多様体におけるサンプルの充填距離の観点から導き出され、新しい正則性の結果がクープマン作用素に対して成立する。 さらに, 拡張動的モード分解(EDMD)法により生成された推定値に対して, 収束の導出率を適用することができることを示す。 本研究では、シミュレーションデータと、モーションキャプチャ実験で収集したサンプルの特徴について述べる。

This paper introduces a data-dependent approximation of the forward kinematics map for certain types of animal motion models. It is assumed that motions are supported on a low-dimensional, unknown configuration manifold $Q$ that is regularly embedded in high dimensional Euclidean space $X:=\mathbb{R}^d$. This paper introduces a method to estimate forward kinematics from the unknown configuration submanifold $Q$ to an $n$-dimensional Euclidean space $Y:=\mathbb{R}^n$ of observations. A known reproducing kernel Hilbert space (RKHS) is defined over the ambient space $X$ in terms of a known kernel function, and computations are performed using the known kernel defined on the ambient space $X$. Estimates are constructed using a certain data-dependent approximation of the Koopman operator defined in terms of the known kernel on $X$. However, the rate of convergence of approximations is studied in the space of restrictions to the unknown manifold $Q$. Strong rates of convergence are derived in terms of the fill distance of samples in the unknown configuration manifold, provided that a novel regularity result holds for the Koopman operator. Additionally, we show that the derived rates of convergence can be applied in some cases to estimates generated by the extended dynamic mode decomposition (EDMD) method. We illustrate characteristics of the estimates for simulated data as well as samples collected during motion capture experiments.
翻訳日:2022-03-14 12:24:56 公開日:2022-03-10
# 人間ライクなナビゲーション行動 : 統計的評価枠組み

Human-Like Navigation Behavior: A Statistical Evaluation Framework ( http://arxiv.org/abs/2203.05965v1 )

ライセンス: Link先を確認
Ian Colbert, Mehdi Saeedi(参考訳) 深層強化学習の最近の進歩は、複雑な知的行動が可能な高度に熟練した人工エージェントの印象的な表示をもたらした。 ビデオゲームでは、これらの人工エージェントは、人間のプレイヤーの体験を向上させるために設計されたnpc(non-playable character)としてますます展開される。 しかしながら、npcの説得力のある人間的な行動はビデオゲームへの関与を増加させることが示されているが、人工エージェントの行動の信頼性は、与えられたタスクの熟練度のみによって測定されることが多い。 近年の研究は、熟練だけでは人間のような行動を見分けるのに十分でないことを示唆している。 そこで我々は,非パラメトリックな2つのサンプル仮説テストを構築し,人工エージェントの行動とプレイヤーの行動を比較した。 結果として得られる$p$-valueは、匿名の人間による人間的行動の判断に合致するだけでなく、類似性の尺度として使用できることを示した。

Recent advancements in deep reinforcement learning have brought forth an impressive display of highly skilled artificial agents capable of complex intelligent behavior. In video games, these artificial agents are increasingly deployed as non-playable characters (NPCs) designed to enhance the experience of human players. However, while it has been shown that the convincing human-like behavior of NPCs leads to increased engagement in video games, the believability of an artificial agent's behavior is most often measured solely by its proficiency at a given task. Recent work has hinted that proficiency alone is not sufficient to discern human-like behavior. Motivated by this, we build a non-parametric two-sample hypothesis test designed to compare the behaviors of artificial agents to those of human players. We show that the resulting $p$-value not only aligns with anonymous human judgment of human-like behavior, but also that it can be used as a measure of similarity.
翻訳日:2022-03-14 12:24:03 公開日:2022-03-10
# 不確実性に基づく半教師付きセグメンテーションにおけるラベル表現の活用

Leveraging Labeling Representations in Uncertainty-based Semi-supervised Segmentation ( http://arxiv.org/abs/2203.05682v1 )

ライセンス: Link先を確認
Sukesh Adiga V, Jose Dolz, Herve Lombaert(参考訳) 半教師付きセグメンテーションは、ラベルなしデータを少量のラベル付きデータで活用することで、アノテーションの不足に対処する。 教師が生徒のセグメンテーションを指導する教師と学生のネットワークをよく利用する一貫性トレーニングによって、ラベルのないデータを活用する方法が顕著である。 ラベルなしデータの予測は信頼できないため、有意義で信頼性の高い予測から徐々に学ぶための不確実性認識手法が提案されている。 しかし、不確実性推定は、トレーニングの各ステップで計算される必要があるモデル予測からの複数の推論に依存する。 本研究では,セグメンテーションマスクのラベル付け表現を利用して画素レベルの不確実性を推定する手法を提案する。 一方、ラベル表現は利用可能なセグメンテーションマスクを表現するために学習される。 学習ラベリング表現は、セグメンテーションの予測を妥当なマスクの集合にマッピングするために使用される。 このような再構成されたセグメンテーションマスクは、セグメンテーションネットワークを導く画素レベルの不確かさを推定するのに役立つ。 提案手法はラベル表現から1つの推論で不確かさを推定し,全体の計算量を削減する。 我々は,MRIにおける左心房の3次元セグメンテーションについて評価し,ラベル付け表現からの不確実性評価により,最先端法よりもセグメンテーション精度が向上することを示した。

Semi-supervised segmentation tackles the scarcity of annotations by leveraging unlabeled data with a small amount of labeled data. A prominent way to utilize the unlabeled data is by consistency training which commonly uses a teacher-student network, where a teacher guides a student segmentation. The predictions of unlabeled data are not reliable, therefore, uncertainty-aware methods have been proposed to gradually learn from meaningful and reliable predictions. Uncertainty estimation, however, relies on multiple inferences from model predictions that need to be computed for each training step, which is computationally expensive. This work proposes a novel method to estimate the pixel-level uncertainty by leveraging the labeling representation of segmentation masks. On the one hand, a labeling representation is learnt to represent the available segmentation masks. The learnt labeling representation is used to map the prediction of the segmentation into a set of plausible masks. Such a reconstructed segmentation mask aids in estimating the pixel-level uncertainty guiding the segmentation network. The proposed method estimates the uncertainty with a single inference from the labeling representation, thereby reducing the total computation. We evaluate our method on the 3D segmentation of left atrium in MRI, and we show that our uncertainty estimates from our labeling representation improve the segmentation accuracy over state-of-the-art methods.
翻訳日:2022-03-14 12:23:49 公開日:2022-03-10
# Autofocusing+:磁気共鳴画像における雑音耐性運動補正

Autofocusing+: Noise-Resilient Motion Correction in Magnetic Resonance Imaging ( http://arxiv.org/abs/2203.05569v1 )

ライセンス: Link先を確認
Ekaterina Kuzmina, Artem Razumov, Oleg Y. Rogov, Elfar Adalsteinsson, Jacob White, Dmitry V. Dylov(参考訳) モーションアーティファクトによる画像劣化は、MRI(Magnetic Resonance Imaging)の微細な問題である。 本研究では,従来の最適化手法であるAutofocusingを強化するために,ニューラルネットワークに基づく正規化項を提案する。 最適化に基づくルーチンは、非現実的な復元のために盲行と深層学習に基づく事前罰を反復的に実行し、収束を加速する。 本手法は合成および実雑音データを用いて3つの運動軌跡モデル上で検証する。 この方法は、ノイズや解剖学的構造の変化に対する耐性を証明し、最先端のデモーション法よりも優れている。

Image corruption by motion artifacts is an ingrained problem in Magnetic Resonance Imaging (MRI). In this work, we propose a neural network-based regularization term to enhance Autofocusing, a classic optimization-based method to remove motion artifacts. The method takes the best of both worlds: the optimization-based routine iteratively executes the blind demotion and deep learning-based prior penalizes for unrealistic restorations and speeds up the convergence. We validate the method on three models of motion trajectories, using synthetic and real noisy data. The method proves resilient to noise and anatomic structure variation, outperforming the state-of-the-art demotion methods.
翻訳日:2022-03-14 12:20:43 公開日:2022-03-10
# NELA-GT-2021:ニュース記事における誤情報研究のための大規模マルチラベルニュースデータセット

NELA-GT-2021: A Large Multi-Labelled News Dataset for The Study of Misinformation in News Articles ( http://arxiv.org/abs/2203.05659v1 )

ライセンス: Link先を確認
Maur\'icio Gruppi, Benjamin D. Horne, Sibel Adal{\i}(参考訳) 本稿では,NELA-GTデータセットNELA-GT-2021の4番目のインストールについて述べる。 データセットには、2021年1月1日から12月31日までの367のアウトレットからの1.8万記事が含まれている。 データセットの過去のリリースと同じように、NELA-GT-2021にはMedia Bias/Fact Checkのアウトレットレベルの検証ラベルと、収集されたニュース記事に埋め込まれたツイートが含まれている。 NELA-GT-2021データセットは、https://doi.org/10.7 910/DVN/RBKVBMで見ることができる。

In this paper, we present the fourth installment of the NELA-GT datasets, NELA-GT-2021. The dataset contains 1.8M articles from 367 outlets between January 1st, 2021 and December 31st, 2021. Just as in past releases of the dataset, NELA-GT-2021 includes outlet-level veracity labels from Media Bias/Fact Check and tweets embedded in collected news articles. The NELA-GT-2021 dataset can be found at: https://doi.org/10.7 910/DVN/RBKVBM
翻訳日:2022-03-14 12:19:36 公開日:2022-03-10
# 翻訳品質の自動評価のためのBERTScoreの新しい計算手法

A new approach to calculating BERTScore for automatic assessment of translation quality ( http://arxiv.org/abs/2203.05598v1 )

ライセンス: Link先を確認
A.A. Vetrov and E.A. Gorn(参考訳) bertscoreメトリックの適用性について検討し, 英語における文レベルの翻訳品質評価 ->ロシア語方向について検討した。 実験は、事前訓練された多言語BERTと、一対の単言語BERTモデルを用いて行われた。 単言語埋め込みの調整にはアンカートークンに基づく直交変換が用いられた。 このような変換はミスマッチの防止に役立つことを実証し,多言語モデルの組込みよりも優れた結果が得られることを示した。 トークンマッチングプロセスを改善するために,すべての不完全なWorkPieceトークンを意味のある単語に結合し,対応するベクトルの簡易平均化とアンカートークンのみに基づくBERTScoreの計算を提案する。 このような修正により,モデル予測と推定値との相関性が向上した。 機械翻訳の評価に加えて, 数種類の人間翻訳も評価し, 本手法の問題点を列挙した。

The study of the applicability of the BERTScore metric was conducted to translation quality assessment at the sentence level for English -> Russian direction. Experiments were performed with a pre-trained multilingual BERT as well as with a pair of monolingual BERT models. To align the monolingual embeddings, an orthogonal transformation based on anchor tokens was used. It was demonstrated that such transformation helps to prevent mismatching issue and shown that this approach gives better results than using embeddings of the multilingual model. To improve the token matching process it is proposed to combine all incomplete WorkPiece tokens into meaningful words and use simple averaging of corresponding vectors and to calculate BERTScore based on anchor tokens only. Such modifications allowed us to achieve a better correlation of the model predictions with human estimates. In addition to evaluating machine translation, several versions of human translation were evaluated as well, the problems of this approach were listed.
翻訳日:2022-03-14 11:54:09 公開日:2022-03-10
# 高速勾配符号法による顔認識認証システムの攻撃解析

Attack Analysis of Face Recognition Authentication Systems Using Fast Gradient Sign Method ( http://arxiv.org/abs/2203.05653v1 )

ライセンス: Link先を確認
Arbena Musa, Kamer Vishi, Blerim Rexha(参考訳) 生体認証手法は、保護されたリソースにアクセスするための最も安全なアプローチであると考えられている。 最近の機械学習技術による攻撃は、生体認証の重大な体系的再評価を要求する。 本稿では,生体認証のための顔認識を用いたファストグラデーションサイン法(fgsm)攻撃を解析・提示する。 機械学習技術は、モデルの訓練とテストに使われており、異なる人の顔の分類と識別が可能であり、攻撃の実行のターゲットとして使用される。 さらに,本手法を攻撃に適用することにより,FGSMの実装とモデルが持つ性能低下のレベルを分析する。 実験結果は,fgsmの適用効率を示すため,トレーニングとモデル攻撃の両面でパラメータの変更を行った。

Biometric authentication methods, representing the "something you are" scheme, are considered the most secure approach for gaining access to protected resources. Recent attacks using Machine Learning techniques demand a serious systematic reevaluation of biometric authentication. This paper analyzes and presents the Fast Gradient Sign Method (FGSM) attack using face recognition for biometric authentication. Machine Learning techniques have been used to train and test the model, which can classify and identify different people's faces and which will be used as a target for carrying out the attack. Furthermore, the case study will analyze the implementation of the FGSM and the level of performance reduction that the model will have by applying this method in attacking. The test results were performed with the change of parameters both in terms of training and attacking the model, thus showing the efficiency of applying the FGSM.
翻訳日:2022-03-14 11:53:56 公開日:2022-03-10
# (参考訳) 子どものための人工知能とロボティクスにおける多様性と包括的ワークショップの試行 [全文訳有]

Piloting Diversity and Inclusion Workshops in Artificial Intelligence and Robotics for Children ( http://arxiv.org/abs/2203.03204v2 )

ライセンス: CC BY-SA 4.0
Antonio Badillo-Perez, Donato Badillo-Perez, Diego Coyotzi-Molina, Dago Cruz, Rocio Montenegro, Leticia Vazquez and Miguel Xochicale(参考訳) 本稿では,開発途上国における人工知能とロボット工学(air4children)の基礎の多様性と包括性を促進することを目的としたパイロットワークショップの予備研究について述べる。 資金不足と発展途上国でAIやロボティクスを教える専門職の不足を考えると、フリーのオープンソースハードウェアとソフトウェア、オープンな教育リソース、代替教育プログラムに基づくリソースを提供する。 とはいえ、この研究の貢献は、平均年齢7.64歳の14人の子どものジェンダーバランスの小さなサンプルに、子供向けのaiとロボティクスを教えることにおける多様性と包括性を促進する4つのレッスンのパイロットワークショップである。 参加者,インストラクター,コーディネーター,親は,途上国のワークショップに適切なリソースを持ち,今後の作業を行うというさまざまな課題を指摘して,パイロットワークショップに積極的に参加している。 この作品を再現するリソースはhttps://github.com/a ir4children/hri2022で入手できる。

In this paper, we present preliminary work from a pilot workshop that aimed to promote diversity and inclusion for fundamentals of Artificial Intelligence and Robotics for Children (air4children) in the context of developing countries. Considering the scarcity of funding and the little to none availability of specialised professionals to teach AI and robotics in developing countries, we present resources based on free open-source hardware and software, open educational resources, and alternative education programs. That said, the contribution of this work is the pilot workshop of four lessons that promote diversity and inclusion on teaching AI and Robotics for children to a small gender-balanced sample of 14 children of an average age of 7.64 years old. We conclude that participant, instructors, coordinators and parents engaged well in the pilot workshop noting the various challenges of having the right resources for the workshops in developing countries and posing future work. The resources to reproduce this work are available at https://github.com/a ir4children/hri2022.
翻訳日:2022-03-12 04:41:53 公開日:2022-03-10
# (参考訳) 知識蒸留によるニューラルODEの改善 [全文訳有]

Improving Neural ODEs via Knowledge Distillation ( http://arxiv.org/abs/2203.05103v1 )

ライセンス: CC BY 4.0
Haoyu Chu, Shikui Wei, Qiming Lu, Yao Zhao(参考訳) ニューラル正規微分方程式 (Neural Ordinary Differential Equations) は、ニューラルネットワークによって指定された通常の微分方程式を用いて隠れた単位の連続的なダイナミクスを構築し、多くのタスクにおいて有望な結果を示す。 しかし、Neural ODEは画像認識タスクではまだうまく機能しない。 その理由は、Neural ODEでよく使われるワンホット符号化ベクトルが十分な教師付き情報を提供できないからである。 画像認識タスクに適合するより強力で堅牢なニューラルODEを構築するための知識蒸留に基づく新しいトレーニングを提案する。 特に,教師が教師に指導する学習プロセスにニューラルオデムの訓練をモデル化し,教師モデルとしてのresnetsを提案する。 実験の結果,CIFAR10では24%,SVHNでは5%の精度でニューラルODEの分類精度を向上できることがわかった。 また,ニューラルネットワークにおける知識蒸留と時間水平化の両面が,敵対例に対する堅牢性に及ぼす影響を定量的に検討した。 実験分析の結果、知識蒸留の導入と時間軸の増加は、敵の例に対する神経オデムのロバスト性を改善すると結論づけられた。

Neural Ordinary Differential Equations (Neural ODEs) construct the continuous dynamics of hidden units using ordinary differential equations specified by a neural network, demonstrating promising results on many tasks. However, Neural ODEs still do not perform well on image recognition tasks. The possible reason is that the one-hot encoding vector commonly used in Neural ODEs can not provide enough supervised information. We propose a new training based on knowledge distillation to construct more powerful and robust Neural ODEs fitting image recognition tasks. Specially, we model the training of Neural ODEs into a teacher-student learning process, in which we propose ResNets as the teacher model to provide richer supervised information. The experimental results show that the new training manner can improve the classification accuracy of Neural ODEs by 24% on CIFAR10 and 5% on SVHN. In addition, we also quantitatively discuss the effect of both knowledge distillation and time horizon in Neural ODEs on robustness against adversarial examples. The experimental analysis concludes that introducing the knowledge distillation and increasing the time horizon can improve the robustness of Neural ODEs against adversarial examples.
翻訳日:2022-03-12 02:48:47 公開日:2022-03-10
# (参考訳) オープンドメイン質問応答のための数ショットプロンプトによるインターネット強化言語モデル [全文訳有]

Internet-augmented language models through few-shot prompting for open-domain question answering ( http://arxiv.org/abs/2203.05115v1 )

ライセンス: CC BY 4.0
Angeliki Lazaridou, Elena Gribovskaya, Wojciech Stokowiec, Nikolai Grigorev(参考訳) 本研究は,大規模言語モデルによって提供される特異な少数ショット機能を活用して,事実情報や最新情報を基盤として,それらの課題を克服することを目的とする。 半パラメトリック言語モデルによってモチベーションされ、外部から得られた証拠に基づいて決定を下す。我々は、広範囲かつ常に更新される知識ソースであるGoogle Searchを用いて、Webから返される情報に対して言語モデルを条件付けることを学ぶために、数発のプロンプトを使用する。 私たちのアプローチでは、微調整や追加パラメータの学習は含まないので、どんな言語モデルにも適用できます。 実際、ウェブ上で条件付けされた言語モデルは、オープンドメイン質問応答における類似またはそれ以上のモデルサイズを持つクローズドブックモデルの性能を上回ることが判明した。 最後に,複数の抽出されたエビデンスを用いて得られたモデルの推論時間計算を増大させ,複数の回答を生成し,さらに段階的に再評価することで,より小さな数発の言語モデルの性能を低下させる。 全体として、我々の研究結果は、最大のモデルへの競争を減速させ、より効率的なモデル利用方法を見つけることに注意を移すことが有益である可能性を示唆している。

In this work, we aim to capitalize on the unique few-shot capabilities offered by large-scale language models to overcome some of their challenges with respect to grounding to factual and up-to-date information. Motivated by semi-parametric language models, which ground their decisions in external retrieved evidence, we use few-shot prompting to learn to condition language models on information returned from the web using Google Search, a broad and constantly updated knowledge source. Our approach does not involve fine-tuning or learning additional parameters, thus making it applicable to any language model, offering like this a strong baseline. Indeed, we find that language models conditioned on the web surpass performance of closed-book models of similar, or even larger, model sizes in open-domain question answering. Finally, we find that increasing the inference-time compute of models, achieved via using multiple retrieved evidences to generate multiple answers followed by a reranking stage, alleviates generally decreased performance of smaller few-shot language models. All in all, our findings suggest that it might be beneficial to slow down the race towards the biggest model and instead shift the attention towards finding more effective ways to use models, including but not limited to better prompting or increasing inference-time compute.
翻訳日:2022-03-12 02:38:35 公開日:2022-03-10
# (参考訳) 不確実性誘導自己クロス監督による半スーパービジョン意味セグメンテーション [全文訳有]

Semi-supervision semantic segmentation with uncertainty-guided self cross supervision ( http://arxiv.org/abs/2203.05118v1 )

ライセンス: CC0 1.0
Yunyang Zhang, Zhiqiang Gong, Xiaohu Zheng, Xiaoyu Zhao, Wen Yao(参考訳) 半教師付きセグメンテーションを実現する強力な方法として,無ラベル画像を用いた独立アンサンブルモデルに基づくクロス一貫性を学習する。 しかし、クロス監督によって生成された誤った擬似ラベル情報はトレーニングプロセスを混乱させ、セグメンテーションモデルの有効性に悪影響を及ぼす。 さらに、このような方法でのアンサンブルモデルのトレーニングプロセスは、計算資源のコストを乗じて、トレーニング効率を低下させる。 そこで本研究では,不確実性誘導型自己横断監視 (uscs) という新しい横断監視手法を提案する。 まず,マルチ入力マルチ出力(mimo)セグメンテーションモデルの設計を行い,複数の出力を共有モデルで生成し,その結果,出力に一貫性を課し,パラメータや計算コストを削減した。 一方,疑似ラベルの高信頼領域に着目し,自己クロス監督における誤った擬似ラベルの影響を緩和し,セグメンテーションモデルの性能を向上させるために,不確実性を指導情報として活用する。 実験の結果,提案手法はパラメータや計算に40.5%,49.1%のコストを節約しつつ,最先端の性能を実現することがわかった。

As a powerful way of realizing semi-supervised segmentation, the cross supervision method learns cross consistency based on independent ensemble models using abundant unlabeled images. However, the wrong pseudo labeling information generated by cross supervision would confuse the training process and negatively affect the effectiveness of the segmentation model. Besides, the training process of ensemble models in such methods also multiplies the cost of computation resources and decreases the training efficiency. To solve these problems, we propose a novel cross supervision method, namely uncertainty-guided self cross supervision (USCS). In addition to ensemble models, we first design a multi-input multi-output (MIMO) segmentation model which can generate multiple outputs with shared model and consequently impose consistency over the outputs, saving the cost on parameters and calculations. On the other hand, we employ uncertainty as guided information to encourage the model to focus on the high confident regions of pseudo labels and mitigate the effects of wrong pseudo labeling in self cross supervision, improving the performance of the segmentation model. Extensive experiments show that our method achieves state-of-the-art performance while saving 40.5% and 49.1% cost on parameters and calculations.
翻訳日:2022-03-12 02:17:58 公開日:2022-03-10
# (参考訳) DEER:シーンテキストスポッティングのための検出不要なエンドツーエンド認識装置 [全文訳有]

DEER: Detection-agnostic End-to-End Recognizer for Scene Text Spotting ( http://arxiv.org/abs/2203.05122v1 )

ライセンス: CC BY 4.0
Seonghyeon Kim, Seung Shin, Yoonsik Kim, Han-Cheol Cho, Taeho Kil, Jaeheung Surh, Seunghyun Park, Bado Lee, Youngmin Baek(参考訳) 最近のエンド・ツー・エンドのシーンテキストスポッターは任意のテキストインスタンスの認識において大きな改善を達成している。 テキストスポッティングの一般的なアプローチは、単一のテキストインスタンスに機能を制限するために関心プーリングまたはセグメンテーションマスクの領域を使用する。 しかし、検出が正確でない場合には、認識者が正しいシーケンスを復号することは困難である。 検出器だけでは単語境界を正確に決定することは困難であると考え,新しい検出非依存のエンドツーエンド認識器であるdeerを提案する。 提案手法は,検出された領域ではなく,各テキストインスタンスに対する単一の参照ポイントをブリッジすることで,検出と認識モジュール間の密接な依存関係を低減する。 提案手法により,デコーダは参照ポイントで示されるテキストを画像全体の特徴として認識することができる。 提案手法では,テキスト認識には1点のみが必要なため,任意の形状の検出器や多角形アノテーションを使わずにテキストスポッティングが可能となる。 実験の結果,本手法は正規および任意形状のテキストスポッティングベンチマークにおいて競合する結果が得られることがわかった。 さらなる分析により、DEERは検出エラーに対して堅牢であることが示された。 コードとデータセットは公開される予定だ。

Recent end-to-end scene text spotters have achieved great improvement in recognizing arbitrary-shaped text instances. Common approaches for text spotting use region of interest pooling or segmentation masks to restrict features to single text instances. However, this makes it hard for the recognizer to decode correct sequences when the detection is not accurate i.e. one or more characters are cropped out. Considering that it is hard to accurately decide word boundaries with only the detector, we propose a novel Detection-agnostic End-to-End Recognizer, DEER, framework. The proposed method reduces the tight dependency between detection and recognition modules by bridging them with a single reference point for each text instance, instead of using detected regions. The proposed method allows the decoder to recognize the texts that are indicated by the reference point, with features from the whole image. Since only a single point is required to recognize the text, the proposed method enables text spotting without an arbitrarily-shaped detector or bounding polygon annotations. Experimental results present that the proposed method achieves competitive results on regular and arbitrarily-shaped text spotting benchmarks. Further analysis shows that DEER is robust to the detection errors. The code and dataset will be publicly available.
翻訳日:2022-03-12 02:05:17 公開日:2022-03-10
# (参考訳) PACTran: PAC-Bayesian Metrics for Estimation the Transferability of Pretrained Models to Classification Tasks

PACTran: PAC-Bayesian Metrics for Estimating the Transferability of Pretrained Models to Classification Tasks ( http://arxiv.org/abs/2203.05126v1 )

ライセンス: CC BY 4.0
Nan Ding, Xi Chen, Tomer Levinboim, Beer Changpinyo, Radu Soricut(参考訳) 近年の事前学習モデルの増加に伴い、特定の下流分類タスクにおいて最適な事前学習済みチェックポイントを選択する問題に注目が集まっている。 選択問題(leep、h-scoreなど)に取り組むためのいくつかの手法が最近提案されているが、これらの手法は学習理論に動機づけられていないヒューリスティックを適用している。 本稿では,事前訓練されたモデル選択と伝達可能性測定のための理論的根拠を持つ指標群であるPACTranを提案する。 まず、転送学習環境下での最適PAC-Bayesian境界からPACTranメトリクスを導出する方法を示す。 次に,複数の視覚タスク(VTAB)とOKVQA(Language-and-v ision)タスク(OKVQA)に基づいて,PACTranの3つのメートル法インスタンスを評価する。 この結果から, PACTran は既存の選択法と比較して, より一貫性があり, 有効であることが示された。

With the increasing abundance of pretrained models in recent years, the problem of selecting the best pretrained checkpoint for a particular downstream classification task has been gaining increased attention. Although several methods have recently been proposed to tackle the selection problem (e.g. LEEP, H-score), these methods resort to applying heuristics that are not well motivated by learning theory. In this paper we present PACTran, a theoretically grounded family of metrics for pretrained model selection and transferability measurement. We first show how to derive PACTran metrics from the optimal PAC-Bayesian bound under the transfer learning setting. We then empirically evaluate three metric instantiations of PACTran on a number of vision tasks (VTAB) as well as a language-and-vision (OKVQA) task. An analysis of the results shows PACTran is a more consistent and effective transferability measure compared to existing selection methods.
翻訳日:2022-03-12 01:52:52 公開日:2022-03-10
# (参考訳) 対話型セグメンテーションのための意図認識特徴伝達ネットワーク

Intention-aware Feature Propagation Network for Interactive Segmentation ( http://arxiv.org/abs/2203.05145v1 )

ライセンス: CC BY 4.0
Chuyu Zhang, Chuanyang Hu, Yongfei Liu, and Xuming He(参考訳) 本稿では,ユーザの意図を正しく推測し,ユーザが提供するアノテーションをラベルのない領域に効率的に普及させるという,ポイントベースの対話的セグメンテーションの課題に取り組むことを目的とする。 そこで本研究では,ユーザの意図を明示的に推定し,高分解能フォアグラウンドセグメンテーションのための効率的なクリック提示特徴表現を学習する,意図認識特徴伝達戦略を提案する。 具体的には,ユーザの興味をより効果的に追跡するための粗レベルネットワークと,対象オブジェクトにズームして細レベルセグメンテーションを行う細レベルネットワークとからなる,対話的なセグメンテーションステップ毎に,細粒度のスパース伝播ネットワークを開発する。 さらに,クリック情報の長距離伝搬を効果的に行うために,両レベルの疎グラフネットワークモジュールを設計する。 実験の結果,提案手法はすべてのベンチマークにおいて従来の最先端手法を超越し,有効性を示した。

We aim to tackle the problem of point-based interactive segmentation, in which two key challenges are to infer user's intention correctly and to propagate the user-provided annotations to unlabeled regions efficiently. To address those challenges, we propose a novel intention-aware feature propagation strategy that performs explicit user intention estimation and learns an efficient click-augmented feature representation for high-resolution foreground segmentation. Specifically, we develop a coarse-to-fine sparse propagation network for each interactive segmentation step, which consists of a coarse-level network for more effective tracking of user's interest, and a fine-level network for zooming to the target object and performing fine-level segmentation. Moreover, we design a new sparse graph network module for both levels to enable efficient long-range propagation of click information. Extensive experiments show that our method surpasses the previous state-of-the-art methods on all popular benchmarks, demonstrating its efficacy.
翻訳日:2022-03-12 01:51:51 公開日:2022-03-10
# (参考訳) 意味的類似性に対する周波数駆動的非知覚的逆攻撃

Frequency-driven Imperceptible Adversarial Attack on Semantic Similarity ( http://arxiv.org/abs/2203.05151v1 )

ライセンス: CC BY 4.0
Cheng Luo, Qinliang Lin, Weicheng Xie, Bizhu Wu, Jinheng Xie, Linlin Shen(参考訳) 現在の敵攻撃研究は、慎重に作られた摂動に対する学習ベースの分類器の脆弱性を明らかにしている。 しかし、既存の攻撃手法の多くは、クローズドなカテゴリの分類層に依存するため、データセット間の一般化に固有の制限がある。 さらに、これらの手法によって生成される摂動は、ヒト視覚系(HVS)に容易に知覚できる領域に現れることがある。 前者問題を回避するために,特徴表現における意味的類似性を攻撃する新しいアルゴリズムを提案する。 このようにして、特定のデータセットへの攻撃を制限することなく、分類器を騙すことができます。 そこで本研究では,高周波数成分の摂動を制限するために低周波制約を導入し,敵の例と原文との知覚的類似性を確保する。 3つのデータセット(CIFAR-10、CIFAR-100、ImageNet-1K)と3つのパブリックオンラインプラットフォームに対する大規模な実験は、我々の攻撃がアーキテクチャやデータセットにまたがって誤解を招き、伝達可能な敵の例をもたらすことを示唆している。 さらに、可視化結果と量的性能(4つの異なるメトリクス)は、提案アルゴリズムが最先端の手法よりも知覚不可能な摂動を生成することを示している。 コードはここで入手できる。

Current adversarial attack research reveals the vulnerability of learning-based classifiers against carefully crafted perturbations. However, most existing attack methods have inherent limitations in cross-dataset generalization as they rely on a classification layer with a closed set of categories. Furthermore, the perturbations generated by these methods may appear in regions easily perceptible to the human visual system (HVS). To circumvent the former problem, we propose a novel algorithm that attacks semantic similarity on feature representations. In this way, we are able to fool classifiers without limiting attacks to a specific dataset. For imperceptibility, we introduce the low-frequency constraint to limit perturbations within high-frequency components, ensuring perceptual similarity between adversarial examples and originals. Extensive experiments on three datasets (CIFAR-10, CIFAR-100, and ImageNet-1K) and three public online platforms indicate that our attack can yield misleading and transferable adversarial examples across architectures and datasets. Additionally, visualization results and quantitative performance (in terms of four different metrics) show that the proposed algorithm generates more imperceptible perturbations than the state-of-the-art methods. Code is made available at.
翻訳日:2022-03-12 01:50:26 公開日:2022-03-10
# (参考訳) トランスフォーマーを用いたビデオセマンティック埋め込みによるゼロショット動作認識 [全文訳有]

Zero-Shot Action Recognition with Transformer-based Video Semantic Embedding ( http://arxiv.org/abs/2203.05156v1 )

ライセンス: CC BY 4.0
Keval Doshi and Yasin Yilmaz(参考訳) ビデオのアクション認識はここ数年研究の活発な領域であるが、ゼロショットのアクション認識が普及し始めたのはつい最近である。 しかし、ゼロショット学習パラダイムには形式的な定義が欠如しており、それまで見つからなかったクラスに対する不確実性につながっている。 本研究では,現実的な視点から,帰納的ゼロショット動作認識問題に対する包括的考察を行う。 具体的には、ゼロショット動作認識のための具体的な定式化を提案し、3D-CNNを使用する既存のアプローチとは対照的に、長距離時空間依存性を効率的に捉えることができる新しいエンドツーエンドトレーニングトランスフォーマーモデルを提案する。 提案手法は、すべてのベンチマークデータセットにおいて、既存の最先端アルゴリズムよりも幅広いマージンで性能を向上する。

While video action recognition has been an active area of research for several years, zero-shot action recognition has only recently started gaining traction. However, there is a lack of a formal definition for the zero-shot learning paradigm leading to uncertainty about classes that can be considered as previously unseen. In this work, we take a new comprehensive look at the inductive zero-shot action recognition problem from a realistic standpoint. Specifically, we advocate for a concrete formulation for zero-shot action recognition that avoids an exact overlap between the training and testing classes and also limits the intra-class variance; and propose a novel end-to-end trained transformer model which is capable of capturing long range spatiotemporal dependencies efficiently, contrary to existing approaches which use 3D-CNNs. The proposed approach outperforms the existing state-of-the-art algorithms in many settings on all benchmark datasets by a wide margin.
翻訳日:2022-03-12 01:49:25 公開日:2022-03-10
# (参考訳) TiSAT: 時系列異常トランス [全文訳有]

TiSAT: Time Series Anomaly Transformer ( http://arxiv.org/abs/2203.05167v1 )

ライセンス: CC BY 4.0
Keval Doshi, Shatha Abudalou and Yasin Yilmaz(参考訳) 時系列における異常検出はここ数年研究の活発な領域であるが、近年のアプローチでは不適切な評価基準が採用され、F1スコアが膨らんだ。 本稿では,この評価基準により,初歩的なランダム・ギーズ法が最先端の検出器より優れていることを示す。 本研究では,逐次異常検出の時系列と精度を計測する適切な評価指標を提案する。 さらに、既存のアプローチのほとんどは、長いシーケンスから時間的特徴をキャプチャできない。 トランスフォーマーなどの自己注意に基づくアプローチは、トレーニングや推論において計算効率を保ちながら、長距離依存性を捉えるのに特に効率的であることが示されている。 また,時系列異常検出のための効率的なトランスフォーマー手法を提案し,いくつかのベンチマークデータセットにおいて提案手法を広範囲に評価した。

While anomaly detection in time series has been an active area of research for several years, most recent approaches employ an inadequate evaluation criterion leading to an inflated F1 score. We show that a rudimentary Random Guess method can outperform state-of-the-art detectors in terms of this popular but faulty evaluation criterion. In this work, we propose a proper evaluation metric that measures the timeliness and precision of detecting sequential anomalies. Moreover, most existing approaches are unable to capture temporal features from long sequences. Self-attention based approaches, such as transformers, have been demonstrated to be particularly efficient in capturing long-range dependencies while being computationally efficient during training and inference. We also propose an efficient transformer approach for anomaly detection in time series and extensively evaluate our proposed approach on several popular benchmark datasets.
翻訳日:2022-03-12 01:33:44 公開日:2022-03-10
# (参考訳) アルゴリズムフェアネスのための現象型定義の評価 [全文訳有]

Assessing Phenotype Definitions for Algorithmic Fairness ( http://arxiv.org/abs/2203.05174v1 )

ライセンス: CC BY 4.0
Tony Y. Sun, Shreyas Bhave, Jaan Altosaar, No\'emie Elhadad(参考訳) 病気の特定は、観察健康研究における中核的な日常的な活動である。 コホートが下流解析に影響を及ぼすのは、病態の特徴づけ方、患者のリスクの定義方法、どのような治療が研究されているかなどである。 したがって、選択されたコホートが、人口動態や健康の社会的決定要因とは独立して、すべての患者の代表であることを保証することが重要である。 表現型定義がフェアネスに影響を与える可能性のある場合、複数のバイアス源が存在するが、患者サブグループ間で異なる定義の影響を検討するのは表現型の分野では一般的ではない。 本稿では,表現型定義の公平性を評価するための一連のベストプラクティスを提案する。 我々は、予測モデルで一般的に使用される確立された公正度指標を活用し、それらを一般的な疫学的コホート記述指標と関連付ける。 われわれはクローン病と糖尿病の2型について,2つのサブグループ(性別と人種)の文献から抽出した複数の表現型定義を実証的に検討した。 異なる表現型の定義は、異なるフェアネス指標とサブグループによって大きく変化し、異なる性能を示す。 提案されたベストプラクティスが公正かつ包括的な表現型定義の構築に役立つことを願っている。

Disease identification is a core, routine activity in observational health research. Cohorts impact downstream analyses, such as how a condition is characterized, how patient risk is defined, and what treatments are studied. It is thus critical to ensure that selected cohorts are representative of all patients, independently of their demographics or social determinants of health. While there are multiple potential sources of bias when constructing phenotype definitions which may affect their fairness, it is not standard in the field of phenotyping to consider the impact of different definitions across subgroups of patients. In this paper, we propose a set of best practices to assess the fairness of phenotype definitions. We leverage established fairness metrics commonly used in predictive models and relate them to commonly used epidemiological cohort description metrics. We describe an empirical study for Crohn's disease and diabetes type 2, each with multiple phenotype definitions taken from the literature across two sets of patient subgroups (gender and race). We show that the different phenotype definitions exhibit widely varying and disparate performance according to the different fairness metrics and subgroups. We hope that the proposed best practices can help in constructing fair and inclusive phenotype definitions.
翻訳日:2022-03-12 01:15:42 公開日:2022-03-10
# (参考訳) 適応指を用いたクラッタ食品把握と合成データ学習物体検出 [全文訳有]

Cluttered Food Grasping with Adaptive Fingers and Synthetic-Data Trained Object Detection ( http://arxiv.org/abs/2203.05187v1 )

ライセンス: CC BY 4.0
Avinash Ummadisingu, Kuniyuki Takahashi, Naoki Fukaya(参考訳) 食品包装産業は、幅広い形状と大きさの食品を1種類の食品の中にさえも扱っている。 メニューも多様で頻繁に変更され、ピック・アンド・プレイスの自動化が困難になる。 ビンピッキングの一般的なアプローチは、インスタンスセグメンテーションメソッドを使用して、まずトレイ内の各食品を識別することである。 しかし,食品は不明瞭な境界と視覚的な類似性で密集しており,部品の分離が困難であるため,これらの手法を訓練するヒューマンアノテーションは信頼性が低く,誤りやすい。 そこで本研究では, 実食品の高品質な3次元モデルを用いて, 食品トレイのデータセットを作成し, 合成データに基づいて純粋に訓練し, 実世界への移動を成功させる手法を提案する。 もう一つの懸念は、食品は把持時に損傷しやすいことである。 衝突時に受動的に引きずり出す新しい適応指機構と、握り中に隣り合う食物に損傷を与える可能性のあるつかみをフィルターする方法の2つの追加手法を導入することで、この問題に対処する。 提案手法がいくつかの実食品に有効であることを示す。

The food packaging industry handles an immense variety of food products with wide-ranging shapes and sizes, even within one kind of food. Menus are also diverse and change frequently, making automation of pick-and-place difficult. A popular approach to bin-picking is to first identify each piece of food in the tray by using an instance segmentation method. However, human annotations to train these methods are unreliable and error-prone since foods are packed close together with unclear boundaries and visual similarity making separation of pieces difficult. To address this problem, we propose a method that trains purely on synthetic data and successfully transfers to the real world using sim2real methods by creating datasets of filled food trays using high-quality 3d models of real pieces of food for the training instance segmentation models. Another concern is that foods are easily damaged during grasping. We address this by introducing two additional methods -- a novel adaptive finger mechanism to passively retract when a collision occurs, and a method to filter grasps that are likely to cause damage to neighbouring pieces of food during a grasp. We demonstrate the effectiveness of the proposed method on several kinds of real foods.
翻訳日:2022-03-12 01:00:28 公開日:2022-03-10
# (参考訳) ブロックチェーンによる自動車用フェデレーション学習フレームワークに関する体系的文献レビュー [全文訳有]

A Systematic Literature Review on Blockchain Enabled Federated Learning Framework for Internet of Vehicles ( http://arxiv.org/abs/2203.05192v1 )

ライセンス: CC0 1.0
Mustain Billah, Sk. Tanzir Mehedi, Adnan Anwar, Ziaur Rahman and Rafiqul Islam(参考訳) 情報技術システムの改良による人工知能(AI)技術の統合は、IoT(Internet of Vehicles)システムに多大な利益をもたらす一方で、セキュリティとプライバシの脅威の増大も引き起こした。 IoVsデータのセキュリティを確保するために、プライバシー保護方法論が文献で注目されている。 しかし、これらの戦略は、IoVの設計の進歩に対応するために、特定の調整と修正も必要である。 この間、フェデレートラーニング(FL)は、IoVのデータプライバシとセキュリティを保護する新しいアイデアとして証明されてきた。 一方、ブロックチェーン技術は、セキュアで分散した監査可能なデータ記録と共有スキームにおいて、大きな可能性を示している。 本稿では,IoVを対象としたBlockchain-Enabled Federated Learningフレームワークの適用と実装に関する総合的な調査を行う。 さらに、BC-Enabled FL framework for IoVsの潜在的な問題、課題、解決策、今後の研究方向性についても紹介する。 この調査は、さまざまなデータプライバシ問題とIoVのシナリオを解決するために、最新のBC-Enabled FLソリューションの開発の基礎として、さらに使用できる。

While the convergence of Artificial Intelligence (AI) techniques with improved information technology systems ensured enormous benefits to the Internet of Vehicles (IoVs) systems, it also introduced an increased amount of security and privacy threats. To ensure the security of IoVs data, privacy preservation methodologies have gained significant attention in the literature. However, these strategies also need specific adjustments and modifications to cope with the advances in IoVs design. In the interim, Federated Learning (FL) has been proven as an emerging idea to protect IoVs data privacy and security. On the other hand, Blockchain technology is showing prominent possibilities with secured, dispersed, and auditable data recording and sharing schemes. In this paper, we present a comprehensive survey on the application and implementation of Blockchain-Enabled Federated Learning frameworks for IoVs. Besides, probable issues, challenges, solutions, and future research directions for BC-Enabled FL frameworks for IoVs are also presented. This survey can further be used as the basis for developing modern BC-Enabled FL solutions to resolve different data privacy issues and scenarios of IoVs.
翻訳日:2022-03-12 00:42:50 公開日:2022-03-10
# (参考訳) 背景マッチングを用いた適応型背景マッティング [全文訳有]

Adaptive Background Matting Using Background Matching ( http://arxiv.org/abs/2203.05193v1 )

ライセンス: CC BY 4.0
Jinlin Liu(参考訳) 畳み込み問題を解くのが難しいため、高品質なアルファマットを得るのにある種の支援を用いる方法が数多く存在する。 グリーンスクリーンのマットリングは物理機器に依存する。 トリマップベースの手法は、手動インタラクションを外部入力として扱う。 バックグラウンドベースのメソッドには、キャプチャ済みの静的なバックグラウンドが必要です。 この方法は柔軟性がなく、広く使えるほど便利ではない。 trimap-freeメソッドは柔軟だが、複雑なビデオアプリケーションでは安定していない。 実アプリケーションで安定かつ柔軟となるために,適応的背景マッチング法を提案する。 ユーザーはまずビデオを自由に撮影し、カメラを動かす。 その後、ユーザはバックグラウンドビデオをキャプチャし、約1つの領域をカバーした。 我々は静的背景ではなく動的背景映像を用いて正確なマッチングを行う。 静的カメラと背景がもはや制限にならないため,提案手法は任意のシーンで使用するのに便利である。 この目的を達成するために,動的背景から最適な背景フレームを見つけるために,背景マッチングネットワークを用いる。 次に、粗いアルファマットを推定するためにロバストな意味推定ネットワークを用いる。 最後に、粗いアルファマットに従って目標領域を収穫・拡大し、最終的な正確なアルファマットを推定する。 実験において,提案手法は最先端のマットング法に対して比較可能となる。

Due to the difficulty of solving the matting problem, lots of methods use some kinds of assistance to acquire high quality alpha matte. Green screen matting methods rely on physical equipment. Trimap-based methods take manual interactions as external input. Background-based methods require a pre-captured, static background. The methods are not flexible and convenient enough to use widely. Trimap-free methods are flexible but not stable in complicated video applications. To be stable and flexible in real applications, we propose an adaptive background matting method. The user first captures their videos freely, moving the cameras. Then the user captures the background video afterwards, roughly covering the previous captured regions. We use dynamic background video instead of static background for accurate matting. The proposed method is convenient to use in any scenes as the static camera and background is no more the limitation. To achieve this goal, we use background matching network to find the best-matched background frame by frame from dynamic backgrounds. Then, robust semantic estimation network is used to estimate the coarse alpha matte. Finally, we crop and zoom the target region according to the coarse alpha matte, and estimate the final accurate alpha matte. In experiments, the proposed method is able to perform comparably against the state-of-the-art matting methods.
翻訳日:2022-03-12 00:18:21 公開日:2022-03-10
# (参考訳) 時系列解析のためのオープンソースソフトウェアツールのレビュー [全文訳有]

A Review of Open Source Software Tools for Time Series Analysis ( http://arxiv.org/abs/2203.05195v1 )

ライセンス: CC BY 4.0
Yunus Parvej Faniband (1), Iskandar Ishak (2), Sadiq M.Sait (1) ((1) Office of Industrial Collaboration, King Fahd University of Petroleum & Minerals, Dhahran, Saudi Arabia (2) Faculty of Computer Science and Information Technology, Universiti Putra Malaysia, Serdang, Selangor Darul Ehsan, Malaysia)(参考訳) 時系列データは、幅広い現実世界のアプリケーションで使われている。 さまざまなドメインにおいて、時系列データの詳細な分析(予測と異常検出)は、特定の時間インスタンスに関連するイベントがどのように振る舞うかをよりよく理解する。 時系列分析(TSA)はプロットや伝統的なモデルで一般的に行われている。 一方、機械学習(ML)アプローチは、時間とデータ制約が満たされた場合に同等の結果を提供するため、予測と異常検出のための技術の現状が増加している。 特定のモデルクラス(ARIMA/フィルタ、ニューラルネットワーク)や、独立した時系列モデリングタスク(予測、特徴抽出、アノテーション、分類)に対するフレームワークインターフェースにリッチなインターフェースを提供する時系列ツールボックスが多数用意されている。 それでも、時系列のオープンソースの機械学習機能は限定的であり、既存のライブラリは互いに互換性がないことが多い。 本論文の目的は,時系列解析において最も重要なオープンソースツールの簡潔かつユーザフレンドリな概要を提供することである。 本稿では,(1)予測と(2)異常検出の2つの関連ツールボックスについて検討する。 本稿では、アーキテクチャを備えた典型的な時系列分析(TSA)フレームワークを説明し、TSAフレームワークの主な特徴を列挙する。 ツールは、完了した分析タスクの基準、使用するデータ作成方法、結果の評価方法に基づいて分類される。 本稿では,オープンソースの時系列分析フレームワークであるTime Series Analysisの定量的解析と現状について論じる。 全体としては、60の時系列分析ツール、32の予測モジュール、21のパッケージに異常検出が含まれた。

Time series data is used in a wide range of real world applications. In a variety of domains , detailed analysis of time series data (via Forecasting and Anomaly Detection) leads to a better understanding of how events associated with a specific time instance behave. Time Series Analysis (TSA) is commonly performed with plots and traditional models. Machine Learning (ML) approaches , on the other hand , have seen an increase in the state of the art for Forecasting and Anomaly Detection because they provide comparable results when time and data constraints are met. A number of time series toolboxes are available that offer rich interfaces to specific model classes (ARIMA/filters , neural networks) or framework interfaces to isolated time series modelling tasks (forecasting , feature extraction , annotation , classification). Nonetheless , open source machine learning capabilities for time series remain limited , and existing libraries are frequently incompatible with one another. The goal of this paper is to provide a concise and user friendly overview of the most important open source tools for time series analysis. This article examines two related toolboxes (1) forecasting and (2) anomaly detection. This paper describes a typical Time Series Analysis (TSA) framework with an architecture and lists the main features of TSA framework. The tools are categorized based on the criteria of analysis tasks completed , data preparation methods employed , and evaluation methods for results generated. This paper presents quantitative analysis and discusses the current state of actively developed open source Time Series Analysis frameworks. Overall , this article considered 60 time series analysis tools , and 32 of which provided forecasting modules , and 21 packages included anomaly detection.
翻訳日:2022-03-12 00:07:46 公開日:2022-03-10
# (参考訳) ディープニューラルネットワークを用いたスクリーン撮影耐性文書画像透かし方式 [全文訳有]

A Screen-Shooting Resilient Document Image Watermarking Scheme using Deep Neural Network ( http://arxiv.org/abs/2203.05198v1 )

ライセンス: CC0 1.0
Sulong Ge, Zhihua Xia, Yao Tong, Jian Weng, and Jianan Liu(参考訳) 画面読影時代の到来により、画面に表示される機密文書は、痕跡を残すことなく、容易にカメラによってキャプチャできる。 そこで本研究では,ディープニューラルネットワークを用いた文書画像のための新しいスクリーンシューティングレジリエントな透かし方式を提案する。 この方式を適用すれば、スクリーン上に透かし画像を表示してカメラで撮影した場合も、撮影された写真から透かしを抽出することができる。 具体的には、透かしを埋め込むエンコーダと、透かしを抽出するデコーダを備えたエンドツーエンドニューラルネットワークである。 トレーニングプロセス中に、エンコーダとデコーダの間の歪み層を追加して、カメラ歪み、撮影歪み、光源歪みなどの実シーンでスクリーン撮影処理によって生じる歪みをシミュレートする。 また,透かし画像の視覚的品質を,抽出精度を損なうことなく向上させるため,埋め込み強度調整戦略を設計した。 実験の結果、このスキームは他の3つの最新技術よりも堅牢性と視覚品質が高いことがわかった。 特に,射程距離や角度が極端である場合でも,高い抽出精度を得ることができる。

With the advent of the screen-reading era, the confidential documents displayed on the screen can be easily captured by a camera without leaving any traces. Thus, this paper proposes a novel screen-shooting resilient watermarking scheme for document image using deep neural network. By applying this scheme, when the watermarked image is displayed on the screen and captured by a camera, the watermark can be still extracted from the captured photographs. Specifically, our scheme is an end-to-end neural network with an encoder to embed watermark and a decoder to extract watermark. During the training process, a distortion layer between encoder and decoder is added to simulate the distortions introduced by screen-shooting process in real scenes, such as camera distortion, shooting distortion, light source distortion. Besides, an embedding strength adjustment strategy is designed to improve the visual quality of the watermarked image with little loss of extraction accuracy. The experimental results show that the scheme has higher robustness and visual quality than other three recent state-of-the-arts. Specially, even if the shooting distances and angles are in extreme, our scheme can also obtain high extraction accuracy.
翻訳日:2022-03-11 23:38:00 公開日:2022-03-10
# (参考訳) ReF -- 局所的特徴マッチングのための回転同変機能 [全文訳有]

ReF -- Rotation Equivariant Features for Local Feature Matching ( http://arxiv.org/abs/2203.05206v1 )

ライセンス: CC BY 4.0
Abhishek Peri, Kinal Mehta, Avneesh Mishra, Michael Milford, Sourav Garg, K. Madhava Krishna(参考訳) スパースなローカル機能マッチングは、多くのコンピュータビジョンやロボティクスタスクにとって重要である。 課題のある外観条件や視角への不変性を改善するため、既存の学習手法は主にデータ強化に基づくトレーニングに焦点を当てている。 本研究では,モデルアーキテクチャ自体のバイアスを誘発して,ステアブルE2-CNNを用いて‘回転特化’機能を生成するための代替的補完的手法を提案する。 より広範にカバーできるが、しばしば不正確な拡張訓練された標準CNNと組み合わせることで、ステアブルCNNからの高速で回転特異的なカバレッジを全回転角に拡張できることを実証した。 我々は,HPatchの既存の手法と,視覚的位置認識のためのUrbanScenes3D-Airデータセットを比較検討した。 さらに, ネットワークアーキテクチャの変動, ローテーションプリミティブの利用など, センセムリング, ロバスト推定, ネットワークアーキテクチャの変動, 性能効果の詳細な解析を行った。

Sparse local feature matching is pivotal for many computer vision and robotics tasks. To improve their invariance to challenging appearance conditions and viewing angles, and hence their usefulness, existing learning-based methods have primarily focused on data augmentation-based training. In this work, we propose an alternative, complementary approach that centers on inducing bias in the model architecture itself to generate `rotation-specific&#x 27; features using Steerable E2-CNNs, that are then group-pooled to achieve rotation-invariant local features. We demonstrate that this high performance, rotation-specific coverage from the steerable CNNs can be expanded to all rotation angles by combining it with augmentation-trained standard CNNs which have broader coverage but are often inaccurate, thus creating a state-of-the-art rotation-robust local feature matcher. We benchmark our proposed methods against existing techniques on HPatches and a newly proposed UrbanScenes3D-Air dataset for visual place recognition. Furthermore, we present a detailed analysis of the performance effects of ensembling, robust estimation, network architecture variations, and the use of rotation priors.
翻訳日:2022-03-11 23:19:56 公開日:2022-03-10
# (参考訳) 自然言語生成における忠実性:分析・評価・最適化手法の体系的調査

Faithfulness in Natural Language Generation: A Systematic Survey of Analysis, Evaluation and Optimization Methods ( http://arxiv.org/abs/2203.05227v1 )

ライセンス: CC0 1.0
Wei Li, Wenhao Wu, Moye Chen, Jiachen Liu, Xinyan Xiao, Hua Wu(参考訳) 自然言語生成(NLG)は,事前学習型言語モデルなどの深層学習技術の発展により,近年大きく進歩している。 この進歩により、より流動的でコヒーレントな特性(例えば、スタイル、感情、長さなど)の生成が可能となり、自然に抽象要約、対話生成、機械翻訳、データ・ツー・テキスト生成といった下流タスクの開発に繋がる。 しかし、生成したテキストに通常不信または非実情報が含まれているという忠実性問題は最大の課題となり、多くの実世界のシナリオにおける実践的応用においてテキスト生成のパフォーマンスが不満足になっている。 忠実度問題の解析・評価・最適化手法に関する多くの研究が様々な課題に対して提案されているが、総合的に比較・検討されていない。 本調査では,問題解析,評価指標,最適化手法など,NLGの忠実度問題に関する研究の成果を体系的に概観する。 タスク間の比較と学習を容易にするために,異なるタスクに対する評価と最適化手法を統一分類に整理した。 さらにいくつかの研究動向が議論されている。

Natural Language Generation (NLG) has made great progress in recent years due to the development of deep learning techniques such as pre-trained language models. This advancement has resulted in more fluent, coherent and even properties controllable (e.g. stylistic, sentiment, length etc.) generation, naturally leading to development in downstream tasks such as abstractive summarization, dialogue generation, machine translation, and data-to-text generation. However, the faithfulness problem that the generated text usually contains unfaithful or non-factual information has become the biggest challenge, which makes the performance of text generation unsatisfactory for practical applications in many real-world scenarios. Many studies on analysis, evaluation, and optimization methods for faithfulness problems have been proposed for various tasks, but have not been organized, compared and discussed in a combined manner. In this survey, we provide a systematic overview of the research progress on the faithfulness problem of NLG, including problem analysis, evaluation metrics and optimization methods. We organize the evaluation and optimization methods for different tasks into a unified taxonomy to facilitate comparison and learning across tasks. Several research trends are discussed further.
翻訳日:2022-03-11 23:04:10 公開日:2022-03-10
# (参考訳) 個人熱快適モデルのための条件付き合成データ生成 [全文訳有]

Conditional Synthetic Data Generation for Personal Thermal Comfort Models ( http://arxiv.org/abs/2203.05242v1 )

ライセンス: CC BY 4.0
Hari Prasanna Das and Costas J. Spanos(参考訳) 個人の熱的快適性モデルは、大きなグループの平均的な反応ではなく、個人の熱的快適性反応を予測することを目的としている。 近年、機械学習アルゴリズムは、個人の熱的快適性モデル候補として大きな可能性を証明している。 しかし、しばしば建物の通常の設定内では、実験によって得られた個人的熱的快適性データは、非常に不均衡である。 Prefer No Change"クラスには、"Prefer Warmer"クラスや"Prefer Cooler"クラスと比較して、非常に多くのデータサンプルがあります。 このようなクラス不均衡なデータに基づいてトレーニングされた機械学習アルゴリズムは、現実世界にデプロイされたときにサブオプティマイズを実行する。 上記のクラス不均衡データとプライバシ保存データ共有を用いた頑健な機械学習アプリケーションを開発するために,最先端の条件付き合成データ生成装置を実装し,低周波クラスに対応する合成データを生成する。 実験の結果,生成した合成データは実データ分布を模倣した分布を持つことがわかった。 提案手法は,他のスマートビルディングデータセットやユースケースによって拡張することができる。

Personal thermal comfort models aim to predict an individual's thermal comfort response, instead of the average response of a large group. Recently, machine learning algorithms have proven to be having enormous potential as a candidate for personal thermal comfort models. But, often within the normal settings of a building, personal thermal comfort data obtained via experiments are heavily class-imbalanced. There are a disproportionately high number of data samples for the "Prefer No Change" class, as compared with the "Prefer Warmer" and "Prefer Cooler" classes. Machine learning algorithms trained on such class-imbalanced data perform sub-optimally when deployed in the real world. To develop robust machine learning-based applications using the above class-imbalanced data, as well as for privacy-preserving data sharing, we propose to implement a state-of-the-art conditional synthetic data generator to generate synthetic data corresponding to the low-frequency classes. Via experiments, we show that the synthetic data generated has a distribution that mimics the real data distribution. The proposed method can be extended for use by other smart building datasets/use-cases.
翻訳日:2022-03-11 23:02:54 公開日:2022-03-10
# (参考訳) BEAT:対話型ジェスチャー合成のための大規模意味・感情多モードデータセット [全文訳有]

BEAT: A Large-Scale Semantic and Emotional Multi-Modal Dataset for Conversational Gestures Synthesis ( http://arxiv.org/abs/2203.05297v1 )

ライセンス: CC BY 4.0
Haiyang Liu, Zihao Zhu, Naoya Iwamoto, Yichen Peng, Zhengqing Li, You Zhou, Elif Bozkurt, Bo Zheng(参考訳) 現実的で、鮮明で、人間らしく合成された会話ジェスチャをマルチモーダルデータに条件付けすることは、利用可能なデータセット、モデル、標準評価メトリクスが欠如しているため、まだ未解決の問題である。 これを解決するために、Body-Expression-Audi o-Text データセット BEAT を構築しました。 i) 76時間,高品質,マルチモーダルデータ,30人の話者が8つの異なる感情を話し,4つの異なる言語で話すこと。 二百三百万のフレームレベルの感情及び意味関連アノテーション。beatに関する統計的分析は、音声、テキスト、話者のアイデンティティとの既知の相関に加えて、表情、感情、意味論と会話のジェスチャーの相関を示す。 質的かつ定量的な実験は、メトリクスの妥当性、真実のデータ品質、ベースラインの最先端のパフォーマンスを示す。 我々の知る限り、BEATは人間のジェスチャーを調べるための最大のモーションキャプチャーデータセットであり、制御可能なジェスチャー合成、相互モダリティ分析、感情的なジェスチャー認識など、さまざまな研究分野に寄与する可能性がある。 データ、コード、モデルは研究のためにリリースされます。

Achieving realistic, vivid, and human-like synthesized conversational gestures conditioned on multi-modal data is still an unsolved problem, due to the lack of available datasets, models and standard evaluation metrics. To address this, we build Body-Expression-Audi o-Text dataset, BEAT, which has i) 76 hours, high-quality, multi-modal data captured from 30 speakers talking with eight different emotions and in four different languages, ii) 32 millions frame-level emotion and semantic relevance annotations.Our statistical analysis on BEAT demonstrates the correlation of conversational gestures with facial expressions, emotions, and semantics, in addition to the known correlation with audio, text, and speaker identity. Qualitative and quantitative experiments demonstrate metrics' validness, ground truth data quality, and baseline's state-of-the-art performance. To the best of our knowledge, BEAT is the largest motion capture dataset for investigating the human gestures, which may contribute to a number of different research fields including controllable gesture synthesis, cross-modality analysis, emotional gesture recognition. The data, code and model will be released for research.
翻訳日:2022-03-11 22:56:36 公開日:2022-03-10
# (参考訳) ニューラルレスポンス測定と言語計算モデル:非包括的ガイド [全文訳有]

Connecting Neural Response measurements & Computational Models of language: a non-comprehensive guide ( http://arxiv.org/abs/2203.05300v1 )

ライセンス: CC BY 4.0
Mostafa Abdou(参考訳) 脳内の言語理解の神経基盤を理解することは、様々な科学研究プログラムの長年の目標であった。 言語モデリングとニューロイメージング手法の最近の進歩は、言語の神経生物学の研究と、より優れた人間的な言語モデルの構築の両方において潜在的な改善を約束している。 この調査は、単純な言語モデルから派生した事象関連電位と複雑性尺度を関連づけた初期の研究から、複数のモーダルからのニューラル応答記録と自然主義的刺激を併用した大規模コーパスで訓練された人工ニューラルネットワークモデルを用いた現代の研究まで遡る。

Understanding the neural basis of language comprehension in the brain has been a long-standing goal of various scientific research programs. Recent advances in language modelling and in neuroimaging methodology promise potential improvements in both the investigation of language's neurobiology and in the building of better and more human-like language models. This survey traces a line from early research linking Event Related Potentials and complexity measures derived from simple language models to contemporary studies employing Artificial Neural Network models trained on large corpora in combination with neural response recordings from multiple modalities using naturalistic stimuli.
翻訳日:2022-03-11 22:40:57 公開日:2022-03-10
# (参考訳) SoK:自動運転におけるセマンティックAIセキュリティについて [全文訳有]

SoK: On the Semantic AI Security in Autonomous Driving ( http://arxiv.org/abs/2203.05314v1 )

ライセンス: CC BY 4.0
Junjie Shen, Ningfei Wang, Ziwen Wan, Yunpeng Luo, Takami Sato, Zhisheng Hu, Xinyang Zhang, Shengjian Guo, Zhenyu Zhong, Kang Li, Ziming Zhao, Chunming Qiao, Qi Alfred Chen(参考訳) 自律運転(AD)システムは、安全と正しい運転決定を行うためにAIコンポーネントに依存している。 残念ながら、今日のAIアルゴリズムは、一般的に敵の攻撃に弱いことが知られている。 しかし、そのようなAIコンポーネントレベルの脆弱性がシステムレベルでセマンティックに影響を及ぼすためには、(1)システムレベルの攻撃入力空間から(2)AIコンポーネントレベルの攻撃の影響と(2)システムレベルのものの両方に対処する必要がある。 本稿では,このような研究領域を汎用AIセキュリティとは対照的にセマンティックAIセキュリティと定義する。 過去5年間で、広告コンテキストにおけるこのようなセマンティックaiセキュリティの課題に取り組むための研究がますます増えており、指数関数的な成長傾向が示され始めている。 本稿では,このようなsemantic ad aiセキュリティ研究分野における知識の体系化を初めて実施する。 総合的に53の論文を収集・分析し,セキュリティ分野において重要な研究面に基づいて体系的に分類した。 我々は、既存のAD AIセキュリティワークと密接な関係のあるドメインのセキュリティワークとを垂直に比較して観察された6つの重要な科学的ギャップを要約する。 これらによって、設計レベルだけでなく、研究目標、方法論、コミュニティレベルにおいても、洞察と将来の方向性を提供することができます。 もっとも重要な科学的方法論レベルのギャップに対処するため、私たちは、AD AIセキュリティ研究コミュニティのための、PASSという、オープンソースで均一で拡張可能なシステム駆動評価プラットフォームの開発を主導しています。 私たちはまた、実装済みのプラットフォームプロトタイプを使用して、semantic ad ai攻撃を代表するプラットフォームの機能とメリットを示します。

Autonomous Driving (AD) systems rely on AI components to make safety and correct driving decisions. Unfortunately, today's AI algorithms are known to be generally vulnerable to adversarial attacks. However, for such AI component-level vulnerabilities to be semantically impactful at the system level, it needs to address non-trivial semantic gaps both (1) from the system-level attack input spaces to those at AI component level, and (2) from AI component-level attack impacts to those at the system level. In this paper, we define such research space as semantic AI security as opposed to generic AI security. Over the past 5 years, increasingly more research works are performed to tackle such semantic AI security challenges in AD context, which has started to show an exponential growth trend. In this paper, we perform the first systematization of knowledge of such growing semantic AD AI security research space. In total, we collect and analyze 53 such papers, and systematically taxonomize them based on research aspects critical for the security field. We summarize 6 most substantial scientific gaps observed based on quantitative comparisons both vertically among existing AD AI security works and horizontally with security works from closely-related domains. With these, we are able to provide insights and potential future directions not only at the design level, but also at the research goal, methodology, and community levels. To address the most critical scientific methodology-level gap, we take the initiative to develop an open-source, uniform, and extensible system-driven evaluation platform, named PASS, for the semantic AD AI security research community. We also use our implemented platform prototype to showcase the capabilities and benefits of such a platform using representative semantic AD AI attacks.
翻訳日:2022-03-11 22:17:48 公開日:2022-03-10
# (参考訳) StyleBabel: アートスタイルのタグ付けとキャプション [全文訳有]

StyleBabel: Artistic Style Tagging and Captioning ( http://arxiv.org/abs/2203.05321v1 )

ライセンス: CC BY 4.0
Dan Ruta, Andrew Gilbert, Pranav Aggarwal, Naveen Marri, Ajinkya Kale, Jo Briggs, Chris Speed, Hailin Jin, Baldo Faieta, Alex Filipkowski, Zhe Lin, John Collomosse(参考訳) 本稿では,135K以上のデジタルアート作品の芸術様式を記述した,自然言語キャプションと自由形式のタグのユニークなオープンアクセスデータセットであるStyleBabelについて紹介する。 stylebabelは'grounded theory'にインスパイアされた反復的手法によって収集された: 細かな芸術的スタイル属性記述のための共有言語を共進化させながら、アノテーションを可能にする質的アプローチである。 StyleBabelのいくつかのダウンストリームタスクを実演し、最近のALADINアーキテクチャをきめ細かいスタイルの類似性に適応させ、次のようにクロスモーダルな埋め込みをトレーニングします。 1) フリーフォームタグ生成 2) 芸術様式の自然言語記述 3) きめ細かいスタイルのテキスト検索。 そこで我々は,ビジュアルトランスフォーマー (ViT) とクロスモーダル表現学習の最近の進歩により,ALADINを拡張し,細粒度スタイル検索の精度向上を実現した。

We present StyleBabel, a unique open access dataset of natural language captions and free-form tags describing the artistic style of over 135K digital artworks, collected via a novel participatory method from experts studying at specialist art and design schools. StyleBabel was collected via an iterative method, inspired by `Grounded Theory': a qualitative approach that enables annotation while co-evolving a shared language for fine-grained artistic style attribute description. We demonstrate several downstream tasks for StyleBabel, adapting the recent ALADIN architecture for fine-grained style similarity, to train cross-modal embeddings for: 1) free-form tag generation; 2) natural language description of artistic style; 3) fine-grained text search of style. To do so, we extend ALADIN with recent advances in Visual Transformer (ViT) and cross-modal representation learning, achieving a state of the art accuracy in fine-grained style retrieval.
翻訳日:2022-03-11 21:14:35 公開日:2022-03-10
# (参考訳) データセットの可能性の爆発:モデルロバストネスに対するデータ中心アプローチ [全文訳有]

Exploiting the Potential of Datasets: A Data-Centric Approach for Model Robustness ( http://arxiv.org/abs/2203.05323v1 )

ライセンス: CC BY 4.0
Yiqi Zhong, Lei Wu, Xianming Liu, Junjun Jiang(参考訳) 悪意のある摂動に対するディープニューラルネットワーク(DNN)のロバスト性は、信頼できるAIにおいてホットなトピックである。 既存の技術は、モデル構造を変更するか、推論やトレーニングのプロセスを最適化することによって、固定データセットに与えられた堅牢なモデルを得る。 大幅な改善が行われたが、モデルロバストネスのための高品質なデータセットを構築する可能性はまだ明らかではない。 Andrew Ng氏が立ち上げたデータ中心AIのキャンペーンに続いて、既存のDNNモデルの多くにおいて堅牢性を改善するために、データセット拡張のための新しいアルゴリズムを提案する。 最適化データセットには、転送可能な逆例と14種類の共通汚職が含まれている。 alibaba groupとtsinghua universityが主催するデータ中心の堅牢な学習コンペティションでは、アルゴリズムは第1段階で3000以上の競合他社のうち3番目、第2ステージでは第4位だった。 我々のコードは \url{https://github.com/h ncszyq/tianchi_chall enge} で入手できる。

Robustness of deep neural networks (DNNs) to malicious perturbations is a hot topic in trustworthy AI. Existing techniques obtain robust models given fixed datasets, either by modifying model structures, or by optimizing the process of inference or training. While significant improvements have been made, the possibility of constructing a high-quality dataset for model robustness remain unexplored. Follow the campaign of data-centric AI launched by Andrew Ng, we propose a novel algorithm for dataset enhancement that works well for many existing DNN models to improve robustness. Transferable adversarial examples and 14 kinds of common corruptions are included in our optimized dataset. In the data-centric robust learning competition hosted by Alibaba Group and Tsinghua University, our algorithm came third out of more than 3000 competitors in the first stage while we ranked fourth in the second stage. Our code is available at \url{https://github.com/h ncszyq/tianchi_chall enge}.
翻訳日:2022-03-11 20:57:38 公開日:2022-03-10
# (参考訳) backboneはあなたのニーズのすべてです:ビジュアルオブジェクト追跡のためのシンプルなアーキテクチャ [全文訳有]

Backbone is All Your Need: A Simplified Architecture for Visual Object Tracking ( http://arxiv.org/abs/2203.05328v1 )

ライセンス: CC BY 4.0
Boyu Chen, Peixia Li, Lei Bai, Lei Qiao, Qiuhong Shen, Bo Li, Weihao Gan, Wei Wu, Wanli Ouyang(参考訳) 手作業による設計や帰納的バイアスを置き換える汎用神経アーキテクチャの展開は、最近広く関心を集めている。 しかし、既存のトラッキングアプローチはカスタマイズされたサブモジュールに依存しており、アーキテクチャ選択の事前知識を必要としており、より一般的なシステムでのトラッキング開発を妨げる。 本稿では,ジョイント特徴抽出とインタラクションのためにトランスフォーマーバックボーンを利用した簡易トラッキングアーキテクチャ(simtrack)を提案する。 既存のシームズトラッカーとは異なり、入力画像をシリアライズし、ワンブランチバックボーンの前に直接結合する。 バックボーンの機能的相互作用は、よく設計された相互作用モジュールを取り除き、より効率的で効果的なフレームワークを作成するのに役立つ。 視覚トランスフォーマーにおけるダウンサンプリングによる情報損失を低減するため、より多様な入力パッチを許容可能な計算コストで提供するフォビアウィンドウ戦略も提案する。 我々のSimTrackは、LaSOT/TNL2Kで2.5%/2.6%のAUCゲインでベースラインを改善し、ベルやホイッスルのない他の特殊な追跡アルゴリズムと競合する結果を得る。

Exploiting a general-purpose neural architecture to replace hand-wired designs or inductive biases has recently drawn extensive interest. However, existing tracking approaches rely on customized sub-modules and need prior knowledge for architecture selection, hindering the tracking development in a more general system. This paper presents a Simplified Tracking architecture (SimTrack) by leveraging a transformer backbone for joint feature extraction and interaction. Unlike existing Siamese trackers, we serialize the input images and concatenate them directly before the one-branch backbone. Feature interaction in the backbone helps to remove well-designed interaction modules and produce a more efficient and effective framework. To reduce the information loss from down-sampling in vision transformers, we further propose a foveal window strategy, providing more diverse input patches with acceptable computational costs. Our SimTrack improves the baseline with 2.5%/2.6% AUC gains on LaSOT/TNL2K and gets results competitive with other specialized tracking algorithms without bells and whistles.
翻訳日:2022-03-11 20:49:26 公開日:2022-03-10
# (参考訳) 反復対応幾何:テクスチャレス物体の高効率3次元追跡のための融合領域と深さ [全文訳有]

Iterative Corresponding Geometry: Fusing Region and Depth for Highly Efficient 3D Tracking of Textureless Objects ( http://arxiv.org/abs/2203.05334v1 )

ライセンス: CC BY 4.0
Manuel Stoiber, Martin Sundermeyer, Rudolph Triebel(参考訳) 3D空間における物体の追跡と6DoFのポーズの予測は、コンピュータビジョンにおいて重要な課題である。 最先端のアプローチはしばしばこの問題に取り組むためにオブジェクトテクスチャに依存します。 しかし、印象的な結果が得られる一方で、多くのオブジェクトは十分なテクスチャを含んでおらず、主な前提に違反している。 そこで本研究では,領域と深度情報を融合し,物体形状のみを必要とする新しい確率的トラッカーであるICGを提案する。 本手法は対応線を配置し,ポーズを反復的に洗練する。 また,実環境における性能を向上させるため,ロバストなオクルージョン処理も実装した。 YCB-Video、OPT、Choiデータセットの実験では、テクスチャ化されたオブジェクトであっても、精度とロバスト性に関して、我々のアプローチは最先端の技術を上回ります。 同時に、ICGは高速収束と優れた効率を示し、単一のCPUコア上で1フレームあたり1.3msしか必要としない。 最後に,各要素の影響を分析し,深層学習法と比較して性能について考察する。 トラッカーのソースコードは公開されています。

Tracking objects in 3D space and predicting their 6DoF pose is an essential task in computer vision. State-of-the-art approaches often rely on object texture to tackle this problem. However, while they achieve impressive results, many objects do not contain sufficient texture, violating the main underlying assumption. In the following, we thus propose ICG, a novel probabilistic tracker that fuses region and depth information and only requires the object geometry. Our method deploys correspondence lines and points to iteratively refine the pose. We also implement robust occlusion handling to improve performance in real-world settings. Experiments on the YCB-Video, OPT, and Choi datasets demonstrate that, even for textured objects, our approach outperforms the current state of the art with respect to accuracy and robustness. At the same time, ICG shows fast convergence and outstanding efficiency, requiring only 1.3 ms per frame on a single CPU core. Finally, we analyze the influence of individual components and discuss our performance compared to deep learning-based methods. The source code of our tracker is publicly available.
翻訳日:2022-03-11 20:30:49 公開日:2022-03-10
# (参考訳) EyeLoveGAN:CycleGANによるネットワーク学習を促進するためにドメインシフトを爆発させる [全文訳有]

EyeLoveGAN: Exploiting domain-shifts to boost network learning with cycleGANs ( http://arxiv.org/abs/2203.05344v1 )

ライセンス: CC BY 4.0
Josefine Vilsb{\o}ll Sundgaard, Kristine Aavild Juhl, and Jakob M{\o}lkj{\ae}r Slipsager(参考訳) 本稿では,2020年のREFUGEチャレンジへの貢献について述べる。 この課題は網膜画像のデータセットに基づく3つの課題から成っている:視神経円板とカップの分画、緑内障の分類、葉の局在。 3つのタスクすべてに畳み込みニューラルネットワークを採用することを提案する。 U-Netを用いてセグメンテーションを行い、事前訓練されたInceptionV3ネットワークで分類を行い、ヒートマップ予測に積層時間ガラスを用いて卵胞検出を行う。 チャレンジデータセットには、3つの異なるデータソースの画像が含まれている。 性能を向上させるため、CycleGANを使用してデータソース間のドメインシフトを生成した。 これらのサイクガンは、画像をドメイン間で移動させ、トレーニングに使用できる人工画像を生成する。

This paper presents our contribution to the REFUGE challenge 2020. The challenge consisted of three tasks based on a dataset of retinal images: Segmentation of optic disc and cup, classification of glaucoma, and localization of fovea. We propose employing convolutional neural networks for all three tasks. Segmentation is performed using a U-Net, classification is performed by a pre-trained InceptionV3 network, and fovea detection is performed by employing stacked hour-glass for heatmap prediction. The challenge dataset contains images from three different data sources. To enhance performance, cycleGANs were utilized to create a domain-shift between the data sources. These cycleGANs move images across domains, thus creating artificial images which can be used for training.
翻訳日:2022-03-11 20:08:52 公開日:2022-03-10
# (参考訳) satlab at semeval-2022 task 4: 文字と単語のn-gramのみによるパトロン化と待遇言語の検出の試み [全文訳有]

SATLab at SemEval-2022 Task 4: Trying to Detect Patronizing and Condescending Language with only Character and Word N-grams ( http://arxiv.org/abs/2203.05355v1 )

ライセンス: CC BY 4.0
Yves Bestgen(参考訳) SemEval-2022 Task 4(PCL)では,文字と単語n-gramのみを供給したロジスティック回帰モデルが提案されている。 タスクに関する知識を使わずに推測しようとするシステムのパフォーマンスをはるかに上回る平均的なレベルのパフォーマンスを得たが、最高のチームよりもはるかに低い。 提案手法はヘイトスピーチと不快コンテンツを自動的に識別するタスクでよく機能するモデルとよく似ているため,pcl検出の難しさを検証した。

A logistic regression model only fed with character and word n-grams is proposed for the SemEval-2022 Task 4 on Patronizing and Condescending Language Detection (PCL). It obtained an average level of performance, well above the performance of a system that tries to guess without using any knowledge about the task, but much lower than the best teams. As the proposed model is very similar to the one that performed well on a task requiring to automatically identify hate speech and offensive content, this paper confirms the difficulty of PCL detection.
翻訳日:2022-03-11 20:02:49 公開日:2022-03-10
# (参考訳) フェデレーション学習における貢献型デバイス選択方式 [全文訳有]

A Contribution-based Device Selection Scheme in Federated Learning ( http://arxiv.org/abs/2203.05369v1 )

ライセンス: CC BY 4.0
Shashi Raj Pandey, Lam D. Nguyen, and Petar Popovski(参考訳) フェデレーション学習(fl)セットアップでは、複数のデバイスが共通のモデルのトレーニングに寄与する。 本稿では,改良された一般化,高速収束,デバイスレベルの性能向上を実現するために,更新を行うデバイスを選択する手法を提案する。 min-max最適化問題を定式化し、デバイスレベルの性能の定量化に双対性ギャップを用いる原始双対設定に分解する。 我々の戦略は、ランダムなデバイス選択によるデータの鮮度(emph{exploration})と、デバイスコントリビューションの簡易な見積による「emph{exploitation}」を組み合わせる。 これにより、一般化とパーソナライゼーションの両方の観点から訓練されたモデルの性能が向上する。 装置のコントリビューションを推定し,通信オーバヘッドを低くするために,改良されたTrncated Monte-Carlo (TMC) 法を適用した。 実験の結果,提案手法は,通信オーバーヘッドの低減とベースライン方式に対するパーソナライズ性能の低下により,競争性能が向上した。

In a Federated Learning (FL) setup, a number of devices contribute to the training of a common model. We present a method for selecting the devices that provide updates in order to achieve improved generalization, fast convergence, and better device-level performance. We formulate a min-max optimization problem and decompose it into a primal-dual setup, where the duality gap is used to quantify the device-level performance. Our strategy combines \emph{exploration} of data freshness through a random device selection with \emph{exploitation} through simplified estimates of device contributions. This improves the performance of the trained model both in terms of generalization and personalization. A modified Truncated Monte-Carlo (TMC) method is applied during the exploitation phase to estimate the device's contribution and lower the communication overhead. The experimental results show that the proposed approach has a competitive performance, with lower communication overhead and competitive personalization performance against the baseline schemes.
翻訳日:2022-03-11 19:57:01 公開日:2022-03-10
# (参考訳) 偽ニュース検出のための偽ニュースのフェーキング:プロパガンダによるトレーニングデータ生成 [全文訳有]

Faking Fake News for Real Fake News Detection: Propaganda-loaded Training Data Generation ( http://arxiv.org/abs/2203.05386v1 )

ライセンス: CC BY 4.0
Kung-Hsiang Huang, Kathleen McKeown, Preslav Nakov, Yejin Choi and Heng Ji(参考訳) ニューラルフェイクニュースの検出には多くの研究や最近の進歩があったが、人間による偽情報に対する防御はいまだに研究されていない。 偽ニュース生成と人為的記事に対する現在のアプローチを分析すると、その間にギャップがあることがわかり、自動生成データに基づいてトレーニングされた検出器に対する人為的偽ニュースの検出性能の低下を説明できることがわかった。 そこで本研究では,人文に近い記事を生成するための新しいフレームワークを提案する。 具体的には,自然言語推論を用いた自己批判的なシーケンス学習を行い,生成記事の有効性を確認した。 そして、プロパガンダテクニックを生成した記事に明示的に組み込んで、人間が偽ニュースを作る方法を模倣する。 最終的には、偽ニュース検出トレーニングデータセットであるPropaNewsを作成します。 PropaNewsでトレーニングされた検出器は、最先端のアプローチによって生成されたデータに基づいてトレーニングされた検出器よりも、人間の書き起こした偽情報を検出する精度が7.3%から12.0%高いことを示す。

While there has been a lot of research and many recent advances in neural fake news detection, defending against human-written disinformation remains underexplored. Upon analyzing current approaches for fake news generation and human-crafted articles, we found that there is a gap between them, which can explain the poor performance on detecting human-written fake news for detectors trained on automatically generated data. To address this issue, we propose a novel framework for generating articles closer to human-written ones. Specifically, we perform self-critical sequence training with natural language inference to ensure the validity of the generated articles. We then explicitly incorporate propaganda techniques into the generated articles to mimic how humans craft fake news. Eventually, we create a fake news detection training dataset, PropaNews, which includes 2,256 examples. Our experimental results show that detectors trained on PropaNews are 7.3% to 12.0% more accurate for detecting human-written disinformation than for counterparts trained on data generated by state-of-the-art approaches.
翻訳日:2022-03-11 19:44:02 公開日:2022-03-10
# (参考訳) 逐次入力を含む繰り返しニューラルネットワークを用いた分類のロバスト性解析 [全文訳有]

Robustness Analysis of Classification Using Recurrent Neural Networks with Perturbed Sequential Input ( http://arxiv.org/abs/2203.05403v1 )

ライセンス: CC BY 4.0
Guangyi Liu, Arash Amini, Martin Takac, and Nader Motee(参考訳) 逐次入力を用いた分類タスクを行うように訓練された所定の安定なリカレントニューラルネットワーク(rnn)に対して、トレーニング可能な重み行列の関数として明示的なロバスト性境界を定量化する。 シーケンシャル入力は、例えば、ロボットの動きや不完全なカメラレンズによって、ストリーミング画像が変形するなど、様々な方法で摂動することができる。 安定RNNのボロノイ図形とリプシッツ特性の概念を用いて、分類タスクの完全精度を保証しながら、最大許容摂動を徹底的に解析し特徴付ける。 雲を含む地図データセットとMNISTデータセットを用いて,理論結果の検証と検証を行う。

For a given stable recurrent neural network (RNN) that is trained to perform a classification task using sequential inputs, we quantify explicit robustness bounds as a function of trainable weight matrices. The sequential inputs can be perturbed in various ways, e.g., streaming images can be deformed due to robot motion or imperfect camera lens. Using the notion of the Voronoi diagram and Lipschitz properties of stable RNNs, we provide a thorough analysis and characterize the maximum allowable perturbations while guaranteeing the full accuracy of the classification task. We illustrate and validate our theoretical results using a map dataset with clouds as well as the MNIST dataset.
翻訳日:2022-03-11 19:21:55 公開日:2022-03-10
# (参考訳) グラフ信号からの等価パーティションのブラインド抽出 [全文訳有]

Blind Extraction of Equitable Partitions from Graph Signals ( http://arxiv.org/abs/2203.05407v1 )

ライセンス: CC BY 4.0
Michael Scholkemper and Michael Schaub(参考訳) 等価なパーティションを見つけることは、グラフ対称性の抽出や、ノードの役割検出、クラスタ同期、コンセンサスダイナミクス、ネットワーク制御問題など、さまざまなアプリケーションコンテキストへの関心と密接に関連している。 本研究では,ネットワークのエッジの知識を必要とせず,未知のグラフフィルタの出力の観測のみに基づいて,ネットワークの公平な分割を回復することを目的としたブラインド識別問題について検討する。 具体的には2つの設定を考えます。 まず、グラフフィルタへの入力を制御できるシナリオを検討し、よく知られたWeisfeiler-Lehman (color refinement)アルゴリズムにインスパイアされた分割を抽出する方法を提案する。 第2に、このアイデアをグラフフィルタのランダムで低ランクな励起にのみ出力を観測する設定に一般化し、関連する等値分割を抽出する単純なスペクトルアルゴリズムを提案する。 最後に, このスペクトル検出方式がもたらした誤差の理論的境界を定め, 理論結果を説明する数値実験を行い, 両アルゴリズムを比較した。

Finding equitable partitions is closely related to the extraction of graph symmetries and of interest in a variety of applications context such as node role detection, cluster synchronization, consensus dynamics, and network control problems. In this work we study a blind identification problem in which we aim to recover an equitable partition of a network without the knowledge of the network's edges but based solely on the observations of the outputs of an unknown graph filter. Specifically, we consider two settings. First, we consider a scenario in which we can control the input to the graph filter and present a method to extract the partition inspired by the well known Weisfeiler-Lehman (color refinement) algorithm. Second, we generalize this idea to a setting where only observe the outputs to random, low-rank excitations of the graph filter, and present a simple spectral algorithm to extract the relevant equitable partitions. Finally, we establish theoretical bounds on the error that this spectral detection scheme incurs and perform numerical experiments that illustrate our theoretical results and compare both algorithms.
翻訳日:2022-03-11 19:06:09 公開日:2022-03-10
# (参考訳) 防衛としての攻撃:自動音声認識システムにおける攻撃を用いたロバストオーディオCAPTCHAの設計 [全文訳有]

Attacks as Defenses: Designing Robust Audio CAPTCHAs Using Attacks on Automatic Speech Recognition Systems ( http://arxiv.org/abs/2203.05408v1 )

ライセンス: CC BY 4.0
Hadi Abdullah, Aditya Karlekar, Saurabh Prasad, Muhammad Sajidur Rahman, Logan Blue, Luke A. Bauer, Vincent Bindschaedler, Patrick Traynor(参考訳) 音声CAPTCHAは、オンラインリソースの強力な防御を提供すると考えられているが、音声とテキストのメカニズムの進歩により、これらの防御は効果がない。 オーディオCAPTCHAはW3Cによってアクセシビリティーの重要な実現手段として特別に命名されているため、単に放棄することはできない。 したがって、より堅牢なCAPTCHAは、安全でアクセスしやすいWebの未来にとって重要である。 我々は,ロバストで原理駆動型オーディオディフェンスの構築にインスピレーションを与えるために,音声テキストシステムに対する攻撃に関する最近の文献を考察する。 我々は、最近の20件の攻撃論文を比較して、新しい「転写ロバスト」の基礎として、CAPTCHAを「人間が理解しやすくする」ために、それらの適合性を分類し、測定することから始める。 これらの攻撃だけでは不十分であることが証明された後、我々は比較的知的な(ユーザスタディによって評価される)かつ自動転写が難しい(つまり$P({\rm transcription}) = 4 \times 10^{-5}$)新しいメカニズムを提案する。 最後に、音声サンプルが、音声テキストシステム(P({\rm evasion}) = 1.77 \times 10^{-4}$)に対して、CAPTCHAとして検出される確率が高いことを示す。 このようにして、我々は、およそ4桁のクラックが難しいcaptchaを示すだけでなく、人間とコンピュータがオーディオを処理する方法の違いを利用して攻撃論文から得られた洞察に基づいて、このようなシステムを設計できることを示した。

Audio CAPTCHAs are supposed to provide a strong defense for online resources; however, advances in speech-to-text mechanisms have rendered these defenses ineffective. Audio CAPTCHAs cannot simply be abandoned, as they are specifically named by the W3C as important enablers of accessibility. Accordingly, demonstrably more robust audio CAPTCHAs are important to the future of a secure and accessible Web. We look to recent literature on attacks on speech-to-text systems for inspiration for the construction of robust, principle-driven audio defenses. We begin by comparing 20 recent attack papers, classifying and measuring their suitability to serve as the basis of new "robust to transcription" but "easy for humans to understand" CAPTCHAs. After showing that none of these attacks alone are sufficient, we propose a new mechanism that is both comparatively intelligible (evaluated through a user study) and hard to automatically transcribe (i.e., $P({\rm transcription}) = 4 \times 10^{-5}$). Finally, we demonstrate that our audio samples have a high probability of being detected as CAPTCHAs when given to speech-to-text systems ($P({\rm evasion}) = 1.77 \times 10^{-4}$). In so doing, we not only demonstrate a CAPTCHA that is approximately four orders of magnitude more difficult to crack, but that such systems can be designed based on the insights gained from attack papers using the differences between the ways that humans and computers process audio.
翻訳日:2022-03-11 18:44:18 公開日:2022-03-10
# (参考訳) OneRel:1ステップで1つのモジュールによるエンティティと関係抽出 [全文訳有]

OneRel:Joint Entity and Relation Extraction with One Module in One Step ( http://arxiv.org/abs/2203.05412v1 )

ライセンス: CC BY 4.0
Yu-Ming Shang, Heyan Huang, Xian-Ling Mao(参考訳) 統合エンティティと関係抽出は自然言語処理と知識グラフ構築において不可欠な課題である。 既存のアプローチは通常、ジョイント抽出タスクをいくつかの基本的なモジュールや処理ステップに分解して実行しやすくする。 しかし、そのようなパラダイムは三重項の3つの要素が相互依存的で区別できないという事実を無視している。 そのため,従来の共同手法ではカスケードエラーや冗長な情報に悩まされていた。 これらの問題に対処するため,本稿では,細粒度3次分類問題として統合抽出をキャスティングするonerelと呼ばれる新しい結合エンティティと関係抽出モデルを提案する。 具体的には,スコアリングに基づく分類器と,関係性を考慮したホーンのタグ付け戦略からなる。 前者は、トークン対と関係が事実のトリプルに属するかどうかを評価する。 後者は単純だが効果的な復号処理を保証する。 2つの広く使用されているデータセットの大規模な実験結果から,提案手法は最先端のベースラインよりも優れた性能を示し,様々な重なり合うパターンと複数のトリプルの複雑なシナリオに対して一貫した性能向上を実現する。

Joint entity and relation extraction is an essential task in natural language processing and knowledge graph construction. Existing approaches usually decompose the joint extraction task into several basic modules or processing steps to make it easy to conduct. However, such a paradigm ignores the fact that the three elements of a triple are interdependent and indivisible. Therefore, previous joint methods suffer from the problems of cascading errors and redundant information. To address these issues, in this paper, we propose a novel joint entity and relation extraction model, named OneRel, which casts joint extraction as a fine-grained triple classification problem. Specifically, our model consists of a scoring-based classifier and a relation-specific horns tagging strategy. The former evaluates whether a token pair and a relation belong to a factual triple. The latter ensures a simple but effective decoding process. Extensive experimental results on two widely used datasets demonstrate that the proposed method performs better than the state-of-the-art baselines, and delivers consistent performance gain on complex scenarios of various overlapping patterns and multiple triples.
翻訳日:2022-03-11 18:19:25 公開日:2022-03-10
# (参考訳) 深層回帰アンサンブル [全文訳有]

Deep Regression Ensembles ( http://arxiv.org/abs/2203.05417v1 )

ライセンス: CC0 1.0
Antoine Didisheim, Bryan Kelly, Semyon Malamud(参考訳) 本稿では,ディープ・レグレッション・アンサンブル(dre)と呼ばれる深層ニューラルネットワーク(dnn)の設計とトレーニングのための手法を提案する。 ランダムな特徴回帰でトレーニングされたDNNと2層ニューラルネットワークのギャップを埋める。 DREの各層は、ランダムに描画された入力重みと(最終出力層のように)ミオプティックに訓練された出力重みの2つの成分を持つ。 層内では、各ニューロンは異なる入力サブセットと異なるリッジペナルティを使用し、ランダムな特徴リッジ回帰のアンサンブルを構成する。 我々の実験は、単一のDREアーキテクチャが多くのデータセットにおいて最先端のDNNと同等かそれ以上であることを示している。 しかし、DREニューラルウェイトはクローズドフォームかランダム描画で知られているため、計算コストはDNNよりも桁違いに小さい。

We introduce a methodology for designing and training deep neural networks (DNN) that we call "Deep Regression Ensembles" (DRE). It bridges the gap between DNN and two-layer neural networks trained with random feature regression. Each layer of DRE has two components, randomly drawn input weights and output weights trained myopically (as if the final output layer) using linear ridge regression. Within a layer, each neuron uses a different subset of inputs and a different ridge penalty, constituting an ensemble of random feature ridge regressions. Our experiments show that a single DRE architecture is at par with or exceeds state-of-the-art DNN in many data sets. Yet, because DRE neural weights are either known in closed-form or randomly drawn, its computational cost is orders of magnitude smaller than DNN.
翻訳日:2022-03-11 17:44:22 公開日:2022-03-10
# (参考訳) ゾーン温度制御のためのデータから準最適深層強化学習方針 [全文訳有]

Near-optimal Deep Reinforcement Learning Policies from Data for Zone Temperature Control ( http://arxiv.org/abs/2203.05434v1 )

ライセンス: CC BY 4.0
Loris Di Natale, Bratislav Svetozarevic, Philipp Heer, and Colin N. Jones(参考訳) 性能の悪い既存のコントローラをよりスマートなソリューションに置き換えることで、ビルディングセクターのエネルギー強度が低下する。 近年,Deep Reinforcement Learning (DRL) に基づくコントローラは,従来のベースラインよりも有効であることが示されている。 しかし、最適解法は通常不明であるため、DRL剤が概して最適に近い性能を保っているのか、橋梁に大きなギャップがあるのかはまだ不明である。 本稿では,DRLエージェントの性能を理論的に最適解と比較して検討する。 そこで我々は,最適制御入力を計算し易いシミュレーション環境として,物理一貫性ニューラルネットワーク(PCNN)を利用する。 さらに、PCNNはトレーニング対象のデータにのみ依存し、物理的な一貫性を維持しながら、難しい物理ベースのモデリングフェーズを避ける。 この結果から,DRLエージェントは従来のルールベースコントローラよりも明らかに優れるだけでなく,ほぼ最適性能が得られることが示唆された。

Replacing poorly performing existing controllers with smarter solutions will decrease the energy intensity of the building sector. Recently, controllers based on Deep Reinforcement Learning (DRL) have been shown to be more effective than conventional baselines. However, since the optimal solution is usually unknown, it is still unclear if DRL agents are attaining near-optimal performance in general or if there is still a large gap to bridge. In this paper, we investigate the performance of DRL agents compared to the theoretically optimal solution. To that end, we leverage Physically Consistent Neural Networks (PCNNs) as simulation environments, for which optimal control inputs are easy to compute. Furthermore, PCNNs solely rely on data to be trained, avoiding the difficult physics-based modeling phase, while retaining physical consistency. Our results hint that DRL agents not only clearly outperform conventional rule-based controllers, they furthermore attain near-optimal performance.
翻訳日:2022-03-11 16:25:16 公開日:2022-03-10
# (参考訳) TinyMLの低精度量子化に関する実証的研究 [全文訳有]

An Empirical Study of Low Precision Quantization for TinyML ( http://arxiv.org/abs/2203.05492v1 )

ライセンス: CC BY-SA 4.0
Shaojie Zhuo, Hongyu Chen, Ramchalam Kinattinkara Ramakrishnan, Tommy Chen, Chen Feng, Yicheng Lin, Parker Zhang, Liang Shen(参考訳) tiny machine learning(tinyml)は、メモリと計算能力に制約のある組み込みaiプロセッサに機械学習モデルをデプロイすることを目的とした、ここ数年の間に登場した。 低精度量子化は、モデル推論のメモリ消費と計算コストを大幅に削減できる重要なモデル圧縮技術である。 本研究では,小セットのキャリブレーションデータを用いてモデルを低ビット(8ビット未満)精度に量子化するptq(post-training quantization)アルゴリズムに注目し,これらを異なるtinymlユースケースでベンチマークする。 公平な比較を実現するため,最近のPTQアルゴリズムを解析するためのシミュレーション量子化フレームワークを構築した。 さらに、これらのアルゴリズムを必須コンポーネントに分解し、汎用的なPTQパイプラインを再組み立てする。 パイプライン内の部品の異なる代替品に関するアブレーション研究により、低精度量子化を行う際の重要な設計選択を明らかにする。 この研究が有用なデータポイントを提供し、将来低精度量子化の研究に光を当てることを願っている。

Tiny machine learning (tinyML) has emerged during the past few years aiming to deploy machine learning models to embedded AI processors with highly constrained memory and computation capacity. Low precision quantization is an important model compression technique that can greatly reduce both memory consumption and computation cost of model inference. In this study, we focus on post-training quantization (PTQ) algorithms that quantize a model to low-bit (less than 8-bit) precision with only a small set of calibration data and benchmark them on different tinyML use cases. To achieve a fair comparison, we build a simulated quantization framework to investigate recent PTQ algorithms. Furthermore, we break down those algorithms into essential components and re-assembled a generic PTQ pipeline. With ablation study on different alternatives of components in the pipeline, we reveal key design choices when performing low precision quantization. We hope this work could provide useful data points and shed lights on the future research of low precision quantization.
翻訳日:2022-03-11 16:11:49 公開日:2022-03-10
# (参考訳) 線形petcシステムのための確率的保証を伴うデータ駆動抽象化 [全文訳有]

Data-driven Abstractions with Probabilistic Guarantees for Linear PETC Systems ( http://arxiv.org/abs/2203.05522v1 )

ライセンス: CC BY 4.0
Andrea Peruffo and Manuel Mazo Jr(参考訳) 我々は,未知のPETCシステムによって生成される平均サンプル間時間(AIST)に基づいて,おそらくほぼ正(PAC)境界を計算するシナリオアプローチを採用した。 我々は,具体的な,未知の状態空間とサンプル間時間の間のPACマップを構築するために,シナリオアプローチをマルチクラスSVMアルゴリズムに拡張する。 次に、$\ell$-complete関係を適用したトラフィックモデルを構築し、基礎となるグラフでは、最小および最大平均重量のサイクルを見つけます。 モデルに基づく最先端ツールと比較し,本手法の実用性を示す。

We employ the scenario approach to compute probably approximately correct (PAC) bounds on the average inter-sample time (AIST) generated by an unknown PETC system, based on a finite number of samples. We extend the scenario approach to multiclass SVM algorithms in order to construct a PAC map between the concrete, unknown state-space and the inter-sample times. We then build a traffic model applying an $\ell$-complete relation and find, in the underlying graph, the cycles of minimum and maximum average weight: these provide lower and upper bounds on the AIST. Numerical benchmarks show the practical applicability of our method, which is compared against model-based state-of-the-art tools.
翻訳日:2022-03-11 15:59:42 公開日:2022-03-10
# ビデオラベル伝播における表現の伝達:実施要因

Transfer of Representations to Video Label Propagation: Implementation Factors Matter ( http://arxiv.org/abs/2203.05553v1 )

ライセンス: Link先を確認
Daniel McKee, Zitong Zhan, Bing Shuai, Davide Modolo, Joseph Tighe, Svetlana Lazebnik(参考訳) 本研究は,カラー化や時間周期の整合性といった自己教師付き信号を用いて映像対応を学習する手法に焦点をあてて,映像中の濃密なラベル伝搬の表現を特徴付ける。 文献では、これらの手法は一貫性のない一連の設定で評価されており、傾向の識別や性能の比較が困難である。 まず,既存のバリエーションを包含するラベル伝播アルゴリズムの統一的定式化から,特徴抽出とラベル伝播における重要な実装因子の影響を体系的に検討する。 そこで本研究では,従来の作品よりも高画質の静止画像ベースラインを,適切に調整し,教師なしの静止画像ベースラインの精度を報告する。 また,静止画による映像対応の強化により,さらなる性能向上が期待できることを示す。 次に、DAVISベンチマークにおける最近のビデオベース手法の公正な比較を試みた。これは、様々な専門的なビデオベース損失の使用とトレーニング特質にもかかわらず、強力なImageNetベースラインに近いパフォーマンスレベルへのベストメソッドの収束を示すものである。 JHMDBとVIPデータセットのさらなる比較では、現在の手法と同様のパフォーマンスが確認されている。 本研究は, 評価実践の改善と, 時間的対応における今後の研究方向性の報知に役立つことを期待する。

This work studies feature representations for dense label propagation in video, with a focus on recently proposed methods that learn video correspondence using self-supervised signals such as colorization or temporal cycle consistency. In the literature, these methods have been evaluated with an array of inconsistent settings, making it difficult to discern trends or compare performance fairly. Starting with a unified formulation of the label propagation algorithm that encompasses most existing variations, we systematically study the impact of important implementation factors in feature extraction and label propagation. Along the way, we report the accuracies of properly tuned supervised and unsupervised still image baselines, which are higher than those found in previous works. We also demonstrate that augmenting video-based correspondence cues with still-image-based ones can further improve performance. We then attempt a fair comparison of recent video-based methods on the DAVIS benchmark, showing convergence of best methods to performance levels near our strong ImageNet baseline, despite the usage of a variety of specialized video-based losses and training particulars. Additional comparisons on JHMDB and VIP datasets confirm the similar performance of current methods. We hope that this study will help to improve evaluation practices and better inform future research directions in temporal correspondence.
翻訳日:2022-03-11 15:45:01 公開日:2022-03-10
# KSoF: Kassel State of Fluency Dataset -- スタタリングのセラピー中心のデータセット

KSoF: The Kassel State of Fluency Dataset -- A Therapy Centered Dataset of Stuttering ( http://arxiv.org/abs/2203.05383v1 )

ライセンス: Link先を確認
Sebastian P. Bayerl, Alexander Wolff von Gudenberg, Florian H\"onig, Elmar N\"oth and Korbinian Riedhammer(参考訳) 発声は、個人の効果的なコミュニケーション能力に悪影響を及ぼす複雑な音声障害である。 スタッター(PWS)の患者は、しばしばその状態下でかなり苦しめられ、治療を通じて助けを求める。 フルエンシシェーピング(fluency shaping)は、pwsが発話の修正を学んで、混乱を克服するのに役立つセラピーアプローチである。 このような音声技法を習得するには、治療後にも時間と練習が必要である。 治療後すぐに、成功は高く評価されるが、再発率は高い。 長期間にわたって音声の振る舞いをモニタリングするためには、発話中の乱れや変化を検出する能力は、PWSや言語病理学者が流感のレベルを追跡するのに役立つ。 モニタリングは、流し込みの経過を検出することによって、早期に介入する能力を生み出す可能性がある。 われわれの知る限りでは、話し方を変えた散発的な治療を受けた人々のスピーチを含む公開データセットは提供されていない。 5500以上のpwsクリップを含むセラピーベースのデータセットであるkassel state of fluency(ksof)を紹介する。 ビデオクリップには、ブロック、延長、音の繰り返し、単語の繰り返し、インタージェクション、言語修正の6種類の散らばったイベントタイプがラベル付けされた。 オーディオは、Institut der Kasseler Stottertherapieのセラピーセッション中に録音された。 データは、要求に応じて研究目的に提供される。

Stuttering is a complex speech disorder that negatively affects an individual's ability to communicate effectively. Persons who stutter (PWS) often suffer considerably under the condition and seek help through therapy. Fluency shaping is a therapy approach where PWSs learn to modify their speech to help them to overcome their stutter. Mastering such speech techniques takes time and practice, even after therapy. Shortly after therapy, success is evaluated highly, but relapse rates are high. To be able to monitor speech behavior over a long time, the ability to detect stuttering events and modifications in speech could help PWSs and speech pathologists to track the level of fluency. Monitoring could create the ability to intervene early by detecting lapses in fluency. To the best of our knowledge, no public dataset is available that contains speech from people who underwent stuttering therapy that changed the style of speaking. This work introduces the Kassel State of Fluency (KSoF), a therapy-based dataset containing over 5500 clips of PWSs. The clips were labeled with six stuttering-related event types: blocks, prolongations, sound repetitions, word repetitions, interjections, and - specific to therapy - speech modifications. The audio was recorded during therapy sessions at the Institut der Kasseler Stottertherapie. The data will be made available for research purposes upon request.
翻訳日:2022-03-11 15:44:39 公開日:2022-03-10
# ワイドニューラルネットワークの線形性への遷移は、組立弱モデルの創発的特性である

Transition to Linearity of Wide Neural Networks is an Emerging Property of Assembling Weak Models ( http://arxiv.org/abs/2203.05104v1 )

ライセンス: Link先を確認
Chaoyue Liu, Libin Zhu, Mikhail Belkin(参考訳) 線形出力層を持つ広いニューラルネットワークは、ほぼ直線であり、勾配降下の最適化経路を含む領域において、ニアコンスタントニューラルネットワーク(NTK)を有することが示されている。 一般のニューラルネットワークは非常に複雑なモデルであるため、これらの発見は直観に反するように思える。 ネットワークが広くなるとなぜ線形構造が現れるのか? 本研究では、ニューラルネットワークを個々のニューロンに対応するサブモデルの集合から再帰的に構築したアセンブリモデルとして考えることにより、この「線形性への遷移」に対する新たな視点を提供する。 この観点から、広義のニューラルネットワークの線形性は、実際には、多数の多様な「弱」サブモデルを組み立てる新たな性質であり、いずれもアセンブリを支配していないことを示す。

Wide neural networks with linear output layer have been shown to be near-linear, and to have near-constant neural tangent kernel (NTK), in a region containing the optimization path of gradient descent. These findings seem counter-intuitive since in general neural networks are highly complex models. Why does a linear structure emerge when the networks become wide? In this work, we provide a new perspective on this "transition to linearity" by considering a neural network as an assembly model recursively built from a set of sub-models corresponding to individual neurons. In this view, we show that the linearity of wide neural networks is, in fact, an emerging property of assembling a large number of diverse "weak" sub-models, none of which dominate the assembly.
翻訳日:2022-03-11 15:42:59 公開日:2022-03-10
# 機械学習による坑井掘削における異常事象予測

Forecasting the abnormal events at well drilling with machine learning ( http://arxiv.org/abs/2203.05378v1 )

ライセンス: Link先を確認
Ekaterina Gurina, Nikita Klyuchnikov, Ksenia Antipova and Dmitry Koroteev(参考訳) 事故予測のためのデータ駆動・物理インフォームドアルゴリズムを提案する。 コア機械学習アルゴリズムは、時系列を表すドリルテレメトリのデータを使用する。 我々は,6種類の掘削事故の確率をリアルタイムに予測できる時系列のBag-of-features表現を開発した。 この機械学習モデルは、ロシアの油田やガス井100箇所の掘削事故125件に基づいて訓練されている。 検証の結果, 掘削事故の70%を偽陽性率で予測できることがわかった。 このモデルは坑井工事における掘削事故の部分的にの防止に対処する。

We present a data-driven and physics-informed algorithm for drilling accident forecasting. The core machine-learning algorithm uses the data from the drilling telemetry representing the time-series. We have developed a Bag-of-features representation of the time series that enables the algorithm to predict the probabilities of six types of drilling accidents in real-time. The machine-learning model is trained on the 125 past drilling accidents from 100 different Russian oil and gas wells. Validation shows that the model can forecast 70% of drilling accidents with a false positive rate equals to 40%. The model addresses partial prevention of the drilling accidents at the well construction.
翻訳日:2022-03-11 15:42:47 公開日:2022-03-10
# coco-fl:部分的nn凍結と量子化による通信と計算の融合学習

CoCo-FL: Communication- and Computation-Aware Federated Learning via Partial NN Freezing and Quantization ( http://arxiv.org/abs/2203.05468v1 )

ライセンス: Link先を確認
Kilian Pfeiffer, Martin Rapp, Ramin Khalili, J\"org Henkel(参考訳) 連邦学習(FL)に参加するデバイスは通常、異種通信と計算資源を持つ。 しかし、本論文で検討する同期flを適用する場合、すべてのデバイスは、サーバが指示するのと同じ期限までにトレーニングを終える必要がある。 制約されたデバイス、すなわちニューロン/フィルタを落とすことで、訓練されたニューラルネットワーク(NN)の複雑さを減らすことは、通信と計算要求の削減とリソースの浪費を密に結合するため、不十分である。 量子化は推論を加速する効果があるが、量子化トレーニングは精度の低下に悩まされている。 本稿では,nnの学習中に量子化を行い,計算要求を減少させ,通信と計算要求を減少させ,残部を完全精度で訓練し,高い収束速度と最終的な精度を維持する新しい機構を提案する。 本機構を用いて,FLにおける特定の通信制約と計算制約を独立に最適化する最初のFL手法を提案する。 本研究では,CoCo-FLの収束速度が,最先端技術よりもはるかに高く,最終精度が著しく高いことを示す。

Devices participating in federated learning (FL) typically have heterogeneous communication and computation resources. However, all devices need to finish training by the same deadline dictated by the server when applying synchronous FL, as we consider in this paper. Reducing the complexity of the trained neural network (NN) at constrained devices, i.e., by dropping neurons/filters, is insufficient as it tightly couples reductions in communication and computation requirements, wasting resources. Quantization has proven effective to accelerate inference, but quantized training suffers from accuracy losses. We present a novel mechanism that quantizes during training parts of the NN to reduce the computation requirements, freezes them to reduce the communication and computation requirements, and trains the remaining parts in full precision to maintain a high convergence speed and final accuracy. Using this mechanism, we present the first FL technique that independently optimizes for specific communication and computation constraints in FL: CoCo-FL. We show that CoCo-FL reaches a much higher convergence speed than the state of the art and a significantly higher final accuracy.
翻訳日:2022-03-11 15:41:46 公開日:2022-03-10
# タブラルディープラーニングにおける数値的特徴の埋め込みについて

On Embeddings for Numerical Features in Tabular Deep Learning ( http://arxiv.org/abs/2203.05556v1 )

ライセンス: Link先を確認
Yura Gorishniy and Ivan Rubachev and Artem Babenko(参考訳) 近年,トランスフォーマーのような深層アーキテクチャは表型データ問題に対して高い性能を示している。 MLPのような従来のモデルとは異なり、これらのアーキテクチャはスカラー値の数値特徴をメインのバックボーンに混ぜる前に高次元の埋め込みにマッピングする。 本研究では,従来の GBDT 対応ベンチマークにおいて,より強力な DL モデルの構築と GBDT との競合を可能にするため,数値的特徴の埋め込みは,表型 DL の過度な自由度である,と論じる。 まず、埋め込み加群を構築するための概念的に異なる2つのアプローチについて説明する: 1つはスカラー値の断片的線形符号化に基づくもので、2つ目は周期的アクティベーションを利用する。 次に,これら2つのアプローチが,線形層やreluアクティベーションといった従来のブロックに基づく組込みと比較して,大幅なパフォーマンス向上につながることを実証する。 重要なのは,トランスフォーマーだけでなく,多くのバックボーンにも数値的特徴を埋め込むことが有益であることを示すことである。 具体的には、適切な埋め込みの後、単純なMLPのようなモデルは注意に基づくアーキテクチャと同等に機能する。 全体として、数値的な特徴の埋め込みは重要な設計の側面であり、表状DLをさらに改善する可能性があることを強調する。

Recently, Transformer-like deep architectures have shown strong performance on tabular data problems. Unlike traditional models, e.g., MLP, these architectures map scalar values of numerical features to high-dimensional embeddings before mixing them in the main backbone. In this work, we argue that embeddings for numerical features are an underexplored degree of freedom in tabular DL, which allows constructing more powerful DL models and competing with GBDT on some traditionally GBDT-friendly benchmarks. We start by describing two conceptually different approaches to building embedding modules: the first one is based on a piecewise linear encoding of scalar values, and the second one utilizes periodic activations. Then, we empirically demonstrate that these two approaches can lead to significant performance boosts compared to the embeddings based on conventional blocks such as linear layers and ReLU activations. Importantly, we also show that embedding numerical features is beneficial for many backbones, not only for Transformers. Specifically, after proper embeddings, simple MLP-like models can perform on par with the attention-based architectures. Overall, we highlight that embeddings for numerical features are an important design aspect, which has good potential for further improvements in tabular DL.
翻訳日:2022-03-11 15:41:26 公開日:2022-03-10
# 車両無線ネットワークにおける人工知能 : ns-3を用いた事例研究

Artificial Intelligence in Vehicular Wireless Networks: A Case Study Using ns-3 ( http://arxiv.org/abs/2203.05449v1 )

ライセンス: Link先を確認
Matteo Drago, Tommaso Zugno, Federico Mason, Marco Giordani, Mate Boban and Michele Zorzi(参考訳) 人工知能(AI)技術は、無線ネットワークをより効率的かつ適応可能なものにするための強力なアプローチとして登場した。 本稿では,無線ネットワーク最適化のためのAIアルゴリズムを実装可能なns-3シミュレーションフレームワークを提案する。 私たちのパイプラインは (i)V2Xの新しい幾何学的モビリティ依存チャネルモデル (ii) ns3-mmwaveモジュールに基づく5G-NR準拠プロトコルスタックのすべてのレイヤ (iii)v2xデータ伝送をシミュレートする新しいアプリケーション、及び (iv)AIを介してネットワークを制御するための新しいインテリジェントエンティティ。 柔軟性とモジュラーデザインのおかげで、研究者はこのツールを使って、リアルで制御された環境で独自のアルゴリズムを実装し、訓練し、評価することができる。 我々は、AI機能を強化学習(Reinforcement Learning, RL)を用いて実装する予測品質サービス(PQoS)シナリオにおいて、我々のフレームワークの挙動を検証し、AIを実装しないベースラインソリューションよりも優れたネットワーク最適化を促進することを実証する。

Artificial intelligence (AI) techniques have emerged as a powerful approach to make wireless networks more efficient and adaptable. In this paper we present an ns-3 simulation framework, able to implement AI algorithms for the optimization of wireless networks. Our pipeline consists of: (i) a new geometry-based mobility-dependent channel model for V2X; (ii) all the layers of a 5G-NR-compliant protocol stack, based on the ns3-mmwave module; (iii) a new application to simulate V2X data transmission, and (iv) a new intelligent entity for the control of the network via AI. Thanks to its flexible and modular design, researchers can use this tool to implement, train, and evaluate their own algorithms in a realistic and controlled environment. We test the behavior of our framework in a Predictive Quality of Service (PQoS) scenario, where AI functionalities are implemented using Reinforcement Learning (RL), and demonstrate that it promotes better network optimization compared to baseline solutions that do not implement AI.
翻訳日:2022-03-11 15:40:50 公開日:2022-03-10
# 離散モデリングフレームワーク:物理の欠如、系統的残差のモデル化、決定論的効果とランダム効果の曖昧化

Discrepancy Modeling Framework: Learning missing physics, modeling systematic residuals, and disambiguating between deterministic and random effects ( http://arxiv.org/abs/2203.05164v1 )

ライセンス: Link先を確認
Megan R. Ebers, Katherine M. Steele, J. Nathan Kutz(参考訳) 物理モデルと第一原理モデルは工学と物理科学に浸透し、複雑なシステムのダイナミクスを所定の精度でモデル化することができる。 支配方程式の導出に使用される近似は、しばしばモデルとセンサによるシステムの測定の相違が生じ、方程式の近似的性質やセンサ自体の信号対雑音比が明らかになる。 現代の力学系では、モデルと測定の相違により定量化が悪くなり、しばしば正確かつ正確な制御アルゴリズムを作成する能力を損なう。 決定論的モデル-測定ミスマッチを2つの異なるアプローチで解決する不一致モデリングフレームワークを導入する。 一 体系的状態空間残留の進化モデルを学ぶことにより、及び (II) 欠落した決定論物理学のモデルを発見すること。 アプローチにかかわらず、データ駆動型モデル発見手法の共通スイートが使用できる。 具体的には、4つの基本的な異なる手法を用いて、差分モデリングの数学的実装を実証する。 (i)非線形力学(SINDy)のスパース同定 (ii)動的モード分解(dmd) (iii)ガウス過程回帰(gpr)及び (iv)ニューラルネットワーク(nn)。 方法の選択は、センサ測定の量と品質だけでなく、不一致モデリングに対する人の意図にも依存する。 本稿では,信号対雑音比の異なる3つの力学系におけるデータ駆動モデリング手法を用いて,差分モデリング手法の有用性と妥当性を示す。 復元と予測の精度を比較し,詳細な比較を行い,適切なアプローチと方法の選択を可能にした。

Physics-based and first-principles models pervade the engineering and physical sciences, allowing for the ability to model the dynamics of complex systems with a prescribed accuracy. The approximations used in deriving governing equations often result in discrepancies between the model and sensor-based measurements of the system, revealing the approximate nature of the equations and/or the signal-to-noise ratio of the sensor itself. In modern dynamical systems, such discrepancies between model and measurement can lead to poor quantification, often undermining the ability to produce accurate and precise control algorithms. We introduce a discrepancy modeling framework to resolve deterministic model-measurement mismatch with two distinct approaches: (i) by learning a model for the evolution of systematic state-space residual, and (ii) by discovering a model for the missing deterministic physics. Regardless of approach, a common suite of data-driven model discovery methods can be used. Specifically, we use four fundamentally different methods to demonstrate the mathematical implementations of discrepancy modeling: (i) the sparse identification of nonlinear dynamics (SINDy), (ii) dynamic mode decomposition (DMD), (iii) Gaussian process regression (GPR), and (iv) neural networks (NN). The choice of method depends on one's intent for discrepancy modeling, as well as quantity and quality of the sensor measurements. We demonstrate the utility and suitability for both discrepancy modeling approaches using the suite of data-driven modeling methods on three dynamical systems under varying signal-to-noise ratios. We compare reconstruction and forecasting accuracies and provide detailed comparatives, allowing one to select the appropriate approach and method in practice.
翻訳日:2022-03-11 15:40:36 公開日:2022-03-10
# 柔軟かつ解釈可能な空間予測のための空間変動ベイズ予測合成

Spatially-Varying Bayesian Predictive Synthesis for Flexible and Interpretable Spatial Prediction ( http://arxiv.org/abs/2203.05197v1 )

ライセンス: Link先を確認
Danielle Cabel, Masahiro Kato, Kenichiro McAlinn, Shonosuke Sugasawa, Kosaku Takanashi(参考訳) 空間データは、しばしば複雑で非線形で、単一のモデルで捉えるのが困難である空間依存によって特徴づけられる。 これらの特徴から生じる重要なモデルの不確実性のレベルは、モデル選択や単純なアンサンブルメソッドによって解決できない。 本稿では,空間的ベイズ予測合成と呼ばれる空間変化モデルの不確実性を捉える手法を提案する。 本提案は, 合成関数として潜在因子空間変動係数モデルを指定することで, モデル係数を各領域で変化させることにより, 柔軟な空間モデル感覚化を実現する。 完全不確実性定量化のための2つのMCMC戦略と高速点推定のための変分推論戦略を実装した。 また,一般応答に対する推定戦略も拡張する。 提案手法の予測性能については, 有限サンプル理論的保証が与えられ, 予測が極小であることを示す。 シミュレーション例と2つの実データ応用により,提案する空間ベイズ予測合成が,予測精度の面では標準空間モデルや高度な機械学習手法を上回り,予測機構の解釈可能性を維持していることを示す。

Spatial data are characterized by their spatial dependence, which is often complex, non-linear, and difficult to capture with a single model. Significant levels of model uncertainty -- arising from these characteristics -- cannot be resolved by model selection or simple ensemble methods, as performances are not homogeneous. We address this issue by proposing a novel methodology that captures spatially-varying model uncertainty, which we call spatial Bayesian predictive synthesis. Our proposal is defined by specifying a latent factor spatially-varying coefficient model as the synthesis function, which enables model coefficients to vary over the region to achieve flexible spatial model ensembling. Two MCMC strategies are implemented for full uncertainty quantification, as well as a variational inference strategy for fast point inference. We also extend the estimations strategy for general responses. A finite sample theoretical guarantee is given for the predictive performance of our methodology, showing that the predictions are exact minimax. Through simulation examples and two real data applications, we demonstrate that our proposed spatial Bayesian predictive synthesis outperforms standard spatial models and advanced machine learning methods, in terms of predictive accuracy, while maintaining interpretability of the prediction mechanism.
翻訳日:2022-03-11 15:40:13 公開日:2022-03-10
# 視覚と言語ナビゲーションのためのクロスモーダルマップ学習

Cross-modal Map Learning for Vision and Language Navigation ( http://arxiv.org/abs/2203.05137v1 )

ライセンス: Link先を確認
Georgios Georgakis, Karl Schmeckpeper, Karan Wanchoo, Soham Dan, Eleni Miltsakaki, Dan Roth, Kostas Daniilidis(参考訳) VLN(Vision-and-Langu age Navigation)の問題点を考察する。 VLNの現在の手法の大部分は、LSTMのような非構造化メモリや、エージェントの自我中心的な観察に対する相互注意を用いて、エンドツーエンドで訓練されている。 他の作品と対照的に、我々の重要な洞察は、言語と視覚の間の関係は、明示的な空間表現において起こるときより強くなるということである。 本研究では,視覚・言語ナビゲーションのためのクロスモーダルマップ学習モデルを提案する。まず,観測領域と観測領域の両方において,エゴセントリックマップ上でトップダウンセマンティクスを予測し,次に目標に向かっての経路をルートポイントの集合として予測する。 どちらの場合も、予測は言語によってクロスモーダルアテンション機構を通じて通知される。 言語駆動ナビゲーションは地図から解けるという基本的な仮説を実験的に検証し、VLN-CEベンチマークで競合結果を示す。

We consider the problem of Vision-and-Language Navigation (VLN). The majority of current methods for VLN are trained end-to-end using either unstructured memory such as LSTM, or using cross-modal attention over the egocentric observations of the agent. In contrast to other works, our key insight is that the association between language and vision is stronger when it occurs in explicit spatial representations. In this work, we propose a cross-modal map learning model for vision-and-language navigation that first learns to predict the top-down semantics on an egocentric map for both observed and unobserved regions, and then predicts a path towards the goal as a set of waypoints. In both cases, the prediction is informed by the language through cross-modal attention mechanisms. We experimentally test the basic hypothesis that language-driven navigation can be solved given a map, and then show competitive results on the full VLN-CE benchmark.
翻訳日:2022-03-11 15:37:15 公開日:2022-03-10
# 顔マイクロ圧縮認識のためのデュアル確率グラフ畳み込みネットワークの転送

Transferring Dual Stochastic Graph Convolutional Network for Facial Micro-expression Recognition ( http://arxiv.org/abs/2203.05208v1 )

ライセンス: Link先を確認
Hui Tang, Li Chai, Wanli Lu(参考訳) マイクロ表現認識は, 嘘の検出, 犯罪検出, 心理相談に広く応用され, 注目を集めている。 本稿では,マイクロ表現データの認識性能を向上させるため,tdsgcn(trans transfer dual stochastic graph convolutional network)モデルを提案する。 マイクロ圧縮画像からより識別性の高い特徴を抽出する確率グラフ構築法と二重グラフ畳み込みネットワークを提案する。 マクロ表現データからsgcnsを事前学習するために転送学習を用いる。 光流アルゴリズムも時間的特徴を抽出するために統合されている。 空間的特徴と時間的特徴を融合させて認識性能を向上させる。 我々の知る限り、これはマイクロ圧縮認識タスクにおいて、転送学習とグラフ畳み込みネットワークを利用するための最初の試みである。 さらに,データセットのクラス不均衡問題に対処するため,焦点損失関数の設計に注目する。 提案手法は,SAMM上での最先端性能と最近リリースされたMMEWベンチマークを実現する。 私たちのコードは、この論文と共に公開されます。

Micro-expression recognition has drawn increasing attention due to its wide application in lie detection, criminal detection and psychological consultation. To improve the recognition performance of the small micro-expression data, this paper presents a transferring dual stochastic Graph Convolutional Network (TDSGCN) model. We propose a stochastic graph construction method and dual graph convolutional network to extract more discriminative features from the micro-expression images. We use transfer learning to pre-train SGCNs from macro expression data. Optical flow algorithm is also integrated to extract their temporal features. We fuse both spatial and temporal features to improve the recognition performance. To the best of our knowledge, this is the first attempt to utilize the transferring learning and graph convolutional network in micro-expression recognition task. In addition, to handle the class imbalance problem of dataset, we focus on the design of focal loss function. Through extensive evaluation, our proposed method achieves state-of-the-art performance on SAMM and recently released MMEW benchmarks. Our code will be publicly available accompanying this paper.
翻訳日:2022-03-11 15:36:56 公開日:2022-03-10
# 逆知識蒸留による画像翻訳モデルの会員プライバシー保護

Membership Privacy Protection for Image Translation Models via Adversarial Knowledge Distillation ( http://arxiv.org/abs/2203.05212v1 )

ライセンス: Link先を確認
Saeed Ranjbar Alvar, Lanjun Wang, Jian Pei, Yong Zhang(参考訳) 画像から画像への変換モデルは、モデルのトレーニングにサンプルが使用されているかどうかを特定することを目的としているメンバーシップ推論攻撃(MIA)に対して脆弱であることが示されている。 画像から画像への変換モデルに基づく日々のアプリケーションの増加に伴い、これらのモデルのプライバシをMIAから保護することが重要である。 画像から画像への変換モデルに対するMIAに対する防御手法として,逆知識蒸留(AKD)を提案する。 提案手法は,モデルの一般化性を向上させることにより,トレーニングサンプルのプライバシを保護する。 画像から画像への変換モデルの実験を行い、AKDが出力画像の品質をわずかに低下させることで、攻撃性能を38.9%まで下げることにより、最先端のユーティリティ・プライバシ・トレードオフを実現することを示す。 また, 実験結果から, AKDにより訓練されたモデルは, 通常の訓練モデルよりも一般化されていることが示された。 さらに,従来の防衛手法と比較して,AKDが訓練した画像翻訳モデルは,プライバシー保護レベルが同じであり,出力の品質が同じであるのに対して,AKDは30%以上のプライバシー保護を強化している。

Image-to-image translation models are shown to be vulnerable to the Membership Inference Attack (MIA), in which the adversary's goal is to identify whether a sample is used to train the model or not. With daily increasing applications based on image-to-image translation models, it is crucial to protect the privacy of these models against MIAs. We propose adversarial knowledge distillation (AKD) as a defense method against MIAs for image-to-image translation models. The proposed method protects the privacy of the training samples by improving the generalizability of the model. We conduct experiments on the image-to-image translation models and show that AKD achieves the state-of-the-art utility-privacy tradeoff by reducing the attack performance up to 38.9% compared with the regular training model at the cost of a slight drop in the quality of the generated output images. The experimental results also indicate that the models trained by AKD generalize better than the regular training models. Furthermore, compared with existing defense methods, the results show that at the same privacy protection level, image translation models trained by AKD generate outputs with higher quality; while at the same quality of outputs, AKD enhances the privacy protection over 30%.
翻訳日:2022-03-11 15:36:41 公開日:2022-03-10
# 画像テキストマッチングのための2ストリーム階層的類似性推論

Two-stream Hierarchical Similarity Reasoning for Image-text Matching ( http://arxiv.org/abs/2203.05349v1 )

ライセンス: Link先を確認
Ran Chen, Hanli Wang, Lei Wang, Sam Kwong(参考訳) 推論に基づくアプローチは、画像テキストマッチングのタスクに強力な能力を示した。 本研究では,画像テキストマッチングにおける2つの課題について述べる。 第一に、推論処理では、従来の手法では多階層的類似情報を見つけ、利用することができない。 この問題を解決するために, 階層的類似性推論モジュールを提案し, コンテキスト情報を自動的に抽出し, 効率的な推論のために局所的インタラクション情報と共存させる。 第二に、従来のアプローチでは、画像とテキストの整合性(つまり、画像とテキストの整合性)の学習しか考慮していなかった。 この問題に対処するために、画像からテキストまでのマッチングとテキストから画像までの類似度計算に分解する2ストリームアーキテクチャを開発した。 これら2つの問題は、エンドツーエンドでトレーニングされる統一フレームワーク、すなわち2ストリーム階層的類似性推論ネットワークによって検討される。 MSCOCOとFlickr30Kのベンチマークデータセットで実施された広範な実験は、既存の最先端手法と比較して提案手法の優位性を示している。

Reasoning-based approaches have demonstrated their powerful ability for the task of image-text matching. In this work, two issues are addressed for image-text matching. First, for reasoning processing, conventional approaches have no ability to find and use multi-level hierarchical similarity information. To solve this problem, a hierarchical similarity reasoning module is proposed to automatically extract context information, which is then co-exploited with local interaction information for efficient reasoning. Second, previous approaches only consider learning single-stream similarity alignment (i.e., image-to-text level or text-to-image level), which is inadequate to fully use similarity information for image-text matching. To address this issue, a two-stream architecture is developed to decompose image-text matching into image-to-text level and text-to-image level similarity computation. These two issues are investigated by a unifying framework that is trained in an end-to-end manner, namely two-stream hierarchical similarity reasoning network. The extensive experiments performed on the two benchmark datasets of MSCOCO and Flickr30K show the superiority of the proposed approach as compared to existing state-of-the-art methods.
翻訳日:2022-03-11 15:36:19 公開日:2022-03-10
# 四足歩行における学習トルク制御

Learning Torque Control for Quadrupedal Locomotion ( http://arxiv.org/abs/2203.05194v1 )

ライセンス: Link先を確認
Shuxiao Chen, Bike Zhang, Mark W. Mueller, Akshara Rai and Koushil Sreenath(参考訳) 強化学習(rl)は四足歩行のための制御器を開発するための有望なツールである。 ほとんどの学習ベースのロコモーションコントローラの設計は、低周波rlポリシーがターゲットジョイント位置を出力するジョイント位置に基づくパラダイムを採用し、その後、ジョイントトルクを出力する高周波比例導出(pd)コントローラによって追跡される。 しかし、そのような政策の低頻度は、非常にダイナミックな移動行動の進行を妨げる。 また、最適なトラッキング性能のためにpdゲインを決定することは手間がかかり、手元のタスクに依存する。 本稿では,四足歩行のための学習トルク制御フレームワークを提案する。このフレームワークは,関節トルクを高周波で直接予測するrlポリシーを訓練し,pdコントローラの使用を回避している。 我々は,ロボットが様々な地形を横断し,外部からのプッシュに抵抗できるような広範な実験を行い,提案手法を検証した。 我々の知る限り、これは四足歩行のトルク制御をエンドツーエンドの単一ニューラルネットワークで学習する最初の試みであり、主に位置ベースである学習に基づく四足歩行に関する最近の研究の中で、実世界の実験に成功している。

Reinforcement learning (RL) is a promising tool for developing controllers for quadrupedal locomotion. The design of most learning-based locomotion controllers adopts the joint position-based paradigm, wherein a low-frequency RL policy outputs target joint positions that are then tracked by a high-frequency proportional-derivat ive (PD) controller that outputs joint torques. However, the low frequency of such a policy hinders the advancement of highly dynamic locomotion behaviors. Moreover, determining the PD gains for optimal tracking performance is laborious and dependent on the task at hand. In this paper, we introduce a learning torque control framework for quadrupedal locomotion, which trains an RL policy that directly predicts joint torques at a high frequency, thus circumventing the use of PD controllers. We validate the proposed framework with extensive experiments where the robot is able to both traverse various terrains and resist external pushes, given user-specified commands. To our knowledge, this is the first attempt of learning torque control for quadrupedal locomotion with an end-to-end single neural network that has led to successful real-world experiments among recent research on learning-based quadrupedal locomotion which is mostly position-based.
翻訳日:2022-03-11 15:34:55 公開日:2022-03-10
# 楕円型観測のための低ランクアンサンブルカルマンフィルタ

A low-rank ensemble Kalman filter for elliptic observations ( http://arxiv.org/abs/2203.05120v1 )

ライセンス: Link先を確認
Mathieu Le Provost, Ricardo Baptista, Youssef Marzouk and Jeff D. Eldredge(参考訳) 楕円型観測演算子を用いたアンサンブルカルマンフィルタ(EnKF)の正規化法を提案する。 一般的に用いられるenkf正則化法は長距離の状態相関を抑制する。 非圧縮性流体中の圧力ポアソン方程式(英語版)(ppe)のような楕円偏微分方程式によって記述された観測では、散発的な長距離相関から物理的相互作用を緩やかに崩壊させることが出来ないため、距離の定位は適用できない。 これは、遠方渦要素が非線形に結合して圧力を誘導するPPEに特に当てはまる。 その代わり、これらの逆問題には低い有効次元があり、観測の低次元射影は状態空間の低次元部分空間を強く知らせる。 我々は観測作用素のヤコビアンスペクトルに基づいてカルマンゲインの低ランク分解を導出した。 同定された固有ベクトルは、問題の基本空間分布とは独立に、多極展開のソースモードとターゲットモードを一般化する。 急速なスペクトル減衰が与えられると、推論は優性固有ベクトルにまたがる低次元部分空間において行うことができる。 この低ランク EnKF はポアソン観測演算子を用いた力学系で評価され、ポテンシャルや圧力観測から時間とともに点特異点の位置と強度を推定する。 また、フィルタリングの文脈外の楕円逆問題に対するこのアプローチの適用性についてもコメントする。

We propose a regularization method for ensemble Kalman filtering (EnKF) with elliptic observation operators. Commonly used EnKF regularization methods suppress state correlations at long distances. For observations described by elliptic partial differential equations, such as the pressure Poisson equation (PPE) in incompressible fluid flows, distance localization cannot be applied, as we cannot disentangle slowly decaying physical interactions from spurious long-range correlations. This is particularly true for the PPE, in which distant vortex elements couple nonlinearly to induce pressure. Instead, these inverse problems have a low effective dimension: low-dimensional projections of the observations strongly inform a low-dimensional subspace of the state space. We derive a low-rank factorization of the Kalman gain based on the spectrum of the Jacobian of the observation operator. The identified eigenvectors generalize the source and target modes of the multipole expansion, independently of the underlying spatial distribution of the problem. Given rapid spectral decay, inference can be performed in the low-dimensional subspace spanned by the dominant eigenvectors. This low-rank EnKF is assessed on dynamical systems with Poisson observation operators, where we seek to estimate the positions and strengths of point singularities over time from potential or pressure observations. We also comment on the broader applicability of this approach to elliptic inverse problems outside the context of filtering.
翻訳日:2022-03-11 15:34:25 公開日:2022-03-10
# FPGA上での高速時空間GNN推論のためのモデル構造共設計

Model-Architecture Co-Design for High Performance Temporal GNN Inference on FPGA ( http://arxiv.org/abs/2203.05095v1 )

ライセンス: Link先を確認
Hongkuan Zhou, Bingyi Zhang, Rajgopal Kannan, Viktor Prasanna, Carl Busart(参考訳) 時間グラフニューラルネットワーク(tgnn)は、時間グラフの時間的、構造的、文脈的情報をキャプチャする強力なモデルである。 生成された時間ノードの埋め込みは、多くの下流タスクで他のメソッドよりも優れている。 実世界のアプリケーションは、リアルタイムストリーミング動的グラフの高性能な推論を必要とする。 しかし、これらのモデルは通常、時間的近傍間の関係を捉えるために複雑な注意メカニズムに依存している。 さらに、頂点メモリの維持はタスクレベルの並列性を阻害する固有の時間データ依存に悩まされ、汎用プロセッサでは非効率である。 本研究では,FPGA上でのメモリベースTGNNの推論のための新しいモデルアーキテクチャ共設計を提案する。 提案する鍵となるモデリング最適化は,注意スコアを計算する軽量手法と,計算とメモリアクセスをさらに削減するための関連する時間的隣接プルーニング戦略を含む。 これらはFPGAハードウェアを利用するハードウェアの最適化と相性が良い。 我々は、時間サンプリングをオンチップFIFOベースのハードウェアサンプリングに置き換え、タイムエンコーダをルックアップテーブルに置き換える。 我々は, 知識蒸留を用いた簡易モデルの訓練を行い, 類似したモデルのvis-\'a-vis を実現する。 モデル最適化の利点を生かして,バッチ処理,パイプライン化,プリフェッチ技術を用いたハードウェアアーキテクチャを提案する。 また,計算並列性を犠牲にすることなく,時系列の更新を保証するハードウェア機構を提案する。 提案するハードウェアアクセラレータの性能を実世界の3つのデータセットで評価する。

Temporal Graph Neural Networks (TGNNs) are powerful models to capture temporal, structural, and contextual information on temporal graphs. The generated temporal node embeddings outperform other methods in many downstream tasks. Real-world applications require high performance inference on real-time streaming dynamic graphs. However, these models usually rely on complex attention mechanisms to capture relationships between temporal neighbors. In addition, maintaining vertex memory suffers from intrinsic temporal data dependency that hinders task-level parallelism, making it inefficient on general-purpose processors. In this work, we present a novel model-architecture co-design for inference in memory-based TGNNs on FPGAs. The key modeling optimizations we propose include a light-weight method to compute attention scores and a related temporal neighbor pruning strategy to further reduce computation and memory accesses. These are holistically coupled with key hardware optimizations that leverage FPGA hardware. We replace the temporal sampler with an on-chip FIFO based hardware sampler and the time encoder with a look-up-table. We train our simplified models using knowledge distillation to ensure similar accuracy vis-\'a-vis the original model. Taking advantage of the model optimizations, we propose a principled hardware architecture using batching, pipelining, and prefetching techniques to further improve the performance. We also propose a hardware mechanism to ensure the chronological vertex updating without sacrificing the computation parallelism. We evaluate the performance of the proposed hardware accelerator on three real-world datasets.
翻訳日:2022-03-11 15:34:05 公開日:2022-03-10
# チームベースマルチプレイヤーゲームにおけるコルーシオン検出

Collusion Detection in Team-Based Multiplayer Games ( http://arxiv.org/abs/2203.05121v1 )

ライセンス: Link先を確認
Laura Greige, Fernando De Mesentier Silva, Meredith Trotter, Chris Lawrence, Peter Chin and Dilip Varadarajan(参考訳) 競合するマルチプレイヤーゲームでは、2つ以上のチームが共通の目標に向けて協力することを決めたときに、この協力から不公平な優位性を得る意図で衝突が起こる。 しかし、プレイヤー人口からコラーを識別する仕事は、プレイヤー人口の大きさのため、ゲームデザイナーにとって不可能である。 本稿では,チームベースのマルチプレイヤーゲームにおけるコルーディング動作を検知し,コルーディング動作の可能性が最も高いプレイヤーをハイライトするシステムを提案する。 ゲームデザイナーは、プレイヤーの小さなサブセットを分析して、どのアクションをとるかを決定する。 このため,検出の自動化には誤検出に対して極めて注意が必要である。 提案手法では,プレイヤーの社会的関係をゲーム内行動パターンと組み合わせて分析し,グラフ理論のツールを用いて,相手チームから各ペアの選手が提示する結束度を検出・測定できる特徴集合を推定する。 次に、外れ値の強調を専門とする教師なし学習手法であるIsolation Forestによる検出を自動化し、それぞれ170,000以上のユニークなプレーヤーと10万以上の異なるマッチを持つ2つの実際のデータセットに対して、アプローチのパフォーマンスと効率を示す。

In the context of competitive multiplayer games, collusion happens when two or more teams decide to collaborate towards a common goal, with the intention of gaining an unfair advantage from this cooperation. The task of identifying colluders from the player population is however infeasible to game designers due to the sheer size of the player population. In this paper, we propose a system that detects colluding behaviors in team-based multiplayer games and highlights the players that most likely exhibit colluding behaviors. The game designers then proceed to analyze a smaller subset of players and decide what action to take. For this reason, it is important and necessary to be extremely careful with false positives when automating the detection. The proposed method analyzes the players' social relationships paired with their in-game behavioral patterns and, using tools from graph theory, infers a feature set that allows us to detect and measure the degree of collusion exhibited by each pair of players from opposing teams. We then automate the detection using Isolation Forest, an unsupervised learning technique specialized in highlighting outliers, and show the performance and efficiency of our approach on two real datasets, each with over 170,000 unique players and over 100,000 different matches.
翻訳日:2022-03-11 15:33:40 公開日:2022-03-10
# フランクウルフ政策最適化によるHEVC/H.265におけるフレームレベルビット配置の動作制約強化学習

Action-Constrained Reinforcement Learning for Frame-Level Bit Allocation in HEVC/H.265 through Frank-Wolfe Policy Optimization ( http://arxiv.org/abs/2203.05127v1 )

ライセンス: Link先を確認
Yung-Han Ho, Yun Liang, Chia-Hao Kao, Wen-Hsiao Peng(参考訳) 本稿では, HEVC/H.265のフレームレベルビット割り当てにFrank-Wolfeポリシ最適化を利用する強化学習(RL)フレームワークを提案する。 以前のrlベースのアプローチでは、歪み最小化とレート正規化の報酬を経験的に選択したハイパーパラメータで重み付けするシングルクリティック設計を採用している。 最近では、アクターネットワークの更新のために、レートと歪みの批判を交互に行い、二重批判設計を提案する。 しかし、訓練の収束は保証されていない。 この問題に対処するために、フレームレベルのビット割り当てをアクション制約付きRL問題として定式化する際に、Neural Frank-Wolfe Policy Optimization (NFWPO)を導入する。 この新たな枠組みでは、レート批評家は実行可能なアクションセットを特定するのに役立ち、歪み批評家はアクタネットワークを更新して、アクション制約に準拠しながらコンストラクション品質を最大化する。 実験結果から,ビデオマルチメソッド評価融合(VMAF)メトリックを最適化する訓練を行った場合,NFWPOに基づくモデルは,単一批判法と二重批判法の両方に優れることがわかった。 また、x265の2パス平均ビットレート制御に匹敵するレート歪み性能を示す。

This paper presents a reinforcement learning (RL) framework that leverages Frank-Wolfe policy optimization to address frame-level bit allocation for HEVC/H.265. Most previous RL-based approaches adopt the single-critic design, which weights the rewards for distortion minimization and rate regularization by an empirically chosen hyper-parameter. More recently, the dual-critic design is proposed to update the actor network by alternating the rate and distortion critics. However, the convergence of training is not guaranteed. To address this issue, we introduce Neural Frank-Wolfe Policy Optimization (NFWPO) in formulating the frame-level bit allocation as an action-constrained RL problem. In this new framework, the rate critic serves to specify a feasible action set, and the distortion critic updates the actor network towards maximizing the reconstruction quality while conforming to the action constraint. Experimental results show that when trained to optimize the video multi-method assessment fusion (VMAF) metric, our NFWPO-based model outperforms both the single-critic and the dual-critic methods. It also demonstrates comparable rate-distortion performance to the 2-pass average bit rate control of x265.
翻訳日:2022-03-11 15:33:18 公開日:2022-03-10
# Fake Talking Face Videos Detection のための視覚的注意に基づくマルチモーダルネットワーク

An Audio-Visual Attention Based Multimodal Network for Fake Talking Face Videos Detection ( http://arxiv.org/abs/2203.05178v1 )

ライセンス: Link先を確認
Ganglai Wang, Peng Zhang, Lei Xie, Wei Huang, Yufei Zha and Yanning Zhang(参考訳) ディープフェイクベースのデジタル顔偽造は、特に口唇操作が発話顔生成に使われている場合、公衆メディアのセキュリティを脅かしている。 与えられた発話に合わせて唇の形を変えるだけでは、このような偽の顔ビデオではアイデンティティの表情の特徴を判別することは困難である。 先行知識としての音声ストリームへの注意の欠如とともに、偽の会話顔生成の検出失敗も避けられないものとなる。 本研究は,人間の多感性知覚システムの意思決定機構に触発され,聴覚情報による情報入力後の視覚的エビデンスを強化し,より正確な会話顔検出を実現するために,音声と視覚的表現を取り入れた偽会話顔検出フレームワークFTFDNetを提案する。 さらに、モジュール化により任意のCNNアーキテクチャにシームレスに統合可能な、より情報的な特徴を発見するために、AVAM(Audio-visual attention mechanism)を提案する。 AVAMの追加により、提案されたFTFDNetは、確立されたデータセット(FTFDD)上でより良い検出性能を達成することができる。 提案手法の評価により,偽の顔ビデオの検出において優れた性能を示し,その検出率は97%以上となった。

DeepFake based digital facial forgery is threatening the public media security, especially when lip manipulation has been used in talking face generation, the difficulty of fake video detection is further improved. By only changing lip shape to match the given speech, the facial features of identity is hard to be discriminated in such fake talking face videos. Together with the lack of attention on audio stream as the prior knowledge, the detection failure of fake talking face generation also becomes inevitable. Inspired by the decision-making mechanism of human multisensory perception system, which enables the auditory information to enhance post-sensory visual evidence for informed decisions output, in this study, a fake talking face detection framework FTFDNet is proposed by incorporating audio and visual representation to achieve more accurate fake talking face videos detection. Furthermore, an audio-visual attention mechanism (AVAM) is proposed to discover more informative features, which can be seamlessly integrated into any audio-visual CNN architectures by modularization. With the additional AVAM, the proposed FTFDNet is able to achieve a better detection performance on the established dataset (FTFDD). The evaluation of the proposed work has shown an excellent performance on the detection of fake talking face videos, which is able to arrive at a detection rate above 97%.
翻訳日:2022-03-11 15:32:34 公開日:2022-03-10
# GrainSpace:Cereal Grainのきめ細かいドメイン適応認識のための大規模データセット

GrainSpace: A Large-scale Dataset for Fine-grained and Domain-adaptive Recognition of Cereal Grains ( http://arxiv.org/abs/2203.05306v1 )

ライセンス: Link先を確認
Lei Fan, Yiwen Ding, Dongdong Fan, Donglin Di, Maurice Pagnucco, Yang Song(参考訳) 穀物は人間の食事の重要な部分であり、人々の生活と国際貿易にとって重要な商品である。 穀物外観検査(GAI)は、適切な循環、貯蔵、食品加工等のために、穀物の品質及び粒層化を決定するための重要なステップの1つである。 GAIは、手工具の助けを借りて、適格な検査官が手動で行う。 自動GAIは、インスペクタにジョブを強く支援するメリットがあるが、データセットの欠如とタスクの明確な定義のために制限されている。 本稿では,粒度認識,ドメイン適応,分散認識という3つのユビキタスなコンピュータビジョンタスクとしてgaiを定式化する。 我々は,GrainSpaceと呼ばれる大規模かつ一般公開された穀物のデータセットを提示する。 具体的には,データ取得のための3種類のデバイスプロトタイプと,専門家による525万枚の画像を作成する。 小麦、トウモロコシ、米などの穀物サンプルを5カ国30地域以上から採取する。 また,半教師付き学習と自己教師付き学習技術に基づく総合ベンチマークを開発した。 私たちの知る限りでは、GrainSpaceは穀物検査のための最初の公開データセットです。

Cereal grains are a vital part of human diets and are important commodities for people's livelihood and international trade. Grain Appearance Inspection (GAI) serves as one of the crucial steps for the determination of grain quality and grain stratification for proper circulation, storage and food processing, etc. GAI is routinely performed manually by qualified inspectors with the aid of some hand tools. Automated GAI has the benefit of greatly assisting inspectors with their jobs but has been limited due to the lack of datasets and clear definitions of the tasks. In this paper we formulate GAI as three ubiquitous computer vision tasks: fine-grained recognition, domain adaptation and out-of-distribution recognition. We present a large-scale and publicly available cereal grains dataset called GrainSpace. Specifically, we construct three types of device prototypes for data acquisition, and a total of 5.25 million images determined by professional inspectors. The grain samples including wheat, maize and rice are collected from five countries and more than 30 regions. We also develop a comprehensive benchmark based on semi-supervised learning and self-supervised learning techniques. To the best of our knowledge, GrainSpace is the first publicly released dataset for cereal grain inspection.
翻訳日:2022-03-11 15:31:00 公開日:2022-03-10
# リスク逆分散最適化のための最適手法

Optimal Methods for Risk Averse Distributed Optimization ( http://arxiv.org/abs/2203.05117v1 )

ライセンス: Link先を確認
Gaunghui Lan, Zhe Zhang(参考訳) 本稿では,ネットワーク上のリスク回避最適化の通信複雑性について検討する。 この問題は、よく研究されたリスク中立な有限サム分散最適化問題を一般化し、その重要性は不確定な環境でリスクを扱う必要性に起因する。 文献におけるアルゴリズムには、リスク逆問題とリスクニュートラル問題を解くための通信複雑性のギャップが存在する。 本研究では,分散リスク逆最適化法(drao法)と分散リスク逆最適化法(drao-s法)という2つの分散アルゴリズムを提案する。 具体的には、サーバノードにおいて、特定のサドルポイント部分問題を容易に解決できると仮定して、最適な通信複雑性を達成する。 DRAO-S法は、曖昧性集合を射影することだけを必要とする新しいサドル点スライディングサブルーチンを導入することで、強い仮定を取り除く。 DRAO-Sによって実行される$P$-プロジェクションの数は最適である。 さらに, DRAO と DRAO-S の通信複雑度が即効しないことを示すために, 一致した低複雑性境界を開発する。 数値実験により, DRAO-S法の性能向上を実証した。

This paper studies the communication complexity of risk averse optimization over a network. The problem generalizes the well-studied risk-neutral finite-sum distributed optimization problem and its importance stems from the need to handle risk in an uncertain environment. For algorithms in the literature, there exists a gap in communication complexities for solving risk-averse and risk-neutral problems. We propose two distributed algorithms, namely the distributed risk averse optimization (DRAO) method and the distributed risk averse optimization with sliding (DRAO-S) method, to close the gap. Specifically, the DRAO method achieves the optimal communication complexity by assuming a certain saddle point subproblem can be easily solved in the server node. The DRAO-S method removes the strong assumption by introducing a novel saddle point sliding subroutine which only requires the projection over the ambiguity set $P$. We observe that the number of $P$-projections performed by DRAO-S is optimal. Moreover, we develop matching lower complexity bounds to show that communication complexities of both DRAO and DRAO-S are not improvable. Numerical experiments are conducted to demonstrate the encouraging empirical performance of the DRAO-S method.
翻訳日:2022-03-11 15:30:02 公開日:2022-03-10
# バスケットボールトライアルにおける治療効果推定のためのマルチタスク逆学習

Multi-Task Adversarial Learning for Treatment Effect Estimation in Basket Trials ( http://arxiv.org/abs/2203.05123v1 )

ライセンス: Link先を確認
Zhixuan Chu, Stephen L. Rathbun, Sheng Li(参考訳) 観察データから治療効果を推定することは、医学、臨床、その他の研究における試験、実験、観察研究の定式化である異なる臨床研究設計のような、多くの実世界の応用を導く因果性に関する洞察を提供する。 本報告では, 同一の変異を有する異なる種類のがん患者において, 新規薬物がどの程度有効であるかを検査する, バスケットトライアルと呼ばれる新しい臨床設計に応用するための因果推論について述べる。 本手法では, マルチタスク表現学習と対戦学習を併用し, 同一の遺伝子変異を持つが, 異なる変異を有する患者に対して, 異なる種類の腫瘍に対して, 潜在的な結果を推定する。 本稿では,この新たな因果推論設定を示す直感的な例として,バスケットトライアルを用いた。 この新しい因果推論設定は、バスケットトライアルに限定されるものではないが、含まれている。 この設定は、従来の因果推論問題と同じ課題、すなわち、異なるサブグループの下での対実的な結果の欠如と、共同設立者による治療選択バイアスがある。 IHDPとNewsの2つのベンチマークにおいて,合成バスケット試薬データの解析におけるMTAL法の実用的利点と評価を行った。 その結果,MTAL法が競合する最先端手法よりも優れていることが示された。

Estimating treatment effects from observational data provides insights about causality guiding many real-world applications such as different clinical study designs, which are the formulations of trials, experiments, and observational studies in medical, clinical, and other types of research. In this paper, we describe causal inference for application in a novel clinical design called basket trial that tests how well a new drug works in patients who have different types of cancer that all have the same mutation. We propose a multi-task adversarial learning (MTAL) method, which incorporates feature selection multi-task representation learning and adversarial learning to estimate potential outcomes across different tumor types for patients sharing the same genetic mutation but having different tumor types. In our paper, the basket trial is employed as an intuitive example to present this new causal inference setting. This new causal inference setting includes, but is not limited to basket trials. This setting has the same challenges as the traditional causal inference problem, i.e., missing counterfactual outcomes under different subgroups and treatment selection bias due to confounders. We present the practical advantages of our MTAL method for the analysis of synthetic basket trial data and evaluate the proposed estimator on two benchmarks, IHDP and News. The results demonstrate the superiority of our MTAL method over the competing state-of-the-art methods.
翻訳日:2022-03-11 15:29:43 公開日:2022-03-10
# IAE-Net:離散化不変学習のための積分オートエンコーダ

IAE-Net: Integral Autoencoders for Discretization-Invar iant Learning ( http://arxiv.org/abs/2203.05142v1 )

ライセンス: Link先を確認
Yong Zheng Ong and Zuowei Shen and Haizhao Yang(参考訳) 離散化不変学習は、学習モデルの入力や出力として関数の不均一な離散表現を処理する能力を持つ無限次元関数空間での学習を目標とする。 本稿では,離散化不変学習のための積分オートエンコーダ(iae-net)に基づく新しいディープラーニングフレームワークを提案する。 iae-netの基本構成ブロックは、データ駆動カーネルとの積分変換としてのエンコーダとデコーダと、エンコーダとデコーダの間の完全に接続されたニューラルネットワークで構成される。 この基本構築ブロックは、スキップ接続をiae-netとして深く密結合したニューラルネットワークを形成するために繰り返し構成される、広いマルチチャネル構造に並列に適用される。 IAE-Netは、不均一な構造を持つトレーニングデータを生成するランダム化データ拡張を用いて訓練され、離散化不変学習のパフォーマンスが向上する。 提案したIAE-Netは、予測データ科学、科学計算における前方および逆問題、信号/画像処理における様々な応用でテストされている。 IAE-Netは文献の代替品と比較して、既存のアプリケーションで最先端のパフォーマンスを達成し、幅広い新しいアプリケーションを作成する。

Discretization invariant learning aims at learning in the infinite-dimensional function spaces with the capacity to process heterogeneous discrete representations of functions as inputs and/or outputs of a learning model. This paper proposes a novel deep learning framework based on integral autoencoders (IAE-Net) for discretization invariant learning. The basic building block of IAE-Net consists of an encoder and a decoder as integral transforms with data-driven kernels, and a fully connected neural network between the encoder and decoder. This basic building block is applied in parallel in a wide multi-channel structure, which are repeatedly composed to form a deep and densely connected neural network with skip connections as IAE-Net. IAE-Net is trained with randomized data augmentation that generates training data with heterogeneous structures to facilitate the performance of discretization invariant learning. The proposed IAE-Net is tested with various applications in predictive data science, solving forward and inverse problems in scientific computing, and signal/image processing. Compared with alternatives in the literature, IAE-Net achieves state-of-the-art performance in existing applications and creates a wide range of new applications.
翻訳日:2022-03-11 15:29:16 公開日:2022-03-10
# ODEとインデックス-1DAEの初期値問題の数値解に対する擬似ランダム射影ニューラルネットワーク

Parsimonious Random Projection Neural Networks for the Numerical Solution of Initial-Value Problems of ODEs and index-1 DAEs ( http://arxiv.org/abs/2203.05337v1 )

ライセンス: Link先を確認
Gianluca Fabiani, Evangelos Galaris, Lucia Russo, Constantinos Siettos(参考訳) PDEの空間的離散化から生じるかもしれない非線形ODEのIDPの数値解とインデックス-1DAEの数値解に対するランダムなプロジェクションの概念に基づく物理インフォームニューラルネットワークに対処する。 このスキームは、適切にランダムにパラメータ化されたガウス核と線形出力層を持つ単一の隠れ層を持ち、内部重みは1つに固定される。 隠蔽層と出力層の間の未知の重みはニュートンの反復によって計算され、ムーア-ペンローズ擬似逆数(英語版)を中規模から大規模に正規化したスパースQR分解を用いて計算される。 剛性および鋭い勾配に対処するために,積分間隔を調整する可変ステップサイズスキームを提案し,ニュートン反復に対するよい初期推定を提供する継続法に対処する。 従来のランダムなプロジェクションに関する研究に基づいて、正準形式におけるODEのスキームと半明示形式におけるインデックス-1DAEの近似能力を証明した。 均一分布の最適境界はバイアス分散トレードオフに基づいて同義に選択される。 4つのインデックス-1 DAE、ロバートソンモデル、ビーズの動作を記述する5つのDAEのモデル、放電制御問題を記述する6つのDAEのモデル、化学アクゾノーベル問題と3つの固い問題、ベルーソフ・ザボチンスキー、アレン・カーン PDE、そして倉本・シヴァシンスキー PDEである。 この方式の効率は、MATLAB ODE スイートの3つの解法 ode23t, ode23s, ode15s と比較される。 提案手法は,特に数値精度の面で高い剛性や鋭い勾配が生じ,計算コストは実用上同等である場合において,いくつかの場合において剛性解法よりも優れることを示す。

We address a physics-informed neural network based on the concept of random projections for the numerical solution of IVPs of nonlinear ODEs in linear-implicit form and index-1 DAEs, which may also arise from the spatial discretization of PDEs. The scheme has a single hidden layer with appropriately randomly parametrized Gaussian kernels and a linear output layer, while the internal weights are fixed to ones. The unknown weights between the hidden and output layer are computed by Newton's iterations, using the Moore-Penrose pseudoinverse for low to medium, and sparse QR decomposition with regularization for medium to large scale systems. To deal with stiffness and sharp gradients, we propose a variable step size scheme for adjusting the interval of integration and address a continuation method for providing good initial guesses for the Newton iterations. Based on previous works on random projections, we prove the approximation capability of the scheme for ODEs in the canonical form and index-1 DAEs in the semiexplicit form. The optimal bounds of the uniform distribution are parsimoniously chosen based on the bias-variance trade-off. The performance of the scheme is assessed through seven benchmark problems: four index-1 DAEs, the Robertson model, a model of five DAEs describing the motion of a bead, a model of six DAEs describing a power discharge control problem, the chemical Akzo Nobel problem and three stiff problems, the Belousov-Zhabotinsky , the Allen-Cahn PDE and the Kuramoto-Sivashinsky PDE. The efficiency of the scheme is compared with three solvers ode23t, ode23s, ode15s of the MATLAB ODE suite. Our results show that the proposed scheme outperforms the stiff solvers in several cases, especially in regimes where high stiffness or sharp gradients arise in terms of numerical accuracy, while the computational costs are for any practical purposes comparable.
翻訳日:2022-03-11 15:28:55 公開日:2022-03-10
# 複素ネットワークの深い表現に対する幾何学的および位相的推論

Geometric and Topological Inference for Deep Representations of Complex Networks ( http://arxiv.org/abs/2203.05488v1 )

ライセンス: Link先を確認
Baihan Lin(参考訳) 複雑なネットワークの深い表現を理解することは、インターネット時代に解釈可能で信頼できる機械学習アプリケーションを構築するための重要なステップである。 ブラックボックスモデル(例えば人工または生物学的ニューラルネットワーク)の予測を近似するグローバルサロゲートモデルは通常、モデル解釈可能性に関する貴重な理論的洞察を提供するために使用される。 代理モデルが他のモデルでの表現をどの程度うまく説明できるかを評価するためには,モデル比較のための推論手法を開発する必要がある。 これまでの研究では、モデルと脳を、その表現的ジオメトリ(モデル層または皮質領域における入力パターンの表現間の距離の行列によって特徴づけられる)で比較してきた。 本研究では、トポロジと表現の幾何学を重視したより広範な統計のクラスの一部として、モデルと脳における表現の統計的記述を概説する。 トポロジカルサマリー統計は、トポロジカルデータ分析(tda)やその他のグラフベースの手法に基づいている。 我々は、モデル選択に使用する感度と特異性の観点からこれらの統計を評価し、異なるニューラルネットワークモデルを相互に関連付け、ブラックボックス表現を最も考慮すべき計算機構について推測することを目的としている。 これらの新しい手法により、脳とコンピュータ科学者は、脳とモデルによって学習された動的表現変換を可視化し、モデル比較統計推論を行うことができる。

Understanding the deep representations of complex networks is an important step of building interpretable and trustworthy machine learning applications in the age of internet. Global surrogate models that approximate the predictions of a black box model (e.g. an artificial or biological neural net) are usually used to provide valuable theoretical insights for the model interpretability. In order to evaluate how well a surrogate model can account for the representation in another model, we need to develop inference methods for model comparison. Previous studies have compared models and brains in terms of their representational geometries (characterized by the matrix of distances between representations of the input patterns in a model layer or cortical area). In this study, we propose to explore these summary statistical descriptions of representations in models and brains as part of a broader class of statistics that emphasize the topology as well as the geometry of representations. The topological summary statistics build on topological data analysis (TDA) and other graph-based methods. We evaluate these statistics in terms of the sensitivity and specificity that they afford when used for model selection, with the goal to relate different neural network models to each other and to make inferences about the computational mechanism that might best account for a black box representation. These new methods enable brain and computer scientists to visualize the dynamic representational transformations learned by brains and models, and to perform model-comparative statistical inference.
翻訳日:2022-03-11 15:27:23 公開日:2022-03-10
# SoftSNN: ソフトエラー下でのスパイクニューラルネットワーク加速器の低コストフォールトトレランス

SoftSNN: Low-Cost Fault Tolerance for Spiking Neural Network Accelerators under Soft Errors ( http://arxiv.org/abs/2203.05523v1 )

ライセンス: Link先を確認
Rachmad Vidya Wicaksana Putra, Muhammad Abdullah Hanif, Muhammad Shafique(参考訳) 特殊なハードウェアアクセラレータが設計され、スパイキングニューラルネットワーク(snn)の性能を最大化するために使用されている。 しかし、そのような加速器は、高エネルギー粒子衝突によって生じる過渡的断層(ソフトエラー)に弱いため、ハードウェア層でビットフリップとして現れる。 これらの誤差はSNN加速器の計算エンジンの重み値とニューロン操作を変化させ、誤った出力と精度の低下をもたらす。 しかし、SNNでは、計算エンジンにおけるソフトエラーの影響と各緩和技術が十分に研究されていない。 潜在的な解決策は、正しいアウトプットを保証するために冗長な実行(再実行)を採用することですが、大きなレイテンシとエネルギーオーバーヘッドをもたらします。 そこで本研究では,SNNアクセラレータの重みレジスタ(シナプス)とニューロンのソフトエラーを再実行することなく軽減し,低レイテンシとエネルギーオーバーヘッドで精度を維持する手法であるSoftSNNを提案する。 Our SoftSNN methodology employs the following key steps: (1) analyzing the SNN characteristics under soft errors to identify faulty weights and neuron operations, which are required for recognizing faulty SNN behavior; (2) a Bound-and-Protect technique that leverages this analysis to improve the SNN fault tolerance by bounding the weight values and protecting the neurons from faulty operations; and (3) devising lightweight hardware enhancements for the neural hardware accelerator to efficiently support the proposed technique. 実験の結果,高い故障率をもった900ニューロンネットワークの場合,SoftSNNは3%未満の精度低下を維持しつつ,それぞれ3倍,2.3倍の遅延とエネルギー削減を実現していることがわかった。

Specialized hardware accelerators have been designed and employed to maximize the performance efficiency of Spiking Neural Networks (SNNs). However, such accelerators are vulnerable to transient faults (i.e., soft errors), which occur due to high-energy particle strikes, and manifest as bit flips at the hardware layer. These errors can change the weight values and neuron operations in the compute engine of SNN accelerators, thereby leading to incorrect outputs and accuracy degradation. However, the impact of soft errors in the compute engine and the respective mitigation techniques have not been thoroughly studied yet for SNNs. A potential solution is employing redundant executions (re-execution) for ensuring correct outputs, but it leads to huge latency and energy overheads. Toward this, we propose SoftSNN, a novel methodology to mitigate soft errors in the weight registers (synapses) and neurons of SNN accelerators without re-execution, thereby maintaining the accuracy with low latency and energy overheads. Our SoftSNN methodology employs the following key steps: (1) analyzing the SNN characteristics under soft errors to identify faulty weights and neuron operations, which are required for recognizing faulty SNN behavior; (2) a Bound-and-Protect technique that leverages this analysis to improve the SNN fault tolerance by bounding the weight values and protecting the neurons from faulty operations; and (3) devising lightweight hardware enhancements for the neural hardware accelerator to efficiently support the proposed technique. The experimental results show that, for a 900-neuron network with even a high fault rate, our SoftSNN maintains the accuracy degradation below 3%, while reducing latency and energy by up to 3x and 2.3x respectively, as compared to the re-execution technique.
翻訳日:2022-03-11 15:27:01 公開日:2022-03-10
# (参考訳) ランダム線形特徴を持つ過パラメータ回帰のバイアス分散分解 [全文訳有]

Bias-variance decomposition of overparameterized regression with random linear features ( http://arxiv.org/abs/2203.05443v1 )

ライセンス: CC BY 4.0
Jason W. Rocks, Pankaj Mehta(参考訳) 古典統計学において、バイアス分散トレードオフは、モデルの複雑さ(例えば、適合パラメータの数)が正確な予測を行う能力にどのように影響するかを記述する。 このトレードオフによると、モデルがデータのトレンドを捉えるのに十分な表現力を持つ場合に最適なパフォーマンスが達成されるが、トレーニングデータの慣用的な特徴に過度に適合するほど複雑ではない。 近年、このバイアス分散の古典的な理解は、「過剰パラメータモデル」の驚くべき予測性能に照らして、基本的に再検討されなければならないことが明らかになっている。 ここでは、過パラメータ化モデルの最も単純な例の1つとして、ランダムな線形特徴を持つ回帰(線形アクティベーション関数を持つ2層ニューラルネットワーク)を示す。 ゼロ温度キャビティ法を用いて, トレーニング誤差, テスト誤差, バイアス, 分散の解析式を導出する。 線形ランダム特徴モデルは3つの相転移を示す: トレーニング誤差がゼロである補間系への2つの異なる遷移と、バイアスが大きくバイアスが最小な系間の付加的な遷移である。 ランダム行列理論を用いて、ヘッセン行列の小さな非ゼロ固有値によって各遷移がどのように生じるかを示す。 最後に、ランダムな線形特徴モデルの位相図とランダムな非線形特徴モデルと通常の回帰とを比較して、線形基底関数の使用による新たな位相遷移を強調した。

In classical statistics, the bias-variance trade-off describes how varying a model's complexity (e.g., number of fit parameters) affects its ability to make accurate predictions. According to this trade-off, optimal performance is achieved when a model is expressive enough to capture trends in the data, yet not so complex that it overfits idiosyncratic features of the training data. Recently, it has become clear that this classic understanding of the bias-variance must be fundamentally revisited in light of the incredible predictive performance of "overparameterized models" -- models that avoid overfitting even when the number of fit parameters is large enough to perfectly fit the training data. Here, we present results for one of the simplest examples of an overparameterized model: regression with random linear features (i.e. a two-layer neural network with a linear activation function). Using the zero-temperature cavity method, we derive analytic expressions for the training error, test error, bias, and variance. We show that the linear random features model exhibits three phase transitions: two different transitions to an interpolation regime where the training error is zero, along with an additional transition between regimes with large bias and minimal bias. Using random matrix theory, we show how each transition arises due to small nonzero eigenvalues in the Hessian matrix. Finally, we compare and contrast the phase diagram of the random linear features model to the random nonlinear features model and ordinary regression, highlighting the new phase transitions that result from the use of linear basis functions.
翻訳日:2022-03-11 15:26:00 公開日:2022-03-10
# projUNN: ユニタリ行列を用いたディープネットワークの効率的なトレーニング方法

projUNN: efficient method for training deep networks with unitary matrices ( http://arxiv.org/abs/2203.05483v1 )

ライセンス: Link先を確認
Bobak Kiani, Randall Balestriero, Yann Lecun, Seth Lloyd(参考訳) 繰り返しまたは非常に深いフィードフォワードネットワークで学習する場合、各層に一元行列を用いることは、長距離安定性を維持するのに非常に効果的である。 しかし、ネットワークパラメータをユニタリに制限することは、通常、高価なパラメータ化やトレーニングランタイムの増加のコストがかかる。 代わりに、ほぼ最適なトレーニングランタイムでパフォーマンスを維持する、ランク-$k$ 更新 -- またはランク-$k$近似 -- に基づく効率的なメソッドを提案します。 本手法の2つの変種である Direct (projUNN-D) と Tangent (projUNN-T) は、フル$N$次元のユニタリ行列や直交行列を$O(kN^2)$としてパラメータ化することができる。 本手法は, 最寄りのユニタリ行列 (projUNN-T) に低ランク勾配を投影するか, 低ランク勾配 (projUNN-D) の方向にユニタリ行列を輸送する。 最速設定(k=1$)であっても、projunnはモデルのユニタリパラメータをトレーニングして、ベースライン実装と同等のパフォーマンスに達することができる。 ProjUNNアルゴリズムをリカレントニューラルネットワークと畳み込みニューラルネットワークの両方に統合することで、我々のモデルは最先端のアルゴリズムのベンチマーク結果と密に一致または超えることができる。

In learning with recurrent or very deep feed-forward networks, employing unitary matrices in each layer can be very effective at maintaining long-range stability. However, restricting network parameters to be unitary typically comes at the cost of expensive parameterizations or increased training runtime. We propose instead an efficient method based on rank-$k$ updates -- or their rank-$k$ approximation -- that maintains performance at a nearly optimal training runtime. We introduce two variants of this method, named Direct (projUNN-D) and Tangent (projUNN-T) projected Unitary Neural Networks, that can parameterize full $N$-dimensional unitary or orthogonal matrices with a training runtime scaling as $O(kN^2)$. Our method either projects low-rank gradients onto the closest unitary matrix (projUNN-T) or transports unitary matrices in the direction of the low-rank gradient (projUNN-D). Even in the fastest setting ($k=1$), projUNN is able to train a model's unitary parameters to reach comparable performances against baseline implementations. By integrating our projUNN algorithm into both recurrent and convolutional neural networks, our models can closely match or exceed benchmarked results from state-of-the-art algorithms.
翻訳日:2022-03-11 14:43:10 公開日:2022-03-10
# コンテキストはすべて:動的適応のための暗黙の識別

Context is Everything: Implicit Identification for Dynamics Adaptation ( http://arxiv.org/abs/2203.05549v1 )

ライセンス: Link先を確認
Ben Evans, Abitha Thankaraj, Lerrel Pinto(参考訳) ロボットが安全に最適な行動をとるためには、環境力学を理解する必要がある。 現実的なシナリオでは、ダイナミクスは定常的ではなく、環境パラメータなどの因果変数はトレーニング中にも正確に測定または推測することはできない。 本研究では,環境変動に適応する予測モデルを実現するための簡易な手法であるインプリシット同定法(IIDA)を提案する。 IIDAは、世界の真のバリエーションへのアクセスを前提とせず、少数のコンテキストデータから環境の特性を暗黙的に推論する。 我々は,ミュージョコ環境のシミュレーション実験と実ロボットの動的スライディングタスクにより,iiidaの非知覚環境における良好な性能を実証する。 一般に、IIDAはモデルエラーを著しく低減し、一般的に使われているメソッドよりも高いタスク性能をもたらす。 私たちのコードとロボットビデオはhttps://bennevans.gi thub.io/iida/にある。

Understanding environment dynamics is necessary for robots to act safely and optimally in the world. In realistic scenarios, dynamics are non-stationary and the causal variables such as environment parameters cannot necessarily be precisely measured or inferred, even during training. We propose Implicit Identification for Dynamics Adaptation (IIDA), a simple method to allow predictive models to adapt to changing environment dynamics. IIDA assumes no access to the true variations in the world and instead implicitly infers properties of the environment from a small amount of contextual data. We demonstrate IIDA's ability to perform well in unseen environments through a suite of simulated experiments on MuJoCo environments and a real robot dynamic sliding task. In general, IIDA significantly reduces model error and results in higher task performance over commonly used methods. Our code and robot videos are at https://bennevans.gi thub.io/iida/
翻訳日:2022-03-11 14:42:45 公開日:2022-03-10
# 異なるプライベートな学習は、隠れた状態(あるいははるかに高速な収束)を必要とする

Differentially Private Learning Needs Hidden State (Or Much Faster Convergence) ( http://arxiv.org/abs/2203.05363v1 )

ライセンス: Link先を確認
Jiayuan Ye, Reza Shokri(参考訳) ランダム化学習アルゴリズムの微分プライバシー解析は通常合成定理に依存するが、暗黙の仮定では反復アルゴリズムの内部状態が敵に明らかにされる。 しかし、DPアルゴリズムの隠れ状態(最終項目のみが観測可能である場合)を仮定することにより、最近の研究は、O(1/\text{step-size})$ epochsの後の構成境界よりもはるかに小さいノイズ勾配降下(強い凸滑らかな損失関数)に対する収束プライバシーを証明している。 本稿では,この隠れ状態解析を,強凸滑らかな損失関数に対する微小バッチ確率勾配降下アルゴリズムに拡張する。 DP-SGDの実践的な実装であるシャッフル・アンド・パーティション(シャッフル・アンド・パーティション)や「交換なしサンプリング」など,様々なミニバッチサンプリングスキームの下でR\enyi DP境界を収束させることを実証する。 これらの設定では、私たちのプライバシ境界が、多数のイテレーション(高次元データから学ぶ場合)でトレーニングを行うための構成よりもはるかに小さいことを証明しています。 私たちの収束するプライバシー分析は、差分的にプライベートな学習は、厳密な拘束力を持って、隠れた状態のプライバシー分析または高速な収束を必要とすることを示している。 理論的結果の補完として,MNIST,FMNIST,CIFAR- 10データセットのトレーニング分類モデルを実験し,固定されたプライバシー予算が与えられた場合,隠れ状態解析の下でより正確な精度を観察する。

Differential privacy analysis of randomized learning algorithms typically relies on composition theorems, where the implicit assumption is that the internal state of the iterative algorithm is revealed to the adversary. However, by assuming hidden states for DP algorithms (when only the last-iterate is observable), recent works prove a converging privacy bound for noisy gradient descent (on strongly convex smooth loss function) that is significantly smaller than composition bounds after $O(1/\text{step-size})$ epochs. In this paper, we extend this hidden-state analysis to the noisy mini-batch stochastic gradient descent algorithms on strongly-convex smooth loss functions. We prove converging R\'enyi DP bounds under various mini-batch sampling schemes, such as "shuffle and partition" (which are used in practical implementations of DP-SGD) and "sampling without replacement". We prove that, in these settings, our privacy bound is much smaller than the composition bound for training with a large number of iterations (which is the case for learning from high-dimensional data). Our converging privacy analysis, thus, shows that differentially private learning, with a tight bound, needs hidden state privacy analysis or a fast convergence. To complement our theoretical results, we run experiment on training classification models on MNIST, FMNIST and CIFAR-10 datasets, and observe a better accuracy given fixed privacy budgets, under the hidden-state analysis.
翻訳日:2022-03-11 14:42:29 公開日:2022-03-10
# ガウス過程回帰における滑らか度パラメータ推定のための漸近境界

Asymptotic Bounds for Smoothness Parameter Estimates in Gaussian Process Regression ( http://arxiv.org/abs/2203.05400v1 )

ライセンス: Link先を確認
Toni Karvonen(参考訳) コンピュータ実験の出力のような決定論的応答関数をマット・エルン共分散核を持つガウス過程としてモデル化するのが一般的である。 mat\'ernカーネルの滑らかさパラメータは、応答関数に対する条件付き平均の収束率など、大きなデータ限界におけるモデルの多くの重要な特性を決定する。 我々は、データが$\mathbb{r}^d$ の固定有界部分集合上で得られるとき、滑らか性パラメータの最大確率とクロスバリデーション推定は漸近的に真理を覆すことができないことを証明した。 つまり、データ生成応答関数が sobolev smoothness $\nu_0 + d/2$ を持つならば、より多くのデータが得られれば、滑らかさパラメータの推定値は $\nu_0$ 以下となることはない。 これらの結果は一般定理に基づくもので、カーネルヒルベルト空間法を用いて証明され、パラメータ推定が取れない値の集合とソボレフ空間における近似理論についてである。

It is common to model a deterministic response function, such as the output of a computer experiment, as a Gaussian process with a Mat\'ern covariance kernel. The smoothness parameter of a Mat\'ern kernel determines many important properties of the model in the large data limit, such as the rate of convergence of the conditional mean to the response function. We prove that the maximum likelihood and cross-validation estimates of the smoothness parameter cannot asymptotically undersmooth the truth when the data are obtained on a fixed bounded subset of $\mathbb{R}^d$. That is, if the data-generating response function has Sobolev smoothness $\nu_0 + d/2$, then the smoothness parameter estimates cannot remain below $\nu_0$ as more data are obtained. These results are based on a general theorem, proved using reproducing kernel Hilbert space techniques, about sets of values the parameter estimates cannot take and approximation theory in Sobolev spaces.
翻訳日:2022-03-11 14:41:57 公開日:2022-03-10
# 微分プライバシーにおける完全適応構成

Fully Adaptive Composition in Differential Privacy ( http://arxiv.org/abs/2203.05481v1 )

ライセンス: Link先を確認
Justin Whitehouse and Aaditya Ramdas and Ryan Rogers and Zhiwei Steven Wu(参考訳) 構成は差分プライバシーの重要な特徴である。 よく知られている高度な合成定理は、プライバシの基本的な構成が許すよりも2倍の頻度でプライベートデータベースをクエリできる。 しかし、これらの結果は、すべてのアルゴリズムのプライバシパラメータをデータとやりとりする前に修正する必要がある。 これを解決するためにRogersらは、アルゴリズムとプライバシパラメータの両方を適応的に選択できる完全適応型合成を導入した。 著者らは、適応的な構成でプライバシを測定するための2つの確率的オブジェクトを紹介した。プライバシーフィルタは、構成されたインタラクションに対する異なるプライバシ保証を提供する。 高度な合成と既存のフィルターとオドメーターの間には大きなギャップがある。 まず、既存のフィルタは、構成されるアルゴリズムに強い仮定を与える。 第二に、これらのオドメータとフィルターは大きな定数に苦しめられ、実用的でない。 適応的に選択されたプライバシパラメータが許されているにもかかわらず、定数を含む高度な構成の厳密さに適合するフィルタを構築する。 また、オドメーターの一般的なファミリーもいくつか構築する。 これらのオドメータは、任意の、事前選択された時点、あるいは全ての時点において、二重対数係数まで、高度な組成のタイトネスを一致させることができる。 我々は, 時間均一マルティンゲール濃度の最近の進歩を利用して, 結果を得た。 結論として,完全適応プライバシは損失がほとんどなく取得可能であり,その結果は(定数においても)本質的に改善不可能である,と推測する。

Composition is a key feature of differential privacy. Well-known advanced composition theorems allow one to query a private database quadratically more times than basic privacy composition would permit. However, these results require that the privacy parameters of all algorithms be fixed before interacting with the data. To address this, Rogers et al. introduced fully adaptive composition, wherein both algorithms and their privacy parameters can be selected adaptively. The authors introduce two probabilistic objects to measure privacy in adaptive composition: privacy filters, which provide differential privacy guarantees for composed interactions, and privacy odometers, time-uniform bounds on privacy loss. There are substantial gaps between advanced composition and existing filters and odometers. First, existing filters place stronger assumptions on the algorithms being composed. Second, these odometers and filters suffer from large constants, making them impractical. We construct filters that match the tightness of advanced composition, including constants, despite allowing for adaptively chosen privacy parameters. We also construct several general families of odometers. These odometers can match the tightness of advanced composition at an arbitrary, preselected point in time, or at all points in time simultaneously, up to a doubly-logarithmic factor. We obtain our results by leveraging recent advances in time-uniform martingale concentration. In sum, we show that fully adaptive privacy is obtainable at almost no loss, and conjecture that our results are essentially unimprovable (even in constants) in general.
翻訳日:2022-03-11 14:41:36 公開日:2022-03-10
# 英語マスク語モデルにおける種族言語と非ヒト動物バイアス

Speciesist Language and Nonhuman Animal Bias in English Masked Language Models ( http://arxiv.org/abs/2203.05140v1 )

ライセンス: Link先を確認
Masashi Takeshita and Rafal Rzepka and Kenji Araki(参考訳) 既存の様々な研究は、NLPモデルによってどのような社会的バイアスが受け継がれているかを分析してきた。 これらのバイアスは直接的または間接的に人を傷つける可能性があるため、以前の研究は人的属性のみに焦点を当ててきた。 NLPモデルの社会的バイアスが人間に間接的に有害である場合、モデルが間接的に非ヒト動物に害を与えることもある。 しかし、最近までNLPにおける非ヒトに関する社会的偏見の研究は存在しなかった。 本稿では,非ヒト動物,すなわち英語のマスキング言語モデルに内在する種主義者バイアスに対するバイアスを分析する。 このバイアスを、種族主義(または非種族主義)言語を含むテンプレートベースおよびコーパス抽出文を用いて分析し、有害な単語と非ヒト動物を関連付ける傾向を示す。 実験を再現するためのコードはgithubで入手できる予定です。

Various existing studies have analyzed what social biases are inherited by NLP models. These biases may directly or indirectly harm people, therefore previous studies have focused only on human attributes. If the social biases in NLP models can be indirectly harmful to humans involved, then the models can also indirectly harm nonhuman animals. However, until recently no research on social biases in NLP regarding nonhumans existed. In this paper, we analyze biases to nonhuman animals, i.e. speciesist bias, inherent in English Masked Language Models. We analyze this bias using template-based and corpus-extracted sentences which contain speciesist (or non-speciesist) language, to show that these models tend to associate harmful words with nonhuman animals. Our code for reproducing the experiments will be made available on GitHub.
翻訳日:2022-03-11 14:40:28 公開日:2022-03-10
# 共同エンティティアライメントとダンピングエンティティ検出のための高精度な教師なし手法

An Accurate Unsupervised Method for Joint Entity Alignment and Dangling Entity Detection ( http://arxiv.org/abs/2203.05147v1 )

ライセンス: Link先を確認
Shengxuan Luo, Sheng Yu(参考訳) 知識グラフの統合は通常、アライメント・クロス・ナレッジグラフ(KG)を見つけることができない広く存在するダングリングエンティティに悩まされる。 ダングリングエンティティセットは現実世界のほとんどのシナリオでは利用できず、同じ意味を持つエンティティで構成されたエンティティペアを手作業でマイニングする。 本稿では,DAD(Dangling entity detection, DED)とEA(Content Entityアライメント)を併用した新しいUnsupervised法を提案する。 UEDは、リテラル意味情報をマイニングして擬似エンティティペアを生成し、グローバルにEAのアライメント情報を導出し、EA結果を利用してDEDを支援する。 我々は、医療用言語間知識グラフデータセットMedEDを構築し、EAタスクとDEDタスクの両方にデータを提供する。 UEDはEAタスクにおいて、最先端のEAベースラインに匹敵するEA結果を達成し、管理されたEAデータを組み合わせることで現在の最先端のEAメソッドを上回る性能を発揮することを実証している。 DEDタスクでは、UDEは監督なしで高品質な結果を得る。

Knowledge graph integration typically suffers from the widely existing dangling entities that cannot find alignment cross knowledge graphs (KGs). The dangling entity set is unavailable in most real-world scenarios, and manually mining the entity pairs that consist of entities with the same meaning is labor-consuming. In this paper, we propose a novel accurate Unsupervised method for joint Entity alignment (EA) and Dangling entity detection (DED), called UED. The UED mines the literal semantic information to generate pseudo entity pairs and globally guided alignment information for EA and then utilizes the EA results to assist the DED. We construct a medical cross-lingual knowledge graph dataset, MedED, providing data for both the EA and DED tasks. Extensive experiments demonstrate that in the EA task, UED achieves EA results comparable to those of state-of-the-art supervised EA baselines and outperforms the current state-of-the-art EA methods by combining supervised EA data. For the DED task, UED obtains high-quality results without supervision.
翻訳日:2022-03-11 14:39:36 公開日:2022-03-10
# 神経機械翻訳のための双方向デコーダを用いた自己認識蒸留

Look Backward and Forward: Self-Knowledge Distillation with Bidirectional Decoder for Neural Machine Translation ( http://arxiv.org/abs/2203.05248v1 )

ライセンス: Link先を確認
Xuanwei Zhang and Libin Shen and Disheng Pan and Liang Wang and Yanjun Miao(参考訳) ニューラルネットワーク翻訳(NMT)モデルは通常、一方向デコーダを用いて訓練される。 しかしながら、このような一方向のデコーディングフレームワークは、グローバルコヒーレンスではなく、局所的な構造にフォーカスする傾向がある。 この問題を軽減するために,ニューラルマシン翻訳のための双方向デコーダを用いた自己知識蒸留法(SBD-NMT)を提案する。 我々は、フォワードデコーダに効果的な正規化手法として機能する後方デコーダをデプロイする。 長期的未来に関する後方デコーダの情報を活用することで、後方デコーダで学んだ知識を蒸留することで、自動回帰NMTモデルを先進的な計画に導くことができる。 実験の結果,複数機械翻訳データセットの強変圧器ベースラインよりも有意に優れていることがわかった。 私たちのコードはもうすぐgithubでリリースされるでしょう。

Neural Machine Translation(NMT) models are usually trained via unidirectional decoder which corresponds to optimizing one-step-ahead prediction. However, this kind of unidirectional decoding framework may incline to focus on local structure rather than global coherence. To alleviate this problem, we propose a novel method, Self-Knowledge Distillation with Bidirectional Decoder for Neural Machine Translation(SBD-NMT) . We deploy a backward decoder which can act as an effective regularization method to the forward decoder. By leveraging the backward decoder's information about the longer-term future, distilling knowledge learned in the backward decoder can encourage auto-regressive NMT models to plan ahead. Experiments show that our method is significantly better than the strong Transformer baselines on multiple machine translation data sets. Our codes will be released on github soon.
翻訳日:2022-03-11 14:39:16 公開日:2022-03-10
# OpenTAL: 時間的行動ローカライゼーションのオープン化を目指す

OpenTAL: Towards Open Set Temporal Action Localization ( http://arxiv.org/abs/2203.05114v1 )

ライセンス: Link先を確認
Wentao Bao, Qi Yu, Yu Kong(参考訳) 時間的行動局在 (tal) は教師付き学習パラダイムの下で著しく成功した。 しかし、既存のtalメソッドは、オープンワールドシナリオにおいて避けられない未知のアクションを処理できない閉集合の仮定に根ざしている。 本稿では,まず,オープン・セット・メタル(OSTAL)問題への一歩を踏み出し,エビデンシャル・ディープ・ラーニング(EDL)に基づく一般フレームワークOpenTALを提案する。 具体的には、opentalは不確実性対応行動分類、行動性予測、時間的位置回帰からなる。 重要度バランスedl法では,重要なサンプルからカテゴリー的証拠を収集することで分類の不確かさを学習する。 背景映像フレームから未知の動作を識別するために、正の未ラベル学習によって行動性が学習される。 この分類の不確かさは, 時間的局所化品質の指導を活かしてさらに校正される。 opental はオープンセットシナリオのための既存のtalモデルを可能にするために一般的であり、thums14 と activitynet1.3 ベンチマークの実験結果は本手法の有効性を示している。 コードと事前トレーニングされたモデルは、https://www.rit.edu/ actionlab/opentalでリリースされている。

Temporal Action Localization (TAL) has experienced remarkable success under the supervised learning paradigm. However, existing TAL methods are rooted in the closed set assumption, which cannot handle the inevitable unknown actions in open-world scenarios. In this paper, we, for the first time, step toward the Open Set TAL (OSTAL) problem and propose a general framework OpenTAL based on Evidential Deep Learning (EDL). Specifically, the OpenTAL consists of uncertainty-aware action classification, actionness prediction, and temporal location regression. With the proposed importance-balanced EDL method, classification uncertainty is learned by collecting categorical evidence majorly from important samples. To distinguish the unknown actions from background video frames, the actionness is learned by the positive-unlabeled learning. The classification uncertainty is further calibrated by leveraging the guidance from the temporal localization quality. The OpenTAL is general to enable existing TAL models for open set scenarios, and experimental results on THUMOS14 and ActivityNet1.3 benchmarks show the effectiveness of our method. The code and pre-trained models are released at https://www.rit.edu/ actionlab/opental.
翻訳日:2022-03-11 14:36:31 公開日:2022-03-10
# MetAug: メタ機能拡張によるコントラスト学習

MetAug: Contrastive Learning via Meta Feature Augmentation ( http://arxiv.org/abs/2203.05119v1 )

ライセンス: Link先を確認
Jiangmeng Li, Wenwen Qiang, Changwen Zheng, Bing Su, Hui Xiong(参考訳) 対照的な学習とは何か? 対照的な学習は情報的特徴、すなわち「堅い」(正または負の)特徴に大きく依存していると我々は主張する。 初期の作品には、複雑なデータ拡張と大規模なバッチサイズやメモリバンクを適用することで、より有益な機能が含まれている。 このような特徴を探求する上での鍵となる課題は、ランダムなデータ拡張を適用することで、ソースのマルチビューデータが生成されることである。 これにより、このような拡張データから得られた特徴の情報性が制限される。 そこで本研究では,潜在空間における特徴を直接拡張し,大量の入力データなしで識別表現を学習することを提案する。 我々は,エンコーダの性能を考慮し,そのネットワークパラメータを更新する拡張ジェネレータを構築するメタ学習手法を実行する。 しかし、入力データが不十分なため、エンコーダは崩壊した特徴を学習し、拡張生成器を誤動作させる可能性がある。 退化写像を学習するエンコーダを避けるため、目的関数に新たなマージンインジェクション正規化が追加される。 1つの勾配バックプロパゲーションステップで全ての特徴を対比するために、従来のコントラスト損失ではなく最適化駆動型統一コントラスト損失を採用する。 本手法は,いくつかのベンチマークデータセットにおいて最先端の結果を得る。

What matters for contrastive learning? We argue that contrastive learning heavily relies on informative features, or "hard" (positive or negative) features. Early works include more informative features by applying complex data augmentations and large batch size or memory bank, and recent works design elaborate sampling approaches to explore informative features. The key challenge toward exploring such features is that the source multi-view data is generated by applying random data augmentations, making it infeasible to always add useful information in the augmented data. Consequently, the informativeness of features learned from such augmented data is limited. In response, we propose to directly augment the features in latent space, thereby learning discriminative representations without a large amount of input data. We perform a meta learning technique to build the augmentation generator that updates its network parameters by considering the performance of the encoder. However, insufficient input data may lead the encoder to learn collapsed features and therefore malfunction the augmentation generator. A new margin-injected regularization is further added in the objective function to avoid the encoder learning a degenerate mapping. To contrast all features in one gradient back-propagation step, we adopt the proposed optimization-driven unified contrastive loss instead of the conventional contrastive loss. Empirically, our method achieves state-of-the-art results on several benchmark datasets.
翻訳日:2022-03-11 14:36:13 公開日:2022-03-10
# 適応的オートアタックによる対向ロバスト性の評価

Practical Evaluation of Adversarial Robustness via Adaptive Auto Attack ( http://arxiv.org/abs/2203.05154v1 )

ライセンス: Link先を確認
Ye Liu, Yaya Cheng, Lianli Gao, Xianglong Liu, Qilong Zhang, Jingkuan Song(参考訳) 敵攻撃に対する防衛モデルは著しく成長しているが、実用的評価方法の欠如は進歩を妨げている。 評価は、予算の反復数とテストデータセットを考えると、防衛モデルのロバスト性の下限を求めるものとして定義できる。 実用的な評価方法は便利(パラメータフリー)、効率的(イテレーションが少ない)、信頼性(ロバスト性の下限に近づく)である。 この目標に向けて,テスト時間学習の効率と信頼性に対処したパラメータフリー適応オートアタック(a$^3$)評価手法を提案する。 具体的には、特定の防御モデルに対する敵の例が開始点のいくつかの規則に従うことを観察することで、評価を高速化するために適応方向初期化戦略を設計する。 さらに, 繰り返し回数の少ないロバスト性の下限に近づくために, オンライン統計ベースの廃棄戦略を提案し, 攻撃困難な画像を自動的に識別し, 放棄する。 大規模な実験は、我々のA$^3$の有効性を示す。 特に、A$^3$を50近い広く使われている防衛モデルに適用する。 既存のメソッドよりもずっと少ないイテレーション、すなわち平均で1/10ドル(10$\times$ speed up)を消費することで、すべてのケースでロバストな精度が低下します。 特に、cvpr 2021で1681チームから$\textbf{first place}$を獲得しました。 コードは、$\href{https://github.com/l iuye6666/adaptive_au to_attack}{https://github.com/l iuye6666/adaptive\_a uto\_attack}$で入手できる。

Defense models against adversarial attacks have grown significantly, but the lack of practical evaluation methods has hindered progress. Evaluation can be defined as looking for defense models' lower bound of robustness given a budget number of iterations and a test dataset. A practical evaluation method should be convenient (i.e., parameter-free), efficient (i.e., fewer iterations) and reliable (i.e., approaching the lower bound of robustness). Towards this target, we propose a parameter-free Adaptive Auto Attack (A$^3$) evaluation method which addresses the efficiency and reliability in a test-time-training fashion. Specifically, by observing that adversarial examples to a specific defense model follow some regularities in their starting points, we design an Adaptive Direction Initialization strategy to speed up the evaluation. Furthermore, to approach the lower bound of robustness under the budget number of iterations, we propose an online statistics-based discarding strategy that automatically identifies and abandons hard-to-attack images. Extensive experiments demonstrate the effectiveness of our A$^3$. Particularly, we apply A$^3$ to nearly 50 widely-used defense models. By consuming much fewer iterations than existing methods, i.e., $1/10$ on average (10$\times$ speed up), we achieve lower robust accuracy in all cases. Notably, we won $\textbf{first place}$ out of 1681 teams in CVPR 2021 White-box Adversarial Attacks on Defense Models competitions with this method. Code is available at: $\href{https://github.com/l iuye6666/adaptive_au to_attack}{https://github.com/l iuye6666/adaptive\_a uto\_attack}$
翻訳日:2022-03-11 14:35:49 公開日:2022-03-10
# MVP:マルチモーダル誘導型ビジュアル事前トレーニング

MVP: Multimodality-guided Visual Pre-training ( http://arxiv.org/abs/2203.05175v1 )

ライセンス: Link先を確認
Longhui Wei, Lingxi Xie, Wengang Zhou, Houqiang Li, Qi Tian(参考訳) 近年,マスク付き画像モデリング(MIM)が視覚前訓練の有望な方向となっている。 視覚変換器の文脈では、MIMはトークンレベルの特徴を予め定義された空間に整列させることで効果的な視覚表現を学ぶ(例えば、BEITは大きな画像コーパスで訓練されたd-VAEをトークン化器として使用した)。 本稿では,他のモダリティからのガイダンスを導入し,その知識が視覚的事前学習において印象的な成果をもたらすことを検証し,さらに一歩前進する。 提案手法はmultimodality-guided visual pre-training (mvp) と呼ばれ、4億のイメージテキストペアで事前学習された視覚言語モデルである clip の vision branch にトークン化器を置き換える。 本研究では,vitモデルをimagenet上で事前学習し,下流の視覚認識タスクで微調整することにより,mvpの有効性を示す。 特に300エポックのViT-Base/16の事前トレーニングにおいて、MVPはADE20Kの52.4% mIoUを報告し、BEIT(ベースラインと以前の最先端技術)を6.8%で上回った。

Recently, masked image modeling (MIM) has become a promising direction for visual pre-training. In the context of vision transformers, MIM learns effective visual representation by aligning the token-level features with a pre-defined space (e.g., BEIT used a d-VAE trained on a large image corpus as the tokenizer). In this paper, we go one step further by introducing guidance from other modalities and validating that such additional knowledge leads to impressive gains for visual pre-training. The proposed approach is named Multimodality-guided Visual Pre-training (MVP), in which we replace the tokenizer with the vision branch of CLIP, a vision-language model pre-trained on 400 million image-text pairs. We demonstrate the effectiveness of MVP by performing standard experiments, i.e., pre-training the ViT models on ImageNet and fine-tuning them on a series of downstream visual recognition tasks. In particular, pre-training ViT-Base/16 for 300 epochs, MVP reports a 52.4% mIoU on ADE20K, surpassing BEIT (the baseline and previous state-of-the-art) with an impressive margin of 6.8%.
翻訳日:2022-03-11 14:35:20 公開日:2022-03-10
# ラベル対プロトタイプ学習によるオープンセットテキスト認識

Towards Open-Set Text Recognition via Label-to-Prototype Learning ( http://arxiv.org/abs/2203.05179v1 )

ライセンス: Link先を確認
Chang Liu, Chun Yang, Hai-Bo Qin, Xiaobin Zhu, JieBo Hou, and Xu-Cheng Yin(参考訳) シーンテキスト認識は人気のあるトピックであり、様々なタスクに役立てることができる。 クローズセットのテキスト認識課題に対して多くの手法が提案されているが、評価セットがトレーニングセットに現れない新しい文字を含むオープンセットシナリオに直接適用することはできない。 従来の方法では新しいデータを集め、これらの新しい文字を扱うためにモデルを再トレーニングする必要があります。 本稿では,モデルを再学習することなく,新しい文字を扱えるラベル-プロトタイプ学習フレームワークを提案する。 提案フレームワークでは,新しい文字をラベル-プロトタイプ学習モジュールを用いて,対応するプロトタイプに効果的にマッピングする。 このモジュールはラベルのある文字で訓練されており、新しい文字に簡単に一般化することができる。 さらに、特徴レベルの修正はトポロジ保存変換によって行われ、結果として視覚的特徴と構築されたプロトタイプとの整合性が向上し、モデル速度に適度に小さな影響を及ぼす。 多くの実験により,ゼロショット,クローズセット,オープンセットのテキスト認識データセットで有望な性能が得られることが示された。

Scene text recognition is a popular topic and can benefit various tasks. Although many methods have been proposed for the close-set text recognition challenges, they cannot be directly applied to open-set scenarios, where the evaluation set contains novel characters not appearing in the training set. Conventional methods require collecting new data and retraining the model to handle these novel characters, which is an expensive and tedious process. In this paper, we propose a label-to-prototype learning framework to handle novel characters without retraining the model. In the proposed framework, novel characters are effectively mapped to their corresponding prototypes with a label-to-prototype learning module. This module is trained on characters with seen labels and can be easily generalized to novel characters. Additionally, feature-level rectification is conducted via topology-preserving transformation, resulting in better alignments between visual features and constructed prototypes while having a reasonably small impact on model speed. A lot of experiments show that our method achieves promising performance on a variety of zero-shot, close-set, and open-set text recognition datasets.
翻訳日:2022-03-11 14:34:55 公開日:2022-03-10
# 効果的な事前学習としての知識蒸留:より高速な収束、データ効率の向上、伝達性の向上

Knowledge Distillation as Efficient Pre-training: Faster Convergence, Higher Data-efficiency, and Better Transferability ( http://arxiv.org/abs/2203.05180v1 )

ライセンス: Link先を確認
Ruifei He, Shuyang Sun, Jihan Yang, Song Bai and Xiaojuan Qi(参考訳) 大規模事前学習は様々なコンピュータビジョンタスクに不可欠であることが証明されている。 しかし、事前学習データ量、モデルアーキテクチャ量、プライベート/アクセス不能データの増加により、大規模データセット上ですべてのモデルアーキテクチャを事前トレーニングすることは、あまり効率的・不可能である。 本研究では,学習した特徴表現を既存の事前学習モデルから,将来的な下流タスクのための新しい学生モデルへ効率的に伝達することを目的とした,事前学習のための代替戦略である知識蒸留(KDEP)について検討する。 既存の知識蒸留(KD)法は,下流のタスクに移行した場合に廃棄されるロジットを通常蒸留するため,事前学習には適さない。 この問題を解決するために,非パラメトリックな特徴次元アライメントを有する特徴量に基づくKD法を提案する。 特に,3つのダウンストリームタスクと9つのダウンストリームデータセットで教師付き事前トレーニングを行う場合,10倍のデータと5倍の事前トレーニング時間が必要となる。 コードはhttps://github.com/C VMI-Lab/KDEPで入手できる。

Large-scale pre-training has been proven to be crucial for various computer vision tasks. However, with the increase of pre-training data amount, model architecture amount, and the private/inaccessible data, it is not very efficient or possible to pre-train all the model architectures on large-scale datasets. In this work, we investigate an alternative strategy for pre-training, namely Knowledge Distillation as Efficient Pre-training (KDEP), aiming to efficiently transfer the learned feature representation from existing pre-trained models to new student models for future downstream tasks. We observe that existing Knowledge Distillation (KD) methods are unsuitable towards pre-training since they normally distill the logits that are going to be discarded when transferred to downstream tasks. To resolve this problem, we propose a feature-based KD method with non-parametric feature dimension aligning. Notably, our method performs comparably with supervised pre-training counterparts in 3 downstream tasks and 9 downstream datasets requiring 10x less data and 5x less pre-training time. Code is available at https://github.com/C VMI-Lab/KDEP.
翻訳日:2022-03-11 14:33:14 公開日:2022-03-10
# NeRFocus:3次元合成デフォーカスのための神経放射場

NeRFocus: Neural Radiance Field for 3D Synthetic Defocus ( http://arxiv.org/abs/2203.05189v1 )

ライセンス: Link先を確認
Yinhuai Wang, Shuzhou Yang, Yujie Hu and Jian Zhang(参考訳) ニューラルレイディアンス場(NeRF)は3次元インタラクティブ体験のための新しい波をもたらす。 しかし、没入体験の重要な部分として、デフォーカス効果はNeRF内で完全には研究されていない。 近年のNeRF法では, 多面体技術を利用して3次元デフォーカス効果を後処理で生成している。 それでも、それらは時間消費かメモリ消費のいずれかです。 本稿では,NeRFocusと呼ばれる様々な3次元デフォーカス効果を直接レンダリングできる,薄膜イメージングベースの新しいNeRFフレームワークを提案する。 ピンホールとは異なり、薄いレンズはシーンポイントの光を屈折させるので、センサー面上のイメージングは混乱の円(CoC)として散乱する。 この過程を近似するのに十分な光線をサンプリングする直接解法は計算に高価である。 代わりに,センサ面上の各点のビームパスを明示的にモデル化し,このパラダイムを各画素のビームパスに一般化し,フラストムベースのボリュームレンダリングを用いて各画素のビームパスを描画する。 さらに,効率の良い確率的トレーニング(p-training)戦略を考案し,トレーニングプロセスを大幅に単純化する。 我々のNeRFocusは、調整可能なカメラポーズ、焦点距離、開口サイズで様々な3Dデフォーカス効果を達成できることを示した。 既存のNeRFは,フィールド深度画像の描画に開口径を0に設定することで,我々の特別な場合とみなすことができる。 このような利点にもかかわらず、NeRFocusはNeRFの本来の性能(例えば、トレーニングと推論時間、パラメータ消費、レンダリング品質)を犠牲にしていない。

Neural radiance fields (NeRF) bring a new wave for 3D interactive experiences. However, as an important part of the immersive experiences, the defocus effects have not been fully explored within NeRF. Some recent NeRF-based methods generate 3D defocus effects in a post-process fashion by utilizing multiplane technology. Still, they are either time-consuming or memory-consuming. This paper proposes a novel thin-lens-imaging-ba sed NeRF framework that can directly render various 3D defocus effects, dubbed NeRFocus. Unlike the pinhole, the thin lens refracts rays of a scene point, so its imaging on the sensor plane is scattered as a circle of confusion (CoC). A direct solution sampling enough rays to approximate this process is computationally expensive. Instead, we propose to inverse the thin lens imaging to explicitly model the beam path for each point on the sensor plane and generalize this paradigm to the beam path of each pixel, then use the frustum-based volume rendering to render each pixel's beam path. We further design an efficient probabilistic training (p-training) strategy to simplify the training process vastly. Extensive experiments demonstrate that our NeRFocus can achieve various 3D defocus effects with adjustable camera pose, focus distance, and aperture size. Existing NeRF can be regarded as our special case by setting aperture size as zero to render large depth-of-field images. Despite such merits, NeRFocus does not sacrifice NeRF's original performance (e.g., training and inference time, parameter consumption, rendering quality), which implies its great potential for broader application and further improvement.
翻訳日:2022-03-11 14:32:54 公開日:2022-03-10
# 相互蒸留によるオンライン深層計量学習

Online Deep Metric Learning via Mutual Distillation ( http://arxiv.org/abs/2203.05201v1 )

ライセンス: Link先を確認
Gao-Dong Liu, Wan-Lei Zhao, Jie Zhao(参考訳) ディープ・メトリック・ラーニング(Deep metric learning)は、入力データを埋め込み空間に変換することを目的としており、類似したサンプルが近接し、異種サンプルが互いに遠く離れている。 実際には、新しいカテゴリのサンプルが徐々に到着し、学習モデルの定期的な拡張を必要とする。 新しいカテゴリーの微調整は、通常「破滅的な忘れ物」として知られる古いカテゴリのパフォーマンスの低下につながる。 既存のソリューションは、スクラッチからモデルをリトレーニングするか、トレーニング中に古いサンプルをリプレイする必要がある。 本稿では,1タスクシナリオとマルチタスクシナリオの相互蒸留に基づく,完全なオンラインディープメトリック学習フレームワークを提案する。 教師と教師の枠組みとは異なり、提案されたアプローチは、古い学習タスクと新しい学習タスクを等しく扱う。 古い知識や新しい知識に対する選好は起こらない。 また,古いモデルから抽出されたと考えられる特徴を復元するために,新しい仮想特徴量推定手法を提案する。 これは、古いトレーニングサンプルの再生や、トレーニング中に古いモデルの保持なしに、新しいモデルと古いモデルの蒸留を可能にする。 総合的な研究は、異なるバックボーンのサポートによるアプローチの優れたパフォーマンスを示している。

Deep metric learning aims to transform input data into an embedding space, where similar samples are close while dissimilar samples are far apart from each other. In practice, samples of new categories arrive incrementally, which requires the periodical augmentation of the learned model. The fine-tuning on the new categories usually leads to poor performance on the old, which is known as "catastrophic forgetting". Existing solutions either retrain the model from scratch or require the replay of old samples during the training. In this paper, a complete online deep metric learning framework is proposed based on mutual distillation for both one-task and multi-task scenarios. Different from the teacher-student framework, the proposed approach treats the old and new learning tasks with equal importance. No preference over the old or new knowledge is caused. In addition, a novel virtual feature estimation approach is proposed to recover the features assumed to be extracted by the old models. It allows the distillation between the new and the old models without the replay of old training samples or the holding of old models during the training. A comprehensive study shows the superior performance of our approach with the support of different backbones.
翻訳日:2022-03-11 14:32:13 公開日:2022-03-10
# クラウドソースのシーン変更検出とローカルマップ更新

Crowd Source Scene Change Detection and Local Map Update ( http://arxiv.org/abs/2203.05205v1 )

ライセンス: Link先を確認
Itzik Wilf, Nati Daniel, Lin Manqing, Firas Shama, Omri Asraf, Feng Wensen, Ofer Kruzel(参考訳) タイムマップ記述子でシーンが変化すると、VPSのローカライゼーション精度が悪くなる。 本研究では,地図更新に追従する構造やテクスチャのシーン変化を検出する手法を提案する。 この方法では、地図はLiDARまたはSFMを介して生成された記述子を持つ3Dポイントを含む。 一般的なアプローチは欠点に苦しむ。 1) 変更検出のための2つのポイントクラウドの直接比較は、比較するたびに新しいポイントクラウドを構築する必要があるため、遅い。 2)画像に基づく比較では,マップ画像にかなりのストレージオーバーヘッドを付加する必要がある。 この問題を回避するために,ポイントクラウド記述子比較に基づくアプローチを提案する。 1)vpsに基づくクローズクイッククエリとマップイメージペアの選択。 2)地図画像記述子への問合せ画像の登録 3)分節を用いて動的又は短期的な時間変化をフィルタリングする。 4) 対応するセグメント間で記述子を比較する。

As scene changes with time map descriptors become outdated, affecting VPS localization accuracy. In this work, we propose an approach to detect structural and texture scene changes to be followed by map update. In our method - map includes 3D points with descriptors generated either via LiDAR or SFM. Common approaches suffer from shortcomings: 1) Direct comparison of the two point-clouds for change detection is slow due to the need to build new point-cloud every time we want to compare; 2) Image based comparison requires to keep the map images adding substantial storage overhead. To circumvent this problems, we propose an approach based on point-clouds descriptors comparison: 1) Based on VPS poses select close query and map images pairs, 2) Registration of query images to map image descriptors, 3) Use segmentation to filter out dynamic or short term temporal changes, 4) Compare the descriptors between corresponding segments.
翻訳日:2022-03-11 14:31:56 公開日:2022-03-10
# グローバルレベルと単語レベルの特徴に基づくリアルタイムシーンテキスト検出

Real-time Scene Text Detection Based on Global Level and Word Level Features ( http://arxiv.org/abs/2203.05251v1 )

ライセンス: Link先を確認
Fuqiang Zhao, Jionghua Yu, Enjun Xing, Wenming Song, and Xue Xu(参考訳) 自然場面で任意の形状のテキストを高精度かつ効率良く検出することは極めて難しい課題である。 本稿では,グローバルモジュールとrcnnモジュールの2つのモジュールを主に含むgwnetというシーンテキスト検出フレームワークを提案する。 具体的には、グローバルモジュールは、kサブモジュールとシフトサブモジュールを追加することで、DBモジュールの適応性を改善する。 2つの部分加群は増幅係数 k の適応性を高め、モデルの収束を加速し、より正確な検出結果を得るのに役立つ。 RCNNモジュールはグローバルレベルとワードレベルの機能を融合する。 単語レベルラベルは、スランクポリゴンの最小軸方向の矩形ボックスを取得して生成される。 推論期間中、GWNetは単純なポリゴン検出を出力するためにグローバルレベルの機能のみを使用する。 MSRA-TD500、Total-Text、ICDAR2015、CTW-1500を含む4つのベンチマークデータセットの実験は、我々のGWNetが最先端の検出器よりも優れていることを示した。 具体的には、ResNet-50のバックボーンを用いて、MSRA-TD500で88.6%、トータルテキストで87.9%、ICDAR2015で89.2%、CTW-1500で87.5%のF測定を達成している。

It is an extremely challenging task to detect arbitrary shape text in natural scenes on high accuracy and efficiency. In this paper, we propose a scene text detection framework, namely GWNet, which mainly includes two modules: Global module and RCNN module. Specifically, Global module improves the adaptive performance of the DB (Differentiable Binarization) module by adding k submodule and shift submodule. Two submodules enhance the adaptability of amplifying factor k, accelerate the convergence of models and help to produce more accurate detection results. RCNN module fuses global-level and word-level features. The word-level label is generated by obtaining the minimum axis-aligned rectangle boxes of the shrunk polygon. In the inference period, GWNet only uses global-level features to output simple polygon detections. Experiments on four benchmark datasets, including the MSRA-TD500, Total-Text, ICDAR2015 and CTW-1500, demonstrate that our GWNet outperforms the state-of-the-art detectors. Specifically, with a backbone of ResNet-50, we achieve an F-measure of 88.6% on MSRA- TD500, 87.9% on Total-Text, 89.2% on ICDAR2015 and 87.5% on CTW-1500.
翻訳日:2022-03-11 14:31:45 公開日:2022-03-10
# ポイントクラウドセグメンテーションのためのコントラスト境界学習

Contrastive Boundary Learning for Point Cloud Segmentation ( http://arxiv.org/abs/2203.05272v1 )

ライセンス: Link先を確認
Liyao Tang, Yibing Zhan, Zhe Chen, Baosheng Yu, Dacheng Tao(参考訳) ポイントクラウドセグメンテーションは3D環境を理解するのに基本である。 しかし、現在の3Dポイントクラウドセグメンテーション手法は通常、シーン境界では性能が悪く、全体のセグメンテーション性能は低下する。 本稿では,シーン境界のセグメンテーションに着目した。 そこで我々はまず,シーン境界におけるセグメンテーション性能を評価するための指標を検討する。 境界上の不満足なパフォーマンスに対処するために,ポイントクラウドセグメンテーションのための新しいコントラスト境界学習(cbl)フレームワークを提案する。 特に,提案したCBLは,複数のスケールのシーンコンテキストの助けを借りて,その表現を対比することで,境界点間の特徴識別を強化する。 CBLを3つの異なるベースライン法に適用することにより、CBLは、例えばmIoUにおいて、異なるベースラインを一貫して改善し、バウンダリ上で魅力的なパフォーマンスを達成するのに役立つことを示す。 本手法の有効性と3次元点雲分割における境界の重要性を実験的に検証した。 コードとモデルはhttps://github.com/L iyaoTang/contrastBou ndary.comで公開される。

Point cloud segmentation is fundamental in understanding 3D environments. However, current 3D point cloud segmentation methods usually perform poorly on scene boundaries, which degenerates the overall segmentation performance. In this paper, we focus on the segmentation of scene boundaries. Accordingly, we first explore metrics to evaluate the segmentation performance on scene boundaries. To address the unsatisfactory performance on boundaries, we then propose a novel contrastive boundary learning (CBL) framework for point cloud segmentation. Specifically, the proposed CBL enhances feature discrimination between points across boundaries by contrasting their representations with the assistance of scene contexts at multiple scales. By applying CBL on three different baseline methods, we experimentally show that CBL consistently improves different baselines and assists them to achieve compelling performance on boundaries, as well as the overall performance, eg in mIoU. The experimental results demonstrate the effectiveness of our method and the importance of boundaries for 3D point cloud segmentation. Code and model will be made publicly available at https://github.com/L iyaoTang/contrastBou ndary.
翻訳日:2022-03-11 14:31:25 公開日:2022-03-10
# オブジェクト検出のためのドメイン一般化

Domain Generalisation for Object Detection ( http://arxiv.org/abs/2203.05294v1 )

ライセンス: Link先を確認
Karthik Seemakurthy, Charles Fox, Erchan Aptoula, Petra Bosilj(参考訳) ドメイン一般化(domain generalization)は、ドメイン固有の特徴を抑制しながら、ドメイン不変な特徴の学習を促進することを目的としている。 本稿では,オブジェクト検出設定における領域一般化について検討する。 本稿では,境界ボックス検出器とドメインの双方を扱うための新しい用語を提案し,整合正則化を組み込む。 これにより、オブジェクト検出のためのドメインに依存しない特徴表現を学習でき、ドメインの一般化の問題に適用できます。 提案手法は、GWHD、Cityscapes、BDD100K、Sim10Kの4つの標準オブジェクト検出データセットを用いて評価され、ベースラインよりも一貫して優れた一般化性能を示す。

Domain generalisation aims to promote the learning of domain-invariant features while suppressing domain specific features, so that a model can generalise well on previously unseen target domains. This paper studies domain generalisation in the object detection setting. We propose new terms for handling both the bounding box detector and domain belonging, and incorporate them with consistency regularisation. This allows us to learn a domain agnostic feature representation for object detection, applicable to the problem of domain generalisation. The proposed approach is evaluated using four standard object detection datasets with available domain metadata, namely GWHD, Cityscapes, BDD100K, Sim10K and exhibits consistently superior generalisation performance over baselines.
翻訳日:2022-03-11 14:31:07 公開日:2022-03-10
# selftune: 自己教師付き学習による計量的単眼深度推定

SelfTune: Metrically Scaled Monocular Depth Estimation through Self-Supervised Learning ( http://arxiv.org/abs/2203.05332v1 )

ライセンス: Link先を確認
Jaehoon Choi, Dongki Jung, Yonghan Lee, Deokhwa Kim, Dinesh Manocha, Donghwan Lee(参考訳) 野生における単分子深度推定は、本質的に未知のスケールまで深度を予測する。 そこで本研究では,単眼同時局在化マッピング(slam)と固有受容センサを用いた学習アルゴリズムを提案する。 このような単眼式スラムシステムは、メートル法的なカメラポーズを提供することができる。 これらの距離ポーズと単眼列を仮定し,事前学習した単眼深度ネットワークに対する自己教師あり学習法を提案する。 提案手法は,ネットワークを誘導して高品質な深度を予測する教師学生の定式化に基づいている。 本手法は移動ロボットナビゲーションなどの様々な応用に有用であり,多様な環境に適用可能であることを示す。 本システムでは,最近のEuRoC,OpenLORIS,Scan Netデータセット上での自己教師付き深度推定および完了手法の改善を示す。

Monocular depth estimation in the wild inherently predicts depth up to an unknown scale. To resolve scale ambiguity issue, we present a learning algorithm that leverages monocular simultaneous localization and mapping (SLAM) with proprioceptive sensors. Such monocular SLAM systems can provide metrically scaled camera poses. Given these metric poses and monocular sequences, we propose a self-supervised learning method for the pre-trained supervised monocular depth networks to enable metrically scaled depth estimation. Our approach is based on a teacher-student formulation which guides our network to predict high-quality depths. We demonstrate that our approach is useful for various applications such as mobile robot navigation and is applicable to diverse environments. Our full system shows improvements over recent self-supervised depth estimation and completion methods on EuRoC, OpenLORIS, and ScanNet datasets.
翻訳日:2022-03-11 14:29:57 公開日:2022-03-10
# タスク関連アンタングルメントと制御可能なサンプル合成による非生成的一般化ゼロショット学習

Non-generative Generalized Zero-shot Learning via Task-correlated Disentanglement and Controllable Samples Synthesis ( http://arxiv.org/abs/2203.05335v1 )

ライセンス: Link先を確認
Yaogong Feng, Xiaowen Huang, Pengbo Yang, Jian Yu, Jitao Sang(参考訳) 擬似サンプルの合成は、現在、一般化ゼロショット学習(GZSL)問題を解決する最も効果的な方法である。 多くのモデルは競争性能を達成しているが,(1)タスク関連やタスク非依存といった特徴は,信頼性の高い擬似サンプルを合成するには不合理な全体表現と,(2)既存のモデルが不確実な分布からサンプルを合成する際には大量のデータが必要である,という2つの問題に悩まされている。 本稿では,これらの問題に対応する非生成モデルを提案する。(1)タスク関連特徴の絡み合い,(2)適切な合成に向けてのドメイン適応の敵対学習によるタスク非依存特徴の排除,(2)制御可能な疑似サンプル合成,(2)エッジ・プセドとセンター・プセドのサンプルを,より多様性と直感的な伝達に向けて合成する。 学習過程におけるクラスサンプルの限界である新たなシーンを説明するために,「Few-shot Seen Class and Zero-shot Unseen Class Learning」(FSZU)という新たなZSLタスクを策定する。 4つのベンチマークにおいて、提案手法がGZSLとFSZUタスクで競合することを確認した。

Synthesizing pseudo samples is currently the most effective way to solve the Generalized Zero Shot Learning (GZSL) problem. Most models achieve competitive performance but still suffer from two problems: (1) feature confounding, that task-correlated and task-independent features are confounded in overall representations, which is unreasonable to synthesize reliable pseudo samples; and (2) distribution uncertainty, that massive data is needed when existing models synthesize samples from the uncertain distribution, which causes poor performance in limited samples of seen classes. In this paper, we propose a non-generative model to address these problems correspondingly in two modules: (1) Task-correlated feature disentanglement, to exclude the task-correlated features from task-independent ones by adversarial learning of domain adaption towards reasonable synthesis; and (2) Controllable pseudo sample synthesis, to synthesize edge-pseudo and center-pseudo samples with certain characteristics towards more diversity generated and intuitive transfer. To describe the new scene that is the limit seen class samples in the training process, we further formulate a new ZSL task named the 'Few-shot Seen class and Zero-shot Unseen class learning' (FSZU). Extensive experiments on four benchmarks verify that the proposed method is competitive in the GZSL and the FSZU tasks.
翻訳日:2022-03-11 14:29:43 公開日:2022-03-10
# TrueType Transformer:アウトラインフォーマットにおける文字とフォントスタイルの認識

TrueType Transformer: Character and Font Style Recognition in Outline Format ( http://arxiv.org/abs/2203.05338v1 )

ライセンス: Link先を確認
Yusuke Nagata, Jinki Otao, Daichi Haraguchi, and Seiichi Uchida(参考訳) 本稿では,アウトライン形式で文字およびフォントスタイル認識が可能なtruetype transformer(t3)を提案する。 TrueTypeのようなアウトラインフォーマットは、各文字をストローク輪郭の制御点のシーケンスとして表現し、生まれながらのデジタル文書で頻繁に使用される。 t3はディープニューラルネットワーク、いわゆるトランスフォーマーによって構成されている。 Transformerはもともとテキストなどの逐次データに対して提案されており、アウトラインデータを扱うのに適している。 言い換えれば、T3はビットマップ画像に変換することなくアウトラインデータを直接受け入れる。 その結果、T3は分解能に依存しない分類を実現する。 また、制御点の位置はフォントスタイルの微細かつ局所的な構造を表すため、t3はフォントスタイル分類に適しており、そのような構造は非常に重要である。 本稿では,各制御点が分類結果にどう貢献するかを観察しながら,文字認識タスクとフォント認識タスクにおけるT3の適用性を実験的に示す。

We propose TrueType Transformer (T3), which can perform character and font style recognition in an outline format. The outline format, such as TrueType, represents each character as a sequence of control points of stroke contours and is frequently used in born-digital documents. T3 is organized by a deep neural network, so-called Transformer. Transformer is originally proposed for sequential data, such as text, and therefore appropriate for handling the outline data. In other words, T3 directly accepts the outline data without converting it into a bitmap image. Consequently, T3 realizes a resolution-independe nt classification. Moreover, since the locations of the control points represent the fine and local structures of the font style, T3 is suitable for font style classification, where such structures are very important. In this paper, we experimentally show the applicability of T3 in character and font style recognition tasks, while observing how the individual control points contribute to classification results.
翻訳日:2022-03-11 14:29:07 公開日:2022-03-10
# 顔アンチスプーフィングのためのシャッフルスタイルアセンブリによるドメインの一般化

Domain Generalization via Shuffled Style Assembly for Face Anti-Spoofing ( http://arxiv.org/abs/2203.05340v1 )

ライセンス: Link先を確認
Zhuo Wang, Zezheng Wang, Zitong Yu, Weihong Deng, Jiahong Li, Size Li, Zhongyuan Wang(参考訳) 多様なプレゼンテーションアタックが絶え間なく出現する中、一般化可能な顔反偽造(FAS)が注目されている。 ほとんどの既存メソッドは完全表現にドメイン一般化(dg)を実装している。 しかし、異なる画像統計はFASタスクに固有の特性を持つ可能性がある。 この作業では、完全な表現をコンテンツとスタイルに分けます。 Shuffled Style Assembly Network (SSAN) は、スタイル化された特徴空間のための異なるコンテンツやスタイルの特徴を抽出し、再組み立てするために提案されている。 そして、一般化された表現を得るために、ドメイン固有の情報を抑えつつ、生活関連スタイル情報を強調するコントラスト学習戦略を開発する。 最後に、正しいアセンブリの表現は、推論中の生活とスプーフィングを区別するために使用される。 一方で,データ量と分布の違いから,学界と産業の間には依然としてギャップが存在する。 したがって、FASのための新しい大規模ベンチマークを構築し、実際のアルゴリズムの性能をさらに評価する。 既存のベンチマークと提案するベンチマークの質的および定量的な結果から,提案手法の有効性が示された。 コードはhttps://github.com/w angzhuo2019/ssanで入手できる。

With diverse presentation attacks emerging continually, generalizable face anti-spoofing (FAS) has drawn growing attention. Most existing methods implement domain generalization (DG) on the complete representations. However, different image statistics may have unique properties for the FAS tasks. In this work, we separate the complete representation into content and style ones. A novel Shuffled Style Assembly Network (SSAN) is proposed to extract and reassemble different content and style features for a stylized feature space. Then, to obtain a generalized representation, a contrastive learning strategy is developed to emphasize liveness-related style information while suppress the domain-specific one. Finally, the representations of the correct assemblies are used to distinguish between living and spoofing during the inferring. On the other hand, despite the decent performance, there still exists a gap between academia and industry, due to the difference in data quantity and distribution. Thus, a new large-scale benchmark for FAS is built up to further evaluate the performance of algorithms in reality. Both qualitative and quantitative results on existing and proposed benchmarks demonstrate the effectiveness of our methods. The codes will be available at https://github.com/w angzhuo2019/SSAN.
翻訳日:2022-03-11 14:28:51 公開日:2022-03-10
# ロバストな海上障害物検出のための時間的文脈

Temporal Context for Robust Maritime Obstacle Detection ( http://arxiv.org/abs/2203.05352v1 )

ライセンス: Link先を確認
Lojze \v{Z}ust and Matej Kristan(参考訳) 完全無人無人表面車両(USV)にはロバスト海上障害物検出が不可欠である。 現在広く採用されているセグメンテーションに基づく障害物検出手法は、物体反射と太陽光を障害物として誤分類し、多くの偽陽性検出を生成し、usvナビゲーションに実用的でない手法を効果的に表示する傾向がある。 しかし、水乱流による物体反射の時間変化は、真の物体の外観力学と非常に異なる。 この特性を利用して,最近のフレームから時間的文脈を抽出する新しい海上障害物検出ネットワークwasr-tの設計を行い,曖昧さを低減した。 水面における物体反射の局所時間特性を学習することにより、WaSR-Tは反射やグリッターの存在下での障害物検出精度を大幅に向上する。 既存の単一フレーム法と比較して、wasr-tは偽陽性検出回数を41%削減し、ボートの危険域内で53%以上削減し、高いリコールを維持しつつ、挑戦的なmods海上障害物検出ベンチマークで新たな最先端性能を達成している。

Robust maritime obstacle detection is essential for fully autonomous unmanned surface vehicles (USVs). The currently widely adopted segmentation-based obstacle detection methods are prone to misclassification of object reflections and sun glitter as obstacles, producing many false positive detections, effectively rendering the methods impractical for USV navigation. However, water-turbulence-ind uced temporal appearance changes on object reflections are very distinctive from the appearance dynamics of true objects. We harness this property to design WaSR-T, a novel maritime obstacle detection network, that extracts the temporal context from a sequence of recent frames to reduce ambiguity. By learning the local temporal characteristics of object reflection on the water surface, WaSR-T substantially improves obstacle detection accuracy in the presence of reflections and glitter. Compared with existing single-frame methods, WaSR-T reduces the number of false positive detections by 41% overall and by over 53% within the danger zone of the boat, while preserving a high recall, and achieving new state-of-the-art performance on the challenging MODS maritime obstacle detection benchmark.
翻訳日:2022-03-11 14:28:35 公開日:2022-03-10
# 部分的シーンにおけるオブジェクトローカライズのための空間コモンセンスグラフ

Spatial Commonsense Graph for Object Localisation in Partial Scenes ( http://arxiv.org/abs/2203.05380v1 )

ライセンス: Link先を確認
Francesco Giuliari and Geri Skenderi and Marco Cristani and Yiming Wang and Alessio Del Bue(参考訳) 部分的なシーンにおける物体の局所化は、シーンの部分的な3Dスキャンにより、物体の未知の位置(例えば、バッグはどこにあるのか)を推定する新しい問題である。 提案手法は新たなシーングラフモデルであるSpatial Commonsense Graph (SCG) に基づいており、オブジェクトはノードであり、エッジは概念ノードとコモンセンス知識ベースからの関連性によって強化されたペアワイズ距離を定義する。 これにより、SCGは未知の3Dシーンに対して空間的推論をより一般化することができる。 The SCG is used to estimate the unknown position of the target object in two steps: first, we feed the SCG into a novel Proximity Prediction Network, a graph neural network that uses attention to perform distance prediction between the node representing the target object and the nodes representing the observed objects in the SCG; second, we propose a Localisation Module based on circular intersection to estimate the object position using all the predicted pairwise distances in order to be independent of any reference system. 提案手法は,部分的なシーンにおけるオブジェクトのローカライゼーションのための手法とベースラインをベンチマークするために,部分的に再構成されたシーンのデータセットを作成する。

We solve object localisation in partial scenes, a new problem of estimating the unknown position of an object (e.g. where is the bag?) given a partial 3D scan of a scene. The proposed solution is based on a novel scene graph model, the Spatial Commonsense Graph (SCG), where objects are the nodes and edges define pairwise distances between them, enriched by concept nodes and relationships from a commonsense knowledge base. This allows SCG to better generalise its spatial inference over unknown 3D scenes. The SCG is used to estimate the unknown position of the target object in two steps: first, we feed the SCG into a novel Proximity Prediction Network, a graph neural network that uses attention to perform distance prediction between the node representing the target object and the nodes representing the observed objects in the SCG; second, we propose a Localisation Module based on circular intersection to estimate the object position using all the predicted pairwise distances in order to be independent of any reference system. We create a new dataset of partially reconstructed scenes to benchmark our method and baselines for object localisation in partial scenes, where our proposed method achieves the best localisation performance.
翻訳日:2022-03-11 14:28:13 公開日:2022-03-10
# 多様なクラスタベースペア選択によるアノテーション効率のよい人物再同定

Annotation Efficient Person Re-Identification with Diverse Cluster-Based Pair Selection ( http://arxiv.org/abs/2203.05395v1 )

ライセンス: Link先を確認
Lantian Xue, Yixiong Zou, Peixi Peng, Yonghong Tian, Tiejun Huang(参考訳) Person Re-ID (Person Re-identification) が注目されている。 しかし、実際には、Re-IDモデルをトレーニングするためにトレーニングデータをアノテートすることは常にコストがかかり、Re-IDタスクのパフォーマンスを維持しながらアノテーションコストを削減することは依然として困難である。 そこで本研究では,ペアの誤認性と多様性に応じて,代替ペアセットから画像ペアを選択するアノテーション有効人物再同定手法を提案し,アノテーションに基づいてRe-IDモデルを訓練する。 具体的には、特徴の局所性を考慮して全ての画像をクラスタリングし、アノテーションにしたがってクラスタをアノテートするためのクラスタ内/クラスタ内サンプルから2番目のイメージペアを選択し、最後に再アサインされたクラスタでモデルをトレーニングすることで、代替ペアのサイズを第一に削減するアノテーションとトレーニングフレームワークを設計する。 ペア選択の過程では,最もカオス的なサンプルとクラスタ内の代表サンプルとのイメージペアを構成するクラスタ内基準,第2次waserstein距離に基づくクラスタ間のイメージペアを構築するクラスタ間基準,クラスタベースペア選択のための多様性基準など,ペアの誤り性と多様性に応じた貴重なペアを求める。 上記のすべての基準を組み合わせることで、ペア選択問題を解決するための欲求戦略が開発される。 最後に、上記のクラスタリング・selecting-annotating -reassigning-trainin g手順をアノテーション予算に達するまで繰り返す。 広く採用されている3つのre-idデータセットに関する広範囲な実験は、最先端の作業よりも優れたパフォーマンスを実現しながら、アノテーションコストを大幅に削減できることを示している。

Person Re-identification (Re-ID) has attracted great attention due to its promising real-world applications. However, in practice, it is always costly to annotate the training data to train a Re-ID model, and it still remains challenging to reduce the annotation cost while maintaining the performance for the Re-ID task. To solve this problem, we propose the Annotation Efficient Person Re-Identification method to select image pairs from an alternative pair set according to the fallibility and diversity of pairs, and train the Re-ID model based on the annotation. Specifically, we design an annotation and training framework to firstly reduce the size of the alternative pair set by clustering all images considering the locality of features, secondly select images pairs from intra-/inter-cluster samples for human to annotate, thirdly re-assign clusters according to the annotation, and finally train the model with the re-assigned clusters. During the pair selection, we seek for valuable pairs according to pairs' fallibility and diversity, which includes an intra-cluster criterion to construct image pairs with the most chaotic samples and the representative samples within clusters, an inter-cluster criterion to construct image pairs between clusters based on the second-order Wasserstein distance, and a diversity criterion for clusterbased pair selection. Combining all criteria above, a greedy strategy is developed to solve the pair selection problem. Finally, the above clustering-selecting -annotating-reassign ing-training procedure will be repeated until the annotation budget is reached. Extensive experiments on three widely adopted Re-ID datasets show that we can greatly reduce the annotation cost while achieving better performance compared with state-of-the-art works.
翻訳日:2022-03-11 14:27:53 公開日:2022-03-10
# 連続セマンティックセグメンテーションのための表現補償ネットワーク

Representation Compensation Networks for Continual Semantic Segmentation ( http://arxiv.org/abs/2203.05402v1 )

ライセンス: Link先を確認
Chang-Bin Zhang, Jia-Wen Xiao, Xialei Liu, Ying-Cong Chen, Ming-Ming Cheng(参考訳) 本研究では,深層ニューラルネットワークが破滅的な記憶を伴わずに新しいクラスを継続的に組み込む必要がある,連続的な意味セグメンテーション問題について検討する。 本稿では,従来の知識と新しい知識の両方の表現学習を分離するために,RCモジュールという構造的再パラメータ化機構を提案する。 RCモジュールは2つの動的に進化した分岐で構成され、1つは凍結し、1つは訓練可能である。 さらに,モデルの可塑性と安定性をさらに高めるため,空間次元とチャネル次元の両面にプール型立方体知識蒸留戦略を設計する。 連続クラスセグメンテーションと連続ドメインセグメンテーションの2つの難解な連続的意味セグメンテーションシナリオについて実験を行った。 推論中に余分な計算オーバーヘッドやパラメータがなければ、我々の手法は最先端の性能より優れている。 コードは \url{https://github.com/z hangchbin/rcil} で入手できる。

In this work, we study the continual semantic segmentation problem, where the deep neural networks are required to incorporate new classes continually without catastrophic forgetting. We propose to use a structural re-parameterization mechanism, named representation compensation (RC) module, to decouple the representation learning of both old and new knowledge. The RC module consists of two dynamically evolved branches with one frozen and one trainable. Besides, we design a pooled cube knowledge distillation strategy on both spatial and channel dimensions to further enhance the plasticity and stability of the model. We conduct experiments on two challenging continual semantic segmentation scenarios, continual class segmentation and continual domain segmentation. Without any extra computational overhead and parameters during inference, our method outperforms state-of-the-art performance. The code is available at \url{https://github.com/z hangchbin/RCIL}.
翻訳日:2022-03-11 14:27:27 公開日:2022-03-10
# 3次元異常検出とセグメンテーションの実証的研究

An Empirical Investigation of 3D Anomaly Detection and Segmentation ( http://arxiv.org/abs/2203.05550v1 )

ライセンス: Link先を確認
Eliahu Horwitz, Yedid Hoshen(参考訳) 近年,画像の異常検出とセグメンテーションが著しく進展しているが,3d情報は無視されることが多い。 本研究の目的は,画像異常検出における色に対する3Dの利点と役割をより深く理解することである。 標準的な色のみの異常セグメンテーション手法が、3dデータセットに適用された場合、現在のすべての方法を大幅に上回っています。 一方,2次元から形状を曖昧に推測できない幾何学的異常を含む画像では,色のみの手法では不十分である。 これは、より良い3Dメソッドが必要であることを示唆している。 本研究では,3次元異常検出のための異なる表現について検討し,手作り方向不変表現が不当に有効であることを示す。 ディープラーニングや外部事前トレーニングデータセット、カラー情報を使用しずに、最新のアプローチをすべて上回る、シンプルな3dのみの方法を明らかにする。 3Dのみの手法では色とテクスチャの異常を検出できないため、2Dカラーの特徴と組み合わせることで、大きなマージンで最高の現在の結果が得られる(Pixel-wise ROCAUC: 99.2%、Pro: 95.9%、MVTec 3D-AD)。 最後に,3次元異常検出とセグメンテーションの今後の課題について論じる。

Anomaly detection and segmentation in images has made tremendous progress in recent years while 3D information has often been ignored. The objective of this paper is to further understand the benefit and role of 3D as opposed to color in image anomaly detection. Our study begins by presenting a surprising finding: standard color-only anomaly segmentation methods, when applied to 3D datasets, significantly outperform all current methods. On the other hand, we observe that color-only methods are insufficient for images containing geometric anomalies where shape cannot be unambiguously inferred from 2D. This suggests that better 3D methods are needed. We investigate different representations for 3D anomaly detection and discover that handcrafted orientation-invarian t representations are unreasonably effective on this task. We uncover a simple 3D-only method that outperforms all recent approaches while not using deep learning, external pretraining datasets, or color information. As the 3D-only method cannot detect color and texture anomalies, we combine it with 2D color features, granting us the best current results by a large margin (Pixel-wise ROCAUC: 99.2%, PRO: 95.9% on MVTec 3D-AD). We conclude by discussing future challenges for 3D anomaly detection and segmentation.
翻訳日:2022-03-11 14:27:12 公開日:2022-03-10
# (参考訳) IndicNLG Suite: 言語におけるNLGタスクの多言語データセット [全文訳有]

IndicNLG Suite: Multilingual Datasets for Diverse NLG Tasks in Indic Languages ( http://arxiv.org/abs/2203.05437v1 )

ライセンス: CC BY 4.0
Aman Kumar, Himani Shrotriya, Prachi Sahu, Raj Dabre, Ratish Puduppully, Anoop Kunchukuttan, Amogh Mishra, Mitesh M. Khapra, Pratyush Kumar(参考訳) 本稿では,11言語を対象とした自然言語生成(NLG)をベンチマークするデータセットの集合であるIndicNLGスイートを提案する。 本稿では,ウィキペディア情報ボックス(WikiBio)を用いた伝記生成,ニュース見出し生成,文要約,質問生成,パラフレーズ生成の5つのタスクに着目した。 本稿では、データセットの作成プロセスとデータセットの統計結果について述べる。続いて、トレーニング済みのシーケンス・ツー・シーケンスモデルを利用した強力な単言語および多言語ベースラインのトレーニングとレポートを行い、その結果を分析し、Indic言語NLGに関わる課題を理解する。 我々の知る限りでは、これはIndic言語のための最初のNLGデータセットであり、また最大の多言語NLGデータセットである。 また、wikipediaのような構造化データを含むコーパスと同様に、適度な単言語および並列コーパスを持つ控えめなリソース言語にも容易に適用できる。 このデータセットが、多種多様な言語やタスク、特にIndic言語の研究を促進することを願っています。 データセットとモデルはhttps://indicnlp.ai4 bharat.org/indicnlg- suiteで公開されている。

In this paper, we present the IndicNLG suite, a collection of datasets for benchmarking Natural Language Generation (NLG) for 11 Indic languages. We focus on five diverse tasks, namely, biography generation using Wikipedia infoboxes (WikiBio), news headline generation, sentence summarization, question generation and paraphrase generation. We describe the process of creating the datasets and present statistics of the dataset, following which we train and report a variety of strong monolingual and multilingual baselines that leverage pre-trained sequence-to-sequence models and analyze the results to understand the challenges involved in Indic language NLG. To the best of our knowledge, this is the first NLG dataset for Indic languages and also the largest multilingual NLG dataset. Our methods can also be easily applied to modest-resource languages with reasonable monolingual and parallel corpora, as well as corpora containing structured data like Wikipedia. We hope this dataset spurs research in NLG on diverse languages and tasks, particularly for Indic languages. The datasets and models are publicly available at https://indicnlp.ai4 bharat.org/indicnlg- suite.
翻訳日:2022-03-11 14:26:03 公開日:2022-03-10
# グループ別セマンティクスを用いたビジュアルストーリーテリングのための知識強化型アテンションネットワーク

Knowledge-enriched Attention Network with Group-wise Semantic for Visual Storytelling ( http://arxiv.org/abs/2203.05346v1 )

ライセンス: Link先を確認
Tengpeng Li, Hanli Wang, Bin He, Chang Wen Chen(参考訳) 技術的に難しいトピックとして、ビジュアルストーリーテリングは、関連するイメージのグループから、物語の多元性を持つ想像力とコヒーレントなストーリーを生成することを目的としている。 既存の手法では、画像以外の暗黙的な情報を探索できないため、画像に基づくコンテンツの直接的および厳密な記述を生成することが多い。 したがって、これらのスキームは全体論的な表現から一貫した依存関係を捉えることができず、合理的で流動的な物語の生成を妨げた。 これらの問題に対処するために,グループワイド・セマンティック・モデルを用いた新しい知識豊かな注意ネットワークを提案する。 3つの新しいコンポーネントは、実用的な利点を明らかにするために、かなりの実験によって設計、支援されている。 まず、知識に富んだ注意ネットワークは、外部知識システムから暗黙的な概念を抽出するために設計され、これらの概念は、想像的、具体的表現を特徴づけるカスケード横断的な注意機構が続く。 第二に,二階プーリングを用いたグループ指向のセマンティクスモジュールを開発し,グローバルに一貫したガイダンスを探索する。 第3に,エンコーダ・デコーダ構造を持つ一段階のストーリー生成モデルを提案し,エンド・ツー・エンド方式で知識に富んだ注目ネットワーク,グループ・ワイド・セマンティック・モジュール,マルチモーダル・ストーリー生成デコーダを同時に訓練・推論する。 主観的評価指標と主観的評価指標を併用した人気のあるビジュアルストーリーテリングデータセットの実体実験により,提案手法が他の最先端手法と比較して優れた性能を示した。

As a technically challenging topic, visual storytelling aims at generating an imaginary and coherent story with narrative multi-sentences from a group of relevant images. Existing methods often generate direct and rigid descriptions of apparent image-based contents, because they are not capable of exploring implicit information beyond images. Hence, these schemes could not capture consistent dependencies from holistic representation, impairing the generation of reasonable and fluent story. To address these problems, a novel knowledge-enriched attention network with group-wise semantic model is proposed. Three main novel components are designed and supported by substantial experiments to reveal practical advantages. First, a knowledge-enriched attention network is designed to extract implicit concepts from external knowledge system, and these concepts are followed by a cascade cross-modal attention mechanism to characterize imaginative and concrete representations. Second, a group-wise semantic module with second-order pooling is developed to explore the globally consistent guidance. Third, a unified one-stage story generation model with encoder-decoder structure is proposed to simultaneously train and infer the knowledge-enriched attention network, group-wise semantic module and multi-modal story generation decoder in an end-to-end fashion. Substantial experiments on the popular Visual Storytelling dataset with both objective and subjective evaluation metrics demonstrate the superior performance of the proposed scheme as compared with other state-of-the-art methods.
翻訳日:2022-03-11 13:47:20 公開日:2022-03-10
# 疑わしい対象:一段階視覚接地におけるモデルの予測を再考する

Suspected Object Matters: Rethinking Model's Prediction for One-stage Visual Grounding ( http://arxiv.org/abs/2203.05186v1 )

ライセンス: Link先を確認
Yang Jiao, Zequn Jie, Jingjing Chen, Lin Ma, Yu-Gang Jiang(参考訳) 近年,1段の視覚グラウンダーは,2段のグラウンダーに比べて精度は高いが,高い効率で注目されている。 しかし, 対象間関係モデリングは, 単段グルーダでは十分に研究されていない。 オブジェクト間の関係モデリングは重要なことではあるが、画像内のすべてのオブジェクトの中で必ずしも実行されるわけではない。 これらのオブジェクトを"suspected objects"と呼んでいます。 However, exploring relationships among these suspected objects in the one-stage visual grounding paradigm is non-trivial due to two core problems: (1) no object proposals are available as the basis on which to select suspected objects and perform relationship modeling; (2) compared with those irrelevant to the text query, suspected objects are more confusing, as they may share similar semantics, be entangled with certain relationships, etc, and thereby more easily mislead the model's prediction. 上記の問題に対処するため,一段階の視覚的グラウンドにおける被疑者間の正しい参照対象選択を促すために,疑似オブジェクトグラフ(SOG)アプローチを提案する。 疑似オブジェクトは、学習したアクティベーションマップからノードとして動的に選択され、トレーニング中のモデルの現在の識別能力に適応する。 その後、疑わしいオブジェクトの上に、キーワード認識ノード表現モジュール(knr)とランダム接続戦略(erc)による探索がsom内で同時に提案され、モデルが初期予測を再考するのに役立つ。 広汎なアブレーション研究と最先端手法との比較により,提案手法の有効性が示された。

Recently, one-stage visual grounders attract high attention due to the comparable accuracy but significantly higher efficiency than two-stage grounders. However, inter-object relation modeling has not been well studied for one-stage grounders. Inter-object relationship modeling, though important, is not necessarily performed among all the objects within the image, as only a part of them are related to the text query and may confuse the model. We call these objects "suspected objects". However, exploring relationships among these suspected objects in the one-stage visual grounding paradigm is non-trivial due to two core problems: (1) no object proposals are available as the basis on which to select suspected objects and perform relationship modeling; (2) compared with those irrelevant to the text query, suspected objects are more confusing, as they may share similar semantics, be entangled with certain relationships, etc, and thereby more easily mislead the model's prediction. To address the above issues, this paper proposes a Suspected Object Graph (SOG) approach to encourage the correct referred object selection among the suspected ones in the one-stage visual grounding. Suspected objects are dynamically selected from a learned activation map as nodes to adapt to the current discrimination ability of the model during training. Afterward, on top of the suspected objects, a Keyword-aware Node Representation module (KNR) and an Exploration by Random Connection strategy (ERC) are concurrently proposed within the SOG to help the model rethink its initial prediction. Extensive ablation studies and comparison with state-of-the-art approaches on prevalent visual grounding benchmarks demonstrate the effectiveness of our proposed method.
翻訳日:2022-03-11 13:46:52 公開日:2022-03-10
# サクラトマトのハイパースペクトルイメージング

Hyperspectral Imaging for cherry tomato ( http://arxiv.org/abs/2203.05199v1 )

ライセンス: Link先を確認
Yun Xiang, Qijun Chen, Zhongjin Su, Lu Zhang, Zuohui Chen, Guozhi Zhou, Zhuping Yao, Qi Xuan, and Yuan Cheng(参考訳) サクラトマト(solanum lycopersicum)は、独特の風味のため、世界中の消費者に人気がある。 Soluble Solids Content (SSC) と firmness は製品品質を評価する上で重要な指標である。 本研究では,超スペクトル画像とそれに対応する深層学習回帰モデルに基づいて,sscと果実堅さのための非破壊検査手法を開発した。 200種以上のトマト果実の高スペクトル反射像は400nmから1000nmの範囲で導出される。 取得したハイパースペクトル画像を補正し、スペクトル情報を抽出する。 新規な1次元畳み込みResNet(Con1dResNet)に基づく回帰モデルの提案と技術の現状との比較を行った。 実験の結果, 比較的多数の試料を採取すると, SSCの最先端技術よりも26.4倍, 硬度は33.7倍であった。 本研究は,サクラ果実品質の非破壊検査に新たな選択肢を提供するため,sscにおけるハイパースペクトルイメージング技術の適用可能性と堅さ検出の可能性を示した。

Cherry tomato (Solanum Lycopersicum) is popular with consumers over the world due to its special flavor. Soluble solids content (SSC) and firmness are two key metrics for evaluating the product qualities. In this work, we develop non-destructive testing techniques for SSC and fruit firmness based on hyperspectral images and a corresponding deep learning regression model. Hyperspectral reflectance images of over 200 tomato fruits are derived with spectrum ranging from 400 to 1000 nm. The acquired hyperspectral images are corrected and the spectral information is extracted. A novel one-dimensional(1D) convolutional ResNet (Con1dResNet) based regression model is prosed and compared with the state of art techniques. Experimental results show that, with a relatively large number of samples our technique is 26.4\% better than state of art technique for SSC and 33.7\% for firmness. The results of this study indicate the application potential of hyperspectral imaging technique in the SSC and firmness detection, which provides a new option for non-destructive testing of cherry tomato fruit quality in the future.
翻訳日:2022-03-11 13:46:28 公開日:2022-03-10
# AGCN:生涯多ラベル画像認識のためのグラフ畳み込みネットワーク

AGCN: Augmented Graph Convolutional Network for Lifelong Multi-label Image Recognition ( http://arxiv.org/abs/2203.05534v1 )

ライセンス: Link先を確認
Kaile Du, Fan Lyu, Fuyuan Hu, Linyan Li, Wei Feng, Fenglei Xu, Qiming Fu(参考訳) Lifelong Multi-Label (LML)画像認識は、シーケンシャルなマルチラベル画像認識データストリームにオンラインのクラスインクリメンタル分類器を構築する。 LML画像認識の鍵となる課題は、トレーニングデータの部分ラベルと古いクラスにおけるカタストロフィック・フォーッティングのラベル関係の構築である。 この問題を解決するために, 逐次認識タスク間でラベル関係を構築し, 破滅的な忘れを抑えるAGCN(Augmented Graph Convolutional Network)モデルを提案する。 まず,すべてのクラスにACM(Augmented correlation Matrix)を構築する。そこでは,タスク内関係はハードラベル統計から導かれるが,タスク間関係はデータと構築されたエキスパートネットワークからハードラベルとソフトラベルの両方を活用する。 そして、ACMに基づいて、提案したAGCNは動的拡張構造でラベルの依存関係をキャプチャし、効果的なクラス表現を得る。 最後に,古いタスク間のラベル依存の忘れることを抑制するため,ラベル関係の構築に対する制約として,関係保存損失を提案する。 提案手法は2つのマルチラベル画像ベンチマークを用いて評価し,提案手法がLML画像認識に有効であることを示す。 私たちのコードはhttps://github.com/k aile-du/agcnで利用可能です。

The Lifelong Multi-Label (LML) image recognition builds an online class-incremental classifier in a sequential multi-label image recognition data stream. The key challenges of LML image recognition are the construction of label relationships on Partial Labels of training data and the Catastrophic Forgetting on old classes, resulting in poor generalization. To solve the problems, the study proposes an Augmented Graph Convolutional Network (AGCN) model that can construct the label relationships across the sequential recognition tasks and sustain the catastrophic forgetting. First, we build an Augmented Correlation Matrix (ACM) across all seen classes, where the intra-task relationships derive from the hard label statistics while the inter-task relationships leverage both hard and soft labels from data and a constructed expert network. Then, based on the ACM, the proposed AGCN captures label dependencies with dynamic augmented structure and yields effective class representations. Last, to suppress the forgetting of label dependencies across old tasks, we propose a relationship-preserv ing loss as a constraint to the construction of label relationships. The proposed method is evaluated using two multi-label image benchmarks and the experimental results show that the proposed method is effective for LML image recognition and can build convincing correlation across tasks even if the labels of previous tasks are missing. Our code is available at https://github.com/K aile-Du/AGCN.
翻訳日:2022-03-11 13:43:51 公開日:2022-03-10
# 意味規範認識とそのポルトガル法への応用

Semantic Norm Recognition and its application to Portuguese Law ( http://arxiv.org/abs/2203.05425v1 )

ライセンス: Link先を確認
Maria Duarte, Pedro A. Santos, Jo\~ao Dias and Jorge Baptista(参考訳) 法的文書を明確に解釈し、我々の権利、義務、その他の法的規範を完全に理解できることは、デジタル社会において徐々に重要になっている。 しかし、特定のクエリやニーズに対応する意味のある情報を提供する必要があるため、市民に法律へのアクセスを与えるだけでは不十分である。 そのためには、法的文書に存在する関連する意味情報を抽出する必要がある。 そこで我々は,ポルトガルの消費者法から取得したドメイン固有(法的)テキストコーパスに基づいて,自動意味情報抽出システムであるSNR(Semantic Norm Recognition)システムを導入する。 SNRはポルトガル・ベルト(BERTimbau)を使用し、ポルトガルの立法機関で訓練を受けた。 本研究では,既存の雑音によらず,このドメイン固有コーパスにおける良好な結果(81.44 % F1-score)と,情報検索などの下流タスクの改善にどのように活用できるかを示す。

Being able to clearly interpret legal texts and fully understanding our rights, obligations and other legal norms has become progressively more important in the digital society. However, simply giving citizens access to the laws is not enough, as there is a need to provide meaningful information that cater to their specific queries and needs. For this, it is necessary to extract the relevant semantic information present in legal texts. Thus, we introduce the SNR (Semantic Norm Recognition) system, an automatic semantic information extraction system trained on a domain-specific (legal) text corpus taken from Portuguese Consumer Law. The SNR system uses the Portuguese Bert (BERTimbau) and was trained on a legislative Portuguese corpus. We demonstrate how our system achieved good results (81.44\% F1-score) on this domain-specific corpus, despite existing noise, and how it can be used to improve downstream tasks such as information retrieval.
翻訳日:2022-03-11 13:43:27 公開日:2022-03-10
# コンパイラフィードバックによるコンパイル可能なニューラルコード生成

Compilable Neural Code Generation with Compiler Feedback ( http://arxiv.org/abs/2203.05132v1 )

ライセンス: Link先を確認
Xin Wang, Yasheng Wang, Yao Wan, Fei Mi, Yitong Li, Pingyi Zhou, Jin Liu, Hao Wu, Xin Jiang, Qun Liu(参考訳) 自然言語記述によるコンパイル可能なプログラムの自動生成は、常に計算言語学と自動ソフトウェア工学にとって重要な問題である。 既存のディープラーニングアプローチは、テキスト生成としてコード生成をモデル化し、デコーダの文法構造によって制約されるか、大規模コードコーパス(CodeGPT、PLBART、CodeT5など)で事前訓練された言語モデルによって駆動される。 しかし、生成したプログラムのコンパイル可能性を説明するものはほとんどない。 本稿では,言語モデルの微調整,コンパイル性強化,コンパイル性判定を含む,コンパイル可能なコード生成のためのコンパイラフィードバックを活用した3段階パイプラインであるcompcoderを提案する。 2つのコード生成タスクに関する包括的実験により,提案手法の有効性が示され,コード補完におけるコンパイル成功率を平均44.18から89.18に,テキスト対コード生成において70.3から96.2に改善した。

Automatically generating compilable programs with (or without) natural language descriptions has always been a touchstone problem for computational linguistics and automated software engineering. Existing deep-learning approaches model code generation as text generation, either constrained by grammar structures in decoder, or driven by pre-trained language models on large-scale code corpus (e.g., CodeGPT, PLBART, and CodeT5). However, few of them account for compilability of the generated programs. To improve compilability of the generated programs, this paper proposes COMPCODER, a three-stage pipeline utilizing compiler feedback for compilable code generation, including language model fine-tuning, compilability reinforcement, and compilability discrimination. Comprehensive experiments on two code generation tasks demonstrate the effectiveness of our proposed approach, improving the success rate of compilation from 44.18 to 89.18 in code completion on average and from 70.3 to 96.2 in text-to-code generation, respectively, when comparing with the state-of-the-art CodeGPT.
翻訳日:2022-03-11 13:42:55 公開日:2022-03-10
# ビデオにおけるデバイアスされた時相文の接地:データセット、メトリック、およびアプローチ

A Closer Look at Debiased Temporal Sentence Grounding in Videos: Dataset, Metric, and Approach ( http://arxiv.org/abs/2203.05243v1 )

ライセンス: Link先を確認
Xiaohan Lan, Yitian Yuan, Xin Wang, Long Chen, Zhi Wang, Lin Ma and Wenwu Zhu(参考訳) tsgv(temporal sentence grounding in video)は、自然言語文を未編集の動画に固定することを目的としているが、ここ数年、広く注目を集めている。 しかし、最近の研究では、現在のベンチマークデータセットは明らかなモーメント・アノテーションのバイアスがあり、訓練なしでSOTAのパフォーマンスを達成できた。 本稿では,既存の評価プロトコルを詳しく検討し,有望なデータセットと評価指標の両方が信頼できないベンチマークにつながるデビルであることを示す。 そこで本研究では,広く使用されている2つのデータセットを再構成し,トレーニングとテストの分割,すなわちout-of-distribution (ood) テストにおいて基底モーメント分布を異にする手法を提案する。 また,新たな評価指標「dr@n,iou@m」を導入して,基本リコールスコアを割引し,偏りのあるデータセットによる膨らみ評価を緩和する。 新しいベンチマーク結果から,提案する評価プロトコルは,研究進捗をより良く監視できることが示唆された。 さらに,非バイアスモーメント予測のための新しい因果関係に基づくマルチブランチデフレウンディングデバイアス(MDD)フレームワークを提案する。 具体的には、複数の共同創設者による因果的介入による影響を排除するために、マルチブランチ・デコノミーを設計する。 このモデルが文クエリとビデオモーメントのセマンティクスをよりよく一致させるのを助けるために,特徴エンコーディング中の表現を強化する。 具体的には、テキスト情報に対して、クエリを複数の動詞中心のフレーズに解析し、よりきめ細かいテキスト特徴を得る。 視覚情報については、位置情報をモーメント特徴から分解し、多様な位置を持つモーメントの表現を強化する。 広範な実験により,提案手法が既存のsomaアプローチの競争結果を達成し,高い利益率でベースモデルを上回ることを実証した。

Temporal Sentence Grounding in Videos (TSGV), which aims to ground a natural language sentence in an untrimmed video, has drawn widespread attention over the past few years. However, recent studies have found that current benchmark datasets may have obvious moment annotation biases, enabling several simple baselines even without training to achieve SOTA performance. In this paper, we take a closer look at existing evaluation protocols, and find both the prevailing dataset and evaluation metrics are the devils that lead to untrustworthy benchmarking. Therefore, we propose to re-organize the two widely-used datasets, making the ground-truth moment distributions different in the training and test splits, i.e., out-of-distribution (OOD) test. Meanwhile, we introduce a new evaluation metric "dR@n,IoU@m" that discounts the basic recall scores to alleviate the inflating evaluation caused by biased datasets. New benchmarking results indicate that our proposed evaluation protocols can better monitor the research progress. Furthermore, we propose a novel causality-based Multi-branch Deconfounding Debiasing (MDD) framework for unbiased moment prediction. Specifically, we design a multi-branch deconfounder to eliminate the effects caused by multiple confounders with causal intervention. In order to help the model better align the semantics between sentence queries and video moments, we enhance the representations during feature encoding. Specifically, for textual information, the query is parsed into several verb-centered phrases to obtain a more fine-grained textual feature. For visual information, the positional information has been decomposed from moment features to enhance representations of moments with diverse locations. Extensive experiments demonstrate that our proposed approach can achieve competitive results among existing SOTA approaches and outperform the base model with great gains.
翻訳日:2022-03-11 13:42:00 公開日:2022-03-10
# 木構造型マルチタスクモデルレコメンダ

A Tree-Structured Multi-Task Model Recommender ( http://arxiv.org/abs/2203.05092v1 )

ライセンス: Link先を確認
Lijun Zhang, Xiao Liu, Hui Guan(参考訳) 木構造型マルチタスクアーキテクチャは、マルチタスク学習(MTL)のコンテキストにおいて、複数の視覚タスクに共同で取り組むために使用されている。 主な課題は、タスクの正確性と計算効率の両方を最適化するためのバックボーンモデルが与えられた場合、各タスクの分岐先を決定することである。 そこで本研究では,タスクセットと畳み込みニューラルネットワークに基づくバックボーンモデルを用いて,モデルトレーニングを行なわずにユーザ指定の計算予算を満たしながら高いタスク性能を実現することができる木構造型マルチタスクアーキテクチャを自動提案する。 一般的なMTLベンチマークの大規模な評価は、推奨アーキテクチャが最先端のMTL手法と比較して、競合するタスク精度と計算効率を達成できることを示している。

Tree-structured multi-task architectures have been employed to jointly tackle multiple vision tasks in the context of multi-task learning (MTL). The major challenge is to determine where to branch out for each task given a backbone model to optimize for both task accuracy and computation efficiency. To address the challenge, this paper proposes a recommender that, given a set of tasks and a convolutional neural network-based backbone model, automatically suggests tree-structured multi-task architectures that could achieve a high task performance while meeting a user-specified computation budget without performing model training. Extensive evaluations on popular MTL benchmarks show that the recommended architectures could achieve competitive task accuracy and computation efficiency compared with state-of-the-art MTL methods.
翻訳日:2022-03-11 13:40:28 公開日:2022-03-10
# 商空間における多様体モデリング:画像パッチの可算性を伴う不変写像の学習

Manifold Modeling in Quotient Space: Learning An Invariant Mapping with Decodability of Image Patches ( http://arxiv.org/abs/2203.05134v1 )

ライセンス: Link先を確認
Tatsuya Yokota and Hidekata Hontani(参考訳) 本研究は,同値クラスの概念を用いた画像パッチの多様体学習のための枠組みである商空間における多様体モデリング(mmqs)を提案する。 MMQSでは、画像の局所的なパッチの集合をそのまま考えるのではなく、同値クラスの概念を導入し、それらの正準パッチ上で多様体学習を行うことによって得られる正準パッチの集合を考える。 正準パッチは同値類を表し、その自己エンコーダは商空間において多様体を構成する。 この枠組みに基づき、回転フリップ等価関係を導入し、新しい多様体に基づく画像モデルを作成する。 また,提案する画像モデルを劣化した観測画像に適合させて画像再構成問題を定式化し,アルゴリズムを導出して解決する。 提案手法は,画像インパインティング,デブラリング,スーパーレゾリューション,デノジングなど,様々な自己教師あり画像再構成タスクに有効であることを示す。

This study proposes a framework for manifold learning of image patches using the concept of equivalence classes: manifold modeling in quotient space (MMQS). In MMQS, we do not consider a set of local patches of the image as it is, but rather the set of their canonical patches obtained by introducing the concept of equivalence classes and performing manifold learning on their canonical patches. Canonical patches represent equivalence classes, and their auto-encoder constructs a manifold in the quotient space. Based on this framework, we produce a novel manifold-based image model by introducing rotation-flip-equiva lence relations. In addition, we formulate an image reconstruction problem by fitting the proposed image model to a corrupted observed image and derive an algorithm to solve it. Our experiments show that the proposed image model is effective for various self-supervised image reconstruction tasks, such as image inpainting, deblurring, super-resolution, and denoising.
翻訳日:2022-03-11 13:40:14 公開日:2022-03-10
# 密度物体検出のための予測誘導蒸留法

Prediction-Guided Distillation for Dense Object Detection ( http://arxiv.org/abs/2203.05469v1 )

ライセンス: Link先を確認
Chenhongyi Yang, Mateusz Ochal, Amos Storkey, Elliot J. Crowley(参考訳) 現実世界のオブジェクト検出モデルは安価で正確であるべきです。 知識蒸留(kd)は,より大きな教師モデルからの有用な情報を活用することで,小型で安価な検出モデルの精度を高めることができる。 しかし、重要な課題は、蒸留の教師が生み出す最も有益な特徴を特定することである。 本研究は,教師の高検出性能を担っているのは,接地路境界ボックス内のごく少数の特徴のみであることを示す。 そこで本研究では,教師のこれらの重要な予測領域の蒸留に焦点を当てた予測誘導蒸留(PGD)を提案し,既存のKDベースラインよりも高い性能を示した。 さらに,その影響を緩和し,さらに優れた性能を実現するため,キー領域に適応的な重み付け手法を提案する。 提案手法は, 先進的な1段階検出アーキテクチャにおいて, 最先端KDベースラインよりも優れている。 特にCOCOデータセットでは,教師と生徒のバックボーンとしてResNet-101とResNet-50を用いて,+3.1%と+4.6%のAP改善を実現している。 CrowdHumanデータセットでは、MRとAPの+3.2%と+2.0%の改善を実現しています。 私たちのコードはhttps://github.com/c henhongyiyang/pgdで入手できる。

Real-world object detection models should be cheap and accurate. Knowledge distillation (KD) can boost the accuracy of a small, cheap detection model by leveraging useful information from a larger teacher model. However, a key challenge is identifying the most informative features produced by the teacher for distillation. In this work, we show that only a very small fraction of features within a ground-truth bounding box are responsible for a teacher's high detection performance. Based on this, we propose Prediction-Guided Distillation (PGD), which focuses distillation on these key predictive regions of the teacher and yields considerable gains in performance over many existing KD baselines. In addition, we propose an adaptive weighting scheme over the key regions to smooth out their influence and achieve even better performance. Our proposed approach outperforms current state-of-the-art KD baselines on a variety of advanced one-stage detection architectures. Specifically, on the COCO dataset, our method achieves between +3.1% and +4.6% AP improvement using ResNet-101 and ResNet-50 as the teacher and student backbones, respectively. On the CrowdHuman dataset, we achieve +3.2% and +2.0% improvements in MR and AP, also using these backbones. Our code is available at https://github.com/C henhongyiYang/PGD.
翻訳日:2022-03-11 13:39:59 公開日:2022-03-10
# Librarian-in-the-Loo p:学術文献における研究データのインフォーマルな操作を検出する自然言語処理パラダイム

Librarian-in-the-Loo p: A Natural Language Processing Paradigm for Detecting Informal Mentions of Research Data in Academic Literature ( http://arxiv.org/abs/2203.05112v1 )

ライセンス: Link先を確認
Lizhou Fan, Sara Lafia, David Bleckley, Elizabeth Moss, Andrea Thomer, Libby Hemphill(参考訳) データ引用は、研究データへの影響を研究する基盤を提供する。 データ引用の収集と管理は、アーカイブ科学と学術コミュニケーションの新しいフロンティアである。 しかし、研究データ引用の発見とキュレーションは労働集約的である。 ユニークな識別子(DOI)を参照するデータ引用は容易に見つけられるが、研究データに対する非公式な言及は推論がより困難である。 本研究では,研究データセットに対する非公式な言及を識別する作業を支援する自然言語処理(NLP)パラダイムを提案する。 非公式なデータ参照を発見する作業は、現在、図書館員とそのスタッフが、データ関連文学の大規模な文献を保管する大規模な社会科学データアーカイブであるICPSR(Inter-Universi ty Consortium for Political and Social Research)で行われている。 NLPモデルはICPSRの図書館員が積極的に収集したデータ引用からブートストラップされる。 このモデルはパターンマッチングと人間のアノテーションの繰り返しを組み合わせることで、非公式なデータ参照を検出するための追加ルールを学ぶ。 これらの例は、NLPパイプラインのトレーニングに使用される。 librarian-in-the-loo pパラダイムは、icpsr librariansが行ったデータ研究を中心に、研究データ利用者の学術的コミュニティを反映した、より包括的なデータ関連文献の書誌作成を支援する。

Data citations provide a foundation for studying research data impact. Collecting and managing data citations is a new frontier in archival science and scholarly communication. However, the discovery and curation of research data citations is labor intensive. Data citations that reference unique identifiers (i.e. DOIs) are readily findable; however, informal mentions made to research data are more challenging to infer. We propose a natural language processing (NLP) paradigm to support the human task of identifying informal mentions made to research datasets. The work of discovering informal data mentions is currently performed by librarians and their staff in the Inter-university Consortium for Political and Social Research (ICPSR), a large social science data archive that maintains a large bibliography of data-related literature. The NLP model is bootstrapped from data citations actively collected by librarians at ICPSR. The model combines pattern matching with multiple iterations of human annotations to learn additional rules for detecting informal data mentions. These examples are then used to train an NLP pipeline. The librarian-in-the-loo p paradigm is centered in the data work performed by ICPSR librarians, supporting broader efforts to build a more comprehensive bibliography of data-related literature that reflects the scholarly communities of research data users.
翻訳日:2022-03-11 13:39:12 公開日:2022-03-10
# 実践的スプリット学習に対するラベル推論のクラスタリング

Clustering Label Inference Attack against Practical Split Learning ( http://arxiv.org/abs/2203.05222v1 )

ライセンス: Link先を確認
Junlin Liu and Xinchen Lyu(参考訳) 分割学習は、プライバシを保存する分散学習において有望なパラダイムであり、学習モデルを複数の部分に分割して、参加者を協調的にトレーニングすることができる。 参加者は, フォワードパス(生データから抽出した特徴)や後方伝播中の勾配などの切断層での中間学習結果のみを交換し, 各種プライバシに敏感なアプリケーションにおいてスプリットラーニングのセキュリティ性能は重要であるが, プライベートラベルに重点を置いて, 実用的なスプリットラーニングのためのパッシブクラスタリングラベル推論攻撃を提案する。 クライアントやサーバは、交換した勾配とスマッシュデータを収集して、個人ラベルを正確に検索することができ、スプリットラーニングにおける潜在的なラベルリークを数学的に解析し、クラスタリング攻撃に対するコサインとユークリッドの類似度測定を提案する。 実験の結果,提案手法は,ラベル保護に微分プライバシーや勾配圧縮が適用された場合でも,実用的な分割学習を行うために,異なる設定(カット層位置,エポックサイズ,バッチサイズなど)でスケーラブルで頑健であることを検証した。

Split learning is deemed as a promising paradigm for privacy-preserving distributed learning, where the learning model can be cut into multiple portions to be trained at the participants collaboratively. The participants only exchange the intermediate learning results at the cut layer, including smashed data via forward-pass (i.e., features extracted from the raw data) and gradients during backward-propagation .Understanding the security performance of split learning is critical for various privacy-sensitive applications.With the emphasis on private labels, this paper proposes a passive clustering label inference attack for practical split learning. The adversary (either clients or servers) can accurately retrieve the private labels by collecting the exchanged gradients and smashed data.We mathematically analyse potential label leakages in split learning and propose the cosine and Euclidean similarity measurements for clustering attack. Experimental results validate that the proposed approach is scalable and robust under different settings (e.g., cut layer positions, epochs, and batch sizes) for practical split learning.The adversary can still achieve accurate predictions, even when differential privacy and gradient compression are adopted for label protections.
翻訳日:2022-03-11 13:38:47 公開日:2022-03-10
# API:エージェント置換不変ネットワークによるマルチエージェント強化学習の促進

API: Boosting Multi-Agent Reinforcement Learning via Agent-Permutation-In variant Networks ( http://arxiv.org/abs/2203.05285v1 )

ライセンス: Link先を確認
Xiaotian Hao, Weixun Wang, Hangyu Mao, Yaodong Yang, Dong Li, Yan Zheng, Zhen Wang, Jianye Hao(参考訳) 多エージェント強化学習は、状態-作用空間の指数的な成長によりサンプル効率が低下する。 均質なマルチエージェントシステムを考えると、$m$ 均質なコンポーネントからなるグローバル状態は$m! つまり、置換不変量(pi)を満たす関数を設計することによって、状態空間を$\frac{1}{m! }$. しかし、主流のMARLアルゴリズムはこの特性を無視し、元の状態空間について学習する。 PIを実現するために、データ拡張ベースの手法や埋め込み共有アーキテクチャベースの手法を含む以前の研究は、トレーニング不安定性と限られたモデル能力に悩まされていた。 本研究では,これらの制約を回避しつつ,PIを実現するための2つの新しい設計を提案する。 最初の設計では、同じが異なる順序の入力を同じ順序に戻し、ダウンストリームネットワークは、全ての置換ではなく、固定順序の入力に対する関数マッピングを学習するだけで、訓練がより簡単になる。 第2の設計では、ハイパーネットワークを適用して各コンポーネントにカスタマイズされた埋め込みを生成し、これは以前の埋め込み共有方法よりも高い表現能力を持つ。 SMACベンチマークによる実験結果から, 提案手法は, ほぼすべてのハードシナリオおよび超硬度シナリオにおいて100%の勝率を達成し, 最先端のベースラインよりも400%も優れた試料効率を示した。

Multi-agent reinforcement learning suffers from poor sample efficiency due to the exponential growth of the state-action space. Considering a homogeneous multiagent system, a global state consisting of $m$ homogeneous components has $m!$ differently ordered representations, thus designing functions satisfying permutation invariant (PI) can reduce the state space by a factor of $\frac{1}{m!}$. However, mainstream MARL algorithms ignore this property and learn over the original state space. To achieve PI, previous works including data augmentation based methods and embedding-sharing architecture based methods, suffer from training instability and limited model capacity. In this work, we propose two novel designs to achieve PI, while avoiding the above limitations. The first design permutes the same but differently ordered inputs back to the same order and the downstream networks only need to learn function mapping over fixed-ordering inputs instead of all permutations, which is much easier to train. The second design applies a hypernetwork to generate customized embedding for each component, which has higher representational capacity than the previous embedding-sharing method. Empirical results on the SMAC benchmark show that the proposed method achieves 100% win-rates in almost all hard and super-hard scenarios (never achieved before), and superior sample-efficiency than the state-of-the-art baselines by up to 400%.
翻訳日:2022-03-11 13:38:22 公開日:2022-03-10
# (参考訳) 制約の少ないマクロニューラルアーキテクチャ探索に向けて [全文訳有]

Towards Less Constrained Macro-Neural Architecture Search ( http://arxiv.org/abs/2203.05508v1 )

ライセンス: CC BY 4.0
Vasco Lopes and Lu\'is A. Alexandre(参考訳) Neural Architecture Search (NAS)で発見されたネットワークは、さまざまなタスクにおいて最先端のパフォーマンスを達成する。 しかし、ほとんどのnas手法は探索を制約する人間定義の仮定に大きく依存している: アーキテクチャの外骨格、層数、パラメータヒューリスティック、探索空間。 さらに、共通検索空間は、アーキテクチャ全体(macro-search)を設計することによって、アーキテクチャの検索空間を完全に探索する代わりに、繰り返し可能なモジュール(セル)で構成される。 このような制約を課すには、人間の深い専門知識が必要であり、検索を事前定義された設定に制限する。 本稿では,事前定義されたヒューリスティックスや有界探索空間に頼ることなく,マクロ探索を行うことにより,NASを制約の少ない探索空間にプッシュする手法であるLCMNASを提案する。 LCMNASはNASパイプラインの3つのコンポーネントを導入した。 一 よく知られた建築に関する情報を利用して、隠された特性を有する重み付き指向グラフに基づく複雑な検索空間を自律的に生成する方法 二 完全な建築をゼロから生成する進化的探索戦略及び 三 初期化段階における建築情報と低忠実度推定とを組み合わせて、複雑な関数をモデル化するための訓練性とキャパシティを推定する混合性能推定手法。 我々は,LCMNASが最小のGPU計算でゼロから最先端アーキテクチャを生成することを示す実験を行った。 マクロ検索におけるNAS成分の重要性について検討した。 再現性に関するコードは \url{https://github.com/V ascoLopes/LCMNAS} で公開されている。

Networks found with Neural Architecture Search (NAS) achieve state-of-the-art performance in a variety of tasks, out-performing human-designed networks. However, most NAS methods heavily rely on human-defined assumptions that constrain the search: architecture's outer-skeletons, number of layers, parameter heuristics and search spaces. Additionally, common search spaces consist of repeatable modules (cells) instead of fully exploring the architecture's search space by designing entire architectures (macro-search). Imposing such constraints requires deep human expertise and restricts the search to pre-defined settings. In this paper, we propose LCMNAS, a method that pushes NAS to less constrained search spaces by performing macro-search without relying on pre-defined heuristics or bounded search spaces. LCMNAS introduces three components for the NAS pipeline: i) a method that leverages information about well-known architectures to autonomously generate complex search spaces based on Weighted Directed Graphs with hidden properties, ii) a evolutionary search strategy that generates complete architectures from scratch, and iii) a mixed-performance estimation approach that combines information about architectures at initialization stage and lower fidelity estimates to infer their trainability and capacity to model complex functions. We present experiments showing that LCMNAS generates state-of-the-art architectures from scratch with minimal GPU computation. We study the importance of different NAS components on a macro-search setting. Code for reproducibility is public at \url{https://github.com/V ascoLopes/LCMNAS}.
翻訳日:2022-03-11 13:37:09 公開日:2022-03-10
# loopitr: 画像テキスト検索のためのデュアルエンコーダとクロスエンコーダの組み合わせ

LoopITR: Combining Dual and Cross Encoder Architectures for Image-Text Retrieval ( http://arxiv.org/abs/2203.05465v1 )

ライセンス: Link先を確認
Jie Lei, Xinlei Chen, Ning Zhang, Mengjiao Wang, Mohit Bansal, Tamara L. Berg, Licheng Yu(参考訳) デュアルエンコーダとクロスエンコーダは画像テキスト検索に広く利用されている。 この2つの間、デュアルエンコーダは、画像とテキストを独立にドット積で符号化し、クロスエンコーダは、画像とテキストを入力として共同供給し、密集したマルチモーダル融合を行う。 これらの2つのアーキテクチャは通常、相互作用なしで個別にモデル化される。 そこで本研究では,共学学習のために同じネットワークで組み合わせたloopitrを提案する。 具体的には、二重エンコーダをクロスエンコーダに強陰性を与え、より識別性の高いクロスエンコーダを用いてその予測を二重エンコーダに戻す。 どちらのステップも同じモデルで効率的に実行される。 本研究は, この組み合わせアーキテクチャの実証分析を中心とし, 蒸留目標の設計に重点を置いている。 実験の結果、同一ネットワーク上で2つのエンコーダをトレーニングする利点を強調し、蒸留が非常に効果的であることを示す。 2つの標準データセット(Flickr30KとCOCO)で実験したところ、同様の量のデータを用いたアプローチと比較して、最先端のデュアルエンコーダの性能が得られた。

Dual encoders and cross encoders have been widely used for image-text retrieval. Between the two, the dual encoder encodes the image and text independently followed by a dot product, while the cross encoder jointly feeds image and text as the input and performs dense multi-modal fusion. These two architectures are typically modeled separately without interaction. In this work, we propose LoopITR, which combines them in the same network for joint learning. Specifically, we let the dual encoder provide hard negatives to the cross encoder, and use the more discriminative cross encoder to distill its predictions back to the dual encoder. Both steps are efficiently performed together in the same model. Our work centers on empirical analyses of this combined architecture, putting the main focus on the design of the distillation objective. Our experimental results highlight the benefits of training the two encoders in the same network, and demonstrate that distillation can be quite effective with just a few hard negative examples. Experiments on two standard datasets (Flickr30K and COCO) show our approach achieves state-of-the-art dual encoder performance when compared with approaches using a similar amount of data.
翻訳日:2022-03-11 13:17:40 公開日:2022-03-10
# 視覚言語モデルのための条件付きプロンプト学習

Conditional Prompt Learning for Vision-Language Models ( http://arxiv.org/abs/2203.05557v1 )

ライセンス: Link先を確認
Kaiyang Zhou, Jingkang Yang, Chen Change Loy, Ziwei Liu(参考訳) CLIPのような強力なトレーニング済みの視覚言語モデルの台頭により、これらのモデルを下流データセットに適応させる方法を検討することが不可欠になる。 最近提案されたContext Optimization (CoOp) という手法は、事前学習された視覚言語モデルに適応するための視覚領域に、NLPの最近のトレンドである即時学習の概念を導入している。 特に、CoOpは、文脈語をプロンプトで学習可能なベクトルの集合に変換し、ラベル付きイメージで学習することで、集中的に調整された手動プロンプトよりも大幅に改善することができる。 学習コンテキストは、同じデータセット内のより広い未確認クラスには一般化できないため、CoOpはトレーニング中に観察されたベースクラスに適合する可能性が示唆された。 本稿では,各画像に対して入力条件トークン(vector)を生成する軽量ニューラルネットワークをさらに学習することにより,coopを拡張する条件付きコンテキスト最適化(cocoop)を提案する。 CoOpの静的プロンプトと比較すると、動的プロンプトは各インスタンスに適応するので、クラスシフトに敏感ではない。 大規模な実験によると、CoCoOpはCoOpよりもはるかに優れた一般化を実現しており、単一のデータセットを超える有望な転送可能性を示している。 コードはhttps://github.com/K aiyangZhou/CoOp.comで入手できる。

With the rise of powerful pre-trained vision-language models like CLIP, it becomes essential to investigate ways to adapt these models to downstream datasets. A recently proposed method named Context Optimization (CoOp) introduces the concept of prompt learning -- a recent trend in NLP -- to the vision domain for adapting pre-trained vision-language models. Specifically, CoOp turns context words in a prompt into a set of learnable vectors and, with only a few labeled images for learning, can achieve huge improvements over intensively-tuned manual prompts. In our study we identify a critical problem of CoOp: the learned context is not generalizable to wider unseen classes within the same dataset, suggesting that CoOp overfits base classes observed during training. To address the problem, we propose Conditional Context Optimization (CoCoOp), which extends CoOp by further learning a lightweight neural network to generate for each image an input-conditional token (vector). Compared to CoOp's static prompts, our dynamic prompts adapt to each instance and are thus less sensitive to class shift. Extensive experiments show that CoCoOp generalizes much better than CoOp to unseen classes, even showing promising transferability beyond a single dataset; and yields stronger domain generalization performance as well. Code is available at https://github.com/K aiyangZhou/CoOp.
翻訳日:2022-03-11 13:17:18 公開日:2022-03-10
# 3dシーンにおける高次キャプションのための多階関係マイニング

MORE: Multi-Order RElation Mining for Dense Captioning in 3D Scenes ( http://arxiv.org/abs/2203.05203v1 )

ライセンス: Link先を確認
Yang Jiao, Shaoxiang Chen, Zequn Jie, Jingjing Chen, Lin Ma, Yu-Gang Jiang(参考訳) 3D高密度キャプションは、最近提案された新しいタスクであり、ポイント雲は2Dよりも幾何的な情報を含んでいる。 しかし、複雑さが増し、オブジェクト間の関係がより多様になるため、さらに困難である。 既存の手法では、グラフでオブジェクト特徴学習の副産物として扱うだけで、それを特別にエンコードすることなく、結果として最適以下の結果が得られる。 本稿では,3次元シーンの複雑な関係を捕捉・活用して3次元高密度キャプションを改善することを目的として,より記述的で包括的なキャプションの生成を支援するマルチオーダーリレーションマイニングモデルMOREを提案する。 技術的には、MOREは複雑な関係を少数の基本関係から導出できるため、オブジェクト関係を進行的に符号化する。 まず,3次元オブジェクトの提案に基づいて構築されたグラフのエッジとして,複数の一階関係を意味的に符号化する空間レイアウトグラフ畳み込み(SLGC)を提案する。 次に、得られたグラフから基本一階関係を包含する複数の三重項を基本単位として抽出し、対象オブジェクト毎に多元関係を推定するオブジェクト中心三重項注意グラフ(otag)を構築する。 OTAGから更新されたノードの特徴を集約してキャプションデコーダに入力し、コンテクストオブジェクトとの多様な関係を含むキャプションを生成する。 scan2capデータセットに関する広範な実験により,提案する more とそのコンポーネントの有効性が証明された。

3D dense captioning is a recently-proposed novel task, where point clouds contain more geometric information than the 2D counterpart. However, it is also more challenging due to the higher complexity and wider variety of inter-object relations. Existing methods only treat such relations as by-products of object feature learning in graphs without specifically encoding them, which leads to sub-optimal results. In this paper, aiming at improving 3D dense captioning via capturing and utilizing the complex relations in the 3D scene, we propose MORE, a Multi-Order RElation mining model, to support generating more descriptive and comprehensive captions. Technically, our MORE encodes object relations in a progressive manner since complex relations can be deduced from a limited number of basic ones. We first devise a novel Spatial Layout Graph Convolution (SLGC), which semantically encodes several first-order relations as edges of a graph constructed over 3D object proposals. Next, from the resulting graph, we further extract multiple triplets which encapsulate basic first-order relations as the basic unit and construct several Object-centric Triplet Attention Graphs (OTAG) to infer multi-order relations for every target object. The updated node features from OTAG are aggregated and fed into the caption decoder to provide abundant relational cues so that captions including diverse relations with context objects can be generated. Extensive experiments on the Scan2Cap dataset prove the effectiveness of our proposed MORE and its components, and we also outperform the current state-of-the-art method.
翻訳日:2022-03-11 13:16:53 公開日:2022-03-10
# TextConvoNet:テキスト分類のための畳み込みニューラルネットワークに基づくアーキテクチャ

TextConvoNet:A Convolutional Neural Network based Architecture for Text Classification ( http://arxiv.org/abs/2203.05173v1 )

ライセンス: Link先を確認
Sanskar Soni, Satyendra Singh Chouhan, and Santosh Singh Rathore(参考訳) 近年、ディープラーニングベースのモデルは自然言語処理(NLP)タスクを大幅に改善している。 特に、コンピュータビジョンに最初に使われた畳み込みニューラルネットワーク(CNN)は、様々なNLP問題におけるテキストデータの顕著な性能を示している。 既存のCNNベースのモデルの多くは1次元の畳み込みフィルタ(n-gram detectors)を使用しており、各フィルタは特定の入力単語の埋め込みの特徴を抽出する。 入力語埋め込みは文行列とも呼ばれ、各行がワードベクトルである行列として扱われる。 したがって、モデルは1次元の畳み込みを適用し、文行列からn-gramベースの特徴のみを抽出することができる。 これらの特徴は、文内n-gram特徴と呼ばれる。 我々の知る限りでは、既存のCNNモデルはすべて上記の概念に基づいている。 本稿では,n-gram内特徴を抽出するだけでなく,入力テキストデータ中のn-gram間特徴をキャプチャするcnnベースのアーキテクチャであるtextconvonetを提案する。 入力行列表現に代替的なアプローチを用い、入力に2次元の多次元畳み込み演算を適用する。 TextConvoNetの性能を評価するために,5つのテキスト分類データセットの実験的検討を行った。 結果は様々なパフォーマンス指標を用いて評価される。 提案するtextconvonetは,テキスト分類において最先端の機械学習およびディープラーニングモデルよりも優れていることを示す。

In recent years, deep learning-based models have significantly improved the Natural Language Processing (NLP) tasks. Specifically, the Convolutional Neural Network (CNN), initially used for computer vision, has shown remarkable performance for text data in various NLP problems. Most of the existing CNN-based models use 1-dimensional convolving filters n-gram detectors), where each filter specialises in extracting n-grams features of a particular input word embedding. The input word embeddings, also called sentence matrix, is treated as a matrix where each row is a word vector. Thus, it allows the model to apply one-dimensional convolution and only extract n-gram based features from a sentence matrix. These features can be termed as intra-sentence n-gram features. To the extent of our knowledge, all the existing CNN models are based on the aforementioned concept. In this paper, we present a CNN-based architecture TextConvoNet that not only extracts the intra-sentence n-gram features but also captures the inter-sentence n-gram features in input text data. It uses an alternative approach for input matrix representation and applies a two-dimensional multi-scale convolutional operation on the input. To evaluate the performance of TextConvoNet, we perform an experimental study on five text classification datasets. The results are evaluated by using various performance metrics. The experimental results show that the presented TextConvoNet outperforms state-of-the-art machine learning and deep learning models for text classification purposes.
翻訳日:2022-03-11 13:16:23 公開日:2022-03-10
# SemEval-2022 Task 12におけるAIFB-WebScience:関係抽出第一部-関係抽出と実体の同定

AIFB-WebScience at SemEval-2022 Task 12: Relation Extraction First -- Using Relation Extraction to Identify Entities ( http://arxiv.org/abs/2203.05325v1 )

ライセンス: Link先を確認
Nicholas Popovic, Walter Laurito, Michael F\"arber(参考訳) 本稿では,変換器に基づく言語モデルに基づくエンドツーエンドのジョイントエンティティと関係抽出手法を提案する。 数学的記号をLaTeX文書に記述するタスクにモデルを適用する。 エンティティ抽出と関係抽出を連続的に行う既存のアプローチとは対照的に,本システムは関係抽出からエンティティ抽出へ情報を取り込む。 つまり、有効なエンティティのサブセットだけがアノテートされているデータセットでも、システムはトレーニングできる。 本稿では,提案システムとその長所と短所を広範囲に評価する。 提案手法は計算複雑性を推論時に動的に拡張し,高精度で予測し,SemEval-2022タスク12のリーダーボードで3位に到達した。 物理学と数学の分野の入力では、それぞれ95.43%と79.17%の高関係抽出マクロf1スコアが得られる。 モデルのトレーニングと評価に使用されるコードは、https://github.com/n icpopovic/RE1stで公開されている。

In this paper, we present an end-to-end joint entity and relation extraction approach based on transformer-based language models. We apply the model to the task of linking mathematical symbols to their descriptions in LaTeX documents. In contrast to existing approaches, which perform entity and relation extraction in sequence, our system incorporates information from relation extraction into entity extraction. This means that the system can be trained even on data sets where only a subset of all valid entity spans is annotated. We provide an extensive evaluation of the proposed system and its strengths and weaknesses. Our approach, which can be scaled dynamically in computational complexity at inference time, produces predictions with high precision and reaches 3rd place in the leaderboard of SemEval-2022 Task 12. For inputs in the domain of physics and math, it achieves high relation extraction macro f1 scores of 95.43% and 79.17%, respectively. The code used for training and evaluating our models is available at: https://github.com/n icpopovic/RE1st
翻訳日:2022-03-11 13:16:00 公開日:2022-03-10
# モデルスープ:複数の微調整モデルの平均重量は推論時間を増やすことなく精度を向上させる

Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time ( http://arxiv.org/abs/2203.05482v1 )

ライセンス: Link先を確認
Mitchell Wortsman, Gabriel Ilharco, Samir Yitzhak Gadre, Rebecca Roelofs, Raphael Gontijo-Lopes, Ari S. Morcos, Hongseok Namkoong, Ali Farhadi, Yair Carmon, Simon Kornblith, Ludwig Schmidt(参考訳) モデル精度を最大化するための従来のレシピは、(1)様々なハイパーパラメーターで複数のモデルを訓練し、(2)保持された検証セット上で最良となる個別モデルを選定し、残りのモデルを破棄する。 本稿では,この手順の2番目のステップを,細調整されたモデルが単一の低誤差境界内にあるように見えるような,大規模事前学習モデルの文脈で再考する。 異なるパラメータ構成で微調整された複数のモデルの重みを平均化することで、精度とロバスト性が向上することを示す。 従来のアンサンブルとは異なり、追加の推論やメモリコストを伴わずに、平均的な多くのモデルを作ることができます。 CLIP, ALIGN, およびJFTで事前学習したViT-Gなどの大規模事前学習モデルの微調整を行うと, スープレシピはImageNetのハイパーパラメータスイープにおいて, 最高のモデルよりも大幅に改善される。 ハイライトとして、結果のViT-Gモデルは、新しい最先端であるImageNetで90.94%のトップ1精度を達成した。 さらに,モデルスープアプローチが複数の画像分類や自然言語処理タスクに拡張され,分散性能が向上し,新しい下流タスクにおけるゼロショット性能が向上することを示す。 最後に,重量平均とロジットセンシングの性能の類似性を,予測の損失と信頼性の平坦性に分析的に関連付け,経験的に検証する。

The conventional recipe for maximizing model accuracy is to (1) train multiple models with various hyperparameters and (2) pick the individual model which performs best on a held-out validation set, discarding the remainder. In this paper, we revisit the second step of this procedure in the context of fine-tuning large pre-trained models, where fine-tuned models often appear to lie in a single low error basin. We show that averaging the weights of multiple models fine-tuned with different hyperparameter configurations often improves accuracy and robustness. Unlike a conventional ensemble, we may average many models without incurring any additional inference or memory costs -- we call the results "model soups." When fine-tuning large pre-trained models such as CLIP, ALIGN, and a ViT-G pre-trained on JFT, our soup recipe provides significant improvements over the best model in a hyperparameter sweep on ImageNet. As a highlight, the resulting ViT-G model attains 90.94% top-1 accuracy on ImageNet, a new state of the art. Furthermore, we show that the model soup approach extends to multiple image classification and natural language processing tasks, improves out-of-distribution performance, and improves zero-shot performance on new downstream tasks. Finally, we analytically relate the performance similarity of weight-averaging and logit-ensembling to flatness of the loss and confidence of the predictions, and validate this relation empirically.
翻訳日:2022-03-11 13:15:43 公開日:2022-03-10
# back to reality: shape-guided label enhancementによる弱い教師付き3dオブジェクト検出

Back to Reality: Weakly-supervised 3D Object Detection with Shape-guided Label Enhancement ( http://arxiv.org/abs/2203.05238v1 )

ライセンス: Link先を確認
Xiuwei Xu, Yifan Wang, Yu Zheng, Yongming Rao, Jiwen Lu, Jie Zhou(参考訳) 本稿では,3次元オブジェクト検出のための弱教師付きアプローチを提案する。これにより,位置レベルのアノテーション(オブジェクト中心のアノテーション)を用いて,強力な3次元検出器を訓練することができる。 ボックスアノテーションからセンターへの情報損失を改善するため,我々の手法であるBack to Reality (BR)は,弱いラベルを完全な注釈付き仮想シーンに変換するための合成3D形状を用いて,真のラベルを補完・洗練するために,完全な仮想ラベルを利用する。 具体的には,まず位置レベルのアノテーションから抽出した粗いシーンレイアウトに従って,物理的に妥当な仮想シーンに3d形状を組み立てる。 次に、弱いラベルを洗練し、仮想シーンで検出器のトレーニングを監督する仮想から現実へのドメイン適応手法を適用することで現実に戻る。 さらに, 室内3次元物体検出において, BRの可能性をよりよく示すために, より多彩なオブジェクトサイズでより困難なベノックマークを提案する。 ラベル付け作業の5%未満で、広く使用されているscannetデータセット上の一般的な完全教師付きアプローチと同等の検出性能を達成しています。 コードは、https://github.com/x uxw98/BackToRealityで入手できる。

In this paper, we propose a weakly-supervised approach for 3D object detection, which makes it possible to train strong 3D detector with position-level annotations (i.e. annotations of object centers). In order to remedy the information loss from box annotations to centers, our method, namely Back to Reality (BR), makes use of synthetic 3D shapes to convert the weak labels into fully-annotated virtual scenes as stronger supervision, and in turn utilizes the perfect virtual labels to complement and refine the real labels. Specifically, we first assemble 3D shapes into physically reasonable virtual scenes according to the coarse scene layout extracted from position-level annotations. Then we go back to reality by applying a virtual-to-real domain adaptation method, which refine the weak labels and additionally supervise the training of detector with the virtual scenes. Furthermore, we propose a more challenging benckmark for indoor 3D object detection with more diversity in object sizes to better show the potential of BR. With less than 5% of the labeling labor, we achieve comparable detection performance with some popular fully-supervised approaches on the widely used ScanNet dataset. Code is available at: https://github.com/x uxw98/BackToReality
翻訳日:2022-03-11 13:14:51 公開日:2022-03-10
# (参考訳) 多様性を意識した言語科学と技術のための会話コーパスの構築とキュレーション [全文訳有]

Building and curating conversational corpora for diversity-aware language science and technology ( http://arxiv.org/abs/2203.03399v2 )

ライセンス: CC BY 4.0
Andreas Liesenfeld, Mark Dingemanse(参考訳) 66の言語と32の系統を網羅する対話型相互作用の、最も自然なデータセットを構築するためのパイプラインとツールを提案する。 本稿では,多様な言語ドキュメントコーパスから統一フォーマットへ移行するキュレーションとコンパイルのプロセスを説明し,対話型データの品質管理と評価を支援するオープンソースツール「convo-parse」について述べる。 多様なデータセットが対話型言語学や音声認識技術にどのような影響を及ぼすかという2つのケーススタディをまとめ,言語科学の実証的基盤の拡大に寄与する。

We present a pipeline and tools to build a maximally natural data set of conversational interaction that covers 66 languages and varieties from 32 phyla. We describe the curation and compilation process moving from diverse language documentation corpora to a unified format and describe an open-source tool "convo-parse" to help in quality control and assessment of conversational data. We conclude with two case studies of how diverse data sets can inform interactional linguistics and speech recognition technology and thus contribute to broadening the empirical foundations of language sciences and technologies of the future.
翻訳日:2022-03-11 13:13:03 公開日:2022-03-10
# (参考訳) 超高精度超解像ネットワークのための動的デュアルトレーニングバウンド

Dynamic Dual Trainable Bounds for Ultra-low Precision Super-Resolution Networks ( http://arxiv.org/abs/2203.03844v2 )

ライセンス: CC BY 4.0
Yunshan Zhong, Mingbao Lin, Xunchao Li, Ke Li, Yunhang Shen, Fei Chao, Yongjian Wu, Rongrong Ji(参考訳) 軽量スーパーレゾリューション(SR)モデルは、モバイルデバイスでの利用性に大きな注目を集めている。 多くの努力はsrモデルを圧縮するためにネットワーク量子化を利用している。 しかし、これらの手法は、SRモデルを低コスト層ワイド量子化器で超低精度(2ビット、3ビットなど)に定量化する際に、厳しい性能劣化に悩まされる。 本稿では,SRモデルにおける層次対称量子化器と高非対称活性化分布との矛盾から,性能低下が生じることを確かめる。 この違いは、量子化レベルの無駄や、再構成された画像の詳細な損失につながる。 そこで本研究では,アクティベーションの非対称性に対応するために,動的デュアルトレーニング境界(DDTB)と呼ばれる新しいアクティベーション量子化器を提案する。 具体的には、DDTBは: 1) 高度に非対称なアクティベーションに取り組むために, 上部および下部境界を訓練可能な層状量子化器。 2) 実行時の上限と下限を適応的に調整し, 異なるサンプルに対して大きく変化するアクティベーション範囲を克服する動的ゲートコントローラを, 追加オーバーヘッドを低減するために, 動的ゲートコントローラを2ビットに量子化し, 導入した動的強度に応じてsrネットワークの一部にのみ適用する。 DDTBは超低精度で高い性能向上を示した。 例えば、我々のDDTBは、EDSRを2ビットに量子化し、出力画像をx4にスケールアップする場合、Urban100ベンチマークで0.70dBのPSNRアップを達成する。 コードは \url{https://github.com/z ysxmu/DDTB} にある。

Light-weight super-resolution (SR) models have received considerable attention for their serviceability in mobile devices. Many efforts employ network quantization to compress SR models. However, these methods suffer from severe performance degradation when quantizing the SR models to ultra-low precision (e.g., 2-bit and 3-bit) with the low-cost layer-wise quantizer. In this paper, we identify that the performance drop comes from the contradiction between the layer-wise symmetric quantizer and the highly asymmetric activation distribution in SR models. This discrepancy leads to either a waste on the quantization levels or detail loss in reconstructed images. Therefore, we propose a novel activation quantizer, referred to as Dynamic Dual Trainable Bounds (DDTB), to accommodate the asymmetry of the activations. Specifically, DDTB innovates in: 1) A layer-wise quantizer with trainable upper and lower bounds to tackle the highly asymmetric activations. 2) A dynamic gate controller to adaptively adjust the upper and lower bounds at runtime to overcome the drastically varying activation ranges over different samples.To reduce the extra overhead, the dynamic gate controller is quantized to 2-bit and applied to only part of the SR networks according to the introduced dynamic intensity. Extensive experiments demonstrate that our DDTB exhibits significant performance improvements in ultra-low precision. For example, our DDTB achieves a 0.70dB PSNR increase on Urban100 benchmark when quantizing EDSR to 2-bit and scaling up output images to x4. Code is at \url{https://github.com/z ysxmu/DDTB}.
翻訳日:2022-03-11 13:00:08 公開日:2022-03-10
# (参考訳) 機械学習を用いた連続変数の介入による平均因果効果の推定 [全文訳有]

Estimating the average causal effect of intervention in continuous variables using machine learning ( http://arxiv.org/abs/2203.03916v3 )

ライセンス: CC BY 4.0
Yoshiaki Kitazawa(参考訳) 平均因果効果/平均治療効果を推定するための最も広く議論されている方法は、介入/非干渉群を表す値を持つ離散二変数への介入である。 一方,データ生成モデルに依存しない連続変数のインターベンション手法は開発されていない。 本研究では,任意の生成モデルのデータに適用可能な連続変数に対する介入に対する平均因果効果を,因果効果を識別できる限り推定する手法を提案する。 提案手法は機械学習アルゴリズムとは無関係であり、データの識別性を保持する。

The most widely discussed methods for estimating the Average Causal Effect / Average Treatment Effect are those for intervention in discrete binary variables whose value represents the intervention / non-intervention groups. On the other hand, methods for intervening in continuous variables independent of the data generating model has not been developed. In this study, we give a method for estimating the average causal effect for intervention in continuous variables that can be applied to data of any generating model as long as the causal effect is identifiable. The proposing method is independent of machine learning algorithms and preserves the identifiability of the data.
翻訳日:2022-03-11 12:58:59 公開日:2022-03-10
# (参考訳) 制約付きボトルネックオートエンコーダを用いたデータ駆動型検出器信号特性評価 [全文訳有]

Data-driven detector signal characterization with constrained bottleneck autoencoders ( http://arxiv.org/abs/2203.04604v2 )

ライセンス: CC BY 4.0
C\'esar Jes\'us-Valls, Thorsten Lux and Federico S\'anchez(参考訳) 高エネルギー物理学における一般的な手法は、システムの物理パラメータから検出器の期待信号へのパラメトリックマップを構築するデータに追従したモデルを用いて検出器の応答を特徴づけることである。 基礎となるモデルが不明な場合、この手法を適用することは困難であり、しばしば、モデリングエラーを導入した仮定を単純化する。 本稿では,波形玩具モデルを用いて,制約付きボトルネックオートエンコーダによるディープラーニングを用いて,未知検出応答モデルを直接データから学習する方法を提案する。 その結果,信号がランダムノイズの影響を受けても,優れた性能が得られることがわかった。 訓練されたアルゴリズムは同時にモデルの物理パラメータの推定を行い、高い忠実度で検出器応答をシミュレートし、検出器信号にノイズを与える。

A common technique in high energy physics is to characterize the response of a detector by means of models tunned to data which build parametric maps from the physical parameters of the system to the expected signal of the detector. When the underlying model is unknown it is difficult to apply this method, and often, simplifying assumptions are made introducing modeling errors. In this article, using a waveform toy model we present how deep learning in the form of constrained bottleneck autoencoders can be used to learn the underlying unknown detector response model directly from data. The results show that excellent performance results can be achieved even when the signals are significantly affected by random noise. The trained algorithm can be used simultaneously to perform estimations on the physical parameters of the model, simulate the detector response with high fidelity and to denoise detector signals.
翻訳日:2022-03-11 12:25:27 公開日:2022-03-10
# (参考訳) Text-DIAE: テキスト認識と文書強調のための劣化不変オートエンコーダ [全文訳有]

Text-DIAE: Degradation Invariant Autoencoders for Text Recognition and Document Enhancement ( http://arxiv.org/abs/2203.04814v2 )

ライセンス: CC BY 4.0
Mohamed Ali Souibgui, Sanket Biswas, Andres Mafla, Ali Furkan Biten, Alicia Forn\'es, Yousri Kessentini, Josep Llad\'os, Lluis Gomez, Dimosthenis Karatzas(参考訳) 本研究では,テキスト認識(手書き・シーンテキスト)と文書画像強調の2つの課題を解決するためのテキスト劣化不変オートエンコーダ(Text-DIAE)を提案する。 3つのプリテキストタスクを,ラベル付きデータの使用なしに事前トレーニング中に最適化される学習目標として定義する。 プレテキストの目的のそれぞれは、最後のダウンストリームタスクに特化している。 特定の領域における各劣化の重要性を示すアブレーション実験を行っている。 実験結果から, 従来手法では, 従来手法では比較的損失に基づく限界がなく, 同時に, 収束するデータサンプルが少ないことがわかった。 最後に,本手法は手書き文字認識と文書画像強調において,既存の教師付きおよび自己監督型設定において,最先端の手法をはるかに上回ることを示す。 私たちのコードとトレーニングされたモデルは、~\url{ http://Upon_Acceptan ce}で公開されます。

In this work, we propose Text-Degradation Invariant Auto Encoder (Text-DIAE) aimed to solve two tasks, text recognition (handwritten or scene-text) and document image enhancement. We define three pretext tasks as learning objectives to be optimized during pre-training without the usage of labelled data. Each of the pre-text objectives is specifically tailored for the final downstream tasks. We conduct several ablation experiments that show the importance of each degradation for a specific domain. Exhaustive experimentation shows that our method does not have limitations of previous state-of-the-art based on contrastive losses while at the same time requiring essentially fewer data samples to converge. Finally, we demonstrate that our method surpasses the state-of-the-art significantly in existing supervised and self-supervised settings in handwritten and scene text recognition and document image enhancement. Our code and trained models will be made publicly available at~\url{ http://Upon_Acceptan ce}.
翻訳日:2022-03-11 12:14:33 公開日:2022-03-10
# ディープニューラルネットワークを用いたデータ駆動型ロバスト統計調停戦略の検出

Detecting data-driven robust statistical arbitrage strategies with deep neural networks ( http://arxiv.org/abs/2203.03179v2 )

ライセンス: Link先を確認
Ariel Neufeld, Julian Sester, Daiying Yin(参考訳) 我々は、金融市場における堅牢な統計的仲裁戦略を識別できるディープニューラルネットワークに基づくアプローチを提案する。 ロバストな統計仲裁戦略は、モデルあいまいさの下で利益のある取引を可能にする自己金融取引戦略を指す。 提示された新しい手法は、次元の呪いに苦しめられず、統合された資産のペアの識別に依存しないため、高次元金融市場や古典的なペア取引アプローチが失敗する市場においても適用可能である。 さらに、観測された市場データから導出可能な許容確率尺度のあいまい性セットを構築する方法を提案する。 したがって、このアプローチはモデルフリーであり、データ駆動であると考えることができる。 金融危機時の50次元においても高い利益率の取引実績と資産対の合併関係が持続しなくなった場合においても,実証調査を行うことにより,本手法の適用性を示す。

We present an approach, based on deep neural networks, that allows identifying robust statistical arbitrage strategies in financial markets. Robust statistical arbitrage strategies refer to self-financing trading strategies that enable profitable trading under model ambiguity. The presented novel methodology does not suffer from the curse of dimensionality nor does it depend on the identification of cointegrated pairs of assets and is therefore applicable even on high-dimensional financial markets or in markets where classical pairs trading approaches fail. Moreover, we provide a method to build an ambiguity set of admissible probability measures that can be derived from observed market data. Thus, the approach can be considered as being model-free and entirely data-driven. We showcase the applicability of our method by providing empirical investigations with highly profitable trading performances even in 50 dimensions, during financial crises, and when the cointegration relationship between asset pairs stops to persist.
翻訳日:2022-03-11 11:51:13 公開日:2022-03-10
# (参考訳) 中間レベル表現としての分解光学流れの検討 [全文訳有]

Investigation of Factorized Optical Flows as Mid-Level Representations ( http://arxiv.org/abs/2203.04927v2 )

ライセンス: CC BY 4.0
Hsuan-Kung Yang, Tsu-Ching Hsiao, Ting-Hsuan Liao, Hsu-Shen Liu, Li-Yuan Tsao, Tzu-Wen Wang, Shan-Ya Yang, Yu-Wen Chen, Huang-Ru Liao, and Chun-Yi Lee(参考訳) 本稿では,モジュール型学習ロボットフレームワークにおける知覚と制御モジュールを橋渡しするための中レベル表現として,因子化フローマップを組み込む新しい概念を提案する。 因子化フローマップの利点を検証し,他の中級表現との相互作用を検討するために,静的および動的オブジェクトの両方を含む4つの異なる環境とともに構成可能なフレームワークを開発し,分解された光フローマップが深い強化学習エージェントの性能に与える影響を解析する。 この枠組みに基づき,様々なシナリオに関する実験結果を報告し,仮説を正当化するための一連の分析を行う。 最後に,実世界のシナリオにおけるフローファクタライゼーションを検証する。

In this paper, we introduce a new concept of incorporating factorized flow maps as mid-level representations, for bridging the perception and the control modules in modular learning based robotic frameworks. To investigate the advantages of factorized flow maps and examine their interplay with the other types of mid-level representations, we further develop a configurable framework, along with four different environments that contain both static and dynamic objects, for analyzing the impacts of factorized optical flow maps on the performance of deep reinforcement learning agents. Based on this framework, we report our experimental results on various scenarios, and offer a set of analyses to justify our hypothesis. Finally, we validate flow factorization in real world scenarios.
翻訳日:2022-03-11 11:49:44 公開日:2022-03-10
# 代表的スニペット知識伝播による時間的行動局在の弱化

Weakly Supervised Temporal Action Localization via Representative Snippet Knowledge Propagation ( http://arxiv.org/abs/2203.02925v3 )

ライセンス: Link先を確認
Linjiang Huang, Liang Wang, Hongsheng Li(参考訳) 微弱に監督された時間的行動局所化は、行動の時間的境界をローカライズすることを目的としており、同時にビデオレベルのカテゴリラベルのみを用いてカテゴリを識別する。 既存の多くの手法は、分類とローカライゼーションの相違をブリッジするために擬似ラベルを生成するが、通常は擬似ラベル生成に限定した文脈情報のみを使用する。 この問題を軽減するために,代表的要約・伝播フレームワークを提案する。 提案手法では,ビデオスニペット間で情報を伝達し,より優れた擬似ラベルを生成するために,各ビデオ中の代表スニペットをマイニングする。 各ビデオに対して、それぞれの代表スニペットとメモリバンクの代表スニペットが伝播して、イントラおよびイントラビデオ方式で入力機能を更新する。 更新された特徴の時間クラス活性化マップから擬似ラベルを生成し、メインブランチの予測を是正する。 提案手法は,THUMOS14とActivityNet1.3の2つのベンチマークにおける既存手法と比較して優れた性能を示し,THUMOS14の平均mAPは1.2%向上した。

Weakly supervised temporal action localization aims to localize temporal boundaries of actions and simultaneously identify their categories with only video-level category labels. Many existing methods seek to generate pseudo labels for bridging the discrepancy between classification and localization, but usually only make use of limited contextual information for pseudo label generation. To alleviate this problem, we propose a representative snippet summarization and propagation framework. Our method seeks to mine the representative snippets in each video for propagating information between video snippets to generate better pseudo labels. For each video, its own representative snippets and the representative snippets from a memory bank are propagated to update the input features in an intra- and inter-video manner. The pseudo labels are generated from the temporal class activation maps of the updated features to rectify the predictions of the main branch. Our method obtains superior performance in comparison to the existing methods on two benchmarks, THUMOS14 and ActivityNet1.3, achieving gains as high as 1.2% in terms of average mAP on THUMOS14.
翻訳日:2022-03-11 11:30:16 公開日:2022-03-10
# SingleSketch2Mesh : スケッチから3Dメッシュモデルを生成する

SingleSketch2Mesh : Generating 3D Mesh model from Sketch ( http://arxiv.org/abs/2203.03157v2 )

ライセンス: Link先を確認
Nitish Bhardwaj, Dhornala Bharadwaj, Alpana Dubey(参考訳) スケッチは設計プロセスにおいて重要な活動である。 設計者とステークホルダは手書きのスケッチを通じてアイデアを共有します。 これらのスケッチは、3dモデルの作成にも使われる。 スケッチから3Dモデルを生成する現在の方法は、手動またはタイトに3Dモデリングプラットフォームと結合されている。 そのため、ユーザーはこうしたプラットフォーム上でスケッチを体験する必要がある。 さらに、既存のアプローチのほとんどは幾何学的操作に基づいているため、一般化はできない。 我々は手描きスケッチから3Dモデルを生成するための新しいAIベースのアンサンブルアプローチであるSingleSketch2Meshを提案する。 このアプローチは生成ネットワークとエンコーダ-デコーダアーキテクチャに基づいて,手書きスケッチから3次元メッシュモデルを生成する。 既存のソリューションでソリューションを評価します。 提案手法は,定量評価基準と定性評価基準の両方において既存手法より優れている。

Sketching is an important activity in any design process. Designers and stakeholders share their ideas through hand-drawn sketches. These sketches are further used to create 3D models. Current methods to generate 3D models from sketches are either manual or tightly coupled with 3D modeling platforms. Therefore, it requires users to have an experience of sketching on such platform. Moreover, most of the existing approaches are based on geometric manipulation and thus cannot be generalized. We propose a novel AI based ensemble approach, SingleSketch2Mesh, for generating 3D models from hand-drawn sketches. Our approach is based on Generative Networks and Encoder-Decoder Architecture to generate 3D mesh model from a hand-drawn sketch. We evaluate our solution with existing solutions. Our approach outperforms existing approaches on both - quantitative and qualitative evaluation criteria.
翻訳日:2022-03-11 11:29:57 公開日:2022-03-10
# 顔認識における物理的対立パッチの評価と生成

Controllable Evaluation and Generation of Physical Adversarial Patch on Face Recognition ( http://arxiv.org/abs/2203.04623v2 )

ライセンス: Link先を確認
Xiao Yang, Yinpeng Dong, Tianyu Pang, Zihao Xiao, Hang Su, Jun Zhu(参考訳) 近年の研究では、顔認証システムのセキュリティ上の懸念を生じさせる物理的敵パッチに対する顔認識モデルの脆弱性が明らかにされている。 しかし、複雑な物理条件下での攻撃アルゴリズムの再現性を確保することは依然として困難であり、既存の手法の体系的評価が欠如している。 したがって、物理的世界における顔認識の脆弱性を包括的に評価できるフレームワークを開発することが不可欠である。 そこで,本稿では,物理的顔のデジタル対応として機能する3d顔モデルを用いて,物理的世界における顔の複雑な変換をシミュレートする。 汎用フレームワークは、さまざまな顔のバリエーションや物理的条件を制御し、再現可能な評価を包括的に行うことができる。 このデジタルシミュレータを用いて,3次元顔変換とリアルな物理的変動を考慮したface3dadv法を提案する。 広範な実験により、face3dadvは様々なホワイトボックスとブラックボックスの顔認識モデルに対して、シミュレートされた環境と物理的環境の両方において、様々な物理的に実現可能な敵パッチの有効性を著しく改善できることが確認された。

Recent studies have revealed the vulnerability of face recognition models against physical adversarial patches, which raises security concerns about the deployed face recognition systems. However, it is still challenging to ensure the reproducibility for most attack algorithms under complex physical conditions, which leads to the lack of a systematic evaluation of the existing methods. It is therefore imperative to develop a framework that can enable a comprehensive evaluation of the vulnerability of face recognition in the physical world. To this end, we propose to simulate the complex transformations of faces in the physical world via 3D-face modeling, which serves as a digital counterpart of physical faces. The generic framework allows us to control different face variations and physical conditions to conduct reproducible evaluations comprehensively. With this digital simulator, we further propose a Face3DAdv method considering the 3D face transformations and realistic physical variations. Extensive experiments validate that Face3DAdv can significantly improve the effectiveness of diverse physically realizable adversarial patches in both simulated and physical environments, against various white-box and black-box face recognition models.
翻訳日:2022-03-11 11:29:46 公開日:2022-03-10
# 専門的学習によるオンライン健康フォーラムの博士勧告

Doctor Recommendation in Online Health Forums via Expertise Learning ( http://arxiv.org/abs/2203.02932v3 )

ライセンス: Link先を確認
Xiaoxin Lu, Yubo Zhang, Jing Li, Shi Zong(参考訳) 大量の患者クエリがオンラインヘルスフォーラムで毎日生成され、手動の医師が労働集約的なタスクを割り当てる。 そこで本論文では,患者を医師に自動的にペア化するための,医師推薦の新たな課題について検討する。 これまでの推奨作業のほとんどは、過去の行動からターゲットユーザをモデル化することに焦点を当てていますが、プライバシ上の理由から患者のニーズを推測するために、クエリ内の限られた単語のみに依存することができます。 医師モデルでは, 他患者とのプロフィールと過去の対話の併用効果について検討し, 自己学習による対話を探求する。 学習した医師の埋め込みは、患者クエリをマルチヘッドアテンションメカニズムで処理する能力を推定するためにさらに使用される。 実験では、中国のオンライン健康フォーラム「中入義宗」から大規模なデータセットを収集し、私たちのモデルは最先端の結果を示し、医師を特徴づけるためにプロファイルと過去の対話のみを上回ります。

Huge volumes of patient queries are daily generated on online health forums, rendering manual doctor allocation a labor-intensive task. To better help patients, this paper studies a novel task of doctor recommendation to enable automatic pairing of a patient to a doctor with relevant expertise. While most prior work in recommendation focuses on modeling target users from their past behavior, we can only rely on the limited words in a query to infer a patient's needs for privacy reasons. For doctor modeling, we study the joint effects of their profiles and previous dialogues with other patients and explore their interactions via self-learning. The learned doctor embeddings are further employed to estimate their capabilities of handling a patient query with a multi-head attention mechanism. For experiments, a large-scale dataset is collected from Chunyu Yisheng, a Chinese online health forum, where our model exhibits the state-of-the-art results, outperforming baselines only consider profiles and past dialogues to characterize a doctor.
翻訳日:2022-03-11 11:29:26 公開日:2022-03-10