このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220107となっている論文です。

PDF登録状況(公開日: 20220107)

TitleAuthorsAbstract論文公表日・翻訳日
# インテントマッチングに基づく自然言語理解型カスタマーサービスチャットボット

Intent Matching based Customer Services Chatbot with Natural Language Understanding ( http://arxiv.org/abs/2202.00480v1 )

ライセンス: Link先を確認
Alvin Chaidrata, Mariyam Imtha Shafeeu, Sze Ker Chew, Zhiyuan Chen, Jin Sheng Cham, Zi Li Yong, Uen Hsieh Yap, Dania Imanina Binti Kamarul Bahrin(参考訳) カスタマーサービスはあらゆるビジネスの生命線である。 優れたカスタマーサービスはリターンビジネスを生み出すだけでなく、新しい顧客も生み出す。 顧客への24/7サービス提供の需要市場を見ると、多くの組織が、現在の需要市場における顧客への24/7サービスの提供において、WhatsAppやFacebook Messengerといったポピュラーなソーシャルメディアやテキストメッセージプラットフォームにますます関与している。 本稿では、自然言語理解(nlu)の雇用を通じて、より自然で人間のような方法で対話しながら、営業員のカスタマーサービス業務を置き換えることができるインテントマッチングベースのカスタマーサービスチャットボット(imcsc)を提案する。 このボットは、最もよく聞かれる質問に答えることができ、また、顧客の注文の処理とエクスポートのための機能をgoogleシートに統合しています。

Customer service is the lifeblood of any business. Excellent customer service not only generates return business but also creates new customers. Looking at the demanding market to provide a 24/7 service to customers, many organisations are increasingly engaged in popular social media and text messaging platforms such as WhatsApp and Facebook Messenger in providing a 24/7 service to customers in the current demanding market. In this paper, we present an intent matching based customer services chatbot (IMCSC), which is capable of replacing the customer service work of sales personnel, whilst interacting in a more natural and human-like manner through the employment of Natural Language Understanding (NLU). The bot is able to answer the most common frequently asked questions and we have also integrated features for the processing and exporting of customer orders to a Google Sheet.
翻訳日:2022-02-06 08:56:51 公開日:2022-01-07
# (参考訳) 自動ロボットアーム:機械学習アプローチ [全文訳有]

An Automated Robotic Arm: A Machine Learning Approach ( http://arxiv.org/abs/2201.07882v1 )

ライセンス: CC BY 4.0
Krishnaraj Rao N S, Avinash N J, Rama Moorthy H, Karthik K, Sudesh Rao, Santosh S(参考訳) ロボットという用語は一般に、人間と似た見た目で機能する機械を指す。 現代の産業は、生産性を高め、品質の高い製品を提供するために、システムの手動制御から自動化へと急速にシフトしています。 コンピュータベースのシステムは、品質と生産性を向上させることができるが、作業には柔軟性がなく、そのようなシステムのコストは著しく高い。 これにより、産業タスクを実行するための自動化システムの迅速な採用につながった。 工業的重要性の1つは、ある場所から別の場所へ物を選んで配置することである。 タスクの選択と配置における自動化の実装は、システムの効率とパフォーマンスの向上に役立つ。 本稿では,機械学習手法を用いた自動ロボットアームの設計と動作を実証する。 この研究は、オブジェクトの識別とトラバーサルに機械学習アプローチを使用し、より良い正確な結果を得るためにTensor Flowパッケージで採用されている。

The term robot generally refers to a machine that looks and works in a way similar to a human. The modern industry is rapidly shifting from manual control of systems to automation, in order to increase productivity and to deliver quality products. Computer-based systems, though feasible for improving quality and productivity, are inflexible to work with, and the cost of such systems is significantly high. This led to the swift adoption of automated systems to perform industrial tasks. One such task of industrial significance is of picking and placing objects from one place to another. The implementation of automation in pick and place tasks helps to improve efficiency of system and also the performance. In this paper, we propose to demonstrate the designing and working of an automated robotic arm with the Machine Learning approach. The work uses Machine Learning approach for object identification detection and traversal, which is adopted with Tensor flow package for better and accurate results.
翻訳日:2022-01-23 21:12:13 公開日:2022-01-07
# (参考訳) AIと自己感覚 [全文訳有]

AI and the Sense of Self ( http://arxiv.org/abs/2201.05576v1 )

ライセンス: CC BY 4.0
Srinath Srinivasa and Jayati Deshmukh(参考訳) 数回の冬の後、AIは再び中心的なステージとなり、現在の進歩により、幅広いAIアプリケーションが可能になる。 この新たなAIの波は、AI意思決定の倫理的懸念によって主に動機づけられた、知性と常識の哲学的基盤に関する、過去のいくつかの質問に再び持ち帰った。 本稿では,知的なエージェントに対する研究の関心に繋がる議論のいくつかを取り上げ,今日の文脈においてもその関連性について論じる。 具体的には,「自己」の認知的感覚とその自律的意思決定における役割に着目し,責任行動へと導く。 著者らは、AIエージェントのよりリッチな計算モデルを構築することに、より研究的な関心を抱くことを期待している。

After several winters, AI is center-stage once again, with current advances enabling a vast array of AI applications. This renewed wave of AI has brought back to the fore several questions from the past, about philosophical foundations of intelligence and common sense -- predominantly motivated by ethical concerns of AI decision-making. In this paper, we address some of the arguments that led to research interest in intelligent agents, and argue for their relevance even in today's context. Specifically we focus on the cognitive sense of "self" and its role in autonomous decision-making leading to responsible behaviour. The authors hope to make a case for greater research interest in building richer computational models of AI agents with a sense of self.
翻訳日:2022-01-23 21:03:55 公開日:2022-01-07
# 新しい意図発見のためのコントラスト学習による半教師付きクラスタリング

Semi-Supervised Clustering with Contrastive Learning for Discovering New Intents ( http://arxiv.org/abs/2201.07604v1 )

ライセンス: Link先を確認
Feng Wei, Zhenbo Chen, Zhenghong Hao, Fengxin Yang, Hua Wei, Bing Han, Sheng Guo(参考訳) 実世界のほとんどの対話システムは、事前定義された意図とQAサービスの回答に依存しているため、これまで大きなコーパスから潜在的意図を発見することは、そのような対話サービスを構築する上で非常に重要である。 ほとんどのシナリオには既知のインテントがほとんどなく、発見待ちのインテントもほとんどないので、私たちは半教師ありのテキストクラスタリングに注目して、全体的なクラスタリング性能を改善するためにラベル付きサンプルの利点を生かそうとしています。 本稿では,テキストサンプルを半教師付きでクラスタリングし,スタッフにグループ化された意図を提供することを目的とした,Deep Contrastive Semi-supervised Clustering (DCSC)を提案する。 そこで本研究では,DCSCをラベル付きサンプルとラベルなしサンプルの両方でトレーニングし,より優れたテキスト表現とクラスタリング性能を実現するための,DCSCの2段階トレーニング手順を提案する。 2つのパブリックデータセットで実験を行い,モデルといくつかの一般的な手法を比較した結果,dcscがすべてのデータセットと状況で最高の性能を達成し,改善の効果が示された。

Most dialogue systems in real world rely on predefined intents and answers for QA service, so discovering potential intents from large corpus previously is really important for building such dialogue services. Considering that most scenarios have few intents known already and most intents waiting to be discovered, we focus on semi-supervised text clustering and try to make the proposed method benefit from labeled samples for better overall clustering performance. In this paper, we propose Deep Contrastive Semi-supervised Clustering (DCSC), which aims to cluster text samples in a semi-supervised way and provide grouped intents to operation staff. To make DCSC fully utilize the limited known intents, we propose a two-stage training procedure for DCSC, in which DCSC will be trained on both labeled samples and unlabeled samples, and achieve better text representation and clustering performance. We conduct experiments on two public datasets to compare our model with several popular methods, and the results show DCSC achieve best performance across all datasets and circumstances, indicating the effect of the improvements in our work.
翻訳日:2022-01-23 18:15:42 公開日:2022-01-07
# 複数の学校からの知識の漸進的追跡

Incremental Knowledge Tracing from Multiple Schools ( http://arxiv.org/abs/2201.06941v1 )

ライセンス: Link先を確認
Sujanya Suresh, Savitha Ramasamy, P.N. Suganthan, Cheryl Sze Yin Wong(参考訳) 知識追跡とは,学習者のパフォーマンス履歴に基づいて,学習者の将来のパフォーマンスを予測するタスクである。 現在の知識追跡モデルは、複数の学校から収集された広範なデータに基づいて構築されている。 しかし、データプライバシーとpdpaポリシーのため、すべての学校で学習者のデータをプールすることは不可能である。 そこで本稿では,各学校における学習者のデータのプライバシーを保ちつつ,知識追跡モデルの構築可能性について検討する。 本研究は、ASSISTment 2009データセットの一部を用いて実施され、複数の学校からのデータを連続学習フレームワークで個別のタスクとして扱う。 その結果,SAKT(Self Attentive Knowledge Tracing)アルゴリズムを用いて逐次学習することで,すべてのデータをまとめる手法とかなり類似した性能が得られることがわかった。

Knowledge tracing is the task of predicting a learner's future performance based on the history of the learner's performance. Current knowledge tracing models are built based on an extensive set of data that are collected from multiple schools. However, it is impossible to pool learner's data from all schools, due to data privacy and PDPA policies. Hence, this paper explores the feasibility of building knowledge tracing models while preserving the privacy of learners' data within their respective schools. This study is conducted using part of the ASSISTment 2009 dataset, with data from multiple schools being treated as separate tasks in a continual learning framework. The results show that learning sequentially with the Self Attentive Knowledge Tracing (SAKT) algorithm is able to achieve considerably similar performance to that of pooling all the data together.
翻訳日:2022-01-23 18:14:41 公開日:2022-01-07
# 混合を伴うエピデミックモデルの統合

Unifying Epidemic Models with Mixtures ( http://arxiv.org/abs/2201.04960v1 )

ライセンス: Link先を確認
Arnab Sarker, Ali Jadbabaie, Devavrat Shah(参考訳) 新型コロナウイルスのパンデミックは、感染モデルに対する強固な理解の必要性を強調している。 現在の流行モデルは、メカニックか非メカニックかのどちらかに分類される: メカニックモデルは病気のダイナミクスを明示的に仮定するが、非メカニックモデルは観察された時系列の形で仮定する。 本稿では,両者の利点を保ちつつ,両者のアプローチを橋渡しする単純な混合モデルを提案する。 このモデルはガウス曲線の混合として一連のケースと死亡率を表し、従来の力学モデルと比較してデータから学ぶ柔軟な関数クラスを提供する。 モデルは非機械的だが、ネットワーク化されたSIRフレームワークに基づく確率過程の自然な結果として現れることを示す。 これにより、学習パラメータは、類似の非機械的モデルと比較してより意味のある解釈が可能となり、新型コロナウイルスパンデミックで収集された補助モビリティデータを用いて解釈を検証する。 モデルパラメータを同定し、モデルがデータから効率的に学習できることを示すための簡単な学習アルゴリズムを提供する。 経験的に、予測誤差が低いモデルが見つかる。 モデルはcovidpredictions.mit .eduで公開されている。 これにより、covid-19に対する介入が与える影響を体系的に理解することが可能になります。

The COVID-19 pandemic has emphasized the need for a robust understanding of epidemic models. Current models of epidemics are classified as either mechanistic or non-mechanistic: mechanistic models make explicit assumptions on the dynamics of disease, whereas non-mechanistic models make assumptions on the form of observed time series. Here, we introduce a simple mixture-based model which bridges the two approaches while retaining benefits of both. The model represents time series of cases and fatalities as a mixture of Gaussian curves, providing a flexible function class to learn from data compared to traditional mechanistic models. Although the model is non-mechanistic, we show that it arises as the natural outcome of a stochastic process based on a networked SIR framework. This allows learned parameters to take on a more meaningful interpretation compared to similar non-mechanistic models, and we validate the interpretations using auxiliary mobility data collected during the COVID-19 pandemic. We provide a simple learning algorithm to identify model parameters and establish theoretical results which show the model can be efficiently learned from data. Empirically, we find the model to have low prediction error. The model is available live at covidpredictions.mit .edu. Ultimately, this allows us to systematically understand the impacts of interventions on COVID-19, which is critical in developing data-driven solutions to controlling epidemics.
翻訳日:2022-01-16 16:04:36 公開日:2022-01-07
# ワクチンHesitancyを分析するための機械学習とAI説明の適用

Applying Machine Learning and AI Explanations to Analyze Vaccine Hesitancy ( http://arxiv.org/abs/2201.05070v1 )

ライセンス: Link先を確認
Carsten Lange, Jian Lange(参考訳) この論文は、米国大陸の郡におけるcovid-19ワクチン接種率に対する人種、貧困、政治、年齢の影響を定量化するものだ。 OLSレグレッション解析とランダムフォレスト機械学習アルゴリズムの両方を用いて、郡レベルのワクチン流行の要因を定量化する。 機械学習モデルは、これらの要因がワクチン接種率に特有の組み合わせを捉えるために、変数(人種/民族、党派、年齢など)の結合効果を同時に考慮している。 最先端のAIX(Artificial Intelligence Explanations)アルゴリズムを実装することで、機械学習モデルでブラックボックスの問題を解き、各郡で測定された影響要因について「どの程度」疑問に答えることができる。 ほとんどの郡では、共和党の投票率が高く、アフリカ系アメリカ人人口の比率が高く、貧困率はワクチン接種率が低い。 アジアの人口密度が高いほどワクチン接種率は上昇する。 ヒスパニック系人口の割合によるワクチン接種率への影響はolsモデルでは正であるが、ランダム森林モデルではヒスパニック系人口が高い郡(>65%)でのみ正である。 高齢者の割合と郡の若者の比率は、それぞれ正と負のOLSモデルに大きな影響を及ぼす。 対照的に、ランダムフォレストモデルでは影響は曖昧である。 結果は地形によって異なり、aixアルゴリズムは各郡で個別にワクチンの影響を定量化することができるので、この研究は地域社会に合わせることができる。 アメリカ各郡の影響要因を特定するインタラクティブなオンラインマッピングダッシュボードは、https://www.cpp.edu/ ~clange/vacmap.htmlで入手できる。 影響要因の影響は、異なる地形間で普遍的に同じではないことが明らかである。

The paper quantifies the impact of race, poverty, politics, and age on COVID-19 vaccination rates in counties in the continental US. Both, OLS regression analysis and Random Forest machine learning algorithms are applied to quantify factors for county-level vaccination hesitancy. The machine learning model considers joint effects of variables (race/ethnicity, partisanship, age, etc.) simultaneously to capture the unique combination of these factors on the vaccination rate. By implementing a state-of-the-art Artificial Intelligence Explanations (AIX) algorithm, it is possible to solve the black box problem with machine learning models and provide answers to the "how much" question for each measured impact factor in every county. For most counties, a higher percentage vote for Republicans, a greater African American population share, and a higher poverty rate lower the vaccination rate. While a higher Asian population share increases the predicted vaccination rate. The impact on the vaccination rate from the Hispanic population proportion is positive in the OLS model, but only positive for counties with a high Hispanic population (>65%) in the Random Forest model. Both the proportion of seniors and the one for young people in a county have a significant impact in the OLS model - positive and negative, respectively. In contrast, the impacts are ambiguous in the Random Forest model. Because results vary between geographies and since the AIX algorithm is able to quantify vaccine impacts individually for each county, this research can be tailored to local communities. An interactive online mapping dashboard that identifies impact factors for individual U.S. counties is available at https://www.cpp.edu/ ~clange/vacmap.html. It is apparent that the influence of impact factors is not universally the same across different geographies.
翻訳日:2022-01-16 16:03:54 公開日:2022-01-07
# (参考訳) 詐欺師グループ検出のための時空間グラフ表現学習 [全文訳有]

Spatio-Temporal Graph Representation Learning for Fraudster Group Detection ( http://arxiv.org/abs/2201.02621v1 )

ライセンス: CC BY 4.0
Saeedreza Shehnepoor, Roberto Togneri, Wei Liu, Mohammed Bennamoun(参考訳) 経済的利益の可能性に動機づけられた企業は、偽レビューを書くために詐欺師グループを雇うかもしれない。 このようなグループは、大きなグループの意見に影響を受けやすいため、顧客を誤解させる上でかなり成功しています。 このようなグループを検出するために、一般的なモデルは、不正なグループの静的ネットワークを表現し、その結果、レビュアーの長手な振る舞いを見落とし、グループ内のレビュアー間のコリビュー関係のダイナミクスを見渡すことである。 したがって、これらのアプローチは、故意にグループ内をカモフラージュし、本物のレビュアーが詐欺師グループで共同レビューする詐欺師である、外れたレビュアーを除外することができない。 この問題に対処するために,本稿では,まず,レビュアー間のコラボレーションを捉えつつ,両レビュアーの表現学習におけるHIN-RNNの有効性を活かし,28日間の固定時間ウィンドウでレビュー担当者のコリビュー関係をモデル化するHIN-RNNを提案する。 我々はこれを空間的関係学習表現と呼び、この研究の汎用性を他のネットワーク化されたシナリオに示す。 次に,空間関係に関するrnnを用いて,グループ内のレビュアーの時空間関係を予測する。 第3のステップでは、グラフ畳み込みネットワーク(gcn)が、これらの予測関係を用いてレビュアーのベクトル表現を洗練する。 これらの洗練された表現は、外れ値レビュアーを削除するために使用される。 残りのレビュアーの表現の平均は、グループが詐欺師グループであるかどうかを予測するために、単純な完全連結層に供給される。 提案手法の実証実験では,Yelp(Amazon)データセットに対する最新の3つのアプローチの精度,リコール,F1値に対して,それぞれ5%(4%),12%(5%),12%(5 %),12%(5%)の改善があった。

Motivated by potential financial gain, companies may hire fraudster groups to write fake reviews to either demote competitors or promote their own businesses. Such groups are considerably more successful in misleading customers, as people are more likely to be influenced by the opinion of a large group. To detect such groups, a common model is to represent fraudster groups' static networks, consequently overlooking the longitudinal behavior of a reviewer thus the dynamics of co-review relations among reviewers in a group. Hence, these approaches are incapable of excluding outlier reviewers, which are fraudsters intentionally camouflaging themselves in a group and genuine reviewers happen to co-review in fraudster groups. To address this issue, in this work, we propose to first capitalize on the effectiveness of the HIN-RNN in both reviewers' representation learning while capturing the collaboration between reviewers, we first utilize the HIN-RNN to model the co-review relations of reviewers in a group in a fixed time window of 28 days. We refer to this as spatial relation learning representation to signify the generalisability of this work to other networked scenarios. Then we use an RNN on the spatial relations to predict the spatio-temporal relations of reviewers in the group. In the third step, a Graph Convolution Network (GCN) refines the reviewers' vector representations using these predicted relations. These refined representations are then used to remove outlier reviewers. The average of the remaining reviewers' representation is then fed to a simple fully connected layer to predict if the group is a fraudster group or not. Exhaustive experiments of the proposed approach showed a 5% (4%), 12% (5%), 12% (5%) improvement over three of the most recent approaches on precision, recall, and F1-value over the Yelp (Amazon) dataset, respectively.
翻訳日:2022-01-13 00:58:29 公開日:2022-01-07
# (参考訳) 自律学習の自己規律学習(SDL)モデルに基づく確率論的空間クラスタリング [全文訳有]

Probabilistic spatial clustering based on the Self Discipline Learning (SDL) model of autonomous learning ( http://arxiv.org/abs/2201.03449v1 )

ライセンス: CC BY 4.0
Zecang Cu, Xiaoqi Sun, Yuan Sun, Fuquan Zhang(参考訳) 教師なしクラスタリングアルゴリズムは、高次元のラベルなしデータの次元を効果的に削減し、データ処理の時間と空間の複雑さを低減できる。 しかし、従来のクラスタリングアルゴリズムでは、事前にカテゴリの上限を設定する必要があり、ディープラーニングクラスタリングアルゴリズムは局所的な最適化の問題に陥る。 これらの問題を解決するために,自己規律学習(sdl)モデルに基づく確率的空間クラスタリングアルゴリズムを提案する。 このアルゴリズムは、ベクトル間の確率空間距離のガウス確率分布に基づいて、確率空間距離の確率スケールと最大確率値を用いて距離測定判定を行い、データセット自体の分布特性に応じて各サンプルのカテゴリを決定する。 このアルゴリズムは、インテリジェントで安全な自動車(lisa)交通光データセットの実験室でテストされ、精度は99.03%、リコール率は91%、効果が得られた。

Unsupervised clustering algorithm can effectively reduce the dimension of high-dimensional unlabeled data, thus reducing the time and space complexity of data processing. However, the traditional clustering algorithm needs to set the upper bound of the number of categories in advance, and the deep learning clustering algorithm will fall into the problem of local optimum. In order to solve these problems, a probabilistic spatial clustering algorithm based on the Self Discipline Learning(SDL) model is proposed. The algorithm is based on the Gaussian probability distribution of the probability space distance between vectors, and uses the probability scale and maximum probability value of the probability space distance as the distance measurement judgment, and then determines the category of each sample according to the distribution characteristics of the data set itself. The algorithm is tested in Laboratory for Intelligent and Safe Automobiles(LISA) traffic light data set, the accuracy rate is 99.03%, the recall rate is 91%, and the effect is achieved.
翻訳日:2022-01-12 23:42:41 公開日:2022-01-07
# ファジィラフ理論における規則誘導加速器

An Accelerator for Rule Induction in Fuzzy Rough Theory ( http://arxiv.org/abs/2201.03649v1 )

ライセンス: Link先を確認
Suyun Zhao, Zhigang Dai, Xizhao Wang, Peng Ni, Hengheng Luo, Hong Chen, Cuiping Li(参考訳) 識別性情報を保持しながら効率よく学習/マイニングするための誘導ルールのサブセットを抽出するルールベースの分類器は、人間の説明可能な人工知能において重要な役割を果たす。 しかし、このビッグデータの時代では、データセット全体のルール誘導は計算量が多い。 これまでのところ、ルール誘導の加速に焦点を当てた既知の手法は報告されていない。 本研究は,ルール帰納法における計算量の削減を目的とした加速法について考察する。 ファジィ粗さ理論に基づく規則誘導用加速器を提案する。この加速器は冗長な計算を回避でき,ルール分類器の構築を加速できる。 まず, 構成度に基づく規則帰納法として, 構成度ベース値低減法 (cvr) を提案し, 高速化のための基礎として用いた。 第二に、帰納規則の更新に必要なキーインスタンスのみを含むキーセットと呼ばれるコンパクトな検索空間を導入し、値の削減を行う。 鍵集合の単調性は加速器の実現性を保証する。 第3に、キーセットに基づいてルール推論アクセラレータを設計し、非加速版と同じ結果を理論的に保証する。 具体的には、キーセットのランク保存特性は、アクセルによって達成された規則と非加速法との整合性を保証する。 最後に、広範な実験により、提案する加速器は、特に多数のインスタンスを持つデータセットにおいて、非加速ルールベースの分類器メソッドよりも著しく高速に動作できることが示されている。

Rule-based classifier, that extract a subset of induced rules to efficiently learn/mine while preserving the discernibility information, plays a crucial role in human-explainable artificial intelligence. However, in this era of big data, rule induction on the whole datasets is computationally intensive. So far, to the best of our knowledge, no known method focusing on accelerating rule induction has been reported. This is first study to consider the acceleration technique to reduce the scale of computation in rule induction. We propose an accelerator for rule induction based on fuzzy rough theory; the accelerator can avoid redundant computation and accelerate the building of a rule classifier. First, a rule induction method based on consistence degree, called Consistence-based Value Reduction (CVR), is proposed and used as basis to accelerate. Second, we introduce a compacted search space termed Key Set, which only contains the key instances required to update the induced rule, to conduct value reduction. The monotonicity of Key Set ensures the feasibility of our accelerator. Third, a rule-induction accelerator is designed based on Key Set, and it is theoretically guaranteed to display the same results as the unaccelerated version. Specifically, the rank preservation property of Key Set ensures consistency between the rule induction achieved by the accelerator and the unaccelerated method. Finally, extensive experiments demonstrate that the proposed accelerator can perform remarkably faster than the unaccelerated rule-based classifier methods, especially on datasets with numerous instances.
翻訳日:2022-01-12 13:56:20 公開日:2022-01-07
# (参考訳) 肝腫瘍の分節化とマルチモダリティ非コントラストmriの同時学習 [全文訳有]

United adversarial learning for liver tumor segmentation and detection of multi-modality non-contrast MRI ( http://arxiv.org/abs/2201.02629v1 )

ライセンス: CC BY 4.0
Jianfeng Zhao, Dengwang Li, and Shuo Li(参考訳) multi-modality non-contrast magnetic resonance imaging (ncmri) による肝腫瘍(肝細胞腫,肝細胞癌)の同時分画と検出が臨床診断に重要である。 しかし,(1)肝腫瘍のhcc情報は見えないか不十分か,(2)多変質性ncmriの多様な画像特徴が特徴的融合と選択を惹起する,(3)肝腫瘍の検出を困難にする,などの課題が残されている。 本研究では,マルチモーダルNCMRIを用いた肝腫瘍の同時切除・検出のための統合対位学習フレームワーク (UAL) を提案する。 UALはまず、マルチビュー認識エンコーダを使用して、肝腫瘍のセグメンテーションと検出のための多モードNCMRI情報を抽出する。 このエンコーダでは、相補的な多モード特徴抽出を容易にするために、新しいエッジ異方性特徴ピラミッドモジュールが設計されている。 第二に、新しく設計された融合選択チャネルは、マルチモーダル特徴を融合させ、特徴選択を決定するために使用される。 そして,パディングによる座標共有機構は,分割と検出のマルチタスクを統合し,複数のタスクを一つの識別器で組み合わせた対角学習を実現する。 最後に、革新的多相放射能誘導判別器は、明瞭かつ特定な腫瘍情報を利用して、逆学習戦略によるマルチタスク性能を向上させる。 NCMRI(T1FS pre-contrast MRI, T2FS MRI, DWI)と3段階の造影MRIにおいて, 255症例の造影MRIが有効であった。 実験の結果, ualは肝腫瘍の診断において有意な有用性を示した。

Simultaneous segmentation and detection of liver tumors (hemangioma and hepatocellular carcinoma (HCC)) by using multi-modality non-contrast magnetic resonance imaging (NCMRI) are crucial for the clinical diagnosis. However, it is still a challenging task due to: (1) the HCC information on NCMRI is invisible or insufficient makes extraction of liver tumors feature difficult; (2) diverse imaging characteristics in multi-modality NCMRI causes feature fusion and selection difficult; (3) no specific information between hemangioma and HCC on NCMRI cause liver tumors detection difficult. In this study, we propose a united adversarial learning framework (UAL) for simultaneous liver tumors segmentation and detection using multi-modality NCMRI. The UAL first utilizes a multi-view aware encoder to extract multi-modality NCMRI information for liver tumor segmentation and detection. In this encoder, a novel edge dissimilarity feature pyramid module is designed to facilitate the complementary multi-modality feature extraction. Second, the newly designed fusion and selection channel is used to fuse the multi-modality feature and make the decision of the feature selection. Then, the proposed mechanism of coordinate sharing with padding integrates the multi-task of segmentation and detection so that it enables multi-task to perform united adversarial learning in one discriminator. Lastly, an innovative multi-phase radiomics guided discriminator exploits the clear and specific tumor information to improve the multi-task performance via the adversarial learning strategy. The UAL is validated in corresponding multi-modality NCMRI (i.e. T1FS pre-contrast MRI, T2FS MRI, and DWI) and three phases contrast-enhanced MRI of 255 clinical subjects. The experiments show that UAL has great potential in the clinical diagnosis of liver tumors.
翻訳日:2022-01-12 13:49:52 公開日:2022-01-07
# (参考訳) MERLOT Reserve:視覚と言語と音によるニューラルスクリプトの知識 [全文訳有]

MERLOT Reserve: Neural Script Knowledge through Vision and Language and Sound ( http://arxiv.org/abs/2201.02639v1 )

ライセンス: CC BY 4.0
Rowan Zellers and Jiasen Lu and Ximing Lu and Youngjae Yu and Yanpeng Zhao and Mohammadreza Salehi and Aditya Kusupati and Jack Hessel and Ali Farhadi and Yejin Choi(参考訳) 人間として、私たちは世界のあらゆる感覚をナビゲートし、それぞれから知覚的な入力を使って他のものを修正します。 MERLOT Reserveは、音声、字幕、ビデオフレームから学習する新たなトレーニング目標を通じて、時間の経過とともに動画を共同で表現するモデルである。 ビデオの場合、テキストとオーディオのスニペットをMASKトークンに置き換え、正しいマスクアウトスニペットを選択することで学習する。 私たちの目標は、代替手段よりも速く学習し、スケール性も高く、2000万本のYouTubeビデオを事前トレーニングしています。 実験結果から,MERLOT Reserveはすべての構成モダリティを通じて,ビデオに関する強力な表現を学習していることがわかった。 微調整すると、VCRとTVQAの両方に新しい最先端技術が設定され、それぞれ5%と7%の先行作業を上回っている。 アブレーションは、両方のタスクが、(音のない)画像を中心としたQAタスクであるVCRであっても、オーディオ事前トレーニングの恩恵を受けていることを示している。 さらに,本研究の目的は,マルチモーダル・コモンセンスの強い理解を明らかにすることで,既定予測を可能にすることである。 完全ゼロショット設定では、4つのビデオ理解タスクの競合結果が得られ、最近提案されたSituated Reasoning(STAR)ベンチマークでは教師付きアプローチよりも優れている。 音声を取り入れることで視覚言語表現が向上する理由を分析し,今後の研究の機会を示唆する。 我々は、マルチモーダル事前訓練の倫理的および社会的意味を議論することで結論付ける。

As humans, we navigate the world through all our senses, using perceptual input from each one to correct the others. We introduce MERLOT Reserve, a model that represents videos jointly over time -- through a new training objective that learns from audio, subtitles, and video frames. Given a video, we replace snippets of text and audio with a MASK token; the model learns by choosing the correct masked-out snippet. Our objective learns faster than alternatives, and performs well at scale: we pretrain on 20 million YouTube videos. Empirical results show that MERLOT Reserve learns strong representations about videos through all constituent modalities. When finetuned, it sets a new state-of-the-art on both VCR and TVQA, outperforming prior work by 5% and 7% respectively. Ablations show that both tasks benefit from audio pretraining -- even VCR, a QA task centered around images (without sound). Moreover, our objective enables out-of-the-box prediction, revealing strong multimodal commonsense understanding. In a fully zero-shot setting, our model obtains competitive results on four video understanding tasks, even outperforming supervised approaches on the recently proposed Situated Reasoning (STAR) benchmark. We analyze why incorporating audio leads to better vision-language representations, suggesting significant opportunities for future research. We conclude by discussing ethical and societal implications of multimodal pretraining.
翻訳日:2022-01-12 12:07:50 公開日:2022-01-07
# (参考訳) 形式的文書からのデータ効率の良い情報抽出 [全文訳有]

Data-Efficient Information Extraction from Form-Like Documents ( http://arxiv.org/abs/2201.02647v1 )

ライセンス: CC BY 4.0
Beliz Gunel and Navneet Potti and Sandeep Tata and James B. Wendt and Marc Najork and Jing Xie(参考訳) フォームライクなドキュメントから情報抽出を大規模に自動化することは、金融サービス、保険、医療など、多くの産業におけるビジネスワークフローの自動化に潜在的に影響を与える可能性があるため、差し迫ったニーズである。 鍵となる課題は、これらのビジネスワークフローにおけるフォームライクなドキュメントは、事実上無限に多くの方法でレイアウトできることです。 この問題の解法は、文書内のテキストセグメントと視覚的手がかりの両方を包括的に理解する必要があるが、これは非自明である。 自然言語処理とコンピュータビジョンのコミュニティはこの問題に取り組み始めているが、(1)データ効率、(2)文書の種類や言語をまたいで一般化する能力にはあまり焦点が当てられていない。 本稿では,少数のラベル付き文書(〜50)しか持たない場合,比較的構造的に異なる大きなラベル付きコーパスからの簡単な転送学習アプローチにより,対象ドメインの小さなコーパス上でのトレーニングよりも27F1ポイント向上することを示す。 現在実運用で使用されている、シンプルなマルチドメイン転送学習アプローチでこれを改善することで、さらに8 F1ポイントの改善が達成できることを示す。 我々は、データ効率が重要であり、情報抽出システムが数百の異なる文書タイプを扱うために拡張可能であり、優れた表現を学習することがこれを実現する上で重要であることを主張する。

Automating information extraction from form-like documents at scale is a pressing need due to its potential impact on automating business workflows across many industries like financial services, insurance, and healthcare. The key challenge is that form-like documents in these business workflows can be laid out in virtually infinitely many ways; hence, a good solution to this problem should generalize to documents with unseen layouts and languages. A solution to this problem requires a holistic understanding of both the textual segments and the visual cues within a document, which is non-trivial. While the natural language processing and computer vision communities are starting to tackle this problem, there has not been much focus on (1) data-efficiency, and (2) ability to generalize across different document types and languages. In this paper, we show that when we have only a small number of labeled documents for training (~50), a straightforward transfer learning approach from a considerably structurally-differe nt larger labeled corpus yields up to a 27 F1 point improvement over simply training on the small corpus in the target domain. We improve on this with a simple multi-domain transfer learning approach, that is currently in production use, and show that this yields up to a further 8 F1 point improvement. We make the case that data efficiency is critical to enable information extraction systems to scale to handle hundreds of different document-types, and learning good representations is critical to accomplishing this.
翻訳日:2022-01-12 11:20:03 公開日:2022-01-07
# (参考訳) 信号デノナイズのためのクロスバリデーションフレームワークとそのトレンドフィルタリング, Dyadic CARTなどへの応用

A Cross Validation framework for Signal Denoising with Applications to Trend Filtering, Dyadic CART and Beyond ( http://arxiv.org/abs/2201.02654v1 )

ライセンス: CC BY 4.0
Anamitra Chaudhuri and Sabyasachi Chatterjee(参考訳) 本稿では,信号復調のための一般的なクロス検証フレームワークを定式化する。 一般的なフレームワークは、トレンドフィルタリングやdyadic cartのような非パラメトリック回帰法に適用される。 得られたクロス検証されたバージョンは、最適に調整されたアナログで知られているように、ほぼ同じ収束率に達することが示される。 トレンドフィルタリングやDyadic CARTのクロスバリデーションバージョンに関する以前の理論的分析は存在しなかった。 フレームワークの汎用性を説明するために, 2つの基本推定器の相互検証版, 高次元線形回帰のためのラッソ, 行列推定のための特異値閾値付けを提案する。 我々の一般的なフレームワークはChatterjee と Jafarov (2015) のアイデアにインスパイアされており、チューニングパラメータを使用する幅広い推定手法に適用できる可能性がある。

This paper formulates a general cross validation framework for signal denoising. The general framework is then applied to nonparametric regression methods such as Trend Filtering and Dyadic CART. The resulting cross validated versions are then shown to attain nearly the same rates of convergence as are known for the optimally tuned analogues. There did not exist any previous theoretical analyses of cross validated versions of Trend Filtering or Dyadic CART. To illustrate the generality of the framework we also propose and study cross validated versions of two fundamental estimators; lasso for high dimensional linear regression and singular value thresholding for matrix estimation. Our general framework is inspired by the ideas in Chatterjee and Jafarov (2015) and is potentially applicable to a wide range of estimation methods which use tuning parameters.
翻訳日:2022-01-12 11:11:31 公開日:2022-01-07
# (参考訳) GPU-Net:より多様な機能を備えた軽量U-Net [全文訳有]

GPU-Net: Lightweight U-Net with more diverse features ( http://arxiv.org/abs/2201.02656v1 )

ライセンス: CC BY 4.0
Heng Yu, Di Fan, Weihu Song(参考訳) 画像分割は医療画像分野において重要な課題であり,多くの畳み込みニューラルネットワーク(CNN)に基づく手法が提案されている。 本稿では,ghost module と atrous spatial pyramid pooling (aspp) を導入することで,より多様な特徴を学習できる u-net に基づくgp-module と gpu-net を提案する。 提案手法は4倍以上のパラメータと2倍のフロップでより良い性能を実現し,今後の研究に新たな可能性をもたらす。 プラグイン・アンド・プレイモジュールは既存のセグメンテーションメソッドにも適用でき、パフォーマンスがさらに向上します。

Image segmentation is an important task in the medical image field and many convolutional neural networks (CNNs) based methods have been proposed, among which U-Net and its variants show promising performance. In this paper, we propose GP-module and GPU-Net based on U-Net, which can learn more diverse features by introducing Ghost module and atrous spatial pyramid pooling (ASPP). Our method achieves better performance with more than 4 times fewer parameters and 2 times fewer FLOPs, which provides a new potential direction for future research. Our plug-and-play module can also be applied to existing segmentation methods to further improve their performance.
翻訳日:2022-01-12 11:09:36 公開日:2022-01-07
# (参考訳) 垂直連合学習における公平かつ効率的な貢献評価 [全文訳有]

Fair and efficient contribution valuation for vertical federated learning ( http://arxiv.org/abs/2201.02658v1 )

ライセンス: CC BY 4.0
Zhenan Fan, Huang Fang, Zirui Zhou, Jian Pei, Michael P. Friedlander, Yong Zhang(参考訳) フェデレーション学習は、データを共有せずに分散データソース上で機械学習モデルをトレーニングするための一般的な技術である。 垂直的フェデレーション学習または特徴に基づくフェデレーション学習は、異なるデータソースが同じサンプルID空間を共有するが、特徴空間が異なる場合に適用される。 データ所有者の長期的な関与を確保するためには、各データソースからの貢献を客観的に評価し、それに応じて補償することが不可欠である。 シャプリー値 (shapley value, sv) は、協調ゲーム理論に由来する正当な寄与評価指標である。 しかし、SVの計算には、データソースの各サブセットでモデルを広範囲に再トレーニングする必要があるため、連合学習における通信コストは極めて高い。 本稿では,SVに基づく垂直結合シェープ値(VerFedSV)と呼ばれるコントリビューション評価指標を提案する。 その結果,verfedsvはフェアネスの望ましい性質の多くを満たすだけでなく,計算効率も高く,同期型および非同期型の垂直フェデレーション学習アルゴリズムにも適用できることがわかった。 理論解析と広範な実験結果の両方がverfedsvの公正性、効率性、適応性を検証する。

Federated learning is a popular technology for training machine learning models on distributed data sources without sharing data. Vertical federated learning or feature-based federated learning applies to the cases that different data sources share the same sample ID space but differ in feature space. To ensure the data owners' long-term engagement, it is critical to objectively assess the contribution from each data source and recompense them accordingly. The Shapley value (SV) is a provably fair contribution valuation metric originated from cooperative game theory. However, computing the SV requires extensively retraining the model on each subset of data sources, which causes prohibitively high communication costs in federated learning. We propose a contribution valuation metric called vertical federated Shapley value (VerFedSV) based on SV. We show that VerFedSV not only satisfies many desirable properties for fairness but is also efficient to compute, and can be adapted to both synchronous and asynchronous vertical federated learning algorithms. Both theoretical analysis and extensive experimental results verify the fairness, efficiency, and adaptability of VerFedSV.
翻訳日:2022-01-12 11:01:08 公開日:2022-01-07
# (参考訳) 認知に関する計算レンズ:大規模言語モデルを用いた自伝的Versus想像物語の研究 [全文訳有]

Computational Lens on Cognition: Study Of Autobiographical Versus Imagined Stories With Large-Scale Language Models ( http://arxiv.org/abs/2201.02662v1 )

ライセンス: CC BY 4.0
Maarten Sap, Anna Jafarpour, Yejin Choi, Noah A. Smith, James W. Pennebaker, and Eric Horvitz(参考訳) 生涯の経験と学習された知識は、共通の状況がどのように広がるかという期待を共有します。 このような知識によって、人々は物語を解釈し、敬遠した出来事を無力に特定できる。 GPT-3を用いた自伝的物語と想像的物語における出来事の物語の流れの相違について検討した。 日記のような物語は、最近経験した出来事や同じ話題で想像された出来事について、群衆によって書かれた。 これらの物語の出来事の物語の流れを分析するために,文章の確率と先行するストーリーコンテキストを伴わない文*シーケンス性*を測定した。 自伝的ストーリーよりも逐次性が高く,また自伝的ストーリーの逐次性は,再試行時に再記憶されたストーリーよりも高いことがわかった。 物語文における出来事の注釈を通して,物語のタイプは,主要なサルエント出来事の類似の比率を含むが,自伝的物語は実際のマイナーな出来事においてより密集していることがわかった。 さらに、想像された物語と比較すると、自伝的物語は、第一人物、認知過程、時間、空間、数、社会語、コアドライブとニーズに関するより具体的な言葉と単語を含んでいる。 本研究は,大規模統計言語モデルを用いて記憶と認知を調査する機会を明らかにする。

Lifelong experiences and learned knowledge lead to shared expectations about how common situations tend to unfold. Such knowledge enables people to interpret story narratives and identify salient events effortlessly. We study differences in the narrative flow of events in autobiographical versus imagined stories using GPT-3, one of the largest neural language models created to date. The diary-like stories were written by crowdworkers about either a recently experienced event or an imagined event on the same topic. To analyze the narrative flow of events of these stories, we measured sentence *sequentiality*, which compares the probability of a sentence with and without its preceding story context. We found that imagined stories have higher sequentiality than autobiographical stories, and that the sequentiality of autobiographical stories is higher when they are retold than when freshly recalled. Through an annotation of events in story sentences, we found that the story types contain similar proportions of major salient events, but that the autobiographical stories are denser in factual minor events. Furthermore, in comparison to imagined stories, autobiographical stories contain more concrete words and words related to the first person, cognitive processes, time, space, numbers, social words, and core drives and needs. Our findings highlight the opportunity to investigate memory and cognition with large-scale statistical language models.
翻訳日:2022-01-12 10:40:31 公開日:2022-01-07
# (参考訳) 信号クラスタリング類似性を用いたCANマスクレード攻撃の検出 [全文訳有]

Detecting CAN Masquerade Attacks with Signal Clustering Similarity ( http://arxiv.org/abs/2201.02665v1 )

ライセンス: CC BY 4.0
Pablo Moriano, Robert A. Bridges, Michael D. Iannacone(参考訳) vehicular Controller Area Networks (CAN) は、様々なレベルの高度なサイバー攻撃を受けやすい。 製造攻撃は管理するのが最も簡単で、敵は単に(エクストラ)フレームを缶に送るだけでなく、フレームの周波数を乱すため検出しやすい。 時間に基づく検出手法を克服するためには、敵は悪質なフレームの代わりに悪意のあるペイロードでフレームを送信することでマスクレード攻撃を管理する必要がある。 研究の努力により、CAN攻撃、特に仮面攻撃が車両機能に影響を与えることが証明されている。 例えば、意図しない加速、車両のブレーキの非活性化、車両の操縦などである。 我々は、仮装攻撃がcan信号時系列のニュアンス相関を変化させ、それらをどのようにクラスタ化するかを仮定する。 したがって、クラスタ割り当ての変更は異常な振る舞いを示すべきである。 我々は,CAN信号のリバースエンジニアリング機能(CAN-D(Controller Area Network Decoder))を活用し,生のCANフレームから抽出した時系列を分析してマスクレード攻撃を検出する手法の進歩に着目し,この仮説を裏付ける。 具体的には、車両のCAN信号(時系列)上の階層的クラスタリングを用いて時系列クラスタリング類似性を計算し、CANキャプチャ間のクラスタリング類似性を攻撃の有無で比較することにより、マスクレード攻撃を検出することを実証する。 我々は,これまでに収集したマスクレード攻撃(ROADデータセット)を用いたCANデータセットを用いてアプローチを検証し,提案手法がCANマスクレード攻撃を検出する可能性を実証するための概念実証として法医学ツールを開発した。

Vehicular Controller Area Networks (CANs) are susceptible to cyber attacks of different levels of sophistication. Fabrication attacks are the easiest to administer -- an adversary simply sends (extra) frames on a CAN -- but also the easiest to detect because they disrupt frame frequency. To overcome time-based detection methods, adversaries must administer masquerade attacks by sending frames in lieu of (and therefore at the expected time of) benign frames but with malicious payloads. Research efforts have proven that CAN attacks, and masquerade attacks in particular, can affect vehicle functionality. Examples include causing unintended acceleration, deactivation of vehicle's brakes, as well as steering the vehicle. We hypothesize that masquerade attacks modify the nuanced correlations of CAN signal time series and how they cluster together. Therefore, changes in cluster assignments should indicate anomalous behavior. We confirm this hypothesis by leveraging our previously developed capability for reverse engineering CAN signals (i.e., CAN-D [Controller Area Network Decoder]) and focus on advancing the state of the art for detecting masquerade attacks by analyzing time series extracted from raw CAN frames. Specifically, we demonstrate that masquerade attacks can be detected by computing time series clustering similarity using hierarchical clustering on the vehicle's CAN signals (time series) and comparing the clustering similarity across CAN captures with and without attacks. We test our approach in a previously collected CAN dataset with masquerade attacks (i.e., the ROAD dataset) and develop a forensic tool as a proof of concept to demonstrate the potential of the proposed approach for detecting CAN masquerade attacks.
翻訳日:2022-01-12 10:23:43 公開日:2022-01-07
# (参考訳) ディープニューラルネットワークにおけるブロックウォルシュ・アダマール変換に基づくバイナリ層 [全文訳有]

Block Walsh-Hadamard Transform Based Binary Layers in Deep Neural Networks ( http://arxiv.org/abs/2201.02711v1 )

ライセンス: CC BY 4.0
Hongyi Pan, Diaa Badawi, Ahmet Enis Cetin(参考訳) 畳み込みは、現代のディープニューラルネットワークのコアオペレーションである。 畳み込みがフーリエ変換領域に実装できることはよく知られている。 本稿では,フーリエ変換の代わりに二元ブロックウォルシュ・ハダマード変換(wht)を用いることを提案する。 WHTベースのバイナリレイヤを使用して、ディープニューラルネットワークの通常の畳み込みレイヤを置き換える。 本稿では, 1次元 (1-D) と 2次元 (2-D) の2次元 WHT を併用する。 1-d層と2-d層の両方において、入力特徴写像の2値whtを計算し、ソフトスレッショルドとtanh関数を組み合わせた非線形性を用いてwht領域係数を除算する。 消音後、逆whtを計算します。 1d-wht は 1\times 1$ 畳み込み層を置き換え、2d-wht 層は 3$\times$3 畳み込み層と押し出し層を置き換えることができる。 トレーニング可能な重量を持つ2D-WHT層は、Global Average Pooling (GAP)層の前に挿入して、密度の高い層を支援することもできる。 これにより、トレーニング可能なパラメータをわずかに減らして、トレーニング可能なパラメータの数を大幅に削減することができる。 本稿では,WHT層をMobileNet-V2,MobileN et-V3-Large,ResNetに実装し,パラメータ数を大幅に削減する。 さらに、我々の速度テストによると、2D-FWHT層は、NVIDIA Jetson Nano実験において、通常の3ドルの3$畳み込みと19.51\%のRAM使用率で約24倍の速度で動作している。

Convolution has been the core operation of modern deep neural networks. It is well-known that convolutions can be implemented in the Fourier Transform domain. In this paper, we propose to use binary block Walsh-Hadamard transform (WHT) instead of the Fourier transform. We use WHT-based binary layers to replace some of the regular convolution layers in deep neural networks. We utilize both one-dimensional (1-D) and two-dimensional (2-D) binary WHTs in this paper. In both 1-D and 2-D layers, we compute the binary WHT of the input feature map and denoise the WHT domain coefficients using a nonlinearity which is obtained by combining soft-thresholding with the tanh function. After denoising, we compute the inverse WHT. We use 1D-WHT to replace the $1\times 1$ convolutional layers, and 2D-WHT layers can replace the 3$\times$3 convolution layers and Squeeze-and-Excite layers. 2D-WHT layers with trainable weights can be also inserted before the Global Average Pooling (GAP) layers to assist the dense layers. In this way, we can reduce the number of trainable parameters significantly with a slight decrease in trainable parameters. In this paper, we implement the WHT layers into MobileNet-V2, MobileNet-V3-Large, and ResNet to reduce the number of parameters significantly with negligible accuracy loss. Moreover, according to our speed test, the 2D-FWHT layer runs about 24 times as fast as the regular $3\times 3$ convolution with 19.51\% less RAM usage in an NVIDIA Jetson Nano experiment.
翻訳日:2022-01-12 10:08:52 公開日:2022-01-07
# Tisane: 概念とデータ関係からの形式的推論による統計モデルのオーサリング

Tisane: Authoring Statistical Models via Formal Reasoning from Conceptual and Data Relationships ( http://arxiv.org/abs/2201.02705v1 )

ライセンス: Link先を確認
Eunice Jun, Audrey Seo, Jeffrey Heer, Ren\'e Just(参考訳) 適切な統計モデリングは、概念がどのように関連しているかとデータの計測方法の詳細についてドメイン理論を取り入れている。 しかし、現在データアナリストは、ドメインの仮定、データ収集、モデリングの選択を統合的に記録および推論するためのツールサポートを欠いているため、科学的妥当性を損なう可能性がある。 例えば、一般化線形混合影響モデル(GLMM)は複雑な研究の質問に答えるのに役立つが、ランダム効果を省略することは結果の一般化を損なう。 そこで,本研究では一般化線形モデルを作成するための混合イニシアティブシステム tisane を提案する。 tisane氏は変数間の関係を表現し、質問するための研究設計仕様言語を紹介している。 Tisaneは、グラフ内の関係を表すインタラクティブなコンパイルプロセスを提供し、候補となる統計モデルを推論し、ユーザクエリを曖昧にするためにフォローアップ質問を行い、有効なモデルを構築する。 3人の研究者によるケーススタディでは、Tisaneが過去のミスを避けながら目標や仮定に集中するのに役立ちます。

Proper statistical modeling incorporates domain theory about how concepts relate and details of how data were measured. However, data analysts currently lack tool support for recording and reasoning about domain assumptions, data collection, and modeling choices in an integrated manner, leading to mistakes that can compromise scientific validity. For instance, generalized linear mixed-effects models (GLMMs) help answer complex research questions, but omitting random effects impairs the generalizability of results. To address this need, we present Tisane, a mixed-initiative system for authoring generalized linear models with and without mixed-effects. Tisane introduces a study design specification language for expressing and asking questions about relationships between variables. Tisane contributes an interactive compilation process that represents relationships in a graph, infers candidate statistical models, and asks follow-up questions to disambiguate user queries to construct a valid model. In case studies with three researchers, we find that Tisane helps them focus on their goals and assumptions while avoiding past mistakes.
翻訳日:2022-01-11 17:34:49 公開日:2022-01-07
# Neighbor2vec:グラフ埋め込みの効率的かつ効果的な方法

Neighbor2vec: an efficient and effective method for Graph Embedding ( http://arxiv.org/abs/2201.02626v1 )

ライセンス: Link先を確認
Zhiming Lin(参考訳) グラフ埋め込み技術は近年大きな進歩を遂げている。 しかし、現在の技術はネットワークのパターンを捉えるのに十分ではない。 本稿では,ノードと隣接ノード間の特徴伝達によって構造情報を収集する枠組みであるノードの近傍表現を学習するために,近傍に基づくサンプリング戦略であるnearne2vecを提案する。 neighbor2vecは、グラフ埋め込みの平等だけでなく、スケーラビリティを向上させるためのシンプルで効果的なアプローチであり、既存の最先端の教師なしテクニックの限界を破ります。 ogbn-arxiv,ogbn-prod ucts,ogbn-proteins,o gbl-ppa,ogbl-collab, ogbl-citation2などのネットワークのノード分類およびリンク予測タスクについて実験を行った。 その結果、nearne2vecの表現は、ノード分類タスクの競合メソッドよりも最大6.8%、リンク予測タスクでは3.0%高い平均精度を示している。 隣接する2vecの表現は、6つの実験で全てのベースラインメソッドと2つの古典的なgnnモデルを上回ることができる。

Graph embedding techniques have led to significant progress in recent years. However, present techniques are not effective enough to capture the patterns of networks. This paper propose neighbor2vec, a neighbor-based sampling strategy used algorithm to learn the neighborhood representations of node, a framework to gather the structure information by feature propagation between the node and its neighbors. We claim that neighbor2vec is a simple and effective approach to enhancing the scalability as well as equality of graph embedding, and it breaks the limits of the existing state-of-the-art unsupervised techniques. We conduct experiments on several node classification and link prediction tasks for networks such as ogbn-arxiv, ogbn-products, ogbn-proteins, ogbl-ppa,ogbl-collab and ogbl-citation2. The result shows that Neighbor2vec's representations provide an average accuracy scores up to 6.8 percent higher than competing methods in node classification tasks and 3.0 percent higher in link prediction tasks. The neighbor2vec's representations are able to outperform all baseline methods and two classical GNN models in all six experiments.
翻訳日:2022-01-11 17:34:30 公開日:2022-01-07
# 機械用ビデオ符号化:SIFT特徴の部分伝送

Video Coding for Machines: Partial transmission of SIFT features ( http://arxiv.org/abs/2201.02689v1 )

ライセンス: Link先を確認
S{\l}awomir Ma\'ckowiak, Marek Doma\'nski, S{\l}awomir R\'o\.zek, Dominik Cywi\'nski, Jakub Szkie{\l}da(参考訳) この論文は、人間や機械によるデコードビデオの消費に関連するビデオコーディングの新しいパラダイムである、ビデオ符号化 for Machinesを扱う。 このようなタスクでは,圧縮映像と特徴の同時伝送が検討されている。 本稿では,siftキーポイントの特徴について考察する。 復号されたビデオから、元のビデオから抽出したSIFTキーポイントと比較して、キーポイント数とそのパラメータが失われる。 このような損失は、量子化パラメータとビットレートの関数としてHEVCとVVCに対して研究される。 本稿では,圧縮映像と共に残差特徴データを送信することを提案する。 したがって、強く圧縮されたビデオであっても全SIFTキーポイント情報の送信は避けられる。

The paper deals with Video Coding for Machines that is a new paradigm in video coding related to consumption of decoded video by humans and machines. For such tasks, joint transmission of compressed video and features is considered. In this paper, we focus our considerations of features on SIFT keypoints. They can be extracted from the decoded video with losses in number of keypoints and their parameters as compared to the SIFT keypoints extracted from the original video. Such losses are studied for HEVC and VVC as functions of the quantization parameter and the bitrate. In the paper, we propose to transmit the residual feature data together with the compressed video. Therefore, even for strongly compressed video, the transmission of whole all SIFT keypoint information is avoided.
翻訳日:2022-01-11 17:30:49 公開日:2022-01-07
# 太陽系外惑星透過スペクトルの探索データ解析のための教師なし機械学習

Unsupervised Machine Learning for Exploratory Data Analysis of Exoplanet Transmission Spectra ( http://arxiv.org/abs/2201.02696v1 )

ライセンス: Link先を確認
Konstantin T. Matchev, Katia Matcheva, Alexander Roman(参考訳) トランジット分光法は、太陽系外惑星の大気の化学組成を解読する強力なツールである。 本稿では,通過系外惑星からのスペクトルデータを解析するための教師なし手法に着目した。 私たちは方法を示します 一 データの清掃及び検証 二 概要統計(位置及び変動率の推定値)に基づく初期の探索データ分析 三 データの既存の相関関係の探索及び定量化 四 データの主成分への前処理及び線形変換 五 次元性低減及び多様体学習 六 クラスタリング及び異常検出 七 データの可視化及び解釈 提案手法を説明するために, 合成トランジットスペクトルの公開ベンチマークデータセットを用いた。 スペクトルデータには適切な低次元表現を要求する高い相関関係が存在することを示す。 このような次元削減のための様々な手法を探索し、要約統計や主成分などの観点からいくつかの適切な選択肢を同定する。 基礎となる大気の異なる化学構造に対応する、よく定義された枝を主成分として興味深い構造を明らかにする。 これらの分岐をk平均クラスタリングアルゴリズムで完全に教師なしの方法で回収できることを実証する。 我々は、データの既存の構造を明らかにし、惑星の化学クラスを迅速に特徴付けるために、最初の3つの主成分を用いて、分光データの3次元表現を提唱する。

Transit spectroscopy is a powerful tool to decode the chemical composition of the atmospheres of extrasolar planets. In this paper we focus on unsupervised techniques for analyzing spectral data from transiting exoplanets. We demonstrate methods for i) cleaning and validating the data, ii) initial exploratory data analysis based on summary statistics (estimates of location and variability), iii) exploring and quantifying the existing correlations in the data, iv) pre-processing and linearly transforming the data to its principal components, v) dimensionality reduction and manifold learning, vi) clustering and anomaly detection, vii) visualization and interpretation of the data. To illustrate the proposed unsupervised methodology, we use a well-known public benchmark data set of synthetic transit spectra. We show that there is a high degree of correlation in the spectral data, which calls for appropriate low-dimensional representations. We explore a number of different techniques for such dimensionality reduction and identify several suitable options in terms of summary statistics, principal components, etc. We uncover interesting structures in the principal component basis, namely, well-defined branches corresponding to different chemical regimes of the underlying atmospheres. We demonstrate that those branches can be successfully recovered with a K-means clustering algorithm in fully unsupervised fashion. We advocate for a three-dimensional representation of the spectroscopic data in terms of the first three principal components, in order to reveal the existing structure in the data and quickly characterize the chemical class of a planet.
翻訳日:2022-01-11 17:28:25 公開日:2022-01-07
# 敗血症の数学モデルの改良 : 複雑な非線形感染症システムのモデリング、分岐解析、最適制御研究

An Improved Mathematical Model of Sepsis: Modeling, Bifurcation Analysis, and Optimal Control Study for Complex Nonlinear Infectious Disease System ( http://arxiv.org/abs/2201.02702v1 )

ライセンス: Link先を確認
Yuyang Chen, Kaiming Bi, Chih-Hang J. Wu, David Ben-Arieh, Ashesh Sinha(参考訳) 敗血症(sepsis)は、世界で2番目に多い死因であり、世界でも2番目に大きな死亡事故である。 包括的セシスシステムにおける最適制御治療や介入戦略の研究は、死亡率の低下に鍵を握る。 この目的のために,本稿ではまず,従来の研究で提案した複雑な非線形セシスモデルを改善する。 次に、各セプシスサブシステムに対して分岐解析を行い、いくつかのシステムパラメータの下でモデル挙動を研究する。 また, 分岐解析の結果は, 制御療法と介入療法の必要性も示唆している。 敗血症システムがパラメータと初期システム値の設定で制御を一切追加しない場合、システムは時間が経つにつれて持続的な炎症の結果を生じる。 そこで本研究では, 複雑に改良された非線形セプシモデルをセプシ最適制御モデルとして開発し, 既存の臨床実践で推奨される有効なバイオマーカーを用いてセプシの発達を定量的に評価する。 さらに,リカレントニューラルネットワーク(rnn-boアルゴリズム)を組み合わせたベイズ最適化アルゴリズムを導入し,検討したセプシス最適制御系の最適制御戦略を予測した。 RNN-BOアルゴリズムと他の最適化アルゴリズムとの違いは、新しい初期システム値設定が与えられたら(初期値は患者の初期状態と関連付けられている)、新しい敗血症患者の歴史的最適制御データに基づいて、対応する時系列最適制御を迅速に予測できることである。 複素非線形セシスシステムにおける最適制御解の解法におけるRNN-BOアルゴリズムの有効性と効率を実証するため,他の最適化アルゴリズムとの比較により数値シミュレーションを行った。

Sepsis is a life-threatening medical emergency, which is a major cause of death worldwide and the second highest cause of mortality in the United States. Researching the optimal control treatment or intervention strategy on the comprehensive sepsis system is key in reducing mortality. For this purpose, first, this paper improves a complex nonlinear sepsis model proposed in our previous work. Then, bifurcation analyses are conducted for each sepsis subsystem to study the model behaviors under some system parameters. The bifurcation analysis results also further indicate the necessity of control treatment and intervention therapy. If the sepsis system is without adding any control under some parameter and initial system value settings, the system will perform persistent inflammation outcomes as time goes by. Therefore, we develop our complex improved nonlinear sepsis model into a sepsis optimal control model, and then use some effective biomarkers recommended in existing clinic practices as optimization objective function to measure the development of sepsis. Besides that, a Bayesian optimization algorithm by combining Recurrent neural network (RNN-BO algorithm) is introduced to predict the optimal control strategy for the studied sepsis optimal control system. The difference between the RNN-BO algorithm from other optimization algorithms is that once given any new initial system value setting (initial value is associated with the initial conditions of patients), the RNN-BO algorithm is capable of quickly predicting a corresponding time-series optimal control based on the historical optimal control data for any new sepsis patient. To demonstrate the effectiveness and efficiency of the RNN-BO algorithm on solving the optimal control solution on the complex nonlinear sepsis system, some numerical simulations are implemented by comparing with other optimization algorithms in this paper.
翻訳日:2022-01-11 17:26:30 公開日:2022-01-07
# 新しいアムハーリック音声感情データセットと分類ベンチマーク

A New Amharic Speech Emotion Dataset and Classification Benchmark ( http://arxiv.org/abs/2201.02710v1 )

ライセンス: Link先を確認
Ephrem A. Retta, Eiad Almekhlafi, Richard Sutcliffe, Mustafa Mhamed, Haider Ali, Jun Feng(参考訳) 本稿では, 4つの方言(Gojjam, Wollo, Shewa, Gonder)と5つの感情(中性, 恐怖, 幸福, 悲しみ, 怒り)をカバーするアムハラ語音声感情データセット(ASED)を提案する。 我々は、Amharic言語のための最初の音声感情認識(SER)データセットであると信じている。 65人のボランティア参加者、すべてのネイティブスピーカーは、2,474音のサンプルを2秒から4秒の長さで記録した。 8人の裁判官が同意度の高いサンプルに感情を割り当てた(Fleiss kappa = 0.8)。 得られたデータセットは無料でダウンロードできる。 次に、VGGbと呼ばれるよく知られたVGGモデルの4層版を開発した。 その後、ASEDを用いてVGGb for SERを用いて3つの実験を行った。 まず,Mel-spectrogram の特徴とMel- frequency Cepstral coefficient (MFCC) の特徴について検討した。 これは、ASEDで2つのVGGb SERモデルを訓練し、1つはMel-spectrogramを使用し、もう1つはMFCCを用いて訓練した。 4種類の訓練、標準のクロスバリデーション、文、方言、話者グループに基づく3つの変種が試みられた。 したがって、訓練に使用する文はテストに使用されず、方言と話者のグループでも同様である。 結論として、MFCCの機能は4つのトレーニングスキームよりも優れている。 MFCCは実験2で採用され、VGGbと既存の3つのモデル(RESNet50、Alex-Net、LSTM)がASEDで比較された。 VGGbは非常に高い精度(90.73%)と最速の訓練時間があることが判明した。 実験3では、既存の2つのSERデータセットであるRAVDESS(英語)とEMO-DB(ドイツ語)とASED(アンハラ語)のトレーニングでVGGbの性能を比較した。 結果はこれらの言語で比較され、asedが最も高い。 これは、VGGbは他の言語にもうまく適用できることを示している。 ASEDが研究者にAmharic SERの他のモデルの実験を奨励することを願っている。

In this paper we present the Amharic Speech Emotion Dataset (ASED), which covers four dialects (Gojjam, Wollo, Shewa and Gonder) and five different emotions (neutral, fearful, happy, sad and angry). We believe it is the first Speech Emotion Recognition (SER) dataset for the Amharic language. 65 volunteer participants, all native speakers, recorded 2,474 sound samples, two to four seconds in length. Eight judges assigned emotions to the samples with high agreement level (Fleiss kappa = 0.8). The resulting dataset is freely available for download. Next, we developed a four-layer variant of the well-known VGG model which we call VGGb. Three experiments were then carried out using VGGb for SER, using ASED. First, we investigated whether Mel-spectrogram features or Mel-frequency Cepstral coefficient (MFCC) features work best for Amharic. This was done by training two VGGb SER models on ASED, one using Mel-spectrograms and the other using MFCC. Four forms of training were tried, standard cross-validation, and three variants based on sentences, dialects and speaker groups. Thus, a sentence used for training would not be used for testing, and the same for a dialect and speaker group. The conclusion was that MFCC features are superior under all four training schemes. MFCC was therefore adopted for Experiment 2, where VGGb and three other existing models were compared on ASED: RESNet50, Alex-Net and LSTM. VGGb was found to have very good accuracy (90.73%) as well as the fastest training time. In Experiment 3, the performance of VGGb was compared when trained on two existing SER datasets, RAVDESS (English) and EMO-DB (German) as well as on ASED (Amharic). Results are comparable across these languages, with ASED being the highest. This suggests that VGGb can be successfully applied to other languages. We hope that ASED will encourage researchers to experiment with other models for Amharic SER.
翻訳日:2022-01-11 16:46:17 公開日:2022-01-07
# マイクロドーシング:GANによる圧縮のための知識蒸留

Microdosing: Knowledge Distillation for GAN based Compression ( http://arxiv.org/abs/2201.02624v1 )

ライセンス: Link先を確認
Leonhard Helminger, Roberto Azevedo, Abdelaziz Djelouah, Markus Gross, Christopher Schroers(参考訳) 近年,学習画像や映像圧縮において大きな進歩を遂げている。 特にGenerative Adversarial Networksの使用は、低ビットレートのレギュレーションにおいて印象的な結果をもたらしている。 しかし、現在の最先端の提案ではモデルサイズは依然として重要な問題であり、既存のソリューションはデコード側でかなりの計算労力を必要とする。 これにより、現実的なシナリオやビデオ圧縮の拡張での使用が制限される。 本稿では,知識蒸留を利用した画像デコーダの有効化について,元のパラメータ数のごく一部で示す。 画像符号化のためのサイド情報を用いたシーケンス特殊化を含む,ソリューションのいくつかの側面について検討する。 最後に、得られた利点をビデオ圧縮の設定に転送する方法を示す。 全体としては、モデルサイズを20倍に削減し、デコード時間の50%削減を可能にします。

Recently, significant progress has been made in learned image and video compression. In particular the usage of Generative Adversarial Networks has lead to impressive results in the low bit rate regime. However, the model size remains an important issue in current state-of-the-art proposals and existing solutions require significant computation effort on the decoding side. This limits their usage in realistic scenarios and the extension to video compression. In this paper, we demonstrate how to leverage knowledge distillation to obtain equally capable image decoders at a fraction of the original number of parameters. We investigate several aspects of our solution including sequence specialization with side information for image coding. Finally, we also show how to transfer the obtained benefits into the setting of video compression. Overall, this allows us to reduce the model size by a factor of 20 and to achieve 50% reduction in decoding time.
翻訳日:2022-01-11 16:44:38 公開日:2022-01-07
# FlexHDR:フレキシブルHDRイメージングのためのアライメントと露出の不確かさのモデル化

FlexHDR: Modelling Alignment and Exposure Uncertainties for Flexible HDR Imaging ( http://arxiv.org/abs/2201.02625v1 )

ライセンス: Link先を確認
Sibi Catley-Chandar, Thomas Tanay, Lucas Vandroux, Ale\v{s} Leonardis, Gregory Slabaugh, Eduardo P\'erez-Pellitero(参考訳) 高ダイナミックレンジ(hdr)イメージングは、現代のデジタル写真パイプラインにおいて極めて重要であり、画像の照度が異なるにもかかわらず、良好な露出領域を持つ高品質な写真を生成するために使用される。 これは典型的には、異なる露光で撮影された複数の低ダイナミックレンジ(LDR)画像をマージすることで達成される。 しかし, 過度に露出した領域と, 補償が不十分な動作による誤認識により, ゴーストなどの人工物が生じる。 本稿では,高品質なHDR結果を生成するためにアライメントと露出の不確実性をモデル化する新しいHDRイメージング手法を提案する。 我々は,フレームを高品質なHDR画像に頑健にマージする,HDR対応不確実性駆動型アテンションマップを用いて,アライメントと露出の信頼性を協調的に調整し,評価する戦略を導入する。 さらに,複数のLDR画像を順列不変な方法でフレキシブルにマージ可能な,プログレッシブな多段階画像融合手法を提案する。 実験結果から,提案手法は高画質のHDR画像を最大0.8dBPSNRで作成し,高精細度,色,少ない工芸品の主観的改善を図った。

High dynamic range (HDR) imaging is of fundamental importance in modern digital photography pipelines and used to produce a high-quality photograph with well exposed regions despite varying illumination across the image. This is typically achieved by merging multiple low dynamic range (LDR) images taken at different exposures. However, over-exposed regions and misalignment errors due to poorly compensated motion result in artefacts such as ghosting. In this paper, we present a new HDR imaging technique that specifically models alignment and exposure uncertainties to produce high quality HDR results. We introduce a strategy that learns to jointly align and assess the alignment and exposure reliability using an HDR-aware, uncertainty-driven attention map that robustly merges the frames into a single high quality HDR image. Further, we introduce a progressive, multi-stage image fusion approach that can flexibly merge any number of LDR images in a permutation-invarian t manner. Experimental results show our method can produce better quality HDR images with up to 0.8dB PSNR improvement to the state-of-the-art, and subjective improvements in terms of better detail, colours, and fewer artefacts.
翻訳日:2022-01-11 16:44:26 公開日:2022-01-07
# 速度歪み理論を用いたフェデレーション学習における通信精度トレードオフの最適化

Optimizing the Communication-Accura cy Trade-off in Federated Learning with Rate-Distortion Theory ( http://arxiv.org/abs/2201.02664v1 )

ライセンス: Link先を確認
Nicole Mitchell, Johannes Ball\'e, Zachary Charles, Jakub Kone\v{c}n\'y(参考訳) 連合学習における重要なボトルネックは、クライアントデバイスから中央サーバにモデル更新を送信する際のネットワーク通信コストである。 我々はこのコストを削減する方法を提案する。 本手法は,その経験的分布を考慮し,量子化された更新を適切な普遍コードで符号化する。 量子化は誤りをもたらすため、平均ビットレートと勾配歪みで所望のトレードオフを最適化して量子化レベルを選択する。 フェデレート学習の非自由な性質にもかかわらず、速度歪みフロンティアはデータセット、オプティマイザ、クライアント、トレーニングラウンド間で一貫性があり、各設定内で歪みがモデル性能を確実に予測できることを示す。 これにより、多くのユースケースでほぼ最適であり、Stack Overflowの次のワード予測ベンチマークでTop-K、DRIVE、3LC、QSGDを上回る、驚くほど単純な圧縮スキームが実現される。

A significant bottleneck in federated learning is the network communication cost of sending model updates from client devices to the central server. We propose a method to reduce this cost. Our method encodes quantized updates with an appropriate universal code, taking into account their empirical distribution. Because quantization introduces error, we select quantization levels by optimizing for the desired trade-off in average total bitrate and gradient distortion. We demonstrate empirically that in spite of the non-i.i.d. nature of federated learning, the rate-distortion frontier is consistent across datasets, optimizers, clients and training rounds, and within each setting, distortion reliably predicts model performance. This allows for a remarkably simple compression scheme that is near-optimal in many use cases, and outperforms Top-K, DRIVE, 3LC and QSGD on the Stack Overflow next-word prediction benchmark.
翻訳日:2022-01-11 16:11:43 公開日:2022-01-07
# 機械学習を用いたuavベース空中画像からの樹木自動計測ソフトウェアの開発

Development of Automatic Tree Counting Software from UAV Based Aerial Images With Machine Learning ( http://arxiv.org/abs/2201.02698v1 )

ライセンス: Link先を確認
Musa Ata\c{s}, Ayhan Talay(参考訳) 無人航空機(UAV)は、軍事、警備、監視、緊急支援、観光、農業、林業など、多くの応用分野において成功している。 本研究の目的は,UAVによる高解像度画像から,シルト大学キャンパスの指定領域の樹木を自動カウントすることである。 Adobe Photoshopのフォトマージツールを使って、高さ30mで20%オーバーラップした画像を地上局でオフラインで縫い付けました。 その結果,3x3中央値フィルタと平均値フィルタをそれぞれ適用し,画像のノイズ化と平滑化を行った。 ある地域でUAVが捉えた空中画像の正光マップを生成した後、これらの地図上の異なる物体の境界ボックスは、HSV(Hue Saturation Value)、RGB(Red Green Blue)、グレー(Gray)のモダリティにラベル付けされた。 トレーニング,検証,テストデータセットが生成され,さまざまな機械学習アルゴリズムを用いて木検出に関する分類成功率の評価を行った。 最終段階では,実木数を求めることにより基底真理モデルが確立され,参照基底真理データと提案モデルとの比較により予測性能が算出された。 MLP分類器で得られた木数の平均精度は87%と推定された。

Unmanned aerial vehicles (UAV) are used successfully in many application areas such as military, security, monitoring, emergency aid, tourism, agriculture, and forestry. This study aims to automatically count trees in designated areas on the Siirt University campus from high-resolution images obtained by UAV. Images obtained at 30 meters height with 20% overlap were stitched offline at the ground station using Adobe Photoshop's photo merge tool. The resulting image was denoised and smoothed by applying the 3x3 median and mean filter, respectively. After generating the orthophoto map of the aerial images captured by the UAV in certain regions, the bounding boxes of different objects on these maps were labeled in the modalities of HSV (Hue Saturation Value), RGB (Red Green Blue) and Gray. Training, validation, and test datasets were generated and then have been evaluated for classification success rates related to tree detection using various machine learning algorithms. In the last step, a ground truth model was established by obtaining the actual tree numbers, and then the prediction performance was calculated by comparing the reference ground truth data with the proposed model. It is considered that significant success has been achieved for tree count with an average accuracy rate of 87% obtained using the MLP classifier in predetermined regions.
翻訳日:2022-01-11 16:08:10 公開日:2022-01-07
# 自然画像からのScribble SupervisionによるDigital Pathologyにおけるラベルの少ない学習

Learning with less labels in Digital Pathology via Scribble Supervision from natural images ( http://arxiv.org/abs/2201.02627v1 )

ライセンス: Link先を確認
Eu Wern Teh, Graham W. Taylor(参考訳) デジタル病理学(DP)領域でディープラーニングモデルをトレーニングする上で重要な課題は、医療専門家による高いアノテーションコストである。 この問題を解決する方法の1つは、アノテーションコストがかなり安い自然画像領域(NI)からの移行学習である。 NIからDPへのクロスドメイン移行学習はクラスラベル~\cite{teh2020learning}を介して成功する。 クラスラベルに依存する潜在的な弱点は、完全なピクセル単位のセグメンテーションラベルやスクリブルラベルといった空間ラベルから得られる空間情報の欠如である。 NIドメインのスクリブルラベルは,2つの癌分類データセット(Patch Camelyon Breast Cancer とColorectal Cancer データセット)におけるDPモデルの性能を向上させることができることを示した。 さらに,スクリブルラベルでトレーニングしたモデルでは,収集が極めて容易かつ高速であるにもかかわらず,フルピクセルワイドセグメンテーションラベルと同じ性能向上が得られることを示す。

A critical challenge of training deep learning models in the Digital Pathology (DP) domain is the high annotation cost by medical experts. One way to tackle this issue is via transfer learning from the natural image domain (NI), where the annotation cost is considerably cheaper. Cross-domain transfer learning from NI to DP is shown to be successful via class labels~\cite{teh2020learning}. One potential weakness of relying on class labels is the lack of spatial information, which can be obtained from spatial labels such as full pixel-wise segmentation labels and scribble labels. We demonstrate that scribble labels from NI domain can boost the performance of DP models on two cancer classification datasets (Patch Camelyon Breast Cancer and Colorectal Cancer dataset). Furthermore, we show that models trained with scribble labels yield the same performance boost as full pixel-wise segmentation labels despite being significantly easier and faster to collect.
翻訳日:2022-01-11 15:34:04 公開日:2022-01-07
# BottleFit: 効率的なスプリットコンピューティングのためのディープニューラルネットワークにおける圧縮表現の学習

BottleFit: Learning Compressed Representations in Deep Neural Networks for Effective and Efficient Split Computing ( http://arxiv.org/abs/2201.02693v1 )

ライセンス: Link先を確認
Yoshitomo Matsubara, Davide Callegaro, Sameer Singh, Marco Levorato, Francesco Restuccia(参考訳) ミッションクリティカルなアプリケーションはディープニューラルネットワーク(DNN)を必要とするが、モバイルデバイスでの連続実行はエネルギー消費を大幅に増加させる。 エッジオフロードはエネルギー消費を減少させるが、チャネル品質、ネットワークおよびエッジサーバ負荷の不安定なパターンは、システムのキー操作を著しく破壊する可能性がある。 スプリットコンピューティングと呼ばれる別のアプローチでは、帯域幅の使用量とエネルギー消費を減らすためにモデル内の圧縮表現(ボトルネックと呼ばれる)を生成する。 以前の作業では、エネルギー消費とレイテンシを損なうため、追加のレイヤを導入するアプローチが提案されている。 そこで本研究では,目標とするDNNアーキテクチャの変更に加えて,高い圧縮率で高い精度を実現するための新たなトレーニング戦略を含む,BottleFitというフレームワークを提案する。 画像分類における最先端DNNモデルにBottleFitを適用し、画像Netデータセット上で最大0.6%の精度で77.1%のデータ圧縮を達成する一方、SPINNのような技術の状態は6%の精度で失われることを示す。 NVIDIA Jetson Nanoボード(GPUベース)とRaspberry PIボード(GPUなし)で動作する画像分類アプリケーションの消費電力と遅延を実験的に測定した。 この結果,BottleFitは(w.r.t.)ローカルコンピューティングに対して最大49%,89%,エッジオフロードでは37%,55%の電力消費を減少させることがわかった。 bottlefitを最先端のオートエンコーダベースのアプローチと比較し、それを示す。 (i) bottlefitは、jetsonでは最大54%、44%、raspberry piでは40%、62%の消費電力と実行時間をそれぞれ削減します。 (ii)モバイルデバイス上で実行されるヘッドモデルのサイズは83倍である。 コードリポジトリは結果の完全な再現性のために公開される。

Although mission-critical applications require the use of deep neural networks (DNNs), their continuous execution at mobile devices results in a significant increase in energy consumption. While edge offloading can decrease energy consumption, erratic patterns in channel quality, network and edge server load can lead to severe disruption of the system's key operations. An alternative approach, called split computing, generates compressed representations within the model (called "bottlenecks"), to reduce bandwidth usage and energy consumption. Prior work has proposed approaches that introduce additional layers, to the detriment of energy consumption and latency. For this reason, we propose a new framework called BottleFit, which, in addition to targeted DNN architecture modifications, includes a novel training strategy to achieve high accuracy even with strong compression rates. We apply BottleFit on cutting-edge DNN models in image classification, and show that BottleFit achieves 77.1% data compression with up to 0.6% accuracy loss on ImageNet dataset, while state of the art such as SPINN loses up to 6% in accuracy. We experimentally measure the power consumption and latency of an image classification application running on an NVIDIA Jetson Nano board (GPU-based) and a Raspberry PI board (GPU-less). We show that BottleFit decreases power consumption and latency respectively by up to 49% and 89% with respect to (w.r.t.) local computing and by 37% and 55% w.r.t. edge offloading. We also compare BottleFit with state-of-the-art autoencoders-based approaches, and show that (i) BottleFit reduces power consumption and execution time respectively by up to 54% and 44% on the Jetson and 40% and 62% on Raspberry PI; (ii) the size of the head model executed on the mobile device is 83 times smaller. The code repository will be published for full reproducibility of the results.
翻訳日:2022-01-11 15:33:49 公開日:2022-01-07
# わずかなサンプルでモデルを圧縮する: 模倣し、置き換える

Compressing Models with Few Samples: Mimicking then Replacing ( http://arxiv.org/abs/2201.02620v1 )

ライセンス: Link先を確認
Huanyu Wang, Junjie Liu, Xin Ma, Yang Yong, Zhenhua Chai, Jianxin Wu(参考訳) サンプルの少ない小さなコンパクトなモデルに、大きな冗長なモデルを圧縮することを目的としている。 これらの限られたサンプルを直接修正すれば、モデルは過度に適合し、ほとんど何も学ばない。 したがって、従来の方法では、圧縮モデル層を層単位で最適化し、すべての層が教師モデルの対応する層と同じ出力を持つようにしようとする。 そこで本論文では,まず,教師のペナルティメート層における特徴量と同じ特徴量を出力することをprunedモデルに促し,次に教師の層をよく調整されたコンパクトな圧縮に置き換える手法として,mir(museking then)という新しいフレームワークを提案する。 従来の階層的な再構築手法とは異なり、我々のMiRはネットワーク全体を一様に最適化し、シンプルで効果的であるだけでなく、教師なしで汎用性も備えている。 MiRは従来の手法よりも大きなマージンを持つ。 コードはもうすぐ入手できる。

Few-sample compression aims to compress a big redundant model into a small compact one with only few samples. If we fine-tune models with these limited few samples directly, models will be vulnerable to overfit and learn almost nothing. Hence, previous methods optimize the compressed model layer-by-layer and try to make every layer have the same outputs as the corresponding layer in the teacher model, which is cumbersome. In this paper, we propose a new framework named Mimicking then Replacing (MiR) for few-sample compression, which firstly urges the pruned model to output the same features as the teacher's in the penultimate layer, and then replaces teacher's layers before penultimate with a well-tuned compact one. Unlike previous layer-wise reconstruction methods, our MiR optimizes the entire network holistically, which is not only simple and effective, but also unsupervised and general. MiR outperforms previous methods with large margins. Codes will be available soon.
翻訳日:2022-01-11 15:03:37 公開日:2022-01-07
# 注意オプション批判

Attention Option-Critic ( http://arxiv.org/abs/2201.02628v1 )

ライセンス: Link先を確認
Raviteja Chunduru, Doina Precup(参考訳) 強化学習における時間的抽象化は、エージェントが選択肢と呼ばれる高度な行動を学び、使用する能力である。 option-criticアーキテクチャは、オプションを構築するための勾配ベースのエンドツーエンド学習方法を提供する。 本稿では,観察空間の異なる側面に異なる選択肢を集中させることを学習できる,注目に基づくこのフレームワークの拡張を提案する。 同様に状態抽象化が可能で,オプション支配や頻繁なオプション切替といったデリケートな問題を防止すると同時に,類似のサンプル複雑性を実現している。 また,異なるトランスファー学習タスクを通じて,学習オプションの効率性,解釈性,再利用可能な性質を示す。 比較的単純な4室環境とより複雑なale(arcade learning environment)における実験結果から,本手法の有効性が示された。

Temporal abstraction in reinforcement learning is the ability of an agent to learn and use high-level behaviors, called options. The option-critic architecture provides a gradient-based end-to-end learning method to construct options. We propose an attention-based extension to this framework, which enables the agent to learn to focus different options on different aspects of the observation space. We show that this leads to behaviorally diverse options which are also capable of state abstraction, and prevents the degeneracy problems of option domination and frequent option switching that occur in option-critic, while achieving a similar sample complexity. We also demonstrate the more efficient, interpretable, and reusable nature of the learned options in comparison with option-critic, through different transfer learning tasks. Experimental results in a relatively simple four-rooms environment and the more complex ALE (Arcade Learning Environment) showcase the efficacy of our approach.
翻訳日:2022-01-11 14:41:18 公開日:2022-01-07
# Stay Positive: 否定的なサンプリングのない知識グラフの埋め込み

Stay Positive: Knowledge Graph Embedding Without Negative Sampling ( http://arxiv.org/abs/2201.02661v1 )

ライセンス: Link先を確認
Ainaz Hajimoradlou and Mehran Kazemi(参考訳) 知識グラフ(KG)は一般的に不完全であり、既存のものから新しい事実を推論したいと願うことが多い。 これは二項分類問題であり、新しい事実が真か偽かを予測することを目的としている。 残念ながら、一般的にはポジティブな例(既知の事実)しかありませんが、分類器のトレーニングにはネガティブな例も必要です。 これを解決するために、通常、負のサンプリング戦略を用いて負の例を生成する。 しかし、これはパフォーマンスを低下させ、計算コストが高く、分類確率を校正しない偽陰性を引き起こす可能性がある。 本稿では,新しい正規化項を損失関数に追加することにより,負サンプリングの必要性を緩和するトレーニング手順を提案する。 我々の2つの関係埋め込みモデル(DistMultとSimplE)の結果は、性能と速度の両面で提案の利点を示している。

Knowledge graphs (KGs) are typically incomplete and we often wish to infer new facts given the existing ones. This can be thought of as a binary classification problem; we aim to predict if new facts are true or false. Unfortunately, we generally only have positive examples (the known facts) but we also need negative ones to train a classifier. To resolve this, it is usual to generate negative examples using a negative sampling strategy. However, this can produce false negatives which may reduce performance, is computationally expensive, and does not produce calibrated classification probabilities. In this paper, we propose a training procedure that obviates the need for negative sampling by adding a novel regularization term to the loss function. Our results for two relational embedding models (DistMult and SimplE) show the merit of our proposal both in terms of performance and speed.
翻訳日:2022-01-11 14:41:04 公開日:2022-01-07
# ganコンディショニングの入力再プログラミングの改善

Improved Input Reprogramming for GAN Conditioning ( http://arxiv.org/abs/2201.02692v1 )

ライセンス: Link先を確認
Tuan Dinh, Daewon Seo, Zhixu Du, Liang Shang, and Kangwook Lee(参考訳) 本研究では,事前学習した未条件GANをラベル付きデータを用いて条件付きGANに変換することを目標とするGAN条件付け問題について検討する。 まず,この問題に対する条件付きGANトレーニング,微調整,入力再プログラミングの3つのアプローチを同定し,解析する。 分析の結果,ラベル付きデータの量が小さい場合,入力再プログラミングが最適であることが判明した。 ラベル付きデータが少ない実世界のシナリオに触発され、入力再プログラミングアプローチに注目し、既存のアルゴリズムを慎重に分析する。 従来の入力再プログラミング手法の重要な問題をいくつか特定した後,inrep+と呼ばれる新しいアルゴリズムを提案する。 inrep+アルゴリズムは、インバータブルニューラルネットワークと正ラベル(pu)学習の新たな用途において、既存の問題に対処する。 InRep+は,ラベル情報が少なく,ノイズが少なく,不均衡な場合に,既存の手法よりも優れていることを示す。 例えば、1%のラベル付きデータでCIFAR10 GANを条件付けするタスクに対して、InRep+は平均FID82.13を達成し、第2のベストメソッドは114.51を達成している。

We study the GAN conditioning problem, whose goal is to convert a pretrained unconditional GAN into a conditional GAN using labeled data. We first identify and analyze three approaches to this problem -- conditional GAN training from scratch, fine-tuning, and input reprogramming. Our analysis reveals that when the amount of labeled data is small, input reprogramming performs the best. Motivated by real-world scenarios with scarce labeled data, we focus on the input reprogramming approach and carefully analyze the existing algorithm. After identifying a few critical issues of the previous input reprogramming approach, we propose a new algorithm called InRep+. Our algorithm InRep+ addresses the existing issues with the novel uses of invertible neural networks and Positive-Unlabeled (PU) learning. Via extensive experiments, we show that InRep+ outperforms all existing methods, particularly when label information is scarce, noisy, and/or imbalanced. For instance, for the task of conditioning a CIFAR10 GAN with 1% labeled data, InRep+ achieves an average Intra-FID of 82.13, whereas the second-best method achieves 114.51.
翻訳日:2022-01-11 14:40:48 公開日:2022-01-07
# (参考訳) GCWSNet: ニューラルネットワークのスケーラブルで正確なトレーニングのための一般化された一貫性重み付きサンプリング [全文訳有]

GCWSNet: Generalized Consistent Weighted Sampling for Scalable and Accurate Training of Neural Networks ( http://arxiv.org/abs/2201.02283v1 )

ライセンス: CC BY 4.0
Ping Li and Weijie Zhao(参考訳) 我々は,「パワーGMM」(pGMM)カーネルをハッシュ化するためのGCWS(Generalized consistent weighted sample)を開発した(チューニングパラメータは$p$)。 GCWSは、$p$とデータの大きさに関わらず、元のデータに電力変換を適用するための数値的に安定したスキームを提供する。 電力変換は、多くの場合、性能を高めるのに効果的である。 ハッシュデータをさまざまな公開分類データセットのニューラルネットワークにフィードし、そのメソッドを ``GCWSNet'' と名付ける。 我々はGCWSNetがしばしば分類精度を向上することを示した。 さらに、GCWSNetがかなり高速に収束していることは、実験から明らかである。 実際、GCWSはトレーニングプロセスの1つの時代遅れで、妥当な精度に達することが多い。 この特性は、広告クリックスルー率(CTR)予測モデルやデータストリーム(つまり、一度だけ見られるデータ)など多くのアプリケーションが、1つのエポックをトレーニングするので、非常に望ましい。 もうひとつの有益な副作用は、入力データがバイナリ(かつ非常にスパース)になるため、ニューラルネットワークの第1層の計算が乗算ではなく加算となることである。 正規化)ランダムフーリエ特徴(NRFF)と経験的比較を行う。 また、カウントスケッチによるGCWSNetのモデルサイズ削減を提案し、カウントスケッチを用いたGCWSの精度への影響を解析する理論を開発した。 分析の結果,GCWSハッシュの出力に8ビットのカウントスケッチハッシュを常に適用できるため,精度を損なうことなく, '`8-bit'' 戦略がうまく機能することが示唆された。 ディープニューラルネットワークをトレーニングする際、GCWSを利用する方法は他にもたくさんあります。 例えば、トレーニングされたディープニューラルネットワークの精度を高めるために、最後のレイヤの出力にGCWSを適用することができる。

We develop the "generalized consistent weighted sampling" (GCWS) for hashing the "powered-GMM" (pGMM) kernel (with a tuning parameter $p$). It turns out that GCWS provides a numerically stable scheme for applying power transformation on the original data, regardless of the magnitude of $p$ and the data. The power transformation is often effective for boosting the performance, in many cases considerably so. We feed the hashed data to neural networks on a variety of public classification datasets and name our method ``GCWSNet''. Our extensive experiments show that GCWSNet often improves the classification accuracy. Furthermore, it is evident from the experiments that GCWSNet converges substantially faster. In fact, GCWS often reaches a reasonable accuracy with merely (less than) one epoch of the training process. This property is much desired because many applications, such as advertisement click-through rate (CTR) prediction models, or data streams (i.e., data seen only once), often train just one epoch. Another beneficial side effect is that the computations of the first layer of the neural networks become additions instead of multiplications because the input data become binary (and highly sparse). Empirical comparisons with (normalized) random Fourier features (NRFF) are provided. We also propose to reduce the model size of GCWSNet by count-sketch and develop the theory for analyzing the impact of using count-sketch on the accuracy of GCWS. Our analysis shows that an ``8-bit'' strategy should work well in that we can always apply an 8-bit count-sketch hashing on the output of GCWS hashing without hurting the accuracy much. There are many other ways to take advantage of GCWS when training deep neural networks. For example, one can apply GCWS on the outputs of the last layer to boost the accuracy of trained deep neural networks.
翻訳日:2022-01-10 21:12:00 公開日:2022-01-07
# (参考訳) 乳腺腫瘍分類におけるマンモグラムを用いた持続的ホモロジー [全文訳有]

Persistent Homology for Breast Tumor Classification using Mammogram Scans ( http://arxiv.org/abs/2201.02295v1 )

ライセンス: CC BY 4.0
Aras Asaad, Dashti Ali, Taban Majeed, Rasber Rashid(参考訳) フィールドトポロジカルデータ解析における重要なツールは永続ホモロジー (ph) と呼ばれ、永続性ダイアグラム (pd) という形で異なる解像度でデータのホモロジーの抽象表現を符号化するために用いられる。 本研究では,局所2値パターンとして知られるランドマーク選択法に基づいて,画像から異なる種類の局所テクスチャを符号化する単一の画像のpd表現を複数構築する。 我々は、パーシステンスランドスケープ、パーシステンスイメージ、パーシステンスバイナリ(ベティ曲線)、統計を用いて異なるpdベクトル化を採用した。 マンモグラフィースキャンによる乳房異常検出データセットを2つ公開し, 本法の有効性を検証した。 ランドマークベースphの感度は, 乳房異常スキャン検出のための両データセットの90%以上である。 最後に、実験の結果、異なるタイプのpdベクトル化の使用に関する新たな知見が得られ、機械学習の分類器と連携してphを活用するのに役立つ。

An Important tool in the field topological data analysis is known as persistent Homology (PH) which is used to encode abstract representation of the homology of data at different resolutions in the form of persistence diagram (PD). In this work we build more than one PD representation of a single image based on a landmark selection method, known as local binary patterns, that encode different types of local textures from images. We employed different PD vectorizations using persistence landscapes, persistence images, persistence binning (Betti Curve) and statistics. We tested the effectiveness of proposed landmark based PH on two publicly available breast abnormality detection datasets using mammogram scans. Sensitivity of landmark based PH obtained is over 90% in both datasets for the detection of abnormal breast scans. Finally, experimental results give new insights on using different types of PD vectorizations which help in utilising PH in conjunction with machine learning classifiers.
翻訳日:2022-01-10 20:46:36 公開日:2022-01-07
# (参考訳) オープンワールド提案によるワンステップ検出の拡張 [全文訳有]

Extending One-Stage Detection with Open-World Proposals ( http://arxiv.org/abs/2201.02302v1 )

ライセンス: CC BY 4.0
Sachin Konan and Kevin J Liang and Li Yin(参考訳) 自律運転、ハンドマニピュレーション、ロボットナビゲーションといった多くのアプリケーションでは、オブジェクト検出メソッドはトレーニングセットで認識されていないオブジェクトを検出できなければならない。 Open World Detection(OWD)は、検出性能を目に見えるクラスや目に見えないクラスカテゴリに一般化することで、この問題に対処しようとしている。 最近の研究では、open-world proposals(owp)と呼ばれるクラスに依存しない提案の生成に成功しています。 本研究は,2段階領域提案ネットワーク(rpn)を客観性スコアリングの手がかりとして検討してきたが,その単純性,実行時間,局所化と分類の分離のために,fcosのような完全畳み込み型1段階検出ネットワークのレンズを通してowpを調査した。 提案手法は,新しいクラスをリコールする際のOWP性能を最大6%向上させ,RPNベースの2段階ネットワークに匹敵する性能を達成した最初のプロポーザルフリー1段階検出ネットワークであることを示す。 さらに, FCOSの非結合アーキテクチャは, 分類性能の維持に有効であることを示す。 2段階のメソッドは,新しいクラスでリコール時に6%悪化するが,owpと分類を共同で最適化すると,fcosは2%減少する。

In many applications, such as autonomous driving, hand manipulation, or robot navigation, object detection methods must be able to detect objects unseen in the training set. Open World Detection(OWD) seeks to tackle this problem by generalizing detection performance to seen and unseen class categories. Recent works have seen success in the generation of class-agnostic proposals, which we call Open-World Proposals(OWP), but this comes at the cost of a big drop on the classification task when both tasks are considered in the detection model. These works have investigated two-stage Region Proposal Networks (RPN) by taking advantage of objectness scoring cues; however, for its simplicity, run-time, and decoupling of localization and classification, we investigate OWP through the lens of fully convolutional one-stage detection network, such as FCOS. We show that our architectural and sampling optimizations on FCOS can increase OWP performance by as much as 6% in recall on novel classes, marking the first proposal-free one-stage detection network to achieve comparable performance to RPN-based two-stage networks. Furthermore, we show that the inherent, decoupled architecture of FCOS has benefits to retaining classification performance. While two-stage methods worsen by 6% in recall on novel classes, we show that FCOS only drops 2% when jointly optimizing for OWP and classification.
翻訳日:2022-01-10 20:38:41 公開日:2022-01-07
# (参考訳) グラフ畳み込みネットワークを用いた予算対応Few-shot Learning [全文訳有]

Budget-aware Few-shot Learning via Graph Convolutional Network ( http://arxiv.org/abs/2201.02304v1 )

ライセンス: CC BY 4.0
Shipeng Yan, Songyang Zhang, Xuming He(参考訳) 本稿では,いくつかの例から新しい視覚概念を学習することを目的とした,ミニショット学習の問題に取り組む。 数ショット分類における一般的な問題は、データラベルの取得においてランダムサンプリング戦略を仮定する。 そこで本研究では,新しい対象のカテゴリを学習するだけでなく,データ効率を達成するために注釈を付与する有益な例を選択することを目的とした,予算を意識したマイショット学習問題を提案する。 我々は,グラフ畳み込みネットワーク (GCN) とサンプルベースの少ショット分類器を併用して,新しいデータ選択ポリシーを共同で学習する,予算を考慮した少ショット学習タスクのためのメタラーニング戦略を開発する。 選択ポリシーでは、グラフメッセージパッシングによってラベルのない各データに対する文脈依存表現を計算し、逐次選択のための情報度スコアを予測する。 提案手法を,ミニイメージネット,タイレッドイメージネット,オムニグロデータセット上で広範囲な実験により検証した。 その結果,本手法の有効性を示す指標として,本手法がベースラインよりも大きなマージンを示した。

This paper tackles the problem of few-shot learning, which aims to learn new visual concepts from a few examples. A common problem setting in few-shot classification assumes random sampling strategy in acquiring data labels, which is inefficient in practical applications. In this work, we introduce a new budget-aware few-shot learning problem that not only aims to learn novel object categories, but also needs to select informative examples to annotate in order to achieve data efficiency. We develop a meta-learning strategy for our budget-aware few-shot learning task, which jointly learns a novel data selection policy based on a Graph Convolutional Network (GCN) and an example-based few-shot classifier. Our selection policy computes a context-sensitive representation for each unlabeled data by graph message passing, which is then used to predict an informativeness score for sequential selection. We validate our method by extensive experiments on the mini-ImageNet, tiered-ImageNet and Omniglot datasets. The results show our few-shot learning strategy outperforms baselines by a sizable margin, which demonstrates the efficacy of our method.
翻訳日:2022-01-10 20:20:51 公開日:2022-01-07
# (参考訳) 一般化量子類似性学習 [全文訳有]

Generalized quantum similarity learning ( http://arxiv.org/abs/2201.02310v1 )

ライセンス: CC0 1.0
Santosh Kumar Radha and Casey Jao(参考訳) オブジェクト間の類似性は、幅広い領域において重要である。 類似度はオフザシェルフ距離関数を用いて測定できるが、その類似性の本質的な意味を捉えることができず、基礎となるデータやタスクに依存する傾向がある。 さらに、従来の距離関数は類似度測度の空間を対称に制限し、異なる空間の物体を直接比較することはできない。 我々は、同じ次元を持たないデータ間のタスク依存(a)対称類似性を学習するための量子ネットワーク(GQSim)を提案する。 このような類似度関数の特性を解析的に(簡単な場合)、数値的に(複雑な場合)分析し、これらの類似度尺度がデータの健全な特徴を抽出できることを示す。 また、この手法で導かれる類似度測度は$(\epsilon,\gamma,\t au)$-goodであり、理論的に性能が保証されることを示した。 最後に、この手法を分類、グラフ補完、生成モデリングの3つの応用に適用することで結論付ける。

The similarity between objects is significant in a broad range of areas. While similarity can be measured using off-the-shelf distance functions, they may fail to capture the inherent meaning of similarity, which tends to depend on the underlying data and task. Moreover, conventional distance functions limit the space of similarity measures to be symmetric and do not directly allow comparing objects from different spaces. We propose using quantum networks (GQSim) for learning task-dependent (a)symmetric similarity between data that need not have the same dimensionality. We analyze the properties of such similarity function analytically (for a simple case) and numerically (for a complex case) and showthat these similarity measures can extract salient features of the data. We also demonstrate that the similarity measure derived using this technique is $(\epsilon,\gamma,\t au)$-good, resulting in theoretically guaranteed performance. Finally, we conclude by applying this technique for three relevant applications - Classification, Graph Completion, Generative modeling.
翻訳日:2022-01-10 20:07:12 公開日:2022-01-07
# (参考訳) RestoreDet:低解像度画像における物体検出のための劣化等価表現

RestoreDet: Degradation Equivariant Representation for Object Detection in Low Resolution Images ( http://arxiv.org/abs/2201.02314v1 )

ライセンス: CC BY 4.0
Ziteng Cui, Yingying Zhu, Lin Gu, Guo-Jun Qi, Xiaoxiao Li, Peng Gao, Zenghui Zhang, Tatsuya Harada(参考訳) super resolution (sr) のような画像復元アルゴリズムは、劣化した画像のオブジェクト検出に必須の事前処理モジュールである。 しかし、これらのアルゴリズムのほとんどは、劣化が固定され、先行性があることを仮定している。 実際の劣化が未知あるいは仮定と異なる場合、事前処理モジュールとオブジェクト検出のような関連するハイレベルタスクの両方が失敗する。 本稿では,劣化した低解像度画像中のオブジェクトを検出するための新しいフレームワークrestoreedetを提案する。 restoredetはダウンサンプリング劣化を、自己教師信号の変換の一種として利用し、様々な解像度や他の劣化条件に対する同変表現を探索する。 具体的には、元の画像とランダムに劣化した画像から劣化変換を符号化して復号することにより、この本質的な視覚構造を学習する。 このフレームワークは、劣化した入力画像から元の対応を再構築するために、任意の解像度復元デコーダを持つ高度なSRアーキテクチャの利点をさらに活用することができる。 表現学習とオブジェクト検出の両方を、エンドツーエンドのトレーニング方法で共同で最適化する。 restoredetは、あらゆるメインストリームのオブジェクト検出アーキテクチャに実装可能な汎用フレームワークである。 大規模な実験により,CenterNetをベースとしたフレームワークは,異種劣化に直面した既存手法に比べて優れた性能を示した。 私たちのコードはまもなくリリースされるでしょう。

Image restoration algorithms such as super resolution (SR) are indispensable pre-processing modules for object detection in degraded images. However, most of these algorithms assume the degradation is fixed and known a priori. When the real degradation is unknown or differs from assumption, both the pre-processing module and the consequent high-level task such as object detection would fail. Here, we propose a novel framework, RestoreDet, to detect objects in degraded low resolution images. RestoreDet utilizes the downsampling degradation as a kind of transformation for self-supervised signals to explore the equivariant representation against various resolutions and other degradation conditions. Specifically, we learn this intrinsic visual structure by encoding and decoding the degradation transformation from a pair of original and randomly degraded images. The framework could further take the advantage of advanced SR architectures with an arbitrary resolution restoring decoder to reconstruct the original correspondence from the degraded input image. Both the representation learning and object detection are optimized jointly in an end-to-end training fashion. RestoreDet is a generic framework that could be implemented on any mainstream object detection architectures. The extensive experiment shows that our framework based on CenterNet has achieved superior performance compared with existing methods when facing variant degradation situations. Our code would be released soon.
翻訳日:2022-01-10 19:45:20 公開日:2022-01-07
# (参考訳) 要約多文書ニュース要約のための教師なしマスキング目的 [全文訳有]

An Unsupervised Masking Objective for Abstractive Multi-Document News Summarization ( http://arxiv.org/abs/2201.02321v1 )

ライセンス: CC BY 4.0
Nikolai Vogler, Songlin Li, Yujie Xu, Yujian Mi, Taylor Berg-Kirkpatrick(参考訳) 単純な教師なしマスキングの目的が,抽象的複数文書ニュース要約における教師付き性能に近づいたアプローチが可能であることを示す。 本手法は,最先端のニューラルネットワーク要約モデルを学習し,複数の文書群に対して語彙中心性が高いマスキングアウトソース文書を予測する。 マルチニューズデータセットを用いた実験では,従来の教師なし手法よりも優れており,人間による評価では,基幹要約へのアクセスを必要とせず,最高の教師付き手法を超越している。 さらに,過去の抽出要約研究に触発された語彙中心度の違いが最終性能に与える影響を評価する。

We show that a simple unsupervised masking objective can approach near supervised performance on abstractive multi-document news summarization. Our method trains a state-of-the-art neural summarization model to predict the masked out source document with highest lexical centrality relative to the multi-document group. In experiments on the Multi-News dataset, our masked training objective yields a system that outperforms past unsupervised methods and, in human evaluation, surpasses the best supervised method without requiring access to any ground-truth summaries. Further, we evaluate how different measures of lexical centrality, inspired by past work on extractive summarization, affect final performance.
翻訳日:2022-01-10 19:43:48 公開日:2022-01-07
# (参考訳) ベースラインシフトに対するベイズオンライン変化点検出 [全文訳有]

Bayesian Online Change Point Detection for Baseline Shifts ( http://arxiv.org/abs/2201.02325v1 )

ライセンス: CC BY 4.0
Ginga Yoshizawa(参考訳) 時系列データ分析において、リアルタイムな変化点(オンライン)の検出は、金融、環境モニタリング、医療など、多くの分野で大きな関心を集めている。 これを実現するための有望な手段の1つは、ベイズオンライン変更点検出(BOCPD)アルゴリズムである。 しかし,ベースラインが初期状態から不可逆的に移行した場合,アルゴリズムが問題となることがわかった。 これは、元のBOCPDアルゴリズムにより、データポイントが元のベースラインから比較的離れた場所で変動している場合、変化点を検出する感度が低下するためである。 本稿では,BOCPDアルゴリズムをベースラインが常に未知の値にシフトしている時系列に適用できるように拡張するだけでなく,提案手法の動作理由を可視化する。 提案アルゴリズムの有効性を示すために,提案アルゴリズムを実世界の2つのデータセットと6つの合成データセットで検証した。

In time series data analysis, detecting change points on a real-time basis (online) is of great interest in many areas, such as finance, environmental monitoring, and medicine. One promising means to achieve this is the Bayesian online change point detection (BOCPD) algorithm, which has been successfully adopted in particular cases in which the time series of interest has a fixed baseline. However, we have found that the algorithm struggles when the baseline irreversibly shifts from its initial state. This is because with the original BOCPD algorithm, the sensitivity with which a change point can be detected is degraded if the data points are fluctuating at locations relatively far from the original baseline. In this paper, we not only extend the original BOCPD algorithm to be applicable to a time series whose baseline is constantly shifting toward unknown values but also visualize why the proposed extension works. To demonstrate the efficacy of the proposed algorithm compared to the original one, we examine these algorithms on two real-world data sets and six synthetic data sets.
翻訳日:2022-01-10 19:35:43 公開日:2022-01-07
# (参考訳) idecode: コンフォーマントアウトオブディストリビューション検出のためのインディストリビューション等分散 [全文訳有]

iDECODe: In-distribution Equivariance for Conformal Out-of-distribution Detection ( http://arxiv.org/abs/2201.02331v1 )

ライセンス: CC BY 4.0
Ramneet Kaur, Susmit Jha, Anirban Roy, Sangdon Park, Edgar Dobriban, Oleg Sokolsky, Insup Lee(参考訳) ディープニューラルネットワーク(DNN)のような機械学習手法は、異なるドメインで成功したにもかかわらず、トレーニングディストリビューション外の入力に高い信頼性で誤った予測を生成することがよく知られている。 安全クリティカルなドメインにDNNを配置するには、DNNがそれらの予測を控えるように、OOD(out-of-distriion )データを検出する必要がある。 OOD検出のためのいくつかの方法が最近開発されたが、まだ改善の余地がある。 そこで我々は,共形OOD検出に分配同値を用いたiDECODeを提案する。 帰納的共形異常検出フレームワークで使用される新規な非整合性尺度と新しい集約法に依存し、従って有界偽検出率を保証する。 画像と音声のデータセットを用いた実験により,iDECODeの有効性を実証し,その結果を得た。 また,iDECODeは敵のサンプルを検出できることを示した。

Machine learning methods such as deep neural networks (DNNs), despite their success across different domains, are known to often generate incorrect predictions with high confidence on inputs outside their training distribution. The deployment of DNNs in safety-critical domains requires detection of out-of-distribution (OOD) data so that DNNs can abstain from making predictions on those. A number of methods have been recently developed for OOD detection, but there is still room for improvement. We propose the new method iDECODe, leveraging in-distribution equivariance for conformal OOD detection. It relies on a novel base non-conformity measure and a new aggregation method, used in the inductive conformal anomaly detection framework, thereby guaranteeing a bounded false detection rate. We demonstrate the efficacy of iDECODe by experiments on image and audio datasets, obtaining state-of-the-art results. We also show that iDECODe can detect adversarial examples.
翻訳日:2022-01-10 19:12:08 公開日:2022-01-07
# (参考訳) 脳腫瘍セグメンテーションのためのクロスモダリティ深層機能学習

Cross-Modality Deep Feature Learning for Brain Tumor Segmentation ( http://arxiv.org/abs/2201.02356v1 )

ライセンス: CC BY 4.0
Dingwen Zhang, Guohai Huang, Qiang Zhang, Jungong Han, Junwei Han, Yizhou Yu(参考訳) 近年の機械学習の進歩とデジタル医療画像の普及により、深層畳み込みニューラルネットワークを用いて、挑戦的な脳腫瘍セグメンテーション(BTS)課題に取り組む機会が開かれた。 しかし、非常に広く使われているRGB画像データとは異なり、脳腫瘍セグメンテーションで使用される医療画像データは、データスケールでは比較的少ないが、モダリティ特性ではよりリッチな情報を含んでいる。 そこで本稿では,脳腫瘍をマルチモーダリティmriデータから切り離すための,新しいクロスモーダリティ深層特徴学習フレームワークを提案する。 中心となる考え方は、不十分なデータスケールを補うために、マルチモダリティデータにわたる豊富なパターンをマイニングすることだ。 提案するクロスモダリティ深層特徴学習フレームワークは,異なるモダリティデータ間で知識を伝達し,異なるモダリティデータから知識を融合させることによって,リッチな特徴表現を学習することを目的とした,クロスモダリティ特徴遷移(CMFT)プロセスと,クロスモダリティ特徴融合(CMFF)プロセスの2つの学習プロセスからなる。 bratsベンチマークを用いて包括的実験を行い,提案するクロスモダリティ・ディープ・フィーチャー・ラーニング・フレームワークは,ベースライン法や最先端法と比較して,脳腫瘍のセグメンテーション性能を効果的に改善できることを示した。

Recent advances in machine learning and prevalence of digital medical images have opened up an opportunity to address the challenging brain tumor segmentation (BTS) task by using deep convolutional neural networks. However, different from the RGB image data that are very widespread, the medical image data used in brain tumor segmentation are relatively scarce in terms of the data scale but contain the richer information in terms of the modality property. To this end, this paper proposes a novel cross-modality deep feature learning framework to segment brain tumors from the multi-modality MRI data. The core idea is to mine rich patterns across the multi-modality data to make up for the insufficient data scale. The proposed cross-modality deep feature learning framework consists of two learning processes: the cross-modality feature transition (CMFT) process and the cross-modality feature fusion (CMFF) process, which aims at learning rich feature representations by transiting knowledge across different modality data and fusing knowledge from different modality data, respectively. Comprehensive experiments are conducted on the BraTS benchmarks, which show that the proposed cross-modality deep feature learning framework can effectively improve the brain tumor segmentation performance when compared with the baseline methods and state-of-the-art methods.
翻訳日:2022-01-10 18:46:48 公開日:2022-01-07
# (参考訳) ミラーラーニング:政策最適化の統一的枠組み [全文訳有]

Mirror Learning: A Unifying Framework of Policy Optimisation ( http://arxiv.org/abs/2201.02373v1 )

ライセンス: CC BY 4.0
Jakub Grudzien Kuba, Christian Schroeder de Witt, Jakob Foerster(参考訳) 総合政策改善(GPI)と信頼領域学習(TRL)は、マルコフ決定プロセス(MDP)のコアモデルとして機能する、現代強化学習(RL)における主要なフレームワークである。 残念なことに、それらの数学的形式は修正に敏感であるため、それらを実装する実用的なインスタンス化は自動的に改善保証を継承しない。 その結果、利用可能な厳密なMDP溶媒のスペクトルは狭い。 実際、TRPOやPPOのような多くの最先端(SOTA)アルゴリズムは収束することが証明されていない。 本稿では,RL問題に対する一般解である「textsl{mirror learning}」を提案する。 我々は,GPI と TRL は,モノトニック改善特性を誇示し,最適ポリシーに収束する,このはるかに大きなアルゴリズム空間内の小さな点であることを明らかにした。 RLのための事実上全てのSOTAアルゴリズムがミラー学習の例であり、その経験的性能は近似的な類似ではなく理論的性質の結果であることを示す。 興味深いことに、ミラー学習は、収束保証を伴う政策学習手法の全く新しい空間を開くことを示す。

General policy improvement (GPI) and trust-region learning (TRL) are the predominant frameworks within contemporary reinforcement learning (RL), which serve as the core models for solving Markov decision processes (MDPs). Unfortunately, in their mathematical form, they are sensitive to modifications, and thus, the practical instantiations that implement them do not automatically inherit their improvement guarantees. As a result, the spectrum of available rigorous MDP-solvers is narrow. Indeed, many state-of-the-art (SOTA) algorithms, such as TRPO and PPO, are not proven to converge. In this paper, we propose \textsl{mirror learning} -- a general solution to the RL problem. We reveal GPI and TRL to be but small points within this far greater space of algorithms which boasts the monotonic improvement property and converges to the optimal policy. We show that virtually all SOTA algorithms for RL are instances of mirror learning, and thus suggest that their empirical performance is a consequence of their theoretical properties, rather than of approximate analogies. Excitingly, we show that mirror learning opens up a whole new space of policy learning methods with convergence guarantees.
翻訳日:2022-01-10 18:44:24 公開日:2022-01-07
# (参考訳) カントン語における自動音声認識データセット:調査と新しいデータセット [全文訳有]

Automatic Speech Recognition Datasets in Cantonese Language: A Survey and a New Dataset ( http://arxiv.org/abs/2201.02419v1 )

ライセンス: CC BY 4.0
Tiezheng Yu, Rita Frieske, Peng Xu, Samuel Cahyawijaya, Cheuk Tung Shadow Yiu, Holy Lovenia, Wenliang Dai, Elham J. Barezi, Qifeng Chen, Xiaojuan Ma, Bertram E. Shi, Pascale Fung(参考訳) 低資源言語上での自動音声認識(ASR)は、人工知能(AI)が提供する技術的利点により、言語マイノリティへのアクセスを改善する。 本稿では,新しいカントン語データセットを作成することで,香港カントン語のデータ不足の問題に対処する。 我々のデータセットであるMulti-Domain Cantonese Corpus (MDCC)は、香港のカントン語オーディオブックから収集された、73.6時間のクリーンな読み上げ音声と書き起こしを組み合わせて作成する。 哲学、政治、教育、文化、ライフスタイル、家族ドメインを組み合わせることで、幅広いトピックをカバーしている。 また、既存のカントンデータセットをレビューし、2つの大きなデータセット(MDCCとCommon Voice zh-HK)で実験を行う。 既存のデータセットを音声タイプ、データソース、総サイズ、可用性に応じて分析する。 最先端asrモデルであるfairseq s2t transformerを用いた実験の結果,データセットの有効性が示された。 さらに,MDCC と Common Voice zh-HK にマルチデータセット学習を適用することで,強力で堅牢な Cantonese ASR モデルを作成する。

Automatic speech recognition (ASR) on low resource languages improves access of linguistic minorities to technological advantages provided by Artificial Intelligence (AI). In this paper, we address a problem of data scarcity of Hong Kong Cantonese language by creating a new Cantonese dataset. Our dataset, Multi-Domain Cantonese Corpus (MDCC), consists of 73.6 hours of clean read speech paired with transcripts, collected from Cantonese audiobooks from Hong Kong. It combines philosophy, politics, education, culture, lifestyle and family domains, covering a wide range of topics. We also review all existing Cantonese datasets and perform experiments on the two biggest datasets (MDCC and Common Voice zh-HK). We analyze the existing datasets according to their speech type, data source, total size and availability. The results of experiments conducted with Fairseq S2T Transformer, a state-of-the-art ASR model, show the effectiveness of our dataset. In addition, we create a powerful and robust Cantonese ASR model by applying multi-dataset learning on MDCC and Common Voice zh-HK.
翻訳日:2022-01-10 17:59:30 公開日:2022-01-07
# (参考訳) セグメンテーション性能に対する事前ベース損失の影響:ベンチマーク [全文訳有]

Effect of Prior-based Losses on Segmentation Performance: A Benchmark ( http://arxiv.org/abs/2201.02428v1 )

ライセンス: CC BY 4.0
Rosana {EL JURDI}, Caroline Petitjean, Veronika Cheplygina, Paul Honeine, Fahed Abdallah(参考訳) 今日、深層畳み込みニューラルネットワーク(cnns)は、様々な画像モードやタスクに基づいて、医用画像セグメンテーションの最先端のパフォーマンスを実証している。 初期の成功にもかかわらず、セグメンテーションネットワークは依然として解剖学的に異常なセグメンテーションを生成し、オブジェクト境界付近に穴や不正確さがある。 解剖学的可能性を強化するために、近年の研究は、損失関数の制約として、物体形状や境界などの事前知識を取り入れることに焦点を当てている。 以前の統合は、基幹領域から抽出された再構成された表現を低レベル、または臓器の形状や大きさなどの外部医療情報を高レベルに表すことができる。 過去数年間、事前の損失は、アーキテクチャに依存しながら専門家の知識の統合を可能にしているため、研究分野への関心が高まった。 しかしながら、さまざまな医療画像の課題やタスクにおける事前ベース損失の多様性を考えると、どのデータセットに最適な損失を識別することが困難になっている。 本稿では,医療画像分割における最近の先行的損失のベンチマークについて述べる。 主な目的は、特定のタスクやデータセットに与えられた損失を選択するための直感を提供することである。 この目的のために、4つの低レベルおよび高レベルの事前ベース損失が選択される。 評価された損失は、Deathlon、ISLES、WMHチャレンジなど、さまざまな医療画像セグメンテーション課題から8つの異なるデータセットで検証される。 その結果、低レベルの事前ベース損失はデータセット特性に関わらずサイコロ損失ベースラインよりも性能が向上することを保証できるが、高レベルの事前ベース損失はデータ特性に応じて解剖学的信頼性が向上することが示された。

Today, deep convolutional neural networks (CNNs) have demonstrated state-of-the-art performance for medical image segmentation, on various imaging modalities and tasks. Despite early success, segmentation networks may still generate anatomically aberrant segmentations, with holes or inaccuracies near the object boundaries. To enforce anatomical plausibility, recent research studies have focused on incorporating prior knowledge such as object shape or boundary, as constraints in the loss function. Prior integrated could be low-level referring to reformulated representations extracted from the ground-truth segmentations, or high-level representing external medical information such as the organ's shape or size. Over the past few years, prior-based losses exhibited a rising interest in the research field since they allow integration of expert knowledge while still being architecture-agnosti c. However, given the diversity of prior-based losses on different medical imaging challenges and tasks, it has become hard to identify what loss works best for which dataset. In this paper, we establish a benchmark of recent prior-based losses for medical image segmentation. The main objective is to provide intuition onto which losses to choose given a particular task or dataset. To this end, four low-level and high-level prior-based losses are selected. The considered losses are validated on 8 different datasets from a variety of medical image segmentation challenges including the Decathlon, the ISLES and the WMH challenge. Results show that whereas low-level prior-based losses can guarantee an increase in performance over the Dice loss baseline regardless of the dataset characteristics, high-level prior-based losses can increase anatomical plausibility as per data characteristics.
翻訳日:2022-01-10 17:46:10 公開日:2022-01-07
# (参考訳) 市場異常検出への署名手法の適用

Applications of Signature Methods to Market Anomaly Detection ( http://arxiv.org/abs/2201.02441v1 )

ライセンス: CC BY 4.0
Erdinc Akyildirim, Matteo Gambara, Josef Teichmann, Syang Zhou(参考訳) 異常検出(英: anomaly detection)とは、データセット内の異常なインスタンスやイベントを識別するプロセスである。 本研究では,時系列型のデータセットにおいて,まれあるいは予期せぬ項目を検出するためのシグネチャに基づく機械学習アルゴリズムを提案する。 異常検出アルゴリズムにおける特徴抽出器としてシグネチャやランダム化シグネチャを応用し, ランダム化シグネチャ構築のための簡易な表現論的正当性を提供する。 最初のアプリケーションは合成データに基づいており、視覚検査では区別できない実物と偽物の株価の軌跡を区別することを目的としている。 また,暗号通貨市場からの取引データを用いて実生活のアプリケーションを示す。 この場合、教師なし学習アルゴリズムにより、F1スコアが最大88%のソーシャルネットワーク上で構成されたポンプとダンプの試行を特定でき、教師なし学習に基づく分野の最先端に近い結果が得られる。

Anomaly detection is the process of identifying abnormal instances or events in data sets which deviate from the norm significantly. In this study, we propose a signatures based machine learning algorithm to detect rare or unexpected items in a given data set of time series type. We present applications of signature or randomized signature as feature extractors for anomaly detection algorithms; additionally we provide an easy, representation theoretic justification for the construction of randomized signatures. Our first application is based on synthetic data and aims at distinguishing between real and fake trajectories of stock prices, which are indistinguishable by visual inspection. We also show a real life application by using transaction data from the cryptocurrency market. In this case, we are able to identify pump and dump attempts organized on social networks with F1 scores up to 88% by means of our unsupervised learning algorithm, thus achieving results that are close to the state-of-the-art in the field based on supervised learning.
翻訳日:2022-01-10 17:23:33 公開日:2022-01-07
# (参考訳) Windows のスライディングにおけるoutlier による k-Center クラスタリング [全文訳有]

k-Center Clustering with Outliers in Sliding Windows ( http://arxiv.org/abs/2201.02448v1 )

ライセンス: CC BY 4.0
Paolo Pellizzoni, Andrea Pietracaprina, Geppino Pucci(参考訳) メトリック $k$-center クラスタリングは基本的な教師なし学習プリミティブである。 広く使われているが、このプリミティブはデータのノイズに大きく影響を受けるため、より合理的な変種は、与えられたデータセットの点数$z$を無視する最良の解を求め、outliersと呼ばれる。 我々は、スライディングウィンドウ設定の下で、このストリーミングモデルにおいて、この重要な変種に対する効率的なアルゴリズムを提供し、各ステップでクラスタ化すべきデータセットは、最新のデータ項目のウィンドウ$W$である。 我々のアルゴリズムは$O(1)$近似を達成し、驚くほど、$k+z$の動作メモリと$|W|$の対数しか必要としない。 副生成物として、窓の有効径を$W$と見積もる方法を示す。 また,理論結果の実用性を示す実験的な証拠も提供する。

Metric $k$-center clustering is a fundamental unsupervised learning primitive. Although widely used, this primitive is heavily affected by noise in the data, so that a more sensible variant seeks for the best solution that disregards a given number $z$ of points of the dataset, called outliers. We provide efficient algorithms for this important variant in the streaming model under the sliding window setting, where, at each time step, the dataset to be clustered is the window $W$ of the most recent data items. Our algorithms achieve $O(1)$ approximation and, remarkably, require a working memory linear in $k+z$ and only logarithmic in $|W|$. As a by-product, we show how to estimate the effective diameter of the window $W$, which is a measure of the spread of the window points, disregarding a given fraction of noisy distances. We also provide experimental evidence of the practical viability of our theoretical results.
翻訳日:2022-01-10 17:22:31 公開日:2022-01-07
# (参考訳) オンラインギャンブルにおけるチャーン予測 [全文訳有]

Churn prediction in online gambling ( http://arxiv.org/abs/2201.02463v1 )

ライセンス: CC BY 4.0
Florian Merchie and Damien Ernst(参考訳) ビジネスの維持においては、常に混乱防止が大きな関心事となっている。 この研究は、オンラインギャンブルの文脈におけるチャーン予測の問題をバイナリ分類タスクとして定式化することで、この領域に寄与する。 また、この問題に対する繰り返しニューラルネットワークに基づくアルゴリズム的解法を提案する。 このアルゴリズムは、時系列の形式を持つオンラインギャンブルデータを用いてテストされ、リカレントニューラルネットワークによって効率的に処理される。 トレーニングされたモデルの性能を評価するために、精度、精度、リコールなどの標準的な機械学習メトリクスが使用された。 特にこの問題に対して、実施した実験では、特定のアーキテクチャの選択が最も重要となるメトリクスに依存することを評価することができた。 nBRCを使用するアーキテクチャは精度がよいが、LSTMを使用するアーキテクチャはリコールを良くし、GRUベースのアーキテクチャはより高い精度と2つのメトリクスのバランスをとることができる。 さらに,最近の時系列履歴のみを用いてネットワークをトレーニングすることで,結果の品質が低下することを示した。 また、特定のインスタント$t$で学習したモデルのパフォーマンスを、別の時間に$t^{\prime} > t$で調べました。 その結果、t$で学習したモデルのパフォーマンスは、以下の瞬間に引き続き良好であることが示され、高いレートでモデルのリフレッシュは不要であることが示唆された。 しかし、モデルの性能は、データに影響を与える1回のイベントによって顕著なばらつきにさらされた。

In business retention, churn prevention has always been a major concern. This work contributes to this domain by formalizing the problem of churn prediction in the context of online gambling as a binary classification task. We also propose an algorithmic answer to this problem based on recurrent neural network. This algorithm is tested with online gambling data that have the form of time series, which can be efficiently processed by recurrent neural networks. To evaluate the performances of the trained models, standard machine learning metrics were used, such as accuracy, precision and recall. For this problem in particular, the conducted experiments allowed to assess that the choice of a specific architecture depends on the metric which is given the greatest importance. Architectures using nBRC favour precision, those using LSTM give better recall, while GRU-based architectures allow a higher accuracy and balance two other metrics. Moreover, further experiments showed that using only the more recent time-series histories to train the networks decreases the quality of the results. We also study the performances of models learned at a specific instant $t$, at other times $t^{\prime} > t$. The results show that the performances of the models learned at time $t$ remain good at the following instants $t^{\prime} > t$, suggesting that there is no need to refresh the models at a high rate. However, the performances of the models were subject to noticeable variance due to one-off events impacting the data.
翻訳日:2022-01-10 16:46:31 公開日:2022-01-07
# (参考訳) 医療分析における機械学習と従来の高度な統計モデルとの類似性と相違 [全文訳有]

Similarities and Differences between Machine Learning and Traditional Advanced Statistical Modeling in Healthcare Analytics ( http://arxiv.org/abs/2201.02469v1 )

ライセンス: CC BY 4.0
Michele Bennett, Karin Hayes, Ewa J. Kleczyk, and Rajesh Mehta(参考訳) データサイエンティストと統計学者は、分析の課題を解決するための最良のアプローチ、機械学習または統計モデリングを決定するときにしばしば対立する。 しかし、機械学習と統計モデリングは、分析戦場の異なる側面の敵よりもいとこである。 2つのアプローチのどちらを選択するか、あるいは両方を使うかは、解決すべき問題と結果と、分析に利用可能なデータと状況に基づいて決定される。 機械学習と統計モデリングは、類似の数学的原則に基づいて相補的だが、分析の知識ベース全体において、単に異なるツールを使用するだけだ。 主なアプローチを決定するには、データのサイズや完全性、変数の数、仮定や不足、予測や因果関係といった期待された結果といった経験的な証拠だけでなく、解決すべき問題にも基づく必要がある。 優れたアナリストとデータサイエンティストは、技術と適切なアプリケーションの両方に精通して、適切なプロジェクトに適したツールを使用して、望ましい結果を達成するべきです。

Data scientists and statisticians are often at odds when determining the best approach, machine learning or statistical modeling, to solve an analytics challenge. However, machine learning and statistical modeling are more cousins than adversaries on different sides of an analysis battleground. Choosing between the two approaches or in some cases using both is based on the problem to be solved and outcomes required as well as the data available for use and circumstances of the analysis. Machine learning and statistical modeling are complementary, based on similar mathematical principles, but simply using different tools in an overall analytics knowledge base. Determining the predominant approach should be based on the problem to be solved as well as empirical evidence, such as size and completeness of the data, number of variables, assumptions or lack thereof, and expected outcomes such as predictions or causality. Good analysts and data scientists should be well versed in both techniques and their proper application, thereby using the right tool for the right project to achieve the desired results.
翻訳日:2022-01-10 16:35:42 公開日:2022-01-07
# (参考訳) 可逆ステレオグラフィのためのベイズニューラルネットワーク [全文訳有]

Bayesian Neural Networks for Reversible Steganography ( http://arxiv.org/abs/2201.02478v1 )

ライセンス: CC BY 4.0
Ching-Chun Chang(参考訳) ディープラーニングの最近の進歩は、可逆性ステガノグラフィーのパラダイムシフトをもたらした。 可逆的ステガノグラフィーの基本的な柱は、深いニューラルネットワークを通じて実現可能な予測モデリングである。 しかし、非自明な誤りは、いくつかの分散外データとノイズデータに関する推論に存在している。 本稿では,ベイズ深層学習の理論的枠組みに基づく予測モデルの不確実性を検討することを提案する。 ベイズニューラルネットワークは、自意識の機械、すなわち、自身の限界を知っている機械とみなすことができる。 不確実性を定量化するため,モンテカルロサンプリングによる後方予測分布を確率的前方通過で近似した。 さらに,予測的不確かさをアレテータ的不確実性と認識的不確実性に分離し,これらの量を教師なしの方法で学習できることを示した。 実験の結果, ベイズの不確かさ解析により, ステガノグラフィーの容量分散性能が向上した。

Recent advances in deep learning have led to a paradigm shift in reversible steganography. A fundamental pillar of reversible steganography is predictive modelling which can be realised via deep neural networks. However, non-trivial errors exist in inferences about some out-of-distribution and noisy data. In view of this issue, we propose to consider uncertainty in predictive models based upon a theoretical framework of Bayesian deep learning. Bayesian neural networks can be regarded as self-aware machinery; that is, a machine that knows its own limitations. To quantify uncertainty, we approximate the posterior predictive distribution through Monte Carlo sampling with stochastic forward passes. We further show that predictive uncertainty can be disentangled into aleatoric and epistemic uncertainties and these quantities can be learnt in an unsupervised manner. Experimental results demonstrate an improvement delivered by Bayesian uncertainty analysis upon steganographic capacity-distortion performance.
翻訳日:2022-01-10 16:30:17 公開日:2022-01-07
# (参考訳) シェルモデルによる乱流シミュレーションのための自動散逸制御

Automated Dissipation Control for Turbulence Simulation with Shell Models ( http://arxiv.org/abs/2201.02485v1 )

ライセンス: CC BY 4.0
Ann-Kathrin Dombrowski, Klaus-Robert M\"uller, Wolf Christian M\"uller(参考訳) 機械学習(ML)技術の応用、特にニューラルネットワークは、画像や言語を処理する上で大きな成功を収めています。 これは、視覚と音声の入力を理解するための正式なモデルがないことが多いため、ニューラルネットワークはデータからのみモデル化できるため、その能力を広げることができる。 物理学の分野では通常、形式レベルで自然過程を合理的に記述するモデルがある。 しかしながら、近年では数値シミュレーションの高速化や精度の向上など、これらの領域でもMLは有用であることが証明されている。 古典物理学における重要な未解決の問題は、乱流の運動を理解することである。 本研究は,Gledzer-Ohkitani-ya mada (GOY)シェルモデルを用いて,乱流の簡易表現を構築する。 本システムでは,ML支援および物理制約付き小型乱流モデルの可能性について検討する。 標準教師付き学習の代わりに,自己相似慣性範囲スケーリングのような乱流の統計的特性を再構築し,実験結果を促進できるアプローチを提案する。 さらに,機械学習と微分方程式を組み合わせた場合の落とし穴について述べる。

The application of machine learning (ML) techniques, especially neural networks, has seen tremendous success at processing images and language. This is because we often lack formal models to understand visual and audio input, so here neural networks can unfold their abilities as they can model solely from data. In the field of physics we typically have models that describe natural processes reasonably well on a formal level. Nonetheless, in recent years, ML has also proven useful in these realms, be it by speeding up numerical simulations or by improving accuracy. One important and so far unsolved problem in classical physics is understanding turbulent fluid motion. In this work we construct a strongly simplified representation of turbulence by using the Gledzer-Ohkitani-Yam ada (GOY) shell model. With this system we intend to investigate the potential of ML-supported and physics-constrained small-scale turbulence modelling. Instead of standard supervised learning we propose an approach that aims to reconstruct statistical properties of turbulence such as the self-similar inertial-range scaling, where we could achieve encouraging experimental results. Furthermore we discuss pitfalls when combining machine learning with differential equations.
翻訳日:2022-01-10 16:21:22 公開日:2022-01-07
# (参考訳) 列生成における制約付き最短経路問題に対する機械学習に基づくアーク選択

Machine-learning-bas ed arc selection for constrained shortest path problems in column generation ( http://arxiv.org/abs/2201.02535v1 )

ライセンス: CC BY 4.0
Mouad Morabit, Guy Desaulniers, Andrea Lodi(参考訳) カラム生成は、様々な最適化問題の解決に使用される反復的手法である。 これは問題をマスター問題と1つ以上の価格問題(pp)という2つの部分に分割する。 提案手法の計算時間は, これら2つの部分に分けられる。 ルーティングやスケジューリングのアプリケーションでは、問題は主にネットワーク上で定義され、PPは通常、リソース制約のあるNPハードな最短経路問題である。 本研究では,機械学習に基づく新しいヒューリスティックな価格設定アルゴリズムを提案する。 従来の実行中に収集したデータを活用することで、ネットワークのサイズを小さくし、PPを加速し、線形緩和ソリューションの一部となる確率の高い弧のみを保持することが目的である。 この方法は、公共交通機関における車両と乗務員のスケジューリング問題とタイムウインドウによる車両の経路問題という2つの問題に適用されている。 最大40%の計算時間を短縮することができる。

Column generation is an iterative method used to solve a variety of optimization problems. It decomposes the problem into two parts: a master problem, and one or more pricing problems (PP). The total computing time taken by the method is divided between these two parts. In routing or scheduling applications, the problems are mostly defined on a network, and the PP is usually an NP-hard shortest path problem with resource constraints. In this work, we propose a new heuristic pricing algorithm based on machine learning. By taking advantage of the data collected during previous executions, the objective is to reduce the size of the network and accelerate the PP, keeping only the arcs that have a high chance to be part of the linear relaxation solution. The method has been applied to two specific problems: the vehicle and crew scheduling problem in public transit and the vehicle routing problem with time windows. Reductions in computational time of up to 40% can be obtained.
翻訳日:2022-01-10 16:19:50 公開日:2022-01-07
# (参考訳) ランキングとスコアの統一統計的学習モデルとグラントパネルレビューへの応用

A Unified Statistical Learning Model for Rankings and Scores with Application to Grant Panel Review ( http://arxiv.org/abs/2201.02539v1 )

ライセンス: CC BY 4.0
Michael Pearce and Elena A. Erosheva(参考訳) ランク付けとスコアは、審査員がオブジェクトのコレクションにおける好みや品質の知覚を表現するために使用する2つの一般的なデータタイプである。 各型のデータを個別に研究するためのモデルが多数存在するが、データ変換を行うことなく両方のデータ型を同時にキャプチャする統一統計モデルは存在しない。 このギャップを埋めるために,Mallows-Binomialモデルを提案する。これは,オブジェクトの品質,コンセンサスランキング,および審査員間のコンセンサスレベルを定量化する共有パラメータを通じて,Mallowsの$\phi$ランキングモデルとBiomialスコアモデルを組み合わせる。 本研究では,モデルパラメータの正確なMLEを計算し,解析とシミュレーションの両方を通してモデルの統計特性を解析し,スコアと部分ランクの両方を収集した付与パネルレビューの事例から実データに適用する効率的な木探索アルゴリズムを提案する。 さらに、モデル出力を用いてオブジェクトを信頼性でランク付けする方法を実証する。 提案モデルは,スコアとランキングの情報をセンシティブに組み合わせ,対象の質を定量化し,統計的不確実性の適切なレベルとコンセンサスを測定する。

Rankings and scores are two common data types used by judges to express preferences and/or perceptions of quality in a collection of objects. Numerous models exist to study data of each type separately, but no unified statistical model captures both data types simultaneously without first performing data conversion. We propose the Mallows-Binomial model to close this gap, which combines a Mallows' $\phi$ ranking model with Binomial score models through shared parameters that quantify object quality, a consensus ranking, and the level of consensus between judges. We propose an efficient tree-search algorithm to calculate the exact MLE of model parameters, study statistical properties of the model both analytically and through simulation, and apply our model to real data from an instance of grant panel review that collected both scores and partial rankings. Furthermore, we demonstrate how model outputs can be used to rank objects with confidence. The proposed model is shown to sensibly combine information from both scores and rankings to quantify object quality and measure consensus with appropriate levels of statistical uncertainty.
翻訳日:2022-01-10 16:18:59 公開日:2022-01-07
# (参考訳) 胸部X線写真からの肺疾患自動認識のための増分学習アプローチ [全文訳有]

An Incremental Learning Approach to Automatically Recognize Pulmonary Diseases from the Multi-vendor Chest Radiographs ( http://arxiv.org/abs/2201.02574v1 )

ライセンス: CC BY 4.0
Mehreen Sirshar and Taimur Hassan and Muhammad Usman Akram and Shoab Ahmed Khan(参考訳) 肺疾患は重篤な呼吸障害を引き起こし、時間的に治療されないと突然死亡する。 多くの研究者は、胸部X線(CXR)を用いた肺疾患の診断にディープラーニングシステムを利用している。 しかし,このようなシステムでは胸部異常を効果的に診断するために,大規模データに対する徹底的な訓練が必要である。 さらに、このような大規模データの調達は、特にまれな疾患において、しばしば実現不可能で実用的ではない。 最近のインクリメンタル学習の進歩により、研究者はトレーニング例の少ない異なる分類タスクを学ぶために、ディープニューラルネットワークを定期的に調整している。 このようなシステムは破滅的な記憶に抵抗するが、知識表現を相互に独立して扱うため、分類性能が制限される。 また、私たちの知る限りでは、CXRから肺疾患をスクリーニングするために特別に設計された、漸進的な学習駆動画像診断フレームワークはありません。 そこで本研究では,異なる胸部異常を段階的にスクリーニングできる新しい枠組みを提案する。 これに加えて,提案手法は,バージェス理論を推定するインクリメンタル学習損失関数によってペナルティを課し,インクリメンタル学習知識表現間の構造的および意味的相互依存性を認識し,スキャナの仕様によらず,肺疾患を効果的に診断する。 胸部異常を含む5つの公開CXRデータセットを用いて提案手法を検証し,様々な指標を用いて各種最先端システムの性能を向上した。

Pulmonary diseases can cause severe respiratory problems, leading to sudden death if not treated timely. Many researchers have utilized deep learning systems to diagnose pulmonary disorders using chest X-rays (CXRs). However, such systems require exhaustive training efforts on large-scale data to effectively diagnose chest abnormalities. Furthermore, procuring such large-scale data is often infeasible and impractical, especially for rare diseases. With the recent advances in incremental learning, researchers have periodically tuned deep neural networks to learn different classification tasks with few training examples. Although, such systems can resist catastrophic forgetting, they treat the knowledge representations independently of each other, and this limits their classification performance. Also, to the best of our knowledge, there is no incremental learning-driven image diagnostic framework that is specifically designed to screen pulmonary disorders from the CXRs. To address this, we present a novel framework that can learn to screen different chest abnormalities incrementally. In addition to this, the proposed framework is penalized through an incremental learning loss function that infers Bayesian theory to recognize structural and semantic inter-dependencies between incrementally learned knowledge representations to diagnose the pulmonary diseases effectively, regardless of the scanner specifications. We tested the proposed framework on five public CXR datasets containing different chest abnormalities, where it outperformed various state-of-the-art system through various metrics.
翻訳日:2022-01-10 16:17:55 公開日:2022-01-07
# (参考訳) マルチモデルフェデレーション学習 [全文訳有]

Multi-Model Federated Learning ( http://arxiv.org/abs/2201.02582v1 )

ライセンス: CC BY 4.0
Neelkamal Bhuyan and Sharayu Moharir(参考訳) 連合学習は分散学習の一形態であり、鍵となる課題は、参加者のクライアントにおけるデータの非識別的分散性である。 本稿では,複数の無関係モデルを同時に訓練する環境にフェデレーション学習を拡張した。 具体的には、各クライアントは一度にmモデルのどれかをトレーニングでき、サーバはクライアントが計算したモデルの適切な平均バージョンであるmモデルごとにモデルを保持する。 時間とともに学習タスクをクライアントに割り当てるための複数のポリシーを提案する。 最初の方針では、広く研究されているFedAvgをマルチモデル学習に拡張し、モデルを確率的な方法でクライアントに割り当てる。 さらに,クライアントモデルペア毎の局所的損失に基づいて決定を行うマルチモデルフェデレーション・セッティングにおいて,クライアント選択のための2つの新しいポリシーを提案する。 総合的および実世界のデータを含むタスクにおけるポリシーの性能を比較し,提案するポリシーの性能を特徴付ける。 提案するマルチモデルポリシは,fedavgを使用した単一モデルトレーニングよりも,あるいは少なくとも優れたパフォーマンスを実現しています。

Federated learning is a form of distributed learning with the key challenge being the non-identically distributed nature of the data in the participating clients. In this paper, we extend federated learning to the setting where multiple unrelated models are trained simultaneously. Specifically, every client is able to train any one of M models at a time and the server maintains a model for each of the M models which is typically a suitably averaged version of the model computed by the clients. We propose multiple policies for assigning learning tasks to clients over time. In the first policy, we extend the widely studied FedAvg to multi-model learning by allotting models to clients in an i.i.d. stochastic manner. In addition, we propose two new policies for client selection in a multi-model federated setting which make decisions based on current local losses for each client-model pair. We compare the performance of the policies on tasks involving synthetic and real-world data and characterize the performance of the proposed policies. The key take-away from our work is that the proposed multi-model policies perform better or at least as good as single model training using FedAvg.
翻訳日:2022-01-10 15:53:27 公開日:2022-01-07
# 相互相互作用協調関係モデリングによる多行動強化レコメンデーション

Multi-Behavior Enhanced Recommendation with Cross-Interaction Collaborative Relation Modeling ( http://arxiv.org/abs/2201.02307v1 )

ライセンス: Link先を確認
Lianghao Xia, Chao Huang, Yong Xu, Peng Dai, Mengyin Lu, Liefeng Bo(参考訳) これまでの多くの研究は、より優れた推奨性能を達成するために、ディープニューラルネットワーク技術による協調フィルタリングを強化することを目的としている。 しかし,既存のディープラーニングベースのレコメンデータシステムは,ユーザと項目の異種関係を抽出し難い,単一タイプのユーザ・イテム相互作用挙動をモデル化するために設計されている。 実用的なレコメンデーションシナリオでは、ブラウズや購入といったマルチタイプなユーザ動作が存在する。 異なる項目に対するユーザの多行動パターンの見落としにより、既存の推奨手法では、ユーザの多行動データから異種協調信号を捉えるには不十分である。 構造化データモデリングのためのグラフニューラルネットワークの強みに着想を得たこの研究は、グラフベースのメッセージパッシングアーキテクチャの下で、異なるタイプのユーザ-テムインタラクション間の依存関係を明示的にモデル化するグラフニューラルマルチビヘイビア拡張レコメンデーション(GNMR)フレームワークを提案する。 GNMRは、相互作用の不均一性をモデル化するための関係集約ネットワークを考案し、ユーザ-テム相互作用グラフ上で隣ノード間の埋め込み伝搬を再帰的に実行する。 実世界のレコメンデーションデータセットの実験は、GNMRが最先端の手法を一貫して上回っていることを示している。 ソースコードはhttps://github.com/a kaxlh/GNMRで入手できる。

Many previous studies aim to augment collaborative filtering with deep neural network techniques, so as to achieve better recommendation performance. However, most existing deep learning-based recommender systems are designed for modeling singular type of user-item interaction behavior, which can hardly distill the heterogeneous relations between user and item. In practical recommendation scenarios, there exist multityped user behaviors, such as browse and purchase. Due to the overlook of user's multi-behavioral patterns over different items, existing recommendation methods are insufficient to capture heterogeneous collaborative signals from user multi-behavior data. Inspired by the strength of graph neural networks for structured data modeling, this work proposes a Graph Neural Multi-Behavior Enhanced Recommendation (GNMR) framework which explicitly models the dependencies between different types of user-item interactions under a graph-based message passing architecture. GNMR devises a relation aggregation network to model interaction heterogeneity, and recursively performs embedding propagation between neighboring nodes over the user-item interaction graph. Experiments on real-world recommendation datasets show that our GNMR consistently outperforms state-of-the-art methods. The source code is available at https://github.com/a kaxlh/GNMR.
翻訳日:2022-01-10 15:42:27 公開日:2022-01-07
# 多言語音声処理のためのコードスイッチングテキスト拡張

Code-Switching Text Augmentation for Multilingual Speech Processing ( http://arxiv.org/abs/2201.02550v1 )

ライセンス: Link先を確認
Amir Hussein, Shammur Absar Chowdhury, Ahmed Abdelali, Najim Dehak, Ahmed Ali(参考訳) 音声コンテンツにおける発話内コードスイッチング(CS)の広範性は、混合入力を処理するためにASRシステムに強制されている。 しかし、CS-ASRの設計には多くの課題があり、主にデータ不足、文法構造の複雑さ、不均衡な言語使用量分布とミスマッチがある。 近年のASR研究は,多言語データを用いてCS現象を少ないCSデータで処理するE2E-ASRの優位性を示した。 しかし、CSデータへの依存は依然として残っている。 本研究では,音声CSテキストを人工的に生成し,音声モジュールを改良するための単言語データの拡張手法を提案する。 我々は,同値制約理論に基づく一組の翻訳ペアを利用して,文法的に有効なCSコンテンツを生成する。 実験の結果,2つの生態学的および雑音性CS試験セットでは,29~34 %,WERは約2%の上昇を示した。 最後に、人間の評価は、生成したデータの83.8%が人間に受け入れられていることを示唆している。

The pervasiveness of intra-utterance Code-switching (CS) in spoken content has enforced ASR systems to handle mixed input. Yet, designing a CS-ASR has many challenges, mainly due to the data scarcity, grammatical structure complexity, and mismatch along with unbalanced language usage distribution. Recent ASR studies showed the predominance of E2E-ASR using multilingual data to handle CS phenomena with little CS data. However, the dependency on the CS data still remains. In this work, we propose a methodology to augment the monolingual data for artificially generating spoken CS text to improve different speech modules. We based our approach on Equivalence Constraint theory while exploiting aligned translation pairs, to generate grammatically valid CS content. Our empirical results show a relative gain of 29-34 % in perplexity and around 2% in WER for two ecological and noisy CS test sets. Finally, the human evaluation suggests that 83.8% of the generated data is acceptable to humans.
翻訳日:2022-01-10 15:42:01 公開日:2022-01-07
# ハイピッチおよびスパースヘリカルct再構成のための3次元デュアルドメイン深層ネットワーク

A three-dimensional dual-domain deep network for high-pitch and sparse helical CT reconstruction ( http://arxiv.org/abs/2201.02309v1 )

ライセンス: Link先を確認
Wei Wang, Xiang-Gen Xia, Chuanjiang He, Zemin Ren and Jian Lu(参考訳) 本稿では,ヘリカルct再構成のためのkatsevichアルゴリズムのgpu実装を提案する。 本実装では, シングラムを分割し, CT画像のピッチをピッチで再構成する。 Katsevichアルゴリズムのパラメータの周期的特性を利用することで、これらのパラメータを全てのピッチに対して一度だけ計算する必要があり、GPUメモリの負荷が低く、ディープラーニングに非常に適している。 本実装をネットワークに埋め込むことにより,スパース検出器を用いた高ピッチヘリカルCT再構成のためのエンドツーエンドのディープネットワークを提案する。 本ネットワークは, シングラム画像とCT画像の両方から抽出した特徴を利用するため, シングラムの空隙によるストリークアーティファクトを同時に低減し, CT画像の細部を保存できる。 実験の結果,ネットワークは主観的評価と客観的評価の両方において,関連手法よりも優れていた。

In this paper, we propose a new GPU implementation of the Katsevich algorithm for helical CT reconstruction. Our implementation divides the sinograms and reconstructs the CT images pitch by pitch. By utilizing the periodic properties of the parameters of the Katsevich algorithm, our method only needs to calculate these parameters once for all the pitches and so has lower GPU-memory burdens and is very suitable for deep learning. By embedding our implementation into the network, we propose an end-to-end deep network for the high pitch helical CT reconstruction with sparse detectors. Since our network utilizes the features extracted from both sinograms and CT images, it can simultaneously reduce the streak artifacts caused by the sparsity of sinograms and preserve fine details in the CT images. Experiments show that our network outperforms the related methods both in subjective and objective evaluations.
翻訳日:2022-01-10 15:41:08 公開日:2022-01-07
# 不確実性を考慮した拡張フィルタの高効率化

Uncertainty-Aware Cascaded Dilation Filtering for High-Efficiency Deraining ( http://arxiv.org/abs/2201.02366v1 )

ライセンス: Link先を確認
Qing Guo and Jingyang Sun and Felix Juefei-Xu and Lei Ma and Di Lin and Wei Feng and Song Wang(参考訳) レージニングは重要なコンピュータビジョンタスクであり、雨の日に撮影された画像やビデオから雨のストレークや蓄積を取り除くことを目的としている。 既存のレーディング手法は通常、雨モデルのヒューリスティックな仮定を定めており、高い回復品質のために複雑な最適化や反復的な改良を強制される。 しかし、これは時間がかかり、仮定から逸脱した雨のパターンに対処する効果に影響を与える。 本稿では,複雑な降雨モデル仮定を伴わない予測フィルタ問題として,デレーニングを定式化して簡易かつ効率的なデレーニング法を提案する。 具体的には、ディープネットワークを介して適切なカーネルを適応的に予測し、異なるピクセルをフィルタリングする空間変化予測フィルタリング(spfilt)を特定する。 フィルタは高速な畳み込みによって実装できるので,本手法は極めて効率的である。 さらに, 残留雨跡, マルチスケール, 多様な降雨パターンに対処する上で, 効率を損なうことなく3つの主要な寄与を含むEfDeRain+を提案する。 まず,不確実性を考慮した予測フィルタ (UC-PFilt) を提案する。 第2に,重み付け型マルチスケール拡張フィルタ (WS-MS-DFilt) を設計し,効率を損なうことなくマルチスケールレインストリークを処理する。 第3に, 多様な降雨パターン間のギャップを解消するために, 深層モデルのトレーニングを行う新しいデータ拡張手法(RainMix)を提案する。 全ての貢献と異なる変種に関する高度な分析を組み合わせることで、最終手法は4つの単一画像デレーニングデータセットと1つのビデオデレーシングデータセットのベースラインメソッドよりも、回復品質と速度の両面で優れています。

Deraining is a significant and fundamental computer vision task, aiming to remove the rain streaks and accumulations in an image or video captured under a rainy day. Existing deraining methods usually make heuristic assumptions of the rain model, which compels them to employ complex optimization or iterative refinement for high recovery quality. This, however, leads to time-consuming methods and affects the effectiveness for addressing rain patterns deviated from from the assumptions. In this paper, we propose a simple yet efficient deraining method by formulating deraining as a predictive filtering problem without complex rain model assumptions. Specifically, we identify spatially-variant predictive filtering (SPFilt) that adaptively predicts proper kernels via a deep network to filter different individual pixels. Since the filtering can be implemented via well-accelerated convolution, our method can be significantly efficient. We further propose the EfDeRain+ that contains three main contributions to address residual rain traces, multi-scale, and diverse rain patterns without harming the efficiency. First, we propose the uncertainty-aware cascaded predictive filtering (UC-PFilt) that can identify the difficulties of reconstructing clean pixels via predicted kernels and remove the residual rain traces effectively. Second, we design the weight-sharing multi-scale dilated filtering (WS-MS-DFilt) to handle multi-scale rain streaks without harming the efficiency. Third, to eliminate the gap across diverse rain patterns, we propose a novel data augmentation method (i.e., RainMix) to train our deep models. By combining all contributions with sophisticated analysis on different variants, our final method outperforms baseline methods on four single-image deraining datasets and one video deraining dataset in terms of both recovery quality and speed.
翻訳日:2022-01-10 15:39:18 公開日:2022-01-07
# 自動重み付け層表現に基づく3次元映像符号化のためのビュー合成歪み推定

Auto-Weighted Layer Representation Based View Synthesis Distortion Estimation for 3-D Video Coding ( http://arxiv.org/abs/2201.02420v1 )

ライセンス: Link先を確認
Jian Jin, Xingxing Zhang, Lili Meng, Weisi Lin, Jie Liang, Huaxiang Zhang, Yao Zhao(参考訳) 近年,3次元映像符号化のための様々なビュー合成歪み推定モデルが研究されている。 しかし、これらは、速度歪みの最適化とレートアロケーションに不可欠である、深さ変化、テクスチャ変性、ビュー合成歪み(VSD)の異なるレベルの関係を定量的にモデル化することは困難である。 本稿では,自己重み付け層表現に基づくビュー合成歪推定モデルを開発した。 第一に、サブVSD(S-VSD)は、深さ変化のレベルと関連するテクスチャ変性に基づいて定義される。 その後、理論上の導出により、VSDはS-VSDにほぼ分解され、関連する重みによって乗算されることを示した。 S−VSDを得るために、S−VSDの層ベース表現を開発し、この層レベルでの効率的なS−VSD計算を実現するために、同じ深さ変化のすべての画素を層で表現する。 一方、非線形写像関数はVSDとS-VSDの関係を正確に表現し、VSD推定中に自動的にS-VSDの重みを与える。 そのような機能を学ぶために、VSDとその関連S-VSDのデータセットを構築する。 実験の結果,S-VSDが利用可能になると,VSDは非線形マッピング関数によって学習された重みで正確に推定できることがわかった。 提案手法は, 精度と効率の両方において, 関連する最先端手法を上回っている。 提案手法のデータセットとソースコードはhttps://github.com/j ianjin008/で入手できる。

Recently, various view synthesis distortion estimation models have been studied to better serve for 3-D video coding. However, they can hardly model the relationship quantitatively among different levels of depth changes, texture degeneration, and the view synthesis distortion (VSD), which is crucial for rate-distortion optimization and rate allocation. In this paper, an auto-weighted layer representation based view synthesis distortion estimation model is developed. Firstly, the sub-VSD (S-VSD) is defined according to the level of depth changes and their associated texture degeneration. After that, a set of theoretical derivations demonstrate that the VSD can be approximately decomposed into the S-VSDs multiplied by their associated weights. To obtain the S-VSDs, a layer-based representation of S-VSD is developed, where all the pixels with the same level of depth changes are represented with a layer to enable efficient S-VSD calculation at the layer level. Meanwhile, a nonlinear mapping function is learnt to accurately represent the relationship between the VSD and S-VSDs, automatically providing weights for S-VSDs during the VSD estimation. To learn such function, a dataset of VSD and its associated S-VSDs are built. Experimental results show that the VSD can be accurately estimated with the weights learnt by the nonlinear mapping function once its associated S-VSDs are available. The proposed method outperforms the relevant state-of-the-art methods in both accuracy and efficiency. The dataset and source code of the proposed method will be available at https://github.com/j ianjin008/.
翻訳日:2022-01-10 15:38:44 公開日:2022-01-07
# 時空間インセプションネットワークに基づく光子効率イメージングのための深部領域逆適応

Deep Domain Adversarial Adaptation for Photon-efficient Imaging Based on Spatiotemporal Inception Network ( http://arxiv.org/abs/2201.02475v1 )

ライセンス: Link先を確認
Yiwei Chen, Gongxin Yao, Yong Liu and Yu Pan(参考訳) 単一光子LiDARでは、光子効率の撮像がシーンの3D構造を1ピクセルあたりの信号光子数個でキャプチャする。 このタスクのための既存のディープラーニングモデルは、シミュレーションデータセット上でトレーニングされ、現実的なシナリオに適用すると、ドメインシフトの課題となる。 本稿では,空間的および時間的情報を十分に活用することで,狭く高雑音な光子計数ヒストグラムから深度を正確に予測することのできる,光子効率画像のための時空間インセプションネットワーク(stin)を提案する。 そこで, 現実的なアプリケーションにおいて, ドメインシフト問題を緩和するために, ドメイン対逆ニューラルネットワークやドメイン対逆的ドメイン適応を含むドメイン対逆適応フレームワークをSTINに効果的に適用する。 nyu~v2とミドルベリーデータセットから生成されたシミュレーションデータに関する包括的な実験は、stinが2:10から2:100までの低信号対バックグランド比で最先端モデルを上回ることを示している。 さらに, 単光子イメージングプロトタイプによって得られた実世界のデータセット実験の結果, STINとドメイン対角トレーニングは, 最先端技術やシミュレーションデータによるベースラインSTINと比較して, より優れた一般化性能が得られることが示された。

In single-photon LiDAR, photon-efficient imaging captures the 3D structure of a scene by only several detected signal photons per pixel. The existing deep learning models for this task are trained on simulated datasets, which poses the domain shift challenge when applied to realistic scenarios. In this paper, we propose a spatiotemporal inception network (STIN) for photon-efficient imaging, which is able to precisely predict the depth from a sparse and high-noise photon counting histogram by fully exploiting spatial and temporal information. Then the domain adversarial adaptation frameworks, including domain-adversarial neural network and adversarial discriminative domain adaptation, are effectively applied to STIN to alleviate the domain shift problem for realistic applications. Comprehensive experiments on the simulated data generated from the NYU~v2 and the Middlebury datasets demonstrate that STIN outperforms the state-of-the-art models at low signal-to-background ratios from 2:10 to 2:100. Moreover, experimental results on the real-world dataset captured by the single-photon imaging prototype show that the STIN with domain adversarial training achieves better generalization performance compared with the state-of-the-arts as well as the baseline STIN trained by simulated data.
翻訳日:2022-01-10 15:38:20 公開日:2022-01-07
# 体操手:手と体をモデリングし、捕獲する

Embodied Hands: Modeling and Capturing Hands and Bodies Together ( http://arxiv.org/abs/2201.02610v1 )

ライセンス: Link先を確認
Javier Romero, Dimitrios Tzionas, Michael J. Black(参考訳) 人間は手と体を合わせてコミュニケーションし、タスクを解決します。 このような協調アクティビティのキャプチャと複製は、現実的に振舞う仮想キャラクタにとって重要である。 驚いたことに、ほとんどの方法は身体と手の3dモデリングと追跡を別々に扱う。 ここでは、相互作用する手と体のモデルを作成し、それをフルボディの4Dシーケンスに適合させる。 3dで全身をスキャンしたり捉えたりする場合、手は小さく、部分的に閉塞され、形やポーズが回復しにくい。 低分解能・オクルージョン・ノイズに対処するため,MANO(Articulated and Non-rigid DefOrmations)と呼ばれる新しいモデルを開発した。 manoは、31人の被験者の1000個の高解像度3dスキャンから、さまざまなポーズで学べる。 モデルはリアルで低次元で、ポーズで非剛体形状の変化を捉え、標準のグラフィックパッケージと互換性があり、どんな手にもフィットする。 MANOは手動のポーズからコンパクトなマッピングを提供し、ブレンド形状の補正とポーズのシナジーの線形多様体を提供する。 標準パラメタライズド3Dボディー形状モデル (SMPL) にMANOを付加し, 完全関節体モデル (SMPL+H) を実現する。 SMPL+Hを4Dスキャナーで捕捉した被験者の複雑で自然な活動に適合させて説明する。 このフィッティングは完全自動で、フルボディのモデルが、フルボディのパフォーマンスキャプチャーで見たことのない詳細な手の動きとリアリズムで自然に動く。 モデルとデータは、私たちのWebサイト(http://mano.is.tue. mpg.de.)で研究目的で自由に利用可能です。

Humans move their hands and bodies together to communicate and solve tasks. Capturing and replicating such coordinated activity is critical for virtual characters that behave realistically. Surprisingly, most methods treat the 3D modeling and tracking of bodies and hands separately. Here we formulate a model of hands and bodies interacting together and fit it to full-body 4D sequences. When scanning or capturing the full body in 3D, hands are small and often partially occluded, making their shape and pose hard to recover. To cope with low-resolution, occlusion, and noise, we develop a new model called MANO (hand Model with Articulated and Non-rigid defOrmations). MANO is learned from around 1000 high-resolution 3D scans of hands of 31 subjects in a wide variety of hand poses. The model is realistic, low-dimensional, captures non-rigid shape changes with pose, is compatible with standard graphics packages, and can fit any human hand. MANO provides a compact mapping from hand poses to pose blend shape corrections and a linear manifold of pose synergies. We attach MANO to a standard parameterized 3D body shape model (SMPL), resulting in a fully articulated body and hand model (SMPL+H). We illustrate SMPL+H by fitting complex, natural, activities of subjects captured with a 4D scanner. The fitting is fully automatic and results in full body models that move naturally with detailed hand motions and a realism not seen before in full body performance capture. The models and data are freely available for research purposes in our website (http://mano.is.tue. mpg.de).
翻訳日:2022-01-10 15:38:01 公開日:2022-01-07
# 隠蔽不均一マルコフ鎖のニューラルキャリブレーション --生命保険における情報抑制

Neural calibration of hidden inhomogeneous Markov chains -- Information decompression in life insurance ( http://arxiv.org/abs/2201.02397v1 )

ライセンス: Link先を確認
Mark Kiermayer, Christian Wei{\ss}(参考訳) マルコフ連鎖は生命保険数学を含む多くの分野において重要な役割を担っている。 プレミアム値としての標準アクチュエータ量は、基礎となるマルコフ過程に関する圧縮された損失情報と解釈できる。 契約ポートフォリオの集合情報を与えられたマルコフ連鎖を再構築する手法を提案する。 我々のニューラルアーキテクチャは、一段階の遷移確率を明示的に提供することによって、プロセスの特徴を説明できる。 さらに,情報圧縮の品質を検査するために,本質的,経済モデル検証を行う。 最後に,ドイツの生命保険契約の現実的なデータセットの検証に成功している。

Markov chains play a key role in a vast number of areas, including life insurance mathematics. Standard actuarial quantities as the premium value can be interpreted as compressed, lossy information about the underlying Markov process. We introduce a method to reconstruct the underlying Markov chain given collective information of a portfolio of contracts. Our neural architecture explainably characterizes the process by explicitly providing one-step transition probabilities. Further, we provide an intrinsic, economic model validation to inspect the quality of the information decompression. Lastly, our methodology is successfully tested for a realistic data set of German term life insurance contracts.
翻訳日:2022-01-10 15:37:31 公開日:2022-01-07
# スパース計算を用いた強化学習課題に対するニューラルネットワーク最適化

Neural Network Optimization for Reinforcement Learning Tasks Using Sparse Computations ( http://arxiv.org/abs/2201.02571v1 )

ライセンス: Link先を確認
Dmitry Ivanov, Mikhail Kiselev, and Denis Larionov(参考訳) 本稿では、強化学習(RL)タスクにニューラルネットワークを最適化するスパース計算に基づく手法を提案する。 この方法は、ニューラルネットワークのプルーニングと入力データ相関を考慮した2つのアイデアを組み合わせる。 ニューラルネットワークの実行時の乗算数を大幅に削減する。 異なるrlタスクをテストし,乗算回数を20~150倍削減した。 大幅な性能低下はなく、時には性能が向上した。

This article proposes a sparse computation-based method for optimizing neural networks for reinforcement learning (RL) tasks. This method combines two ideas: neural network pruning and taking into account input data correlations; it makes it possible to update neuron states only when changes in them exceed a certain threshold. It significantly reduces the number of multiplications when running neural networks. We tested different RL tasks and achieved 20-150x reduction in the number of multiplications. There were no substantial performance losses; sometimes the performance even improved.
翻訳日:2022-01-10 15:35:39 公開日:2022-01-07
# エルニーニョと川流の洞察のための説明可能な深層学習

Explainable deep learning for insights in El Nino and river flows ( http://arxiv.org/abs/2201.02596v1 )

ライセンス: Link先を確認
Yumin Liu, Kate Duffy, Jennifer G. Dy, and Auroop R. Ganguly(参考訳) エルニーノ・サザン振動(el nino southern oscillation、enso)は、太平洋の熱帯中部および東部における海面温度(sst)の半周期的な変動であり、長距離依存やテレコネクションを通じて世界中の地域水文学の経年変化に影響を与える。 近年の研究では、ENO予測を改善するためのディープラーニング(DL)手法と、遠隔通信を理解するための複雑なネットワーク(CN)の価値が実証されている。 しかし, 河川流動の予測的理解のギャップには, DLのブラックボックスの性質, 複雑な現象を記述するための単純なENSO指標の使用, DLに基づくENSO予測を河川流量予測に翻訳することなどがある。 本稿では,サリエンシマップに基づく説明可能なdl (xdl) 手法により,グローバルsstに含まれる解釈可能な予測情報を抽出し,新たなsst情報領域と河川流れに関連する依存構造を探索し,気候ネットワーク構築と連動することにより,予測理解を改善することができることを示す。 以上の結果から,SSTが河川流れにどのように影響するかを新たに把握し,不確実性を伴う河川流れ予測の改善を図った。 観測, 再解析データおよび地球系モデルシミュレーションを用いて, XDL-CN法に基づく将来の年次・日次スケール気候予測の意義を実証する。

The El Nino Southern Oscillation (ENSO) is a semi-periodic fluctuation in sea surface temperature (SST) over the tropical central and eastern Pacific Ocean that influences interannual variability in regional hydrology across the world through long-range dependence or teleconnections. Recent research has demonstrated the value of Deep Learning (DL) methods for improving ENSO prediction as well as Complex Networks (CN) for understanding teleconnections. However, gaps in predictive understanding of ENSO-driven river flows include the black box nature of DL, the use of simple ENSO indices to describe a complex phenomenon and translating DL-based ENSO predictions to river flow predictions. Here we show that eXplainable DL (XDL) methods, based on saliency maps, can extract interpretable predictive information contained in global SST and discover novel SST information regions and dependence structures relevant for river flows which, in tandem with climate network constructions, enable improved predictive understanding. Our results reveal additional information content in global SST beyond ENSO indices, develop new understanding of how SSTs influence river flows, and generate improved river flow predictions with uncertainties. Observations, reanalysis data, and earth system model simulations are used to demonstrate the value of the XDL-CN based methods for future interannual and decadal scale climate projections.
翻訳日:2022-01-10 15:35:33 公開日:2022-01-07
# 光衛星画像による雲・雪検出のためのマルチレゾリューション完全畳み込みネットワーク

Multiresolution Fully Convolutional Networks to detect Clouds and Snow through Optical Satellite Images ( http://arxiv.org/abs/2201.02350v1 )

ライセンス: Link先を確認
Debvrat Varshney, Claudio Persello, Prasun Kumar Gupta, and Bhaskar Ramachandra Nikam(参考訳) 雲と雪は可視・近赤外線(VNIR)範囲に類似したスペクトル特性を持ち、高解像度のVNIR画像では区別が難しい。 雲は反射性が高く、雪は吸収性であるショートウェーブ赤外線(SWIR)バンドを導入することでこの問題に対処する。 SWIRは通常、VNIRに比べて低分解能であるので、VNIR画像の雲や雪を効果的に検出できる多分解能完全畳み込みニューラルネットワーク(FCN)を提案する。 深部FCN内に多分解能帯域を融合し,高次VNIR解像度でセマンティックセグメンテーションを行う。 このような統合ベースの分類器はエンドツーエンドで訓練され、全体的な精度は94.31%に達し、インド・ウッタラカンド州で撮影されたResourcesat-2のデータ上の雲のF1スコアは97.67%に達した。 これらのスコアはランダムフォレスト分類器よりも30%高く,スタンドアロンのfcnよりも10%高い値を示した。 この研究は、クラウド検出の目的だけでなく、マルチセンサー融合問題に対する畳み込みニューラルネットワークの可能性も強調している。

Clouds and snow have similar spectral features in the visible and near-infrared (VNIR) range and are thus difficult to distinguish from each other in high resolution VNIR images. We address this issue by introducing a shortwave-infrared (SWIR) band where clouds are highly reflective, and snow is absorptive. As SWIR is typically of a lower resolution compared to VNIR, this study proposes a multiresolution fully convolutional neural network (FCN) that can effectively detect clouds and snow in VNIR images. We fuse the multiresolution bands within a deep FCN and perform semantic segmentation at the higher, VNIR resolution. Such a fusion-based classifier, trained in an end-to-end manner, achieved 94.31% overall accuracy and an F1 score of 97.67% for clouds on Resourcesat-2 data captured over the state of Uttarakhand, India. These scores were found to be 30% higher than a Random Forest classifier, and 10% higher than a standalone single-resolution FCN. Apart from being useful for cloud detection purposes, the study also highlights the potential of convolutional neural networks for multi-sensor fusion problems.
翻訳日:2022-01-10 15:35:03 公開日:2022-01-07
# インタラクティブな3次元地形オーサリングと操作のためのDeep Generative Framework

Deep Generative Framework for Interactive 3D Terrain Authoring and Manipulation ( http://arxiv.org/abs/2201.02369v1 )

ライセンス: Link先を確認
Shanthika Naik, Aryamaan Jain, Avinash Sharma and KS Rajan(参考訳) リアルな仮想地形の自動生成と(ユーザー)オーサリングは、vrモデルやゲームのようなマルチメディアアプリケーションによって最も求められている。 最も一般的な地形表現はDEM(Digital Elevation Model)である。 既存の地形のオーサリングとモデリング技術はこれらのいくつかに対処しており、プロシージャモデリング、シミュレーション手法、サンプルベース手法など、広く分類できる。 本稿では,VAEと生成条件GANモデルを組み合わせた新しい現実的な地形オーサリングフレームワークを提案する。 本フレームワークは,実世界の地形データセットから潜在空間を学習することにより,既存手法の限界を克服しようとするサンプルベース手法である。 この潜在空間は、一つの入力から複数の地形を生成できるだけでなく、実際のデータ分布に近づきながら地形間を補間することができる。 我々はまた、ユーザが最小限の入力で多様な地形を生成できるインタラクティブツールを開発した。 定性的,定量的な分析を行い,他のSOTA法との比較を行った。 私たちは、コード/ツールを学術コミュニティにリリースするつもりです。

Automated generation and (user) authoring of the realistic virtual terrain is most sought for by the multimedia applications like VR models and gaming. The most common representation adopted for terrain is Digital Elevation Model (DEM). Existing terrain authoring and modeling techniques have addressed some of these and can be broadly categorized as: procedural modeling, simulation method, and example-based methods. In this paper, we propose a novel realistic terrain authoring framework powered by a combination of VAE and generative conditional GAN model. Our framework is an example-based method that attempts to overcome the limitations of existing methods by learning a latent space from a real-world terrain dataset. This latent space allows us to generate multiple variants of terrain from a single input as well as interpolate between terrains while keeping the generated terrains close to real-world data distribution. We also developed an interactive tool, that lets the user generate diverse terrains with minimalist inputs. We perform thorough qualitative and quantitative analysis and provide comparisons with other SOTA methods. We intend to release our code/tool to the academic community.
翻訳日:2022-01-10 15:34:41 公開日:2022-01-07
# 振幅SAR画像の局所化

Amplitude SAR Imagery Splicing Localization ( http://arxiv.org/abs/2201.02409v1 )

ライセンス: Link先を確認
Edoardo Daniele Cannas, Nicol\`o Bonettini, Sara Mandelli, Paolo Bestagini, Stefano Tubaro(参考訳) SAR(Synthetic Aperture Radar)画像は、様々なタスクに有用な資産である。 ここ数年、多くのwebサイトが製品を管理しやすい形で無料で提供し、sar分野で広く普及し研究活動を行っている。 これらの機会の欠点は、こうした画像が悪意のあるユーザーによる偽造や操作にさらされる可能性があることである。 これまで、マルチメディア鑑識文献は自然写真の操作を局所化する様々な手法を提案してきたが、sar画像の完全性評価は調査されなかった。 この課題は、SAR画像が自然な写真とは全く異なる処理チェーンで生成されるため、新しい課題をもたらす。 これは、自然画像のために開発された多くの法医学的手法が成功を保証されていないことを意味する。 本稿では,振幅sar画像スプライシングの局所化問題について検討する。 我々のゴールは、別の画像からコピー・ペーストされた振幅SAR画像の領域をローカライズすることであり、その過程で何らかの編集を行う可能性がある。 そこで,畳み込みニューラルネットワーク(cnn)を用いて,解析された入力の処理トレースにおける不整合を強調する指紋を抽出する。 次に,この指紋を調べ,スプライシング攻撃時の画素領域を示す2値の改ざんマスクを作成する。 提案手法は,SAR信号の性質に合わせて,自然画像のための最先端の法医学ツールよりも優れた性能を提供する。

Synthetic Aperture Radar (SAR) images are a valuable asset for a wide variety of tasks. In the last few years, many websites have been offering them for free in the form of easy to manage products, favoring their widespread diffusion and research work in the SAR field. The drawback of these opportunities is that such images might be exposed to forgeries and manipulations by malicious users, raising new concerns about their integrity and trustworthiness. Up to now, the multimedia forensics literature has proposed various techniques to localize manipulations in natural photographs, but the integrity assessment of SAR images was never investigated. This task poses new challenges, since SAR images are generated with a processing chain completely different from that of natural photographs. This implies that many forensics methods developed for natural images are not guaranteed to succeed. In this paper, we investigate the problem of amplitude SAR imagery splicing localization. Our goal is to localize regions of an amplitude SAR image that have been copied and pasted from another image, possibly undergoing some kind of editing in the process. To do so, we leverage a Convolutional Neural Network (CNN) to extract a fingerprint highlighting inconsistencies in the processing traces of the analyzed input. Then, we examine this fingerprint to produce a binary tampering mask indicating the pixel region under splicing attack. Results show that our proposed method, tailored to the nature of SAR signals, provides better performances than state-of-the-art forensic tools developed for natural images.
翻訳日:2022-01-10 15:34:26 公開日:2022-01-07
# 決定依存分布をもつ確率的鞍点問題

Stochastic Saddle Point Problems with Decision-Dependent Distributions ( http://arxiv.org/abs/2201.02313v1 )

ライセンス: Link先を確認
Killian Wood and Emiliano Dall'Anese(参考訳) 本稿では,静的および時間変化の両条件における決定依存分布の確率的サドル点問題に焦点をあてる。 これらの問題は、確率的給与関数の期待値が目的であり、確率変数は分布写像によって引き起こされる分布から引き出される。 一般分布写像において、鞍点を見つける問題は、分布が分かっていても一般に計算的に負担がかかる。 移動可能な解法を実現するために, 定常確率的ミニマックス問題に対するサドルポイントである平衡点の概念を導入し, それらの存在と一意性について条件を与える。 解の2つのクラス間の距離が有界であることを示し、目的が強凸強凸ペイオフとリプシッツ連続分布写像を持つことを示した。 我々は決定論的かつ確率的原始双対アルゴリズムを開発し,それらの平衡点への収束を実証する。 特に,確率勾配推定器から生じる誤差を準weibull確率変数としてモデル化することにより,期待値と高い確率で各イテレーションに有する誤差境界を提供するとともに,期待値およびほぼ確実に近傍に収束することを示す。 最後に, 対向混合支配と呼ばれる分布写像上の条件について検討し, 目的が強凸強対流であることを確かめる。 この仮定の下で、原始双対アルゴリズムは同様の方法で鞍点に収束することを示す。

This paper focuses on stochastic saddle point problems with decision-dependent distributions in both the static and time-varying settings. These are problems whose objective is the expected value of a stochastic payoff function, where random variables are drawn from a distribution induced by a distributional map. For general distributional maps, the problem of finding saddle points is in general computationally burdensome, even if the distribution is known. To enable a tractable solution approach, we introduce the notion of equilibrium points -- which are saddle points for the stationary stochastic minimax problem that they induce -- and provide conditions for their existence and uniqueness. We demonstrate that the distance between the two classes of solutions is bounded provided that the objective has a strongly-convex-stro ngly-concave payoff and Lipschitz continuous distributional map. We develop deterministic and stochastic primal-dual algorithms and demonstrate their convergence to the equilibrium point. In particular, by modeling errors emerging from a stochastic gradient estimator as sub-Weibull random variables, we provide error bounds in expectation and in high probability that hold for each iteration; moreover, we show convergence to a neighborhood in expectation and almost surely. Finally, we investigate a condition on the distributional map -- which we call opposing mixture dominance -- that ensures the objective is strongly-convex-stro ngly-concave. Under this assumption, we show that primal-dual algorithms converge to the saddle points in a similar fashion.
翻訳日:2022-01-10 15:34:01 公開日:2022-01-07
# 固定階行列上のスパースPCA

Sparse PCA on fixed-rank matrices ( http://arxiv.org/abs/2201.02487v1 )

ライセンス: Link先を確認
Alberto Del Pia(参考訳) スパースPCAは、主成分にスパース制約を加えることでPCAから得られる最適化問題である。 スパースPCAはNPハードであり、単一成分の場合においても近似が難しい。 本稿では,共分散行列のランクに関して,スパースPCAの計算複雑性を考察する。 共分散行列のランクが固定値である場合、その実行時間が特徴数の多項式である大域的最適性に対してスパースPCAを解くアルゴリズムが存在することを示す。 また,主成分の非結合性を必要とするスパースPCAについても同様の結果が得られた。

Sparse PCA is the optimization problem obtained from PCA by adding a sparsity constraint on the principal components. Sparse PCA is NP-hard and hard to approximate even in the single-component case. In this paper we settle the computational complexity of sparse PCA with respect to the rank of the covariance matrix. We show that, if the rank of the covariance matrix is a fixed value, then there is an algorithm that solves sparse PCA to global optimality, whose running time is polynomial in the number of features. We also prove a similar result for the version of sparse PCA which requires the principal components to have disjoint supports.
翻訳日:2022-01-10 15:33:38 公開日:2022-01-07
# 音声合成における深層学習のための音声表現 : レビュー

Audio representations for deep learning in sound synthesis: A review ( http://arxiv.org/abs/2201.02490v1 )

ライセンス: Link先を確認
Anastasia Natsiou and Sean O'Leary(参考訳) ディープラーニングアルゴリズムの台頭により、多くの研究者が音生成に古典的な信号処理法を使わないようになった。 深層学習モデルは、表現力のある音声合成、現実的な音のテクスチャ、仮想楽器からの音符を達成している。 しかし、最も適切なディープラーニングアーキテクチャはまだ調査中である。 アーキテクチャの選択は、オーディオ表現と密接に結びついている。 音の原波形は、深層学習モデルが効率的に扱うには密度が高すぎ、リッチになり、複雑さは訓練時間と計算コストを増大させる。 また、知覚される方法では音を表現しない。 したがって、多くの場合、生音声はアップサンプリング、特徴抽出、あるいは波形の高レベルなイラストレーションを採用することで圧縮され、より意味のある形式に変換されている。 さらに, 選択した形態, 追加条件表現, 異なるモデルアーキテクチャ, 再構成音の評価のための多数の指標について検討した。 本稿では,ディープラーニングを用いた音声合成に適用する音声表現について概説する。 さらに、ディープラーニングモデルを用いた音声合成アーキテクチャの開発と評価において、常に音声表現に依存する最も重要な手法を示す。

The rise of deep learning algorithms has led many researchers to withdraw from using classic signal processing methods for sound generation. Deep learning models have achieved expressive voice synthesis, realistic sound textures, and musical notes from virtual instruments. However, the most suitable deep learning architecture is still under investigation. The choice of architecture is tightly coupled to the audio representations. A sound's original waveform can be too dense and rich for deep learning models to deal with efficiently - and complexity increases training time and computational cost. Also, it does not represent sound in the manner in which it is perceived. Therefore, in many cases, the raw audio has been transformed into a compressed and more meaningful form using upsampling, feature-extraction, or even by adopting a higher level illustration of the waveform. Furthermore, conditional on the form chosen, additional conditioning representations, different model architectures, and numerous metrics for evaluating the reconstructed sound have been investigated. This paper provides an overview of audio representations applied to sound synthesis using deep learning. Additionally, it presents the most significant methods for developing and evaluating a sound synthesis architecture using deep learning models, always depending on the audio representation.
翻訳日:2022-01-10 15:32:24 公開日:2022-01-07
# MGAE: グラフによる自己教師付き学習のためのマスクオートエンコーダ

MGAE: Masked Autoencoders for Self-Supervised Learning on Graphs ( http://arxiv.org/abs/2201.02534v1 )

ライセンス: Link先を確認
Qiaoyu Tan, Ninghao Liu, Xiao Huang, Rui Chen, Soo-Hyun Choi, Xia Hu(参考訳) 本稿では,グラフ構造データに対する効果的な学習を行うための新しいマスク付きグラフオートエンコーダ(MGAE)フレームワークを提案する。 自己教師付き学習からの洞察を得て、多くのエッジをランダムにマスクし、トレーニング中に失われたエッジを再構築します。 MGAEには2つのコア設計がある。 まず、入力グラフ構造の高い比率(例えば$70\%$)をマスキングすると、ダウンストリームアプリケーションに恩恵をもたらす非自明で有意義なセルフスーパーバイザのタスクが得られます。 第2に、部分的にマス化されたグラフ上でメッセージの伝搬を行うエンコーダとしてグラフニューラルネットワーク(GNN)を用いる。 多数のマスク付きエッジを再構築するために, 整列型クロスコリレーションデコーダを提案する。 複数の粒度でアンカーエッジの頭と尾ノードの相互相関を捉えることができる。 これら2つの設計を組み合わせることで、MGAEを効率的に効果的に訓練することができる。 複数のオープンデータセット(Planetoid と OGB ベンチマーク)に対する大規模な実験は、MGAE がリンク予測とノード分類において最先端の教師なし学習競合より一般的に優れていることを示した。

We introduce a novel masked graph autoencoder (MGAE) framework to perform effective learning on graph structure data. Taking insights from self-supervised learning, we randomly mask a large proportion of edges and try to reconstruct these missing edges during training. MGAE has two core designs. First, we find that masking a high ratio of the input graph structure, e.g., $70\%$, yields a nontrivial and meaningful self-supervisory task that benefits downstream applications. Second, we employ a graph neural network (GNN) as an encoder to perform message propagation on the partially-masked graph. To reconstruct the large number of masked edges, a tailored cross-correlation decoder is proposed. It could capture the cross-correlation between the head and tail nodes of anchor edge in multi-granularity. Coupling these two designs enables MGAE to be trained efficiently and effectively. Extensive experiments on multiple open datasets (Planetoid and OGB benchmarks) demonstrate that MGAE generally performs better than state-of-the-art unsupervised learning competitors on link prediction and node classification.
翻訳日:2022-01-10 15:32:04 公開日:2022-01-07
# 視覚注意予測による自律型ドローンレースエージェントの性能向上

Visual Attention Prediction Improves Performance of Autonomous Drone Racing Agents ( http://arxiv.org/abs/2201.02569v1 )

ライセンス: Link先を確認
Christian Pfeiffer, Simon Wengeler, Antonio Loquercio, Davide Scaramuzza(参考訳) 人間はエンドツーエンドの自律飛行のために訓練されたニューラルネットワークよりも速くドローンをレースする。 これは、人間のパイロットがタスク関連視覚情報を効果的に選択できることに関連しているかもしれない。 本研究は、人間の目視行動や注意を模倣できるニューラルネットワークが、視覚ベースの自律型ドローンレースの課題に対して、ニューラルネットワークの性能を向上させるかどうかを検討するものである。 我々は、視線に基づく注意予測が、シミュレーターベースのドローンレースタスクにおける視覚情報選択と意思決定の効率的なメカニズムであると仮定する。 この仮説は、18人の無人機パイロットによる視線と飛行軌跡データを用いて、視覚的注意予測モデルを訓練する。 次に、この視覚的注意予測モデルを用いて、模倣学習を用いた視覚に基づく自律ドローンレースのためのエンドツーエンドコントローラを訓練する。 我々は,アテンション予測コントローラのドローンレース性能を生画像入力と画像に基づく抽象化(特徴トラック)を用いて比較する。 その結果,アテンション予測ベースのコントローラはベースラインを上回り,最大88%の成功率で挑戦的なレーストラックを完走できることがわかった。 さらに,視覚注意予測および特徴トラックに基づくモデルでは,ホールドアウト参照軌跡の評価において,画像モデルよりも一般化性能が向上した。 我々の結果は、人間の視覚的注意予測が自律的な視覚に基づくドローンレースエージェントの性能を向上させることを示し、視覚に基づく高速かつアジャイルな自律飛行に向けて重要なステップを提供する。

Humans race drones faster than neural networks trained for end-to-end autonomous flight. This may be related to the ability of human pilots to select task-relevant visual information effectively. This work investigates whether neural networks capable of imitating human eye gaze behavior and attention can improve neural network performance for the challenging task of vision-based autonomous drone racing. We hypothesize that gaze-based attention prediction can be an efficient mechanism for visual information selection and decision making in a simulator-based drone racing task. We test this hypothesis using eye gaze and flight trajectory data from 18 human drone pilots to train a visual attention prediction model. We then use this visual attention prediction model to train an end-to-end controller for vision-based autonomous drone racing using imitation learning. We compare the drone racing performance of the attention-prediction controller to those using raw image inputs and image-based abstractions (i.e., feature tracks). Our results show that attention-prediction based controllers outperform the baselines and are able to complete a challenging race track consistently with up to 88% success rate. Furthermore, visual attention-prediction and feature-track based models showed better generalization performance than image-based models when evaluated on hold-out reference trajectories. Our results demonstrate that human visual attention prediction improves the performance of autonomous vision-based drone racing agents and provides an essential step towards vision-based, fast, and agile autonomous flight that eventually can reach and even exceed human performances.
翻訳日:2022-01-10 15:31:47 公開日:2022-01-07
# (参考訳) インクリメンタル学習駆動型インスタンスセグメンテーションフレームワークによるコントラバンドアイテムの高度に乱雑なインスタンス認識 [全文訳有]

A Novel Incremental Learning Driven Instance Segmentation Framework to Recognize Highly Cluttered Instances of the Contraband Items ( http://arxiv.org/abs/2201.02560v1 )

ライセンス: CC BY 4.0
Taimur Hassan and Samet Akcay and Mohammed Bennamoun and Salman Khan and Naoufel Werghi(参考訳) 荷物のX線スキャンから散らばったコントラバンドアイテムをスキャンするのは、専門家のセキュリティスタッフにとっても面倒な作業だ。 本稿では,従来のエンコーダ・デコーダアーキテクチャを拡張してインスタンス認識セグメンテーションを行い,追加のサブネットワークやオブジェクト検出器を使わずにコントラバンドアイテムの統合インスタンスを抽出する手法を提案する。 エンコーダ−デコーダネットワークは、まず従来のセマンティクスセグメンテーションを行い、クラッタ化された荷物を検索する。 モデルはトレーニング中に段階的に進化し、トレーニングバッチを大幅に削減した個々のインスタンスを認識する。 新しい目的関数は、新しいクラス表現を学習し、ベイズ推論によって複雑な構造的相互依存を解消しながら、予め獲得した知識を保持しながら、各イテレーションにおけるネットワーク損失を最小限に抑える。 2つの公開X線データセットに対する我々のフレームワークの徹底的な評価は、検出精度と効率のトレードオフを最適に達成しつつ、特に難解な散在シナリオにおいて最先端の手法よりも優れていることを示している。

Screening cluttered and occluded contraband items from baggage X-ray scans is a cumbersome task even for the expert security staff. This paper presents a novel strategy that extends a conventional encoder-decoder architecture to perform instance-aware segmentation and extract merged instances of contraband items without using any additional sub-network or an object detector. The encoder-decoder network first performs conventional semantic segmentation and retrieves cluttered baggage items. The model then incrementally evolves during training to recognize individual instances using significantly reduced training batches. To avoid catastrophic forgetting, a novel objective function minimizes the network loss in each iteration by retaining the previously acquired knowledge while learning new class representations and resolving their complex structural inter-dependencies through Bayesian inference. A thorough evaluation of our framework on two publicly available X-ray datasets shows that it outperforms state-of-the-art methods, especially within the challenging cluttered scenarios, while achieving an optimal trade-off between detection accuracy and efficiency.
翻訳日:2022-01-10 15:30:52 公開日:2022-01-07
# ファジィ認知地図を用いた時系列予測:調査

Time Series Forecasting Using Fuzzy Cognitive Maps: A Survey ( http://arxiv.org/abs/2201.02297v1 )

ライセンス: Link先を確認
Omid Orang, Petr\^onio C\^andido de Lima e Silva, and Frederico Guimar\~aes Gadelha(参考訳) 時系列予測のための様々なソフトコンピューティング手法の中で、ファジィ認知マップ(FCM)は複雑なシステムの力学をモデル化し解析するためのツールとして顕著な結果を示している。 FCMはリカレントニューラルネットワークと類似しており、神経ファジィ法に分類される。 言い換えれば、FCMはファジィ論理、ニューラルネットワーク、エキスパートシステムの側面の混合であり、複雑なシステムの動的挙動をシミュレーションし研究するための強力なツールとして機能する。 最も興味深い特徴は、知識の解釈性、動的特性、学習能力である。 本研究の目的は,本論文で提案されている最も関連性が高く,近年のFCMに基づく時系列予測モデルの概要を概説することである。 さらに,本論文では,FCMモデルの基礎と学習方法論について考察する。 また、本調査は、非定常データ処理やスケーラビリティ問題といった実世界の実験における課題をカバーするために、FCMの能力を高めるための将来の研究のアイデアを提供する。 さらに,FCMに高速学習アルゴリズムを組み込むことが,この分野の主要な関心事の一つである。

Among various soft computing approaches for time series forecasting, Fuzzy Cognitive Maps (FCM) have shown remarkable results as a tool to model and analyze the dynamics of complex systems. FCM have similarities to recurrent neural networks and can be classified as a neuro-fuzzy method. In other words, FCMs are a mixture of fuzzy logic, neural network, and expert system aspects, which act as a powerful tool for simulating and studying the dynamic behavior of complex systems. The most interesting features are knowledge interpretability, dynamic characteristics and learning capability. The goal of this survey paper is mainly to present an overview on the most relevant and recent FCM-based time series forecasting models proposed in the literature. In addition, this article considers an introduction on the fundamentals of FCM model and learning methodologies. Also, this survey provides some ideas for future research to enhance the capabilities of FCM in order to cover some challenges in the real-world experiments such as handling non-stationary data and scalability issues. Moreover, equipping FCMs with fast learning algorithms is one of the major concerns in this area.
翻訳日:2022-01-10 14:52:10 公開日:2022-01-07
# 評価と貢献度測定を併用した水平連関学習のためのオークション型前払いインセンティブ機構設計

Auction-Based Ex-Post-Payment Incentive Mechanism Design for Horizontal Federated Learning with Reputation and Contribution Measurement ( http://arxiv.org/abs/2201.02410v1 )

ライセンス: Link先を確認
Jingwen Zhang, Yuezhou Wu, Rong Pan(参考訳) フェデレーション学習は、分散データを持つデバイス間でモデルをトレーニングし、プライバシを保護し、集中型MLに似たモデルを取得する。 データと計算能力を持つ多くの労働者が連邦学習の基礎となっている。 しかし、避けられないコストは、自給自足労働者が無償で奉仕することを妨げる。 さらに、データ分離のため、タスクパブリッシャは、高品質なデータで信頼できる労働者を選択し、評価し、報酬を支払う効果的な方法が欠けている。 そこで我々は,評価とコントリビューション測定による水平連合学習のためのオークションベースのインセンティブメカニズムを設計する。 貢献度を測定する合理的な方法を設計することにより,作業者の評価を確立し,その評価は低下し易く,改善が困難である。 逆オークションにより、労働者はタスクを入札し、タスクパブリッシャは評判と入札価格を組み合わせた労働者を選択する。 予算制約により、入賞労働者はパフォーマンスに基づいて支払われる。 我々のメカニズムは、正直な労働者の個々の合理性、予算実現可能性、真理性、計算効率を満たすことを証明した。

Federated learning trains models across devices with distributed data, while protecting the privacy and obtaining a model similar to that of centralized ML. A large number of workers with data and computing power are the foundation of federal learning. However, the inevitable costs prevent self-interested workers from serving for free. Moreover, due to data isolation, task publishers lack effective methods to select, evaluate and pay reliable workers with high-quality data. Therefore, we design an auction-based incentive mechanism for horizontal federated learning with reputation and contribution measurement. By designing a reasonable method of measuring contribution, we establish the reputation of workers, which is easy to decline and difficult to improve. Through reverse auctions, workers bid for tasks, and the task publisher selects workers combining reputation and bid price. With the budget constraint, winning workers are paid based on performance. We proved that our mechanism satisfies the individual rationality of the honest worker, budget feasibility, truthfulness, and computational efficiency.
翻訳日:2022-01-10 14:51:56 公開日:2022-01-07
# ノイズインテンシティサンプリングの最適性

Optimality in Noisy Importance Sampling ( http://arxiv.org/abs/2201.02432v1 )

ライセンス: Link先を確認
Fernando Llorente, Luca Martino, Jesse Read, David Delgado-G\'omez(参考訳) 本研究では, ターゲット密度のノイズ評価を行うため, 雑音重大サンプリング (is) について検討する。 雑音の多いIS推定器の一般的な枠組みと最適提案密度を導出する。 最適提案では,ノイズパワーが高い領域にポイントを提示し,雑音実現のばらつきに関する情報を取り入れている。 また,isフレームワークで検討した従来の最適性アプローチと最適提案の利用を比較検討した。

In this work, we analyze the noisy importance sampling (IS), i.e., IS working with noisy evaluations of the target density. We present the general framework and derive optimal proposal densities for noisy IS estimators. The optimal proposals incorporate the information of the variance of the noisy realizations, proposing points in regions where the noise power is higher. We also compare the use of the optimal proposals with previous optimality approaches considered in a noisy IS framework.
翻訳日:2022-01-10 14:51:37 公開日:2022-01-07
# AugmentedPCA: 教師付きおよび逆線形因子モデルのPythonパッケージ

AugmentedPCA: A Python Package of Supervised and Adversarial Linear Factor Models ( http://arxiv.org/abs/2201.02547v1 )

ライセンス: Link先を確認
William E. Carson IV, Austin Talbot, David Carlson(参考訳) ディープ・オートエンコーダは、ラベルの予測率や結果、感度変数に対する公正さなどの望ましい特性を持つ潜在表現を学習するために、教師付きまたは敵対的な損失で拡張されることが多い。 教師付きおよび敵対的深層潜在因子モデルの普遍性にもかかわらず、これらの手法は実際に好ましい単純な線形アプローチよりも改善を示すべきである。 これは、拡張された教師付きまたは敵対的な目的に固執する再現可能な線形アナログを必要とする。 主成分分析(pca)の目的を教師付きまたは敵の目的で強化する手法を提示し,解析的かつ再現可能な解を提供することにより,この方法論的ギャップに対処する。 我々は、これらのメソッドをオープンソースのPythonパッケージであるAugmentedPCAに実装し、優れた現実世界のベースラインを作成できる。 これらの因子モデルの有用性を,rna-seq癌遺伝子発現データセット上で実証し,教師付き目標を付加することにより,下流分類性能が向上し,クラス忠実度の高い主成分を産生し,特定の種類のがんの発生に寄与するデータ変異の主軸と一致した遺伝子の同定が容易になることを示した。

Deep autoencoders are often extended with a supervised or adversarial loss to learn latent representations with desirable properties, such as greater predictivity of labels and outcomes or fairness with respects to a sensitive variable. Despite the ubiquity of supervised and adversarial deep latent factor models, these methods should demonstrate improvement over simpler linear approaches to be preferred in practice. This necessitates a reproducible linear analog that still adheres to an augmenting supervised or adversarial objective. We address this methodological gap by presenting methods that augment the principal component analysis (PCA) objective with either a supervised or an adversarial objective and provide analytic and reproducible solutions. We implement these methods in an open-source Python package, AugmentedPCA, that can produce excellent real-world baselines. We demonstrate the utility of these factor models on an open-source, RNA-seq cancer gene expression dataset, showing that augmenting with a supervised objective results in improved downstream classification performance, produces principal components with greater class fidelity, and facilitates identification of genes aligned with the principal axes of data variance with implications to development of specific types of cancer.
翻訳日:2022-01-10 14:51:31 公開日:2022-01-07
# 解釈可能な組織像分類における否定的証拠

Negative Evidence Matters in Interpretable Histology Image Classification ( http://arxiv.org/abs/2201.02445v1 )

ライセンス: Link先を確認
Soufiane Belharbi, Marco Pedersoli, Ismail Ben Ayed, Luke McCaffrey, Eric Granger(参考訳) 画像クラスラベルのようなグローバルアノテーションのみを用いることで、cnn分類器が共同で画像を分類し、予測されたクラスに関連する関心領域を与えることができる。 しかし、画素レベルでのガイダンスがなければ、そのような方法は不正確な領域を生み出す可能性がある。 この問題は、対象物が塩分が少なく、構造がバリエーションが多く、前景と背景領域がより類似性が高いため、自然画像よりもヒストロジー画像では難しいことが知られている。 したがって、コンピュータビジョン文学におけるCNNの視覚的解釈の手法は直接適用できない。 本研究では,完全負のサンプルからの情報を活用する複合損失関数に基づく簡易かつ効率的な手法を提案する。 1つ目はcnn分類器から収集した肯定的な証拠を活用、2つ目はトレーニングデータセットから得られた完全な否定的なサンプルを活用する。 特に、事前訓練された分類器に、関心のある領域を精錬できるデコーダを装備する。 同じ分類器を用いてピクセルレベルで正と負の両方の証拠を収集し、デコーダを訓練する。 これにより、データに自然に発生する完全な負のサンプルを、追加の監視信号や、イメージクラスのみを監視として使用せずに活用することができる。 近年のいくつかの関連手法と比較して,大腸癌に対するGlaSと3つの異なるバックボーンを用いた乳癌に対するCamelyon16パッチベースのベンチマークに比較して,本手法が導入した実質的な改善点を示す。 以上の結果から, 正と負のエビデンスと, 分類器から得られたエビデンスと, データセットで自然に利用できるエビデンスを使用することのメリットが示された。 両用語のアブレーション研究を行う。 私たちのコードは公開されています。

Using only global annotations such as the image class labels, weakly-supervised learning methods allow CNN classifiers to jointly classify an image, and yield the regions of interest associated with the predicted class. However, without any guidance at the pixel level, such methods may yield inaccurate regions. This problem is known to be more challenging with histology images than with natural ones, since objects are less salient, structures have more variations, and foreground and background regions have stronger similarities. Therefore, methods in computer vision literature for visual interpretation of CNNs may not directly apply. In this work, we propose a simple yet efficient method based on a composite loss function that leverages information from the fully negative samples. Our new loss function contains two complementary terms: the first exploits positive evidence collected from the CNN classifier, while the second leverages the fully negative samples from the training dataset. In particular, we equip a pre-trained classifier with a decoder that allows refining the regions of interest. The same classifier is exploited to collect both the positive and negative evidence at the pixel level to train the decoder. This enables to take advantages of the fully negative samples that occurs naturally in the data, without any additional supervision signals and using only the image class as supervision. Compared to several recent related methods, over the public benchmark GlaS for colon cancer and a Camelyon16 patch-based benchmark for breast cancer using three different backbones, we show the substantial improvements introduced by our method. Our results shows the benefits of using both negative and positive evidence, ie, the one obtained from a classifier and the one naturally available in datasets. We provide an ablation study of both terms. Our code is publicly available.
翻訳日:2022-01-10 14:50:47 公開日:2022-01-07
# winograd schema challengeの敗北

The Defeat of the Winograd Schema Challenge ( http://arxiv.org/abs/2201.02387v1 )

ライセンス: Link先を確認
Vid Kocijan, Ernest Davis, Thomas Lukasiewicz, Gary Marcus and Leora Morgenstern(参考訳) 2011年にヘクター・レヴェスク(Hector Levesque)が提唱した「ウィノグラード・スキーマ・チャレンジ(Winograd Schema Challenge)」。 2019年までに、多くのAIシステムは、大きなトレーニング済みのトランスフォーマーベースの言語モデルに基づいて、この種の問題に微調整され、90%以上の精度で達成された。 本稿では,ウィノグラード・スキーマ・チャレンジの歴史を概観し,その意義を評価する。

The Winograd Schema Challenge -- a set of twin sentences involving pronoun reference disambiguation that seem to require the use of commonsense knowledge -- was proposed by Hector Levesque in 2011. By 2019, a number of AI systems, based on large pre-trained transformer-based language models and fine-tuned on these kinds of problems, achieved better than 90% accuracy. In this paper, we review the history of the Winograd Schema Challenge and assess its significance.
翻訳日:2022-01-10 14:49:13 公開日:2022-01-07
# 算数語問題に対する意味論的データ拡張

Semantic-based Data Augmentation for Math Word Problems ( http://arxiv.org/abs/2201.02489v1 )

ライセンス: Link先を確認
Ailisi Li, Jiaqing Liang and Yanghua Xiao(参考訳) ニューラルMWPソルバが小さな局所的な分散に対処するのは困難です。 MWPタスクでは、いくつかのローカルな変更は元のセマンティックを保存し、他の変更は基盤となるロジックを完全に変更する。 現在、MWPタスクの既存のデータセットには、ニューラルネットワークが様々なローカルな分散を曖昧にし、質問を正しく解くための鍵となる限られたサンプルが含まれている。 本稿では,既存のデータセットを異なる局所分散で拡張したデータで補完する新しいデータ拡張手法を提案し,現在のニューラルモデルの一般化能力の向上に寄与する。 新しいサンプルは知識誘導エンティティ置換とロジック誘導問題再編成によって生成される。 拡張アプローチは、新しいデータとラベル間の一貫性を維持するために確保される。 実験の結果,本手法の必要性と有効性が示された。

It's hard for neural MWP solvers to deal with tiny local variances. In MWP task, some local changes conserve the original semantic while the others may totally change the underlying logic. Currently, existing datasets for MWP task contain limited samples which are key for neural models to learn to disambiguate different kinds of local variances in questions and solve the questions correctly. In this paper, we propose a set of novel data augmentation approaches to supplement existing datasets with such data that are augmented with different kinds of local variances, and help to improve the generalization ability of current neural models. New samples are generated by knowledge guided entity replacement, and logic guided problem reorganization. The augmentation approaches are ensured to keep the consistency between the new data and their labels. Experimental results have shown the necessity and the effectiveness of our methods.
翻訳日:2022-01-10 14:49:05 公開日:2022-01-07
# RxWhyQA : 複数質問への挑戦を伴う臨床質問応答データセット

RxWhyQA: a clinical question-answering dataset with the challenge of multi-answer questions ( http://arxiv.org/abs/2201.02517v1 )

ライセンス: Link先を確認
Sungrim Moon, Huan He, Hongfang Liu, Jungwei W. Fan(参考訳) 目的 複数質問を処理できる臨床質問応答(QA)システムの開発と評価のためのデータセットを作成する。 資料と方法 2018年全国NLP臨床チャレンジ(n2c2)コーパスの注釈付き関係を利用してQAデータセットを生成した。 1-to-0と1-to-Nの薬物関係は、既存のQAデータセットに欠けている難解なシナリオを表わす、解決不可能かつ複数問合せのエントリを形成した。 結果 RxWhyQAデータセットには91,440のQAエントリが含まれており、半数は解決不可能であり、21%(n=19,269)は複数の回答を必要とする。 データセットは、squad(community-vett ed stanford question answering dataset)形式に準拠している。 議論 RxWhyQAは、ゼロとマルチの答えの問題に対処するために必要な異なるシステムを比較するのに役立ち、偽陽性と偽陰性の両方の回答の二重緩和を要求する。 結論 実世界のシナリオを表現するために,複数の質問に焦点をあてて臨床QAデータセットを作成し,共有した。

Objectives Create a dataset for the development and evaluation of clinical question-answering (QA) systems that can handle multi-answer questions. Materials and Methods We leveraged the annotated relations from the 2018 National NLP Clinical Challenges (n2c2) corpus to generate a QA dataset. The 1-to-0 and 1-to-N drug-reason relations formed the unanswerable and multi-answer entries, which represent challenging scenarios lacking in the existing clinical QA datasets. Results The result RxWhyQA dataset contains 91,440 QA entries, of which half are unanswerable, and 21% (n=19,269) of the answerable ones require multiple answers. The dataset conforms to the community-vetted Stanford Question Answering Dataset (SQuAD) format. Discussion The RxWhyQA is useful for comparing different systems that need to handle the zero- and multi-answer challenges, demanding dual mitigation of both false positive and false negative answers. Conclusion We created and shared a clinical QA dataset with a focus on multi-answer questions to represent real-world scenarios.
翻訳日:2022-01-10 14:48:53 公開日:2022-01-07
# 位相空間における関節依存モデルによる動き予測

Motion Prediction via Joint Dependency Modeling in Phase Space ( http://arxiv.org/abs/2201.02365v1 )

ライセンス: Link先を確認
Pengxiang Su, Zhenguang Liu, Shuang Wu, Lei Zhu, Yifang Yin, Xuanjing Shen(参考訳) 動き予測はコンピュータビジョンにおける古典的な問題であり、観測されたポーズシーケンスから将来の動きを予測することを目的としている。 様々なディープラーニングモデルが提案され、動作予測における最先端のパフォーマンスを実現している。 しかし、既存の手法は通常、ポーズ空間における時間力学のモデリングに焦点を当てている。 残念なことに、人間の動きの複雑で高次元な性質は、動的コンテキストキャプチャに固有の課題をもたらす。 そこで我々は,従来のポーズベース表現から脱却し,各関節の位相空間軌道表現を用いた新しいアプローチを提案する。 さらに、現在の手法では、物理的に接続されたジョイント間の依存性のみを考慮する傾向がある。 本稿では,運動解剖学の明示的な事前知識を効果的に活用する新しい畳み込み神経モデルを提案する。 次に,個々の関節機能間の暗黙的関係を学習するグローバル最適化モジュールを提案する。 実験では,大規模3次元モーションベンチマークデータセット (human3.6m, cmu mocap) を用いて評価を行った。 これらの結果から,本手法はベンチマークデータセットに新しい最先端の手法を設定できることが示唆された。 私たちのコードはhttps://github.com/P ose-Group/TEIDで公開されます。

Motion prediction is a classic problem in computer vision, which aims at forecasting future motion given the observed pose sequence. Various deep learning models have been proposed, achieving state-of-the-art performance on motion prediction. However, existing methods typically focus on modeling temporal dynamics in the pose space. Unfortunately, the complicated and high dimensionality nature of human motion brings inherent challenges for dynamic context capturing. Therefore, we move away from the conventional pose based representation and present a novel approach employing a phase space trajectory representation of individual joints. Moreover, current methods tend to only consider the dependencies between physically connected joints. In this paper, we introduce a novel convolutional neural model to effectively leverage explicit prior knowledge of motion anatomy, and simultaneously capture both spatial and temporal information of joint trajectory dynamics. We then propose a global optimization module that learns the implicit relationships between individual joint features. Empirically, our method is evaluated on large-scale 3D human motion benchmark datasets (i.e., Human3.6M, CMU MoCap). These results demonstrate that our method sets the new state-of-the-art on the benchmark datasets. Our code will be available at https://github.com/P ose-Group/TEID.
翻訳日:2022-01-10 14:47:56 公開日:2022-01-07
# DIABOLOによるH2O(Human-to-Human-o r-Object)相互作用の検出

Detecting Human-to-Human-or-Ob ject (H2O) Interactions with DIABOLO ( http://arxiv.org/abs/2201.02396v1 )

ライセンス: Link先を確認
Astrid Orcesi, Romaric Audigier, Fritz Poka Toukam and Bertrand Luvison(参考訳) ヒューマンインタラクションの検出は、人間の行動分析に不可欠である。 ヒューマン・ツー・オブジェクト・インタラクション(HOI: Human-to-Object Interaction)の検出、すなわち、人とオブジェクトが相互作用する画像を検知し、インタラクションのタイプを分類する多くの方法が提案されている。 しかしながら、社会と暴力の相互作用のような人間と人間の相互作用は、一般にHOIトレーニングデータセットでは考慮されていない。 我々は、人間の行動を分析する際に、これらの相互作用はHOIとは無視できないと考えており、Human-to-Human-or-Ob ject(H2O)という2種類の相互作用を扱うための新しい相互作用データセットを提案する。 さらに, 動詞の新たな分類法を導入し, 人間の身体の態度を, 周囲の相互作用の標的に近づき, 環境から独立することを目的としている。 既存のデータセットと異なり、それらの使用がターゲットタイプに依存する場合や、高いレベルの意味的解釈を必要とする場合、同義語動詞の定義を避けることに努める。 H2Oデータセットには、この新しい分類に注釈付けされたV-COCOイメージが含まれているため、画像には明らかにより多くの相互作用が含まれている。 これは、人、ターゲット、あるいはインタラクションの数に依存する複雑さを持つhoi検出方法の問題だ。 そこで本研究では,画像コンテンツに依存しない推定時間を一定に保ちながら,全インタラクションを1回のフォワードパスで検出する効率的な主観中心シングルショット法であるdiaboloを提案する。 さらに、このマルチタスクネットワークは、すべての人とオブジェクトを同時に検出する。 これらのタスクのネットワーク共有は,計算資源の節約だけでなく,協調的な性能向上にも寄与することを示す。 最後に、DIABOLOは、HOIデータセットV-COCOのトレーニングおよび評価において、すべての最先端メソッドよりも優れているため、新しいH2Oインタラクション検出の課題の強力なベースラインである。

Detecting human interactions is crucial for human behavior analysis. Many methods have been proposed to deal with Human-to-Object Interaction (HOI) detection, i.e., detecting in an image which person and object interact together and classifying the type of interaction. However, Human-to-Human Interactions, such as social and violent interactions, are generally not considered in available HOI training datasets. As we think these types of interactions cannot be ignored and decorrelated from HOI when analyzing human behavior, we propose a new interaction dataset to deal with both types of human interactions: Human-to-Human-or-Ob ject (H2O). In addition, we introduce a novel taxonomy of verbs, intended to be closer to a description of human body attitude in relation to the surrounding targets of interaction, and more independent of the environment. Unlike some existing datasets, we strive to avoid defining synonymous verbs when their use highly depends on the target type or requires a high level of semantic interpretation. As H2O dataset includes V-COCO images annotated with this new taxonomy, images obviously contain more interactions. This can be an issue for HOI detection methods whose complexity depends on the number of people, targets or interactions. Thus, we propose DIABOLO (Detecting InterActions By Only Looking Once), an efficient subject-centric single-shot method to detect all interactions in one forward pass, with constant inference time independent of image content. In addition, this multi-task network simultaneously detects all people and objects. We show how sharing a network for these tasks does not only save computation resource but also improves performance collaboratively. Finally, DIABOLO is a strong baseline for the new proposed challenge of H2O Interaction detection, as it outperforms all state-of-the-art methods when trained and evaluated on HOI dataset V-COCO.
翻訳日:2022-01-10 14:47:40 公開日:2022-01-07
# 合成データセットを用いたマーカレスヒューマンモーションのための深層学習手法の検討

A Review of Deep Learning Techniques for Markerless Human Motion on Synthetic Datasets ( http://arxiv.org/abs/2201.02503v1 )

ライセンス: Link先を確認
Doan Duy Vo, Russell Butler(参考訳) 近年,マーカーレスモーションキャプチャはコンピュータビジョン研究の活発な分野となっている。 その広範な応用は、コンピュータアニメーション、人間の動き分析、生物医学研究、仮想現実、スポーツ科学など、様々な分野で知られている。 コンピュータビジョンのコミュニティでは,人間の姿勢推定が近年注目されているが,不確実性の深さと合成データセットの欠如により,これは困難な課題である。 この問題を解決するための様々なアプローチが最近提案されているが、その多くはディープラーニングに基づいている。 それらは主に、既存のベンチマーク、特に2dイメージのパフォーマンス向上に重点を置いている。 強力なディープラーニング技術と最近収集された実世界のデータセットに基づいて、2次元画像のみに基づくアニメーションの骨格を予測できるモデルを探索した。 合成されたポーズを持つさまざまな現実世界のデータセットから生成されたフレームは、単純なものから複雑なものまで、さまざまなボディ形状を使用する。 実装プロセスは、独自のデータセットにDeepLabCutを使用して、多くの必要なステップを実行し、入力フレームを使用してモデルをトレーニングする。 出力は人間の動きをアニメーション化した骨格です。 複合データセットとその他の結果は、深層モデルの"根拠真実"である。

Markerless motion capture has become an active field of research in computer vision in recent years. Its extensive applications are known in a great variety of fields, including computer animation, human motion analysis, biomedical research, virtual reality, and sports science. Estimating human posture has recently gained increasing attention in the computer vision community, but due to the depth of uncertainty and the lack of the synthetic datasets, it is a challenging task. Various approaches have recently been proposed to solve this problem, many of which are based on deep learning. They are primarily focused on improving the performance of existing benchmarks with significant advances, especially 2D images. Based on powerful deep learning techniques and recently collected real-world datasets, we explored a model that can predict the skeleton of an animation based solely on 2D images. Frames generated from different real-world datasets with synthesized poses using different body shapes from simple to complex. The implementation process uses DeepLabCut on its own dataset to perform many necessary steps, then use the input frames to train the model. The output is an animated skeleton for human movement. The composite dataset and other results are the "ground truth" of the deep model.
翻訳日:2022-01-10 14:47:06 公開日:2022-01-07
# 情報インタラクションによる視覚追跡のための目標認識表現の学習

Learning Target-aware Representation for Visual Tracking via Informative Interactions ( http://arxiv.org/abs/2201.02526v1 )

ライセンス: Link先を確認
Mingzhe Guo, Zhipeng Zhang, Heng Fan, Liping Jing, Yilin Lyu, Bing Li, Weiming Hu(参考訳) トラッキングのための特徴表現のターゲット認識能力を向上する新しいバックボーンアーキテクチャを提案する。 具体的には、デファクトフレームワークがbackboneからの出力を単にターゲットローカライズに使用するだけで機能マッチングを行うのを観察したため、マッチングモジュールからbackboneネットワーク、特に浅い層への直接的なフィードバックは存在しません。 より具体的には、マッチングモジュールのみが(参照フレーム内で)ターゲット情報に直接アクセスでき、一方、候補フレームの表現学習は参照ターゲットに対して盲目である。 その結果、浅い段階における目標非関連干渉の蓄積効果は、深い層の特徴品質を低下させる可能性がある。 本稿では,シームズ様バックボーンネットワーク(InBN)内で複数の分岐ワイド相互作用を行うことにより,異なる角度から問題にアプローチする。 InBNのコアとなる汎用相互作用モデリング(GIM)は、バックボーンネットワークの異なる段階に参照画像の事前の知識を注入し、予測された特徴表現を無視可能な計算コストでより優れた目標認識と堅牢なトラクタ抵抗をもたらす。 提案するgimモジュールとinbn機構は,cnnやtransformerなど,さまざまなバックボーンタイプに対して汎用的かつ適用可能な改良手法である。 特にcnnバージョン(siamcarベース)は、lasot/tnl2kでのsucの絶対値の3.2/6.9でベースラインを改善している。 Transformer版は、LaSOT/TNL2Kで65.7/52.0のSUCスコアを取得する。 コードとモデルはリリースされる。

We introduce a novel backbone architecture to improve target-perception ability of feature representation for tracking. Specifically, having observed that de facto frameworks perform feature matching simply using the outputs from backbone for target localization, there is no direct feedback from the matching module to the backbone network, especially the shallow layers. More concretely, only the matching module can directly access the target information (in the reference frame), while the representation learning of candidate frame is blind to the reference target. As a consequence, the accumulation effect of target-irrelevant interference in the shallow stages may degrade the feature quality of deeper layers. In this paper, we approach the problem from a different angle by conducting multiple branch-wise interactions inside the Siamese-like backbone networks (InBN). At the core of InBN is a general interaction modeler (GIM) that injects the prior knowledge of reference image to different stages of the backbone network, leading to better target-perception and robust distractor-resistanc e of candidate feature representation with negligible computation cost. The proposed GIM module and InBN mechanism are general and applicable to different backbone types including CNN and Transformer for improvements, as evidenced by our extensive experiments on multiple benchmarks. In particular, the CNN version (based on SiamCAR) improves the baseline with 3.2/6.9 absolute gains of SUC on LaSOT/TNL2K, respectively. The Transformer version obtains SUC scores of 65.7/52.0 on LaSOT/TNL2K, which are on par with recent state of the arts. Code and models will be released.
翻訳日:2022-01-10 14:46:12 公開日:2022-01-07
# NeROIC: オンラインイメージコレクションからのオブジェクトのニューラルレンダリング

NeROIC: Neural Rendering of Objects from Online Image Collections ( http://arxiv.org/abs/2201.02533v1 )

ライセンス: Link先を確認
Zhengfei Kuang, Kyle Olszewski, Menglei Chai, Zeng Huang, Panos Achlioptas, Sergey Tulyakov(参考訳) 本稿では,オンライン画像コレクションからオブジェクト表現を取得し,様々なカメラ,照明,背景を持つ写真から任意のオブジェクトの高品質な形状と材料特性を抽出する手法を提案する。 これにより、新規ビュー合成、リライト、ハーモナイズド背景合成といった様々なオブジェクト中心のレンダリングアプリケーションを、Wildの入力に挑戦することから実現できる。 ニューラル・ラミアンス・フィールドを拡張する多段階的アプローチを用いて,まず表面形状を推定し,粗いフォアグラウンド・オブジェクト・マスクを活用し,粗い初期カメラパラメータを洗練し,トレーニング効率と形状品質を向上させる。 また,幾何学的ノイズの影響を除去しつつ,重要な詳細を保ちながらロバストな正規推定手法を提案する。 最後に,過渡的元素(シャープシャドウなど)を扱う拡張を持つ球面高調波で表される表面材料特性と周囲照明を抽出した。 これらのコンポーネントの結合は、高度にモジュール化され、効率的なオブジェクト取得フレームワークをもたらす。 広範な評価と比較は,レンダリングに有用な高品質な幾何学的特徴と外観的特性をキャプチャする手法の利点を示す。

We present a novel method to acquire object representations from online image collections, capturing high-quality geometry and material properties of arbitrary objects from photographs with varying cameras, illumination, and backgrounds. This enables various object-centric rendering applications such as novel-view synthesis, relighting, and harmonized background composition from challenging in-the-wild input. Using a multi-stage approach extending neural radiance fields, we first infer the surface geometry and refine the coarsely estimated initial camera parameters, while leveraging coarse foreground object masks to improve the training efficiency and geometry quality. We also introduce a robust normal estimation technique which eliminates the effect of geometric noise while retaining crucial details. Lastly, we extract surface material properties and ambient illumination, represented in spherical harmonics with extensions that handle transient elements, e.g. sharp shadows. The union of these components results in a highly modular and efficient object acquisition framework. Extensive evaluations and comparisons demonstrate the advantages of our approach in capturing high-quality geometry and appearance properties useful for rendering applications.
翻訳日:2022-01-10 14:45:43 公開日:2022-01-07
# 高密度長尾物体検出のための等化焦点損失

Equalized Focal Loss for Dense Long-Tailed Object Detection ( http://arxiv.org/abs/2201.02593v1 )

ライセンス: Link先を確認
Bo Li, Yongqiang Yao, Jingru Tan, Gang Zhang, Fengwei Yu, Jianwei Lu, Ye Luo(参考訳) 近年のロングテール物体検出の成功にもかかわらず、ほぼ全てのロングテール物体検出器は2段階のパラダイムに基づいて開発されている。 実際には、ワンステージ検出器はデプロイが容易なシンプルで高速なパイプラインを持っているため、業界でより普及しています。 しかし、ロングテールのシナリオでは、この一連の作業はまだ検討されていない。 本稿では,この場合,一段検出器が良好に機能するかどうかを考察する。 一段検出器が優れた性能を発揮するのを防ぐ主な障害は、長い尾のデータ分布の下で、カテゴリーが様々な正負の不均衡問題に悩まされることである。 従来の焦点損失は、すべてのカテゴリーで同じ変調係数でトレーニングプロセスのバランスを保ち、長い尾の問題を処理できない。 この問題に対処するために,不均衡度に応じて異なるカテゴリの正および負のサンプルの損失寄与を再均衡させる等化焦点損失(EFL)を提案する。 具体的には、eflは、異なるカテゴリのトレーニングステータスによって動的に調整できるカテゴリ関連変調因子を採用する。 LVIS v1ベンチマークで行った大規模な実験により,提案手法の有効性が示された。 エンドツーエンドのトレーニングパイプラインにより、eflは全体のapで29.2%を達成し、既存のすべての最先端メソッドを上回って、まれなカテゴリで大幅なパフォーマンス向上を達成している。 コードはhttps://github.com/M odelTC/EOD.comで公開されている。

Despite the recent success of long-tailed object detection, almost all long-tailed object detectors are developed based on the two-stage paradigm. In practice, one-stage detectors are more prevalent in the industry because they have a simple and fast pipeline that is easy to deploy. However, in the long-tailed scenario, this line of work has not been explored so far. In this paper, we investigate whether one-stage detectors can perform well in this case. We discover the primary obstacle that prevents one-stage detectors from achieving excellent performance is: categories suffer from different degrees of positive-negative imbalance problems under the long-tailed data distribution. The conventional focal loss balances the training process with the same modulating factor for all categories, thus failing to handle the long-tailed problem. To address this issue, we propose the Equalized Focal Loss (EFL) that rebalances the loss contribution of positive and negative samples of different categories independently according to their imbalance degrees. Specifically, EFL adopts a category-relevant modulating factor which can be adjusted dynamically by the training status of different categories. Extensive experiments conducted on the challenging LVIS v1 benchmark demonstrate the effectiveness of our proposed method. With an end-to-end training pipeline, EFL achieves 29.2% in terms of overall AP and obtains significant performance improvements on rare categories, surpassing all existing state-of-the-art methods. The code is available at https://github.com/M odelTC/EOD.
翻訳日:2022-01-10 14:45:24 公開日:2022-01-07
# イメージレベルの監督によるクラス検出

Detecting Twenty-thousand Classes using Image-level Supervision ( http://arxiv.org/abs/2201.02605v1 )

ライセンス: Link先を確認
Xingyi Zhou, Rohit Girdha, Armand Joulin, Phillip Kr\"ahenb\"uhl, Ishan Misra(参考訳) 現在のオブジェクト検出器は、小さな検出データセットのため、語彙サイズが限られている。 一方、画像分類器は、データセットがより大きく、より収集しやすいので、はるかに大きな語彙を推論します。 本稿では、画像分類データに基づいて検出器の分類器を訓練し、検出器の語彙を数万の概念に拡張するDeticを提案する。 以前の作業とは異なり、Deticはモデル予測に基づいてイメージラベルをボックスに割り当てておらず、さまざまな検出アーキテクチャやバックボーンの実装と互換性をより容易にする。 ボックスアノテーションのないクラスでも,Deticは優れた検出値が得られることを示す。 これは、open-vocabularyとlong-tail検出ベンチマークの両方の以前の作業よりも優れている。 Deticは、すべてのクラスで2.4mAP、オープン語彙のLVISベンチマークで新しいクラスで8.3mAPを提供する。 標準のLVISベンチマークでは、Deticはすべてのクラスで41.7 mAP、レアクラスでは41.7 mAPに達する。 初めて、imagenetデータセットの21番目のクラスすべてで検出器をトレーニングし、微調整なしで新しいデータセットに一般化できることを示します。 コードはhttps://github.com/f acebookresearch/Deti c.comで入手できる。

Current object detectors are limited in vocabulary size due to the small scale of detection datasets. Image classifiers, on the other hand, reason about much larger vocabularies, as their datasets are larger and easier to collect. We propose Detic, which simply trains the classifiers of a detector on image classification data and thus expands the vocabulary of detectors to tens of thousands of concepts. Unlike prior work, Detic does not assign image labels to boxes based on model predictions, making it much easier to implement and compatible with a range of detection architectures and backbones. Our results show that Detic yields excellent detectors even for classes without box annotations. It outperforms prior work on both open-vocabulary and long-tail detection benchmarks. Detic provides a gain of 2.4 mAP for all classes and 8.3 mAP for novel classes on the open-vocabulary LVIS benchmark. On the standard LVIS benchmark, Detic reaches 41.7 mAP for all classes and 41.7 mAP for rare classes. For the first time, we train a detector with all the twenty-one-thousand classes of the ImageNet dataset and show that it generalizes to new datasets without fine-tuning. Code is available at https://github.com/f acebookresearch/Deti c.
翻訳日:2022-01-10 14:44:57 公開日:2022-01-07
# GenLabel: 生成モデルを使用したミックスアップリラベル

GenLabel: Mixup Relabeling using Generative Models ( http://arxiv.org/abs/2201.02354v1 )

ライセンス: Link先を確認
Jy-yong Sohn, Liang Shang, Hongxu Chen, Jaekyun Moon, Dimitris Papailiopoulos, Kangwook Lee(参考訳) mixupは、入力データ対を混合して新しいデータポイントを生成するデータ拡張手法である。 mixupは一般的に予測性能が向上するが、時には性能が低下する。 本稿では, 混合アルゴリズムを理論的に経験的に解析することにより, この現象の主な原因を明らかにする。 そこで我々は,mixup用に設計された単純かつ効果的なrelabelingアルゴリズムであるgenlabelを提案する。 特に、GenLabelは、生成モデルを用いてクラス条件のデータ分散を学習することで、ミックスアップアルゴリズムがミックスアップサンプルを正しくラベル付けするのに役立つ。 広範な理論的・経験的分析により,genlabelと併用した場合,mixupは上記の現象を効果的に解決し,一般化性能と対向ロバスト性が向上することを示した。

Mixup is a data augmentation method that generates new data points by mixing a pair of input data. While mixup generally improves the prediction performance, it sometimes degrades the performance. In this paper, we first identify the main causes of this phenomenon by theoretically and empirically analyzing the mixup algorithm. To resolve this, we propose GenLabel, a simple yet effective relabeling algorithm designed for mixup. In particular, GenLabel helps the mixup algorithm correctly label mixup samples by learning the class-conditional data distribution using generative models. Via extensive theoretical and empirical analysis, we show that mixup, when used together with GenLabel, can effectively resolve the aforementioned phenomenon, improving the generalization performance and the adversarial robustness.
翻訳日:2022-01-10 14:44:40 公開日:2022-01-07
# ニューラル正規微分方程式を用いたカヤ同定による予測放出

Forecasting emissions through Kaya identity using Neural Ordinary Differential Equations ( http://arxiv.org/abs/2201.02433v1 )

ライセンス: Link先を確認
Pierre Browne, Aranildo Lima, Rossella Arcucci, C\'esar Quilodr\'an-Casas(参考訳) カヤのアイデンティティーから、我々は、人口、一人当たりGDP、GDPのエネルギー強度、エネルギーの炭素強度といった国レベルで、炭素排出量に関連するいくつかの指標の進化を予測するために、Neural ODEモデルを使用した。 モデルとベースライン統計モデルの比較を行い,優れた性能を得た。 我々は、この機械学習アプローチが幅広い結果を生み出し、政策立案者に関連する洞察を与えることができると結論付けた。

Starting from the Kaya identity, we used a Neural ODE model to predict the evolution of several indicators related to carbon emissions, on a country-level: population, GDP per capita, energy intensity of GDP, carbon intensity of energy. We compared the model with a baseline statistical model - VAR - and obtained good performances. We conclude that this machine-learning approach can be used to produce a wide range of results and give relevant insight to policymakers
翻訳日:2022-01-10 14:44:28 公開日:2022-01-07
# (参考訳) 一般カテゴリー発見 [全文訳有]

Generalized Category Discovery ( http://arxiv.org/abs/2201.02609v1 )

ライセンス: CC BY 4.0
Sagar Vaze, Kai Han, Andrea Vedaldi, Andrew Zisserman(参考訳) 本稿では,ラベル付きかつラベル付きでない画像集合が与えられた場合,ラベルなし集合内のすべての画像の分類が課題となる,非常に一般的な画像認識設定を考える。 ここで、ラベルのない画像はラベル付きクラスか、新しいものから来ます。 既存の認識方法は、既知の-または未知の-クラスからのみ来る、未知のクラスがa-prioriとして知られているなど、いくつかの制約のある仮定を行うため、この設定に対処できない。 制約のない設定に対処し、"Generalized Category Discovery"と命名し、これらすべての前提に挑戦します。 まず,新たなカテゴリ発見から最先端のアルゴリズムを取り出して,そのタスクに適応させることで,強力なベースラインを確立する。 次に,このオープンワールド設定に対して,コントラスト表現学習を用いた視覚変換器を提案する。 次に、単純だが効果的な半教師付き$k$-meansメソッドを導入し、不正なデータを自動的に見知らぬクラスにクラスタリングし、ベースラインを大幅に上回る。 最後に,非競合データにおけるクラス数を推定する新しい手法を提案する。 我々は、CIFAR10、CIFAR100、ImageNet-100を含む汎用オブジェクト分類のためのパブリックデータセットと、CUB、Stanford Cars、Herbarium19を含むきめ細かい視覚認識のためのアプローチを徹底的に評価し、今後の研究を促進するためにこの設定をベンチマークした。

In this paper, we consider a highly general image recognition setting wherein, given a labelled and unlabelled set of images, the task is to categorize all images in the unlabelled set. Here, the unlabelled images may come from labelled classes or from novel ones. Existing recognition methods are not able to deal with this setting, because they make several restrictive assumptions, such as the unlabelled instances only coming from known - or unknown - classes and the number of unknown classes being known a-priori. We address the more unconstrained setting, naming it 'Generalized Category Discovery', and challenge all these assumptions. We first establish strong baselines by taking state-of-the-art algorithms from novel category discovery and adapting them for this task. Next, we propose the use of vision transformers with contrastive representation learning for this open world setting. We then introduce a simple yet effective semi-supervised $k$-means method to cluster the unlabelled data into seen and unseen classes automatically, substantially outperforming the baselines. Finally, we also propose a new approach to estimate the number of classes in the unlabelled data. We thoroughly evaluate our approach on public datasets for generic object classification including CIFAR10, CIFAR100 and ImageNet-100, and for fine-grained visual recognition including CUB, Stanford Cars and Herbarium19, benchmarking on this new setting to foster future research.
翻訳日:2022-01-10 14:42:58 公開日:2022-01-07
# オフライン政策評価のための準ハイパーパラメータフリーハイパーパラメータ選択法の理論的枠組み

A Theoretical Framework of Almost Hyperparameter-free Hyperparameter Selection Methods for Offline Policy Evaluation ( http://arxiv.org/abs/2201.02300v1 )

ライセンス: Link先を確認
Kohei Miyaguchi(参考訳) 我々は,オフライン政策評価(OPE)のハイパーパラメータ選択の問題に関心がある。 OPEはオフライン強化学習の鍵となる要素であり、環境シミュレータを使わずにデータ駆動型決定最適化のコア技術である。 しかし、現在の最先端のOPE法はハイパーパラメータフリーではないため、現実のアプリケーションでは実用性が損なわれている。 この問題に対処するために, OPE のための新しい近似ハイパーパラメータ選択(AHS)フレームワークを導入し, 最適性(選択基準と呼ばれる)の概念をハイパーパラメータなしで定量的かつ解釈可能な方法で定義する。 次に、収束率や時間複雑性などの異なる特徴を持つ4つのAHS法を導出する。 最後に,本手法の有効性と限界を予備実験により検証する。

We are concerned with the problem of hyperparameter selection of offline policy evaluation (OPE). OPE is a key component of offline reinforcement learning, which is a core technology for data-driven decision optimization without environment simulators. However, the current state-of-the-art OPE methods are not hyperparameter-free, which undermines their utility in real-life applications. We address this issue by introducing a new approximate hyperparameter selection (AHS) framework for OPE, which defines a notion of optimality (called selection criteria) in a quantitative and interpretable manner without hyperparameters. We then derive four AHS methods each of which has different characteristics such as convergence rate and time complexity. Finally, we verify effectiveness and limitation of these methods with a preliminary experiment.
翻訳日:2022-01-10 14:25:09 公開日:2022-01-07
# 堅牢なリスクベース能動学習アルゴリズムによる意思決定支援に関する研究

On robust risk-based active-learning algorithms for enhanced decision support ( http://arxiv.org/abs/2201.02555v1 )

ライセンス: Link先を確認
Aidan J. Hughes, Lawrence A. Bull, Paul Gardner, Nikolaos Dervilis, Keith Worden(参考訳) 分類モデルは、構造的健康モニタリング(SHM)システムやデジタルツインなどの物理資産管理技術の基本的な構成要素である。 以前の研究では、統計的分類器の開発のためのオンラインアプローチである \textit{risk-based active learning}を導入した。 意思決定は、データラベルを \textit{expected value of perfect information} (evpi) に従って優先的にクエリすることで考慮される。 意思決定パフォーマンスの向上など,リスクベースのアクティブラーニングアプローチを採用することで,いくつかのメリットが得られているが,ガイドクエリプロセスの結果,バイアスのサンプリングに関する問題が発生している。 このサンプリングバイアスは最終的に、アクティブラーニングの後半段階における意思決定パフォーマンスの低下として現れ、結果として失われたリソース/有効性に対応する。 本論文は,サンプリングバイアスの効果を否定する2つの新しいアプローチを提案する: \textit{semi-supervised learning} と \textit{discriminative classification models} である。 これらのアプローチはまず合成データセットを使用して視覚化され、その後実験ケーススタディ、特にZ24 Bridgeデータセットに適用される。 半教師付き学習アプローチは,各データセットに対するモデルに選択された生成分布の適合性に依存するバイアスのサンプリングに対する頑健性を示す。 対照的に、判別分類器はサンプリングバイアスの影響に対して優れた頑健性を有することが示される。 さらに, 意思決定支援監視システムで使用される統計分類器を慎重に選択することで, 監視キャンペーン中の検査数, リソース支出を削減できることが判明した。

Classification models are a fundamental component of physical-asset management technologies such as structural health monitoring (SHM) systems and digital twins. Previous work introduced \textit{risk-based active learning}, an online approach for the development of statistical classifiers that takes into account the decision-support context in which they are applied. Decision-making is considered by preferentially querying data labels according to \textit{expected value of perfect information} (EVPI). Although several benefits are gained by adopting a risk-based active learning approach, including improved decision-making performance, the algorithms suffer from issues relating to sampling bias as a result of the guided querying process. This sampling bias ultimately manifests as a decline in decision-making performance during the later stages of active learning, which in turn corresponds to lost resource/utility. The current paper proposes two novel approaches to counteract the effects of sampling bias: \textit{semi-supervised learning}, and \textit{discriminative classification models}. These approaches are first visualised using a synthetic dataset, then subsequently applied to an experimental case study, specifically, the Z24 Bridge dataset. The semi-supervised learning approach is shown to have variable performance; with robustness to sampling bias dependent on the suitability of the generative distributions selected for the model with respect to each dataset. In contrast, the discriminative classifiers are shown to have excellent robustness to the effects of sampling bias. Moreover, it was found that the number of inspections made during a monitoring campaign, and therefore resource expenditure, could be reduced with the careful selection of the statistical classifiers used within a decision-supporting monitoring system.
翻訳日:2022-01-10 14:24:56 公開日:2022-01-07
# 群集シーンのセマンティックセグメンテーションのための自己スーパービジョンドメイン適応によるスケール不変性と不確かさの活用

Leveraging Scale-Invariance and Uncertainity with Self-Supervised Domain Adaptation for Semantic Segmentation of Foggy Scenes ( http://arxiv.org/abs/2201.02588v1 )

ライセンス: Link先を確認
Javed Iqbal, Rehan Hafiz, Mohsen Ali(参考訳) 本稿では,密集した霧のシーンに対するセマンティックセグメンテーションのドメイン適応手法であるFogAdaptを提案する。 セマンティックセグメンテーションの領域シフトを減らすために重要な研究がなされているが、悪天候の場面への適応は未解決の課題である。 霧、スモッグ、ヘイズなどの気象条件によるシーンの視認性の大きな変化は、領域シフトを悪化させ、そのようなシナリオにおける教師なし適応を困難にしている。 フォギーシーンのセグメンテーションにおける領域シフトを最小限に抑えるために,自己エントロピーとマルチスケール情報拡張自己教師付きドメイン適応法(fogadapt)を提案する。 霧密度の増加がセグメンテーション確率に対して高い自己エントロピーをもたらすという実証的証拠を裏付ける形で,適応法を導くために自己エントロピーに基づく損失関数を導入する。 さらに、異なる画像スケールで得られる推測を不確実性によって合成重み付けし、対象領域に対してスケール不変な擬似ラベルを生成する。 これらのスケール不変な擬似ラベルは可視性とスケールのバリエーションにロバストである。 提案手法は,実際の霧のシーン適応と,実際の霧のシーン適応シナリオに対する合成非霧のシーン適応に対して評価される。 実験の結果,フォグアダプタは霧画像のセマンティックセグメンテーションにおいて,現在の最先端技術よりも優れていた。 具体的には、最先端のsota(state-of-the-ar t)法と比較して、fogadaptはfoggy zurichでは3.8%、foggy driving-denseでは6.0%、miouではfoggy drivingで3.6%、cityscapesからfoggy zurichに適応した。

This paper presents FogAdapt, a novel approach for domain adaptation of semantic segmentation for dense foggy scenes. Although significant research has been directed to reduce the domain shift in semantic segmentation, adaptation to scenes with adverse weather conditions remains an open question. Large variations in the visibility of the scene due to weather conditions, such as fog, smog, and haze, exacerbate the domain shift, thus making unsupervised adaptation in such scenarios challenging. We propose a self-entropy and multi-scale information augmented self-supervised domain adaptation method (FogAdapt) to minimize the domain shift in foggy scenes segmentation. Supported by the empirical evidence that an increase in fog density results in high self-entropy for segmentation probabilities, we introduce a self-entropy based loss function to guide the adaptation method. Furthermore, inferences obtained at different image scales are combined and weighted by the uncertainty to generate scale-invariant pseudo-labels for the target domain. These scale-invariant pseudo-labels are robust to visibility and scale variations. We evaluate the proposed model on real clear-weather scenes to real foggy scenes adaptation and synthetic non-foggy images to real foggy scenes adaptation scenarios. Our experiments demonstrate that FogAdapt significantly outperforms the current state-of-the-art in semantic segmentation of foggy images. Specifically, by considering the standard settings compared to state-of-the-art (SOTA) methods, FogAdapt gains 3.8% on Foggy Zurich, 6.0% on Foggy Driving-dense, and 3.6% on Foggy Driving in mIoU when adapted from Cityscapes to Foggy Zurich.
翻訳日:2022-01-10 14:24:28 公開日:2022-01-07
# (参考訳) 教育資源発見のための伝達学習パイプラインと先行パラグラフ生成への応用 [全文訳有]

A Transfer Learning Pipeline for Educational Resource Discovery with Application in Leading Paragraph Generation ( http://arxiv.org/abs/2201.02312v1 )

ライセンス: CC0 1.0
Irene Li, Thomas George, Alexander Fabbri, Tammy Liao, Benjamin Chen, Rina Kawamura, Richard Zhou, Vanessa Yan, Swapnil Hingmire, Dragomir Radev(参考訳) 効果的なヒューマンラーニングは、学習者の現在のトピックに対する理解と一致した幅広い教材の選定に依存する。 インターネットは人間の学習や教育に革命をもたらしたが、資源のアクセシビリティの障壁は依然として残っている。 すなわち、オンライン情報の過剰は、高品質な学習教材の探索と発見を困難にしている。 本稿では,新しいドメインに対する Web リソース発見を自動化する教育資源探索 (ERD) パイプラインを提案する。 パイプラインは、データ収集、特徴抽出、リソース分類の3つの主要なステップで構成される。 既知のソースドメインから始めて、トランスファーラーニングを通じて、2つの未認識のターゲットドメインでリソース発見を行います。 まず,シード文書のセットから頻繁なクエリを収集し,web上で検索することで,講義スライドや紹介ブログ投稿などの候補リソースを得る。 次に,新しい事前学習情報検索深層ニューラルネットワークモデルであるクエリ文書マスク言語モデリング(qd-mlm)を導入し,これらの候補リソースの深い特徴を抽出する。 木に基づく分類器を用いて、候補が正の学習資源であるかどうかを判定する。 パイプラインは2つの類似しているが新規なターゲットドメインで評価すると、F1スコアは0.94と0.82となる。 最後に、このパイプラインがどのようにアプリケーションに利益をもたらすかを実証する。 調査生成のための様々なwebリソースについて、私たちの知識を最大限に活用する最初の研究です。 また、NLP、Computer Vision(CV)、Statistics(STATS)から、39,728のWebリソースと659のクエリを手動でラベル付けしたコーパスもリリースしました。

Effective human learning depends on a wide selection of educational materials that align with the learner's current understanding of the topic. While the Internet has revolutionized human learning or education, a substantial resource accessibility barrier still exists. Namely, the excess of online information can make it challenging to navigate and discover high-quality learning materials. In this paper, we propose the educational resource discovery (ERD) pipeline that automates web resource discovery for novel domains. The pipeline consists of three main steps: data collection, feature extraction, and resource classification. We start with a known source domain and conduct resource discovery on two unseen target domains via transfer learning. We first collect frequent queries from a set of seed documents and search on the web to obtain candidate resources, such as lecture slides and introductory blog posts. Then we introduce a novel pretrained information retrieval deep neural network model, query-document masked language modeling (QD-MLM), to extract deep features of these candidate resources. We apply a tree-based classifier to decide whether the candidate is a positive learning resource. The pipeline achieves F1 scores of 0.94 and 0.82 when evaluated on two similar but novel target domains. Finally, we demonstrate how this pipeline can benefit an application: leading paragraph generation for surveys. This is the first study that considers various web resources for survey generation, to the best of our knowledge. We also release a corpus of 39,728 manually labeled web resources and 659 queries from NLP, Computer Vision (CV), and Statistics (STATS).
翻訳日:2022-01-10 14:21:05 公開日:2022-01-07
# 自由形式のテキストクエリによる手話ビデオ検索

Sign Language Video Retrieval with Free-Form Textual Queries ( http://arxiv.org/abs/2201.02495v1 )

ライセンス: Link先を確認
Amanda Duarte, Samuel Albanie, Xavier Gir\'o-i-Nieto, G\"ul Varol(参考訳) 手話ビデオのコレクションを効率的に検索できるシステムは手話技術の有用な応用として注目されている。 しかし,個々のキーワードを超えて動画を検索する問題は文献上では限定的な注目を集めている。 このギャップに対処するため、本研究では、自由形式のテキストクエリによる手話検索のタスクを紹介する。 書かれたクエリ(例えば、文)と多くの手話ビデオのコレクションが与えられた場合、このクエリに最もマッチするコレクション内の署名ビデオを見つけることが目的である。 本稿では,最近導入されたASL(American Sign Language)の大規模データセットであるHow2Signのクロスモーダル埋め込みを学習することで,この課題に対処することを提案する。 本研究は,ラベル付きトレーニングデータの不足に苦しむ手話映像埋め込みの品質がシステム性能の重要なボトルネックであることを示す。 そこで我々は,利用可能なトレーニングデータの範囲と規模を拡大するために,反復的なサインスポッティングラウンドと特徴アライメントをインターリーブするフレームワークであるspot-alignを提案する。 我々は,手話認識と提案したビデオ検索タスクの改善を通じて,堅牢な手話ビデオ埋め込みを学習するためのSPOT-ALIGNの有効性を検証する。

Systems that can efficiently search collections of sign language videos have been highlighted as a useful application of sign language technology. However, the problem of searching videos beyond individual keywords has received limited attention in the literature. To address this gap, in this work we introduce the task of sign language retrieval with free-form textual queries: given a written query (e.g., a sentence) and a large collection of sign language videos, the objective is to find the signing video in the collection that best matches the written query. We propose to tackle this task by learning cross-modal embeddings on the recently introduced large-scale How2Sign dataset of American Sign Language (ASL). We identify that a key bottleneck in the performance of the system is the quality of the sign video embedding which suffers from a scarcity of labeled training data. We, therefore, propose SPOT-ALIGN, a framework for interleaving iterative rounds of sign spotting and feature alignment to expand the scope and scale of available training data. We validate the effectiveness of SPOT-ALIGN for learning a robust sign video embedding through improvements in both sign recognition and the proposed video retrieval task.
翻訳日:2022-01-10 14:04:51 公開日:2022-01-07
# キャプションと美的ガイド付き画像クロッピングのための既存ディープネットワークの再構成

Repurposing Existing Deep Networks for Caption and Aesthetic-Guided Image Cropping ( http://arxiv.org/abs/2201.02280v1 )

ライセンス: Link先を確認
Nora Horanyi, Kedi Xia, Kwang Moo Yi, Abhishake Kumar Bojja, Ales Leonardis, Hyung Jin Chang(参考訳) 本稿では,ユーザ記述と美学に基づく画像の抽出を行う新しい最適化フレームワークを提案する。 収穫パラメータや収穫行動に回帰するためにディープ・ネットワークを訓練する既存の画像収穫法とは違って,画像キャプションや美容タスクの事前学習ネットワークを微調整せずに再利用することで,個別のネットワークのトレーニングを避けることで,収穫パラメータを直接最適化することを提案する。 具体的には、これらのネットワークの初期目的の損失を最小化する最高の作物パラメータを探索する。 最適化テーブルを作成するために、3つの戦略を提案します。 (i)マルチスケールバイリニアサンプリング。 (ii)作物の面積をアニールすることにより、パラメータ空間を効果的に減少させる。 (iii)複数の最適化結果の集約。 様々な量的・質的評価を通して,我々は,意図したユーザ記述によく適合した作物を生産し,美学的に満足できることを実証する。

We propose a novel optimization framework that crops a given image based on user description and aesthetics. Unlike existing image cropping methods, where one typically trains a deep network to regress to crop parameters or cropping actions, we propose to directly optimize for the cropping parameters by repurposing pre-trained networks on image captioning and aesthetic tasks, without any fine-tuning, thereby avoiding training a separate network. Specifically, we search for the best crop parameters that minimize a combined loss of the initial objectives of these networks. To make the optimization table, we propose three strategies: (i) multi-scale bilinear sampling, (ii) annealing the scale of the crop region, therefore effectively reducing the parameter space, (iii) aggregation of multiple optimization results. Through various quantitative and qualitative evaluations, we show that our framework can produce crops that are well-aligned to intended user descriptions and aesthetically pleasing.
翻訳日:2022-01-10 14:04:33 公開日:2022-01-07
# ビデオテキスト表現に基づくビデオ要約

Video Summarization Based on Video-text Representation ( http://arxiv.org/abs/2201.02494v1 )

ライセンス: Link先を確認
Li Haopeng, Ke Qiuhong, Gong Mingming, Zhang Rui(参考訳) 現代のビデオ要約法は、トレーニングのために大量の注釈付きデータを必要とするディープニューラルネットワークに基づいている。 しかし、ビデオ要約のための既存のデータセットは小規模であり、深層モデルの過剰フィッティングに繋がる。 大規模データセットのアノテーションが時間を要することを考慮し,ビデオのセマンティック表現を得るためのマルチモーダルな自己教師型学習フレームワークを提案する。 具体的には,映像の視覚情報とテキスト情報のセマンティック一貫性について検討し,新たに収集したビデオテキストペアのデータセット上で,マルチモーダルエンコーダの自己教師付き事前学習を行う。 さらに,映像中の重要なコンテンツを段階的にピンポイントし,より優れた要約を生成するプログレッシブビデオ要約手法を提案する。 最後に,ビデオ分類に基づく映像要約の品質評価のための客観的評価フレームワークを提案する。 ランク相関係数,f-スコア,提案する客観的評価において,本手法の有効性と優れていることが実証された。

Modern video summarization methods are based on deep neural networks which require a large amount of annotated data for training. However, existing datasets for video summarization are small-scale, easily leading to over-fitting of the deep models. Considering that the annotation of large-scale datasets is time-consuming, we propose a multimodal self-supervised learning framework to obtain semantic representations of videos, which benefits the video summarization task. Specifically, we explore the semantic consistency between the visual information and text information of videos, for the self-supervised pretraining of a multimodal encoder on a newly-collected dataset of video-text pairs. Additionally, we introduce a progressive video summarization method, where the important content in a video is pinpointed progressively to generate better summaries. Finally, an objective evaluation framework is proposed to measure the quality of video summaries based on video classification. Extensive experiments have proved the effectiveness and superiority of our method in rank correlation coefficients, F-score, and the proposed objective evaluation compared to the state of the art.
翻訳日:2022-01-10 14:04:15 公開日:2022-01-07
# Auxiliary Big Task を用いた不整合ラベルを用いたマルチタスク学習

Learning Multi-Tasks with Inconsistent Labels by using Auxiliary Big Task ( http://arxiv.org/abs/2201.02305v1 )

ライセンス: Link先を確認
Quan Feng, Songcan Chen(参考訳) マルチタスク学習は,タスク間の共通知識の伝達と活用により,モデルの性能を向上させる。 既存のMTLは主に、複数のタスク(MT)間のラベルセットが通常同じであるシナリオに焦点を当てており、タスク間の学習に利用することができる。 ほとんどまれな作業は、各タスクが少量のトレーニングサンプルしか持たず、ラベルセットが部分的に重複する、あるいは重複しない、というシナリオを探求する。 このようなMTの学習は、これらのタスク間の相関情報が少ないため、より難しい。 そこで本稿では,これらの課題のすべてをカバーするために,学習補助大タスクから豊富な情報と十分な数のクラスを共同で活用することにより,これらの課題を学習する枠組みを提案する。 学習した補助タスクの同じニューラルネットワークアーキテクチャを用いて個々のタスクを学習する上で、キーとなるアイデアは、利用可能なラベル情報を用いて、補助ネットワークの隠れた層ニューロンを適応的に訓練し、各タスクに対して対応するネットワークを構築することである。 実験結果は,最先端の手法と比較し,その効果を示す。

Multi-task learning is to improve the performance of the model by transferring and exploiting common knowledge among tasks. Existing MTL works mainly focus on the scenario where label sets among multiple tasks (MTs) are usually the same, thus they can be utilized for learning across the tasks. While almost rare works explore the scenario where each task only has a small amount of training samples, and their label sets are just partially overlapped or even not. Learning such MTs is more challenging because of less correlation information available among these tasks. For this, we propose a framework to learn these tasks by jointly leveraging both abundant information from a learnt auxiliary big task with sufficiently many classes to cover those of all these tasks and the information shared among those partially-overlapped tasks. In our implementation of using the same neural network architecture of the learnt auxiliary task to learn individual tasks, the key idea is to utilize available label information to adaptively prune the hidden layer neurons of the auxiliary network to construct corresponding network for each task, while accompanying a joint learning across individual tasks. Our experimental results demonstrate its effectiveness in comparison with the state-of-the-art approaches.
翻訳日:2022-01-10 14:03:56 公開日:2022-01-07
# 道路交通制御のためのオフライン強化学習

Offline Reinforcement Learning for Road Traffic Control ( http://arxiv.org/abs/2201.02381v1 )

ライセンス: Link先を確認
Mayuresh Kunjir and Sanjay Chawla(参考訳) 交通信号制御は都市移動において重要な問題であり、経済的および環境的な影響の可能性を秘めている。 交通制御のための強化学習(rl)への関心は高まっているが、これまでの研究は、実際にコストがかかるインタラクションを通じた学習にフォーカスしている。 代わりに、トラフィックに関する実体験データは利用可能であり、最小限のコストで活用できる。 オフラインまたはバッチRLの最近の進歩は、まさにそれを可能にした。 モデルベースのオフラインRL法は、特に、経験データを他の方法よりもはるかに良く一般化することが示されている。 モデルベースの学習フレームワークであるA-DACを構築し、データ不確実性に対処するために、悲観的なコストでデータセットからマルコフ決定プロセス(MDP)を推論する。 コストは、MDPのアダプティブな報酬形成によってモデル化され、以前の関連する作業と比較して、データの規則化が向上する。 A-DACは、サイズやバッチ収集ポリシーによって異なる複数のデータセットを用いて、複雑な信号化ラウンドアバウトで評価される。 評価結果から, 簡便なバッチ収集ポリシを用いて, 高性能な制御ポリシをデータ効率よく構築できることが示唆された。

Traffic signal control is an important problem in urban mobility with a significant potential of economic and environmental impact. While there is a growing interest in Reinforcement Learning (RL) for traffic control, the work so far has focussed on learning through interactions which, in practice, is costly. Instead, real experience data on traffic is available and could be exploited at minimal costs. Recent progress in offline or batch RL has enabled just that. Model-based offline RL methods, in particular, have been shown to generalize to the experience data much better than others. We build a model-based learning framework, A-DAC, which infers a Markov Decision Process (MDP) from dataset with pessimistic costs built in to deal with data uncertainties. The costs are modeled through an adaptive shaping of rewards in the MDP which provides better regularization of data compared to the prior related work. A-DAC is evaluated on a complex signalized roundabout using multiple datasets varying in size and in batch collection policy. The evaluation results show that it is possible to build high performance control policies in a data efficient manner using simplistic batch collection policies.
翻訳日:2022-01-10 14:03:35 公開日:2022-01-07
# 犯罪予測のための時空間時系列ハイパーグラフネットワーク

Spatial-Temporal Sequential Hypergraph Network for Crime Prediction ( http://arxiv.org/abs/2201.02435v1 )

ライセンス: Link先を確認
Lianghao Xia, Chao Huang, Yong Xu, Peng Dai, Liefeng Bo, Xiyue Zhang, Tianyi Chen(参考訳) 犯罪予測は公共の安全と資源最適化に不可欠だが、2つの側面から非常に難しい。 一 時空間にまたがる犯罪パターンのダイナミクス、犯罪事件は、空間的及び時間的領域の双方において不均等に分布する。 二 犯罪の微妙な意味を明らかにした異なる種類の犯罪(盗難、強盗、暴行、損害等)の間の時間的発展的依存関係 これらの課題に対処するために、複雑な犯罪の時空間パターンを包括的に符号化する空間時間系列ハイパーグラフネットワーク(ST-SHN)を提案する。 具体的には、長距離及びグローバルな文脈下での時空間力学を扱うために、ハイパーグラフ学習パラダイムを統合したグラフ構造化メッセージパッシングアーキテクチャを設計する。 動的環境における犯罪のカテゴリー別不均一関係を捉えるために,犯罪タイプ間の時間発展構造依存性を学習するマルチチャネルルーティング機構を導入する。 提案するST-SHNフレームワークは,様々な最先端ベースラインと比較して,予測性能を著しく向上させることができることを示す。 ソースコードはhttps://github.com/a kaxlh/st-shn。

Crime prediction is crucial for public safety and resource optimization, yet is very challenging due to two aspects: i) the dynamics of criminal patterns across time and space, crime events are distributed unevenly on both spatial and temporal domains; ii) time-evolving dependencies between different types of crimes (e.g., Theft, Robbery, Assault, Damage) which reveal fine-grained semantics of crimes. To tackle these challenges, we propose Spatial-Temporal Sequential Hypergraph Network (ST-SHN) to collectively encode complex crime spatial-temporal patterns as well as the underlying category-wise crime semantic relationships. In specific, to handle spatial-temporal dynamics under the long-range and global context, we design a graph-structured message passing architecture with the integration of the hypergraph learning paradigm. To capture category-wise crime heterogeneous relations in a dynamic environment, we introduce a multi-channel routing mechanism to learn the time-evolving structural dependency across crime types. We conduct extensive experiments on two real-world datasets, showing that our proposed ST-SHN framework can significantly improve the prediction performance as compared to various state-of-the-art baselines. The source code is available at: https://github.com/a kaxlh/ST-SHN.
翻訳日:2022-01-10 14:03:15 公開日:2022-01-07
# (参考訳) 説明可能なAI技術を用いた銀河外超コンパクトドワーフと球状クラスターの検出 [全文訳有]

Detection of extragalactic Ultra-Compact Dwarfs and Globular Clusters using Explainable AI techniques ( http://arxiv.org/abs/2201.01604v3 )

ライセンス: CC BY 4.0
Mohammad Mohammadi, Jarvin Mutatiina, Teymoor Saifollahi, Kerstin Bunte(参考訳) 銀河を取り巻く超コンパクト小星(UCD)や球状星団(GC)のような小さな恒星系は、これらの銀河を形成する融合現象のトレーサーとして知られている。 したがって、そのような系を特定することで銀河の集団形成、形成、進化を研究することができる。 しかし、画像データを用いたutds/gcsを検出する分光情報の欠如は極めて不確かである。 ここでは,これらの天体を前景の星や背景銀河から切り離すための機械学習モデルを,U,g,r,i,J,Ksという6つのフィルタでFornax銀河団のマルチ波長イメージングデータを用いて訓練することを目的とする。 オブジェクトのクラスは非常に不均衡であり、多くの自動分類技術に問題がある。 したがって、トレーニングデータの不均衡を処理するために、Synthetic Minority Over-Samplingを採用している。 次に,局所一般化行列学習ベクトル量子化(LGMLVQ)とランダムフォレスト(RF)の2つの分類器を比較した。 どちらの方法も精度と93パーセント以上のリコールでucds/gcsを識別でき、分類における各特徴次元%(色と角の大きさ)の重要性を反映した関連性を提供する。 どちらの方法も、この分類問題の重要なマーカーとして角の大きさを検出する。 u-i と i-Ks の色指数が最も重要な色であることは天文学的に予測されているが、我々は g-r などの色がより有益であることを示す。 優れた性能に加えて、lgmlvq法は、各クラス、クラス毎の代表サンプル、およびこのコントリビューションで示されているようにデータの非線形可視化を可能にすることで、さらなる解釈を可能にしている。 我々は、ucds/gcsを識別するために機械学習技術を使うことは、有望な結果につながると結論づける。

Compact stellar systems such as Ultra-compact dwarfs (UCDs) and Globular Clusters (GCs) around galaxies are known to be the tracers of the merger events that have been forming these galaxies. Therefore, identifying such systems allows to study galaxies mass assembly, formation and evolution. However, in the lack of spectroscopic information detecting UCDs/GCs using imaging data is very uncertain. Here, we aim to train a machine learning model to separate these objects from the foreground stars and background galaxies using the multi-wavelength imaging data of the Fornax galaxy cluster in 6 filters, namely u, g, r, i, J and Ks. The classes of objects are highly imbalanced which is problematic for many automatic classification techniques. Hence, we employ Synthetic Minority Over-sampling to handle the imbalance of the training data. Then, we compare two classifiers, namely Localized Generalized Matrix Learning Vector Quantization (LGMLVQ) and Random Forest (RF). Both methods are able to identify UCDs/GCs with a precision and a recall of >93 percent and provide relevances that reflect the importance of each feature dimension %(colors and angular sizes) for the classification. Both methods detect angular sizes as important markers for this classification problem. While it is astronomical expectation that color indices of u-i and i-Ks are the most important colors, our analysis shows that colors such as g-r are more informative, potentially because of higher signal-to-noise ratio. Besides the excellent performance the LGMLVQ method allows further interpretability by providing the feature importance for each individual class, class-wise representative samples and the possibility for non-linear visualization of the data as demonstrated in this contribution. We conclude that employing machine learning techniques to identify UCDs/GCs can lead to promising results.
翻訳日:2022-01-10 13:19:08 公開日:2022-01-07
# (参考訳) 指紋画像の「イントラクラス」分離性のための「ベンフォードの法則」の発散と機械学習技術の検討 [全文訳有]

An Investigation of "Benford's" Law Divergence and Machine Learning Techniques for "Intra-Class" Separability of Fingerprint Images ( http://arxiv.org/abs/2201.01699v2 )

ライセンス: CC BY 4.0
Aamo Iorliam, Orgem Emmanuel, and Yahaya I. Shehu(参考訳) 指紋データベースを攻撃者から守ることは、偽の受け入れ率や偽の拒絶率から保護するために非常に重要である。 指紋画像の識別における重要な特徴は、これらの異なる種類の指紋画像の特徴を利用することである。 本研究の目的は,ベンフォード法則の発散値と機械学習技術を用いて,指紋画像の分類を行うことである。 これらのベン・フォードの法則の発散値を機械学習技術に応用することは、指紋画像の分類において非常に効果的かつ効率的であることが証明されている。 提案手法の有効性を5つのデータセットで実証し,決定木とcnnに対して100%高い分類"精度"を達成した。 しかし、「ナイーブ」ベイズとロジスティック回帰はそれぞれ95.95%と90.54%の「精度」を達成した。 これらの結果から,ベンフォード法則の特徴,特に決定木とCNNを指紋画像の分類に効果的に適用できることが示唆された。

Protecting a fingerprint database against attackers is very vital in order to protect against false acceptance rate or false rejection rate. A key property in distinguishing fingerprint images is by exploiting the characteristics of these different types of fingerprint images. The aim of this paper is to perform the classification of fingerprint images using the Ben-ford's law divergence values and machine learning techniques. The usage of these Ben-ford's law divergence values as features fed into the machine learning techniques has proved to be very effective and efficient in the classification of fingerprint images. The effectiveness of our proposed methodology was demonstrated on five datasets, achieving very high classification "accuracies" of 100% for the Decision Tree and CNN. However, the "Naive" Bayes, and Logistic Regression achieved "accuracies" of 95.95%, and 90.54%, respectively. These results showed that Ben-ford's law features and machine learning techniques especially Decision Tree and CNN can be effectively applied for the classification of fingerprint images.
翻訳日:2022-01-10 12:53:29 公開日:2022-01-07
# (参考訳) DReyeVR:行動・インタラクション研究のための仮想現実駆動シミュレーションの民主化 [全文訳有]

DReyeVR: Democratizing Virtual Reality Driving Simulation for Behavioural & Interaction Research ( http://arxiv.org/abs/2201.01931v2 )

ライセンス: CC BY 4.0
Gustavo Silvera and Abhijat Biswas and Henny Admoni(参考訳) シミュレータは、運転実験の安全性、コスト、実験的な制御問題のために、運転に関する行動と相互作用の研究に不可欠なツールである。 最も先進的なシミュレーターは、高価格の360度プロジェクションシステムを使用して、視力、視野、没入性を確保する。 しかし、同様の視覚的忠実度は、バーチャルリアリティー(VR)ベースのビジュアルインターフェースで十分達成できる。 DReyeVRは、行動および相互作用研究の優先順位を念頭において設計された、オープンソースのVRベースの運転シミュレータプラットフォームである。 dreyevr("driver"と読む)はunreal engineとcarlaのautonomous vehicle simulatorをベースにしており、アイトラッキング、機能駆動ヘッドアップディスプレイ(hud)と車両オーディオ、カスタム定義可能なルートと交通シナリオ、実験的ロギング、リプレイ機能、rosとの互換性などを備えている。 このシミュレータを5000ドル以下で展開するために必要なハードウェアについて説明する。 最後に,DReyeVRを用いてインタラクション研究の質問に答える方法について,実例で述べる。

Simulators are an essential tool for behavioural and interaction research on driving, due to the safety, cost, and experimental control issues of on-road driving experiments. The most advanced simulators use expensive 360 degree projections systems to ensure visual fidelity, full field of view, and immersion. However, similar visual fidelity can be achieved affordably using a virtual reality (VR) based visual interface. We present DReyeVR, an open-source VR based driving simulator platform designed with behavioural and interaction research priorities in mind. DReyeVR (read "driver") is based on Unreal Engine and the CARLA autonomous vehicle simulator and has features such as eye tracking, a functional driving heads-up display (HUD) and vehicle audio, custom definable routes and traffic scenarios, experimental logging, replay capabilities, and compatibility with ROS. We describe the hardware required to deploy this simulator for under $5000$ USD, much cheaper than commercially available simulators. Finally, we describe how DReyeVR may be leveraged to answer an interaction research question in an example scenario.
翻訳日:2022-01-10 12:48:00 公開日:2022-01-07
# (参考訳) 第三者視点による自己中心的3次元ポーズ推定の促進 [全文訳有]

Enhancing Egocentric 3D Pose Estimation with Third Person Views ( http://arxiv.org/abs/2201.02017v2 )

ライセンス: CC BY 4.0
Ameya Dhamanaskar, Mariella Dimiccoli, Enric Corona, Albert Pumarola, Francesc Moreno-Noguer(参考訳) 本稿では,1台のウェアラブルカメラから撮影した映像から計算した人物の3次元身振り推定を強化する新しい手法を提案する。 鍵となるアイデアは、ジョイント埋め込みスペースで第1と第3のビューをリンクする高レベル機能を活用することだ。 このような埋め込み空間を学ぶために、私たちはfirst2third-poseという、ファーストビューとサードビューの両方からキャプチャされた人間の活動を描いた2000近いビデオのペア同期データセットを紹介します。 自己教師ありの方法で訓練された半シャム語アーキテクチャを用いて,空間的および動作領域的特徴を明示的に検討する。 実験の結果,本データセットで学習した統合多視点埋め込み空間は,カメラパラメータの知識やドメイン適応を必要とせず,任意の単視点エゴセントリックビデオから識別的特徴を抽出するのに有用であることがわかった。 本研究では,2つの非拘束データセットにおける自己中心型3次元身体ポーズ推定性能を,3つの教師付き最先端アプローチで大幅に改善する。 私たちのデータセットとコードは研究目的で利用できます。

In this paper, we propose a novel approach to enhance the 3D body pose estimation of a person computed from videos captured from a single wearable camera. The key idea is to leverage high-level features linking first- and third-views in a joint embedding space. To learn such embedding space we introduce First2Third-Pose, a new paired synchronized dataset of nearly 2,000 videos depicting human activities captured from both first- and third-view perspectives. We explicitly consider spatial- and motion-domain features, combined using a semi-Siamese architecture trained in a self-supervised fashion. Experimental results demonstrate that the joint multi-view embedded space learned with our dataset is useful to extract discriminatory features from arbitrary single-view egocentric videos, without needing domain adaptation nor knowledge of camera parameters. We achieve significant improvement of egocentric 3D body pose estimation performance on two unconstrained datasets, over three supervised state-of-the-art approaches. Our dataset and code will be available for research purposes.
翻訳日:2022-01-10 12:35:21 公開日:2022-01-07
# 貯留層モデルとしてのランダム化高次ファジィ認知マップの導入:太陽エネルギーと負荷予測を事例として

Introducing Randomized High Order Fuzzy Cognitive Maps as Reservoir Computing Models: A Case Study in Solar Energy and Load Forecasting ( http://arxiv.org/abs/2201.02158v2 )

ライセンス: Link先を確認
Omid Orang, Petr\^onio C\^andido de Lima Silva, Frederico Gadelha Guimar\~aes(参考訳) ファジィ認知マップ(FCM)は、概念間の依存関係を表すノード(概念)と重みからなる解釈可能な符号付き重み付きグラフ法として登場した。 FCMは様々な時系列予測アプリケーションでかなりの成果を上げてきたが、時間効率のトレーニング手法でFCMモデルを設計することは依然としてオープンな課題である。 そこで本研究では,R-HFCMをラベル付けしたランダム化高次FCMモデル群からなる,新しい一変量時系列予測手法を提案する。 提案するr-hfcmモデルの新規性は,fcm と echo state network (esn) の概念を,モデル学習に最小二乗法を適用した,リザーバコンピューティング (rc) モデルの効率的かつ特定ファミリーとして統合することに関連している。 別の観点からは、R-HFCMの構造は、入力層、貯留層、出力層のみをトレーニング可能とし、各サブ貯留層コンポーネントの重みはランダムに選択され、トレーニングプロセス中に一定に維持される。 ケーススタディとして、このモデルは、マレーシアのジョホール市の電力供給会社の時給電力負荷と温度データを含むマレーシアのデータセットと同様に、ブラジルのソーラーステーションの公共データによる太陽エネルギー予測について検討している。 また, 地図サイズ, 活性化関数, バイアスの有無, 貯水池の大きさがR-HFCM法の精度に及ぼす影響についても検討した。 その結果, 提案したR-HFCMモデルの性能が他の手法と比較された。 本研究は,FCMが時系列モデリングにおける力学の貯蓄を実現する新しい方法であることを示す。

Fuzzy Cognitive Maps (FCMs) have emerged as an interpretable signed weighted digraph method consisting of nodes (concepts) and weights which represent the dependencies among the concepts. Although FCMs have attained considerable achievements in various time series prediction applications, designing an FCM model with time-efficient training method is still an open challenge. Thus, this paper introduces a novel univariate time series forecasting technique, which is composed of a group of randomized high order FCM models labeled R-HFCM. The novelty of the proposed R-HFCM model is relevant to merging the concepts of FCM and Echo State Network (ESN) as an efficient and particular family of Reservoir Computing (RC) models, where the least squares algorithm is applied to train the model. From another perspective, the structure of R-HFCM consists of the input layer, reservoir layer, and output layer in which only the output layer is trainable while the weights of each sub-reservoir components are selected randomly and keep constant during the training process. As case studies, this model considers solar energy forecasting with public data for Brazilian solar stations as well as Malaysia dataset, which includes hourly electric load and temperature data of the power supply company of the city of Johor in Malaysia. The experiment also includes the effect of the map size, activation function, the presence of bias and the size of the reservoir on the accuracy of R-HFCM method. The obtained results confirm the outperformance of the proposed R-HFCM model in comparison to the other methods. This study provides evidence that FCM can be a new way to implement a reservoir of dynamics in time series modelling.
翻訳日:2022-01-10 12:23:51 公開日:2022-01-07
# RDFデータのためのスキップベクトル:特徴パターンの複雑さに基づく抽出

Skip Vectors for RDF Data: Extraction Based on the Complexity of Feature Patterns ( http://arxiv.org/abs/2201.01996v2 )

ライセンス: Link先を確認
Yota Minami, Ken Kaneiwa(参考訳) Resource Description Framework(RDF)は、Web上のリソースの属性や関連性などのメタデータを記述するためのフレームワークである。 RDFグラフの機械学習タスクには3つの方法がある。 (i)RDFグラフカーネルによるベクトルマシン(SVM)のサポート。 (ii)rdfグラフ埋め込み、及び (iii)関係グラフ畳み込みネットワーク。 本稿では,隣接エッジとノードの様々な組み合わせを抽出することにより,rdfグラフ内の各リソースの特徴を表現できる新しい特徴ベクトル(スキップベクトルと呼ばれる)を提案する。 スキップベクトルを低次元化するために,各特徴の情報ゲイン比に基づいて分類タスクの重要な特徴を選択する。 分類タスクは、SVM、k-nearest neighbors法、ニューラルネットワーク、ランダムフォレスト、AdaBoostなどの従来の機械学習アルゴリズムに、各リソースの低次元スキップベクトルを適用することで行うことができる。 Wikidata,DBpedia,YAG OなどのRDFデータを用いた評価実験において,本手法をSVM内のRDFグラフカーネルと比較した。 AIFB, MUTAG, BGS, AMベンチマーク上のRDF2vecやリレーショナルグラフ畳み込みネットワークなどのRDFグラフの埋め込み手法との比較を行った。

The Resource Description Framework (RDF) is a framework for describing metadata, such as attributes and relationships of resources on the Web. Machine learning tasks for RDF graphs adopt three methods: (i) support vector machines (SVMs) with RDF graph kernels, (ii) RDF graph embeddings, and (iii) relational graph convolutional networks. In this paper, we propose a novel feature vector (called a Skip vector) that represents some features of each resource in an RDF graph by extracting various combinations of neighboring edges and nodes. In order to make the Skip vector low-dimensional, we select important features for classification tasks based on the information gain ratio of each feature. The classification tasks can be performed by applying the low-dimensional Skip vector of each resource to conventional machine learning algorithms, such as SVMs, the k-nearest neighbors method, neural networks, random forests, and AdaBoost. In our evaluation experiments with RDF data, such as Wikidata, DBpedia, and YAGO, we compare our method with RDF graph kernels in an SVM. We also compare our method with the two approaches: RDF graph embeddings such as RDF2vec and relational graph convolutional networks on the AIFB, MUTAG, BGS, and AM benchmarks.
翻訳日:2022-01-10 12:23:20 公開日:2022-01-07
# Cross-SRN: クロスコンボリューションによる構造保存型スーパーリゾリューションネットワーク

Cross-SRN: Structure-Preserving Super-Resolution Network with Cross Convolution ( http://arxiv.org/abs/2201.01458v2 )

ライセンス: Link先を確認
Yuqing Liu, Qi Jia, Xin Fan, Shanshe Wang, Siwei Ma, Wen Gao(参考訳) 低解像度 (LR) 画像から高解像度 (SR) 画像への復元は, 正確かつ明確である。 既存のディープラーニングは、SR結果の視覚的知覚において重要な役割を果たす画像の構造情報をほとんど無視している。 本稿では,マルチスケールな特徴融合方式で構造情報の探索と保存を行う階層的特徴利用ネットワークを設計する。 まず,従来のエッジ検出器を用いたクロス畳み込みを提案し,エッジ特徴の局所化と表現を行う。 次に,クロス畳み込みブロック (CCB) を特徴正規化とチャネルアテンションを用いて設計し,特徴の固有相関を考察する。 最後に,MFFG(Multi-scale feature fusion group)を利用して,クロス畳み込みブロックを埋め込み,階層的に異なるスケールの構造的特徴の関係を発達させ,クロス-SRNと呼ばれる軽量な構造保存ネットワークを呼び起こす。 実験の結果, クロスsrnは, 構造的詳細が明確で, 最先端の手法に対して, 競争力や優れた修復性能を発揮できることが示されている。 さらに,構造テクスチャの豊富な画像を選択するための基準を設定する。 提案したCross-SRNは、選択したベンチマークで最先端の手法よりも優れており、ネットワークがエッジを保存する上で大きな優位性を持っていることを示す。

It is challenging to restore low-resolution (LR) images to super-resolution (SR) images with correct and clear details. Existing deep learning works almost neglect the inherent structural information of images, which acts as an important role for visual perception of SR results. In this paper, we design a hierarchical feature exploitation network to probe and preserve structural information in a multi-scale feature fusion manner. First, we propose a cross convolution upon traditional edge detectors to localize and represent edge features. Then, cross convolution blocks (CCBs) are designed with feature normalization and channel attention to consider the inherent correlations of features. Finally, we leverage multi-scale feature fusion group (MFFG) to embed the cross convolution blocks and develop the relations of structural features in different scales hierarchically, invoking a lightweight structure-preserving network named as Cross-SRN. Experimental results demonstrate the Cross-SRN achieves competitive or superior restoration performances against the state-of-the-art methods with accurate and clear structural details. Moreover, we set a criterion to select images with rich structural textures. The proposed Cross-SRN outperforms the state-of-the-art methods on the selected benchmark, which demonstrates that our network has a significant advantage in preserving edges.
翻訳日:2022-01-10 12:22:56 公開日:2022-01-07
# 深層学習に基づくモデル還元(DeePMR)法による化学動力学の簡易化

A deep learning-based model reduction (DeePMR) method for simplifying chemical kinetics ( http://arxiv.org/abs/2201.02025v2 )

ライセンス: Link先を確認
Zhiwei Wang, Yaoyu Zhang, Yiguang Ju, Weinan E, Zhi-Qin John Xu, Tianhan Zhang(参考訳) 化学動力学を簡易化する深層学習型モデル還元法 (DeePMR) を提案し, 高温自己着火, 完全旋回反応器 (PSR) およびn-ヘプタン/空気混合物の1次元自由拡散火炎を用いて検証した。 機構還元はブール空間上の最適化問題としてモデル化され、種に対応する各エントリであるブールベクトルが還元機構を表す。 最適化の目的は、事前選択されたベンチマーク量のエラー許容性を考慮すると、メカニズムサイズを最小化することである。 DeePMRの鍵となる考え方は、最適化問題の目的関数を定式化するためにディープニューラルネットワーク(DNN)を使用することである。 高次元ブール空間を効率的に探索するために、反復的DNN支援データサンプリングとDNN訓練手順を実装した。 以上の結果より, DNN はサンプリング効率を向上し, 10^5$ のサンプルのみを10^34} のサンプルとして選択し, 十分な精度を実現することができた。 その結果、DNNは鍵種を認識し、機構性能の低下を合理的に予測できることを示した。 良く訓練されたDNNは、逆最適化問題を解くことにより、最適還元機構を保証する。 着火遅延時間, 層火炎速度, PSRの温度を比較することにより, 結果として生じる骨格機構は少ない(45種)が, Path Flux Analysis (PFA) 法で得られた骨格機構(56種)と同等の精度が得られた。 さらに、大気・近距離条件(0.6から1.2の等価比)のみを考慮すれば、骨格機構はさらに28種に縮小できる。 DeePMRは、モデル還元を行う革新的な方法を提供し、燃焼領域におけるデータ駆動方式の大きな可能性を示している。

A deep learning-based model reduction (DeePMR) method for simplifying chemical kinetics is proposed and validated using high-temperature auto-ignitions, perfectly stirred reactors (PSR), and one-dimensional freely propagating flames of n-heptane/air mixtures. The mechanism reduction is modeled as an optimization problem on Boolean space, where a Boolean vector, each entry corresponding to a species, represents a reduced mechanism. The optimization goal is to minimize the reduced mechanism size given the error tolerance of a group of pre-selected benchmark quantities. The key idea of the DeePMR is to employ a deep neural network (DNN) to formulate the objective function in the optimization problem. In order to explore high dimensional Boolean space efficiently, an iterative DNN-assisted data sampling and DNN training procedure are implemented. The results show that DNN-assistance improves sampling efficiency significantly, selecting only $10^5$ samples out of $10^{34}$ possible samples for DNN to achieve sufficient accuracy. The results demonstrate the capability of the DNN to recognize key species and reasonably predict reduced mechanism performance. The well-trained DNN guarantees the optimal reduced mechanism by solving an inverse optimization problem. By comparing ignition delay times, laminar flame speeds, temperatures in PSRs, the resulting skeletal mechanism has fewer species (45 species) but the same level of accuracy as the skeletal mechanism (56 species) obtained by the Path Flux Analysis (PFA) method. In addition, the skeletal mechanism can be further reduced to 28 species if only considering atmospheric, near-stoichiometric conditions (equivalence ratio between 0.6 and 1.2). The DeePMR provides an innovative way to perform model reduction and demonstrates the great potential of data-driven methods in the combustion area.
翻訳日:2022-01-10 12:22:35 公開日:2022-01-07