このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220615となっている論文です。

PDF登録状況(公開日: 20220615)

TitleAuthorsAbstract論文公表日・翻訳日
# k$-armed banditsにおける範囲への適応

Adaptation to the Range in $K$-Armed Bandits ( http://arxiv.org/abs/2006.03378v3 )

ライセンス: Link先を確認
H\'edi Hadiji, Gilles Stoltz(参考訳) 我々は,$k$ arms の確率的バンドイット問題を考察し,それぞれ$[m,m]$ の範囲でサポートされている境界分布に関連付ける。 私たちは、$[m,M]$が知られていると仮定せず、この範囲を学ぶのにコストがかかることを示す。 実際、分布依存と分布なしの後悔の境界の間の新たなトレードオフが発生し、典型的な$\ln t$と$\sqrt{t}$バウンドを同時に達成することを防ぐ。 例えば、$\sqrt{T}$}distribution-free regret bound は、分布依存後悔境界が少なくとも位数$\sqrt{T}$であるときのみ達成できる。 我々は、新たなトレードオフによって示される後悔の利率を達成する戦略を示す。

We consider stochastic bandit problems with $K$ arms, each associated with a bounded distribution supported on the range $[m,M]$. We do not assume that the range $[m,M]$ is known and show that there is a cost for learning this range. Indeed, a new trade-off between distribution-dependent and distribution-free regret bounds arises, which prevents from simultaneously achieving the typical $\ln T$ and $\sqrt{T}$ bounds. For instance, a $\sqrt{T}$}distribution-free regret bound may only be achieved if the distribution-dependent regret bounds are at least of order $\sqrt{T}$. We exhibit a strategy achieving the rates for regret indicated by the new trade-off.
翻訳日:2022-11-25 04:18:34 公開日:2022-06-15
# チェスにおける個人行動の学習モデル

Learning Models of Individual Behavior in Chess ( http://arxiv.org/abs/2008.10086v3 )

ライセンス: Link先を確認
Reid McIlroy-Young, Russell Wang, Siddhartha Sen, Jon Kleinberg, Ashton Anderson(参考訳) 人間の振る舞いを捉えるaiシステムは、人間がこれらのシステムから学び、協力し、長期にわたってパートナーとして関与したいという状況で、ますます有用になりつつある。 人間指向AIシステムを開発するために、最適な行動を予測するのとは対照的に、人間の行動を予測するという問題が注目されている。 既存の研究は、人間の行動を総合的に捉えることに焦点を当てており、特定の個人がシステムとのインタラクションから得られる利益を制限する可能性がある。 チェスにおける個々の人間の行動の高精度な予測モデルを開発することにより,この作業ラインを拡大する。 AIシステムは何年も前に超人的パフォーマンスを達成したが、それでも人間は対戦相手と準備ツールの両方として、密接な相互作用をしており、個々のプレイヤーゲームに記録された膨大なコーパスがある。 人間のプレイヤーを訓練したAlphaZeroのオープンソース版であるMaiaを皮切りに、一連の微調整手法を適用して、特定のプレイヤーの動きの予測精度を大幅に向上できることを示した。 さらに、私たちのパーソナライズされたモデルは、スタイメトリー(与えられた動きのセットを予測した人)を実行するために使用できます。 我々の研究は、AIシステムを個人の行動により良い整合性を持たせる方法を示しており、それによって人間とAIのインタラクションが大幅に改善される可能性がある。

AI systems that can capture human-like behavior are becoming increasingly useful in situations where humans may want to learn from these systems, collaborate with them, or engage with them as partners for an extended duration. In order to develop human-oriented AI systems, the problem of predicting human actions -- as opposed to predicting optimal actions -- has received considerable attention. Existing work has focused on capturing human behavior in an aggregate sense, which potentially limits the benefit any particular individual could gain from interaction with these systems. We extend this line of work by developing highly accurate predictive models of individual human behavior in chess. Chess is a rich domain for exploring human-AI interaction because it combines a unique set of properties: AI systems achieved superhuman performance many years ago, and yet humans still interact with them closely, both as opponents and as preparation tools, and there is an enormous corpus of recorded data on individual player games. Starting with Maia, an open-source version of AlphaZero trained on a population of human players, we demonstrate that we can significantly improve prediction accuracy of a particular player's moves by applying a series of fine-tuning methods. Furthermore, our personalized models can be used to perform stylometry -- predicting who made a given set of moves -- indicating that they capture human decision-making at an individual level. Our work demonstrates a way to bring AI systems into better alignment with the behavior of individual people, which could lead to large improvements in human-AI interaction.
翻訳日:2022-10-26 02:55:26 公開日:2022-06-15
# 地震検出によるクラウドソーシングデータへの機械学習の適用

Applying Machine Learning to Crowd-sourced Data from Earthquake Detective ( http://arxiv.org/abs/2011.04740v2 )

ライセンス: Link先を確認
Omkar Ranadive, Suzan van der Lee, Vivian Tang, Kevin Chao(参考訳) 動的に引き起こされた地震と震動は、2種類の弱い地震信号を生成し、その検出、識別、認証は伝統的に厳しい分析を要求する。 近年、機械学習(ML)は、時系列内の特定の信号の検出を含む物理解析において、強力な効率向上ツールとして成長している。 しかし、ユビキタストレーニングデータが常に利用できるとは限らないため、ノイズに埋もれた弱い信号を検出することは、MLアルゴリズムに挑戦する。 このような状況下では、MLは人間の専門家が非効率であるのと同じくらい非効率である。 この効率性と効率の交差点では、過去10年間に人気が高まってきた第3のツール、市民科学を活用しています。 市民科学プロジェクト「地震検出」はボランティアの目と耳を利用して、潜在的に動的に引き起こされる(PDT)事象から地震図の弱い信号を検出し、分類する。 本稿では,pdt地震と震動のラベルをクラウドソースした地震探偵データセットを提案する。 我々は,これらのpdt地震イベントの分類に機械学習を適用し,これらの弱信号の分離・分類に直面する課題を探究する。 画像とウェーブレットに基づくアルゴリズムにより,微小地震からの信号を機械学習が検出できることを確認した。 また,本アルゴリズムは従来実証されていないpdtトレモールからの信号も検出可能であることを報告する。 市民科学データセットの分類とMLコードはオンラインで入手できる。

Dynamically triggered earthquakes and tremor generate two classes of weak seismic signals whose detection, identification, and authentication traditionally call for laborious analyses. Machine learning (ML) has grown in recent years to be a powerful efficiency-boosting tool in geophysical analyses, including the detection of specific signals in time series. However, detecting weak signals that are buried in noise challenges ML algorithms, in part because ubiquitous training data is not always available. Under these circumstances, ML can be as ineffective as human experts are inefficient. At this intersection of effectiveness and efficiency, we leverage a third tool that has grown in popularity over the past decade: Citizen science. Citizen science project Earthquake Detective leverages the eyes and ears of volunteers to detect and classify weak signals in seismograms from potentially dynamically triggered (PDT) events. Here, we present the Earthquake Detective data set - A crowd-sourced set of labels on PDT earthquakes and tremor. We apply Machine Learning to classify these PDT seismic events and explore the challenges faced in segregating and classifying such weak signals. We confirm that with an image- and wavelet-based algorithm, machine learning can detect signals from small earthquakes. In addition, we report that our ML algorithm can also detect signals from PDT tremor, which has not been previously demonstrated. The citizen science data set of classifications and ML code are available online.
翻訳日:2022-09-29 13:01:19 公開日:2022-06-15
# (参考訳) 胸部CTによる新型コロナウイルスの効率的な診断のための機械学習の新しい実装

A Novel Implementation of Machine Learning for the Efficient, Explainable Diagnosis of COVID-19 from Chest CT ( http://arxiv.org/abs/2207.07117v1 )

ライセンス: CC BY 4.0
Justin Liu(参考訳) 新型コロナウイルスのような世界的な健康危機では、迅速で信頼性の高い診断の必要性が高まっている。 現在、逆転写ポリメラーゼ連鎖反応(rt-pcr)のような一般的な試験方法は偽陰性率が高い。 その結果、新型コロナウイルスの患者はウイルスの感染を防ぐのに十分な正確な特定や治療ができていない。 しかし、近年の医療用CTデータの増加は、CTの徴候がCOVID-19を示す重要な特徴を含んでいることから、有望な道のりを示している。 本研究は,胸部CT検査から新型コロナウイルスの検出を機械学習で行うことを目的とした。 まず,923例中17,698例の胸部CTスライスから得られた。 画像前処理アルゴリズムは、無関係な特徴を除外してノイズを低減するために開発された。 転送学習は、バックボーンアーキテクチャを提供し、計算資源を節約するために、EfficientNetB7事前訓練モデルで実装された。 最後に、いくつかの説明可能性技術を用いて、感染領域の局所化と詳細なピクセル詳細の強調によるモデル性能の質的検証を行った。 提案したモデルは0.927の総合精度と0.958の感度を得た。 説明可能性尺度は、新型コロナウイルスの胸部CT画像に関連する重要な特徴と正常なコントロールとを正しく区別した。 ディープラーニングフレームワークは、放射線科医の判断を補完する、あるいは代替スクリーニングツールとして機能する、効率的で解釈可能なcovid-19診断を提供する。 今後の取り組みは、感染症の重症度、患者のリスク層化、予後に関する洞察を提供する可能性がある。

In a worldwide health crisis as exigent as COVID-19, there has become a pressing need for rapid, reliable diagnostics. Currently, popular testing methods such as reverse transcription polymerase chain reaction (RT-PCR) can have high false negative rates. Consequently, COVID-19 patients are not accurately identified nor treated quickly enough to prevent transmission of the virus. However, the recent rise of medical CT data has presented promising avenues, since CT manifestations contain key characteristics indicative of COVID-19. This study aimed to take a novel approach in the machine learning-based detection of COVID-19 from chest CT scans. First, the dataset utilized in this study was derived from three major sources, comprising a total of 17,698 chest CT slices across 923 patient cases. Image preprocessing algorithms were then developed to reduce noise by excluding irrelevant features. Transfer learning was also implemented with the EfficientNetB7 pre-trained model to provide a backbone architecture and save computational resources. Lastly, several explainability techniques were leveraged to qualitatively validate model performance by localizing infected regions and highlighting fine-grained pixel details. The proposed model attained an overall accuracy of 0.927 and a sensitivity of 0.958. Explainability measures showed that the model correctly distinguished between relevant, critical features pertaining to COVID-19 chest CT images and normal controls. Deep learning frameworks provide efficient, human-interpretable COVID-19 diagnostics that could complement radiologist decisions or serve as an alternative screening tool. Future endeavors may provide insight into infection severity, patient risk stratification, and prognosis.
翻訳日:2022-07-17 21:31:18 公開日:2022-06-15
# SmartMask - 自動セルフケアシステムの開発

SmartMask- Developing an automated self-care system ( http://arxiv.org/abs/2207.01492v1 )

ライセンス: Link先を確認
Ruchita Bhadre, Prathamesh Yeole, Tejas Ranka, Rohini Mudhalwadkar(参考訳) 新型コロナウイルス(covid-19)は世界を変え、恐怖と不安に満ちている。 誰もがコロナウイルスに感染する人々と接触することを恐れている。 完全なロックダウンを解除する一方で、新型コロナウイルスの感染拡大を抑えるためには、短期的・中期的にソーシャルディスタンシングを維持する必要がある。 自己規律の欠如、あるいは明らかにマスクを下げて新鮮な空気を吸うため、新型コロナウイルスの症状を示す人の近くに来ると脅威となる可能性がある。 着用時のマスクに触れないようWHOのガイドラインに従って,マスクを顔から引きずり上げることなく,センサを装着したソーシャルディスタンスを実現するウェアラブルデバイスを提案する。 SmartMaskは、私たちが他の誰かの近くにいるかどうかを検知し、自分自身を引き上げます。 周囲の物体のクローズネスを検知し、適切なアクションを取るように促したり、マスクを自動で引っ張ったりできるセンサー。 自動マスクに加えて、私たちは温度センサーを内蔵して、常に個人のバイタルをチェックし、周囲の仲間に警告を発します。 これにより、社会的距離が確保され、ウイルスの拡散を回避できる。

COVID-19 has changed our world and has filled people with fear and anxiety. Everyone has a fear of coming in contact with people having the Coronavirus. In Spite of releasing full lockdowns, there is still a pressing need to maintain social distancing in the short- to medium-term to control the spread of coronavirus. Due to lack of self discipline or obviously pulling down the mask to get some fresh air, might pose a threat when you come near a person showing COVID symptoms. Abiding to WHO guidelines to avoid touching the mask while wearing it, we propose a wearable device for no contact pulling up of mask on face and additionally to implement social distancing with sensors mounted on the device. The SmartMask will detect if we are in the vicinity of any other person and will pull itself up. With sensors for detecting the closeness of objects around you and prompting you to take a proper action or pull the mask automatically. Along with the automated mask we will incorporate a temperature sensor to check vitals of an individual at all times and give an alert to the peers around him. This will ensure social distancing and help in avoiding spread of the virus.
翻訳日:2022-07-10 11:56:58 公開日:2022-06-15
# ニュース検出のためのBi-LSTM法の提案

A Proposed Bi-LSTM Method to Fake News Detection ( http://arxiv.org/abs/2206.13982v1 )

ライセンス: Link先を確認
Taminul Islam, MD Alamin Hosen, Akhi Mony, MD Touhid Hasan, Israt Jahan, Arindom Kundu(参考訳) 近年、ソーシャルメディアの利用が爆発的に増加し、人々が他人とつながるようになった。 FacebookやTwitterのようなプラットフォームが登場して以来、このようなプラットフォームは私たちの話し方、考え、行動に影響を与える。 この問題は偽ニュースの存在によってコンテンツに対する信頼を損なう。 例えば、偽ニュースはアメリカ合衆国大統領選挙や他のサイトの結果に影響を与える決定要因だった。 この情報はあまりにも有害であるため、検出し抵抗するために必要なツールを確実に備えておくことが不可欠です。 本研究は,双方向長期短期記憶(bi-lstm)を用いて,ニュースが偽か本物かの判定を行った。 多くの外国のウェブサイトや新聞がデータ収集に使われた。 モデルの作成と実行の後、トレーニングデータによるモデル精度が84%、F1-macroスコアが62.0に達した。

Recent years have seen an explosion in social media usage, allowing people to connect with others. Since the appearance of platforms such as Facebook and Twitter, such platforms influence how we speak, think, and behave. This problem negatively undermines confidence in content because of the existence of fake news. For instance, false news was a determining factor in influencing the outcome of the U.S. presidential election and other sites. Because this information is so harmful, it is essential to make sure we have the necessary tools to detect and resist it. We applied Bidirectional Long Short-Term Memory (Bi-LSTM) to determine if the news is false or real in order to showcase this study. A number of foreign websites and newspapers were used for data collection. After creating & running the model, the work achieved 84% model accuracy and 62.0 F1-macro scores with training data.
翻訳日:2022-07-04 01:19:29 公開日:2022-06-15
# (参考訳) GUI画像からの知覚的GUIウィジェット群に対する心理的刺激的・教師なし推論

Psychologically-Inspired, Unsupervised Inference of Perceptual Groups of GUI Widgets from GUI Images ( http://arxiv.org/abs/2206.10352v1 )

ライセンス: CC BY 4.0
Mulong Xie, Zhenchang Xing, Sidong Feng, Chunyang Chen, Liming Zhu, Xiwei Xu(参考訳) グラフィカルユーザインタフェース(GUI)は、単に個々のウィジェットと無関係なウィジェットの集合ではなく、様々な視覚的手がかりによってグループに分割し、タブ、メニュー、カード、リストなどの高次の知覚単位を形成する。 ウィジェットの知覚グループにGUIを自動的に分割する機能は、GUI設計、実装、自動化タスクを自動化する視覚知能の基本的な構成要素である。 人間はGUIを有意義な知覚的ウィジェット群に高信頼性で分割することができるが、知覚的グループ化は依然として計算手法のオープンな課題である。 既存の手法は特定のGUIの実装や実行時情報に依存するアドホックなヒューリスティックや教師付き機械学習に依存している。 心理学と生物学的ビジョンの研究は、接続性、類似性、近接性、連続性といった視覚的な手がかりに基づいて、人間の視覚シーンにおける要素をどのようにグループ化するかを記述する一連の原則を定式化した。 これらの原則は、ドメインに依存しないものであり、審美的でユーザビリティを向上させるためにGUI上のコンテンツを構築するために、実践者が広く採用してきた。 これらの原理に着想を得て,GUIウィジェットの知覚群を推定するための教師なし画像ベース手法を提案する。 提案手法はGUI画像のみを必要とし,GUI実装とは独立であり,トレーニングデータを必要としない。 772のモバイルアプリと20のUI設計モックアップから収集した1,091のGUIのデータセットに対する評価は、我々の手法が最先端のアドホックヒューリスティックスベースのベースラインを著しく上回っていることを示している。 我々の知覚的グループ化手法は、UI関連のソフトウェアエンジニアリングタスクを改善する機会を生み出す。

Graphical User Interface (GUI) is not merely a collection of individual and unrelated widgets, but rather partitions discrete widgets into groups by various visual cues, thus forming higher-order perceptual units such as tab, menu, card or list. The ability to automatically segment a GUI into perceptual groups of widgets constitutes a fundamental component of visual intelligence to automate GUI design, implementation and automation tasks. Although humans can partition a GUI into meaningful perceptual groups of widgets in a highly reliable way, perceptual grouping is still an open challenge for computational approaches. Existing methods rely on ad-hoc heuristics or supervised machine learning that is dependent on specific GUI implementations and runtime information. Research in psychology and biological vision has formulated a set of principles (i.e., Gestalt theory of perception) that describe how humans group elements in visual scenes based on visual cues like connectivity, similarity, proximity and continuity. These principles are domain-independent and have been widely adopted by practitioners to structure content on GUIs to improve aesthetic pleasant and usability. Inspired by these principles, we present a novel unsupervised image-based method for inferring perceptual groups of GUI widgets. Our method requires only GUI pixel images, is independent of GUI implementation, and does not require any training data. The evaluation on a dataset of 1,091 GUIs collected from 772 mobile apps and 20 UI design mockups shows that our method significantly outperforms the state-of-the-art ad-hoc heuristics-based baseline. Our perceptual grouping method creates the opportunities for improving UI-related software engineering tasks.
翻訳日:2022-06-26 22:46:26 公開日:2022-06-15
# (参考訳) 膵腺癌における深層学習の不確かさ

Leveraging Uncertainty in Deep Learning for Pancreatic Adenocarcinoma Grading ( http://arxiv.org/abs/2206.08787v1 )

ライセンス: CC0 1.0
Biraja Ghoshal, Bhargab Ghoshal, and Allan Tucker(参考訳) 膵がんは、他のがんと比較して最悪の予後の1つであり、がんが進行した後に診断される。 膵腺癌診断のための現在の手指組織学的診断は時間を要するため、しばしば誤診に繋がる。 デジタル病理学において、AIに基づくがんのグレーディングは、信頼性と説明可能性を改善するために予測と不確実性の定量化において極めて正確でなければならない。 MGGおよびHE染色画像から得られた膵癌自動評価のためのベイジアン畳み込みニューラルネットワークを用いて,モデル予測の不確かさを推定する。 推定不確実性は予測誤差と相関することを示す。 具体的には、ハイパーパラメータによって制御される分類精度-拒絶トレードオフと誤分類コストを重み付けし、臨床現場で使用できる指標を用いて受け入れ閾値を設定するのに有用である。

Pancreatic cancers have one of the worst prognoses compared to other cancers, as they are diagnosed when cancer has progressed towards its latter stages. The current manual histological grading for diagnosing pancreatic adenocarcinomas is time-consuming and often results in misdiagnosis. In digital pathology, AI-based cancer grading must be extremely accurate in prediction and uncertainty quantification to improve reliability and explainability and are essential for gaining clinicians trust in the technology. We present Bayesian Convolutional Neural Networks for automated pancreatic cancer grading from MGG and HE stained images to estimate uncertainty in model prediction. We show that the estimated uncertainty correlates with prediction error. Specifically, it is useful in setting the acceptance threshold using a metric that weighs classification accuracy-reject trade-off and misclassification cost controlled by hyperparameters and can be employed in clinical settings.
翻訳日:2022-06-21 09:50:00 公開日:2022-06-15
# (参考訳) コンテンツの発見とコンテンツとの関わり

Discovery of the Content and Engagement with the Content ( http://arxiv.org/abs/2206.08786v1 )

ライセンス: CC BY 4.0
Pushkal Agarwal, Nishanth Sastry, Edward Wood(参考訳) 20世紀後半、議会は放送局にラジオの放送を許可し、最終的には特定の委員会の討論や会議のテレビ放送を許可した。 最近では、透明性と市民の関与をさらに改善するために、英国議会はこれらの討論や会議そのもののビデオを公開し、議論の詳細をツイートし始めた。 本稿では,これらのビデオに関する2年以上にわたるGoogle Analyticsデータを用いて,議会の議論のビデオデータへの関わりを特徴付ける。 エンゲージメントのパターンを分析する - 特定のビデオにどのように着地するか? このビデオ、つまり、ユーザが動画をクリックした原因となった(HTTP)レファラーのWebサイトは何ですか? ユーザがビデオに着地したら、どうやってそれに取り組むのか? そのビデオはいつまで再生されますか。 次の目的地は何ですか。 など これらの疑問に答えることは、人々がなぜ議会ビデオを使うのかを理解するための重要な第一歩であり、それゆえ、その国の市民のニーズに対して、ビデオ配信プラットフォームをどのように適応しパーソナライズすべきかを理解するためのものである。 An, Kwak, Jansen (2017)からインスピレーションを得て、ビデオビューマトリックスにNon-Negative Matrix Factorization (NMF) (Lee and Seung, 1999) を用いて、ユーザの異なるアーキタイプを特定し、アーキタイプを特定する。 検索(検索エンジンを通じて)、Referral(他の議会のウェブサイトから)、Direct(他のウェブサイトに埋め込まれた直接リンクを通じて)、Social(FacebookやTwitterのようなソーシャルプラットフォームを介して)、その他。

In the second half of the 20th century, Parliament allowed broadcasters to transmit radio and eventually television coverage of debates and meetings of select committees. More recently, in an effort to further improve transparency and citizen engagement, the UK Parliament started publishing videos of these debates and meetings itself, and tweeting details of debates as they happened. In this paper, we attempt to characterise how people engage with video data of Parliamentary debates by using more than two years of Google Analytics data around these videos. We analyse the patterns of engagement - how do they land on a particular video? How do they hear about this video, i.e., what is the (HTTP) referrer website that led to the user clicking on the video? Once a user lands on a video, how do they engage with it? For how long is the video played? What is the next destination? etc. Answering these questions is an important first step towards understanding why and how people use Parliamentary videos, and therefore, how the video delivery platform should be adapted and personalised for the needs of the citizens of the country. Taking inspiration from An, Kwak, and Jansen (2017), we employ Non-Negative Matrix Factorization (NMF) (Lee and Seung, 1999) on the video views matrix to identify different archetypes of users, and identify archetypes. A deeper examination of the archetypes we find reveals that they are primarily distinguished by how they land on the video page: Search (i.e., through a search engine), Referral (i.e., from other Parliamentary websites), Direct (i.e., through a direct link, which is embedded on another website), Social (i.e., through a social platform such as Facebook or Twitter) and Others.
翻訳日:2022-06-21 09:39:48 公開日:2022-06-15
# (参考訳) オーバージェネレーションは逆戻りできない:同時音声翻訳のための長適応平均ラギング

Over-Generation Cannot Be Rewarded: Length-Adaptive Average Lagging for Simultaneous Speech Translation ( http://arxiv.org/abs/2206.05807v2 )

ライセンス: CC BY-SA 4.0
Sara Papi, Marco Gaido, Matteo Negri, Marco Turchi(参考訳) 同時音声翻訳(simulst)システムは、最小のレイテンシで出力を生成することを目的としており、これは通常平均ラグ(al)で計算される。 本稿では,alが広く普及しているにもかかわらず,対応する参照よりも長い予測を生成するシステムに対して,alは過小評価されたスコアを提供していることを強調する。 また,最近のSimulSTシステムでは過剰発生傾向にあるため,この問題は実際的関連性があることも示している。 そこで本研究では,過渡現象を考慮し,過渡/過発生両システムの偏りのない評価を可能にする指標の修正版であるlaal(long-adaptive average lagging)を提案する。

Simultaneous speech translation (SimulST) systems aim at generating their output with the lowest possible latency, which is normally computed in terms of Average Lagging (AL). In this paper we highlight that, despite its widespread adoption, AL provides underestimated scores for systems that generate longer predictions compared to the corresponding references. We also show that this problem has practical relevance, as recent SimulST systems have indeed a tendency to over-generate. As a solution, we propose LAAL (Length-Adaptive Average Lagging), a modified version of the metric that takes into account the over-generation phenomenon and allows for unbiased evaluation of both under-/over-generating systems.
翻訳日:2022-06-19 06:23:08 公開日:2022-06-15
# (参考訳) Splatting を用いた画像分解能に対するセグメンテーションネットワークの適用

Fitting Segmentation Networks on Varying Image Resolutions using Splatting ( http://arxiv.org/abs/2206.06445v2 )

ライセンス: CC BY 4.0
Mikael Brudfors and Yael Balbastre and John Ashburner and Geraint Rees and Parashkev Nachev and Sebastien Ourselin and M. Jorge Cardoso(参考訳) イメージセグメンテーションで使用されるデータは、必ずしも同じグリッド上で定義されない。 これは特に医療画像に当てはまるもので、解像度、視野、方向がチャンネルや被験者によって異なる可能性がある。 したがって、画像とラベルは、前処理ステップとして、通常同じグリッドに再サンプリングされる。 しかし,再サンプリング操作では部分体積効果やぼやけが生じ,有効分解能が変化し,構造間のコントラストが低下する。 本稿では,入力データの解像度ミスマッチを自動的に処理するsplat層を提案する。 この層は、各画像をフォワードパスが行われる平均空間にプッシュする。 スプレート演算子が再サンプリング演算子の随伴であるので、平均空間予測をネイティブラベル空間に引き戻すことができ、損失関数が計算される。 これにより、補間による明示的な解決調整の必要性が排除される。 シミュレーションおよび実マルチモーダル磁気共鳴画像を用いた2つの公開データセットにおいて,本モデルは,前処理ステップとして再サンプリングを行うよりもセグメンテーション結果を改善することを示す。

Data used in image segmentation are not always defined on the same grid. This is particularly true for medical images, where the resolution, field-of-view and orientation can differ across channels and subjects. Images and labels are therefore commonly resampled onto the same grid, as a pre-processing step. However, the resampling operation introduces partial volume effects and blurring, thereby changing the effective resolution and reducing the contrast between structures. In this paper we propose a splat layer, which automatically handles resolution mismatches in the input data. This layer pushes each image onto a mean space where the forward pass is performed. As the splat operator is the adjoint to the resampling operator, the mean-space prediction can be pulled back to the native label space, where the loss function is computed. Thus, the need for explicit resolution adjustment using interpolation is removed. We show on two publicly available datasets, with simulated and real multi-modal magnetic resonance images, that this model improves segmentation results compared to resampling as a pre-processing step.
翻訳日:2022-06-19 06:14:22 公開日:2022-06-15
# (参考訳) 量子カーネルモデルにおける帯域幅の一般化

Bandwidth Enables Generalization in Quantum Kernel Models ( http://arxiv.org/abs/2206.06686v2 )

ライセンス: CC BY 4.0
Abdulkadir Canatar, Evan Peters, Cengiz Pehlevan, Stefan M. Wild, Ruslan Shaydulin(参考訳) 量子コンピュータは、いくつかの特殊な設定で古典的な最先端の機械学習手法を高速化することが知られている。 例えば、量子カーネルの手法は離散対数問題の学習版で指数関数的な高速化をもたらすことが示されている。 量子モデルの一般化を理解することは、実用上の問題において同様のスピードアップを実現するために不可欠である。 最近の結果は、一般化が量子的特徴空間の指数的大きさによって妨げられることを証明している。 これらの結果は量子モデルが量子ビットの数が大きい場合には一般化できないことを示唆するが、本論文ではこれらの結果は過度に制限的な仮定に依存していることを示す。 我々は、量子カーネル帯域幅と呼ばれるハイパーパラメータを変化させることで、より広いモデルのクラスを考える。 我々は、大量子ビット極限を解析し、閉形式で解ける量子モデルの一般化のための明示的な公式を提供する。 具体的には、帯域幅の値を変更することで、任意の対象関数に一般化できないモデルから、整列した目標に対する良好な一般化を得られることを示す。 本解析では,帯域幅がカーネル積分演算子のスペクトルを制御し,モデルの帰納バイアスを制御していることを示す。 この理論が量子モデルの一般化にどのように影響するかを正確に予測できることを実証的に証明する。 我々は、機械学習における量子優位性に対する結果の意義について論じる。

Quantum computers are known to provide speedups over classical state-of-the-art machine learning methods in some specialized settings. For example, quantum kernel methods have been shown to provide an exponential speedup on a learning version of the discrete logarithm problem. Understanding the generalization of quantum models is essential to realizing similar speedups on problems of practical interest. Recent results demonstrate that generalization is hindered by the exponential size of the quantum feature space. Although these results suggest that quantum models cannot generalize when the number of qubits is large, in this paper we show that these results rely on overly restrictive assumptions. We consider a wider class of models by varying a hyperparameter that we call quantum kernel bandwidth. We analyze the large-qubit limit and provide explicit formulas for the generalization of a quantum model that can be solved in closed form. Specifically, we show that changing the value of the bandwidth can take a model from provably not being able to generalize to any target function to good generalization for well-aligned targets. Our analysis shows how the bandwidth controls the spectrum of the kernel integral operator and thereby the inductive bias of the model. We demonstrate empirically that our theory correctly predicts how varying the bandwidth affects generalization of quantum models on challenging datasets, including those far outside our theoretical assumptions. We discuss the implications of our results for quantum advantage in machine learning.
翻訳日:2022-06-19 05:59:56 公開日:2022-06-15
# (参考訳) グレンジャー因果関係による解釈可能な歩行認識

Interpretable Gait Recognition by Granger Causality ( http://arxiv.org/abs/2206.06714v2 )

ライセンス: CC BY 4.0
Michal Balazia, Katerina Hlavackova-Schindler, Petr Sojka, Claudia Plant(参考訳) ヒト歩行周期のどの関節相互作用が生体特性として利用できるか? 現在の歩容認識の方法は、解釈可能性の欠如に苦しむ。 グラフィカル・グランガー因果推論による歩行系列の解釈可能な特徴表現を提案する。 3次元ジョイント空間軌跡の集合を構成する標準化モーションキャプチャ形式における人の歩行順序を、時間的に相互作用するジョイントの因果システムとして考察する。 グラフィカルグランジャーモデル(ggm)を用いて、関節間のいわゆるグランガー因果グラフを、人の歩行の判別および視覚的解釈可能な表現として得る。 我々は,GGM特徴空間における11個の距離関数を,確立された分類とクラス分離性評価指標を用いて評価した。 実験結果から, GGM における最も適切な距離関数は全ノルム距離と Ky-Fan 1-norm 距離であることがわかった。 実験により、GGMは最も識別性の高い関節相互作用を検出でき、5つの関連する解釈可能なモデルを正しい分類率とデイビーズ・ボルディン指数で上回っていることが示された。 提案したGGMモデルは、キネシオロジーにおける歩行分析やビデオ監視における歩行認識のための補完ツールとして機能する。

Which joint interactions in the human gait cycle can be used as biometric characteristics? Most current methods on gait recognition suffer from the lack of interpretability. We propose an interpretable feature representation of gait sequences by the graphical Granger causal inference. Gait sequence of a person in the standardized motion capture format, constituting a set of 3D joint spatial trajectories, is envisaged as a causal system of joints interacting in time. We apply the graphical Granger model (GGM) to obtain the so-called Granger causal graph among joints as a discriminative and visually interpretable representation of a person's gait. We evaluate eleven distance functions in the GGM feature space by established classification and class-separability evaluation metrics. Our experiments indicate that, depending on the metric, the most appropriate distance functions for the GGM are the total norm distance and the Ky-Fan 1-norm distance. Experiments also show that the GGM is able to detect the most discriminative joint interactions and that it outperforms five related interpretable models in correct classification rate and in Davies-Bouldin index. The proposed GGM model can serve as a complementary tool for gait analysis in kinesiology or for gait recognition in video surveillance.
翻訳日:2022-06-19 05:22:22 公開日:2022-06-15
# (参考訳) シネCMR解析のためのAI臨床ツールの大規模・多中心・多自由度検証

Large-scale, multi-centre, multi-disease validation of an AI clinical tool for cine CMR analysis ( http://arxiv.org/abs/2206.08137v1 )

ライセンス: CC BY 4.0
Jorge Mariscal-Harana (1), Clint Asher (1,2), Vittoria Vergani (1), Maleeha Rizvi (1,2), Louise Keehn (3), Raymond J. Kim (4), Robert M. Judd (4), Steffen E. Petersen (5,6,7,8), Reza Razavi (1,2), Andrew King (1), Bram Ruijsink (1,2,9), Esther Puyol-Ant\'on (1) ((1) School of Biomedical Engineering and Imaging Sciences, King's College London, London, UK, (2) Department of Adult and Paediatric Cardiology, Guy's and St Thomas' NHS Foundation Trust, London, UK, (3) Department of Clinical Pharmacology, King's College London British Heart Foundation Centre, St Thomas' Hospital, London, UK, (4) Division of Cardiology, Department of Medicine, Duke University, Durham, North Carolina, USA, (5) National Institute for Health Research (NIHR) Barts Biomedical Research Centre, William Harvey Research Institute, Queen Mary University London, London, UK, (6) Barts Heart Centre, St Bartholomew's Hospital, Barts Health NHS Trust, London, UK, (7) Health Data Research UK, London, UK, (8) Alan Turing Institute, London, UK, (9) Department of Cardiology, Heart and Lung Division, University Medical Center Utrecht, Utrecht, The Netherlands)(参考訳) 人工知能(AI)はバイオマーカー抽出のためのCMR解析の自動化を促進する可能性がある。 しかし、ほとんどのAIアルゴリズムは特定の入力ドメイン(例えば、単一スキャナベンダーや病院に最適化されたイメージングプロトコル)で訓練されており、他の入力ドメインからのCMRデータに適用した場合に最適に実行する堅牢性に欠ける。 方法:提案手法は,短軸画像の両室セグメンテーションのためのaiベースのアルゴリズムからなり,分析後の品質制御により誤検出を行う。 このセグメンテーションアルゴリズムは,2つのNHS病院 (n=2793) から得られた臨床CMRスキャンの大規模なデータセットを用いて訓練し,このデータセット (n=441) および5つの外部データセット (n=6808) から追加の症例について検証した。 検証データには、主要ベンダーのCMRスキャナーを使用して、12の異なるセンターで取得したさまざまな疾患の患者のCMRスキャンが含まれていた。 結果: 平均diceスコアは87%以上となり, 心筋バイオマーカーの絶対誤差の中央値 (<8.4ml (左室), <9.2ml (右室), <13.3g (左室質量), <5.9% (射出率) に翻訳した。 心疾患およびスキャナーベンダーの表現型による症例の階層化は良好であった。 CONCLUSIONS: 大規模マルチドメインCMRデータセットでトレーニングされた最先端AIアルゴリズムと分析後の品質管理を組み合わせることで,複数のセンタやベンダ,心臓疾患からの定期的な臨床データを堅牢に処理できるツールを提案する。 これはAIアルゴリズムの臨床的翻訳の基本的なステップである。 さらに, 本手法は, 余剰計算コストを伴わずに, 心機能(充満・放出速度, 局所壁運動, ひずみ)のバイオマーカーを多数生成する。

INTRODUCTION: Artificial intelligence (AI) has the potential to facilitate the automation of CMR analysis for biomarker extraction. However, most AI algorithms are trained on a specific input domain (e.g., single scanner vendor or hospital-tailored imaging protocol) and lack the robustness to perform optimally when applied to CMR data from other input domains. METHODS: Our proposed framework consists of an AI-based algorithm for biventricular segmentation of short-axis images, followed by a post-analysis quality control to detect erroneous results. The segmentation algorithm was trained on a large dataset of clinical CMR scans from two NHS hospitals (n=2793) and validated on additional cases from this dataset (n=441) and on five external datasets (n=6808). The validation data included CMR scans of patients with a range of diseases acquired at 12 different centres using CMR scanners from all major vendors. RESULTS: Our method yielded median Dice scores over 87%, translating into median absolute errors in cardiac biomarkers within the range of inter-observer variability: <8.4mL (left ventricle), <9.2mL (right ventricle), <13.3g (left ventricular mass), and <5.9% (ejection fraction) across all datasets. Stratification of cases according to phenotypes of cardiac disease and scanner vendors showed good agreement. CONCLUSIONS: We show that our proposed tool, which combines a state-of-the-art AI algorithm trained on a large-scale multi-domain CMR dataset with a post-analysis quality control, allows us to robustly deal with routine clinical data from multiple centres, vendors, and cardiac diseases. This is a fundamental step for the clinical translation of AI algorithms. Moreover, our method yields a range of additional biomarkers of cardiac function (filling and ejection rates, regional wall motion, and strain) at no extra computational cost.
翻訳日:2022-06-18 21:32:10 公開日:2022-06-15
# (参考訳) いつ介入するか? 不確実性と資源制約下における規範的プロセス監視

When to intervene? Prescriptive Process Monitoring Under Uncertainty and Resource Constraints ( http://arxiv.org/abs/2206.07745v1 )

ライセンス: CC BY 4.0
Mahmoud Shoush, Marlon Dumas(参考訳) 規範的プロセス監視アプローチは、過去のデータを利用して、負のケースアウトプットを防止したり、プロセスのパフォーマンスを改善する可能性のあるランタイム介入を規定する。 規範的プロセス監視手法の中心は、その介入方針である:進行中のケースで介入をトリガーするかどうかと時期を決定する決定関数。 この分野での以前の提案は、あるケースの現在の状態のみを考慮する介入ポリシーに依存している。 これらのアプローチは、基礎となる予測モデルの不確実性レベルと、後続状態への介入を遅らせるレベルを考えると、現在の状態への介入の引き金となるトレードオフを考慮しない。 さらに、リソースは常に介入(無限の能力)を実行するために利用できると仮定する。 本稿では,予測スコア,予測不確実性,介入の因果効果に基づいて進行中の事例をフィルタリング・ランク付けする規範的プロセス監視手法を導入し,利用可能な資源を考慮した利得関数を最大化するために介入をトリガーする。 この提案は実際のイベントログを用いて評価される。 その結果,提案手法は総利得に関する既存のベースラインを上回っていることがわかった。

Prescriptive process monitoring approaches leverage historical data to prescribe runtime interventions that will likely prevent negative case outcomes or improve a process's performance. A centerpiece of a prescriptive process monitoring method is its intervention policy: a decision function determining if and when to trigger an intervention on an ongoing case. Previous proposals in this field rely on intervention policies that consider only the current state of a given case. These approaches do not consider the tradeoff between triggering an intervention in the current state, given the level of uncertainty of the underlying predictive models, versus delaying the intervention to a later state. Moreover, they assume that a resource is always available to perform an intervention (infinite capacity). This paper addresses these gaps by introducing a prescriptive process monitoring method that filters and ranks ongoing cases based on prediction scores, prediction uncertainty, and causal effect of the intervention, and triggers interventions to maximize a gain function, considering the available resources. The proposal is evaluated using a real-life event log. The results show that the proposed method outperforms existing baselines regarding total gain.
翻訳日:2022-06-18 21:29:46 公開日:2022-06-15
# (参考訳) 単一セルデータにおける信号選択のためのマルチスケール手法

Multiscale methods for signal selection in single-cell data ( http://arxiv.org/abs/2206.07760v1 )

ライセンス: CC BY 4.0
Renee S. Hoekzema, Lewis Marsh, Otto Sumray, Xin Lu, Helen M. Byrne, Heather A. Harrington(参考訳) 単細胞転写産物の解析は、しばしばクラスタリング細胞に依存し、これらのクラスター間で異なる遺伝子を同定するために微分遺伝子発現(dge)を行う。 これらの離散分析は細胞タイプとマーカーを適切に決定するが、細胞タイプ間の連続的な変異は検出されない。 本研究では,複数スケールの足場における離散的かつ連続的な転写パターンを同時に考慮した,教師なし特徴選択のための3つの位相的動機付け数学的手法を提案する。 固有スコア (\mathrm{eig}_i$) は、グラフラプラシアンのスペクトル分解を用いて、データの低周波内在的パターニングに対応する信号や遺伝子をランク付けする。 マルチスケールラプラシアスコア(MLS)は、データ中の関連するスケールを探索し、これらのスケールで整合的に発現する遺伝子を選択する教師なしの方法である。 持続的レイリー商(PRQ)は、フィルターを備えたデータを取り、分岐過程(例えば擬時間)において異なる役割を持つ遺伝子の分離を可能にする。 本稿では,これらの手法を単細胞トランスクリプトミクスデータセットに適用し,その有用性を示す。 この方法は、以前に同定された遺伝子を検証し、コヒーレントな発現パターンを持つ追加の遺伝子を検出する。 遺伝子シグナルと基底空間の幾何学の相互作用を研究することで、3つの手法は遺伝子の多次元的なランク付けとそれらの間の関係の可視化を与える。

Analysis of single-cell transcriptomics often relies on clustering cells and then performing differential gene expression (DGE) to identify genes that vary between these clusters. These discrete analyses successfully determine cell types and markers; however, continuous variation within and between cell types may not be detected. We propose three topologically-motivated mathematical methods for unsupervised feature selection that consider discrete and continuous transcriptional patterns on an equal footing across multiple scales simultaneously. Eigenscores ($\mathrm{eig}_i$) rank signals or genes based on their correspondence to low-frequency intrinsic patterning in the data using the spectral decomposition of the graph Laplacian. The multiscale Laplacian score (MLS) is an unsupervised method for locating relevant scales in data and selecting the genes that are coherently expressed at these respective scales. The persistent Rayleigh quotient (PRQ) takes data equipped with a filtration, allowing separation of genes with different roles in a bifurcation process (e.g. pseudo-time). We demonstrate the utility of these techniques by applying them to published single-cell transcriptomics data sets. The methods validate previously identified genes and detect additional genes with coherent expression patterns. By studying the interaction between gene signals and the geometry of the underlying space, the three methods give multidimensional rankings of the genes and visualisation of relationships between them.
翻訳日:2022-06-18 21:15:32 公開日:2022-06-15
# (参考訳) ロバスト障害予後のための物理拡散型ファジィ生成逆ネットワーク

Physics-Infused Fuzzy Generative Adversarial Network for Robust Failure Prognosis ( http://arxiv.org/abs/2206.07762v1 )

ライセンス: CC BY 4.0
Ryan Nguyen, Shubhendu Kumar Singh, Rahul Rai(参考訳) 予後は、フィールド化されたシステムや製品の長寿を助ける。 システムの現在の健康状態の定量化は、システムの健康を維持するためにオペレーターの意思決定を強化することを可能にする。 システムのための予後を作成するのは困難です。 (a)未知の身体関係及び/又は (b)問題の開始を超えて現れるデータの不規則性。 伝統的に、物理ベース(PbM)、データ駆動(DDM)、ハイブリッドモデリングという3つの異なるモデリングパラダイムが予後モデルの開発に用いられてきた。 近年, PbM と DDM の両アプローチの長所を結合し, それらの限界を緩和するハイブリッドモデリング手法が, 予後領域において注目を集めている。 本稿では,ファジィ論理とgans(generative adversarial networks)の概念を組み合わせることによって,予後予測のための新しいハイブリッドモデリング手法について概説する。 ファジィGANに基づく手法は、ファジィ含意の集約に物理学に基づくモデルを組み込む。 この手法は学習手法の出力を現実的な解に制約する。 ベアリング問題の結果は、ファジィ論理モデルに物理ベースのアグリゲーションを加えることで、GANの健康をモデル化し、より正確なシステム予後を与える能力を向上させる効果を示す。

Prognostics aid in the longevity of fielded systems or products. Quantifying the system's current health enable prognosis to enhance the operator's decision-making to preserve the system's health. Creating a prognosis for a system can be difficult due to (a) unknown physical relationships and/or (b) irregularities in data appearing well beyond the initiation of a problem. Traditionally, three different modeling paradigms have been used to develop a prognostics model: physics-based (PbM), data-driven (DDM), and hybrid modeling. Recently, the hybrid modeling approach that combines the strength of both PbM and DDM based approaches and alleviates their limitations is gaining traction in the prognostics domain. In this paper, a novel hybrid modeling approach for prognostics applications based on combining concepts from fuzzy logic and generative adversarial networks (GANs) is outlined. The FuzzyGAN based method embeds a physics-based model in the aggregation of the fuzzy implications. This technique constrains the output of the learning method to a realistic solution. Results on a bearing problem showcases the efficacy of adding a physics-based aggregation in a fuzzy logic model to improve GAN's ability to model health and give a more accurate system prognosis.
翻訳日:2022-06-18 20:50:49 公開日:2022-06-15
# (参考訳) パレート不変リスク最小化

Pareto Invariant Risk Minimization ( http://arxiv.org/abs/2206.07766v1 )

ライセンス: CC BY 4.0
Yongqiang Chen, Kaiwen Zhou, Yatao Bian, Binghui Xie, Kaili Ma, Yonggang Zhang, Han Yang, Bo Han, James Cheng(参考訳) Invariant risk minimization (IRM) がアウト・オブ・ディストリビューションの一般化問題に対処することに成功したにもかかわらず、IRMは実際に適用した場合の最適性を損なうことができる。 IRMの実用的な変種(例えばIRMv1)は、IRMと大きなギャップがあることが示され、単純な問題であっても不変性を捉えられなかった。 さらに、IRMv1の最適化手順には、本質的に矛盾する2つの目的が含まれており、しばしば目標重みに対する注意深いチューニングが必要である。 上記の問題を解決するため,多目的最適化問題として IRM を再構成し,パレート不変リスク最小化 (PAIR) と呼ばれる新たな IRM 最適化手法を提案する。 PAIRは、目的の矛盾の下で最適化方向を適応的に調整することができる。 さらに,実際のirm変種に対して,適切な指導を行うことで,元のirmの障壁を克服できることを示す。 そこで我々はColoredMNISTを用いてPAIRの理論と有効性を確認する実験を行った。

Despite the success of invariant risk minimization (IRM) in tackling the Out-of-Distribution generalization problem, IRM can compromise the optimality when applied in practice. The practical variants of IRM, e.g., IRMv1, have been shown to have significant gaps with IRM and thus could fail to capture the invariance even in simple problems. Moreover, the optimization procedure in IRMv1 involves two intrinsically conflicting objectives, and often requires careful tuning for the objective weights. To remedy the above issues, we reformulate IRM as a multi-objective optimization problem, and propose a new optimization scheme for IRM, called PAreto Invariant Risk Minimization (PAIR). PAIR can adaptively adjust the optimization direction under the objective conflicts. Furthermore, we show PAIR can empower the practical IRM variants to overcome the barriers with the original IRM when provided with proper guidance. We conduct experiments with ColoredMNIST to confirm our theory and the effectiveness of PAIR.
翻訳日:2022-06-18 20:34:13 公開日:2022-06-15
# (参考訳) 障害診断領域における最適データ収集のためのディープラーニングと手持ち拡張現実システム

Deep Learning and Handheld Augmented Reality Based System for Optimal Data Collection in Fault Diagnostics Domain ( http://arxiv.org/abs/2206.07772v1 )

ライセンス: CC BY 4.0
Ryan Nguyen and Rahul Rai(参考訳) 現在のaiやロボットシステムと比較して、人間は簡単に環境をナビゲートでき、データ収集のようなタスクは簡単です。 しかし、人間はデータに隠された複雑な関係をモデル化するのが難しくなる。 AIシステム、特にディープラーニング(DL)アルゴリズムは、これらの複雑な関係を驚くほど捉えている。 人間と計算機械の強みを結合することで、収集されたデータを同時に最小化し、複雑な入出力マッピングモデルを構築することができる。 本稿では,新しいヒューマンマシンインタラクションフレームワークを用いて,最小限のデータで障害診断を行うことにより,この結合を実現する。 複雑なシステムの障害を診断するためのデータ収集は困難で時間を要する。 必要なデータの最小化は、障害診断におけるデータ駆動モデルの実用性を高める。 このフレームワークは、ユーザに対して、障害診断モデルのトレーニングとテストに使用されるデータの違いを軽減するデータ収集の指示を提供する。 このフレームワークは,(1)トレーニングデータセットを開発するためのデータ収集のための強化学習アルゴリズム,(2)障害診断のためのディープラーニングアルゴリズム,(3)データテストのためのデータ収集のための手持ち拡張現実アプリケーション,の3つのコンポーネントで構成されている。 提案するフレームワークは,各障害条件のインスタンスが1つしかない新しいデータセットに対して,100\%以上の精度とリコールを提供する。 さらに、手持ちの拡張現実アプリケーションのユーザエクスペリエンスを計測するためにユーザビリティスタディを実施し、すべてのユーザが提供されたステップに従うことができた。

Compared to current AI or robotic systems, humans navigate their environment with ease, making tasks such as data collection trivial. However, humans find it harder to model complex relationships hidden in the data. AI systems, especially deep learning (DL) algorithms, impressively capture those complex relationships. Symbiotically coupling humans and computational machines' strengths can simultaneously minimize the collected data required and build complex input-to-output mapping models. This paper enables this coupling by presenting a novel human-machine interaction framework to perform fault diagnostics with minimal data. Collecting data for diagnosing faults for complex systems is difficult and time-consuming. Minimizing the required data will increase the practicability of data-driven models in diagnosing faults. The framework provides instructions to a human user to collect data that mitigates the difference between the data used to train and test the fault diagnostics model. The framework is composed of three components: (1) a reinforcement learning algorithm for data collection to develop a training dataset, (2) a deep learning algorithm for diagnosing faults, and (3) a handheld augmented reality application for data collection for testing data. The proposed framework has provided above 100\% precision and recall on a novel dataset with only one instance of each fault condition. Additionally, a usability study was conducted to gauge the user experience of the handheld augmented reality application, and all users were able to follow the provided steps.
翻訳日:2022-06-18 20:16:54 公開日:2022-06-15
# (参考訳) ロバスト攻撃グラフ生成

Robust Attack Graph Generation ( http://arxiv.org/abs/2206.07776v1 )

ライセンス: CC BY 4.0
Dennis Mouwen, Sicco Verwer, Azqa Nadeem(参考訳) 本稿では,入力修正に頑健なオートマトンモデルを学ぶ手法を提案する。 シーケンスを学習したモデルに反復的に調整し、配列を調整したバージョンに修正し、モデルを再学習する。 オートマトン学習アルゴリズムは通常、ソフトウェアシステムの頻繁な動作のモデリングに非常に適しています。 私たちのソリューションは、モデルで表現される頻繁な動作と一致しているので、不適切なシーケンスに存在する振舞いを学習するためにも使用できます。 本手法をSAGEツールに適用し,侵入警報からの攻撃行動をモデル化する。 実験では,シーケンスからシンボルの追加や削除といったノイズを処理できるモデルが学習できることを実証する。 さらに、トレーニングデータに適合するより簡潔なモデルを学習する。

We present a method to learn automaton models that are more robust to input modifications. It iteratively aligns sequences to a learned model, modifies the sequences to their aligned versions, and re-learns the model. Automaton learning algorithms are typically very good at modeling the frequent behavior of a software system. Our solution can be used to also learn the behavior present in infrequent sequences, as these will be aligned to the frequent ones represented by the model. We apply our method to the SAGE tool for modeling attacker behavior from intrusion alerts. In experiments, we demonstrate that our algorithm learns models that can handle noise such as added and removed symbols from sequences. Furthermore, it learns more concise models that fit better to the training data.
翻訳日:2022-06-18 20:00:05 公開日:2022-06-15
# (参考訳) 繰り返し負荷を受ける液状化砂の細孔圧力応答予測のための機械学習手法

A machine learning approach to predicting pore pressure response in liquefiable sands under cyclic loading ( http://arxiv.org/abs/2206.07780v1 )

ライセンス: CC BY 4.0
Yongjin Choi, Krishna Kumar(参考訳) せん断応力履歴は液化性土壌の細孔圧力応答を制御する。 せん断応力振幅がピーク前の振幅よりも低い場合、過大な気孔圧力は循環荷重下では増加しない。 多くの洗練された構成モデルは、循環液状化実験で観測された遮蔽効果を捉えられなかった。 我々はLSTMニューラルネットワークに基づくデータ駆動機械学習モデルを構築し,循環負荷下での土壌の液状化反応を捉える。 LSTMモデルは, 異なる循環型単純せん断載荷条件の下で, ネバダ砂上の12個の実験室循環型単純せん断試験を訓練した。 lstmモデルの特徴は、細孔水圧応答を予測するために、土壌の相対密度と以前の応力履歴を含む。 LSTMモデルでは, 遮蔽効果と密度効果を考慮した3つのサイクリック単純試験結果に対して, 細孔圧力応答の再現に成功した。

Shear stress history controls the pore pressure response in liquefiable soils. The excess pore pressure does not increase under cyclic loading when shear stress amplitude is lower than the peak prior amplitude -- the shielding effect. Many sophisticated constitutive models fail to capture the shielding effect observed in the cyclic liquefaction experiments. We develop a data-driven machine learning model based on the LSTM neural network to capture the liquefaction response of soils under cyclic loading. The LSTM model is trained on 12 laboratory cyclic simple shear tests on Nevada sand in loose and dense conditions subjected to different cyclic simple shear loading conditions. The LSTM model features include the relative density of soil and the previous stress history to predict the pore water pressure response. The LSTM model successfully replicates the pore pressure response for three cyclic simple test results considering the shielding and density effects.
翻訳日:2022-06-18 19:51:48 公開日:2022-06-15
# (参考訳) 分散結合によるIoTデータ市場への参加とデータ評価

Participation and Data Valuation in IoT Data Markets through Distributed Coalitions ( http://arxiv.org/abs/2206.07785v1 )

ライセンス: CC BY 4.0
Shashi Raj Pandey, Pierre Pinson, Petar Popovski(参考訳) 本稿では,機械学習モデルのトレーニングに使用されるIoT(Internet of Things)データ市場について考察する。 データはネットワークを介してマーケットプラットフォームに供給され、そのデータの価格は、機械学習モデルにもたらした価値に基づいて制御される。 ゲーム理論におけるデータの相関性について検討し、最終的にはデバイスと市場の相互利益を強調するデータトレーディング機構のための簡易分散ソリューションを導出する。 鍵となる提案は、IoTネットワークにおける信頼の移転とデータ交換の経済的価値に加えて、参加の可用性と不均一性の課題を共同で解決する、市場のための効率的なアルゴリズムである。 提案手法は,情報漏洩を回避するために相関データを持つデバイス間の協調機会を強化することにより,データ市場を確立する。 そこで、類似したデータ型を持つiotデバイス間の結合の社会的価値を最大化するネットワーク全体の最適化問題を開発し、同時に、ネットワーク外部性によるコスト、すなわちデータ相関による情報漏洩の影響や機会コストを最小化する。 最後に,定式化問題の構造を分散連立ゲームとして明らかにし,単純化した分割・マージアルゴリズムにより解いた。 シミュレーションの結果,信頼されたIoTデータ市場に向けたメカニズム設計の有効性が示され,各販売者の平均支払額は最大32.72%増加した。

This paper considers a market for Internet of Things (IoT) data that is used to train machine learning models. The data is supplied to the market platform through a network and the price of the data is controlled based on the value it brings to the machine learning model. We explore the correlation property of data in a game-theoretical setting to eventually derive a simplified distributed solution for a data trading mechanism that emphasizes the mutual benefit of devices and the market. The key proposal is an efficient algorithm for markets that jointly addresses the challenges of availability and heterogeneity in participation, as well as the transfer of trust and the economic value of data exchange in IoT networks. The proposed approach establishes the data market by reinforcing collaboration opportunities between devices with correlated data to avoid information leakage. Therein, we develop a network-wide optimization problem that maximizes the social value of coalition among the IoT devices of similar data types; at the same time, it minimizes the cost due to network externalities, i.e., the impact of information leakage due to data correlation, as well as the opportunity costs. Finally, we reveal the structure of the formulated problem as a distributed coalition game and solve it following the simplified split-and-merge algorithm. Simulation results show the efficacy of our proposed mechanism design toward a trusted IoT data market, with up to 32.72% gain in the average payoff for each seller.
翻訳日:2022-06-18 19:44:49 公開日:2022-06-15
# (参考訳) ディープラーニングにおける校正モデル不確かさについて

On Calibrated Model Uncertainty in Deep Learning ( http://arxiv.org/abs/2206.07795v1 )

ライセンス: CC0 1.0
Biraja Ghoshal and Allan Tucker(参考訳) ベイズニューラルネットワークの近似後部による推定不確実性は誤校正しがちであり、これは明らかに非対称なコストや大きな損失を持つ重要なタスクにおいて過度に信頼される予測をもたらす。 本稿では,損失補償ベイズフレームワークの近似推論を,ディープラーニングにおける不確かさを校正するためのモデルに対する期待効用を最大化することにより,ドロップウェイトベースのベイズニューラルネットワークに拡張する。 さらに, 損失補償不確実性に基づく判断は, 簡便な代替手段よりも診断性能を向上できることを示した。 本稿では,最大不確かさ校正誤差(MUCE)を校正信頼度を測定する指標として提案する。特にリスクの高いアプリケーションでは,誤差と推定不確かさの最悪の偏差を最小限に抑えることが目的である。 実験では,予測精度としてwasserstein距離を解釈し,予測誤差と推定不確実性との関係を示した。 x線画像からcovid-19検出法の有効性を評価した。 実験の結果,モデルの精度に影響を与えずに誤校正を著しく低減し,コンピュータによる診断の信頼性を向上させることができた。

Estimated uncertainty by approximate posteriors in Bayesian neural networks are prone to miscalibration, which leads to overconfident predictions in critical tasks that have a clear asymmetric cost or significant losses. Here, we extend the approximate inference for the loss-calibrated Bayesian framework to dropweights based Bayesian neural networks by maximising expected utility over a model posterior to calibrate uncertainty in deep learning. Furthermore, we show that decisions informed by loss-calibrated uncertainty can improve diagnostic performance to a greater extent than straightforward alternatives. We propose Maximum Uncertainty Calibration Error (MUCE) as a metric to measure calibrated confidence, in addition to its prediction especially for high-risk applications, where the goal is to minimise the worst-case deviation between error and estimated uncertainty. In experiments, we show the correlation between error in prediction and estimated uncertainty by interpreting Wasserstein distance as the accuracy of prediction. We evaluated the effectiveness of our approach to detecting Covid-19 from X-Ray images. Experimental results show that our method reduces miscalibration considerably, without impacting the models accuracy and improves reliability of computer-based diagnostics.
翻訳日:2022-06-18 19:12:23 公開日:2022-06-15
# (参考訳) FixEval: 競合プログラミング問題に対するプログラム修正の実行に基づく評価

FixEval: Execution-based Evaluation of Program Fixes for Competitive Programming Problems ( http://arxiv.org/abs/2206.07796v1 )

ライセンス: CC BY 4.0
Md Mahim Anjum Haque and Wasi Uddin Ahmad and Ismini Lourentzou and Chris Brown(参考訳) ソースコードリポジトリは大きなコードベースで構成されており、しばしばエラーを起こしやすいプログラムを含んでいる。 ソフトウェアの複雑さの増大は、これらの欠陥を特定し修正するための時間とコストの大幅な増加につながった。 バギーコードの修正を自動的に生成する様々な方法が存在する。 しかしながら、特定のバグに対するソリューションの大規模な組み合わせスペースのため、生成されたコードを効果的に評価するためのツールやデータセットは多くない。 本稿では,競合プログラミング問題に対するバギーコード提出とその修正を含むベンチマークであるfixevalを紹介する。 我々は,モデル生成プログラム修正の正確性を評価し評価するためのリッチテストスイートを提案する。 プログラミング言語上で事前訓練された2つのトランスフォーマー言語モデルをベースラインとして、マッチベースおよび実行ベース評価指標を用いて比較する。 提案実験では,マッチベースメトリクスはモデル生成プログラムの修正を正確に反映しないが,実行ベースの手法では,そのソリューション用に特別に設計されたすべてのケースとシナリオを通してプログラムを評価する。 したがって、FixEvalは実際の自動バグ修正とモデル生成コード評価へのステップを提供すると思います。

Source code repositories consist of large codebases, often containing error-prone programs. The increasing complexity of software has led to a drastic rise in time and costs for identifying and fixing these defects. Various methods exist to automatically generate fixes for buggy code. However, due to the large combinatorial space of possible solutions for a particular bug, there are not many tools and datasets available to evaluate generated code effectively. In this work, we introduce FixEval, a benchmark comprising buggy code submissions to competitive programming problems and their respective fixes. We introduce a rich test suite to evaluate and assess the correctness of model-generated program fixes. We consider two Transformer language models pretrained on programming languages as our baselines, and compare them using match-based and execution-based evaluation metrics. Our experiments show that match-based metrics do not reflect model-generated program fixes accurately, while execution-based methods evaluate programs through all cases and scenarios specifically designed for that solution. Therefore, we believe FixEval provides a step towards real-world automatic bug fixing and model-generated code evaluation.
翻訳日:2022-06-18 19:02:57 公開日:2022-06-15
# (参考訳) ガウスブルーノイズ

Gaussian Blue Noise ( http://arxiv.org/abs/2206.07798v1 )

ライセンス: CC BY 4.0
Abdalla G. M. Ahmed, Jing Ren, Peter Wonka(参考訳) 青いノイズスペクトルを持つ点分布を生成する様々なアプローチのうち、ガウス核を用いた最適化フレームワークについて論じる。 最適化パラメータの賢明な選択により、この手法は前例のない品質を実現し、最適輸送(BNOT)アプローチによって達成された最先端の技術を確実に超えることを示す。 さらに,本アルゴリズムは,前例のない高品質な高次元ブルーノイズセットを実現し,同じ品質を維持しつつ,スムーズかつ高次元に拡張可能であることを示す。 最後に,適応サンプリングの拡張を示す。

Among the various approaches for producing point distributions with blue noise spectrum, we argue for an optimization framework using Gaussian kernels. We show that with a wise selection of optimization parameters, this approach attains unprecedented quality, provably surpassing the current state of the art attained by the optimal transport (BNOT) approach. Further, we show that our algorithm scales smoothly and feasibly to high dimensions while maintaining the same quality, realizing unprecedented high-quality high-dimensional blue noise sets. Finally, we show an extension to adaptive sampling.
翻訳日:2022-06-18 18:38:08 公開日:2022-06-15
# (参考訳) 大人とCompASを超えて:マルチクラス予測の公正性

Beyond Adult and COMPAS: Fairness in Multi-Class Prediction ( http://arxiv.org/abs/2206.07801v1 )

ライセンス: CC BY 4.0
Wael Alghamdi, Hsiang Hsu, Haewon Jeong, Hao Wang, P. Winston Michalak, Shahab Asoodeh, Flavio P. Calmon(参考訳) 本稿では,多クラス分類タスクに対して公平な確率的分類器を生成する問題を考える。 この問題を、事前訓練された(そして潜在的に不公平な)分類器を、対象のグループフェアネス要件を満たすモデルの集合に「投影」するという観点から定式化する。 新しい投影モデルは、事前学習された分類器の出力を乗法係数で後処理することで与えられる。 投影された分類器を並列化して計算し、サンプルの複雑性と収束保証の両方を導出する。 最新のベンチマークと総合的な数値比較を行った結果,提案手法は精度・公正トレードオフ曲線の点で競争性能を保ちながら,大規模データセット上で良好なランタイムを実現していることがわかった。 また,複数のクラス,複数の交叉保護グループ,100万以上のサンプルを持つオープンデータセット上での大規模手法の評価を行った。

We consider the problem of producing fair probabilistic classifiers for multi-class classification tasks. We formulate this problem in terms of "projecting" a pre-trained (and potentially unfair) classifier onto the set of models that satisfy target group-fairness requirements. The new, projected model is given by post-processing the outputs of the pre-trained classifier by a multiplicative factor. We provide a parallelizable iterative algorithm for computing the projected classifier and derive both sample complexity and convergence guarantees. Comprehensive numerical comparisons with state-of-the-art benchmarks demonstrate that our approach maintains competitive performance in terms of accuracy-fairness trade-off curves, while achieving favorable runtime on large datasets. We also evaluate our method at scale on an open dataset with multiple classes, multiple intersectional protected groups, and over 1M samples.
翻訳日:2022-06-18 18:03:00 公開日:2022-06-15
# (参考訳) ドメインの一般化が難しい理由

What makes domain generalization hard? ( http://arxiv.org/abs/2206.07802v1 )

ライセンス: CC BY 4.0
Spandan Madan, Li You, Mengmi Zhang, Hanspeter Pfister, Gabriel Kreiman(参考訳) ドメイン一般化の難題に対していくつかの方法論が提案されているが、この課題に挑戦する要因を理解することはほとんど注目されていない。 ここではsemanticdg (semantic domain generalization): 一般的な3d scannetデータセットと同じ形状、シーンレイアウト、カメラパラメータを持つ15のフォトリアリスティックなドメインで、照明、材料、視点において制御されたドメインシフトを持つベンチマークを示す。 このベンチマークを用いて,各意味変化が一般化に与える影響を独立して検討する。 視覚認識モデルは、新しい照明に容易に一般化するが、材料や視点の分布シフトに苦しむ。 ヒューマンビジョンに触発されて、シーンコンテキストは、モデルが素材と視点をまたがるドメインシフトを一般化するのに役立つブリッジとして機能し、コンテキスト認識型ビジョントランスフォーマーを提案し、これらのドメインシフトに対処するために、マテリアルとビューポイントの変更に対する対照的な損失をもたらすと仮定する。 我々のアプローチ(CDCNet)は、既存の領域一般化手法を18%以上のマージンで上回ります。 批判的なベンチマークとして、精神物理学の実験を行い、照明、材料、視点をまたいで人間が等しく一般化できることを見出した。 ここで導入されたベンチマークと計算モデルは、ドメイン間の一般化に関連する課題を理解し、セマンティックな分布シフトに対する外挿への最初のステップを提供する。 すべてのデータとソースコードをサプリメントに含んでいます。

While several methodologies have been proposed for the daunting task of domain generalization, understanding what makes this task challenging has received little attention. Here we present SemanticDG (Semantic Domain Generalization): a benchmark with 15 photo-realistic domains with the same geometry, scene layout and camera parameters as the popular 3D ScanNet dataset, but with controlled domain shifts in lighting, materials, and viewpoints. Using this benchmark, we investigate the impact of each of these semantic shifts on generalization independently. Visual recognition models easily generalize to novel lighting, but struggle with distribution shifts in materials and viewpoints. Inspired by human vision, we hypothesize that scene context can serve as a bridge to help models generalize across material and viewpoint domain shifts and propose a context-aware vision transformer along with a contrastive loss over material and viewpoint changes to address these domain shifts. Our approach (dubbed as CDCNet) outperforms existing domain generalization methods by over an 18% margin. As a critical benchmark, we also conduct psychophysics experiments and find that humans generalize equally well across lighting, materials and viewpoints. The benchmark and computational model introduced here help understand the challenges associated with generalization across domains and provide initial steps towards extrapolation to semantic distribution shifts. We include all data and source code in the supplement.
翻訳日:2022-06-18 18:01:18 公開日:2022-06-15
# (参考訳) 因子グラフの大規模微分可能因果発見

Large-Scale Differentiable Causal Discovery of Factor Graphs ( http://arxiv.org/abs/2206.07824v1 )

ライセンス: CC BY 4.0
Romain Lopez, Jan-Christian H\"utter, Jonathan K. Pritchard, Aviv Regev(参考訳) 因果推論における一般的なテーマは、観察された変数間の因果関係を学習することである。 これは通常、多くの候補因果グラフと探索空間の組合せ的性質を考えると、厄介なタスクである。 おそらくこの理由から、ほとんどの研究は、数百のノードを持つ比較的小さな因果グラフに焦点を合わせてきた。 しかし、生物学などの分野の最近の進歩により、数千の介入による実験データセットの生成と、数千の変数の豊富なプロファイリングが可能になり、大きな因果グラフモデルの必要性が高まりつつある。 本稿では,非線型低ランク因果相互作用モデルに探索空間を限定する手段として,因子指向非巡回グラフ (f-DAG) の概念を導入する。 この新たな構造仮定と因果発見と連続最適化のギャップを埋める最近の進歩を組み合わせることで、何千もの変数の因果発見を実現する。 さらに, この推定法における統計的ノイズの影響のモデルとして, ランダムグラフに基づくf-DAG骨格のエッジ摂動モデルについて検討し, それらの摂動がf-DAGランクに与える影響を定量化する。 この理論解析は、候補f-DAGの集合がDAG空間全体よりもはるかに小さく、基底骨格が評価が難しい高次元構造においてより統計的に堅牢であることを示している。 本稿では,f-DAG制約付き因果探索のスケーラブルな実装である因子グラフの微分因果探索(DCD-FG)を提案する。 DCD-FGはガウスの非線形低ランク構造方程式モデルを用いており、両方のシミュレーションにおける最先端の手法と、数百の遺伝的介入を伴う最近の大規模単一細胞RNAシークエンシングデータセットと比較して大幅に改善されている。

A common theme in causal inference is learning causal relationships between observed variables, also known as causal discovery. This is usually a daunting task, given the large number of candidate causal graphs and the combinatorial nature of the search space. Perhaps for this reason, most research has so far focused on relatively small causal graphs, with up to hundreds of nodes. However, recent advances in fields like biology enable generating experimental data sets with thousands of interventions followed by rich profiling of thousands of variables, raising the opportunity and urgent need for large causal graph models. Here, we introduce the notion of factor directed acyclic graphs (f-DAGs) as a way to restrict the search space to non-linear low-rank causal interaction models. Combining this novel structural assumption with recent advances that bridge the gap between causal discovery and continuous optimization, we achieve causal discovery on thousands of variables. Additionally, as a model for the impact of statistical noise on this estimation procedure, we study a model of edge perturbations of the f-DAG skeleton based on random graphs and quantify the effect of such perturbations on the f-DAG rank. This theoretical analysis suggests that the set of candidate f-DAGs is much smaller than the whole DAG space and thus more statistically robust in the high-dimensional regime where the underlying skeleton is hard to assess. We propose Differentiable Causal Discovery of Factor Graphs (DCD-FG), a scalable implementation of f-DAG constrained causal discovery for high-dimensional interventional data. DCD-FG uses a Gaussian non-linear low-rank structural equation model and shows significant improvements compared to state-of-the-art methods in both simulations as well as a recent large-scale single-cell RNA sequencing data set with hundreds of genetic interventions.
翻訳日:2022-06-18 17:40:42 公開日:2022-06-15
# (参考訳) フェデレーション学習におけるパーソナライズのための適応的エキスパートモデル

Adaptive Expert Models for Personalization in Federated Learning ( http://arxiv.org/abs/2206.07832v1 )

ライセンス: CC BY 4.0
Martin Isaksson, Edvin Listo Zec, Rickard C\"oster, Daniel Gillblad, \v{S}ar\=unas Girdzijauskas(参考訳) フェデレーション学習(federated learning、fl)は、データがプライベートで機密性の高い場合の、分散学習のための有望なフレームワークである。 しかし、このフレームワークの最先端のソリューションは、データが不均一で非独立で、Identically Distributed(非IID)であるときに最適ではない。 FLにおけるパーソナライズのための実用的でロバストなアプローチを提案し、複数のグローバルモデルの探索と利用のバランスをとることによって、異種および非IIDデータに適応する。 パーソナライゼーションの目的を達成するために、グローバルモデルをより効率的に使用しながら、互いに類似したクライアントをグループ化するMixture of Experts(MoE)を使用します。 病理的非iid設定の局所モデルと比較して, iid設定でのアプローチを調整しても, 精度は最大29.78 %, 最大4.38 %向上することを示した。

Federated Learning (FL) is a promising framework for distributed learning when data is private and sensitive. However, the state-of-the-art solutions in this framework are not optimal when data is heterogeneous and non-Independent and Identically Distributed (non-IID). We propose a practical and robust approach to personalization in FL that adjusts to heterogeneous and non-IID data by balancing exploration and exploitation of several global models. To achieve our aim of personalization, we use a Mixture of Experts (MoE) that learns to group clients that are similar to each other, while using the global models more efficiently. We show that our approach achieves an accuracy up to 29.78 % and up to 4.38 % better compared to a local model in a pathological non-IID setting, even though we tune our approach in the IID setting.
翻訳日:2022-06-18 16:58:51 公開日:2022-06-15
# (参考訳) gauss-hermite quadratureを用いた予測超体積改善の効率的な近似

Efficient Approximation of Expected Hypervolume Improvement using Gauss-Hermite Quadrature ( http://arxiv.org/abs/2206.07834v1 )

ライセンス: CC BY 4.0
Alma Rahat, Tinkle Chugh, Jonathan Fieldsend, Richard Allmendinger, Kaisa Miettinen(参考訳) 近年,計算コストの高い問題の多目的最適化手法が数多く提案されている。 通常、各目的に対する確率的サロゲートは、初期データセットから構築される。 サーロゲートは任意の解の目的空間における予測密度を生成するのに使うことができる。 予測密度を用いることで、ソリューションによって期待されるハイパーボリューム改善(ehvi)を計算できる。 EHVIを最大化すれば、次に高く評価されるであろう最も有望なソリューションを見つけることができます。 EHVIを計算するためのクローズドフォーム式があり、多変量予測密度を統合している。 しかし、それらは目的空間を分割する必要があるが、これは3つ以上の目的に対して制限的に高価である。 さらに、予測密度が依存する問題に対する閉形式表現は存在せず、目的間の相関を捉えている。 このような場合、モンテカルロ近似が用いられるが、これは安価ではない。 したがって、新しい精度で安価な近似法を開発する必要がある。 本稿では,gauss-hermite quadratureを用いたehvi近似手法について検討する。 我々は,モンテカルロの独立性および相関性のある予測密度に対して,様々なテスト問題に対して統計的に有意なランク相関を持つ精度の高い代替となることを示す。

Many methods for performing multi-objective optimisation of computationally expensive problems have been proposed recently. Typically, a probabilistic surrogate for each objective is constructed from an initial dataset. The surrogates can then be used to produce predictive densities in the objective space for any solution. Using the predictive densities, we can compute the expected hypervolume improvement (EHVI) due to a solution. Maximising the EHVI, we can locate the most promising solution that may be expensively evaluated next. There are closed-form expressions for computing the EHVI, integrating over the multivariate predictive densities. However, they require partitioning the objective space, which can be prohibitively expensive for more than three objectives. Furthermore, there are no closed-form expressions for a problem where the predictive densities are dependent, capturing the correlations between objectives. Monte Carlo approximation is used instead in such cases, which is not cheap. Hence, the need to develop new accurate but cheaper approximation methods remains. Here we investigate an alternative approach toward approximating the EHVI using Gauss-Hermite quadrature. We show that it can be an accurate alternative to Monte Carlo for both independent and correlated predictive densities with statistically significant rank correlations for a range of popular test problems.
翻訳日:2022-06-18 16:43:11 公開日:2022-06-15
# (参考訳) 会話における個人エンティティ、概念、名前付きエンティティリンク

Personal Entity, Concept, and Named Entity Linking in Conversations ( http://arxiv.org/abs/2206.07836v1 )

ライセンス: CC BY 4.0
Hideaki Joko and Faegheh Hasibi(参考訳) 人間と自然で知識に基づく対話ができる会話エージェントを構築するには、ユーザの発話を理解する必要がある。 エンティティリンク(el)は、自然言語テキストを理解し、外部の知識とつなぐための効果的かつ広く使用される方法である。 しかし、文書の注釈付けのために開発された既存のELメソッドは会話に最適であり、個人(例えば「マイカー」)や概念がユーザの発話を理解するのに不可欠であることが示されている。 本稿では,会話におけるエンティティリンクのためのコレクションとツールを紹介する。 我々は、名前付きエンティティ、概念、個人エンティティへのリンクからなる会話発話1327件のELアノテーションを収集する。 このデータセットは、対話型エンティティリンクであるCRELのためのツールキットのトレーニングに使用される。 既存のELメソッドとは異なり、CRELは名前付きエンティティと概念の両方を識別するために開発されている。 また、コア参照解決技術を使用して、会話で言及された明示的なエンティティへの個人エンティティと参照を識別する。 CRELと最先端技術を比較し、既存のすべてのベースラインより優れていることを示す。

Building conversational agents that can have natural and knowledge-grounded interactions with humans requires understanding user utterances. Entity Linking (EL) is an effective and widely used method for understanding natural language text and connecting it to external knowledge. It is, however, shown that existing EL methods developed for annotating documents are suboptimal for conversations, where personal entities (e.g., "my cars") and concepts are essential for understanding user utterances. In this paper, we introduce a collection and a tool for entity linking in conversations. We collect EL annotations for 1327 conversational utterances, consisting of links to named entities, concepts, and personal entities. The dataset is used for training our toolkit for conversational entity linking, CREL. Unlike existing EL methods, CREL is developed to identify both named entities and concepts. It also utilizes coreference resolution techniques to identify personal entities and references to the explicit entity mentions in the conversations. We compare CREL with state-of-the-art techniques and show that it outperforms all existing baselines.
翻訳日:2022-06-18 16:16:13 公開日:2022-06-15
# (参考訳) TOKENはMASK:事前訓練された言語モデルを用いた名前付きエンティティ認識

TOKEN is a MASK: Few-shot Named Entity Recognition with Pre-trained Language Models ( http://arxiv.org/abs/2206.07841v1 )

ライセンス: CC BY 4.0
Ali Davody, David Ifeoluwa Adelani, Thomas Kleinbauer, Dietrich Klakow(参考訳) あるドメインから別のドメインへの知識の転送は、自然言語処理において、特に対象ドメイン内の利用可能なデータ量が限られている場合に、多くのタスクにおいて実際的に重要である。 本研究では,名前付きエンティティ認識(NER)の文脈において,ドメイン適応に対する新しい数ショットアプローチを提案する。 本稿では,簡単な記述パターンを用いて,事前学習した言語モデルで得られる知識を活用した,可変ベースモジュールとテンプレートモジュールからなる2段階アプローチを提案する。 このアプローチは単純だが汎用的であり、少数ショットやゼロショットの設定に適用できる。 さまざまなデータセットにわたる軽量なアプローチを評価することで、最先端のベースラインのパフォーマンスを2-5%向上させることができる。

Transferring knowledge from one domain to another is of practical importance for many tasks in natural language processing, especially when the amount of available data in the target domain is limited. In this work, we propose a novel few-shot approach to domain adaptation in the context of Named Entity Recognition (NER). We propose a two-step approach consisting of a variable base module and a template module that leverages the knowledge captured in pre-trained language models with the help of simple descriptive patterns. Our approach is simple yet versatile and can be applied in few-shot and zero-shot settings. Evaluating our lightweight approach across a number of different datasets shows that it can boost the performance of state-of-the-art baselines by 2-5% F1-score.
翻訳日:2022-06-18 16:07:18 公開日:2022-06-15
# (参考訳) 時系列のコンフォーマル予測セット

Conformal prediction set for time-series ( http://arxiv.org/abs/2206.07851v1 )

ライセンス: CC BY 4.0
Chen Xu, Yao Xie(参考訳) 回帰(実数値応答)の予測間隔や分類(カテゴリー応答)の予測セットを構築する場合、複雑な機械学習手法の研究には不確実性定量化が不可欠である。 本稿では,[Xu と Xie, 2021] の先行研究に基づいて,時系列の予測セットを構築するために,ERAPS (Ensemble Regularized Adaptive Prediction Set) を開発した。 特に、未知の依存関係が連続して現れる機能やレスポンスの中に存在することを許します。 ERAPSは分布のないアンサンブルベースのフレームワークであり、任意の分類器に適用できる。 理論的には、データ交換性を仮定せずにカバレッジギャップを制限し、漸近的な集合収束を示す。 実験的に,ERAPSによる有意な限界被覆と条件被覆を示し,競合する手法よりも予測セットが小さい傾向にある。

When building either prediction intervals for regression (with real-valued response) or prediction sets for classification (with categorical responses), uncertainty quantification is essential to studying complex machine learning methods. In this paper, we develop Ensemble Regularized Adaptive Prediction Set (ERAPS) to construct prediction sets for time-series (with categorical responses), based on the prior work of [Xu and Xie, 2021]. In particular, we allow unknown dependencies to exist within features and responses that arrive in sequence. Method-wise, ERAPS is a distribution-free and ensemble-based framework that is applicable for arbitrary classifiers. Theoretically, we bound the coverage gap without assuming data exchangeability and show asymptotic set convergence. Empirically, we demonstrate valid marginal and conditional coverage by ERAPS, which also tends to yield smaller prediction sets than competing methods.
翻訳日:2022-06-18 15:52:08 公開日:2022-06-15
# Metric-Fair Classifier Derandomization

Metric-Fair Classifier Derandomization ( http://arxiv.org/abs/2206.07826v1 )

ライセンス: Link先を確認
Jimmy Wu, Yatong Chen, Yang Liu(参考訳) 確率的二項分類器 $f: x \to [0,1]$ が与えられたとき、決定論的分類器 $\hat{f}: x \to \{0,1\}$ をサンプリングし、任意のデータ分布に対して$f$ の出力を近似する。 最近の研究により、強い出力近似保証を持つ確率的分類器を効率的にデランダライズする方法が明らかになったが、個々のフェアネスのコストで -- つまり、$f$ が同様の入力を処理した場合、$\hat{f}$ は成立しなかった。 本稿では,計量公正性保証を伴う分類器のデランドマイゼーションの系統的研究を開始する。 従来のデランドマイズ手法は, ほぼ最大距離不等式であり, 単純な「ランダムしきい値」デランドマイズ法は, より弱い出力近似で最適公平性保存を実現する。 もし$f$ が$\alpha$-metric fair で、locality-sensitive hash (lsh) ファミリを持つメトリック $d$ に基づいて、我々の非ランダム化された$\hat{f}$ は、高い確率で$o(\alpha)$-metric fair であり、$f$ の近似値である。 また、バイアス分散分解や様々な距離的公平性の概念間の縮小を含むすべての(公平かつ不公平な)分類子非ランダム化手順に適用可能な汎用的な結果も証明する。

We study the problem of \emph{classifier derandomization} in machine learning: given a stochastic binary classifier $f: X \to [0,1]$, sample a deterministic classifier $\hat{f}: X \to \{0,1\}$ that approximates the output of $f$ in aggregate over any data distribution. Recent work revealed how to efficiently derandomize a stochastic classifier with strong output approximation guarantees, but at the cost of individual fairness -- that is, if $f$ treated similar inputs similarly, $\hat{f}$ did not. In this paper, we initiate a systematic study of classifier derandomization with metric fairness guarantees. We show that the prior derandomization approach is almost maximally metric-unfair, and that a simple ``random threshold'' derandomization achieves optimal fairness preservation but with weaker output approximation. We then devise a derandomization procedure that provides an appealing tradeoff between these two: if $f$ is $\alpha$-metric fair according to a metric $d$ with a locality-sensitive hash (LSH) family, then our derandomized $\hat{f}$ is, with high probability, $O(\alpha)$-metric fair and a close approximation of $f$. We also prove generic results applicable to all (fair and unfair) classifier derandomization procedures, including a bias-variance decomposition and reductions between various notions of metric fairness.
翻訳日:2022-06-17 16:59:02 公開日:2022-06-15
# 高周波情報を用いた表面改質

Improved surface reconstruction using high-frequency details ( http://arxiv.org/abs/2206.07850v1 )

ライセンス: Link先を確認
Yiqun Wang, Ivan Skorokhodov, Peter Wonka(参考訳) ニューラルレンダリングは、3Dの監督なしに形状の暗黙の表現を再構築するために使用することができる。 しかし、現在の神経表面再構成法は、形状の高周波詳細を学習することが困難であるため、再構成された形状はしばしば過度に平滑化される。 ニューラルレンダリングにおける表面再構成の品質向上のための新しい手法を提案する。 表面を符号付き距離場としてモデル化する最近の研究に追従する。 まず、署名された距離関数、体積密度、透明性関数、およびボリュームレンダリング方程式で用いられる重み付け関数の関係を分析するための導出を提供する。 第二に、単一符号付き距離関数で高周波および低周波成分を共同符号化しようとすると、不安定な最適化が導かれる。 本稿では, 基本関数と変位関数の符号付き距離関数を粗大な戦略とともに分解し, 周波数の詳細を徐々に増大させる手法を提案する。 最後に,符号付き距離場がアーティファクトを持つ表面近傍の特定領域の改善に最適化を集中させる適応戦略を提案する。 定性的かつ定量的な結果から,本手法は高頻度表面の細部を再構築し,現状よりも優れた表面の再現性が得られることが示された。 コードはhttps://github.com/yiqun-wang/hfsでリリースされる。

Neural rendering can be used to reconstruct implicit representations of shapes without 3D supervision. However, current neural surface reconstruction methods have difficulty learning high-frequency details of shapes, so that the reconstructed shapes are often oversmoothed. We propose a novel method to improve the quality of surface reconstruction in neural rendering. We follow recent work to model surfaces as signed distance fields. First, we offer a derivation to analyze the relationship between the signed distance function, the volume density, the transparency function, and the weighting function used in the volume rendering equation. Second, we observe that attempting to jointly encode high-frequency and low frequency components in a single signed distance function leads to unstable optimization. We propose to decompose the signed distance function in a base function and a displacement function together with a coarse-to-fine strategy to gradually increase the high-frequency details. Finally, we propose to use an adaptive strategy that enables the optimization to focus on improving certain regions near the surface where the signed distance fields have artifacts. Our qualitative and quantitative results show that our method can reconstruct high-frequency surface details and obtain better surface reconstruction quality than the current state of the art. Code will be released at https://github.com/yiqun-wang/HFS.
翻訳日:2022-06-17 16:32:34 公開日:2022-06-15
# IoT環境における複数時系列の短期予測の評価

Evaluating Short-Term Forecasting of Multiple Time Series in IoT Environments ( http://arxiv.org/abs/2206.07784v1 )

ライセンス: Link先を確認
Christos Tzagkarakis, Pavlos Charalampidis, Stylianos Roubakis, Alexandros Fragkiadakis, Sotiris Ioannidis(参考訳) 現代のIoT(Internet of Things)環境は、大量のIoTデバイスを介して監視され、データ取得と処理インフラストラクチャが計算能力とエネルギーリソースの面で制限されている。 この問題を軽減するために、センサーは、比較的低いサンプリング周波数で動作するように構成されることが多い。 しかし、これは予測などのその後の意思決定を劇的に妨げる可能性がある。 この問題に対処するため,本研究では,過小評価された場合,すなわちセンサストリームの数が観測数よりはるかに多い場合の短期予測を評価する。 5つの異なる実世界のデータセットにおける予測精度について,いくつかの統計モデル,機械学習モデル,ニューラルネットワークモデルについて精査した。 その焦点は、特にiot edgeにおける複数時系列の短期予測のために設計された統一実験プロトコルである。 提案されたフレームワークは、リソース制約のあるIoTアプリケーションにおいて、強固な予測戦略を確立するための重要なステップとみなすことができる。

Modern Internet of Things (IoT) environments are monitored via a large number of IoT enabled sensing devices, with the data acquisition and processing infrastructure setting restrictions in terms of computational power and energy resources. To alleviate this issue, sensors are often configured to operate at relatively low sampling frequencies, yielding a reduced set of observations. Nevertheless, this can hamper dramatically subsequent decision-making, such as forecasting. To address this problem, in this work we evaluate short-term forecasting in highly underdetermined cases, i.e., the number of sensor streams is much higher than the number of observations. Several statistical, machine learning and neural network-based models are thoroughly examined with respect to the resulting forecasting accuracy on five different real-world datasets. The focus is given on a unified experimental protocol especially designed for short-term prediction of multiple time series at the IoT edge. The proposed framework can be considered as an important step towards establishing a solid forecasting strategy in resource constrained IoT applications.
翻訳日:2022-06-17 16:26:56 公開日:2022-06-15
# Federated Data Analytics: 線形モデルに関する研究

Federated Data Analytics: A Study on Linear Models ( http://arxiv.org/abs/2206.07786v1 )

ライセンス: Link先を確認
Xubo Yue, Raed Al Kontar, Ana Mar\'ia Estrada G\'omez(参考訳) エッジデバイスがますます強力になるにつれて、データ分析は徐々に中央集権的な状態から、エッジコンピューティングリソースを利用したローカルなデータ処理へと移行している。 この分析の仕組みはfda(federated data analytics)と呼ばれる。 最近のfdaの成功例にもかかわらず、多くの文献はディープニューラルネットワークに特化している。 本研究では,fdaの最も基本的な統計モデルである線形回帰モデルに対して,fdaの治療法を開発するための一歩を振り返る。 我々の治療は階層的モデリングに基づいており、複数のグループにまたがる力を借りることができる。 そこで本稿では,情報共有を容易にするために,デバイス間で共有表現を提供する2つの階層型モデル構造を提案する。 提案するフレームワークは,不確実な定量化,変数選択,仮説テスト,新しい未知のデータへの高速適応を提供する。 本手法は,航空機用エンジンのコンディション監視を含む,様々な実運用に適用可能である。 その結果,線形モデルに対するFDAの処置は,今後のフェデレートアルゴリズム開発のための競合するベンチマークモデルとして機能することが示された。

As edge devices become increasingly powerful, data analytics are gradually moving from a centralized to a decentralized regime where edge compute resources are exploited to process more of the data locally. This regime of analytics is coined as federated data analytics (FDA). In spite of the recent success stories of FDA, most literature focuses exclusively on deep neural networks. In this work, we take a step back to develop an FDA treatment for one of the most fundamental statistical models: linear regression. Our treatment is built upon hierarchical modeling that allows borrowing strength across multiple groups. To this end, we propose two federated hierarchical model structures that provide a shared representation across devices to facilitate information sharing. Notably, our proposed frameworks are capable of providing uncertainty quantification, variable selection, hypothesis testing and fast adaptation to new unseen data. We validate our methods on a range of real-life applications including condition monitoring for aircraft engines. The results show that our FDA treatment for linear models can serve as a competing benchmark model for future development of federated algorithms.
翻訳日:2022-06-17 16:26:42 公開日:2022-06-15
# ニューラルネットワークのアーキテクチャバックドア

Architectural Backdoors in Neural Networks ( http://arxiv.org/abs/2206.07840v1 )

ライセンス: Link先を確認
Mikel Bober-Irizar, Ilia Shumailov, Yiren Zhao, Robert Mullins, Nicolas Papernot(参考訳) 機械学習は敵の操作に弱い。 以前の文献では、訓練段階で攻撃者がモデル動作を制御するためにデータやデータサンプリング手順を操作できることが示されている。 一般的な攻撃目標は、バックドアを植えることであり、すなわち、被害者のモデルに敵によってのみ知られる引き金の認識を強制することである。 本稿では,モデルアーキテクチャの内部,すなわちトレーニングに使用される関数の帰納的バイアスを隠蔽する,新たなバックドア攻撃のクラスを提案する。 これらのバックドアの実装は簡単で、例えば、バックドアモデルアーキテクチャ用のオープンソースコードを公開することで、他の人が無意識に再利用することができる。 私たちは、モデルアーキテクチャのバックドアが本当の脅威であり、他のアプローチとは異なり、スクラッチから完全な再トレーニングに耐えられることを実証します。 我々は、入力と出力のリンクのようなアーキテクチャバックドアの背後にある主要な建設原則を定式化し、それらに対するいくつかの保護について記述する。 さまざまなスケールのコンピュータビジョンベンチマークに対する攻撃を評価し、さまざまなトレーニング環境で基盤となる脆弱性が広まることを実証します。

Machine learning is vulnerable to adversarial manipulation. Previous literature has demonstrated that at the training stage attackers can manipulate data and data sampling procedures to control model behaviour. A common attack goal is to plant backdoors i.e. force the victim model to learn to recognise a trigger known only by the adversary. In this paper, we introduce a new class of backdoor attacks that hide inside model architectures i.e. in the inductive bias of the functions used to train. These backdoors are simple to implement, for instance by publishing open-source code for a backdoored model architecture that others will reuse unknowingly. We demonstrate that model architectural backdoors represent a real threat and, unlike other approaches, can survive a complete re-training from scratch. We formalise the main construction principles behind architectural backdoors, such as a link between the input and the output, and describe some possible protections against them. We evaluate our attacks on computer vision benchmarks of different scales and demonstrate the underlying vulnerability is pervasive in a variety of training settings.
翻訳日:2022-06-17 16:26:24 公開日:2022-06-15
# グラフ表現学習におけるベンチマークの分類

Taxonomy of Benchmarks in Graph Representation Learning ( http://arxiv.org/abs/2206.07729v1 )

ライセンス: Link先を確認
Renming Liu, Semih Cant\"urk, Frederik Wenkel, Dylan Sandfelder, Devin Kreuzer, Anna Little, Sarah McGuire, Leslie O'Bray, Michael Perlmutter, Bastian Rieck, Matthew Hirn, Guy Wolf, Ladislav Ramp\'a\v{s}ek(参考訳) グラフニューラルネットワーク(GNN)は、その固有の幾何学を考慮し、ニューラルネットワークの成功をグラフ構造化データに拡張する。 グラフ表現学習ベンチマークの収集により、優れた性能を持つGNNモデルの開発について広範な研究がなされているが、現在、与えられたモデルのどの側面が調査されているかはよく分かっていない。 例えば、グラフ構造とnode機能を利用するモデルの能力は、どの程度テストされているか? 本稿では,グラフの摂動によるGNNの性能変化量に基づいて,ベンチマークデータセットを$\textit{sensitivity profile}$に従って分類する手法を開発した。 我々のデータ駆動分析は、GNNがどのベンチマークデータ特性を利用するかをより深く理解する。 その結果,本分類は,適切なグラフベンチマークの選択と開発,および今後のgnn手法のより良いインフォームド評価を支援することができる。 最後に、$\texttt{gtaxogym}$ packageのアプローチと実装は、複数のグラフ予測タスクタイプと将来のデータセットに拡張可能です。

Graph Neural Networks (GNNs) extend the success of neural networks to graph-structured data by accounting for their intrinsic geometry. While extensive research has been done on developing GNN models with superior performance according to a collection of graph representation learning benchmarks, it is currently not well understood what aspects of a given model are probed by them. For example, to what extent do they test the ability of a model to leverage graph structure vs. node features? Here, we develop a principled approach to taxonomize benchmarking datasets according to a $\textit{sensitivity profile}$ that is based on how much GNN performance changes due to a collection of graph perturbations. Our data-driven analysis provides a deeper understanding of which benchmarking data characteristics are leveraged by GNNs. Consequently, our taxonomy can aid in selection and development of adequate graph benchmarks, and better informed evaluation of future GNN methods. Finally, our approach and implementation in $\texttt{GTaxoGym}$ package are extendable to multiple graph prediction task types and future datasets.
翻訳日:2022-06-17 15:52:43 公開日:2022-06-15
# 物理インフォームドニューラルネットワークを用いた添加物製造プロセスのハイブリッドフルフィールド熱特性評価

Hybrid full-field thermal characterization of additive manufacturing processes using physics-informed neural networks with data ( http://arxiv.org/abs/2206.07756v1 )

ライセンス: Link先を確認
Shuheng Liao, Tianju Xue, Jihoon Jeong, Samantha Webster, Kornel Ehmann, Jian Cao(参考訳) 添加性製造(AM)プロセスの熱的挙動を理解することは品質管理の強化とカスタマイズプロセス設計の実現に不可欠である。 ほとんどの純粋物理学ベースの計算モデルは集中計算コストに苦しむため、オンライン制御や反復設計には適していない。 最新の計算ツールを利用するデータ駆動モデルは、より効率的なサロゲートとして機能するが、通常は大量のシミュレーションデータに基づいて訓練され、小さなが高品質な実験データを効果的に利用できない。 本研究では,物理インフォームドニューラルネットワークを用いたAMプロセスのハイブリッドなデータ駆動熱モデリング手法を開発した。 具体的には、赤外線カメラから測定された部分観測温度データを物理法則と組み合わせて、フルフィールド温度履歴を予測し、未知の物質やプロセスパラメータを発見する。 数値的および実験的な例では、補助訓練データの追加と、転送学習技術を用いた訓練効率と予測精度、および、部分的に観測されたデータで未知のパラメータを識別する能力について示す。 その結果, ハイブリッド熱モデルでは, 未知パラメータを効果的に同定し, フルフィールド温度を正確に把握し, AMの反復的プロセス設計やリアルタイムプロセス制御に応用できる可能性が示唆された。

Understanding the thermal behavior of additive manufacturing (AM) processes is crucial for enhancing the quality control and enabling customized process design. Most purely physics-based computational models suffer from intensive computational costs, thus not suitable for online control and iterative design application. Data-driven models taking advantage of the latest developed computational tools can serve as a more efficient surrogate, but they are usually trained over a large amount of simulation data and often fail to effectively use small but high-quality experimental data. In this work, we developed a hybrid physics-based data-driven thermal modeling approach of AM processes using physics-informed neural networks. Specifically, partially observed temperature data measured from an infrared camera is combined with the physics laws to predict full-field temperature history and to discover unknown material and process parameters. In the numerical and experimental examples, the effectiveness of adding auxiliary training data and using the technique of transfer learning on training efficiency and prediction accuracy, as well as the ability to identify unknown parameters with partially observed data, are demonstrated. The results show that the hybrid thermal model can effectively identify unknown parameters and capture the full-field temperature accurately, and thus it has the potential to be used in iterative process design and real-time process control of AM.
翻訳日:2022-06-17 15:52:25 公開日:2022-06-15
# Kantorovich Strikes Back! Wasserstein GANは最適輸送ではないのか?

Kantorovich Strikes Back! Wasserstein GANs are not Optimal Transport? ( http://arxiv.org/abs/2206.07767v1 )

ライセンス: Link先を確認
Alexander Korotin, Alexander Kolesov, Evgeny Burnaev(参考訳) Wasserstein Generative Adversarial Networks (WGANs) は、最適輸送(OT)理論とカントロビッチ双対性に基づく一般的な生成モデルである。 WGANsの成功にもかかわらず、基礎となるOT双対解器がOTコスト(Wasserstein-1 距離、$\mathbb{W}_{1}$)とジェネレータの更新に必要なOT勾配をどの程度よく近似するかはいまだ不明である。 本稿ではこれらの問題に対処する。 1-リプシッツ関数を構築し、レイモノトン輸送計画を構築する。 この戦略は、画像空間のような高次元空間における解析的に知られたOT計画、OTコスト、OT勾配と連続ベンチマーク分布のペアを生成する。 これらのベンチマークペアを用いて、一般的なWGAN双対形式解法(漸次ペナルティ、スペクトル正規化、エントロピー正規化等)を徹底的に評価した。 これらの解法は WGAN においてよく機能するが、いずれも高次元の$\mathbb{W}_{1}$を忠実に計算するものではない。 それでも、多くのものはOT勾配の有意義な近似を与える。 これらの観測は、これらのソルバを$\mathbb{W}_{1}$のよい推定子として扱うべきではないことを示唆するが、ある程度は$\mathbb{W}_{1}$の最小化を必要とする変分問題で実際に使用できる。

Wasserstein Generative Adversarial Networks (WGANs) are the popular generative models built on the theory of Optimal Transport (OT) and the Kantorovich duality. Despite the success of WGANs, it is still unclear how well the underlying OT dual solvers approximate the OT cost (Wasserstein-1 distance, $\mathbb{W}_{1}$) and the OT gradient needed to update the generator. In this paper, we address these questions. We construct 1-Lipschitz functions and use them to build ray monotone transport plans. This strategy yields pairs of continuous benchmark distributions with the analytically known OT plan, OT cost and OT gradient in high-dimensional spaces such as spaces of images. We thoroughly evaluate popular WGAN dual form solvers (gradient penalty, spectral normalization, entropic regularization, etc.) using these benchmark pairs. Even though these solvers perform well in WGANs, none of them faithfully compute $\mathbb{W}_{1}$ in high dimensions. Nevertheless, many provide a meaningful approximation of the OT gradient. These observations suggest that these solvers should not be treated as good estimators of $\mathbb{W}_{1}$, but to some extent they indeed can be used in variational problems requiring the minimization of $\mathbb{W}_{1}$.
翻訳日:2022-06-17 15:52:02 公開日:2022-06-15
# 深部ニューラルネットワークを用いたサイドスキャンソナーからの高分解能ベーシメトリック再構成

High-Resolution Bathymetric Reconstruction From Sidescan Sonar With Deep Neural Networks ( http://arxiv.org/abs/2206.07810v1 )

ライセンス: Link先を確認
Yiping Xie, Nils Bore and John Folkesson(参考訳) 本研究では,サイドカンからの高分解能水度再構成のための新しいデータ駆動手法を提案する。 射程関数としてのsidescan sonar (sss)の強度は、海底の斜面に関する情報を含んでいる。 しかし、その情報は推測されなければならない。 さらに、ナビゲーションシステムは推定軌道を提供しており、通常はこの軌道に沿った高度も利用できる。 これらから、入力として非常に粗い海底浴測定値を得る。 そして、サイドスキャンからの間接的かつ高解像度の海底傾斜情報と組み合わせて、全入浴率を推定する。 このスパース深度は、単ビームエコーサウンド、ドップラー速度ログ(DVL)、その他のボトムトラッキングセンサー、またはサイドカン自体からのボトムトラッキングアルゴリズムによって取得できる。 本研究では, 側方画像からの深度輪郭とアレタリック不確かさを, 端から端までの距離で推定するために, 完全畳み込みネットワークを用いた。 推定深度は、海底上の点の3D位置を計算するために、範囲と共に使用される。 ニューラルネットワークからの深さ予測と対応する信頼度尺度を融合して、高品質のバスメータマップを再構築することができる。 本研究では,サイドスキャンのみを用いた推定よりも,サイドスキャンを用いた疎水深を用いたバスメータマップの改善を示す。 また,複数のバスメトリック推定を1つのマップに融合する場合,信頼度重み付けの利点を示す。

We propose a novel data-driven approach for high-resolution bathymetric reconstruction from sidescan. Sidescan sonar (SSS) intensities as a function of range do contain some information about the slope of the seabed. However, that information must be inferred. Additionally, the navigation system provides the estimated trajectory, and normally the altitude along this trajectory is also available. From these we obtain a very coarse seabed bathymetry as an input. This is then combined with the indirect but high-resolution seabed slope information from the sidescan to estimate the full bathymetry. This sparse depth could be acquired by single-beam echo sounder, Doppler Velocity Log (DVL), other bottom tracking sensors or bottom tracking algorithm from sidescan itself. In our work, a fully convolutional network is used to estimate the depth contour and its aleatoric uncertainty from the sidescan images and sparse depth in an end-to-end fashion. The estimated depth is then used together with the range to calculate the point's 3D location on the seafloor. A high-quality bathymetric map can be reconstructed after fusing the depth predictions and the corresponding confidence measures from the neural networks. We show the improvement of the bathymetric map gained by using sparse depths with sidescan over estimates with sidescan alone. We also show the benefit of confidence weighting when fusing multiple bathymetric estimates into a single map.
翻訳日:2022-06-17 15:46:18 公開日:2022-06-15
# サイドスキャンソナーからのニューラルネットワーク正規化とベースメトリー再構成

Neural Network Normal Estimation and Bathymetry Reconstruction from Sidescan Sonar ( http://arxiv.org/abs/2206.07819v1 )

ライセンス: Link先を確認
Yiping Xie, Nils Bore and John Folkesson(参考訳) サイドスキャンソナー強度は海底の表面の正常な変化に関する情報を符号化する。 しかし, 海底形状, 材料組成など他の要因も回帰強度に影響を及ぼす。 これらの強度変化を、バスメータマップや物理的性質から測定された強度まで表面正規値から前方方向にモデル化するか、あるいは、強度から始まり、表面正規値をモデル化する逆モデルを用いることができる。 ここでは、データから学習するディープラーニングの能力を活用する逆モデルを使用し、畳み込みニューラルネットワークを用いて、サイドカンから表面の正常さを推定する。 したがって、海底の内部特性は暗黙的にのみ学習される。 この情報を推定すると、高度計の読み出しも含む最適化フレームワークによって、スパース深度プロファイルを制約として再構成することができる。 このような最適化フレームワークにおいて,バティメトリックマップを表現するために,暗黙的ニューラルネットワーク表現学習が最近提案されている。 本稿では,ニューラルネットワークを用いて地図を表現し,altimeter point の制約下で最適化し,sidescan による推定面正規化を行う。 複数のサイドスキャン線から異なる角度からの複数の観測結果を用いることで、推定結果が最適化により向上する。 本研究では,サイドスキャンデータを用いた高品質浴槽計測法を再構成し,その効率とスケーラビリティを実証する。 提案するデータ駆動逆モデルアプローチを,sidecan と forward lambertian モデルを比較した。 マルチビームセンサを用いて構築したデータと比較することにより,再構成の質を評価する。 これにより、それぞれのアプローチの長所と短所を議論することができます。

Sidescan sonar intensity encodes information about the changes of surface normal of the seabed. However, other factors such as seabed geometry as well as its material composition also affect the return intensity. One can model these intensity changes in a forward direction from the surface normals from bathymetric map and physical properties to the measured intensity or alternatively one can use an inverse model which starts from the intensities and models the surface normals. Here we use an inverse model which leverages deep learning's ability to learn from data; a convolutional neural network is used to estimate the surface normal from the sidescan. Thus the internal properties of the seabed are only implicitly learned. Once this information is estimated, a bathymetric map can be reconstructed through an optimization framework that also includes altimeter readings to provide a sparse depth profile as a constraint. Implicit neural representation learning was recently proposed to represent the bathymetric map in such an optimization framework. In this article, we use a neural network to represent the map and optimize it under constraints of altimeter points and estimated surface normal from sidescan. By fusing multiple observations from different angles from several sidescan lines, the estimated results are improved through optimization. We demonstrate the efficiency and scalability of the approach by reconstructing a high-quality bathymetry using sidescan data from a large sidescan survey. We compare the proposed data-driven inverse model approach of modeling a sidescan with a forward Lambertian model. We assess the quality of each reconstruction by comparing it with data constructed from a multibeam sensor. We are thus able to discuss the strengths and weaknesses of each approach.
翻訳日:2022-06-17 15:45:52 公開日:2022-06-15
# 子どもの言葉をどう理解するか

How Adults Understand What Young Children Say ( http://arxiv.org/abs/2206.07807v1 )

ライセンス: Link先を確認
Stephan C. Meylan, Ruthe Foushee, Nicole H. Wong, Elika Bergelson, and Roger P. Levy(参考訳) 幼児の初期のスピーチは形態や内容が大人のスピーチとほとんど似ていないが、養育者は子供の発話に意味を見出すことが多い。 正確には、介護者の理解は不十分だ。 早期コミュニケーションの成功(言語開発の基本構成要素)は、子どもの言語知識の増大だけでなく、大人の洗練された推論にも依存している。 さらに,これらの推論は,子どもの発話の仕方を詳細に把握するために最適化されている。 本研究では,大人が子どもを理解するために使用する情報源に関する競合する仮説をインスタンス化する,ディープラーニングとベイズ推論に基づく音声単語認識の候補計算モデルを用いて評価する。 子どもの発話内容の実際の音声内容よりも、子どもがコミュニケーションしたいであろうことに対する事前の期待が強いモデル(大人の音声解釈のデータセットに基づく評価)が、最もパフォーマンスの高いモデルであることが判明した。 さらに、大人の行動は、特定の子供によく訓練されるのが最適であることがわかった。単語認識モデルは、個々の子供の実際の言語行動の特質に合わせて調整されるほど、子供が言ったことに対する大人の推論をより良く予測する。 これらの結果は, 子ども向けリスナーとしての介護者の役割を包括的に調査し, 言語獲得理論に幅広い影響を及ぼした。

Children's early speech often bears little resemblance to adult speech in form or content, and yet caregivers often find meaning in young children's utterances. Precisely how caregivers are able to do this remains poorly understood. We propose that successful early communication (an essential building block of language development) relies not just on children's growing linguistic knowledge, but also on adults' sophisticated inferences. These inferences, we further propose, are optimized for fine-grained details of how children speak. We evaluate these ideas using a set of candidate computational models of spoken word recognition based on deep learning and Bayesian inference, which instantiate competing hypotheses regarding the information sources used by adults to understand children. We find that the best-performing models (evaluated on datasets of adult interpretations of child speech) are those that have strong prior expectations about what children are likely to want to communicate, rather than the actual phonetic contents of what children say. We further find that adults' behavior is best characterized as well-tuned to specific children: the more closely a word recognition model is tuned to the particulars of an individual child's actual linguistic behavior, the better it predicts adults' inferences about what the child has said. These results offer a comprehensive investigation into the role of caregivers as child-directed listeners, with broader consequences for theories of language acquisition.
翻訳日:2022-06-17 15:05:01 公開日:2022-06-15
# クロスモーダル生成と条件生成のための離散的コントラスト拡散

Discrete Contrastive Diffusion for Cross-Modal and Conditional Generation ( http://arxiv.org/abs/2206.07771v1 )

ライセンス: Link先を確認
Ye Zhu, Yu Wu, Kyle Olszewski, Jian Ren, Sergey Tulyakov, Yan Yan(参考訳) 拡散確率モデル(DPM)は,その有望な結果とクロスモーダル合成のサポートにより,条件生成に対する一般的なアプローチとなっている。 条件合成におけるキーデシプラタムは、条件付け入力と生成された出力との間の高い対応を達成することである。 ほとんどの既存手法は、前項を変分下限に組み込むことで、暗黙的にそのような関係を学習する。 本研究では,コントラスト学習を用いて相互情報を最大化することにより,入力出力接続を強化する。 この目的のために,条件付き離散的コントラスト拡散(cdcd)損失を導入し,2つのコントラスト拡散機構の設計を行い,それをデノージングプロセスに効果的に組み込む。 我々はCDCDを従来の変分目的と結びつけて定式化する。 提案手法は,ダンス・ツー・ミュージック生成,テキスト・ツー・イメージ合成,クラス・コンディショナル・イメージ合成という3つの多様な条件付き合成タスクを用いた評価において有効であることを示す。 それぞれ、最先端または高い合成品質を実現し、入力出力対応を改善する。 さらに,提案手法は拡散モデルの収束を改善し,必要な拡散ステップ数を2つのベンチマークで35%以上削減し,推論速度を大幅に向上させる。

Diffusion probabilistic models (DPMs) have become a popular approach to conditional generation, due to their promising results and support for cross-modal synthesis. A key desideratum in conditional synthesis is to achieve high correspondence between the conditioning input and generated output. Most existing methods learn such relationships implicitly, by incorporating the prior into the variational lower bound. In this work, we take a different route -- we enhance input-output connections by maximizing their mutual information using contrastive learning. To this end, we introduce a Conditional Discrete Contrastive Diffusion (CDCD) loss and design two contrastive diffusion mechanisms to effectively incorporate it into the denoising process. We formulate CDCD by connecting it with the conventional variational objectives. We demonstrate the efficacy of our approach in evaluations with three diverse, multimodal conditional synthesis tasks: dance-to-music generation, text-to-image synthesis, and class-conditioned image synthesis. On each, we achieve state-of-the-art or higher synthesis quality and improve the input-output correspondence. Furthermore, the proposed approach improves the convergence of diffusion models, reducing the number of required diffusion steps by more than 35% on two benchmarks, significantly increasing the inference speed.
翻訳日:2022-06-17 15:01:35 公開日:2022-06-15
# CLIPにおける視覚的および記述的概念の分離

Disentangling visual and written concepts in CLIP ( http://arxiv.org/abs/2206.07835v1 )

ライセンス: Link先を確認
Joanna Materzynska, Antonio Torralba, David Bau(参考訳) CLIPネットワークは、自然言語と画像の類似性を測定し、本研究では、その画像エンコーダにおける単語画像と自然言語の表現の絡み合いについて検討する。 まず、画像エンコーダは、単語画像と、それらの単語が記述したシーンの自然な画像とをマッチングする能力を有する。 これは、単語の意味と綴りがネットワークの奥深くに絡まっていることを示唆する以前の研究と一致している。 一方、CLIPはナンセンスな単語にマッチする能力があり、文字の処理はその意味の処理から切り離されていることを示唆している。 CLIPのスペルが分離可能であるかどうかを明確に判断するために、スペル機能を選択的に分離または排除する表現部分空間を識別する手順を考案する。 提案手法を様々な検索タスクに対してベンチマークし,CLIP誘導画像中のテキストの出現を計測して評価する。 提案手法は,自然画像の視覚処理からCLIPのスペル機能を明確に分離することができる。

The CLIP network measures the similarity between natural text and images; in this work, we investigate the entanglement of the representation of word images and natural images in its image encoder. First, we find that the image encoder has an ability to match word images with natural images of scenes described by those words. This is consistent with previous research that suggests that the meaning and the spelling of a word might be entangled deep within the network. On the other hand, we also find that CLIP has a strong ability to match nonsense words, suggesting that processing of letters is separated from processing of their meaning. To explicitly determine whether the spelling capability of CLIP is separable, we devise a procedure for identifying representation subspaces that selectively isolate or eliminate spelling capabilities. We benchmark our methods against a range of retrieval tasks, and we also test them by measuring the appearance of text in CLIP-guided generated images. We find that our methods are able to cleanly separate spelling capabilities of CLIP from the visual processing of natural images.
翻訳日:2022-06-17 15:01:12 公開日:2022-06-15
# ディエンス検出アンカーを用いたアクションスポッティング:2022年サッカーネットチャレンジへの提出

Action Spotting using Dense Detection Anchors Revisited: Submission to the SoccerNet Challenge 2022 ( http://arxiv.org/abs/2206.07846v1 )

ライセンス: Link先を確認
Jo\~ao V. B. Soares and Avijit Shah(参考訳) 本技術報告では,2022年のAction Spotting SoccerNet Challengeへの応募について述べる。 この課題はCVPR 2022 ActivityNet Workshopの一部である。 提案手法は,高密度サンプルを用いた検出アンカーによる時間精度の向上に着目した,最近提案した手法に基づく。 時間的精度に重点を置いているため、この手法は時間的評価許容度を小さくする厳密な平均mAP測定値の競争結果を生み出すことができる。 この最近提案された指標は、この課題に使用される評価基準である。 結果をさらに改善するために,前処理および後処理ステップの小さな変更を導入するとともに,レイトフュージョンによる様々な入力特徴型を組み合わせる。 本報告では,導入した修正に焦点をあてた,全体的なアプローチについて述べる。 また,使用するトレーニング手順を説明し,その結果について述べる。

This technical report describes our submission to the Action Spotting SoccerNet Challenge 2022. The challenge is part of the CVPR 2022 ActivityNet Workshop. Our submission is based on a method that we proposed recently, which focuses on increasing temporal precision via a densely sampled set of detection anchors. Due to its emphasis on temporal precision, this approach is able to produce competitive results on the tight average-mAP metric, which uses small temporal evaluation tolerances. This recently proposed metric is the evaluation criterion used for the challenge. In order to further improve results, here we introduce small changes in the pre- and post-processing steps, and also combine different input feature types via late fusion. This report describes the resulting overall approach, focusing on the modifications introduced. We also describe the training procedures used, and present our results.
翻訳日:2022-06-17 15:00:53 公開日:2022-06-15
# ドメイン一般化のための敵対的学習変換による多様性の向上

Improving Diversity with Adversarially Learned Transformations for Domain Generalization ( http://arxiv.org/abs/2206.07736v1 )

ライセンス: Link先を確認
Tejas Gokhale, Rushil Anirudh, Jayaraman J. Thiagarajan, Bhavya Kailkhura, Chitta Baral, Yezhou Yang(参考訳) 単一ソース領域の一般化に成功するために、合成ドメインの多様性を最大化することが最も効果的な戦略の1つである。 最近の成功の多くは、トレーニング中にモデルが露出する多様性のタイプを事前に特定する手法から来ており、最終的に新しいドメインにうまく一般化することができる。 しかし、大域シフトをモデル化できないことや、事前指定された変換のスパンが、ドメイン一般化で一般的に発生するシフトのタイプをカバーしていないことなど、ドメイン一般化に効果的に機能しない。 この問題に対処するために、ニューラルネットワークを用いて逆学習変換(ALT)を使用して、分類器を騙す可塑性だがハードな画像変換をモデル化する新しいフレームワークを提案する。 このネットワークはバッチ毎にランダムに初期化され、分類エラーを最大化するために一定数のステップで訓練される。 さらに,クリーン画像とトランスフォーメーション画像に対して,分類器の予測値の一貫性を強制する。 広範な経験的分析によって、この新しい形態の敵対的変換は多様性と硬さの両方の目的を同時に達成し、単一ソースドメインの一般化のための競争ベンチマークにおいて、既存のすべてのテクニックを上回っています。 また、ALTが既存の多様性モジュールと自然に連携することで、ソースドメインの大規模変換が最先端のパフォーマンスにつながることを示す。

To be successful in single source domain generalization, maximizing diversity of synthesized domains has emerged as one of the most effective strategies. Many of the recent successes have come from methods that pre-specify the types of diversity that a model is exposed to during training, so that it can ultimately generalize well to new domains. However, na\"ive diversity based augmentations do not work effectively for domain generalization either because they cannot model large domain shift, or because the span of transforms that are pre-specified do not cover the types of shift commonly occurring in domain generalization. To address this issue, we present a novel framework that uses adversarially learned transformations (ALT) using a neural network to model plausible, yet hard image transformations that fool the classifier. This network is randomly initialized for each batch and trained for a fixed number of steps to maximize classification error. Further, we enforce consistency between the classifier's predictions on the clean and transformed images. With extensive empirical analysis, we find that this new form of adversarial transformations achieve both objectives of diversity and hardness simultaneously, outperforming all existing techniques on competitive benchmarks for single source domain generalization. We also show that ALT can naturally work with existing diversity modules to produce highly distinct, and large transformations of the source domain leading to state-of-the-art performance.
翻訳日:2022-06-17 14:57:51 公開日:2022-06-15
# 完全微分型混合精度ニューラルネットワークによるエッジ推論

Edge Inference with Fully Differentiable Quantized Mixed Precision Neural Networks ( http://arxiv.org/abs/2206.07741v1 )

ライセンス: Link先を確認
Clemens JS Schaefer, Siddharth Joshi, Shan Li, Raul Blazquez(参考訳) ディープニューラルネットワーク(DNN)の大規模コンピューティングとメモリコストは、リソース制約のあるデバイスでの使用を妨げることが多い。 パラメータと演算を低ビット精度に定量化することで、ニューラルネットワーク推論のメモリと省エネが実現され、エッジコンピューティングプラットフォームでのdnnの使用が容易になる。 近年、DNNの量子化への取り組みは、進行量子化、ステップサイズ適応、勾配スケーリングを含む様々な手法を用いている。 本稿では,エッジ計算を対象とする混合精度畳み込みニューラルネットワーク(CNN)の量子化手法を提案する。 本手法は,様々な量子化モデルを示すモデル精度とメモリフットプリントにおける新たなパレートフロンティアを確立し,4.3mbの重み(wgts.)とアクティベーション(acts.)以下の精度を提供する。 私たちの主な貢献は 一 テンソルスライシング学習精度をもつハードウェア対応異種微分可能量子化 (ii) wgtsの目標勾配修正。 そして行動する 量子化エラーを軽減し (3)学習量化器とモデルパラメータの更新から生じる学習の不安定性に対処する多段階学習スケジュール。 EfficientNet-Lite0(4.14MBのwgt、67.66%の精度で動作)やMobileNetV2(3.51MBのwgt、65.39%の精度で動作)を含む、さまざまなモデルにわたるImageNetデータセットにおける我々の技術の有効性を実証する。

The large computing and memory cost of deep neural networks (DNNs) often precludes their use in resource-constrained devices. Quantizing the parameters and operations to lower bit-precision offers substantial memory and energy savings for neural network inference, facilitating the use of DNNs on edge computing platforms. Recent efforts at quantizing DNNs have employed a range of techniques encompassing progressive quantization, step-size adaptation, and gradient scaling. This paper proposes a new quantization approach for mixed precision convolutional neural networks (CNNs) targeting edge-computing. Our method establishes a new pareto frontier in model accuracy and memory footprint demonstrating a range of quantized models, delivering best-in-class accuracy below 4.3 MB of weights (wgts.) and activations (acts.). Our main contributions are: (i) hardware-aware heterogeneous differentiable quantization with tensor-sliced learned precision, (ii) targeted gradient modification for wgts. and acts. to mitigate quantization errors, and (iii) a multi-phase learning schedule to address instability in learning arising from updates to the learned quantizer and model parameters. We demonstrate the effectiveness of our techniques on the ImageNet dataset across a range of models including EfficientNet-Lite0 (e.g., 4.14MB of wgts. and acts. at 67.66% accuracy) and MobileNetV2 (e.g., 3.51MB wgts. and acts. at 65.39% accuracy).
翻訳日:2022-06-17 14:57:11 公開日:2022-06-15
# SAVi++: 現実世界のビデオからエンドツーエンドのオブジェクト中心学習を目指す

SAVi++: Towards End-to-End Object-Centric Learning from Real-World Videos ( http://arxiv.org/abs/2206.07764v1 )

ライセンス: Link先を確認
Gamaleldin F. Elsayed, Aravindh Mahendran, Sjoerd van Steenkiste, Klaus Greff, Michael C. Mozer, Thomas Kipf(参考訳) 視覚世界はスパース相互作用を持つ異なる実体の言葉でパロニカルに特徴づけることができる。 この構成構造を動的視覚シーンで発見することは、明示的なインスタンスレベルの監督が提供されない限り、エンドツーエンドのコンピュータビジョンアプローチでは困難であることが証明された。 モーションキューを利用したスロットベースのモデルは最近、直接の監督なしでオブジェクトの表現、セグメント化、追跡を学べるという大きな期待を示しているが、それでも複雑な現実世界のマルチオブジェクトビデオにはスケールできない。 このギャップを埋めるために、私たちは人間の発達からインスピレーションを得て、深度信号の形でのシーン幾何学に関する情報がオブジェクト中心の学習を促進すると仮定します。 スロットベースのビデオ表現から深度信号を予測するために訓練されたオブジェクト中心のビデオモデルSAVi++を紹介する。 モデルスケーリングのベストプラクティスをさらに活用することにより,SAVi++をトレーニングして,動作中のカメラで記録された複雑なダイナミックシーンをセグメント化することが可能になります。 最後に、LiDARから得られたスパースディープ信号を使用することで、SAVi++は、現実世界のWaymo Openデータセット内のビデオから創発的なオブジェクトセグメンテーションとトラッキングを学習できることを示した。

The visual world can be parsimoniously characterized in terms of distinct entities with sparse interactions. Discovering this compositional structure in dynamic visual scenes has proven challenging for end-to-end computer vision approaches unless explicit instance-level supervision is provided. Slot-based models leveraging motion cues have recently shown great promise in learning to represent, segment, and track objects without direct supervision, but they still fail to scale to complex real-world multi-object videos. In an effort to bridge this gap, we take inspiration from human development and hypothesize that information about scene geometry in the form of depth signals can facilitate object-centric learning. We introduce SAVi++, an object-centric video model which is trained to predict depth signals from a slot-based video representation. By further leveraging best practices for model scaling, we are able to train SAVi++ to segment complex dynamic scenes recorded with moving cameras, containing both static and moving objects of diverse appearance on naturalistic backgrounds, without the need for segmentation supervision. Finally, we demonstrate that by using sparse depth signals obtained from LiDAR, SAVi++ is able to learn emergent object segmentation and tracking from videos in the real-world Waymo Open dataset.
翻訳日:2022-06-17 14:56:41 公開日:2022-06-15
# ディファレンシャルプライバシとグラデーションミスアライメントの違いによる影響

Disparate Impact in Differential Privacy from Gradient Misalignment ( http://arxiv.org/abs/2206.07737v1 )

ライセンス: Link先を確認
Maria S. Esipova, Atiyeh Ashari Ghomi, Yaqiao Luo, Jesse C. Cresswell(参考訳) 機械学習が社会全体に広まるにつれて、データプライバシや公正性といった側面を慎重に検討し、高度に規制された産業への展開に不可欠である。 残念ながら、プライバシー強化技術の適用は、モデルの不公平な傾向を悪化させる可能性がある。 特に、最も広く使われているプライベートモデルトレーニングのテクニックの1つは、差分的にプライベートな確率勾配降下(dpsgd)であり、しばしばデータ内のグループに対する異なる影響を増大させる。 本研究は,DPSGDにおける不公平性の微細な原因について検討し,不平等な勾配クリッピングによる勾配ずれを最も重要な原因とする。 そこで本研究では,DPSGDの勾配ずれを防止し,不公平さを軽減する新しい手法を提案する。

As machine learning becomes more widespread throughout society, aspects including data privacy and fairness must be carefully considered, and are crucial for deployment in highly regulated industries. Unfortunately, the application of privacy enhancing technologies can worsen unfair tendencies in models. In particular, one of the most widely used techniques for private model training, differentially private stochastic gradient descent (DPSGD), frequently intensifies disparate impact on groups within data. In this work we study the fine-grained causes of unfairness in DPSGD and identify gradient misalignment due to inequitable gradient clipping as the most significant source. This observation leads us to a new method for reducing unfairness by preventing gradient misalignment in DPSGD.
翻訳日:2022-06-17 14:53:00 公開日:2022-06-15
# 深層強化学習エージェントの探索に基づくテスト手法

Search-Based Testing Approach for Deep Reinforcement Learning Agents ( http://arxiv.org/abs/2206.07813v1 )

ライセンス: Link先を確認
Amirhossein Zolfagharian, Manel Abdellatif, Lionel Briand, Mojtaba Bagherzadeh and Ramesh S(参考訳) 深層強化学習(drl)アルゴリズムは、自動運転やロボティクスといったさまざまな意思決定問題を解決するために、過去10年間にますます使われてきた。 しかし、これらのアルゴリズムは、しばしば誤った振る舞いを示し、潜在的に重大なエラーにつながる可能性があるため、安全クリティカルな環境にデプロイする場合、大きな課題に直面している。 DRLエージェントの安全性を評価する1つの方法は、実行時に重大な障害を引き起こす可能性のある障害を検出するためにそれらをテストすることである。 これにより、DRLポリシーを効果的にテストして、安全要件の正しさと遵守を確実にする方法について疑問が持ち上がる。 ほとんどの既存のDRLエージェントのテストでは、エージェントの状態や動作を妨害する敵攻撃を使用している。 しかし、そのような攻撃は環境の非現実的な状態につながることが多い。 彼らの主な目標は、要求に対するエージェントのポリシーの遵守をテストするのではなく、DRLエージェントの堅牢性をテストすることである。 DRL環境の巨大な状態空間、高いテスト実行コスト、およびDRLアルゴリズムのブラックボックスの性質のため、DRLエージェントの徹底的なテストは不可能である。 本稿では,限られた試験予算内でのエージェントの実行失敗を効果的に検索することにより,DRLエージェントのポリシーをテストするための検索ベース強化学習エージェント(STARLA)を提案する。 機械学習モデルと専用の遺伝的アルゴリズムを用いて、故障エピソードに対する探索を絞り込む。 ベンチマークとして広く使われている深層q学習エージェントにstarlaを適用し,エージェントの方針に関連する障害を検出することにより,ランダムテストを大幅に上回っていることを示す。 また,DRLエージェントの異常エピソードを特徴付けるルールを検索結果から抽出する方法についても検討した。 このようなルールは、エージェントが失敗する条件を理解し、デプロイメントのリスクを評価するために使用することができる。

Deep Reinforcement Learning (DRL) algorithms have been increasingly employed during the last decade to solve various decision-making problems such as autonomous driving and robotics. However, these algorithms have faced great challenges when deployed in safety-critical environments since they often exhibit erroneous behaviors that can lead to potentially critical errors. One way to assess the safety of DRL agents is to test them to detect possible faults leading to critical failures during their execution. This raises the question of how we can efficiently test DRL policies to ensure their correctness and adherence to safety requirements. Most existing works on testing DRL agents use adversarial attacks that perturb states or actions of the agent. However, such attacks often lead to unrealistic states of the environment. Their main goal is to test the robustness of DRL agents rather than testing the compliance of agents' policies with respect to requirements. Due to the huge state space of DRL environments, the high cost of test execution, and the black-box nature of DRL algorithms, the exhaustive testing of DRL agents is impossible. In this paper, we propose a Search-based Testing Approach of Reinforcement Learning Agents (STARLA) to test the policy of a DRL agent by effectively searching for failing executions of the agent within a limited testing budget. We use machine learning models and a dedicated genetic algorithm to narrow the search towards faulty episodes. We apply STARLA on a Deep-Q-Learning agent which is widely used as a benchmark and show that it significantly outperforms Random Testing by detecting more faults related to the agent's policy. We also investigate how to extract rules that characterize faulty episodes of the DRL agent using our search results. Such rules can be used to understand the conditions under which the agent fails and thus assess its deployment risks.
翻訳日:2022-06-17 14:52:47 公開日:2022-06-15
# NeurIPS 2021 MetaDLチャレンジから学んだ教訓: エピソードなメタラーニングを伴わないバックボーン微調整は、数ショットの学習画像分類において支配的である

Lessons learned from the NeurIPS 2021 MetaDL challenge: Backbone fine-tuning without episodic meta-learning dominates for few-shot learning image classification ( http://arxiv.org/abs/2206.08138v1 )

ライセンス: Link先を確認
Adrian El Baz, Andr\'e Carvalho, Hong Chen, Fabio Ferreira, Henry Gouk, Shell Hu, Frank Hutter, Zhengying Liu, Felix Mohr, Jan van Rijn, Xin Wang, Isabelle Guyon (TAU, LISN)(参考訳) ディープニューラルネットワークは、さまざまなタスクにおいて人間よりも優れたパフォーマンスを実現することができるが、大量のデータと計算リソースを必要とすることで悪名高く、そのようなリソースが利用可能なドメインにその成功を制限している。 メタラーニング手法は、関連するタスクから知識を転送することでこの問題に対処し、新しいタスクを学ぶのに必要なデータ量と計算リソースを減らすことができる。 メタDLコンペティションシリーズを組織し、世界中の研究グループが実際の問題に対する新しいメタ(深層)学習ソリューションを作成し、実験的に評価する機会を提供する。 本稿では,コンペティション主催者とトップクラスの参加者とのコラボレーションにより,コンペティションの設計,データセット,最高の実験結果,そして,最終段階(ベースラインを上回って)に到達した15のアクティブチームを引き付けるneurips 2021 challengeにおけるトップランクのメソッドについて述べる。 トップ参加者のソリューションがオープンソース化された。 学んだ教訓は、優れた表現の学習は効果的な転校学習に不可欠であるということである。

Although deep neural networks are capable of achieving performance superior to humans on various tasks, they are notorious for requiring large amounts of data and computing resources, restricting their success to domains where such resources are available. Metalearning methods can address this problem by transferring knowledge from related tasks, thus reducing the amount of data and computing resources needed to learn new tasks. We organize the MetaDL competition series, which provide opportunities for research groups all over the world to create and experimentally assess new meta-(deep)learning solutions for real problems. In this paper, authored collaboratively between the competition organizers and the top-ranked participants, we describe the design of the competition, the datasets, the best experimental results, as well as the top-ranked methods in the NeurIPS 2021 challenge, which attracted 15 active teams who made it to the final phase (by outperforming the baseline), making over 100 code submissions during the feedback phase. The solutions of the top participants have been open-sourced. The lessons learned include that learning good representations is essential for effective transfer learning.
翻訳日:2022-06-17 14:09:36 公開日:2022-06-15
# トレーニングニューラルネットワークからのトレーニングデータの再構成

Reconstructing Training Data from Trained Neural Networks ( http://arxiv.org/abs/2206.07758v1 )

ライセンス: Link先を確認
Niv Haim, Gal Vardi, Gilad Yehudai, Ohad Shamir, Michal Irani(参考訳) ニューラルネットワークがトレーニングデータを記憶する程度を理解することは、実践的および理論的意味において興味深い問題である。 本稿では,ある場合において,訓練されたニューラルネットワーク分類器のパラメータから,実際にトレーニングデータのかなりの一部を再構成できることを示す。 本稿では,勾配に基づくニューラルネットワークの学習における暗黙的バイアスに関する最近の理論結果に基づく新しい再構成手法を提案する。 我々の知る限りでは、トレーニングされたニューラルネットワーク分類器から実際のトレーニングサンプルの大部分を再構築することは、一般的に可能であることを示す最初のものである。 これはプライバシーに悪影響を及ぼし、機密性の高いトレーニングデータを明らかにする攻撃として使用できる。 本手法は,いくつかの標準コンピュータビジョンデータセット上でバイナリmlp分類を行う方法を示す。

Understanding to what extent neural networks memorize training data is an intriguing question with practical and theoretical implications. In this paper we show that in some cases a significant fraction of the training data can in fact be reconstructed from the parameters of a trained neural network classifier. We propose a novel reconstruction scheme that stems from recent theoretical results about the implicit bias in training neural networks with gradient-based methods. To the best of our knowledge, our results are the first to show that reconstructing a large portion of the actual training samples from a trained neural network classifier is generally possible. This has negative implications on privacy, as it can be used as an attack for revealing sensitive training data. We demonstrate our method for binary MLP classifiers on a few standard computer vision datasets.
翻訳日:2022-06-17 14:08:31 公開日:2022-06-15
# ディープグラフニューラルネットにおける特徴過剰相関:新しい視点

Feature Overcorrelation in Deep Graph Neural Networks: A New Perspective ( http://arxiv.org/abs/2206.07743v1 )

ライセンス: Link先を確認
Wei Jin, Xiaorui Liu, Yao Ma, Charu Aggarwal, Jiliang Tang(参考訳) 近年、レコメンデーションや薬物発見など多くの現実世界の応用においてグラフニューラルネットワーク(GNN)によって達成された顕著な成功を目の当たりにしている。 この成功にもかかわらず、深いGNNのパフォーマンスを制限する重要な問題の1つとして、過剰なスムーシングが特定されている。 これは、学習ノード表現が、積み重ねアグリゲータのため、非常に区別できないことを示している。 本稿では,ディープgnn,すなわち特徴過剰相関の性能劣化を調べるための新しい視点を提案する。 この問題に関する実証的および理論的研究を通じて、より深いGNNにおける特徴過剰相関の存在を実証し、この問題に繋がる潜在的な理由を明らかにする。 特徴相関を低減するために,GNNが冗長な情報をエンコードすることを促進できる汎用フレームワークDeCorrを提案する。 大規模な実験により、DeCorrはより深いGNNを可能にし、過度な問題に取り組む既存のテクニックを補完することを示した。

Recent years have witnessed remarkable success achieved by graph neural networks (GNNs) in many real-world applications such as recommendation and drug discovery. Despite the success, oversmoothing has been identified as one of the key issues which limit the performance of deep GNNs. It indicates that the learned node representations are highly indistinguishable due to the stacked aggregators. In this paper, we propose a new perspective to look at the performance degradation of deep GNNs, i.e., feature overcorrelation. Through empirical and theoretical study on this matter, we demonstrate the existence of feature overcorrelation in deeper GNNs and reveal potential reasons leading to this issue. To reduce the feature correlation, we propose a general framework DeCorr which can encourage GNNs to encode less redundant information. Extensive experiments have demonstrated that DeCorr can help enable deeper GNNs and is complementary to existing techniques tackling the oversmoothing issue.
翻訳日:2022-06-17 14:04:52 公開日:2022-06-15
# 1ステップ勾配マッチングによる凝縮グラフ

Condensing Graphs via One-Step Gradient Matching ( http://arxiv.org/abs/2206.07746v1 )

ライセンス: Link先を確認
Wei Jin, Xianfeng Tang, Haoming Jiang, Zheng Li, Danqing Zhang, Jiliang Tang, Bin Ying(参考訳) 大規模データセット上でのディープラーニングモデルのトレーニングには多くの時間とリソースを要するため,ディープラーニングモデルを十分にトレーニング可能な,小さな合成データセットの構築が望まれる。 複雑なbiレベル最適化による画像データセットの凝縮に関するソリューションを探求した最近の研究がある。 例えば、データセット凝縮 (dc) は、ネットワーク勾配 w.r.t. large-real data と small-synthetic data に一致する。 しかし、既存のアプローチには固有の制限がある: (1) データは離散的なグラフに直接適用されない; (2) 凝縮過程は入れ子最適化にかかわるため計算的に高価である。 このギャップを埋めるために、離散グラフ構造を確率論的モデルとしてモデル化したグラフデータセットに適した効率的なデータセット凝縮について検討する。 さらに,ネットワーク重みを訓練することなく,一段階のみの勾配マッチングを行う一段階勾配マッチング方式を提案する。 理論解析の結果、この戦略は実グラフの分類損失を減少させる合成グラフを生成できることが示されている。 各種グラフデータセットに対する実験により,提案手法の有効性と有効性を示す。 特に、元の性能の最大98%を近似しながらデータセットサイズを90%削減することができ、本手法は多段階勾配マッチング(例えば、500グラフを合成するCIFAR10の15倍)よりも大幅に高速である。

As training deep learning models on large dataset takes a lot of time and resources, it is desired to construct a small synthetic dataset with which we can train deep learning models sufficiently. There are recent works that have explored solutions on condensing image datasets through complex bi-level optimization. For instance, dataset condensation (DC) matches network gradients w.r.t. large-real data and small-synthetic data, where the network weights are optimized for multiple steps at each outer iteration. However, existing approaches have their inherent limitations: (1) they are not directly applicable to graphs where the data is discrete; and (2) the condensation process is computationally expensive due to the involved nested optimization. To bridge the gap, we investigate efficient dataset condensation tailored for graph datasets where we model the discrete graph structure as a probabilistic model. We further propose a one-step gradient matching scheme, which performs gradient matching for only one single step without training the network weights. Our theoretical analysis shows this strategy can generate synthetic graphs that lead to lower classification loss on real graphs. Extensive experiments on various graph datasets demonstrate the effectiveness and efficiency of the proposed method. In particular, we are able to reduce the dataset size by 90% while approximating up to 98% of the original performance and our method is significantly faster than multi-step gradient matching (e.g. 15x in CIFAR10 for synthesizing 500 graphs).
翻訳日:2022-06-17 14:04:37 公開日:2022-06-15
# アウト・オブ・ディストリビューションの一般化に必要なデータ生成プロセスのモデリング

Modeling the Data-Generating Process is Necessary for Out-of-Distribution Generalization ( http://arxiv.org/abs/2206.07837v1 )

ライセンス: Link先を確認
Jivat Neet Kaur, Emre Kiciman, Amit Sharma(参考訳) 複数のドメインから収集された実世界データは、複数の属性に対して複数の異なる分散シフトを持つことができる。 しかし、ドメイン一般化(DG)アルゴリズムの最先端は、1つの属性に対する特定のシフトのみに焦点を当てている。 マルチ属性分布シフトを伴うデータセットを導入し,既存のDGアルゴリズムが一般化に失敗することを確認した。 これを説明するために, 因果グラフを用いて, スプリアス属性と分類ラベルの関係に基づいて, 異なる種類のシフトを特徴付ける。 各多属性因果グラフは観測された変数に対する異なる制約を伴っており、従って単一の固定独立性制約に基づくアルゴリズムは全てのシフトに対してうまく機能しない。 正規化のための独立性制約を同定する新しいアルゴリズムであるcausally adaptive constraints minimization (cacm)を提案する。 完全合成,MNIST,小NORBデータセットの2値および複数値の属性とラベルに関する結果は,我々の理論的主張を裏付けるものである。 本稿では,データ生成過程に固有の因果関係をモデル化することが重要であることを示す。

Real-world data collected from multiple domains can have multiple, distinct distribution shifts over multiple attributes. However, state-of-the art advances in domain generalization (DG) algorithms focus only on specific shifts over a single attribute. We introduce datasets with multi-attribute distribution shifts and find that existing DG algorithms fail to generalize. To explain this, we use causal graphs to characterize the different types of shifts based on the relationship between spurious attributes and the classification label. Each multi-attribute causal graph entails different constraints over observed variables, and therefore any algorithm based on a single, fixed independence constraint cannot work well across all shifts. We present Causally Adaptive Constraint Minimization (CACM), a new algorithm for identifying the correct independence constraints for regularization. Results on fully synthetic, MNIST and small NORB datasets, covering binary and multi-valued attributes and labels, confirm our theoretical claim: correct independence constraints lead to the highest accuracy on unseen domains whereas incorrect constraints fail to do so. Our results demonstrate the importance of modeling the causal relationships inherent in the data-generating process: in many cases, it is impossible to know the correct regularization constraints without this information.
翻訳日:2022-06-17 14:04:11 公開日:2022-06-15
# リニアリティグラフト:リラクシドニューロンプルーニングは、ロバスト性を証明するのに役立つ

Linearity Grafting: Relaxed Neuron Pruning Helps Certifiable Robustness ( http://arxiv.org/abs/2206.07839v1 )

ライセンス: Link先を確認
Tianlong Chen, Huan Zhang, Zhenyu Zhang, Shiyu Chang, Sijia Liu, Pin-Yu Chen, Zhangyang Wang(参考訳) 証明可能な堅牢性は、安全クリティカルなシナリオでディープニューラルネットワーク(DNN)を採用する上で非常に望ましい性質であるが、しばしば退屈な計算の確立を要求する。 主なハードルは、大規模なdnnにおける大量の非線形性である。 DNN表現性(より非線形性を求める)と堅牢性証明のスケーラビリティ(より線形性を好む)をトレードオフするために、我々は、適切な線形性のレベルを「グラフト」することで、神経細胞を戦略的に操作する新しいソリューションを提案する。 我々の提案の中核は、まず重要なReLUニューロンを線形化し、DNN性能に冗長で、その認証に有害な非線形成分を取り除くことである。 次に,代替リニアアクティベーションのスロープとインターセプトを最適化し,検証性を維持しつつモデル性能を回復する。 したがって、典型的なニューロンのプルーニングは、ネットワークの柔軟性を過度に制限し、性能を犠牲にする、固定されたゼロ勾配の線形関数を移植してインターセプトする特別なケースと見なすことができる。 複数のデータセットとネットワークのバックボーンに関する広範囲な実験により、線形性グラフトは(1)証明された境界を効果的に締め付けること、(2)証明された堅牢性のない競争力のある堅牢性を達成すること、(3)CIFAR-10モデルの30%以上の改善、(3)17Mパラメータを持つ大きな敵に訓練されたモデルに完全検証をスケールアップできることが示されている。 コードはhttps://github.com/VITA-Group/Linearity-Graftingで入手できる。

Certifiable robustness is a highly desirable property for adopting deep neural networks (DNNs) in safety-critical scenarios, but often demands tedious computations to establish. The main hurdle lies in the massive amount of non-linearity in large DNNs. To trade off the DNN expressiveness (which calls for more non-linearity) and robustness certification scalability (which prefers more linearity), we propose a novel solution to strategically manipulate neurons, by "grafting" appropriate levels of linearity. The core of our proposal is to first linearize insignificant ReLU neurons, to eliminate the non-linear components that are both redundant for DNN performance and harmful to its certification. We then optimize the associated slopes and intercepts of the replaced linear activations for restoring model performance while maintaining certifiability. Hence, typical neuron pruning could be viewed as a special case of grafting a linear function of the fixed zero slopes and intercept, that might overly restrict the network flexibility and sacrifice its performance. Extensive experiments on multiple datasets and network backbones show that our linearity grafting can (1) effectively tighten certified bounds; (2) achieve competitive certifiable robustness without certified robust training (i.e., over 30% improvements on CIFAR-10 models); and (3) scale up complete verification to large adversarially trained models with 17M parameters. Codes are available at https://github.com/VITA-Group/Linearity-Grafting.
翻訳日:2022-06-17 14:03:19 公開日:2022-06-15
# 問合せ未問合せデータによるクラスインクリメンタル学習の改善と堅牢化

Queried Unlabeled Data Improves and Robustifies Class-Incremental Learning ( http://arxiv.org/abs/2206.07842v1 )

ライセンス: Link先を確認
Tianlong Chen, Sijia Liu, Shiyu Chang, Lisa Amini, Zhangyang Wang(参考訳) クラスインクリメンタル学習(cil)は、新しく追加されたクラスを学習し、以前の学習したクラス知識を保存することで悪名高いジレンマに苦しむ。 この破滅的な忘れ問題は、履歴データをリプレイ用に保存することで緩和される可能性があるため、メモリオーバーヘッドや不均衡な予測更新を引き起こす可能性がある。 このジレンマに対処するために,我々は「自由」な外部ラベルのないデータクエリを連続学習に活用することを提案する。 まず,クエリなしデータ(cil-qud)スキームによるcilを提案する。そこでは,過去のトレーニングサンプルをアンカーとして保存し,関連するラベルなしの例を毎回クエリするために使用する。 新旧の保存データとともに、学習無鍛造(LwF)正規化とクラスバランストレーニングを通じて、クエリされた未ラベルを効果的に活用する。 CIL-QUDにおけるモデル一般化の過去・現在課題の保存に加えて, 対角的ロバスト性の問題についても検討する。 ラベルのないデータでロバストモデルを学ぶことの最近の成功に触発されて、我々は新しいロバスト性を認識するcil設定を探求する。 既存のオプションは容易に失敗するが、クエリ済みのラベル付きデータは引き続き利益を示し、CIL-QUDをその堅牢化バージョンであるRCIL-QUDにシームレスに拡張する。 CIL-QUD は CIFAR-10 と CIFAR-100 に対して, 従来の CIL のアプローチと比較して, かなり精度が向上することを示した。 さらに、RCIL-QUDはロバストネスを意識したCILの最初の強力なマイルストーンを確立している。 コードはhttps://github.com/VITA-Group/CIL-QUDで入手できる。

Class-incremental learning (CIL) suffers from the notorious dilemma between learning newly added classes and preserving previously learned class knowledge. That catastrophic forgetting issue could be mitigated by storing historical data for replay, which yet would cause memory overheads as well as imbalanced prediction updates. To address this dilemma, we propose to leverage "free" external unlabeled data querying in continual learning. We first present a CIL with Queried Unlabeled Data (CIL-QUD) scheme, where we only store a handful of past training samples as anchors and use them to query relevant unlabeled examples each time. Along with new and past stored data, the queried unlabeled are effectively utilized, through learning-without-forgetting (LwF) regularizers and class-balance training. Besides preserving model generalization over past and current tasks, we next study the problem of adversarial robustness for CIL-QUD. Inspired by the recent success of learning robust models with unlabeled data, we explore a new robustness-aware CIL setting, where the learned adversarial robustness has to resist forgetting and be transferred as new tasks come in continually. While existing options easily fail, we show queried unlabeled data can continue to benefit, and seamlessly extend CIL-QUD into its robustified versions, RCIL-QUD. Extensive experiments demonstrate that CIL-QUD achieves substantial accuracy gains on CIFAR-10 and CIFAR-100, compared to previous state-of-the-art CIL approaches. Moreover, RCIL-QUD establishes the first strong milestone for robustness-aware CIL. Codes are available in https://github.com/VITA-Group/CIL-QUD.
翻訳日:2022-06-17 14:02:49 公開日:2022-06-15
# HyperImpute: 自動モデル選択による一般化反復計算

HyperImpute: Generalized Iterative Imputation with Automatic Model Selection ( http://arxiv.org/abs/2206.07769v1 )

ライセンス: Link先を確認
Daniel Jarrett, Bogdan Cebere, Tennison Liu, Alicia Curth, Mihaela van der Schaar(参考訳) データセットに欠けている値を暗示する問題を考える。 一方、反復的インプテーションを用いた従来のアプローチは、直接学習条件分布の単純さとカスタマイズ性から恩恵を受けるが、各変数と各変数の適切なモデル仕様の実用的な要求に苦しむ。 一方, ニューラルネットワーク関数近似器を用いた学習の能力と効率から, 深層生成モデルを用いた最近の手法は有用であるが, より強力なデータ仮定を最適化し, 頼りにすることが困難であることが多い。 本研究では,カラムワイズモデルとそのハイパーパラメータを適応的かつ自動的に構成する一般化反復型計算フレームワークである*HyperImpute*を提案する。 実際に我々は,アウトオブボックス学習者,オプティマイザ,シミュレータ,拡張可能なインターフェースを備えた具体的な実装を提供する。 実験的に、このフレームワークを、様々な公開データセットに関する総合的な実験と感性を通して検討し、強力なベンチマークに対して正確な計算結果を生成する能力を示す。 最近の研究とは対照的に、我々はこの発見が反復的インプテーションパラダイムを強く擁護していると信じている。

Consider the problem of imputing missing values in a dataset. One the one hand, conventional approaches using iterative imputation benefit from the simplicity and customizability of learning conditional distributions directly, but suffer from the practical requirement for appropriate model specification of each and every variable. On the other hand, recent methods using deep generative modeling benefit from the capacity and efficiency of learning with neural network function approximators, but are often difficult to optimize and rely on stronger data assumptions. In this work, we study an approach that marries the advantages of both: We propose *HyperImpute*, a generalized iterative imputation framework for adaptively and automatically configuring column-wise models and their hyperparameters. Practically, we provide a concrete implementation with out-of-the-box learners, optimizers, simulators, and extensible interfaces. Empirically, we investigate this framework via comprehensive experiments and sensitivities on a variety of public datasets, and demonstrate its ability to generate accurate imputations relative to a strong suite of benchmarks. Contrary to recent work, we believe our findings constitute a strong defense of the iterative imputation paradigm.
翻訳日:2022-06-17 14:01:35 公開日:2022-06-15
# Alexa 教師モデル:自然言語理解システムのためのマルチビリオンパラメータエンコーダの事前学習と拡張

Alexa Teacher Model: Pretraining and Distilling Multi-Billion-Parameter Encoders for Natural Language Understanding Systems ( http://arxiv.org/abs/2206.07808v1 )

ライセンス: Link先を確認
Jack FitzGerald, Shankar Ananthakrishnan, Konstantine Arkoudas, Davide Bernardi, Abhishek Bhagia, Claudio Delli Bovi, Jin Cao, Rakesh Chada, Amit Chauhan, Luoxin Chen, Anurag Dwarakanath, Satyam Dwivedi, Turan Gojayev, Karthik Gopalakrishnan, Thomas Gueudre, Dilek Hakkani-Tur, Wael Hamza, Jonathan Hueser, Kevin Martin Jose, Haidar Khan, Beiye Liu, Jianhua Lu, Alessandro Manzotti, Pradeep Natarajan, Karolina Owczarzak, Gokmen Oz, Enrico Palumbo, Charith Peris, Chandana Satya Prakash, Stephen Rawls, Andy Rosenbaum, Anjali Shenoy, Saleh Soltan, Mukund Harakere Sridhar, Liz Tan, Fabian Triefenbach, Pan Wei, Haiyang Yu, Shuai Zheng, Gokhan Tur, Prem Natarajan(参考訳) 本研究では,700Mから9.3Bまでの非埋め込みパラメータ数を持つプリトレーニングエンコーダの大規模実験と,17M-170Mパラメータからより小さなモデルへの蒸留,および仮想アシスタントシステムの自然言語理解(NLU)コンポーネントへの応用について述べる。 70%の音声データを用いて訓練を行ったが,xnli (write-form cross-lingual natural language inference) コーパスで評価した場合,教師モデルはxlm-rとmt5に比較可能であった。 第2段階は,インテント分類における誤差率を3.86%,スロット充填率を7.01%向上させ,インドメインデータを用いた教師モデルの事前学習を行った。 その結果,第2段階の教師モデルから抽出した170Mパラメータモデルにおいても,事前学習におけるドメイン内データの重要性を強調した2.88%の意図分類と7.69%のスロット充填誤り率を有することがわかった。 ラベル付きNLUデータを用いてオフラインで評価した場合,17M-parameter Stage 2蒸留モデルでは,XLM-Rベース (85M params) とDistillBERT (42M params) がそれぞれ4.23%から6.14%向上した。 最後に, 実システム利用者の満足度の自動測定において, 85M-パラメーター教師から3.74%-4.91%の精度で, 事前学習および蒸留パイプラインを用いた学習モデルの性能向上を図った。

We present results from a large-scale experiment on pretraining encoders with non-embedding parameter counts ranging from 700M to 9.3B, their subsequent distillation into smaller models ranging from 17M-170M parameters, and their application to the Natural Language Understanding (NLU) component of a virtual assistant system. Though we train using 70% spoken-form data, our teacher models perform comparably to XLM-R and mT5 when evaluated on the written-form Cross-lingual Natural Language Inference (XNLI) corpus. We perform a second stage of pretraining on our teacher models using in-domain data from our system, improving error rates by 3.86% relative for intent classification and 7.01% relative for slot filling. We find that even a 170M-parameter model distilled from our Stage 2 teacher model has 2.88% better intent classification and 7.69% better slot filling error rates when compared to the 2.3B-parameter teacher trained only on public data (Stage 1), emphasizing the importance of in-domain data for pretraining. When evaluated offline using labeled NLU data, our 17M-parameter Stage 2 distilled model outperforms both XLM-R Base (85M params) and DistillBERT (42M params) by 4.23% to 6.14%, respectively. Finally, we present results from a full virtual assistant experimentation platform, where we find that models trained using our pretraining and distillation pipeline outperform models distilled from 85M-parameter teachers by 3.74%-4.91% on an automatic measurement of full-system user dissatisfaction.
翻訳日:2022-06-17 13:29:39 公開日:2022-06-15
# 非線形ICAの識別可能性について:スパーシリティと超越性

On the Identifiability of Nonlinear ICA: Sparsity and Beyond ( http://arxiv.org/abs/2206.07751v1 )

ライセンス: Link先を確認
Yujia Zheng, Ignavier Ng, Kun Zhang(参考訳) 非線形独立成分分析(ICA)は、観測可能な非線形混合物から基礎となる独立潜伏源を回収することを目的としている。 非線形icaモデルを特定の自明な不確定性まで識別する方法は、教師なし学習における長年の問題である。 最近のブレークスルーは、補助変数(例えばクラスラベルやドメイン/時間インデックス)が弱い監督や帰納バイアスとして与えられる条件付き独立性としてソースの標準的な独立性仮定を再構成している。 しかし、非条件事前を持つ非線形ICAはそのような発展の恩恵を受けることができない。 代替経路を探索し,構造的スパーシティや独立的な影響など混合過程の仮定のみを検討する。 このような制約の特定のインスタンス化の下では、独立潜水源は置換や成分変換まで非線形混合から同定でき、補助変数のない非線形ICAの非自明な識別性を実現することができる。 評価法と理論結果の検証を実験的に行う。 画像データの結果から,我々の条件は多くの実用的データ生成プロセスに保持される可能性が示唆された。

Nonlinear independent component analysis (ICA) aims to recover the underlying independent latent sources from their observable nonlinear mixtures. How to make the nonlinear ICA model identifiable up to certain trivial indeterminacies is a long-standing problem in unsupervised learning. Recent breakthroughs reformulate the standard independence assumption of sources as conditional independence given some auxiliary variables (e.g., class labels and/or domain/time indexes) as weak supervision or inductive bias. However, nonlinear ICA with unconditional priors cannot benefit from such developments. We explore an alternative path and consider only assumptions on the mixing process, such as Structural Sparsity or Independent Influences. We show that under specific instantiations of such constraints, the independent latent sources can be identified from their nonlinear mixtures up to a permutation and a component-wise transformation, thus achieving nontrivial identifiability of nonlinear ICA without auxiliary variables. We provide estimation methods and validate the theoretical results experimentally. The results on image data suggest that our conditions may hold in a number of practical data generating processes.
翻訳日:2022-06-17 13:28:41 公開日:2022-06-15
# 自己教師付き学習のための仮想埋め込みと自己一貫性

Virtual embeddings and self-consistency for self-supervised learning ( http://arxiv.org/abs/2206.06023v2 )

ライセンス: Link先を確認
Tariq Bdair, Hossam Abdelhamid, Nassir Navab, and Shadi Albarqouni(参考訳) 自己教師付き学習(SSL)は、教師付き学習モデルのトレーニングにおいて、高コストとデータ制限のために最近注目を集めている。 SSLの現在のパラダイムは、入力空間におけるデータ拡張を利用して、同じイメージの異なるビューを作成し、類似したイメージ間の表現を最大化し、異なるイメージに対して最小化するモデルをトレーニングすることだ。 このアプローチは、様々な下流タスクをもたらす最先端(SOTA)を実現するが、しかしながら、潜伏空間の増大を調査する機会を秘めている。 本稿では,データの線形補間により仮想埋め込みを生成するSSLの新しい概念であるTriMixを提案する。 我々の戦略は、仮想空間からオリジナルの埋め込みを抽出するためにモデルを訓練することに焦点を当てている。 さらに,仮想と実際の埋め込みの整合性を改善する自己整合性項を提案する。 我々はTriMixを、自然画像と医用画像からなる8つのベンチマークデータセットで検証し、両方のデータ型で2番目に良いモデルよりも2.71%と0.41%改善した。 さらに,本手法は半教師付き学習,特に低データ体制において,現在の手法よりも優れていた。 さらに、トレーニング済みのモデルは、他のデータセットへの転送性が向上しました。

Self-supervised Learning (SSL) has recently gained much attention due to the high cost and data limitation in the training of supervised learning models. The current paradigm in the SSL is to utilize data augmentation at the input space to create different views of the same images and train a model to maximize the representations between similar images and minimize them for different ones. While this approach achieves state-of-the-art (SOTA) results in various downstream tasks, it still lakes the opportunity to investigate the latent space augmentation. This paper proposes TriMix, a novel concept for SSL that generates virtual embeddings through linear interpolation of the data, thus providing the model with novel representations. Our strategy focuses on training the model to extract the original embeddings from virtual ones, hence, better representation learning. Additionally, we propose a self-consistency term that improves the consistency between the virtual and actual embeddings. We validate TriMix on eight benchmark datasets consisting of natural and medical images with an improvement of 2.71% and 0.41% better than the second-best models for both data types. Further, our approach outperformed the current methods in semi-supervised learning, particularly in low data regimes. Besides, our pre-trained models showed better transfer to other datasets.
翻訳日:2022-06-17 11:51:06 公開日:2022-06-15
# (参考訳) プロジェクションベースK-space Transformer Network for Undersampled Radial MRI Reconstruction with Limited Training Subjects

A Projection-Based K-space Transformer Network for Undersampled Radial MRI Reconstruction with Limited Training Subjects ( http://arxiv.org/abs/2206.07219v1 )

ライセンス: CC BY 4.0
Chang Gao, Shu-Fu Shih, J. Paul Finn, Xiaodong Zhong(参考訳) 近年のディープラーニングと圧縮センシングの併用により,アンダーサンプルMR画像の高速再構成が可能となり,カルテシアンk空間軌道の最先端性能を実現している。 しかしながら、ラジアル軌道のような非カルト軌道は、ネットワークトレーニングの各イテレーションでカルト格子に変換され、トレーニングプロセスが遅くなり、トレーニング中に不便さや遅延を生じさせる必要がある。 ネットワーク内の不均一フーリエ変換の多重反復は、高速推論の深層学習の利点を相殺する。 現在のアプローチでは、通常、イメージ・ツー・イメージ・ネットワークで作業するか、ネットワークトレーニングの前に非カルト的軌跡をグリッドし、繰り返しのグリッド化プロセスを避ける。 しかし,画像対画像ネットワークでは,再構成画像におけるk空間データの一貫性が確保できず,非カルテ的k空間の前処理ではネットワークトレーニングでは補償できない格子誤差が発生する。 逐次変換タスクの長距離依存性を扱うトランスフォーマネットワークに着想を得て,経時的な取得順序に基づいてラジアルスポークを逐次データに再構成し,獲得したスポークから取得されていないラジアルスポークを予測するためにトランスフォーマを用いた。 限られた数の被験者から大量のトレーニングデータを生成するための新しいデータ拡張手法を提案する。 ネットワークは異なる解剖学的構造に生成することができる。 実験の結果,最先端のディープニューラルネットワークと比較して,提案手法の優れた性能を示した。

The recent development of deep learning combined with compressed sensing enables fast reconstruction of undersampled MR images and has achieved state-of-the-art performance for Cartesian k-space trajectories. However, non-Cartesian trajectories such as the radial trajectory need to be transformed onto a Cartesian grid in each iteration of the network training, slowing down the training process and posing inconvenience and delay during training. Multiple iterations of nonuniform Fourier transform in the networks offset the deep learning advantage of fast inference. Current approaches typically either work on image-to-image networks or grid the non-Cartesian trajectories before the network training to avoid the repeated gridding process. However, the image-to-image networks cannot ensure the k-space data consistency in the reconstructed images and the pre-processing of non-Cartesian k-space leads to gridding errors which cannot be compensated by the network training. Inspired by the Transformer network to handle long-range dependencies in sequence transduction tasks, we propose to rearrange the radial spokes to sequential data based on the chronological order of acquisition and use the Transformer to predict unacquired radial spokes from acquired ones. We propose novel data augmentation methods to generate a large amount of training data from a limited number of subjects. The network can be generated to different anatomical structures. Experimental results show superior performance of the proposed framework compared to state-of-the-art deep neural networks.
翻訳日:2022-06-17 09:24:31 公開日:2022-06-15
# (参考訳) データ駆動型深層学習に基づく文章・未知音声の正確な感情強度評価

Accurate Emotion Strength Assessment for Seen and Unseen Speech Based on Data-Driven Deep Learning ( http://arxiv.org/abs/2206.07229v1 )

ライセンス: CC BY 4.0
Rui Liu, Berrak Sisman, Bj\"orn Schuller, Guanglai Gao and Haizhou Li(参考訳) 音声の感情分類と感情強度の評価は、感情的テキスト音声変換や音声変換などの応用に必要である。 サポートベクターマシン(svm)に基づく感情属性ランキング関数は感情音声コーパスの感情強度を予測するために提案されている。 しかし、トレーニングされたランキング関数は新しいドメインに一般化されず、アプリケーションの範囲を制限している。 本稿では,データ駆動型深層学習モデルである strengthnet を提案する。 これは様々な領域からの感情データの融合によって達成される。 我々は,音響エンコーダ,強度予測器,補助感情予測器を含むマルチタスク学習ネットワークアーキテクチャに従う。 実験の結果,提案した強度ネットの予測感情強度は,目視と目視の両方の真理値と高い相関性を示した。 ソースコードはhttps://github.com/ttslr/strengthnet。

Emotion classification of speech and assessment of the emotion strength are required in applications such as emotional text-to-speech and voice conversion. The emotion attribute ranking function based on Support Vector Machine (SVM) was proposed to predict emotion strength for emotional speech corpus. However, the trained ranking function doesn't generalize to new domains, which limits the scope of applications, especially for out-of-domain or unseen speech. In this paper, we propose a data-driven deep learning model, i.e. StrengthNet, to improve the generalization of emotion strength assessment for seen and unseen speech. This is achieved by the fusion of emotional data from various domains. We follow a multi-task learning network architecture that includes an acoustic encoder, a strength predictor, and an auxiliary emotion predictor. Experiments show that the predicted emotion strength of the proposed StrengthNet is highly correlated with ground truth scores for both seen and unseen speech. We release the source codes at: https://github.com/ttslr/StrengthNet.
翻訳日:2022-06-17 09:13:56 公開日:2022-06-15
# (参考訳) ビジュアル文書理解のためのテスト時間適応

Test-Time Adaptation for Visual Document Understanding ( http://arxiv.org/abs/2206.07240v1 )

ライセンス: CC BY 4.0
Sayna Ebrahimi, Sercan O. Arik, Tomas Pfister(参考訳) 自己教師付き事前学習は、様々な視覚文書理解(vdu)タスクの転送可能な表現を生成することができる。 しかし、そのような表現がテスト時に新しい分布シフトに適応する能力はまだ研究されていない。 我々は,クロスモダリティな自己教師付き学習をマスキングビジュアル言語モデルと擬似ラベリングを用いて活用し,テスト時に \textit{source} ドメインで学習したモデルを unlabeled \textit{target} ドメインに適応させる,新しいテスト時間適応手法である doctta を提案する。 また,エンティティ認識,キー値抽出,文書視覚質問応答タスクなど,さまざまなVDUタスクのための既存の公開データセットを用いて,DocTTAがソースモデルの性能を最大1.79\%(F1スコア),3.43\%(F1スコア),17.68\%(ANLSスコア)まで改善し,目標データに対する校正誤差を大幅に低減したベンチマークも導入した。

Self-supervised pretraining has been able to produce transferable representations for various visual document understanding (VDU) tasks. However, the ability of such representations to adapt to new distribution shifts at test-time has not been studied yet. We propose DocTTA, a novel test-time adaptation approach for documents that leverages cross-modality self-supervised learning via masked visual language modeling as well as pseudo labeling to adapt models learned on a \textit{source} domain to an unlabeled \textit{target} domain at test time. We also introduce new benchmarks using existing public datasets for various VDU tasks including entity recognition, key-value extraction, and document visual question answering tasks where DocTTA improves the source model performance up to 1.79\% in (F1 score), 3.43\% (F1 score), and 17.68\% (ANLS score), respectively while drastically reducing calibration error on target data.
翻訳日:2022-06-17 09:04:06 公開日:2022-06-15
# (参考訳) ソースコード要約のための抽出・要約フレームワーク

An Extractive-and-Abstractive Framework for Source Code Summarization ( http://arxiv.org/abs/2206.07245v1 )

ライセンス: CC BY 4.0
Weisong Sun and Chunrong Fang and Yuchen Chen and Quanjun Zhang and Guanhong Tao and Tingxu Han and Yifei Ge and Yudu You and Bin Luo(参考訳) (資料) コード要約は、自然言語の形式で与えられたコードスニペットの要約/記事を自動的に生成することを目的としている。 このような要約は、開発者がソースコードを理解し維持するのを手助けする上で重要な役割を果たす。 既存のコード要約技術は抽出メソッドと抽象メソッドに分類できる。 抽出方法は、検索技術を用いてコードスニペットから重要文とキーワードのサブセットを抽出し、重要文とキーワードの事実的詳細を保持する要約を生成する。 しかし、そのようなサブセットは識別子やエンティティの命名を見逃す可能性があり、その結果、生成された要約の自然性は通常貧弱である。 この抽象的手法は、ニューラルネットワーク翻訳ドメインからエンコーダ・デコーダモデルを利用した人書き的な要約を生成することができる。 生成された要約は、しばしば重要な事実の詳細を見逃す。 実物的詳細を保存した人文的要約を生成するために,新しい抽出・要約フレームワークを提案する。 フレームワークの抽出モジュールは、コードスニペットを取り込んで、重要な事実の詳細を含む重要なステートメントを予測する、抽出コード要約のタスクを実行する。 フレームワークの抽象モジュールは、コードスニペット全体と重要な文を並行して取り込んで、簡潔で人書きのような自然言語要約を生成する抽象的なコード要約のタスクを実行する。 6つのプログラミング言語を含む3つのデータセットに対して広範な実験を行うことで、EACSと呼ばれる手法の有効性を評価する。 実験の結果, EACSはBLEU, METEOR, ROUGH-Lの3つの指標において, 最先端技術よりも優れていた。

(Source) Code summarization aims to automatically generate summaries/comments for a given code snippet in the form of natural language. Such summaries play a key role in helping developers understand and maintain source code. Existing code summarization techniques can be categorized into extractive methods and abstractive methods. The extractive methods extract a subset of important statements and keywords from the code snippet using retrieval techniques, and generate a summary that preserves factual details in important statements and keywords. However, such a subset may miss identifier or entity naming, and consequently, the naturalness of generated summary is usually poor. The abstractive methods can generate human-written-like summaries leveraging encoder-decoder models from the neural machine translation domain. The generated summaries however often miss important factual details. To generate human-written-like summaries with preserved factual details, we propose a novel extractive-and-abstractive framework. The extractive module in the framework performs a task of extractive code summarization, which takes in the code snippet and predicts important statements containing key factual details. The abstractive module in the framework performs a task of abstractive code summarization, which takes in the entire code snippet and important statements in parallel and generates a succinct and human-written-like natural language summary. We evaluate the effectiveness of our technique, called EACS, by conducting extensive experiments on three datasets involving six programming languages. Experimental results show that EACS significantly outperforms state-of-the-art techniques in terms of all three widely used metrics, including BLEU, METEOR, and ROUGH-L.
翻訳日:2022-06-17 08:43:45 公開日:2022-06-15
# (参考訳) マルチタスク高次元線形モデルにおける雑音共分散推定

Noise Covariance Estimation in Multi-Task High-dimensional Linear Models ( http://arxiv.org/abs/2206.07256v1 )

ライセンス: CC BY-SA 4.0
Kai Tan, Gabriel Romon, and Pierre C Bellec(参考訳) 本稿では,サンプルサイズ$n$ と次元 $p$ が同じ順序である中程度の高次元環境において,タスク間のノイズが相関するマルチタスク高次元線形回帰モデルについて検討する。 本研究の目的は,雑音ランダムベクトルの共分散行列を推定すること,あるいは2つのタスクにおける雑音変数の相関を等価に推定することである。 回帰係数をニュアサンスパラメータとして扱い,マルチタスク elastic-net と multi-task lasso estimator を用いてニュアザンスを推定する。 正方行列のバイアスを正確に理解し、このバイアスを補正することにより、コ変数がガウス的であるとき、フロベニウスノルムに収束する雑音共分散の新しい推定器を開発する。 この新しい推定器は効率よく計算できる。 適切な条件下では、提案したノイズ共分散の推定器は、マルチタスクモデルの回帰係数を事前に知っている「軌道」推定器と同じ収束率が得られる。 本論文で得られたフロベニウス誤差境界は, ニュアンスを推定しようとしないモーメント推定器と比較して, この新しい推定器の利点も示している。 本手法の副産物として,マルチタスクelastic-netおよびマルチタスクlasso推定器の一般化誤差を推定する。 提案手法の数値的性能を示すために, 詳細なシミュレーション実験を行った。

This paper studies the multi-task high-dimensional linear regression models where the noise among different tasks is correlated, in the moderately high dimensional regime where sample size $n$ and dimension $p$ are of the same order. Our goal is to estimate the covariance matrix of the noise random vectors, or equivalently the correlation of the noise variables on any pair of two tasks. Treating the regression coefficients as a nuisance parameter, we leverage the multi-task elastic-net and multi-task lasso estimators to estimate the nuisance. By precisely understanding the bias of the squared residual matrix and by correcting this bias, we develop a novel estimator of the noise covariance that converges in Frobenius norm at the rate $n^{-1/2}$ when the covariates are Gaussian. This novel estimator is efficiently computable. Under suitable conditions, the proposed estimator of the noise covariance attains the same rate of convergence as the "oracle" estimator that knows in advance the regression coefficients of the multi-task model. The Frobenius error bounds obtained in this paper also illustrate the advantage of this new estimator compared to a method-of-moments estimator that does not attempt to estimate the nuisance. As a byproduct of our techniques, we obtain an estimate of the generalization error of the multi-task elastic-net and multi-task lasso estimators. Extensive simulation studies are carried out to illustrate the numerical performance of the proposed method.
翻訳日:2022-06-17 08:18:54 公開日:2022-06-15
# (参考訳) 画像スケールと方向の自己教師あり学習

Self-Supervised Learning of Image Scale and Orientation ( http://arxiv.org/abs/2206.07259v1 )

ライセンス: CC BY 4.0
Jongmin Lee, Yoonwoo Jeong, Minsu Cho(参考訳) 興味のある画像領域に対して,特徴的ポーズ,すなわちスケールと方向を割り当てる学習の問題について検討する。 明らかな単純さにもかかわらず、問題は非自明であり、モデルが直接学習する明示的なポーズアノテーションを持つ大規模な画像領域の集合を得るのは難しい。 そこで本研究では,ヒストグラムアライメントを用いた自己教師あり学習フレームワークを提案する。 ランダムな再スケーリング/ローテーションによって一対のイメージパッチを生成し、それから推定器を訓練して、それらのスケール/向きの値を予測する。 推定器は、監督なしにスケール/向きの非パラメトリックヒストグラム分布を予測する。 実験の結果,従来手法よりもスケール/オリエンテーション推定が大幅に向上し,画像マッチングや6DFカメラのポーズ推定が向上した。

We study the problem of learning to assign a characteristic pose, i.e., scale and orientation, for an image region of interest. Despite its apparent simplicity, the problem is non-trivial; it is hard to obtain a large-scale set of image regions with explicit pose annotations that a model directly learns from. To tackle the issue, we propose a self-supervised learning framework with a histogram alignment technique. It generates pairs of image patches by random rescaling/rotating and then train an estimator to predict their scale/orientation values so that their relative difference is consistent with the rescaling/rotating used. The estimator learns to predict a non-parametric histogram distribution of scale/orientation without any supervision. Experiments show that it significantly outperforms previous methods in scale/orientation estimation and also improves image matching and 6 DoF camera pose estimation by incorporating our patch poses into a matching process.
翻訳日:2022-06-17 08:17:15 公開日:2022-06-15
# (参考訳) 自動タグの誕生: 新しい目的関数でより速く、より良く

Born for Auto-Tagging: Faster and better with new objective functions ( http://arxiv.org/abs/2206.07264v1 )

ライセンス: CC BY 4.0
Chiung-ju Liu, Huang-Ting Shieh(参考訳) キーワード抽出はテキストマイニングのタスクである。 これはSEOや広告の検索量を増やすために適用される。 自動タグ付けの実装により、大量のオンライン記事や写真を効率的に正確にタグ付けできる。 BATは、AwooのAIマーケティングプラットフォーム(AMP)として機能する自動タグのために発明された。 awoo AMPは、カスタマイズされたレコメンデーションシステムとしてサービスを提供するだけでなく、Eコマースにおける変換率も向上する。 batの強度は他のsotaモデルよりも速く良く収束し、その4層構造は50エポックで最高のf点を達成する。 言い換えれば、100エポックで深い層を必要とする他のモデルよりもパフォーマンスがよい。 リッチでクリーンなタグを生成するために、awooは${\rm f_1}$スコアとクロスエントロピーを両立させながら${\rm f_2}$スコアを同時に維持するための新しい客観的関数を作成する。 Fスコアのさらなるパフォーマンスを保証するために、Transformer \cite{Transformer} が提案する学習率戦略を改良して、${\rm F_1}$と${\rm F_2}$スコアを同時に増加させる。

Keyword extraction is a task of text mining. It is applied to increase search volume in SEO and ads. Implemented in auto-tagging, it makes tagging on a mass scale of online articles and photos efficiently and accurately. BAT is invented for auto-tagging which served as awoo's AI marketing platform (AMP). awoo AMP not only provides service as a customized recommender system but also increases the converting rate in E-commerce. The strength of BAT converges faster and better than other SOTA models, as its 4-layer structure achieves the best F scores at 50 epochs. In other words, it performs better than other models which require deeper layers at 100 epochs. To generate rich and clean tags, awoo creates new objective functions to maintain similar ${\rm F_1}$ scores with cross-entropy while enhancing ${\rm F_2}$ scores simultaneously. To assure the even better performance of F scores awoo revamps the learning rate strategy proposed by Transformer \cite{Transformer} to increase ${\rm F_1}$ and ${\rm F_2}$ scores at the same time.
翻訳日:2022-06-17 08:02:20 公開日:2022-06-15
# (参考訳) CARD:分類と回帰拡散モデル

CARD: Classification and Regression Diffusion Models ( http://arxiv.org/abs/2206.07275v1 )

ライセンス: CC BY 4.0
Xizewen Han, Huangjie Zheng, Mingyuan Zhou(参考訳) 連続的あるいはカテゴリ的応答変数 $\boldsymbol y$ の分布を学習する covariates $\boldsymbol x$ は、統計と機械学習における基本的な問題である。 深層ニューラルネットワークに基づく教師付き学習アルゴリズムは、$\boldsymbol y$が与える$\boldsymbol x$の平均を予測することに大きな進歩を遂げているが、予測の不確かさを正確に捉える能力についてしばしば批判されている。 本稿では, 発振拡散に基づく条件付き生成モデルと事前学習された条件付き平均推定器を組み合わせた分類と回帰拡散(card)モデルを導入し, 与えられた$\boldsymbol y$ の分布を正確に予測する。 実例と実世界のデータセットの両方を用いた条件付き分布予測において,カードが不確実性推定のために設計されたベイジアンニューラルネットワークを用いた手法,特に$\boldsymbol y$の条件付き分布がマルチモーダルである場合には,カードが最先端の手法よりも優れていることを示す実験結果である。

Learning the distribution of a continuous or categorical response variable $\boldsymbol y$ given its covariates $\boldsymbol x$ is a fundamental problem in statistics and machine learning. Deep neural network-based supervised learning algorithms have made great progress in predicting the mean of $\boldsymbol y$ given $\boldsymbol x$, but they are often criticized for their ability to accurately capture the uncertainty of their predictions. In this paper, we introduce classification and regression diffusion (CARD) models, which combine a denoising diffusion-based conditional generative model and a pre-trained conditional mean estimator, to accurately predict the distribution of $\boldsymbol y$ given $\boldsymbol x$. We demonstrate the outstanding ability of CARD in conditional distribution prediction with both toy examples and real-world datasets, the experimental results on which show that CARD in general outperforms state-of-the-art methods, including Bayesian neural network-based ones that are designed for uncertainty estimation, especially when the conditional distribution of $\boldsymbol y$ given $\boldsymbol x$ is multi-modal.
翻訳日:2022-06-17 07:43:14 公開日:2022-06-15
# (参考訳) ALASCA:ラベルノイズ下でのディープラーニングのためのラベルの平滑化再考

ALASCA: Rethinking Label Smoothing for Deep Learning Under Label Noise ( http://arxiv.org/abs/2206.07277v1 )

ライセンス: CC BY 4.0
Jongwoo Ko, Bongsoo Yi, Se-Young Yun(参考訳) ラベルノイズは、ディープニューラルネットワークの一般化性能を著しく低下させる最も一般的な分布シフトの1つであり、ノイズラベルによる堅牢なトレーニングは、現代のディープラーニングにおいて重要なタスクとなっている。 本稿では,アダプティブラベル平滑化(adaptive label smoothing on sub-classifier,alasca)というフレームワークを提案する。 まず,ラベルの平滑化 (LS) は暗黙のリプシッツ正則化 (LR) を引き起こす。 さらに、これらの導出に基づいて、中間層に適応LRを実用的に適用するためのサブクラス化アーキテクチャに適応LS(ALS)を適用する。 我々は、ALASCAの広範な実験を行い、いくつかのデータセット上で従来のノイズロスト手法と組み合わせ、我々のフレームワークが対応するベースラインを一貫して上回ることを示す。

As label noise, one of the most popular distribution shifts, severely degrades deep neural networks' generalization performance, robust training with noisy labels is becoming an important task in modern deep learning. In this paper, we propose our framework, coined as Adaptive LAbel smoothing on Sub-ClAssifier (ALASCA), that provides a robust feature extractor with theoretical guarantee and negligible additional computation. First, we derive that the label smoothing (LS) incurs implicit Lipschitz regularization (LR). Furthermore, based on these derivations, we apply the adaptive LS (ALS) on sub-classifiers architectures for the practical application of adaptive LR on intermediate layers. We conduct extensive experiments for ALASCA and combine it with previous noise-robust methods on several datasets and show our framework consistently outperforms corresponding baselines.
翻訳日:2022-06-17 07:01:44 公開日:2022-06-15
# (参考訳) 混合回帰のための連合学習のグローバル収束

Global Convergence of Federated Learning for Mixed Regression ( http://arxiv.org/abs/2206.07279v1 )

ライセンス: CC BY 4.0
Lili Su, Jiaming Xu, Pengkun Yang(参考訳) 本稿では,クライアントがクラスタ構造を示す場合のフェデレートラーニングにおけるモデルトレーニングの問題について検討する。 混合回帰では、各クライアントは、k$未知の回帰モデルから生成されるローカルデータに制限がある。 私たちは、任意の初期化からグローバル収束を達成するアルゴリズムを設計し、局所的なデータボリュームが高度にバランスの取れていない場合でも動作する -- $o(1)$データポイントのみを含むクライアントが存在する可能性がある。 我々のアルゴリズムはまずいくつかのアンカークライアント(それぞれ$\tilde{\omega}(k)$データポイント)でモーメント降下を行い、粗いモデル推定を得る。 次に、各クライアントはクラスタラベルを交互に推定し、FedAvgまたはFedProxに基づいてモデル推定を洗練します。 解析における重要な革新はクラスタリング誤差の均一な推定であり、代数幾何学の理論に基づいて一般多項式概念クラスのVC次元を有界にすることで証明する。

This paper studies the problem of model training under Federated Learning when clients exhibit cluster structure. We contextualize this problem in mixed regression, where each client has limited local data generated from one of $k$ unknown regression models. We design an algorithm that achieves global convergence from any initialization, and works even when local data volume is highly unbalanced -- there could exist clients that contain $O(1)$ data points only. Our algorithm first runs moment descent on a few anchor clients (each with $\tilde{\Omega}(k)$ data points) to obtain coarse model estimates. Then each client alternately estimates its cluster labels and refines the model estimates based on FedAvg or FedProx. A key innovation in our analysis is a uniform estimate on the clustering errors, which we prove by bounding the VC dimension of general polynomial concept classes based on the theory of algebraic geometry.
翻訳日:2022-06-17 06:25:09 公開日:2022-06-15
# (参考訳) 人間の目に触発されたリカレントニューラルネットワークは、敵の騒音に対してよりロバスト

Human Eyes Inspired Recurrent Neural Networks are More Robust Against Adversarial Noises ( http://arxiv.org/abs/2206.07282v1 )

ライセンス: CC BY 4.0
Minkyu Choi, Yizhen Zhang, Kuan Han, Xiaokai Wang, and Zhongming Liu(参考訳) 人間の視覚と比較して、畳み込みニューラルネットワーク(CNN)に基づくコンピュータビジョンは、敵の雑音に対してより脆弱である。 この違いは、目の視覚入力のサンプルと、脳が背側と腹側の視覚経路を通して網膜のサンプルをどう処理するかに起因している可能性が高い。 脳にインスパイアされた私たちは、人間の網膜を模倣する入力サンプルラー、次に見る場所を案内する背側ネットワーク、網膜のサンプルを表す腹側ネットワークなど、反復するニューラルネットワークを設計しました。 これらのモジュールをひとつにまとめると、モデルはイメージを複数回見て、各見た目で健全な部分に参加し、画像を認識するために時間をかけて表現を蓄積する。 本研究では, 異なる入力サンプリング戦略の効果に着目し, 様々なレベルの逆方向雑音に対するロバスト性を検証した。 以上の結果から, 網膜のfoveation と sampling は, 逆向きのノイズに対してより頑健なモデルとなり, 画像を見る時間が長くなると, モデルが攻撃から自身を修正できる可能性が示唆された。 結論として、堅牢な視覚認識は、フィードフォワードのみのCNNとは対照的に、網膜変換、注意誘導眼球運動、反復処理の3つの脳誘発メカニズムの併用による恩恵を受けることができる。

Compared to human vision, computer vision based on convolutional neural networks (CNN) are more vulnerable to adversarial noises. This difference is likely attributable to how the eyes sample visual input and how the brain processes retinal samples through its dorsal and ventral visual pathways, which are under-explored for computer vision. Inspired by the brain, we design recurrent neural networks, including an input sampler that mimics the human retina, a dorsal network that guides where to look next, and a ventral network that represents the retinal samples. Taking these modules together, the models learn to take multiple glances at an image, attend to a salient part at each glance, and accumulate the representation over time to recognize the image. We test such models for their robustness against a varying level of adversarial noises with a special focus on the effect of different input sampling strategies. Our findings suggest that retinal foveation and sampling renders a model more robust against adversarial noises, and the model may correct itself from an attack when it is given a longer time to take more glances at an image. In conclusion, robust visual recognition can benefit from the combined use of three brain-inspired mechanisms: retinal transformation, attention guided eye movement, and recurrent processing, as opposed to feedforward-only CNNs.
翻訳日:2022-06-17 06:24:10 公開日:2022-06-15
# (参考訳) FOLD-TR: ランク付け学習のためのスケーラブルで効率的な帰納学習アルゴリズム

FOLD-TR: A Scalable and Efficient Inductive Learning Algorithm for Learning To Rank ( http://arxiv.org/abs/2206.07295v1 )

ライセンス: CC BY 4.0
Huaduo Wang and Gopal Gupta(参考訳) FOLD-R++はバイナリ分類タスクのための新しい帰納学習アルゴリズムである。 混合型(数値と分類)データのための(説明可能な)正規論理プログラムを生成する。 本稿では,FOLD-R++アルゴリズムを,トレーニングデータのランキングパターンに従う新しい項目のランク付けを目的としたランキングフレームワークFOLD-TRを提案する。 FOLD-R++と同様に、FOLD-TRアルゴリズムは混合型データを直接処理し、一対のアイテムの比較を説明するためのネイティブな正当化を提供する。

FOLD-R++ is a new inductive learning algorithm for binary classification tasks. It generates an (explainable) normal logic program for mixed type (numerical and categorical) data. We present a customized FOLD-R++ algorithm with the ranking framework, called FOLD-TR, that aims to rank new items following the ranking pattern in the training data. Like FOLD-R++, the FOLD-TR algorithm is able to handle mixed-type data directly and provide native justification to explain the comparison between a pair of items.
翻訳日:2022-06-17 06:08:40 公開日:2022-06-15
# (参考訳) S\textsuperscript{2}-FPN:リアルタイムセマンティックセグメンテーションのためのスケールウェアストリップ注意誘導特徴ピラミッドネットワーク

S\textsuperscript{2}-FPN: Scale-ware Strip Attention Guided Feature Pyramid Network for Real-time Semantic Segmentation ( http://arxiv.org/abs/2206.07298v1 )

ライセンス: CC BY 4.0
Mohammed A. M. Elhassan, Chenhui Yang, Chenxi Huang, Tewodros Legesse Munea, Xin Hong(参考訳) 現代の高性能セマンティックセグメンテーション手法は、重いバックボーンと拡張畳み込みを用いて関連する特徴を抽出する。 セグメンテーションタスクにはコンテキスト情報と意味情報の両方で機能を抽出することが重要であるが、リアルタイムアプリケーションにはメモリフットプリントと高い計算コストをもたらす。 本稿では,リアルタイム道路シーンセマンティックセグメンテーションにおける精度/速度のトレードオフを実現するための新しいモデルを提案する。 具体的には、スケール対応ストリップ注意誘導特徴ピラミッドネットワーク(S\textsuperscript{2}-FPN)という軽量モデルを提案する。 我々のネットワークは,アテンションピラミッド融合(APF)モジュール,スケール対応ストリップ注意モジュール(SSAM)モジュール,グローバルフィーチャーアップサンプル(GFU)モジュールの3つの主要モジュールで構成されている。 APFは、差別的なマルチスケールの特徴を学習し、異なるレベル間のセマンティックギャップを埋めるための注意機構を採用している。 APFは、グローバルコンテキストを垂直なストリップ操作でエンコードするためにスケールアウェアアテンションを使用し、長距離依存をモデル化し、ピクセルと同様のセマンティックラベルを関連付けるのに役立つ。 さらに、APFはチャンネル機能を強調するためにチャンネルワイドリウェイトブロック(CRB)を使用している。 最後に、S\textsuperscript{2}-FPNのデコーダは、APFとエンコーダの機能を融合するために使用されるGFUを採用する。 2つの難解なセマンティックセグメンテーションベンチマークで広範な実験が行われ、異なるモデル設定で精度と速度のトレードオフが達成できることが実証された。 提案されたモデルは、76.2\%mIoU/87.3FPS、77.4\%mIoU/67FPS、77.8\%mIoU/30.5FPS、69.6\%mIoU,71.0\%mIoU、74.2\%mIoUである。 この作業のコードは \url{https://github.com/mohamedac29/S2-FPN

Modern high-performance semantic segmentation methods employ a heavy backbone and dilated convolution to extract the relevant feature. Although extracting features with both contextual and semantic information is critical for the segmentation tasks, it brings a memory footprint and high computation cost for real-time applications. This paper presents a new model to achieve a trade-off between accuracy/speed for real-time road scene semantic segmentation. Specifically, we proposed a lightweight model named Scale-aware Strip Attention Guided Feature Pyramid Network (S\textsuperscript{2}-FPN). Our network consists of three main modules: Attention Pyramid Fusion (APF) module, Scale-aware Strip Attention Module (SSAM), and Global Feature Upsample (GFU) module. APF adopts an attention mechanisms to learn discriminative multi-scale features and help close the semantic gap between different levels. APF uses the scale-aware attention to encode global context with vertical stripping operation and models the long-range dependencies, which helps relate pixels with similar semantic label. In addition, APF employs channel-wise reweighting block (CRB) to emphasize the channel features. Finally, the decoder of S\textsuperscript{2}-FPN then adopts GFU, which is used to fuse features from APF and the encoder. Extensive experiments have been conducted on two challenging semantic segmentation benchmarks, which demonstrate that our approach achieves better accuracy/speed trade-off with different model settings. The proposed models have achieved a results of 76.2\%mIoU/87.3FPS, 77.4\%mIoU/67FPS, and 77.8\%mIoU/30.5FPS on Cityscapes dataset, and 69.6\%mIoU,71.0\% mIoU, and 74.2\% mIoU on Camvid dataset. The code for this work will be made available at \url{https://github.com/mohamedac29/S2-FPN
翻訳日:2022-06-17 06:00:13 公開日:2022-06-15
# (参考訳) アウトカムベースから言語ベースまで

From Outcome-Based to Language-Based Preferences ( http://arxiv.org/abs/2206.07300v1 )

ライセンス: CC BY 4.0
Valerio Capraro, Joseph Y. Halpern, Matjaz Perc(参考訳) 本稿では,通常のゲームと金銭的な支払いによって記述された社会的相互作用における人間の行動を説明するモデルに関する文献をレビューする。 社会や道徳的な好みを カバーすることから始めます 次に,行動が記述される言語,特に道徳的懸念を活性化する言語に人々が反応することを示す,成長する研究機関に焦点をあてる。 我々は、行動経済学は言語に基づく嗜好へのパラダイムシフトの最中であり、新しいモデルや実験的な設定を探索する必要があると結論づける。

We review the literature on models that try to explain human behavior in social interactions described by normal-form games with monetary payoffs. We start by covering social and moral preferences. We then focus on the growing body of research showing that people react to the language in which actions are described, especially when it activates moral concerns. We conclude by arguing that behavioral economics is in the midst of a paradigm shift towards language-based preferences, which will require an exploration of new models and experimental setups.
翻訳日:2022-06-17 05:27:09 公開日:2022-06-15
# (参考訳) プルーニングはニューラルネットワークの堅牢性を改善するか?

Can pruning improve certified robustness of neural networks? ( http://arxiv.org/abs/2206.07311v1 )

ライセンス: CC BY 4.0
Zhangheng Li, Tianlong Chen, Linyi Li, Bo Li, Zhangyang Wang(参考訳) ディープラーニングの急速な発展により、ニューラルネットワークのサイズがますます大きくなり、トレーニングや推論がハードウェアリソースを圧倒するようになる。 ニューラルネットワークが過度にパラメータ化されているという事実を考えると、そのような計算オーバーヘッドを減らす効果的な方法は、トレーニングされたニューラルネットワークから冗長なパラメータを取り除くことによって、ニューラルネットワークのプルーニングである。 近年、プルーニングは計算オーバーヘッドを削減するだけでなく、予測精度を維持しながら、急激な相関を取り除き、深層ニューラルネットワーク(NN)の実証的堅牢性を向上させることができることが観察されている。 本稿では,ReLUベースNNの完全検証条件下でのプルーニングにより,一般に信頼性が向上することを示す。 一般的なブランチ・アンド・バウンド(bab)フレームワークを使用することで、線形緩和とサブドメイン分割問題を緩和することにより、pruningは認定ロバスト性検証の限定性を高めることができる。 本研究は, 既設プルーニング法を市販プルーニング法で実証的に検証し, さらに, 既存のプルーニング法よりも信頼性の高い, ニューロン不安定性の低減に適した安定性ベースのプルーニング法を提案する。 我々の実験は、NNを適切に刈り取ることで、その認証精度が標準トレーニングで8.2%、CIFAR10データセットで敵対トレーニングで24.5%向上できることを示している。 さらに、異なるデータセットにまたがるオリジナルの密集したモデルの標準的および認定されたロバストなアキュラリティにマッチする認定抽選チケットの存在も観察する。 本研究は、スパーシティとロバストネスの間の興味深い相互作用、すなわちニューロンの安定性を介してスパーシティと認定ロバストネスの相互作用を解釈する新しい角度を提供する。 コードは、https://github.com/VITA-Group/CertifiedPruning.comで入手できる。

With the rapid development of deep learning, the sizes of neural networks become larger and larger so that the training and inference often overwhelm the hardware resources. Given the fact that neural networks are often over-parameterized, one effective way to reduce such computational overhead is neural network pruning, by removing redundant parameters from trained neural networks. It has been recently observed that pruning can not only reduce computational overhead but also can improve empirical robustness of deep neural networks (NNs), potentially owing to removing spurious correlations while preserving the predictive accuracies. This paper for the first time demonstrates that pruning can generally improve certified robustness for ReLU-based NNs under the complete verification setting. Using the popular Branch-and-Bound (BaB) framework, we find that pruning can enhance the estimated bound tightness of certified robustness verification, by alleviating linear relaxation and sub-domain split problems. We empirically verify our findings with off-the-shelf pruning methods and further present a new stability-based pruning method tailored for reducing neuron instability, that outperforms existing pruning methods in enhancing certified robustness. Our experiments show that by appropriately pruning an NN, its certified accuracy can be boosted up to 8.2% under standard training, and up to 24.5% under adversarial training on the CIFAR10 dataset. We additionally observe the existence of certified lottery tickets that can match both standard and certified robust accuracies of the original dense models across different datasets. Our findings offer a new angle to study the intriguing interaction between sparsity and robustness, i.e. interpreting the interaction of sparsity and certified robustness via neuron stability. Codes are available at: https://github.com/VITA-Group/CertifiedPruning.
翻訳日:2022-06-17 05:26:16 公開日:2022-06-15
# (参考訳) CMNEROne at SemEval-2022 Task 11: Code-Mixed Named Entity Recognition by leverageing multilingual data

CMNEROne at SemEval-2022 Task 11: Code-Mixed Named Entity Recognition by leveraging multilingual data ( http://arxiv.org/abs/2206.07318v1 )

ライセンス: CC BY 4.0
Suman Dowlagar, Radhika Mamidi(参考訳) 名前付きエンティティの特定は、一般的に、自然言語処理の分野で実践的で挑戦的なタスクである。 コード混合テキスト上の名前付きエンティティ認識は、混合の性質から生じる言語的複雑さのため、さらに困難である。 本稿では,SEMEVAL 2022共有タスク11 MultiCoNERへのチームCMNEROneの提出について述べる。 Code-mixed NERタスクは、コードミックスデータセット上の名前付きエンティティを特定することを目的としている。 本研究は,多言語データを活用することで,コード混合データセット上の名前付きエンティティ認識(ner)によって構成する。 平均F1スコアは0.7044であり,ベースラインよりも6%高かった。

Identifying named entities is, in general, a practical and challenging task in the field of Natural Language Processing. Named Entity Recognition on the code-mixed text is further challenging due to the linguistic complexity resulting from the nature of the mixing. This paper addresses the submission of team CMNEROne to the SEMEVAL 2022 shared task 11 MultiCoNER. The Code-mixed NER task aimed to identify named entities on the code-mixed dataset. Our work consists of Named Entity Recognition (NER) on the code-mixed dataset by leveraging the multilingual data. We achieved a weighted average F1 score of 0.7044, i.e., 6% greater than the baseline.
翻訳日:2022-06-17 05:00:48 公開日:2022-06-15
# (参考訳) 自然言語処理によるSMILESからのアクティビティ係数の制限予測

A smile is all you need: Predicting limiting activity coefficients from SMILES with natural language processing ( http://arxiv.org/abs/2206.07048v1 )

ライセンス: CC BY-SA 4.0
Benedikt Winter, Clemens Winter, Johannes Schilling, Andr\'e Bardow(参考訳) 混合物の相平衡に関する知識は、自然と技術化学において不可欠である。 混合物の相平衡計算には活性係数が必要である。 しかしながら、活動係数に関する実験データは、実験のコストが高いため、しばしば制限される。 近年, 能動係数の高精度かつ効率的な予測を行う機械学習手法が開発されている。 しかし、現在の機械学習のアプローチは未知の分子の活性係数を測るには不十分である。 本研究では,SMILES符号のバイナリ制限活性係数を予測する自然言語処理ネットワークであるSMILES-to-Properties-Transformer(SPT)を紹介する。 実験データの限界を克服するため、まずCOSMO-RS(1000万データポイント)からサンプリングされた大量の合成データのデータセット上でネットワークをトレーニングし、実験データ(20870データポイント)でモデルを微調整します。 このトレーニング戦略により、SPTは未知の分子に対しても活性係数の制限を正確に予測し、COSMO-RSやUNIFACといった活動係数予測の最先端モデルと比較して平均予測誤差を半減し、最近の機械学習アプローチを改善することができる。

Knowledge of mixtures' phase equilibria is crucial in nature and technical chemistry. Phase equilibria calculations of mixtures require activity coefficients. However, experimental data on activity coefficients is often limited due to high cost of experiments. For an accurate and efficient prediction of activity coefficients, machine learning approaches have been recently developed. However, current machine learning approaches still extrapolate poorly for activity coefficients of unknown molecules. In this work, we introduce the SMILES-to-Properties-Transformer (SPT), a natural language processing network to predict binary limiting activity coefficients from SMILES codes. To overcome the limitations of available experimental data, we initially train our network on a large dataset of synthetic data sampled from COSMO-RS (10 Million data points) and then fine-tune the model on experimental data (20 870 data points). This training strategy enables SPT to accurately predict limiting activity coefficients even for unknown molecules, cutting the mean prediction error in half compared to state-of-the-art models for activity coefficient predictions such as COSMO-RS, UNIFAC, and improving on recent machine learning approaches.
翻訳日:2022-06-17 04:55:01 公開日:2022-06-15
# (参考訳) 高次元点雲分類の教師なしカプセルネットワーク

Unsupervised Capsule Networks of High-Dimension Point Clouds classification ( http://arxiv.org/abs/2206.07348v1 )

ライセンス: CC BY 4.0
Quanfeng Xu, Yi Tang, Yan Yang, Yumei She, Zuo Jiang(参考訳) 3次元点雲学習は広く適用されているが、不規則な幾何学構造や高次元空間の場合、点雲は分類や認識タスクをうまく処理できない。 3次元空間では、点雲はその密度のために通常のユークリッド構造を持つ傾向がある。 逆に、高次元性のため、高次元空間の空間構造はより複雑であり、点雲は主として非ヨーロッパ構造で表される。 さらに、現在の3次元点雲分類アルゴリズムでは、ユークリッド距離に基づくカノニカルカプセルアルゴリズムは非ユークリッド構造を効果的に分解・同定することが困難である。 そこで,3次元および高次元空間における非ユークリッド構造の点雲分類タスクに着目し,測地距離に基づくlleアルゴリズムを用いて最適化を行い,高次元点雲カプセルの教師なしアルゴリズムを提案する。 本稿では, 点雲の幾何学的特徴を抽出過程において考慮し, 高次元非ユークリッド構造を空間幾何学的特徴を有する低次元ユークリッド構造に変換する。 高次元点雲カプセルの教師なしアルゴリズムの実現可能性を検証するため,スイスロールデータセット,ポイントクラウドmnistデータセット,ポイントクラウドlfwデータセットを用いて実験を行った。 その結果,(1)非ユークリッド構造をスイスロールデータセットにおいて効果的に同定できること,(2)点雲MNISTデータセットにおいて有意な教師なし学習効果が実現できることが示唆された。 結論として,本論文で提案する高次元点雲カプセル無教師アルゴリズムは,現在の点雲分類および認識タスクの応用シナリオの拡大を目的としている。

Three-dimensional point clouds learning is widely applied, but the point clouds are still unable to deal with classification and recognition tasks satisfactorily in the cases of irregular geometric structures and high-dimensional space. In 3D space, point clouds tend to have regular Euclidean structure because of their density. On the contrary, due to the high dimensionality, the spatial structure of high-dimensional space is more complex, and point clouds are mostly presented in non-European structure. Furthermore, among current 3D point clouds classification algorithms, Canonical Capsules algorithm based on Euclidean distance is difficult to decompose and identify non-Euclidean structures effectively. Thus, aiming at the point clouds classification task of non-Euclidean structure in 3D and high-dimensional space, this paper refers to the LLE algorithm based on geodesic distance for optimizing and proposes the unsupervised algorithm of high-dimensional point clouds capsule. In this paper, the geometric features of point clouds are considered in the extraction process, so as to transform the high-dimensional non-Euclidean structure into a lower-dimensional Euclidean structure with retaining spatial geometric features. To verify the feasibility of the unsupervised algorithm of high-dimensional point clouds capsule, experiments are conducted in Swiss Roll dataset, point clouds MNIST dataset and point clouds LFW dataset. The results show that (1) non-Euclidean structures can be can effectively identified by this model in Swiss Roll dataset; (2) a significant unsupervised learning effect is realized in point clouds MNIST dataset. In conclusion, the high-dimensional point clouds capsule unsupervised algorithm proposed in this paper is conducive to expand the application scenarios of current point clouds classification and recognition tasks.
翻訳日:2022-06-17 04:36:23 公開日:2022-06-15
# (参考訳) XMorpher: クロスアテンションによる変形可能な医用画像登録用フルトランス

XMorpher: Full Transformer for Deformable Medical Image Registration via Cross Attention ( http://arxiv.org/abs/2206.07349v1 )

ライセンス: CC BY 4.0
Jiacheng Shi, Yuting He, Youyong Kong, Jean-Louis Coatrieux, Huazhong Shu, Guanyu Yang, Shuo Li(参考訳) 深層学習に基づく変形可能な医用画像登録(DMIR)では,2つの画像の特徴を抽出し,一致させて相互の相互対応を見出すため,有効なバックボーンネットワークが重要である。 しかし、既存のディープネットワークは単一の画像状況に焦点を当てており、ペア画像上で実行される登録作業に制限がある。 そこで,本研究では,DMIRにおける有効な特徴表現のために,新しいバックボーンネットワークであるXMorpherを推し進める。 1) 横断的注意を通して情報交換を行う2重並列特徴抽出ネットワークを含む新しい完全トランスアーキテクチャを提案する。 2)CAT(Cross Attention Transformer)ブロックを前進させ,自動的に対応を見つけ出すことのできる画像間の注意機構を確立し,ネットワーク内で効率的に融合するように促す。 3) 異なる大きさの窓と検索窓の間の注意計算を制約し, 変形可能な登録の局所的な変換に着目し, 同時に計算効率を向上させる。 我々のxmorpherはdscに対してvoxelmorph 2.8%の改善を与え、dmirのペア画像からの効果的な特徴の表現を示している。 われわれのXMorpherは、よりペア化された医療画像に大いに応用できると考えている。 私たちのXMorpherはhttps://github.com/Solemoon/XMorpherで公開されています

An effective backbone network is important to deep learning-based Deformable Medical Image Registration (DMIR), because it extracts and matches the features between two images to discover the mutual correspondence for fine registration. However, the existing deep networks focus on single image situation and are limited in registration task which is performed on paired images. Therefore, we advance a novel backbone network, XMorpher, for the effective corresponding feature representation in DMIR. 1) It proposes a novel full transformer architecture including dual parallel feature extraction networks which exchange information through cross attention, thus discovering multi-level semantic correspondence while extracting respective features gradually for final effective registration. 2) It advances the Cross Attention Transformer (CAT) blocks to establish the attention mechanism between images which is able to find the correspondence automatically and prompts the features to fuse efficiently in the network. 3) It constrains the attention computation between base windows and searching windows with different sizes, and thus focuses on the local transformation of deformable registration and enhances the computing efficiency at the same time. Without any bells and whistles, our XMorpher gives Voxelmorph 2.8% improvement on DSC , demonstrating its effective representation of the features from the paired images in DMIR. We believe that our XMorpher has great application potential in more paired medical images. Our XMorpher is open on https://github.com/Solemoon/XMorpher
翻訳日:2022-06-17 04:21:27 公開日:2022-06-15
# (参考訳) 感情はホットエンコーディングではない - 会話における感情認識のためのgrayscaleラベルによる学習

The Emotion is Not One-hot Encoding: Learning with Grayscale Label for Emotion Recognition in Conversation ( http://arxiv.org/abs/2206.07359v1 )

ライセンス: CC BY 4.0
Joosung Lee(参考訳) 会話における感情認識(ERC)において、現在の発話の感情は、多くの自然言語処理タスクで利用できる以前の文脈を考慮して予測される。 複数の感情が与えられた文に共存することはあるが、ほとんどの以前のアプローチは、与えられたラベルのみを予測する分類タスクの視点を取る。 しかし、文の感情を自信や複数のラベルでラベル付けるのは高価で難しい。 本稿では,感情の相関性を考慮したグレースケールラベルを自動構築し,学習に使用する。 すなわち、与えられたラベルをワンホット符号化として使用する代わりに、異なる感情のスコアを測定してグレースケールラベルを構築する。 グレースケールラベルの作成方法をいくつか紹介し,各手法が感情認識性能を向上させることを確認した。 我々の手法は単純で効果的で、従来のシステムに普遍的に適用できる。 実験はベースラインの性能を著しく改善した。

In emotion recognition in conversation (ERC), the emotion of the current utterance is predicted by considering the previous context, which can be utilized in many natural language processing tasks. Although multiple emotions can coexist in a given sentence, most previous approaches take the perspective of a classification task to predict only a given label. However, it is expensive and difficult to label the emotion of a sentence with confidence or multi-label. In this paper, we automatically construct a grayscale label considering the correlation between emotions and use it for learning. That is, instead of using a given label as a one-hot encoding, we construct a grayscale label by measuring scores for different emotions. We introduce several methods for constructing grayscale labels and confirm that each method improves the emotion recognition performance. Our method is simple, effective, and universally applicable to previous systems. The experiments show a significant improvement in the performance of baselines.
翻訳日:2022-06-17 04:11:00 公開日:2022-06-15
# (参考訳) SciTweets -- 科学的オンライン談話を検出するためのデータセットとアノテーションフレームワーク

SciTweets -- A Dataset and Annotation Framework for Detecting Scientific Online Discourse ( http://arxiv.org/abs/2206.07360v1 )

ライセンス: CC BY 4.0
Salim Hafid, Sebastian Schellhammer, Sandra Bringay, Konstantin Todorov, Stefan Dietze(参考訳) 科学的な話題や主張、資源は、新型コロナウイルスや気候変動に関する談話を含むオンライン談話の一部として、ますます議論されている。 このことが社会に大きな影響を与え、様々な分野から科学的なオンライン談話への関心を高めた。 例えば、コミュニケーション研究は科学的情報のバイアス、品質、拡散パターンをより深く理解することを目的としている一方、計算手法はNLPとIR技術を用いて科学的クレームを抽出、分類、検証するために提案されている。 しかし、様々な分野にわたる研究は、科学に関する様々な形態の堅牢な定義の欠如と、それらを区別するための適切な根拠真理データの両方に悩まされている。 この作品で、私たちは貢献します (a) つぶやきにおけるオンライン談話の科学的関連性の異なる形態に関するアノテーションの枠組み及び対応する定義 b)ラベリングフレームワークによって得られた1261ツイートのエキスパート注釈データセットは、平均的なfleiss kappa $\kappa$ (0.63) に達する。 c) 89%のf1で科学関連性を検出でき、また異なる形態の科学知識(請求書、参考書)を検出できるデータに基づいて訓練されたマルチラベル分類器。 この研究により,大規模オンライン談話の一環として,科学分析のためのロバストな手法の開発と評価の基礎を築くことを目指している。

Scientific topics, claims and resources are increasingly debated as part of online discourse, where prominent examples include discourse related to COVID-19 or climate change. This has led to both significant societal impact and increased interest in scientific online discourse from various disciplines. For instance, communication studies aim at a deeper understanding of biases, quality or spreading pattern of scientific information whereas computational methods have been proposed to extract, classify or verify scientific claims using NLP and IR techniques. However, research across disciplines currently suffers from both a lack of robust definitions of the various forms of science-relatedness as well as appropriate ground truth data for distinguishing them. In this work, we contribute (a) an annotation framework and corresponding definitions for different forms of scientific relatedness of online discourse in Tweets, (b) an expert-annotated dataset of 1261 tweets obtained through our labeling framework reaching an average Fleiss Kappa $\kappa$ of 0.63, (c) a multi-label classifier trained on our data able to detect science-relatedness with 89% F1 and also able to detect distinct forms of scientific knowledge (claims, references). With this work we aim to lay the foundation for developing and evaluating robust methods for analysing science as part of large-scale online discourse.
翻訳日:2022-06-17 04:01:50 公開日:2022-06-15
# (参考訳) 相違を保ちながら共通点を探る:アンダーサンプドMRI再建のための複数解剖学的協調フレームワーク

Seeking Common Ground While Reserving Differences: Multiple Anatomy Collaborative Framework for Undersampled MRI Reconstruction ( http://arxiv.org/abs/2206.07364v1 )

ライセンス: CC BY 4.0
Yan Jiangpeng, Yu Chenghui, Chen Hanbo, Xu Zhe, Huang Junzhou, Li Xiu, Yao Jianhua(参考訳) 近年、ディープニューラルネットワークはMRI(Magnetic Resonance Image)の再構成に大きく進歩しており、ほとんどの研究は1つの解剖学的1ネットワークの手法に従っている。 複数の独立したモデルを訓練する非効率性は別として、このような慣習は相互に利益をもたらす様々な解剖学で共有された非認識的知識を無視している。 共有知識を探索するためには、様々な解剖学から得られるすべてのデータを組み合わせて、全周ネットワークをトレーニングする。 残念なことに、共有された de-aliasing 知識が存在するにもかかわらず、異なる解剖学にまたがる排他的知識は、特定の再構成対象を悪化させ、全体的な性能劣化をもたらす。 そこで,本研究では,異なる解剖学にまたがる共通基盤を探索し,差異を保存することを目的とした,解剖学と解剖学固有のパラメータ化学習者の両方を用いた,新しい深部mri再構成フレームワークを提案する。 解剖学的特化学習者の4つの異なる実装について,2つのMRI再構成ネットワークを用いて検討を行った。 脳、膝、心臓のMRIデータセットに関する総合的な実験は、3人の学習者が複数の解剖学的共同学習を通して再建性能を向上させることができることを示した。

Recently, deep neural networks have greatly advanced undersampled Magnetic Resonance Image (MRI) reconstruction, wherein most studies follow the one-anatomy-one-network fashion, i.e., each expert network is trained and evaluated for a specific anatomy. Apart from inefficiency in training multiple independent models, such convention ignores the shared de-aliasing knowledge across various anatomies which can benefit each other. To explore the shared knowledge, one naive way is to combine all the data from various anatomies to train an all-round network. Unfortunately, despite the existence of the shared de-aliasing knowledge, we reveal that the exclusive knowledge across different anatomies can deteriorate specific reconstruction targets, yielding overall performance degradation. Observing this, in this study, we present a novel deep MRI reconstruction framework with both anatomy-shared and anatomy-specific parameterized learners, aiming to "seek common ground while reserving differences" across different anatomies.Particularly, the primary anatomy-shared learners are exposed to different anatomies to model flourishing shared knowledge, while the efficient anatomy-specific learners are trained with their target anatomy for exclusive knowledge. Four different implementations of anatomy-specific learners are presented and explored on the top of our framework in two MRI reconstruction networks. Comprehensive experiments on brain, knee and cardiac MRI datasets demonstrate that three of these learners are able to enhance reconstruction performance via multiple anatomy collaborative learning.
翻訳日:2022-06-17 03:49:00 公開日:2022-06-15
# (参考訳) 感染症診断のための機械学習予測モデル

Modern Machine-Learning Predictive Models for Diagnosing Infectious Diseases ( http://arxiv.org/abs/2206.07365v1 )

ライセンス: CC BY 4.0
Eman Yahia Alqaissi, Fahd Saleh Alotaibi, and Muhammad Sher Ramzan(参考訳) 伝染病のコントロールは、ヒトを感染させ、伝染病やパンデミックへと進化させるため、主要な健康上の優先事項である。 したがって、感染症の早期発見は重要なニーズであり、多くの研究者が早期に診断するモデルを開発した。 本稿では,最近の機械学習(ML)アルゴリズムを感染症診断に適用する研究論文をレビューした。 我々は、2015年から2022年にかけて、Web of Science、ScienceDirect、PubMed、Springer、IEEEデータベースを検索し、レビューされたMLモデルの長所と短所を特定し、この分野の研究を進めるための推奨事項について議論した。 記事の大半は小さなデータセットを使用しており、そのうちのほとんどはリアルタイムデータを使用していました。 その結果,適切なML手法は,データセットの性質と目的によって異なることがわかった。

Controlling infectious diseases is a major health priority because they can spread and infect humans, thus evolving into epidemics or pandemics. Therefore, early detection of infectious diseases is a significant need, and many researchers have developed models to diagnose them in the early stages. This paper reviewed research articles for recent machine-learning (ML) algorithms applied to infectious disease diagnosis. We searched the Web of Science, ScienceDirect, PubMed, Springer, and IEEE databases from 2015 to 2022, identified the pros and cons of the reviewed ML models, and discussed the possible recommendations to advance the studies in this field. We found that most of the articles used small datasets, and few of them used real-time data. Our results demonstrated that a suitable ML technique depends on the nature of the dataset and the desired goal.
翻訳日:2022-06-17 03:27:06 公開日:2022-06-15
# (参考訳) パラメータ効率チューニングのためのスパース構造探索

Sparse Structure Search for Parameter-Efficient Tuning ( http://arxiv.org/abs/2206.07382v1 )

ライセンス: CC BY 4.0
Shengding Hu, Zhen Zhang, Ning Ding, Yadao Wang, Yasheng Wang, Zhiyuan Liu, Maosong Sun(参考訳) 微調整による大規模事前訓練モデル(PTM)の適応は、計算や記憶の負担を禁ずる。 パラメータ効率チューニング(PET)の最近の研究は、PTMで条件付けられたパラメータのごく一部だけを最適化するだけで、従来の微調整に比べてオンパー性能が向上することを示した。 一般的にPET法はパラメータ効率のよいモジュール (PETモジュール) を設計し, PTM内の任意の微粒な位置に適用できる。 しかし、これらの微粒な位置の有効性は、主に高度な手動の指定に依存しており、通常は準最適結果を生み出す。 手動による指定とは対照的に,PETモジュールの自動構築について検討する。 我々は、自動的に \textbf{S}parse \textbf{S}tructure of \textbf{P}arameter-\textbf{E}fficient \textbf{T}uning (S$3$PET) に対して \textbf{S}earch を生成する。 S$^3$PETは、様々なPET手法の統一された枠組みに基づいて、二段階最適化による微分可能なPET構造探索を行い、トレーニング可能なパラメータの数を明示的に制御するシフトグローバルシグモノイド法を提案する。 大規模な実験により、S$^3$PETは訓練可能なパラメータの少ない手動構造やランダム構造を上回ることが示されている。 探索された構造は、0.01\%のトレーニング可能なパラメータで99\%以上の微調整性能を保持する。 さらに、S$3$PETの利点は、非常に低いトレーニング可能なパラメータ予算(0.0009\%$\sim$0.01\%)で増幅される。 検索された構造は伝達可能で説明可能であり、PET法の将来設計に関する提案とガイダンスを提供する。

Adapting large pre-trained models (PTMs) through fine-tuning imposes prohibitive computational and storage burdens. Recent studies of parameter-efficient tuning (PET) find that only optimizing a small portion of parameters conditioned on PTMs could yield on-par performance compared to conventional fine-tuning. Generally, PET methods exquisitely design parameter-efficient modules (PET modules) which could be applied to arbitrary fine-grained positions inside PTMs. However, the effectiveness of these fine-grained positions largely relies on sophisticated manual designation, thereby usually producing sub-optimal results. In contrast to the manual designation, we explore constructing PET modules in an automatic manner. We automatically \textbf{S}earch for the \textbf{S}parse \textbf{S}tructure of \textbf{P}arameter-\textbf{E}fficient \textbf{T}uning (S$^3$PET). Based on a unified framework of various PET methods, S$^3$PET conducts the differentiable PET structure search through bi-level optimization and proposes shifted global sigmoid method to explicitly control the number of trainable parameters. Extensive experiments show that S$^3$PET surpasses manual and random structures with less trainable parameters. The searched structures preserve more than 99\% fine-tuning performance with 0.01\% trainable parameters. Moreover, the advantage of S$^3$PET is amplified with extremely low trainable parameters budgets (0.0009\%$\sim$0.01\%). The searched structures are transferable and explainable, providing suggestions and guidance for the future design of PET methods.
翻訳日:2022-06-17 03:09:46 公開日:2022-06-15
# (参考訳) 高次元DMLのための有限サンプル保証

Finite-Sample Guarantees for High-Dimensional DML ( http://arxiv.org/abs/2206.07386v1 )

ライセンス: CC BY 4.0
Victor Quintas-Martinez(参考訳) Debiased Machine Learning (DML) は、因果パラメータの特定には条件付き独立性や未確立性の仮定が必要であり、潜在的に非常に多くの共変量に対して柔軟に制御できるため、観察環境での治療効果を推定する魅力的な方法を提供する。 本稿では,高次元 dml 上のジョイント推論に対する新たな有限サンプル保証を与え,推定器の有限サンプル分布が漸近ガウス近似からどこまで離れているかを示す。 これらの保証は応用研究者にとって有用であり、共同信頼バンドのカバー範囲が公称レベルからどの程度離れているかについては情報を提供する。 高次元因果パラメータが興味を持つ場合、例えば、多くの治療プロファイルのateや、多くの結果に対する治療のateなど、多くの設定がある。 また、潜在的な結果の限界分布全体に影響を及ぼすような無限次元のパラメータもカバーする。 本論文の有限サンプル保証は、DML推定器の一貫性と漸近正規性に関する既存の結果を補完するものであり、これは漸近的あるいは一次元の場合のみを扱うものである。

Debiased machine learning (DML) offers an attractive way to estimate treatment effects in observational settings, where identification of causal parameters requires a conditional independence or unconfoundedness assumption, since it allows to control flexibly for a potentially very large number of covariates. This paper gives novel finite-sample guarantees for joint inference on high-dimensional DML, bounding how far the finite-sample distribution of the estimator is from its asymptotic Gaussian approximation. These guarantees are useful to applied researchers, as they are informative about how far off the coverage of joint confidence bands can be from the nominal level. There are many settings where high-dimensional causal parameters may be of interest, such as the ATE of many treatment profiles, or the ATE of a treatment on many outcomes. We also cover infinite-dimensional parameters, such as impacts on the entire marginal distribution of potential outcomes. The finite-sample guarantees in this paper complement the existing results on consistency and asymptotic normality of DML estimators, which are either asymptotic or treat only the one-dimensional case.
翻訳日:2022-06-17 02:50:26 公開日:2022-06-15
# (参考訳) 「なぜそこにいないのか?」-次元削減の多面的説明と対比

"Why Here and Not There?" -- Diverse Contrasting Explanations of Dimensionality Reduction ( http://arxiv.org/abs/2206.07391v1 )

ライセンス: CC BY 4.0
Andr\'e Artelt, Alexander Schulz, Barbara Hammer(参考訳) 次元の減少は、データマイニングにおいて一般的な前処理であり、広く使われているツールである。 透明性は通常説明によって達成されるが、今日では分類器やレコメンダシステムといった機械学習ベースのシステムにおいて広く受け入れられ、決定的な要件となっている。 しかし、次元の縮小やその他のデータマイニングツールの透明性は、まだあまり考慮されていないが、それでも彼らの振る舞いを理解することは重要である。 与えられた次元減少法の振る舞いを(局所的に)理解するために,次元減少のための対照的な説明という抽象概念を導入し,この概念を2次元データ可視化の具体的応用に適用する。

Dimensionality reduction is a popular preprocessing and a widely used tool in data mining. Transparency, which is usually achieved by means of explanations, is nowadays a widely accepted and crucial requirement of machine learning based systems like classifiers and recommender systems. However, transparency of dimensionality reduction and other data mining tools have not been considered much yet, still it is crucial to understand their behavior -- in particular practitioners might want to understand why a specific sample got mapped to a specific location. In order to (locally) understand the behavior of a given dimensionality reduction method, we introduce the abstract concept of contrasting explanations for dimensionality reduction, and apply a realization of this concept to the specific application of explaining two dimensional data visualization.
翻訳日:2022-06-17 02:18:09 公開日:2022-06-15
# (参考訳) 画像分類のための効率的な適応組立

Efficient Adaptive Ensembling for Image Classification ( http://arxiv.org/abs/2206.07394v1 )

ライセンス: CC BY 4.0
Antonio Bruno, Davide Moroni, Massimo Martinelli(参考訳) 近年では、散発的なケースを除いて、コンピュータビジョンの傾向は、複雑さのかなりの増加よりもわずかに改善されている。 この傾向を逆転するために,画像分類性能を複雑化することなく向上させる新しい手法を提案する。 この目的のために私たちは、複雑さとトレーニング時間の増大という性質から、あまり適切に使われない強力なアプローチであるensemblingを再検討しました。 まず、データの非結合部分集合(つまり、バッグング)に対して、エンドツーエンドの2つのEfficientNet-b0モデル(画像分類において最も全体的な精度/複雑さのトレードオフを持つアーキテクチャとして知られている)を訓練した。 そこで,訓練可能な組み合わせ層の微調整を行い,効率的な適応アンサンブルを製作した。 このようにして、いくつかの主要なベンチマークデータセットにおいて、パラメータ数(5~60倍)とFLoating Point Operations Per Second(10~100倍)の両方で、複雑性を抑えた精度で、平均0.5倍の精度で最先端を達成できたのです。

In recent times, except for sporadic cases, the trend in Computer Vision is to achieve minor improvements over considerable increases in complexity. To reverse this tendency, we propose a novel method to boost image classification performances without an increase in complexity. To this end, we revisited ensembling, a powerful approach, not often adequately used due to its nature of increased complexity and training time, making it viable by specific design choices. First, we trained end-to-end two EfficientNet-b0 models (known to be the architecture with the best overall accuracy/complexity trade-off in image classification) on disjoint subsets of data (i.e. bagging). Then, we made an efficient adaptive ensemble by performing fine-tuning of a trainable combination layer. In this way, we were able to outperform the state-of-the-art by an average of 0.5\% on the accuracy with restrained complexity both in terms of number of parameters (by 5-60 times), and FLoating point Operations Per Second (by 10-100 times) on several major benchmark datasets, fully embracing the green AI.
翻訳日:2022-06-17 02:00:56 公開日:2022-06-15
# (参考訳) Greedy Adversarial Pruning を用いたネットワーク圧縮時の転送攻撃に対するDNNの強化

Hardening DNNs against Transfer Attacks during Network Compression using Greedy Adversarial Pruning ( http://arxiv.org/abs/2206.07406v1 )

ライセンス: CC BY 4.0
Jonah O'Brien Weiss, Tiago Alves, Sandip Kundu(参考訳) 近年のディープニューラルネットワーク(DNN)応用の普及と成功は、プルーニングや量子化といったDNN圧縮の研究を動機付けている。 これらの技術はモデル推論を加速し、消費電力を削減し、DNNを実行するために必要なハードウェアのサイズと複雑さを小さくする。 しかし、DNNは敵の入力に弱いため、圧縮と敵の堅牢性の関係を考慮することが重要である。 本研究では,いくつかの不規則なプルーニングスキームと8ビット量子化によって生成されたモデルの逆ロバスト性について検討する。 さらに,従来のプルーニングはDNNにおいて最も重要でないパラメータを除去するが,非従来型プルーニング法の効果について検討する。 我々は,この手法をgreedy adversarial pruning(gap)と呼び,このpruning手法が非圧縮攻撃から攻撃を移すのに抵抗するモデルをもたらすことを見出した。

The prevalence and success of Deep Neural Network (DNN) applications in recent years have motivated research on DNN compression, such as pruning and quantization. These techniques accelerate model inference, reduce power consumption, and reduce the size and complexity of the hardware necessary to run DNNs, all with little to no loss in accuracy. However, since DNNs are vulnerable to adversarial inputs, it is important to consider the relationship between compression and adversarial robustness. In this work, we investigate the adversarial robustness of models produced by several irregular pruning schemes and by 8-bit quantization. Additionally, while conventional pruning removes the least important parameters in a DNN, we investigate the effect of an unconventional pruning method: removing the most important model parameters based on the gradient on adversarial inputs. We call this method Greedy Adversarial Pruning (GAP) and we find that this pruning method results in models that are resistant to transfer attacks from their uncompressed counterparts.
翻訳日:2022-06-17 01:53:15 公開日:2022-06-15
# (参考訳) zero-shot object goal visual navigation

Zero-shot object goal visual navigation ( http://arxiv.org/abs/2206.07423v1 )

ライセンス: CC BY 4.0
Qianfan Zhao, Lu Zhang, Bin He, Hong Qiao, and Zhiyong Liu(参考訳) 対象目標視覚ナビゲーションは,視覚的観察に基づいて対象物を見つけるためのロボットの誘導を目的とした課題であり,目標が訓練段階に指定されたクラスに限定されている。 しかし、実際の家庭では、ロボットが扱わなければならない多数のオブジェクトクラスが存在する可能性があり、これらのクラスをトレーニングステージに含めることは困難である。 この課題に対処するために,ゼロショット学習とオブジェクト目標視覚ナビゲーションを組み合わせたゼロショットオブジェクトナビゲーションタスクを提案する。 この課題は、学習方針を新しいクラスに一般化する必要性を生じさせ、これは深層強化学習を用いたオブジェクトナビゲーションの課題である。 この問題に対処するために,我々は「クラス非関連」データを入力として活用し,トレーニング段階で指定されたクラスの過剰適合を緩和する。 クラス非関連入力は、単語埋め込みの検出結果とコサイン類似性から成り、クラス関連視覚特徴や知識グラフは含まない。 ai2-thorプラットフォームでの広範囲な実験により、我々のモデルが目に見えるクラスと見当たらないクラスの両方でベースラインモデルを上回ることが示され、このモデルがクラス感受性が低く、より一般化していることが証明された。 私たちのコードはhttps://github.com/pioneer-innovation/Zero-Shot-Object-Navigationで利用可能です。

Object goal visual navigation is a challenging task that aims to guide a robot to find the target object only based on its visual observation, and the target is limited to the classes specified in the training stage. However, in real households, there may exist numerous object classes that the robot needs to deal with, and it is hard for all of these classes to be contained in the training stage. To address this challenge, we propose a zero-shot object navigation task by combining zero-shot learning with object goal visual navigation, which aims at guiding robots to find objects belonging to novel classes without any training samples. This task gives rise to the need to generalize the learned policy to novel classes, which is a less addressed issue of object navigation using deep reinforcement learning. To address this issue, we utilize "class-unrelated" data as input to alleviate the overfitting of the classes specified in the training stage. The class-unrelated input consists of detection results and cosine similarity of word embeddings, and does not contain any class-related visual features or knowledge graphs. Extensive experiments on the AI2-THOR platform show that our model outperforms the baseline models in both seen and unseen classes, which proves that our model is less class-sensitive and generalizes better. Our code is available at https://github.com/pioneer-innovation/Zero-Shot-Object-Navigation
翻訳日:2022-06-17 01:43:52 公開日:2022-06-15
# (参考訳) ジャンル分類タスクにおける個人分類器の予測信頼度とそのアンサンブルの推定

Estimating Confidence of Predictions of Individual Classifiers and Their Ensembles for the Genre Classification Task ( http://arxiv.org/abs/2206.07427v1 )

ライセンス: CC BY-SA 4.0
Mikhail Lepekhin and Serge Sharoff(参考訳) ジャンル識別は、非トピックテキスト分類のサブクラスである。 このタスクとトピックの分類の主な違いは、トピックとは違ってジャンルは通常単純なキーワードに対応せず、コミュニケーションにおける機能の観点から定義する必要があることである。 BERTやXLM-RoBERTaのような事前学習されたトランスフォーマーに基づくニューラルモデルは、非トピック分類を含む多くのNLPタスクにおいてSOTA結果を示す。 しかし、ソーシャルメディアから抽出したような非常に大きなコーパスへのダウンストリーム適用は、トレーニングセットのプロファイルにマッチしない生テキストがある場合、データセットのシフトによって信頼性の低い結果につながることが多い。 この問題を緩和するために、個々のモデルとそれらのアンサンブルを実験する。 全てのモデルのロバスト性を評価するために,ゴールド・スタンダード・ラベルが存在しない場合の予測の信頼性を推定する予測信頼度指標を用いる。 ラベル付きテストコーパスでは、正しく分類されたテキストと誤った分類されたテキストとの信頼性ギャップによって、堅牢性を評価することができます。 その結果,本研究で検証されたすべての分類器には信頼度ギャップが存在するが,アンサンブルではギャップが大きく,アンサンブルは個々のモデルよりも頑健であることが示された。

Genre identification is a subclass of non-topical text classification. The main difference between this task and topical classification is that genres, unlike topics, usually do not correspond to simple keywords, and thus they need to be defined in terms of their functions in communication. Neural models based on pre-trained transformers, such as BERT or XLM-RoBERTa, demonstrate SOTA results in many NLP tasks, including non-topical classification. However, in many cases, their downstream application to very large corpora, such as those extracted from social media, can lead to unreliable results because of dataset shifts, when some raw texts do not match the profile of the training set. To mitigate this problem, we experiment with individual models as well as with their ensembles. To evaluate the robustness of all models we use a prediction confidence metric, which estimates the reliability of a prediction in the absence of a gold standard label. We can evaluate robustness via the confidence gap between the correctly classified texts and the misclassified ones on a labeled test corpus, higher gaps make it easier to improve our confidence that our classifier made the right decision. Our results show that for all of the classifiers tested in this study, there is a confidence gap, but for the ensembles, the gap is bigger, meaning that ensembles are more robust than their individual models.
翻訳日:2022-06-17 01:30:16 公開日:2022-06-15
# (参考訳) 道路シーン解析のための物理的に許容できる偏光データ拡張

Physically-admissible polarimetric data augmentation for road-scene analysis ( http://arxiv.org/abs/2206.07431v1 )

ライセンス: CC BY 4.0
Cyprien Ruffino, Rachel Blin, Samia Ainouz, Gilles Gasso, Romain H\'erault, Fabrice Meriaudeau, St\'ephane Canu(参考訳) ポラリメトリックイメージングは、深層学習とともに、シーン分析を含む様々なタスクのパフォーマンスを改善している。 しかし、トレーニングデータセットが小さいため、その堅牢性には疑問があるかもしれない。 データ拡張によってこの問題は解決できるが、偏光モードは古典的なデータ拡張技術では解決できない物理的実現可能性制約の対象となる。 そこで本研究では,未ペアデータのみに依存する深層生成モデルに基づく画像翻訳技術であるCycleGANを用いて,大規模ラベル付き道路シーンデータセットを偏光領域に転送する手法を提案する。 我々は,周期的損失に加えて,ポラリメトリック画像の物理的制約を扱う補助的損失項をいくつか設計する。 このソリューションの効率性は、実際のポラリメトリック画像を生成する道路シーンオブジェクト検出タスクで実証され、車の性能向上と歩行者検出が最大9%向上する。 結果として制約されたCycleGANは公開され、誰でも独自の偏光画像を生成することができる。

Polarimetric imaging, along with deep learning, has shown improved performances on different tasks including scene analysis. However, its robustness may be questioned because of the small size of the training datasets. Though the issue could be solved by data augmentation, polarization modalities are subject to physical feasibility constraints unaddressed by classical data augmentation techniques. To address this issue, we propose to use CycleGAN, an image translation technique based on deep generative models that solely relies on unpaired data, to transfer large labeled road scene datasets to the polarimetric domain. We design several auxiliary loss terms that, alongside the CycleGAN losses, deal with the physical constraints of polarimetric images. The efficiency of this solution is demonstrated on road scene object detection tasks where generated realistic polarimetric images allow to improve performances on cars and pedestrian detection up to 9%. The resulting constrained CycleGAN is publicly released, allowing anyone to generate their own polarimetric images.
翻訳日:2022-06-17 01:14:14 公開日:2022-06-15
# (参考訳) 多目的ハイパーパラメータ最適化 --概要

Multi-Objective Hyperparameter Optimization -- An Overview ( http://arxiv.org/abs/2206.07438v1 )

ライセンス: CC BY 4.0
Florian Karl, Tobias Pielok, Julia Moosbauer, Florian Pfisterer, Stefan Coors, Martin Binder, Lennart Schneider, Janek Thomas, Jakob Richter, Michel Lang, Eduardo C. Garrido-Merch\'an, Juergen Branke, Bernd Bischl(参考訳) ハイパーパラメータ最適化は、典型的な機械学習ワークフローの大部分を構成する。 これは、機械学習手法とそれに対応する前処理ステップが、ハイパーパラメータが適切に調整されたときにのみ最適なパフォーマンスが得られるという事実から生じる。 しかし、多くのアプリケーションでは、予測精度だけのためにmlパイプラインを最適化することに関心があるだけでなく、最適な構成を決定する際に追加のメトリクスや制約を考慮する必要がある。 これは知識が不足し、多目的ハイパーパラメータ最適化のためのソフトウェア実装が容易に手に入るため、実際には無視されることが多い。 本研究では,多目的ハイパーパラメータ最適化の基礎に読者を導入し,応用MLにおけるその有用性を動機づける。 さらに,進化的アルゴリズムの領域とベイズ最適化の領域の両方から,既存の最適化戦略の広範な調査を行う。 動作条件,予測時間,スパースネス,フェアネス,解釈可能性,ロバストネスなどの目的を考慮し,複数の特定のMLアプリケーションにおけるMOOの有用性を解説する。

Hyperparameter optimization constitutes a large part of typical modern machine learning workflows. This arises from the fact that machine learning methods and corresponding preprocessing steps often only yield optimal performance when hyperparameters are properly tuned. But in many applications, we are not only interested in optimizing ML pipelines solely for predictive accuracy; additional metrics or constraints must be considered when determining an optimal configuration, resulting in a multi-objective optimization problem. This is often neglected in practice, due to a lack of knowledge and readily available software implementations for multi-objective hyperparameter optimization. In this work, we introduce the reader to the basics of multi- objective hyperparameter optimization and motivate its usefulness in applied ML. Furthermore, we provide an extensive survey of existing optimization strategies, both from the domain of evolutionary algorithms and Bayesian optimization. We illustrate the utility of MOO in several specific ML applications, considering objectives such as operating conditions, prediction time, sparseness, fairness, interpretability and robustness.
翻訳日:2022-06-17 00:59:18 公開日:2022-06-15
# (参考訳) 眼球運動による性別予測

Predicting Gender via Eye Movements ( http://arxiv.org/abs/2206.07442v1 )

ライセンス: CC BY 4.0
Rishabh Vallabh Varsha Haria, Sahar Mahdie Klim Al Zaidawi, Sebastian Maneth(参考訳) 本稿では,眼球運動による性別予測の最初の安定結果を報告する。 顔の画像を用いたデータセットを刺激として使用し、370人の参加者を多数参加させた。 安定性には2つの意味がある: まず1つの予測実験の標準偏差(SD)を推定できる(約4.1%)。 第2に、非常に低い標準誤差(sem)で平均精度を提供することが出来ます。我々の精度は65.2%で、semは0.80%です。これは予測のためにランダムにトレーニングとテストセットを選択した多くの実行によって達成されます。 本研究は,ランダム林とロジスティック回帰の2つの分類器が最善の精度を達成していることを示す。 以上の結果から,女性の方が左眼に偏りが強いことが示唆された。

In this paper, we report the first stable results on gender prediction via eye movements. We use a dataset with images of faces as stimuli and with a large number of 370 participants. Stability has two meanings for us: first that we are able to estimate the standard deviation (SD) of a single prediction experiment (it is around 4.1 %); this is achieved by varying the number of participants. And second, we are able to provide a mean accuracy with a very low standard error (SEM): our accuracy is 65.2 %, and the SEM is 0.80 %; this is achieved through many runs of randomly selecting training and test sets for the prediction. Our study shows that two particular classifiers achieve the best accuracies: Random Forests and Logistic Regression. Our results reconfirm previous findings that females are more biased towards the left eyes of the stimuli.
翻訳日:2022-06-17 00:58:14 公開日:2022-06-15
# (参考訳) エッジデバイス上でのディープラーニングコールドスタートレイテンシの理解と最適化

Understanding and Optimizing Deep Learning Cold-Start Latency on Edge Devices ( http://arxiv.org/abs/2206.07446v1 )

ライセンス: CC BY 4.0
Rongjie Yi, Ting Cao, Ao Zhou, Xiao Ma, Shangguang Wang, Mengwei Xu(参考訳) 現在、DNNはエッジデバイス上でユビキタスである。 重要性とユースケースの増大に伴い、すべてのDNNをデバイスメモリに詰め込んで、各推論がウォームアップされることを期待する可能性は低い。 そのため,DNNモデルの読み出し,初期化,実行プロセスであるコールド推論が一般的になり,その性能の最適化が急務に求められている。 そこで我々は,dnn演算子毎に適切なカーネル(実装)を選択すること,ディスク上の後変換重みをキャッシュすることで重み変換プロセスをバイパスすること,非対称プロセッサ上で多数のカーネルの実行をパイプライン化すること,という3つの新しい最適化ノブ上に,最初のオンデバイス推論エンジンであるnnv12を提案する。 巨大な探索空間に対処するため、nnv12はヒューリスティックベースのスキームを採用し、最適に近いカーネルスケジューリング計画を得る。 NNV12のプロトタイプを完全実装し,その性能評価を行った。 NNV12は、それぞれエッジCPUとGPU上の最先端のDNNエンジンと比較して15.2xと401.5xに達する。

DNNs are ubiquitous on edge devices nowadays. With its increasing importance and use cases, it's not likely to pack all DNNs into device memory and expect that each inference has been warmed up. Therefore, cold inference, the process to read, initialize, and execute a DNN model, is becoming commonplace and its performance is urgently demanded to be optimized. To this end, we present NNV12, the first on-device inference engine that optimizes for cold inference NNV12 is built atop 3 novel optimization knobs: selecting a proper kernel (implementation) for each DNN operator, bypassing the weights transformation process by caching the post-transformed weights on disk, and pipelined execution of many kernels on asymmetric processors. To tackle with the huge search space, NNV12 employs a heuristic-based scheme to obtain a near-optimal kernel scheduling plan. We fully implement a prototype of NNV12 and evaluate its performance across extensive experiments. It shows that NNV12 achieves up to 15.2x and 401.5x compared to the state-of-the-art DNN engines on edge CPUs and GPUs, respectively.
翻訳日:2022-06-17 00:51:22 公開日:2022-06-15
# (参考訳) 協調型マルチエージェント強化学習における共通実践の再考

Revisiting Some Common Practices in Cooperative Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2206.07505v1 )

ライセンス: CC BY 4.0
Wei Fu, Chao Yu, Zelai Xu, Jiaqi Yang, and Yi Wu(参考訳) 協調型マルチエージェント強化学習(MARL)における多くの進歩は、値分解とパラメータ共有という2つの共通設計原則に基づいている。 この手法の典型的なmarlアルゴリズムは、エージェント間でパラメータを共有するローカルなq-ネットワークに中央集権的なq-関数を分解する。 このようなアルゴリズムパラダイムは、集中的なトレーニングと分散実行(CTDE)を可能にし、実際に効率的な学習を実現する。 これらの利点にもかかわらず、これらの2つの原則を再考し、例えば、高いマルチモーダルな報酬の展望、価値の分解、パラメータ共有といった特定のシナリオでは問題があり、望ましくない結果につながることを示す。 対照的に、個々の政策を持つ政策勾配法(PG)は、これらの場合において最適解に確実に収束し、PGが多くのMARLテストベッドで有効であるという最近の経験的な観察を部分的に支持している。 我々の理論分析から着想を得て,多エージェントPGアルゴリズムを高報酬あるいは多様な創発的行動に実装する実践的提案を行い,単純化された行列ゲームやグリッドワールドゲームから,StarCraft Multi-Agent ChallengeやGoogle Research Footballといった複雑なベンチマークまで,さまざまな領域での知見を実証的に検証した。 私たちの洞察が、より汎用的でより強力なmarlアルゴリズムを開発するコミュニティに利益をもたらすことを願っています。 プロジェクトのwebサイトはhttps://sites.google.com/view/revisiting-marl。

Many advances in cooperative multi-agent reinforcement learning (MARL) are based on two common design principles: value decomposition and parameter sharing. A typical MARL algorithm of this fashion decomposes a centralized Q-function into local Q-networks with parameters shared across agents. Such an algorithmic paradigm enables centralized training and decentralized execution (CTDE) and leads to efficient learning in practice. Despite all the advantages, we revisit these two principles and show that in certain scenarios, e.g., environments with a highly multi-modal reward landscape, value decomposition, and parameter sharing can be problematic and lead to undesired outcomes. In contrast, policy gradient (PG) methods with individual policies provably converge to an optimal solution in these cases, which partially supports some recent empirical observations that PG can be effective in many MARL testbeds. Inspired by our theoretical analysis, we present practical suggestions on implementing multi-agent PG algorithms for either high rewards or diverse emergent behaviors and empirically validate our findings on a variety of domains, ranging from the simplified matrix and grid-world games to complex benchmarks such as StarCraft Multi-Agent Challenge and Google Research Football. We hope our insights could benefit the community towards developing more general and more powerful MARL algorithms. Check our project website at https://sites.google.com/view/revisiting-marl.
翻訳日:2022-06-17 00:27:34 公開日:2022-06-15
# (参考訳) 歩行者ポーズ推定のためのディープマルチタスクネットワーク

Deep Multi-Task Networks For Occluded Pedestrian Pose Estimation ( http://arxiv.org/abs/2206.07510v1 )

ライセンス: CC BY-SA 4.0
Arindam Das, Sudip Das, Ganesh Sistu, Jonathan Horgan, Ujjwal Bhattacharya, Edward Jones, Martin Glavin, and Ciar\'an Eising(参考訳) 歩行者のポーズ推定に関する既存の研究のほとんどは、関連する自動車のデータセットでは使用できないため、オクルードされた歩行者のポーズの推定を考慮していない。 例えば、自動車シーンにおける歩行者検出のためのよく知られたデータセットであるCityPersonsは、ポーズアノテーションを提供していない。 本研究では,これら2つの分布を別々に実行した歩行者特徴抽出とインスタンス分割タスクにより,歩行者特徴を抽出するマルチタスクフレームワークを提案する。 その後、エンコーダは、両方の分布から歩行者インスタンスに対する教師なしインスタンスレベルドメイン適応法を用いて、特定の特徴のポーズを学習する。 提案フレームワークは,ポーズ推定,歩行者検出,インスタンスセグメンテーションの最先端性能を改善した。

Most of the existing works on pedestrian pose estimation do not consider estimating the pose of an occluded pedestrians, as the annotations of the occluded parts are not available in relevant automotive datasets. For example, CityPersons, a well-known dataset for pedestrian detection in automotive scenes does not provide pose annotations, whereas MS-COCO, a non-automotive dataset, contains human pose estimation. In this work, we propose a multi-task framework to extract pedestrian features through detection and instance segmentation tasks performed separately on these two distributions. Thereafter, an encoder learns pose specific features using an unsupervised instance-level domain adaptation method for the pedestrian instances from both distributions. The proposed framework has improved state-of-the-art performances of pose estimation, pedestrian detection, and instance segmentation.
翻訳日:2022-06-17 00:04:34 公開日:2022-06-15
# (参考訳) 音声分類のための多機能選択とセンシングの検討

Investigating Multi-Feature Selection and Ensembling for Audio Classification ( http://arxiv.org/abs/2206.07511v1 )

ライセンス: CC BY 4.0
Muhammad Turab and Teerath Kumar and Malika Bendechache and Takfarinas Saber(参考訳) ディープラーニング(DL)アルゴリズムは、様々な領域で素晴らしいパフォーマンスを示している。 特に音声データの分類に関して興味深いパターンがあるため、オーディオはここ数十年にわたって多くの研究者を惹きつけてきた。 オーディオ分類のパフォーマンス向上のため、機能選択と組み合わせは、あらゆるdlモデルのパフォーマンスを損なう可能性があるため、重要な役割を果たす。 To investigate this role, we conduct an extensive evaluation of the performance of several cutting-edge DL models (i.e., Convolutional Neural Network, EfficientNet, MobileNet, Supper Vector Machine and Multi-Perceptron) with various state-of-the-art audio features (i.e., Mel Spectrogram, Mel Frequency Cepstral Coefficients, and Zero Crossing Rate) either independently or as a combination (i.e., through ensembling) on three different datasets (i.e., Free Spoken Digits Dataset, Audio Urdu Digits Dataset, and Audio Gujarati Digits Dataset). 全体としては、機能の選択はデータセットとモデルの両方に依存します。 しかしながら、機能の組み合わせは、個々の使用時に既に優れたパフォーマンスを達成している機能(主にMel Spectrogram、Mel Frequency Cepstral Coefficients)に制限されるべきである。 このような機能の組み合わせ/アンサンブルにより、DLモデルの選択に関係なく、従来の最先端の結果よりも優れた結果が得られる。

Deep Learning (DL) algorithms have shown impressive performance in diverse domains. Among them, audio has attracted many researchers over the last couple of decades due to some interesting patterns--particularly in classification of audio data. For better performance of audio classification, feature selection and combination play a key role as they have the potential to make or break the performance of any DL model. To investigate this role, we conduct an extensive evaluation of the performance of several cutting-edge DL models (i.e., Convolutional Neural Network, EfficientNet, MobileNet, Supper Vector Machine and Multi-Perceptron) with various state-of-the-art audio features (i.e., Mel Spectrogram, Mel Frequency Cepstral Coefficients, and Zero Crossing Rate) either independently or as a combination (i.e., through ensembling) on three different datasets (i.e., Free Spoken Digits Dataset, Audio Urdu Digits Dataset, and Audio Gujarati Digits Dataset). Overall, results suggest feature selection depends on both the dataset and the model. However, feature combinations should be restricted to the only features that already achieve good performances when used individually (i.e., mostly Mel Spectrogram, Mel Frequency Cepstral Coefficients). Such feature combination/ensembling enabled us to outperform the previous state-of-the-art results irrespective of our choice of DL model.
翻訳日:2022-06-16 23:59:09 公開日:2022-06-15
# (参考訳) QONNX: 任意精度量子化ニューラルネットワーク

QONNX: Representing Arbitrary-Precision Quantized Neural Networks ( http://arxiv.org/abs/2206.07527v1 )

ライセンス: CC BY 4.0
Alessandro Pappalardo and Yaman Umuroglu and Michaela Blott and Jovan Mitrevski and Ben Hawks and Nhan Tran and Vladimir Loncar and Sioni Summers and Hendrik Borras and Jules Muhizi and Matthew Trahms and Shih-Chieh Hsu and Javier Duarte(参考訳) 我々は,任意の精度の量子化ニューラルネットワークを表現するために,open neural network exchange (onnx) 中間表現形式の拡張を提案する。 まず,既存のonnxベースの量子化フォーマットにおいて,整数クリッピングを利用した低精度量子化のサポートを導入することで,後方互換性を持つ2つの新しい変種:クリッピングを用いた量子化演算子形式とqcdq形式を導入する。 次に、一様量子化を表すために、新しい3つの演算子、Quant、BipolarQuant、Truncを導入する量子化NNX(QONNX)と呼ばれる新しい高レベルNNXフォーマットを導入する。 QONNX IRを高レベルかつフレキシブルに保つことで、幅広いプラットフォームをターゲットにすることができる。 また,qonnx と連携するユーティリティや finn や hls4ml のツールチェーンでの使用例についても紹介する。 最後に、低精度量子化ニューラルネットワークを共有するためのQONNXモデル動物園を紹介する。

We present extensions to the Open Neural Network Exchange (ONNX) intermediate representation format to represent arbitrary-precision quantized neural networks. We first introduce support for low precision quantization in existing ONNX-based quantization formats by leveraging integer clipping, resulting in two new backward-compatible variants: the quantized operator format with clipping and quantize-clip-dequantize (QCDQ) format. We then introduce a novel higher-level ONNX format called quantized ONNX (QONNX) that introduces three new operators -- Quant, BipolarQuant, and Trunc -- in order to represent uniform quantization. By keeping the QONNX IR high-level and flexible, we enable targeting a wider variety of platforms. We also present utilities for working with QONNX, as well as examples of its usage in the FINN and hls4ml toolchains. Finally, we introduce the QONNX model zoo to share low-precision quantized neural networks.
翻訳日:2022-06-16 23:46:36 公開日:2022-06-15
# (参考訳) BaIT:情報信頼性のためのバロメーター

BaIT: Barometer for Information Trustworthiness ( http://arxiv.org/abs/2206.07535v1 )

ライセンス: CC BY 4.0
Ois\'in Nolan, Jeroen van Mourik, Callum Tilbury(参考訳) 本稿では,類似したNLPタスク,すなわち文類似性や自然言語推論から事前学習したエンコーダモデルを取り入れたFNC-1フェイクニュース分類タスクに対する新しいアプローチを提案し,本手法を用いたニューラルネットワークアーキテクチャを提案する。 データ拡張の手法は、データセットにおけるクラス不均衡に対処し、共通の既存手法を用いて、新しい文否定アルゴリズムを用いて、表現下クラスにおけるサンプル生成方法を提案する。 既存のベースラインと比較して総合的な性能は達成されるが、FNC-1の下位表現では精度は著しく向上する。

This paper presents a new approach to the FNC-1 fake news classification task which involves employing pre-trained encoder models from similar NLP tasks, namely sentence similarity and natural language inference, and two neural network architectures using this approach are proposed. Methods in data augmentation are explored as a means of tackling class imbalance in the dataset, employing common pre-existing methods and proposing a method for sample generation in the under-represented class using a novel sentence negation algorithm. Comparable overall performance with existing baselines is achieved, while significantly increasing accuracy on an under-represented but nonetheless important class for FNC-1.
翻訳日:2022-06-16 23:30:42 公開日:2022-06-15
# (参考訳) 社会ロボット制御のための身体ジェスチャー認識

Body Gesture Recognition to Control a Social Robot ( http://arxiv.org/abs/2206.07538v1 )

ライセンス: CC BY 4.0
Javier Laplaza, Joan Jaume Oliver, Ram\'on Romero, Alberto Sanfeliu and Ana\'is Garrell(参考訳) 本研究では,人間の身体を用いたロボットとの対話を自然に行うためのジェスチャーに基づく言語を提案する。 ニューラルネットワークを用いた新しいジェスチャー検出モデルと、ネットワークをトレーニングするための身体ジェスチャーセットを実行する人間のカスタムデータセットを作成しました。 さらに,この知識をロボットに追加することの重要性を認識するため,身体ジェスチャー通信を他のコミュニケーションチャネルと比較する。 提案手法は非訓練ボランティアによる多様なシミュレーションや実生活実験で広く検証されている。 これは目覚ましい結果となり、人間のロボットコラボレーションや人間とロボットの相互作用といった社会ロボティクス応用のための貴重なフレームワークであることが示される。

In this work, we propose a gesture based language to allow humans to interact with robots using their body in a natural way. We have created a new gesture detection model using neural networks and a custom dataset of humans performing a set of body gestures to train our network. Furthermore, we compare body gesture communication with other communication channels to acknowledge the importance of adding this knowledge to robots. The presented approach is extensively validated in diverse simulations and real-life experiments with non-trained volunteers. This attains remarkable results and shows that it is a valuable framework for social robotics applications, such as human robot collaboration or human-robot interaction.
翻訳日:2022-06-16 23:17:47 公開日:2022-06-15
# (参考訳) 新生児大脳皮質表面発達の深部発生モデル

A Deep Generative Model of Neonatal Cortical Surface Development ( http://arxiv.org/abs/2206.07542v1 )

ライセンス: CC BY 4.0
Abdulah Fawaz, Logan Z. Williams, Emma Robinson, A. David Edwards(参考訳) 新生児大脳皮質表面は、出生前の影響で知られており、その後の皮質組織の変化は、より貧弱な神経発達の結果と関連している。 深部生成モデルは臨床的に解釈可能な疾患モデルにつながる可能性があるが、非平坦なトポロジーにおいて畳み込みフィルタを学習する確立した技術が不適切であるため、皮質表面でこれらを開発することは困難である。 このギャップを埋めるために, 混合モデルcnn(monet)を用いた表面ベースサイクガンを実装し, 成熟段階の異なる段階において, 球状化した新生児皮質表面特徴(曲率およびt1w/t2w皮質ミエリン)を翻訳する。 その結果, 妊娠後期の皮質組織の個々のパターンの変化を, 縦断データとの比較により確実に予測でき, 妊娠前と妊娠後(37週以上)の出現を, 訓練された妊娠前/妊娠前分類器との比較で検証できることがわかった。 皮質成熟のシミュレーション的差異は、文献の観察と一致している。

The neonatal cortical surface is known to be affected by preterm birth, and the subsequent changes to cortical organisation have been associated with poorer neurodevelopmental outcomes. Deep Generative models have the potential to lead to clinically interpretable models of disease, but developing these on the cortical surface is challenging since established techniques for learning convolutional filters are inappropriate on non-flat topologies. To close this gap, we implement a surface-based CycleGAN using mixture model CNNs (MoNet) to translate sphericalised neonatal cortical surface features (curvature and T1w/T2w cortical myelin) between different stages of cortical maturity. Results show our method is able to reliably predict changes in individual patterns of cortical organisation at later stages of gestation, validated by comparison to longitudinal data; and translate appearance between preterm and term gestation (> 37 weeks gestation), validated through comparison with a trained term/preterm classifier. Simulated differences in cortical maturation are consistent with observations in the literature.
翻訳日:2022-06-16 23:11:29 公開日:2022-06-15
# (参考訳) オープンセットドメイン適応のための未知のドメイン反転学習

Unknown-Aware Domain Adversarial Learning for Open-Set Domain Adaptation ( http://arxiv.org/abs/2206.07551v1 )

ライセンス: CC BY 4.0
JoonHo Jang, Byeonghu Na, DongHyeok Shin, Mingi Ji, Kyungwoo Song, Il-Chul Moon(参考訳) open-set domain adaptation (osda) では、対象ドメインが未知のクラスを含んでいると仮定している。 既存のドメイン逆数学習法は, <textit{unknown} クラスとの分布マッチングが負の転送につながるため, OSDA には適さない。 これまでのOSDAメソッドは、textit{known}クラスのみを利用することで、ソースとターゲット分布のマッチングに重点を置いていた。 しかし、この \textit{known} のみのマッチングは、ターゲット-\textit{unknown} 機能空間を学習できない可能性がある。 そこで本稿では,Unknown-Aware Domain Adversarial Learning (UADAL)を提案する。これはソースとtarge-\textit{known}分布を同時に,特徴アライメント手順におけるターゲット-\textit{unknown}分布を抽出する。 提案した \textit{unknown-aware} 特徴アライメントの最適化状態に関する理論的解析を行い, 理論的には \textit{alignment} と \textit{segregation} の両方を保証できる。 実験的に,UADALをベンチマークデータセット上で評価したところ,UADALは最先端のパフォーマンスを報告することによって,他の手法よりも優れた機能アライメントを実現していることがわかった。

Open-Set Domain Adaptation (OSDA) assumes that a target domain contains unknown classes, which are not discovered in a source domain. Existing domain adversarial learning methods are not suitable for OSDA because distribution matching with \textit{unknown} classes leads to the negative transfer. Previous OSDA methods have focused on matching the source and the target distribution by only utilizing \textit{known} classes. However, this \textit{known}-only matching may fail to learn the target-\textit{unknown} feature space. Therefore, we propose Unknown-Aware Domain Adversarial Learning (UADAL), which \textit{aligns} the source and the targe-\textit{known} distribution while simultaneously \textit{segregating} the target-\textit{unknown} distribution in the feature alignment procedure. We provide theoretical analyses on the optimized state of the proposed \textit{unknown-aware} feature alignment, so we can guarantee both \textit{alignment} and \textit{segregation} theoretically. Empirically, we evaluate UADAL on the benchmark datasets, which shows that UADAL outperforms other methods with better feature alignments by reporting the state-of-the-art performances.
翻訳日:2022-06-16 22:56:31 公開日:2022-06-15
# (参考訳) KGEA: 知識グラフによる記事の品質識別データセット

KGEA: A Knowledge Graph Enhanced Article Quality Identification Dataset ( http://arxiv.org/abs/2206.07556v1 )

ライセンス: CC BY 4.0
Chunhui Ai and Derui Wang and Yang Xu and Wenrui Xie and Ziqiang Cao(参考訳) さまざまな品質の記事が毎回作成されているので、このデータを質の高い記事としてスクリーニングし、ソーシャルメディアにコミットするのは非常に緊急の作業です。 高品質な記事には、関連性、テキスト品質、ストレート、マルチサイド、背景、ノベルティ、感情など、多くの特徴があることに注意が必要だ。 したがって、単に記事の内容をその品質を特定するために使うのは不適切である。 そこで本研究では,外部知識インタラクションを用いて性能を洗練し,baidu百科事典に基づく知識グラフ強化記事品質識別データセット(kgea)を提案する。 論文を7次元で定量化し,記事とBaidu百科事典の実体の共起を利用して,各記事の知識グラフを構築した。 また、いくつかのテキスト分類ベースラインを比較し、外部知識がグラフニューラルネットワークとのより競争力のある分類に導くことができることを示した。

With so many articles of varying quality being produced at every moment, it is a very urgent task to screen this data for quality articles and commit them out to social media. It is worth noting that high quality articles have many characteristics, such as relevance, text quality, straightforward, multi-sided, background, novelty and sentiment. Thus, it would be inadequate to purely use the content of an article to identify its quality. Therefore, we plan to use the external knowledge interaction to refine the performance and propose a knowledge graph enhanced article quality identification dataset (KGEA) based on Baidu Encyclopedia. We quantified the articles through 7 dimensions and use co-occurrence of the entities between the articles and the Baidu encyclopedia to construct the knowledge graph for every article. We also compared some text classification baselines and found that external knowledge can guide the articles to a more competitive classification with the graph neural networks.
翻訳日:2022-06-16 22:24:10 公開日:2022-06-15
# (参考訳) 分布ロバストモデルのメタ解析

A Meta-Analysis of Distributionally-Robust Models ( http://arxiv.org/abs/2206.07565v1 )

ライセンス: CC BY-SA 4.0
Benjamin Feuer, Ameya Joshi, Chinmay Hegde(参考訳) 大量のデータセット(ImageNetなど)でトレーニングされた最先端の画像分類器は、意図的および偶発的な分散シフトの両方に対して脆弱であることが示されている。 一方, 最適分布特性(OOD)を有する最近の分類器がいくつか出現し, 目標タスクに対して高い精度を達成しつつ, 挑戦的ベンチマーク上での分配精度を維持している。 本論文では,過去12ヶ月にわたって公開されてきた多種多様なモデルについてメタ分析を行った。 このメタアナリシスを通じて、最高のOOD-ロバストモデルに対する4つの主要な共通点を実証的に同定する。

State-of-the-art image classifiers trained on massive datasets (such as ImageNet) have been shown to be vulnerable to a range of both intentional and incidental distribution shifts. On the other hand, several recent classifiers with favorable out-of-distribution (OOD) robustness properties have emerged, achieving high accuracy on their target tasks while maintaining their in-distribution accuracy on challenging benchmarks. We present a meta-analysis on a wide range of publicly released models, most of which have been published over the last twelve months. Through this meta-analysis, we empirically identify four main commonalities for all the best-performing OOD-robust models, all of which illuminate the considerable promise of vision-language pre-training.
翻訳日:2022-06-16 22:17:39 公開日:2022-06-15
# (参考訳) ゴール条件強化学習としてのコントラスト学習

Contrastive Learning as Goal-Conditioned Reinforcement Learning ( http://arxiv.org/abs/2206.07568v1 )

ライセンス: CC BY 4.0
Benjamin Eysenbach, Tianjun Zhang, Ruslan Salakhutdinov, Sergey Levine(参考訳) 強化学習(RL)では,優れた表現が与えられると,課題の解決が容易になる。 ディープRLはそのような優れた表現を自動的に取得する必要があるが、先行研究では、エンドツーエンドの学習表現が不安定であることに気付き、代わりにRLアルゴリズムにさらなる表現学習部品(補助的損失、データ拡張など)を装備する。 優れた表現を直接取得するRLアルゴリズムをどうやって設計できるのか? 本稿では,既存のRLアルゴリズムに表現学習部品を追加する代わりに,RLアルゴリズムとして(対照的に)表現学習手法を独自に選択可能であることを示す。 そこで我々は,先行研究に基づいて,学習した表現がゴール条件付き値関数と正確に一致するように,行動ラベル付き軌跡に対してコントラッシブな表現学習を適用した。 このアイデアを用いて,先行するrl法をコントラスト学習として再解釈し,同様の性能を実現するためのより単純な手法を提案する。 目標条件付きRLタスクの範囲内で、RL手法は、オフラインRL設定を含む従来の非競合的手法よりも高い成功率を達成することを示す。 また、データ拡張や補助目的を使わずに、画像ベースタスクにおいて、コントラストRLが先行手法よりも優れていることを示す。

In reinforcement learning (RL), it is easier to solve a task if given a good representation. While deep RL should automatically acquire such good representations, prior work often finds that learning representations in an end-to-end fashion is unstable and instead equip RL algorithms with additional representation learning parts (e.g., auxiliary losses, data augmentation). How can we design RL algorithms that directly acquire good representations? In this paper, instead of adding representation learning parts to an existing RL algorithm, we show (contrastive) representation learning methods can be cast as RL algorithms in their own right. To do this, we build upon prior work and apply contrastive representation learning to action-labeled trajectories, in such a way that the (inner product of) learned representations exactly corresponds to a goal-conditioned value function. We use this idea to reinterpret a prior RL method as performing contrastive learning, and then use the idea to propose a much simpler method that achieves similar performance. Across a range of goal-conditioned RL tasks, we demonstrate that contrastive RL methods achieve higher success rates than prior non-contrastive methods, including in the offline RL setting. We also show that contrastive RL outperforms prior methods on image-based tasks, without using data augmentation or auxiliary objectives.
翻訳日:2022-06-16 22:04:01 公開日:2022-06-15
# (参考訳) aiと病理 - ステアリング治療とアウトカム予測

AI and Pathology: Steering Treatment and Predicting Outcomes ( http://arxiv.org/abs/2206.07573v1 )

ライセンス: CC BY 4.0
Rajarsi Gupta, Jakub Kaczmarzyk, Soma Kobayashi, Tahsin Kurc, Joel Saltz(参考訳) データ解析手法の組み合わせ、計算能力の向上、センサの改良により、定量的な粒度、マルチスケール、セルベース分析が可能になる。 組織解釈に関連するアプリケーション課題の豊富なセットと、これらの課題に現在取り組んでいるAI手法について説明する。 我々は, 疾患状態, 予後予測, 治療ステアリングの定量的評価を目的とした, 特定の分類のヒト組織分析の病理組織学に焦点を当てた。

The combination of data analysis methods, increasing computing capacity, and improved sensors enable quantitative granular, multi-scale, cell-based analyses. We describe the rich set of application challenges related to tissue interpretation and survey AI methods currently used to address these challenges. We focus on a particular class of targeted human tissue analysis - histopathology - aimed at quantitative characterization of disease state, patient outcome prediction and treatment steering.
翻訳日:2022-06-16 21:26:38 公開日:2022-06-15
# (参考訳) 内視鏡映像ストリームにおける物体検出アンサンブルの評価とアーチファクト検出の堅牢性向上

Evaluating object detector ensembles for improving the robustness of artifact detection in endoscopic video streams ( http://arxiv.org/abs/2206.07580v1 )

ライセンス: CC BY 4.0
Pedro Esteban Chavarrias-Solano, Carlos Axel Garcia-Vega, Francisco Javier Lopez-Tiro, Gilberto Ochoa-Ruiz, Thomas Bazin, Dominique Lamarque, Christian Daul(参考訳) このコントリビューションでは、2つの個別の1段階検出器(YOLOv4とYolact)の予測と、内視鏡画像の人工物検出を併用するアンサンブル深層学習法を用いている。 このアンサンブル戦略により,実時間計算能力を損なうことなく,個々のモデルのロバスト性を向上させることができた。 本手法は,2つの個別モデルと各種アンサンブル構成を訓練・テストし,"endoscopic artifact detection challenge"データセット上での有効性を実証した。 広範な実験により、平均精度の観点からは、個々のモデルや以前の作品に対するアンサンブルアプローチの優越性が示される。

In this contribution we use an ensemble deep-learning method for combining the prediction of two individual one-stage detectors (i.e., YOLOv4 and Yolact) with the aim to detect artefacts in endoscopic images. This ensemble strategy enabled us to improve the robustness of the individual models without harming their real-time computation capabilities. We demonstrated the effectiveness of our approach by training and testing the two individual models and various ensemble configurations on the "Endoscopic Artifact Detection Challenge" dataset. Extensive experiments show the superiority, in terms of mean average precision, of the ensemble approach over the individual models and previous works in the state of the art.
翻訳日:2022-06-16 21:02:49 公開日:2022-06-15
# (参考訳) ヒルベルト空間、バナッハ空間、および測度集合上の特性核

Characteristic kernels on Hilbert spaces, Banach spaces, and on sets of measures ( http://arxiv.org/abs/2206.07588v1 )

ライセンス: CC BY 4.0
Johanna Ziegel and David Ginsbourger and Lutz D\"umbgen(参考訳) 非標準空間上の正定核の新しいクラスを積分的に厳密な正定核あるいは標数として提示する。 特に、分離可能なヒルベルト空間上のラジアル核について議論し、バナッハ空間および強負型の計量空間上の幅広いカーネル類を紹介する。 一般的な結果は、分離可能な$L^p$空間と測度上のカーネルの明示的なクラスを与えるために使われる。

We present new classes of positive definite kernels on non-standard spaces that are integrally strictly positive definite or characteristic. In particular, we discuss radial kernels on separable Hilbert spaces, and introduce broad classes of kernels on Banach spaces and on metric spaces of strong negative type. The general results are used to give explicit classes of kernels on separable $L^p$ spaces and on sets of measures.
翻訳日:2022-06-16 20:54:44 公開日:2022-06-15
# (参考訳) HICEM: 人工感情知のための高次感情モデル

HICEM: A High-Coverage Emotion Model for Artificial Emotional Intelligence ( http://arxiv.org/abs/2206.07593v1 )

ライセンス: CC BY 4.0
Benjamin Wortman and James Z. Wang(参考訳) 社会ロボットや他の知的な機械が家庭に入るにつれ、AI(Artificial emotional Intelligence, AEI)は、より深く、より有意義な人間と機械の相互作用を求めるユーザの欲求に対処するために、中心的なステージを踏み出している。 このような効果的な相互作用を達成するために、次世代のAEIは訓練に包括的な人間の感情モデルを必要とする。 心理学の歴史的焦点であった感情理論とは異なり、感情モデルは記述的道具である。 実際には、最強のモデルは堅牢なカバレッジを必要とする。つまり、他のすべての感情を導出できる最小のコアセットを定義することを意味する。 所望のカバレッジを達成するため、自然言語処理からの単語埋め込みに目を向ける。 我々の実験では、教師なしクラスタリング技術を用いて、最大15の個別感情カテゴリーで、アラビア語、中国語、英語、フランス語、スペイン語、ロシア語の6つの主要言語をカバーできることを示した。 また、既存の感情モデルの妥当性を評価するために、2つの大規模感情認識データセットからの注釈も検討した。 堅牢で包括的な感情モデルが現実の感情的コンピューティングアプリケーションを開発するための基礎となるため、この研究は社会ロボティクス、人間と機械の相互作用、メンタルヘルス、計算心理学に幅広い影響を及ぼす。

As social robots and other intelligent machines enter the home, artificial emotional intelligence (AEI) is taking center stage to address users' desire for deeper, more meaningful human-machine interaction. To accomplish such efficacious interaction, the next-generation AEI need comprehensive human emotion models for training. Unlike theory of emotion, which has been the historical focus in psychology, emotion models are a descriptive tools. In practice, the strongest models need robust coverage, which means defining the smallest core set of emotions from which all others can be derived. To achieve the desired coverage, we turn to word embeddings from natural language processing. Using unsupervised clustering techniques, our experiments show that with as few as 15 discrete emotion categories, we can provide maximum coverage across six major languages--Arabic, Chinese, English, French, Spanish, and Russian. In support of our findings, we also examine annotations from two large-scale emotion recognition datasets to assess the validity of existing emotion models compared to human perception at scale. Because robust, comprehensive emotion models are foundational for developing real-world affective computing applications, this work has broad implications in social robotics, human-machine interaction, mental healthcare, and computational psychology.
翻訳日:2022-06-16 20:34:06 公開日:2022-06-15
# (参考訳) 分散多重ネットワークモデルにおけるスパース部分空間クラスタリング

Sparse Subspace Clustering in Diverse Multiplex Network Model ( http://arxiv.org/abs/2206.07602v1 )

ライセンス: CC BY 4.0
Majid Noroozi and Marianna Pensky(参考訳) 本論文は,pensky と wang (2021) で導入された多元的多重化(dimple)ネットワークモデルについて考察する。 さらに、すべての層を同じコミュニティ構造を持つグループに分割することができるが、同じグループの層はブロック接続確率の異なる行列を持つかもしれない。 DIMPLEモデルは、すべての層で同じコミュニティ構造を持つ多層ネットワークを研究する複数の論文と、同じグループの層がブロック接続確率の同じ行列を持つMixture Multilayer Stochastic Block Model (MMLSBM)を一般化する。 ペンスキーとwang (2021) は隣接テンソルのプロキシにスペクトルクラスタリングを適用したが、本論文は同一のコミュニティ構造を持つ層群を識別するためにスパース部分空間クラスタリング (ssc) を用いる。 穏やかな条件下では、後者は層間クラスタリングに強い一貫性をもたらす。 さらに、SSC は Pensky や Wang (2021) の方法論よりもはるかに大きなネットワークを扱うことができ、並列コンピューティングの応用に完全に適している。

The paper considers the DIverse MultiPLEx (DIMPLE) network model, introduced in Pensky and Wang (2021), where all layers of the network have the same collection of nodes and are equipped with the Stochastic Block Models. In addition, all layers can be partitioned into groups with the same community structures, although the layers in the same group may have different matrices of block connection probabilities. The DIMPLE model generalizes a multitude of papers that study multilayer networks with the same community structures in all layers, as well as the Mixture Multilayer Stochastic Block Model (MMLSBM), where the layers in the same group have identical matrices of block connection probabilities. While Pensky and Wang (2021) applied spectral clustering to the proxy of the adjacency tensor, the present paper uses Sparse Subspace Clustering (SSC) for identifying groups of layers with identical community structures. Under mild conditions, the latter leads to the strongly consistent between-layer clustering. In addition, SSC allows to handle much larger networks than methodology of Pensky and Wang (2021), and is perfectly suitable for application of parallel computing.
翻訳日:2022-06-16 20:11:47 公開日:2022-06-15
# (参考訳) ARES: 局所適応型再構成に基づく異常検査

ARES: Locally Adaptive Reconstruction-based Anomaly Scoring ( http://arxiv.org/abs/2206.07604v1 )

ライセンス: CC BY 4.0
Adam Goodge, Bryan Hooi, See Kiong Ng, Wee Siong Ng(参考訳) 画像やセンサデータなど,特定の高次元データのセットと大きく異なるサンプルを検出するには,どうすればよいのでしょう? これは多くのアプリケーションにおいて現実的な問題であり、予期しない入力に対して学習アルゴリズムをより堅牢にするという目標にも関係している。 オートエンコーダは、その単純さと次元の縮小能力によって、一般的なアプローチである。 しかし、異常スコア関数は、通常のサンプルの範囲にわたる復元誤差の自然な変動に適応せず、実際の異常を検出する能力を妨げている。 本稿では,実データを用いた実験において,局所適応性の重要性を実証的に示す。 そこで本研究では,潜在空間における再構成誤差の局所的挙動に基づいてスコアリングを行う適応的再構成誤差に基づくスコアリング手法を提案する。 これは,様々なベンチマークデータセットにおいて,関連するベースラインよりも異常検出性能が向上することを示す。

How can we detect anomalies: that is, samples that significantly differ from a given set of high-dimensional data, such as images or sensor data? This is a practical problem with numerous applications and is also relevant to the goal of making learning algorithms more robust to unexpected inputs. Autoencoders are a popular approach, partly due to their simplicity and their ability to perform dimension reduction. However, the anomaly scoring function is not adaptive to the natural variation in reconstruction error across the range of normal samples, which hinders their ability to detect real anomalies. In this paper, we empirically demonstrate the importance of local adaptivity for anomaly scoring in experiments with real data. We then propose our novel Adaptive Reconstruction Error-based Scoring approach, which adapts its scoring based on the local behaviour of reconstruction error over the latent space. We show that this improves anomaly detection performance over relevant baselines in a wide variety of benchmark datasets.
翻訳日:2022-06-16 20:10:42 公開日:2022-06-15
# (参考訳) てんかんの深層学習

Epistemic Deep Learning ( http://arxiv.org/abs/2206.07609v1 )

ライセンス: CC BY-SA 4.0
Shireen Kudukkil Manchingal and Fabio Cuzzolin(参考訳) Demspter-Shafer理論で提案された不確実量化に対する信念関数アプローチは、ランダム集合と呼ばれる集合値観測のための一般的な数学的モデルに基づいて確立される。 設定値予測は、機械学習における不確実性の最も自然な表現である。 本稿では,ディープニューラルネットワークにおける認識学習をモデル化するための信念関数のランダムな解釈に基づく,認識深層学習という概念を紹介する。 本稿では,集合値の基底真理表現を学習することにより,クラス集合のスコアを生成できる新しいランダムセット畳み込みニューラルネットワークを提案する。 我々は,これらのランダムセットネットワークの既約損失関数として,信念関数に対するエントロピーと距離測度の異なる定式化を評価する。 また、疫学予測の品質と、疫学ランダムセットニューラルネットワークの性能を評価する方法についても論じる。 本研究では, 従来の不確実性を推定する手法と比較して, エピステマティックアプローチの方が優れた性能を示すことを示す。

The belief function approach to uncertainty quantification as proposed in the Demspter-Shafer theory of evidence is established upon the general mathematical models for set-valued observations, called random sets. Set-valued predictions are the most natural representations of uncertainty in machine learning. In this paper, we introduce a concept called epistemic deep learning based on the random-set interpretation of belief functions to model epistemic learning in deep neural networks. We propose a novel random-set convolutional neural network for classification that produces scores for sets of classes by learning set-valued ground truth representations. We evaluate different formulations of entropy and distance measures for belief functions as viable loss functions for these random-set networks. We also discuss methods for evaluating the quality of epistemic predictions and the performance of epistemic random-set neural networks. We demonstrate through experiments that the epistemic approach produces better performance results when compared to traditional approaches of estimating uncertainty.
翻訳日:2022-06-16 19:59:57 公開日:2022-06-15
# (参考訳) シンクホーンアルゴリズムの初期化再考

Rethinking Initialization of the Sinkhorn Algorithm ( http://arxiv.org/abs/2206.07630v1 )

ライセンス: CC BY 4.0
James Thornton, Marco Cuturi(参考訳) 分散間の最適輸送(OT)結合の計算は、機械学習においてますます重要な役割を果たす。 ot問題は線形プログラムとして解くことができるが、エントロピーな平滑化項を加えることで、より高速でより強固な解法が得られ、微分可能で並列化が容易になる。 シンクホーン固定点アルゴリズムはこれらのアプローチの基盤であり、結果として、アニール、運動量、加速度などを用いて実行時間を短縮する複数の試みがなされている。 本論文の前提は, Sinkhorn アルゴリズムの \textit{initialization} が比較的あまり注目されていないことであり, 正規化 OT 問題は凸であり, \textit{any} の動作が保証されるため, 調整した初期化を作成する価値はない。 我々は、この従来の知恵に挑戦し、慎重に選択された初期化が劇的なスピードアップをもたらすことを示し、暗黙の微分によって計算されるバイアス勾配を示さない。 我々は, 1d または gaussian 設定における既知の結果を用いて,閉形式あるいは近似 ot 解から初期化を回復する方法を詳述する。 これらの初期化は、ほとんど、あるいは全くチューニングすることなく、棚外で使用することができ、様々なOT問題に対して一貫したスピードアップをもたらすことを実証的に示す。

Computing an optimal transport (OT) coupling between distributions plays an increasingly important role in machine learning. While OT problems can be solved as linear programs, adding an entropic smoothing term is known to result in solvers that are faster and more robust to outliers, differentiable and easier to parallelize. The Sinkhorn fixed point algorithm is the cornerstone of these approaches, and, as a result, multiple attempts have been made to shorten its runtime using, for instance, annealing, momentum or acceleration. The premise of this paper is that \textit{initialization} of the Sinkhorn algorithm has received comparatively little attention, possibly due to two preconceptions: as the regularized OT problem is convex, it may not be worth crafting a tailored initialization as \textit{any} is guaranteed to work; secondly, because the Sinkhorn algorithm is often differentiated in end-to-end pipelines, data-dependent initializations could potentially bias gradient estimates obtained by unrolling iterations. We challenge this conventional wisdom and show that carefully chosen initializations can result in dramatic speed-ups, and will not bias gradients which are computed with implicit differentiation. We detail how initializations can be recovered from closed-form or approximate OT solutions, using known results in the 1D or Gaussian settings. We show empirically that these initializations can be used off-the-shelf, with little to no tuning, and result in consistent speed-ups for a variety of OT problems.
翻訳日:2022-06-16 19:38:39 公開日:2022-06-15
# (参考訳) real3d-aug:3d検出とセグメンテーションのためのオクルージョンハンドリング付き実物配置によるポイントクラウド拡張

Real3D-Aug: Point Cloud Augmentation by Placing Real Objects with Occlusion Handling for 3D Detection and Segmentation ( http://arxiv.org/abs/2206.07634v1 )

ライセンス: CC BY 4.0
Petr \v{S}ebek, \v{S}imon Pokorn\'y, Patrik Vacek, Tom\'a\v{s} Svoboda(参考訳) 3dlidarポイントクラウドデータによるオブジェクト検出と意味セグメンテーションには、高価なアノテーションが必要である。 本稿では,注釈付きデータを複数回利用するデータ拡張手法を提案する。 本稿では,実データを再利用し,シーン内の適切な配置を自動的に見つけ,オクルージョンを明示的に処理する拡張フレームワークを提案する。 実データの利用により、新たに挿入された物体の増補時のスキャンポイントは、強度や光滴などのライダーの物理的特性を維持できる。 このパイプラインは、3dオブジェクト検出とセマンティクスセグメンテーションのためのトップパフォーマンスモデルのトレーニングにおいて競争力がある。 新たな拡張は、希少かつ必須のクラスにおいて大きなパフォーマンス向上をもたらし、特にkittiオブジェクト検出における"ハード"歩行者クラスの平均精度向上6.65%、あるいはsemantickittiセグメンテーションチャレンジにおける2.14平均iouゲインである。

Object detection and semantic segmentation with the 3D lidar point cloud data require expensive annotation. We propose a data augmentation method that takes advantage of already annotated data multiple times. We propose an augmentation framework that reuses real data, automatically finds suitable placements in the scene to be augmented, and handles occlusions explicitly. Due to the usage of the real data, the scan points of newly inserted objects in augmentation sustain the physical characteristics of the lidar, such as intensity and raydrop. The pipeline proves competitive in training top-performing models for 3D object detection and semantic segmentation. The new augmentation provides a significant performance gain in rare and essential classes, notably 6.65% average precision gain for "Hard" pedestrian class in KITTI object detection or 2.14 mean IoU gain in the SemanticKITTI segmentation challenge over the state of the art.
翻訳日:2022-06-16 19:11:17 公開日:2022-06-15
# (参考訳) 非同期SGDが任意遅延下でのミニバッチSGDを上回る

Asynchronous SGD Beats Minibatch SGD Under Arbitrary Delays ( http://arxiv.org/abs/2206.07638v1 )

ライセンス: CC BY 4.0
Konstantin Mishchenko, Francis Bach, Mathieu Even, Blake Woodworth(参考訳) 非同期確率勾配降下(SGD)の既存の解析は、遅延が大きいと劇的に劣化し、性能が主に遅延に依存するという印象を与える。 それとは対照的に,アルゴリズムの実装に使用する並列デバイス数に依存するため,勾配の遅延によらず,同じ非同期SGDアルゴリズムの保証がはるかに優れていることを示す。 我々の保証は既存の分析より厳格に優れており、非同期SGDは我々が考慮している設定において同期ミニバッチSGDより優れているとも主張する。 本研究では,「仮想イテレート」と遅延適応ステップに基づく新しい帰納法を導入し,凸目的と非凸目的の両方に対する最先端保証を導出する。

The existing analysis of asynchronous stochastic gradient descent (SGD) degrades dramatically when any delay is large, giving the impression that performance depends primarily on the delay. On the contrary, we prove much better guarantees for the same asynchronous SGD algorithm regardless of the delays in the gradients, depending instead just on the number of parallel devices used to implement the algorithm. Our guarantees are strictly better than the existing analyses, and we also argue that asynchronous SGD outperforms synchronous minibatch SGD in the settings we consider. For our analysis, we introduce a novel recursion based on "virtual iterates" and delay-adaptive stepsizes, which allow us to derive state-of-the-art guarantees for both convex and non-convex objectives.
翻訳日:2022-06-16 18:59:52 公開日:2022-06-15
# (参考訳) マルコフポテンシャルゲームにおけるソフトマックス政策勾配の収束と価格保証

Convergence and Price of Anarchy Guarantees of the Softmax Policy Gradient in Markov Potential Games ( http://arxiv.org/abs/2206.07642v1 )

ライセンス: CC BY 4.0
Dingyang Chen, Qi Zhang, Thinh T. Doan(参考訳) マルコフポテンシャルゲーム (mpgs) と呼ばれるマルコフゲームのサブクラスに対するポリシー勾配法の性能について検討し, 正規形ポテンシャルゲームの概念をステートフルな設定に拡張し, エージェントが同一の報酬関数を共有する完全協調設定の重要な特別な場合を含む。 本稿では,神経回路などの一般関数近似器を用いて表型およびパラメタライズされたソフトマックスポリシーパラメタライズの下でmpgを解くためのポリシー勾配法の収束について検討する。 まず,この手法の漸近収束性を,表層ソフトマックスポリシーに対するMPGのナッシュ平衡に示す。 次に、ポリシー勾配の有限時間性能を2つの設定で導出する。 1)log-barrier regularizationの使用,及び 2) 最適応答力学(NPG-BR)の下での自然政策勾配を用いた。 最後に、正規形式ゲームにおけるアナーキー(POA)と滑らかさの概念を拡張し、MPGのPOAを導入し、NPG-BRのPOAバウンドを提供する。 私たちの知る限り、MPGを解くための最初のPOAバウンドです。 理論的結果を支持するために,表層および神経性ソフトマックスポリシの収束率と方針勾配変動のPOAを実験的に比較した。

We study the performance of policy gradient methods for the subclass of Markov games known as Markov potential games (MPGs), which extends the notion of normal-form potential games to the stateful setting and includes the important special case of the fully cooperative setting where the agents share an identical reward function. Our focus in this paper is to study the convergence of the policy gradient method for solving MPGs under softmax policy parameterization, both tabular and parameterized with general function approximators such as neural networks. We first show the asymptotic convergence of this method to a Nash equilibrium of MPGs for tabular softmax policies. Second, we derive the finite-time performance of the policy gradient in two settings: 1) using the log-barrier regularization, and 2) using the natural policy gradient under the best-response dynamics (NPG-BR). Finally, extending the notion of price of anarchy (POA) and smoothness in normal-form games, we introduce the POA for MPGs and provide a POA bound for NPG-BR. To our knowledge, this is the first POA bound for solving MPGs. To support our theoretical results, we empirically compare the convergence rates and POA of policy gradient variants for both tabular and neural softmax policies.
翻訳日:2022-06-16 17:56:53 公開日:2022-06-15
# (参考訳) ハイブリッドグラフネットワークシミュレータによる大規模地下シミュレーションの学習

Learning Large-scale Subsurface Simulations with a Hybrid Graph Network Simulator ( http://arxiv.org/abs/2206.07680v1 )

ライセンス: CC BY 4.0
Tailin Wu and Qinchen Wang and Yinan Zhang and Rex Ying and Kaidi Cao and Rok Sosi\v{c} and Ridwan Jalali and Hassan Hamam and Marko Maucec and Jure Leskovec(参考訳) 地下シミュレーションは計算モデルを用いて多孔質媒質中の流体(例えば油、水、ガス)の流れを予測する。 これらのシミュレーションは、例えば位置最適化や現地開発計画など、高速で正確な意思決定モデルを必要とする石油生産などの産業応用において重要なものである。 古典的有限差分数値シミュレータは大規模な実世界の貯留層をモデル化するために膨大な計算資源を必要とする。 あるいは、ストリームラインシミュレータとデータ駆動サーロゲートモデルは、近似物理モデルに依存することで計算効率が向上するが、大規模に複雑な貯留層ダイナミクスをモデル化するには不十分である。 本稿では3次元地下流体の貯留層シミュレーションを学習するためのデータ駆動サロゲートモデルであるHybrid Graph Network Simulator (HGNS)を紹介する。 局所的および大域的に複雑な貯留層力学をモデル化するために、HGNSは流体の進化をモデル化する地下グラフニューラルネットワーク(SGNN)と圧力の進化をモデル化する3D-U-Netで構成される。 HGNSは、従来のサロゲートモデルよりも2桁高く、時間ステップ当たり数百万セルのグリッドにスケールすることができ、何十年もの間、流体の流れを正確に予測することができる。 産業標準地下フローデータセット(SPE-10)と1100万セルを用いて,HGNSが標準地下シミュレータの18倍の推論時間を短縮し,長期予測誤差を最大21%削減することで,他の学習モデルよりも優れていることを示した。

Subsurface simulations use computational models to predict the flow of fluids (e.g., oil, water, gas) through porous media. These simulations are pivotal in industrial applications such as petroleum production, where fast and accurate models are needed for high-stake decision making, for example, for well placement optimization and field development planning. Classical finite difference numerical simulators require massive computational resources to model large-scale real-world reservoirs. Alternatively, streamline simulators and data-driven surrogate models are computationally more efficient by relying on approximate physics models, however they are insufficient to model complex reservoir dynamics at scale. Here we introduce Hybrid Graph Network Simulator (HGNS), which is a data-driven surrogate model for learning reservoir simulations of 3D subsurface fluid flows. To model complex reservoir dynamics at both local and global scale, HGNS consists of a subsurface graph neural network (SGNN) to model the evolution of fluid flows, and a 3D-U-Net to model the evolution of pressure. HGNS is able to scale to grids with millions of cells per time step, two orders of magnitude higher than previous surrogate models, and can accurately predict the fluid flow for tens of time steps (years into the future). Using an industry-standard subsurface flow dataset (SPE-10) with 1.1 million cells, we demonstrate that HGNS is able to reduce the inference time up to 18 times compared to standard subsurface simulators, and that it outperforms other learning-based models by reducing long-term prediction errors by up to 21%.
翻訳日:2022-06-16 17:12:43 公開日:2022-06-15
# (参考訳) 潜在グローバル進化による部分微分方程式の高速化

Learning to Accelerate Partial Differential Equations via Latent Global Evolution ( http://arxiv.org/abs/2206.07681v1 )

ライセンス: CC BY 4.0
Tailin Wu and Takashi Maruyama and Jure Leskovec(参考訳) 大規模システムの偏微分方程式(PDE)の時間発展のシミュレーションは、流体力学、天気予報、逆最適化問題など多くの科学的・工学的な領域において重要である。 しかしながら、古典ソルバと最近のディープラーニングベースのサロゲートモデルの両方は、局所的な進化のため、非常に計算集約的であり、推論のステップごとに各離散化されたセルの状態を更新する必要がある。 本稿では,PDEのシミュレーションと逆最適化を高速化するシンプルで高速でスケーラブルな手法であるLatent Evolution of PDE(LE-PDE)を開発する。 LE-PDEはシステムのコンパクトでグローバルな表現を学習し、学習された潜在進化モデルを用いて潜在空間でそれを完全に効率的に進化させる。 LE-PDEは、入力空間の更新に比べて、長時間のロールアウト中に更新する潜在次元をはるかに小さくすることで、スピードアップを実現する。 我々は,このような潜在ダイナミクスを効果的に学習し,長期的安定性を確保するための新しい学習目標を提案する。 さらに、遅延空間における時間的バックプロパゲーションによるPDEの境界条件の逆最適化を高速化する手法と、境界条件の非微分性とスパース相互作用に対処するアニール技術を導入する。 非線形pdesの1次元ベンチマークにおいて, 2次元navier-stokes流は乱流に流れ込み, 2次元navier-stokes流における境界条件の逆最適化を行う。 最先端のディープラーニングベースのサーロゲートモデルや、その他の強力なベースラインと比較して、更新する寸法の最大128倍の削減、最大15倍の速度向上、競合精度の向上を実証した。

Simulating the time evolution of Partial Differential Equations (PDEs) of large-scale systems is crucial in many scientific and engineering domains such as fluid dynamics, weather forecasting and their inverse optimization problems. However, both classical solvers and recent deep learning-based surrogate models are typically extremely computationally intensive, because of their local evolution: they need to update the state of each discretized cell at each time step during inference. Here we develop Latent Evolution of PDEs (LE-PDE), a simple, fast and scalable method to accelerate the simulation and inverse optimization of PDEs. LE-PDE learns a compact, global representation of the system and efficiently evolves it fully in the latent space with learned latent evolution models. LE-PDE achieves speed-up by having a much smaller latent dimension to update during long rollout as compared to updating in the input space. We introduce new learning objectives to effectively learn such latent dynamics to ensure long-term stability. We further introduce techniques for speeding-up inverse optimization of boundary conditions for PDEs via backpropagation through time in latent space, and an annealing technique to address the non-differentiability and sparse interaction of boundary conditions. We test our method in a 1D benchmark of nonlinear PDEs, 2D Navier-Stokes flows into turbulent phase and an inverse optimization of boundary conditions in 2D Navier-Stokes flow. Compared to state-of-the-art deep learning-based surrogate models and other strong baselines, we demonstrate up to 128x reduction in the dimensions to update, and up to 15x improvement in speed, while achieving competitive accuracy.
翻訳日:2022-06-16 16:54:44 公開日:2022-06-15
# (参考訳) 効率的なビデオ超解像のための残差接続学習

Residual Sparsity Connection Learning for Efficient Video Super-Resolution ( http://arxiv.org/abs/2206.07687v1 )

ライセンス: CC BY 4.0
Bin Xia, Jingwen He, Yulun Zhang, Yucheng Hang, Wenming Yang, Luc Van Gool(参考訳) 軽量で高速なモデルは、例えばスマートフォンやウェアラブルデバイスのようなリソース制限されたデバイスへのビデオ超解像(VSR)の展開に不可欠である。 本稿では,構造化プルーニング方式であるResidual Sparsity Connection Learning(RSCL)を開発し,畳み込みカーネルの冗長性を低減し,性能低下の少ないコンパクトなVSRネットワークを実現する。 しかし、残差ブロックは、スキップと残差接続のプルーニングされたフィルタインデックスを同一にする必要があるため、プルーニングには難しい。 そこで我々は,残余ブロックのプルーニング制限を軽減するために,特徴チャネルを保存し,重要なチャネルのみを操作するResidual Sparsity Connection (RSC) スキームを設計する。 さらに,画素シャッフル動作では,複数のフィルタをプルーニングユニットとしてグループ化し,プルーニング後の特徴チャネル空間変換の精度を保証する特別なプルーニングスキームを設計する。 さらに,時間的伝播を伴う隠れ状態のプルーニング誤差増幅を低減するため,時間的微細化(TF)を導入する。 広範な実験により, 提案するrsclは, 近年の手法を定量的に, 定性的に上回っていることがわかった。 コードとモデルがリリースされます。

Lighter and faster models are crucial for the deployment of video super-resolution (VSR) on resource-limited devices, e.g., smartphones and wearable devices. In this paper, we develop Residual Sparsity Connection Learning (RSCL), a structured pruning scheme, to reduce the redundancy of convolution kernels and obtain a compact VSR network with a minor performance drop. However, residual blocks require the pruned filter indices of skip and residual connections to be the same, which is tricky for pruning. Thus, to mitigate the pruning restrictions of residual blocks, we design a Residual Sparsity Connection (RSC) scheme by preserving the feature channels and only operating on the important channels. Moreover, for the pixel-shuffle operation, we design a special pruning scheme by grouping several filters as pruning units to guarantee the accuracy of feature channel-space conversion after pruning. In addition, we introduce Temporal Finetuning (TF) to reduce the pruning error amplification of hidden states with temporal propagation. Extensive experiments show that the proposed RSCL significantly outperforms recent methods quantitatively and qualitatively. Codes and models will be released.
翻訳日:2022-06-16 16:04:41 公開日:2022-06-15
# ニューラル正規微分方程式の数値積分について

On Numerical Integration in Neural Ordinary Differential Equations ( http://arxiv.org/abs/2206.07335v1 )

ライセンス: Link先を確認
Aiqing Zhu, Pengzhan Jin, Beibei Zhu, Yifa Tang(参考訳) 常微分方程式とニューラルネットワーク、すなわち神経常微分方程式(神経性ode)の組み合わせは、様々な角度から広く研究されてきた。 しかし、多くの研究が数値積分がモデルの性能に大きく影響することを示したため、ニューラルodeにおける数値積分の解読はまだ未解決の課題である。 本稿では,学習神経odeモデルに対する数値積分の影響を明らかにするために,逆修正微分方程式(imde)を提案する。 IMDEは、学習タスクと、使用されるODEソルバによって決定される。 ニューラルODEモデルのトレーニングは、真のODEではなく、IMDEの近似を実際に返すことが示されている。 IMDEの助けを借りて、私たちはそれを推測する。 (i)学習モデルと真のodeとの相違は、判別誤差と学習損失の合計で区切られている。 二 非シンプレクティック数値積分を用いたニューラルODEは、保存法を理論的に学ばない。 理論解析を数値的に検証するためにいくつかの実験が行われた。

The combination of ordinary differential equations and neural networks, i.e., neural ordinary differential equations (Neural ODE), has been widely studied from various angles. However, deciphering the numerical integration in Neural ODE is still an open challenge, as many researches demonstrated that numerical integration significantly affects the performance of the model. In this paper, we propose the inverse modified differential equations (IMDE) to clarify the influence of numerical integration on training Neural ODE models. IMDE is determined by the learning task and the employed ODE solver. It is shown that training a Neural ODE model actually returns a close approximation of the IMDE, rather than the true ODE. With the help of IMDE, we deduce that (i) the discrepancy between the learned model and the true ODE is bounded by the sum of discretization error and learning loss; (ii) Neural ODE using non-symplectic numerical integration fail to learn conservation laws theoretically. Several experiments are performed to numerically verify our theoretical analysis.
翻訳日:2022-06-16 15:50:06 公開日:2022-06-15
# (参考訳) OWLオントロジーの真説明可能性について:EveeとEvonneによる論理証明の記述(拡張版)

On the Eve of True Explainability for OWL Ontologies: Description Logic Proofs with Evee and Evonne (Extended Version) ( http://arxiv.org/abs/2206.07711v1 )

ライセンス: CC BY 4.0
Christian Alrabbaa, Stefan Borgwardt, Tom Friese, Patrick Koopmann, Juli\'an M\'endez and Alexej Popovi\v{c}(参考訳) 記述論理オントロジーを扱う場合、記述論理推論子によって導かれる意味を理解することは必ずしも簡単ではない。 標準オントロジーエディタであるProt\'eg\'eは、OWL 2 DLオントロジーの(ブラックボックス)正当化と、軽量OWL ELオントロジーの(グラスボックス)証明の2つのサービスを提供している。 正当化はしばしば推論を説明するのに不十分であるため、より表現力のあるdlで推論を説明するためのツールサポートは少ない。 本稿では,ALCHまでDLの証明を計算するためのJavaライブラリであるEVEE-LIBSと,Prot\'eg\'eプラグインのコレクションであるEVEE-PROTEGEを紹介する。 また、EVEE-LIBSで計算された証明を表示・操作するための、より高度なスタンドアロンアプリケーションであるEVONNEの最新バージョンについても簡単に紹介する。

When working with description logic ontologies, understanding entailments derived by a description logic reasoner is not always straightforward. So far, the standard ontology editor Prot\'eg\'e offers two services to help: (black-box) justifications for OWL 2 DL ontologies, and (glass-box) proofs for lightweight OWL EL ontologies, where the latter exploits the proof facilities of reasoner ELK. Since justifications are often insufficient in explaining inferences, there is thus only little tool support for explaining inferences in more expressive DLs. In this paper, we introduce EVEE-LIBS, a Java library for computing proofs for DLs up to ALCH, and EVEE-PROTEGE, a collection of Prot\'eg\'e plugins for displaying those proofs in Prot\'eg\'e. We also give a short glimpse of the latest version of EVONNE, a more advanced standalone application for displaying and interacting with proofs computed with EVEE-LIBS.
翻訳日:2022-06-16 15:48:52 公開日:2022-06-15
# 現実世界におけるai倫理問題:aiインシデントデータベースからのエビデンス

AI Ethics Issues in Real World: Evidence from AI Incident Database ( http://arxiv.org/abs/2206.07635v1 )

ライセンス: Link先を確認
Mengyi Wei and Zhixuan Zhou(参考訳) 人工知能(AI)の強力なパフォーマンスでは、倫理的な問題も多い。 政府や企業はAIの非倫理的行動を抑制するために複数のAI倫理ガイドラインを策定しているが、その効果はおそらくそのガイドラインの曖昧さのために制限されている。 本稿では、異なる倫理的問題と社会的影響についてより深く、曖昧に理解するために、現実世界でAI倫理問題がどのように起こっているのかを詳しく検討する。 AIインシデントデータベースのコンテンツ分析は、インシデントをカタログ化することで、現実のAIの失敗を繰り返し防止する試みであり、インテリジェントなサービスロボット、言語/ビジョンモデル、そして自動運転がリードする、AIの非倫理的使用をしばしば目にする13のアプリケーション領域を特定した。 倫理的な問題は、不適切な使用や人種差別から、物理的安全性や不公平なアルゴリズムまで、8つの異なる形で現れる。 このAI倫理問題の分類法により、倫理的にAIアプリケーションをデプロイしようとする場合、AI実践者に実践的なガイドラインを提供することを目指している。

With the powerful performance of Artificial Intelligence (AI) also comes prevalent ethical issues. Though governments and corporations have curated multiple AI ethics guidelines to curb unethical behavior of AI, the effect has been limited, probably due to the vagueness of the guidelines. In this paper, we take a closer look at how AI ethics issues take place in real world, in order to have a more in-depth and nuanced understanding of different ethical issues as well as their social impact. With a content analysis of AI Incident Database, which is an effort to prevent repeated real world AI failures by cataloging incidents, we identified 13 application areas which often see unethical use of AI, with intelligent service robots, language/vision models and autonomous driving taking the lead. Ethical issues appear in 8 different forms, from inappropriate use and racial discrimination, to physical safety and unfair algorithm. With this taxonomy of AI ethics issues, we aim to provide AI practitioners with a practical guideline when trying to deploy AI applications ethically.
翻訳日:2022-06-16 15:23:39 公開日:2022-06-15
# 領域拡張型深層グラフ畳み込みネットワークによるうわさ検出

Region-enhanced Deep Graph Convolutional Networks for Rumor Detection ( http://arxiv.org/abs/2206.07665v1 )

ライセンス: Link先を確認
Ge Wang, Li Tan, Tianbao Song, Wei Wang, Ziliang Shang(参考訳) ソーシャルメディアは、新しい情報を広めるのが容易であるため、公の場で急速に発展しており、噂が流れている。 しかし、このような大量の情報から噂を検出することは、ますます困難な課題になりつつある。 先行研究は一般に伝播情報から貴重な特徴を得た。 ただし、ほとんどの手法は、噂の伝達パターンを無視しながら伝播構造のみをターゲットにしている。 この限定的な焦点は、スプレッドデータの収集を厳しく制限する。 この問題を解決するために,本研究の著者らは,噂の地域的伝播パターンを探求する動機がある。 具体的には, 地域的伝播パターンを学習し, 教師なし学習による伝播パターンを学習することにより, 噂の伝播特性を高める新しい領域拡張深層グラフ畳み込みネットワーク(rdgcn)を提案する。 さらに、ソース強化残差グラフ畳み込み層(SRGCL)は、グラフニューラルネットワーク(GNN)の過度性を改善し、噂検出手法に基づくGNNの深さ制限を増大させるように設計されている。 twitter15とtwitter16の実験では、提案モデルが、噂の検出と初期の噂検出のベースラインアプローチよりも優れた性能を示している。

Social media has been rapidly developing in the public sphere due to its ease of spreading new information, which leads to the circulation of rumors. However, detecting rumors from such a massive amount of information is becoming an increasingly arduous challenge. Previous work generally obtained valuable features from propagation information. It should be noted that most methods only target the propagation structure while ignoring the rumor transmission pattern. This limited focus severely restricts the collection of spread data. To solve this problem, the authors of the present study are motivated to explore the regionalized propagation patterns of rumors. Specifically, a novel region-enhanced deep graph convolutional network (RDGCN) that enhances the propagation features of rumors by learning regionalized propagation patterns and trains to learn the propagation patterns by unsupervised learning is proposed. In addition, a source-enhanced residual graph convolution layer (SRGCL) is designed to improve the graph neural network (GNN) oversmoothness and increase the depth limit of the rumor detection methods-based GNN. Experiments on Twitter15 and Twitter16 show that the proposed model performs better than the baseline approach on rumor detection and early rumor detection.
翻訳日:2022-06-16 15:23:20 公開日:2022-06-15
# パラメータ化量子回路のベイズ学習

Bayesian Learning of Parameterised Quantum Circuits ( http://arxiv.org/abs/2206.07559v1 )

ライセンス: Link先を確認
Samuel Duffield, Marcello Benedetti, Matthias Rosenkranz(参考訳) 現在利用可能な量子コンピュータは、ハードウェアノイズや限られた数の量子ビットを含む制約に悩まされている。 このように、パラメータ化された量子回路を訓練するために古典的オプティマイザーを利用する変分量子アルゴリズムは、量子技術の短期的実用的応用に大きな注目を集めている。 本研究では,確率論的視点を取り,古典的最適化をベイズ後方の近似として再構成する。 後部は、最小化されるコスト関数と、量子回路のパラメータ上の事前分布を組み合わせることで誘導される。 ラプラスプリエントを用いた最大後方点推定に基づく次元縮小戦略について述べる。 量子H1-2コンピュータの実験では、結果として得られる回路は、寸法減少戦略なしで訓練された回路よりも高速でノイズが少ないことが示されている。 その後,確率勾配ランジュバンダイナミクスに基づく後方サンプリング戦略について述べる。 3つの異なる問題の数値シミュレーションは、この戦略が全後方からサンプルを生成でき、局所的なオプティマを避けることができることを示している。

Currently available quantum computers suffer from constraints including hardware noise and a limited number of qubits. As such, variational quantum algorithms that utilise a classical optimiser in order to train a parameterised quantum circuit have drawn significant attention for near-term practical applications of quantum technology. In this work, we take a probabilistic point of view and reformulate the classical optimisation as an approximation of a Bayesian posterior. The posterior is induced by combining the cost function to be minimised with a prior distribution over the parameters of the quantum circuit. We describe a dimension reduction strategy based on a maximum a posteriori point estimate with a Laplace prior. Experiments on the Quantinuum H1-2 computer show that the resulting circuits are faster to execute and less noisy than the circuits trained without the dimension reduction strategy. We subsequently describe a posterior sampling strategy based on stochastic gradient Langevin dynamics. Numerical simulations on three different problems show that the strategy is capable of generating samples from the full posterior and avoiding local optima.
翻訳日:2022-06-16 15:22:58 公開日:2022-06-15
# natiq:アラビア語のエンドツーエンドテキスト合成システム

NatiQ: An End-to-end Text-to-Speech System for Arabic ( http://arxiv.org/abs/2206.07373v1 )

ライセンス: Link先を確認
Ahmed Abdelali, Nadir Durrani, Cenk Demiroglu, Fahim Dalvi, Hamdy Mubarak, Kareem Darwish(参考訳) NatiQはアラビア語のエンドツーエンドのテキスト音声システムである。 音声シンセサイザはエンコーダ-デコーダアーキテクチャに注意を向けて使用する。 タコトロン系モデル(タコトロン-1とタコトロン-2)とより高速なトランスフォーマーモデルを用いてメルスペクトログラムを生成する。 我々は、tacotron1とwavernn vocoder、tacotron2とwaveglow vocoder、espnet transformerを並列wavegan vocoderで結合し、スペクトログラムから波形を合成した。 室内音声データを2つの音声に使用した。 1)中性男性「ハムザ」-一般内容とニュースを語り、 2)表現力のある女性「あみな」-子どもの物語を語り、モデルを訓練する。 ベストシステムは平均平均オピニオンスコア(MOS)をAminaとHamzaそれぞれ4.21と4.40と達成している。 単語および文字誤り率(werおよびcer)を用いたシステムの客観的評価と、リアルタイム要因による応答時間の測定は、エンドツーエンドアーキテクチャespnetを好んだ。 natiqのデモがhttps://tts.qcri.orgで利用可能

NatiQ is end-to-end text-to-speech system for Arabic. Our speech synthesizer uses an encoder-decoder architecture with attention. We used both tacotron-based models (tacotron-1 and tacotron-2) and the faster transformer model for generating mel-spectrograms from characters. We concatenated Tacotron1 with the WaveRNN vocoder, Tacotron2 with the WaveGlow vocoder and ESPnet transformer with the parallel wavegan vocoder to synthesize waveforms from the spectrograms. We used in-house speech data for two voices: 1) neutral male "Hamza"- narrating general content and news, and 2) expressive female "Amina"- narrating children story books to train our models. Our best systems achieve an average Mean Opinion Score (MOS) of 4.21 and 4.40 for Amina and Hamza respectively. The objective evaluation of the systems using word and character error rate (WER and CER) as well as the response time measured by real-time factor favored the end-to-end architecture ESPnet. NatiQ demo is available on-line at https://tts.qcri.org
翻訳日:2022-06-16 15:22:28 公開日:2022-06-15
# チェコ語自動音声認識における大規模データセットを用いた単言語音声トランスフォーマの能力の検討

Exploring Capabilities of Monolingual Audio Transformers using Large Datasets in Automatic Speech Recognition of Czech ( http://arxiv.org/abs/2206.07627v1 )

ライセンス: Link先を確認
Jan Lehe\v{c}ka, Jan \v{S}vec, Ale\v{s} Pra\v{z}\'ak, Josef V. Psutka(参考訳) 本稿では,8万時間以上のラベル付き音声を含む大データセットからチェコ語単言語音声トランスフォーマーを事前学習し,その後,ドメイン内データと約6万時間のドメイン外転写音声を組み合わせた自動音声認識タスクのモデルを微調整する方法について述べる。 我々は、2つの公開データセット(CommonVoiceとVoxPopuli)とMALACHプロジェクトからの非常に難しいデータセットで評価された様々な微調整設定による大規模な実験パレットを提示している。 以上の結果から,モノリンガルなWav2Vec 2.0モデルは,ラベル付きおよびラベル付けされていない大規模データセットを活用でき,最先端のLVCSRシステムと競合することに成功した。 さらに、Wav2Vecモデルは、ターゲットのASRタスクにトレーニングデータがない場合に、良いゼロショット学習者であることが判明した。

In this paper, we present our progress in pretraining Czech monolingual audio transformers from a large dataset containing more than 80 thousand hours of unlabeled speech, and subsequently fine-tuning the model on automatic speech recognition tasks using a combination of in-domain data and almost 6 thousand hours of out-of-domain transcribed speech. We are presenting a large palette of experiments with various fine-tuning setups evaluated on two public datasets (CommonVoice and VoxPopuli) and one extremely challenging dataset from the MALACH project. Our results show that monolingual Wav2Vec 2.0 models are robust ASR systems, which can take advantage of large labeled and unlabeled datasets and successfully compete with state-of-the-art LVCSR systems. Moreover, Wav2Vec models proved to be good zero-shot learners when no training data are available for the target ASR task.
翻訳日:2022-06-16 15:22:10 公開日:2022-06-15
# アルツハイマー病と前頭側頭型認知症の相互診断

Interpretable differential diagnosis for Alzheimer's disease and Frontotemporal dementia ( http://arxiv.org/abs/2206.07417v1 )

ライセンス: Link先を確認
Huy-Dung Nguyen, Micha\"el Cl\'ement, Boris Mansencal, Pierrick Coup\'e(参考訳) アルツハイマー病と前頭側頭性認知症は2種類の認知症である。 その正確な診断と分化は、特定の介入と治療を決定するのに不可欠である。 しかし, この2種類の認知症の鑑別診断は, 臨床症状のパターンが類似していることから, 早期に困難である。 したがって,複数の認知症の自動分類は臨床的に重要な意味を持つ。 これまでのところ、この挑戦は活発に行われていない。 近年の医用画像の深層学習は,様々な分類課題において高い性能を示した。 本稿では,2種類のバイオマーカー(構造グレーディングと構造萎縮)を活用することを提案する。 この目的のために,まず3次元U-Netの大規模なアンサンブルを訓練し,健常者と認知症の解剖学的パターンを局所的に識別することを提案する。 これらのモデルの結果は、異常な脳領域を示すことができる解釈可能な3Dグレーディングマップである。 このマップは、グラフ畳み込みニューラルネットワークを使用して、さまざまな分類タスクでも活用できる。 最後に,認知症型判別を改善するために,深層分類と萎縮型分類を組み合わせることを提案する。 提案手法は, 疾患検出および鑑別診断の異なるタスクに対する最先端手法と比較して, 競合性能を示した。

Alzheimer's disease and Frontotemporal dementia are two major types of dementia. Their accurate diagnosis and differentiation is crucial for determining specific intervention and treatment. However, differential diagnosis of these two types of dementia remains difficult at the early stage of disease due to similar patterns of clinical symptoms. Therefore, the automatic classification of multiple types of dementia has an important clinical value. So far, this challenge has not been actively explored. Recent development of deep learning in the field of medical image has demonstrated high performance for various classification tasks. In this paper, we propose to take advantage of two types of biomarkers: structure grading and structure atrophy. To this end, we propose first to train a large ensemble of 3D U-Nets to locally discriminate healthy versus dementia anatomical patterns. The result of these models is an interpretable 3D grading map capable of indicating abnormal brain regions. This map can also be exploited in various classification tasks using graph convolutional neural network. Finally, we propose to combine deep grading and atrophy-based classifications to improve dementia type discrimination. The proposed framework showed competitive performance compared to state-of-the-art methods for different tasks of disease detection and differential diagnosis.
翻訳日:2022-06-16 15:20:46 公開日:2022-06-15
# Hematoxylin and Eosin-Stained Histological Images における核小胞分割のためのディープニューラルネットワークの抽出

Deep Neural Network Pruning for Nuclei Instance Segmentation in Hematoxylin & Eosin-Stained Histological Images ( http://arxiv.org/abs/2206.07422v1 )

ライセンス: Link先を確認
Amirreza Mahbod, Rahim Entezari, Isabella Ellinger, Olga Saukh(参考訳) 近年、pruning deep neural networks (dnns) は、精度と一般化能力の向上、ネットワークサイズの減少、専用ハードウェアでの推論速度の向上など、多くの注目を集めている。 プルーニングは主にコンピュータビジョンタスクでテストされたが、医療画像解析の文脈での応用はほとんど研究されていない。 本研究は,組織像の核インスタンスセグメンテーション性能に及ぼすよく知られたプルーニング技術,すなわち層別およびネットワーク規模プルーニングの影響について検討する。 利用インスタンスセグメンテーションモデルは,(1)意味的セグメンテーションブランチ,(2)深部回帰ブランチの2つの主要ブランチから構成される。 重みの刈り取りが両枝の性能と最終核インスタンスセグメンテーション結果に及ぼす影響について検討した。 2つの公開データセットで評価した結果,ネットワークワイドpruningは,ネットワークワイドpruningよりも小さな圧縮比 (crs) に対して,ネットワークワイドpruningは優れた性能をもたらすことがわかった。 セマンティクスセグメンテーションでは、深い回帰と最終インスタンスセグメンテーションでは、93.75 %、95 %、80 %のモデル重みを、各モデルの性能を2 % 未満で層状に刈り取ることで、刈り取ることができる。

Recently, pruning deep neural networks (DNNs) has received a lot of attention for improving accuracy and generalization power, reducing network size, and increasing inference speed on specialized hardwares. Although pruning was mainly tested on computer vision tasks, its application in the context of medical image analysis has hardly been explored. This work investigates the impact of well-known pruning techniques, namely layer-wise and network-wide magnitude pruning, on the nuclei instance segmentation performance in histological images. Our utilized instance segmentation model consists of two main branches: (1) a semantic segmentation branch, and (2) a deep regression branch. We investigate the impact of weight pruning on the performance of both branches separately and on the final nuclei instance segmentation result. Evaluated on two publicly available datasets, our results show that layer-wise pruning delivers slightly better performance than networkwide pruning for small compression ratios (CRs) while for large CRs, network-wide pruning yields superior performance. For semantic segmentation, deep regression and final instance segmentation, 93.75 %, 95 %, and 80 % of the model weights can be pruned by layer-wise pruning with less than 2 % reduction in the performance of respective models.
翻訳日:2022-06-16 15:20:28 公開日:2022-06-15
# hyperprior-guided mode 予測を用いた大雑把な奥行き映像符号化

Coarse-to-fine Deep Video Coding with Hyperprior-guided Mode Prediction ( http://arxiv.org/abs/2206.07460v1 )

ライセンス: Link先を確認
Zhihao Hu, Guo Lu, Jinyang Guo, Shan Liu, Wei Jiang and Dong Xu(参考訳) 従来のディープビデオ圧縮アプローチでは、シングルスケールのモーション補償戦略のみを使用しており、モーション圧縮と残留圧縮の両方にH.264/H.265のような従来の標準からモード予測技術を採用することはまれである。 本研究ではまず, 動き推定, 圧縮, 補償を2回, きめ細かな方法で行うことによって, 動き補償を改善するための粗大な(C2F)ディープビデオ圧縮フレームワークを提案する。 我々のC2Fフレームワークは、ビットコストを大幅に増大させることなく、より良い動き補償結果を得ることができる。 超プライアネットワークから高プライア情報(平均値と分散値)を観測するには、異なるパッチの識別統計情報を含むため、2つの効率的な高プライア誘導モード予測法を提案する。 具体的には,入力としてハイパープライア情報を用いる2つのモード予測ネットワークを提案し,各ブロックから残差情報をスキップして残差符号化を行うかを決定する。 HEVC, UVG, MCL-JCVデータセット上での最先端性能を実現するために, 新たなモード予測手法を備えたC2Fビデオ圧縮フレームワークを提案する。

The previous deep video compression approaches only use the single scale motion compensation strategy and rarely adopt the mode prediction technique from the traditional standards like H.264/H.265 for both motion and residual compression. In this work, we first propose a coarse-to-fine (C2F) deep video compression framework for better motion compensation, in which we perform motion estimation, compression and compensation twice in a coarse to fine manner. Our C2F framework can achieve better motion compensation results without significantly increasing bit costs. Observing hyperprior information (i.e., the mean and variance values) from the hyperprior networks contains discriminant statistical information of different patches, we also propose two efficient hyperprior-guided mode prediction methods. Specifically, using hyperprior information as the input, we propose two mode prediction networks to respectively predict the optimal block resolutions for better motion coding and decide whether to skip residual information from each block for better residual coding without introducing additional bit cost while bringing negligible extra computation cost. Comprehensive experimental results demonstrate our proposed C2F video compression framework equipped with the new hyperprior-guided mode prediction methods achieves the state-of-the-art performance on HEVC, UVG and MCL-JCV datasets.
翻訳日:2022-06-16 15:20:00 公開日:2022-06-15
# 大規模医用画像の幾何学的情報マイニングにおけるGNNの意義

How GNNs Facilitate CNNs in Mining Geometric Information from Large-Scale Medical Images ( http://arxiv.org/abs/2206.07599v1 )

ライセンス: Link先を確認
Yiqing Shen, Bingxin Zhou, Xinye Xiong, Ruitian Gao, Yu Guang Wang(参考訳) ギガピクセルの医療画像は、形態的テクスチャと空間情報の両方で大量のデータを採掘する。 組織学における大規模なデータスケールのため、深層学習法は特徴抽出器としてますます重要な役割を担っている。 既存のソリューションは畳み込みニューラルネットワーク(cnns)を大域的なピクセルレベル分析に強く依存しており、腫瘍の微小環境における細胞間の相互作用のような局所的な幾何学的構造は未検討のままである。 医用画像の位相構造は、腫瘍の進化と密接に関連していることが証明されており、グラフによって特徴づけられる。 下流オンコロジータスクのより包括的な表現を得るために,グラフニューラルネットワーク(GNN)で学習したセルレベル空間情報の幾何学を用いて,CNNが捉えたグローバル画像レベルの表現を強化する融合フレームワークを提案する。 fusion layerは、グローバルイメージとセルグラフの協調機能の統合を最適化する。 2つの融合戦略が開発されている: 1つは単純だが微調整により効率が良いMLP、もう1つはTransformerで複数のネットワークを融合させる。 大腸癌および胃癌の大コホートから得られた組織学的データセットの融合戦略を3つのバイオマーカー予測タスクで評価した。 どちらのモデルも通常のCNNやGNNよりも優れており、様々なネットワークバックボーンでAUCの改善は5%以上に達した。 実験結果は, 医用画像解析において, 画像レベルの形態的特徴と細胞空間的関係を組み合わせることの必要性を示唆する。 コードはhttps://github.com/yiqings/HEGnnEnhanceCnnで入手できる。

Gigapixel medical images provide massive data, both morphological textures and spatial information, to be mined. Due to the large data scale in histology, deep learning methods play an increasingly significant role as feature extractors. Existing solutions heavily rely on convolutional neural networks (CNNs) for global pixel-level analysis, leaving the underlying local geometric structure such as the interaction between cells in the tumor microenvironment unexplored. The topological structure in medical images, as proven to be closely related to tumor evolution, can be well characterized by graphs. To obtain a more comprehensive representation for downstream oncology tasks, we propose a fusion framework for enhancing the global image-level representation captured by CNNs with the geometry of cell-level spatial information learned by graph neural networks (GNN). The fusion layer optimizes an integration between collaborative features of global images and cell graphs. Two fusion strategies have been developed: one with MLP which is simple but turns out efficient through fine-tuning, and the other with Transformer gains a champion in fusing multiple networks. We evaluate our fusion strategies on histology datasets curated from large patient cohorts of colorectal and gastric cancers for three biomarker prediction tasks. Both two models outperform plain CNNs or GNNs, reaching a consistent AUC improvement of more than 5% on various network backbones. The experimental results yield the necessity for combining image-level morphological features with cell spatial relations in medical image analysis. Codes are available at https://github.com/yiqings/HEGnnEnhanceCnn.
翻訳日:2022-06-16 15:19:39 公開日:2022-06-15
# CRISP - 医用画像分割のための信頼性の高い不確実性推定

CRISP - Reliable Uncertainty Estimation for Medical Image Segmentation ( http://arxiv.org/abs/2206.07664v1 )

ライセンス: Link先を確認
Thierry Judge, Olivier Bernard, Mihaela Porumb, Agis Chartsias, Arian Beqiri, Pierre-Marc Jodoin(参考訳) 正確な不確実性の推定は、医療画像コミュニティにとって重要なニーズである。 分類の不確実性推定手法のすべての直接的な拡張として、様々な方法が提案されている。 独立画素単位の不確実性推定は、しばしばニューラルネットワークの確率論的解釈に基づいており、解剖学的事前知識を考慮しておらず、結果として多くのセグメンテーションタスクに準最適結果を与える。 このため,不確実性予測のためのCRISPをContRastive Image Segmentationとして提案する。 中心となるのが、有効なセグメンテーションとその対応する画像の分布を符号化するジョイント潜在空間を学習するための対比的手法である。 この共同潜伏空間を用いて予測を数千の潜伏ベクトルと比較し、解剖学的に一貫した不確実性写像を提供する。 異なるモダリティと臓器を含む4つの医用画像データベースで実施した総合的研究は、最先端のアプローチと比較して、我々の方法の優越性を裏付けるものである。

Accurate uncertainty estimation is a critical need for the medical imaging community. A variety of methods have been proposed, all direct extensions of classification uncertainty estimations techniques. The independent pixel-wise uncertainty estimates, often based on the probabilistic interpretation of neural networks, do not take into account anatomical prior knowledge and consequently provide sub-optimal results to many segmentation tasks. For this reason, we propose CRISP a ContRastive Image Segmentation for uncertainty Prediction method. At its core, CRISP implements a contrastive method to learn a joint latent space which encodes a distribution of valid segmentations and their corresponding images. We use this joint latent space to compare predictions to thousands of latent vectors and provide anatomically consistent uncertainty maps. Comprehensive studies performed on four medical image databases involving different modalities and organs underlines the superiority of our method compared to state-of-the-art approaches.
翻訳日:2022-06-16 15:19:12 公開日:2022-06-15
# PlanarRecon: モノクロビデオからのリアルタイム3次元平面検出と再構成

PlanarRecon: Real-time 3D Plane Detection and Reconstruction from Posed Monocular Videos ( http://arxiv.org/abs/2206.07710v1 )

ライセンス: Link先を確認
Yiming Xie, Matheus Gadelha, Fengting Yang, Xiaowei Zhou, Huaizu Jiang(参考訳) planarrecon - ポーズ付き単眼映像からの3次元平面のグローバルなコヒーレント検出と再構成のための新しいフレームワーク。 単一の画像から2Dの平面を検出する以前の研究とは異なり、PlanarReconはニューラルネットワークを使用してシーンのボリューム表現から、キーフレームのセットで構成されるビデオフラグメント毎に3Dの平面を段階的に検出する。 学習ベースのトラッキングと融合モジュールは、以前のフラグメントから平面をマージして、コヒーレントなグローバルな平面再構成を形成するように設計されている。 このような設計により、PlanarReconは、各フラグメント内の複数のビューからの観測と、異なるフラグメント間の時間的情報を統合することができ、結果として、低多角形幾何学によるシーン抽象の正確で一貫性のある再構築が実現される。 実験の結果,提案手法はリアルタイムにScanNetデータセット上での最先端のパフォーマンスを実現する。

We present PlanarRecon -- a novel framework for globally coherent detection and reconstruction of 3D planes from a posed monocular video. Unlike previous works that detect planes in 2D from a single image, PlanarRecon incrementally detects planes in 3D for each video fragment, which consists of a set of key frames, from a volumetric representation of the scene using neural networks. A learning-based tracking and fusion module is designed to merge planes from previous fragments to form a coherent global plane reconstruction. Such design allows PlanarRecon to integrate observations from multiple views within each fragment and temporal information across different ones, resulting in an accurate and coherent reconstruction of the scene abstraction with low-polygonal geometry. Experiments show that the proposed approach achieves state-of-the-art performances on the ScanNet dataset while being real-time.
翻訳日:2022-06-16 15:18:56 公開日:2022-06-15
# テキスト認識によるエンドツーエンド誤検出と診断

Text-Aware End-to-end Mispronunciation Detection and Diagnosis ( http://arxiv.org/abs/2206.07289v1 )

ライセンス: Link先を確認
Linkai Peng, Yingming Gao, Binghuai Lin, Dengfeng Ke, Yanlu Xie, Jinsong Zhang(参考訳) 誤認識検出・診断(MDD)技術はコンピュータ支援発音訓練システム(CAPT)の鍵となる要素である。 制約付き音声の発音品質を評価する分野では、与えられた書き起こしは教師の役割を果たすことができる。 従来の手法では、モデル構築やシステム性能の向上、例えば強制調整や拡張認識ネットワークなど、事前のテキストを十分に活用してきた。 近年,従来のテキストをモデルトレーニングに組み込もうとするエンド・ツー・エンドの手法が,その有効性を事前に示している。 しかし、従来の研究では、テキストの発音ミスマッチを考慮せずに、音声表現とテキスト表現を融合させる生の注意機構を主に検討していた。 本稿では,無関係なテキスト情報を抑圧しながら,関連する音声特徴をより重要視するゲーティング戦略を提案する。 さらに,音素認識の学習目標とmddとのギャップを減らすために,文字の書き起こしを考慮すれば,さらに対照的なロスをデザインする。 我々は2つの公開データセット(TIMITとL2-Arctic)を用いて実験を行い、ベースラインと比較してF1スコアを57.51\%から611.75\%に改善した。 また,MDDにおけるゲーティング機構とコントラスト学習の有効性について,詳細な解析を行った。

Mispronunciation detection and diagnosis (MDD) technology is a key component of computer-assisted pronunciation training system (CAPT). In the field of assessing the pronunciation quality of constrained speech, the given transcriptions can play the role of a teacher. Conventional methods have fully utilized the prior texts for the model construction or improving the system performance, e.g. forced-alignment and extended recognition networks. Recently, some end-to-end based methods attempt to incorporate the prior texts into model training and preliminarily show the effectiveness. However, previous studies mostly consider applying raw attention mechanism to fuse audio representations with text representations, without taking possible text-pronunciation mismatch into account. In this paper, we present a gating strategy that assigns more importance to the relevant audio features while suppressing irrelevant text information. Moreover, given the transcriptions, we design an extra contrastive loss to reduce the gap between the learning objective of phoneme recognition and MDD. We conducted experiments using two publicly available datasets (TIMIT and L2-Arctic) and our best model improved the F1 score from $57.51\%$ to $61.75\%$ compared to the baselines. Besides, we provide a detailed analysis to shed light on the effectiveness of gating mechanism and contrastive learning on MDD.
翻訳日:2022-06-16 15:17:20 公開日:2022-06-15
# データグラフの集合修復の複雑さについて

On the complexity of finding set repairs for data-graphs ( http://arxiv.org/abs/2206.07504v1 )

ライセンス: Link先を確認
Sergio Abriola, Santiago Cifuentes, Mar\'ia Vanina Mart\'inez, Nina Pardal, Edwin Pin(参考訳) 私たちが住む深く相互に結びついた世界では、情報の断片が周囲のドメインをリンクします。 グラフデータベースは、データ間の効果的な関係を取り入れ、それらの接続を効率的に処理およびクエリできるため、幅広いドメインとアプリケーションをサポートするストレージのプラットフォームとして急速に普及しています。 関係性の場合と同様に、データが表現する世界のセマンティック構造を定義する完全性制約のセットを保持することが期待される。 データベースがその整合性制約を満たさない場合、可能なアプローチは、修復として知られる制約を満たす'類似'データベースを探すことである。 本研究では,Reg-GXPath式を整合性制約とする一貫性の概念を用いて,データ値を持つグラフデータベースのサブセットとスーパーセット修復の問題を考察する。 reg-gxpathの正の断片に対して、これらの問題は多項式時間アルゴリズムを認め、言語の完全な表現力はそれらを難解にする。

In the deeply interconnected world we live in, pieces of information link domains all around us. As graph databases embrace effectively relationships among data and allow processing and querying these connections efficiently, they are rapidly becoming a popular platform for storage that supports a wide range of domains and applications. As in the relational case, it is expected that data preserves a set of integrity constraints that define the semantic structure of the world it represents. When a database does not satisfy its integrity constraints, a possible approach is to search for a 'similar' database that does satisfy the constraints, also known as a repair. In this work, we study the problem of computing subset and superset repairs for graph databases with data values using a notion of consistency based on a set of Reg-GXPath expressions as integrity constraints. We show that for positive fragments of Reg-GXPath these problems admit a polynomial-time algorithm, while the full expressive power of the language renders them intractable.
翻訳日:2022-06-16 15:16:58 公開日:2022-06-15
# 深部ReLUニューラルネットワークの局所的同定可能性:理論

Local Identifiability of Deep ReLU Neural Networks: the Theory ( http://arxiv.org/abs/2206.07424v1 )

ライセンス: Link先を確認
Joachim Bona-Pellissier (IMT), Fran\c{c}ois Malgouyres (IMT), Fran\c{c}ois Bachoc (IMT)(参考訳) サンプルは、少なくとも局所的に、ニューラルネットワークのパラメータを決定するのに十分な豊富か? この質問に答えるために,重みの値のいくつかを固定することで,与えられた深層reluニューラルネットワークの新しい局所パラメータ化を導入する。 これにより、高次元空間の滑らかな多様体のチャートを逆元とする局所昇降作用素を定義することができる。 deep reluニューラルネットワークによって実装された関数は、サンプルに依存する線形演算子で局所昇降を構成する。 我々はこの便利な表現から、局所的識別可能性の幾何学的必要十分条件を導出する。 接空間を考えると、幾何学的条件は、1/ シャープでテスト可能な必要条件の識別可能性、2/ シャープでテスト可能な局所識別可能性の十分条件を提供する。 条件の妥当性はバックプロパゲーションと行列ランク計算を用いて数値的に検証できる。

Is a sample rich enough to determine, at least locally, the parameters of a neural network? To answer this question, we introduce a new local parameterization of a given deep ReLU neural network by fixing the values of some of its weights. This allows us to define local lifting operators whose inverses are charts of a smooth manifold of a high dimensional space. The function implemented by the deep ReLU neural network composes the local lifting with a linear operator which depends on the sample. We derive from this convenient representation a geometrical necessary and sufficient condition of local identifiability. Looking at tangent spaces, the geometrical condition provides: 1/ a sharp and testable necessary condition of identifiability and 2/ a sharp and testable sufficient condition of local identifiability. The validity of the conditions can be tested numerically using backpropagation and matrix rank computations.
翻訳日:2022-06-16 15:16:42 公開日:2022-06-15
# 因子設計における非比例的ハザードに対する多重カーネルテスト手順

A Multiple kernel testing procedure for non-proportional hazards in factorial designs ( http://arxiv.org/abs/2206.07239v1 )

ライセンス: Link先を確認
Marc Ditzhaus and Tamara Fern\'andez and Nicol\'as Rivera(参考訳) 本稿では,いくつかの要因(治療群,性別,医療歴など)とそれらの相互作用が同時に興味を持つ場合,生存率を推定するマルチカーネルテスト手法を提案する。 我々の手法は複雑なデータを扱うことができ、比例性のような仮定を正当化できない場合、全正規の Cox モデルに代わるものとして見ることができる。 重み付けされたログランクテスト,カーネルメソッド,コントラストテストなど,サバイバル分析やマシンラーニング,複数テストといった,よく知られた概念を組み合わせています。 これにより、古典的な比例ハザード設定を超えた複雑なハザード代替を検出できる。 さらに、単一の試験手順の依存構造を十分に活用して電力損失を回避することにより、複数の比較を行う。 全体として、これは有理数論と$V$統計学の理論によって理論上の妥当性が証明される因子的生存設計のための柔軟で強力な手続きにつながる。 本研究では,本手法の性能を大規模シミュレーション実験で評価し,実データ解析により示す。

In this paper we propose a Multiple kernel testing procedure to infer survival data when several factors (e.g. different treatment groups, gender, medical history) and their interaction are of interest simultaneously. Our method is able to deal with complex data and can be seen as an alternative to the omnipresent Cox model when assumptions such as proportionality cannot be justified. Our methodology combines well-known concepts from Survival Analysis, Machine Learning and Multiple Testing: differently weighted log-rank tests, kernel methods and multiple contrast tests. By that, complex hazard alternatives beyond the classical proportional hazard set-up can be detected. Moreover, multiple comparisons are performed by fully exploiting the dependence structure of the single testing procedures to avoid a loss of power. In all, this leads to a flexible and powerful procedure for factorial survival designs whose theoretical validity is proven by martingale arguments and the theory for $V$-statistics. We evaluate the performance of our method in an extensive simulation study and illustrate it by a real data analysis.
翻訳日:2022-06-16 15:16:13 公開日:2022-06-15
# CLNode: ノード分類のためのカリキュラム学習

CLNode: Curriculum Learning for Node Classification ( http://arxiv.org/abs/2206.07258v1 )

ライセンス: Link先を確認
Xiaowen Wei, Weiwei Liu, Yibing Zhan, Du Bo, Wenbin Hu(参考訳) ノード分類は、グラフニューラルネットワーク(GNN)が最先端の手法である未ラベルノードのクラスを予測することを目的とした、基本的なグラフベースのタスクである。 現在のgnnでは、トレーニングノード(またはトレーニングサンプル)はトレーニングを通じて等しく扱われる。 しかし、サンプルの品質はグラフ構造によって大きく異なる。 その結果、gnnの性能は、(1)隣のクラスをつなぐクラス境界付近に位置するクラス間ノードという2つのタイプの低品質サンプルによって損なわれる可能性がある。 これらのノードの表現は、対応するクラスの典型的な特徴を欠いている。 GNNはデータ駆動のアプローチであるため、これらのノードでのトレーニングは精度を低下させる可能性がある。 (2)誤記ノード。 実世界のグラフでは、ノードはしばしば誤ってラベル付けされ、GNNの堅牢性を著しく低下させる。 低品質サンプルの有害な影響を軽減するため,CLNode(Curriculum Learning for Node Classification)を提案する。 具体的には,まず,サンプルの品質を正確に測定する難易度測定器を設計する。 その後,これらの測定結果に基づき,各トレーニング期間におけるサンプル重量の調整にトレーニングスケジューラを用いる。 CLNodeの有効性を評価するため、4つの代表的バックボーンGNNに適用して広範囲な実験を行った。 6つの実世界のネットワークでの実験結果から、CLNodeは様々なGNNと組み合わせて精度と堅牢性を向上できる一般的なフレームワークであることが示された。

Node classification is a fundamental graph-based task that aims to predict the classes of unlabeled nodes, for which Graph Neural Networks (GNNs) are the state-of-the-art methods. In current GNNs, training nodes (or training samples) are treated equally throughout training. The quality of the samples, however, varies greatly according to the graph structure. Consequently, the performance of GNNs could be harmed by two types of low-quality samples: (1) Inter-class nodes situated near class boundaries that connect neighboring classes. These nodes' representations lack the typical characteristics of their corresponding classes. Because GNNs are data-driven approaches, training on these nodes could degrade the accuracy. (2) Mislabeled nodes. In real-world graphs, nodes are often mislabeled, which can significantly degrade the robustness of GNNs. To mitigate the detrimental effect of the low-quality samples, we present CLNode (Curriculum Learning for Node Classification), which automatically adjusts the weights of samples during training based on their quality. Specifically, we first design a neighborhood-based difficulty measurer to accurately measure the quality of samples. Subsequently, based on these measurements, we employ a training scheduler to adjust the sample weights in each training epoch. To evaluate the effectiveness of CLNode, we conduct extensive experiments by applying it to four representative backbone GNNs. Experimental results on six real-world networks demonstrate that CLNode is a general framework that can be combined with various GNNs to improve their accuracy and robustness.
翻訳日:2022-06-16 15:14:45 公開日:2022-06-15
# 最小マージン攻撃による対向ロバストネスの迅速・信頼性評価

Fast and Reliable Evaluation of Adversarial Robustness with Minimum-Margin Attack ( http://arxiv.org/abs/2206.07314v1 )

ライセンス: Link先を確認
Ruize Gao, Jiongxiao Wang, Kaiwen Zhou, Feng Liu, Binghui Xie, Gang Niu, Bo Han, James Cheng(参考訳) AutoAttack (AA) は、膨大な計算資源が利用可能である場合の敵の堅牢性を評価する最も信頼性の高い手法である。 しかし、高い計算コスト(例えば、プロジェクトの勾配降下攻撃の100倍)は、限られた計算資源を持つ実践者にとってAAが実現不可能となり、また、対戦訓練(AT)におけるAAの応用を妨げる。 本稿では,敵の強靭性を迅速かつ確実に評価するための,MM攻撃法を提案する。 aaと比較すると,本手法は性能は同等であるが,計算時間の3%に留まっていた。 提案手法の信頼性は,最も敵対的な事例を正確に識別できる2つの対象間のマージンを用いて,敵の事例の品質を評価することにある。 本手法の計算効率は実効的な逐次TArget Ranking Selection(STARS)法に比例し,MM攻撃のコストがクラス数に依存しないことを保証する。 mm攻撃は、敵のロバスト性を評価する新しい方法を開き、atで高品質な敵の例を生成するための実現可能かつ信頼性の高い方法を提供する。

The AutoAttack (AA) has been the most reliable method to evaluate adversarial robustness when considerable computational resources are available. However, the high computational cost (e.g., 100 times more than that of the project gradient descent attack) makes AA infeasible for practitioners with limited computational resources, and also hinders applications of AA in the adversarial training (AT). In this paper, we propose a novel method, minimum-margin (MM) attack, to fast and reliably evaluate adversarial robustness. Compared with AA, our method achieves comparable performance but only costs 3% of the computational time in extensive experiments. The reliability of our method lies in that we evaluate the quality of adversarial examples using the margin between two targets that can precisely identify the most adversarial example. The computational efficiency of our method lies in an effective Sequential TArget Ranking Selection (STARS) method, ensuring that the cost of the MM attack is independent of the number of classes. The MM attack opens a new way for evaluating adversarial robustness and provides a feasible and reliable way to generate high-quality adversarial examples in AT.
翻訳日:2022-06-16 15:14:13 公開日:2022-06-15
# Morphence-2.0: アウト・オブ・ディストリビューション検出による弾性移動目標防衛

Morphence-2.0: Evasion-Resilient Moving Target Defense Powered by Out-of-Distribution Detection ( http://arxiv.org/abs/2206.07321v1 )

ライセンス: Link先を確認
Abderrahmen Amich, Ata Kaboudi, Birhanu Eshete(参考訳) 機械学習モデルに対する侵入攻撃は、しばしば固定されたターゲットモデルの反復的探索を通じて成功し、一度成功した攻撃が繰り返し成功する。 この脅威に対抗する有望なアプローチの1つは、モデルが敵の入力に対して動くターゲットにすることである。 そこで本研究では,拡張性のある移動目標防御(mtd)であるmorphence-2.0を提案する。 Morphence-2.0はモデルの決定関数を定期的に移動することによって、繰り返しまたは相関した攻撃が成功するのを著しく困難にする。 Morphence-2.0はベースモデルから生成されたモデルのプールを、予測クエリに応答するときに十分なランダム性をもたらす方法で展開する。 OOD検出において、Morphence-2.0は、頑健な決定関数と良性なサンプルを無防備な正確なモデルに割り当てるスケジューリングアプローチを備えている。 繰り返しまたは相関攻撃が失敗することを保証するため、クエリ予算に達した後、モデルのデプロイプールが自動的に終了し、モデルプールが予め生成された新しいモデルプールにシームレスに置き換えられる。 我々はMorphence-2.0を2つのベンチマーク画像分類データセット(MNISTとCIFAR10)で4つの基準攻撃(ホワイトボックスとブラックボックス1)に対して評価した。 morphence-2.0は、クリーンデータの精度を維持し、攻撃伝達性を低下させながら、常に以前の防御を上回っている。 また,OOD検出を利用すると,Morphence-2.0はモデル決定関数の入力ベース動作を正確に行うことができ,逆クエリと良クエリの両方で高い精度で予測できることを示す。

Evasion attacks against machine learning models often succeed via iterative probing of a fixed target model, whereby an attack that succeeds once will succeed repeatedly. One promising approach to counter this threat is making a model a moving target against adversarial inputs. To this end, we introduce Morphence-2.0, a scalable moving target defense (MTD) powered by out-of-distribution (OOD) detection to defend against adversarial examples. By regularly moving the decision function of a model, Morphence-2.0 makes it significantly challenging for repeated or correlated attacks to succeed. Morphence-2.0 deploys a pool of models generated from a base model in a manner that introduces sufficient randomness when it responds to prediction queries. Via OOD detection, Morphence-2.0 is equipped with a scheduling approach that assigns adversarial examples to robust decision functions and benign samples to an undefended accurate models. To ensure repeated or correlated attacks fail, the deployed pool of models automatically expires after a query budget is reached and the model pool is seamlessly replaced by a new model pool generated in advance. We evaluate Morphence-2.0 on two benchmark image classification datasets (MNIST and CIFAR10) against 4 reference attacks (3 white-box and 1 black-box). Morphence-2.0 consistently outperforms prior defenses while preserving accuracy on clean data and reducing attack transferability. We also show that, when powered by OOD detection, Morphence-2.0 is able to precisely make an input-based movement of the model's decision function that leads to higher prediction accuracy on both adversarial and benign queries.
翻訳日:2022-06-16 15:13:51 公開日:2022-06-15
# フライトコンフリクトの解決の自動化:航空管制官の業務における深層強化学習

Automating the resolution of flight conflicts: Deep reinforcement learning in service of air traffic controllers ( http://arxiv.org/abs/2206.07403v1 )

ライセンス: Link先を確認
George Vouros, George Papadopoulos, Alevizos Bastas, Jose Manuel Cordero, Ruben Rodrigez Rodrigez(参考訳) 密集した複雑な航空交通シナリオは、今日atco(air traffic controllers)が使用している戦術的衝突検出および解決ツール(cd\&r)よりも高いレベルの自動化を必要とする。 しかし、航空交通管制(ATC)ドメインは安全性が重要であり、オペレーターがコントロールを放棄し、運用の整合性と自動化の採用を保証するAIシステムを必要とする。 この目標に対する2つの大きな要因は、ソリューションの品質と、意思決定における透明性である。 本稿では,各エージェント(飛行)が他のエージェントと共同でcd\&rタスクを実行するマルチエージェント設定で動作するグラフ畳み込み強化学習手法を提案する。 我々は,この手法が,利害関係者の利益(航空管制官や空域利用者)に対して,運用上の透明性問題に対処するための高品質なソリューションを提供できることを示す。

Dense and complex air traffic scenarios require higher levels of automation than those exhibited by tactical conflict detection and resolution (CD\&R) tools that air traffic controllers (ATCO) use today. However, the air traffic control (ATC) domain, being safety critical, requires AI systems to which operators are comfortable to relinquishing control, guaranteeing operational integrity and automation adoption. Two major factors towards this goal are quality of solutions, and transparency in decision making. This paper proposes using a graph convolutional reinforcement learning method operating in a multiagent setting where each agent (flight) performs a CD\&R task, jointly with other agents. We show that this method can provide high-quality solutions with respect to stakeholders interests (air traffic controllers and airspace users), addressing operational transparency issues.
翻訳日:2022-06-16 15:13:20 公開日:2022-06-15
# 密度更新による汚職ロバストコンテクスト検索

Corruption-Robust Contextual Search through Density Updates ( http://arxiv.org/abs/2206.07528v1 )

ライセンス: Link先を確認
Renato Paes Leme, Chara Podimata, and Jon Schneider(参考訳) 逆雑音モデルにおける文脈探索の問題について検討する。 d$を問題の次元とし、T$を時間軸とし、C$をシステム内のノイズの総量とする。 $\eps$-ball損失に対して、$O(C + d \log(1/\eps))$$O(d^3 \log(1/\eps)) \log^2(T) + C \log(T) \log(1/\eps))$Krishnamurthy et al (STOC21) の厳密な後悔境界を与える。 対称損失に対して、後悔する$O(C+d \log T)$の効率的なアルゴリズムを与える。 私たちの技術は、以前のアプローチから大きく離れています。 具体的には、得られたフィードバックに一致した候補ベクトルからなる知識セットの代わりに、候補ベクトル上の密度関数の追跡を行う。

We study the problem of contextual search in the adversarial noise model. Let $d$ be the dimension of the problem, $T$ be the time horizon and $C$ be the total amount of noise in the system. For the $\eps$-ball loss, we give a tight regret bound of $O(C + d \log(1/\eps))$ improving over the $O(d^3 \log(1/\eps)) \log^2(T) + C \log(T) \log(1/\eps))$ bound of Krishnamurthy et al (STOC21). For the symmetric loss, we give an efficient algorithm with regret $O(C+d \log T)$. Our techniques are a significant departure from prior approaches. Specifically, we keep track of density functions over the candidate vectors instead of a knowledge set consisting of the candidate vectors consistent with the feedback obtained.
翻訳日:2022-06-16 15:13:04 公開日:2022-06-15
# 階層クラスタリングのためのサブ線形アルゴリズム

Sublinear Algorithms for Hierarchical Clustering ( http://arxiv.org/abs/2206.07633v1 )

ライセンス: Link先を確認
Arpit Agarwal, Sanjeev Khanna, Huan Li, Prathamesh Patil(参考訳) グラフ上の階層的クラスタリングは、系統学、ソーシャルネットワーク分析、情報検索といった分野におけるデータマイニングと機械学習の基本的なタスクである。 具体的には,最近普及したdasguptaによる階層クラスタリングの目的関数について考察する。 この目的関数を最小化する以前のアルゴリズムは、線形時間/空間の複雑さを必要とする。 多くのアプリケーションにおいて、基礎となるグラフは巨大であり、線形時間/空間アルゴリズムを使ってもグラフを計算的に処理することは困難である。 その結果,サブ線形資源のみを用いてグローバルな計算を行うアルゴリズムの設計に強い関心が寄せられている。 本研究の目的は,(1)エッジをストリームとして提示する(動的)ストリーミングモデル,(2)グラフを隣接および次数クエリでクエリするクエリモデル,(3)グラフエッジを通信チャネルを介して接続された複数のマシンに分割したmpcモデル,の3つのよく検討されたサブリニア計算モデルの下での大規模グラフの階層的クラスタリングを検討することである。 上記の3モデルすべてにおいて階層クラスタリングのためのサブ線形アルゴリズムを設計する。 アルゴリズムの結果の核心は、グラフのカットという観点からの目的の視点であり、これにより、目的関数に小さな歪みしか導入せずに階層的なクラスタリングを行うためにカットスペーサーの緩和された概念を使うことができる。 提案アルゴリズムの主な貢献は,クエリモデルとMPCモデルにおいて,目的形式の切断スペーサーをどのように効率的に構築できるかを示すことである。 各モデルでより良いアルゴリズムを設計する可能性を排除し、ほぼ一致する下限を確立することで、アルゴリズムの結果を補完します。

Hierarchical clustering over graphs is a fundamental task in data mining and machine learning with applications in domains such as phylogenetics, social network analysis, and information retrieval. Specifically, we consider the recently popularized objective function for hierarchical clustering due to Dasgupta. Previous algorithms for (approximately) minimizing this objective function require linear time/space complexity. In many applications the underlying graph can be massive in size making it computationally challenging to process the graph even using a linear time/space algorithm. As a result, there is a strong interest in designing algorithms that can perform global computation using only sublinear resources. The focus of this work is to study hierarchical clustering for massive graphs under three well-studied models of sublinear computation which focus on space, time, and communication, respectively, as the primary resources to optimize: (1) (dynamic) streaming model where edges are presented as a stream, (2) query model where the graph is queried using neighbor and degree queries, (3) MPC model where the graph edges are partitioned over several machines connected via a communication channel. We design sublinear algorithms for hierarchical clustering in all three models above. At the heart of our algorithmic results is a view of the objective in terms of cuts in the graph, which allows us to use a relaxed notion of cut sparsifiers to do hierarchical clustering while introducing only a small distortion in the objective function. Our main algorithmic contributions are then to show how cut sparsifiers of the desired form can be efficiently constructed in the query model and the MPC model. We complement our algorithmic results by establishing nearly matching lower bounds that rule out the possibility of designing better algorithms in each of these models.
翻訳日:2022-06-16 15:12:42 公開日:2022-06-15
# ernas:磁気共鳴画像再構成のための進化的ニューラルアーキテクチャ探索

ERNAS: An Evolutionary Neural Architecture Search for Magnetic Resonance Image Reconstructions ( http://arxiv.org/abs/2206.07280v1 )

ライセンス: Link先を確認
Samira Vafay Eslahi, Jian Tao, and Jim Ji(参考訳) 磁気共鳴イメージング(MRI)は、高品質な画像を生成する非侵襲的な画像モダリティの1つである。 しかし、スキャン手順は比較的遅いため、画像中の患者の不快感や運動アーチファクトを引き起こす。 MRIハードウェアの加速は、物理的および生理的制限によって制限される。 加速MRIの一般的な代替手法は、k空間データをアンサンプすることである。 アンサンプリングはスキャン手順を高速化するが、画像内のアーティファクトを生成し、アーティファクトフリーな画像を生成するには高度な再構築アルゴリズムが必要である。 近年,この問題を解決するためのMRI再構成手法としてディープラーニングが登場している。 しかし、MRI再構成における既存のディープラーニングニューラルネットワークアーキテクチャの直接的な採用は通常、効率と再構築品質の点で最適ではない。 本研究では,新しい進化的ニューラルネットワーク探索アルゴリズムを用いて,アンダーサンプルデータからのMRI再構成を行った。 脳と膝のMRIデータセットは、提案アルゴリズムが手動で設計されたニューラルネットワークベースのMR再構成モデルより優れていることを示している。

Magnetic resonance imaging (MRI) is one of the noninvasive imaging modalities that can produce high-quality images. However, the scan procedure is relatively slow, which causes patient discomfort and motion artifacts in images. Accelerating MRI hardware is constrained by physical and physiological limitations. A popular alternative approach to accelerated MRI is to undersample the k-space data. While undersampling speeds up the scan procedure, it generates artifacts in the images, and advanced reconstruction algorithms are needed to produce artifact-free images. Recently deep learning has emerged as a promising MRI reconstruction method to address this problem. However, straightforward adoption of the existing deep learning neural network architectures in MRI reconstructions is not usually optimal in terms of efficiency and reconstruction quality. In this work, MRI reconstruction from undersampled data was carried out using an optimized neural network using a novel evolutionary neural architecture search algorithm. Brain and knee MRI datasets show that the proposed algorithm outperforms manually designed neural network-based MR reconstruction models.
翻訳日:2022-06-16 15:10:54 公開日:2022-06-15
# 回折デコーダを用いた超高解像度画像表示

Super-resolution image display using diffractive decoders ( http://arxiv.org/abs/2206.07281v1 )

ライセンス: Link先を確認
Cagatay Isil, Deniz Mengu, Yifan Zhao, Anika Tabassum, Jingxi Li, Yi Luo, Mona Jarrahi, and Aydogan Ozcan(参考訳) 大きな視野(FOV)上の画像の高分解能合成・投影は、波面変調器の制限された空間帯域積(SBP)によって妨げられる。 低分解能波面変調器を用いて超解像を合成・投影するための電子エンコーダと光デコーダを併用した深層学習型回折表示設計について報告する。 訓練された畳み込みニューラルネットワーク(CNN)からなるデジタルエンコーダは、空間情報を低SBP波面変調器を介して低分解能(LR)変調パターンに符号化するように、関心の高解像度画像を迅速に前処理する。 回折デコーダは、このLR符号化情報を、ディープラーニングを用いて構造化された薄い透過層を用いて処理し、その出力FOVで超解像を全光合成し投影する。 以上の結果から,この回折画像表示は4倍の超解像率を達成でき,SBPの16倍の増大を示すことが示唆された。 THzスペクトルで動作する3Dプリント型回折デコーダを用いて,この回折超解像ディスプレイの成功を実験的に検証した。 この回折像デコーダは可視波長で動作するようにスケールでき、コンパクトで低消費電力で計算効率の良い大きなfovおよび高解像度ディスプレイの設計を刺激することができる。

High-resolution synthesis/projection of images over a large field-of-view (FOV) is hindered by the restricted space-bandwidth-product (SBP) of wavefront modulators. We report a deep learning-enabled diffractive display design that is based on a jointly-trained pair of an electronic encoder and a diffractive optical decoder to synthesize/project super-resolved images using low-resolution wavefront modulators. The digital encoder, composed of a trained convolutional neural network (CNN), rapidly pre-processes the high-resolution images of interest so that their spatial information is encoded into low-resolution (LR) modulation patterns, projected via a low SBP wavefront modulator. The diffractive decoder processes this LR encoded information using thin transmissive layers that are structured using deep learning to all-optically synthesize and project super-resolved images at its output FOV. Our results indicate that this diffractive image display can achieve a super-resolution factor of ~4, demonstrating a ~16-fold increase in SBP. We also experimentally validate the success of this diffractive super-resolution display using 3D-printed diffractive decoders that operate at the THz spectrum. This diffractive image decoder can be scaled to operate at visible wavelengths and inspire the design of large FOV and high-resolution displays that are compact, low-power, and computationally efficient.
翻訳日:2022-06-16 15:10:40 公開日:2022-06-15
# アバター:無拘束な音声視覚音声認識

AVATAR: Unconstrained Audiovisual Speech Recognition ( http://arxiv.org/abs/2206.07684v1 )

ライセンス: Link先を確認
Valentin Gabeur, Paul Hongsuck Seo, Arsha Nagrani, Chen Sun, Karteek Alahari, Cordelia Schmid(参考訳) 音声視覚自動音声認識(AV-ASR)は、しばしば話者の口の動きから視覚的手がかりを取り入れたASRの拡張である。 単に唇の動きにフォーカスする作業とは異なり、視覚的フレーム全体(視覚行動、オブジェクト、背景など)の寄与について調査する。 これは、話者が必ずしも見えない非拘束のビデオに特に有用である。 この課題を解決するために、スペクトルとフルフレームRGBからエンドツーエンドにトレーニングされたAudioVisual ASR TrAnsformeR(AVATAR)を提案する。 音声ストリームがトレーニングを優位に立たないようにするため,異なる単語マスキング戦略を提案し,モデルが視覚ストリームに注意を払うように促す。 how2 av-asrベンチマークにおいて,特にシミュレートノイズの存在下での視覚モダリティの寄与を実証し,我々のモデルが他のすべての先行研究よりも大きなマージンで勝っていることを示す。 最後に、我々はAV-ASRのための新しい実世界テストベッドVisSpeechを作成し、挑戦的なオーディオ条件下での視覚的モダリティの寄与を示す。

Audio-visual automatic speech recognition (AV-ASR) is an extension of ASR that incorporates visual cues, often from the movements of a speaker's mouth. Unlike works that simply focus on the lip motion, we investigate the contribution of entire visual frames (visual actions, objects, background etc.). This is particularly useful for unconstrained videos, where the speaker is not necessarily visible. To solve this task, we propose a new sequence-to-sequence AudioVisual ASR TrAnsformeR (AVATAR) which is trained end-to-end from spectrograms and full-frame RGB. To prevent the audio stream from dominating training, we propose different word-masking strategies, thereby encouraging our model to pay attention to the visual stream. We demonstrate the contribution of the visual modality on the How2 AV-ASR benchmark, especially in the presence of simulated noise, and show that our model outperforms all other prior work by a large margin. Finally, we also create a new, real-world test bed for AV-ASR called VisSpeech, which demonstrates the contribution of the visual modality under challenging audio conditions.
翻訳日:2022-06-16 15:10:17 公開日:2022-06-15
# 機械学習による磁気流体波動の検出

Detection of magnetohydrodynamic waves by using machine learning ( http://arxiv.org/abs/2206.07334v1 )

ライセンス: Link先を確認
Fang Chen and Ravi Samtaney(参考訳) 磁気流体力学(MHD)における衝撃屈折のような非線形波動相互作用は、無数の波動型を持つ波動パターンの多重化につながる。 様々な種類のMHD波の同定は、このような複雑な波動パターンにおいて重要かつ困難な課題である。 さらに、解の多重性と異なる系、特に中間型MHD衝撃波に対する許容性のため、ランキン・フグニオートジャンプ条件のみに依存する場合、MHD波のタイプ同定は複雑である。 数値シミュレーションにおける不連続衝撃波の非物理的スメア化により、mhd波検出はさらに悪化する。 本研究では,畳み込みニューラルネットワーク(cnn)に基づく2つのmhd波検出法を提案する。 第1の方法は、出力を回帰(位置予測)と各トレーニングデータに対する波数を固定した分類問題とに分離する。 第2の手法では、波の個数は事前に指定されず、回帰のみを用いて、波の位置を予測し、それらの型を分類する。 第1次固定出力モデルは高い精度と記憶力を提供し、達成されたニューラルネットワーク全体の精度は0.99であり、一部の波の分類精度は統一に近づく。 第2検出モデルは比較的低い性能で、グリッドセル数 n_{grid} や信頼度スコアやクラス確率のしきい値などのパラメータの設定に対する感度が高い。 提案手法は, 複雑な波動構造と相互作用において, MHD波検出に非常に強い可能性を示す。

Nonlinear wave interactions, such as shock refraction at an inclined density interface, in magnetohydrodynamic (MHD) lead to a plethora of wave patterns with myriad wave types. Identification of different types of MHD waves is an important and challenging task in such complex wave patterns. Moreover, owing to the multiplicity of solutions and their admissibility for different systems, especially for intermediate-type MHD shock waves, the identification of MHD wave types is complicated if one solely relies on the Rankine-Hugoniot jump conditions. MHD wave detection is further exacerbated by the unphysical smearing of discontinuous shock waves in numerical simulations. We present two MHD wave detection methods based on a convolutional neural network (CNN) which enables the classification of waves and identification of their locations. The first method separates the output into a regression (location prediction) and a classification problem assuming the number of waves for each training data is fixed. In the second method, the number of waves is not specified a priori and the algorithm, using only regression, predicts the waves' locations and classifies their types. The first fixed output model efficiently provides high precision and recall, the accuracy of the entire neural network achieved is up to 0.99, and the classification accuracy of some waves approaches unity. The second detection model has relatively lower performance, with more sensitivity to the setting of parameters, such as the number of grid cells N_{grid} and the thresholds of confidence score and class probability, etc. The proposed two methods demonstrate very strong potential to be applied for MHD wave detection in some complex wave structures and interactions.
翻訳日:2022-06-16 15:09:55 公開日:2022-06-15
# (参考訳) 背骨に融合した粗視言語前訓練

Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone ( http://arxiv.org/abs/2206.07643v1 )

ライセンス: CC BY 4.0
Zi-Yi Dou, Aishwarya Kamath, Zhe Gan, Pengchuan Zhang, Jianfeng Wang, Linjie Li, Zicheng Liu, Ce Liu, Yann LeCun, Nanyun Peng, Jianfeng Gao, Lijuan Wang(参考訳) ビジョン言語(VL)事前学習は近年注目されている。 しかし、既存のエンドツーエンドの事前学習アプローチは、画像の高レベルな理解をテストする画像テキスト検索、視覚的質問応答(VQA)、画像キャプションといったVLタスクへの取り組み、あるいはフレーズグラウンドやオブジェクト検出といったタスクに対する領域レベルの理解のみを目的としている。 両タスクをシームレスに処理できる新しいVLモデルアーキテクチャであるFIBER(Fusion-In-the-Backbone-based transformER)を提案する。 ユニモーダルバックボーンの後に専用のトランスフォーマー層を持つ代わりに、fiberは画像とテキストバックボーンにクロスアテンションを挿入することでマルチモーダルフュージョンをモデルに深く押し込み、メモリとパフォーマンスの面で利益をもたらします。 さらに,画像テキストデータのみを事前学習したり,ボックスレベルのアノテーションで細粒度データを扱う従来の作業と異なり,これら2種類のデータを効率的に使用する2段階事前学習戦略を提案する。 (i)画像テキストデータに基づく粗粒事前学習、続いて (ii)画像テキストボックスデータに基づく微粒度事前学習 我々は,vqa,画像キャプション,検索,フレーズグラウンド,参照表現理解,オブジェクト検出など,幅広いvlタスクに関する包括的実験を行う。 深層マルチモーダル融合と2段階の事前トレーニングを組み合わせることで、FIBERは全てのタスクにわたる強力なベースラインよりも一貫したパフォーマンス向上を実現します。 コードはhttps://github.com/microsoft/fiberで入手できる。

Vision-language (VL) pre-training has recently received considerable attention. However, most existing end-to-end pre-training approaches either only aim to tackle VL tasks such as image-text retrieval, visual question answering (VQA) and image captioning that test high-level understanding of images, or only target region-level understanding for tasks such as phrase grounding and object detection. We present FIBER (Fusion-In-the-Backbone-based transformER), a new VL model architecture that can seamlessly handle both these types of tasks. Instead of having dedicated transformer layers for fusion after the uni-modal backbones, FIBER pushes multimodal fusion deep into the model by inserting cross-attention into the image and text backbones, bringing gains in terms of memory and performance. In addition, unlike previous work that is either only pre-trained on image-text data or on fine-grained data with box-level annotations, we present a two-stage pre-training strategy that uses both these kinds of data efficiently: (i) coarse-grained pre-training based on image-text data; followed by (ii) fine-grained pre-training based on image-text-box data. We conduct comprehensive experiments on a wide range of VL tasks, ranging from VQA, image captioning, and retrieval, to phrase grounding, referring expression comprehension, and object detection. Using deep multimodal fusion coupled with the two-stage pre-training, FIBER provides consistent performance improvements over strong baselines across all tasks, often outperforming methods using magnitudes more data. Code is available at https://github.com/microsoft/FIBER.
翻訳日:2022-06-16 15:08:04 公開日:2022-06-15
# リソース制約付きエッジAIの初期出力予測

Resource-Constrained Edge AI with Early Exit Prediction ( http://arxiv.org/abs/2206.07269v1 )

ライセンス: Link先を確認
Rongkang Dong, Yuyi Mao and Jun Zhang(参考訳) データサンプルの多様性を活用することで、近頃、ディープラーニング推論プロセスを加速するための著名なニューラルネットワークアーキテクチャとして、アーリーエクイットネットワークが出現した。 しかし、初期出口の中間分類器は、リソース制約されたエッジ人工知能(AI)には好ましくない計算オーバーヘッドをもたらす。 本稿では,早期終了ネットワークがサポートするデバイスエッジ共振システムにおいて,デバイス上での計算オーバーヘッドを低減するための早期終了予測機構を提案する。 具体的には,Exit Predictorと呼ばれる低複雑さモジュールを設計し,初期出口の計算をバイパスする「ハード」なサンプルを導出する。 さらに,通信帯域の変動を考慮した遅延対応エッジ推論の早期終了予測機構を拡張し,いくつかの単純な回帰モデルを用いて,Exit Predictorの予測しきい値と早期終了ネットワークの信頼しきい値に適応する。 広範な実験結果から、アーリーエクイットネットワークにおける精度とオンデバイス計算オーバーヘッドのトレードオフを改善するための出口予測器の有効性が示された。 また,提案手法をベースライン法と比較すると,帯域幅の異なる場合,遅延認識エッジ推論の精度が向上する。

By leveraging the data sample diversity, the early-exit network recently emerges as a prominent neural network architecture to accelerate the deep learning inference process. However, intermediate classifiers of the early exits introduce additional computation overhead, which is unfavorable for resource-constrained edge artificial intelligence (AI). In this paper, we propose an early exit prediction mechanism to reduce the on-device computation overhead in a device-edge co-inference system supported by early-exit networks. Specifically, we design a low-complexity module, namely the Exit Predictor, to guide some distinctly "hard" samples to bypass the computation of the early exits. Besides, considering the varying communication bandwidth, we extend the early exit prediction mechanism for latency-aware edge inference, which adapts the prediction thresholds of the Exit Predictor and the confidence thresholds of the early-exit network via a few simple regression models. Extensive experiment results demonstrate the effectiveness of the Exit Predictor in achieving a better tradeoff between accuracy and on-device computation overhead for early-exit networks. Besides, compared with the baseline methods, the proposed method for latency-aware edge inference attains higher inference accuracy under different bandwidth conditions.
翻訳日:2022-06-16 14:33:44 公開日:2022-06-15
# グラディエント・インバージョンに関する調査 : 攻撃・防衛・今後の方向性

A Survey on Gradient Inversion: Attacks, Defenses and Future Directions ( http://arxiv.org/abs/2206.07284v1 )

ライセンス: Link先を確認
Rui Zhang, Song Guo, Junxiao Wang, Xin Xie, Dacheng Tao(参考訳) 近年の研究では、トレーニングサンプルが勾配反転(gradle inversion,gradinv)攻撃と呼ばれる勾配から回復できることが示されている。 しかし、この問題の最近の進展や徹底的な分析に関する広範な調査が不足している。 本稿では,GradInvに関する包括的調査を行い,最先端の研究を要約し,さまざまな領域の地平を広げることを目的とする。 まず,既存の攻撃を反復攻撃と再帰攻撃の2つのパラダイムに特徴付けることで,gradinv攻撃の分類を提案する。 特に、データ初期化、モデルトレーニング、勾配マッチングなど、イテレーションベースの攻撃から重要な要素を掘り出す。 第2に、gradinv攻撃に対する新たな防衛戦略をまとめる。 これらのアプローチは、データの隠蔽、モデル改善、勾配保護の3つの観点に重点を置いている。 最後に,今後の研究に向けた有望な方向性と課題について考察する。

Recent studies have shown that the training samples can be recovered from gradients, which are called Gradient Inversion (GradInv) attacks. However, there remains a lack of extensive surveys covering recent advances and thorough analysis of this issue. In this paper, we present a comprehensive survey on GradInv, aiming to summarize the cutting-edge research and broaden the horizons for different domains. Firstly, we propose a taxonomy of GradInv attacks by characterizing existing attacks into two paradigms: iteration- and recursion-based attacks. In particular, we dig out some critical ingredients from the iteration-based attacks, including data initialization, model training and gradient matching. Second, we summarize emerging defense strategies against GradInv attacks. We find these approaches focus on three perspectives covering data obscuration, model improvement and gradient protection. Finally, we discuss some promising directions and open problems for further research.
翻訳日:2022-06-16 14:33:24 公開日:2022-06-15
# 拡散確率モデルにおける不完全平均による最適共分散の推定

Estimating the Optimal Covariance with Imperfect Mean in Diffusion Probabilistic Models ( http://arxiv.org/abs/2206.07309v1 )

ライセンス: Link先を確認
Fan Bao, Chongxuan Li, Jiacheng Sun, Jun Zhu, Bo Zhang(参考訳) 拡散確率モデル(distribution probabilistic models、dpms)は、強力な深層生成モデル(dgms)のクラスである。 彼らの成功にもかかわらず、フルタイムステップでの反復生成プロセスは、GANのような他のDGMよりもはるかに効率的である。 したがって、時間ステップのサブセットにおける生成性能は非常に重要であり、DPMの共分散設計に大きく影響される。 本研究では, DPMの表現力を向上させるために, 対角および全共分散を考える。 このような共分散に対する最適結果を求め, DPM の平均値が不完全である場合に補正する。 最適値と補正値の両方を雑音の関数に対する条件付き期待値に分解することができる。 そこで本研究では, 条件付き期待値の学習により, 最適共分散とその不完全平均による補正を推定する。 本手法は離散時間と連続時間の両方でDPMに適用できる。 計算効率に対する実装における対角共分散について考察する。 効率的な実践のために,パラメータ共有方式と2段階のトレーニングプロセスを採用する。 実験により,本手法は多種多様な共分散設計を高い精度で実現し,特に少数の時間ステップにおいて試料品質を向上させる。

Diffusion probabilistic models (DPMs) are a class of powerful deep generative models (DGMs). Despite their success, the iterative generation process over the full timesteps is much less efficient than other DGMs such as GANs. Thus, the generation performance on a subset of timesteps is crucial, which is greatly influenced by the covariance design in DPMs. In this work, we consider diagonal and full covariances to improve the expressive power of DPMs. We derive the optimal result for such covariances, and then correct it when the mean of DPMs is imperfect. Both the optimal and the corrected ones can be decomposed into terms of conditional expectations over functions of noise. Building upon it, we propose to estimate the optimal covariance and its correction given imperfect mean by learning these conditional expectations. Our method can be applied to DPMs with both discrete and continuous timesteps. We consider the diagonal covariance in our implementation for computational efficiency. For an efficient practical implementation, we adopt a parameter sharing scheme and a two-stage training process. Empirically, our method outperforms a wide variety of covariance design on likelihood results, and improves the sample quality especially on a small number of timesteps.
翻訳日:2022-06-16 14:32:13 公開日:2022-06-15
# 無線フェデレーション学習の効率的な資源管理のためのクラスタスケジューリングと通信パイプライン

Clustered Scheduling and Communication Pipelining For Efficient Resource Management Of Wireless Federated Learning ( http://arxiv.org/abs/2206.07631v1 )

ライセンス: Link先を確認
Cihat Ke\c{c}eci, Mohammad Shaqfeh, Fawaz Al-Qahtani, Muhammad Ismail, and Erchin Serpedin(参考訳) 本稿では,モバイルエッジコンピューティングアプリケーションにおけるフェデレート学習の無線スペクトル利用効率と収束速度を向上させるための通信パイプラインを提案する。 制限された無線サブチャネルのため、全クライアントのサブセットは、連合学習アルゴリズムの各イテレーションでスケジュールされる。 一方、スケジュールされたクライアントは、最も遅いクライアントが計算を完了するのを待ちます。 フェデレーション学習モデルの局所的な勾配を計算するために、まず、イテレーション毎に必要な時間に基づいてクライアントをクラスタ化する。 そして、すべてのクラスタからのクライアントの混在をスケジュールし、パイプライン化された方法でローカル更新を送信する。 このように、遅いクライアントが計算を完了するのを待つのではなく、より多くのクライアントがイテレーションに参加します。 単一反復の時間長は変化しないが,提案手法は目標精度を達成するために必要な反復回数を大幅に削減することができる。 異なる設定下での最適なクライアントクラスタリングのための汎用的定式化を提案し,最適な解を得るための効率的なアルゴリズムを解析的に導出する。 また,異なるデータセットとディープラーニングアーキテクチャに対する提案手法の利点を示す数値的な結果も提供する。

This paper proposes using communication pipelining to enhance the wireless spectrum utilization efficiency and convergence speed of federated learning in mobile edge computing applications. Due to limited wireless sub-channels, a subset of the total clients is scheduled in each iteration of federated learning algorithms. On the other hand, the scheduled clients wait for the slowest client to finish its computation. We propose to first cluster the clients based on the time they need per iteration to compute the local gradients of the federated learning model. Then, we schedule a mixture of clients from all clusters to send their local updates in a pipelined manner. In this way, instead of just waiting for the slower clients to finish their computation, more clients can participate in each iteration. While the time duration of a single iteration does not change, the proposed method can significantly reduce the number of required iterations to achieve a target accuracy. We provide a generic formulation for optimal client clustering under different settings, and we analytically derive an efficient algorithm for obtaining the optimal solution. We also provide numerical results to demonstrate the gains of the proposed method for different datasets and deep learning architectures.
翻訳日:2022-06-16 14:31:57 公開日:2022-06-15
# 量子コンピューティングの概要:離散対連続変数モデル

Quantum computing overview: discrete vs. continuous variable models ( http://arxiv.org/abs/2206.07246v1 )

ライセンス: Link先を確認
Sophie Choe(参考訳) この中間スケールの量子時代において、クラウド上で利用可能な短期的量子デバイスには、離散変数モデルに基づく超伝導量子処理ユニット(qpus)と、連続変数(cv)モデルに基づく線形光学(フォトニクス)qpuの2種類がある。 離散変数モデルにおける量子計算は、有限次元の量子状態空間と無限次元の空間におけるcvモデルで実行される。 量子アルゴリズムの実装において、CVモデルは離散変数モデルでは利用できないより多くの量子ゲートを提供する。 CVベースのフォトニック量子コンピュータは、異なる測定方法とカットオフ次元の概念を用いて、量子回路の出力ベクトルの長さを制御する柔軟性を提供する。

In this Near Intermediate-Scale Quantum era, there are two types of near-term quantum devices available on cloud: superconducting quantum processing units (QPUs) based on the discrete variable model and linear optics (photonics) QPUs based on the continuous variable (CV) model. Quantum computation in the discrete variable model is performed in a finite dimensional quantum state space and the CV model in an infinite dimensional space. In implementing quantum algorithms, the CV model offers more quantum gates that are not available in the discrete variable model. CV-based photonic quantum computers provide additional flexibility of controlling the length of the output vectors of quantum circuits, using different methods of measurement and the notion of cutoff dimension.
翻訳日:2022-06-16 14:31:00 公開日:2022-06-15
# 高齢者・変形性音声認識におけるクロスドメインおよびクロスリンガル超音波舌画像の特徴

Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging Features For Elderly And Dysarthric Speech Recognition ( http://arxiv.org/abs/2206.07327v1 )

ライセンス: Link先を確認
Shujie Hu, Xurong Xie, Mengzhe Geng, Mingyu Cui, Jiajun Deng, Tianzi Wang, Xunying Liu, Helen Meng(参考訳) 調音機能は本質的に音響信号の歪みに不変であり、正常音声用に設計された自動音声認識(ASR)システムにうまく組み込まれている。 言語にまたがる高齢者や無秩序な発話などの非定型課題領域への実践的応用は、ターゲット話者からそのような専門的データを収集することの難しさによって制限されることが多い。 本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・視覚・超音波舌画像(UTI)データを用いて,2つの言語にまたがる3つのデータセットに事前学習を行い,その2つの言語を横断的に適用する手法を提案する: 英語のDementiaBank PittとCandonese JCCOCC MoCA 音声コーパス,および英語のTORGO 音声データ。 データ拡張と話者適応の後に、統計的に有意な単語誤り率または文字誤り率を最大2.64%、9.2%、1.21%絶対(8.17%、7.89%、13.28%相対)まで減らすだけで音響特徴を用いて構築された音響特徴量を用いて構築された、ベースラインハイブリッドtdnnとコンフォーメータベースのエンドツーエンドシステムとを一貫して上回っていた。

Articulatory features are inherently invariant to acoustic signal distortion and have been successfully incorporated into automatic speech recognition (ASR) systems designed for normal speech. Their practical application to atypical task domains such as elderly and disordered speech across languages is often limited by the difficulty in collecting such specialist data from target speakers. This paper presents a cross-domain and cross-lingual A2A inversion approach that utilizes the parallel audio, visual and ultrasound tongue imaging (UTI) data of the 24-hour TaL corpus in A2A model pre-training before being cross-domain and cross-lingual adapted to three datasets across two languages: the English DementiaBank Pitt and Cantonese JCCOCC MoCA elderly speech corpora; and the English TORGO dysarthric speech data, to produce UTI based articulatory features. Experiments conducted on three tasks suggested incorporating the generated articulatory features consistently outperformed the baseline hybrid TDNN and Conformer based end-to-end systems constructed using acoustic features only by statistically significant word error rate or character error rate reductions up to 2.64%, 1.92% and 1.21% absolute (8.17%, 7.89% and 13.28% relative) after data augmentation and speaker adaptation were applied.
翻訳日:2022-06-16 14:30:49 公開日:2022-06-15
# (参考訳) ダイナミックビュー合成の高速最適化のためのニューラル変形可能なボクセルグリッド

Neural Deformable Voxel Grid for Fast Optimization of Dynamic View Synthesis ( http://arxiv.org/abs/2206.07698v1 )

ライセンス: CC BY 4.0
Xiang Guo, Guanying Chen, Yuchao Dai, Xiaoqing Ye, Jiadai Sun, Xiao Tan and Errui Ding(参考訳) 近年,Neural Radiance Fields (NeRF) は,新しいビュー合成 (NVS) の課題に革命をもたらしている。 しかし、NeRFとその変種は一般的に、キャプチャされた画像に多層パーセプトロン(MLP)を装着する、シーンごとの長い訓練手順を必要とする。 この課題を解決するために、トレーニングを著しく高速化するボクセルグリッド表現が提案されている。 しかし、これらの既存のメソッドは静的なシーンしか扱えない。 効率的かつ正確な動的ビュー合成法の開発は依然として未解決の問題である。 静的シーンのメソッドを動的シーンに拡張することは、シーンの幾何学と外観が時間とともに変化するため、簡単ではない。 本稿では,voxel-grid最適化の最近の進歩に基づいて,動的シーンを扱う高速変形可能なラミアンスフィールド法を提案する。 本手法は2つのモジュールからなる。 第1モジュールは、変形格子を用いて3次元動的特徴を記憶し、その補間特徴を用いて観測空間内の3次元点を標準空間にマッピングする変形を復号する軽量MLPである。 第2のモジュールは、シーンの形状と密度をモデル化する密度とカラーグリッドを含んでいる。 咬合は、さらにレンダリング品質を向上させるために明示的にモデル化される。 実験の結果,本手法はd-nerfよりも70倍以上高速で,トレーニング時間20分でd-nerfと同等の性能が得られることがわかった。

Recently, Neural Radiance Fields (NeRF) is revolutionizing the task of novel view synthesis (NVS) for its superior performance. However, NeRF and its variants generally require a lengthy per-scene training procedure, where a multi-layer perceptron (MLP) is fitted to the captured images. To remedy the challenge, the voxel-grid representation has been proposed to significantly speed up the training. However, these existing methods can only deal with static scenes. How to develop an efficient and accurate dynamic view synthesis method remains an open problem. Extending the methods for static scenes to dynamic scenes is not straightforward as both the scene geometry and appearance change over time. In this paper, built on top of the recent advances in voxel-grid optimization, we propose a fast deformable radiance field method to handle dynamic scenes. Our method consists of two modules. The first module adopts a deformation grid to store 3D dynamic features, and a light-weight MLP for decoding the deformation that maps a 3D point in observation space to the canonical space using the interpolated features. The second module contains a density and a color grid to model the geometry and density of the scene. The occlusion is explicitly modeled to further improve the rendering quality. Experimental results show that our method achieves comparable performance to D-NeRF using only 20 minutes for training, which is more than 70x faster than D-NeRF, clearly demonstrating the efficiency of our proposed method.
翻訳日:2022-06-16 14:28:44 公開日:2022-06-15
# bio-cxrnet:胸部x線画像と臨床データを用いたcovid-19患者の死亡リスク予測のためのロバストなマルチモーダル積み重ね機械学習技術

BIO-CXRNET: A Robust Multimodal Stacking Machine Learning Technique for Mortality Risk Prediction of COVID-19 Patients using Chest X-Ray Images and Clinical Data ( http://arxiv.org/abs/2206.07595v1 )

ライセンス: Link先を確認
Tawsifur Rahman, Muhammad E. H. Chowdhury, Amith Khandakar, Zaid Bin Mahbub, Md Sakib Abrar Hossain, Abraham Alhatou, Eynas Abdalla, Sreekumar Muthiyal, Khandaker Farzana Islam, Saad Bin Abul Kashem, Muhammad Salman Khan, Susu M. Zughaier, Maqsud Hossain(参考訳) この病気の迅速かつ正確な検出は、パンデミック時の死亡率を減らすために、あらゆる国の医療施設の負担を減らすのに大いに役立つ。 この研究の目的は、Chest X-ray(CXR)画像と臨床データを使って新型コロナウイルス患者の重症度を予測する新しい機械学習フレームワークを使用して、マルチモーダルシステムを構築することである。 さらに, リスクの高い患者の死亡確率を予測するためのノモグラムを用いたスコアリング手法を提案する。 この研究は、イタリアの新型コロナウイルス(2020年3月から6月)の第1波で入院した930人のリスクを予測するために、25のバイオマーカーとcxr画像を使用する。 提案手法は, 精度, 感度, およびf1-scoreをそれぞれ89.03%, 90.44%, 89.03%とし, 低リスク患者と高リスク患者を同定した。 このマルチモーダルアプローチは、CXR画像または臨床データ単独と比較して精度を6%向上させた。 最後に,多変量ロジスティック回帰を用いたノモグラムスコアリングシステムを用いて,第1段階で特定された高リスク患者の死亡リスクの階層化を行った。 Lactate Dehydrogenase (LDH), O2%, White Blood Cells (WBC) Count, Age, C-reactive protein (CRP) をランダム森林の特徴選択モデルを用いて同定した。 5つの予測パラメータとCXR画像に基づくノモグラムスコアを用いて,死亡確率を定量化し,これらを生存群(50%)と死亡群(50%)の2つの危険群に分類した。 マルチモーダル法では、F1スコア92.88 %の高リスク患者の死亡確率を予測することができた。 開発と検証のための曲線の下の領域はそれぞれ0.981と0.939である。

Fast and accurate detection of the disease can significantly help in reducing the strain on the healthcare facility of any country to reduce the mortality during any pandemic. The goal of this work is to create a multimodal system using a novel machine learning framework that uses both Chest X-ray (CXR) images and clinical data to predict severity in COVID-19 patients. In addition, the study presents a nomogram-based scoring technique for predicting the likelihood of death in high-risk patients. This study uses 25 biomarkers and CXR images in predicting the risk in 930 COVID-19 patients admitted during the first wave of COVID-19 (March-June 2020) in Italy. The proposed multimodal stacking technique produced the precision, sensitivity, and F1-score, of 89.03%, 90.44%, and 89.03%, respectively to identify low or high-risk patients. This multimodal approach improved the accuracy by 6% in comparison to the CXR image or clinical data alone. Finally, nomogram scoring system using multivariate logistic regression -- was used to stratify the mortality risk among the high-risk patients identified in the first stage. Lactate Dehydrogenase (LDH), O2 percentage, White Blood Cells (WBC) Count, Age, and C-reactive protein (CRP) were identified as useful predictor using random forest feature selection model. Five predictors parameters and a CXR image based nomogram score was developed for quantifying the probability of death and categorizing them into two risk groups: survived (<50%), and death (>=50%), respectively. The multi-modal technique was able to predict the death probability of high-risk patients with an F1 score of 92.88 %. The area under the curves for the development and validation cohorts are 0.981 and 0.939, respectively.
翻訳日:2022-06-16 14:26:40 公開日:2022-06-15
# 可変ビットレートニューラルフィールド

Variable Bitrate Neural Fields ( http://arxiv.org/abs/2206.07707v1 )

ライセンス: Link先を確認
Towaki Takikawa and Alex Evans and Jonathan Tremblay and Thomas M\"uller and Morgan McGuire and Alec Jacobson and Sanja Fidler(参考訳) 符号付き距離関数や放射場などのスカラー場とベクトル場のニューラル近似は、正確で高品質な表現として現れている。 学習タスクの一部となり、より小さく、より効率的なニューラルネットワークを可能にするトレーニング可能な特徴グリッドから、ニューラルネットワーク近似をルックアップで条件付けすることで、最先端の成果が得られる。 残念なことに、これらの機能グリッドは通常、スタンドアロンのニューラルネットワークモデルに比べてメモリ消費が大幅に増加するコストがかかる。 本稿では,これらの特徴グリッドを圧縮し,メモリ消費を最大100倍削減し,コア外ストリーミングに有用なマルチレゾリューション表現を可能にする辞書手法を提案する。 辞書最適化をベクトル量子化オートデコーダ問題として定式化し、直接監督ができない空間で、動的トポロジーと構造でエンドツーエンドの離散的ニューラルネットワーク表現を学ぶ。 ソースコードはhttps://github.com/nv-tlabs/vqad.com/で入手できる。

Neural approximations of scalar and vector fields, such as signed distance functions and radiance fields, have emerged as accurate, high-quality representations. State-of-the-art results are obtained by conditioning a neural approximation with a lookup from trainable feature grids that take on part of the learning task and allow for smaller, more efficient neural networks. Unfortunately, these feature grids usually come at the cost of significantly increased memory consumption compared to stand-alone neural network models. We present a dictionary method for compressing such feature grids, reducing their memory consumption by up to 100x and permitting a multiresolution representation which can be useful for out-of-core streaming. We formulate the dictionary optimization as a vector-quantized auto-decoder problem which lets us learn end-to-end discrete neural representations in a space where no direct supervision is available and with dynamic topology and structure. Our source code will be available at https://github.com/nv-tlabs/vqad.
翻訳日:2022-06-16 14:26:07 公開日:2022-06-15
# 暗黙の規則化と暗黙の条件付け? 高次元におけるSGDの厳密なリスク軌跡

Implicit Regularization or Implicit Conditioning? Exact Risk Trajectories of SGD in High Dimensions ( http://arxiv.org/abs/2206.07252v1 )

ライセンス: Link先を確認
Courtney Paquette, Elliot Paquette, Ben Adlam, Jeffrey Pennington(参考訳) 確率勾配勾配(SGD)は現代の機械学習の柱であり、様々な問題に対するゴート最適化アルゴリズムとして機能している。 SGDの実証的な成功は、その計算効率と好ましい一般化行動に起因することが多いが、どちらの効果もよく理解されておらず、それらを切り離すことも未解決の問題である。 凸二次問題の簡単な設定においても、最悪のケース解析は、フルバッチ勾配降下 (GD) に匹敵しない漸近収束率を与え、SGDの暗黙的正規化効果は正確な説明を欠いている。 本研究では,高次元凸二次方程式上のマルチパスSGDの力学を研究し,その解をボルテラ積分方程式で明確に特徴づけるホモジェナイズド・確率勾配勾配(HSGD)と呼ばれる確率微分方程式に漸近同値を確立する。 これらの結果は,gdに対するsgdの効率性を説明する暗黙的条件づけのメカニズムを明らかにする学習とリスクトラジェクタの正確な公式を与える。 また,sgdの雑音が一般化性能に悪影響を及ぼすことを証明し,この文脈における暗黙的正規化の可能性を排除した。 最後に,hsgd形式をストリーミングsgdに適応させる方法を示す。これにより,ストリーミングsgd(bootstrap risk)と比較して,マルチパスsgdの過剰リスクを正確に予測することができる。

Stochastic gradient descent (SGD) is a pillar of modern machine learning, serving as the go-to optimization algorithm for a diverse array of problems. While the empirical success of SGD is often attributed to its computational efficiency and favorable generalization behavior, neither effect is well understood and disentangling them remains an open problem. Even in the simple setting of convex quadratic problems, worst-case analyses give an asymptotic convergence rate for SGD that is no better than full-batch gradient descent (GD), and the purported implicit regularization effects of SGD lack a precise explanation. In this work, we study the dynamics of multi-pass SGD on high-dimensional convex quadratics and establish an asymptotic equivalence to a stochastic differential equation, which we call homogenized stochastic gradient descent (HSGD), whose solutions we characterize explicitly in terms of a Volterra integral equation. These results yield precise formulas for the learning and risk trajectories, which reveal a mechanism of implicit conditioning that explains the efficiency of SGD relative to GD. We also prove that the noise from SGD negatively impacts generalization performance, ruling out the possibility of any type of implicit regularization in this context. Finally, we show how to adapt the HSGD formalism to include streaming SGD, which allows us to produce an exact prediction for the excess risk of multi-pass SGD relative to that of streaming SGD (bootstrap risk).
翻訳日:2022-06-16 14:24:58 公開日:2022-06-15
# ミニバッチ重球運動量の高速収束について

On the fast convergence of minibatch heavy ball momentum ( http://arxiv.org/abs/2206.07553v1 )

ライセンス: Link先を確認
Raghu Bollapragada, Tyler Chen, Rachel Ward(参考訳) 単純な確率運動量法は機械学習の最適化に広く用いられているが、その優れた実用性能は、文学における加速の理論的保証がないことと相反する。 本研究では,2次最適化問題における(決定論的)重球運動量の高速線形速度を,少なくとも十分に大きなバッチサイズで最小化する場合は,ランダム化Kaczmarzアルゴリズムと解釈できる確率重球運動量を示すことによって,理論と実践のギャップを埋めることを目的としている。 この分析は運動量遷移行列を慎重に分解し、独立なランダム行列の積に対して新しいスペクトルノルム濃度境界を用いる。 我々は、境界が合理的に鋭いことを示す数値実験を提供する。

Simple stochastic momentum methods are widely used in machine learning optimization, but their good practical performance is at odds with an absence of theoretical guarantees of acceleration in the literature. In this work, we aim to close the gap between theory and practice by showing that stochastic heavy ball momentum, which can be interpreted as a randomized Kaczmarz algorithm with momentum, retains the fast linear rate of (deterministic) heavy ball momentum on quadratic optimization problems, at least when minibatching with a sufficiently large batch size is used. The analysis relies on carefully decomposing the momentum transition matrix, and using new spectral norm concentration bounds for products of independent random matrices. We provide numerical experiments to demonstrate that our bounds are reasonably sharp.
翻訳日:2022-06-16 14:24:31 公開日:2022-06-15
# 群テストにおける統計的および計算的相転移

Statistical and Computational Phase Transitions in Group Testing ( http://arxiv.org/abs/2206.07640v1 )

ライセンス: Link先を確認
Amin Coja-Oghlan, Oliver Gebhard, Max Hahn-Klimroth, Alexander S. Wein, Ilias Zadik(参考訳) 本研究の目的は,n の集団内で稀な疾患を患っている k 人の集団を同定することであり,少なくとも 1 人の感染者が存在する場合に正の値を返すプールテストの結果に基づいて検討することである。 テストに個人を割り当てるための2つの異なる単純なランダム手順を考える: 定数列設計とベルヌーイ設計。 第1セットの結果は、基本的な統計的な限界に関するものです。 一定カラム設計では, 検査数が特定の閾値を越えると, 正しく同定された感染個体の割合が急激な「オール・オア・ナッシング」相転移することを示す情報理論の下限が新たに提供される。 ベルヌーイの設計では、関連する検出問題(グループテストインスタンスと純粋なノイズを区別することを目的としている)を解決するのに必要なテストの正確な数を判定し、トゥルーン、アルドリッジ、スカーレット(2020年)の上下両方の境界を改善した。 両群試験モデルについても,計算効率(多項式時間)推論手法のパワーについて検討する。 検出問題を解くために,低次多項式アルゴリズムのクラスに必要なテストの正確な数を決定する。 このことは、小さな空間レベルにおける検出と回復の問題の両方において、本質的に計算統計的ギャップの証拠となる。 特に、我々の証拠はイリオポウロスとザディク(2021年)がベルヌーイの設計に計算統計的ギャップがないことを予言した証拠とは反対である。

We study the group testing problem where the goal is to identify a set of k infected individuals carrying a rare disease within a population of size n, based on the outcomes of pooled tests which return positive whenever there is at least one infected individual in the tested group. We consider two different simple random procedures for assigning individuals to tests: the constant-column design and Bernoulli design. Our first set of results concerns the fundamental statistical limits. For the constant-column design, we give a new information-theoretic lower bound which implies that the proportion of correctly identifiable infected individuals undergoes a sharp "all-or-nothing" phase transition when the number of tests crosses a particular threshold. For the Bernoulli design, we determine the precise number of tests required to solve the associated detection problem (where the goal is to distinguish between a group testing instance and pure noise), improving both the upper and lower bounds of Truong, Aldridge, and Scarlett (2020). For both group testing models, we also study the power of computationally efficient (polynomial-time) inference procedures. We determine the precise number of tests required for the class of low-degree polynomial algorithms to solve the detection problem. This provides evidence for an inherent computational-statistical gap in both the detection and recovery problems at small sparsity levels. Notably, our evidence is contrary to that of Iliopoulos and Zadik (2021), who predicted the absence of a computational-statistical gap in the Bernoulli design.
翻訳日:2022-06-16 14:24:17 公開日:2022-06-15
# 文書意味グラフによる接地対話の知識選択の強化

Enhanced Knowledge Selection for Grounded Dialogues via Document Semantic Graphs ( http://arxiv.org/abs/2206.07296v1 )

ライセンス: Link先を確認
Sha Li, Madhi Namazifar, Di Jin, Mohit Bansal, Heng Ji, Yang Liu, Dilek Hakkani-Tur(参考訳) 背景知識を持つ会話モデルを提供することで、オープンドメイン対話をより情報的かつ活発なものにすることが示されている。 既存のモデルは、各文が個別に扱われる文ランキングや分類問題として知識選択を扱い、背景文書中の文の内部意味的関係を無視している。 本研究では,背景知識文書を自動的に文書意味グラフに変換し,その上で知識選択を行うことを提案する。 文書意味グラフは文ノードを用いて文レベル情報を保存し,文間の概念接続を提供する。 マルチタスク学習を文レベルの知識選択と概念レベルの知識選択に適用し,文レベルの選択を改善することを示す。 本実験は,知識選択タスクとHollEのエンドツーエンド応答生成タスクの両方において,意味グラフに基づく知識選択が文選択ベースラインよりも向上し,WoWにおける未知トピックの一般化が向上することを示す。

Providing conversation models with background knowledge has been shown to make open-domain dialogues more informative and engaging. Existing models treat knowledge selection as a sentence ranking or classification problem where each sentence is handled individually, ignoring the internal semantic connection among sentences in the background document. In this work, we propose to automatically convert the background knowledge documents into document semantic graphs and then perform knowledge selection over such graphs. Our document semantic graphs preserve sentence-level information through the use of sentence nodes and provide concept connections between sentences. We jointly apply multi-task learning for sentence-level and concept-level knowledge selection and show that it improves sentence-level selection. Our experiments show that our semantic graph-based knowledge selection improves over sentence selection baselines for both the knowledge selection task and the end-to-end response generation task on HollE and improves generalization on unseen topics in WoW.
翻訳日:2022-06-16 14:23:14 公開日:2022-06-15
# AMRアライメント: クロスアテンションに注意を払う

AMR Alignment: Paying Attention to Cross-Attention ( http://arxiv.org/abs/2206.07587v1 )

ライセンス: Link先を確認
Pere-Llu\'is Huguet Cabot, Abelardo Carlos Mart\'inez Lorenzo, Roberto Navigli(参考訳) トランスフォーマーモデルの急増に伴い、多くの人は学習した表現に対する注意がどう作用するかを調査した。 しかし、セマンティック解析のような特定のタスクには、まだ注意が払われていない。 文の意味の形式的表現に対する一般的なアプローチは抽象的意味表現(AMR)である。 これまで、文とそのamr表現のアライメントは、規則や期待最大化(em)アルゴリズムなど、様々な方法で研究されてきた。 本稿では,アドホック戦略を使わずに効果的なアライメントを実現するトランスフォーマティブ解析モデルの能力について検討する。 本稿では,文スパンと意味単位間のアライメントの代理として,amrのクロスアテンションを初めて詳細に検討する。 現行のトランスフォーマーベースのパーサは,アライメント情報をクロスアライメント重みで暗黙的にエンコードする方法と,アライメントの抽出にそれを活用する方法を示す。 さらに、アライメントを用いて相互注意を監督し、ガイドし、英語およびAMR固有の規則の必要性をなくす。

With the surge of Transformer models, many have investigated how attention acts on the learned representations. However, attention is still overlooked for specific tasks, such as Semantic Parsing. A popular approach to the formal representation of a sentence's meaning is Abstract Meaning Representation (AMR). Until now, the alignment between a sentence and its AMR representation has been explored in different ways, such as through rules or via the Expectation Maximization (EM) algorithm. In this paper, we investigate the ability of Transformer-based parsing models to yield effective alignments without ad-hoc strategies. We present the first in-depth exploration of cross-attention for AMR by proxy of alignment between the sentence spans and the semantic units in the graph. We show how current Transformer-based parsers implicitly encode the alignment information in the cross-attention weights and how to leverage it to extract such alignment. Furthermore, we supervise and guide cross-attention using alignment, dropping the need for English- and AMR-specific rules.
翻訳日:2022-06-16 14:22:56 公開日:2022-06-15
# シGMORPHON 2022 モルフェムセグメンテーションの共有タスク

The SIGMORPHON 2022 Shared Task on Morpheme Segmentation ( http://arxiv.org/abs/2206.07615v1 )

ライセンス: Link先を確認
Khuyagbaatar Batsuren, G\'abor Bella, Aryaman Arora, Viktor Martinovi\'c, Kyle Gorman, Zden\v{e}k \v{Z}abokrtsk\'y, Amarsanaa Ganbold, \v{S}\'arka Dohnalov\'a, Magda \v{S}ev\v{c}\'ikov\'a, Kate\v{r}ina Pelegrinov\'a, Fausto Giunchiglia, Ryan Cotterell, Ekaterina Vylomova(参考訳) sigmorphon 2022は、形態素のセグメンテーションに関する共通のタスクを共有し、ある単語を形態素の列に分解し、ほとんどの形態素(化合物、導出、反射)をカバーした。 サブタスク1では、9つの言語(チェコ語、英語、スペイン語、ハンガリー語、フランス語、イタリア語、ロシア語、ラテン語、モンゴル語)で500万語をカバーし、7つのチームから13のシステム申請を受け、最も優れたシステムは英語(93.84%)からラテン語(99.38%)まで、全言語で97.29%のスコアを獲得した。 subtask 2, sentence-level morpheme segmentation, cover 18,735 sentences in 3 languages (czech, english, mongolian) は3つのチームから10のシステム投稿を受け取り、最も優れたシステムは3つの最先端のサブワードトークン化メソッド (bpe, ulm, morfessor2) を30.71%絶対的に上回った。 エラー解析を容易にし,今後の研究をサポートするため,システム予測,評価スクリプト,ゴールド標準データセットをすべてリリースした。

The SIGMORPHON 2022 shared task on morpheme segmentation challenged systems to decompose a word into a sequence of morphemes and covered most types of morphology: compounds, derivations, and inflections. Subtask 1, word-level morpheme segmentation, covered 5 million words in 9 languages (Czech, English, Spanish, Hungarian, French, Italian, Russian, Latin, Mongolian) and received 13 system submissions from 7 teams and the best system averaged 97.29% F1 score across all languages, ranging English (93.84%) to Latin (99.38%). Subtask 2, sentence-level morpheme segmentation, covered 18,735 sentences in 3 languages (Czech, English, Mongolian), received 10 system submissions from 3 teams, and the best systems outperformed all three state-of-the-art subword tokenization methods (BPE, ULM, Morfessor2) by 30.71% absolute. To facilitate error analysis and support any type of future studies, we released all system predictions, the evaluation script, and all gold standard datasets.
翻訳日:2022-06-16 14:20:01 公開日:2022-06-15
# MALACHプロジェクトにおけるフォーマルチェコ語と口語チェコ語の自動音声認識

Transformer-based Automatic Speech Recognition of Formal and Colloquial Czech in MALACH Project ( http://arxiv.org/abs/2206.07666v1 )

ライセンス: Link先を確認
Jan Lehe\v{c}ka, Josef V. Psutka, Josef Psutka(参考訳) チェコ語は、形式的言語と口語的言語の間に大きな違いがあるため、非常に特殊な言語である。 形式的な(書かれた)形式は、主に公文書、文学、公的な演説で使用されるが、口語的(口語的)形式は、カジュアルなスピーチで広く使われる。 このギャップは、特にマラッチプロジェクトのような多くの口語を含むデータセット上でasrモデルをトレーニングまたは評価する場合に、asrシステムに深刻な問題をもたらす。 本稿では,最近導入された自己教師型オーディオトランスフォーマーである,エンドツーエンドのASRシステムにおける新しいパラダイムに照らして,この問題に対処する。 具体的には,wav2vec 2.0モデルの性能に対する口語音声の影響と,口語音声を形式的書き起こしに直接書き込む能力について検討する。 トレーニング用テキスト,言語モデル,評価用テキストにおいて,形式形式と口語形式の両方で結果を提示する。

Czech is a very specific language due to its large differences between the formal and the colloquial form of speech. While the formal (written) form is used mainly in official documents, literature, and public speeches, the colloquial (spoken) form is used widely among people in casual speeches. This gap introduces serious problems for ASR systems, especially when training or evaluating ASR models on datasets containing a lot of colloquial speech, such as the MALACH project. In this paper, we are addressing this problem in the light of a new paradigm in end-to-end ASR systems -- recently introduced self-supervised audio Transformers. Specifically, we are investigating the influence of colloquial speech on the performance of Wav2Vec 2.0 models and their ability to transcribe colloquial speech directly into formal transcripts. We are presenting results with both formal and colloquial forms in the training transcripts, language models, and evaluation transcripts.
翻訳日:2022-06-16 14:19:33 公開日:2022-06-15
# 大規模言語モデルの創発的能力

Emergent Abilities of Large Language Models ( http://arxiv.org/abs/2206.07682v1 )

ライセンス: Link先を確認
Jason Wei, Yi Tay, Rishi Bommasani, Colin Raffel, Barret Zoph, Sebastian Borgeaud, Dani Yogatama, Maarten Bosma, Denny Zhou, Donald Metzler, Ed H. Chi, Tatsunori Hashimoto, Oriol Vinyals, Percy Liang, Jeff Dean, William Fedus(参考訳) 言語モデルのスケールアップは、幅広い下流タスクのパフォーマンスとサンプル効率を予測可能改善することが示されている。 本稿では,大言語モデルの創発的能力と呼ぶ予測不能な現象について述べる。 より小さなモデルには存在しないが、より大きなモデルには存在しない場合、創発する能力を考える。 したがって、より小さなモデルの性能を外挿するだけでは、創発能力は予測できない。 このような出現の存在は、さらなるスケーリングが言語モデルの機能範囲をさらに拡大することを意味する。

Scaling up language models has been shown to predictably improve performance and sample efficiency on a wide range of downstream tasks. This paper instead discusses an unpredictable phenomenon that we refer to as emergent abilities of large language models. We consider an ability to be emergent if it is not present in smaller models but is present in larger models. Thus, emergent abilities cannot be predicted simply by extrapolating the performance of smaller models. The existence of such emergence implies that additional scaling could further expand the range of capabilities of language models.
翻訳日:2022-06-16 14:19:17 公開日:2022-06-15
# DIRECTOR: 教師付き言語モデリングのためのジェネレータ

DIRECTOR: Generator-Classifiers For Supervised Language Modeling ( http://arxiv.org/abs/2206.07694v1 )

ライセンス: Link先を確認
Kushal Arora, Kurt Shuster, Sainbayar Sukhbaatar and Jason Weston(参考訳) 現在の言語モデルは難易度は低いが、結果として生じる世代は依然として有毒な反応、反復性、矛盾に悩まされている。 標準言語モデリングのセットアップはこれらの問題に対処できない。 本稿では,各出力トークンに対する言語モデリングと分類ヘッドの両方を備えた統一型ジェネレータからなる新しいアーキテクチャである {\sc Director}を紹介する。 トレーニングは、標準言語モデリングデータと、望ましい、望ましくないシーケンスでラベル付けされたデータの両方を使って行われる。 いくつかの環境での実験では、このモデルは標準言語モデルと比較して競争力のあるトレーニングとデコード速度を有し、優れた結果を得る一方で、世代品質を維持しながら既知の問題を緩和する。 また、精度と効率の両面で、既存のモデルガイドアプローチよりも優れています。

Current language models achieve low perplexity but their resulting generations still suffer from toxic responses, repetitiveness and contradictions. The standard language modeling setup fails to address these issues. In this paper, we introduce a new architecture, {\sc Director}, that consists of a unified generator-classifier with both a language modeling and a classification head for each output token. Training is conducted jointly using both standard language modeling data, and data labeled with desirable and undesirable sequences. Experiments in several settings show that the model has competitive training and decoding speed compared to standard language models while yielding superior results, alleviating known issues while maintaining generation quality. It also outperforms existing model guiding approaches in terms of both accuracy and efficiency.
翻訳日:2022-06-16 14:19:09 公開日:2022-06-15
# SMTによる不確実性検査(拡張版)

Conformance Checking with Uncertainty via SMT (Extended Version) ( http://arxiv.org/abs/2206.07461v1 )

ライセンス: Link先を確認
Paolo Felli and Alessandro Gianola and Marco Montali and Andrey Rivkin and Sarah Winkler(参考訳) 実際のプロセスのログは、記録されたタイムスタンプ、データ値、および/またはイベントに関する不確実性を特徴とすることが多い。 データ認識参照プロセスに対する不確実なログの適合性チェックの問題を検討する。 具体的には、SMTエンコーディングによる解決方法を示し、データ認識SMTベースの適合性チェックに関する過去の研究を、より洗練された設定に引き上げる。 我々のアプローチはモジュラーであり、異なるタイプの不確実性に均質に対応する。 さらに、適切なコスト関数を使用すると、異なる適合性チェックタスクに対処できる。 提案手法の正確性を示し,概念実証による実証可能性を示す。

Logs of real-life processes often feature uncertainty pertaining the recorded timestamps, data values, and/or events. We consider the problem of checking conformance of uncertain logs against data-aware reference processes. Specifically, we show how to solve it via SMT encodings, lifting previous work on data-aware SMT-based conformance checking to this more sophisticated setting. Our approach is modular, in that it homogeneously accommodates for different types of uncertainty. Moreover, using appropriate cost functions, different conformance checking tasks can be addressed. We show the correctness of our approach and witness feasibility through a proof-of-concept implementation.
翻訳日:2022-06-16 14:18:48 公開日:2022-06-15
# オープンコーパスを活用した協調的知識グラフ融合

Collaborative Knowledge Graph Fusion by Exploiting the Open Corpus ( http://arxiv.org/abs/2206.07472v1 )

ライセンス: Link先を確認
Yue Wang, Yao Wan, Lu Bai, Lixin Cui, Zhuo Xu, Ming Li, Philip S. Yu, and Edwin R Hancock(参考訳) 知識グラフ(KG)をスクラッチから構築する際の課題を軽減するために、より一般的なタスクは、取得した三重項がノイズのあるエンティティや関係を含むオープンコーパスから三重項を使用することである。 知識表現の質を維持しつつ、新たに収穫した3倍のKGを豊かにすることは困難である。 本稿では,追加コーパスから得られた情報を用いてkgを精製するシステムを提案する。 この目的のために、我々はタスクを2つの結合したサブタスク、すなわち、イベント抽出(JEE)と知識グラフ融合(KGF)として定式化する。 次に,我々のサブタスクが相互に相互に相互に支援できるように,協調的知識グラフ融合フレームワークを提案する。 より具体的には、探検家は、地上真実アノテーションと、監督者が提供する既存のKGの両方によって監督されるJEEを実行する。 スーパーバイザーは、探検家によって抽出されたトリプルを評価し、KGを高いランクで強化する。 この評価を実現するために,抽出された三重項を先行kgに変換するための翻訳関係アライメントスコアリング機構を提案する。 実験では、このコラボレーションがJEEとKGFのパフォーマンスを改善することが確認されている。

To alleviate the challenges of building Knowledge Graphs (KG) from scratch, a more general task is to enrich a KG using triples from an open corpus, where the obtained triples contain noisy entities and relations. It is challenging to enrich a KG with newly harvested triples while maintaining the quality of the knowledge representation. This paper proposes a system to refine a KG using information harvested from an additional corpus. To this end, we formulate our task as two coupled sub-tasks, namely join event extraction (JEE) and knowledge graph fusion (KGF). We then propose a Collaborative Knowledge Graph Fusion Framework to allow our sub-tasks to mutually assist one another in an alternating manner. More concretely, the explorer carries out the JEE supervised by both the ground-truth annotation and an existing KG provided by the supervisor. The supervisor then evaluates the triples extracted by the explorer and enriches the KG with those that are highly ranked. To implement this evaluation, we further propose a Translated Relation Alignment Scoring Mechanism to align and translate the extracted triples to the prior KG. Experiments verify that this collaboration can both improve the performance of the JEE and the KGF.
翻訳日:2022-06-16 14:18:40 公開日:2022-06-15
# 生物多様性のためのML法に向けて:新しい野生ビーデータセットとML支援希少種アノテーションのためのXAI法の評価

Towards ML Methods for Biodiversity: A Novel Wild Bee Dataset and Evaluations of XAI Methods for ML-Assisted Rare Species Annotations ( http://arxiv.org/abs/2206.07497v1 )

ライセンス: Link先を確認
Teodor Chiaburu, Felix Biessmann and Frank Hausser(参考訳) 昆虫は生態系の重要な部分です。 残念なことに、ここ数十年でその数は大幅に減少した。 このプロセスをよりよく理解し、昆虫の個体数を監視するために、Deep Learningは実行可能なソリューションを提供するかもしれない。 しかし、分類学の広さと、クラス内変異率の高いクラス内変異率などの細粒度解析の典型的なハードルを考えると、昆虫分類は依然として困難な課題である。 ベンチマークデータセットはほとんどなく、より良いAIモデルの迅速な開発を妨げる。 しかし、希少種訓練データの注釈には専門家の知識が必要である。 説明可能な人工知能(XAI)は、これらのアノテーションタスクにおいて生物学者を支援することができるが、最適なXAI方法を選択することは難しい。 これらの研究課題への私たちの貢献は3倍です 1)iNaturalistデータベースから採取した野生ミツバチの完全な注釈画像のデータセット。 2) 他のきめ細かいデータセットで訓練された類似の最先端モデルに匹敵する分類スコアを達成する野生の蜂データセットで訓練されたresnetモデル 3) アノテーションタスクにおける生物学者支援のためのxai手法の検討

Insects are a crucial part of our ecosystem. Sadly, in the past few decades, their numbers have worryingly decreased. In an attempt to gain a better understanding of this process and monitor the insects populations, Deep Learning may offer viable solutions. However, given the breadth of their taxonomy and the typical hurdles of fine grained analysis, such as high intraclass variability compared to low interclass variability, insect classification remains a challenging task. There are few benchmark datasets, which impedes rapid development of better AI models. The annotation of rare species training data, however, requires expert knowledge. Explainable Artificial Intelligence (XAI) could assist biologists in these annotation tasks, but choosing the optimal XAI method is difficult. Our contribution to these research challenges is threefold: 1) a dataset of thoroughly annotated images of wild bees sampled from the iNaturalist database, 2) a ResNet model trained on the wild bee dataset achieving classification scores comparable to similar state-of-the-art models trained on other fine-grained datasets and 3) an investigation of XAI methods to support biologists in annotation tasks.
翻訳日:2022-06-16 14:18:18 公開日:2022-06-15
# E2V-SDE:ニューラル確率微分方程式による非同期イベントから高速かつ連続的なビデオ再構成

E2V-SDE: From Asynchronous Events to Fast and Continuous Video Reconstruction via Neural Stochastic Differential Equations ( http://arxiv.org/abs/2206.07578v1 )

ライセンス: Link先を確認
Jongwan Kim, DongJin Lee, Byunggook Na, Seongsik Park, Jeonghee Jo, Sungroh Yoon(参考訳) イベントカメラは、各ピクセルに対して非同期かつ独立にシーンの明るさ変化に応答する。 特性上、これらのカメラは高ダイナミックレンジ(hdr)、高時間分解能、低消費電力という特徴を持つ。 しかし、イベントカメラの結果はコンピュータビジョンタスクの代替表現として処理されるべきである。 また、通常は騒がしく、イベントが少ない地域では性能が悪い。 近年、多くの研究者がイベントのビデオの復元を試みている。 しかし、不規則で不連続なデータからの時間情報がないため、高品質なビデオを提供していない。 これらの問題を克服するために、確率微分方程式 (SDE) によって潜在空間で動力学が支配されるE2V-SDEを導入する。 したがって、E2V-SDEは任意の時間ステップで画像を迅速に再構成し、目に見えないデータに対して現実的な予測を行うことができる。 さらに,画像の明瞭度と時間的整合性を改善するために,様々な画像合成技術を採用した。 シミュレーションおよび実演データセットの広範な実験を行い,様々な映像再構成環境において,本モデルが最先端のアプローチよりも優れていることを検証した。 画像品質の面では、LPIPSスコアは最大12%向上し、再構築速度はET-Netよりも87%高い。

Event cameras respond to brightness changes in the scene asynchronously and independently for every pixel. Due to the properties, these cameras have distinct features: high dynamic range (HDR), high temporal resolution, and low power consumption. However, the results of event cameras should be processed into an alternative representation for computer vision tasks. Also, they are usually noisy and cause poor performance in areas with few events. In recent years, numerous researchers have attempted to reconstruct videos from events. However, they do not provide good quality videos due to a lack of temporal information from irregular and discontinuous data. To overcome these difficulties, we introduce an E2V-SDE whose dynamics are governed in a latent space by Stochastic differential equations (SDE). Therefore, E2V-SDE can rapidly reconstruct images at arbitrary time steps and make realistic predictions on unseen data. In addition, we successfully adopted a variety of image composition techniques for improving image clarity and temporal consistency. By conducting extensive experiments on simulated and real-scene datasets, we verify that our model outperforms state-of-the-art approaches under various video reconstruction settings. In terms of image quality, the LPIPS score improves by up to 12% and the reconstruction speed is 87% higher than that of ET-Net.
翻訳日:2022-06-16 14:17:33 公開日:2022-06-15
# GRAM-HD: 生成放射マニフォールドを用いた高分解能3次元画像生成

GRAM-HD: 3D-Consistent Image Generation at High Resolution with Generative Radiance Manifolds ( http://arxiv.org/abs/2206.07255v1 )

ライセンス: Link先を確認
Jianfeng Xiang, Jiaolong Yang, Yu Deng, Xin Tong(参考訳) 近年の研究では、構造化されていない単一画像コレクションで訓練された3次元GANが、新規なインスタンスのマルチビュー画像を生成することが示されている。 これを実現するための鍵となる基盤は、3次元放射フィールドジェネレータとボリュームレンダリングプロセスである。 しかし、既存の手法では、ニューラルボリュームレンダリングの計算コストが高いため、高解像度の画像(例えば256X256)を生成できないか、異なるビューで3D一貫性を損なうイメージ空間のアップサンプリングに2D CNNに依存するかのいずれかである。 本稿では,ボリュームレンダリングのように厳密な3D一貫性を維持しつつ,高解像度画像(最大1024×1024)を生成できる新しい3D対応GANを提案する。 私たちのモチベーションは、3d空間で直接超解像を達成し、3dの一貫性を保つことです。 我々は、最近の生成放射率多様体(GRAM)アプローチで定義された2次元放射率多様体の集合に2次元畳み込みを適用し、高分解能なGAN訓練に専用損失関数を適用することで、従来より厳しい計算コストを回避する。 FFHQとAFHQv2データセットを用いた実験により,既存の手法よりも優れた高品質な3D一貫性のある結果が得られることが示された。

Recent works have shown that 3D-aware GANs trained on unstructured single image collections can generate multiview images of novel instances. The key underpinnings to achieve this are a 3D radiance field generator and a volume rendering process. However, existing methods either cannot generate high-resolution images (e.g., up to 256X256) due to the high computation cost of neural volume rendering, or rely on 2D CNNs for image-space upsampling which jeopardizes the 3D consistency across different views. This paper proposes a novel 3D-aware GAN that can generate high resolution images (up to 1024X1024) while keeping strict 3D consistency as in volume rendering. Our motivation is to achieve super-resolution directly in the 3D space to preserve 3D consistency. We avoid the otherwise prohibitively-expensive computation cost by applying 2D convolutions on a set of 2D radiance manifolds defined in the recent generative radiance manifold (GRAM) approach, and apply dedicated loss functions for effective GAN training at high resolution. Experiments on FFHQ and AFHQv2 datasets show that our method can produce high-quality 3D-consistent results that significantly outperform existing methods.
翻訳日:2022-06-16 14:16:56 公開日:2022-06-15
# ファウショット分類における一般化の再考

Rethinking Generalization in Few-Shot Classification ( http://arxiv.org/abs/2206.07267v1 )

ライセンス: Link先を確認
Markus Hiller, Rongkai Ma, Mehrtash Harandi, Tom Drummond(参考訳) 単一の画像レベルのアノテーションは、画像の内容の小さなサブセット、特に複雑な実世界のシーンを正しく記述するだけである。 これは多くの分類シナリオで受け入れられるかもしれないが、クラスの集合がトレーニングとテスト時間で著しく異なるアプリケーションにとって大きな課題となる。 本稿では、$\textit{few-shot learning}$という文脈における意味を詳しく見てみよう。 入力サンプルをパッチに分割し、ビジョントランスフォーマーの助けを借りてエンコーディングすることで、イメージをまたいだローカル領域間のセマンティックな対応を確立することができます。 手元のタスクに対する最も有益なパッチ埋め込みは、推測時にオンライン最適化によってセットされたサポートの関数として決定され、さらに画像内の$$\textit{what matters most}$'の視覚的解釈性を提供する。 我々は,細粒度ラベルの欠如を克服し,より一般的な統計構造を学習するために,マスク付き画像モデリングによるネットワークの教師なしトレーニングの最近の進歩に基づき,負のイメージレベルのアノテーションの影響を回避し,$\textit{aka}$ supervisor collapse を回避した。 実験の結果,我々のアプローチの競争力が示され,5ドルと1ドルのシナリオで,人気のある4つのマイナショット分類ベンチマークで最新の結果が得られた。

Single image-level annotations only correctly describe an often small subset of an image's content, particularly when complex real-world scenes are depicted. While this might be acceptable in many classification scenarios, it poses a significant challenge for applications where the set of classes differs significantly between training and test time. In this paper, we take a closer look at the implications in the context of $\textit{few-shot learning}$. Splitting the input samples into patches and encoding these via the help of Vision Transformers allows us to establish semantic correspondences between local regions across images and independent of their respective class. The most informative patch embeddings for the task at hand are then determined as a function of the support set via online optimization at inference time, additionally providing visual interpretability of `$\textit{what matters most}$' in the image. We build on recent advances in unsupervised training of networks via masked image modelling to overcome the lack of fine-grained labels and learn the more general statistical structure of the data while avoiding negative image-level annotation influence, $\textit{aka}$ supervision collapse. Experimental results show the competitiveness of our approach, achieving new state-of-the-art results on four popular few-shot classification benchmarks for $5$-shot and $1$-shot scenarios.
翻訳日:2022-06-16 14:16:32 公開日:2022-06-15
# シーン画像の表現と分類の最近の進歩

Recent Advances in Scene Image Representation and Classification ( http://arxiv.org/abs/2206.07326v1 )

ライセンス: Link先を確認
Chiranjibi Sitaula, Tej Bahadur Shahi, Faezeh Marzbanrad(参考訳) 近年のディープラーニングアルゴリズムの台頭により、ビッグデータ上のシーン画像表現手法(例えば、SUN-397)は、分類において顕著なパフォーマンス向上を実現している。 しかし,シーンイメージはクラス間の相似性やクラス間の類似性に問題があり,本質的には複雑なため,パフォーマンスは依然として限られている。 このような問題に対処するために、文献にはいくつかの方法が提案されている。 画像表現と分類の長所と短所を理解するためには,先行研究の詳細な研究が必要である。 本稿では,画像分類に広く用いられている既存のシーン画像表現手法について概説する。 そこで,本稿ではまず,本文献に提案されている専門的な方法を用いて分類を考案する。 次に、それらの性能(例えば、出力の品質、pros/consなど)と定量的(例えば、精度)を比較します。 最後に,シーンイメージ表現タスクにおける顕著な研究方向を推測する。 本稿では,従来のコンピュータビジョン(CV)ベースの手法,ディープラーニング(DL)ベースの手法,検索エンジン(SE)ベースの手法について,最近のシーン画像表現手法の詳細な知見と応用について述べる。

With the rise of deep learning algorithms nowadays, scene image representation methods on big data (e.g., SUN-397) have achieved a significant performance boost in classification. However, the performance is still limited because the scene images are mostly complex in nature having higher intra-class dissimilarity and inter-class similarity problems. To deal with such problems, there are several methods proposed in the literature with their own advantages and limitations. A detailed study of previous works is necessary to understand their pros and cons in image representation and classification. In this paper, we review the existing scene image representation methods that are being used widely for image classification. For this, we, first, devise the taxonomy using the seminal existing methods proposed in the literature to this date. Next, we compare their performance both qualitatively (e.g., quality of outputs, pros/cons, etc.) and quantitatively (e.g., accuracy). Last, we speculate the prominent research directions in scene image representation tasks. Overall, this survey provides in-depth insights and applications of recent scene image representation methods for traditional Computer Vision (CV)-based methods, Deep Learning (DL)-based methods, and Search Engine (SE)-based methods.
翻訳日:2022-06-16 14:16:10 公開日:2022-06-15
# MonoGround: 地上からモノクロ3Dオブジェクトを検出する

MonoGround: Detecting Monocular 3D Objects from the Ground ( http://arxiv.org/abs/2206.07372v1 )

ライセンス: Link先を確認
Zequn Qin, Xi Li(参考訳) 単眼の3Dオブジェクト検出は、単純さとコストの利点から大きな注目を集めている。 単眼画像からの2次元から3次元へのマッピングが不十分なため、単眼物体検出は不正確な深度推定に苦しむため、3次元検出結果が不十分である。 そこで,この問題を解消するために,単眼3次元物体検出に先行して基底面を導入することを提案する。 前接地平面は、不適切なマッピングに対する追加の幾何学的条件と深さ推定の余分な情報源として機能する。 このようにして、より正確な深度推定を地上から得ることができる。 一方, 先行する地上面を十分に活用するために, 先行する地上面に適した深度調整法と高精度な2段階深度推定法を提案する。 なお、導入前の地上機では、LiDARやステレオ画像、深度情報などの余分なデータソースは必要ない。 KITTIベンチマークの大規模な実験により,本手法は高速な動作を保ちながら,他の手法と比較して最先端の結果が得られることが示された。 私たちのコードとモデルはhttps://github.com/cfzd/monogroundで利用可能です。

Monocular 3D object detection has attracted great attention for its advantages in simplicity and cost. Due to the ill-posed 2D to 3D mapping essence from the monocular imaging process, monocular 3D object detection suffers from inaccurate depth estimation and thus has poor 3D detection results. To alleviate this problem, we propose to introduce the ground plane as a prior in the monocular 3d object detection. The ground plane prior serves as an additional geometric condition to the ill-posed mapping and an extra source in depth estimation. In this way, we can get a more accurate depth estimation from the ground. Meanwhile, to take full advantage of the ground plane prior, we propose a depth-align training strategy and a precise two-stage depth inference method tailored for the ground plane prior. It is worth noting that the introduced ground plane prior requires no extra data sources like LiDAR, stereo images, and depth information. Extensive experiments on the KITTI benchmark show that our method could achieve state-of-the-art results compared with other methods while maintaining a very fast speed. Our code and models are available at https://github.com/cfzd/MonoGround.
翻訳日:2022-06-16 14:14:20 公開日:2022-06-15
# ハイブリッドアンカー駆動順序分類による超高速深部レーン検出

Ultra Fast Deep Lane Detection with Hybrid Anchor Driven Ordinal Classification ( http://arxiv.org/abs/2206.07389v1 )

ライセンス: Link先を確認
Zequn Qin, Pengyi Zhang, Xi Li(参考訳) 現代の方法では、車線検出をピクセルワイドセグメンテーションの問題と見なしており、これは効率と厳しい閉塞や極端な照明条件のような挑戦的なシナリオの解決に苦慮している。 人間の知覚に触発されて、厳しい閉塞と極端な照明条件下での車線認識は主に文脈情報とグローバル情報に基づいている。 この観察に動機づけられ,超高速と挑戦的シナリオの問題を目的とした,新しい,単純かつ効果的な定式化を提案する。 具体的には,レーン検出の過程を,グローバル特徴量を用いたアンカー型順序分類問題として扱う。 まず、一連のハイブリッド(ロウとカラム)アンカー上にスパース座標を持つレーンを表す。 アンカー駆動型表現の助けを借りて、レーン検出タスクを順序分類問題として再編成し、レーンの座標を得る。 提案手法は,アンカー駆動表現による計算コストを大幅に削減できる。 順序分類定式化の大きな受容場特性を用いることで、難解なシナリオにも対処できる。 4車線検出データセットを広範囲に実験した結果,本手法は速度と精度の両面で最先端の性能を実現することができた。 軽量版では300フレーム/秒(fps)以上を達成することもできる。 私たちのコードはhttps://github.com/cfzd/Ultra-Fast-Lane-Detection-v2にあります。

Modern methods mainly regard lane detection as a problem of pixel-wise segmentation, which is struggling to address the problems of efficiency and challenging scenarios like severe occlusions and extreme lighting conditions. Inspired by human perception, the recognition of lanes under severe occlusions and extreme lighting conditions is mainly based on contextual and global information. Motivated by this observation, we propose a novel, simple, yet effective formulation aiming at ultra fast speed and the problem of challenging scenarios. Specifically, we treat the process of lane detection as an anchor-driven ordinal classification problem using global features. First, we represent lanes with sparse coordinates on a series of hybrid (row and column) anchors. With the help of the anchor-driven representation, we then reformulate the lane detection task as an ordinal classification problem to get the coordinates of lanes. Our method could significantly reduce the computational cost with the anchor-driven representation. Using the large receptive field property of the ordinal classification formulation, we could also handle challenging scenarios. Extensive experiments on four lane detection datasets show that our method could achieve state-of-the-art performance in terms of both speed and accuracy. A lightweight version could even achieve 300+ frames per second(FPS). Our code is at https://github.com/cfzd/Ultra-Fast-Lane-Detection-v2.
翻訳日:2022-06-16 14:14:02 公開日:2022-06-15
# 自己監督型インシデント注意:モデル自身によるガイド型アテンション

Self-Supervised Implicit Attention: Guided Attention by The Model Itself ( http://arxiv.org/abs/2206.07434v1 )

ライセンス: Link先を確認
Jinyi Wu, Xun Gong, Zhemin Zhang(参考訳) 我々は、深層ニューラルネットワークモデルに適応的に誘導し、モデル自体の特性を活用する新しいアプローチである、自己監視インシシット注意(SSIA:Self-Supervised Implicit Attention)を提案する。 SSIAは、既存のアテンションメカニズムとは対照的に、推論中に余分なパラメータ、計算、メモリアクセスコストを必要としない新しいアテンションメカニズムである。 つまり、注意重みを高レベル意味情報として考慮し、既存の注意機構の実装を再考し、さらに、より上位のネットワーク層から監視信号を生成し、より下位のネットワーク層をパラメータ更新に導くことを提案する。 我々は,ネットワーク自体の階層的特徴を用いて自己教師あり学習タスクを構築し,トレーニング段階でのみ機能するようにした。 SSIAの有効性を検証するため、畳み込みニューラルネットワークモデルにおける特定の実装(SSIAブロックと呼ばれる)を行い、複数の画像分類データセットで検証した。 実験の結果,SSIAブロックは,Squeeze-and-Excitation や Convolutional Block Attention Module など,新たなパラメータや計算コストを必要とする多くの一般的な注目手法よりも優れていることがわかった。 私たちの実装はGitHubで公開されます。

We propose Self-Supervised Implicit Attention (SSIA), a new approach that adaptively guides deep neural network models to gain attention by exploiting the properties of the models themselves. SSIA is a novel attention mechanism that does not require any extra parameters, computation, or memory access costs during inference, which is in contrast to existing attention mechanism. In short, by considering attention weights as higher-level semantic information, we reconsidered the implementation of existing attention mechanisms and further propose generating supervisory signals from higher network layers to guide lower network layers for parameter updates. We achieved this by building a self-supervised learning task using the hierarchical features of the network itself, which only works at the training stage. To verify the effectiveness of SSIA, we performed a particular implementation (called an SSIA block) in convolutional neural network models and validated it on several image classification datasets. The experimental results show that an SSIA block can significantly improve the model performance, even outperforms many popular attention methods that require additional parameters and computation costs, such as Squeeze-and-Excitation and Convolutional Block Attention Module. Our implementation will be available on GitHub.
翻訳日:2022-06-16 14:13:39 公開日:2022-06-15
# 変圧器と自己監督による深度・自我運動の予測

Forecasting of depth and ego-motion with transformers and self-supervision ( http://arxiv.org/abs/2206.07435v1 )

ライセンス: Link先を確認
Houssem Boulahbal, Adrian Voicila and Andrew Comport(参考訳) 本稿では,深度とエゴ運動のエンドツーエンド自己監督予測の問題に対処する。 原画像の列が与えられた場合、自己教師付き測光損失を用いて幾何と自我運動の両方を予測する。 アーキテクチャは畳み込みモジュールとトランスフォーマーモジュールの両方を使用して設計されている。 これはcnnのインダクティブバイアスとトランスフォーマのマルチヘッド注意という2つのモジュールの利点を活用しており、正確な深さ予測を可能にするリッチな時空間表現を可能にしている。 従来の作業では,大規模なアノテートデータセットを必要とするため,現実的ではない教師付き地上データを用いたマルチモーダル入力/出力を用いてこの問題を解決する。 従来手法とは対照的に,自己教師付き原画像のみを入力として,深度とエゴの動きを予測する。 このアプローチは、KITTIデータセットのベンチマークで非常によく機能し、いくつかの性能基準は、事前の予測しない自己教師付き単眼深度推定手法と同等である。

This paper addresses the problem of end-to-end self-supervised forecasting of depth and ego motion. Given a sequence of raw images, the aim is to forecast both the geometry and ego-motion using a self supervised photometric loss. The architecture is designed using both convolution and transformer modules. This leverages the benefits of both modules: Inductive bias of CNN, and the multi-head attention of transformers, thus enabling a rich spatio-temporal representation that enables accurate depth forecasting. Prior work attempts to solve this problem using multi-modal input/output with supervised ground-truth data which is not practical since a large annotated dataset is required. Alternatively to prior methods, this paper forecasts depth and ego motion using only self-supervised raw images as input. The approach performs significantly well on the KITTI dataset benchmark with several performance criteria being even comparable to prior non-forecasting self-supervised monocular depth inference methods.
翻訳日:2022-06-16 14:13:17 公開日:2022-06-15
# READ:Aggregating Reconstruction Error into Out-of-distribution Detection

READ: Aggregating Reconstruction Error into Out-of-distribution Detection ( http://arxiv.org/abs/2206.07459v1 )

ライセンス: Link先を確認
Wenyu Jiang, Hao Cheng, Mingcai Chen, Shuai Feng, Yuxin Ge, Chongjun Wang(参考訳) 現実世界における分類器の安全な配置には、OOD(out-of-distriion)サンプルの検出が不可欠である。 しかし、ディープニューラルネットワークは異常なデータに対して過信的であることが知られている。 既存の作業は、in-distriion (ID) と OOD の分類器から不整合をマイニングすることでスコア関数を直接設計する。 本稿では,idデータに基づいて訓練されたオートエンコーダがoodやidを再構築できないという仮定に基づいて,この不整合と再構成誤差をさらに補う。 分類器とオートエンコーダとの矛盾を統一する新しい手法read (reconstruction error aggregated detector) を提案する。 具体的には、生画素の再構成誤差を分類器の潜在空間に変換する。 変換された再構成誤差が意味的ギャップを橋渡しし,検出性能をオリジナルから継承することを示す。 さらに,OODデータのきめ細かいキャラクタリゼーションに基づいて,オートエンコーダの過信問題を緩和するための調整戦略を提案する。 事前訓練と再訓練の2つのシナリオでは,それぞれ,事前訓練した分類器のみに基づくREAD-MD(Mahalanobis Distance)と,分類器を再訓練するREAD-ED(Euclidean Distance)の2つのバリエーションを提示する。 我々の手法は、微調整ハイパーパラメーターのためのテスト時間OODデータへのアクセスを必要としない。 最後に,提案手法の有効性を,最先端OOD検出アルゴリズムとの比較により示す。 CIFAR-10 で事前訓練した WideResNet では,従来の最先端技術と比較して平均 FPR@95TPR を 9.8% 削減する。

Detecting out-of-distribution (OOD) samples is crucial to the safe deployment of a classifier in the real world. However, deep neural networks are known to be overconfident for abnormal data. Existing works directly design score function by mining the inconsistency from classifier for in-distribution (ID) and OOD. In this paper, we further complement this inconsistency with reconstruction error, based on the assumption that an autoencoder trained on ID data can not reconstruct OOD as well as ID. We propose a novel method, READ (Reconstruction Error Aggregated Detector), to unify inconsistencies from classifier and autoencoder. Specifically, the reconstruction error of raw pixels is transformed to latent space of classifier. We show that the transformed reconstruction error bridges the semantic gap and inherits detection performance from the original. Moreover, we propose an adjustment strategy to alleviate the overconfidence problem of autoencoder according to a fine-grained characterization of OOD data. Under two scenarios of pre-training and retraining, we respectively present two variants of our method, namely READ-MD (Mahalanobis Distance) only based on pre-trained classifier and READ-ED (Euclidean Distance) which retrains the classifier. Our methods do not require access to test time OOD data for fine-tuning hyperparameters. Finally, we demonstrate the effectiveness of the proposed methods through extensive comparisons with state-of-the-art OOD detection algorithms. On a CIFAR-10 pre-trained WideResNet, our method reduces the average FPR@95TPR by up to 9.8% compared with previous state-of-the-art.
翻訳日:2022-06-16 14:13:01 公開日:2022-06-15
# PolyU-BPCoMa: Backpack Multisensorial System を用いたモバイルカラーマッピングのためのデータセットとベンチマーク

PolyU-BPCoMa: A Dataset and Benchmark Towards Mobile Colorized Mapping Using a Backpack Multisensorial System ( http://arxiv.org/abs/2206.07468v1 )

ライセンス: Link先を確認
Wenzhong Shi, Pengxin Chen, Muyang Wang, Sheng Bao, Haodong Xiang, Yue Yu, Daping Yang(参考訳) 移動レーザスキャンと画像からのカラー化点雲の構築は、測量とマッピングの基本的な研究である。 また、スマートシティのためのデジタルツインを構築するための必須条件でもある。 しかし、既存の公開データセットは比較的小さなスケールか、正確な幾何学的およびカラーグラウンドの真理を欠いている。 本稿では,モバイルカラー化マッピングに特有な位置を占めるPolyU-BPCoMAという多感覚データセットについて述べる。 このデータセットには、バックパックプラットフォーム上の3D LiDAR、球面イメージング、GNSS、IMUのリソースが含まれている。 調査対象地域ごとにカラーチェッカーボードを貼付し、地上レーザースキャナ(tls)により地上真理データを収集する。 バックパックシステムとtlsで生成した着色点雲において、3次元幾何および色情報をそれぞれ回収することができる。 そこで我々は,移動型マルチセンサシステムにおいて,マッピングとカラー化の精度を同時にベンチマークする機会を提供する。 データセットは約800GBで、屋内と屋外の両方の環境をカバーする。 データセットと開発キットはhttps://github.com/chenpengxin/PolyU-BPCoMa.gitで入手できる。

Constructing colorized point clouds from mobile laser scanning and images is a fundamental work in surveying and mapping. It is also an essential prerequisite for building digital twins for smart cities. However, existing public datasets are either in relatively small scales or lack accurate geometrical and color ground truth. This paper documents a multisensorial dataset named PolyU-BPCoMA which is distinctively positioned towards mobile colorized mapping. The dataset incorporates resources of 3D LiDAR, spherical imaging, GNSS and IMU on a backpack platform. Color checker boards are pasted in each surveyed area as targets and ground truth data are collected by an advanced terrestrial laser scanner (TLS). 3D geometrical and color information can be recovered in the colorized point clouds produced by the backpack system and the TLS, respectively. Accordingly, we provide an opportunity to benchmark the mapping and colorization accuracy simultaneously for a mobile multisensorial system. The dataset is approximately 800 GB in size covering both indoor and outdoor environments. The dataset and development kits are available at https://github.com/chenpengxin/PolyU-BPCoMa.git.
翻訳日:2022-06-16 14:12:33 公開日:2022-06-15
# SP-ViT:視覚変換器のための2次元空間優先学習

SP-ViT: Learning 2D Spatial Priors for Vision Transformers ( http://arxiv.org/abs/2206.07662v1 )

ライセンス: Link先を確認
Yuxuan Zhou, Wangmeng Xiang, Chao Li, Biao Wang, Xihan Wei, Lei Zhang, Margret Keuper, Xiansheng Hua(参考訳) 近年、トランスフォーマーは画像分類に大きな可能性を示し、ImageNetベンチマークで最先端の結果を確立している。 しかし、cnnと比較すると、トランスフォーマーは緩やかに収束し、空間的インダクティブバイアスの欠如により低データのレジームではオーバーフィットしがちである。 このような空間誘導バイアスは、入力画像の2次元構造がトランスによく保存されていないため、特に有益である。 本研究では,視覚トランスフォーマーに適したバニラ自己注意(Vanilla Self-Attention, SA)の新たな変種であるSP-SAを提案する。 空間的優先順位(sps)は,ある空間的関係群を強調する帰納的バイアスの族である。 畳み込み帰納バイアスとは違い,提案したSPはモデル自体から学習し,様々な空間的関係を考慮に入れている。 具体的には、各頭部の特定の空間関係を重視して注意スコアを算出し、これらの学習された空間相関を相補的にすることができる。 SP-SAに基づいて、同様のGFlopやパラメータを持つ他のViTモデルよりも一貫して優れているSP-ViTファミリを提案する。 我々の最大のモデルSP-ViT-Lは、224x224でトレーニングされたすべてのImageNet-1Kモデルのうち、384x384解像度w/o余剰データのうち、過去の最先端モデル(SP-ViT-Lが150M、CaiT-M-36が271M)と比較してパラメータ数を約50%削減し、86.3%のTop-1精度を達成した。

Recently, transformers have shown great potential in image classification and established state-of-the-art results on the ImageNet benchmark. However, compared to CNNs, transformers converge slowly and are prone to overfitting in low-data regimes due to the lack of spatial inductive biases. Such spatial inductive biases can be especially beneficial since the 2D structure of an input image is not well preserved in transformers. In this work, we present Spatial Prior-enhanced Self-Attention (SP-SA), a novel variant of vanilla Self-Attention (SA) tailored for vision transformers. Spatial Priors (SPs) are our proposed family of inductive biases that highlight certain groups of spatial relations. Unlike convolutional inductive biases, which are forced to focus exclusively on hard-coded local regions, our proposed SPs are learned by the model itself and take a variety of spatial relations into account. Specifically, the attention score is calculated with emphasis on certain kinds of spatial relations at each head, and such learned spatial foci can be complementary to each other. Based on SP-SA we propose the SP-ViT family, which consistently outperforms other ViT models with similar GFlops or parameters. Our largest model SP-ViT-L achieves a record-breaking 86.3% Top-1 accuracy with a reduction in the number of parameters by almost 50% compared to previous state-of-the-art model (150M for SP-ViT-L vs 271M for CaiT-M-36) among all ImageNet-1K models trained on 224x224 and fine-tuned on 384x384 resolution w/o extra data.
翻訳日:2022-06-16 14:12:17 公開日:2022-06-15
# Ego4D PNRの時間的ローカライゼーションチャレンジ2022

Structured Video Tokens @ Ego4D PNR Temporal Localization Challenge 2022 ( http://arxiv.org/abs/2206.07689v1 )

ライセンス: Link先を確認
Elad Ben-Avraham, Roei Herzig, Karttikeya Mangalam, Amir Bar, Anna Rohrbach, Leonid Karlinsky, Trevor Darrell, Amir Globerson(参考訳) この技術報告では、Ego4D Point of No Return (PNR) におけるSViTアプローチについて述べる。 学習フレームワークStructureViT(略してSViT)を提案し、トレーニング中にのみ利用できる少数の画像の構造を利用することで、ビデオモデルを改善する方法を示す。 SViTは2つの重要な洞察に依存している。 まず、画像とビデオの両方に構造化情報が含まれているため、画像とビデオにまたがって使用できる「emph{object tokens}」セットのトランスフォーマーモデルを統合する。 第二に、動画中の個々のフレームのシーン表現は静止画と「一致」すべきである。 これは、画像とビデオ間の構造化情報の流れを保証する「フレームクリップ一貫性」損失によって達成される。 SViTは0.656の絶対時間的局所化誤差を持つチャレンジテストセットで強い性能を得る。

This technical report describes the SViT approach for the Ego4D Point of No Return (PNR) Temporal Localization Challenge. We propose a learning framework StructureViT (SViT for short), which demonstrates how utilizing the structure of a small number of images only available during training can improve a video model. SViT relies on two key insights. First, as both images and videos contain structured information, we enrich a transformer model with a set of \emph{object tokens} that can be used across images and videos. Second, the scene representations of individual frames in video should "align" with those of still images. This is achieved via a "Frame-Clip Consistency" loss, which ensures the flow of structured information between images and videos. SViT obtains strong performance on the challenge test set with 0.656 absolute temporal localization error.
翻訳日:2022-06-16 14:10:50 公開日:2022-06-15
# 自己指導型学習改善のための簡易データ混合

A Simple Data Mixing Prior for Improving Self-Supervised Learning ( http://arxiv.org/abs/2206.07692v1 )

ライセンス: Link先を確認
Sucheng Ren, Huiyu Wang, Zhengqi Gao, Shengfeng He, Alan Yuille, Yuyin Zhou, Cihang Xie(参考訳) データミキシング(mixup、cutmix、resizemixなど)は、認識モデルの進歩に不可欠なコンポーネントである。 本稿では,自己監督設定における有効性について検討する。 同じソースイメージを共有する混合イメージが本質的に関連していることに気付き、ここでは$\textbf{s}$imple$\textbf{d}$ata$\textbf{m}$ixing $\textbf{p}$riorという略のsdmpを提案して、この単純で本質的な先行画像をキャプチャし、これらの混合イメージを$\textbf{ positive pairs}$を追加して自己教師付き表現学習を容易にする。 提案したSDMPは,学習フレームワークの集合(例えばMoCo)の精度向上と分布外ロバスト性向上を支援するために,データミキシングを可能にすることを確認した。 さらに注目すべきは、私たちのSDMPは、データミキシングをうまく活用して、自己管理環境でのビジョントランスフォーマーのパフォーマンスを向上する(傷つけるのではなく)最初の方法です。 コードはhttps://github.com/OliverRensu/SDMPで公開されている。

Data mixing (e.g., Mixup, Cutmix, ResizeMix) is an essential component for advancing recognition models. In this paper, we focus on studying its effectiveness in the self-supervised setting. By noticing the mixed images that share the same source images are intrinsically related to each other, we hereby propose SDMP, short for $\textbf{S}$imple $\textbf{D}$ata $\textbf{M}$ixing $\textbf{P}$rior, to capture this straightforward yet essential prior, and position such mixed images as additional $\textbf{positive pairs}$ to facilitate self-supervised representation learning. Our experiments verify that the proposed SDMP enables data mixing to help a set of self-supervised learning frameworks (e.g., MoCo) achieve better accuracy and out-of-distribution robustness. More notably, our SDMP is the first method that successfully leverages data mixing to improve (rather than hurt) the performance of Vision Transformers in the self-supervised setting. Code is publicly available at https://github.com/OliverRensu/SDMP
翻訳日:2022-06-16 14:10:37 公開日:2022-06-15
# VoxGRAF: スパースボクセルグリッドを用いた高速3次元画像合成

VoxGRAF: Fast 3D-Aware Image Synthesis with Sparse Voxel Grids ( http://arxiv.org/abs/2206.07695v1 )

ライセンス: Link先を確認
Katja Schwarz and Axel Sauer and Michael Niemeyer and Yiyi Liao and Andreas Geiger(参考訳) 最先端の3D認識生成モデルは、3Dラディアンス場をパラメータ化するために座標ベースのMLPに依存している。 印象的な結果を示す一方で、各試料ごとにMLPをクエリすると、レンダリングが遅くなります。 したがって、既存のアプローチはしばしば低解像度の特徴写像をレンダリングし、それらをアップサンプリングネットワークで処理して最終的な画像を得る。 効率は良いが、ニューラルレンダリングは、しばしば視点とコンテンツが絡み合っており、カメラのポーズを変えると、不要な形状や外観の変化が生じる。 本稿では,voxelを用いた新しいビュー合成の最近の結果に動機づけられ,高速かつ3次元一貫性のある生成モデルのためのスパースvoxelグリッド表現の有用性について検討する。 その結果, 不定形mlpは, スパースボクセルグリッドとプログレッシブ成長, フリースペースプルーニング, 適切な正規化を組み合わせた場合, 3次元畳み込みに置き換えられることがわかった。 シーンのコンパクトな表現と,より高いボクセル解像度へのスケーリングを実現するため,本モデルでは,背景(2次元モデル)から前景オブジェクト(3次元モデル)を遠ざけている。 既存の手法とは対照的に,本手法では完全な3Dシーンを生成するために,単一の前方通過しか必要としない。 したがって、任意の視点から効率的なレンダリングを可能にし、高い視覚的忠実度で3D一貫性のある結果が得られる。

State-of-the-art 3D-aware generative models rely on coordinate-based MLPs to parameterize 3D radiance fields. While demonstrating impressive results, querying an MLP for every sample along each ray leads to slow rendering. Therefore, existing approaches often render low-resolution feature maps and process them with an upsampling network to obtain the final image. Albeit efficient, neural rendering often entangles viewpoint and content such that changing the camera pose results in unwanted changes of geometry or appearance. Motivated by recent results in voxel-based novel view synthesis, we investigate the utility of sparse voxel grid representations for fast and 3D-consistent generative modeling in this paper. Our results demonstrate that monolithic MLPs can indeed be replaced by 3D convolutions when combining sparse voxel grids with progressive growing, free space pruning and appropriate regularization. To obtain a compact representation of the scene and allow for scaling to higher voxel resolutions, our model disentangles the foreground object (modeled in 3D) from the background (modeled in 2D). In contrast to existing approaches, our method requires only a single forward pass to generate a full 3D scene. It hence allows for efficient rendering from arbitrary viewpoints while yielding 3D consistent results with high visual fidelity.
翻訳日:2022-06-16 14:10:13 公開日:2022-06-15
# Waymo Open Dataset:パノラマビデオパノラマ画像セグメンテーション

Waymo Open Dataset: Panoramic Video Panoptic Segmentation ( http://arxiv.org/abs/2206.07704v1 )

ライセンス: Link先を確認
Jieru Mei, Alex Zihao Zhu, Xinchen Yan, Hang Yan, Siyuan Qiao, Yukun Zhu, Liang-Chieh Chen, Henrik Kretzschmar, Dragomir Anguelov(参考訳) panoptic image segmentationは、画像中のピクセルのグループを見つけ、セマンティッククラスとオブジェクトインスタンス識別子を割り当てるコンピュータビジョンタスクである。 画像セグメンテーションの研究は、ロボット工学や自動運転における重要な応用により、ますます人気が高まっている。 そのため研究コミュニティは、コンピュータビジョンの最先端を前進させるために、公開利用可能なベンチマークデータセットに依存している。 しかし,画像の濃密なラベル付けには高いコストがかかるため,パノプティ・セグメンテーションに適した地上の真理ラベルは不足している。 高いラベル付けコストにより、既存のデータセットをビデオドメインやマルチカメラ設定に拡張することも困難になる。 そこで我々は,waymo open dataset: panoramic video panoptic segmentation datasetという,自動運転のための高品質なpanoptic segmentation labelを提供する大規模データセットを提案する。 利用可能なWaymo Open Datasetを使用してデータセットを生成し、さまざまなカメライメージを活用する。 われわれのラベルは時間の経過とともにビデオ処理に一貫性があり、パノラマシーンの理解のために車両に搭載された複数のカメラに一貫性がある。 具体的には、28のセマンティクスカテゴリと2,860の時間系列のラベルを提供し、3つの異なる場所を走行する自動運転車に搭載された5台のカメラで撮影した。 私たちの知る限りでは、私たちのデータセットは、ビデオパノビュータセグメンテーションラベルを提供する既存のデータセットよりも桁違いに大きくなります。 さらに、パノラマビデオパノプティクスセグメンテーションのための新しいベンチマークを提案し、DeepLabのモデルに基づいた強力なベースラインを確立する。 ベンチマークとコードを公開します。 データセットはhttps://waymo.com/open。

Panoptic image segmentation is the computer vision task of finding groups of pixels in an image and assigning semantic classes and object instance identifiers to them. Research in image segmentation has become increasingly popular due to its critical applications in robotics and autonomous driving. The research community thereby relies on publicly available benchmark dataset to advance the state-of-the-art in computer vision. Due to the high costs of densely labeling the images, however, there is a shortage of publicly available ground truth labels that are suitable for panoptic segmentation. The high labeling costs also make it challenging to extend existing datasets to the video domain and to multi-camera setups. We therefore present the Waymo Open Dataset: Panoramic Video Panoptic Segmentation Dataset, a large-scale dataset that offers high-quality panoptic segmentation labels for autonomous driving. We generate our dataset using the publicly available Waymo Open Dataset, leveraging the diverse set of camera images. Our labels are consistent over time for video processing and consistent across multiple cameras mounted on the vehicles for full panoramic scene understanding. Specifically, we offer labels for 28 semantic categories and 2,860 temporal sequences that were captured by five cameras mounted on autonomous vehicles driving in three different geographical locations, leading to a total of 100k labeled camera images. To the best of our knowledge, this makes our dataset an order of magnitude larger than existing datasets that offer video panoptic segmentation labels. We further propose a new benchmark for Panoramic Video Panoptic Segmentation and establish a number of strong baselines based on the DeepLab family of models. We will make the benchmark and the code publicly available. Find the dataset at https://waymo.com/open.
翻訳日:2022-06-16 14:09:49 公開日:2022-06-15
# let-3d-ap: カメラのみの3d検出のための縦誤差耐性3d平均精度

LET-3D-AP: Longitudinal Error Tolerant 3D Average Precision for Camera-Only 3D Detection ( http://arxiv.org/abs/2206.07705v1 )

ライセンス: Link先を確認
Wei-Chih Hung, Henrik Kretzschmar, Vincent Casser, Jyh-Jing Hwang, Dragomir Anguelov(参考訳) 一般的な物体検出指標3d平均精度(3d ap)は、予測された境界ボックスと基底真理バウンディングボックスとの結合上の交点に依存する。 しかし、カメラによる深度推定は精度が限られており、そのような経年的局所化誤差に苦しむ合理的な予測を偽陽性と偽陰性として扱うことができる。 そこで我々は,深度推定誤差に関して,より寛容な3次元APメトリックの変種を提案する。 具体的には, LET-3D-AP と LET-3D-APL は, 予測された有界箱の長手位置誤差を許容できる。 提案されたメトリクスは、Waymo Open Dataset 3D Camera-Only Detection Challengeで使用されている。 我々は、より情報的な性能信号を提供することで、カメラのみの3D検出の分野での進歩を促進すると信じている。

The popular object detection metric 3D Average Precision (3D AP) relies on the intersection over union between predicted bounding boxes and ground truth bounding boxes. However, depth estimation based on cameras has limited accuracy, which may cause otherwise reasonable predictions that suffer from such longitudinal localization errors to be treated as false positives and false negatives. We therefore propose variants of the popular 3D AP metric that are designed to be more permissive with respect to depth estimation errors. Specifically, our novel longitudinal error tolerant metrics, LET-3D-AP and LET-3D-APL, allow longitudinal localization errors of the predicted bounding boxes up to a given tolerance. The proposed metrics have been used in the Waymo Open Dataset 3D Camera-Only Detection Challenge. We believe that they will facilitate advances in the field of camera-only 3D detection by providing more informative performance signals.
翻訳日:2022-06-16 14:09:18 公開日:2022-06-15
# (参考訳) 最適後部サンプリングを用いたモデルベースRL:構造条件とサンプル複雑度

Model-based RL with Optimistic Posterior Sampling: Structural Conditions and Sample Complexity ( http://arxiv.org/abs/2206.07659v1 )

ライセンス: CC BY 4.0
Alekh Agarwal and Tong Zhang(参考訳) モデルベースRLの後方サンプリング手法を設計するための一般的な枠組みを提案する。 提案アルゴリズムは,Hellinger距離に基づく条件付き確率推定における後悔を減らすことで解析可能であることを示す。 さらに, 楽観的な後方サンプリングは, モデル誤差をデータ確率で測定することで, このヘリンガー距離を制御できることを示した。 この手法により、多くのモデルベースRL設定に対して、最先端のサンプル複雑度保証を伴う統合後サンプリングアルゴリズムの設計と解析が可能となる。 フレームワークの汎用性を実証し、多くの特別なケースで一般的な結果を説明します。

We propose a general framework to design posterior sampling methods for model-based RL. We show that the proposed algorithms can be analyzed by reducing regret to Hellinger distance based conditional probability estimation. We further show that optimistic posterior sampling can control this Hellinger distance, when we measure model error via data likelihood. This technique allows us to design and analyze unified posterior sampling algorithms with state-of-the-art sample complexity guarantees for many model-based RL settings. We illustrate our general result in many special cases, demonstrating the versatility of our framework.
翻訳日:2022-06-16 14:07:59 公開日:2022-06-15
# 幅の広いベイズ型ニューラルネットワークは後方に単純な重みを持つ:理論と高速化サンプリング

Wide Bayesian neural networks have a simple weight posterior: theory and accelerated sampling ( http://arxiv.org/abs/2206.07673v1 )

ライセンス: Link先を確認
Jiri Hron and Roman Novak and Jeffrey Pennington and Jascha Sohl-Dickstein(参考訳) 階層幅が大きくなるにつれてKLがBNNに分岐する分布にベイズニューラルネットワーク(BNN)の後部を変換するデータ依存再パラメータ化(repriorisation)を導入する。 優先順位付けマップはパラメータに直接作用し、その解析的単純性は、関数空間における広いBNNの既知のニューラルネットワークガウス過程(NNGP)の振る舞いを補完する。 再試行を行い,BNNを高速に混合するマルコフ連鎖モンテカルロ (MCMC) 後方サンプリングアルゴリズムを開発した。 これはMCMCの高次元での典型的な性能とは対照的である。 完全接続ネットワークと残留ネットワークの双方の分離を伴わず, 最大50倍の有効試料サイズを観測した。 すべての幅で改善が行われ、再パラメータと標準bnnの間のマージンは層幅で成長する。

We introduce repriorisation, a data-dependent reparameterisation which transforms a Bayesian neural network (BNN) posterior to a distribution whose KL divergence to the BNN prior vanishes as layer widths grow. The repriorisation map acts directly on parameters, and its analytic simplicity complements the known neural network Gaussian process (NNGP) behaviour of wide BNNs in function space. Exploiting the repriorisation, we develop a Markov chain Monte Carlo (MCMC) posterior sampling algorithm which mixes faster the wider the BNN. This contrasts with the typically poor performance of MCMC in high dimensions. We observe up to 50x higher effective sample size relative to no reparametrisation for both fully-connected and residual networks. Improvements are achieved at all widths, with the margin between reparametrised and standard BNNs growing with layer width.
翻訳日:2022-06-16 13:27:42 公開日:2022-06-15
# ファウショット適応のための条件付きメタラーニングの改良について

On Enforcing Better Conditioned Meta-Learning for Rapid Few-Shot Adaptation ( http://arxiv.org/abs/2206.07260v1 )

ライセンス: Link先を確認
Markus Hiller, Mehrtash Harandi, Tom Drummond(参考訳) プレコンディショニングの概念に触発されて,追加パラメータを伴わずに勾配型メタラーニング手法の適応速度を向上させる新しい手法を提案する。 条件数と局所曲率の概念に基づくメタラーニングモデルに対する$\textit{well-conditioned}$パラメータ空間を積極的に適用するための,非線形最小二乗法に最適化問題を再キャストすることが実証された。 包括的評価により,提案手法は,特に初期適応段階において制約のない手法を著しく上回り,数発の分類タスクで同等あるいは良好な結果を得るとともに,推定時に適応ステップ数を動的に選択できる可能性が示唆された。

Inspired by the concept of preconditioning, we propose a novel method to increase adaptation speed for gradient-based meta-learning methods without incurring extra parameters. We demonstrate that recasting the optimization problem to a non-linear least-squares formulation provides a principled way to actively enforce a $\textit{well-conditioned}$ parameter space for meta-learning models based on the concepts of the condition number and local curvature. Our comprehensive evaluations show that the proposed method significantly outperforms its unconstrained counterpart especially during initial adaptation steps, while achieving comparable or better overall results on several few-shot classification tasks -- creating the possibility of dynamically choosing the number of adaptation steps at inference time.
翻訳日:2022-06-16 13:27:09 公開日:2022-06-15
# 微分可能なトップk分類学習

Differentiable Top-k Classification Learning ( http://arxiv.org/abs/2206.07290v1 )

ライセンス: Link先を確認
Felix Petersen, Hilde Kuehne, Christian Borgelt, Oliver Deussen(参考訳) トップk分類精度は、機械学習のコアメトリクスの1つである。 ここで、k は伝統的に 1 や 5 のような正の整数であり、トップ1 やトップ5 の訓練目標に繋がる。 本研究では、この仮定を緩和し、単一の k を使わずに、複数の k に対してモデルを同時に最適化する。 微分可能なソートとランキングの最近の進歩を利用して、微分可能なtop-kクロスエントロピー分類の損失を提案する。 これにより、トップ1の予測だけでなく、トップ2とトップ5の予測も考慮しながら、ネットワークのトレーニングが可能になる。 我々は,最先端アーキテクチャの微調整やスクラッチからのトレーニングのための損失関数の評価を行った。 緩和kは, 上位5の精度向上だけでなく, 上位1の精度向上につながることがわかった。 公開されているImageNetモデルを微調整すると、これらのモデルのための新しい最先端技術が得られる。

The top-k classification accuracy is one of the core metrics in machine learning. Here, k is conventionally a positive integer, such as 1 or 5, leading to top-1 or top-5 training objectives. In this work, we relax this assumption and optimize the model for multiple k simultaneously instead of using a single k. Leveraging recent advances in differentiable sorting and ranking, we propose a differentiable top-k cross-entropy classification loss. This allows training the network while not only considering the top-1 prediction, but also, e.g., the top-2 and top-5 predictions. We evaluate the proposed loss function for fine-tuning on state-of-the-art architectures, as well as for training from scratch. We find that relaxing k does not only produce better top-5 accuracies, but also leads to top-1 accuracy improvements. When fine-tuning publicly available ImageNet models, we achieve a new state-of-the-art for these models.
翻訳日:2022-06-16 13:26:50 公開日:2022-06-15
# 勾配に基づく説明のためのマニフォールド仮説

The Manifold Hypothesis for Gradient-Based Explanations ( http://arxiv.org/abs/2206.07387v1 )

ライセンス: Link先を確認
Sebastian Bordt, Uddeshya Upadhyay, Zeynep Akata, Ulrike von Luxburg(参考訳) 勾配に基づく説明アルゴリズムはいつ意味のある説明を与えるのか? それらの特徴の帰属はデータ多様体の接空間と一致する必要がある。 この仮説の証拠を提供するため、変動オートエンコーダに基づく枠組みを導入し、画像多様体を推定し生成する。 さまざまなデータセット(MNIST、EMNIST、CIFAR10、X線肺炎、糖尿病網膜症検出)にわたる実験を通じて、特徴属性がデータの接点空間と一致している場合、より構造化され説明される傾向にあることを示す。 特に、Integrated Gradients、SmoothGrad、Input $\times$ Gradientといった一般的なポストホックメソッドによって提供される属性は、生の勾配よりもデータ多様体に強く適合する傾向にある。 その結果、説明アルゴリズムは、その説明とデータ多様体との整合を積極的に進めるべきである。 部分的には、敵対的なトレーニングによって達成できるため、すべてのデータセットの整合性が向上する。 モデルアーキテクチャやトレーニングアルゴリズムへの何らかの調整は、ニューラルネットワークの一般化だけでは、モデル勾配とデータ多様体のアライメントを含まないことを示すため必要である。

When do gradient-based explanation algorithms provide meaningful explanations? We propose a necessary criterion: their feature attributions need to be aligned with the tangent space of the data manifold. To provide evidence for this hypothesis, we introduce a framework based on variational autoencoders that allows to estimate and generate image manifolds. Through experiments across a range of different datasets -- MNIST, EMNIST, CIFAR10, X-ray pneumonia and Diabetic Retinopathy detection -- we demonstrate that the more a feature attribution is aligned with the tangent space of the data, the more structured and explanatory it tends to be. In particular, the attributions provided by popular post-hoc methods such as Integrated Gradients, SmoothGrad and Input $\times$ Gradient tend to be more strongly aligned with the data manifold than the raw gradient. As a consequence, we suggest that explanation algorithms should actively strive to align their explanations with the data manifold. In part, this can be achieved by adversarial training, which leads to better alignment across all datasets. Some form of adjustment to the model architecture or training algorithm is necessary, since we show that generalization of neural networks alone does not imply the alignment of model gradients with the data manifold.
翻訳日:2022-06-16 13:26:36 公開日:2022-06-15
# ELUDE: ラベル付きおよび非ラベル付き特徴への分解による解釈可能な説明の生成

ELUDE: Generating interpretable explanations via a decomposition into labelled and unlabelled features ( http://arxiv.org/abs/2206.07690v1 )

ライセンス: Link先を確認
Vikram V. Ramaswamy, Sunnie S. Y. Kim, Nicole Meister, Ruth Fong, Olga Russakovsky(参考訳) ディープラーニングモデルは、過去10年間にさまざまな機械学習領域で顕著な成功を収めてきたが、これらのモデルのサイズと複雑さが理解しづらい。 それらをより解釈可能にするために、最近のいくつかの研究は、人間の解釈可能なセマンティック属性を通じてディープニューラルネットワークの一部を説明することに焦点を当てている。 しかし、セマンティクス属性のみを使用して複雑なモデルを完全に説明することは不可能かもしれない。 本稿では,これらの属性を,解釈不能な機能の小さなセットで拡張することを提案する。 具体的には,モデルの予測を,意味的属性の線形結合によって説明可能なものと,解釈不能な特徴の集合に依存するものとの2つの部分に分解する,新しい説明フレームワーク ELUDE (Explanation via Labelled and Unlabelled Decomposition) を開発する。 後者を識別することで、モデルの"説明できない"部分を分析し、モデルが使用する情報に対する洞察を得ることができます。 提案手法は,同一の機能空間で訓練された複数のモデルに一般化し,提案手法を2つの一般的な属性指向手法であるInterpretable Basis DecompositionとConcept Bottleneckと比較し,ELUDEが提供する追加の洞察について考察する。

Deep learning models have achieved remarkable success in different areas of machine learning over the past decade; however, the size and complexity of these models make them difficult to understand. In an effort to make them more interpretable, several recent works focus on explaining parts of a deep neural network through human-interpretable, semantic attributes. However, it may be impossible to completely explain complex models using only semantic attributes. In this work, we propose to augment these attributes with a small set of uninterpretable features. Specifically, we develop a novel explanation framework ELUDE (Explanation via Labelled and Unlabelled DEcomposition) that decomposes a model's prediction into two parts: one that is explainable through a linear combination of the semantic attributes, and another that is dependent on the set of uninterpretable features. By identifying the latter, we are able to analyze the "unexplained" portion of the model, obtaining insights into the information used by the model. We show that the set of unlabelled features can generalize to multiple models trained with the same feature space and compare our work to two popular attribute-oriented methods, Interpretable Basis Decomposition and Concept Bottleneck, and discuss the additional insights ELUDE provides.
翻訳日:2022-06-16 13:26:13 公開日:2022-06-15
# 自己教師付き視覚前訓練のためのマスク周波数モデリング

Masked Frequency Modeling for Self-Supervised Visual Pre-Training ( http://arxiv.org/abs/2206.07706v1 )

ライセンス: Link先を確認
Jiahao Xie, Wei Li, Xiaohang Zhan, Ziwei Liu, Yew Soon Ong, Chen Change Loy(参考訳) MFM(Masked Frequency Modeling)は、視覚モデルの自己教師付き事前学習のための統合周波数領域に基づくアプローチである。 本稿では,空間領域の入力埋め込みにマスクトークンをランダムに挿入する代わりに,その視点を周波数領域にシフトする。 具体的には、まずMFMが入力画像の周波数成分の一部をマスクし、周波数スペクトルの欠落周波数を予測する。 我々の重要な洞察は、周波数領域におけるマスキング成分の予測は、空間領域におけるマスキングパッチの予測よりも、空間領域におけるマスキングパターンを明らかにすることがより理想的なことである。 その結果,マスク・アンド・予測戦略の適切な構成では,高周波数成分の構造情報と低周波数成分間の低レベル統計の両方が優れた表現の学習に有用であることが示唆された。 MFMは初めて、ViTとCNNの両方で、単純な非シームフレームワークが、以下のものを使って意味のある表現を学習できることを示した。 (i)余分なデータ (ii)余分なモデル (iii)マスクトークン。 ImageNetといくつかのロバスト性ベンチマークの実験結果は、最近のマスク画像モデリング手法と比較して、MFMの競争性能と高度なロバスト性を示している。 さらに,従来の画像復元作業の有効性を,統合周波数の観点から総合的に検討し,MFM手法との興味深い関係を明らかにする。 プロジェクトページ: https://www.mmlab-ntu.com/project/mfm/index.html

We present Masked Frequency Modeling (MFM), a unified frequency-domain-based approach for self-supervised pre-training of visual models. Instead of randomly inserting mask tokens to the input embeddings in the spatial domain, in this paper, we shift the perspective to the frequency domain. Specifically, MFM first masks out a portion of frequency components of the input image and then predicts the missing frequencies on the frequency spectrum. Our key insight is that predicting masked components in the frequency domain is more ideal to reveal underlying image patterns rather than predicting masked patches in the spatial domain, due to the heavy spatial redundancy. Our findings suggest that with the right configuration of mask-and-predict strategy, both the structural information within high-frequency components and the low-level statistics among low-frequency counterparts are useful in learning good representations. For the first time, MFM demonstrates that, for both ViT and CNN, a simple non-Siamese framework can learn meaningful representations even using none of the following: (i) extra data, (ii) extra model, (iii) mask token. Experimental results on ImageNet and several robustness benchmarks show the competitive performance and advanced robustness of MFM compared with recent masked image modeling approaches. Furthermore, we also comprehensively investigate the effectiveness of classical image restoration tasks for representation learning from a unified frequency perspective and reveal their intriguing relations with our MFM approach. Project page: https://www.mmlab-ntu.com/project/mfm/index.html.
翻訳日:2022-06-16 13:24:38 公開日:2022-06-15
# 材料合成の安全な自動化に向けたバイアル位置検出のための機械ビジョン

Machine vision for vial positioning detection toward the safe automation of material synthesis ( http://arxiv.org/abs/2206.07272v1 )

ライセンス: Link先を確認
Leslie Ching Ow Tiong, Hyuk Jun Yoo, Na Yeon Kim, Kwan-Young Lee, Sang Soo Han, Donghun Kim(参考訳) 化学実験室におけるロボットによる自動化は材料開発プロセスを加速させるが、監視のない環境は、主に機械制御ミスによる危険な事故を引き起こす可能性がある。 物体検出技術は、これらの安全問題に対処する上で重要な役割を担っているが、単一ショット検出器(SSD)モデルを含む最先端の検出器は、複雑でノイズの多いシーンを含む環境において、不十分な精度に悩まされている。 監視のない実験室における安全性向上を目的として,新しい深層学習(dl)ベースの物体検出器,すなわち密度分布を報告した。 vial位置を検出するための最重要かつ頻繁な問題として、dungssdは、空と溶液で満たされたvialの両方を含む複雑なデータセットに基づいて、95%以上の平均精度(map)を達成した。 さらに, 密度ssdは環境変化に対して高い感受性を示し, 溶液色の変化や視角の試験においても高い精度を維持した。 DenseSSDの堅牢性により、使用済みの機器設定をより柔軟にすることができる。 この研究は、DenseSSDが自動材料合成環境の安全性を高めるのに有用であることを示し、高い検出精度と速度を必要とする様々なアプリケーションに拡張できることを示した。

Although robot-based automation in chemistry laboratories can accelerate the material development process, surveillance-free environments may lead to dangerous accidents primarily due to machine control errors. Object detection techniques can play vital roles in addressing these safety issues; however, state-of-the-art detectors, including single-shot detector (SSD) models, suffer from insufficient accuracy in environments involving complex and noisy scenes. With the aim of improving safety in a surveillance-free laboratory, we report a novel deep learning (DL)-based object detector, namely, DenseSSD. For the foremost and frequent problem of detecting vial positions, DenseSSD achieved a mean average precision (mAP) over 95% based on a complex dataset involving both empty and solution-filled vials, greatly exceeding those of conventional detectors; such high precision is critical to minimizing failure-induced accidents. Additionally, DenseSSD was observed to be highly insensitive to the environmental changes, maintaining its high precision under the variations of solution colors or testing view angles. The robustness of DenseSSD would allow the utilized equipment settings to be more flexible. This work demonstrates that DenseSSD is useful for enhancing safety in an automated material synthesis environment, and it can be extended to various applications where high detection accuracy and speed are both needed.
翻訳日:2022-06-16 13:24:17 公開日:2022-06-15
# TeKo:外部知識を備えたテキストリッチグラフニューラルネットワーク

TeKo: Text-Rich Graph Neural Networks with External Knowledge ( http://arxiv.org/abs/2206.07253v1 )

ライセンス: Link先を確認
Zhizhi Yu, Di Jin, Jianguo Wei, Ziyang Liu, Yue Shang, Yun Xiao, Jiawei Han, and Lingfei Wu(参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データ(ネットワーク)の様々な分析タスクに取り組むことで大きな人気を得ている。 典型的なGNNとその変種は、ネットワークトポロジーに沿った特徴伝播プロセスによってネットワーク表現を得るメッセージパス方式に従うが、多くの実世界のネットワークに存在するリッチなテキスト意味論(例えば、ローカルな単語列)を無視する。 既存のテキストリッチネットワークの方法は、主にトピックやフレーズ/ワードなどの内部情報を活用することで、テキストセマンティクスを包括的にマイニングできないことがあり、ネットワーク構造とテキストセマンティクス間の相互ガイダンスを制限することによって、テキストセマンティクスを統合する。 これらの問題に対処するために,テキストリッチネットワーク内の構造情報とテキスト情報の両方をフル活用するために,外部知識を持つ新しいテキストリッチグラフニューラルネットワーク(TeKo)を提案する。 具体的には、まず、高品質なエンティティとドキュメントとエンティティ間の相互作用を組み込んだフレキシブルな異種セマンティックネットワークを提案する。 次に、構造化三重項と非構造化実体記述という2種類の外部知識を導入し、テキスト意味論の深い洞察を得る。 さらに,構築されたヘテロジニアス・セマンティクス・ネットワークの相互畳み込み機構をデザインし,ネットワーク構造とテクスト的セマンティクスが協調して相互に強化し,ハイレベル・ネットワーク表現を学ぶ。 4つの公開テキストリッチネットワークと大規模eコマース検索データセットの大規模な実験結果から、最先端のベースラインよりもTeKoの方が優れたパフォーマンスを示している。

Graph Neural Networks (GNNs) have gained great popularity in tackling various analytical tasks on graph-structured data (i.e., networks). Typical GNNs and their variants follow a message-passing manner that obtains network representations by the feature propagation process along network topology, which however ignore the rich textual semantics (e.g., local word-sequence) that exist in many real-world networks. Existing methods for text-rich networks integrate textual semantics by mainly utilizing internal information such as topics or phrases/words, which often suffer from an inability to comprehensively mine the text semantics, limiting the reciprocal guidance between network structure and text semantics. To address these problems, we propose a novel text-rich graph neural network with external knowledge (TeKo), in order to take full advantage of both structural and textual information within text-rich networks. Specifically, we first present a flexible heterogeneous semantic network that incorporates high-quality entities and interactions among documents and entities. We then introduce two types of external knowledge, that is, structured triplets and unstructured entity description, to gain a deeper insight into textual semantics. We further design a reciprocal convolutional mechanism for the constructed heterogeneous semantic network, enabling network structure and textual semantics to collaboratively enhance each other and learn high-level network representations. Extensive experimental results on four public text-rich networks as well as a large-scale e-commerce searching dataset illustrate the superior performance of TeKo over state-of-the-art baselines.
翻訳日:2022-06-16 13:23:53 公開日:2022-06-15
# Fair Ranking as Fair Division: Impact-based individual Fairness in Ranking

Fair Ranking as Fair Division: Impact-Based Individual Fairness in Ranking ( http://arxiv.org/abs/2206.07247v1 )

ライセンス: Link先を確認
Yuta Saito and Thorsten Joachims(参考訳) オンライン市場ではランキングが主要なインターフェースとなっている。 多くの人は、ランキングが利用者の満足度に影響を与えるだけでなく(顧客、リスナー、雇用主、旅行者など)、ランキングの順位がランキング項目(記事、商品、歌、求職者、レストラン、ホテルなど)への露出(すなわち経済的機会)を割り当てていると指摘している。 これはアイテムに対する公平性の問題を引き起こし、既存の作品の多くはアイテムの露出とアイテムの関連性を明示的に関連付けることで公平性に対処している。 しかし,このようなリンク関数の特定の選択は防御が困難である可能性があり,結果のランク付けが依然として不公平であることを示す。 これらの欠点を避けるために、我々はフェアディビジョンの原則に根ざした新しい公理的アプローチを開発する。 これはリンク関数を選択する必要をなくすだけでなく、露出以外の項目への影響をより有意義に定量化する。 均一なランク付けポリシーでは、各項目が他のどの項目よりも自分のランク付けを優先すべきであり、どの項目もそのランク付けによって積極的に不利になるべきではないと仮定する。 これらの公理に従って公平なランキング政策を計算するために,ナッシュ社会福祉に関連する新しいランキング目標を提案する。 提案手法は,エンビーフリー性,各項目の均一ランキングに対する支配性,パレート最適性に関する保証があることを示す。 対照的に、従来の露光による公正さは、大量のうらやみを生じさせ、アイテムに非常に異なる影響を与えることを示す。 これらの理論的な結果を超えて、我々のフレームワークがインパクトに基づく個々のアイテムフェアネスとユーザユーティリティのトレードオフをどのように制御するかを実証的に示します。

Rankings have become the primary interface in two-sided online markets. Many have noted that the rankings not only affect the satisfaction of the users (e.g., customers, listeners, employers, travelers), but that the position in the ranking allocates exposure -- and thus economic opportunity -- to the ranked items (e.g., articles, products, songs, job seekers, restaurants, hotels). This has raised questions of fairness to the items, and most existing works have addressed fairness by explicitly linking item exposure to item relevance. However, we argue that any particular choice of such a link function may be difficult to defend, and we show that the resulting rankings can still be unfair. To avoid these shortcomings, we develop a new axiomatic approach that is rooted in principles of fair division. This not only avoids the need to choose a link function, but also more meaningfully quantifies the impact on the items beyond exposure. Our axioms of envy-freeness and dominance over uniform ranking postulate that for a fair ranking policy every item should prefer their own rank allocation over that of any other item, and that no item should be actively disadvantaged by the rankings. To compute ranking policies that are fair according to these axioms, we propose a new ranking objective related to the Nash Social Welfare. We show that the solution has guarantees regarding its envy-freeness, its dominance over uniform rankings for every item, and its Pareto optimality. In contrast, we show that conventional exposure-based fairness can produce large amounts of envy and have a highly disparate impact on the items. Beyond these theoretical results, we illustrate empirically how our framework controls the trade-off between impact-based individual item fairness and user utility.
翻訳日:2022-06-16 13:23:25 公開日:2022-06-15
# キーワードスポッティングのための遅延制御

Latency Control for Keyword Spotting ( http://arxiv.org/abs/2206.07261v1 )

ライセンス: Link先を確認
Christin Jose, Joseph Wang, Grant P. Strimel, Mohammad Omar Khursheed, Yuriy Mishchenko, Brian Kulis(参考訳) 会話エージェントは、通常、キーワードスポッティング(KWS)を使用してユーザとの音声対話を開始する。 ユーザエクスペリエンスとプライバシについて考えると、既存のKWSのアプローチは正確性に重点を置いています。 このトレードオフに対処するため,KWSモデルの遅延を制御し,キーワード終端の明示的な知識を伴わずに任意の損失関数に一般化する手法を提案する。 調整可能な1つのハイパーパラメータにより、本手法はターゲットアプリケーションの検出遅延と精度のバランスをとることができる。 実験により,本手法は既存の手法と比較して遅延制約下での優れた性能を示すことを示す。 すなわち、ベースラインの最先端と比較して、固定遅延ターゲットに対して、かなり25%の相対的な偽が改善される。 また,本手法を最大プール損失と併用した場合,クロスエントロピー損失と比較して,固定遅延時において相対的偽受け入れ率を25%向上できることを示した。

Conversational agents commonly utilize keyword spotting (KWS) to initiate voice interaction with the user. For user experience and privacy considerations, existing approaches to KWS largely focus on accuracy, which can often come at the expense of introduced latency. To address this tradeoff, we propose a novel approach to control KWS model latency and which generalizes to any loss function without explicit knowledge of the keyword endpoint. Through a single, tunable hyperparameter, our approach enables one to balance detection latency and accuracy for the targeted application. Empirically, we show that our approach gives superior performance under latency constraints when compared to existing methods. Namely, we make a substantial 25\% relative false accepts improvement for a fixed latency target when compared to the baseline state-of-the-art. We also show that when our approach is used in conjunction with a max-pooling loss, we are able to improve relative false accepts by 25 % at a fixed latency when compared to cross entropy loss.
翻訳日:2022-06-16 13:22:52 公開日:2022-06-15
# 多属性選好の慎重な学習

Cautious Learning of Multiattribute Preferences ( http://arxiv.org/abs/2206.07341v1 )

ライセンス: Link先を確認
Hugo Gilbert (LAMSADE), Mohamed Ouaguenouni, Meltem Ozturk, Olivier Spanjaard(参考訳) 本稿では,バイナリ属性を特徴とする代替品間の嗜好を予測するための慎重な学習手法について述べる(ただし,それぞれの代替品は属性のサブセットと見なされる)。 注意」とは、マルチ属性の嗜好を表現するために学んだモデルは、選択肢の厳密な弱い順序と互換性があり、収集されたデータが信頼性のある予測と互換性がない場合は、一部の選好を予測できないことを意味する。 予測された嗜好は、訓練データを説明する最も単純なモデル(オッカムのカミソリ原理に従う)が一致すれば、信頼できると考えられる。 予測は代替案[FishburnとLaValle, 1996]の順序的支配関係に基づいている。 支配関係は多属性ユーティリティ関数のパラメータの可能な値を含む不確実性集合に依存している。 予測の豊かさと信頼性を評価するための数値実験が提供される。

This paper is dedicated to a cautious learning methodology for predicting preferences between alternatives characterized by binary attributes (formally, each alternative is seen as a subset of attributes). By "cautious", we mean that the model learned to represent the multi-attribute preferences is general enough to be compatible with any strict weak order on the alternatives, and that we allow ourselves not to predict some preferences if the data collected are not compatible with a reliable prediction. A predicted preference will be considered reliable if all the simplest models (following Occam's razor principle) explaining the training data agree on it. Predictions are based on an ordinal dominance relation between alternatives [Fishburn and LaValle, 1996]. The dominance relation relies on an uncertainty set encompassing the possible values of the parameters of the multi-attribute utility function. Numerical tests are provided to evaluate the richness and the reliability of the predictions made.
翻訳日:2022-06-16 13:22:36 公開日:2022-06-15
# 量子多体系の基底状態学習のための格子畳み込みネットワーク

Lattice Convolutional Networks for Learning Ground States of Quantum Many-Body Systems ( http://arxiv.org/abs/2206.07370v1 )

ライセンス: Link先を確認
Cong Fu, Xuan Zhang, Huixin Zhang, Hongyi Ling, Shenglong Xu, Shuiwang Ji(参考訳) 深層学習法は、量子多体系の基底状態波動関数の表現に有効であることが示されている。 既存の手法では畳み込みニューラルネットワーク(convolutional neural network, cnns)を正方格子に用いている。 非二乗格子の場合、既存の手法では、構造情報を正確に捉えないグラフニューラルネットワーク(GNN)を使用しており、それによって手作りのサブラッチ符号化が必要となる。 本研究では,非正方格子を正則畳み込みを適用可能な格子状拡張格子に変換するために,提案する演算の集合を用いる格子畳み込みを提案する。 提案する格子畳み込みに基づいて,自己制御と注意機構を用いた格子畳み込みネットワーク(lcn)を設計する。 提案手法は,手作りの符号化を使わずに,正方形,ハニカム,三角形,かごめ格子上の1/2$J_1$-$J_2$ハイゼンベルクモデルよりも高い性能が得られることを示す。

Deep learning methods have been shown to be effective in representing ground-state wave functions of quantum many-body systems. Existing methods use convolutional neural networks (CNNs) for square lattices due to their image-like structures. For non-square lattices, existing method uses graph neural network (GNN) in which structure information is not precisely captured, thereby requiring additional hand-crafted sublattice encoding. In this work, we propose lattice convolutions in which a set of proposed operations are used to convert non-square lattices into grid-like augmented lattices on which regular convolution can be applied. Based on the proposed lattice convolutions, we design lattice convolutional networks (LCN) that use self-gating and attention mechanisms. Experimental results show that our method achieves performance on par or better than existing methods on spin 1/2 $J_1$-$J_2$ Heisenberg model over the square, honeycomb, triangular, and kagome lattices while without using hand-crafted encoding.
翻訳日:2022-06-16 13:22:20 公開日:2022-06-15
# 深層強化学習と動的プログラミングを統合した自律小隊制御

Autonomous Platoon Control with Integrated Deep Reinforcement Learning and Dynamic Programming ( http://arxiv.org/abs/2206.07536v1 )

ライセンス: Link先を確認
Tong Liu, Lei Lei, Kan Zheng, Kuan Zhang(参考訳) 深層強化学習(drl)は自動車追従制御の潜在的な方法と見なされ、主に1台の追従車両をサポートするために研究されている。 しかし、小隊に複数の追従車両が存在する場合、特に予測不可能な先行車両行動で、安定的で効率的な車両追従ポリシーを学ぶことはより困難である。 この文脈では、DRLと動的プログラミング(DP)を統合して自律型小隊制御ポリシーを学習し、Deep Deterministic Policy Gradient(DDPG)アルゴリズムを有限水平値反復フレームワークに組み込む。 DPフレームワークはDDPGの安定性と性能を向上させることができるが,サンプリングおよびトレーニング効率の低下には限界がある。 本稿では,これらの制約を克服するための3つの重要なアイデア,すなわちネットワーク重みの後方移動,事前の時間ステップの定常政策近似,縮小状態空間のスイープを克服するために,定常近似 (fh-ddpg-ss) を用いた有限ホリゾンddpg法を提案する。 FH-DDPG-SSの有効性を検証するため、実運転データを用いたシミュレーションを行い、FH-DDPG-SSの性能をベンチマークアルゴリズムと比較した。 最後に, FH-DDPG-SSにおける小隊の安全性と弦の安定性を実証した。

Deep Reinforcement Learning (DRL) is regarded as a potential method for car-following control and has been mostly studied to support a single following vehicle. However, it is more challenging to learn a stable and efficient car-following policy when there are multiple following vehicles in a platoon, especially with unpredictable leading vehicle behavior. In this context, we adopt an integrated DRL and Dynamic Programming (DP) approach to learn autonomous platoon control policies, which embeds the Deep Deterministic Policy Gradient (DDPG) algorithm into a finite-horizon value iteration framework. Although the DP framework can improve the stability and performance of DDPG, it has the limitations of lower sampling and training efficiency. In this paper, we propose an algorithm, namely Finite-Horizon-DDPG with Sweeping through reduced state space using Stationary approximation (FH-DDPG-SS), which uses three key ideas to overcome the above limitations, i.e., transferring network weights backward in time, stationary policy approximation for earlier time steps, and sweeping through reduced state space. In order to verify the effectiveness of FH-DDPG-SS, simulation using real driving data is performed, where the performance of FH-DDPG-SS is compared with those of the benchmark algorithms. Finally, platoon safety and string stability for FH-DDPG-SS are demonstrated.
翻訳日:2022-06-16 13:22:00 公開日:2022-06-15
# NatGen: "Naturalizing"ソースコードによる生成事前トレーニング

NatGen: Generative pre-training by "Naturalizing" source code ( http://arxiv.org/abs/2206.07585v1 )

ライセンス: Link先を確認
Saikat Chakraborty and Toufique Ahmed and Yangruibo Ding and Premkumar Devanbu and Baishakhi Ray(参考訳) ソースコードに対する事前訓練された生成言語モデル(PLBART、CodeT5、SPT-Codeなど)は、コード生成や翻訳を含む過去数年間のいくつかのタスクで強い結果を得た。 これらのモデルは、非常に大規模なコーパスから自己管理的な方法でコード構築の統計を学習するために、様々な事前学習目標を採用してきた。 本稿では,2モーダル・デュアルチャネル(形式的・自然なチャネル)の性質を生かした,新たな事前学習対象であるソースコードの「Naturalizing」を提案する。 自然言語とは異なり、コードのバイモーダルでデュアルチャネルの性質は、意味的に等価なコードを大規模に生成することを可能にする。 セマンティック保存変換の6つのクラスを導入し、非自然なコード形式を導入し、それから開発者が書いたより自然なオリジナルプログラムを作らせます。 明確な手動の監督なしに、大規模なオープンソースコードのコーパスを越えて、同等だがより自然なコードを生成することを学ぶことで、モデルはコードの取り込みと生成の両方を学ぶことができる。 私たちは、コード生成、コード翻訳、限定されたラベル付きデータによるコード改良の3つの生成ソフトウェアエンジニアリングタスクでモデルを微調整し、最先端のパフォーマンスのCodeT5に匹敵するパフォーマンスを達成する。 事前訓練されたモデルは、特にゼロショットと少数ショットの学習において競合し、コード特性(例えば、構文、データフロー)を学習する上で優れています。

Pre-trained Generative Language models (e.g. PLBART, CodeT5, SPT-Code) for source code yielded strong results on several tasks in the past few years, including code generation and translation. These models have adopted varying pre-training objectives to learn statistics of code construction from very large-scale corpora in a self-supervised fashion; the success of pre-trained models largely hinges on these pre-training objectives. This paper proposes a new pre-training objective, "Naturalizing" of source code, exploiting code's bimodal, dual-channel (formal & natural channels) nature. Unlike natural language, code's bimodal, dual-channel nature allows us to generate semantically equivalent code at scale. We introduce six classes of semantic preserving transformations to introduce un-natural forms of code, and then force our model to produce more natural original programs written by developers. Learning to generate equivalent, but more natural code, at scale, over large corpora of open-source code, without explicit manual supervision, helps the model learn to both ingest & generate code. We fine-tune our model in three generative Software Engineering tasks: code generation, code translation, and code refinement with limited human-curated labeled data and achieve state-of-the-art performance rivaling CodeT5. We show that our pre-trained model is especially competitive at zero-shot and few-shot learning, and better at learning code properties (e.g., syntax, data flow).
翻訳日:2022-06-16 13:21:00 公開日:2022-06-15
# 機械学習はアブダクション推論である

Machine Learning is Abduction Inference ( http://arxiv.org/abs/2206.07586v1 )

ライセンス: Link先を確認
Marina Sapir(参考訳) 階調矛盾を持つアブダクションの概念は、ピアースのアブダクション推論の形式として導入された。 アブダクション基準の一般的な形式は、階調された矛盾の論理と再帰的アグリゲーションの論理で定式化される。 このような基準の最小化としての吸引手順の共通ステップも規定する。 14の教科書学習者(階層クラスタリングからk-NN,SVR)の例で,それぞれがAGCを実行することを示した。 提案した理論は実生活学習者を説明するが、統計学への言及は避けており、統計学習理論の論理的な代替と見なすことができる。

Concept of Abduction with Gradated Contradictions is introduced here as a form of Peirce's abduction inference. The general form of abduction criterion is formalized in the proposed Logic of Gradated Contradictions and Logic of Recursive Aggregation. Common steps of an abduction procedure as minimization of such a criterion are specified as well. It is demonstrated on examples of 14 popular textbook learners (from hierarchical clustering to k-NN and SVR) that each of them performs AGC. The proposed theory explains real life learners, yet it avoids any mention of statistics, so it can be considered as a logical alternative to the statistical learning theory.
翻訳日:2022-06-16 13:20:34 公開日:2022-06-15
# 深部異常検出におけるハイパーパラメータ感度:解析とスケーラブルなハイパーセンスソリューション

Hyperparameter Sensitivity in Deep Outlier Detection: Analysis and a Scalable Hyper-Ensemble Solution ( http://arxiv.org/abs/2206.07647v1 )

ライセンス: Link先を確認
Xueying Ding, Lingxiao Zhao, Leman Akoglu(参考訳) 外乱検出(OD)文学は、様々な領域に適用される多くのアルゴリズムを示す。 しかし、新しい検出タスクを考えると、使用するアルゴリズムを選択する方法や、教師なしの設定でハイパーパラメータ(hps)を設定する方法が不明である。 HPのチューニングは、深層学習に基づく新しい検出器が数多く登場し、ますます増加する問題である。 タスク駆動表現学習やエンドツーエンド最適化といった魅力的な特性を持っていますが、深いモデルにはhpの長いリストがあります。 驚くべきことに、異常な鉱業文学におけるモデル選択の問題は「部屋の中の象」であり、深い方法の最大限の可能性を解き放つ重要な要因であり、体系的にこの問題に取り組むためにほとんど言及もしなかった。 本論文の第1部では, 深層od法のhp感度に関する最初の大規模解析を行い, 35,000以上のトレーニングモデルを用いて, モデル選択が避けられないことを定量的に証明した。 次に,hp構成の異なるモデルを組み立てるrobodと呼ばれるhp-robustでスケーラブルなディープハイパーセンスモデルを設計し,選択麻痺を回避した。 重要なのは,パラメータ共有,バッチ/同時トレーニング,データサブサンプリングといったアンサンブルトレーニングを高速化する新たな戦略を導入することで,パラメータの少ないモデルでもより少ないトレーニングが可能になることです。 画像と表のデータセットに関する大規模な実験は、ROBODが現在のデータセットと比較して堅牢で最先端の検知性能を達成し、維持していることを示している。

Outlier detection (OD) literature exhibits numerous algorithms as it applies to diverse domains. However, given a new detection task, it is unclear how to choose an algorithm to use, nor how to set its hyperparameter(s) (HPs) in unsupervised settings. HP tuning is an ever-growing problem with the arrival of many new detectors based on deep learning. While they have appealing properties such as task- driven representation learning and end-to-end optimization, deep models come with a long list of HPs. Surprisingly, the issue of model selection in the outlier mining literature has been "the elephant in the room"; a significant factor in unlocking the utmost potential of deep methods, yet little said or done to systematically tackle the issue. In the first part of this paper, we conduct the first large-scale analysis on the HP sensitivity of deep OD methods, and through more than 35,000 trained models, quantitatively demonstrate that model selection is inevitable. Next, we design a HP-robust and scalable deep hyper-ensemble model called ROBOD that assembles models with varying HP configurations, bypassing the choice paralysis. Importantly, we introduce novel strategies to speed up ensemble training, such as parameter sharing, batch/simultaneous training, and data subsampling, that allow us to train fewer models with fewer parameters. Extensive experiments on both image and tabular datasets show that ROBOD achieves and retains robust, state-of-the-art detection performance as compared to its modern counterparts, while taking only 2-10% of the time by the naive hyper-ensemble with independent training.
翻訳日:2022-06-16 13:20:24 公開日:2022-06-15
# brownian noise reduction: 正確性制約によるプライバシーの最大化

Brownian Noise Reduction: Maximizing Privacy Subject to Accuracy Constraints ( http://arxiv.org/abs/2206.07234v1 )

ライセンス: Link先を確認
Justin Whitehouse, Zhiwei Steven Wu, Aaditya Ramdas, Ryan Rogers(参考訳) 研究者と実践者の間には、プライバシとユーティリティのトレードオフの扱い方がある。 研究者は主にプライバシファーストの観点から活動し、厳格なプライバシー要件を設定し、これらの制約によるリスクを最小限に抑える。 実践者は、しばしば正確性第一の視点を望んでおり、おそらく、十分に小さなエラーを得られる最大のプライバシーに満足している。 Ligettらは後者の観点に対処する"ノイズ低減"アルゴリズムを導入した。 筆者らは,関連するラプラスノイズを付加し,オンデマンドで徐々に低減することで,より正確なプライベートパラメータの推定を連続的に生成し,最小ノイズのイテレートに対してのみプライバシコストを支払えばよいことを示した。 本研究では,ガウス雑音の設定にノイズ低減を一般化し,ブラウン機構を導入する。 ブラウン機構はまず、シミュレーションされたブラウン運動の最終点に対応する高分散のガウス雑音を加えることで機能する。 そして、実践者の判断において、ブラウン経路に沿って早く遡ることで、ノイズは徐々に減少する。 我々のメカニズムは、有界な$\ell_2$-sensitivityの共通設定に自然に適用され、一般的な統計タスクにおける既存の作業よりも経験的に優れ、実践者とのインタラクション全体に対するプライバシー損失のカスタマイズ可能な制御を提供する。 我々は、適応的なプライバシー保証を提供する古典的なAboveThresholdアルゴリズムの一般化であるReduceedAboveThresholdで、ブラウン機構を補完する。 全体としては,高いプライバシレベルを維持しながら,実用上の制約を満たせることを実証した。

There is a disconnect between how researchers and practitioners handle privacy-utility tradeoffs. Researchers primarily operate from a privacy first perspective, setting strict privacy requirements and minimizing risk subject to these constraints. Practitioners often desire an accuracy first perspective, possibly satisfied with the greatest privacy they can get subject to obtaining sufficiently small error. Ligett et al. have introduced a "noise reduction" algorithm to address the latter perspective. The authors show that by adding correlated Laplace noise and progressively reducing it on demand, it is possible to produce a sequence of increasingly accurate estimates of a private parameter while only paying a privacy cost for the least noisy iterate released. In this work, we generalize noise reduction to the setting of Gaussian noise, introducing the Brownian mechanism. The Brownian mechanism works by first adding Gaussian noise of high variance corresponding to the final point of a simulated Brownian motion. Then, at the practitioner's discretion, noise is gradually decreased by tracing back along the Brownian path to an earlier time. Our mechanism is more naturally applicable to the common setting of bounded $\ell_2$-sensitivity, empirically outperforms existing work on common statistical tasks, and provides customizable control of privacy loss over the entire interaction with the practitioner. We complement our Brownian mechanism with ReducedAboveThreshold, a generalization of the classical AboveThreshold algorithm that provides adaptive privacy guarantees. Overall, our results demonstrate that one can meet utility constraints while still maintaining strong levels of privacy.
翻訳日:2022-06-16 13:19:35 公開日:2022-06-15
# スマート予測列最適化法によるオンライン環境意思決定

Online Contextual Decision-Making with a Smart Predict-then-Optimize Method ( http://arxiv.org/abs/2206.07316v1 )

ライセンス: Link先を確認
Heyuan Liu and Paul Grigas(参考訳) 資源制約を伴うオンラインコンテキスト意思決定問題について検討する。 各期間において、意思決定者は、与えられたコンテキストベクトルに基づいて、まず報奨ベクトルおよびリソース消費行列を予測し、次に下流最適化問題を解いて決定する。 意思決定者の最終的な目標は、リソースの制約を満たしながら、リソース消費による報酬とユーティリティの合計を最大化することである。 本稿では,SPO(Smart Predict-then-Optimize)法に基づく予測ステップと,ミラー降下に基づく2つの更新ステップを混合するアルゴリズムを提案する。 本手法の総合収束率はオンラインミラー降下の$\mathcal{o}(t^{-1/2})$収束と予測モデルの学習に用いられる代理損失関数のリスク境界に依存することを示した。 我々のアルゴリズムと後悔境界は、ハードとソフトの両方の制約を含むリソース制約に対して一般的な凸可能な領域に適用され、線形文脈モデルや有限ポリシー空間の伝統的な設定とは対照的に、広範囲の予測モデルに適用されます。 また,従来の予測誤りのみ法と比較して,多次元ナップサックおよび最長経路インスタンスにおいて,提案手法の強みを実証的に実証する数値実験を行った。

We study an online contextual decision-making problem with resource constraints. At each time period, the decision-maker first predicts a reward vector and resource consumption matrix based on a given context vector and then solves a downstream optimization problem to make a decision. The final goal of the decision-maker is to maximize the summation of the reward and the utility from resource consumption, while satisfying the resource constraints. We propose an algorithm that mixes a prediction step based on the "Smart Predict-then-Optimize (SPO)" method with a dual update step based on mirror descent. We prove regret bounds and demonstrate that the overall convergence rate of our method depends on the $\mathcal{O}(T^{-1/2})$ convergence of online mirror descent as well as risk bounds of the surrogate loss function used to learn the prediction model. Our algorithm and regret bounds apply to a general convex feasible region for the resource constraints, including both hard and soft resource constraint cases, and they apply to a wide class of prediction models in contrast to the traditional settings of linear contextual models or finite policy spaces. We also conduct numerical experiments to empirically demonstrate the strength of our proposed SPO-type methods, as compared to traditional prediction-error-only methods, on multi-dimensional knapsack and longest path instances.
翻訳日:2022-06-16 13:19:09 公開日:2022-06-15
# グラフニューラルネットワークを用いたエージェントモデルからマイクロデータへのキャリブレーション

Calibrating Agent-based Models to Microdata with Graph Neural Networks ( http://arxiv.org/abs/2206.07570v1 )

ライセンス: Link先を確認
Joel Dyer, Patrick Cannon, J. Doyne Farmer, Sebastian M. Schmon(参考訳) エージェントベースモデル(ABM)をデータにキャリブレーションすることは、モデルが望ましい目的を達成するための最も基本的な要件である。 近年,シミュレーションに基づく推論手法が,モデル確率関数が難解である場合に,このタスクを実行するための強力なツールとして出現している。 いくつかの実世界のABMのユースケースでは、観測されたデータとABM出力は、時間とともにエージェントの状態とその相互作用から成り立っている。 このような場合、そのような粒度データの豊富な情報内容をフル活用したいという欲求と、高次元学習課題に伴う困難を防止するためにデータの次元性を減らす必要性との間には緊張関係がある。 各時点におけるシステムのマクロ状態を記述する要約統計を用いて、低次元の時系列を構築することができる。 しかし、要約統計の貧弱な選択は、元のデータセットから情報の許容できない損失を生じさせ、結果として得られる校正の品質を劇的に低下させる。 そこで本研究では,時間グラフニューラルネットワークを用いて,粒状マイクロデータに付随するパラメータを学習することを提案する。 このようなアプローチは、生のABMマイクロステートを出力として、ベイズ推定に非常に魅力的な帰納バイアスを与えることを示す。

Calibrating agent-based models (ABMs) to data is among the most fundamental requirements to ensure the model fulfils its desired purpose. In recent years, simulation-based inference methods have emerged as powerful tools for performing this task when the model likelihood function is intractable, as is often the case for ABMs. In some real-world use cases of ABMs, both the observed data and the ABM output consist of the agents' states and their interactions over time. In such cases, there is a tension between the desire to make full use of the rich information content of such granular data on the one hand, and the need to reduce the dimensionality of the data to prevent difficulties associated with high-dimensional learning tasks on the other. A possible resolution is to construct lower-dimensional time-series through the use of summary statistics describing the macrostate of the system at each time point. However, a poor choice of summary statistics can result in an unacceptable loss of information from the original dataset, dramatically reducing the quality of the resulting calibration. In this work, we instead propose to learn parameter posteriors associated with granular microdata directly using temporal graph neural networks. We will demonstrate that such an approach offers highly compelling inductive biases for Bayesian inference using the raw ABM microstates as output.
翻訳日:2022-06-16 13:18:49 公開日:2022-06-15
# MACE: 高速かつ高精度な力場のための高次同変メッセージパッシングニューラルネットワーク

MACE: Higher Order Equivariant Message Passing Neural Networks for Fast and Accurate Force Fields ( http://arxiv.org/abs/2206.07697v1 )

ライセンス: Link先を確認
Ilyes Batatia, D\'avid P\'eter Kov\'acs, Gregor N. C. Simm, Christoph Ortner, G\'abor Cs\'anyi(参考訳) 高速で正確な力場を作ることは、計算化学と材料科学における長年の課題である。 近年,いくつかの同変メッセージパッシングニューラルネットワーク(MPNN)が,他の手法を用いたモデルよりも精度が高いことが示されている。 しかし、ほとんどのMPNNは高い計算コストとスケーラビリティに悩まされている。 これらの制限は、MPNNが2体メッセージのみを通過させることで、レイヤー数とネットワークの表現性との間に直接関係があることから生じる。 本研究では,より高いボディオーダーメッセージを用いた新しい等価mpnnモデルであるmaceを紹介する。 特に,4ボディメッセージを用いることで,必要なメッセージパッシング回数を単に \emph{two} に減らし,rMD17,3BPA,AcAc のベンチマークタスクで最先端の精度に到達または超える高速かつ高並列化可能なモデルが得られることを示す。 また,高次メッセージを用いることで,学習曲線の急勾配が向上することを示す。

Creating fast and accurate force fields is a long-standing challenge in computational chemistry and materials science. Recently, several equivariant message passing neural networks (MPNNs) have been shown to outperform models built using other approaches in terms of accuracy. However, most MPNNs suffer from high computational cost and poor scalability. We propose that these limitations arise because MPNNs only pass two-body messages leading to a direct relationship between the number of layers and the expressivity of the network. In this work, we introduce MACE, a new equivariant MPNN model that uses higher body order messages. In particular, we show that using four-body messages reduces the required number of message passing iterations to just \emph{two}, resulting in a fast and highly parallelizable model, reaching or exceeding state-of-the-art accuracy on the rMD17, 3BPA, and AcAc benchmark tasks. We also demonstrate that using higher order messages leads to an improved steepness of the learning curves.
翻訳日:2022-06-16 13:17:28 公開日:2022-06-15
# 完全合成MOCEMデータに基づくディープラーニングモデルによるMSTAR上のロバストSAR ATR

Robust SAR ATR on MSTAR with Deep Learning Models trained on Full Synthetic MOCEM data ( http://arxiv.org/abs/2206.07352v1 )

ライセンス: Link先を確認
Benjamin Camus, Corentin Le Barbu, Eric Monteux(参考訳) SAR(Synthetic Aperture Radar)画像におけるATR(Deep Learning for Automatic Target Recognition)の有望なポテンシャルは、トレーニングデータセットの収集の複雑さを考慮して消滅する。 シミュレーションは、合成トレーニングデータセットを作成することでこの問題を克服することができる。 しかし,シミュレーションの表現性に限界があるため,従来の合成画像を用いたモデルでは,実測値を扱う場合の一般化能力に限界がある。 これまでの研究で、この問題に取り組むために、同等に有望なディープラーニングアルゴリズムのセットが特定された。 しかし、これらの手法は、測定されたテストデータの基礎的真実に適合する合成トレーニングデータセットを用いて、非常に好ましいシナリオで評価されてきた。 本研究では,実運用環境では起こりそうにない理想条件外におけるATR問題について検討する。 私たちの貢献は3倍です。 1) MOCEMシミュレータ(フランスのMOD/DGAでSCALIAN DSによって開発された)を用いて,実測値と大きく異なる合成MSTARトレーニングデータセットを作成する。 2) 現状の限界を実験的に実証する。 (3)ドメインランダム化手法と逆トレーニングを組み合わせることでこの問題を克服できることを示す。 このアプローチは最先端技術よりも堅牢で,75%の精度で,トレーニング中のコンピュータ性能に限定的な影響を与えていることを示す。

The promising potential of Deep Learning for Automatic Target Recognition (ATR) on Synthetic Aperture Radar (SAR) images vanishes when considering the complexity of collecting training datasets measurements. Simulation can overcome this issue by producing synthetic training datasets. However, because of the limited representativeness of simulation, models trained in a classical way with synthetic images have limited generalization abilities when dealing with real measurement at test time. Previous works identified a set of equally promising deep-learning algorithms to tackle this issue. However, these approaches have been evaluated in a very favorable scenario with a synthetic training dataset that overfits the ground truth of the measured test data. In this work, we study the ATR problem outside of this ideal condition, which is unlikely to occur in real operational contexts. Our contribution is threefold. (1) Using the MOCEM simulator (developed by SCALIAN DS for the French MoD/DGA), we produce a synthetic MSTAR training dataset that differs significantly from the real measurements. (2) We experimentally demonstrate the limits of the state-of-the-art. (3) We show that domain randomization techniques and adversarial training can be combined to overcome this issue. We demonstrate that this approach is more robust than the state-of-the-art, with an accuracy of 75 %, while having a limited impact on computing performance during training.
翻訳日:2022-06-16 13:17:08 公開日:2022-06-15
# VCT:ビデオ圧縮変換器

VCT: A Video Compression Transformer ( http://arxiv.org/abs/2206.07307v1 )

ライセンス: Link先を確認
Fabian Mentzer, George Toderici, David Minnen, Sung-Jin Hwang, Sergi Caelles, Mario Lucic, Eirikur Agustsson(参考訳) ニューラルビデオ圧縮を単純化するためにトランスフォーマーをどのように利用できるかを示す。 以前の手法では、動きの予測やウォーピング操作など、アーキテクチャ上のバイアスや事前設定の数が増えて、複雑なモデルが生まれてきた。 代わりに、入力フレームを表現に独立にマッピングし、トランスフォーマーを使用して依存関係をモデル化し、過去の表現の分布を予測する。 得られたビデオ圧縮トランスは、従来の標準ビデオ圧縮データセットの手法を上回っている。 合成データを用いた実験では,パンニング,ぼやけ,フェージングといった複雑な動きパターンを純粋にデータから処理することを学ぶ。 我々のアプローチは実装が容易で、将来の研究を促進するコードをリリースします。

We show how transformers can be used to vastly simplify neural video compression. Previous methods have been relying on an increasing number of architectural biases and priors, including motion prediction and warping operations, resulting in complex models. Instead, we independently map input frames to representations and use a transformer to model their dependencies, letting it predict the distribution of future representations given the past. The resulting video compression transformer outperforms previous methods on standard video compression data sets. Experiments on synthetic data show that our model learns to handle complex motion patterns such as panning, blurring and fading purely from data. Our approach is easy to implement, and we release code to facilitate future research.
翻訳日:2022-06-16 13:16:47 公開日:2022-06-15
# 生成的逆ネットワークを用いた地下深部構造マップの再構成

Subsurface Depths Structure Maps Reconstruction with Generative Adversarial Networks ( http://arxiv.org/abs/2206.07388v1 )

ライセンス: Link先を確認
Dmitry Ivlev(参考訳) 本稿では,3次元地震探査で得られた詳細な深度構造図を2次元地震深度マップのデータを用いて再構成する方法について述べる。 本手法は、生成・逆ニューラルネットワークアーキテクチャに基づく2つのアルゴリズムを用いる。 最初のアルゴリズムstylegan2-adaは、ニューラルネットワークの隠れた空間に蓄積され、山岳地形のセマンティックイメージが最初に形成され、次に転移学習の助けを借りて、理想的な場合、層状地平線の構造幾何学(structure geometry of stratigraphic horizons)が形成される。 第2のアルゴリズムであるPixel2Style2Pixelエンコーダは、第1のアルゴリズムの一般化のセマンティックレベルを用いて、劣化したコピー(超解像技術)から元の高解像度画像を再構成することを学ぶ。 また, 層状地平線境界の構造形態に関する知識を, 十分に検討された領域から未調査領域に移す手法を実証した。 pixel2style2pixelエンコーダのマルチモーダル合成を用いて, 投影領域の各点が等しく再構成された地質学的画像の確率的深さ分布の密度で表される確率的深さ空間を作成することを提案する。 復元品質の評価は2ブロックで行った。 この手法を用いて,2次元地震地図から3次元地震地図の品質に匹敵する信頼性の高い詳細な深度復元を行った。

This paper described a method for reconstruction of detailed-resolution depth structure maps, usually obtained after the 3D seismic surveys, using the data from 2D seismic depth maps. The method uses two algorithms based on the generative-adversarial neural network architecture. The first algorithm StyleGAN2-ADA accumulates in the hidden space of the neural network the semantic images of mountainous terrain forms first, and then with help of transfer learning, in the ideal case - the structure geometry of stratigraphic horizons. The second algorithm, the Pixel2Style2Pixel encoder, using the semantic level of generalization of the first algorithm, learns to reconstruct the original high-resolution images from their degraded copies (super-resolution technology). There was demonstrated a methodological approach to transferring knowledge on the structural forms of stratigraphic horizon boundaries from the well-studied areas to the underexplored ones. Using the multimodal synthesis of Pixel2Style2Pixel encoder, it is proposed to create a probabilistic depth space, where each point of the project area is represented by the density of probabilistic depth distribution of equally probable reconstructed geological forms of structural images. Assessment of the reconstruction quality was carried out for two blocks. Using this method, credible detailed depth reconstructions comparable with the quality of 3D seismic maps have been obtained from 2D seismic maps.
翻訳日:2022-06-16 13:16:31 公開日:2022-06-15
# VisageSynTalk:音声視覚特徴選択による音声音声合成

VisageSynTalk: Unseen Speaker Video-to-Speech Synthesis via Speech-Visage Feature Selection ( http://arxiv.org/abs/2206.07458v1 )

ライセンス: Link先を確認
Joanna Hong, Minsu Kim, Yong Man Ro(参考訳) 本研究の目的は,無声音声から音声を復元することである。 近年の研究では、サイレント・トーキング・フェイス・ビデオの音声合成における顕著な性能が示されている。 しかし、ビデオ音声合成において課題となる異なる話者の識別特性を明示的に考慮していないため、これは未知の話者設定においてより重要となる。 従来の方法と異なるのは, 発話内容とビザスタイルを, 所定の無声発話ビデオから分離する手法である。 モデルに2つの表現のモデリングに独立して焦点を合わせることで、未知の被写体の入力ビデオが与えられる場合でも、モデルから高い知能の音声を得ることができる。 そこで本研究では,音声コンテンツと話者識別と入力映像の視覚的特徴とを分離した音声視聴選択モジュールを提案する。 アンタングル表現は、その音声内容を維持しつつ、そのビザスタイルを塗布して音声を生成するビザスタイルベースシンセサイザーを介して音声を合成する。 そこで,提案手法は,未確認被写体の無声音声映像が提示された場合でも,適切な内容を含む音声を合成する利点をもたらす。 提案手法がGRID, TCD-TIMITボランティア, LRWデータセットに与える影響を検証した。 合成音声は補足材料で聞くことができる。

The goal of this work is to reconstruct speech from a silent talking face video. Recent studies have shown impressive performance on synthesizing speech from silent talking face videos. However, they have not explicitly considered on varying identity characteristics of different speakers, which place a challenge in the video-to-speech synthesis, and this becomes more critical in unseen-speaker settings. Distinct from the previous methods, our approach is to separate the speech content and the visage-style from a given silent talking face video. By guiding the model to independently focus on modeling the two representations, we can obtain the speech of high intelligibility from the model even when the input video of an unseen subject is given. To this end, we introduce speech-visage selection module that separates the speech content and the speaker identity from the visual features of the input video. The disentangled representations are jointly incorporated to synthesize speech through visage-style based synthesizer which generates speech by coating the visage-styles while maintaining the speech content. Thus, the proposed framework brings the advantage of synthesizing the speech containing the right content even when the silent talking face video of an unseen subject is given. We validate the effectiveness of the proposed framework on the GRID, TCD-TIMIT volunteer, and LRW datasets. The synthesized speech can be heard in supplementary materials.
翻訳日:2022-06-16 13:16:06 公開日:2022-06-15
# (参考訳) マスク付きシャムコンベネット

Masked Siamese ConvNets ( http://arxiv.org/abs/2206.07700v1 )

ライセンス: CC0 1.0
Li Jing, Jiachen Zhu, Yann LeCun(参考訳) 自己教師付き学習は、様々なビジョンベンチマークにおいて教師付き手法よりも優れたパフォーマンスを示している。 siamese networkは、埋め込みを歪みに不変にすることを奨励するものであり、最も成功した自己教師付き視覚表現学習アプローチの1つである。 すべての拡張手法の中で、マスキングはあらゆる種類の入力に適用できる可能性があり、最小限のドメイン知識を必要とする最も一般的で簡単な方法である。 しかし、マスクされたシャムネットワークは特定の誘導バイアスを必要とし、視覚トランスフォーマーでのみ機能する。 この研究は、ConvNetsによるマスク付きシアムネットワークの問題点を実証的に研究する。 これらの問題を徐々に克服するための経験的設計をいくつか提案する。 本手法は低ショット画像分類において,従来手法よりも高い性能を発揮できる。 この研究が今後の汎用的な自己教師型学習に有用なデータポイントを提供できることを願っている。

Self-supervised learning has shown superior performances over supervised methods on various vision benchmarks. The siamese network, which encourages embeddings to be invariant to distortions, is one of the most successful self-supervised visual representation learning approaches. Among all the augmentation methods, masking is the most general and straightforward method that has the potential to be applied to all kinds of input and requires the least amount of domain knowledge. However, masked siamese networks require particular inductive bias and practically only work well with Vision Transformers. This work empirically studies the problems behind masked siamese networks with ConvNets. We propose several empirical designs to overcome these problems gradually. Our method performs competitively on low-shot image classification and outperforms previous methods on object detection benchmarks. We discuss several remaining issues and hope this work can provide useful data points for future general-purpose self-supervised learning.
翻訳日:2022-06-16 13:13:53 公開日:2022-06-15
# LIFT:非言語機械学習タスクのための言語インタフェースファインチューニング

LIFT: Language-Interfaced Fine-Tuning for Non-Language Machine Learning Tasks ( http://arxiv.org/abs/2206.06565v2 )

ライセンス: Link先を確認
Tuan Dinh, Yuchen Zeng, Ruisu Zhang, Ziqian Lin, Michael Gira, Shashank Rajput, Jy-yong Sohn, Dimitris Papailiopoulos, Kangwook Lee(参考訳) アーキテクチャの変更を一切行わずに、微調整された事前学習言語モデル(LM)は、様々な言語下流タスクを学習するための標準となっている。 しかし、非言語下流タスクの場合、入出力層、損失関数のタスク固有の設計を採用するのが一般的である。 例えば、単語埋め込み層を画像パッチ埋め込み層、単語トークン出力層を10ウェイ出力層、単語予測損失を10ウェイ分類損失とすることにより、LMをMNIST分類器に微調整することができる。 LMの微調整は、モデルアーキテクチャや損失関数を変更することなく、非言語的な下流タスクを解決できるのか? そこで本稿では,非言語分類と回帰タスクのスイートについて,広範囲にわたる実証的研究を行い,その有効性と限界について検討する。 LIFTはモデルアーキテクチャや損失関数を一切変更せず、自然言語インタフェースにのみ依存しており、「LMを使ったノーコード機械学習」を可能にしている。 LIFTは低次元の分類タスクや回帰タスクにおいて比較的よく機能し,特に分類タスクにおいて,最高のベースラインのパフォーマンスとよく一致していることがわかった。 本報告では, LIFTの基本特性, 誘導バイアス, 試料効率, 外挿能力, 外れ値やラベルノイズに対する堅牢性, 一般化などの実験結果について報告する。 また、LIFTに特有のいくつかの特性/技術、例えば、適切なプロンプト、予測の不確実性の定量化、および2段階の微調整を通してコンテキスト認識学習を分析する。 私たちのコードはhttps://github.com/UW-Madison-Lee-Lab/LanguageInterfacedFineTuningで利用可能です。

Fine-tuning pretrained language models (LMs) without making any architectural changes has become a norm for learning various language downstream tasks. However, for non-language downstream tasks, a common practice is to employ task-specific designs for input, output layers, and loss functions. For instance, it is possible to fine-tune an LM into an MNIST classifier by replacing the word embedding layer with an image patch embedding layer, the word token output layer with a 10-way output layer, and the word prediction loss with a 10-way classification loss, respectively. A natural question arises: can LM fine-tuning solve non-language downstream tasks without changing the model architecture or loss function? To answer this, we propose Language-Interfaced Fine-Tuning (LIFT) and study its efficacy and limitations by conducting an extensive empirical study on a suite of non-language classification and regression tasks. LIFT does not make any changes to the model architecture or loss function, and it solely relies on the natural language interface, enabling "no-code machine learning with LMs." We find that LIFT performs relatively well across a wide range of low-dimensional classification and regression tasks, matching the performances of the best baselines in many cases, especially for the classification tasks. We report the experimental results on the fundamental properties of LIFT, including its inductive bias, sample efficiency, ability to extrapolate, robustness to outliers and label noise, and generalization. We also analyze a few properties/techniques specific to LIFT, e.g., context-aware learning via appropriate prompting, quantification of predictive uncertainty, and two-stage fine-tuning. Our code is available at https://github.com/UW-Madison-Lee-Lab/LanguageInterfacedFineTuning.
翻訳日:2022-06-16 12:57:31 公開日:2022-06-15
# 特徴選択によるニューラルインターバル感覚コックス回帰

Neural interval-censored Cox regression with feature selection ( http://arxiv.org/abs/2206.06885v2 )

ライセンス: Link先を確認
Carlos Garc\'ia Meixide and Marcos Matabuena and Michael R. Kosorok(参考訳) 古典的なcoxモデルは1972年に登場し、バイオメディシンの時間-事象分析を用いて患者の予後を定量化する方法のブレークスルーを奨励した。 実践者にとって最も有用な特徴の1つは、分析における変数の解釈可能性である。 しかし、これは回帰モデルの関数型に関する強い仮定を導入する代償となる。 このギャップを解消するため,本論文では,予測器と生存時間との非線形関係を定量化しつつ,最も関連する変数を同時に選択する新しいlassoニューラルネットワークを用いて,区間検閲設定における古典的coxモデルの説明可能性の利点を生かした。 新しい手法の利得は、線形および非線形の基底依存性を含む例を含む広範囲なシミュレーション研究で実証的に示される。 また,NHANES 2003-2006 波の生理・臨床・加速度計データの解析において,身体活動が患者の生存に及ぼす影響を予測するための戦略の有効性を実証した。 本手法は,従来のCoxモデルを用いた文献において,先行結果よりも優れていた。

The classical Cox model emerged in 1972 promoting breakthroughs in how patient prognosis is quantified using time-to-event analysis in biomedicine. One of the most useful characteristics of the model for practitioners is the interpretability of the variables in the analysis. However, this comes at the price of introducing strong assumptions concerning the functional form of the regression model. To break this gap, this paper aims to exploit the explainability advantages of the classical Cox model in the setting of interval-censoring using a new Lasso neural network that simultaneously selects the most relevant variables while quantifying non-linear relations between predictors and survival times. The gain of the new method is illustrated empirically in an extensive simulation study with examples that involve linear and non-linear ground dependencies. We also demonstrate the performance of our strategy in the analysis of physiological, clinical and accelerometer data from the NHANES 2003-2006 waves to predict the effect of physical activity on the survival of patients. Our method outperforms the prior results in the literature that use the traditional Cox model.
翻訳日:2022-06-16 12:57:02 公開日:2022-06-15
# CHQ-Summ: 消費者医療問題要約のためのデータセット

CHQ-Summ: A Dataset for Consumer Healthcare Question Summarization ( http://arxiv.org/abs/2206.06581v2 )

ライセンス: Link先を確認
Shweta Yadav, Deepak Gupta, and Dina Demner-Fushman(参考訳) 健康情報を求める試みは、消費者の健康に関する質問でウェブに波及した。 一般的に、消費者は医療状況や他の医療ニーズを表現するために過度に記述された周辺情報を使用し、自然言語理解の課題に寄与する。 この課題に対処するひとつの方法は、質問を要約し、元の質問の重要な情報を抽出することだ。 この問題に対処するために、ドメイン専門のアノテートされた消費者健康問題と対応する要約を含む新しいデータセットであるCHQ-Summを導入する。 このデータセットは、コミュニティの質問応答フォーラムから派生したもので、ソーシャルメディア上の消費者健康関連投稿を理解するための貴重なリソースを提供する。 我々は,複数の最先端要約モデル上でデータセットをベンチマークし,データセットの有効性を示す。

The quest for seeking health information has swamped the web with consumers' health-related questions. Generally, consumers use overly descriptive and peripheral information to express their medical condition or other healthcare needs, contributing to the challenges of natural language understanding. One way to address this challenge is to summarize the questions and distill the key information of the original question. To address this issue, we introduce a new dataset, CHQ-Summ that contains 1507 domain-expert annotated consumer health questions and corresponding summaries. The dataset is derived from the community question-answering forum and therefore provides a valuable resource for understanding consumer health-related posts on social media. We benchmark the dataset on multiple state-of-the-art summarization models to show the effectiveness of the dataset.
翻訳日:2022-06-16 12:56:44 公開日:2022-06-15
# オブジェクトトークンのフレームクリップ一貫性による映像シーン構造の実現

Bringing Image Scene Structure to Video via Frame-Clip Consistency of Object Tokens ( http://arxiv.org/abs/2206.06346v2 )

ライセンス: Link先を確認
Elad Ben-Avraham, Roei Herzig, Karttikeya Mangalam, Amir Bar, Anna Rohrbach, Leonid Karlinsky, Trevor Darrell, Amir Globerson(参考訳) 最近の行動認識モデルは、オブジェクト、それらの位置、相互作用を統合することで印象的な結果を得た。 しかし、各フレームに対して厳密な構造化アノテーションを取得するのは面倒で時間を要するため、これらのメソッドはトレーニングコストが高く、スケーラビリティも低い。 同時に、関心領域内外を問わず、注釈付き画像の小さなセットが利用可能であれば、これをビデオ下流タスクに活用するにはどうすればよいのか? 学習フレームワークStructureViT(略してSViT)を提案し、トレーニング中にのみ利用できる少数の画像の構造を利用することで、ビデオモデルを改善する方法を示す。 SViTは2つの重要な洞察に依存している。 まず、画像とビデオの両方に構造化情報が含まれているため、画像とビデオにまたがって使用できる「emph{object tokens}」セットのトランスフォーマーモデルを統合する。 第二に、動画中の個々のフレームのシーン表現は静止画と「一致」すべきである。 これは、画像とビデオ間の構造化情報の流れを保証する \emph{frame-clip consistency} 損失によって達成される。 場面構造の特定のインスタンス化、すなわち、手と物体がノードとして位置し、接点/非接点がエッジとして物理的関係からなる、\emph{hand-object graph} を探索する。 SViTでは、複数のビデオ理解タスクとデータセットのパフォーマンスが大幅に向上している。 さらに、Ego4D CVPR'22 Object State Localization Challengeで優勝した。 コードと事前訓練されたモデルについては、プロジェクトページの \url{https://eladb3.github.io/SViT/} を参照してください。

Recent action recognition models have achieved impressive results by integrating objects, their locations and interactions. However, obtaining dense structured annotations for each frame is tedious and time-consuming, making these methods expensive to train and less scalable. At the same time, if a small set of annotated images is available, either within or outside the domain of interest, how could we leverage these for a video downstream task? We propose a learning framework StructureViT (SViT for short), which demonstrates how utilizing the structure of a small number of images only available during training can improve a video model. SViT relies on two key insights. First, as both images and videos contain structured information, we enrich a transformer model with a set of \emph{object tokens} that can be used across images and videos. Second, the scene representations of individual frames in video should "align" with those of still images. This is achieved via a \emph{Frame-Clip Consistency} loss, which ensures the flow of structured information between images and videos. We explore a particular instantiation of scene structure, namely a \emph{Hand-Object Graph}, consisting of hands and objects with their locations as nodes, and physical relations of contact/no-contact as edges. SViT shows strong performance improvements on multiple video understanding tasks and datasets. Furthermore, it won in the Ego4D CVPR'22 Object State Localization challenge. For code and pretrained models, visit the project page at \url{https://eladb3.github.io/SViT/}
翻訳日:2022-06-16 12:56:30 公開日:2022-06-15
# RF-Next:畳み込みニューラルネットワークの効率的な受容場探索

RF-Next: Efficient Receptive Field Search for Convolutional Neural Networks ( http://arxiv.org/abs/2206.06637v2 )

ライセンス: Link先を確認
Shanghua Gao, Zhong-Yu Li, Qi Han, Ming-Ming Cheng, Liang Wang(参考訳) モデルの時間的/空間的受容場は、シーケンシャル/空間的タスクにおいて重要な役割を果たす。 大きな受容野は長期的な関係を促進し、小さな受容野は局所的な詳細を捉えるのに役立つ。 既存の手法は、層に手書きの受容場を持つモデルを構築する。 手作りのパターンを置き換えるための受容的場の組み合わせを効果的に探せるか? そこで本研究では,グローバル・ローカル検索手法を用いて,より優れた受容場の組み合わせを求める。 検索手法は, 粗い組み合わせと局所探索の両方をグローバル検索に利用し, より精巧な受容場の組み合わせを得る。 グローバル検索は、人間がデザインしたパターン以外の粗い組み合わせを見つける。 グローバル検索に加えて,コンビネーションを効果的に洗練するために,期待誘導型反復局所探索方式を提案する。 我々のRF-Nextモデルは、様々なモデルに受容場探索をプラグインし、時間的動作分割、オブジェクト検出、インスタンス分割、音声合成など、多くのタスクのパフォーマンスを向上させる。 ソースコードはhttp://mmcheng.net/rfnext.comで公開されている。

Temporal/spatial receptive fields of models play an important role in sequential/spatial tasks. Large receptive fields facilitate long-term relations, while small receptive fields help to capture the local details. Existing methods construct models with hand-designed receptive fields in layers. Can we effectively search for receptive field combinations to replace hand-designed patterns? To answer this question, we propose to find better receptive field combinations through a global-to-local search scheme. Our search scheme exploits both global search to find the coarse combinations and local search to get the refined receptive field combinations further. The global search finds possible coarse combinations other than human-designed patterns. On top of the global search, we propose an expectation-guided iterative local search scheme to refine combinations effectively. Our RF-Next models, plugging receptive field search to various models, boost the performance on many tasks, e.g., temporal action segmentation, object detection, instance segmentation, and speech synthesis. The source code is publicly available on http://mmcheng.net/rfnext.
翻訳日:2022-06-16 12:56:07 公開日:2022-06-15
# 変圧器を用いた高効率デコーダフリー物体検出

Efficient Decoder-free Object Detection with Transformers ( http://arxiv.org/abs/2206.06829v2 )

ライセンス: Link先を確認
Peixian Chen, Mengdan Zhang, Yunhang Shen, Kekai Sheng, Yuting Gao, Xing Sun, Ke Li, Chunhua Shen (Tencent Youtu Lab)(参考訳) 視覚トランスフォーマー(vits)は、オブジェクト検出アプローチの展望を変えつつある。 検出におけるViTの自然な利用は、CNNベースのバックボーンをトランスフォーマーベースのバックボーンに置き換えることである。 より微妙な用途はDETRファミリであり、オブジェクト検出において多くの手設計のコンポーネントを必要としないが、収束するのに余分な時間を要するデコーダを導入する。 その結果、大規模なアプリケーションではトランスフォーマーベースのオブジェクト検出が利用できない。 これらの課題を克服するために, 初めて高い効率を達成する新しいデコーダフリー完全トランスフォーマー(dfft)オブジェクト検出器を提案する。 2つのエントリポイントを中心にして、エンコーダのみのシングルレベルアンカーに基づく密集予測問題に対する異論検出を単純化する。 1) トレーニング非効率デコーダを取り除き, 2つの強いエンコーダを活用して,シングルレベル特徴マップ予測の精度を維持すること。 2) 限られた計算資源で検出タスクの低レベルの意味的特徴を探索する。 特に,低レベル特徴をリッチなセマンティクスで効率的にキャプチャする軽量な検出指向のトランスフォーマーバックボーンの設計を行った。 MS COCOベンチマークの大規模な実験により、DFFT_SMALLはDeTRを2.5%上回り、28%の計算コスト削減と10ドル以上のトレーニングエポックを減らした。 最先端のアンカーベースの検出器RetinaNetと比較して、DFFT_SMALLは計算コストを70%削減しながら5.5%以上のAPゲインを得る。

Vision transformers (ViTs) are changing the landscape of object detection approaches. A natural usage of ViTs in detection is to replace the CNN-based backbone with a transformer-based backbone, which is straightforward and effective, with the price of bringing considerable computation burden for inference. More subtle usage is the DETR family, which eliminates the need for many hand-designed components in object detection but introduces a decoder demanding an extra-long time to converge. As a result, transformer-based object detection can not prevail in large-scale applications. To overcome these issues, we propose a novel decoder-free fully transformer-based (DFFT) object detector, achieving high efficiency in both training and inference stages, for the first time. We simplify objection detection into an encoder-only single-level anchor-based dense prediction problem by centering around two entry points: 1) Eliminate the training-inefficient decoder and leverage two strong encoders to preserve the accuracy of single-level feature map prediction; 2) Explore low-level semantic features for the detection task with limited computational resources. In particular, we design a novel lightweight detection-oriented transformer backbone that efficiently captures low-level features with rich semantics based on a well-conceived ablation study. Extensive experiments on the MS COCO benchmark demonstrate that DFFT_SMALL outperforms DETR by 2.5% AP with 28% computation cost reduction and more than $10\times$ fewer training epochs. Compared with the cutting-edge anchor-based detector RetinaNet, DFFT_SMALL obtains over 5.5% AP gain while cutting down 70% computation cost.
翻訳日:2022-06-16 12:55:50 公開日:2022-06-15
# 経験的変動最小化による政策勾配法のばらつき低減

Variance Reduction for Policy-Gradient Methods via Empirical Variance Minimization ( http://arxiv.org/abs/2206.06827v2 )

ライセンス: Link先を確認
Maxim Kaledin, Alexander Golubev, Denis Belomestny(参考訳) 強化学習(rl)における政策段階の手法は非常に普遍的であり、実際に広く適用されているが、その性能は勾配推定のばらつきに苦しむ。 actor-critic(ac) と advantage actor-critic(a2c) メソッドを含むいくつかの方法が提案されている。 近年、Deep RLの導入により、アプローチには新たな視点がある。ニューラルネットワークのような複雑なモデルの設定で、新しい制御変数(CV)と新しいサブサンプリング手順が利用可能になった。 CVベースの手法の最も重要な部分はCVの訓練のための目標関数であり、最も一般的なものはA2Cの最小二乗基準である。 実際の成功にもかかわらず、この基準は唯一可能ではない。 本稿では,実証変動(EV)と呼ばれる装置の性能を初めて調査する。 実験では、EV基準がA2Cよりも悪くなるだけでなく、時にはかなり良くなる可能性があることを観察した。 それとは別に、非常に一般的な仮定の下で実際の分散低減に関する理論的な保証を証明し、a2c最小二乗汎関数がev目標の上限であることを示す。 実験により, 分散還元EV法はA2C法よりはるかに優れ, 分散低減効果が強いことが示唆された。

Policy-gradient methods in Reinforcement Learning(RL) are very universal and widely applied in practice but their performance suffers from the high variance of the gradient estimate. Several procedures were proposed to reduce it including actor-critic(AC) and advantage actor-critic(A2C) methods. Recently the approaches have got new perspective due to the introduction of Deep RL: both new control variates(CV) and new sub-sampling procedures became available in the setting of complex models like neural networks. The vital part of CV-based methods is the goal functional for the training of the CV, the most popular one is the least-squares criterion of A2C. Despite its practical success, the criterion is not the only one possible. In this paper we for the first time investigate the performance of the one called Empirical Variance(EV). We observe in the experiments that not only EV-criterion performs not worse than A2C but sometimes can be considerably better. Apart from that, we also prove some theoretical guarantees of the actual variance reduction under very general assumptions and show that A2C least-squares goal functional is an upper bound for EV goal. Our experiments indicate that in terms of variance reduction EV-based methods are much better than A2C and allow stronger variance reduction.
翻訳日:2022-06-16 12:55:22 公開日:2022-06-15
# AI研究のためのX-Risk解析

X-Risk Analysis for AI Research ( http://arxiv.org/abs/2206.05862v2 )

ライセンス: Link先を確認
Dan Hendrycks, Mantas Mazeika(参考訳) 人工知能(AI)は、社会を大幅に改善する可能性があるが、強力なテクノロジーと同様に、リスクと責任が高められる。 現在のAI研究は、投機的長期リスクを含むAIシステムから長期リスクを管理する方法に関する体系的な議論を欠いている。 AIの潜在的なメリットを念頭に置いておくと、よりインテリジェントで強力なAIシステムを構築することで、最終的には私たちよりも強力なシステムが生まれるのではないかという懸念がある。 まず、ハザード分析や、より安全な方向に大きなプロセスを操るように設計されたシステム安全性といった、時間テストされた概念を描きながら、今日のシステムがどのように安全なものにできるかをレビューします。 次に,今後のシステムの安全性に長期的影響を与える戦略について議論する。 最後に、安全性と一般能力のバランスを改善することで、aiシステムを安全にするための重要な概念について論じる。 この文書と提示された概念とツールは、AI x-リスクの分析方法を理解するための有用なガイドになることを期待しています。

Artificial intelligence (AI) has the potential to greatly improve society, but as with any powerful technology, it comes with heightened risks and responsibilities. Current AI research lacks a systematic discussion of how to manage long-tail risks from AI systems, including speculative long-term risks. Keeping in mind the potential benefits of AI, there is some concern that building ever more intelligent and powerful AI systems could eventually result in systems that are more powerful than us; some say this is like playing with fire and speculate that this could create existential risks (x-risks). To add precision and ground these discussions, we provide a guide for how to analyze AI x-risk, which consists of three parts: First, we review how systems can be made safer today, drawing on time-tested concepts from hazard analysis and systems safety that have been designed to steer large processes in safer directions. Next, we discuss strategies for having long-term impacts on the safety of future systems. Finally, we discuss a crucial concept in making AI systems safer by improving the balance between safety and general capabilities. We hope this document and the presented concepts and tools serve as a useful guide for understanding how to analyze AI x-risk.
翻訳日:2022-06-16 12:55:03 公開日:2022-06-15
# 視覚タスクのための統一シーケンスインタフェース

A Unified Sequence Interface for Vision Tasks ( http://arxiv.org/abs/2206.07669v1 )

ライセンス: Link先を確認
Ting Chen, Saurabh Saxena, Lala Li, Tsung-Yi Lin, David J. Fleet, Geoffrey Hinton(参考訳) 言語タスクは、自然に単一の統一されたモデリングフレームワーク、すなわちトークンのシーケンスを生成することで表現されるが、コンピュータビジョンではそうではない。 結果として、異なる視覚タスクに対する異なるアーキテクチャと損失関数が急増している。 本研究は,共有画素対シーケンスインタフェースで定式化すれば,多種多様な「コア」コンピュータビジョンタスクも統合可能であることを示す。 我々は,オブジェクト検出,インスタンスセグメンテーション,キーポイント検出,画像キャプションという4つのタスクに注目した。 それにもかかわらず、各タスクの出力を統一されたインターフェースで離散トークンのシーケンスとして定式化することにより、タスク固有のカスタマイズなしで単一のモデルアーキテクチャと損失関数でニューラルネットワークをトレーニングできることが示される。 特定のタスクを解決するために、短いプロンプトをタスク記述として使用し、シーケンス出力がプロンプトに適応してタスク固有の出力を生成する。 このようなモデルでは,タスク固有のモデルと比較して,競争性能が向上することを示す。

While language tasks are naturally expressed in a single, unified, modeling framework, i.e., generating sequences of tokens, this has not been the case in computer vision. As a result, there is a proliferation of distinct architectures and loss functions for different vision tasks. In this work we show that a diverse set of "core" computer vision tasks can also be unified if formulated in terms of a shared pixel-to-sequence interface. We focus on four tasks, namely, object detection, instance segmentation, keypoint detection, and image captioning, all with diverse types of outputs, e.g., bounding boxes or dense masks. Despite that, by formulating the output of each task as a sequence of discrete tokens with a unified interface, we show that one can train a neural network with a single model architecture and loss function on all these tasks, with no task-specific customization. To solve a specific task, we use a short prompt as task description, and the sequence output adapts to the prompt so it can produce task-specific output. We show that such a model can achieve competitive performance compared to well-established task-specific models.
翻訳日:2022-06-16 12:53:50 公開日:2022-06-15
# モーダル学習者のためのプレフィックス言語モデル

Prefix Language Models are Unified Modal Learners ( http://arxiv.org/abs/2206.07699v1 )

ライセンス: Link先を確認
Shizhe Diao, Wangchunshu Zhou, Xinsong Zhang, Jiawei Wang(参考訳) 視覚言語事前学習の成功により、最新技術がマルチモーダル理解と生成に押されているのが目撃されている。 しかし、現在の事前学習パラダイムは、すべてのモダリティ(テキスト生成や画像生成など)を一度にターゲットできないか、あるいはスケーラビリティを著しく制限するマルチフォールドの well-designed タスクを必要とする。 テキストと画像のシーケンスに対してプレフィックス言語モデル目標を用いて統一モーダルモデルを学習できることを実証する。 シンプルで強力な事前トレーニングパラダイムのおかげで、提案したモデルであるDaVinciは、トレーニングが簡単で、巨大なデータにスケーラブルで、モダリティ(言語/ビジョン/ビジョン+言語)、型(理解/生成)、設定(ゼロショット、微調整、線形評価など)のさまざまなダウンストリームタスクに、単一の統一アーキテクチャで適応できます。 DaVinciは26の理解/生成タスクにおける競争性能を達成し、ImageNetの分類(+1.6%)、VQAv2(+1.4%)、COCOキャプション生成(BLEU@4 +1.1%、CIDEr +1.5%)、COCO画像生成(IS +0.9%、FID -1.0%)など、ほとんどのタスクにおいて従来の統合ビジョン言語モデルよりも優れていた。 さらに,前訓練データセットの異なるスケールでの性能を異種多種多様な分布範囲で報告することにより,今後の研究のための明確に定義されたベンチマークを提供する。 以上の結果から,VLPモデルの比較の難しさを浮き彫りにした。

With the success of vision-language pre-training, we have witnessed the state-of-the-art has been pushed on multi-modal understanding and generation. However, the current pre-training paradigm is either incapable of targeting all modalities at once (e.g., text generation and image generation), or requires multi-fold well-designed tasks which significantly limits the scalability. We demonstrate that a unified modal model could be learned with a prefix language modeling objective upon text and image sequences. Thanks to the simple but powerful pre-training paradigm, our proposed model, DaVinci, is simple to train, scalable to huge data, and adaptable to a variety of downstream tasks across modalities (language / vision / vision+language), types (understanding / generation) and settings (e.g., zero-shot, fine-tuning, linear evaluation) with a single unified architecture. DaVinci achieves the competitive performance on a wide range of 26 understanding / generation tasks, and outperforms previous unified vision-language models on most tasks, including ImageNet classification (+1.6%), VQAv2 (+1.4%), COCO caption generation (BLEU@4 +1.1%, CIDEr +1.5%) and COCO image generation (IS +0.9%, FID -1.0%), at the comparable model and data scale. Furthermore, we offer a well-defined benchmark for future research by reporting the performance on different scales of the pre-training dataset on a heterogeneous and wide distribution coverage. Our results establish new, stronger baselines for future comparisons at different data scales and shed light on the difficulties of comparing VLP models more generally.
翻訳日:2022-06-16 12:53:33 公開日:2022-06-15
# 葉の大きさの異なる画像によるイネ病の自動検出

Automatic Detection of Rice Disease in Images of Various Leaf Sizes ( http://arxiv.org/abs/2206.07344v1 )

ライセンス: Link先を確認
Kantip Kiratiratanapruk, Pitchayagan Temniranrat, Wasin Sinthupinyo, Sanparith Marukatat, and Sujin Patarapuwadol(参考訳) 農夫が設備や専門知識の不足に対処するためには、迅速で正確で手頃な米病検出法が必要である。 本稿では,米田画像から米の病気を検出するコンピュータビジョン技術を用いて,その解決策に焦点を当てた。 一般農家が実使用状況で撮影した画像に対処することは,様々な環境要因から非常に困難であり,イネの葉の大きさの変動が性能低下の原因となっている。 そこで本研究では,cnnオブジェクト検出と画像タイル技術を組み合わせた手法を提案し,画像中の葉の幅を自動推定し,原画像分割のためのサイズ基準とした。 葉幅を推定するモデルは、18層resnetアーキテクチャモデルのような小規模cnnによって作成された。 水稲病予測モデルの入力として,一様サイズの物体を用いた分割タイル状サブイメージセットを作成した。 本手法は, 発芽, 発芽, 褐色斑点, 褐色斑点, オレンジ, 赤色ストライプ, 草草性スタントウイルス, ストリーク病など8種類のイネ葉病の4,960枚の画像から評価した。 8クラスで評価した葉幅予測タスクの平均絶対パーセンテージ誤差(mape)は11.18%であり,葉幅予測モデルが良好であったことを示している。 yolov4アーキテクチャの予測性能の平均平均値(map)は、タイルデータセットでトレーニングとテストを行った場合、87.56%から91.14%に向上した。 本研究により, 画像タイリング技術により, イネ病の検出効率が向上した。

Fast, accurate and affordable rice disease detection method is required to assist rice farmers tackling equipment and expertise shortages problems. In this paper, we focused on the solution using computer vision technique to detect rice diseases from rice field photograph images. Dealing with images took in real-usage situation by general farmers is quite challenging due to various environmental factors, and rice leaf object size variation is one major factor caused performance gradation. To solve this problem, we presented a technique combining a CNN object detection with image tiling technique, based on automatically estimated width size of rice leaves in the images as a size reference for dividing the original input image. A model to estimate leaf width was created by small size CNN such as 18 layer ResNet architecture model. A new divided tiled sub-image set with uniformly sized object was generated and used as input for training a rice disease prediction model. Our technique was evaluated on 4,960 images of eight different types of rice leaf diseases, including blast, blight, brown spot, narrow brown spot, orange, red stripe, rice grassy stunt virus, and streak disease. The mean absolute percentage error (MAPE) for leaf width prediction task evaluated on all eight classes was 11.18% in the experiment, indicating that the leaf width prediction model performed well. The mean average precision (mAP) of the prediction performance on YOLOv4 architecture was enhanced from 87.56% to 91.14% when trained and tested with the tiled dataset. According to our study, the proposed image tiling technique improved rice disease detection efficiency.
翻訳日:2022-06-16 12:50:15 公開日:2022-06-15
# NLPアノテーションを用いた知識管理システム : 簡単な調査と展望

Knowledge Management System with NLP-Assisted Annotations: A Brief Survey and Outlook ( http://arxiv.org/abs/2206.07304v1 )

ライセンス: Link先を確認
Baihan Lin(参考訳) 知識管理システムは、産業研究者、化学または研究企業、または証拠に基づく意思決定に高い需要がある。 しかし、既存のシステムには、論文の洞察や関係の分類と整理に制限がある。 従来のデータベースはログシステムとは無関係であり、簡潔でコラーテッドな概要を生成するのに有用性が制限されている。 本稿では,この問題空間における既存手法を簡単に調査し,関係データベースを用いて階層的情報をログし,研究と記述のプロセスを容易にし,あるいは関連概念からの参照や洞察から有用な知識を生成する統一フレームワークを提案する。 この知識管理システムの枠組みは、改良された階層的メモ作成、AI支援型ブレインストーミング、多方向関係を含む新しい機能を実現する。 潜在的な応用としては、在庫管理や製造業や研究企業の変更、証拠に基づく意思決定による分析レポートの作成などがある。

Knowledge management systems are in high demand for industrial researchers, chemical or research enterprises, or evidence-based decision making. However, existing systems have limitations in categorizing and organizing paper insights or relationships. Traditional databases are usually disjoint with logging systems, which limit its utility in generating concise, collated overviews. In this work, we briefly survey existing approaches of this problem space and propose a unified framework that utilizes relational databases to log hierarchical information to facilitate the research and writing process, or generate useful knowledge from references or insights from connected concepts. This framework of knowledge management system enables novel functionalities encompassing improved hierarchical notetaking, AI-assisted brainstorming, and multi-directional relationships. Potential applications include managing inventories and changes for manufacture or research enterprises, or generating analytic reports with evidence-based decision making.
翻訳日:2022-06-16 12:49:48 公開日:2022-06-15
# 映像予測と埋め込みのための拡散モデル

Diffusion Models for Video Prediction and Infilling ( http://arxiv.org/abs/2206.07696v1 )

ライセンス: Link先を確認
Tobias H\"oppe, Arash Mehrjou, Stefan Bauer, Didrik Nielsen, Andrea Dittadi(参考訳) エージェントがインテリジェントな決定を下す上で重要な能力である、シーケンス内の情報不足に関する将来の結果や理由を予測し、予測する。 これは強い時間的コヒーレントな生成能力を必要とする。 拡散モデルは最近、いくつかの生成タスクで大きな成功を収めているが、ビデオ領域では広く研究されていない。 本研究では,画像拡散モデルを3次元畳み込みを用いてビデオに拡張するランダムマスクビデオ拡散(ramvid)を提案し,トレーニング中の新しい条件付け手法を提案する。 マスクをオンにすることで、モデルはビデオ予測、補充、アップサンプリングを行うことができる。 マスクの条件付けに結合を用いないため、ほとんどの条件付き拡散モデルで行われているように、メモリフットプリントを削減できる。 本研究では,ビデオ予測のための2つのベンチマークデータセットと,競合する結果を得たビデオ生成のためのモデルを評価した。 Kinetics-600では、ビデオ予測の最先端を達成しました。

To predict and anticipate future outcomes or reason about missing information in a sequence is a key ability for agents to be able to make intelligent decisions. This requires strong temporally coherent generative capabilities. Diffusion models have shown huge success in several generative tasks lately, but have not been extensively explored in the video domain. We present Random-Mask Video Diffusion (RaMViD), which extends image diffusion models to videos using 3D convolutions, and introduces a new conditioning technique during training. By varying the mask we condition on, the model is able to perform video prediction, infilling and upsampling. Since we do not use concatenation to condition on a mask, as done in most conditionally trained diffusion models, we are able to decrease the memory footprint. We evaluated the model on two benchmark datasets for video prediction and one for video generation on which we achieved competitive results. On Kinetics-600 we achieved state-of-the-art for video prediction.
翻訳日:2022-06-16 12:49:33 公開日:2022-06-15
# エンティティと関係抽出における文脈化と一般化

Contextualization and Generalization in Entity and Relation Extraction ( http://arxiv.org/abs/2206.07558v1 )

ライセンス: Link先を確認
Bruno Taill\'e(参考訳) 過去10年間で、ニューラルネットワークは自然言語処理(nlp)において顕著になり、特に大きなラベルのないコーパスから関連する単語表現を学ぶ能力がある。 これらの単語の埋め込みは、教師付きトレーニングフェーズ中に様々なエンドアプリケーションに転送および微調整される。 最近では、2018年にトレーニング済みの言語モデル全体の移行とコンテキスト化能力の維持によって、ほぼすべてのnlpベンチマークで前例のないパフォーマンスを実現している。 しかし、モデルがそのような印象的なスコアに達すると、その理解能力は依然として浅く見え、ベンチマークの限界が示され、パフォーマンスの要因や理解能力の正確な測定に役立ちます。 本稿では,NER( Named Entity Recognition)とRE(Relation extract)という2つの重要な情報抽出タスクにおいて,訓練中に見つからない事象への一般化に関する最先端モデルの振る舞いを考察する。 実際、従来のベンチマークでは、トレーニングやモデル評価に使用される言及と関係の間に重要な語彙的重複が示され、情報抽出の主な関心は、これまで未知の情報を抽出することである。 本稿では,トレーニングセットと重複する参照と関係性に基づくパフォーマンスの分離を実証的に検討し,事前学習言語モデルが,特にドメイン外における未確認言及の検出に主に有用であることを示す。 これにより、実際のユースケースに適合するが、新しい事実への一般化を損なう、目に見えるものと見えないものの間には、まだパフォーマンスの差がある。 特に、最先端のereモデルでさえ、浅い保持ヒューリスティックに依存しており、それらの予測は文脈よりも議論の表面形式に基づいている。

During the past decade, neural networks have become prominent in Natural Language Processing (NLP), notably for their capacity to learn relevant word representations from large unlabeled corpora. These word embeddings can then be transferred and finetuned for diverse end applications during a supervised training phase. More recently, in 2018, the transfer of entire pretrained Language Models and the preservation of their contextualization capacities enabled to reach unprecedented performance on virtually every NLP benchmark, sometimes even outperforming human baselines. However, as models reach such impressive scores, their comprehension abilities still appear as shallow, which reveal limitations of benchmarks to provide useful insights on their factors of performance and to accurately measure understanding capabilities. In this thesis, we study the behaviour of state-of-the-art models regarding generalization to facts unseen during training in two important Information Extraction tasks: Named Entity Recognition (NER) and Relation Extraction (RE). Indeed, traditional benchmarks present important lexical overlap between mentions and relations used for training and evaluating models, whereas the main interest of Information Extraction is to extract previously unknown information. We propose empirical studies to separate performance based on mention and relation overlap with the training set and find that pretrained Language Models are mainly beneficial to detect unseen mentions, in particular out-of-domain. While this makes them suited for real use cases, there is still a gap in performance between seen and unseen mentions that hurts generalization to new facts. In particular, even state-of-the-art ERE models rely on a shallow retention heuristic, basing their prediction more on arguments surface forms than context.
翻訳日:2022-06-16 12:48:59 公開日:2022-06-15
# 意味セグメンテーションへの変更検出の削減方法

How to Reduce Change Detection to Semantic Segmentation ( http://arxiv.org/abs/2206.07557v1 )

ライセンス: Link先を確認
Guo-Hua Wang, Bin-Bin Gao, Chengjie Wang(参考訳) 変更検出(cd)は、異なるタイミングで撮影された画像ペアで発生する変化を特定することを目的としている。 以前の手法では、特定のネットワークをスクラッチから切り離し、ピクセルレベルの変更マスクを予測し、一般的なセグメンテーション問題に苦しむ。 本稿では,既存かつ強力な意味セグメンテーションネットワークを調整し,cdを意味セグメンテーションに縮小する新しいパラダイムを提案する。 この新しいパラダイムは、CDの一般的なセグメンテーション問題に対処する主要なセグメンテーションテクニックを便利に享受する。 したがって、変化を検出する方法の研究に集中することができる。 本報告では,CDに異なる変化型が存在すること,それらが別々に学習されるべきであることを示す。 そこで我々は,変更情報を抽出し,時間的特徴を融合するモジュール MTF を考案した。 MTFは高い解釈性を持ち、CDの本質的な特徴を明らかにする。 また,ほとんどのセグメンテーションネットワークはMPFモジュールのCD問題に適応することができる。 最後に,画素レベルの変化を検出するネットワークであるC-3POを提案する。 C-3POは、鐘や笛なしで最先端のパフォーマンスを達成する。 これは単純だが有効であり、この分野における新しいベースラインと見なすことができる。 私たちのコードは利用可能です。

Change detection (CD) aims to identify changes that occur in an image pair taken different times. Prior methods devise specific networks from scratch to predict change masks in pixel-level, and struggle with general segmentation problems. In this paper, we propose a new paradigm that reduces CD to semantic segmentation which means tailoring an existing and powerful semantic segmentation network to solve CD. This new paradigm conveniently enjoys the mainstream semantic segmentation techniques to deal with general segmentation problems in CD. Hence we can concentrate on studying how to detect changes. We propose a novel and importance insight that different change types exist in CD and they should be learned separately. Based on it, we devise a module named MTF to extract the change information and fuse temporal features. MTF enjoys high interpretability and reveals the essential characteristic of CD. And most segmentation networks can be adapted to solve the CD problems with our MTF module. Finally, we propose C-3PO, a network to detect changes at pixel-level. C-3PO achieves state-of-the-art performance without bells and whistles. It is simple but effective and can be considered as a new baseline in this field. Our code will be available.
翻訳日:2022-06-16 12:47:19 公開日:2022-06-15
# インドネシアのローカル言語における低リソース言語データセット作成のための位置ベースのtwitterフィルタリング

Location-based Twitter Filtering for the Creation of Low-Resource Language Datasets in Indonesian Local Languages ( http://arxiv.org/abs/2206.07238v1 )

ライセンス: Link先を確認
Mukhlis Amien, Chong Feng, Heyan Huang(参考訳) Twitterには、現実世界の言語データが多く含まれている。 インドネシア語などの低リソース言語におけるユーザ生成コンテンツに対するTwitterの検討を行った。 NLPがインドネシア語で働くためには、現地の方言、地理的文脈、地域文化がインドネシア語に影響を与える必要がある。 本稿では,インドネシアのnlpデータセット構築時の問題点を明らかにする。 さらに,インドネシアのnlp用データセットの作成,収集,分類のためのフレームワークを開発した。 自動アノテートにtwitterのジオロケーションツールを使用する。

Twitter contains an abundance of linguistic data from the real world. We examine Twitter for user-generated content in low-resource languages such as local Indonesian. For NLP to work in Indonesian, it must consider local dialects, geographic context, and regional culture influence Indonesian languages. This paper identifies the problems we faced when constructing a Local Indonesian NLP dataset. Furthermore, we are developing a framework for creating, collecting, and classifying Local Indonesian datasets for NLP. Using twitter's geolocation tool for automatic annotating.
翻訳日:2022-06-16 12:46:58 公開日:2022-06-15
# AMR-to-Textのためのニューラルネットワーク

A Survey : Neural Networks for AMR-to-Text ( http://arxiv.org/abs/2206.07328v1 )

ライセンス: Link先を確認
Hongyu Hao, Guangtong Li, Zhiming Hu, Huafeng Wang(参考訳) AMR-to-textは、抽象的意味表現(AMR)グラフから文を生成することを目的とした、NLPコミュニティの重要なテクニックの1つである。 2013年にAMRが提案されて以来、AMR-to-Textの研究は、自然言語の高レベルなセマンティック記述としてのAMRの独特な利点から、構造化データの本質的な分岐として、ますます普及している。 本稿では,AMR-to-Textに関する簡単な調査を行う。 まず,本手法の現在のシナリオを紹介し,その難しさを指摘する。 第2に, 前回の研究では, ルールベース, Seq-to-Seq-based, Graph-to-Seq-based, Transformer-based, Pre-trained Language Model (PLM) の5つのカテゴリに大別した。 特に、ニューラルネットワークに基づく手法の詳細と、AMR再構成やデコーダ最適化などを参照して、AMR-to-Textの最新の進歩を示す。 さらに,AMR-to-Textのベンチマークと評価手法を提案する。 最終的には、現在の技術の概要と今後の研究の展望を提供する。

AMR-to-text is one of the key techniques in the NLP community that aims at generating sentences from the Abstract Meaning Representation (AMR) graphs. Since AMR was proposed in 2013, the study on AMR-to-Text has become increasingly prevalent as an essential branch of structured data to text because of the unique advantages of AMR as a high-level semantic description of natural language. In this paper, we provide a brief survey of AMR-to-Text. Firstly, we introduce the current scenario of this technique and point out its difficulties. Secondly, based on the methods used in previous studies, we roughly divided them into five categories according to their respective mechanisms, i.e., Rules-based, Seq-to-Seq-based, Graph-to-Seq-based, Transformer-based, and Pre-trained Language Model (PLM)-based. In particular, we detail the neural network-based method and present the latest progress of AMR-to-Text, which refers to AMR reconstruction, Decoder optimization, etc. Furthermore, we present the benchmarks and evaluation methods of AMR-to-Text. Eventually, we provide a summary of current techniques and the outlook for future research.
翻訳日:2022-06-16 12:46:51 公開日:2022-06-15
# AI生成言語のためのヒューマンヒューリスティックス

Human Heuristics for AI-Generated Language Are Flawed ( http://arxiv.org/abs/2206.07271v1 )

ライセンス: Link先を確認
Maurice Jakesch, Jeffrey Hancock, Mor Naaman(参考訳) 人間のコミュニケーションは、AIによって生成された言語とますます混ざり合っている。 チャット、メール、ソーシャルメディアを通じて、AIシステムはスマートリプライ、オートコンプリート、翻訳を生成する。 aiが生成する言語は、しばしばそのようなものとして識別されるのではなく、人間の言語として振る舞う。 本稿では,aiが生成する自己表現言語として,最も個人的かつ連続的な言語形態の1つを人間がどのように識別するかについて検討する。 6つの実験で、参加者(n = 4,650)は最先端言語モデルによって生成された自己表現を同定しようとした。 プロフェッショナル、ホスピタリティ、ロマンチックな設定全体で、人間はAIが生成する自己表現を特定できない。 定性的な分析と言語特徴工学を組み合わせることで、AI生成言語の人間の判断は直感的だが欠陥のあるヒューリスティック(人称代名詞の連想、真正語、家族の話題と人間性)によって障害を受ける。 これらのヒューリスティックは、生成した言語を予測可能かつ操作可能とし、AIシステムが人間よりも人間として認識される言語を生成できるようにする。 我々は、AIアクセントやフェアユースポリシーといったソリューションについて議論し、人間の直観の逆転を制限することによって、生成された言語の誤認の可能性を減らすことで結論付けます。

Human communication is increasingly intermixed with language generated by AI. Across chat, email, and social media, AI systems produce smart replies, autocompletes, and translations. AI-generated language is often not identified as such but poses as human language, raising concerns about novel forms of deception and manipulation. Here, we study how humans discern whether one of the most personal and consequential forms of language - a self-presentation - was generated by AI. Across six experiments, participants (N = 4,650) tried to identify self-presentations generated by state-of-the-art language models. Across professional, hospitality, and romantic settings, we find that humans are unable to identify AI-generated self-presentations. Combining qualitative analyses with language feature engineering, we find that human judgments of AI-generated language are handicapped by intuitive but flawed heuristics such as associating first-person pronouns, authentic words, or family topics with humanity. We show that these heuristics make human judgment of generated language predictable and manipulable, allowing AI systems to produce language perceived as more human than human. We conclude by discussing solutions - such as AI accents or fair use policies - to reduce the deceptive potential of generated language, limiting the subversion of human intuition.
翻訳日:2022-06-16 12:46:32 公開日:2022-06-15
# Gapped Straight-Through Estimatorによる離散的深部生成モデルの訓練

Training Discrete Deep Generative Models via Gapped Straight-Through Estimator ( http://arxiv.org/abs/2206.07235v1 )

ライセンス: Link先を確認
Ting-Han Fan, Ta-Chung Chi, Alexander I. Rudnicky, Peter J. Ramadge(参考訳) 深層生成モデルは画像処理、自然言語処理、強化学習に成功しているが、勾配推定プロセスのばらつきが大きいため、離散確率変数を含むトレーニングは依然として困難である。 モンテカルロは、ほとんどの分散還元法で用いられる一般的な解である。 しかし、これは時間を要する再サンプリングと複数の機能評価を伴う。 再サンプリングのオーバーヘッドを伴わずに分散を低減するため, GST (Gapped Straight-Through) 推定器を提案する。 この推定器は、ストレートスルー・ガムベル・ソフトマックスの本質的な性質にインスパイアされている。 これらの性質を判定し、アブレーション研究を通してそれらが必須であることを示す。 実験により、提案するgst推定器は、mnist-vaeとlistopsという2つの離散的深層生成モデリングタスクの強いベースラインよりも優れた性能を享受できることが示されている。

While deep generative models have succeeded in image processing, natural language processing, and reinforcement learning, training that involves discrete random variables remains challenging due to the high variance of its gradient estimation process. Monte Carlo is a common solution used in most variance reduction approaches. However, this involves time-consuming resampling and multiple function evaluations. We propose a Gapped Straight-Through (GST) estimator to reduce the variance without incurring resampling overhead. This estimator is inspired by the essential properties of Straight-Through Gumbel-Softmax. We determine these properties and show via an ablation study that they are essential. Experiments demonstrate that the proposed GST estimator enjoys better performance compared to strong baselines on two discrete deep generative modeling tasks, MNIST-VAE and ListOps.
翻訳日:2022-06-16 12:43:01 公開日:2022-06-15
# DiffWire: Lov\'asz境界によるインダクティブグラフのリライト

DiffWire: Inductive Graph Rewiring via the Lov\'asz Bound ( http://arxiv.org/abs/2206.07369v1 )

ライセンス: Link先を確認
Adri\'an Arnaiz-Rodr\'iguez, Ahmed Begga, Francisco Escolano, Nuria Oliver(参考訳) グラフニューラルネットワーク(GNN)は、ノードとグラフの分類、リンク予測、ノードとグラフのクラスタリングといったグラフ関連のタスクに、さまざまな領域で取り組むための競合的な結果を達成している。 ほとんどのGNNはメッセージパッシングフレームワークを使用しており、MPNNと呼ばれている。 その有望な結果にもかかわらず、MPNNは過密、過密、過密に悩まされていると報告されている。 グラフのリワイリングとグラフプーリングは、これらの制限に対処するソリューションとして文献で提案されている。 しかし、最先端のグラフ検索法の多くは、グラフのグローバルトポロジを保存できず、微分可能(帰納的)ではなく、ハイパーパラメータのチューニングを必要とする。 本稿では, lov\'asz 境界を活用し, 原理的かつ完全微分可能かつパラメータフリーな mpnn でグラフ検索を行うための新しいフレームワーク diffwire を提案する。 提案手法は,MPNNに新たに2つの相補的レイヤを提案することにより,グラフ再配線の統一理論を提供する。第1に,通勤時間を学習し,エッジ再重み付けの関連関数として使用する層CTLayer,第2に,ネットワークの性質や手作業に依存するスペクトルギャップを最適化する層GAPLayerである。 グラフ分類のためのベンチマークデータセットとは分離して,提案手法と各レイヤの価値を実証的に検証した。 DiffWireは、通勤時間の学習性を関連した曲率の定義にまとめ、より表現力のあるMPNNの開発への扉を開く。

Graph Neural Networks (GNNs) have been shown to achieve competitive results to tackle graph-related tasks, such as node and graph classification, link prediction and node and graph clustering in a variety of domains. Most GNNs use a message passing framework and hence are called MPNNs. Despite their promising results, MPNNs have been reported to suffer from over-smoothing, over-squashing and under-reaching. Graph rewiring and graph pooling have been proposed in the literature as solutions to address these limitations. However, most state-of-the-art graph rewiring methods fail to preserve the global topology of the graph, are not differentiable (inductive) and require the tuning of hyper-parameters. In this paper, we propose DiffWire, a novel framework for graph rewiring in MPNNs that is principled, fully differentiable and parameter-free by leveraging the Lov\'asz bound. Our approach provides a unified theory for graph rewiring by proposing two new, complementary layers in MPNNs: first, CTLayer, a layer that learns the commute times and uses them as a relevance function for edge re-weighting; second, GAPLayer, a layer to optimize the spectral gap, depending on the nature of the network and the task at hand. We empirically validate the value of our proposed approach and each of these layers separately with benchmark datasets for graph classification. DiffWire brings together the learnability of commute times to related definitions of curvature, opening the door to the development of more expressive MPNNs.
翻訳日:2022-06-16 12:42:46 公開日:2022-06-15
# リスク回避強化学習による平均-半分散政策最適化

Mean-Semivariance Policy Optimization via Risk-Averse Reinforcement Learning ( http://arxiv.org/abs/2206.07376v1 )

ライセンス: Link先を確認
Xiaoteng Ma, Shuai Ma, Li Xia, Qianchuan Zhao(参考訳) 金融、ロボティクス、自動運転といった現実世界の意思決定状況において、リスクをコントロールし続けることは、期待される報酬を最大化するよりも重要であることが多い。 リスク対策の最も自然な選択はばらつきであり、一方、逆方向のボラティリティをマイナス側の部分と同じくらいペナルティ化する。 代わりに、その平均の下で確率変数の負の偏差をキャプチャする(ダウンサイド)半分散は、リスク回避の提案により適している。 本稿では,強化学習における平均半変量(MSV)基準の最適化を目的とした。 半分散は時間的に一貫性がなく、標準ベルマン方程式を満たさないため、従来の動的プログラミング手法はMSV問題に直接適用できない。 この課題に対処するために、摂動解析(PA)理論を採用し、MSVの性能差式を確立する。 我々は,政策依存報酬関数を用いてrl問題の系列を反復的に解くことにより,msv問題を解決できることを明らかにした。 さらに,政策勾配理論と信頼領域法に基づく2つのオンポリシーアルゴリズムを提案する。 最後に,単純なバンディット問題からムジョコの連続制御タスクまで多様な実験を行い,提案手法の有効性を実証する。

Keeping risk under control is often more crucial than maximizing expected reward in real-world decision-making situations, such as finance, robotics, autonomous driving, etc. The most natural choice of risk measures is variance, while it penalizes the upside volatility as much as the downside part. Instead, the (downside) semivariance, which captures negative deviation of a random variable under its mean, is more suitable for risk-averse proposes. This paper aims at optimizing the mean-semivariance (MSV) criterion in reinforcement learning w.r.t. steady rewards. Since semivariance is time-inconsistent and does not satisfy the standard Bellman equation, the traditional dynamic programming methods are inapplicable to MSV problems directly. To tackle this challenge, we resort to the Perturbation Analysis (PA) theory and establish the performance difference formula for MSV. We reveal that the MSV problem can be solved by iteratively solving a sequence of RL problems with a policy-dependent reward function. Further, we propose two on-policy algorithms based on the policy gradient theory and the trust region method. Finally, we conduct diverse experiments from simple bandit problems to continuous control tasks in MuJoCo, which demonstrate the effectiveness of our proposed methods.
翻訳日:2022-06-16 12:42:18 公開日:2022-06-15
# 深層クラスタリングに関する包括的調査 : 分類学,課題,今後の方向性

A Comprehensive Survey on Deep Clustering: Taxonomy, Challenges, and Future Directions ( http://arxiv.org/abs/2206.07579v1 )

ライセンス: Link先を確認
Sheng Zhou, Hongjia Xu, Zhuonan Zheng, Jiawei Chen, Zhao li, Jiajun Bu, Jia Wu, Xin Wang, Wenwu Zhu, Martin Ester(参考訳) クラスタリングは、文献で広く研究されている基本的な機械学習タスクである。 古典的なクラスタリング手法は、データは様々な表現学習技術を通じてベクトル化された形式で特徴として表現されるという仮定に従う。 データがますます複雑で複雑になるにつれて、浅い(伝統的な)クラスタリング手法はもはや高次元のデータタイプを扱えない。 ディープラーニング、特に深層教師なし学習の大きな成功により、深層アーキテクチャを用いた多くの表現学習技術が過去10年間に提案されてきた。 近年,Deep Clusteringの概念,すなわち表現学習とクラスタリングの協調最適化が提案され,コミュニティの注目を集めている。 クラスタリングにおけるディープラーニングの成功と、最も基本的な機械学習タスクの1つ、そして、この方向の最近の多くの進歩に動機づけられ、本稿では、異なる最先端アプローチの新しい分類法を提案することによって、深層クラスタリングに関する包括的な調査を行う。 本稿では,深層クラスタリングの基本コンポーネントを要約し,深層表現学習とクラスタリング間のインタラクションを設計する手法を用いて既存手法を分類する。 さらに、この調査は人気のあるベンチマークデータセット、評価メトリクス、オープンソース実装を提供し、さまざまな実験的な設定を明確に示す。 最後に、深層クラスタリングの実践的応用について議論し、今後の方向性としてさらなる調査を継続する課題を提案する。

Clustering is a fundamental machine learning task which has been widely studied in the literature. Classic clustering methods follow the assumption that data are represented as features in a vectorized form through various representation learning techniques. As the data become increasingly complicated and complex, the shallow (traditional) clustering methods can no longer handle the high-dimensional data type. With the huge success of deep learning, especially the deep unsupervised learning, many representation learning techniques with deep architectures have been proposed in the past decade. Recently, the concept of Deep Clustering, i.e., jointly optimizing the representation learning and clustering, has been proposed and hence attracted growing attention in the community. Motivated by the tremendous success of deep learning in clustering, one of the most fundamental machine learning tasks, and the large number of recent advances in this direction, in this paper we conduct a comprehensive survey on deep clustering by proposing a new taxonomy of different state-of-the-art approaches. We summarize the essential components of deep clustering and categorize existing methods by the ways they design interactions between deep representation learning and clustering. Moreover, this survey also provides the popular benchmark datasets, evaluation metrics and open-source implementations to clearly illustrate various experimental settings. Last but not least, we discuss the practical applications of deep clustering and suggest challenging topics deserving further investigations as future directions.
翻訳日:2022-06-16 12:41:00 公開日:2022-06-15
# 部分ラベルを用いた問合せ適応予測

Query-Adaptive Predictive Inference with Partial Labels ( http://arxiv.org/abs/2206.07236v1 )

ライセンス: Link先を確認
Maxime Cauchois and John Duchi(参考訳) 統計的機械学習における完全な教師付きラベルのコストと不足は、モデル検証のために部分的にラベル付きデータを使用することを奨励している。 大空間構造化予測タスクのための弱い教師付きデータの収集と活用を効果的に行うことが、エンドツーエンド学習システムの重要な部分となる。 本稿では,ブラックボックス予測モデル上に部分ラベルデータのみを用いた予測集合を構築するための新しい計算フレンドリな手法を提案する。 そこで我々は,弱い教師付きインスタンスを記述する方法として「プロベ」関数を導入し,偽発見比例型損失を定義した。この2つとも,部分的監督と構造化予測 -- ランキング,マッチング,セグメンテーション,マルチラベル,マルチクラス分類 -- にシームレスに適応する。 実験では,予測セット構成の有効性と,より柔軟なユーザ依存型損失フレームワークの魅力を浮き彫りにした。

The cost and scarcity of fully supervised labels in statistical machine learning encourage using partially labeled data for model validation as a cheaper and more accessible alternative. Effectively collecting and leveraging weakly supervised data for large-space structured prediction tasks thus becomes an important part of an end-to-end learning system. We propose a new computationally-friendly methodology to construct predictive sets using only partially labeled data on top of black-box predictive models. To do so, we introduce "probe" functions as a way to describe weakly supervised instances and define a false discovery proportion-type loss, both of which seamlessly adapt to partial supervision and structured prediction -- ranking, matching, segmentation, multilabel or multiclass classification. Our experiments highlight the validity of our predictive set construction as well as the attractiveness of a more flexible user-dependent loss framework.
翻訳日:2022-06-16 12:40:38 公開日:2022-06-15
# 拡散輸送アライメント

Diffusion Transport Alignment ( http://arxiv.org/abs/2206.07305v1 )

ライセンス: Link先を確認
Andres F. Duque, Guy Wolf, Kevin R. Moon(参考訳) マルチモーダルデータの統合は、異なる機器や条件による与えられた現象の研究が異なるが関連する領域を生成する場合の課題である。 多くの既存のデータ統合手法は、データセット全体のドメイン間の既知の1対1の対応を仮定している。 さらに、既存の多様体アライメント法は、データがドメイン固有の領域を含む場合、すなわち、他の領域内のデータの特定の部分に対応するものは存在しない場合に適している。 領域を整合させるために,数点間の先行対応知識を利用する半教師付き多様体アライメント手法である拡散輸送アライメント(DTA)を提案する。 拡散過程を構築することで、DTAは異なる特徴空間を持つ2つの異種領域から測定されたデータ間の輸送計画を見つけ、仮定として、同じ基礎となるデータ生成プロセスから得られる同様の幾何学的構造を共有する。 DTAはまた、データ駆動方式で部分的なアライメントを計算することができ、あるデータが1つのドメインでのみ測定されたときに正確なアライメントをもたらす。 我々は、DTAが、この半教師付き環境でのマルチモーダルデータの整合性において、他の手法よりも優れていることを実証的に示す。 また,dtaが獲得したアライメントによって,ドメイン適応,ドメイン間特徴マッピング,探索的データ解析などの機械学習タスクのパフォーマンスが向上し,競合する手法を上回っていることを示す。

The integration of multimodal data presents a challenge in cases when the study of a given phenomena by different instruments or conditions generates distinct but related domains. Many existing data integration methods assume a known one-to-one correspondence between domains of the entire dataset, which may be unrealistic. Furthermore, existing manifold alignment methods are not suited for cases where the data contains domain-specific regions, i.e., there is not a counterpart for a certain portion of the data in the other domain. We propose Diffusion Transport Alignment (DTA), a semi-supervised manifold alignment method that exploits prior correspondence knowledge between only a few points to align the domains. By building a diffusion process, DTA finds a transportation plan between data measured from two heterogeneous domains with different feature spaces, which by assumption, share a similar geometrical structure coming from the same underlying data generating process. DTA can also compute a partial alignment in a data-driven fashion, resulting in accurate alignments when some data are measured in only one domain. We empirically demonstrate that DTA outperforms other methods in aligning multimodal data in this semisupervised setting. We also empirically show that the alignment obtained by DTA can improve the performance of machine learning tasks, such as domain adaptation, inter-domain feature mapping, and exploratory data analysis, while outperforming competing methods.
翻訳日:2022-06-16 12:40:23 公開日:2022-06-15
# 予測分布蒸留によるベイズ連関学習

Bayesian Federated Learning via Predictive Distribution Distillation ( http://arxiv.org/abs/2206.07562v1 )

ライセンス: Link先を確認
Shrey Bhatt, Aishwarya Gupta, Piyush Rai(参考訳) 既存のフェデレーション学習アルゴリズムでは、各ラウンドは各クライアントの損失関数を最小化し、クライアントで最適なモデルを学び、その後、サーバでこれらのクライアントモデルを集約する。 クライアントのモデルパラメータのポイント推定は、各クライアントで推定されるモデルの不確実性を考慮していない。 しかし、多くの状況、特に限られたデータ設定では、より正確で堅牢な予測のためにクライアントモデルの不確実性を考慮することが有益である。 不確実性は、アクティブラーニングやood(out-of-distribution)検出など、他の重要なタスクにも有用な情報を提供する。 本稿では,各クライアントがトレーニングデータを用いて後続予測分布を推定し,クライアント固有の予測分布をサーバに集約する,ベイズ連合学習のためのフレームワークを提案する。 予測分布の通信と集約は困難でコストがかかるため、我々のアプローチは、各クライアントの予測分布を単一のディープニューラルネットワークに蒸留することに基づいている。 これにより、ベイズ連邦学習への標準フェデレーション学習の進歩を活用できる。 各クライアントのモデル不確実性を推定しようとする最近の研究とは異なり、我々の研究はクライアントの後部分布の形式のような制限的な仮定も行いません。 提案手法は,フェデレーション設定における分類,およびフェデレーション設定におけるアクティブラーニングとood検出のアプローチを評価し,既存のフェデレーション学習ベースラインよりも優れる。

For most existing federated learning algorithms, each round consists of minimizing a loss function at each client to learn an optimal model at the client, followed by aggregating these client models at the server. Point estimation of the model parameters at the clients does not take into account the uncertainty in the models estimated at each client. In many situations, however, especially in limited data settings, it is beneficial to take into account the uncertainty in the client models for more accurate and robust predictions. Uncertainty also provides useful information for other important tasks, such as active learning and out-of-distribution (OOD) detection. We present a framework for Bayesian federated learning where each client infers the posterior predictive distribution using its training data and present various ways to aggregate these client-specific predictive distributions at the server. Since communicating and aggregating predictive distributions can be challenging and expensive, our approach is based on distilling each client's predictive distribution into a single deep neural network. This enables us to leverage advances in standard federated learning to Bayesian federated learning as well. Unlike some recent works that have tried to estimate model uncertainty of each client, our work also does not make any restrictive assumptions, such as the form of the client's posterior distribution. We evaluate our approach on classification in federated setting, as well as active learning and OOD detection in federated settings, on which our approach outperforms various existing federated learning baselines.
翻訳日:2022-06-16 12:39:58 公開日:2022-06-15
# 重み付き雑音と共変量を持つ線形回帰係数のロバストかつスパース推定

Robust and Sparse Estimation of Linear Regression Coefficients with Heavy-tailed Noises and Covariates ( http://arxiv.org/abs/2206.07594v1 )

ライセンス: Link先を確認
Takeyuki Sasai(参考訳) 線形回帰係数のロバストおよびスパース推定について検討した。 本報告では, 重み付き分布から共変量およびノイズを採取し, 悪質な外れ値によって共変量およびノイズを汚染する状況について述べる。 我々の推定器は効率的に計算できる。 さらに,推定誤差の上限はシャープである。

Robust and sparse estimation of linear regression coefficients is investigated. The situation addressed by the present paper is that covariates and noises are sampled from heavy-tailed distributions, and the covariates and noises are contaminated by malicious outliers. Our estimator can be computed efficiently. Further, our estimation error bound is sharp.
翻訳日:2022-06-16 12:39:35 公開日:2022-06-15