このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200509となっている論文です。

PDF登録状況(公開日: 20200509)

TitleAuthorsAbstract論文公表日・翻訳日
# はじめに:抽出要約における双方向の注意力の利用に関する研究

Attend to the beginning: A study on using bidirectional attention for extractive summarization ( http://arxiv.org/abs/2002.03405v3 )

ライセンス: Link先を確認
Ahmed Magooda and Cezary Marcjan(参考訳) フォーラムの議論データは、ニュースのような一般的なテキストデータと構造と特性の両方が異なる。 したがって、要約技術は、その違いを利用して、議論データの構造的性質から恩恵を受けることができるモデルを構築するべきである。 本稿では,文書の開始に参画し,フォーラムディスカッションデータに適用した場合の抽出要約モデルの性能を向上させることを提案する。 議論スレッドで文書(初期コメント/ポスト)の開始に出席する双方向の注意機構の助けを借りることで、ROUGEスコアの一貫性が向上し、フォーラムディスカッションデータセットに新たなステート・オブ・ザ・アート(SOTA) ROUGEスコアが導入された。 さらに,この仮説が他のテキストデータに拡張可能であるかを検討した。 テキストデータの最初の数文に出席することで,テキストの早期に重要な情報を導入する傾向を生かしている。 双方向注意を用いた導入文への参加は,より汎用的なテキストデータに適用した場合の抽出的要約モデルの性能を向上させることを示した。

Forum discussion data differ in both structure and properties from generic form of textual data such as news. Henceforth, summarization techniques should, in turn, make use of such differences, and craft models that can benefit from the structural nature of discussion data. In this work, we propose attending to the beginning of a document, to improve the performance of extractive summarization models when applied to forum discussion data. Evaluations demonstrated that with the help of bidirectional attention mechanism, attending to the beginning of a document (initial comment/post) in a discussion thread, can introduce a consistent boost in ROUGE scores, as well as introducing a new State Of The Art (SOTA) ROUGE scores on the forum discussions dataset. Additionally, we explored whether this hypothesis is extendable to other generic forms of textual data. We make use of the tendency of introducing important information early in the text, by attending to the first few sentences in generic textual data. Evaluations demonstrated that attending to introductory sentences using bidirectional attention, improves the performance of extractive summarization models when even applied to more generic form of textual data.
翻訳日:2023-01-02 14:18:23 公開日:2020-05-09
# Few-Shotセグメンテーションのためのプロトタイプリファインメントネットワーク

Prototype Refinement Network for Few-Shot Segmentation ( http://arxiv.org/abs/2002.03579v2 )

ライセンス: Link先を確認
Jinlu Liu and Yongqiang Qin(参考訳) 注釈付きイメージがほとんどない新しいクラスをセグメントするショットのセグメンテーションターゲットはほとんどない。 豊富な注釈付きイメージで既知のクラスを分割する従来のセマンティックセグメンテーションタスクよりも難しい。 本稿では,数発分節化の課題を攻撃するためのprnet(refinement network)の試作について述べる。 まず、既知のクラスのイメージのサポートと問い合わせの両方からプロトタイプを双方向に抽出することを学ぶ。 さらに,新しいクラスの代表的なプロトタイプを抽出するために,プロトタイプの改良に適応と融合を用いる。 適応のステップは、モデルに再トレーニングによって直接実装される新しい概念を学習させる。 最初にprototype fusionが提案され、両サイドの知識を組み込んだクエリプロトタイプでプロトタイプをサポートする。 学習可能な余分なパラメータをインポートすることなく、プロトタイプの改良に有効である。 このように、プロトタイプは低データ体制においてより差別的になる。 PASAL-$5^i$とCOCO-$20^i$の実験は,本手法の優位性を実証した。 特にCOCO-$20^i$では、PRNetは1ショット設定で13.1\%という大きなマージンで既存の手法を著しく上回っている。

Few-shot segmentation targets to segment new classes with few annotated images provided. It is more challenging than traditional semantic segmentation tasks that segment known classes with abundant annotated images. In this paper, we propose a Prototype Refinement Network (PRNet) to attack the challenge of few-shot segmentation. It firstly learns to bidirectionally extract prototypes from both support and query images of the known classes. Furthermore, to extract representative prototypes of the new classes, we use adaptation and fusion for prototype refinement. The step of adaptation makes the model to learn new concepts which is directly implemented by retraining. Prototype fusion is firstly proposed which fuses support prototypes with query prototypes, incorporating the knowledge from both sides. It is effective in prototype refinement without importing extra learnable parameters. In this way, the prototypes become more discriminative in low-data regimes. Experiments on PASAL-$5^i$ and COCO-$20^i$ demonstrate the superiority of our method. Especially on COCO-$20^i$, PRNet significantly outperforms existing methods by a large margin of 13.1\% in 1-shot setting.
翻訳日:2023-01-02 08:58:04 公開日:2020-05-09
# ジョブに適したツール: モデルとインスタンスの複雑さのマッチング

The Right Tool for the Job: Matching Model and Instance Complexities ( http://arxiv.org/abs/2004.07453v2 )

ライセンス: Link先を確認
Roy Schwartz, Gabriel Stanovsky, Swabha Swayamdipta, Jesse Dodge and Noah A. Smith(参考訳) nlpモデルが大きくなるにつれて、訓練されたモデルの実行には、金銭的および環境的コストを伴う重要な計算資源が必要である。 与えられた推論予算をよりよく尊重するため、我々は、推論中にニューラルネットワークの単純なインスタンスの計算から早期(かつ高速)に、そしてハードインスタンスの遅い(そして正確な)終了を可能にする、文脈表現の微調整の修正を提案する。 これを達成するために、bertの異なる層に分類器を追加し、その校正された信頼度スコアを使用して早期の出口決定を行います。 3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、提案する5つのデータセットの修正をテストした。 提案手法は,ほぼすべてのケースにおいて良好な速度/精度のトレードオフを示し,精度を保ちながら,最先端技術よりも最大5倍高速なモデルを生成する。 我々の手法は、ベースラインBERTモデルと比較して、ほとんど追加のトレーニングリソース(時間またはパラメータ)を必要としない。 最後に,提案手法は,複数のモデルを異なる効率レベルで再トレーニングする必要を軽減し,単一のトレーニングモデルを用いて,推論速度と精度のトレードオフを,推論時に1つの変数を設定することで制御可能にする。 コードを公開しています。

As NLP models become larger, executing a trained model requires significant computational resources incurring monetary and environmental costs. To better respect a given inference budget, we propose a modification to contextual representation fine-tuning which, during inference, allows for an early (and fast) "exit" from neural network calculations for simple instances, and late (and accurate) exit for hard instances. To achieve this, we add classifiers to different layers of BERT and use their calibrated confidence scores to make early exit decisions. We test our proposed modification on five different datasets in two tasks: three text classification datasets and two natural language inference benchmarks. Our method presents a favorable speed/accuracy tradeoff in almost all cases, producing models which are up to five times faster than the state of the art, while preserving their accuracy. Our method also requires almost no additional training resources (in either time or parameters) compared to the baseline BERT model. Finally, our method alleviates the need for costly retraining of multiple models at different levels of efficiency; we allow users to control the inference speed/accuracy tradeoff using a single trained model, by setting a single variable at inference time. We publicly release our code.
翻訳日:2022-12-12 20:51:16 公開日:2020-05-09
# 自然画像から病理画像にどの程度の知識を転送できるのか?

How Much Off-The-Shelf Knowledge Is Transferable From Natural Images To Pathology Images? ( http://arxiv.org/abs/2005.01609v3 )

ライセンス: Link先を確認
Xingyu Li, Konstantinos N. Plataniotis(参考訳) 深層学習は自然画像分類において大きな成功を収めた。 近年の計算病理学におけるデータ共有化を克服するため,病理画像解析において自然画像から得られた知識を再利用するために移動学習を活用し,効果的な病理画像診断モデルの構築を目指している。 知識の伝達可能性は、元のタスクと対象タスクの類似性に大きく依存するため、画像の内容と病理画像と自然画像の統計の有意な違いは、その疑問を提起する。 転送された情報は、同様にトレーニング済みのレイヤによって提供されますか? そこで本稿では,特定の層による知識の獲得度を定量化し,病理画像中心の伝達学習における経験的研究を行い,興味深い知見を報告する。 特に、ランダムウェイトモデルで得られた性能ベースラインと比較して、深層からのオフザシェルフ表現の転送性は特定の病理画像集合に大きく依存するが、初期層が生成した一般的な表現は、様々な画像分類アプリケーションで伝達された知識を伝達する。 本研究は, 今後, 伝達学習の有効性と可能性の定量化に向け, 具体的な測定基準とツールのさらなる研究を奨励するものである。

Deep learning has achieved a great success in natural image classification. To overcome data-scarcity in computational pathology, recent studies exploit transfer learning to reuse knowledge gained from natural images in pathology image analysis, aiming to build effective pathology image diagnosis models. Since transferability of knowledge heavily depends on the similarity of the original and target tasks, significant differences in image content and statistics between pathology images and natural images raise the questions: how much knowledge is transferable? Is the transferred information equally contributed by pre-trained layers? To answer these questions, this paper proposes a framework to quantify knowledge gain by a particular layer, conducts an empirical investigation in pathology image centered transfer learning, and reports some interesting observations. Particularly, compared to the performance baseline obtained by random-weight model, though transferability of off-the-shelf representations from deep layers heavily depend on specific pathology image sets, the general representation generated by early layers does convey transferred knowledge in various image classification applications. The observation in this study encourages further investigation of specific metric and tools to quantify effectiveness and feasibility of transfer learning in future.
翻訳日:2022-12-10 03:15:44 公開日:2020-05-09
# SAIA:モバイル医療システムのための分散人工知能アーキテクチャ

SAIA: Split Artificial Intelligence Architecture for Mobile Healthcare System ( http://arxiv.org/abs/2004.12059v2 )

ライセンス: Link先を確認
Di Zhuang, Nam Nguyen, Keyu Chen, J. Morris Chang(参考訳) 深層学習(DL),モノのインターネット,バイオメディカルおよび医療問題に対するクラウドコンピューティング技術の発展に伴い,モバイル医療システムはこれまでになく注目されている。 DL技術は通常、膨大な量の計算を必要とするため、リソースに制限されたモバイルやIoTデバイスに直接デプロイすることはできない。 したがって、モバイルヘルスケアシステムのほとんどは、分析のためにモバイルデバイスとIoTデバイスが収集したデータをクラウドコンピューティングプラットフォームに送信するクラウドコンピューティングインフラストラクチャを活用している。 しかし、競争の激しい環境では、クラウドへの依存は常に実用的ではないかもしれない。 例えば、衛星通信は拒否または妨害される可能性がある。 モバイル医療システムのための分散人工知能アーキテクチャであるSAIAを提案する。 クラウドサーバの計算能力のみを活用する従来の人工知能(AI)のアプローチとは異なり、SAIAは、無線通信が利用可能である間、クラウドコンピューティングのインフラに頼るだけでなく、クライアント側でローカルに動作する軽量AIソリューションを利用することができ、通信が妨害された場合でも機能する。 SAIAでは,クライアントが取得したサンプルが組込みAI(すなわち,クライアントに保持する)やネットワーク型AI(すなわち,サーバに送信する)によって異なる条件下で操作されるべきかどうかを調整できるメタ情報に基づく意思決定ユニットを提案する。 実験評価では、2つの一般的な医療データセットに対して広範な実験を行った。 以上の結果から,SAIAは有効性と効率の両面で一貫してベースラインを上回っていることがわかった。

As the advancement of deep learning (DL), the Internet of Things and cloud computing techniques for biomedical and healthcare problems, mobile healthcare systems have received unprecedented attention. Since DL techniques usually require enormous amount of computation, most of them cannot be directly deployed on the resource-constrained mobile and IoT devices. Hence, most of the mobile healthcare systems leverage the cloud computing infrastructure, where the data collected by the mobile and IoT devices would be transmitted to the cloud computing platforms for analysis. However, in the contested environments, relying on the cloud might not be practical at all times. For instance, the satellite communication might be denied or disrupted. We propose SAIA, a Split Artificial Intelligence Architecture for mobile healthcare systems. Unlike traditional approaches for artificial intelligence (AI) which solely exploits the computational power of the cloud server, SAIA could not only relies on the cloud computing infrastructure while the wireless communication is available, but also utilizes the lightweight AI solutions that work locally on the client side, hence, it can work even when the communication is impeded. In SAIA, we propose a meta-information based decision unit, that could tune whether a sample captured by the client should be operated by the embedded AI (i.e., keeping on the client) or the networked AI (i.e., sending to the server), under different conditions. In our experimental evaluation, extensive experiments have been conducted on two popular healthcare datasets. Our results show that SAIA consistently outperforms its baselines in terms of both effectiveness and efficiency.
翻訳日:2022-12-09 21:07:33 公開日:2020-05-09
# アルゴリズムバイアスの検出におけるプレゼンテーションスタイルの影響

The Impact of Presentation Style on Human-In-The-Loop Detection of Algorithmic Bias ( http://arxiv.org/abs/2004.12388v3 )

ライセンス: Link先を確認
Po-Ming Law, Sana Malik, Fan Du, Moumita Sinha(参考訳) 意思決定者は機械学習を採用し始めているが、機械学習モデルは特定の人口集団に偏る予測をするかもしれない。 半自動バイアス検出ツールは、推奨リストまたは視覚手がかりを使用して自動的に検出されたバイアスの報告を表示することが多い。 しかし、どのシナリオでどのプレゼンテーションスタイルを使うべきかについては、ガイダンスがない。 16名を対象に小実験を行い, バイアスレポートのレビューにおいて, プレゼンテーションスタイルがユーザ行動に与える影響について検討した。 参加者は推奨リストを持つプロトタイプと、バイアス検出のための視覚的手がかりを持つプロトタイプの両方を使用した。 その結果、参加者はバイアスとして自動的に検出されないパフォーマンス対策を調査したいとしばしば思っていた。 しかし、レコメンデーションリストを持つプロトタイプを使用する場合には、そのような対策への考慮が減る傾向があった。 そこで本研究では,バイアス検出タスクを特徴付けるための2つの軸としての情報負荷と包括性を提案し,これら2つの軸をどのように採用してレコメンデーションリストや視覚的手がかりをいつ使うかを説明する。

While decision makers have begun to employ machine learning, machine learning models may make predictions that bias against certain demographic groups. Semi-automated bias detection tools often present reports of automatically-detected biases using a recommendation list or visual cues. However, there is a lack of guidance concerning which presentation style to use in what scenarios. We conducted a small lab study with 16 participants to investigate how presentation style might affect user behaviors in reviewing bias reports. Participants used both a prototype with a recommendation list and a prototype with visual cues for bias detection. We found that participants often wanted to investigate the performance measures that were not automatically detected as biases. Yet, when using the prototype with a recommendation list, they tended to give less consideration to such measures. Grounded in the findings, we propose information load and comprehensiveness as two axes for characterizing bias detection tasks and illustrate how the two axes could be adopted to reason about when to use a recommendation list or visual cues.
翻訳日:2022-12-09 14:04:44 公開日:2020-05-09
# 自然言語理解のための事前学習モデルによる中間タスク転送学習: いつ,なぜ機能するのか?

Intermediate-Task Transfer Learning with Pretrained Models for Natural Language Understanding: When and Why Does It Work? ( http://arxiv.org/abs/2005.00628v2 )

ライセンス: Link先を確認
Yada Pruksachatkun, Jason Phang, Haokun Liu, Phu Mon Htut, Xiaoyi Zhang, Richard Yuanzhe Pang, Clara Vania, Katharina Kann, Samuel R. Bowman(参考訳) BERTのような事前訓練されたモデルは、自然言語理解タスクで大きく改善されているが、そのパフォーマンスは、ターゲットタスクで微調整する前に、データリッチな中間タスクでモデルをさらにトレーニングすることで改善できる。 しかし、いつ、なぜ中間タスクトレーニングが特定の目標タスクに有益なのかは、まだ理解されていない。 そこで本研究では,110の中間目標タスクの組み合わせで事前学習したRoBERTaモデルを大規模に検討する。 さらに、トレーニングされたすべてのモデルについて、トランスファーを駆動する特定のスキルを明らかにするための25のプロビングタスクで評価します。 ハイレベルな推論と推論能力を必要とする中間タスクは、最善の働きをする傾向がある。 また,対象タスクの性能は,コリファレンス解像度などの高レベルな能力と強い相関関係にあることも観察した。 しかし、探索と目標タスクのパフォーマンスの間にはより詳細な相関関係が見られず、広域探索ベンチマークのさらなる研究の必要性が浮かび上がっている。 また,事前学習中に学習した知識の欠落は分析を制限し,これらの環境での転校学習方法のさらなる研究の必要性を浮き彫りにした。

While pretrained models such as BERT have shown large gains across natural language understanding tasks, their performance can be improved by further training the model on a data-rich intermediate task, before fine-tuning it on a target task. However, it is still poorly understood when and why intermediate-task training is beneficial for a given target task. To investigate this, we perform a large-scale study on the pretrained RoBERTa model with 110 intermediate-target task combinations. We further evaluate all trained models with 25 probing tasks meant to reveal the specific skills that drive transfer. We observe that intermediate tasks requiring high-level inference and reasoning abilities tend to work best. We also observe that target task performance is strongly correlated with higher-level abilities such as coreference resolution. However, we fail to observe more granular correlations between probing and target task performance, highlighting the need for further work on broad-coverage probing benchmarks. We also observe evidence that the forgetting of knowledge learned during pretraining may limit our analysis, highlighting the need for further work on transfer learning methods in these settings.
翻訳日:2022-12-07 23:54:20 公開日:2020-05-09
# 特徴マッチングによる暗黙テキスト生成の学習

Learning Implicit Text Generation via Feature Matching ( http://arxiv.org/abs/2005.03588v2 )

ライセンス: Link先を確認
Inkit Padhi, Pierre Dognin, Ke Bai, Cicero Nogueira dos Santos, Vijil Chenthamarakshan, Youssef Mroueh, Payel Das(参考訳) 生成的特徴マッチングネットワーク(GFMN)は、事前学習されたニューラルネットワークの機能に対するモーメントマッチングを実行することで、画像の暗黙的な生成モデルを訓練するためのアプローチである。 本稿では,逐次データに有効な新しいGFMNの定式化について述べる。 提案手法であるseqgfmnが,無条件テキスト生成,クラス条件テキスト生成,教師なしテキストスタイル転送の3つの異なるタスクに対して有効であることを示す。 SeqGFMNはテキスト生成やテキストスタイルの転送において、様々な敵のアプローチを訓練し、性能を向上する。

Generative feature matching network (GFMN) is an approach for training implicit generative models for images by performing moment matching on features from pre-trained neural networks. In this paper, we present new GFMN formulations that are effective for sequential data. Our experimental results show the effectiveness of the proposed method, SeqGFMN, for three distinct generation tasks in English: unconditional text generation, class-conditional text generation, and unsupervised text style transfer. SeqGFMN is stable to train and outperforms various adversarial approaches for text generation and text style transfer.
翻訳日:2022-12-05 22:29:06 公開日:2020-05-09
# 大規模ソーシャルネットワークのためのソーシャル検索モデル

A Social Search Model for Large Scale Social Networks ( http://arxiv.org/abs/2005.04356v1 )

ライセンス: Link先を確認
Yunzhong He, Wenyuan Li, Liang-Wei Chen, Gabriel Forgues, Xunlong Gui, Sui Liang, Bo Hou(参考訳) ソーシャルネットワークの台頭に伴い、インターネット上の情報はもはやWebページによってのみ組織化されていない。 むしろ、コンテンツはユーザー間で生成され、共有され、ソーシャルネットワーク上の社会的関係を中心に組織化される。 これは情報検索システムに新たな課題をもたらす。 ソーシャルネットワーク検索システムでは、結果集合の生成は、従来の検索エンジンのようにキーワードマッチングを考慮するだけでなく、検索者のソーシャル接続やコンテンツの可視性の設定も考慮する必要がある。 さらに、検索ランキングは、テキストの関連性と、ソーシャルネットワークからのリッチなソーシャルインタラクションシグナルの両方を扱うことができる。 本稿では,この2つの課題に対して,まずソーシャル検索機構を導入し,次にランキング問題に対する新しい深層ニューラルネットワークについて検討する。 検索システムは、ソーシャル接続を索引付け用語として扱い、制約付き最適化方式で閉じたソーシャル接続に偏りを付けた有意義な結果を生成する。 結果セットは、テキストと社会的関連性を扱うディープニューラルネットワークによって2towerアプローチでランク付けされ、パーソナライズとテキストの関連性は共同で対処される。 検索メカニズムはFacebook上に展開され、何十億ものユーザーが効率的に接続から投稿を見つけるのを助ける。 検索した投稿に基づいて、2tower中立ネットワークを評価し、ランキング問題におけるパーソナライズとテキスト信号の重要性を検討する。

With the rise of social networks, information on the internet is no longer solely organized by web pages. Rather, content is generated and shared among users and organized around their social relations on social networks. This presents new challenges to information retrieval systems. On a social network search system, the generation of result sets not only needs to consider keyword matches, like a traditional web search engine does, but it also needs to take into account the searcher's social connections and the content's visibility settings. Besides, search ranking should be able to handle both textual relevance and the rich social interaction signals from the social network. In this paper, we present our solution to these two challenges by first introducing a social retrieval mechanism, and then investigate novel deep neural networks for the ranking problem. The retrieval system treats social connections as indexing terms, and generates meaningful results sets by biasing towards close social connections in a constrained optimization fashion. The result set is then ranked by a deep neural network that handles textual and social relevance in a two-tower approach, in which personalization and textual relevance are addressed jointly. The retrieval mechanism is deployed on Facebook and is helping billions of users finding postings from their connections efficiently. Based on the postings being retrieved, we evaluate our two-tower neutral network, and examine the importance of personalization and textual signals in the ranking problem.
翻訳日:2022-12-05 07:16:30 公開日:2020-05-09
# socialtrans: webスケールレコメンデーションシステムのためのソーシャル情報を用いた深層シーケンシャルモデル

SocialTrans: A Deep Sequential Model with Social Information for Web-Scale Recommendation Systems ( http://arxiv.org/abs/2005.04361v1 )

ライセンス: Link先を確認
Qiaoan Chen, Hao Gu, Lingling Yi, Yishi Lin, Peng He, Chuan Chen, Yangqiu Song(参考訳) ソーシャルネットワークプラットフォームでは、ユーザーの行動は自分の個人的関心に基づいており、友人の影響を受けている。 文献では、利用者の個人的嗜好や社会的影響のある好みをモデル化することが一般的である。 本稿では,これら2種類の嗜好を統合するためのソーシャルレコメンデーションのための新しい深層学習モデルSocialTransを提案する。 SocialTransは3つのモジュールで構成されている。 最初のモジュールは、ユーザの個人的な好みをモデル化するマルチレイヤトランスフォーマに基づいている。 第2のモジュールは多層グラフアテンションニューラルネットワーク(GAT)であり、ソーシャルネットワーク内の友人間の社会的影響の強さをモデル化するために使用される。 最後のモジュールは、ユーザの個人的な好みと社会的影響のある好みをマージして、レコメンデーションを生成する。 当社のモデルは大規模データに効率的に適合し,中国の主要記事レコメンデーションシステムにsocialtransをデプロイした。 3つのデータセットにおける実験は,モデルの有効性を検証し,社会的なレコメンデーション手法を上回っていることを示す。

On social network platforms, a user's behavior is based on his/her personal interests, or influenced by his/her friends. In the literature, it is common to model either users' personal preference or their socially influenced preference. In this paper, we present a novel deep learning model SocialTrans for social recommendations to integrate these two types of preferences. SocialTrans is composed of three modules. The first module is based on a multi-layer Transformer to model users' personal preference. The second module is a multi-layer graph attention neural network (GAT), which is used to model the social influence strengths between friends in social networks. The last module merges users' personal preference and socially influenced preference to produce recommendations. Our model can efficiently fit large-scale data and we deployed SocialTrans to a major article recommendation system in China. Experiments on three data sets verify the effectiveness of our model and show that it outperforms state-of-the-art social recommendation methods.
翻訳日:2022-12-05 07:16:09 公開日:2020-05-09
# CFDNet:流体シミュレーションのためのディープラーニングベースのアクセラレータ

CFDNet: a deep learning-based accelerator for fluid simulations ( http://arxiv.org/abs/2005.04485v1 )

ライセンス: Link先を確認
Octavi Obiols-Sales, Abhinav Vishnu, Nicholas Malaya, Aparna Chandramowlishwaran(参考訳) CFDは物理的システム設計や最適化に広く使われており、飛行機の翼のリフトや自動車のドラッグのような工学的な量の興味を予測するために用いられる。 しかし,cfdシミュレーションの評価に費用がかかるため,設計最適化に非常に費用がかかるシステムが多い。 計算をトラクタブルにするために、高忠実度解の収束制約を尊重しながらシミュレーションを高速化するために、低次またはサロゲートモデルを用いる。 本稿では,Reynolds Averaged Navier-Stokesシミュレーションの収束を促進するための物理シミュレーションおよびディープラーニング結合フレームワークCFDNetを紹介する。 CFDNetは、コアに1つの畳み込みニューラルネットワークを用いて、速度、圧力、渦粘性を含む流体の物理特性を予測するように設計されている。 CFDNetは外挿と補間の両方の様々なユースケースで評価され,テストジオメトリはトレーニング中に観測・観測されない。 その結果,cfdnetは定常層流と乱流流の両方において1.9~7.4倍の収束制約を満たしていることがわかった。 さらに, cfdnet の一般化能力は, トレーニング中の新しい測地線上での予測をテストすることにより実証する。 この場合、アプローチはCFD収束基準を満たすが、従来のドメインのみのモデルよりも大きなスピードアップを提供する。

CFD is widely used in physical system design and optimization, where it is used to predict engineering quantities of interest, such as the lift on a plane wing or the drag on a motor vehicle. However, many systems of interest are prohibitively expensive for design optimization, due to the expense of evaluating CFD simulations. To render the computation tractable, reduced-order or surrogate models are used to accelerate simulations while respecting the convergence constraints provided by the higher-fidelity solution. This paper introduces CFDNet -- a physical simulation and deep learning coupled framework, for accelerating the convergence of Reynolds Averaged Navier-Stokes simulations. CFDNet is designed to predict the primary physical properties of the fluid including velocity, pressure, and eddy viscosity using a single convolutional neural network at its core. We evaluate CFDNet on a variety of use-cases, both extrapolative and interpolative, where test geometries are observed/not-observed during training. Our results show that CFDNet meets the convergence constraints of the domain-specific physics solver while outperforming it by 1.9 - 7.4x on both steady laminar and turbulent flows. Moreover, we demonstrate the generalization capacity of CFDNet by testing its prediction on new geometries unseen during training. In this case, the approach meets the CFD convergence criterion while still providing significant speedups over traditional domain-only models.
翻訳日:2022-12-05 07:15:41 公開日:2020-05-09
# 電力グリッドにおけるインテリジェントGPSスポーフィング攻撃検出

Intelligent GPS Spoofing Attack Detection in Power Grids ( http://arxiv.org/abs/2005.04513v1 )

ライセンス: Link先を確認
Mohammad Sabouri, Sara Siamak, Maryam Dehghani, Mohsen Mohammadi and Mohammad Hassan Asemani(参考訳) GPSはGPSスプーフィング攻撃(GSA)に弱いため、GPS受信機の時間と位置が乱れてしまう。 電力網では、ファーザー計測ユニット(PMU)がGPSを使用して時間タグの計測を行うため、この攻撃の影響を受けやすい。 この攻撃の結果、PMU測定のサンプリング時間と位相角が変化する。 本稿では、動的電力系統のPMUデータを用いたニューラルネットワークGPSスプーフィング検出(NNGSD)を行い、GSAを検出する。 異なる条件下での数値結果は,提案手法のリアルタイム性能を示す。

The GPS is vulnerable to GPS spoofing attack (GSA), which leads to disorder in time and position results of the GPS receiver. In power grids, phasor measurement units (PMUs) use GPS to build time-tagged measurements, so they are susceptible to this attack. As a result of this attack, sampling time and phase angle of the PMU measurements change. In this paper, a neural network GPS spoofing detection (NNGSD) with employing PMU data from the dynamic power system is presented to detect GSAs. Numerical results in different conditions show the real-time performance of the proposed detection method.
翻訳日:2022-12-05 07:15:19 公開日:2020-05-09
# トランスダクティブゼロショット学習のための識別埋め込みを考慮した生成モデル駆動構造

Generative Model-driven Structure Aligning Discriminative Embeddings for Transductive Zero-shot Learning ( http://arxiv.org/abs/2005.04492v1 )

ライセンス: Link先を確認
Omkar Gune, Mainak Pal, Preeti Mukherjee, Biplab Banerjee and Subhasis Chaudhuri(参考訳) Zero-shot Learning (ZSL) は、見知らぬクラスから見つからないクラスへ知識を伝達することを目的とした伝達学習技術である。 この知識伝達は、目に見えるクラスや見当たらないクラスに共通する意味空間によって可能となる。 既存のほとんどのアプローチは、視覚データを意味データにマッピングするラベル付きクラスデータを使ってプロジェクション関数を学ぶ。 そこで本研究では,潜在空間における視覚的および意味的データを整合させ,同時に潜在空間埋め込みを判別する投影関数を学習するための,浅く効果的なニューラルネットワークモデルを提案する。 上記の射影関数はクラスデータを用いて学習されるので、いわゆる射影領域シフトが存在する。 ドメインシフトの効果を低減するためのトランスダクティブアプローチを提案し、未確認クラスからラベルなしの視覚データを用いて、未確認クラス視覚サンプルに対する対応する意味的特徴を生成する。 これらのセマンティック機能は、最初は条件付き変分自動エンコーダを使用して生成されるが、投影関数を改善するために、クラスデータとともに使用される。 zslと一般化zslのインダクティブ設定とトランスダクティブ設定の両方を実験し、標準ベンチマークデータセットであるawa1、awa2、cub、sun、flo、apyにおいて優れた性能を示す。 また,ZSLの文脈におけるデータセットのラベル付けが極めて少ない場合においても,モデルの有効性を示す。

Zero-shot Learning (ZSL) is a transfer learning technique which aims at transferring knowledge from seen classes to unseen classes. This knowledge transfer is possible because of underlying semantic space which is common to seen and unseen classes. Most existing approaches learn a projection function using labelled seen class data which maps visual data to semantic data. In this work, we propose a shallow but effective neural network-based model for learning such a projection function which aligns the visual and semantic data in the latent space while simultaneously making the latent space embeddings discriminative. As the above projection function is learned using the seen class data, the so-called projection domain shift exists. We propose a transductive approach to reduce the effect of domain shift, where we utilize unlabeled visual data from unseen classes to generate corresponding semantic features for unseen class visual samples. While these semantic features are initially generated using a conditional variational auto-encoder, they are used along with the seen class data to improve the projection function. We experiment on both inductive and transductive setting of ZSL and generalized ZSL and show superior performance on standard benchmark datasets AWA1, AWA2, CUB, SUN, FLO, and APY. We also show the efficacy of our model in the case of extremely less labelled data regime on different datasets in the context of ZSL.
翻訳日:2022-12-05 07:11:30 公開日:2020-05-09
# トレーニングセット外での一般化: ニューラルネットワークはいつアイデンティティ効果を学習できるのか?

Generalizing Outside the Training Set: When Can Neural Networks Learn Identity Effects? ( http://arxiv.org/abs/2005.04330v1 )

ライセンス: Link先を確認
Simone Brugiapaglia, Matthew Liu, Paul Tupper(参考訳) 言語や他の認知領域では、オブジェクトの2つの要素が同一であるか否か、あるいはそれが適切に形成されているかどうかを判断する。 このような制約をアイデンティティ効果と呼ぶ。 実例から順調に学習するシステムを開発する場合、特定効果で構築することは十分容易である。 しかし、ID効果は明確なガイダンスなしでデータから学べるだろうか? 単純な基準を満たすアルゴリズムが正しい推論を行うことができないことを厳密に証明できる簡単なフレームワークを提供する。 次に、標準アーキテクチャによるディープニューラルネットワークやバックプロパゲーションによるトレーニングを含む幅広いアルゴリズムが、入力のエンコーディングに依存する基準を満たしていることを示す。 最後に,新しい入力に一般化するアルゴリズムの能力に対する異なる入力エンコーディングの効果を探索する計算実験により,我々の理論を実証する。

Often in language and other areas of cognition, whether two components of an object are identical or not determine whether it is well formed. We call such constraints identity effects. When developing a system to learn well-formedness from examples, it is easy enough to build in an identify effect. But can identity effects be learned from the data without explicit guidance? We provide a simple framework in which we can rigorously prove that algorithms satisfying simple criteria cannot make the correct inference. We then show that a broad class of algorithms including deep neural networks with standard architecture and training with backpropagation satisfy our criteria, dependent on the encoding of inputs. Finally, we demonstrate our theory with computational experiments in which we explore the effect of different input encodings on the ability of algorithms to generalize to novel inputs.
翻訳日:2022-12-05 07:11:03 公開日:2020-05-09
# キャラクタ問題:キャラクタ認識関係を用いたビデオストーリー理解

Character Matters: Video Story Understanding with Character-Aware Relations ( http://arxiv.org/abs/2005.08646v1 )

ライセンス: Link先を確認
Shijie Geng, Ji Zhang, Zuohui Fu, Peng Gao, Hang Zhang, Gerard de Melo(参考訳) 短いビデオやGIFとは異なり、ビデオストーリーには明確なプロットと主要キャラクターのリストが含まれている。 出現する人物と人物名の関連性を識別しなければ、モデルはプロットの真の理解を得ることができない。 ビデオストーリー質問回答(VSQA)は、モデルのより高度な理解能力をベンチマークする効果的な方法を提供する。 しかし、現在のVSQAメソッドはシーンから一般的な視覚的特徴を抽出するだけである。 このようなアプローチでは、表面的相関だけを学ぶ傾向がある。 そこで我々は,誰が何をしたのかを真に理解するために,文字認識関係を継続的に洗練する新しいモデルを提案する。 このモデルは、ビデオストーリーのキャラクタを特に考慮し、異なるキャラクタとオブジェクトを関連付ける関係を考察する。 これらの信号に基づいて,マルチスタンス共起マッチングによる弱教師付き顔の命名を可能にし,トランスフォーマー構造を利用した高レベル推論をサポートする。 私たちは、tvqaデータセット内の6つの多様なテレビ番組でモデルをトレーニングし、テストしています。 広範囲なアブレーション研究により,TVQAデータセットに対する提案手法の有効性を検証した。

Different from short videos and GIFs, video stories contain clear plots and lists of principal characters. Without identifying the connection between appearing people and character names, a model is not able to obtain a genuine understanding of the plots. Video Story Question Answering (VSQA) offers an effective way to benchmark higher-level comprehension abilities of a model. However, current VSQA methods merely extract generic visual features from a scene. With such an approach, they remain prone to learning just superficial correlations. In order to attain a genuine understanding of who did what to whom, we propose a novel model that continuously refines character-aware relations. This model specifically considers the characters in a video story, as well as the relations connecting different characters and objects. Based on these signals, our framework enables weakly-supervised face naming through multi-instance co-occurrence matching and supports high-level reasoning utilizing Transformer structures. We train and test our model on the six diverse TV shows in the TVQA dataset, which is by far the largest and only publicly available dataset for VSQA. We validate our proposed approach over TVQA dataset through extensive ablation study.
翻訳日:2022-12-05 07:10:33 公開日:2020-05-09
# ラッソを用いた確率的マルチステップ短期水需要予測

Probabilistic Multi-Step-Ahead Short-Term Water Demand Forecasting with Lasso ( http://arxiv.org/abs/2005.04522v1 )

ライセンス: Link先を確認
Jens Kley-Holsteg and Florian Ziel(参考訳) 水需要は、運用管理と意思決定において非常に重要な変数である。 したがって、正確な予測の開発は、水道事業の効率をさらに向上させる貴重な研究分野である。 確率的多段階予測に着目し, 時系列モデルを導入し, 典型的な自己回帰, カレンダー, 季節的効果を捉え, 時間的変動を考慮し, 水需要プロセスの不確実性と経路依存性を定量化する。 自動収縮選択演算子(lasso)により効率的に調整される高次元特徴空間を適用することで、水需要プロセスの高複雑性に対処する。 リアルタイムアプリケーションに適した正確で単純な解釈可能で高速な計算可能な予測モデルを得ることができる。 完全な確率予測フレームワークは、平均と限界特性をシミュレートするだけでなく、予測地平線内の時間間の相関構造も可能にする。 総合的あるいは累積的な水需要に関する追加情報を提供することで、水貯蔵容量が一定期間にわたって供給を保証できる確率について声明を出すことができるので、実践者にとって、完全な確率的多段予測は相当な妥当性を持つ。 この情報により、ストレージ容量をよりよく制御でき、ポンプのスムーズな動作を確実にできる。 検討したモデルの予測性能を適切に評価するために、厳密に適切な多次元評価基準としてのエネルギースコア(es)を導入する。 この手法はドイツの給水業者の時間給水需要データに適用される。

Water demand is a highly important variable for operational control and decision making. Hence, the development of accurate forecasts is a valuable field of research to further improve the efficiency of water utilities. Focusing on probabilistic multi-step-ahead forecasting, a time series model is introduced, to capture typical autoregressive, calendar and seasonal effects, to account for time-varying variance, and to quantify the uncertainty and path-dependency of the water demand process. To deal with the high complexity of the water demand process a high-dimensional feature space is applied, which is efficiently tuned by an automatic shrinkage and selection operator (lasso). It allows to obtain an accurate, simple interpretable and fast computable forecasting model, which is well suited for real-time applications. The complete probabilistic forecasting framework allows not only for simulating the mean and the marginal properties, but also the correlation structure between hours within the forecasting horizon. For practitioners, complete probabilistic multi-step-ahead forecasts are of considerable relevance as they provide additional information about the expected aggregated or cumulative water demand, so that a statement can be made about the probability with which a water storage capacity can guarantee the supply over a certain period of time. This information allows to better control storage capacities and to better ensure the smooth operation of pumps. To appropriately evaluate the forecasting performance of the considered models, the energy score (ES) as a strictly proper multidimensional evaluation criterion, is introduced. The methodology is applied to the hourly water demand data of a German water supplier.
翻訳日:2022-12-05 07:10:16 公開日:2020-05-09
# 構造化された重み付き違反のmira

The Structured Weighted Violations MIRA ( http://arxiv.org/abs/2005.04418v1 )

ライセンス: Link先を確認
Dor Ringel, Rotem Dror, and Roi Reichart(参考訳) 本稿では,mira (crammer and singer, 2003) とstructured weighted violations perceptron (swvp) (dror and reichart, 2016) のハイブリッド化に基づく新しい構造化予測アルゴリズムであるstructured weighted violations mira (swvm)を提案する。 我々は,(dror and reichart, 2016)で開発された概念と強力な構造化予測アルゴリズムが組み合わさることで,シーケンスラベリングタスクの性能が向上することを示す。 シンタクティックチャンキングと名前付きエンティティ認識(NER)の実験では、新しいアルゴリズムは元のMIRAと元の構造化パーセプトロンとSWVPとを大幅に上回っている。 私たちのコードはhttps://github.com/dorringel/swvmで利用可能です。

We present the Structured Weighted Violation MIRA (SWVM), a new structured prediction algorithm that is based on an hybridization between MIRA (Crammer and Singer, 2003) and the structured weighted violations perceptron (SWVP) (Dror and Reichart, 2016). We demonstrate that the concepts developed in (Dror and Reichart, 2016) combined with a powerful structured prediction algorithm can improve performance on sequence labeling tasks. In experiments with syntactic chunking and named entity recognition (NER), the new algorithm substantially outperforms the original MIRA as well as the original structured perceptron and SWVP. Our code is available at https://github.com/dorringel/SWVM.
翻訳日:2022-12-05 07:02:30 公開日:2020-05-09
# pbソルバの弱化戦略について

On Weakening Strategies for PB Solvers ( http://arxiv.org/abs/2005.04466v1 )

ライセンス: Link先を確認
Daniel Le Berre, Pierre Marquis, Romain Wallon(参考訳) 現在の擬ブール解法は、競合解析中に新しい制約を推測するために切断平面証明システムの異なる変種を実装している。 これらの変種の一つは一般化分解であり、強い制約を推測することができるが、擬似ブーリアン制約を組み合わせながら生成する係数の成長に苦しむ。 別の変種は弱化と除算を使い、実際にはより効率的であるがより弱い制約を推測する。 どちらの場合も、弱体化は矛盾する制約を導き出すために必須である。 しかし,pseudo-booleanソルバの性能への影響は今のところ評価されていない。 本稿では,このルールに対する新しい適用戦略について検討し,小さい係数で強い制約を推測することを目的とした。 Sat4jで実装し、それぞれがソルバのランタイムを改善していることを観察しました。 いずれのベンチマークも他のベンチマークよりもパフォーマンスは良くないが、コンフリクト側で弱体化を適用すると驚くべきパフォーマンスを示す一方、コンフリクト側と理由側の両方で部分弱体化と分割を適用すると、全体として最高の結果が得られる。

Current pseudo-Boolean solvers implement different variants of the cutting planes proof system to infer new constraints during conflict analysis. One of these variants is generalized resolution, which allows to infer strong constraints, but suffers from the growth of coefficients it generates while combining pseudo-Boolean constraints. Another variant consists in using weakening and division, which is more efficient in practice but may infer weaker constraints. In both cases, weakening is mandatory to derive conflicting constraints. However, its impact on the performance of pseudo-Boolean solvers has not been assessed so far. In this paper, new application strategies for this rule are studied, aiming to infer strong constraints with small coefficients. We implemented them in Sat4j and observed that each of them improves the runtime of the solver. While none of them performs better than the others on all benchmarks, applying weakening on the conflict side has surprising good performance, whereas applying partial weakening and division on both the conflict and the reason sides provides the best results overall.
翻訳日:2022-12-05 07:01:57 公開日:2020-05-09
# 一貫性損失を伴うフォトスタイル転送

Photo style transfer with consistency losses ( http://arxiv.org/abs/2005.04408v1 )

ライセンス: Link先を確認
Xu Yao, Gilles Puy, Patrick P\'erez(参考訳) 2枚の写真間のスタイル転送の問題に対処し,フォトリアリズムの新たな保存方法を提案する。 入力として利用可能な1対の写真を使用して、深層畳み込みネットワーク(convnet)をトレーニングし、それぞれが1つの写真のスタイルをもう1つの写真に転送する。 光リアリズムを実現するために,サイクル一貫性損失と自己一貫性損失を組み合わせたコンテンツ保存機構を導入する。 実験結果から,本手法は同一設定で作業する手法で観察される典型的な工芸品に支障を来さないことが明らかとなった。 次に、これらのトレーニングされたconvnetの特性についてさらに分析する。 まず、他の見えない画像を同じスタイルでスタイリングすることができることに気付きました。 第2に、ネットワークパラメータのごく一部だけを再トレーニングすることで、これらのconvnetを新しいスタイルに適応できることを示す。

We address the problem of style transfer between two photos and propose a new way to preserve photorealism. Using the single pair of photos available as input, we train a pair of deep convolution networks (convnets), each of which transfers the style of one photo to the other. To enforce photorealism, we introduce a content preserving mechanism by combining a cycle-consistency loss with a self-consistency loss. Experimental results show that this method does not suffer from typical artifacts observed in methods working in the same settings. We then further analyze some properties of these trained convnets. First, we notice that they can be used to stylize other unseen images with same known style. Second, we show that retraining only a small subset of the network parameters can be sufficient to adapt these convnets to new styles.
翻訳日:2022-12-05 07:00:59 公開日:2020-05-09
# 高分解能顔年齢編集

High Resolution Face Age Editing ( http://arxiv.org/abs/2005.04410v1 )

ライセンス: Link先を確認
Xu Yao, Gilles Puy, Alasdair Newson, Yann Gousseau, Pierre Hellier(参考訳) 顔の年齢編集は映画のポストプロダクションにおいて重要な課題となり、また汎用写真にも人気がある。 近年、顔の老化/老化タスクなど、画像操作において最も視覚的に印象的な結果を生み出している。 かなりの進歩にもかかわらず、現在の方法はしばしば視覚的なアーティファクトを示し、低解像度の画像しか扱えない。 より広い用途に必要とされる高品質で堅牢な老朽化を実現するためには,これらの課題に対処する必要がある。 これが現在の作品の目標である。 顔年齢編集のためのエンコーダデコーダアーキテクチャを提案する。 私たちのネットワークの核となる考え方は、顔のアイデンティティを含む潜在空間と、個人の年齢に対応する特徴変調層の両方を作ることです。 次に、これらの2つの要素を組み合わせて、所望の目標年齢の人物の出力画像を生成する。 私たちのアーキテクチャは、他のアプローチに関して大幅に単純化され、単一の統一モデルで高解像度画像上での連続年齢編集を可能にします。

Face age editing has become a crucial task in film post-production, and is also becoming popular for general purpose photography. Recently, adversarial training has produced some of the most visually impressive results for image manipulation, including the face aging/de-aging task. In spite of considerable progress, current methods often present visual artifacts and can only deal with low-resolution images. In order to achieve aging/de-aging with the high quality and robustness necessary for wider use, these problems need to be addressed. This is the goal of the present work. We present an encoder-decoder architecture for face age editing. The core idea of our network is to create both a latent space containing the face identity, and a feature modulation layer corresponding to the age of the individual. We then combine these two elements to produce an output image of the person with a desired target age. Our architecture is greatly simplified with respect to other approaches, and allows for continuous age editing on high resolution images in a single unified model.
翻訳日:2022-12-05 07:00:45 公開日:2020-05-09
# 相補的特徴に基づく車両再識別

Vehicle Re-Identification Based on Complementary Features ( http://arxiv.org/abs/2005.04463v1 )

ライセンス: Link先を確認
Cunyuan Gao, Yi Hu, Yi Zhang, Rui Yao, Yong Zhou, Jiaqi Zhao(参考訳) 本稿では,ai city challenge 2020(aic2020)における車両再識別(vehicle re-id)トラックの解決策を提案する。 車両のRe-IDの目的は、複数のカメラにまたがる同じ車両を回収することであり、Intelligent Traffic System(ITS)やスマートシティに多大な貢献をする可能性がある。 車両の向き、照明、クラス間の類似性のため、堅牢で差別的な表現特徴を達成することは困難である。 AIC2020の車両用Re-IDトラックでは,これらのネットワークの利点を活かし,補完機能を実現するために,異なるネットワークから抽出した機能を融合する。 単一モデル毎に、マルチロス、フィルタグラフト、セミ教師付きといったいくつかの方法を使用して、表現能力を可能な限り向上させる。 都市規模のマルチカメラ車両再同定におけるトップパフォーマンスは,我々の手法の利点を示し,AIC2020の車両Re-IDトラックでは5位となった。 コードはhttps://github.com/gggcy/aic2020_reidで入手できる。

In this work, we present our solution to the vehicle re-identification (vehicle Re-ID) track in AI City Challenge 2020 (AIC2020). The purpose of vehicle Re-ID is to retrieve the same vehicle appeared across multiple cameras, and it could make a great contribution to the Intelligent Traffic System(ITS) and smart city. Due to the vehicle's orientation, lighting and inter-class similarity, it is difficult to achieve robust and discriminative representation feature. For the vehicle Re-ID track in AIC2020, our method is to fuse features extracted from different networks in order to take advantages of these networks and achieve complementary features. For each single model, several methods such as multi-loss, filter grafting, semi-supervised are used to increase the representation ability as better as possible. Top performance in City-Scale Multi-Camera Vehicle Re-Identification demonstrated the advantage of our methods, and we got 5-th place in the vehicle Re-ID track of AIC2020. The codes are available at https://github.com/gggcy/AIC2020_ReID.
翻訳日:2022-12-05 06:59:50 公開日:2020-05-09
# 教師なし物理トレーニングのためのドメイン固有損失設計:医療mlソリューションのモデリングへの新しいアプローチ

Domain-specific loss design for unsupervised physical training: A new approach to modeling medical ML solutions ( http://arxiv.org/abs/2005.04454v1 )

ライセンス: Link先を確認
Hendrik Burwinkel, Holger Matz, Stefan Saur, Christoph Hauger, Ayse Mine Evren, Nino Hirnschall, Oliver Findl, Nassir Navab, Seyed-Ahmad Ahmadi(参考訳) 今日、白内障手術は世界でもっとも頻繁に行われる眼科手術である。 この白内障は、人間の眼球レンズの不透明性が発達し、世界の盲目の最も頻繁な原因となっている。 手術中、レンズは除去され、人工眼内レンズ(iol)に置き換えられる。 手術後に強い視覚補助を必要としないよう、挿入されたIOLの光学特性の正確な予測が不可欠である。 OCT装置が取得した生体眼データからこれらの特性を予測する手法の開発には,最近は機械学習も活用している。 彼らはバイオメトリックデータまたは物理モデルのみを考えるが、どちらもまれであり、しばしばiol幾何学を無視する。 本研究では,新しい光屈折ネットワーク,損失関数,および教師なし,ドメイン固有,物理的動機付けのあるトレーニングスキームである opticnet を提案する。 単線レイトレーシングを用いた正確な光伝播眼モデルを求め,ネットワークに物理的勾配をバックプロパゲーションする微分損失関数を定式化する。 さらに,本論文では,実際のIOL患者のコホート上で,物理モデルの教師なしトレーニングとネットワークの微調整を可能にする新たなトランスファー学習手法を提案する。 我々のネットワークは,標準手順で訓練されたシステムよりも優れているだけでなく,2つのバイオメトリックデータセットと比較した場合,IOL計算における現在の手法よりも優れていることを示す。

Today, cataract surgery is the most frequently performed ophthalmic surgery in the world. The cataract, a developing opacity of the human eye lens, constitutes the world's most frequent cause for blindness. During surgery, the lens is removed and replaced by an artificial intraocular lens (IOL). To prevent patients from needing strong visual aids after surgery, a precise prediction of the optical properties of the inserted IOL is crucial. There has been lots of activity towards developing methods to predict these properties from biometric eye data obtained by OCT devices, recently also by employing machine learning. They consider either only biometric data or physical models, but rarely both, and often neglect the IOL geometry. In this work, we propose OpticNet, a novel optical refraction network, loss function, and training scheme which is unsupervised, domain-specific, and physically motivated. We derive a precise light propagation eye model using single-ray raytracing and formulate a differentiable loss function that back-propagates physical gradients into the network. Further, we propose a new transfer learning procedure, which allows unsupervised training on the physical model and fine-tuning of the network on a cohort of real IOL patient cases. We show that our network is not only superior to systems trained with standard procedures but also that our method outperforms the current state of the art in IOL calculation when compared on two biometric data sets.
翻訳日:2022-12-05 06:53:56 公開日:2020-05-09
# 学習した滑らかな密度による確率的ロバスト分類

Provable Robust Classification via Learned Smoothed Densities ( http://arxiv.org/abs/2005.04504v1 )

ライセンス: Link先を確認
Saeed Saremi, Rupesh Srivastava(参考訳) ガウス核を持つ平滑化分類器と確率密度関数は無関係に見えるが、本研究ではロバスト分類の問題に統一されている。 主要なビルディングブロックは、$\textit{Bayes estimator}$の確率変数$Y=X+N(0,\sigma^2 I_d)$をニューラルネットワークで近似することで、$\widehat{x}(Y)$, $\textit{Bayes estimator}$のノイズ測定値$Y$のロバストな分類の問題を定式化する。 我々は,$\textit{randomized smoothing}$ のフレームワーク内で $\textit{empirical bayes smoothed classifiers}$ を導入し,理論上,$\textit{the margin}$ 以上のロバスト性向上が可能な2クラス線形分類器について検討する。 我々はmnistの理論を検証し、学習した平滑化エネルギー関数と線形分類器を用いて実証可能な$\ell_2$ロバスト・アキュラシーを証明できることを示した。 この設定は, 対角訓練付き経験的ベイズスムーズな分類器によって大幅に改善され, MNISTでは, 最先端の実証的防御装置よりも高い確固とした精度が得られることを示す。 本稿では,高次元のガウス濃度による幾何学的解釈に基づくランダム化平滑化の基本課題について議論し,学習された平滑化密度に基づくウォークジャンプサンプリングを用いたロバスト分類を提案する。

Smoothing classifiers and probability density functions with Gaussian kernels appear unrelated, but in this work, they are unified for the problem of robust classification. The key building block is approximating the $\textit{energy function}$ of the random variable $Y=X+N(0,\sigma^2 I_d)$ with a neural network which we use to formulate the problem of robust classification in terms of $\widehat{x}(Y)$, the $\textit{Bayes estimator}$ of $X$ given the noisy measurements $Y$. We introduce $\textit{empirical Bayes smoothed classifiers}$ within the framework of $\textit{randomized smoothing}$ and study it theoretically for the two-class linear classifier, where we show one can improve their robustness above $\textit{the margin}$. We test the theory on MNIST and we show that with a learned smoothed energy function and a linear classifier we can achieve provable $\ell_2$ robust accuracies that are competitive with empirical defenses. This setup can be significantly improved by $\textit{learning}$ empirical Bayes smoothed classifiers with adversarial training and on MNIST we show that we can achieve provable robust accuracies higher than the state-of-the-art empirical defenses in a range of radii. We discuss some fundamental challenges of randomized smoothing based on a geometric interpretation due to concentration of Gaussians in high dimensions, and we finish the paper with a proposal for using walk-jump sampling, itself based on learned smoothed densities, for robust classification.
翻訳日:2022-12-05 06:53:32 公開日:2020-05-09
# クラウドベースのモバイルクラウドセンシングのためのfederated boosting

Cloud-based Federated Boosting for Mobile Crowdsensing ( http://arxiv.org/abs/2005.05304v1 )

ライセンス: Link先を確認
Zhuzhu Wang, Yilong Yang, Yang Liu, Ximeng Liu, Brij B. Gupta, Jianfeng Ma(参考訳) モバイルクラウドセンシングアプリへのフェデレートされた極端な勾配の適用は、特に効率と分類における高いパフォーマンスなど、いくつかのメリットをもたらしている。 しかし、これはデータとモデルのプライバシー保護に新たな課題をもたらす。 GAN(Generative Adversarial Network)ベースのユーザデータ再構築攻撃に対する脆弱性に加えて、モデルのプライバシの保存方法を検討する既存のアーキテクチャはない。 本稿では,プライバシ保護を極端に強化したモバイルクラウドセンシングを実現するために,秘密共有型フェデレート学習アーキテクチャであるFedXGBを提案する。 具体的には、まず秘密共有を用いて、XGBoostのセキュアな分類と回帰木(CART)を構築する。 そこで我々は,モバイルクラウドセンシングにおけるXGBoostのモデルプライバシ保護のためのセキュアな予測プロトコルを提案する。 我々は、fedexgbのセキュリティ、有効性、効率を評価するために、包括的な理論的解析と広範な実験を行う。 その結果,FedXGBは正反対の敵に対して安全であり,元のXGBoostモデルと比較して1%未満の精度の損失が得られた。

The application of federated extreme gradient boosting to mobile crowdsensing apps brings several benefits, in particular high performance on efficiency and classification. However, it also brings a new challenge for data and model privacy protection. Besides it being vulnerable to Generative Adversarial Network (GAN) based user data reconstruction attack, there is not the existing architecture that considers how to preserve model privacy. In this paper, we propose a secret sharing based federated learning architecture FedXGB to achieve the privacy-preserving extreme gradient boosting for mobile crowdsensing. Specifically, we first build a secure classification and regression tree (CART) of XGBoost using secret sharing. Then, we propose a secure prediction protocol to protect the model privacy of XGBoost in mobile crowdsensing. We conduct a comprehensive theoretical analysis and extensive experiments to evaluate the security, effectiveness, and efficiency of FedXGB. The results indicate that FedXGB is secure against the honest-but-curious adversaries and attains less than 1% accuracy loss compared with the original XGBoost model.
翻訳日:2022-12-05 06:52:51 公開日:2020-05-09
# 深い特徴の時間的ポーリングに基づく非参照ビデオ品質評価」へのコメント

Comment on "No-Reference Video Quality Assessment Based on the Temporal Pooling of Deep Features" ( http://arxiv.org/abs/2005.04400v1 )

ライセンス: Link先を確認
Franz G\"otz-Hahn, Vlad Hosu, Dietmar Saupe(参考訳) ニューラルプロセッシングレター50,3(2019)では、ブラインドビデオ品質評価のための機械学習アプローチが提案された。 これは、ディープ畳み込みニューラルネットワークの最後のプール層から取られたビデオフレームの特徴の時間的プーリングに基づいている。 この方法は、2つの確立されたベンチマークデータセットで検証され、以前の最先端よりもはるかに良い結果が得られた。 この手紙では、注意深い再実装の結果を報告します。 論文で主張されているパフォーマンスの結果は到達できず、最先端よりも大きなマージンで下回っています。 当初報告された不正な結果が,データ漏洩の2例の結果であることを示す。 トレーニングデータセットの外部からの情報は、微調整段階とモデル評価で使用された。

In Neural Processing Letters 50,3 (2019) a machine learning approach to blind video quality assessment was proposed. It is based on temporal pooling of features of video frames, taken from the last pooling layer of deep convolutional neural networks. The method was validated on two established benchmark datasets and gave results far better than the previous state-of-the-art. In this letter we report the results from our careful reimplementations. The performance results, claimed in the paper, cannot be reached, and are even below the state-of-the-art by a large margin. We show that the originally reported wrong performance results are a consequence of two cases of data leakage. Information from outside the training dataset was used in the fine-tuning stage and in the model evaluation.
翻訳日:2022-12-05 06:52:14 公開日:2020-05-09
# 広汎化モデルのための病理組織におけるマルチタスク学習

Multi-Task Learning in Histo-pathology for Widely Generalizable Model ( http://arxiv.org/abs/2005.08645v1 )

ライセンス: Link先を確認
Jevgenij Gamper, Navid Alemi Kooohbanani, Nasir Rajpoot(参考訳) 本研究では,計算病理学領域における深層マルチタスク学習の予備的結果を示す。 我々は,発展途上国で最も普及しているがんの1つであるパッチワイズ口腔癌の分類から,多施設核インスタンスの分類,分類まで,11の課題を組み合わせる。

In this work we show preliminary results of deep multi-task learning in the area of computational pathology. We combine 11 tasks ranging from patch-wise oral cancer classification, one of the most prevalent cancers in the developing world, to multi-tissue nuclei instance segmentation and classification.
翻訳日:2022-12-05 06:52:03 公開日:2020-05-09
# LinCE: 言語的コードスイッチング評価のための集中ベンチマーク

LinCE: A Centralized Benchmark for Linguistic Code-switching Evaluation ( http://arxiv.org/abs/2005.04322v1 )

ライセンス: Link先を確認
Gustavo Aguilar, Sudipta Kar, and Thamar Solorio(参考訳) NLP研究の最近の傾向は言語コードスイッチング(CS)への関心を高め、近代的なアプローチは複数の言語対における幅広いNLPタスクを解決するために提案されている。 残念ながら、これらの提案手法は異なるコード切り換え言語にほとんど一般化できない。 さらに、モデルアーキテクチャがコードスイッチング設定と互換性を持ちながら、別のタスクに適用できるかどうかも不明である。 これは主に、研究者が特定のニーズと関心に基づいて採用する、集中型ベンチマークとスパースコーパスの欠如によるものである。 そこで本研究では,4つの異なる言語ペア(スペイン語・英語・ネパール語・ヒンズー語・ヒンズー語・現代標準アラビア語)と4つのタスク(言語識別,名前付きエンティティ認識,パート・オブ・スパイチ・タグ付け,感情分析)を組み合わせた,言語コード切り換え評価(lince)の一元的ベンチマークを提案する。 ベンチマーク集中化の取り組みの一環として、私たちは ritual.uh.edu/lince でオンラインプラットフォームを提供しています。 さらに,NLPコミュニティが最先端システムと比較できるように,LSTM,ELMo,多言語BERTなど,さまざまな人気モデルのスコアを提供する。 LinCEは継続的な取り組みであり、より低リソースの言語やタスクで拡張します。

Recent trends in NLP research have raised an interest in linguistic code-switching (CS); modern approaches have been proposed to solve a wide range of NLP tasks on multiple language pairs. Unfortunately, these proposed methods are hardly generalizable to different code-switched languages. In addition, it is unclear whether a model architecture is applicable for a different task while still being compatible with the code-switching setting. This is mainly because of the lack of a centralized benchmark and the sparse corpora that researchers employ based on their specific needs and interests. To facilitate research in this direction, we propose a centralized benchmark for Linguistic Code-switching Evaluation (LinCE) that combines ten corpora covering four different code-switched language pairs (i.e., Spanish-English, Nepali-English, Hindi-English, and Modern Standard Arabic-Egyptian Arabic) and four tasks (i.e., language identification, named entity recognition, part-of-speech tagging, and sentiment analysis). As part of the benchmark centralization effort, we provide an online platform at ritual.uh.edu/lince, where researchers can submit their results while comparing with others in real-time. In addition, we provide the scores of different popular models, including LSTM, ELMo, and multilingual BERT so that the NLP community can compare against state-of-the-art systems. LinCE is a continuous effort, and we will expand it with more low-resource languages and tasks.
翻訳日:2022-12-05 06:51:22 公開日:2020-05-09
# Topic-Aware Pointer-Generator Network を用いた関連するコメントの生成

Generating Pertinent and Diversified Comments with Topic-aware Pointer-Generator Networks ( http://arxiv.org/abs/2005.04396v1 )

ライセンス: Link先を確認
Junheng Huang, Lu Pan, Kang Xu, Weihua Peng, Fayuan Li(参考訳) 自然言語生成(nlg)における新しくて挑戦的なタスクであるコメント生成は、近年多くの注目を集めている。 しかし、以前の仕事によって生み出されたコメントは、関連性や多様性に欠ける傾向がある。 本稿では,トピック認識ポインタ生成ネットワーク(TPGN, Topic-aware Pointer-Generator Networks)に基づく新たな生成モデルを提案する。 まず,キーワードレベルおよびトピックレベルのエンコーダアテンション機構を設計し,話題情報を抽出する。 次に,話題情報をポインタ生成ネットワークに統合し,コメント生成のガイドを行う。 大規模なコメント生成データセットの実験では,提案モデルが価値あるコメントを生成し,競合ベースラインモデルを大幅に上回っています。

Comment generation, a new and challenging task in Natural Language Generation (NLG), attracts a lot of attention in recent years. However, comments generated by previous work tend to lack pertinence and diversity. In this paper, we propose a novel generation model based on Topic-aware Pointer-Generator Networks (TPGN), which can utilize the topic information hidden in the articles to guide the generation of pertinent and diversified comments. Firstly, we design a keyword-level and topic-level encoder attention mechanism to capture topic information in the articles. Next, we integrate the topic information into pointer-generator networks to guide comment generation. Experiments on a large scale of comment generation dataset show that our model produces the valuable comments and outperforms competitive baseline models significantly.
翻訳日:2022-12-05 06:44:34 公開日:2020-05-09
# テキスト分析とソーシャルメディアコンテキストを用いたニュースメディアのプロファイリング

What Was Written vs. Who Read It: News Media Profiling Using Text Analysis and Social Media Context ( http://arxiv.org/abs/2005.04518v1 )

ライセンス: Link先を確認
Ramy Baly, Georgi Karadzhov, Jisun An, Haewoon Kwak, Yoan Dinkov, Ahmed Ali, James Glass, Preslav Nakov(参考訳) 政治バイアスの予測とニュースメディア全体の報道の事実性はメディアプロファイリングの重要な要素であり、研究の方向性はますます重要になっている。 現在、偽物、偏り、広汎性のあるコンテンツをオンラインで拡散しているため、疑わしいすべての主張を、手動または自動で事実チェックすることは不可能になっている。 あるいは、ニュースソース全体をプロファイルして、偽物や偏ったコンテンツを公開する可能性のあるものを探すこともできる。 このアプローチにより、ソースの信頼性をチェックするだけで、公開時に“フェイクニュース”を検出することが可能になる。 実践的な見地からすると、政治的偏見と報告の事実性は言語的側面だけでなく社会的文脈も持っている。 ここでは両者の影響、すなわち (i) 書かれたもの(すなわち、ターゲットメディアで公開されたもの、Twitterでどのように表現されているか)対。 (ii)それを読む人(すなわち、Facebook、Twitter、YouTubeでターゲットメディアの読者を分析する)。 さらなる研究を (iii)ウィキペディアのターゲットメディアについて書かれたもの。 評価結果から,記述したものが最も重要であり,すべての情報ソースをまとめることで,現在の最先端技術よりも大きな改善がもたらされることが示唆された。

Predicting the political bias and the factuality of reporting of entire news outlets are critical elements of media profiling, which is an understudied but an increasingly important research direction. The present level of proliferation of fake, biased, and propagandistic content online, has made it impossible to fact-check every single suspicious claim, either manually or automatically. Alternatively, we can profile entire news outlets and look for those that are likely to publish fake or biased content. This approach makes it possible to detect likely "fake news" the moment they are published, by simply checking the reliability of their source. From a practical perspective, political bias and factuality of reporting have a linguistic aspect but also a social context. Here, we study the impact of both, namely (i) what was written (i.e., what was published by the target medium, and how it describes itself on Twitter) vs. (ii) who read it (i.e., analyzing the readers of the target medium on Facebook, Twitter, and YouTube). We further study (iii) what was written about the target medium on Wikipedia. The evaluation results show that what was written matters most, and that putting all information sources together yields huge improvements over the current state-of-the-art.
翻訳日:2022-12-05 06:44:22 公開日:2020-05-09
# ユーティリティアウェアプライバシ保存データリリース

Utility-aware Privacy-preserving Data Releasing ( http://arxiv.org/abs/2005.04369v1 )

ライセンス: Link先を確認
Di Zhuang and J. Morris Chang(参考訳) ビッグデータ時代には、個々のデータを活用して特定の価値あるサービス(ユーティリティ)を提供するクラウドベースのデータ駆動アプリケーションが増えています。 一方、個人データの同じセットを使用して、個人の機密情報を推測することで、個人のプライバシをスヌープする新たなチャネルを作成することができる。 したがって、データ所有者が民営化されたデータをリリースできるようにする技術を開発することは非常に重要である。 しかし、既存のデータリリースアプローチは、プライバシー強調(ユーティリティを考慮せず)か、ユーティリティ駆動(プライバシに関する保証なし)である。 本研究では,2段階の摂動に基づくプライバシー保護型データリリースフレームワークを提案する。 まず、特定の事前定義されたプライバシーとユーティリティの問題は、パブリックドメインデータ(背景知識)から学習される。 その後、我々のアプローチでは、学習した知識を活用して、データ所有者のデータを、特定の目的(成功への学習)のためにうまく活用できる民営化されたデータに正確に摂動する。 本フレームワークの有効性と実用性を示すために,人的活動認識,センサス所得,銀行マーケティングのデータセットについて大規模な実験を行った。

In the big data era, more and more cloud-based data-driven applications are developed that leverage individual data to provide certain valuable services (the utilities). On the other hand, since the same set of individual data could be utilized to infer the individual's certain sensitive information, it creates new channels to snoop the individual's privacy. Hence it is of great importance to develop techniques that enable the data owners to release privatized data, that can still be utilized for certain premised intended purpose. Existing data releasing approaches, however, are either privacy-emphasized (no consideration on utility) or utility-driven (no guarantees on privacy). In this work, we propose a two-step perturbation-based utility-aware privacy-preserving data releasing framework. First, certain predefined privacy and utility problems are learned from the public domain data (background knowledge). Later, our approach leverages the learned knowledge to precisely perturb the data owners' data into privatized data that can be successfully utilized for certain intended purpose (learning to succeed), without jeopardizing certain predefined privacy (training to fail). Extensive experiments have been conducted on Human Activity Recognition, Census Income and Bank Marketing datasets to demonstrate the effectiveness and practicality of our framework.
翻訳日:2022-12-05 06:43:25 公開日:2020-05-09
# JigSaw: ランダム森林からの説明的高次相互作用を発見するツール

JigSaw: A tool for discovering explanatory high-order interactions from random forests ( http://arxiv.org/abs/2005.04342v1 )

ライセンス: Link先を確認
Demetrius DiMucci(参考訳) 機械学習は、大量のデータセットに見られる複雑なパターンの結果を予測することによって、生物学に革命をもたらす。 トランスクリプトームやマイクロバイオームの研究によって生成されたような大きな生物学的データセットは、モジュール的な方法で生体内で相互作用する多くの関連コンポーネントを測定する。機械学習モデルが予測のために使用する高次相互作用を特定することは、測定されたコンポーネントの組み合わせと結果を結びつける仮説の開発を促進する。 ランダム森林の構造を用いることで、ジグソーと呼ばれる新しいアルゴリズムアプローチが、森林の予測を説明するパターンの発見を支援するために開発された。 個々の決定木のパターンを調べることで、JigSawは特定の結果に強く関連している測定された特徴間の高次相互作用を特定し、関連する決定しきい値を特定する。 jigsawの有効性は、重要なノイズが存在する場合でも、複数の基底真理パターンを復元できるシミュレーション研究でテストされた。 その後、2つの実世界のデータセットで結果に関連するパターンを見つけるために使われ、最初に心臓病に関連する臨床測定のパターンを特定するために使用された。 その後、血液中の代謝物を用いて乳がんに関連するパターンを見つけるために用いられた。 心臓病では、ジグソーは心臓病の記録のほとんど(66%)と高い精度(93%)とを組み合わせて3方向の相互作用を発見した。 乳癌では, ほぼすべての記録 (92%) を良好な精度 (79%) で説明できる3つの双方向相互作用が回復した。 JigSawは、与えられた結果と統計的関連を説明し、検証可能な仮説を生み出すための規則のための高次元特徴空間を探索する効率的な方法である。

Machine learning is revolutionizing biology by facilitating the prediction of outcomes from complex patterns found in massive data sets. Large biological data sets, like those generated by transcriptome or microbiome studies,measure many relevant components that interact in vivo with one another in modular ways.Identifying the high-order interactions that machine learning models use to make predictions would facilitate the development of hypotheses linking combinations of measured components to outcome. By using the structure of random forests, a new algorithmic approach, termed JigSaw,was developed to aid in the discovery of patterns that could explain predictions made by the forest. By examining the patterns of individual decision trees JigSaw identifies high-order interactions between measured features that are strongly associated with a particular outcome and identifies the relevant decision thresholds. JigSaw's effectiveness was tested in simulation studies where it was able to recover multiple ground truth patterns;even in the presence of significant noise. It was then used to find patterns associated with outcomes in two real world data sets.It was first used to identify patterns clinical measurements associated with heart disease. It was then used to find patterns associated with breast cancer using metabolites measured in the blood. In heart disease, JigSaw identified several three-way interactions that combine to explain most of the heart disease records (66%) with high precision (93%). In breast cancer, three two-way interactions were recovered that can be combined to explain almost all records (92%) with good precision (79%). JigSaw is an efficient method for exploring high-dimensional feature spaces for rules that explain statistical associations with a given outcome and can inspire the generation of testable hypotheses.
翻訳日:2022-12-05 06:43:03 公開日:2020-05-09
# 深層学習を用いたデュアルトラック音楽生成

Dual-track Music Generation using Deep Learning ( http://arxiv.org/abs/2005.04353v1 )

ライセンス: Link先を確認
Sudi Lyu, Anxiang Zhang, Rong Song(参考訳) 音楽生成は常に形式化されたレシピがないという意味で興味深い。 そこで本研究では,左利きと右利きのピアノ音楽の相互依存性をモデル化可能な,クラシックピアノ音楽を生成するための新しいデュアルトラックアーキテクチャを提案する。 特に、ニューラルネットワークのさまざまなモデルと音楽の異なる表現の実験を行い、提案したモデルが他の試験手法よりも優れていることを示した。 さらに、モデルトレーニングと生成のための特別なポリシーをデプロイし、モデルのパフォーマンスを著しく向上させました。 最後に,2つの評価手法を用いて,MuseGANプロジェクトと真の音楽と比較した。

Music generation is always interesting in a sense that there is no formalized recipe. In this work, we propose a novel dual-track architecture for generating classical piano music, which is able to model the inter-dependency of left-hand and right-hand piano music. Particularly, we experimented with a lot of different models of neural network as well as different representations of music, and the results show that our proposed model outperforms all other tested methods. Besides, we deployed some special policies for model training and generation, which contributed to the model performance remarkably. Finally, under two evaluation methods, we compared our models with the MuseGAN project and true music.
翻訳日:2022-12-05 06:42:31 公開日:2020-05-09
# 側方情報を用いた木構造図形モデル学習のための厳密な漸近:無雑音・雑音サンプル

Exact Asymptotics for Learning Tree-Structured Graphical Models with Side Information: Noiseless and Noisy Samples ( http://arxiv.org/abs/2005.04354v1 )

ライセンス: Link先を確認
Anshoo Tandon and Vincent Y. F. Tan and Shiyao Zhu(参考訳) イジングツリー構造を持つグラフィカルモデルが均質であり、外部場を持たないという側面情報から、我々はその構造を独立に描画されたサンプルから学習する正確な漸近性を導出する。 Our results, which leverage the use of probabilistic tools from the theory of strong large deviations, refine the large deviation (error exponents) results of Tan, Anandkumar, Tong, and Willsky [IEEE Trans. on Inform. Th., 57(3):1714--1735, 2011] and strictly improve those of Bresler and Karzand [Ann. Statist., 2020]. In addition, we extend our results to the scenario in which the samples are observed in random noise. In this case, we show that they strictly improve on the recent results of Nikolakakis, Kalogerias, and Sarwate [Proc. AISTATS, 1771--1782, 2019]. 以上の結果から, 試料径を数百倍に抑える実験結果と有意な一致を示した。

Given side information that an Ising tree-structured graphical model is homogeneous and has no external field, we derive the exact asymptotics of learning its structure from independently drawn samples. Our results, which leverage the use of probabilistic tools from the theory of strong large deviations, refine the large deviation (error exponents) results of Tan, Anandkumar, Tong, and Willsky [IEEE Trans. on Inform. Th., 57(3):1714--1735, 2011] and strictly improve those of Bresler and Karzand [Ann. Statist., 2020]. In addition, we extend our results to the scenario in which the samples are observed in random noise. In this case, we show that they strictly improve on the recent results of Nikolakakis, Kalogerias, and Sarwate [Proc. AISTATS, 1771--1782, 2019]. Our theoretical results demonstrate keen agreement with experimental results for sample sizes as small as that in the hundreds.
翻訳日:2022-12-05 06:42:22 公開日:2020-05-09
# Modelica と Python を用いた温度制御負荷制御のための強化学習

Reinforcement Learning for Thermostatically Controlled Loads Control using Modelica and Python ( http://arxiv.org/abs/2005.04444v1 )

ライセンス: Link先を確認
Oleh Lukianykhin, Tetiana Bogodorova(参考訳) プロジェクトの目的は,強化学習(rl)を電力系統制御に適用する機会を調査し,評価することである。 概念実証(poc)として,電力消費規制のための熱静電制御負荷(tcls)の電圧制御がmodelicaベースのパイプラインを用いて開発された。 Q-learning RLアルゴリズムはTCLの決定的および確率的初期化に対して検証されている。 後者のモデリングは、負荷切替の確率的な性質を考慮して、制御開発に挑戦する実際のグリッド動作に近い。 さらに,状態空間の離散化を含むQ-ラーニングパラメータが制御性能に及ぼす影響について述べる。

The aim of the project is to investigate and assess opportunities for applying reinforcement learning (RL) for power system control. As a proof of concept (PoC), voltage control of thermostatically controlled loads (TCLs) for power consumption regulation was developed using Modelica-based pipeline. The Q-learning RL algorithm has been validated for deterministic and stochastic initialization of TCLs. The latter modelling is closer to real grid behaviour, which challenges the control development, considering the stochastic nature of load switching. In addition, the paper shows the influence of Q-learning parameters, including discretization of state-action space, on the controller performance.
翻訳日:2022-12-05 06:41:43 公開日:2020-05-09
# モーフィンの時間だ! 屈折摂動による言語弁別

It's Morphin' Time! Combating Linguistic Discrimination with Inflectional Perturbations ( http://arxiv.org/abs/2005.04364v1 )

ライセンス: Link先を確認
Samson Tan, Shafiq Joty, Min-Yen Kan, Richard Socher(参考訳) 完全な標準英語コーパスのみのトレーニングでは、訓練済みのニューラルネットワークが非標準言語的背景(例えば、アフリカ系アメリカ人のVernacular English, Colloquial Singapore Englishなど)からマイノリティを区別するために準備されている。 これらのバイアスを一般的なNLPモデル(例えばBERTやTransformer)で表すような、可塑性で意味論的に類似した逆の例を作るために、単語の屈折形態を摂動させ、一方のエポックに対して逆向きに微調整することで、クリーンなデータの性能を犠牲にすることなく、ロバスト性を大幅に向上させることを示す。

Training on only perfect Standard English corpora predisposes pre-trained neural networks to discriminate against minorities from non-standard linguistic backgrounds (e.g., African American Vernacular English, Colloquial Singapore English, etc.). We perturb the inflectional morphology of words to craft plausible and semantically similar adversarial examples that expose these biases in popular NLP models, e.g., BERT and Transformer, and show that adversarially fine-tuning them for a single epoch significantly improves robustness without sacrificing performance on clean data.
翻訳日:2022-12-05 06:35:46 公開日:2020-05-09
# 畳み込みニューラルネットワークを用いた視覚障害者支援, 伝達学習, 粒子競合と協調

Visually Impaired Aid using Convolutional Neural Networks, Transfer Learning, and Particle Competition and Cooperation ( http://arxiv.org/abs/2005.04473v1 )

ライセンス: Link先を確認
Fabricio Breve, Carlos Norberto Fischer(参考訳) ナビゲーションとモビリティは、日常生活の中で視覚障害者が直面する主要な問題である。 コンピュータビジョンの進歩はいくつかのナビゲーションシステムの提案につながった。 しかし、そのほとんどは高価で重いハードウェアを必要とする。 本稿では,畳み込みニューラルネットワーク(cnn),転送学習,半教師付き学習(ssl)を用いて視覚障害者支援のためのフレームワークを構築することを提案する。 計算コストが低く、従って、追加の機器に頼ることなく、現在のスマートフォンで実装することができる。 スマートフォンのカメラは、前方の道の写真を撮るのに使える。 その後、すぐに分類され、ほぼ瞬時にユーザにフィードバックを提供する。 また,照明,床,障害物の異なる屋内および屋外の状況を含む分類器を訓練するためのデータセットを提案する。 多くの異なるCNNアーキテクチャは、より大きなデータセットで事前訓練された微調整重みによって特徴抽出器と分類器として評価される。 グラフベースのSSLメソッドは、パーティクルコンペティションとコラボレーティブとして知られており、ネットワークを再トレーニングすることなく、ユーザからのフィードバックを組み込むことができる。 92\%と80\%の分類精度は、それぞれ最高の教師付きシナリオとSSLシナリオで提案されたデータセットで達成される。

Navigation and mobility are some of the major problems faced by visually impaired people in their daily lives. Advances in computer vision led to the proposal of some navigation systems. However, most of them require expensive and/or heavy hardware. In this paper we propose the use of convolutional neural networks (CNN), transfer learning, and semi-supervised learning (SSL) to build a framework aimed at the visually impaired aid. It has low computational costs and, therefore, may be implemented on current smartphones, without relying on any additional equipment. The smartphone camera can be used to automatically take pictures of the path ahead. Then, they will be immediately classified, providing almost instantaneous feedback to the user. We also propose a dataset to train the classifiers, including indoor and outdoor situations with different types of light, floor, and obstacles. Many different CNN architectures are evaluated as feature extractors and classifiers, by fine-tuning weights pre-trained on a much larger dataset. The graph-based SSL method, known as particle competition and cooperation, is also used for classification, allowing feedback from the user to be incorporated without retraining the underlying network. 92\% and 80\% classification accuracy is achieved in the proposed dataset in the best supervised and SSL scenarios, respectively.
翻訳日:2022-12-05 06:35:21 公開日:2020-05-09
# 確率的回帰推定による半教師付き対話政策学習

Semi-Supervised Dialogue Policy Learning via Stochastic Reward Estimation ( http://arxiv.org/abs/2005.04379v1 )

ライセンス: Link先を確認
Xinting Huang, Jianzhong Qi, Yu Sun, Rui Zhang(参考訳) 対話政策最適化はタスク指向対話システムにおいてタスク完了までフィードバックを得ることが多い。 これは、対話の終わりにのみ監視信号(または報酬)が提供されるため、中間対話の訓練には不十分である。 この問題に対処するために、報酬学習を導入して、ターンバイターン報酬を提供する最適なポリシーのステートアクションペアから学ぶ。 このアプローチには、労働集約的な人間対人間の対話(専門家によるデモンストレーション)の完全なステートアクションアノテーションが必要である。 この制限を克服するために,半教師付き政策学習のための新しい報酬学習手法を提案する。 提案手法は、アノテーションの有無に関わらず、専門家によるデモンストレーションに基づいて対話進行(すなわち状態動作シーケンス)をモデル化する報奨関数としてダイナミクスモデルを学ぶ。 ダイナミクスモデルは、対話の進行が専門家のデモンストレーションと一致しているかどうかを予測することで報酬を計算する。 さらに、報酬関数をより一般化するためにアクション埋め込みを学ぶことを提案する。 提案手法は、ベンチマークマルチドメインデータセットであるmultiwozの競合ポリシー学習ベースラインを上回っている。

Dialogue policy optimization often obtains feedback until task completion in task-oriented dialogue systems. This is insufficient for training intermediate dialogue turns since supervision signals (or rewards) are only provided at the end of dialogues. To address this issue, reward learning has been introduced to learn from state-action pairs of an optimal policy to provide turn-by-turn rewards. This approach requires complete state-action annotations of human-to-human dialogues (i.e., expert demonstrations), which is labor intensive. To overcome this limitation, we propose a novel reward learning approach for semi-supervised policy learning. The proposed approach learns a dynamics model as the reward function which models dialogue progress (i.e., state-action sequences) based on expert demonstrations, either with or without annotations. The dynamics model computes rewards by predicting whether the dialogue progress is consistent with expert demonstrations. We further propose to learn action embeddings for a better generalization of the reward function. The proposed approach outperforms competitive policy learning baselines on MultiWOZ, a benchmark multi-domain dataset.
翻訳日:2022-12-05 06:34:43 公開日:2020-05-09
# スパースニューラルネットワークのGPU高速化

GPU Acceleration of Sparse Neural Networks ( http://arxiv.org/abs/2005.04347v1 )

ライセンス: Link先を確認
Aavaas Gajurel, Sushil J. Louis, Frederick C Harris(参考訳) 本稿では,グラフ処理ユニット(GPU)を用いて,スパースニューラルネットワークと任意の構造化ニューラルネットワークを高速化する。 スパースネットワークは、前層と後層のノードと完全に接続されていないネットワークにノードを持ち、任意の構造ニューラルネットワークは各レイヤに異なるノード数を持つ。 任意の構造を持つスパースニューラルネットワークは、一般的にニューラルネットワークプルーニングや進化的機械学習戦略などのプロセスで生成される。 グラフ処理ユニットを用いて,このようなニューラルネットワークをフルアクティベートする上で,大幅な高速化が期待できることを示す。 我々は、ネットワーク内のすべてのノードに対する依存グループを決定するための前提ステップを実行し、その情報を使用して、ニューラルネットワークのアクティベーションの進行をガイドします。 次に、GPU内の各ノードのアクティベーションをそれぞれ別個のスレッドで計算し、大規模な並列化を可能にします。 CUDAフレームワークを使用してアプローチを実装し、シーケンシャルおよびGPU実装の結果を比較する。 その結果、スパースニューラルネットワークの活性化はGPUアクセラレーションに非常に役立ち、そのような構造を持つネットワークやその他のプロセスを生成する機械学習戦略の高速化に役立ちます。

In this paper, we use graphics processing units(GPU) to accelerate sparse and arbitrary structured neural networks. Sparse networks have nodes in the network that are not fully connected with nodes in preceding and following layers, and arbitrary structure neural networks have different number of nodes in each layers. Sparse Neural networks with arbitrary structures are generally created in the processes like neural network pruning and evolutionary machine learning strategies. We show that we can gain significant speedup for full activation of such neural networks using graphical processing units. We do a prepossessing step to determine dependency groups for all the nodes in a network, and use that information to guide the progression of activation in the neural network. Then we compute activation for each nodes in its own separate thread in the GPU, which allows for massive parallelization. We use CUDA framework to implement our approach and compare the results of sequential and GPU implementations. Our results show that the activation of sparse neural networks lends very well to GPU acceleration and can help speed up machine learning strategies which generate such networks or other processes that have similar structure.
翻訳日:2022-12-05 06:34:27 公開日:2020-05-09
# schuBERT:BERTの要素を最適化する

schuBERT: Optimizing Elements of BERT ( http://arxiv.org/abs/2005.06628v1 )

ライセンス: Link先を確認
Ashish Khetan, Zohar Karnin(参考訳) 変換器 \citep{vaswani2017attention} は、徐々に多くの最先端自然言語表現モデルの主要な構成要素となっている。 最近の Transformer ベースのモデルである BERT \citep{devlin2018bert} は、GLUE、SQuAD v1.1、SQuAD v2.0 など、様々な自然言語処理タスクにおける最先端の結果を得た。 しかし、このモデルは計算が禁止され、多くのパラメータを持つ。 この作業では、より軽量なモデルを得るためにBERTのアーキテクチャ選択を再考する。 パラメータの数を減らすことに重点を置いていますが、フロップやレイテンシといった他の目的にも適用可能です。 本稿では,トランスフォーマーエンコーダ層数を削減するのではなく,アルゴリズムによって選択された正しい設計次元を削減し,極めて効率的な光BERTモデルが得られることを示す。 特に、我々のschuBERTはGLUEとSQuADデータセットの平均精度を6.6\%$、同じ数のパラメータを持ちながら3つのエンコーダ層を持つBERTと比較します。

Transformers \citep{vaswani2017attention} have gradually become a key component for many state-of-the-art natural language representation models. A recent Transformer based model- BERT \citep{devlin2018bert} achieved state-of-the-art results on various natural language processing tasks, including GLUE, SQuAD v1.1, and SQuAD v2.0. This model however is computationally prohibitive and has a huge number of parameters. In this work we revisit the architecture choices of BERT in efforts to obtain a lighter model. We focus on reducing the number of parameters yet our methods can be applied towards other objectives such FLOPs or latency. We show that much efficient light BERT models can be obtained by reducing algorithmically chosen correct architecture design dimensions rather than reducing the number of Transformer encoder layers. In particular, our schuBERT gives $6.6\%$ higher average accuracy on GLUE and SQuAD datasets as compared to BERT with three encoder layers while having the same number of parameters.
翻訳日:2022-12-05 06:33:49 公開日:2020-05-09
# 階層型タッカーテンソル分解を用いた繰り返しニューラルネットワークの圧縮

Compressing Recurrent Neural Networks Using Hierarchical Tucker Tensor Decomposition ( http://arxiv.org/abs/2005.04366v1 )

ライセンス: Link先を確認
Miao Yin, Siyu Liao, Xiao-Yang Liu, Xiaodong Wang, Bo Yuan(参考訳) リカレントニューラルネットワーク(RNN)はシーケンス解析やモデリングに広く利用されている。 しかしながら、高次元データを処理する場合、RNNは通常、非常に大きなモデルサイズを必要とするため、一連のデプロイメント課題が発生する。 現状のテンソル分解手法はモデル圧縮性能に優れるが、これらの既存手法は表現能力の制限やモデルの複雑性の低下など、いくつかの制約に悩まされている。 これらの制約を克服するために,階層タッカー(HT)分解を用いたコンパクトなRNNモデルを提案する。 HT分解は分解されたRNNモデルに強い階層構造をもたらす。 一方、HT分解はRNN圧縮のための既存のテンソル分解手法よりも高いストレージと計算コストの削減を提供する。 実験の結果, TT-LSTM, TR-LSTM, BT-LSTMなどの最先端圧縮RNNモデルと比較して, 提案したHT-LSTM(HT-LSTM)は, 圧縮比と試験精度を連続的に向上させることがわかった。

Recurrent Neural Networks (RNNs) have been widely used in sequence analysis and modeling. However, when processing high-dimensional data, RNNs typically require very large model sizes, thereby bringing a series of deployment challenges. Although the state-of-the-art tensor decomposition approaches can provide good model compression performance, these existing methods are still suffering some inherent limitations, such as restricted representation capability and insufficient model complexity reduction. To overcome these limitations, in this paper we propose to develop compact RNN models using Hierarchical Tucker (HT) decomposition. HT decomposition brings strong hierarchical structure to the decomposed RNN models, which is very useful and important for enhancing the representation capability. Meanwhile, HT decomposition provides higher storage and computational cost reduction than the existing tensor decomposition approaches for RNN compression. Our experimental results show that, compared with the state-of-the-art compressed RNN models, such as TT-LSTM, TR-LSTM and BT-LSTM, our proposed HT-based LSTM (HT-LSTM), consistently achieves simultaneous and significant increases in both compression ratio and test accuracy on different datasets.
翻訳日:2022-12-05 06:33:32 公開日:2020-05-09
# autoclint: autocv challenge 2019における勝利方法

AutoCLINT: The Winning Method in AutoCV Challenge 2019 ( http://arxiv.org/abs/2005.04373v1 )

ライセンス: Link先を確認
Woonhyuk Baek and Ildoo Kim and Sungwoong Kim and Sungbin Lim(参考訳) NeurIPS 2019 AutoDL Challengeは、6つの自動機械学習コンペティションである。 特にAutoCVの課題は、視覚領域の分類タスクに重点を置いている。 本稿では,優勝方式であるAutoCLINTについて紹介する。 提案手法は、効率的なコード最適化を含む自律的なトレーニング戦略を実装し、事前訓練されたネットワークの高速適応を実現するために、自動データ拡張を適用する。 任意に与えられた画像領域に対して,データ拡張ポリシーを効率的に検索するために,高速自動生成の軽量版を実装した。 また,提案手法の成分を実験的に分析し,AutoCVデータセットに着目したアブレーション研究を行った。

NeurIPS 2019 AutoDL challenge is a series of six automated machine learning competitions. Particularly, AutoCV challenges mainly focused on classification tasks on visual domain. In this paper, we introduce the winning method in the competition, AutoCLINT. The proposed method implements an autonomous training strategy, including efficient code optimization, and applies an automated data augmentation to achieve the fast adaptation of pretrained networks. We implement a light version of Fast AutoAugment to search for data augmentation policies efficiently for the arbitrarily given image domains. We also empirically analyze the components of the proposed method and provide ablation studies focusing on AutoCV datasets.
翻訳日:2022-12-05 06:32:55 公開日:2020-05-09