このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200216となっている論文です。

PDF登録状況(公開日: 20200216)

TitleAuthorsAbstract論文公表日・翻訳日
# デコイ状態量子鍵分布の厳密なセキュリティ境界

Tight security bounds for decoy-state quantum key distribution ( http://arxiv.org/abs/2002.06530v1 )

ライセンス: Link先を確認
Hua-Lei Yin, Min-Gang Zhou, Jie Gu, Yuan-Mei Xie, Yu-Shuo Lu, Zeng-Bing Chen(参考訳) BB84量子鍵分布(QKD)とデコイ状態法は、現在最も実用的なプロトコルであり、有限鍵系における一般的な攻撃に対して安全であることが証明されている。 それゆえ、統計ゆらぎ解析法は、秘密鍵レート、安全な伝送距離、そして最も重要なセキュリティに直接影響を与える有限鍵効果を扱う上で非常に重要である。 デコイ状態bb84 qkdの統計変動には2つの課題がある。 1つは、所定の期待値または観測値に対する期待値と観測値とのずれである。 もう1つは、計算基底の位相誤差率とデュアル基底のビット誤差率の偏差である。 ここでは、上記の課題を解決するための厳密で最適な解析式を提供し、高い秘密鍵レートとより安全な伝送距離をもたらす。 この結果は,量子暗号プロトコルの統計的揺らぎに対処するために広く適用可能である。

The BB84 quantum key distribution (QKD) combined with decoy-state method is currently the most practical protocol, which has been proved secure against general attacks in the finite-key regime. Thereinto, statistical fluctuation analysis methods are very important in dealing with finite-key effects, which directly affect secret key rate, secure transmission distance and even the most important security. There are two tasks of statistical fluctuation in decoy-state BB84 QKD. One is the deviation between expected value and observed value for a given expected value or observed value. The other is the deviation between phase error rate of computational basis and bit error rate of dual basis. Here, we provide the rigorous and optimal analytic formula to solve the above tasks, resulting higher secret key rate and longer secure transmission distance. Our results can be widely applied to deal with statistical fluctuation in quantum cryptography protocols.
翻訳日:2023-06-03 13:15:02 公開日:2020-02-16
# BB84プロトコルによる量子鍵分布の再現

Reconciliation for Practical Quantum Key Distribution with BB84 protocol ( http://arxiv.org/abs/2002.07778v1 )

ライセンス: Link先を確認
Nedra Benletaief and Houria Rezig and Ammar Bouallegue(参考訳) 本稿では,両当事者が盗聴者の存在下で鍵を交換する場合に,量子鍵分布の新しい情報調整手法について検討する。 我々は,再結合はチャネル符号化の特別な場合であり,既存の手法が再結合に適応できることを示す。 ターボ符号に基づく明示的な和解法について述べる。 提案手法は離散量子状態に基づく量子鍵分布プロトコルの効率を向上させることができると考えている。

This paper investigates a new information reconciliation method for quantum key distribution in the case where two parties exchange key in the presence of a malevolent eavesdropper. We have observed that reconciliation is a special case of channel coding and for that existing techniques can be adapted for reconciliation. We describe an explicit reconciliation method based on Turbo codes. We believe that the proposed method can improve the efficiency of quantum key distribution protocols based on discrete quantum states.
翻訳日:2023-06-03 13:10:44 公開日:2020-02-16
# 量子鍵分布系における和解法の実験的研究と実践的実現

Experimental study and pratical realization of a reconciliation method for quantum key distribution system ( http://arxiv.org/abs/2002.07396v1 )

ライセンス: Link先を確認
Nedra Benletaief and Houria Rezig and Ammar Bouallegue(参考訳) 本稿では,QKDプロトコルにおいて誤りのない秘密鍵を確立するための和解手法について検討する。 古典的な鍵分布プロトコルは、数学的問題の計算複雑性が困難を強いるため、もはや無条件で安全ではない。 この文脈では、QKDプロトコルは物理学の量子法則に基づいており、高いレベルのセキュリティを提供する。 しかし、プロトコルのパフォーマンスは多重エラーによって低下する可能性がある。 このような状況において、正当なパートナーに対する誤りを取り除くために和解を行う必要があることは明らかである。 提案手法は,サイドインフォメーション・ソース・コーディング(slepian-wolf coding model)の特殊問題においてqtcを用いて和解を実現する。 この理論仮説は,最近の研究と比較して,和解問題の解法としての有効性を実証する実験結果によって継続される。 実際,本手法の統合は,セキュリティ上の重要な進歩とQBERの大幅な減少を生んでいる。 利得は合理的な複雑さの増加によって得られる。 また, 本研究の目新しさは, vpitransmissionmaker の下で実際のフォトニックシステム上での和解法をテストしたことである。

This paper investigates a reconciliation method in order to establish an errorless secret key in a QKD protocol. Classical key distribution protocols are no longer unconditionally secure because computational complexity of mathematical problems forced hardships. In this context, QKD protocols offer a highest level of security because they are based on the quantum laws of physics. But, the protocol performances can be lowered by multiples errors. It appears clearly that reconciliation should be performed in such a situation in order to remove the errors as for the legitimate partners. The proposed method accomplishes reconciliation by using QTC in the special problem of sideinformation source coding (Slepian-Wolf coding model). Our theoretical hypothesis are sustained by experimental results that confirm the advantage of our method in resolving reconciliation problem compared to a recent related work. Indeed, the integration of our method generates an important progess in security and a large decrease of the QBER. The gain is obtained with a reasonable complexity increase. Also, the novelty of our work is that it tested the reconciliation method on a real photonic system under VPItransmissionMaker.
翻訳日:2023-06-03 13:10:25 公開日:2020-02-16
# 連続可変量子鍵分布の実験的研究

Experimental study of continuous variable quantum key distribution ( http://arxiv.org/abs/2002.07393v1 )

ライセンス: Link先を確認
Nedra Benletaief and Houria Rezig and Ammar Bouallegue(参考訳) 単一光子による量子暗号システムの通信速度を制限する主な技術的要因は、主に符号化方法の選択に関連していることが文献で証明されている。 実際、使用した光源の効率は非常に限られており、少なくとも1つの光子源では数パーセントのオーダーであり、光子カウンタは一定の速度を超え、検出効率の低い速度では動作できない。 これらの欠点を部分的に克服するために、量子量子ビットに基づく標準エンコーディングの代替として連続量子状態を用いるのが有利である。 そこで,本稿ではターボコードに基づく新しい和解法を提案する。 我々の理論モデル仮定は実験結果によって支持される。 実際,本手法はプロトコルセキュリティの大幅な向上とQBERの大幅な削減につながっている。 利得は合理的な複雑さの増加によって得られる。 また, 本研究の目新しさは, vpitransmissionmaker の下で実際のフォトニックシステム上での和解法をテストしたことである。

It has been proven in the literature that the main technological factors limiting the communication rates of quantum cryptography systems by single photon are mainly related to the choice of the encoding method. In fact, the efficiency of the used sources is very limited, at best of the order of a few percent for the single photon sources and the photon counters can not be operated beyond a certain speed and with a low order of detection efficiency. In order to overcome partially these drawbacks, it is advantageous to use continuous quantum states as an alternative to standard encodings based on quantum qubits. In this context, we propose a new reconciliation method based on Turbo codes. Our theoretical model assumptions are supported by experimental results. Indeed, our method leads to a significant improvement of the protocol security and a large decrease of the QBER. The gain is obtained with a reasonable complexity increase. Also, the novelty of our work is that it tested the reconciliation method on a real photonic system under VPItransmissionMaker.
翻訳日:2023-06-03 13:10:07 公開日:2020-02-16
# Untrue.News: 偽ストーリーの新しい検索エンジン

Untrue.News: A New Search Engine For Fake Stories ( http://arxiv.org/abs/2002.06585v1 )

ライセンス: Link先を確認
Vinicius Woloszyn, Felipe Schaeffer, Beliza Boniatti, Eduardo Cortes, Salar Mohtaj, Sebastian M\"oller(参考訳) 本稿では,偽ニュースのための新しい検索エンジンであるuntrue newsについて紹介する。 Untrue Newsは使いやすく、次のような便利な機能を提供する。 a) 異なる国及び同一の主題又は人物に関する言語から偽の物語を合成する多言語オプション b) バイアスのない格付け方式を用いてフィルタバブルを回避するユーザプライバシ保護装置 c) 偽情報と戦うための新しいツールの開発を促進する共同プラットフォーム。 Untrue Newsは、ほぼリアルタイムで結果を提供するLuceneライブラリをベースにした、スケーラブルな分析検索エンジンであるElasticsearchに依存している。 ひとつは政治家に関連するもの - さまざまなタイプのフェイクストーリーに対してカテゴリがどのように表示されているか - と,もうひとつは難民に関連するもの - で,多言語ツールを示すものだ。 untrue newsのプロトタイプはhttp://untrue.newsからアクセスできる。

In this paper, we demonstrate Untrue News, a new search engine for fake stories. Untrue News is easy to use and offers useful features such as: a) a multi-language option combining fake stories from different countries and languages around the same subject or person; b) an user privacy protector, avoiding the filter bubble by employing a bias-free ranking scheme; and c) a collaborative platform that fosters the development of new tools for fighting disinformation. Untrue News relies on Elasticsearch, a new scalable analytic search engine based on the Lucene library that provides near real-time results. We demonstrate two key scenarios: the first related to a politician - looking how the categories are shown for different types of fake stories - and a second related to a refugee - showing the multilingual tool. A prototype of Untrue News is accessible via http://untrue.news
翻訳日:2023-06-03 13:09:16 公開日:2020-02-16
# 摩擦散逸環境下における超伝導回路のパルス量子相互作用

Pulse-qubit interaction in a superconducting circuit under frictively dissipative environment ( http://arxiv.org/abs/2002.06553v1 )

ライセンス: Link先を確認
Yibo Gao, Shijie Jin, Yan Zhang, and Hou Ian(参考訳) マイクロ波パルスは超伝導回路上に作製された量子ビットの制御と測定にユビキタスに使用される。 連続的な環境結合のため、クビットは自由度とマイクロ波パルスとの相互作用の間にデコヒーレンスを行う。 量子論理ゲートはパルス量子ビット相互作用によって実行されるため、線形スペクトル分布を持つ散逸環境下において、相互作用中のデコヒーレンスによる効果、特にパルスの変動を理論的に研究する。 有限幅の透過パルスは、環境が存在する場合の反転時の量子ビットの不均衡なパンピングと放出率のため、非対称なマルチハンプ形状をとることが判明した。 パルス形状は、消散時のソリトニックパルスと強い消散時のパルストレインに低下する。 伝搬パルスの位相とエンベロープの観点から, 環境起源の詳細な解析を行う。

Microwave pulses are used ubiquitously to control and measure qubits fabricated on superconducting circuits. Due to continual environmental coupling, the qubits undergo decoherence both when it is free and during its interaction with the microwave pulse. As quantum logic gates are executed through pulse-qubit interaction, we study theoretically the decoherence-induced effects during the interaction, especially the variations of the pulse, under a dissipative environment with linear spectral distribution. We find that a transmissible pulse of finite width adopts an asymmetric multi-hump shape, due to the imbalanced pumping and emitting rates of the qubit during inversion when the environment is present. The pulse shape reduces to a solitonic pulse at vanishing dissipation and a pulse train at strong dissipation. We give detailed analysis of the environmental origin from both the perspectives of envelope and phase of the propagating pulse.
翻訳日:2023-06-03 13:08:46 公開日:2020-02-16
# 不規則バルクチャネルによる位相量子輸送と空間絡み合い分布

Topological quantum transport and spatial entanglement distribution via disordered bulk channel ( http://arxiv.org/abs/2002.06543v1 )

ライセンス: Link先を確認
Shi Hu, Yongguan Ke, and Chaohong Lee(参考訳) 量子輸送の実装方法を示し, 絡み合い状態を生成し, 1次元不規則格子内の位相トウレスポンピングにより空間的絡み合い分布を実現する。 本研究では,高次共振トンネル(ウェーブパケット分散)の抑制と無分散Thoulessポンプの実現を目的としたオンサイト障害を提案する。 オンサイト障害とバンドトポロジーの相互作用は、堅牢な一方向輸送を可能にする。 また,Thoulessポンプを用いたHong-Ou-Mandel干渉による空間的に絡み合った2粒子NOON状態の調製方法も示す。 量子絡み合いは、空間的に分離された部位間の分布の間、よく保存できる。 我々のシステムは、量子情報処理におけるトポロジの幅広い応用の道を開く。

We show how to implement quantum transport, generate entangled state and achieve spatial entanglement distribution via topological Thouless pumping in one-dimensional disordered lattices. We introduce the on-site disorders to suppress the high-order resonant tunneling (which cause wavepacket dispersion) and realize dispersionless Thouless pumping. The interplay between the on-site disorders and the band topology enables robust unidirectional transport. We also demonstrate how to prepare spatially entangled two-particle NOON state via Hong-Ou-Mandel interference assisted by the Thouless pumping. The quantum entanglement can be well preserved during the distribution between spatially separated sites. Our system paves a way to wide applications of topology in quantum information process.
翻訳日:2023-06-03 13:08:31 公開日:2020-02-16
# 視覚質問応答のための第4次製品による多層コンテンツインタラクション

Multi-Layer Content Interaction Through Quaternion Product For Visual Question Answering ( http://arxiv.org/abs/2001.05840v2 )

ライセンス: Link先を確認
Lei Shi, Shijie Geng, Kai Shuang, Chiori Hori, Songxiang Liu, Peng Gao, Sen Su(参考訳) マルチモダリティ融合技術は,近年,ニューラルネットワークを用いた映像記述/キャプチャ,vqa(visual question answering)およびavsd(audio visual scene-aware dialog)の性能を大幅に向上させた。 これまでのほとんどのアプローチでは、中間層の重要性を省略しながら、複数の層フィーチャーフュージョンの最後の層のみを探索する。 中間層に対する課題を解決するために,最後の層だけでなく,すべての中間層に対するインタラクションを同時に学習する,効率的な第4次ブロックネットワーク(QBN)を提案する。 提案したQBNでは、視覚的特徴の更新を導くために、全体的テキスト機能を使用します。 一方、ハミルトン四元数生成物は、高層から低層への情報フローを視覚とテキストの両モードで効率的に行うことができる。 評価結果は,大規模なBERTモデルやビジュアルBERT事前学習モデルを超越しても,VQA 2.0の性能が向上したことを示している。 本研究で提案する各モジュールの影響を検証するために,広範なアブレーション研究が行われている。

Multi-modality fusion technologies have greatly improved the performance of neural network-based Video Description/Caption, Visual Question Answering (VQA) and Audio Visual Scene-aware Dialog (AVSD) over the recent years. Most previous approaches only explore the last layers of multiple layer feature fusion while omitting the importance of intermediate layers. To solve the issue for the intermediate layers, we propose an efficient Quaternion Block Network (QBN) to learn interaction not only for the last layer but also for all intermediate layers simultaneously. In our proposed QBN, we use the holistic text features to guide the update of visual features. In the meantime, Hamilton quaternion products can efficiently perform information flow from higher layers to lower layers for both visual and text modalities. The evaluation results show our QBN improved the performance on VQA 2.0, even though using surpass large scale BERT or visual BERT pre-trained models. Extensive ablation study has been carried out to testify the influence of each proposed module in this study.
翻訳日:2023-01-14 18:03:58 公開日:2020-02-16
# ディープニューラルネットワークによるヒューマンアクション認識と評価

Human Action Recognition and Assessment via Deep Neural Network Self-Organization ( http://arxiv.org/abs/2001.05837v2 )

ライセンス: Link先を確認
German I. Parisi(参考訳) ヒトの行動の堅牢な認識と評価はヒト-ロボット相互作用(HRI)ドメインにおいて重要である。 行動知覚の最先端モデルは、大規模な行動データセットにおいて顕著な結果を示すが、それらは主に、人間の身体パターンの分類や評価だけでなく、知覚情報の継続的な取得を必要とする自然のHRIシナリオで操作するために必要な柔軟性、堅牢性、スケーラビリティを欠いている。 本章では,ニューラルネットワークの自己組織化による深度マップとRGB画像からの行動の学習と認識のための階層モデルについて紹介する。 これらのモデルの特徴は、非定常分布に迅速に適応し、時間的に相関した入力から連続学習のための専用メカニズムを実装する自己組織化ネットワークの利用である。

The robust recognition and assessment of human actions are crucial in human-robot interaction (HRI) domains. While state-of-the-art models of action perception show remarkable results in large-scale action datasets, they mostly lack the flexibility, robustness, and scalability needed to operate in natural HRI scenarios which require the continuous acquisition of sensory information as well as the classification or assessment of human body patterns in real time. In this chapter, I introduce a set of hierarchical models for the learning and recognition of actions from depth maps and RGB images through the use of neural network self-organization. A particularity of these models is the use of growing self-organizing networks that quickly adapt to non-stationary distributions and implement dedicated mechanisms for continual learning from temporally correlated input.
翻訳日:2023-01-14 12:50:03 公開日:2020-02-16
# ディープニューラルネット推論のための効率的なメモリ管理

Efficient Memory Management for Deep Neural Net Inference ( http://arxiv.org/abs/2001.03288v3 )

ライセンス: Link先を確認
Yury Pisarchyk and Juhyun Lee(参考訳) ディープニューラルネットワーク推論はサーバのみのタスクと考えられていたが、最新の技術進歩により、レイテンシからプライバシに至るまで、さまざまな理由から、推論タスクをモバイルおよび組み込みデバイスに移行することが可能になった。 これらのデバイスは、計算能力やバッテリによって制限されるだけでなく、物理メモリやキャッシュが劣るため、効率的なメモリマネージャは、エッジにおけるディープニューラルネットワーク推論の重要なコンポーネントとなる。 我々は,ディープニューラルネットの中間テンソル間でメモリバッファをスマートに共有する様々な戦略を検討する。 これらを採用すると、最大11%のメモリフットプリントがアートの状態よりも小さくなる。

While deep neural net inference was considered a task for servers only, latest advances in technology allow the task of inference to be moved to mobile and embedded devices, desired for various reasons ranging from latency to privacy. These devices are not only limited by their compute power and battery, but also by their inferior physical memory and cache, and thus, an efficient memory manager becomes a crucial component for deep neural net inference at the edge. We explore various strategies to smartly share memory buffers among intermediate tensors in deep neural nets. Employing these can result in up to 11% smaller memory footprint than the state of the art.
翻訳日:2023-01-12 22:45:24 公開日:2020-02-16
# Massif: ディープラーニングにおける敵対的攻撃の相互解釈

Massif: Interactive Interpretation of Adversarial Attacks on Deep Learning ( http://arxiv.org/abs/2001.07769v3 )

ライセンス: Link先を確認
Nilaksh Das, Haekyu Park, Zijie J. Wang, Fred Hohman, Robert Firstman, Emily Rogers, Duen Horng Chau(参考訳) ディープ・ニューラル・ネットワーク(DNN)は、自律車やヘルスケアなどのハイテイクな応用にますます力を入れつつあるが、そのような応用においては、DNNは「ブラックボックス」として扱われることが多い。 最近の研究によると、DNNは敵の攻撃に対して非常に脆弱であり、現実世界にDNNを配備することに対する深刻な懸念を提起している。 これらの欠陥を克服するため、敵攻撃を解読するインタラクティブツールであるMassifを開発している。 Massifは、敵の攻撃によって強く活性化または抑制されるDNN内のニューロンとその接続を識別し、インタラクティブに可視化する。 Massifは、DNNに対する攻撃の効果の高レベル、解釈可能な概要と、影響を受けるニューロンの低レベル、詳細な説明を提供する。 massifのこの密結合ビューは、どの入力機能が最も脆弱であるか、あるいは正しい予測に重要であるかを理解するのに役立つ。

Deep neural networks (DNNs) are increasingly powering high-stakes applications such as autonomous cars and healthcare; however, DNNs are often treated as "black boxes" in such applications. Recent research has also revealed that DNNs are highly vulnerable to adversarial attacks, raising serious concerns over deploying DNNs in the real world. To overcome these deficiencies, we are developing Massif, an interactive tool for deciphering adversarial attacks. Massif identifies and interactively visualizes neurons and their connections inside a DNN that are strongly activated or suppressed by an adversarial attack. Massif provides both a high-level, interpretable overview of the effect of an attack on a DNN, and a low-level, detailed description of the affected neurons. These tightly coupled views in Massif help people better understand which input features are most vulnerable or important for correct predictions.
翻訳日:2023-01-07 23:53:54 公開日:2020-02-16
# NASS: ニューラルネットワークによるセキュア推論の最適化

NASS: Optimizing Secure Inference via Neural Architecture Search ( http://arxiv.org/abs/2001.11854v3 )

ライセンス: Link先を確認
Song Bian, Weiwen Jiang, Qing Lu, Yiyu Shi, Takashi Sato(参考訳) プライバシー上の懸念が高まっているため、クライアント入力とサーバモデルを同時に隠蔽するニューラルネットワーク(NN)ベースのセキュア推論(SI)スキームが大きな研究関心を集めている。 既存の研究はNNベースのSIのためのセキュアなプロトコルの開発に重点を置いているが、この作業では別のアプローチをとっている。 我々は、SI用に特別に設計されたNNアーキテクチャを検索する統合フレームワークNASSを提案する。 特に,関連する報酬機能を持つ設計要素として暗号プロトコルをモデル化することを提案する。 特徴的モデルは、予測精度と実行効率のバランスをとる最高のNNアーキテクチャを特定するために、予測ハイパーパラメータと共同最適化される。 実験では、予測精度が81.6%から84.6%に向上し、推論ランタイムは2倍、通信帯域幅はCIFAR-10データセットの1.9倍に削減できるNASSを用いて、両方の世界のベストを達成できることを示した。

Due to increasing privacy concerns, neural network (NN) based secure inference (SI) schemes that simultaneously hide the client inputs and server models attract major research interests. While existing works focused on developing secure protocols for NN-based SI, in this work, we take a different approach. We propose NASS, an integrated framework to search for tailored NN architectures designed specifically for SI. In particular, we propose to model cryptographic protocols as design elements with associated reward functions. The characterized models are then adopted in a joint optimization with predicted hyperparameters in identifying the best NN architectures that balance prediction accuracy and execution efficiency. In the experiment, it is demonstrated that we can achieve the best of both worlds by using NASS, where the prediction accuracy can be improved from 81.6% to 84.6%, while the inference runtime is reduced by 2x and communication bandwidth by 1.9x on the CIFAR-10 dataset.
翻訳日:2023-01-05 12:49:13 公開日:2020-02-16
# Semantic Discord: 時系列の異常な局所パターンを見つける

Semantic Discord: Finding Unusual Local Patterns for Time Series ( http://arxiv.org/abs/2001.11842v2 )

ライセンス: Link先を確認
Li Zhang, Yifeng Gao, Jessica Lin(参考訳) 長い時系列で異常な列を見つけることは非常に重要であるが難しい問題である。 既存の最先端手法は、他のサブシークエンスと最も異なるサブシークエンスを探すことに重点を置いているが、それらは異常候補を含む背景パターンを考慮に入れていない。 その結果、そのようなアプローチは局所的な異常を見逃しがちである。 異常候補を含む大規模サブシーケンスからのコンテキスト情報を組み込んだ「textit{semantic discord}」という新しい定義を導入する。 本研究では,実世界データにおけるブルート力アルゴリズムよりも最大3桁高速に導出された下界を持つ効率的なアルゴリズムを提案する。 本手法は, 大規模実験により異常の特定において, 最先端の手法を著しく上回っていることを示す。 さらに,意味的不一致の解釈可能性について説明する。

Finding anomalous subsequence in a long time series is a very important but difficult problem. Existing state-of-the-art methods have been focusing on searching for the subsequence that is the most dissimilar to the rest of the subsequences; however, they do not take into account the background patterns that contain the anomalous candidates. As a result, such approaches are likely to miss local anomalies. We introduce a new definition named \textit{semantic discord}, which incorporates the context information from larger subsequences containing the anomaly candidates. We propose an efficient algorithm with a derived lower bound that is up to 3 orders of magnitude faster than the brute force algorithm in real world data. We demonstrate that our method significantly outperforms the state-of-the-art methods in locating anomalies by extensive experiments. We further explain the interpretability of semantic discord.
翻訳日:2023-01-05 11:44:20 公開日:2020-02-16
# the rumour mill: 誤情報の拡散を明確かつ具体化する

The Rumour Mill: Making the Spread of Misinformation Explicit and Tangible ( http://arxiv.org/abs/2002.04494v2 )

ライセンス: Link先を確認
Nanna Inie, Jeanette Falk Olesen, Leon Derczynski(参考訳) 誤報が社会に技術的・社会的脅威をもたらす。 AIベースの言語モデルの進歩により、自動生成されたテキストの識別が難しくなり、大規模に作成しやすくなる。 我々は,噂の拡散と誤報の自動生成に関する解説として設計された,遊び心のある芸術作品である「the rumour mill」を紹介する。 ミルはテーブルトップの対話型マシンで、ユーザーはそのミル上のさまざまな有形のコントロールと対話することによって、可読なテキストを作成する過程を体験できる。 ユーザは、可視パラメータを操作して、自動生成されたテキスト噂のジャンルやタイプを調整する。 うわさミル(rumour mill)は、現在の技術の現状と自然言語テキストの生成と操作能力、およびうわさの開始と拡散の行為の物理的なデモンストレーションである。

Misinformation spread presents a technological and social threat to society. With the advance of AI-based language models, automatically generated texts have become difficult to identify and easy to create at scale. We present "The Rumour Mill", a playful art piece, designed as a commentary on the spread of rumours and automatically-generated misinformation. The mill is a tabletop interactive machine, which invites a user to experience the process of creating believable text by interacting with different tangible controls on the mill. The user manipulates visible parameters to adjust the genre and type of an automatically generated text rumour. The Rumour Mill is a physical demonstration of the state of current technology and its ability to generate and manipulate natural language text, and of the act of starting and spreading rumours.
翻訳日:2023-01-02 02:31:48 公開日:2020-02-16
# 学習可能なセグメント特徴を用いた音素境界検出

Phoneme Boundary Detection using Learnable Segmental Features ( http://arxiv.org/abs/2002.04992v2 )

ライセンス: Link先を確認
Felix Kreuk, Yaniv Sheena, Joseph Keshet, and Yossi Adi(参考訳) 音素境界検出は、話者ダイアリゼーション、音声科学、キーワードスポッティングなど、様々な音声処理アプリケーションにとって重要な第一歩となる。 本研究では,音素境界検出タスクのセグメント表現を学習するために,パラメータ化構造化損失関数と結合したニューラルネットワークを提案する。 まず,音声素片を入力として与えなかった場合のモデル評価を行った。 TIMITとBuckeye corporaの結果は,提案モデルがベースラインモデルよりも優れ,F1およびR値の面で最先端の性能に達することを示唆している。 さらに,音素書き起こしを追加指導として使用することにより,性能が若干向上するが,収束率が著しく向上することを示す。 さらに,ヘブライ語コーパスにおけるモデルの評価を行い,多言語環境では,このような音声指導が有益であることを示す。

Phoneme boundary detection plays an essential first step for a variety of speech processing applications such as speaker diarization, speech science, keyword spotting, etc. In this work, we propose a neural architecture coupled with a parameterized structured loss function to learn segmental representations for the task of phoneme boundary detection. First, we evaluated our model when the spoken phonemes were not given as input. Results on the TIMIT and Buckeye corpora suggest that the proposed model is superior to the baseline models and reaches state-of-the-art performance in terms of F1 and R-value. We further explore the use of phonetic transcription as additional supervision and show this yields minor improvements in performance but substantially better convergence rates. We additionally evaluate the model on a Hebrew corpus and demonstrate such phonetic supervision can be beneficial in a multi-lingual setting.
翻訳日:2023-01-02 02:04:32 公開日:2020-02-16
# fastai: ディープラーニングのためのレイヤAPI

fastai: A Layered API for Deep Learning ( http://arxiv.org/abs/2002.04688v2 )

ライセンス: Link先を確認
Jeremy Howard and Sylvain Gugger(参考訳) fastaiは、標準的なディープラーニングドメインで最先端の成果を迅速かつ容易に提供できるハイレベルなコンポーネントを実践者に提供し、新しいアプローチを構築するために混合およびマッチ可能な低レベルのコンポーネントを研究者に提供する、ディープラーニングライブラリである。 使いやすさ、柔軟性、パフォーマンスの重大な妥協なしに、両方のことをすることを目指している。 このアーキテクチャは、分離された抽象化の観点から、多くのディープラーニングとデータ処理技術の共通した基盤となるパターンを表現している。 これらの抽象化は、Python言語のダイナミズムとPyTorchライブラリの柔軟性を活用することで、簡潔かつ明確に表現することができる。 fastai includes: a new type dispatch system for Python along with a semantic type hierarchy for tensors; a GPU-optimized computer vision library which can be extended in pure Python; an optimizer which refactors out the common functionality of modern optimizers into two basic pieces, allowing optimization algorithms to be implemented in 4-5 lines of code; a novel 2-way callback system that can access any part of the data, model, or optimizer and change it at any point during training; a new data block API; and much more. 私たちはこのライブラリを使用して、完全なディープラーニングコースの作成に成功しました。 この図書館はすでに研究、産業、教育に広く利用されている。 NB: この論文はfastai v2をカバーしています。

fastai is a deep learning library which provides practitioners with high-level components that can quickly and easily provide state-of-the-art results in standard deep learning domains, and provides researchers with low-level components that can be mixed and matched to build new approaches. It aims to do both things without substantial compromises in ease of use, flexibility, or performance. This is possible thanks to a carefully layered architecture, which expresses common underlying patterns of many deep learning and data processing techniques in terms of decoupled abstractions. These abstractions can be expressed concisely and clearly by leveraging the dynamism of the underlying Python language and the flexibility of the PyTorch library. fastai includes: a new type dispatch system for Python along with a semantic type hierarchy for tensors; a GPU-optimized computer vision library which can be extended in pure Python; an optimizer which refactors out the common functionality of modern optimizers into two basic pieces, allowing optimization algorithms to be implemented in 4-5 lines of code; a novel 2-way callback system that can access any part of the data, model, or optimizer and change it at any point during training; a new data block API; and much more. We have used this library to successfully create a complete deep learning course, which we were able to write more quickly than using previous approaches, and the code was more clear. The library is already in wide use in research, industry, and teaching. NB: This paper covers fastai v2, which is currently in pre-release at http://dev.fast.ai/
翻訳日:2023-01-02 01:02:20 公開日:2020-02-16
# 物体内白色物質繊維クラスタリングによる皮質表面のパーセレーション

Cortical surface parcellation based on intra-subject white matter fiber clustering ( http://arxiv.org/abs/2002.09034v1 )

ライセンス: Link先を確認
Narciso L\'opez-L\'opez, Andrea V\'azquez, Cyril Poupon, Jean-Fran\c{c}ois Mangin, Pamela Guevara(参考訳) 本稿では,脳全路図データセットからの白質繊維の接続情報に基づいて,個人の大脳皮質の完全な小脳化を行うハイブリッド手法を提案する。 この方法は5つのステップからなり、最初のサブジェクト内クラスタリングは脳道造影で行われる。 各クラスターを構成する繊維は、次に皮質メッシュと交差し、その後フィルターをかけ、外れ値を捨てる。 さらに, 大脳皮質全体で異なる交叉領域(サブパーセル)間の重なりを効率よく解決する。 最後に、より均一なサブパーセルを達成するために後処理を行う。 出力は皮質メッシュ頂点の完全なラベリングであり、異なる皮質サブパーセルを表し、他のサブパーセルと強い結合を持つ。 本手法は,機能的分離(クラスタ化係数),機能的統合(特性的経路長),スモールワールドなどの脳結合度の測定により評価した。 ARCHIデータベースから得られた5つの被験者は、それぞれに良好な個々の皮質パーセレーションを示し、それぞれ約200のサブパーセルからなる。

We present a hybrid method that performs the complete parcellation of the cerebral cortex of an individual, based on the connectivity information of the white matter fibers from a whole-brain tractography dataset. The method consists of five steps, first intra-subject clustering is performed on the brain tractography. The fibers that make up each cluster are then intersected with the cortical mesh and then filtered to discard outliers. In addition, the method resolves the overlapping between the different intersection regions (sub-parcels) throughout the cortex efficiently. Finally, a post-processing is done to achieve more uniform sub-parcels. The output is the complete labeling of cortical mesh vertices, representing the different cortex sub-parcels, with strong connections to other sub-parcels. We evaluated our method with measures of brain connectivity such as functional segregation (clustering coefficient), functional integration (characteristic path length) and small-world. Results in five subjects from ARCHI database show a good individual cortical parcellation for each one, composed of about 200 subparcels per hemisphere and complying with these connectivity measures.
翻訳日:2022-12-31 18:25:56 公開日:2020-02-16
# 視覚障害者ネットワークの摂動

Blind Adversarial Network Perturbations ( http://arxiv.org/abs/2002.06495v1 )

ライセンス: Link先を確認
Milad Nasr, Alireza Bahramali, Amir Houmansadr(参考訳) ディープニューラルネットワーク(Deep Neural Networks, DNN)は、ウェブサイトのフィンガープリントやフロー相関などの様々なトラフィック分析問題によく使われ、従来の(統計的な)手法よりも大きなマージンで優れている。 しかし、ディープニューラルネットワークは、敵の例に弱いことが知られている: 敵の摂動によってモデルによって誤ってラベル付けされるモデルに対する敵の入力。 本稿では,ネットワークトラフィックのパターンに \emph{adversarial perturbations} を適用することで,DNN ベースのトラフィック解析手法を初めて破ることができることを示す。

Deep Neural Networks (DNNs) are commonly used for various traffic analysis problems, such as website fingerprinting and flow correlation, as they outperform traditional (e.g., statistical) techniques by large margins. However, deep neural networks are known to be vulnerable to adversarial examples: adversarial inputs to the model that get labeled incorrectly by the model due to small adversarial perturbations. In this paper, for the first time, we show that an adversary can defeat DNN-based traffic analysis techniques by applying \emph{adversarial perturbations} on the patterns of \emph{live} network traffic.
翻訳日:2022-12-31 18:25:37 公開日:2020-02-16
# 機械学習に基づく2次元マルチファイバースペクトル画像補正

Two-dimensional Multi-fiber Spectrum Image Correction Based on Machine Learning Techniques ( http://arxiv.org/abs/2002.06600v1 )

ライセンス: Link先を確認
Jiali Xu, Qian Yin, Ping Guo, and Xin Zheng(参考訳) 分光器における光学成分の大きさと不完全さのため、収差は必然的にラストの2次元多ファイバースペクトル画像にもたらされ、点拡散関数(psfs)の明らかな空間的変化をもたらす。 これにより、空間変動型PSFを直接推定すると、大容量の記憶と集中的な計算要求により、非畳み込みスペクトル抽出法が引き起こされる。 本稿では,画像収差補正による空間変動psf問題を解決する新しい手法を提案する。 CCD画像収差が補正されると、畳み込みカーネルであるPSFを1つの空間不変PSFのみに近似することができる。 具体的には、Ttal Least Squares (TLS)アルゴリズム、インテリジェントサンプリング方法、多層フィードフォワードニューラルネットワークなど、歪んだスペクトル画像の校正に機械学習技術を採用している。 LAMOST CCD画像の校正実験により,提案手法の校正効果が有効であることが示された。 同時に、キャリブレーション前後のスペクトル抽出結果を比較し、抽出された1次元波形の特性が理想光学系に近いことを示すとともに、ブラインドデコンボリューション法により推定された補正対象スペクトル画像のpsfがほぼ中央対称であることを示し、提案手法がスペクトル抽出の複雑さを著しく低減し、抽出精度を向上させることを示唆する。

Due to limited size and imperfect of the optical components in a spectrometer, aberration has inevitably been brought into two-dimensional multi-fiber spectrum image in LAMOST, which leads to obvious spacial variation of the point spread functions (PSFs). Consequently, if spatial variant PSFs are estimated directly , the huge storage and intensive computation requirements result in deconvolutional spectral extraction method become intractable. In this paper, we proposed a novel method to solve the problem of spatial variation PSF through image aberration correction. When CCD image aberration is corrected, PSF, the convolution kernel, can be approximated by one spatial invariant PSF only. Specifically, machine learning techniques are adopted to calibrate distorted spectral image, including Total Least Squares (TLS) algorithm, intelligent sampling method, multi-layer feed-forward neural networks. The calibration experiments on the LAMOST CCD images show that the calibration effect of proposed method is effectible. At the same time, the spectrum extraction results before and after calibration are compared, results show the characteristics of the extracted one-dimensional waveform are more close to an ideal optics system, and the PSF of the corrected object spectrum image estimated by the blind deconvolution method is nearly central symmetry, which indicates that our proposed method can significantly reduce the complexity of spectrum extraction and improve extraction accuracy.
翻訳日:2022-12-31 18:25:27 公開日:2020-02-16
# エンコーダ・デコーダ・フレームワークにおける音声合成変換

Speech-to-Singing Conversion in an Encoder-Decoder Framework ( http://arxiv.org/abs/2002.06595v1 )

ライセンス: Link先を確認
Jayneel Parekh, Preeti Rao, Yi-Hsuan Yang(参考訳) 本稿では,一組の音声行を歌行に変換することを目的とする。 従来の信号処理方式と異なり,この問題に対する学習に基づくアプローチを取る。 これにより、この変換の様々な側面を自動でモデル化し、高品質な歌唱テンプレートや音素スコア同期情報などの特定の入力への依存を克服することができる。 具体的には,タスクのためのエンコーダ-デコーダフレームワークを提案する。 音声の時間周波数表現と対象メロディの輪郭を考慮し,対象メロディに固執しながら,話者の言語的内容と音色を保存する歌唱を合成できる符号化法を学習する。 また,多タスク学習に基づく歌詞の理解性の向上も提案する。 我々は,枠組みの定量的・定性的な分析を行う。

In this paper our goal is to convert a set of spoken lines into sung ones. Unlike previous signal processing based methods, we take a learning based approach to the problem. This allows us to automatically model various aspects of this transformation, thus overcoming dependence on specific inputs such as high quality singing templates or phoneme-score synchronization information. Specifically, we propose an encoder--decoder framework for our task. Given time-frequency representations of speech and a target melody contour, we learn encodings that enable us to synthesize singing that preserves the linguistic content and timbre of the speaker while adhering to the target melody. We also propose a multi-task learning based objective to improve lyric intelligibility. We present a quantitative and qualitative analysis of our framework.
翻訳日:2022-12-31 18:24:20 公開日:2020-02-16
# 制御遅延によるiLQR法の拡張

Extending iLQR method with control delay ( http://arxiv.org/abs/2002.07630v1 )

ライセンス: Link先を確認
Cheng Ju, Yan Qin and Chunjiang Fu(参考訳) 反復線形二次レギュレータ(ilqr)は非線形確率的最適制御問題に対処するベンチマーク手法となっている。 しかし、遅延システムには適用されない。 本稿では、iLQR理論を拡張し、入力信号が一定遅延の場合に新しい定理を証明する。 機械学習や、リアルタイムロボットや人間の補助装置への最適な制御アプリケーションに有用かもしれない。

Iterative linear quadradic regulator(iLQR) has become a benchmark method to deal with nonlinear stochastic optimal control problem. However, it does not apply to delay system. In this paper, we extend the iLQR theory and prove new theorem in case of input signal with fixed delay. Which could be beneficial for machine learning or optimal control application to real time robot or human assistive device.
翻訳日:2022-12-31 18:24:06 公開日:2020-02-16
# 画像分割のための強化アクティブラーニング

Reinforced active learning for image segmentation ( http://arxiv.org/abs/2002.06583v1 )

ライセンス: Link先を確認
Arantxa Casanova, Pedro O. Pinheiro, Negar Rostamzadeh, Christopher J. Pal(参考訳) セマンティックセグメンテーションのための学習ベースのアプローチには、2つの固有の課題がある。 まず、ピクセル単位のラベルの取得は高価で時間を要する。 第二に、現実的なセグメンテーションデータセットは、非常に不均衡である。いくつかのカテゴリは、他のカテゴリよりもはるかに多く、最も代表されるデータセットにパフォーマンスをバイアスする。 本稿では,データプールの小さなサブセットに人間のラベル付けの取り組みを集中させることに興味を持ち,この取り組みを最小化するとともに,セグメンテーションモデルの性能を最大化する。 深層強化学習(RL)に基づく意味的セグメンテーションのための新しいアクティブラーニング戦略を提案する。 エージェントは、ラベルのないデータのプールからラベル付けされる小さな情報付き画像領域のサブセット(画像全体とは対照的に)を選択するポリシーを学習する。 地域選択決定は、訓練中のセグメンテーションモデルの予測と不確実性に基づいて行われる。 本手法では, 意味的セグメンテーション問題の大規模性質に適応して, 能動的学習のための深部Q-network (DQN) の定式化を新たに提案する。 我々はCamVidで概念実証を検証し、大規模データセットCityscapesで結果を提供する。 Cityscapesでは、当社のRLリージョンベースのDQNアプローチでは、同じパフォーマンスに達するためには、最も競争力のあるベースラインよりも、ラベル付きデータを約30%削減する必要があります。 さらに,本手法では,ベースラインと比較して表示不足のカテゴリのラベルを多く求め,その性能を改善し,クラス不均衡を緩和する。

Learning-based approaches for semantic segmentation have two inherent challenges. First, acquiring pixel-wise labels is expensive and time-consuming. Second, realistic segmentation datasets are highly unbalanced: some categories are much more abundant than others, biasing the performance to the most represented ones. In this paper, we are interested in focusing human labelling effort on a small subset of a larger pool of data, minimizing this effort while maximizing performance of a segmentation model on a hold-out set. We present a new active learning strategy for semantic segmentation based on deep reinforcement learning (RL). An agent learns a policy to select a subset of small informative image regions -- opposed to entire images -- to be labeled, from a pool of unlabeled data. The region selection decision is made based on predictions and uncertainties of the segmentation model being trained. Our method proposes a new modification of the deep Q-network (DQN) formulation for active learning, adapting it to the large-scale nature of semantic segmentation problems. We test the proof of concept in CamVid and provide results in the large-scale dataset Cityscapes. On Cityscapes, our deep RL region-based DQN approach requires roughly 30% less additional labeled data than our most competitive baseline to reach the same performance. Moreover, we find that our method asks for more labels of under-represented categories compared to the baselines, improving their performance and helping to mitigate class imbalance.
翻訳日:2022-12-31 18:17:56 公開日:2020-02-16
# MRIスキャン(ALARM)の放射線診断における注意モデルを用いた自動ラベリング

Automated Labelling using an Attention model for Radiology reports of MRI scans (ALARM) ( http://arxiv.org/abs/2002.06588v1 )

ライセンス: Link先を確認
David A. Wood, Jeremy Lynch, Sina Kafiabadi, Emily Guilhem, Aisha Al Busaidi, Antanas Montvila, Thomas Varsavsky, Juveria Siddiqui, Naveen Gadapa, Matthew Townend, Martin Kiik, Keena Patel, Gareth Barker, Sebastian Ourselin, James H. Cole, Thomas C. Booth(参考訳) 高容量ニューラルネットワークをトレーニングするための大規模なデータセットのラベリングは、ディープラーニングベースの医療画像アプリケーションの開発において大きな障害となる。 本稿では,画像ラベルをフリーテキスト・エキスパート・ラジオグラフィー・レポートに基づいて割り当てることにより,このタスクを自動化したMRIラジオグラフィーレポート分類のためのトランスフォーマーベースネットワークを提案する。 我々のモデルの性能は、専門家の放射線技師のそれと同等であり、専門家の医師のそれよりも優れており、このアプローチの実現可能性を示している。 研究者が医療画像アプリケーションのために独自のMRIデータセットをラベル付けするためのコードをオンラインで公開しています。

Labelling large datasets for training high-capacity neural networks is a major obstacle to the development of deep learning-based medical imaging applications. Here we present a transformer-based network for magnetic resonance imaging (MRI) radiology report classification which automates this task by assigning image labels on the basis of free-text expert radiology reports. Our model's performance is comparable to that of an expert radiologist, and better than that of an expert physician, demonstrating the feasibility of this approach. We make code available online for researchers to label their own MRI datasets for medical imaging applications.
翻訳日:2022-12-31 18:17:31 公開日:2020-02-16
# crl:画像分類のためのクラス代表学習

CRL: Class Representative Learning for Image Classification ( http://arxiv.org/abs/2002.06619v1 )

ライセンス: Link先を確認
Mayanka Chandrashekar and Yugyung Lee(参考訳) 多様なデータセットを持つ堅牢でリアルタイムな分類器の構築は、ディープラーニング研究者にとって最も重要な課題の1つだ。 これは、トレーニング(seen)データで構築されたモデルと、アプリケーション内の実際の(seen)データとの間にかなりのギャップがあるためです。 ゼロショット学習(ZSL)を含む最近の研究は、転送学習による明らかなギャップを克服する問題に対処しようと試みている。 本稿では,zslの影響を受ける画像分類において特に有効であるクラス代表学習モデル(crl)を提案する。 CRLモデルでは、まず、畳み込みニューラルネットワーク(CNN)から抽出した特徴を集約することにより、データセット内のクラスを表現するクラス代表を構築する。 第2に、CRLの推論ステップは、クラス代表と新しいデータとの一致です。 提案したCRLモデルは,ZSLおよびモバイル深層学習における最先端の研究と比較して,優れた性能を示した。 提案したCRLモデルは、分散学習と認識の両方のために、Apache Sparkを使用して並列環境で実装および評価されている。 ベンチマークデータセットであるImageNet-1K, CalTech-101, CalTech-256, CIFAR-100の広範な実験により、CRLは、画像分類における最先端のパフォーマンスと比較して精度を犠牲にすることなく、学習および認識性能を大幅に改善したクラス分散モデルを構築することができることが示された。

Building robust and real-time classifiers with diverse datasets are one of the most significant challenges to deep learning researchers. It is because there is a considerable gap between a model built with training (seen) data and real (unseen) data in applications. Recent works including Zero-Shot Learning (ZSL), have attempted to deal with this problem of overcoming the apparent gap through transfer learning. In this paper, we propose a novel model, called Class Representative Learning Model (CRL), that can be especially effective in image classification influenced by ZSL. In the CRL model, first, the learning step is to build class representatives to represent classes in datasets by aggregating prominent features extracted from a Convolutional Neural Network (CNN). Second, the inferencing step in CRL is to match between the class representatives and new data. The proposed CRL model demonstrated superior performance compared to the current state-of-the-art research in ZSL and mobile deep learning. The proposed CRL model has been implemented and evaluated in a parallel environment, using Apache Spark, for both distributed learning and recognition. An extensive experimental study on the benchmark datasets, ImageNet-1K, CalTech-101, CalTech-256, CIFAR-100, shows that CRL can build a class distribution model with drastic improvement in learning and recognition performance without sacrificing accuracy compared to the state-of-the-art performances in image classification.
翻訳日:2022-12-31 18:17:22 公開日:2020-02-16
# 多対多クロスドメインマッピングにおける潜在正規化フロー

Latent Normalizing Flows for Many-to-Many Cross-Domain Mappings ( http://arxiv.org/abs/2002.06661v1 )

ライセンス: Link先を確認
Shweta Mahajan, Iryna Gurevych, Stefan Roth(参考訳) 画像とテキストの合同表現は、画像キャプションのようないくつかの重要なクロスドメインタスクのバックボーンを形成する。 先行研究は、主に両方の領域を純粋に監督された方法で共通の潜在表現にマッピングする。 しかし、2つの領域は異なる生成過程に従うため、これはかなり制限的である。 そこで本研究では,ドメイン間の情報共有を個別にモデル化する半教師付きフレームワークを提案する。 ドメイン間で共有される情報は、可逆ニューラルネットワークと整合する。 私たちのモデルは、ドメイン固有の情報のフローベースの優先順位を正規化することで、2つのドメイン間の多様な多対多マッピングを学べます。 画像キャプションやテキストから画像への合成など,様々なタスクにおけるモデルの有効性を実証する。

Learned joint representations of images and text form the backbone of several important cross-domain tasks such as image captioning. Prior work mostly maps both domains into a common latent representation in a purely supervised fashion. This is rather restrictive, however, as the two domains follow distinct generative processes. Therefore, we propose a novel semi-supervised framework, which models shared information between domains and domain-specific information separately. The information shared between the domains is aligned with an invertible neural network. Our model integrates normalizing flow-based priors for the domain-specific information, which allows us to learn diverse many-to-many mappings between the two domains. We demonstrate the effectiveness of our model on diverse tasks, including image captioning and text-to-image synthesis.
翻訳日:2022-12-31 18:16:55 公開日:2020-02-16
# 解析的マーチング:深部暗黙的表面ネットワークによる解析的メッシュ化ソリューション

Analytic Marching: An Analytic Meshing Solution from Deep Implicit Surface Networks ( http://arxiv.org/abs/2002.06597v1 )

ライセンス: Link先を確認
Jiabao Lei and Kui Jia(参考訳) 本稿では,多層パーセプトロン (MLP) として正規化線形単位 (ReLU) を用いて暗黙関数を実装した深層学習表面再構成における暗黙関数による表面メッシュの学習問題について考察する。 学習された暗黙関数からのメッシュ化を実現するために、既存の手法ではマーチングキューブのデファクト標準アルゴリズムを採用している。 reluベースのmlpが入力空間を多くの線形領域に分割するという知識に動機づけられ、これらの領域から解析セルと解析面が暗黙関数のゼロレベル等面に関連付けられ、特定された解析面が連結され、平面面を形成することが保証される理論的条件を特徴付ける。 本定理に基づき,解析セル間で並列化可能な解析マーチングアルゴリズムを提案し,学習したMLPが捉えたメッシュを正確に復元する。 ディープラーニングメッシュ再構築の実験は、既存のものよりもアルゴリズムの利点を検証する。

This paper studies a problem of learning surface mesh via implicit functions in an emerging field of deep learning surface reconstruction, where implicit functions are popularly implemented as multi-layer perceptrons (MLPs) with rectified linear units (ReLU). To achieve meshing from learned implicit functions, existing methods adopt the de-facto standard algorithm of marching cubes; while promising, they suffer from loss of precision learned in the MLPs, due to the discretization nature of marching cubes. Motivated by the knowledge that a ReLU based MLP partitions its input space into a number of linear regions, we identify from these regions analytic cells and analytic faces that are associated with zero-level isosurface of the implicit function, and characterize the theoretical conditions under which the identified analytic faces are guaranteed to connect and form a closed, piecewise planar surface. Based on our theorem, we propose a naturally parallelizable algorithm of analytic marching, which marches among analytic cells to exactly recover the mesh captured by a learned MLP. Experiments on deep learning mesh reconstruction verify the advantages of our algorithm over existing ones.
翻訳日:2022-12-31 18:15:10 公開日:2020-02-16
# SynFi: 自動合成フィンガープリント生成

SynFi: Automatic Synthetic Fingerprint Generation ( http://arxiv.org/abs/2002.08900v1 )

ライセンス: Link先を確認
M. Sadegh Riazi and Seyed M. Chavoshian and Farinaz Koushanfar(参考訳) 人間の指紋に基づく認証と識別方法は、政府組織から消費者製品まで、いくつかのシステムで広く使われている。 このようなシステムの性能と信頼性は、それらが検証されたデータの量に直接依存する。 残念ながら、多くのプライバシーとセキュリティ上の懸念から、大量の指紋データベースは公開されていない。 本稿では,高忠実度合成指紋を大規模に自動生成する手法を提案する。 私たちのアプローチは (i)人間の指紋の確率分布を推定するための生成的逆ネットワーク (II)微細なテクスチャを合成するための超解法。 我々は厳密にテストを行い、我々の手法が実際のものと計算的に区別できない指紋を生成する最初の方法であることを示す。

Authentication and identification methods based on human fingerprints are ubiquitous in several systems ranging from government organizations to consumer products. The performance and reliability of such systems directly rely on the volume of data on which they have been verified. Unfortunately, a large volume of fingerprint databases is not publicly available due to many privacy and security concerns. In this paper, we introduce a new approach to automatically generate high-fidelity synthetic fingerprints at scale. Our approach relies on (i) Generative Adversarial Networks to estimate the probability distribution of human fingerprints and (ii) Super-Resolution methods to synthesize fine-grained textures. We rigorously test our system and show that our methodology is the first to generate fingerprints that are computationally indistinguishable from real ones, a task that prior art could not accomplish.
翻訳日:2022-12-31 18:08:36 公開日:2020-02-16
# 対話型画像編集のためのマルチモーダル対話システム

A Multimodal Dialogue System for Conversational Image Editing ( http://arxiv.org/abs/2002.06484v1 )

ライセンス: Link先を確認
Tzu-Hsiang Lin, Trung Bui, Doo Soon Kim, Jean Oh(参考訳) 本稿では,対話型画像編集のためのマルチモーダル対話システムを提案する。 我々は,多モード対話システムを部分観測マルコフ決定プロセス(POMDP)として定式化し,深層Q-Network(DQN)とユーザシミュレータを用いて学習した。 評価の結果、dqnポリシーはルールベースのベースラインポリシーを上回り、高いエラー率で90%の成功率を達成した。 また,実ユーザ調査を行い,実ユーザ行動の分析を行った。

In this paper, we present a multimodal dialogue system for Conversational Image Editing. We formulate our multimodal dialogue system as a Partially Observed Markov Decision Process (POMDP) and trained it with Deep Q-Network (DQN) and a user simulator. Our evaluation shows that the DQN policy outperforms a rule-based baseline policy, achieving 90\% success rate under high error rates. We also conducted a real user study and analyzed real user behavior.
翻訳日:2022-12-31 18:07:41 公開日:2020-02-16
# 文脈化単語埋め込みによる主観的バイアスの検出に向けて

Towards Detection of Subjective Bias using Contextualized Word Embeddings ( http://arxiv.org/abs/2002.06644v1 )

ライセンス: Link先を確認
Tanvi Dadu, Kartikey Pant and Radhika Mamidi(参考訳) 主観的バイアス検出は、プロパガンダ検出、コンテンツレコメンデーション、感情分析、バイアス中立化といったアプリケーションに不可欠である。 このバイアスは、炎症的な言葉やフレーズを通じて自然言語に導入され、事実に疑問を投げかけ、真実を先取りする。 本研究では, Wiki Neutrality Corpus (WNC) を用いたBERTモデルを用いて, 主観バイアスを検出するための総合実験を行った。 データセットは360k$のラベル付きインスタンスで構成され、wikipediaの編集でバイアスの様々なインスタンスを削除する。 我々はさらにBERTベースのアンサンブルを提案し、$BERT_{large}$のような最先端の手法を5.6ドルのF1スコアで上回ります。

Subjective bias detection is critical for applications like propaganda detection, content recommendation, sentiment analysis, and bias neutralization. This bias is introduced in natural language via inflammatory words and phrases, casting doubt over facts, and presupposing the truth. In this work, we perform comprehensive experiments for detecting subjective bias using BERT-based models on the Wiki Neutrality Corpus(WNC). The dataset consists of $360k$ labeled instances, from Wikipedia edits that remove various instances of the bias. We further propose BERT-based ensembles that outperform state-of-the-art methods like $BERT_{large}$ by a margin of $5.6$ F1 score.
翻訳日:2022-12-31 18:07:14 公開日:2020-02-16
# ニューラルマシン翻訳のための多層表現融合

Multi-layer Representation Fusion for Neural Machine Translation ( http://arxiv.org/abs/2002.06714v1 )

ライセンス: Link先を確認
Qiang Wang, Fuxue Li, Tong Xiao, Yanyang Li, Yinqiao Li, Jingbo Zhu(参考訳) ニューラルマシン翻訳システムは、深層モデルのために多数のスタック層を必要とする。 しかし、予測は最上位層の文表現に依存し、低レベルの表現にアクセスできない。 これにより、モデルをトレーニングすることが難しくなり、予測に情報損失のリスクが生じる。 本稿では,積層層を融合させる多層表現融合(MLRF)手法を提案する。 特に、スタックからより良い表現を学ぶために、3つの融合関数を設計する。 IWSLTドイツ語とNIST中国語のMTタスクの強いトランスフォーマーベースラインに対して,本手法では0.92点と0.56点の改善が得られた。 その結果、ドイツ語と英語の翻訳における新たな最先端技術が誕生した。

Neural machine translation systems require a number of stacked layers for deep models. But the prediction depends on the sentence representation of the top-most layer with no access to low-level representations. This makes it more difficult to train the model and poses a risk of information loss to prediction. In this paper, we propose a multi-layer representation fusion (MLRF) approach to fusing stacked layers. In particular, we design three fusion functions to learn a better representation from the stack. Experimental results show that our approach yields improvements of 0.92 and 0.56 BLEU points over the strong Transformer baseline on IWSLT German-English and NIST Chinese-English MT tasks respectively. The result is new state-of-the-art in German-English translation.
翻訳日:2022-12-31 18:07:04 公開日:2020-02-16
# 群衆カウントのためのリアルタイム深層ネットワーク

A Real-Time Deep Network for Crowd Counting ( http://arxiv.org/abs/2002.06515v1 )

ライセンス: Link先を確認
Xiaowen Shi, Xin Li, Caili Wu, Shuchen Kong, Jing Yang, Liang He(参考訳) 混雑する人々の自動分析はコンピュータビジョン研究から広く注目を集めている。 クラウドカウントに対する以前のアプローチは、様々なベンチマークですでに有望なパフォーマンスを達成している。 しかし、実際の状況に対処するためには、モデルを可能な限り高速に動作させながら精度を維持したい。 本稿では,少数のパラメータを持つより効率的なモデルを学習するクラウドカウントのための,コンパクトな畳み込みニューラルネットワークを提案する。 3つの並列フィルタが入力画像の畳み込み動作を同時にネットワークの前面に実行することで,実時間に近い速度を実現し,より多くの計算資源を節約できる。 2つのベンチマーク実験の結果,提案手法は実際のシーンに適した性能と効率のバランスを取るだけでなく,既存の軽量モデルよりも高速であることがわかった。

Automatic analysis of highly crowded people has attracted extensive attention from computer vision research. Previous approaches for crowd counting have already achieved promising performance across various benchmarks. However, to deal with the real situation, we hope the model run as fast as possible while keeping accuracy. In this paper, we propose a compact convolutional neural network for crowd counting which learns a more efficient model with a small number of parameters. With three parallel filters executing the convolutional operation on the input image simultaneously at the front of the network, our model could achieve nearly real-time speed and save more computing resources. Experiments on two benchmarks show that our proposed method not only takes a balance between performance and efficiency which is more suitable for actual scenes but also is superior to existing light-weight models in speed.
翻訳日:2022-12-31 18:06:42 公開日:2020-02-16
# 雑音面超分解能のための顔特性カプセル

Facial Attribute Capsules for Noise Face Super Resolution ( http://arxiv.org/abs/2002.06518v1 )

ライセンス: Link先を確認
Jingwei Xin, Nannan Wang, Xinrui Jiang, Jie Li, Xinbo Gao, Zhifeng Li(参考訳) 既存の顔超解像法(SR)は主に入力画像がノイズフリーであると仮定する。 入力画像が常にノイズによって汚染される現実世界のシナリオに適用された場合、その性能は大幅に低下する。 本稿では,雑音の多い顔画像の高解像度化を実現するために,FACN(Facial Attribute Capsules Network)を提案する。 capsuleは、活動ベクトルが同じ実体の異なる性質をモデル化するニューロンのグループである。 カプセルの概念にヒントを得て,顔情報の統合表現モデルを提案し,FAC(Facial Attribute Capsule)と名付けた。 SR処理では、まず入力LR面からFAC群を生成し、次にこのFAC群からHR面を再構成した。 雑音に対するFACの頑健さを効果的に向上するために,統合学習戦略を用いて意味的・確率的・顔的属性の手法でFACを生成する。 各FACは、Semantic Capsule (SC) と Probabilistic Capsule (PC) の2つのサブカプセルに分けられる。 セマンティック表現と確率分布の2つの側面から、明確な顔属性を詳細に記述する。 FACのグループは、セマンティック空間における顔属性情報と確率空間の組合せとして、属性不一致な方法で画像をモデル化する。 多様なFACは、顔の先行情報をうまく組み合わせて、きめ細かいセマンティック属性で顔画像を生成することができる。 広範なベンチマーク実験により,超低解像度(lr)ノイズフェース画像の超解像に対して,より優れた幻覚効果が得られた。

Existing face super-resolution (SR) methods mainly assume the input image to be noise-free. Their performance degrades drastically when applied to real-world scenarios where the input image is always contaminated by noise. In this paper, we propose a Facial Attribute Capsules Network (FACN) to deal with the problem of high-scale super-resolution of noisy face image. Capsule is a group of neurons whose activity vector models different properties of the same entity. Inspired by the concept of capsule, we propose an integrated representation model of facial information, which named Facial Attribute Capsule (FAC). In the SR processing, we first generated a group of FACs from the input LR face, and then reconstructed the HR face from this group of FACs. Aiming to effectively improve the robustness of FAC to noise, we generate FAC in semantic, probabilistic and facial attributes manners by means of integrated learning strategy. Each FAC can be divided into two sub-capsules: Semantic Capsule (SC) and Probabilistic Capsule (PC). Them describe an explicit facial attribute in detail from two aspects of semantic representation and probability distribution. The group of FACs model an image as a combination of facial attribute information in the semantic space and probabilistic space by an attribute-disentangling way. The diverse FACs could better combine the face prior information to generate the face images with fine-grained semantic attributes. Extensive benchmark experiments show that our method achieves superior hallucination results and outperforms state-of-the-art for very low resolution (LR) noise face image super resolution.
翻訳日:2022-12-31 18:06:30 公開日:2020-02-16
# 社会的影響を探るイベント出席予測

Predicting event attendance exploring social influence ( http://arxiv.org/abs/2002.06665v1 )

ライセンス: Link先を確認
Fatemeh Salehi Rizi, Michael Granitzer(参考訳) 実際のイベントへの参加を予測する問題は、人間の行動分析やイベント関連広告に価値ある洞察を与えるため、注目されている。 今日、ソーシャルネットワーク(例えばtwitter)は、人々が友人と議論する大規模な人気イベントを広く反映している。 イベント参加者は通常、ネットワーク内の社会的影響を広めるイベントに参加するように友人を刺激する。 本稿では,イベント出席者に対する友人の社会的影響をモデル化する。 利用者の出席度を推定するために,ソーシャルグループ構造以外の非タグ付き投稿を考察する。 ネットワークトポロジの情報を活用するために, node2vec, HARP, Poincar`e などの最近のグラフ埋め込み技術を適用した。 我々は、そのアプローチを説明し、機能空間を設計し、それをニューラルネットワークに供給する。 演奏評価は、VFestivalとCreamfieldsという2つの大きな音楽祭のデータセットを用いて行われる。 実験の結果,VFestivalデータセットでは89%の精度で,最先端のベースラインよりも高い性能を示した。

The problem of predicting people's participation in real-world events has received considerable attention as it offers valuable insights for human behavior analysis and event-related advertisement. Today social networks (e.g. Twitter) widely reflect large popular events where people discuss their interest with friends. Event participants usually stimulate friends to join the event which propagates a social influence in the network. In this paper, we propose to model the social influence of friends on event attendance. We consider non-geotagged posts besides structures of social groups to infer users' attendance. To leverage the information on network topology we apply some of recent graph embedding techniques such as node2vec, HARP and Poincar`e. We describe the approach followed to design the feature space and feed it to a neural network. The performance evaluation is conducted using two large music festivals datasets, namely the VFestival and Creamfields. The experimental results show that our classifier outperforms the state-of-the-art baseline with 89% accuracy observed for the VFestival dataset.
翻訳日:2022-12-31 17:59:53 公開日:2020-02-16
# egoネットワーク分析のためのグローバルおよびローカル特徴学習

Global and Local Feature Learning for Ego-Network Analysis ( http://arxiv.org/abs/2002.06685v1 )

ライセンス: Link先を確認
Fatemeh Salehi Rizi, Michael Granitzer, Konstantin Ziegler(参考訳) egoネットワークでは、個人(ego)が異なるグループ(ソーシャルサークル)で友人(交代)を組織する。 このソーシャルネットワークは、egoとその変化の表現を低次元実ベクトル空間で学習した後、効率的に解析することができる。 これらの表現は、ソーシャルサークルの検出や予測といったタスクの統計モデルを通じて容易に活用される。 ディープラーニングによる言語モデリングの最近の進歩は,ネットワーク表現を学習する新しい方法に影響を与えた。 これらの手法はネットワークのグローバル構造を捉えることができる。 本稿では,これらの手法を進化させ,地域構造を符号化する。 そこで,我々のローカル表現は,大規模ネットワークのグローバル表現に隠されたネットワーク特徴をキャプチャする。 ソーシャルサークル予測のタスクは,我々の手法によって生成されたグローバル特徴とローカル特徴の組み合わせによって得られる。

In an ego-network, an individual (ego) organizes its friends (alters) in different groups (social circles). This social network can be efficiently analyzed after learning representations of the ego and its alters in a low-dimensional, real vector space. These representations are then easily exploited via statistical models for tasks such as social circle detection and prediction. Recent advances in language modeling via deep learning have inspired new methods for learning network representations. These methods can capture the global structure of networks. In this paper, we evolve these techniques to also encode the local structure of neighborhoods. Therefore, our local representations capture network features that are hidden in the global representation of large networks. We show that the task of social circle prediction benefits from a combination of global and local features generated by our technique.
翻訳日:2022-12-31 17:59:25 公開日:2020-02-16
# オンライン労働市場における雇用・アウトソーシングのアルゴリズム

Algorithms for Hiring and Outsourcing in the Online Labor Market ( http://arxiv.org/abs/2002.07618v1 )

ライセンス: Link先を確認
Aris Anagnostopoulos and Carlos Castillo and Adriano Fazzone and Stefano Leonardi and Evimaria Terzi(参考訳) 近年、フリーランスの仕事は大幅に増加しているが、一部はオンライン労働市場(グル、フリーランサー、アマゾン・メカニカル・タークなど)によって促進されている。 これは、少なくとも当面は、フリーランスと給与雇用が共存し続けることを意味する。 本稿では,作業員がチームを結成し,作業を行うためのさまざまなスキルを提供する,一般的な作業員のアウトソーシングと採用のためのアルゴリズムを提供する。 私たちはこのモデルチーム形成をアウトソーシングと呼びます。 私たちのモデルでは、タスクはオンラインに届き、タスクの数や構成はa-prioriとして知られていません。 任意の時点において、雇用された労働者のチームは、自分が行う仕事とは無関係に定額の給与を受け取る。 新しいメンバを雇うことができ、既存のメンバを何らかのコストで解雇することができる。 さらに、到着するタスクの一部をアウトソースして、非チームメンバーがプレミアムで完了させることができる。 私たちの貢献は、チームメンバの雇用と解雇とアウトソーシングタスクのための、効率的なオンラインコスト最小化アルゴリズムです。 本稿では,アルゴリズムが対数競合近似比を持つことを示す原始双対スキームを用いて得られた理論的境界について述べる。 これらの結果を,3大オンライン労働市場における実際の課題要件と作業スキルに基づく半合成データセットを用いた実験で補完する。

Although freelancing work has grown substantially in recent years, in part facilitated by a number of online labor marketplaces, (e.g., Guru, Freelancer, Amazon Mechanical Turk), traditional forms of "in-sourcing" work continue being the dominant form of employment. This means that, at least for the time being, freelancing and salaried employment will continue to co-exist. In this paper, we provide algorithms for outsourcing and hiring workers in a general setting, where workers form a team and contribute different skills to perform a task. We call this model team formation with outsourcing. In our model, tasks arrive in an online fashion: neither the number nor the composition of the tasks is known a-priori. At any point in time, there is a team of hired workers who receive a fixed salary independently of the work they perform. This team is dynamic: new members can be hired and existing members can be fired, at some cost. Additionally, some parts of the arriving tasks can be outsourced and thus completed by non-team members, at a premium. Our contribution is an efficient online cost-minimizing algorithm for hiring and firing team members and outsourcing tasks. We present theoretical bounds obtained using a primal-dual scheme proving that our algorithms have a logarithmic competitive approximation ratio. We complement these results with experiments using semi-synthetic datasets based on actual task requirements and worker skills from three large online labor marketplaces.
翻訳日:2022-12-31 17:58:54 公開日:2020-02-16
# リプレイアタック検出を改善するマルチタスクシアムニューラルネットワーク

Multi-Task Siamese Neural Network for Improving Replay Attack Detection ( http://arxiv.org/abs/2002.07629v1 )

ライセンス: Link先を確認
Patrick von Platen, Fei Tao, Gokhan Tur(参考訳) 自動話者検証システムは、認証された話者の録音を再生することでセキュリティをバイパスするオーディオ再生攻撃に対して脆弱である。 Residual Neural Networks(ResNet)上に構築されたリプレイアタック検出(RA)検出システムは、公開ベンチマークであるASVspoof 2019 Physical Access Challengeで驚くべき結果を得た。 ほとんどのチームが微調整された機能抽出パイプラインとモデルアーキテクチャを使用しているため、そのようなシステムの一般化性は疑問視されている。 本研究では,マルチタスク学習(mtl)環境における識別的特徴学習が,ra検出システムの一般化可能性と識別可能性に与える影響を分析した。 我々は、クロスエントロピー基準によって最適化された人気のあるResNetアーキテクチャをベースラインとして使用し、シームズニューラルネットワーク(SNN)を用いたMTLで最適化された同じアーキテクチャと比較する。 snn がベースラインを26.8 % の誤差率 (eer) で上回っていることを示すことができる。 モデルアーキテクチャをさらに強化し, 復元損失が増大したSNNが, 相対13.8 % EERを大幅に改善したことを示す。

Automatic speaker verification systems are vulnerable to audio replay attacks which bypass security by replaying recordings of authorized speakers. Replay attack detection (RA) detection systems built upon Residual Neural Networks (ResNet)s have yielded astonishing results on the public benchmark ASVspoof 2019 Physical Access challenge. With most teams using fine-tuned feature extraction pipelines and model architectures, the generalizability of such systems remains questionable though. In this work, we analyse the effect of discriminative feature learning in a multi-task learning (MTL) setting can have on the generalizability and discriminability of RA detection systems. We use a popular ResNet architecture optimized by the cross-entropy criterion as our baseline and compare it to the same architecture optimized by MTL using Siamese Neural Networks (SNN). It can be shown that SNN outperform the baseline by relative 26.8 % Equal Error Rate (EER). We further enhance the model's architecture and demonstrate that SNN with additional reconstruction loss yield another significant improvement of relative 13.8 % EER.
翻訳日:2022-12-31 17:58:31 公開日:2020-02-16
# BMI:スマートメータからの集積負荷読み出しを用いた燃料汚泥の挙動測定指標

BMI: A Behavior Measurement Indicator for Fuel Poverty Using Aggregated Load Readings from Smart Meters ( http://arxiv.org/abs/2002.12899v1 )

ライセンス: Link先を確認
P. Fergus, C. Chalmers(参考訳) 燃料の貧困はヨーロッパの5千万から1億2500万世帯に影響を及ぼし、途上国と途上国の両方で大きな問題となっている。 つまり、燃料不足の住民は家庭を十分に暖めることができず、照明、調理、温水、家電などに必要なエネルギーサービスを行うことができる。 この問題は複雑であるが、一般的に低所得、高エネルギーコスト、エネルギー効率の悪い家という3つの要因によって引き起こされる。 イギリスでは、現在400万人の家族が燃料不足で暮らしている。 財政難に苦しむ人々は、自己切断するか、エネルギー提供者によってサービスを停止させなければならない。 燃料不足により、2016-2107年の冬にイングランドで1万人の死者が報告された。 政府は社会、公衆衛生、環境政策の問題として認識しているが、欧州連合(EU)は燃料不足の共通定義やそれを測定するための従来の指標のセットを提供していない。 本章では、EU全体での現在の燃料貧困戦略について論じ、スマートメーター、コンシューマーアクセスデバイス(CAD)データ、機械学習を用いて家庭における燃料貧困リスクを直接評価し、監視するための新しい基礎的行動計測指標を提案する。 家電製品の使用を通じて日常生活活動(ADLS)を検出することにより、財政難の早期兆候を見つけ、いつ支援パッケージが必要かを特定することができる。

Fuel poverty affects between 50 and 125 million households in Europe and is a significant issue for both developed and developing countries globally. This means that fuel poor residents are unable to adequately warm their home and run the necessary energy services needed for lighting, cooking, hot water, and electrical appliances. The problem is complex but is typically caused by three factors; low income, high energy costs, and energy inefficient homes. In the United Kingdom (UK), 4 million families are currently living in fuel poverty. Those in series financial difficulty are either forced to self-disconnect or have their services terminated by energy providers. Fuel poverty contributed to 10,000 reported deaths in England in the winter of 2016-2107 due to homes being cold. While it is recognized by governments as a social, public health and environmental policy issue, the European Union (EU) has failed to provide a common definition of fuel poverty or a conventional set of indicators to measure it. This chapter discusses current fuel poverty strategies across the EU and proposes a new and foundational behavior measurement indicator designed to directly assess and monitor fuel poverty risks in households using smart meters, Consumer Access Device (CAD) data and machine learning. By detecting Activities of Daily Living (ADLS) through household appliance usage, it is possible to spot the early signs of financial difficulty and identify when support packages are required.
翻訳日:2022-12-31 17:58:12 公開日:2020-02-16
# Block Annotation: 部分画像分解による意味分割のためのより良い画像アノテーション

Block Annotation: Better Image Annotation for Semantic Segmentation with Sub-Image Decomposition ( http://arxiv.org/abs/2002.06626v1 )

ライセンス: Link先を確認
Hubert Lin, Paul Upchurch, Kavita Bala(参考訳) 画像内のすべてのピクセルをラベル付けすることで、希少なクラスや小さなオブジェクトが注釈付けされることが保証される。 しかし、フルイメージのアノテーションは高価で、専門家は画像あたり90分を費やしている。 フルイメージアノテーションの代替としてブロックサブイメージアノテーションを提案する。 頻繁なタスク切り替えの注意コストにもかかわらず、フルイメージアノテーション用に開発された既存のアノテーションツールを使用して、同じ金銭的コストでフルイメージアノテーションよりも高い品質でブロックアノテーションをクラウドソースできることがわかった。 驚いたことに、ブロックでアノテートされた50%ピクセルは、セマンティックセグメンテーションによって100%ピクセルアノテートされた同等のパフォーマンスを達成することができる。 さらに、アノテートされたピクセルの12%は、高密度アノテーションによるパフォーマンスの98%までの性能を実現している。 弱い教師付き設定では、ブロックアノテーションは、等価なアノテーション時間によって既存のメソッドを3.4%(絶対)上回る。 空間的文脈やアフォーアンス関係を特徴付けるようなアプリケーションに必要なグローバル構造を回復するために,高品質のラベル付きブロックアノテート画像に人間の努力を伴わない効果的な手法を提案する。 そのため、フルイメージのアノテーションに比べ、これらのアプリケーションで使用するアノテーションも少なくなります。

Image datasets with high-quality pixel-level annotations are valuable for semantic segmentation: labelling every pixel in an image ensures that rare classes and small objects are annotated. However, full-image annotations are expensive, with experts spending up to 90 minutes per image. We propose block sub-image annotation as a replacement for full-image annotation. Despite the attention cost of frequent task switching, we find that block annotations can be crowdsourced at higher quality compared to full-image annotation with equal monetary cost using existing annotation tools developed for full-image annotation. Surprisingly, we find that 50% pixels annotated with blocks allows semantic segmentation to achieve equivalent performance to 100% pixels annotated. Furthermore, as little as 12% of pixels annotated allows performance as high as 98% of the performance with dense annotation. In weakly-supervised settings, block annotation outperforms existing methods by 3-4% (absolute) given equivalent annotation time. To recover the necessary global structure for applications such as characterizing spatial context and affordance relationships, we propose an effective method to inpaint block-annotated images with high-quality labels without additional human effort. As such, fewer annotations can also be used for these applications compared to full-image annotation.
翻訳日:2022-12-31 17:57:35 公開日:2020-02-16
# 別々にプライベートな宝くじの仕組み

The Differentially Private Lottery Ticket Mechanism ( http://arxiv.org/abs/2002.11613v1 )

ライセンス: Link先を確認
Lovedeep Gondara, Ke Wang, Ricardo Silva Carvalho(参考訳) 本稿では,DPLTM(differentially private lottery ticket mechanism)を提案する。 抽選券仮説に基づくエンド・ツー・エンドの差動的プライベートトレーニングパラダイム カスタムスコア機能によって選択された“高品質な勝者”を使用することで、DPLTMは最先端技術に対するプライバシユーティリティのトレードオフを大幅に改善します。 DPLTMはより早く収束し、プライバシー予算の消費を減らして早期に停止できることを示す。 さらに、DPLTMのチケットはデータセット、ドメイン、アーキテクチャ間で転送可能であることを示す。 いくつかの公開データセットに対する我々の広範な評価は、我々の主張に証拠を与える。

We propose the differentially private lottery ticket mechanism (DPLTM). An end-to-end differentially private training paradigm based on the lottery ticket hypothesis. Using "high-quality winners", selected via our custom score function, DPLTM significantly improves the privacy-utility trade-off over the state-of-the-art. We show that DPLTM converges faster, allowing for early stopping with reduced privacy budget consumption. We further show that the tickets from DPLTM are transferable across datasets, domains, and architectures. Our extensive evaluation on several public datasets provides evidence to our claims.
翻訳日:2022-12-31 17:50:37 公開日:2020-02-16
# ニューラルネットワークの近似能力について

A closer look at the approximation capabilities of neural networks ( http://arxiv.org/abs/2002.06505v1 )

ライセンス: Link先を確認
Kai Fong Ernest Chong(参考訳) 普遍近似定理(英: universal approximation theorem)は、最も一般的なバージョンの一つで、連続活性化関数 $\sigma$ のみを考えると、1つの隠れた層を持つ標準フィードフォワードニューラルネットワークは任意の連続多変量関数 $f$ を任意の近似しきい値 $\varepsilon$ に近似することができる。 本稿では,定理の直接代数的証明を行う。 さらに、近似に必要な隠れ単位の数を明示的に定量化する。 具体的には、$X\subseteq \mathbb{R}^n$がコンパクトであれば、$n$の入力単位、$m$の出力単位、$\binom{n+d}{d}$の隠れ単位($m$と$\varepsilon$とは独立)を持つ単一の隠れ層を持つニューラルネットワークは、任意の多項式関数$f:X \to \mathbb{R}^m$を均一に近似することができる。 一般の場合、$f$ が任意の連続函数であるなら、$N\in \mathcal{O}(\varepsilon^{-n})$ ($m$ に依存しない) が存在して、$N$ が $f$ を近似するのに十分であることを示す。 また, この一様近似性(uap)は, 重みに課される強弱条件下においてもなお持続することを示した。 いくつかの結果を紹介します (i)任意の$\delta > 0$に対して、UAPは最後の層におけるすべての非バイアス重みが$|w| < \delta$を満たすように$w$に制限された場合、引き続き保持される。 (ii)$\lambda>0$($f$と$\sigma$にのみ依存する)が存在するため、UAPは、最初の層で$w$の非バイアス重みを$|w|>\lambda$に制限すれば、引き続き保持される。 3) 第一層の非バイアス重みが「emph{fixed」で適切な範囲からランダムに選択された場合、UAPは確率1ドルで保持する。

The universal approximation theorem, in one of its most general versions, says that if we consider only continuous activation functions $\sigma$, then a standard feedforward neural network with one hidden layer is able to approximate any continuous multivariate function $f$ to any given approximation threshold $\varepsilon$, if and only if $\sigma$ is non-polynomial. In this paper, we give a direct algebraic proof of the theorem. Furthermore we shall explicitly quantify the number of hidden units required for approximation. Specifically, if $X\subseteq \mathbb{R}^n$ is compact, then a neural network with $n$ input units, $m$ output units, and a single hidden layer with $\binom{n+d}{d}$ hidden units (independent of $m$ and $\varepsilon$), can uniformly approximate any polynomial function $f:X \to \mathbb{R}^m$ whose total degree is at most $d$ for each of its $m$ coordinate functions. In the general case that $f$ is any continuous function, we show there exists some $N\in \mathcal{O}(\varepsilon^{-n})$ (independent of $m$), such that $N$ hidden units would suffice to approximate $f$. We also show that this uniform approximation property (UAP) still holds even under seemingly strong conditions imposed on the weights. We highlight several consequences: (i) For any $\delta > 0$, the UAP still holds if we restrict all non-bias weights $w$ in the last layer to satisfy $|w| < \delta$. (ii) There exists some $\lambda>0$ (depending only on $f$ and $\sigma$), such that the UAP still holds if we restrict all non-bias weights $w$ in the first layer to satisfy $|w|>\lambda$. (iii) If the non-bias weights in the first layer are \emph{fixed} and randomly chosen from a suitable range, then the UAP holds with probability $1$.
翻訳日:2022-12-31 17:49:29 公開日:2020-02-16
# ランダム化二階最適化のための分散平均化手法

Distributed Averaging Methods for Randomized Second Order Optimization ( http://arxiv.org/abs/2002.06540v1 )

ライセンス: Link先を確認
Burak Bartan, Mert Pilanci(参考訳) ヘシアンの形成が計算上困難であり、通信が重大なボトルネックとなる分散最適化問題を考える。 ヘシアンのサンプリングとスケッチを用いたランダム化二階最適化のための非バイアスパラメータ平均化手法を開発した。 既存の研究は推定器のバイアスを考慮に入れておらず、非常に並列な計算に限定している。 スケッチされたニュートン方向のバイアスを最小化する正規化パラメータとステップサイズに対する閉形式式を提供する。 また,2次平均化手法の枠組みを拡張し,異種計算システムに対する非偏り分散最適化フレームワークを導入する。 さらに,サーバレスコンピューティングプラットフォーム上で実施した大規模実験を通じて,理論的な知見の意義を実証する。

We consider distributed optimization problems where forming the Hessian is computationally challenging and communication is a significant bottleneck. We develop unbiased parameter averaging methods for randomized second order optimization that employ sampling and sketching of the Hessian. Existing works do not take the bias of the estimators into consideration, which limits their application to massively parallel computation. We provide closed-form formulas for regularization parameters and step sizes that provably minimize the bias for sketched Newton directions. We also extend the framework of second order averaging methods to introduce an unbiased distributed optimization framework for heterogeneous computing systems with varying worker resources. Additionally, we demonstrate the implications of our theoretical findings via large scale experiments performed on a serverless computing platform.
翻訳日:2022-12-31 17:48:35 公開日:2020-02-16
# 雑音ラベルの存在下で学習しない学習

Learning Not to Learn in the Presence of Noisy Labels ( http://arxiv.org/abs/2002.06541v1 )

ライセンス: Link先を確認
Liu Ziyin, Blair Chen, Ru Wang, Paul Pu Liang, Ruslan Salakhutdinov, Louis-Philippe Morency, Masahito Ueda(参考訳) ラベルノイズの存在下で学習することは、難しいが重要な課題である。誤ったラベル付きデータセットが存在する場合に堅牢なモデルを設計することが重要である。 本稿では, ギャンブラー損失と呼ばれる新しい種類の損失関数が, 各種の汚損レベルにおける騒音のラベル付けに強い堅牢性をもたらすことを明らかにする。 この損失関数を用いたトレーニングは、ノイズラベル付きデータポイントでの学習を「維持」し、ロバスト性や一般化を改善するためのシンプルで効果的な方法であることを示す。 さらに,本手法の実践的拡張を2つ提案する。 1) 騒音ラベルの記憶に先立って, ほぼ停止訓練を行うための分析的早期停止基準 2)騒音劣化率の知識を必要としない過度パラメータを設定するためのヒューリスティック。 本手法は,既存のベースラインと比較して,3つの画像とテキストの分類タスクで強い結果を得ることにより,有効性を示す。

Learning in the presence of label noise is a challenging yet important task: it is crucial to design models that are robust in the presence of mislabeled datasets. In this paper, we discover that a new class of loss functions called the gambler's loss provides strong robustness to label noise across various levels of corruption. We show that training with this loss function encourages the model to "abstain" from learning on the data points with noisy labels, resulting in a simple and effective method to improve robustness and generalization. In addition, we propose two practical extensions of the method: 1) an analytical early stopping criterion to approximately stop training before the memorization of noisy labels, as well as 2) a heuristic for setting hyperparameters which do not require knowledge of the noise corruption rate. We demonstrate the effectiveness of our method by achieving strong results across three image and text classification tasks as compared to existing baselines.
翻訳日:2022-12-31 17:48:25 公開日:2020-02-16
# 推薦システムのための一般化埋め込み機械

Generalized Embedding Machines for Recommender Systems ( http://arxiv.org/abs/2002.06561v1 )

ライセンス: Link先を確認
Enneng Yang, Xin Xin, Li Shen and Guibing Guo(参考訳) ファクトリゼーションマシン (FM) は, 内部積を利用して2次特徴相互作用をキャプチャする特徴ベースレコメンデーションの有効なモデルである。 しかし、FMの大きな欠点の1つは、複雑な高次相互作用信号をキャプチャできないことである。 一般的な解決策は、FMの上部にディープニューラルネットワークを積み重ねるなど、インタラクション関数を変更することである。 本研究では,組込みレベルでの高次相互作用信号,すなわち一般化埋め込み機械(GEM)をモデル化するための代替手法を提案する。 GEMで使用される埋め込みは、機能自体の情報だけでなく、他の関連する機能からの情報もエンコードする。 このような状況下では、埋め込みは高次となる。 FMにGEMを組み込むことができ、その高度な変種さえも特徴的相互作用を実行することができる。 より具体的には、我々はグラフ畳み込みネットワーク(gcn)を用いて高次埋め込みを生成する。 GEMを複数のFMモデルと統合し、2つの実世界のデータセットに対して広範な実験を行う。 その結果, GEMは対応するベースラインよりも有意に改善した。

Factorization machine (FM) is an effective model for feature-based recommendation which utilizes inner product to capture second-order feature interactions. However, one of the major drawbacks of FM is that it couldn't capture complex high-order interaction signals. A common solution is to change the interaction function, such as stacking deep neural networks on the top of FM. In this work, we propose an alternative approach to model high-order interaction signals in the embedding level, namely Generalized Embedding Machine (GEM). The embedding used in GEM encodes not only the information from the feature itself but also the information from other correlated features. Under such situation, the embedding becomes high-order. Then we can incorporate GEM with FM and even its advanced variants to perform feature interactions. More specifically, in this paper we utilize graph convolution networks (GCN) to generate high-order embeddings. We integrate GEM with several FM-based models and conduct extensive experiments on two real-world datasets. The results demonstrate significant improvement of GEM over corresponding baselines.
翻訳日:2022-12-31 17:48:11 公開日:2020-02-16
# 雑音ラベルを用いたロバスト学習のための学習適応損失

Learning Adaptive Loss for Robust Learning with Noisy Labels ( http://arxiv.org/abs/2002.06482v1 )

ライセンス: Link先を確認
Jun Shu, Qian Zhao, Keyu Chen, Zongben Xu, Deyu Meng(参考訳) ロバスト損失最小化は、雑音ラベルの堅牢な学習問題を扱うための重要な戦略である。 しかしながら、現在のロバストな損失関数は、必然的に、クロスバリデーションを通じて手動またはヒューリスティックに調整されるハイパーパラメータ(s)を伴っているため、実際は適用するのがかなり困難である。 さらに、損失によってもたらされる非凸性と複雑なネットワークアーキテクチャにより、一般化能力の乏しい予期せぬソリューションに簡単に閉じ込められる。 そこで本研究では,ロバストな損失関数でハイパーパラメータを適応的に学習できるメタラーニング手法を提案する。 具体的には,本手法におけるロバスト損失ハイパーパラメータとネットワークパラメータの相互改善により,両者を同時に学習し協調することで,解の一般化能力を高めることができる。 4種類のsotaロバスト損失関数をアルゴリズムに統合し,提案手法の汎用性と有効性について,従来のハイパーパラメータチューニング手法と比較して,注意深く調整したハイパーパラメータにおいても検証した。

Robust loss minimization is an important strategy for handling robust learning issue on noisy labels. Current robust loss functions, however, inevitably involve hyperparameter(s) to be tuned, manually or heuristically through cross validation, which makes them fairly hard to be generally applied in practice. Besides, the non-convexity brought by the loss as well as the complicated network architecture makes it easily trapped into an unexpected solution with poor generalization capability. To address above issues, we propose a meta-learning method capable of adaptively learning hyperparameter in robust loss functions. Specifically, through mutual amelioration between robust loss hyperparameter and network parameters in our method, both of them can be simultaneously finely learned and coordinated to attain solutions with good generalization capability. Four kinds of SOTA robust loss functions are attempted to be integrated into our algorithm, and comprehensive experiments substantiate the general availability and effectiveness of the proposed method in both its accuracy and generalization performance, as compared with conventional hyperparameter tuning strategy, even with carefully tuned hyperparameters.
翻訳日:2022-12-31 17:41:41 公開日:2020-02-16
# 雑音類似性ラベルデータからのマルチクラス分類

Multi-Class Classification from Noisy-Similarity-Labeled Data ( http://arxiv.org/abs/2002.06508v1 )

ライセンス: Link先を確認
Songhua Wu, Xiaobo Xia, Tongliang Liu, Bo Han, Mingming Gong, Nannan Wang, Haifeng Liu, Gang Niu(参考訳) 類似性ラベルは2つのインスタンスが同じクラスに属しているかどうかを示し、クラスラベルはインスタンスのクラスを示す。 クラスラベルがなければ、多重クラス分類器はメタ分類学習によって類似性ラベル付きペアワイズデータから学習することができる。 しかし、類似性ラベルはクラスラベルよりも情報に乏しいため、ノイズが多い可能性が高い。 ディープニューラルネットワークはノイズの多いデータを覚えやすく、分類に過度に適合する。 本稿では,雑音類似性ラベルデータのみから学習する手法を提案する。 具体的には,ノイズをモデル化するために,ノイズ遷移行列を用いて,クリーンデータとノイズデータ間のクラス後確率を橋渡しする。 さらに,ノイズのないクラスラベルをインスタンスに割り当て可能な分類器を学習するために,ノイズデータのみから遷移行列を推定し,新しい学習システムを構築する。 さらに,提案手法が学習型分類器にどのように一般化するかを理論的に正当化する。 実験により,提案手法がベンチマークシミュレーションおよび実世界の雑音ラベルデータセット上での最先端手法よりも優れていることを示す。

A similarity label indicates whether two instances belong to the same class while a class label shows the class of the instance. Without class labels, a multi-class classifier could be learned from similarity-labeled pairwise data by meta classification learning. However, since the similarity label is less informative than the class label, it is more likely to be noisy. Deep neural networks can easily remember noisy data, leading to overfitting in classification. In this paper, we propose a method for learning from only noisy-similarity-labeled data. Specifically, to model the noise, we employ a noise transition matrix to bridge the class-posterior probability between clean and noisy data. We further estimate the transition matrix from only noisy data and build a novel learning system to learn a classifier which can assign noise-free class labels for instances. Moreover, we theoretically justify how our proposed method generalizes for learning classifiers. Experimental results demonstrate the superiority of the proposed method over the state-of-the-art method on benchmark-simulated and real-world noisy-label datasets.
翻訳日:2022-12-31 17:41:01 公開日:2020-02-16
# BinaryDuo:バイナリアクティベーションの結合によるバイナリアクティベーションネットワークにおけるグラディエントミスマッチの低減

BinaryDuo: Reducing Gradient Mismatch in Binary Activation Network by Coupling Binary Activations ( http://arxiv.org/abs/2002.06517v1 )

ライセンス: Link先を確認
Hyungjun Kim, Kyungsu Kim, Jinseok Kim, Jae-Joon Kim(参考訳) 計算コストの削減とメモリ節約により、バイナリニューラルネットワーク(BNN)は関心を集めている。 しかし、BNNは、主にバイナライズ活性化による勾配ミスマッチによる性能劣化に悩まされる。 従来の研究は、前方通過で使用されるアクティベーション関数と後方通過で使用される微分可能近似との差を減らし、勾配ミスマッチ問題に対処しようとした。 本研究では,平滑化損失関数の勾配を用いて,量子化ニューラルネットワークの勾配ミスマッチを推定する。 勾配ミスマッチ推定器を用いて解析したところ, アクティベーション関数の微分近似を変更するよりも, 高い精度でアクティベーションを行う方が効果的であることが示唆された。 そこで本研究では,2つの2元アクティベーションを3元アクティベーションに結合した2元アクティベーションネットワークのための新しいトレーニング手法であるbinaryduoを提案する。 実験結果から,BinaryDuoはパラメータと計算コストの同じベンチマークにおいて,最先端のBNNよりも優れていた。

Binary Neural Networks (BNNs) have been garnering interest thanks to their compute cost reduction and memory savings. However, BNNs suffer from performance degradation mainly due to the gradient mismatch caused by binarizing activations. Previous works tried to address the gradient mismatch problem by reducing the discrepancy between activation functions used at forward pass and its differentiable approximation used at backward pass, which is an indirect measure. In this work, we use the gradient of smoothed loss function to better estimate the gradient mismatch in quantized neural network. Analysis using the gradient mismatch estimator indicates that using higher precision for activation is more effective than modifying the differentiable approximation of activation function. Based on the observation, we propose a new training scheme for binary activation networks called BinaryDuo in which two binary activations are coupled into a ternary activation during training. Experimental results show that BinaryDuo outperforms state-of-the-art BNNs on various benchmarks with the same amount of parameters and computing cost.
翻訳日:2022-12-31 17:40:47 公開日:2020-02-16
# REST: RLベースの空間変換によるブラックボックスモデルのパフォーマンス向上

REST: Performance Improvement of a Black Box Model via RL-based Spatial Transformation ( http://arxiv.org/abs/2002.06610v1 )

ライセンス: Link先を確認
Jae Myung Kim, Hyungjin Kim, Chanwoo Park, and Jungwoo Lee(参考訳) 近年、ディープニューラルネットワーク(DNN)は研究の活発な領域となり、様々なコンピュータビジョンタスクにおける顕著な成果を示している。 しかし、dnnは、アウトオブディストリビューションのサンプルに対して、自信過剰だが誤った予測をすることが多いことが知られており、トレーニングデータセットは、さまざまな実世界のサンプルと比較して常に制限されているため、実世界のデプロイにとって大きな障害となる可能性がある。 したがって、実際にdnnモデルを構築する場合、トレーニングとテスト時間の分散シフトに対する堅牢性を保証することが基本である。 さらに、多くの場合、ディープラーニングモデルはブラックボックスとしてデプロイされ、すでにトレーニングデータセットに最適化されているため、ブラックボックス自体を変更することでパフォーマンスが低下する可能性がある。 ここでは,ブラックボックス画像分類器が与えられる特定の条件下での幾何学変換に対するロバスト性について検討する。 そこで本研究では, 入力データをブラックボックスモデルにより, 内分布と見なされるサンプルに変換する, 新たな学習器 \emph{reinforcement spatial transform learner (rest)} を提案する。 私たちの仕事は、ブラックボックスの前にRESTモジュールを追加し、オリジナルのブラックボックスモデルをエンドツーエンドでトレーニングすることなく、RESTモジュールのみをトレーニングすることで、堅牢性を向上させることを目的としています。 ブラックボックスモデルから得られた信頼度スコアを用いて,変換された入力が分布から引き出されるかどうかを判定する。 本手法は幾何変換と標本効率の一般化に有利であることを示す。

In recent years, deep neural networks (DNN) have become a highly active area of research, and shown remarkable achievements on a variety of computer vision tasks. DNNs, however, are known to often make overconfident yet incorrect predictions on out-of-distribution samples, which can be a major obstacle to real-world deployments because the training dataset is always limited compared to diverse real-world samples. Thus, it is fundamental to provide guarantees of robustness to the distribution shift between training and test time when we construct DNN models in practice. Moreover, in many cases, the deep learning models are deployed as black boxes and the performance has been already optimized for a training dataset, thus changing the black box itself can lead to performance degradation. We here study the robustness to the geometric transformations in a specific condition where the black-box image classifier is given. We propose an additional learner, \emph{REinforcement Spatial Transform learner (REST)}, that transforms the warped input data into samples regarded as in-distribution by the black-box models. Our work aims to improve the robustness by adding a REST module in front of any black boxes and training only the REST module without retraining the original black box model in an end-to-end manner, i.e. we try to convert the real-world data into training distribution which the performance of the black-box model is best suited for. We use a confidence score that is obtained from the black-box model to determine whether the transformed input is drawn from in-distribution. We empirically show that our method has an advantage in generalization to geometric transformations and sample efficiency.
翻訳日:2022-12-31 17:40:00 公開日:2020-02-16
# Gaussian Smoothen Semantic Features (GSSF) -- MSCOCOフレームワークを用いたインドの言語(Bengali)における視覚的キャプションの言語学的側面の探索

Gaussian Smoothen Semantic Features (GSSF) -- Exploring the Linguistic Aspects of Visual Captioning in Indian Languages (Bengali) Using MSCOCO Framework ( http://arxiv.org/abs/2002.06701v1 )

ライセンス: Link先を確認
Chiranjib Sur(参考訳) 本研究では,インド地域言語による画像キャプションのためのより良いセマンティック選択のためのGaussian Smoothen Semantic Features (GSSF)を導入し,既存の翻訳文と英語のクラウドソース文をトレーニングに使用するための手順を紹介した。 我々は、このアーキテクチャがリソースの難題がある、有望な代替ソースであることを証明した。 この研究の主な貢献は、完全に異なる文法と言語特性を持つベンガル語(世界で5番目に広く話されている言語)のためのディープラーニングアーキテクチャの開発です。 画像コンテキストから言語を生成するような複雑なアプリケーションではうまく機能し、制約やより広範な機能、ユニークな特徴空間を導入して表現を多様化することができる。 また,従来のLSTMと特徴分解ネットワークを用いたスムーズな意味テンソルを用いた場合,絶対精度と多様性が得られた。 より優れた学習アーキテクチャにより、専門知識や人間の介入を必要とせずに、有能なアプリケーションの評価を支援する自動アルゴリズムと評価手順の確立に成功した。

In this work, we have introduced Gaussian Smoothen Semantic Features (GSSF) for Better Semantic Selection for Indian regional language-based image captioning and introduced a procedure where we used the existing translation and English crowd-sourced sentences for training. We have shown that this architecture is a promising alternative source, where there is a crunch in resources. Our main contribution of this work is the development of deep learning architectures for the Bengali language (is the fifth widely spoken language in the world) with a completely different grammar and language attributes. We have shown that these are working well for complex applications like language generation from image contexts and can diversify the representation through introducing constraints, more extensive features, and unique feature spaces. We also established that we could achieve absolute precision and diversity when we use smoothened semantic tensor with the traditional LSTM and feature decomposition networks. With better learning architecture, we succeeded in establishing an automated algorithm and assessment procedure that can help in the evaluation of competent applications without the requirement for expertise and human intervention.
翻訳日:2022-12-31 17:33:02 公開日:2020-02-16
# 格子セルを用いた空間的特徴分布のマルチスケール表現学習

Multi-Scale Representation Learning for Spatial Feature Distributions using Grid Cells ( http://arxiv.org/abs/2003.00824v1 )

ライセンス: Link先を確認
Gengchen Mai, Krzysztof Janowicz, Bo Yan, Rui Zhu, Ling Cai, Ni Lao(参考訳) 教師なしのテキスト符号化モデルは、最近NLPの大幅な進歩を加速した。 キーとなるアイデアは、ニューラルネットワークを使用してテキスト中の単語を、下流タスクのエンドツーエンドトレーニングに適した文中の単語の位置とそのコンテキストに基づいてベクトル空間表現に変換することである。 空間分析において、poisのような地理的対象の絶対位置と空間的文脈の両方をモデルに組み込むという、非常に類似した状況がみられる。 空間の汎用表現モデルは、多くのタスクに有用である。 しかし、そのような一般的なモデルは、単に離散化やフィードフォワードネットを座標に適用すること以外には存在せず、GISデータから生じる非常に異なる特性を持つ分布を共同でモデル化する努力はほとんど行われていない。 一方、ノーベル賞受賞の神経科学研究は、哺乳類の格子細胞が位置エンコーディングの指標として機能し、場所の認識と経路統合にとって重要な、多段階の周期的表現を提供することを示している。 そこで本稿では,空間の絶対位置と空間的関係を符号化するSpace2Vecという表現学習モデルを提案する。 実世界の2つの地理的データを2つの異なるタスクで実験する。 1) 位置と文脈が与えられたPOIの種類を予測すること。 2) 位置情報を利用した画像分類 その結果,Space2Vecのマルチスケール表現は,RBFカーネルや多層フィードフォワードネット,位置モデリングや画像分類タスクのためのタイル埋め込みアプローチなど,確立したMLアプローチよりも優れていた。 詳細な分析は、すべてのベースラインが1つのスケールで分布をうまく扱えるが、他のスケールでは性能が劣っていることを示している。 対照的に、Space2Vecのマルチスケール表現は、異なるスケールでの分散を扱うことができる。

Unsupervised text encoding models have recently fueled substantial progress in NLP. The key idea is to use neural networks to convert words in texts to vector space representations based on word positions in a sentence and their contexts, which are suitable for end-to-end training of downstream tasks. We see a strikingly similar situation in spatial analysis, which focuses on incorporating both absolute positions and spatial contexts of geographic objects such as POIs into models. A general-purpose representation model for space is valuable for a multitude of tasks. However, no such general model exists to date beyond simply applying discretization or feed-forward nets to coordinates, and little effort has been put into jointly modeling distributions with vastly different characteristics, which commonly emerges from GIS data. Meanwhile, Nobel Prize-winning Neuroscience research shows that grid cells in mammals provide a multi-scale periodic representation that functions as a metric for location encoding and is critical for recognizing places and for path-integration. Therefore, we propose a representation learning model called Space2Vec to encode the absolute positions and spatial relationships of places. We conduct experiments on two real-world geographic data for two different tasks: 1) predicting types of POIs given their positions and context, 2) image classification leveraging their geo-locations. Results show that because of its multi-scale representations, Space2Vec outperforms well-established ML approaches such as RBF kernels, multi-layer feed-forward nets, and tile embedding approaches for location modeling and image classification tasks. Detailed analysis shows that all baselines can at most well handle distribution at one scale but show poor performances in other scales. In contrast, Space2Vec's multi-scale representation can handle distributions at different scales.
翻訳日:2022-12-31 17:32:39 公開日:2020-02-16
# 因果効果推定器を用いた凸フェアネス制約モデル

Convex Fairness Constrained Model Using Causal Effect Estimators ( http://arxiv.org/abs/2002.06501v1 )

ライセンス: Link先を確認
Hikaru Ogura and Akiko Takeda(参考訳) 近年、機械学習における公正性の研究が盛んに行われている。 ここで、平均差(md)または人口差はフェアネスの最も一般的な尺度の1つである。 しかし、MDは差別だけでなく、説明的特徴によって正当化される結果の差である説明的バイアスも定量化する。 本稿では、説明バイアスを保ちながら差別を除去するFairCEEと呼ばれる新しいモデルを考案する。 モデルは、傾向スコア分析を利用した因果効果の推定値に基づいている。 我々は、二乗損失を伴うフェアスは理論的にナイーブなmd制約モデルを上回ることを証明する。 回帰および二分分類タスクにおけるFairCEEの効率的な解法を提案する。 この2つのタスクにおける合成および実世界のデータに関する実験において、FairCEEは特定のケースにおける説明バイアスを考慮した既存モデルよりも優れていた。

Recent years have seen much research on fairness in machine learning. Here, mean difference (MD) or demographic parity is one of the most popular measures of fairness. However, MD quantifies not only discrimination but also explanatory bias which is the difference of outcomes justified by explanatory features. In this paper, we devise novel models, called FairCEEs, which remove discrimination while keeping explanatory bias. The models are based on estimators of causal effect utilizing propensity score analysis. We prove that FairCEEs with the squared loss theoretically outperform a naive MD constraint model. We provide an efficient algorithm for solving FairCEEs in regression and binary classification tasks. In our experiment on synthetic and real-world data in these two tasks, FairCEEs outperformed an existing model that considers explanatory bias in specific cases.
翻訳日:2022-12-31 17:32:11 公開日:2020-02-16
# 多発学習を用いた乳癌病理組織像の分類と局在化

Breast Cancer Histopathology Image Classification and Localization using Multiple Instance Learning ( http://arxiv.org/abs/2003.00823v1 )

ライセンス: Link先を確認
Abhijeet Patil, Dipesh Tamboli, Swati Meena, Deepak Anand, Amit Sethi(参考訳) 乳癌は女性のがんの中で最も死亡率が高い。 乳がん患者の増加に伴う診断のために顕微鏡組織像を解析するコンピュータ支援病理学は、診断のコストと遅れをもたらす可能性がある。 病理学における深層学習は、分類とローカライゼーションのタスクにおいて最先端のパフォーマンスを達成した過去10年間に注目されている。 深層学習フレームワークである畳み込みニューラルネットワークは、組織像解析において顕著な結果をもたらすが、決定の背後にある解釈や推論は提供できない。 本研究の目的は,顕微鏡組織像の局所化を提供することにより,分類結果のより良い解釈を提供することである。 画像分類問題は、画像がパッチの集合である、すなわちインスタンスの集合である、弱教師付き複数インスタンス学習問題である。 注意に基づく多重インスタンス学習(A-MIL)は、画像からパッチに注意を払い、画像内の悪性領域と正常領域をローカライズし、画像の分類に使用する。 公開されているBreakHISデータセットとBACHデータセットの分類とローカライゼーション結果を示す。 分類と可視化結果は他の手法と比較した。 提案手法は, 分類精度を損なうことなく, より良い位置推定結果を得る。

Breast cancer has the highest mortality among cancers in women. Computer-aided pathology to analyze microscopic histopathology images for diagnosis with an increasing number of breast cancer patients can bring the cost and delays of diagnosis down. Deep learning in histopathology has attracted attention over the last decade of achieving state-of-the-art performance in classification and localization tasks. The convolutional neural network, a deep learning framework, provides remarkable results in tissue images analysis, but lacks in providing interpretation and reasoning behind the decisions. We aim to provide a better interpretation of classification results by providing localization on microscopic histopathology images. We frame the image classification problem as weakly supervised multiple instance learning problem where an image is collection of patches i.e. instances. Attention-based multiple instance learning (A-MIL) learns attention on the patches from the image to localize the malignant and normal regions in an image and use them to classify the image. We present classification and localization results on two publicly available BreakHIS and BACH dataset. The classification and visualization results are compared with other recent techniques. The proposed method achieves better localization results without compromising classification accuracy.
翻訳日:2022-12-31 17:31:33 公開日:2020-02-16
# 入力文の複数スタイル転送出力生成のための学習

Learning to Generate Multiple Style Transfer Outputs for an Input Sentence ( http://arxiv.org/abs/2002.06525v1 )

ライセンス: Link先を確認
Kevin Lin, Ming-Yu Liu, Ming-Ting Sun, Jan Kautz(参考訳) テキストスタイルの転送は、あるテキストを別のスタイルで表現するタスクを指す。 アートの状態を前進させるために様々な方法が提案されているが、彼らはしばしば転送出力がデルタ分布に従うと仮定しており、そのモデルが与えられた入力テキストに対して異なるスタイル転送結果を生成することができない。 この制限に対処するために,1対多のテキストスタイル転送フレームワークを提案する。 入力文を1つの出力文に変換する1対1のマッピングを学習する先行研究とは対照的に,本研究では,入力文を複数の出力文に変換する1対1のマッピングを,入力内容を保存しながら学習する。 これは潜在分解スキームで逆訓練を適用することによって達成される。 具体的には、入力文の潜在表現を、言語スタイルのバリエーションをキャプチャするスタイルコードと、言語スタイルに依存しないコンテンツをエンコードするコンテンツコードに分解する。 次に、コンテンツコードとスタイルコードを組み合わせて、スタイル転送出力を生成します。 同じコンテンツコードを異なるスタイルコードと組み合わせることで、異なるスタイル転送出力を生成します。 提案手法の有効性を検証した多種多様な性能指標を用いて,複数の公開データセットに対するテキストスタイル転送手法との比較実験を行った。

Text style transfer refers to the task of rephrasing a given text in a different style. While various methods have been proposed to advance the state of the art, they often assume the transfer output follows a delta distribution, and thus their models cannot generate different style transfer results for a given input text. To address the limitation, we propose a one-to-many text style transfer framework. In contrast to prior works that learn a one-to-one mapping that converts an input sentence to one output sentence, our approach learns a one-to-many mapping that can convert an input sentence to multiple different output sentences, while preserving the input content. This is achieved by applying adversarial training with a latent decomposition scheme. Specifically, we decompose the latent representation of the input sentence to a style code that captures the language style variation and a content code that encodes the language style-independent content. We then combine the content code with the style code for generating a style transfer output. By combining the same content code with a different style code, we generate a different style transfer output. Extensive experimental results with comparisons to several text style transfer approaches on multiple public datasets using a diverse set of performance metrics validate effectiveness of the proposed approach.
翻訳日:2022-12-31 17:31:17 公開日:2020-02-16
# 自然言語を一階論理に解析するニューラルモデルの検討

Exploring Neural Models for Parsing Natural Language into First-Order Logic ( http://arxiv.org/abs/2002.06544v1 )

ライセンス: Link先を確認
Hrituraj Singh, Milan Aggrawal, Balaji Krishnamurthy(参考訳) 意味解析は自然言語テキストから機械解釈可能な表現を得るタスクである。 本稿では、一階述語論理(FOL)という形式的な表現を考察し、英文をFOLに解析するニューラルネットワークの能力について考察する。 自然言語文が与えられた場合のシーケンスマッピングタスクとしてFOL解析をモデル化し、LSTMを用いて中間表現に符号化し、次に対応するFOL式で述語を逐次生成するデコーダを用いる。 予測されたFOLの述語間で変数をアライメントする可変アライメント機構を導入することにより,標準的なエンコーダ・デコーダモデルを改善する。 さらに、生成されたFOLの整合性を改善するための補助的なタスクとして、デコーダの各ステップにおいて、FOLのカテゴリであるUnary, Binary, Variables, Scoped Entitiesを予測する効果を示す。 我々は厳密な評価と広範囲のアブレーションを行う。 また、NLPにおける論理ベースの解析と推論のさらなる研究を支援するため、大規模なFOLデータセットとともに、コードのリリースも目標としています。

Semantic parsing is the task of obtaining machine-interpretable representations from natural language text. We consider one such formal representation - First-Order Logic (FOL) and explore the capability of neural models in parsing English sentences to FOL. We model FOL parsing as a sequence to sequence mapping task where given a natural language sentence, it is encoded into an intermediate representation using an LSTM followed by a decoder which sequentially generates the predicates in the corresponding FOL formula. We improve the standard encoder-decoder model by introducing a variable alignment mechanism that enables it to align variables across predicates in the predicted FOL. We further show the effectiveness of predicting the category of FOL entity - Unary, Binary, Variables and Scoped Entities, at each decoder step as an auxiliary task on improving the consistency of generated FOL. We perform rigorous evaluations and extensive ablations. We also aim to release our code as well as large scale FOL dataset along with models to aid further research in logic-based parsing and inference in NLP.
翻訳日:2022-12-31 17:30:58 公開日:2020-02-16
# 医学的言語課題に対する一般ドメイン転送学習の有用性

The Utility of General Domain Transfer Learning for Medical Language Tasks ( http://arxiv.org/abs/2002.06670v1 )

ライセンス: Link先を確認
Daniel Ranti, Katie Hanss, Shan Zhao, Varun Arvind, Joseph Titano, Anthony Costa, Eric Oermann(参考訳) 本研究の目的は,医療自然言語処理(NLP)タスク,特に放射線テキスト分類において,トランスファーラーニング手法とトランスフォーマーベースモデルの有効性を分析することである。 総計96,303件のコーパスから1,977件のラベル付き頭部ct検査を行い,放射線テキスト分類のためのトランスフォーマ(bert)モデルからの双方向表現を用いた一般領域コーパスと医療領域コーパスを用いた事前訓練の有効性を評価した。 単語ベクトル化とLSTM(Long Short-term memory)マルチラベル分類モデルを用いて,ロジスティック回帰にモデル性能をベンチマークし,医学テキスト分類における論文と比較した。 事前訓練されたチェックポイントの組を用いたbertモデルは、ロジスティック回帰モデルよりも優れており、一般ドメインモデルと一般および生物医学ドメインモデルの組み合わせで、サンプル重み付け平均f1-scoreが 0.87 と 0.87 である。 一般的なテキスト転送学習は、放射線コーパスにおけるNLPタスクにおける最先端の結果を生成するための有効な技術であり、LSTMのような他の深層モデルよりも優れている。 プリトレーニングとトランスフォーマーベースのモデルの有効性は、医学テキストの独特な挑戦的なデータ環境において、画期的なNLPモデルの作成を容易にするのに役立つ。

The purpose of this study is to analyze the efficacy of transfer learning techniques and transformer-based models as applied to medical natural language processing (NLP) tasks, specifically radiological text classification. We used 1,977 labeled head CT reports, from a corpus of 96,303 total reports, to evaluate the efficacy of pretraining using general domain corpora and a combined general and medical domain corpus with a bidirectional representations from transformers (BERT) model for the purpose of radiological text classification. Model performance was benchmarked to a logistic regression using bag-of-words vectorization and a long short-term memory (LSTM) multi-label multi-class classification model, and compared to the published literature in medical text classification. The BERT models using either set of pretrained checkpoints outperformed the logistic regression model, achieving sample-weighted average F1-scores of 0.87 and 0.87 for the general domain model and the combined general and biomedical-domain model. General text transfer learning may be a viable technique to generate state-of-the-art results within medical NLP tasks on radiological corpora, outperforming other deep models such as LSTMs. The efficacy of pretraining and transformer-based models could serve to facilitate the creation of groundbreaking NLP models in the uniquely challenging data environment of medical text.
翻訳日:2022-12-31 17:30:38 公開日:2020-02-16