このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230527となっている論文です。

PDF登録状況(公開日: 20230527)

TitleAuthorsAbstract論文公表日・翻訳日
# 費用対効果のある適応的ランダムテストに向けて : 近似的近傍アプローチ

Toward Cost-effective Adaptive Random Testing: An Approximate Nearest Neighbor Approach ( http://arxiv.org/abs/2305.17496v1 )

ライセンス: Link先を確認
Rubing Huang, Chenhui Cui, Junlong Lian, Dave Towey, Weifeng Sun, Haibo Chen(参考訳) 適応ランダムテスト(ART)は、入力ドメイン全体のランダムテストケースの多様性を高めることにより、ランダムテスト(RT)のテストの有効性(障害検出機能を含む)を高める。 多くのARTアルゴリズムは、FSCS(Fixed-Size-Candidate-Set ART)やRRT(Restricted Random Testing)など、様々な基準で研究されており、多くの実用的な応用で広く利用されている。 その人気にもかかわらず、artは、特にテストケースの数が増えるにつれて、テストケース生成中の高い計算コストの問題に苦しんでいる。 これらのアルゴリズムは,(1)計算時間を短縮できるが,その実行コストは,特にテストケースの数が多い場合に非常に高く,(2)低い計算コストを達成するためには,いくつかの故障検出能力を犠牲にする可能性がある。 本稿では,近距離近傍 (anns, locality sensitive hashing art, lsh-art) に基づく手法を提案する。 異なるテスト入力間の距離を計算するとき、LSH-ARTは、候補者に最も近い(必ずしも正確な)隣人を特定する。 LSH-ARTはARTテストの有効性と効率のバランスをとる。

Adaptive Random Testing (ART) enhances the testing effectiveness (including fault-detection capability) of Random Testing (RT) by increasing the diversity of the random test cases throughout the input domain. Many ART algorithms have been investigated according to different criteria, such as Fixed-Size-Candidate-Set ART (FSCS) and Restricted Random Testing (RRT), and have been widely used in many practical applications. Despite its popularity, ART suffers from the problem of high computational costs during test case generation, especially as the number of test cases increases. Although a number of strategies have been proposed to enhance the ART testing efficiency, such as the forgetting strategy and the k-dimensional tree strategy, these algorithms still face some challenges, including: (1) Although these algorithms can reduce the computation time, their execution costs are still very high, especially when the number of test cases is large; and (2) To achieve low computational costs, they may sacrifice some fault-detection capability. In this paper, we propose an approach based on Approximate Nearest Neighbors (ANNs), called Locality Sensitive Hashing ART (LSH-ART). When calculating distances among different test inputs, LSH-ART identifies the approximate (not necessarily exact) nearest neighbors for candidates in an efficient way. LSH-ART attempts to balance ART testing effectiveness and efficiency.
翻訳日:2023-10-24 05:17:13 公開日:2023-05-27
# Edge to Cloud Tools: マルチボーカル文献レビュー

Edge to Cloud Tools: A Multivocal Literature Review ( http://arxiv.org/abs/2305.17464v1 )

ライセンス: Link先を確認
Sergio Moreschini, Elham Younesian, David H\"astbacka, Michele Albano, Ji\v{r}\'i Ho\v{s}ek and Davide Taibi(参考訳) エッジツークラウドコンピューティングは、エッジデバイスとクラウドリソースの間で計算タスクを分散するための新興パラダイムである。 オーケストレーション、オフロード、さらに多くの目的のための異なるアプローチが研究に導入されている。 しかし、この業界で何が実行されたのかはまだ明らかではない。 この研究は、エッジからクラウドへのツールに関する既存の知識をマッピングし、この分野の研究の現状の概要と、研究のギャップと課題を特定することで、このギャップをマージすることを目的としています。 この目的のために,1073の一次研究から40のツール(白文学から220ps,灰色文学から853ps)を分析し,多言語文献レビュー(mlr)を行った。 ツールの特徴とターゲット環境に基づいて分類した。 全体として、このシステマティックマッピング研究は、エッジツークラウドツールの包括的な概要を提供し、この分野における今後の研究のための研究者や実践者のためのいくつかの機会を強調している。

Edge-to-cloud computing is an emerging paradigm for distributing computational tasks between edge devices and cloud resources. Different approaches for orchestration, offloading, and many more purposes have been introduced in research. However, it is still not clear what has been implemented in the industry. This work aims to merge this gap by mapping the existing knowledge on edge-to-cloud tools by providing an overview of the current state of research in this area and identifying research gaps and challenges. For this purpose, we conducted a Multivocal Literature Review (MLR) by analyzing 40 tools from 1073 primary studies (220 PS from the white literature and 853 PS from the gray literature). We categorized the tools based on their characteristics and targeted environments. Overall, this systematic mapping study provides a comprehensive overview of edge-to-cloud tools and highlights several opportunities for researchers and practitioners for future research in this area.
翻訳日:2023-10-24 05:16:49 公開日:2023-05-27
# テロウェアに対する倫理的考察

Ethical Considerations Towards Protestware ( http://arxiv.org/abs/2306.10019v1 )

ライセンス: Link先を確認
Marc Cheong, Raula Gaikovina Kula, Christoph Treude(参考訳) オープンソースサードパーティライブラリを使用する際の大きな欠点は、悪意のある攻撃の導入のリスクである。 近年では、メンテナがオープンソースライブラリを抗議ウェアにするなど、これらの脅威が新たな形を取っている。 これは、これらのライブラリを通じて配信される政治的メッセージを含むソフトウェアとして定義される。 開発者は自由にこれらのライブラリにソフトウェアをオープンアップしたいので、ライブラリが約束通りにすることを確実にするために、メンテナに多くの信頼と責任が与えられます。 本稿では,オープンソースソフトウェアをエチコ・哲学レンズを用いて抗議行動ウェアに転換することを検討するシナリオについて考察する。 AI倫理で一般的に使用される異なるフレームワークを使用して、抗議ウェアをもたらす可能性のある異なるジレンマを探索する。 さらに,オープンソースのメンテナが,さまざまな利害関係者(ossコミュニティへの参加,個人的見解,金銭的動機,社会的地位,道徳的視点など)にどのような影響を受けているかを説明し,抗議ウェアを多面的かつ複雑に扱う。

A key drawback to using a Open Source third-party library is the risk of introducing malicious attacks. In recently times, these threats have taken a new form, when maintainers turn their Open Source libraries into protestware. This is defined as software containing political messages delivered through these libraries, which can either be malicious or benign. Since developers are willing to freely open-up their software to these libraries, much trust and responsibility are placed on the maintainers to ensure that the library does what it promises to do. This paper takes a look into the possible scenarios where developers might consider turning their Open Source Software into protestware, using an ethico-philosophical lens. Using different frameworks commonly used in AI ethics, we explore the different dilemmas that may result in protestware. Additionally, we illustrate how an open-source maintainer's decision to protest is influenced by different stakeholders (viz., their membership in the OSS community, their personal views, financial motivations, social status, and moral viewpoints), making protestware a multifaceted and intricate matter.
翻訳日:2023-06-26 01:48:08 公開日:2023-05-27
# 隣人を暖める:コロンボレーションによる行動認識の改善

Cheating off your neighbors: Improving activity recognition through corroboration ( http://arxiv.org/abs/2306.06078v1 )

ライセンス: Link先を確認
Haoxiang Yu, Jingyi An, Evan King, Edison Thomaz, Christine Julien(参考訳) 個人のデータのみを通して人間の活動の複雑さを理解することは困難である。 しかし、多くの状況では、周囲の個人が同様の活動を行っている可能性が高いが、既存の人間の活動認識アプローチは個々の測定にのみ焦点を絞っており、活動のコンテキストをほとんど無視している。 小さなグループミーティングに参加し、オフィスデスクで働く2つのアクティビティを考えてみましょう。 個々人の視点だけでは、著しく異なるものの、非常に類似しているように見えるため、これらのアクティビティを区別することは困難である。 しかし、近くにいる他者を観察することで、これらの活動を区別することができる。 本稿では,周囲の個人からの洞察を取り入れることで,個人の活動の予測精度を向上させる手法を提案する。 講演の出席、会議の開催、オフィスでの勤務、一緒に食事をするといった活動を含む58時間以上のデータを持つ20人の参加者の実際のデータセットを収集しました。 単独で観察するのに比べ,提案手法は精度を大幅に向上させる。 我々はこの研究を,協調的活動認識の第一歩と考え,グループ環境での人間活動を理解するための新たな可能性を開く。

Understanding the complexity of human activities solely through an individual's data can be challenging. However, in many situations, surrounding individuals are likely performing similar activities, while existing human activity recognition approaches focus almost exclusively on individual measurements and largely ignore the context of the activity. Consider two activities: attending a small group meeting and working at an office desk. From solely an individual's perspective, it can be difficult to differentiate between these activities as they may appear very similar, even though they are markedly different. Yet, by observing others nearby, it can be possible to distinguish between these activities. In this paper, we propose an approach to enhance the prediction accuracy of an individual's activities by incorporating insights from surrounding individuals. We have collected a real-world dataset from 20 participants with over 58 hours of data including activities such as attending lectures, having meetings, working in the office, and eating together. Compared to observing a single person in isolation, our proposed approach significantly improves accuracy. We regard this work as a first step in collaborative activity recognition, opening new possibilities for understanding human activity in group settings.
翻訳日:2023-06-18 13:01:26 公開日:2023-05-27
# 交通・道路標識検出のためのyolov5の敵対的攻撃

Adversarial Attack On Yolov5 For Traffic And Road Sign Detection ( http://arxiv.org/abs/2306.06071v1 )

ライセンス: Link先を確認
Sanyam Jain(参考訳) 本稿では, YOLOv5 Object Detectionアルゴリズムに対して, 一般的な敵攻撃を実装し, 検討する。 本稿では,交通や道路標識検出の分野での敵攻撃に対するYOLOv5の脆弱性について検討する。 本稿では,限られたメモリであるBroyden Fletcher Goldfarb Shanno (L-BFGS), Fast Gradient Sign Method (FGSM) 攻撃, Carlini and Wagner (C&W) 攻撃, Basic Iterative Method (BIM) 攻撃,Projected Gradient Descent (PGD) 攻撃, One Pixel 攻撃,Universal Adversarial Perturbations 攻撃など,様々な種類の攻撃の影響について検討する。 その結果, YOLOv5はこれらの攻撃の影響を受けやすく, 摂動の規模が大きくなるにつれて誤分類率が増加することがわかった。 また,サリエンシーマップを用いた結果について解説する。 本稿では,交通・交通システムにおいて使用される物体検出アルゴリズムの安全性と信頼性に重要な意味を持ち,実世界のアプリケーションでの有効性を確保するために,より堅牢でセキュアなモデルの必要性を強調する。

This paper implements and investigates popular adversarial attacks on the YOLOv5 Object Detection algorithm. The paper explores the vulnerability of the YOLOv5 to adversarial attacks in the context of traffic and road sign detection. The paper investigates the impact of different types of attacks, including the Limited memory Broyden Fletcher Goldfarb Shanno (L-BFGS), the Fast Gradient Sign Method (FGSM) attack, the Carlini and Wagner (C&W) attack, the Basic Iterative Method (BIM) attack, the Projected Gradient Descent (PGD) attack, One Pixel Attack, and the Universal Adversarial Perturbations attack on the accuracy of YOLOv5 in detecting traffic and road signs. The results show that YOLOv5 is susceptible to these attacks, with misclassification rates increasing as the magnitude of the perturbations increases. We also explain the results using saliency maps. The findings of this paper have important implications for the safety and reliability of object detection algorithms used in traffic and transportation systems, highlighting the need for more robust and secure models to ensure their effectiveness in real-world applications.
翻訳日:2023-06-18 12:59:45 公開日:2023-05-27
# PotatoPestNet:ポテト害虫の正確な同定のためのCTインセプションV3-RSベースニューラルネットワーク

PotatoPestNet: A CTInceptionV3-RS-Based Neural Network for Accurate Identification of Potato Pests ( http://arxiv.org/abs/2306.06206v1 )

ライセンス: Link先を確認
Md. Simul Hasan Talukder, Rejwan Bin Sulaiman, Mohammad Raziuddin Chowdhury, Musarrat Saberin Nipun, Ben Hadj Hassine(参考訳) ポテトは世界第3位の食料作物であるが、攻撃的な害虫の寄生により生産が困難になることが多い。 本研究の目的は,これらの害虫の種類や特徴を調査し,効率的なPotatoPestNetAIを用いた自動ジャガイモ識別システムを提案することである。 そこで我々は,8種類のジャガイモ害虫からなる信頼性データセットをキュレートした。 CMobileNetV2, CNASLargeNet, CXception, CDenseNet201, CInceptionV3の5つのカスタマイズされた移行学習モデルを用いて, ジャガイモ害虫を正確に分類するロバストなPotatoPestNetモデルを提案する。 モデルの性能向上のために,様々な拡張手法を適用し,グローバル平均プール層を導入し,適切な正規化手法を実装した。 モデルの性能をさらに高めるために,ハイパーパラメータチューニングのためのランダムサーチ(rs)最適化を用いた。 この最適化手法は、モデルの微調整と性能向上に重要な役割を果たした。 異なる評価指標を用いて, 視覚的および定量的にモデルを評価した。 不均衡なデータセットを扱う際のモデルの堅牢性は、受信者動作特性(ROC)曲線を用いて評価された。 モデルのうち、ランダムサーチによって最適化されたCustomized Tuned Inception V3 (CTInceptionV3) モデルは優れた性能を示した。 高い精度(91%)、精度(91%)、リコール(91%)、F1スコア(91%)を達成し、ジャガイモ害虫を正確に識別し分類する優れた能力を示した。

Potatoes are the third-largest food crop globally, but their production frequently encounters difficulties because of aggressive pest infestations. The aim of this study is to investigate the various types and characteristics of these pests and propose an efficient PotatoPestNet AI-based automatic potato pest identification system. To accomplish this, we curated a reliable dataset consisting of eight types of potato pests. We leveraged the power of transfer learning by employing five customized, pre-trained transfer learning models: CMobileNetV2, CNASLargeNet, CXception, CDenseNet201, and CInceptionV3, in proposing a robust PotatoPestNet model to accurately classify potato pests. To improve the models' performance, we applied various augmentation techniques, incorporated a global average pooling layer, and implemented proper regularization methods. To further enhance the performance of the models, we utilized random search (RS) optimization for hyperparameter tuning. This optimization technique played a significant role in fine-tuning the models and achieving improved performance. We evaluated the models both visually and quantitatively, utilizing different evaluation metrics. The robustness of the models in handling imbalanced datasets was assessed using the Receiver Operating Characteristic (ROC) curve. Among the models, the Customized Tuned Inception V3 (CTInceptionV3) model, optimized through random search, demonstrated outstanding performance. It achieved the highest accuracy (91%), precision (91%), recall (91%), and F1-score (91%), showcasing its superior ability to accurately identify and classify potato pests.
翻訳日:2023-06-18 12:40:22 公開日:2023-05-27
# ボトルの中のメッセージ - ゴールデンレコードの最新情報

Message in a Bottle -- An Update to the Golden Record ( http://arxiv.org/abs/2306.01765v1 )

ライセンス: Link先を確認
Jonathan H. Jiang, Anamaria Berea, Heather Bowden, Prithwis Das, Kristen A. Fahy, Robert Jew, Xiaoming Jiang, Arik Kershenbaum, David Kipping, Graham Lau, Karen Lewis, C. Isabel Nunez Lendo, Philip E. Rosen, Nick Searra, Stuart F. Taylor, John Traphagan(参考訳) コミュニケーションは人類が先進文明を築けるための重要な資産である。 石器時代から現在のデジタル情報社会までの約31,000の言語を使って、人類は素晴らしい偉業を成し遂げるためにつながり、協力してきた。 新しい夜明けの宇宙時代が進むにつれて、私たちは地球外、遠い惑星、そして地球の遠い未来で知的な種とコミュニケーションをとろうとしています。 この研究は、相互に理解された記号、記号、および擬似的な慣習を欠き、人間の物語を包含するコミュニケーションの手段を評価し設計し、私たちの思考、感情、創造性、願望を伝達する科学的手法を用いている。 このメッセージは、現代人類社会の普遍的かつ文脈的な理解、地球上の生命の進化、そして未来の挑戦を提供するために構成される。 この空間とタイムカプセルを組み立てる際、私たちは人類を祝い、保存するために現在の世代を活性化し、統合することを目指しています。

Communication is an essential asset enabling humankind to forge an advanced civilization. Using approximately 31,000 languages from the Stone Age to our present digital information society, humans have connected and collaborated to accomplish remarkable feats. As the newly dawned Space Age progresses, we are attempting to communicate with intelligent species beyond our world, on distant planets and in Earth's far future. Absent mutually understood signs, symbols, and semiotic conventions, this study, the "Message in a Bottle", uses scientific methods to assess and design a means of communication encapsulating the story of humanity, conveying our thoughts, emotions, ingenuity, and aspirations. The message will be structured to provide a universal yet contextual understanding of modern human society, evolution of life on Earth, and challenges for the future. In assembling this space and time capsule, we aim to energize and unite current generations to celebrate and preserve humanity.
翻訳日:2023-06-11 13:58:05 公開日:2023-05-27
# エージェントベースシミュレーションの世界におけるデータサイエンス

Data Science in an Agent-Based Simulation World ( http://arxiv.org/abs/2306.01764v1 )

ライセンス: Link先を確認
Satoshi Takahashi, Atushi Yoshikawa(参考訳) データサイエンス教育では、現実世界の問題を解決するための学習の重要性が議論されている。 しかし,本手法には,(1)学習目的に応じて複数の現実問題(実データを用いた)を作成するのに非常にコストがかかること,(2)学習者が理想データを用いて教科書から学習した直後に突然,複雑な現実問題に対処しなければならないこと,の2つの問題がある。 本稿では,エージェント・ベース・シミュレーション(ABS)を用いたデータサイエンス教材を提案する。 提案する教材は,ABSモデルとABSストーリーからなる。 課題1を解決するために、ABSモデルの適切なパラメータを設定することにより、学習目標に応じて問題のシナリオを変更することができる。 課題2を解決するために、ABSストーリーの記述を変更してタスクの難易度を調整することができる。 この教材を用いて、学習者はデータ科学者が行う典型的なタスク(因果推論、データ理解、仮説構築、データ収集、データラングリング、データ分析、仮説テスト)を段階的にシミュレートできることを示す。 本稿では,ABSのモデルテーマとしての因果推論と感染症について述べるが,ABSは様々な社会現象を再現するモデルとして利用されており,その表現範囲は極めて広い。 そこで本研究は,データサイエンス教育における様々な目的のための教材構築を促すことを期待する。

In data science education, the importance of learning to solve real-world problems has been argued. However, there are two issues with this approach: (1) it is very costly to prepare multiple real-world problems (using real data) according to the learning objectives, and (2) the learner must suddenly tackle complex real-world problems immediately after learning from a textbook using ideal data. To solve these issues, this paper proposes data science teaching material that uses agent-based simulation (ABS). The proposed teaching material consists of an ABS model and an ABS story. To solve issue 1, the scenario of the problem can be changed according to the learning objectives by setting the appropriate parameters of the ABS model. To solve issue 2, the difficulty level of the tasks can be adjusted by changing the description in the ABS story. We show that, by using this teaching material, the learner can simulate the typical tasks performed by a data scientist in a step-by-step manner (causal inference, data understanding, hypothesis building, data collection, data wrangling, data analysis, and hypothesis testing). The teaching material described in this paper focuses on causal inference as the learning objectives and infectious diseases as the model theme for ABS, but ABS is used as a model to reproduce many types of social phenomena, and its range of expression is extremely wide. Therefore, we expect that the proposed teaching material will inspire the construction of teaching material for various objectives in data science education.
翻訳日:2023-06-11 13:57:48 公開日:2023-05-27
# ベイズ最適化を用いたトラス設計の最適化

Optimization for truss design using Bayesian optimization ( http://arxiv.org/abs/2306.01763v1 )

ライセンス: Link先を確認
Bhawani Sandeep, Surjeet Singh, Sumit Kumar(参考訳) 本稿では,計算機支援有限要素解析を用いたメカニカルトラスの幾何最適化について述べる。 トラスの形状は、耐えられる荷重の容量を決定する主要な要因である。 与えられたパラメータ空間において、我々の目標は、荷重保持能力を最大化するとともに、誘導応力に屈しない船体のパラメータを見つけることである。 設計評価のための計算コストの高い設計解析ツールである有限要素解析に頼っている。 このような高価な評価関数に対して,我々はベイズ最適化を,他のシミュレーションに基づく最適化手法よりも効果的に実証されたサンプルの最適化フレームワークとして選択した。 ベイズ最適化アルゴリズムを利用することで、トラス設計は一連の候補トラス設計を反復的に評価し、結果に基づいて設計空間の確率モデルを更新する。 このモデルは、各候補設計の性能を予測するために使用され、設計空間の探索と活用のバランスをとる予測と取得関数に基づいて、次の候補設計を選択する。 我々の結果は、特に有限要素解析において、高価なエンジニアリング領域におけるAIベースの最適化に関する将来の研究のベースラインとして利用することができる。

In this work, geometry optimization of mechanical truss using computer-aided finite element analysis is presented. The shape of the truss is a dominant factor in determining the capacity of load it can bear. At a given parameter space, our goal is to find the parameters of a hull that maximize the load-bearing capacity and also don't yield to the induced stress. We rely on finite element analysis, which is a computationally costly design analysis tool for design evaluation. For such expensive to-evaluate functions, we chose Bayesian optimization as our optimization framework which has empirically proven sample efficient than other simulation-based optimization methods. By utilizing Bayesian optimization algorithms, the truss design involves iteratively evaluating a set of candidate truss designs and updating a probabilistic model of the design space based on the results. The model is used to predict the performance of each candidate design, and the next candidate design is selected based on the prediction and an acquisition function that balances exploration and exploitation of the design space. Our result can be used as a baseline for future study on AI-based optimization in expensive engineering domains especially in finite element Analysis.
翻訳日:2023-06-11 13:57:23 公開日:2023-05-27
# 逆浄化用予習変圧器

Pre-trained transformer for adversarial purification ( http://arxiv.org/abs/2306.01762v1 )

ライセンス: Link先を確認
Kai Wu, Yujian Betterest Li, Xiaoyu Zhang, Handing Wang, Jing Liu(参考訳) さまざまな日次サービスとしてデプロイされるディープニューラルネットワークがますます多くなっているため、信頼性が不可欠である。 ディープニューラルネットワークが敵の攻撃に対して脆弱で敏感であることは恐ろしいことです。 最近の研究は、通常、敵の訓練や大量のクリーンデータの知識の活用によって堅牢性を強化する。 しかし、実際には、モデルの再訓練と再デプロイには大規模な計算予算が必要であり、オンラインサービスに大きな損失をもたらす。 さらに、ある攻撃の敵例が検出されると、サービスプロバイダには限られた敵例しか利用できないが、多くのクリーンなデータがアクセスできない可能性がある。 上述した問題を踏まえ、凍結した元のサービスモデルに対する特定の攻撃を迅速に防御する新しいシナリオであるRaPiD(Rapid Plug-in Defender)を提案する。 プレトレーニング変圧器モデルの一般化と汎用計算能力に動機づけられ, プレトレーニング変圧器をディフェンダーとして考慮した新しいディフェンダー法cetadを考案した。 特に,CeTaDの1ショット対逆例における有効性と伝達性を評価し,CeTaDの異なる部分の影響とトレーニングデータ条件について検討した。 CeTaDは柔軟性があり、任意の差別化可能なモデルに組み込むことができ、様々な種類の攻撃に適している。

With more and more deep neural networks being deployed as various daily services, their reliability is essential. It's frightening that deep neural networks are vulnerable and sensitive to adversarial attacks, the most common one of which for the services is evasion-based. Recent works usually strengthen the robustness by adversarial training or leveraging the knowledge of an amount of clean data. However, in practical terms, retraining and redeploying the model need a large computational budget, leading to heavy losses to the online service. In addition, when adversarial examples of a certain attack are detected, only limited adversarial examples are available for the service provider, while much clean data may not be accessible. Given the mentioned problems, we propose a new scenario, RaPiD (Rapid Plug-in Defender), which is to rapidly defend against a certain attack for the frozen original service model with limitations of few clean and adversarial examples. Motivated by the generalization and the universal computation ability of pre-trained transformer models, we come up with a new defender method, CeTaD, which stands for Considering Pre-trained Transformers as Defenders. In particular, we evaluate the effectiveness and the transferability of CeTaD in the case of one-shot adversarial examples and explore the impact of different parts of CeTaD as well as training data conditions. CeTaD is flexible, able to be embedded into an arbitrary differentiable model, and suitable for various types of attacks.
翻訳日:2023-06-11 13:57:06 公開日:2023-05-27
# Decom--CAM: 詳細を教えてくれ! 分解クラス活性化マップによる特徴レベル解釈

Decom--CAM: Tell Me What You See, In Details! Feature-Level Interpretation via Decomposition Class Activation Map ( http://arxiv.org/abs/2306.04644v1 )

ライセンス: Link先を確認
Yuguang Yang, Runtang Guo, Sheng Wu, Yimi Wang, Juan Zhang, Xuan Gong, Baochang Zhang(参考訳) ディープラーニングの解釈は非常に難しい問題です。 クラスアクティベーションマップ(CAM)は、オブジェクトの位置を強調することによって深層モデルの予測を解釈するために広く使われているが、決定のためにモデルが使用する健全な機能についての洞察を得られていない。 さらに、既存の評価プロトコルは、解釈可能性のパフォーマンスとモデルの意思決定品質の相関をしばしば見過ごしており、これはより根本的な問題である。 本稿では,分解クラスアクティベーションマップ (decom-cam) と呼ばれる,モデルの予測を特徴レベルで解釈する新しい2段階解釈法を提案する。 Decom-CAMは、特異値分解を用いて中間活性化写像を直交的特徴に分解し、それらの積分により塩分マップを生成する。 特徴の直交性により、camは局所的な特徴を捉えることができ、入力画像内の目、鼻、顔といった意味的要素を特定できるため、深いモデル解釈に有用である。 包括的比較を行うため,分類精度に基づいてデータセットをサブセットに分割し,各サブセットの解釈性能を別々に評価することで,新たな評価プロトコルを提案する。 以上の結果から,Decom-CAMは,すべてのレベルの分類精度でより高精度な精度マップを生成することにより,最先端の手法を著しく上回ることを示す。 機能レベルの解釈可能性アプローチと組み合わせることで、深層ニューラルネットワークの意思決定プロセスを理解するための新しい方向への道を開くことができます。

Interpretation of deep learning remains a very challenging problem. Although the Class Activation Map (CAM) is widely used to interpret deep model predictions by highlighting object location, it fails to provide insight into the salient features used by the model to make decisions. Furthermore, existing evaluation protocols often overlook the correlation between interpretability performance and the model's decision quality, which presents a more fundamental issue. This paper proposes a new two-stage interpretability method called the Decomposition Class Activation Map (Decom-CAM), which offers a feature-level interpretation of the model's prediction. Decom-CAM decomposes intermediate activation maps into orthogonal features using singular value decomposition and generates saliency maps by integrating them. The orthogonality of features enables CAM to capture local features and can be used to pinpoint semantic components such as eyes, noses, and faces in the input image, making it more beneficial for deep model interpretation. To ensure a comprehensive comparison, we introduce a new evaluation protocol by dividing the dataset into subsets based on classification accuracy results and evaluating the interpretability performance on each subset separately. Our experiments demonstrate that the proposed Decom-CAM outperforms current state-of-the-art methods significantly by generating more precise saliency maps across all levels of classification accuracy. Combined with our feature-level interpretability approach, this paper could pave the way for a new direction for understanding the decision-making process of deep neural networks.
翻訳日:2023-06-11 13:27:09 公開日:2023-05-27
# 効率的なICD符号化のための2段階デコーダ

A Two-Stage Decoder for Efficient ICD Coding ( http://arxiv.org/abs/2306.00005v1 )

ライセンス: Link先を確認
Thanh-Tung Nguyen, Viktor Schlegel, Abhinav Kashyap, Stefan Winkler(参考訳) 医療施設における臨床ノートは、ICD(International Classification of Diseases)コード(医学診断と手順の分類コードのリスト)でタグ付けされている。 icd符号化は、騒がしい臨床文書入力とロングテールラベル分布のため、多段テキスト分類問題である。 最近の自動ICD符号化は、医療用メモやコードに追加のデータや知識を付加することで、パフォーマンスを向上させる。 しかし、そのほとんどは、人間のコーダーがコードを生成する方法を反映していない。まず、コーダーは一般的なコードカテゴリを選択し、患者の状態に関連する特定のサブカテゴリを探す。 そこで本研究では,icd符号予測のための2段階復号機構を提案する。 私たちのモデルは、予測を2つのステップに分割するために、コードの階層的特性を使用します。 public mimic-iiiデータセットに関する実験では、外部データや知識を使わずに単一のモデル設定でうまく機能することを示した。

Clinical notes in healthcare facilities are tagged with the International Classification of Diseases (ICD) code; a list of classification codes for medical diagnoses and procedures. ICD coding is a challenging multilabel text classification problem due to noisy clinical document inputs and long-tailed label distribution. Recent automated ICD coding efforts improve performance by encoding medical notes and codes with additional data and knowledge bases. However, most of them do not reflect how human coders generate the code: first, the coders select general code categories and then look for specific subcategories that are relevant to a patient's condition. Inspired by this, we propose a two-stage decoding mechanism to predict ICD codes. Our model uses the hierarchical properties of the codes to split the prediction into two steps: At first, we predict the parent code and then predict the child code based on the previous prediction. Experiments on the public MIMIC-III data set show that our model performs well in single-model settings without external data or knowledge.
翻訳日:2023-06-04 11:00:42 公開日:2023-05-27
# 伝統的なペルシア医学におけるテレケアシステム

A Telecare System for Use in Traditional Persian Medicine ( http://arxiv.org/abs/2305.19282v1 )

ライセンス: Link先を確認
Vahid Reza Nafisi, Roshanak Ghods(参考訳) ペルシャ医学(pm)は、手首の温度/湿度と脈拍を用いて人の健康状態と気質を判定する。 しかし、診断は医師の解釈に依存する可能性があり、PMと現代の医療手法の組み合わせを妨げる。 本研究では,PMに基づくパルス信号計測と温度検出システムを提案する。 このシステムは、記録された熱分布、テンペラメントアンケートおよびカスタマイズされたパルス測定装置を使用する。 収集されたデータは、医薬品の解釈と処方のためのテレケアシステムを介して医師に送信することができる。 このシステムは患者のケアのために臨床的に実施され、34人の被験者の気質を評価し、手首、手裏、顔全体の熱画像を記録した。 本研究は、PMに基づくパルス波やその他の基準を測定するためのカスタマイズされた装置を遠隔医療システムに組み込むことにより、診断の専門家への依存を減らすことを示唆している。

Persian Medicine (PM) uses wrist temperature/humidity and pulse to determine a person's health status and temperament. However, the diagnosis may depend on the physician's interpretation, hindering the combination of PM with modern medical methods. This study proposes a system for measuring pulse signals and temperament detection based on PM. The system uses recorded thermal distribution, a temperament questionnaire, and a customized pulse measurement device. The collected data can be sent to a physician via a telecare system for interpretation and prescription of medications. The system was clinically implemented for patient care, assessed the temperaments of 34 participants, and recorded thermal images of the wrist, back of the hand, and entire face. The study suggests that a customized device for measuring pulse waves and other criteria based on PM can be incorporated into a telemedicine system, reducing the dependency on PM specialists for diagnosis.
翻訳日:2023-06-01 20:37:25 公開日:2023-05-27
# CYRUSサッカーシミュレーション2DチームによるRoboCup 2023の観測

Observation Denoising in CYRUS Soccer Simulation 2D Team For RoboCup 2023 ( http://arxiv.org/abs/2305.19283v1 )

ライセンス: Link先を確認
Aref Sayareh, Nader Zare, Omid Amini, Arad Firouzkouhi, Mahtab Sarvmaili, Stan Matwin(参考訳) ロボカップでは様々なリーグが開催され、サッカー・シミュレーション2Dリーグが主要なリーグである。 サッカーシミュレーション2D (SS2D) は、11人の選手と1人のコーチを含む2つのチームが対戦する。 プレイヤーは試合中にサッカーシミュレーションサーバとしか通信できない。 本稿では,RoboCup 2021のチャンピオンであるCYRUSサッカーシミュレーション2Dチームの最新の研究について述べる。 長い短期記憶ネットワーク (LSTM) とディープニューラルネットワーク (DNN) をベースとした私たちの認知的アイデアを説明する。 CYRUSチームはHeliosとGlidersをベースに開発されたCYRUS2Dベースコードを使っている。

The RoboCup competitions hold various leagues, and the Soccer Simulation 2D League is a major one among them. Soccer Simulation 2D (SS2D) match involves two teams, including 11 players and a coach, competing against each other. The players can only communicate with the Soccer Simulation Server during the game. This paper presents the latest research of the CYRUS soccer simulation 2D team, the champion of RoboCup 2021. We will explain our denoising idea powered by long short-term memory networks (LSTM) and deep neural networks (DNN). The CYRUS team uses the CYRUS2D base code that was developed based on the Helios and Gliders bases.
翻訳日:2023-06-01 20:23:39 公開日:2023-05-27
# MLOps: エンタープライズ機械学習への一歩

MLOps: A Step Forward to Enterprise Machine Learning ( http://arxiv.org/abs/2305.19298v1 )

ライセンス: Link先を確認
A. I. Ullah Tabassam(参考訳) 機械学習オペレーション(MLOps)は、AIとMLモデルの利点を活かそうとするビジネスにおいて、極めて重要な部分になりつつある。 この調査では、MLOpsフレームワーク、Docker、GitHubアクション、Kubernetesなど、MLOpsのメリット、難易度、進化、および重要な基盤技術について詳細にレビューする。 モデル設計、デプロイメント、オペレーションを含むMLOpsワークフローは、モデルとデータ探索とデプロイメントの両方に必要なさまざまなツールとともに、詳細に説明されている。 この記事では、自動化パイプラインのさまざまな成熟度レベルを使用して、少なくとも自動化がまったくなく、ci/cdとctの完全な機能を備えた、mlプロジェクトのエンドツーエンド生産についても説明します。 さらに、オブジェクト検出サービスのためのエンタープライズレベルのMLOpsプロジェクトの詳細な例を使用して、実際のシナリオにおけるテクノロジのワークフローを説明します。 この目的のために、TensorFlow 2 Model Zooから事前トレーニングされたモデルをホストするWebアプリケーションは、パッケージ化され、インターネットにデプロイされる。

Machine Learning Operations (MLOps) is becoming a highly crucial part of businesses looking to capitalize on the benefits of AI and ML models. This research presents a detailed review of MLOps, its benefits, difficulties, evolutions, and important underlying technologies such as MLOps frameworks, Docker, GitHub actions, and Kubernetes. The MLOps workflow, which includes model design, deployment, and operations, is explained in detail along with the various tools necessary for both model and data exploration and deployment. This article also puts light on the end-to-end production of ML projects using various maturity levels of automated pipelines, with the least at no automation at all and the highest with complete CI/CD and CT capabilities. Furthermore, a detailed example of an enterprise-level MLOps project for an object detection service is used to explain the workflow of the technology in a real-world scenario. For this purpose, a web application hosting a pre-trained model from TensorFlow 2 Model Zoo is packaged and deployed to the internet making sure that the system is scalable, reliable, and optimized for deployment at an enterprise level.
翻訳日:2023-06-01 20:14:48 公開日:2023-05-27
# 時空間的特徴を用いた脳波信号からの主題間感情認識

Inter Subject Emotion Recognition Using Spatio-Temporal Features From EEG Signal ( http://arxiv.org/abs/2305.19379v1 )

ライセンス: Link先を確認
Mohammad Asif, Diya Srivastava, Aditya Gupta, Uma Shanker Tiwary(参考訳) 物体間または対象非依存の感情認識は、感情コンピューティングにおいて難しい課題である。 この研究は、脳波信号から感情を独立して分類する、簡単に実装できる感情認識モデルに関するものである。 これは、EEG関連のBCIで使用される有名なEEGNetアーキテクチャに基づいている。 自然性刺激(DENS)データセットを用いた感情データを用いた。 データセットには、参加者が感じた感情のタイミングの正確な情報である感情イベントが含まれている。 このモデルは、感情を分類するためにcnnの規則的、深さ的、分離可能な畳み込み層の組み合わせである。 このモデルでは、脳波チャネルの空間的特徴と、時間とともに変化する脳波信号の時間的特徴を学習することができる。 モデルは原子価空間評価で評価される。 このモデルは73.04%の精度を達成した。

Inter-subject or subject-independent emotion recognition has been a challenging task in affective computing. This work is about an easy-to-implement emotion recognition model that classifies emotions from EEG signals subject independently. It is based on the famous EEGNet architecture, which is used in EEG-related BCIs. We used the Dataset on Emotion using Naturalistic Stimuli (DENS) dataset. The dataset contains the Emotional Events -- the precise information of the emotion timings that participants felt. The model is a combination of regular, depthwise and separable convolution layers of CNN to classify the emotions. The model has the capacity to learn the spatial features of the EEG channels and the temporal features of the EEG signals variability with time. The model is evaluated for the valence space ratings. The model achieved an accuracy of 73.04%.
翻訳日:2023-06-01 19:46:23 公開日:2023-05-27
# 心臓セグメンテーションのための教師なしドメイン適応:構造的相互情報の最大化を目指して

Unsupervised Domain Adaptation for Cardiac Segmentation: Towards Structure Mutual Information Maximization ( http://arxiv.org/abs/2204.09334v3 )

ライセンス: Link先を確認
Changjie Lu, Shen Zheng, Gaurav Gupta(参考訳) 教師なしのドメイン適応アプローチは、最近様々な医療画像分割タスクに成功している。 報告された作業は、ドメイン固有の特徴を調整し、ドメイン固有の相違を最小限にすることで、ドメインシフト問題に対処することが多い。 この戦略は、特定のドメインと異なるドメインの違いが小さい場合にうまく機能します。 しかし、様々な画像モダリティに対するこれらのモデルの一般化能力は依然として大きな課題である。 本稿では,コンパクトな損失関数を下限とする心臓セグメンテーションのための教師なしドメイン適応フレームワークであるUDA-VAE++を紹介する。 この新たな下界を推定するために,グローバル推定器,局所推定器,事前情報マッチング推定器を備えた構造的相互情報推定(SMIE)ブロックを開発し,再構成タスクとセグメント化タスク間の相互情報を最大化する。 具体的には,低分解能の潜在空間から高分解能の潜在空間への情報フローと分散補正を可能にする新しい逐次再パラメータ化スキームを設計する。 ベンチマーク心セグメンテーションデータセットに関する包括的実験により,本モデルが前例より質的,定量的に優れることが示された。 コードはhttps://github.com/LOUEY233/Toward-Mutual-Information}{https://github.com/LOUEY233/Toward-Mutual-Informationで公開されている。

Unsupervised domain adaptation approaches have recently succeeded in various medical image segmentation tasks. The reported works often tackle the domain shift problem by aligning the domain-invariant features and minimizing the domain-specific discrepancies. That strategy works well when the difference between a specific domain and between different domains is slight. However, the generalization ability of these models on diverse imaging modalities remains a significant challenge. This paper introduces UDA-VAE++, an unsupervised domain adaptation framework for cardiac segmentation with a compact loss function lower bound. To estimate this new lower bound, we develop a novel Structure Mutual Information Estimation (SMIE) block with a global estimator, a local estimator, and a prior information matching estimator to maximize the mutual information between the reconstruction and segmentation tasks. Specifically, we design a novel sequential reparameterization scheme that enables information flow and variance correction from the low-resolution latent space to the high-resolution latent space. Comprehensive experiments on benchmark cardiac segmentation datasets demonstrate that our model outperforms previous state-of-the-art qualitatively and quantitatively. The code is available at https://github.com/LOUEY233/Toward-Mutual-Information}{https://github.com/LOUEY233/Toward-Mutual-Information
翻訳日:2023-06-01 03:04:45 公開日:2023-05-27
# ゼロからヒーローへ:ゼロ・フルショット文脈における生体名認識のためのハーネス変換器

From Zero to Hero: Harnessing Transformers for Biomedical Named Entity Recognition in Zero- and Few-shot Contexts ( http://arxiv.org/abs/2305.04928v3 )

ライセンス: Link先を確認
Milo\v{s} Ko\v{s}prdi\'c, Nikola Prodanovi\'c, Adela Ljaji\'c, Bojana Ba\v{s}aragin and Nikola Milo\v{s}evi\'c(参考訳) 生物医学領域における名前付きエンティティ認識(NER)は、与えられた名前付きエンティティの注釈付きテキストの大規模なセットに依存する。 このようなデータセットの作成には時間と費用がかかり、新しいエンティティの抽出には追加のアノテーションタスクとモデルの再トレーニングが必要になる。 そこで本研究では,生物医学領域におけるゼロショットNERの手法を提案する。 マルチクラストークン分類のタスクをバイナリトークン分類に変換し、大量のデータセットとバイオメディカルエンティティを事前学習することで、モデルが与えられた名前と潜在的に新しい名前のエンティティラベル間の意味関係を学習できるようにする。 我々は,ゼロショットNERが35.44%,ワンショットNERが50.10%,10ショットNERが69.94%,100ショットNERが79.51%であった。 提案手法の有効性を実証し, 提案手法の有効性を検証し, 実例数に制限がなく, 従来のトランスフォーマー法を上回り, パラメータが1000倍以上のモデルを用いたGPT3モデルに匹敵する結果を得た。 モデルと開発したコードを公開しています。

Supervised named entity recognition (NER) in the biomedical domain depends on large sets of annotated texts with the given named entities. The creation of such datasets can be time-consuming and expensive, while extraction of new entities requires additional annotation tasks and retraining the model. To address these challenges, this paper proposes a method for zero- and few-shot NER in the biomedical domain. The method is based on transforming the task of multi-class token classification into binary token classification and pre-training on a large amount of datasets and biomedical entities, which allow the model to learn semantic relations between the given and potentially novel named entity labels. We have achieved average F1 scores of 35.44% for zero-shot NER, 50.10% for one-shot NER, 69.94% for 10-shot NER, and 79.51% for 100-shot NER on 9 diverse evaluated biomedical entities with fine-tuned PubMedBERT-based model. The results demonstrate the effectiveness of the proposed method for recognizing new biomedical entities with no or limited number of examples, outperforming previous transformer-based methods, and being comparable to GPT3-based models using models with over 1000 times fewer parameters. We make models and developed code publicly available.
翻訳日:2023-06-01 00:40:20 公開日:2023-05-27
# 2次元ディラック結晶の熱特性に及ぼす高次電子-フォノン相互作用項の影響

Influence of higher order electron-phonon interaction terms on the thermal properties of 2D Dirac crystals ( http://arxiv.org/abs/2305.18369v1 )

ライセンス: Link先を確認
Sina Kazemian, Giovanni Fanchini(参考訳) 熱伝導率などのディラック結晶の本質的性質を理解するためには、ディラック電子と分散音響フォノンとの相互作用を考えるモデルが必要である。 2dディラック結晶の熱伝導率は非常に高いが、望ましくない制限は電子-フォノン(e-ph)相互作用であり、熱伝導率を数ミクロンまで抑えることが示されている。 e-ph熱伝導率はフォノン散乱率に直接関連している。 従来の計算では短波長のフォノンを見落とし、2次元ディラック結晶を解析するには不十分である。 フォノン散乱速度は、電子とフォノン(EP-E*)の崩壊を含む3つの粒子相互作用を考慮すると、通常1階の大きさまで計算される。 しかし、電子の崩壊と新しい電子とフォノン(E-E*P*)の生成を含む過程は無視される。 本研究では,2次元ディラック結晶におけるフォノン散乱速度とe-ph熱伝導率について,短波長フォノンを考慮した正確な式を示す。 特に1次e-ph相互作用におけるフォノン散乱速度とe-ph熱伝導率の計算において、室温でもe-e*p*過程の意義を示す。 さらに,電子とフォノンの崩壊と新しい電子フォノン対の生成を伴うep-e*p*相互作用の2次e-ph相互作用を組み込むことの重要性を強調し,高温・低フェルミエネルギーにおけるフォノン散乱速度とe-ph熱伝導率を正確に決定する。 この4粒子相互作用プロセスは、これらの特性を効果的に特徴づける上で重要な役割を果たす。

To understand the essential properties of Dirac crystals, such as their thermal conductivity, we require models that consider the interaction between Dirac electrons and dispersive acoustic phonons. The exceptionally high thermal conductivity in 2D Dirac crystals is attributed to near-ideal phonon quantum gases, while undesired limitations arise from electron-phonon (e-ph) interactions which have been shown to limit the thermal conductivity up to several microns away. The e-ph thermal conductivity is directly linked to the phonon scattering rate. Conventional calculations overlook phonons with short-dispersive wavelengths, rendering them inadequate for analyzing 2D Dirac crystals. The phonon scattering rate is typically calculated up to the first-order magnitude, considering 3-particle interactions involving the decay of an electron and phonon (EP-E*) to create a new electron. However, processes involving the decay of an electron and the creation of a new electron and phonon (E-E*P*) are neglected. In this study, we present an accurate expression for the phonon scattering rate and e-ph thermal conductivity in 2D Dirac crystals, accounting for short-dispersive wavelength phonons. We demonstrate the significance of the E-E*P* process even at room temperature in calculating the phonon scattering rate and e-ph thermal conductivity, particularly for first-order e-ph interactions. Furthermore, we emphasize the importance of incorporating second-order e-ph interactions, specifically the EP-E*P* interaction involving the decay of an electron and phonon and the creation of a new electron-phonon pair, to accurately determine the phonon scattering rate and e-ph thermal conductivity at high temperatures and low Fermi energies. This 4-particle interaction process plays a crucial role in characterizing these properties effectively.
翻訳日:2023-05-31 22:13:30 公開日:2023-05-27
# CTスキャン画像におけるVGG16アルゴリズムを用いた肺癌の分類

Using VGG16 Algorithms for classification of lung cancer in CT scans Image ( http://arxiv.org/abs/2305.18367v1 )

ライセンス: Link先を確認
Hasan Hejbari Zargar, Saha Hejbari Zargar, Raziye Mehri, Farzane Tajidini(参考訳) 肺がんは、世界中でがん関連の死亡の原因となっている。 癌患者の生存率を高めるには早期肺結節の検出が不可欠である。 伝統的に、医師はがんの疑いのある世界を手作業で特定すべきである。 これらの検出システムの開発において, 肺結節の形態, サイズ, テクスチャの任意性は困難である。 多くの研究は、肺結節の正確な診断と分類にコンピュータビジョンアルゴリズムを適用した。 本稿では, 癌結節の診断・分類を支援するために, VGG16という深層学習アルゴリズムを開発した。 VGG16は悪性、良性、健康な患者のがんの医療像を分類することができる。 本稿では,この単一ニューラルネットワークを用いた結節検出の感度は92.08%,精度91%,aucは93%であった。

Lung cancer is the leading reason behind cancer-related deaths within the world. Early detection of lung nodules is vital for increasing the survival rate of cancer patients. Traditionally, physicians should manually identify the world suspected of getting carcinoma. When developing these detection systems, the arbitrariness of lung nodules' shape, size, and texture could be a challenge. Many studies showed the applied of computer vision algorithms to accurate diagnosis and classification of lung nodules. A deep learning algorithm called the VGG16 was developed during this paper to help medical professionals diagnose and classify carcinoma nodules. VGG16 can classify medical images of carcinoma in malignant, benign, and healthy patients. This paper showed that nodule detection using this single neural network had 92.08% sensitivity, 91% accuracy, and an AUC of 93%.
翻訳日:2023-05-31 22:12:57 公開日:2023-05-27
# GPTモデルは実際に化学で何ができるか? 8つのタスクに関する包括的なベンチマーク

What indeed can GPT models do in chemistry? A comprehensive benchmark on eight tasks ( http://arxiv.org/abs/2305.18365v1 )

ライセンス: Link先を確認
Taicheng Guo, Kehan Guo, Bozhao nan, Zhengwen Liang, Zhichun Guo, Nitesh V. Chawla, Olaf Wiest, Xiangliang Zhang(参考訳) 自然言語処理タスクにおいて強力な能力を持つ大規模言語モデル(LLM)が出現し、科学、金融、ソフトウェア工学など様々な分野に急速に適用されてきた。 しかし、LSMが化学分野を前進させる能力は未だ不明である。 本稿では,8つの実用化学タスクを含む総合的なベンチマークを確立する。 1) 名前予測。 2) 資産予測 3)収量予測。 4) 反応予測, 反応予測 5)レトロシンセシス(生成物からの反応物の合成)、6)テキストに基づく分子設計、 7)分子キャプション,及び 8) 試薬の選択。 我々の分析はBBBP,Tox21,PubChem,USPTO,ChEBIといった広く知られているデータセットに基づいており,実用化学の文脈におけるLLMの容量の広い探索を容易にする。 3つのGPTモデル (GPT-4, GPT-3.5, Davinci-003) をゼロショットおよび少数ショットのインコンテキスト学習環境において, 慎重に選択した実演例と特殊プロンプトを用いて評価した。 私たちの調査の主な成果は 1) GPT-4は,他の2モデルよりも優れている。 2) GPTモデルは,反応予測や逆合成などの分子SMILES表現の正確な理解を必要とするタスクにおいて,競争力の低下を示す。3) GPTモデルは,分子キャプションなどのテキスト関連説明タスクにおいて,強い能力を示す。 4) GPTモデルは, 特性予測や収差予測などの分類やランキングタスクに変換可能な化学問題に適用した場合, 従来の機械学習モデルと同等以上の性能を示す。

Large Language Models (LLMs) with strong abilities in natural language processing tasks have emerged and have been rapidly applied in various kinds of areas such as science, finance and software engineering. However, the capability of LLMs to advance the field of chemistry remains unclear. In this paper,we establish a comprehensive benchmark containing 8 practical chemistry tasks, including 1) name prediction, 2) property prediction, 3) yield prediction, 4) reaction prediction, 5) retrosynthesis (prediction of reactants from products), 6)text-based molecule design, 7) molecule captioning, and 8) reagent selection. Our analysis draws on widely recognized datasets including BBBP, Tox21, PubChem, USPTO, and ChEBI, facilitating a broad exploration of the capacities of LLMs within the context of practical chemistry. Three GPT models (GPT-4, GPT-3.5,and Davinci-003) are evaluated for each chemistry task in zero-shot and few-shot in-context learning settings with carefully selected demonstration examples and specially crafted prompts. The key results of our investigation are 1) GPT-4 outperforms the other two models among the three evaluated; 2) GPT models exhibit less competitive performance in tasks demanding precise understanding of molecular SMILES representation, such as reaction prediction and retrosynthesis;3) GPT models demonstrate strong capabilities in text-related explanation tasks such as molecule captioning; and 4) GPT models exhibit comparable or better performance to classical machine learning models when applied to chemical problems that can be transformed into classification or ranking tasks, such as property prediction, and yield prediction.
翻訳日:2023-05-31 22:12:46 公開日:2023-05-27
# 小格子端における準孔と準粒子のダイナミクス

Dynamics of quasiholes and quasiparticles at the edges of small lattices ( http://arxiv.org/abs/2305.18364v1 )

ライセンス: Link先を確認
Xikun Li, B{\l}a\.zej Jaworowski, Masudul Haque, Anne E. B. Nielsen(参考訳) 円柱境界条件と粒子密度の低い小格子におけるボソニック分数量子ホール系のクエンチダイナミクスについて検討した。 研究された状態は、半充填時のボソニック・ラウリン状態と相対的に準ホールまたは準粒子を持つ。 ピン止め電位はエッジサイト(またはエッジに近いサイト)に置かれ、その後オフにされる。 分数量子ホール系のエッジはキラルエッジモードを担っているため、正のポテンシャルが擬似ホールを挟む場合の1方向の動きと、負のポテンシャルが擬似粒子を挟む場合の反対方向の動きを期待する。 正電位(準ホール)の場合,密度分布のキラル運動が観察され,頑健であること,負電位(準粒子)に対して顕著なキラル運動が存在しないことを数値的に示す。 モデル格子ラウリン波動関数と数値基底状態の比較は、正と負のポテンシャルの両方が、必ずしも小さな格子上で十分に分離されていない任意の粒子を生成・ピンすることを示している。 モデル状態のダイナミクスの初期化は、準粒子のカイラルダイナミクスの欠如も示している。 その結果, 粒子密度が低い小さな格子では, 準粒子は動的過程に強く影響し, 準粒子は動的に堅牢であることがわかった。

We study quench dynamics of bosonic fractional quantum Hall systems in small lattices with cylindrical boundary conditions and low particle density. The states studied have quasiholes or quasiparticles relative to the bosonic Laughlin state at half filling. Pinning potentials are placed at edge sites (or sites close to the edges) and are then turned off. Because the edges of fractional quantum Hall systems host chiral edge modes, we expect chiral dynamics, with motion in one direction for positive potentials pinning quasiholes, and motion in the other direction for negative potentials pinning quasiparticles. We numerically show that chiral motion of the density distribution is observed and robust for the case with positive potentials (quasiholes), but that there is no noticeable chiral motion for negative potentials (quasiparticles). The comparison of the numerical ground states with model lattice Laughlin wavefunctions suggests that both positive and negative potentials do create and pin anyons that are not necessarily well-separated on small lattices. Initializing the dynamics with the model state also shows the lack of chiral dynamics of quasiparticles. Our results suggest that, in small lattices with low particle density, quasiparticles are strongly adversely affected in dynamical processes, whereas quasiholes are dynamically robust.
翻訳日:2023-05-31 22:12:19 公開日:2023-05-27
# 説明可能な会話レコメンダシステムを目指して

Towards Explainable Conversational Recommender Systems ( http://arxiv.org/abs/2305.18363v1 )

ライセンス: Link先を確認
Shuyu Guo, Shuo Zhang, Weiwei Sun, Pengjie Ren, Zhumin Chen, Zhaochun Ren(参考訳) 従来のレコメンデーションシステムにおける説明は、ユーザがレコメンデーションの合理性を理解し、システムの効率性、透明性、信頼性を改善するのに役立つ。 会話環境においては、複数のコンテキスト化された説明を生成する必要がある。 会話レコメンダシステム(crs)における説明可能性を評価するために,従来のレコメンダシステムの概念とcrsの特性に基づく10の評価視点を提案する。 これらの指標を用いて既存の5つのCRSベンチマークデータセットを評価し、CRSの説明品質を改善する必要性を観察する。 これを実現するために、これらの対話を拡張し、新しいCRSデータセット、すなわち Explainable Recommendation Dialogues (E-ReDial) を構築するための手動および自動的なアプローチを実行する。 756の対話があり、2000以上の高品質な書き直し説明がある。 E-ReDialに基づく2つのベースライン手法を比較した。 実験結果から,E-ReDialでトレーニングしたモデルでは,モデルに知識を導入しながら説明性が大幅に向上し,性能が向上することが示唆された。 文脈内学習設定におけるGPT-3は、より現実的で多様な映画記述を生成することができる。 対照的に、e-redialでのt5トレーニングは、ユーザーの好みに基づいて推奨理由を明確に生成する。 E-ReDialはhttps://github.com/Superbooming/E-ReDialで入手できる。

Explanations in conventional recommender systems have demonstrated benefits in helping the user understand the rationality of the recommendations and improving the system's efficiency, transparency, and trustworthiness. In the conversational environment, multiple contextualized explanations need to be generated, which poses further challenges for explanations. To better measure explainability in conversational recommender systems (CRS), we propose ten evaluation perspectives based on concepts from conventional recommender systems together with the characteristics of CRS. We assess five existing CRS benchmark datasets using these metrics and observe the necessity of improving the explanation quality of CRS. To achieve this, we conduct manual and automatic approaches to extend these dialogues and construct a new CRS dataset, namely Explainable Recommendation Dialogues (E-ReDial). It includes 756 dialogues with over 2,000 high-quality rewritten explanations. We compare two baseline approaches to perform explanation generation based on E-ReDial. Experimental results suggest that models trained on E-ReDial can significantly improve explainability while introducing knowledge into the models can further improve the performance. GPT-3 in the in-context learning setting can generate more realistic and diverse movie descriptions. In contrast, T5 training on E-ReDial can better generate clear reasons for recommendations based on user preferences. E-ReDial is available at https://github.com/Superbooming/E-ReDial.
翻訳日:2023-05-31 22:11:47 公開日:2023-05-27
# 統計的に有意な概念に基づくモデルノックオフによる画像分類器の説明

Statistically Significant Concept-based Explanation of Image Classifiers via Model Knockoffs ( http://arxiv.org/abs/2305.18362v1 )

ライセンス: Link先を確認
Kaiwen Xu, Kazuto Fukuchi, Youhei Akimoto and Jun Sakuma(参考訳) 概念に基づく分類器は、画像分類問題における人間の理解可能な概念による深層学習モデルの決定過程を説明することができる。 しかし、概念に基づく説明が偽陽性を引き起こす場合もあり、これは非関連概念を予測タスクにとって重要であると誤解している。 我々の目標は、誤解釈を防ぐための分類の統計的に重要な概念を見つけることである。 本研究では,深層学習モデルを用いて画像概念を学習し,Knockoffサンプルを用いてFalse Discovery Rate(FDR)を一定の値で制御することにより,予測のための重要な概念を選択する手法を提案する。 合成および実データ実験において提案手法の評価を行った。 また,本手法は,信頼度を向上させるために,高い解釈可能な概念を選択しながらFDRを適切に制御できることを示す。

A concept-based classifier can explain the decision process of a deep learning model by human-understandable concepts in image classification problems. However, sometimes concept-based explanations may cause false positives, which misregards unrelated concepts as important for the prediction task. Our goal is to find the statistically significant concept for classification to prevent misinterpretation. In this study, we propose a method using a deep learning model to learn the image concept and then using the Knockoff samples to select the important concepts for prediction by controlling the False Discovery Rate (FDR) under a certain value. We evaluate the proposed method in our synthetic and real data experiments. Also, it shows that our method can control the FDR properly while selecting highly interpretable concepts to improve the trustworthiness of the model.
翻訳日:2023-05-31 22:11:25 公開日:2023-05-27
# 3D OCT網膜画像における軸方向およびコロナ眼球運動の補正のための深層学習ネットワーク

Deep learning network to correct axial and coronal eye motion in 3D OCT retinal imaging ( http://arxiv.org/abs/2305.18361v1 )

ライセンス: Link先を確認
Yiqian Wang, Alexandra Warter, Melina Cavichini, Varsha Alex, Dirk-Uwe G. Bartsch, William R. Freeman, Truong Q. Nguyen, Cheolhong An(参考訳) 光コヒーレンス断層撮影(oct)は最も重要な網膜イメージング技術の一つである。 しかし、不随意運動アーティファクトは、網膜層セグメンテーションやOCT血管造影のような下流分析の質を損なうOCTイメージングにおいて、依然として大きな課題となっている。 深層学習に基づくニューラルネットワークを用いて,OCTの軸運動とコロナ運動のアーチファクトを1つのボリュームスキャンに基づいて補正する。 提案手法は,Z次元とX次元の変位図を2段階連続的に予測する2つの完全畳み込みニューラルネットワークからなる。 実験結果から, 提案手法は動作アーチファクトを効果的に補正し, 誤差が他の方法よりも小さいことを示す。 特に、この方法は網膜全体の曲率を回復することができ、様々な疾患や解像度に対してよく一般化することができる。

Optical Coherence Tomography (OCT) is one of the most important retinal imaging technique. However, involuntary motion artifacts still pose a major challenge in OCT imaging that compromises the quality of downstream analysis, such as retinal layer segmentation and OCT Angiography. We propose deep learning based neural networks to correct axial and coronal motion artifacts in OCT based on a single volumetric scan. The proposed method consists of two fully-convolutional neural networks that predict Z and X dimensional displacement maps sequentially in two stages. The experimental result shows that the proposed method can effectively correct motion artifacts and achieve smaller error than other methods. Specifically, the method can recover the overall curvature of the retina, and can be generalized well to various diseases and resolutions.
翻訳日:2023-05-31 22:11:13 公開日:2023-05-27
# 学習可能自律システムの検証のための推定生成

Assumption Generation for the Verification of Learning-Enabled Autonomous Systems ( http://arxiv.org/abs/2305.18372v1 )

ライセンス: Link先を確認
Corina Pasareanu, Ravi Mangal, Divya Gopinath, and Huafeng Yu(参考訳) これらのシステムは、視覚知覚のためのディープニューラルネットワーク(dnn)のような学習可能なコンポーネントの使用を必要とする複雑な環境で動作するため、自律システムに対する安全性保証の提供は困難である。 DNNは、そのサイズ(数千から数百万のパラメータを持つことができる)、正式な仕様の欠如(DNNは通常、正式な要件がなければラベル付きデータから学習される)、環境の小さな変更に対する敏感さなど、分析が難しい。 本稿では,このような自律システムにおけるシステムレベルの安全性特性の形式的検証のための仮定-保証型構成手法を提案する。 我々は,安全特性の満足度を保証するdnn行動の仮定を自動合成することにより,dnn知覚成分の欠如時にシステムを解析できることを考察した。 合成された仮定は、自律システムに接続された全ての可能なdnnの出力シーケンスを特徴付けるという意味で最も弱い。 仮定はデプロイされたDNN上で実行時のモニタとして利用でき、システム全体の安全性を保証する。 我々は、複雑なdnnを知覚に使用する自律飛行機ドメインのケーススタディに、我々のアプローチを説明する。

Providing safety guarantees for autonomous systems is difficult as these systems operate in complex environments that require the use of learning-enabled components, such as deep neural networks (DNNs) for visual perception. DNNs are hard to analyze due to their size (they can have thousands or millions of parameters), lack of formal specifications (DNNs are typically learnt from labeled data, in the absence of any formal requirements), and sensitivity to small changes in the environment. We present an assume-guarantee style compositional approach for the formal verification of system-level safety properties of such autonomous systems. Our insight is that we can analyze the system in the absence of the DNN perception components by automatically synthesizing assumptions on the DNN behaviour that guarantee the satisfaction of the required safety properties. The synthesized assumptions are the weakest in the sense that they characterize the output sequences of all the possible DNNs that, plugged into the autonomous system, guarantee the required safety properties. The assumptions can be leveraged as run-time monitors over a deployed DNN to guarantee the safety of the overall system; they can also be mined to extract local specifications for use during training and testing of DNNs. We illustrate our approach on a case study taken from the autonomous airplanes domain that uses a complex DNN for perception.
翻訳日:2023-05-31 22:02:19 公開日:2023-05-27
# ColibriUAV: イベントベースカメラとフレームベースカメラを備えた超高速エネルギー効率ニューロモルフィックエッジプロセッシングUAV-Platform

ColibriUAV: An Ultra-Fast, Energy-Efficient Neuromorphic Edge Processing UAV-Platform with Event-Based and Frame-Based Cameras ( http://arxiv.org/abs/2305.18371v1 )

ライセンス: Link先を確認
Sizhen Bian, Lukas Schulthess, Georg Rutishauser, Alfio Di Mauro, Luca Benini, Michele Magno(参考訳) ダイナミックビジョンセンサ(DVS)を利用した無人航空機(UAV)への関心が高まっており、特にバイオインスパイアされたイベントセンサのマイクロ秒レベルの反応時間により、RGBカメラと比較して堅牢性を高め、知覚タスクの遅延を低減する。 フレームベースとイベントベースの両方のカメラインターフェースを備えたuavプラットフォームで、効率的な知覚と近接センサー処理を実現する。 提案されたプラットフォームは、スパイクニューラルネットワークとディープサーナリーニューラルネットワークをターゲットとする2つのハードウェアアクセラレータを備えた、チップ上の新しい低消費電力risc-vシステムであるkrakenを中心に設計された。krakenは、dvsカメラからのイベントデータとrgbカメラからのフレームデータの両方を効率的に処理することができる。 Krakenの重要な機能は、DVSカメラと統合された専用インターフェースである。 本稿は、ニューロモルフィックおよびイベントベースUAVサブシステムのエンドツーエンドのレイテンシと電力効率をベンチマークし、毎秒7200フレームのイベントのスループットと消費電力10.7 \si{\milli\watt}の電力消費を、USBインターフェースによる広く使われているデータ読取手法に比べて6.6倍、100倍の消費電力で示す。 全体的な検知と処理の消費電力は50mW未満であり、ミリ秒の遅延を達成し、低レイテンシの自律ナノドローンにも適している。

The interest in dynamic vision sensor (DVS)-powered unmanned aerial vehicles (UAV) is raising, especially due to the microsecond-level reaction time of the bio-inspired event sensor, which increases robustness and reduces latency of the perception tasks compared to a RGB camera. This work presents ColibriUAV, a UAV platform with both frame-based and event-based cameras interfaces for efficient perception and near-sensor processing. The proposed platform is designed around Kraken, a novel low-power RISC-V System on Chip with two hardware accelerators targeting spiking neural networks and deep ternary neural networks.Kraken is capable of efficiently processing both event data from a DVS camera and frame data from an RGB camera. A key feature of Kraken is its integrated, dedicated interface with a DVS camera. This paper benchmarks the end-to-end latency and power efficiency of the neuromorphic and event-based UAV subsystem, demonstrating state-of-the-art event data with a throughput of 7200 frames of events per second and a power consumption of 10.7 \si{\milli\watt}, which is over 6.6 times faster and a hundred times less power-consuming than the widely-used data reading approach through the USB interface. The overall sensing and processing power consumption is below 50 mW, achieving latency in the milliseconds range, making the platform suitable for low-latency autonomous nano-drones as well.
翻訳日:2023-05-31 22:01:59 公開日:2023-05-27
# 共分散ニューラルネットワークを用いた説明可能な脳年齢予測

Explainable Brain Age Prediction using coVariance Neural Networks ( http://arxiv.org/abs/2305.18370v1 )

ライセンス: Link先を確認
Saurabh Sihag, Gonzalo Mateos, Corey T. McMillan, Alejandro Ribeiro(参考訳) 計算神経科学において、脳画像データを利用して個人に「脳年齢」の見積もりを提供する機械学習アルゴリズムの開発への関心が高まっている。 重要なことは、脳年齢と時間年齢の不一致(「脳年齢ギャップ」と呼ばれる)は、健康状態の悪化による老化の加速を捉え、神経疾患や認知障害に対する脆弱性の増加を反映することができる。 しかし、既存の脳年齢予測アルゴリズムの透明性の欠如と方法論的正当化のために、臨床的意思決定支援のための脳年齢の広範な採用が妨げられている。 本稿では,コバリアンスニューラルネットワーク(VNN)を用いて,皮質厚み特徴を用いた脳年齢予測のための解剖学的解釈可能な枠組みを提案する。 具体的には、私たちの脳年齢予測フレームワークは、アルツハイマー病(AD)の脳年齢ギャップの粗い指標を超えて拡張され、2つの重要な観察を行います。 i)VNNは、貢献する脳領域を同定することにより、ADの脳年齢差の増大に解剖学的解釈性を割り当てることができる。 (ii)vnnsが提供する解釈性は、解剖学的共分散行列の特定の固有ベクトルを利用する能力に起因している。 これらの観察は、脳年齢予測の課題に対する説明可能な視点を促進する。

In computational neuroscience, there has been an increased interest in developing machine learning algorithms that leverage brain imaging data to provide estimates of "brain age" for an individual. Importantly, the discordance between brain age and chronological age (referred to as "brain age gap") can capture accelerated aging due to adverse health conditions and therefore, can reflect increased vulnerability towards neurological disease or cognitive impairments. However, widespread adoption of brain age for clinical decision support has been hindered due to lack of transparency and methodological justifications in most existing brain age prediction algorithms. In this paper, we leverage coVariance neural networks (VNN) to propose an anatomically interpretable framework for brain age prediction using cortical thickness features. Specifically, our brain age prediction framework extends beyond the coarse metric of brain age gap in Alzheimer's disease (AD) and we make two important observations: (i) VNNs can assign anatomical interpretability to elevated brain age gap in AD by identifying contributing brain regions, (ii) the interpretability offered by VNNs is contingent on their ability to exploit specific eigenvectors of the anatomical covariance matrix. Together, these observations facilitate an explainable perspective to the task of brain age prediction.
翻訳日:2023-05-31 22:01:28 公開日:2023-05-27
# 動的コーパスの連続的更新

Continually Updating Generative Retrieval on Dynamic Corpora ( http://arxiv.org/abs/2305.18952v1 )

ライセンス: Link先を確認
Soyoung Yoon, Chaeeun Kim, Hyunji Lee, Joel Jang, Minjoon Seo(参考訳) 生成的検索は、その単純さ、ハイパフォーマンス、そして深い自己回帰モデルのパワーを十分に活用できる能力について、研究コミュニティから多くの注目を集めている。 しかしながら、生成的検索に関する以前の研究は静的ベンチマークで主に研究されてきたが、現実的な検索アプリケーションは時間とともに知識が蓄積される動的環境を伴うことが多い。 本稿では,ストリームQAから派生したコーパスを動的に変化させる検索手法の一般化可能性の定量化を目的としたSTREAMINGIRという新しいベンチマークを提案する。 本ベンチマークでは,bi-encoderとgenerative retrievalの比較評価を行った。 Our results suggest that generative retrieval shows (1) detrimental performance when only supervised data is used for fine-tuning, (2) superior performance over bi-encoders when only unsupervised data is available, and (3) lower performance to bi-encoders when both unsupervised and supervised data is used due to catastrophic forgetting; nevertheless, we show that parameter-efficient measures can effectively mitigate the issue and result in competitive performance and efficiency with respect to the bi-encoder baseline. 本研究は,実用的な動的環境における生成的検索の新たな可能性を開く。 私たちの仕事はオープンソース化されます。

Generative retrieval has recently been gaining a lot of attention from the research community for its simplicity, high performance, and the ability to fully leverage the power of deep autoregressive models. However, prior work on generative retrieval has mostly investigated on static benchmarks, while realistic retrieval applications often involve dynamic environments where knowledge is temporal and accumulated over time. In this paper, we introduce a new benchmark called STREAMINGIR, dedicated to quantifying the generalizability of retrieval methods to dynamically changing corpora derived from StreamingQA, that simulates realistic retrieval use cases. On this benchmark, we conduct an in-depth comparative evaluation of bi-encoder and generative retrieval in terms of performance as well as efficiency under varying degree of supervision. Our results suggest that generative retrieval shows (1) detrimental performance when only supervised data is used for fine-tuning, (2) superior performance over bi-encoders when only unsupervised data is available, and (3) lower performance to bi-encoders when both unsupervised and supervised data is used due to catastrophic forgetting; nevertheless, we show that parameter-efficient measures can effectively mitigate the issue and result in competitive performance and efficiency with respect to the bi-encoder baseline. Our results open up a new potential for generative retrieval in practical dynamic environments. Our work will be open-sourced.
翻訳日:2023-05-31 16:40:28 公開日:2023-05-27
# ブースティングアルゴリズムの双対定式化について

On the Dual Formulation of Boosting Algorithms ( http://arxiv.org/abs/0901.3590v7 )

ライセンス: Link先を確認
Chunhua Shen and Hanxi Li(参考訳) 我々は新しい視点からブースティングアルゴリズムを研究する。 AdaBoost,LogitBoost,および一般化ヒンジ損失を持つソフトマージンLPBoostのラグランジュ双対問題はエントロピー最大化問題である。 これらの促進アルゴリズムの二重問題から, マージンの最大化とマージン分散の制御により, マージン分布の良さを両立させることで, 促進アルゴリズムの成功を理解できることが示され, 理論上はAdaBoostが最小マージンではなく平均マージンを最大化することを示した。 二重性定式化により,カラム生成に基づく最適化アルゴリズムの開発も可能である。 本研究は, 標準段差加法アルゴリズムとほぼ同一の分類結果を示すが, 収束速度ははるかに高速であることを示す。 したがって,提案する最適化手法を用いてアンサンブルを構築するためには,弱い分類器は少ない。

We study boosting algorithms from a new perspective. We show that the Lagrange dual problems of AdaBoost, LogitBoost and soft-margin LPBoost with generalized hinge loss are all entropy maximization problems. By looking at the dual problems of these boosting algorithms, we show that the success of boosting algorithms can be understood in terms of maintaining a better margin distribution by maximizing margins and at the same time controlling the margin variance.We also theoretically prove that, approximately, AdaBoost maximizes the average margin, instead of the minimum margin. The duality formulation also enables us to develop column generation based optimization algorithms, which are totally corrective. We show that they exhibit almost identical classification results to that of standard stage-wise additive boosting algorithms but with much faster convergence rates. Therefore fewer weak classifiers are needed to build the ensemble using our proposed optimization technique.
翻訳日:2023-05-31 05:32:53 公開日:2023-05-27
# 実世界の航空機乗組員ペアリング最適化:コラム生成法に対する遺伝的アルゴリズムのカスタマイズ

Real-World Airline Crew Pairing Optimization: Customized Genetic Algorithm versus Column Generation Method ( http://arxiv.org/abs/2003.03792v2 )

ライセンス: Link先を確認
Divyam Aggarwal, Dhish Kumar Saxena, Thomas Back, and Michael Emmerich(参考訳) 航空会社のクルーペアリング最適化問題(cpop)は、航空会社の高度に制約されたフライトスケジュールのすべてのフライトをカバーする一連のフライトシーケンス(crewペアリング)を最小コストで見つけることを目的としている。 乗員コストは燃料コストに次いで第2位であるため、CPOP解決は航空会社にとって極めて重要である。 しかし、CPOPはNPハードであり、それに取り組むのは非常に難しい。 文献によれば、CPOPのスケールと複雑さが合理的に制限され、全てのクルーペアの列挙が可能になった場合、メタヒューリスティックスは主に遺伝的アルゴリズム(GA)が用いられる。 その他、列生成(cg)ベースの混合整数プログラミング技術が用いられる。 特に文献によると、最大45,000人の乗員ペアがGAによって取り組まれている。 本稿では,米国発の大型航空会社の800便以上(月33,000便以上)について検討し,約400,000人以上の乗務員のペアを列挙してGAの有効性を検証した。 そこで本研究ではドメイン知識によるカスタマイズGAを提案する。 GA操作、特に初期化とクロスオーバーにドメイン知識を組み込むことの有用性は、適切な実験を通して強調される。 最後に、提案したGAの性能を、CGベースのアプローチ(著者が社内で開発した)と比較する。 後者は,ソリューションのコスト品質と実行時間の観点からは優れているが,本論文は,GAにおけるドメイン知識駆動型カスタマイズの強みと限界をよりよく理解し,CPOPを含む組合せ最適化問題の解決に役立てることが期待される。

Airline crew pairing optimization problem (CPOP) aims to find a set of flight sequences (crew pairings) that cover all flights in an airline's highly constrained flight schedule at minimum cost. Since crew cost is second only to the fuel cost, CPOP solutioning is critically important for an airline. However, CPOP is NP-hard, and tackling it is quite challenging. The literature suggests, that when the CPOP's scale and complexity is reasonably limited, and an enumeration of all crew pairings is possible, then Metaheuristics are used, predominantly Genetic Algorithms (GAs). Else, Column Generation (CG) based Mixed Integer Programming techniques are used. Notably, as per the literature, a maximum of 45,000 crew pairings have been tackled by GAs. In a significant departure, this paper considers over 800 flights of a US-based large airline (with a monthly network of over 33,000 flights), and tests the efficacy of GAs by enumerating all 400,000+ crew pairings, apriori. Towards it, this paper proposes a domain-knowledge-driven customized-GA. The utility of incorporating domain-knowledge in GA operations, particularly initialization and crossover, is highlighted through suitable experiments. Finally, the proposed GA's performance is compared with a CG-based approach (developed in-house by the authors). Though the latter is found to perform better in terms of solution's cost-quality and run time, it is hoped that this paper will help in better understanding the strengths and limitations of domain-knowledge-driven customizations in GAs, for solving combinatorial optimization problems, including CPOPs.
翻訳日:2023-05-31 05:07:32 公開日:2023-05-27
# Markovのサンプルはどの程度良いか?

How good is Good-Turing for Markov samples? ( http://arxiv.org/abs/2102.01938v3 )

ライセンス: Link先を確認
Prafulla Chandra, Andrew Thangaraj and Nived Rajaraman(参考訳) GT(Good-Turing, Good-Turing, GT)推定器は、不足質量(すなわち、不足シンボルの総確率)を$n$サンプルで推定し、ちょうど$n$で分割されたシンボルの数である。 I.d.サンプルの場合、GT推定器のバイアスと二乗誤差リスクは、すべてのシンボルに対して期待される誤差を均一にバウンドすることで1/n$に低下する。 本研究では,定常分布 $[\pi_x:x \in \mathcal{x}]$ および遷移確率行列 (t.p.m.) $p$ を持つアルファベット $\mathcal{x}$ 上のマルコフサンプルの欠落定常質量 (すなわち欠落記号の完全定常確率) に対する gt 推定器の収束について検討する。 GTはマルコフとしてモデル化された単語列に確率を割り当てる言語モデルのような時間依存性を持つアプリケーションで広く使われているため、これは重要かつ興味深い問題である。 gt の収束は $(p^{\sim x})^n$ の収束に依存しており、ここで $p^{\sim x}$ は $p$ であり、$x$-th の列は 0 である。 これは、ペロン固有値 $\lambda^{\sim x}$ of $P^{\sim x}$ と $\pi_x$ との関係に一様に依存する。 New York Times と Charles Dickens corpora から得られたランダムに生成された t.p.ms と t.p.ms に対して、$\lambda^{\sim x}$ と $\pi_x$ の関係を数値的に表す。 これは言語モデルと実践的なテキストデータシナリオにおけるGTの成功をサポートする。 rank-2 のマルコフ鎖では、スペクトルギャップ $\beta$ を持つ対角化可能な t.p.ms は、静止質量の推定のためにそれぞれ 1/(n\beta^5)$ と 1/(n\beta)$ である。 この理論的結果は、i.d. または rank-1 t.p.ms の1/n$ ミニマックスレートをランク2 マルコフに拡張し、マルコフサンプルの欠落に対する最初のミニマックスレート結果である。

The Good-Turing (GT) estimator for the missing mass (i.e., total probability of missing symbols) in $n$ samples is the number of symbols that appeared exactly once divided by $n$. For i.i.d. samples, the bias and squared-error risk of the GT estimator can be shown to fall as $1/n$ by bounding the expected error uniformly over all symbols. In this work, we study convergence of the GT estimator for missing stationary mass (i.e., total stationary probability of missing symbols) of Markov samples on an alphabet $\mathcal{X}$ with stationary distribution $[\pi_x:x \in \mathcal{X}]$ and transition probability matrix (t.p.m.) $P$. This is an important and interesting problem because GT is widely used in applications with temporal dependencies such as language models assigning probabilities to word sequences, which are modelled as Markov. We show that convergence of GT depends on convergence of $(P^{\sim x})^n$, where $P^{\sim x}$ is $P$ with the $x$-th column zeroed out. This, in turn, depends on the Perron eigenvalue $\lambda^{\sim x}$ of $P^{\sim x}$ and its relationship with $\pi_x$ uniformly over $x$. For randomly generated t.p.ms and t.p.ms derived from New York Times and Charles Dickens corpora, we numerically exhibit such uniform-over-$x$ relationships between $\lambda^{\sim x}$ and $\pi_x$. This supports the observed success of GT in language models and practical text data scenarios. For Markov chains with rank-2, diagonalizable t.p.ms having spectral gap $\beta$, we show minimax rate upper and lower bounds of $1/(n\beta^5)$ and $1/(n\beta)$, respectively, for the estimation of stationary missing mass. This theoretical result extends the $1/n$ minimax rate for i.i.d. or rank-1 t.p.ms to rank-2 Markov, and is a first such minimax rate result for missing mass of Markov samples.
翻訳日:2023-05-31 04:57:59 公開日:2023-05-27
# グラフ対称性からの脳内不変度変換は可能か?

Does the Brain Infer Invariance Transformations from Graph Symmetries? ( http://arxiv.org/abs/2111.06174v2 )

ライセンス: Link先を確認
Helmut Linde(参考訳) 知覚的変化の下での自然物体の不変性は、シナプス接続グラフの対称性によって脳内にコード化される可能性がある。 このグラフは、異なる知覚的様相にまたがる生物学的に妥当なプロセスにおいて教師なし学習によって確立することができる。 この仮説符号化方式は、自然言語と画像データの相関構造によって支持され、一次感覚野に関する多くの経験的観察と一致した神経接続アーキテクチャを予測する。

The invariance of natural objects under perceptual changes is possibly encoded in the brain by symmetries in the graph of synaptic connections. The graph can be established via unsupervised learning in a biologically plausible process across different perceptual modalities. This hypothetical encoding scheme is supported by the correlation structure of naturalistic audio and image data and it predicts a neural connectivity architecture which is consistent with many empirical observations about primary sensory cortex.
翻訳日:2023-05-31 04:49:27 公開日:2023-05-27
# シンクホーン分布ロバスト最適化

Sinkhorn Distributionally Robust Optimization ( http://arxiv.org/abs/2109.11926v3 )

ライセンス: Link先を確認
Jie Wang, Rui Gao, Yao Xie(参考訳) エントロピー正則化に基づくワッサーシュタイン距離の変種であるシンクホーン距離を持つ分布ロバスト最適化(DRO)について検討する。 一般名詞分布に対する凸プログラミング二重再構成を導出する。 ワッサーシュタイン DRO と比較すると、より大きな損失関数のクラスに対して計算的にトラクタブルであり、その最悪の分布は実用上より妥当である。 そこで我々は, バイアスド・グラデーション・オラクルを用いた確率的ミラー降下アルゴリズムを開発し, 収束率の解析を行った。 最後に,合成データと実データを用いて,その優れた性能を示す数値例を示す。

We study distributionally robust optimization (DRO) with Sinkhorn distance -- a variant of Wasserstein distance based on entropic regularization. We derive convex programming dual reformulation for a general nominal distribution. Compared with Wasserstein DRO, it is computationally tractable for a larger class of loss functions, and its worst-case distribution is more reasonable for practical applications. To solve the dual reformulation, we develop a stochastic mirror descent algorithm using biased gradient oracles and analyze its convergence rate. Finally, we provide numerical examples using synthetic and real data to demonstrate its superior performance.
翻訳日:2023-05-31 04:48:50 公開日:2023-05-27
# 分散ドリフト下における確率最適化

Stochastic Optimization under Distributional Drift ( http://arxiv.org/abs/2108.07356v4 )

ライセンス: Link先を確認
Joshua Cutler, Dmitriy Drusvyatskiy, Zaid Harchaoui(参考訳) 我々は、時間と決定変数自体に共同で依存する可能性のある未知の確率力学に基づいて進化している凸関数を最小化する問題を考察する。 このような問題は、機械学習や信号処理の文献において、概念ドリフト、確率追跡、実行的予測といった名前で数多く発生している。 我々は,確率的アルゴリズムの予測と高い確率の両方で有効な境界に焦点をあて,平均化を繰り返す新しい非漸近収束保証を提供する。 効率評価の結果, 最適化誤差, 勾配雑音, 時間ドリフトの寄与を明らかに分離した。 特に,近位確率勾配法の追従効率がステップ減衰スケジュールから著しく向上する低ドリフト-ノイズ方式を同定した。 数値実験で結果が分かる。

We consider the problem of minimizing a convex function that is evolving according to unknown and possibly stochastic dynamics, which may depend jointly on time and on the decision variable itself. Such problems abound in the machine learning and signal processing literature, under the names of concept drift, stochastic tracking, and performative prediction. We provide novel non-asymptotic convergence guarantees for stochastic algorithms with iterate averaging, focusing on bounds valid both in expectation and with high probability. The efficiency estimates we obtain clearly decouple the contributions of optimization error, gradient noise, and time drift. Notably, we identify a low drift-to-noise regime in which the tracking efficiency of the proximal stochastic gradient method benefits significantly from a step decay schedule. Numerical experiments illustrate our results.
翻訳日:2023-05-31 04:47:50 公開日:2023-05-27
# 一定の学習率を持つSGDは局所最大値に収束できる

SGD with a Constant Large Learning Rate Can Converge to Local Maxima ( http://arxiv.org/abs/2107.11774v4 )

ライセンス: Link先を確認
Liu Ziyin, Botao Li, James B. Simon, Masahito Ueda(参考訳) 確率勾配降下(SGD)に関する以前の研究は、しばしばその成功に焦点を当てている。 本研究では, 過去の研究がしばしば想定する体制にない場合, SGDは多くの奇妙な, 潜在的に望ましくない動作を示すことができる, 最悪の最適化問題を構築する。 具体的には,(1)SGDは局所最大値に収束し,(2)SGDは緩やかにサドル点を脱出し,(3)SGDは平坦な点よりも鋭い最小値を好む,(4)AMSGradは局所最大値に収束するといったランドスケープとデータ分布を構築する。 また、ニューラルネットワークのような最小の例でも結果がわかる。 本結果は,学習におけるSGDの役割を理解するために,ミニバッチサンプリング,離散時間更新ルール,現実的な景観を同時に解析することの重要性を強調した。

Previous works on stochastic gradient descent (SGD) often focus on its success. In this work, we construct worst-case optimization problems illustrating that, when not in the regimes that the previous works often assume, SGD can exhibit many strange and potentially undesirable behaviors. Specifically, we construct landscapes and data distributions such that (1) SGD converges to local maxima, (2) SGD escapes saddle points arbitrarily slowly, (3) SGD prefers sharp minima over flat ones, and (4) AMSGrad converges to local maxima. We also realize results in a minimal neural network-like example. Our results highlight the importance of simultaneously analyzing the minibatch sampling, discrete-time updates rules, and realistic landscapes to understand the role of SGD in deep learning.
翻訳日:2023-05-31 04:47:37 公開日:2023-05-27
# 可変依存型ベストアーム識別

Variance-Dependent Best Arm Identification ( http://arxiv.org/abs/2106.10417v3 )

ライセンス: Link先を確認
Pinyan Lu, Chao Tao, Xiaojin Zhang(参考訳) 確率的マルチアームバンディットゲームにおいて,最適な腕を特定する問題について検討する。 一組の$n$ arms が$$から$n$ にインデックスされた場合、各 arm $i$ は$[0,1]$ と平均$\theta_i$ と分散 $\sigma_i^2$ でサポートされている未知の報酬分布に関連付けられる。 \theta_1 > \theta_2 \geq \cdots \geq\theta_n$ と仮定する。 本稿では,武器の報酬のギャップと分散を探索する適応アルゴリズムを提案し,新しいアプローチであるtextit{grouped central elimination} を用いて,収集した情報に基づいて今後の決定を行う。 提案アルゴリズムは、確率$(1-\delta)$でベストアームを出力することを保証し、最大$O \left(\sum_{i = 1}^n \left(\frac{\sigma_i^2}{\Delta_i^2} + \frac{1}{\Delta_i}\right)(\ln \delta^{-1} + \ln \ln \Delta_i^{-1})\right)$サンプルを使用する。 これはいくつかの好都合なシナリオにおいて分散非依存アルゴリズムよりも大きな利点を達成し、最高の腕に余分な$\ln n$因子を取り除く最初の結果である。 さらに、$\Omega \left( \sum_{i = 1}^n \left( \frac{\sigma_i^2}{\Delta_i^2} + \frac{1}{\Delta_i} \right) \ln \delta^{-1} \right)$サンプルは同じ目的を達成するためにアルゴリズムに必要であることを示す。

We study the problem of identifying the best arm in a stochastic multi-armed bandit game. Given a set of $n$ arms indexed from $1$ to $n$, each arm $i$ is associated with an unknown reward distribution supported on $[0,1]$ with mean $\theta_i$ and variance $\sigma_i^2$. Assume $\theta_1 > \theta_2 \geq \cdots \geq\theta_n$. We propose an adaptive algorithm which explores the gaps and variances of the rewards of the arms and makes future decisions based on the gathered information using a novel approach called \textit{grouped median elimination}. The proposed algorithm guarantees to output the best arm with probability $(1-\delta)$ and uses at most $O \left(\sum_{i = 1}^n \left(\frac{\sigma_i^2}{\Delta_i^2} + \frac{1}{\Delta_i}\right)(\ln \delta^{-1} + \ln \ln \Delta_i^{-1})\right)$ samples, where $\Delta_i$ ($i \geq 2$) denotes the reward gap between arm $i$ and the best arm and we define $\Delta_1 = \Delta_2$. This achieves a significant advantage over the variance-independent algorithms in some favorable scenarios and is the first result that removes the extra $\ln n$ factor on the best arm compared with the state-of-the-art. We further show that $\Omega \left( \sum_{i = 1}^n \left( \frac{\sigma_i^2}{\Delta_i^2} + \frac{1}{\Delta_i} \right) \ln \delta^{-1} \right)$ samples are necessary for an algorithm to achieve the same goal, thereby illustrating that our algorithm is optimal up to doubly logarithmic terms.
翻訳日:2023-05-31 04:46:25 公開日:2023-05-27
# 音声分離のための自己注意機構の探索

Exploring Self-Attention Mechanisms for Speech Separation ( http://arxiv.org/abs/2202.02884v2 )

ライセンス: Link先を確認
Cem Subakan, Mirco Ravanelli, Samuele Cornell, Francois Grondin, Mirko Bronzi(参考訳) トランスフォーマーはディープラーニングの大幅な改善を可能にした。 並列処理を活用しながら、多くのタスクで再帰モデルや畳み込みモデルを上回ることが多い。 近年,WSJ0-2/3 Mixデータセットを用いた音声分離において,最先端性能を実現するSepFormerを提案する。 本稿では,音声分離のための奥行き変換器について検討する。 特に、SepFormerに関する以前の調査結果は、LibriMix、WHAM!、WHAMR!といった、より困難なノイズとノイズの残響データセットに関する結果を提供することで拡張します。 . さらに,本モデルを拡張して音声強調を行い,復調作業に関する実験的証拠を提供する。 最後に,音声分離において,Linformers,Lonformers,ReFormersなどの効率的な自己認識機構の利用を初めて検討する。 メモリ要求を大幅に削減できることがわかった。 例えば,WSJ0-2Mixデータセット上で人気の高いConv-TasNetモデルよりも高速で,メモリ消費の点で同等であることを示す。

Transformers have enabled impressive improvements in deep learning. They often outperform recurrent and convolutional models in many tasks while taking advantage of parallel processing. Recently, we proposed the SepFormer, which obtains state-of-the-art performance in speech separation with the WSJ0-2/3 Mix datasets. This paper studies in-depth Transformers for speech separation. In particular, we extend our previous findings on the SepFormer by providing results on more challenging noisy and noisy-reverberant datasets, such as LibriMix, WHAM!, and WHAMR!. Moreover, we extend our model to perform speech enhancement and provide experimental evidence on denoising and dereverberation tasks. Finally, we investigate, for the first time in speech separation, the use of efficient self-attention mechanisms such as Linformers, Lonformers, and ReFormers. We found that they reduce memory requirements significantly. For example, we show that the Reformer-based attention outperforms the popular Conv-TasNet model on the WSJ0-2Mix dataset while being faster at inference and comparable in terms of memory consumption.
翻訳日:2023-05-31 04:40:57 公開日:2023-05-27
# アメリカにおけるチューブ:自動話者識別に対するアナログ攻撃

Tubes Among Us: Analog Attack on Automatic Speaker Identification ( http://arxiv.org/abs/2202.02751v2 )

ライセンス: Link先を確認
Shimaa Ahmed, Yash Wani, Ali Shahin Shamsabadi, Mohammad Yaghini, Ilia Shumailov, Nicolas Papernot, Kassem Fawaz(参考訳) 近年、機械学習を利用した音響対応パーソナルデバイスの人気が高まっている。 しかし、機械学習は敵の例に弱いことが証明されている。 現代の多くのシステムは、人工知能を標的にして攻撃から身を守る。つまり、敵の例を生成するのに人間の関与の欠如を検出するメカニズムを展開する。 しかし、これらの防御は、人間が有意義で標的を絞った敵の例を生産できないと暗黙的に仮定している。 本稿では,この仮定が間違っていることを示す。 特に、話者識別のようなタスクでは、人間が直接、コストと監督の少ないアナログの敵の例を生成できることを実証する: 単にチューブを通して話すことで、相手は話者識別のためのMLモデルの目で、他の話者を確実に特定することができる。 本研究は,携帯電話バンキングなどの実生活におけるセキュリティクリティカルな場面での利用に疑問を呈し,生活性検出などの他の音響バイオメトリックタスクにも及んでいる。

Recent years have seen a surge in the popularity of acoustics-enabled personal devices powered by machine learning. Yet, machine learning has proven to be vulnerable to adversarial examples. A large number of modern systems protect themselves against such attacks by targeting artificiality, i.e., they deploy mechanisms to detect the lack of human involvement in generating the adversarial examples. However, these defenses implicitly assume that humans are incapable of producing meaningful and targeted adversarial examples. In this paper, we show that this base assumption is wrong. In particular, we demonstrate that for tasks like speaker identification, a human is capable of producing analog adversarial examples directly with little cost and supervision: by simply speaking through a tube, an adversary reliably impersonates other speakers in eyes of ML models for speaker identification. Our findings extend to a range of other acoustic-biometric tasks such as liveness detection, bringing into question their use in security-critical settings in real life, such as phone banking.
翻訳日:2023-05-31 04:40:39 公開日:2023-05-27
# 石油株予測用LSTMモデルの解釈可能性:相関特性の影響

The Interpretability of LSTM Models for Predicting Oil Company Stocks: impacts of correlated features ( http://arxiv.org/abs/2201.00350v3 )

ライセンス: Link先を確認
Javad T. Firouzjaee and Pouriya Khaliliyan(参考訳) 石油会社は世界最大の企業の一つであり、世界の株式市場における経済指標は、金、原油、ドルとの関係から世界経済と市場に大きな影響を与えている。 本研究では,石油会社の在庫予測のための長期記憶モデル(LSTM)の解釈可能性に及ぼす相関特性の影響について検討した。 そこで我々は,LSTM(Standard Long Short-Term Memory)ネットワークを設計し,様々な相関データセットを用いて学習した。 本研究の目的は、原油価格、金価格、米ドルといった市場に影響を与える複数の要因を考慮し、株価予測の精度を向上させることである。 その結果,石油在庫と相関する機能を追加してもLSTMモデルの解釈性は向上しないことがわかった。 これらの結果から,LSTMモデルは株価の予測に有効であるが,解釈可能性には限界があることが示唆された。 株価の変動を引き起こす要因を十分に理解することが困難になる可能性があるため、株価予測にlstmモデルのみに頼る場合、注意すべきである。

Oil companies are among the largest companies in the world whose economic indicators in the global stock market have a great impact on the world economy and market due to their relation to gold, crude oil, and the dollar. This study investigates the impact of correlated features on the interpretability of Long Short-Term Memory (LSTM) models for predicting oil company stocks. To achieve this, we designed a Standard Long Short-Term Memory (LSTM) network and trained it using various correlated datasets. Our approach aims to improve the accuracy of stock price prediction by considering the multiple factors affecting the market, such as crude oil prices, gold prices, and the US dollar. The results demonstrate that adding a feature correlated with oil stocks does not improve the interpretability of LSTM models. These findings suggest that while LSTM models may be effective in predicting stock prices, their interpretability may be limited. Caution should be exercised when relying solely on LSTM models for stock price prediction as their lack of interpretability may make it difficult to fully understand the underlying factors driving stock price movements.
翻訳日:2023-05-31 04:38:49 公開日:2023-05-27
# 1次元におけるディラック粒子の検出時間

Detection time of Dirac particles in one space dimension ( http://arxiv.org/abs/2112.07366v2 )

ライセンス: Link先を確認
A. Shadi Tahvildar-Zadeh and Stephanie Zhou(参考訳) 1次元空間内の間隔内の源点から放出される粒子について検討し、到着時刻を登録する間隔の終点に位置する検出器を通過させる。 時間が自己随伴作用素ではないため、量子力学の正統的な物語において、到着または検出時間の曖昧な測定が問題となる。 対照的に、運動がデブログリ=ボーム誘導法則を介して波動関数によって導かれる粒子の境界における到着時間は明確に定義されており、その構成の詳細に依存しない効果的な方法で検出器の存在をモデル化できるならば、計算的に実現可能である。 タムルカが提唱したディラック方程式(ABCD)の吸収境界条件は、当初は領域内の粒子と領域の境界に位置する検出器との相互作用をシミュレートすることを目的としている。 明示的な解を求めることにより,波動関数で満たされるディラック方程式の初期有界値問題は地球規模で良好に表され,解は初期データの正則性を継承し,連続的に依存することを示す。 次に、その間隔内の源から放出される一対の粒子の場合を考察し、各検出器における最初の到着時刻の分布に関する明示的な公式を導出し、この設定における非局所性に関する問題を研究できることを期待している。

We consider particles emanating from a source point inside an interval in one-dimensional space and passing through detectors situated at the endpoints of the interval that register their arrival time. Unambiguous measurements of arrival or detection time are problematic in the orthodox narratives of quantum mechanics, since time is not a self-adjoint operator. By contrast, the arrival time at the boundary of a particle whose motion is being guided by a wave function through the deBroglie-Bohm guiding law is well-defined and unambiguous, and can be computationally feasible provided the presence of detectors can be modeled in an effective way that does not depend on the details of their makeup. We use an absorbing boundary condition for Dirac's equation (ABCD) proposed by Tumulka, which is meant to simulate the interaction of a particle initially inside a domain with the detectors situated on the boundary of the domain. By finding an explicit solution, we prove that the initial-boundary value problem for Dirac's equation satisfied by the wave function is globally well-posed, the solution inherits the regularity of the initial data, and depends continuously on it. We then consider the case of a pair of particles emanating from the source inside the interval, and derive explicit formulas for the distribution of first arrival times at each detector, which we hope can be used to study issues related to non-locality in this setup.
翻訳日:2023-05-31 04:38:02 公開日:2023-05-27
# 局所測定による超伝導体のチャーン数同定

Identifying Chern numbers of superconductors from local measurements ( http://arxiv.org/abs/2112.06777v2 )

ライセンス: Link先を確認
Paul Baireuther, Marcin P{\l}odzie\'n, Teemu Ojanen, Jakub Tworzyd{\l}o, Timo Hyart(参考訳) トポロジカルな物質の魅力は、その顕著な応答特性と量子技術で使用できるエキゾチックな準粒子に由来する。 特に、現在大規模な取り組みは、トポロジカル超伝導体とそのマヨラナ励起の実現に焦点を当てている。 しかし、超伝導体のトポロジカルな性質を現在の実験プローブで決定することは大きな課題である。 この欠点は、非常にリッチなトポロジを示すように理論化され、輸送実験よりもローカルプローブによりアクセスしやすい設計プラットフォームが急速に発達しているため、ますます強まりつつある。 本研究では,2次元(2次元)カイラル超伝導体と絶縁体を局所密度(LDOS)データから位相状態に分類するための堅牢な機械学習プロトコルを提案する。 ldosは標準実験手法で測定できるため,2次元超伝導体の位相位相相を時間反転対称性で同定する約30年にわたる課題を克服できる。

Fascination in topological materials originates from their remarkable response properties and exotic quasiparticles which can be utilized in quantum technologies. In particular, large-scale efforts are currently focused on realizing topological superconductors and their Majorana excitations. However, determining the topological nature of superconductors with current experimental probes is an outstanding challenge. This shortcoming has become increasingly pressing due to rapidly developing designer platforms which are theorized to display very rich topology and are better accessed by local probes rather than transport experiments. We introduce a robust machine-learning protocol for classifying the topological states of two-dimensional (2D) chiral superconductors and insulators from local density of states (LDOS) data. Since the LDOS can be measured with standard experimental techniques, our protocol contributes to overcoming the almost three decades standing problem of identifying the topological phase of 2D superconductors with broken time-reversal symmetry.
翻訳日:2023-05-31 04:37:37 公開日:2023-05-27
# 深層学習に基づく複数種類の癌画像から腫瘍の突然変異負担状態を明らかにするアプローチ

Deep learning-based approach to reveal tumor mutational burden status from whole slide images across multiple cancer types ( http://arxiv.org/abs/2204.03257v2 )

ライセンス: Link先を確認
Siteng Chen, Jinxi Xiang, Xiyue Wang, Jun Zhang, Sen Yang, Junzhou Huang, Wei Yang, Junhua Zheng, Xiao Han(参考訳) 腫瘍突然変異負担(TMB)は、免疫療法の潜在的なゲノムバイオマーカーである。 しかし,exomeシークエンシングで検出されたtmbは低リソース環境における臨床浸透性に欠ける。 本研究では,多癌TMB予測モデル(MC-TMB)において,日常的に使用されるスライド画像からTMB状態を検出するためのマルチスケールディープラーニングフレームワークを提案する。 MC-TMB はクロスバリデーションコホートにおいて 0.818 (0.804-0.831) の曲線下の平均面積を達成し, 各単スケールモデルよりも優れた性能を示した。 単発腫瘍モデルに対するmc-tmbの改良はx10倍率のアブレーション試験でも確認され、高関心領域は一般的に密集したリンパ組織浸潤および異型腫瘍細胞に対応している。 MC-TMBアルゴリズムは、AUCが0.732(0.683-0.761)で外部検証コホートをうまく一般化し、他の手法と比較して性能が向上した。 以上より,複数のがんタイプにまたがる病的スライドから腫瘍突然変異の重荷状態を明らかにするための深層学習に基づくアプローチを提案した。

Tumor mutational burden (TMB) is a potential genomic biomarker of immunotherapy. However, TMB detected through whole exome sequencing lacks clinical penetration in low-resource settings. In this study, we proposed a multi-scale deep learning framework to address the detection of TMB status from routinely used whole slide images for a multiple cancer TMB prediction model (MC- TMB). The MC-TMB achieved a mean area under the curve (AUC) of 0.818 (0.804-0.831) in the cross-validation cohort, which showed superior performance to each single-scale model. The improvements of MC-TMB over the single-tumor models were also confirmed by the ablation tests on x10 magnification, and the highly concerned regions typically correspond to dense lymphocytic infiltration and heteromorphic tumor cells. MC-TMB algorithm also exhibited good generalization on the external validation cohort with an AUC of 0.732 (0.683-0.761), and better performance when compared to other methods. In conclusion, we proposed a deep learning-based approach to reveal tumor mutational burden status from routinely used pathological slides across multiple cancer types.
翻訳日:2023-05-31 04:30:06 公開日:2023-05-27
# 終端雑音-ロバスト音声認識のためのデュアルパス型学習

Dual-Path Style Learning for End-to-End Noise-Robust Speech Recognition ( http://arxiv.org/abs/2203.14838v3 )

ライセンス: Link先を確認
Yuchen Hu, Nana Hou, Chen Chen, Eng Siong Chng(参考訳) 自動音声認識(asr)システムは雑音下で著しく劣化する。 近年、音声強調(SE)は、ASRの雑音を低減するためにフロントエンドとして導入されているが、同時に重要な音声情報、すなわち過剰抑圧を抑える。 そこで本研究では,終端雑音キャンバス音声認識(DPSL-ASR)のためのデュアルパス方式の学習手法を提案する。 具体的には,まずクリーン音声機能とIFF-Netからの融合機能を両経路入力として導入し,抑圧された情報を復元する。 そこで我々は,後者の音声情報,すなわちクリーンな「音声スタイル」を学習するために,融合した特徴をクリーンな特徴に近づけるためのスタイル学習を提案する。 さらに,2つの経路における最終asr出力の距離を最小化し,ノイズロバスト性を改善する。 実験の結果,提案手法はRATSとCHiME-4データセットを用いて,最適なIFF-Netベースラインに対して,相対単語誤り率(WER)を10.6%,8.6%削減できることがわかった。

Automatic speech recognition (ASR) systems degrade significantly under noisy conditions. Recently, speech enhancement (SE) is introduced as front-end to reduce noise for ASR, but it also suppresses some important speech information, i.e., over-suppression. To alleviate this, we propose a dual-path style learning approach for end-to-end noise-robust speech recognition (DPSL-ASR). Specifically, we first introduce clean speech feature along with the fused feature from IFF-Net as dual-path inputs to recover the suppressed information. Then, we propose style learning to map the fused feature close to clean feature, in order to learn latent speech information from the latter, i.e., clean "speech style". Furthermore, we also minimize the distance of final ASR outputs in two paths to improve noise-robustness. Experiments show that the proposed approach achieves relative word error rate (WER) reductions of 10.6% and 8.6% over the best IFF-Net baseline, on RATS and CHiME-4 datasets respectively.
翻訳日:2023-05-31 04:28:54 公開日:2023-05-27
# 機械学習に基づくマルチステージシステムを用いた実生活患者の視力予測

Visual Acuity Prediction on Real-Life Patient Data Using a Machine Learning Based Multistage System ( http://arxiv.org/abs/2204.11970v2 )

ライセンス: Link先を確認
Tobias Schlosser, Frederik Beuth, Trixy Meyer, Arunodhayan Sampath Kumar, Gabriel Stolze, Olga Furashova, Katrin Engelmann, Danny Kowerko(参考訳) 眼科領域では、硝子体手術療法(IVOM)は、加齢に伴う黄斑変性(AMD)、糖尿病性黄斑浮腫(DME)、網膜静脈閉塞(RVO)に関連する疾患に対して広く用いられる治療法である。 しかし, 実世界の状況では, 患者は治療にもかかわらず, 何年もの時間スケールで視力の低下に苦しむことが多いが, 視力の予測や, 実生活環境下での劣化の早期発見は不均一で不完全なデータのため困難である。 本稿では,ドイツの最大医療病院の眼科領域の異なるITシステムを融合した研究対応型データコーパスを開発するためのワークフローを提案する。 広範データコーパスは、3つの疾患のそれぞれにおいて、患者とそのVAが予想される進行の予測文を可能にする。 経時的に視力が著しく低下していることが判明した。 提案する多段階システムでは,vaの進行を治療の「勝利者」,「安定者」,「損失者」の3つのグループに分類した。 深層ニューラルネットワークのアンサンブルを用いたoctバイオマーカーの分類により,分類精度(f1-score)は98%以上となり,不完全なoctドキュメントを完結させながら,より正確なvaモデリングプロセスに活用することが可能となった。 VA予測では,同時期のVA検査とOCTバイオマーカーを併用して,予測時間枠内でのVA進行を予測し,現在IVOM/no療法に制限されている。 3つのWSLベースの進行群を考慮すると、最大69%(マクロ平均F1スコア)の予測精度を達成する一方で、眼科の専門知識(57.8%)と比較して11.2%改善する。

In ophthalmology, intravitreal operative medication therapy (IVOM) is a widespread treatment for diseases related to the age-related macular degeneration (AMD), the diabetic macular edema (DME), as well as the retinal vein occlusion (RVO). However, in real-world settings, patients often suffer from loss of vision on time scales of years despite therapy, whereas the prediction of the visual acuity (VA) and the earliest possible detection of deterioration under real-life conditions is challenging due to heterogeneous and incomplete data. In this contribution, we present a workflow for the development of a research-compatible data corpus fusing different IT systems of the department of ophthalmology of a German maximum care hospital. The extensive data corpus allows predictive statements of the expected progression of a patient and his or her VA in each of the three diseases. We found out for the disease AMD a significant deterioration of the visual acuity over time. Within our proposed multistage system, we classify the VA progression into the three groups of therapy "winners", "stabilizers", and "losers" (WSL scheme). Our OCT biomarker classification using an ensemble of deep neural networks results in a classification accuracy (F1-score) of over 98 %, enabling us to complete incomplete OCT documentations while allowing us to exploit them for a more precise VA modelling process. Our VA prediction requires at least four VA examinations and optionally OCT biomarkers from the same time period to predict the VA progression within a forecasted time frame, whereas our prediction is currently restricted to IVOM / no therapy. While achieving a prediction accuracy of up to 69 % (macro average F1-score) when considering all three WSL-based progression groups, this corresponds to an improvement by 11.2 % in comparison to our ophthalmic expertise (57.8 %).
翻訳日:2023-05-31 04:18:24 公開日:2023-05-27
# 階層型スペクトログラムトランスフォーマによる呼吸音からのcovid-19検出

COVID-19 Detection from Respiratory Sounds with Hierarchical Spectrogram Transformers ( http://arxiv.org/abs/2207.09529v2 )

ライセンス: Link先を確認
Idil Aytekin, Onat Dalmaz, Kaan Gonc, Haydar Ankishan, Emine U Saritas, Ulas Bagci, Haydar Celik and Tolga Cukur(参考訳) 新型コロナウイルス(COVID-19)などの流行する空気病のモニタリングは、呼吸アセスメントに特有である。 オースカルテーションは疾患症状の予備スクリーニングの主流の方法であるが、専用の病院訪問の必要性によってその実用性は妨げられている。 ポータブルデバイス上での呼吸音の記録に基づく遠隔監視は有望な代替手段であり、主に下気道に影響を与える新型コロナウイルスの早期評価を支援する。 本研究では, 新型コロナウイルス患者の音声記録や呼吸音の健全なコントロールを識別する, 新たな深層学習手法を提案する。 提案手法は,呼吸音のスペクトル表現に新しい階層型スペクトログラム変換器(HST)を利用する。 HSTは、スペクトログラム内のローカルウィンドウ上の自己注意機構を具現化し、モデルステージ上でウィンドウサイズを徐々に成長させ、ローカルからグローバルなコンテキストを捉える。 HSTは、最先端の従来型およびディープラーニングベースラインと比較される。 クラウドソースされた多国籍データセットのデモでは、HSTは競合する手法より優れており、COVID-19感染の検出において、受信者操作特性曲線(AUC)の83%以上の領域を達成している。

Monitoring of prevalent airborne diseases such as COVID-19 characteristically involves respiratory assessments. While auscultation is a mainstream method for preliminary screening of disease symptoms, its utility is hampered by the need for dedicated hospital visits. Remote monitoring based on recordings of respiratory sounds on portable devices is a promising alternative, which can assist in early assessment of COVID-19 that primarily affects the lower respiratory tract. In this study, we introduce a novel deep learning approach to distinguish patients with COVID-19 from healthy controls given audio recordings of cough or breathing sounds. The proposed approach leverages a novel hierarchical spectrogram transformer (HST) on spectrogram representations of respiratory sounds. HST embodies self-attention mechanisms over local windows in spectrograms, and window size is progressively grown over model stages to capture local to global context. HST is compared against state-of-the-art conventional and deep-learning baselines. Demonstrations on crowd-sourced multi-national datasets indicate that HST outperforms competing methods, achieving over 83% area under the receiver operating characteristic curve (AUC) in detecting COVID-19 cases.
翻訳日:2023-05-31 04:02:10 公開日:2023-05-27
# テキスト句参照による3次元グラウンドの解説と細粒度化に向けて

Toward Explainable and Fine-Grained 3D Grounding through Referring Textual Phrases ( http://arxiv.org/abs/2207.01821v2 )

ライセンス: Link先を確認
Zhihao Yuan, Xu Yan, Zhuo Li, Xuhao Li, Yao Guo, Shuguang Cui, Zhen Li(参考訳) 最近の3Dシーン理解の進歩は、言語記述による対象物体のローカライズのための視覚的接地(3DVG)を探求している。 しかし、既存の手法では、文全体と対象オブジェクト間の依存性のみを考慮し、コンテキストと非ターゲットオブジェクト間のきめ細かい関係を無視している。 本稿では,3Dプラーゼ・アウェア・グラウンドリング(DPAG)と呼ばれる,よりきめ細やかで解釈可能なタスクに3DVGを拡張する。 3DPAGタスクは、すべてのフレーズ関連オブジェクトを明示的に識別し、文脈的フレーズに従って推論を行うことにより、ターゲットオブジェクトを3Dシーンでローカライズすることを目的としている。 この問題に対処するために,Nr3D,Sr3D,ScanReferなど,広く使用されている3DVGデータセットの88K文から,自己開発プラットフォームを用いて約227Kのフレーズレベルのアノテーションを手作業でラベル付けした。 データセットをタップすることで、以前の3dvgメソッドをきめ細かいフレーズ認識シナリオに拡張できます。 提案したフレーズオブジェクトアライメント最適化とフレーズ固有の事前学習により,従来の3DVG性能も向上する。 その結果,Nr3D,Sr3D,ScanReferの3.9%,3.5%,4.6%の精度向上が得られた。

Recent progress in 3D scene understanding has explored visual grounding (3DVG) to localize a target object through a language description. However, existing methods only consider the dependency between the entire sentence and the target object, ignoring fine-grained relationships between contexts and non-target ones. In this paper, we extend 3DVG to a more fine-grained and interpretable task, called 3D Phrase Aware Grounding (3DPAG). The 3DPAG task aims to localize the target objects in a 3D scene by explicitly identifying all phrase-related objects and then conducting the reasoning according to contextual phrases. To tackle this problem, we manually labeled about 227K phrase-level annotations using a self-developed platform, from 88K sentences of widely used 3DVG datasets, i.e., Nr3D, Sr3D and ScanRefer. By tapping on our datasets, we can extend previous 3DVG methods to the fine-grained phrase-aware scenario. It is achieved through the proposed novel phrase-object alignment optimization and phrase-specific pre-training, boosting conventional 3DVG performance as well. Extensive results confirm significant improvements, i.e., previous state-of-the-art method achieves 3.9%, 3.5% and 4.6% overall accuracy gains on Nr3D, Sr3D and ScanRefer respectively.
翻訳日:2023-05-31 04:00:50 公開日:2023-05-27
# 3次元顔形状は連続感情と行動単位強度を認識するのに十分か?

Are 3D Face Shapes Expressive Enough for Recognising Continuous Emotions and Action Unit Intensities? ( http://arxiv.org/abs/2207.01113v2 )

ライセンス: Link先を確認
Mani Kumar Tellamekala, \"Omer S\"umer, Bj\"orn W. Schuller, Elisabeth Andr\'e, Timo Giesbrecht, Michel Valstar(参考訳) 顔ビデオから連続的な感情と行動単位(AU)の強度を認識するには、表現力学の空間的および時間的理解が必要である。 既存の作品は主に2d顔の外観に頼り、そのようなダイナミックスを抽出している。 本研究は,パラメトリック3次元顔形状アライメントモデルに基づく有望な代替案に焦点をあてる。 最先端の2次元外観モデルと比較し,valence-arousalおよびau強度の推定における表現力の高い3d顔形状について理解することを目的とした。 我々は,最近の3次元顔アライメントモデルであるExpNet, 3DDFA-V2, DECA, EMOCAをベンチマークした。 valence-arousal estimationでは、3d顔モデルの表現特性は従来より一貫して優れており、sewaとavec 2019 ces corporaでは.739と.574の平均一致相関を示した。 また, BP4DおよびdisFAデータセットのAU強度推定において, 3次元顔形状がAU4, 6, 10, 12, 25の2次元顔形状と同等であるが, AUの集合全体ではないことを報告した。 この違いを理解するために,valence-arousal と aus の対応分析を行い,valence-arousal の正確な予測には少数の aus の知識が必要であることを指摘した。

Recognising continuous emotions and action unit (AU) intensities from face videos requires a spatial and temporal understanding of expression dynamics. Existing works primarily rely on 2D face appearances to extract such dynamics. This work focuses on a promising alternative based on parametric 3D face shape alignment models, which disentangle different factors of variation, including expression-induced shape variations. We aim to understand how expressive 3D face shapes are in estimating valence-arousal and AU intensities compared to the state-of-the-art 2D appearance-based models. We benchmark four recent 3D face alignment models: ExpNet, 3DDFA-V2, DECA, and EMOCA. In valence-arousal estimation, expression features of 3D face models consistently surpassed previous works and yielded an average concordance correlation of .739 and .574 on SEWA and AVEC 2019 CES corpora, respectively. We also study how 3D face shapes performed on AU intensity estimation on BP4D and DISFA datasets, and report that 3D face features were on par with 2D appearance features in AUs 4, 6, 10, 12, and 25, but not the entire set of AUs. To understand this discrepancy, we conduct a correspondence analysis between valence-arousal and AUs, which points out that accurate prediction of valence-arousal may require the knowledge of only a few AUs.
翻訳日:2023-05-31 04:00:22 公開日:2023-05-27
# 視覚制御のためのマスキングワールドモデル

Masked World Models for Visual Control ( http://arxiv.org/abs/2206.14244v3 )

ライセンス: Link先を確認
Younggyo Seo, Danijar Hafner, Hao Liu, Fangchen Liu, Stephen James, Kimin Lee, Pieter Abbeel(参考訳) 視覚モデルに基づく強化学習(RL)は、視覚観察からサンプル効率のよいロボット学習を可能にする可能性がある。 しかし、現在のアプローチでは、視覚表現とダイナミクスの両方を学ぶために、単一のモデルのエンドツーエンドをトレーニングしているため、ロボットと小さなオブジェクト間のインタラクションを正確にモデル化することは難しい。 本研究では,視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。 具体的には、畳み込み層と視覚変換器(ViT)を備えたオートエンコーダを訓練し、マスク付き畳み込み特徴を持つ画素を再構成し、オートエンコーダから表現を操作する潜在ダイナミクスモデルを学ぶ。 さらに,タスク関連情報をエンコードするために,自動エンコーダに対する補助報酬予測目標を提案する。 環境相互作用から収集したオンラインサンプルを用いて,オートエンコーダと動的モデルの両方を継続的に更新する。 我々は,メタワールドとRLBenchの様々な視覚ロボットタスクの最先端性能,例えばメタワールドとRLBenchの50の視覚ロボット操作タスクの81.7%の成功率,ベースラインが67.9%を達成したことを実証した。 https://sites.google.com/view/mwm-rl.com.com/ コードはこちら。

Visual model-based reinforcement learning (RL) has the potential to enable sample-efficient robot learning from visual observations. Yet the current approaches typically train a single model end-to-end for learning both visual representations and dynamics, making it difficult to accurately model the interaction between robots and small objects. In this work, we introduce a visual model-based RL framework that decouples visual representation learning and dynamics learning. Specifically, we train an autoencoder with convolutional layers and vision transformers (ViT) to reconstruct pixels given masked convolutional features, and learn a latent dynamics model that operates on the representations from the autoencoder. Moreover, to encode task-relevant information, we introduce an auxiliary reward prediction objective for the autoencoder. We continually update both autoencoder and dynamics model using online samples collected from environment interaction. We demonstrate that our decoupling approach achieves state-of-the-art performance on a variety of visual robotic tasks from Meta-world and RLBench, e.g., we achieve 81.7% success rate on 50 visual robotic manipulation tasks from Meta-world, while the baseline achieves 67.9%. Code is available on the project website: https://sites.google.com/view/mwm-rl.
翻訳日:2023-05-31 03:59:40 公開日:2023-05-27
# 大規模レコメンデーションのための高速オフラインポリシー最適化

Fast Offline Policy Optimization for Large Scale Recommendation ( http://arxiv.org/abs/2208.05327v4 )

ライセンス: Link先を確認
Otmane Sakhi, David Rohde, Alexandre Gilotte(参考訳) 推薦システムのようなパーソナライズされた対話システムでは、コンテキストに依存する大量のカタログから関連する項目を選択する必要がある。 これらのシステムの報酬駆動オフライン最適化は、ポリシー学習やスタイル学習アルゴリズムの強化によって生じる離散的な問題を緩和することで達成することができる。 残念なことに、この緩和ステップではカタログ全体の和を計算し、カタログサイズで線形な勾配(したがって各確率的勾配降下イテレーション)の評価を複雑にする必要がある。 この計算は、大規模なカタログレコメンデータシステムのような実世界の多くの例では不可能であり、実際にはこの方法の有用性を著しく制限している。 本稿では,カタログサイズと対数的にスケールするこれらのポリシー学習アルゴリズムの近似を導出する。 我々の貢献は、政策の勾配の新たなモンテカルロ推定法、自己正規化重要度サンプリング推定法、訓練時の高速最大内積探索法という3つの新しいアイデアの組み合わせに基づいている。 広範な実験によって、我々のアルゴリズムは単純なアプローチよりも桁違いに速いが、等しく良いポリシーを生み出すことが示された。

Personalised interactive systems such as recommender systems require selecting relevant items from massive catalogs dependent on context. Reward-driven offline optimisation of these systems can be achieved by a relaxation of the discrete problem resulting in policy learning or REINFORCE style learning algorithms. Unfortunately, this relaxation step requires computing a sum over the entire catalogue making the complexity of the evaluation of the gradient (and hence each stochastic gradient descent iterations) linear in the catalogue size. This calculation is untenable in many real world examples such as large catalogue recommender systems, severely limiting the usefulness of this method in practice. In this paper, we derive an approximation of these policy learning algorithms that scale logarithmically with the catalogue size. Our contribution is based upon combining three novel ideas: a new Monte Carlo estimate of the gradient of a policy, the self normalised importance sampling estimator and the use of fast maximum inner product search at training time. Extensive experiments show that our algorithm is an order of magnitude faster than naive approaches yet produces equally good policies.
翻訳日:2023-05-31 03:52:56 公開日:2023-05-27
# トポロジカル増幅による非エルミートバルク境界対応の復元

Restoration of the non-Hermitian bulk-boundary correspondence via topological amplification ( http://arxiv.org/abs/2207.12427v3 )

ライセンス: Link先を確認
Matteo Brunelli, Clara C. Wanjura, Andreas Nunnenkamp(参考訳) 非エルミート(nh)格子ハミルトニアンは、特異なエネルギーギャップと境界条件に対する極度の感度を示す。 NH皮膚効果により、エッジとバルク状態の分離が曖昧になり、(従来の)バルク境界対応が失われる。 ここでは、NHハミルトニアンの最もパラダイム的なクラス、すなわち1つの複素バンドを持ち、対称性を持たないクラスに対するバルク境界対応を復元する。 我々は,非相互ホッピング振幅,利得および損失という形でのnh項が,(工学的かつ非工学的)貯水池とのカップリングによって明示的にモデル化される,駆動散逸キャビティアレイの(平均場)無条件進化から所望のnhハミルトニアンを得る。 このアプローチは位相不変量の定義における任意性を取り除くものであり、複素エネルギーシフトによって異なる点ガッピングスペクトルは同値ではない;複素平面の起源は位相不変量の評価のための共通の参照(基底点)を提供する。 これは、トポロジカルに非自明なハミルトニアンは点ギャップを持つ部分集合の厳密な部分集合であり、NHスキン効果がトポロジカルな起源を持たないことを意味する。 特異値分解(singular value decomposition)によって得られるnhハミルトニアンの解析により、nh バルク境界対応を次のように単純な形で表現することができる: バルクで定義される位相不変量の整数値 $\nu$ は、開境界条件下で系端で指数関数的に局在化した$\vert \nu\vert$ 特異ベクトルに対応し、$\nu$ の符号がどの辺を決定する。 非自明なトポロジーは、システムサイズが指数関数的なコヒーレント入力の方向増幅として現れる。 我々の研究は、NHトポロジカル位相の理論における卓越した問題を解決し、トポロジカルフォトニクスの新しい道を開く。

Non-Hermitian (NH) lattice Hamiltonians display a unique kind of energy gap and extreme sensitivity to boundary conditions. Due to the NH skin effect, the separation between edge and bulk states is blurred and the (conventional) bulk-boundary correspondence is lost. Here, we restore the bulk-boundary correspondence for the most paradigmatic class of NH Hamiltonians, namely those with one complex band and without symmetries. We obtain the desired NH Hamiltonian from the (mean-field) unconditional evolution of driven-dissipative cavity arrays, in which NH terms -- in the form of non-reciprocal hopping amplitudes, gain and loss -- are explicitly modeled via coupling to (engineered and non-engineered) reservoirs. This approach removes the arbitrariness in the definition of the topological invariant, as point-gapped spectra differing by a complex-energy shift are not treated as equivalent; the origin of the complex plane provides a common reference (base point) for the evaluation of the topological invariant. This implies that topologically non-trivial Hamiltonians are only a strict subset of those with a point gap and that the NH skin effect does not have a topological origin. We analyze the NH Hamiltonians so obtained via the singular value decomposition, which allows to express the NH bulk-boundary correspondence in the following simple form: an integer value $\nu$ of the topological invariant defined in the bulk corresponds to $\vert \nu\vert$ singular vectors exponentially localized at the system edge under open boundary conditions, in which the sign of $\nu$ determines which edge. Non-trivial topology manifests as directional amplification of a coherent input with gain exponential in system size. Our work solves an outstanding problem in the theory of NH topological phases and opens up new avenues in topological photonics.
翻訳日:2023-05-31 03:50:14 公開日:2023-05-27
# AnaMeta:多次元データ解析タスクで共有されるフィールドメタデータ知識のテーブル理解データセット

AnaMeta: A Table Understanding Dataset of Field Metadata Knowledge Shared by Multi-dimensional Data Analysis Tasks ( http://arxiv.org/abs/2209.00946v2 )

ライセンス: Link先を確認
Xinyi He, Mengyu Zhou, Mingjie Zhou, Jialiang Xu, Xiao Lv, Tianle Li, Yijia Shao, Shi Han, Zejian Yuan, Dongmei Zhang(参考訳) タブラルデータ分析は、様々なドメインで毎日行われます。 テーブルフィールド上で正しく操作し、日々の分析で共通のパターンを見つけるためには、フィールドセマンティクスを正確に理解する必要がある。 本稿では,4種類の共通フィールドメタデータ(測定/次元二分法,共通フィールドロール,セマンティックフィールドタイプ,デフォルトアグリゲーション関数)を導出した467kテーブルの集合であるAnaMetaデータセットを紹介する。 ベンチマークとしてメタデータを推測するための幅広いモデルを評価する。 また,kdfと呼ばれるマルチエンコーダフレームワークを提案し,分散情報と知識情報を取り込むことで,表モデルのメタデータ理解能力を向上させる。 さらに,フィールドメタデータを下流解析タスクに組み込むための4つのインタフェースを提案する。

Tabular data analysis is performed every day across various domains. It requires an accurate understanding of field semantics to correctly operate on table fields and find common patterns in daily analysis. In this paper, we introduce the AnaMeta dataset, a collection of 467k tables with derived supervision labels for four types of commonly used field metadata: measure/dimension dichotomy, common field roles, semantic field type, and default aggregation function. We evaluate a wide range of models for inferring metadata as the benchmark. We also propose a multi-encoder framework, called KDF, which improves the metadata understanding capability of tabular models by incorporating distribution and knowledge information. Furthermore, we propose four interfaces for incorporating field metadata into downstream analysis tasks.
翻訳日:2023-05-31 03:41:36 公開日:2023-05-27
# ニューロデドのホモトピーに基づく正確なダイナミクス発見のためのトレーニング

Homotopy-based training of NeuralODEs for accurate dynamics discovery ( http://arxiv.org/abs/2210.01407v5 )

ライセンス: Link先を確認
Joon-Hyuk Ko, Hankyul Koh, Nojun Park, Wonho Jhe(参考訳) ニューラル常微分方程式(NeuralODEs)は、物理科学の微分方程式に基づくモデリングパラダイムでニューラルネットワークを橋渡しし、時系列データから動的法則を抽出する魅力的な方法である。 しかし、これらのモデルは長いトレーニング時間と、特に長い持続時間データに対して最適でない結果を示すことが多い。 文献における一般的な戦略はニューロデドアーキテクチャに強い制約を課し、本質的に安定なモデルダイナミクスを促進するが、未知の支配方程式が仮定された制約を満たすことが保証されていないため、そのような手法はダイナミクスの発見には不向きである。 本稿では,モデルアーキテクチャの変更を必要とせず,同期とホモトピー最適化に基づくニューラルオードの新しい学習法を提案する。 モデルダイナミクスとトレーニングデータの同期は、当初不規則な損失環境を弱めており、ホモトピー最適化によってトレーニングを強化することができる。 ベンチマーク実験により,本手法は,他のモデル非依存手法に比べて半数未満のトレーニングエポックを必要とする場合が多いが,競争力やトレーニング損失が向上することを示す。 さらに,本手法で学習したモデルでは補間能力が向上し,提案手法の有効性が強調された。

Neural Ordinary Differential Equations (NeuralODEs) present an attractive way to extract dynamical laws from time series data, as they bridge neural networks with the differential equation-based modeling paradigm of the physical sciences. However, these models often display long training times and suboptimal results, especially for longer duration data. While a common strategy in the literature imposes strong constraints to the NeuralODE architecture to inherently promote stable model dynamics, such methods are ill-suited for dynamics discovery as the unknown governing equation is not guaranteed to satisfy the assumed constraints. In this paper, we develop a new training method for NeuralODEs, based on synchronization and homotopy optimization, that does not require changes to the model architecture. We show that synchronizing the model dynamics and the training data tames the originally irregular loss landscape, which homotopy optimization can then leverage to enhance training. Through benchmark experiments, we demonstrate our method achieves competitive or better training loss while often requiring less than half the number of training epochs compared to other model-agnostic techniques. Furthermore, models trained with our method display better extrapolation capabilities, highlighting the effectiveness of our method.
翻訳日:2023-05-31 03:34:09 公開日:2023-05-27
# 一般化パラメトリックコントラスト学習

Generalized Parametric Contrastive Learning ( http://arxiv.org/abs/2209.12400v2 )

ライセンス: Link先を確認
Jiequan Cui, Zhisheng Zhong, Zhuotao Tian, Shu Liu, Bei Yu, Jiaya Jia(参考訳) 本稿では,不均衡なデータとバランスの取れたデータの両方でよく機能するGPaCo/PaCo(Generalized Parametric Contrastive Learning)を提案する。 理論的解析に基づき,教師付きコントラスト損失は高周波クラスをバイアスし,不均衡学習の難易度を増加させる傾向が観察された。 最適化の観点から再バランスを図るために、パラメトリックなクラスワイド学習可能なセンターのセットを導入する。 さらに, 平衡条件下でのGPaCo/PaCo損失の解析を行った。 分析の結果、GPaCo/PaCoは、より多くのサンプルが対応する中心と引き合わされるにつれて、同じクラスのサンプルをプッシュする強度を適応的に増強し、ハードサンプル学習に役立てることができることが示された。 長い尾のベンチマークの実験は、長い尾の認識のための新しい最先端を示す。 フルイメージネットでは、gpaco損失で訓練されたcnnから視覚トランスフォーマーまでのモデルは、maeモデルと比較して、より一般化された性能と強い堅牢性を示す。 さらに、GPaCoはセマンティックセグメンテーションタスクに適用でき、最も人気のある4つのベンチマークで明らかな改善が観察される。 私たちのコードはhttps://github.com/dvlab-research/parametric-contrastive-learningで利用可能です。

In this paper, we propose the Generalized Parametric Contrastive Learning (GPaCo/PaCo) which works well on both imbalanced and balanced data. Based on theoretical analysis, we observe that supervised contrastive loss tends to bias high-frequency classes and thus increases the difficulty of imbalanced learning. We introduce a set of parametric class-wise learnable centers to rebalance from an optimization perspective. Further, we analyze our GPaCo/PaCo loss under a balanced setting. Our analysis demonstrates that GPaCo/PaCo can adaptively enhance the intensity of pushing samples of the same class close as more samples are pulled together with their corresponding centers and benefit hard example learning. Experiments on long-tailed benchmarks manifest the new state-of-the-art for long-tailed recognition. On full ImageNet, models from CNNs to vision transformers trained with GPaCo loss show better generalization performance and stronger robustness compared with MAE models. Moreover, GPaCo can be applied to the semantic segmentation task and obvious improvements are observed on the 4 most popular benchmarks. Our code is available at https://github.com/dvlab-research/Parametric-Contrastive-Learning.
翻訳日:2023-05-31 03:31:57 公開日:2023-05-27
# ロジスティクスシナリオにおける視覚観察によるロボットシーケンシャルピッキングタスクに対する教師なし報酬形成

Unsupervised Reward Shaping for a Robotic Sequential Picking Task from Visual Observations in a Logistics Scenario ( http://arxiv.org/abs/2209.12350v3 )

ライセンス: Link先を確認
Vittorio Giammarino, Andrew J Meyer, Kai Biegun(参考訳) 我々は,ロジスティックセクタの典型的なアンロード問題に焦点をあて,逐次的なピック・アンド・プレースタスクとしてモデル化した。 この種のタスクでは、現代の機械学習技術は、確率性に適応し、大きな不確実性に対処できるため、古典的なシステムよりもうまく機能することが示されている。 より具体的には、教師付きおよび模倣学習は、すべての設定で常に入手できないある種の監督を必要とするという欠点から、この点において卓越した結果を得た。 一方、強化学習(RL)はより軽度の監督を必要とするが、その非効率性のため、依然として実行不可能である。 本稿では, エージェントが要求する監督のレベルを緩和し, タスクにおけるRL性能の向上に取り組む専門家の観察から, 新規な教師なしリワード整形アルゴリズムを提案し, 理論的に動機づける。

We focus on an unloading problem, typical of the logistics sector, modeled as a sequential pick-and-place task. In this type of task, modern machine learning techniques have shown to work better than classic systems since they are more adaptable to stochasticity and better able to cope with large uncertainties. More specifically, supervised and imitation learning have achieved outstanding results in this regard, with the shortcoming of requiring some form of supervision which is not always obtainable for all settings. On the other hand, reinforcement learning (RL) requires much milder form of supervision but still remains impracticable due to its inefficiency. In this paper, we propose and theoretically motivate a novel Unsupervised Reward Shaping algorithm from expert's observations which relaxes the level of supervision required by the agent and works on improving RL performance in our task.
翻訳日:2023-05-31 03:31:37 公開日:2023-05-27
# 共形p値を用いた予測による選択

Selection by Prediction with Conformal p-values ( http://arxiv.org/abs/2210.01408v3 )

ライセンス: Link先を確認
Ying Jin, Emmanuel J. Cand\`es(参考訳) リソース集約的なステップの前には、機械学習モデルからの予測を使用して、大きなプールから少数の候補を短くする初期スクリーニングが行われることが多い。 本研究では,未観測結果がユーザ指定値を超える候補を選択するためのスクリーニング手順について検討する。 任意の予測モデルを包み込み、候補のサブセットを生成しながら、誤選択されたユニットの割合を制御する手法を開発した。 共形推論の枠組みを基礎として, 提案手法はまず, 結果の統計的証拠を定量化するp-値を構築し, 続いて, p-値と複数の試験文献で導入されたしきい値を比較してショートリストを決定する。 多くの場合、この手順は、予測がデータ依存の閾値を超える候補を選択する。 我々の理論的保証はサンプルの交換性条件が緩やかであり、複数の共形p-値の既存の結果が一般化される。 本手法の実証的な性能をシミュレーションにより実証し,職種雇用と薬物発見データセットに適用する。

Decision making or scientific discovery pipelines such as job hiring and drug discovery often involve multiple stages: before any resource-intensive step, there is often an initial screening that uses predictions from a machine learning model to shortlist a few candidates from a large pool. We study screening procedures that aim to select candidates whose unobserved outcomes exceed user-specified values. We develop a method that wraps around any prediction model to produce a subset of candidates while controlling the proportion of falsely selected units. Building upon the conformal inference framework, our method first constructs p-values that quantify the statistical evidence for large outcomes; it then determines the shortlist by comparing the p-values to a threshold introduced in the multiple testing literature. In many cases, the procedure selects candidates whose predictions are above a data-dependent threshold. Our theoretical guarantee holds under mild exchangeability conditions on the samples, generalizing existing results on multiple conformal p-values. We demonstrate the empirical performance of our method via simulations, and apply it to job hiring and drug discovery datasets.
翻訳日:2023-05-31 03:21:54 公開日:2023-05-27
# PAC-Bayesianのオフライン帯域と保証者

PAC-Bayesian Offline Contextual Bandits With Guarantees ( http://arxiv.org/abs/2210.13132v2 )

ライセンス: Link先を確認
Otmane Sakhi and Pierre Alquier and Nicolas Chopin(参考訳) 本稿では,コンテキストバンディットにおけるオフポリシー学習のための新しい原理的アプローチを提案する。 従来の作業とは異なり、私たちのアプローチは、難解なあるいは緩い境界から学習原則を導き出すものではない。 PAC-Bayesianレンズを用いて問題を解析し、ポリシーを決定規則の混合として解釈する。 これにより、新しい一般化境界を提案し、それらを最適化するための抽出可能なアルゴリズムを提供する。 得られたバウンダリが競合他社よりも厳密であることを証明するとともに,ログポリシをオフラインで確実に改善するために直接最適化することができる。 我々のアプローチは、保証付きポリシーを学習し、利用可能なすべてのデータを使用し、ホールドアウトセットに追加のハイパーパラメータをチューニングする必要がない。 実践的なシナリオで性能保証を提供する上でのアプローチの有効性を,広範な実験を通じて実証する。

This paper introduces a new principled approach for off-policy learning in contextual bandits. Unlike previous work, our approach does not derive learning principles from intractable or loose bounds. We analyse the problem through the PAC-Bayesian lens, interpreting policies as mixtures of decision rules. This allows us to propose novel generalization bounds and provide tractable algorithms to optimize them. We prove that the derived bounds are tighter than their competitors, and can be optimized directly to confidently improve upon the logging policy offline. Our approach learns policies with guarantees, uses all available data and does not require tuning additional hyperparameters on held-out sets. We demonstrate through extensive experiments the effectiveness of our approach in providing performance guarantees in practical scenarios.
翻訳日:2023-05-31 03:12:41 公開日:2023-05-27
# コンテキストはチープになる:線形帯域アルゴリズムで確率的コンテキスト帯域を解く

Contexts can be Cheap: Solving Stochastic Contextual Bandits with Linear Bandit Algorithms ( http://arxiv.org/abs/2211.05632v2 )

ライセンス: Link先を確認
Osama A. Hanna, Lin F. Yang, Christina Fragouli(参考訳) 本稿では,意思決定者が文脈(分布から引き出されたランダムな動作の集合)を提供する確率的文脈線形バンディット問題に対処する。 各アクションの期待される報酬は、アクションの内部積と未知のパラメータによって指定される。 ゴールは、多くのアクションが実行された後、未知の最適ポリシーにできるだけ近くプレイすることを学ぶアルゴリズムを設計することである。 この問題は線型バンディット問題よりも困難であると考えられており、これは文脈的バンディット問題として \emph{fixed} コンテキストとみなすことができる。 驚くべきことに,本稿では,確率的文脈問題は線形バンディット問題であるかのように解くことができることを示した。 特に、文脈分布が知られている場合、全ての確率的文脈線形バンドイットインスタンスを線形バンドイットインスタンスに変換する新しい還元フレームワークを確立する。 文脈分布が不明な場合には、確率的文脈インスタンスを小さな誤特定を伴う線形バンディットインスタンス列に縮小し、誤特定された線形バンディットインスタンスを解決するアルゴリズムとほぼ同じ最悪の場合の後悔を実現できるアルゴリズムを確立する。 その結果、文脈線形バンドイットに縛られた高い確率の後悔がo(d\sqrt{t\log t})$を示し、(li et al., 2019), (li et al., 2021) の未解決問題を解く過程が進行した。 私たちの還元フレームワークは,確率的文脈線形バンディット問題へのアプローチの新たな方法を開き,バッチ設定,不特定化を伴うコンテキストバンディット,未知パラメータの少ないコンテキストバンディット,対向汚職を伴うコンテキストバンディットなど,多数のインスタンスにおける後悔境界の改善を可能にします。

In this paper, we address the stochastic contextual linear bandit problem, where a decision maker is provided a context (a random set of actions drawn from a distribution). The expected reward of each action is specified by the inner product of the action and an unknown parameter. The goal is to design an algorithm that learns to play as close as possible to the unknown optimal policy after a number of action plays. This problem is considered more challenging than the linear bandit problem, which can be viewed as a contextual bandit problem with a \emph{fixed} context. Surprisingly, in this paper, we show that the stochastic contextual problem can be solved as if it is a linear bandit problem. In particular, we establish a novel reduction framework that converts every stochastic contextual linear bandit instance to a linear bandit instance, when the context distribution is known. When the context distribution is unknown, we establish an algorithm that reduces the stochastic contextual instance to a sequence of linear bandit instances with small misspecifications and achieves nearly the same worst-case regret bound as the algorithm that solves the misspecified linear bandit instances. As a consequence, our results imply a $O(d\sqrt{T\log T})$ high-probability regret bound for contextual linear bandits, making progress in resolving an open problem in (Li et al., 2019), (Li et al., 2021). Our reduction framework opens up a new way to approach stochastic contextual linear bandit problems, and enables improved regret bounds in a number of instances including the batch setting, contextual bandits with misspecifications, contextual bandits with sparse unknown parameters, and contextual bandits with adversarial corruption.
翻訳日:2023-05-31 03:04:12 公開日:2023-05-27
# 非凸非凸ミニマックス問題の零次交互勾配降下上昇アルゴリズム

Zeroth-Order Alternating Gradient Descent Ascent Algorithms for a Class of Nonconvex-Nonconcave Minimax Problems ( http://arxiv.org/abs/2211.13668v2 )

ライセンス: Link先を確認
Zi Xu, Zi-Qi Wang, Jun-Lin Wang, Yu-Hong Dai(参考訳) 本稿では,非凸非凸ミニマックス問題(nc-plミニマックス問題)のクラスを考察し,その対象関数が内部変数に対してpolyak-\l ojasiewicz (pl)条件を満たす問題を考える。 本稿では, NC-PL極小問題を決定論的および確率論的条件下で解くため, ゼロ次交互勾配勾配勾配上昇(ZO-AGDA)アルゴリズムとゼロ次分散低減勾配勾配上昇(ZO-VRAGDA)アルゴリズムを提案する。 nc-plミニマックス問題を解くためのzo-agdaの$\epsilon$-stationary pointとzo-vragdaアルゴリズムを得るための関数値クエリの総数は、それぞれ$\mathcal{o}(\varepsilon^{-2})$と$\mathcal{o}(\varepsilon^{-3})$で上限される。 我々の知る限りでは、NC-PLミニマックス問題を解くための反復複雑性を保証した最初の2つのゼロ階アルゴリズムである。

In this paper, we consider a class of nonconvex-nonconcave minimax problems, i.e., NC-PL minimax problems, whose objective functions satisfy the Polyak-\L ojasiewicz (PL) condition with respect to the inner variable. We propose a zeroth-order alternating gradient descent ascent (ZO-AGDA) algorithm and a zeroth-order variance reduced alternating gradient descent ascent (ZO-VRAGDA) algorithm for solving NC-PL minimax problem under the deterministic and the stochastic setting, respectively. The total number of function value queries to obtain an $\epsilon$-stationary point of ZO-AGDA and ZO-VRAGDA algorithm for solving NC-PL minimax problem is upper bounded by $\mathcal{O}(\varepsilon^{-2})$ and $\mathcal{O}(\varepsilon^{-3})$, respectively. To the best of our knowledge, they are the first two zeroth-order algorithms with the iteration complexity gurantee for solving NC-PL minimax problems.
翻訳日:2023-05-31 02:55:42 公開日:2023-05-27
# スケーラブルで汎用的な意思決定のためのマスク付き自動エンコーディング

Masked Autoencoding for Scalable and Generalizable Decision Making ( http://arxiv.org/abs/2211.12740v2 )

ライセンス: Link先を確認
Fangchen Liu, Hao Liu, Aditya Grover, Pieter Abbeel(参考訳) 現在の大規模ビジョンや言語モデルに似た大規模で多様なシーケンシャルなデータから学ぶことができる、強化学習のためのスケーラブルなエージェントの学習に興味があります。 そこで本稿では,強化学習(RL)と行動クローニング(BC)のための簡易かつスケーラブルな自己教師付き事前学習手法であるマスク決定予測(MaskDP)を提案する。 MaskDPアプローチでは,マスク付きオートエンコーダ(MAE)を用いて状態-動作軌跡を解析し,状態と動作トークンをランダムにマスキングし,欠落したデータを再構成する。 そうすることで、モデルはマスクアウト状態とアクションを推測し、ダイナミクスに関する情報を抽出する必要がある。 入力シーケンスの異なる割合をマスキングすることは、複数の下流タスクをうまく一般化するより良いモデルを学ぶのに大いに役立ちます。 実証実験では、MaskDPモデルが、単一および複数ゴール到達のような新しいBCタスクへのゼロショット転送能力を獲得し、いくつかの例からゼロショット推論のスキルを得ることができた。 さらに、MaskDPはオフラインのRLによく移行し、モデルサイズに有望なスケーリング動作を示す。 データ効率の良い微調整には適しており、自己回帰的事前訓練に基づく先行手法による競合結果が得られる。

We are interested in learning scalable agents for reinforcement learning that can learn from large-scale, diverse sequential data similar to current large vision and language models. To this end, this paper presents masked decision prediction (MaskDP), a simple and scalable self-supervised pretraining method for reinforcement learning (RL) and behavioral cloning (BC). In our MaskDP approach, we employ a masked autoencoder (MAE) to state-action trajectories, wherein we randomly mask state and action tokens and reconstruct the missing data. By doing so, the model is required to infer masked-out states and actions and extract information about dynamics. We find that masking different proportions of the input sequence significantly helps with learning a better model that generalizes well to multiple downstream tasks. In our empirical study, we find that a MaskDP model gains the capability of zero-shot transfer to new BC tasks, such as single and multiple goal reaching, and it can zero-shot infer skills from a few example transitions. In addition, MaskDP transfers well to offline RL and shows promising scaling behavior w.r.t. to model size. It is amenable to data-efficient finetuning, achieving competitive results with prior methods based on autoregressive pretraining.
翻訳日:2023-05-31 02:55:17 公開日:2023-05-27
# UniSummとSummZoo:Few-Shot Summarizationのための統一モデルとディバースベンチマーク

UniSumm and SummZoo: Unified Model and Diverse Benchmark for Few-Shot Summarization ( http://arxiv.org/abs/2211.09783v6 )

ライセンス: Link先を確認
Yulong Chen, Yang Liu, Ruochen Xu, Ziyi Yang, Chenguang Zhu, Michael Zeng, Yue Zhang(参考訳) アノテーションコストが高く、様々な要約タスクの多様な要求が、わずかな要約の開発を動機付けている。 しかし、多くの要約タスクやデータセットの出現にもかかわらず、現在の数ショットの要約システムの訓練パラダイムは、異種データセットにおける潜在的共有可能な知識を無視している。 この目的のために,複数の要約タスクで事前訓練された統合された複数ショット要約モデルである \textsc{UniSumm} を提案する。 一方、多様性とロバスト性の原則に基づき、少数の要約をよりよく評価するために、新しいベンチマークであるtextsc{SummZoo}を組み立て、リリースする。 8ドルの要約タスクと、各タスクの複数セットの少数のサンプルで構成され、さまざまなドメインをカバーする。 実験結果と解析結果から, GPT-3.5モデルと比較して, \textsc{UniSumm} は, 自動評価と人的評価の両方において, すべてのサブタスクにおいて, 強いベースラインを大きなマージンで上回り, 人的評価に匹敵する結果が得られた。

The high annotation costs and diverse demands of various summarization tasks motivate the development of few-shot summarization. However, despite the emergence of many summarization tasks and datasets, the current training paradigm for few-shot summarization systems ignores potentially shareable knowledge in heterogeneous datasets. To this end, we propose \textsc{UniSumm}, a unified few-shot summarization model pre-trained with multiple summarization tasks and can be prefix-tuned to excel at any few-shot summarization task. Meanwhile, to better evaluate few-shot summarizers, under the principles of diversity and robustness, we assemble and release a new benchmark \textsc{SummZoo}. It consists of $8$ summarization tasks with multiple sets of few-shot samples for each task, covering diverse domains. Experimental results and analysis show that \textsc{UniSumm} outperforms strong baselines by a large margin across all sub-tasks in \textsc{SummZoo} under both automatic and human evaluations and achieves comparable results in human evaluation compared with a GPT-3.5 model.
翻訳日:2023-05-31 02:53:21 公開日:2023-05-27
# ISAACS:安全のためのソフト・アドベラル・アクター・クリティカル

ISAACS: Iterative Soft Adversarial Actor-Critic for Safety ( http://arxiv.org/abs/2212.03228v2 )

ライセンス: Link先を確認
Kai-Chieh Hsu, Duy Phuong Nguyen, Jaime Fern\'andez Fisac(参考訳) 非制御環境におけるロボットの展開は、不規則な地形や風条件など、これまで見つからなかったシナリオの下でのロバストな運用を必要とする。 残念ながら、ロバストな最適制御理論からの厳密な安全フレームワークは高次元の非線形力学に乏しいが、よりトラクタブルな"ディープ"手法によって計算される制御ポリシーには保証がなく、不確実な動作条件にはほとんど堅牢性を示す傾向にある。 本研究は,ゲーム理論の安全性解析と対向強化学習を組み合わせることで,境界モデリング誤差を考慮したロボットシステムのための堅牢な安全維持コントローラのスケーラブルな合成を可能にする新しいアプローチを提案する。 ソフトアクター批判スキームの後に、設計者の不確実性によって許容されるモデルエラーとトレーニング・ツー・デプロイの不一致の最悪のケースの実現を誘発することを目的とした、敵対的「混乱」エージェントと、安全を追求するフォールバックポリシーが共同で訓練される。 学習された制御ポリシーは本質的に安全を保証しないが、前方到達性ロールアウトに基づく堅牢な安全性保証を備えたリアルタイム安全フィルタ(またはシールド)を構築するために使用される。 このシールドは、安全非依存の制御ポリシーと組み合わせて使用することができ、安全を損なう可能性のあるタスク駆動のアクションを予測できる。 5dレースカーシミュレータにおける学習に基づく安全アプローチを評価し,学習した安全ポリシーと数値的に得られた最適解を比較し,提案する安全シールドのロバストな安全性保証を,最悪のモデルの不一致に対して実証的に検証した。

The deployment of robots in uncontrolled environments requires them to operate robustly under previously unseen scenarios, like irregular terrain and wind conditions. Unfortunately, while rigorous safety frameworks from robust optimal control theory scale poorly to high-dimensional nonlinear dynamics, control policies computed by more tractable "deep" methods lack guarantees and tend to exhibit little robustness to uncertain operating conditions. This work introduces a novel approach enabling scalable synthesis of robust safety-preserving controllers for robotic systems with general nonlinear dynamics subject to bounded modeling error by combining game-theoretic safety analysis with adversarial reinforcement learning in simulation. Following a soft actor-critic scheme, a safety-seeking fallback policy is co-trained with an adversarial "disturbance" agent that aims to invoke the worst-case realization of model error and training-to-deployment discrepancy allowed by the designer's uncertainty. While the learned control policy does not intrinsically guarantee safety, it is used to construct a real-time safety filter (or shield) with robust safety guarantees based on forward reachability rollouts. This shield can be used in conjunction with a safety-agnostic control policy, precluding any task-driven actions that could result in loss of safety. We evaluate our learning-based safety approach in a 5D race car simulator, compare the learned safety policy to the numerically obtained optimal solution, and empirically validate the robust safety guarantee of our proposed safety shield against worst-case model discrepancy.
翻訳日:2023-05-31 02:46:22 公開日:2023-05-27
# wecheck: 弱い教師付き学習による強力な事実整合性チェッカー

WeCheck: Strong Factual Consistency Checker via Weakly Supervised Learning ( http://arxiv.org/abs/2212.10057v2 )

ライセンス: Link先を確認
Wenhao Wu, Wei Li, Xinyan Xiao, Jiachen Liu, Sujian Li, Yajuan Lv(参考訳) 現在のテキスト生成モデルにおいて重要な問題は、しばしば各入力で現実的に一貫性のないテキストを生成することである。 注釈付きデータの欠如によって制限された既存の研究は、質問応答(QA)や自然言語推論(NLI)といった他のデータ豊富な上流タスクで訓練されたモデルの推論能力を直接的に伝達する。 その結果、実際の生成されたテキストではパフォーマンスが悪く、単一ソースの上流タスクに大きく偏っている。 この問題を軽減するために、複数のリソースを集約して正確な実測値、すなわちWeCheckを訓練する弱い教師付きフレームワークを提案する。 WeCheckはまず生成モデルを用いて、複数のリソースから推測される弱いラベルを集約することで、実際のサンプルを正確にラベル付けする。 そして、ノイズを考慮しながら、弱い監督の下でターゲットのメトリックモデルをトレーニングします。 様々なタスクに関する総合的な実験はWeCheckの強力な性能を示し、TRUEベンチマークにおける従来の最先端手法よりも3.4倍の絶対的な改善を実現している。

A crucial issue of current text generation models is that they often uncontrollably generate factually inconsistent text with respective of their inputs. Limited by the lack of annotated data, existing works in evaluating factual consistency directly transfer the reasoning ability of models trained on other data-rich upstream tasks like question answering (QA) and natural language inference (NLI) without any further adaptation. As a result, they perform poorly on the real generated text and are biased heavily by their single-source upstream tasks. To alleviate this problem, we propose a weakly supervised framework that aggregates multiple resources to train a precise and efficient factual metric, namely WeCheck. WeCheck first utilizes a generative model to accurately label a real generated sample by aggregating its weak labels, which are inferred from multiple resources. Then, we train the target metric model with the weak supervision while taking noises into consideration. Comprehensive experiments on a variety of tasks demonstrate the strong performance of WeCheck, which achieves a 3.4\% absolute improvement over previous state-of-the-art methods on TRUE benchmark on average.
翻訳日:2023-05-31 02:35:06 公開日:2023-05-27
# 円筒形geナノワイヤにおける低エネルギーホールサブバンド分散:ナノワイヤ成長方向の影響

Low-energy hole subband dispersions in a cylindrical Ge nanowire: the effects of the nanowire growth direction ( http://arxiv.org/abs/2301.08400v2 )

ライセンス: Link先を確認
Rui Li and Zi-Qiang Li(参考訳) 孔ガスのサブバンド分散を計算する際の球面近似 $\gamma_{s}=(2\gamma_{2}+3\gamma_{3})/5$ の有効性を検討する。 準縮退摂動理論を用いて、円筒状geナノワイヤ内の現実的ホールサブバンド分散(球面近似なし)を計算する。 現実的な低エネルギーホールサブバンド分散は、球面近似予測を含む二重井戸対交構造を有する。 しかし、現実的なサブバンド分散もナノワイヤ成長方向に依存する。 ナノワイヤ成長方向が(100)結晶面に制限されると、サブバンドパラメータの詳細な成長方向依存性が与えられる。 球面近似はよい近似であり、実結果を特定の成長方向でうまく再現することができる。

We examine the validity of the spherical approximation $\gamma_{s}=(2\gamma_{2}+3\gamma_{3})/5$ in the Luttinger-Kohn Hamiltonian in calculating the subband dispersions of the hole gas. We calculate the realistic hole subband dispersions (without the spherical approximation) in a cylindrical Ge nanowire by using quasi-degenerate perturbation theory. The realistic low-energy hole subband dispersions have a double-well anticrossing structure, that consists with the spherical approximation prediction. However, the realistic subband dispersions are also nanowire growth direction dependent. When the nanowire growth direction is restricted in the (100) crystal plane, the detailed growth direction dependences of the subband parameters are given. We find the spherical approximation is good approximation, it can nicely reproduce the real result in some special growth directions.
翻訳日:2023-05-31 02:17:37 公開日:2023-05-27
# odosフィルタと深層学習ネットワークを用いた医用画像の線形オブジェクトセグメンテーション

Curvilinear object segmentation in medical images based on ODoS filter and deep learning network ( http://arxiv.org/abs/2301.07475v2 )

ライセンス: Link先を確認
Yuanyuan Peng, Lin Pan, Pengpeng Luan, Hongbin Tu, Xiong Li(参考訳) 医用画像における線状物体の自動分割は、人体疾患の診断・評価において重要な役割を果たすが、様々な画像の出現、線状物体とその周辺背景のコントラストの低さ、細く不均一な線状構造、不適切な背景照明条件など、様々な問題により、複雑な分節作業において不確実である。 これらの課題を克服するために,スティック(ODoS)フィルタの指向微分に基づく独自のカービリニア構造セグメンテーションフレームワークと,医用画像におけるカービリニアオブジェクトセグメンテーションのためのディープラーニングネットワークを提案する。 現在、多くのディープラーニングモデルは、深いアーキテクチャの開発を強調し、カービリニアオブジェクトの構造的特徴のキャプチャーを無視し、満足のいく結果をもたらす可能性がある。 その結果、深層学習ネットワークの一部としてODoSフィルタを組み込んだ新しい手法が提案され、曲線オブジェクトの空間的注意度が向上する。 具体的には、入力画像をODoSフィルタで構築した4チャンネル画像に転送する。 原画像は、様々な画像の外観や複雑な背景照明条件を記述する主部分とされ、カービリニアオブジェクトとその周辺背景とのコントラストを高めるための多段階戦略を用いて、細いカービリニア構造と不均一なカービリニア構造を識別するためにベクトル場を適用する。 その後、深層学習の枠組みを用いて、医用画像のクルビリニアオブジェクトセグメンテーションのための様々な構造的特徴を抽出する。 計算モデルの性能は、公開されているDRIVE、STARE、CHASEDB1データセットで実施された実験で検証される。 実験結果から,提案モデルでは,いくつかの最先端手法と比較して,驚くべき結果が得られた。

Automatic segmentation of curvilinear objects in medical images plays an important role in the diagnosis and evaluation of human diseases, yet it is a challenging uncertainty in the complex segmentation tasks due to different issues such as various image appearances, low contrast between curvilinear objects and their surrounding backgrounds, thin and uneven curvilinear structures, and improper background illumination conditions. To overcome these challenges, we present a unique curvilinear structure segmentation framework based on an oriented derivative of stick (ODoS) filter and a deep learning network for curvilinear object segmentation in medical images. Currently, a large number of deep learning models emphasize developing deep architectures and ignore capturing the structural features of curvilinear objects, which may lead to unsatisfactory results. Consequently, a new approach that incorporates an ODoS filter as part of a deep learning network is presented to improve the spatial attention of curvilinear objects. Specifically, the input image is transfered into four-channel image constructed by the ODoS filter. In which, the original image is considered the principal part to describe various image appearance and complex background illumination conditions, a multi-step strategy is used to enhance the contrast between curvilinear objects and their surrounding backgrounds, and a vector field is applied to discriminate thin and uneven curvilinear structures. Subsequently, a deep learning framework is employed to extract various structural features for curvilinear object segmentation in medical images. The performance of the computational model is validated in experiments conducted on the publicly available DRIVE, STARE and CHASEDB1 datasets. The experimental results indicate that the presented model yields surprising results compared with those of some state-of-the-art methods.
翻訳日:2023-05-31 02:17:10 公開日:2023-05-27
# 双曲ファンデルワールス材料を用いたキャビティ量子電磁力学

Cavity Quantum Electrodynamics with Hyperbolic van der Waals Materials ( http://arxiv.org/abs/2301.03712v3 )

ライセンス: Link先を確認
Yuto Ashida, Atac Imamoglu, Eugene Demler(参考訳) 量子エミッタの基底状態特性と励起エネルギーは、共振器共振周波数に匹敵する光-物質相互作用強度を持つ共振器量子電磁力学(QED)の超強結合状態に変化することができる。 近年,深部サブ波長スケールの電磁界を包含するキャビティに電子材料を埋め込むことで電子材料を制御する可能性を探究する研究が始まっている。 現在、量子物質の基本的な励起の大部分はこの周波数域にあるため、スペクトルのテラヘルツ(THz)部分における超強結合空洞QEDの実現には強い関心がある。 極性極性ファンデルワールス結晶からなる平面キャビティでカプセル化された2次元電子材料を用いて,この目標を達成するための有望なプラットフォームを提案し,議論する。 具体的構成として, ナノメートルの六方晶窒化ホウ素層は, 二層グラフェンの単一電子サイクロトロン共鳴において超強結合状態に到達できることを示す。 提案したキャビティ・プラットフォームは多種多様な誘電体材料と双曲分散により実現可能である。 その結果、ファン・デル・ワールスのヘテロ構造は、空洞QED材料の超強結合物理を探索するための汎用的な遊び場になることを約束している。

The ground-state properties and excitation energies of a quantum emitter can be modified in the ultrastrong coupling regime of cavity quantum electrodynamics (QED) where the light-matter interaction strength becomes comparable to the cavity resonance frequency. Recent studies have started to explore the possibility of controlling an electronic material by embedding it in a cavity that confines electromagnetic fields in deep subwavelength scales. Currently, there is a strong interest in realizing ultrastrong-coupling cavity QED in the terahertz (THz) part of the spectrum, since most of the elementary excitations of quantum materials are in this frequency range. We propose and discuss a promising platform to achieve this goal based on a two-dimensional electronic material encapsulated by a planar cavity consisting of ultrathin polar van der Waals crystals. As a concrete setup, we show that nanometer-thick hexagonal boron nitride layers should allow one to reach the ultrastrong coupling regime for single-electron cyclotron resonance in a bilayer graphene. The proposed cavity platform can be realized by a wide variety of thin dielectric materials with hyperbolic dispersions. Consequently, van der Waals heterostructures hold the promise of becoming a versatile playground for exploring the ultrastrong-coupling physics of cavity QED materials.
翻訳日:2023-05-31 02:14:29 公開日:2023-05-27
# マルチタスク深層アンサンブルによる因果効果の推定

Estimating Causal Effects using a Multi-task Deep Ensemble ( http://arxiv.org/abs/2301.11351v3 )

ライセンス: Link先を確認
Ziyang Jiang, Zhuoran Hou, Yiling Liu, Yiman Ren, Keyu Li, David Carlson(参考訳) 因果効果推定のためのいくつかの手法が提案されているが、画像などの複雑な構造を用いたデータ処理の有効性を示すものはほとんどない。 このギャップを埋めるために,研究人口から共有情報とグループ固有情報の両方を学習する新しいフレームワークであるCausal Multi-task Deep Ensemble (CMDE)を提案する。 共領域化カーネルを先行とするマルチタスクガウス過程(GP)に対するCDMEの等価性を示す証明を提供する。 マルチタスクGPと比較して、CMDEは高次元およびマルチモーダルな共変体を効率的に処理し、因果効果のポイントワイズ不確実性を推定する。 本手法は各種のデータセットやタスクにまたがって評価し,CMDEがこれらのタスクの大部分において最先端の手法より優れていることを示す。

A number of methods have been proposed for causal effect estimation, yet few have demonstrated efficacy in handling data with complex structures, such as images. To fill this gap, we propose Causal Multi-task Deep Ensemble (CMDE), a novel framework that learns both shared and group-specific information from the study population. We provide proofs demonstrating equivalency of CDME to a multi-task Gaussian process (GP) with a coregionalization kernel a priori. Compared to multi-task GP, CMDE efficiently handles high-dimensional and multi-modal covariates and provides pointwise uncertainty estimates of causal effects. We evaluate our method across various types of datasets and tasks and find that CMDE outperforms state-of-the-art methods on a majority of these tasks.
翻訳日:2023-05-31 02:08:28 公開日:2023-05-27
# WL meet VC

WL meet VC ( http://arxiv.org/abs/2301.11039v2 )

ライセンス: Link先を確認
Christopher Morris, Floris Geerts, Jan T\"onshoff, Martin Grohe(参考訳) 近年,グラフニューラルネットワーク(GNN)の表現力について,1次元Weisfeiler-Lemanアルゴリズム(1\text{-}\mathsf{WL}$)にリンクすることで研究されている。 ここで、1\text{-}\mathsf{WL}$ はグラフ同型問題に対するよく研究されたヒューリスティックであり、グラフの頂点集合を反復的に色付けまたは分割する。 この関係は、GNNの表現力の理解と強化に大きな進歩をもたらしたが、その一般化性能、すなわちトレーニングセットを超えて有意義な予測を行う能力についての洞察を与えていない。 本稿では,GNNの一般化能力を,Vapnik-Chervonenkis(VC)次元理論のレンズを用いて2つの設定で研究し,グラフレベルの予測に焦点を当てた。 まず、グラフの順序の上限が知られていない場合、gnnの重みのビット長がvc次元に密着していることを示す。 さらに、GNN の VC 次元の上限を $1\text{-}\mathsf{WL}$ で生成される色数を用いて導出する。 第二に、グラフの順序の上限が分かっているとき、 1\text{-}\mathsf{wl}$ と gnns の vc 次元で区別可能なグラフの数と密接な関係を示す。 実験結果は理論的な結果の妥当性を確認した。

Recently, many works studied the expressive power of graph neural networks (GNNs) by linking it to the $1$-dimensional Weisfeiler--Leman algorithm ($1\text{-}\mathsf{WL}$). Here, the $1\text{-}\mathsf{WL}$ is a well-studied heuristic for the graph isomorphism problem, which iteratively colors or partitions a graph's vertex set. While this connection has led to significant advances in understanding and enhancing GNNs' expressive power, it does not provide insights into their generalization performance, i.e., their ability to make meaningful predictions beyond the training set. In this paper, we study GNNs' generalization ability through the lens of Vapnik--Chervonenkis (VC) dimension theory in two settings, focusing on graph-level predictions. First, when no upper bound on the graphs' order is known, we show that the bitlength of GNNs' weights tightly bounds their VC dimension. Further, we derive an upper bound for GNNs' VC dimension using the number of colors produced by the $1\text{-}\mathsf{WL}$. Secondly, when an upper bound on the graphs' order is known, we show a tight connection between the number of graphs distinguishable by the $1\text{-}\mathsf{WL}$ and GNNs' VC dimension. Our empirical study confirms the validity of our theoretical findings.
翻訳日:2023-05-31 02:07:55 公開日:2023-05-27
# Banker Online Mirror Descent: 遅延オンラインバンド学習のためのユニバーサルアプローチ

Banker Online Mirror Descent: A Universal Approach for Delayed Online Bandit Learning ( http://arxiv.org/abs/2301.10500v2 )

ライセンス: Link先を確認
Jiatai Huang, Yan Dai, Longbo Huang(参考訳) オンライン学習文献における古典的オンラインミラー・ディクセント(OMD)技法を一般化した新しいフレームワークであるバンクラーオンライン・ミラー・ディクセント(Banker Online Mirror Descent, Banker-OMD)を提案する。 Banker-OMDフレームワークは、フィードバック遅延処理とタスク固有のOMDアルゴリズム設計をほぼ完全に分離し、フィードバック遅延を効率的にかつ堅牢に処理できる新しいアルゴリズムの設計を容易にする。 具体的には、遅延フィードバックを伴うオンラインバンディット学習タスクにおける、$\widetilde{\mathcal O}(\sqrt{T} + \sqrt{D})$スタイルの後悔境界を達成するための一般的な方法論を提供する。 遅延フィードバックを伴う2つの重要なバンディット学習シナリオに対して,mab (scale-free adversarial multi-armed bandit) と遅延線形バンディット (delayed adversarial linear bandit) を応用して, \texttt{banker-omd} のパワーを実証した。 \texttt{banker-omd} は、$\widetilde{\mathcal o}(\sqrt{k}l(\sqrt t+\sqrt d)) を達成する最初の遅延スケールフリーな逆向き mab アルゴリズムと$\widetilde{\mathcal o}(\text{poly}(n)(\sqrt{t} + \sqrt{d})$ regret を達成する最初の遅延逆向きバンディットアルゴリズムに繋がる。 結論として、最初の応用は、非遅延スケール自由逆数 MAB に対して $\widetilde{\mathcal O}(\sqrt{KT}L)$ regret を意味し、これは $\Omega(\sqrt{KT}L)$ lower を対数的因子に限定して、独立な関心を持つことができる。

We propose Banker Online Mirror Descent (Banker-OMD), a novel framework generalizing the classical Online Mirror Descent (OMD) technique in the online learning literature. The Banker-OMD framework almost completely decouples feedback delay handling and the task-specific OMD algorithm design, thus facilitating the design of new algorithms capable of efficiently and robustly handling feedback delays. Specifically, it offers a general methodology for achieving $\widetilde{\mathcal O}(\sqrt{T} + \sqrt{D})$-style regret bounds in online bandit learning tasks with delayed feedback, where $T$ is the number of rounds and $D$ is the total feedback delay. We demonstrate the power of \texttt{Banker-OMD} by applications to two important bandit learning scenarios with delayed feedback, including delayed scale-free adversarial Multi-Armed Bandits (MAB) and delayed adversarial linear bandits. \texttt{Banker-OMD} leads to the first delayed scale-free adversarial MAB algorithm achieving $\widetilde{\mathcal O}(\sqrt{K}L(\sqrt T+\sqrt D))$ regret and the first delayed adversarial linear bandit algorithm achieving $\widetilde{\mathcal O}(\text{poly}(n)(\sqrt{T} + \sqrt{D}))$ regret. As a corollary, the first application also implies $\widetilde{\mathcal O}(\sqrt{KT}L)$ regret for non-delayed scale-free adversarial MABs, which is the first to match the $\Omega(\sqrt{KT}L)$ lower bound up to logarithmic factors and can be of independent interest.
翻訳日:2023-05-31 02:07:15 公開日:2023-05-27
# 気象予報のためのプロンプトフェデレーション学習:気象データに基づく基礎モデルに向けて

Prompt Federated Learning for Weather Forecasting: Toward Foundation Models on Meteorological Data ( http://arxiv.org/abs/2301.09152v2 )

ライセンス: Link先を確認
Shengchao Chen, Guodong Long, Tao Shen, Jing Jiang(参考訳) 地球規模の気象課題に取り組むためには,大規模気象データに基づく総合的な気象予報のための共同プラットフォームの開発を緊急に行う必要がある。 緊急性にもかかわらず、多変量の不均一性とデータ露出を必然的に引き起こす異質な気象センサが、主要な障壁となる。 本稿では,複雑な気象データの理解と天気予報の提供が可能な地域間基盤モデルを開発する。 地域間でのデータ露出の懸念を和らげるため、新しいフェデレーション学習手法が提案され、異種気象データを持つ参加者間で、新しい時空間トランスフォーマーベース基盤モデルを共同で学習する。 さらに、低リソースセンサの通信と計算制約を満たすために、新しいプロンプト学習機構が採用されている。 提案手法の有効性は,多変量時系列を持つ3つの気象データセットを用いて,古典的な天気予報タスクにおいて実証されている。

To tackle the global climate challenge, it urgently needs to develop a collaborative platform for comprehensive weather forecasting on large-scale meteorological data. Despite urgency, heterogeneous meteorological sensors across countries and regions, inevitably causing multivariate heterogeneity and data exposure, become the main barrier. This paper develops a foundation model across regions capable of understanding complex meteorological data and providing weather forecasting. To relieve the data exposure concern across regions, a novel federated learning approach has been proposed to collaboratively learn a brand-new spatio-temporal Transformer-based foundation model across participants with heterogeneous meteorological data. Moreover, a novel prompt learning mechanism has been adopted to satisfy low-resourced sensors' communication and computational constraints. The effectiveness of the proposed method has been demonstrated on classical weather forecasting tasks using three meteorological datasets with multivariate time series.
翻訳日:2023-05-31 02:05:47 公開日:2023-05-27
# テキストから話す学習:教師なしテキスト事前学習によるゼロショット多言語テキスト音声

Learning to Speak from Text: Zero-Shot Multilingual Text-to-Speech with Unsupervised Text Pretraining ( http://arxiv.org/abs/2301.12596v3 )

ライセンス: Link先を確認
Takaaki Saeki, Soumi Maiti, Xinjian Li, Shinji Watanabe, Shinnosuke Takamichi, Hiroshi Saruwatari(参考訳) ニューラルテキスト音声(TTS)は、人間のような自然な合成音声を達成しているが、多言語TSシステムは、ペアテキストとスタジオ品質のオーディオデータを必要とするため、リソース豊富な言語に限られている。 本稿では,対象言語に対するテキストのみのデータを用いたゼロショット多言語TSを提案する。 テキストのみのデータを使用することで、テキストリソースのみが利用可能な低リソース言語向けのTSシステムの開発が可能になり、数千の言語でTTSが利用できるようになる。 本フレームワークは,多言語言語モデルの強い言語間伝達性に着想を得て,まず,多言語テキストのみのデータを用いた事前学習を行う。 次に、言語対応の埋め込み層を凍結しながら、このモデルを教師付き方法でペアデータでトレーニングする。 これにより、ペアデータには含まれず、テキストのみのデータに存在する言語に対しても推論が可能になる。 評価の結果,文字誤り率が12%未満のゼロショットTSは,見当たらない言語では高い知能性を示した。

While neural text-to-speech (TTS) has achieved human-like natural synthetic speech, multilingual TTS systems are limited to resource-rich languages due to the need for paired text and studio-quality audio data. This paper proposes a method for zero-shot multilingual TTS using text-only data for the target language. The use of text-only data allows the development of TTS systems for low-resource languages for which only textual resources are available, making TTS accessible to thousands of languages. Inspired by the strong cross-lingual transferability of multilingual language models, our framework first performs masked language model pretraining with multilingual text-only data. Then we train this model with a paired data in a supervised manner, while freezing a language-aware embedding layer. This allows inference even for languages not included in the paired data but present in the text-only data. Evaluation results demonstrate highly intelligible zero-shot TTS with a character error rate of less than 12% for an unseen language.
翻訳日:2023-05-31 01:55:57 公開日:2023-05-27
# ロバストネスの普遍法則を超えて:ランダム特徴とニューラルタンジェントカーネルのシャーパー法則

Beyond the Universal Law of Robustness: Sharper Laws for Random Features and Neural Tangent Kernels ( http://arxiv.org/abs/2302.01629v2 )

ライセンス: Link先を確認
Simone Bombari, Shayan Kiyani, Marco Mondelli(参考訳) 機械学習モデルは、逆の摂動に対して脆弱であり、bubeck and sellke氏の示唆する論文では、過剰パラメータ化のレンズを通してこの現象を分析している。 しかし、この「普遍的」法則はロバスト性に必要な条件のみを提供し、モデル間で区別できない。 本稿では,ランダムな特徴とニューラル・タンジェント・カーネル(NTK)という2つの原始的設定における経験的リスク最小化に着目し,これらのギャップに対処する。 ランダムな特徴に対して、モデルが任意の過度パラメータ化の度合いに対してロバストであることは、普遍的なロバスト性法則から生じる必要条件が満たされている場合でも証明する。 対照的に、活性化についても、NTKモデルは普遍的な下界に合致し、過パラメータ化に必要な条件が満たされると、すぐに堅牢となる。 これはまた、bubeck、li、nagarajによる先行研究における予想にも対処している。 この分析は、テストデータとの相互作用を記述する「相互作用行列」からモデルのカーネルの効果を分離し、アクティベーションの効果をキャプチャする。 我々の理論結果は、合成データセットと標準データセット(MNIST, CIFAR-10)の数値的証拠によって裏付けられている。

Machine learning models are vulnerable to adversarial perturbations, and a thought-provoking paper by Bubeck and Sellke has analyzed this phenomenon through the lens of over-parameterization: interpolating smoothly the data requires significantly more parameters than simply memorizing it. However, this "universal" law provides only a necessary condition for robustness, and it is unable to discriminate between models. In this paper, we address these gaps by focusing on empirical risk minimization in two prototypical settings, namely, random features and the neural tangent kernel (NTK). We prove that, for random features, the model is not robust for any degree of over-parameterization, even when the necessary condition coming from the universal law of robustness is satisfied. In contrast, for even activations, the NTK model meets the universal lower bound, and it is robust as soon as the necessary condition on over-parameterization is fulfilled. This also addresses a conjecture in prior work by Bubeck, Li and Nagaraj. Our analysis decouples the effect of the kernel of the model from an "interaction matrix", which describes the interaction with the test data and captures the effect of the activation. Our theoretical results are corroborated by numerical evidence on both synthetic and standard datasets (MNIST, CIFAR-10).
翻訳日:2023-05-31 01:50:13 公開日:2023-05-27
# 欠落データインプテーションの正規化による条件付期待

Conditional expectation with regularization for missing data imputation ( http://arxiv.org/abs/2302.00911v2 )

ライセンス: Link先を確認
Mai Anh Vu, Thu Nguyen, Tu T. Do, Nhan Phan, P{\aa}l Halvorsen, Michael A. Riegler, Binh T. Nguyen(参考訳) 欠落したデータは、医学、スポーツ、金融など、さまざまな分野のデータセットで頻繁に発生する。 多くの場合、そのようなデータの適切な信頼性のある解析を可能にするために、欠落した値はしばしばインプットされ、使用法はインプットと真の値の間に低いルート平均二乗誤差(RMSE)を持つ必要がある。 さらに、いくつかの重要なアプリケーションでは、命令法がスケーラブルであり、命令法の背後にあるロジックが説明可能であるという要求もしばしばある。 これらの考察に基づき,「正規化を伴う欠落値の条件分布に基づくインプテーション」(dimv)という新しいアルゴリズムを提案する。 DIMVは、完全に観察された特徴からの情報をベースとして、エントリが不足している特徴の条件分布を決定することで機能する。 論文での実験で示されるように、dimvは i) 最先端の方法と比較して,インプット値のRMSEが低いこと。 (ii)高速でスケーラブルなもの 三) 回帰モデルにおける係数として説明でき、信頼性及び信頼性のある分析を可能にし、医療分野、財務分野等において理解が重要である重要な領域に好適な選択となる。 (iv) あるサンプルの欠落値に対する近似信頼領域を提供することができる。 (v) 小規模かつ大規模なデータに適したもの (vi)多くのシナリオでは、ディープラーニングアプローチとして大量のパラメータを必要としない。 (vii)命令の多行性を効果的に扱うこと、及び (viii) は、理論的な根拠が依存する通常分布した仮定に頑健である。

Missing data frequently occurs in datasets across various domains, such as medicine, sports, and finance. In many cases, to enable proper and reliable analyses of such data, the missing values are often imputed, and it is necessary that the method used has a low root mean square error (RMSE) between the imputed and the true values. In addition, for some critical applications, it is also often a requirement that the imputation method is scalable and the logic behind the imputation is explainable, which is especially difficult for complex methods that are, for example, based on deep learning. Based on these considerations, we propose a new algorithm named "conditional Distribution-based Imputation of Missing Values with Regularization" (DIMV). DIMV operates by determining the conditional distribution of a feature that has missing entries, using the information from the fully observed features as a basis. As will be illustrated via experiments in the paper, DIMV (i) gives a low RMSE for the imputed values compared to state-of-the-art methods; (ii) fast and scalable; (iii) is explainable as coefficients in a regression model, allowing reliable and trustable analysis, makes it a suitable choice for critical domains where understanding is important such as in medical fields, finance, etc; (iv) can provide an approximated confidence region for the missing values in a given sample; (v) suitable for both small and large scale data; (vi) in many scenarios, does not require a huge number of parameters as deep learning approaches; (vii) handle multicollinearity in imputation effectively; and (viii) is robust to the normally distributed assumption that its theoretical grounds rely on.
翻訳日:2023-05-31 01:49:13 公開日:2023-05-27
# 文脈ラッソ:ディープニューラルネットワークによるスパース線形モデル

The contextual lasso: Sparse linear models via deep neural networks ( http://arxiv.org/abs/2302.00878v2 )

ライセンス: Link先を確認
Ryan Thompson, Amir Dezfouli, Robert Kohn(参考訳) スパース線形モデルは、多くの領域で意思決定に浸透する予測モデルとして重要になる分野である、解釈可能な機械学習のための金の標準ツールである。 残念ながら、スパース線形モデルは、ディープニューラルネットワークのようなブラックボックスモデルよりも、入力機能の関数としてはるかに柔軟性が低い。 この能力ギャップを念頭に置いて、入力特徴を2つのグループに分け、解釈可能なモデルに変数として含めるための説明的特徴と、候補変数を選択してその効果を決定する文脈的特徴の2つを考察する。 この二分法によって、文脈的特徴の関数としてスパースパターンと係数が変化するような説明的特徴にスパース線形モデルに適合する新しい統計推定器であるcontextual lassoが導かれる。 フィッティングプロセスは、ディープニューラルネットワークを介してこの関数を非パラメトリックに学習する。 スパース係数を得るために、ネットワークの出力を$\ell_1$-constrained linear modelの空間にマッピングするプロジェクション層の形で、新しいラッソ正規化器を用いてネットワークを訓練する。 実データと合成データに関する大規模な実験は、学習されたモデルは、標準的なディープニューラルネットワークの予測力を犠牲にすることなく、通常のラッソよりもスペーサーであることが示唆されている。

Sparse linear models are a gold standard tool for interpretable machine learning, a field of emerging importance as predictive models permeate decision-making in many domains. Unfortunately, sparse linear models are far less flexible as functions of their input features than black-box models like deep neural networks. With this capability gap in mind, we study a not-uncommon situation where the input features dichotomize into two groups: explanatory features, which are candidates for inclusion as variables in an interpretable model, and contextual features, which select from the candidate variables and determine their effects. This dichotomy leads us to the contextual lasso, a new statistical estimator that fits a sparse linear model to the explanatory features such that the sparsity pattern and coefficients vary as a function of the contextual features. The fitting process learns this function nonparametrically via a deep neural network. To attain sparse coefficients, we train the network with a novel lasso regularizer in the form of a projection layer that maps the network's output onto the space of $\ell_1$-constrained linear models. An extensive suite of experiments on real and synthetic data suggests that the learned models, which remain highly transparent, can be sparser than the regular lasso without sacrificing the predictive power of a standard deep neural network.
翻訳日:2023-05-31 01:48:50 公開日:2023-05-27
# スパース符号化による無拘束動的後悔

Unconstrained Dynamic Regret via Sparse Coding ( http://arxiv.org/abs/2301.13349v3 )

ライセンス: Link先を確認
Zhiyu Zhang, Ashok Cutkosky, Ioannis Ch. Paschalidis(参考訳) 逐次的意思決定における非定常性の問題に動機づけられたオンライン凸最適化(oco)を,2つの問題構造の結合の下で検討した。 すべてのコンパレータシーケンスに対して同時に低い後悔を保証できないため、この設定を扱うにはミニマックス最適化からコンパレータ適応性に移行する必要がある。 すなわち、合理的な後悔の限界は、前者の知識に対するコンパレータのある種の複雑さの尺度に依存するべきである。 本稿では, スパースコーディングフレームワークを用いて, 適応的再帰境界を新たに実現した。 コンパレータの複雑さは、そのエネルギーとユーザが指定した辞書のスパーシティによって測定され、かなりの汎用性を提供する。 例えばウェーブレット辞書を具備した我々のフレームワークは、コンパレータの最大値である$||\bar u||=||\sum_{t=1}^Tu_t/T||$と$$\sum_{t=1}^T|u_t-\bar u|$に代えて、コンパレータの最大値である$||\bar u|||=1}^T|u_t|||$の両方に適応することで、最先端境界(Jacobsen & Cutkosky, 2022)を改善する。 さらに, 再帰最小化によるデカップリング関数近似により解析が簡単になる。

Motivated by the challenge of nonstationarity in sequential decision making, we study Online Convex Optimization (OCO) under the coupling of two problem structures: the domain is unbounded, and the comparator sequence $u_1,\ldots,u_T$ is arbitrarily time-varying. As no algorithm can guarantee low regret simultaneously against all comparator sequences, handling this setting requires moving from minimax optimality to comparator adaptivity. That is, sensible regret bounds should depend on certain complexity measures of the comparator relative to one's prior knowledge. This paper achieves a new type of these adaptive regret bounds via a sparse coding framework. The complexity of the comparator is measured by its energy and its sparsity on a user-specified dictionary, which offers considerable versatility. Equipped with a wavelet dictionary for example, our framework improves the state-of-the-art bound (Jacobsen & Cutkosky, 2022) by adapting to both ($i$) the magnitude of the comparator average $||\bar u||=||\sum_{t=1}^Tu_t/T||$, rather than the maximum $\max_t||u_t||$; and ($ii$) the comparator variability $\sum_{t=1}^T||u_t-\bar u||$, rather than the uncentered sum $\sum_{t=1}^T||u_t||$. Furthermore, our analysis is simpler due to decoupling function approximation from regret minimization.
翻訳日:2023-05-31 01:48:12 公開日:2023-05-27
# Inseq:シーケンス生成モデルのための解釈可能性ツールキット

Inseq: An Interpretability Toolkit for Sequence Generation Models ( http://arxiv.org/abs/2302.13942v3 )

ライセンス: Link先を確認
Gabriele Sarti, Nils Feldhus, Ludwig Sickert, Oskar van der Wal, Malvina Nissim, Arianna Bisazza(参考訳) 自然言語処理における過去の作業 解釈性は、主に一般的な分類タスクに重点を置いていたが、一部は専用のツールの欠如による生成設定をほとんど見落としていた。 本稿では,シーケンス生成モデルの解釈可能性解析へのアクセスを民主化するpythonライブラリであるinseqを紹介する。 inseqは、一般的なデコーダオンリーおよびエンコーダデコーダトランスフォーマーアーキテクチャのための、モデルの内部情報の直感的かつ最適化された抽出を可能にする。 機械翻訳モデルにおいて,ジェンダーバイアスを強調表示し,GPT-2内部の事実的知識を特定することで,その可能性を示す。 対照的な特徴帰属のような最先端技術をサポートする拡張可能なインターフェースのおかげで、inseqは、説明可能な自然言語生成の将来の進歩を促進し、良い実践を集中させ、公平で再現可能なモデル評価を可能にする。

Past work in natural language processing interpretability focused mainly on popular classification tasks while largely overlooking generation settings, partly due to a lack of dedicated tools. In this work, we introduce Inseq, a Python library to democratize access to interpretability analyses of sequence generation models. Inseq enables intuitive and optimized extraction of models' internal information and feature importance scores for popular decoder-only and encoder-decoder Transformers architectures. We showcase its potential by adopting it to highlight gender biases in machine translation models and locate factual knowledge inside GPT-2. Thanks to its extensible interface supporting cutting-edge techniques such as contrastive feature attribution, Inseq can drive future advances in explainable natural language generation, centralizing good practices and enabling fair and reproducible model evaluations.
翻訳日:2023-05-31 01:30:04 公開日:2023-05-27
# 自己教師付き学習に基づく多変量時系列データのクラスタリング(slac-time) : tbi表現型化への応用

A Self-Supervised Learning-based Approach to Clustering Multivariate Time-Series Data with Missing Values (SLAC-Time): An Application to TBI Phenotyping ( http://arxiv.org/abs/2302.13457v2 )

ライセンス: Link先を確認
Hamid Ghaderi, Brandon Foreman, Amin Nayebi, Sindhu Tipirneni, Chandan K. Reddy, Vignesh Subbian(参考訳) 自己教師付き学習アプローチは、多変量時系列データをクラスタリングするための有望な方向を提供する。 しかし、実世界の時系列データは、しばしば欠落した値を含み、既存のアプローチでは、クラスタリングの前に欠落した値を暗示する必要がある。 これらの課題に対処するため,各時系列データをSLAC-Timeでクラスタリングするための自己教師付き学習ベースアプローチを提案する。 SLAC-TimeはTransformerベースのクラスタリング手法で、ラベルのないデータを活用し、より堅牢な時系列表現を学ぶためのプロキシタスクとして時系列予測を使用する。 この方法はニューラルネットワークパラメータと学習した表現のクラスタ割り当てを共同で学習する。 学習した表現をK-meansメソッドで反復的にクラスタリングし、その後、クラスタ割り当てを擬似ラベルとして利用してモデルのパラメータを更新する。 提案手法を評価するために,外傷性脳損傷(track-tbi)研究におけるトランスフォーミング研究および臨床知識として,外傷性脳損傷(tbi)患者のクラスタリングおよび表現型化に応用した。 実験により, SLAC-Timeは, シルエット係数, Calinski Harabasz 指数, Dunn 指数, Davies Bouldin 指数において, K-means クラスタリングアルゴリズムよりも優れていることが示された。 臨床的に有意な変数と臨床成績で異なる3つのTBI表現型を同定し,拡張グラスゴーアウトカム尺度(GOSE)スコア,集中治療単位(ICU)スタンス,死亡率の3つを検討した。 この実験は、SLAC-Timeによって同定されたTBI表現型が、標的となる臨床試験や治療戦略の開発に有用であることを示す。

Self-supervised learning approaches provide a promising direction for clustering multivariate time-series data. However, real-world time-series data often include missing values, and the existing approaches require imputing missing values before clustering, which may cause extensive computations and noise and result in invalid interpretations. To address these challenges, we present a Self-supervised Learning-based Approach to Clustering multivariate Time-series data with missing values (SLAC-Time). SLAC-Time is a Transformer-based clustering method that uses time-series forecasting as a proxy task for leveraging unlabeled data and learning more robust time-series representations. This method jointly learns the neural network parameters and the cluster assignments of the learned representations. It iteratively clusters the learned representations with the K-means method and then utilizes the subsequent cluster assignments as pseudo-labels to update the model parameters. To evaluate our proposed approach, we applied it to clustering and phenotyping Traumatic Brain Injury (TBI) patients in the Transforming Research and Clinical Knowledge in Traumatic Brain Injury (TRACK-TBI) study. Our experiments demonstrate that SLAC-Time outperforms the baseline K-means clustering algorithm in terms of silhouette coefficient, Calinski Harabasz index, Dunn index, and Davies Bouldin index. We identified three TBI phenotypes that are distinct from one another in terms of clinically significant variables as well as clinical outcomes, including the Extended Glasgow Outcome Scale (GOSE) score, Intensive Care Unit (ICU) length of stay, and mortality rate. The experiments show that the TBI phenotypes identified by SLAC-Time can be potentially used for developing targeted clinical trials and therapeutic strategies.
翻訳日:2023-05-31 01:29:48 公開日:2023-05-27
# 保存法を尊重する物理モデルを学ぶ

Learning Physical Models that Can Respect Conservation Laws ( http://arxiv.org/abs/2302.11002v2 )

ライセンス: Link先を確認
Derek Hansen, Danielle C. Maddix, Shima Alizadeh, Gaurav Gupta, Michael W. Mahoney(参考訳) 科学機械学習(SciML)における最近の研究は、偏微分方程式(PDE)情報を学習プロセスに組み込むことに重点を置いている。 この研究の多くは、比較的 `easy' の PDE 作用素 (楕円型や放物型など) に焦点を当てており、比較的 ``hard'' の PDE 作用素 (例えば、双曲型) に重点を置いていない。 数値PDEでは、後者の問題クラスはボリューム要素のタイプや保存制約の制御を必要とするが、これは困難であることが知られている。 SciMLの約束を果たすには、両方のタイプの問題を学習プロセスにシームレスに組み込む必要がある。 そこで本稿では,保存制約を汎用的なscimlアーキテクチャに組み込むためのフレームワークprobconservを提案する。 そのためにProbConservは、保存法とベイズ更新の一体的な形式を組み合わせる。 本稿では,広く適用可能なPDEのパラメータ化ファミリであるGPME(Generalized Porous Medium Equation)を用いたProbConserv on Learningの詳細な解析を行い,PDEの質的特性について述べる。 ProbConservは、手軽なGPME変種に対して有効であり、最先端の競合とよく機能し、より難しいGPME変種に対しては、容積保存を保証しない他のアプローチよりも優れている。 probconservは、物理的保存の制約をシームレスに強制し、確率的不確実性定量化(uq)を維持し、衝撃や異論をうまく扱う。 いずれの場合も、下流タスクにおいて優れた予測性能を達成する。

Recent work in scientific machine learning (SciML) has focused on incorporating partial differential equation (PDE) information into the learning process. Much of this work has focused on relatively ``easy'' PDE operators (e.g., elliptic and parabolic), with less emphasis on relatively ``hard'' PDE operators (e.g., hyperbolic). Within numerical PDEs, the latter problem class requires control of a type of volume element or conservation constraint, which is known to be challenging. Delivering on the promise of SciML requires seamlessly incorporating both types of problems into the learning process. To address this issue, we propose ProbConserv, a framework for incorporating conservation constraints into a generic SciML architecture. To do so, ProbConserv combines the integral form of a conservation law with a Bayesian update. We provide a detailed analysis of ProbConserv on learning with the Generalized Porous Medium Equation (GPME), a widely-applicable parameterized family of PDEs that illustrates the qualitative properties of both easier and harder PDEs. ProbConserv is effective for easy GPME variants, performing well with state-of-the-art competitors; and for harder GPME variants it outperforms other approaches that do not guarantee volume conservation. ProbConserv seamlessly enforces physical conservation constraints, maintains probabilistic uncertainty quantification (UQ), and deals well with shocks and heteroscedasticities. In each case, it achieves superior predictive performance on downstream tasks.
翻訳日:2023-05-31 01:28:20 公開日:2023-05-27
# NeuralStagger:時空間分解を用いた物理制約型ニューラルPDEソルバ

NeuralStagger: Accelerating Physics-constrained Neural PDE Solver with Spatial-temporal Decomposition ( http://arxiv.org/abs/2302.10255v2 )

ライセンス: Link先を確認
Xinquan Huang, Wenlei Shi, Qi Meng, Yue Wang, Xiaotian Gao, Jia Zhang, Tie-Yan Liu(参考訳) ニューラルネットワークは偏微分方程式(PDE)の解を加速する大きな可能性を示している。 近年、コストのかかるデータの使用を減らし、一般化能力を向上させるために、ニューラルネットワークPDEソルバのトレーニングに物理制約を導入することへの関心が高まっている。 しかし、これらの物理制約は関数空間上の有限次元近似に基づいており、シミュレーションの精度と安定性を確保するために最小のスケール物理学を解決し、大きな入力、出力、ニューラルネットワークの計算コストが高くなる。 本稿では,元の学習タスクを複数の粗いサブタスクに空間的および時間的に分解することにより,neuralstaggerと呼ばれる一般的な加速度法を提案する。 計算資源の少ないサブタスク毎に粗分解能ニューラルソルバを定義し、元の解を再構成するために出力をアレンジするだけでバニラ物理制約による損失を共同で訓練する。 それらの間の完全な並列性のため、解法は粗分解性ニューラルソルバと同じくらい早く達成される。 さらに、訓練されたソルバは、複数のレベルの解像度でシミュレートする柔軟性をもたらす。 2次元および3次元流体力学シミュレーションにおけるneuralstaggerの応用の成功を実証し、さらに$10\sim100\times$のスピードアップを実現する。 さらに,実験結果から,学習モデルが最適制御に有効であることが示唆された。

Neural networks have shown great potential in accelerating the solution of partial differential equations (PDEs). Recently, there has been a growing interest in introducing physics constraints into training neural PDE solvers to reduce the use of costly data and improve the generalization ability. However, these physics constraints, based on certain finite dimensional approximations over the function space, must resolve the smallest scaled physics to ensure the accuracy and stability of the simulation, resulting in high computational costs from large input, output, and neural networks. This paper proposes a general acceleration methodology called NeuralStagger by spatially and temporally decomposing the original learning tasks into several coarser-resolution subtasks. We define a coarse-resolution neural solver for each subtask, which requires fewer computational resources, and jointly train them with the vanilla physics-constrained loss by simply arranging their outputs to reconstruct the original solution. Due to the perfect parallelism between them, the solution is achieved as fast as a coarse-resolution neural solver. In addition, the trained solvers bring the flexibility of simulating with multiple levels of resolution. We demonstrate the successful application of NeuralStagger on 2D and 3D fluid dynamics simulations, which leads to an additional $10\sim100\times$ speed-up. Moreover, the experiment also shows that the learned model could be well used for optimal control.
翻訳日:2023-05-31 01:27:35 公開日:2023-05-27
# HyFL: プライベートフェデレーション学習のためのハイブリッドフレームワーク

HyFL: A Hybrid Framework For Private Federated Learning ( http://arxiv.org/abs/2302.09904v2 )

ライセンス: Link先を確認
Felix Marx, Thomas Schneider, Ajith Suresh, Tobias Wehrle, Christian Weinert, Hossein Yalame(参考訳) Federated Learning(FL)は、大規模分散機械学習の効率的なアプローチとして登場し、クライアントデバイスにデータをトレーニングすることでデータのプライバシを確保する。 しかし、最近の研究はFLの脆弱性を強調しており、個々のモデル更新や集約されたグローバルモデルによる機密情報の潜在的な開示を含んでいる。 クライアントのデータプライバシには多くの注意が向けられているが、グローバルモデルプライバシの問題に対処する研究は限られている。 さらに、クライアント側のローカルトレーニングは、悪意のあるクライアントが強力なモデル中毒攻撃を開始するための道を開いた。 残念ながら、これらの問題に対処する包括的なソリューションを提供していない。 そこでHyFLは,大規模デプロイメントを容易にしながら,データとグローバルモデルのプライバシを実現するハイブリッドフレームワークである。 HyFLの基礎は、セキュアなマルチパーティ計算(MPC)技術と階層的フェデレーション学習のユニークな組み合わせである。 HyFLの特筆すべき特徴は、悪意のあるクライアントがモデル中毒攻撃の実行を阻止し、破壊的なデータ中毒を抑える能力である。 オープンソースのPyTorchベースのFL実装をMetaのCrypTen PPMLフレームワークに統合したHyFLの有効性を評価する。 評価の結果,HyFL は信頼性の高い大規模 FL デプロイメントのための有望なソリューションであることが示された。

Federated learning (FL) has emerged as an efficient approach for large-scale distributed machine learning, ensuring data privacy by keeping training data on client devices. However, recent research has highlighted vulnerabilities in FL, including the potential disclosure of sensitive information through individual model updates and even the aggregated global model. While much attention has been given to clients' data privacy, limited research has addressed the issue of global model privacy. Furthermore, local training at the client's side has opened avenues for malicious clients to launch powerful model poisoning attacks. Unfortunately, no existing work has provided a comprehensive solution that tackles all these issues. Therefore, we introduce HyFL, a hybrid framework that enables data and global model privacy while facilitating large-scale deployments. The foundation of HyFL is a unique combination of secure multi-party computation (MPC) techniques with hierarchical federated learning. One notable feature of HyFL is its capability to prevent malicious clients from executing model poisoning attacks, confining them to less destructive data poisoning alone. We evaluate HyFL's effectiveness using an open-source PyTorch-based FL implementation integrated with Meta's CrypTen PPML framework. Our performance evaluation demonstrates that HyFL is a promising solution for trustworthy large-scale FL deployment.
翻訳日:2023-05-31 01:27:11 公開日:2023-05-27
# ビュー合成のためのマルチスケールテンソル分解とレンダリング方程式符号化

Multiscale Tensor Decomposition and Rendering Equation Encoding for View Synthesis ( http://arxiv.org/abs/2303.03808v2 )

ライセンス: Link先を確認
Kang Han, Wei Xiang(参考訳) 捉えた多視点画像からの新規な視点のレンダリングは, 神経放射野の出現以来, かなりの進歩を遂げている。 本稿では,ニューラルラディアンス特徴場(NRFF)と呼ばれる新しいアプローチを提案することにより,ビュー合成の質をさらに向上することを目的とする。 まず,学習可能な特徴を整理し,粗大から細スケールまでのシーンを表現するマルチスケールテンソル分解スキームを提案する。 提案するマルチスケール表現の利点として,より正確なシーン形状と外観再構成,単一スケール表現よりも高速な収束などを挙げる。 ビュー依存効果をモデル化するためにビュー方向を符号化する代わりに、提案したマルチスケール表現から予測される異方性球状ガウス混合を用いて特徴空間のレンダリング方程式を符号化する。 The proposed NRFF improves state-of-the-art rendering results by 1 dB in PSNR on the NeRF and NSVF synthetic datasets。 現実世界のタンク&テンプルのデータセットにも大きな改善が観測されている。 コードはhttps://github.com/imkanghan/nrff.comにある。

Rendering novel views from captured multi-view images has made considerable progress since the emergence of the neural radiance field. This paper aims to further advance the quality of view synthesis by proposing a novel approach dubbed the neural radiance feature field (NRFF). We first propose a multiscale tensor decomposition scheme to organize learnable features so as to represent scenes from coarse to fine scales. We demonstrate many benefits of the proposed multiscale representation, including more accurate scene shape and appearance reconstruction, and faster convergence compared with the single-scale representation. Instead of encoding view directions to model view-dependent effects, we further propose to encode the rendering equation in the feature space by employing the anisotropic spherical Gaussian mixture predicted from the proposed multiscale representation. The proposed NRFF improves state-of-the-art rendering results by over 1 dB in PSNR on both the NeRF and NSVF synthetic datasets. A significant improvement has also been observed on the real-world Tanks & Temples dataset. Code can be found at https://github.com/imkanghan/nrff.
翻訳日:2023-05-31 01:18:39 公開日:2023-05-27
# 動的プロンプト:プロンプトチューニングのための統一フレームワーク

Dynamic Prompting: A Unified Framework for Prompt Tuning ( http://arxiv.org/abs/2303.02909v2 )

ライセンス: Link先を確認
Xianjun Yang, Wei Cheng, Xujiang Zhao, Wenchao Yu, Linda Petzold and Haifeng Chen(参考訳) 先行学習言語モデル (PLM) や視覚事前学習モデル, 視覚言語モデル (V-L) などを含む, 事前学習基礎モデルから知識を効率的に抽出する上で, 迅速なチューニング技術が有効であることが実証されている。 しかし,本質的な差異にかかわらず,入力と入力を結合するための所定の位置の固定ソフトプロンプトを用いる効果はいまだ不明である。 様々なインスタンスやタスクにまたがるプロンプトの位置、長さ、表現などの変数は、プロンプトチューニングのパフォーマンスに大きな影響を与える。 この文脈では、入力を包含するプロンプトの位置を最適化することで、従来のプレフィックスやポストフィックスのプロンプトチューニング手法が捕捉できない追加のセマンティック情報を取得することができることを示す理論解析を提供する。 本分析に基づいて,特定のタスクやインスタンスに基づいて異なるプロンプトの要因を動的に決定する統合動的プロンプト(DP)チューニング戦略を提案する。 これを実現するために、Gumble-Softmaxを使った軽量学習ネットワークを使用し、インスタンスに依存したガイダンスを学習できるようにしました。 実験結果は、NLPタスク、視覚認識タスク、視覚言語タスクなど、幅広いタスクにまたがる動的プロンプトチューニングによって達成される顕著なパフォーマンス改善を裏付けるものである。 さらに,全データ,少数ショット,マルチタスクシナリオ下でのアプローチの普遍的適用性を確立する。 コードはhttps://github.com/xianjun-yang/dptで入手できる。

It has been demonstrated that the art of prompt tuning is highly effective in efficiently extracting knowledge from pretrained foundation models, encompassing pretrained language models (PLMs), vision pretrained models, and vision-language (V-L) models. However, the efficacy of employing fixed soft prompts with a predetermined position for concatenation with inputs for all instances, irrespective of their inherent disparities, remains uncertain. Variables such as the position, length, and representations of prompts across diverse instances and tasks can substantially influence the performance of prompt tuning. In this context, we provide a theoretical analysis, which reveals that optimizing the position of the prompt to encompass the input can capture additional semantic information that traditional prefix or postfix prompt tuning methods fail to capture. Building upon our analysis, we present a unified dynamic prompt (DP) tuning strategy that dynamically determines different factors of prompts based on specific tasks and instances. To accomplish this, we employ a lightweight learning network with Gumble-Softmax, allowing us to learn instance-dependent guidance. Experimental results underscore the significant performance improvement achieved by dynamic prompt tuning across a wide range of tasks, including NLP tasks, vision recognition tasks, and vision-language tasks. Furthermore, we establish the universal applicability of our approach under full-data, few-shot, and multitask scenarios. Codes are available at https://github.com/Xianjun-Yang/DPT.
翻訳日:2023-05-31 01:18:04 公開日:2023-05-27
# 逐次近似クロスバリデーション

Iterative Approximate Cross-Validation ( http://arxiv.org/abs/2303.02732v2 )

ライセンス: Link先を確認
Yuetian Luo and Zhimei Ren and Rina Foygel Barber(参考訳) クロスバリデーション (cross-validation, cv) は予測モデルの評価と選択に最も人気のあるツールの1つである。 しかし、標準CVは折りたたみ数が大きい場合に高い計算コストに悩まされる。 近年,erm(experience risk minimization)フレームワークでは,全データセットでトレーニングされたerm問題の解に基づいてcvを近似する効率的な手法が提案されている。 しかし, 大規模問題においては, 計算資源が限られているか, オーバーフィットを防ぐための早期停止のため, erm問題の厳密な解を得るのが困難である。 本稿では,erm問題を逐次1次アルゴリズムで解いた場合,収束まで実行せずに効率的にcvを近似する新しいパラダイムを提案する。 本手法は,既存のCV近似手法を一般化し,収束を含むアルゴリズムの全軌道に沿って保持する既存のCV近似の保証を拡張する。 最後に,本手法の精度と計算効率を,実験的な研究範囲を通じて概説する。

Cross-validation (CV) is one of the most popular tools for assessing and selecting predictive models. However, standard CV suffers from high computational cost when the number of folds is large. Recently, under the empirical risk minimization (ERM) framework, a line of works proposed efficient methods to approximate CV based on the solution of the ERM problem trained on the full dataset. However, in large-scale problems, it can be hard to obtain the exact solution of the ERM problem, either due to limited computational resources or due to early stopping as a way of preventing overfitting. In this paper, we propose a new paradigm to efficiently approximate CV when the ERM problem is solved via an iterative first-order algorithm, without running until convergence. Our new method extends existing guarantees for CV approximation to hold along the whole trajectory of the algorithm, including at convergence, thus generalizing existing CV approximation methods. Finally, we illustrate the accuracy and computational efficiency of our method through a range of empirical studies.
翻訳日:2023-05-31 01:17:01 公開日:2023-05-27
# 量子化によるポストホック解釈

Posthoc Interpretation via Quantization ( http://arxiv.org/abs/2303.12659v2 )

ライセンス: Link先を確認
Francesco Paissan, Cem Subakan, Mirco Ravanelli(参考訳) 本稿では,訓練された分類器による決定を量子化によるポストホック解釈(piq)と呼ばれる新しい手法を提案する。 本手法はベクトル量子化を用いて分類器の表現を離散クラス固有の潜在空間に変換する。 クラス固有のコードブックは、インタプリタが予測を行うために、分類器が関連すると思われる入力データの一部に集中するよう強制するボトルネックとして機能する。 また,最先端画像セグメンテーションモデルのような事前学習されたアノテーションモデルの監督を取り入れることで,学習概念の学習を可能にする。 本研究では,白黒画像,カラー画像,オーディオなどの定量的・質的研究を通じて評価を行った。 これらの研究の結果,PIQは文献の他のいくつかの解釈方法と比較して,ユーザ研究の参加者が理解しやすい解釈を生成することがわかった。

In this paper, we introduce a new approach, called Posthoc Interpretation via Quantization (PIQ), for interpreting decisions made by trained classifiers. Our method utilizes vector quantization to transform the representations of a classifier into a discrete, class-specific latent space. The class-specific codebooks act as a bottleneck that forces the interpreter to focus on the parts of the input data deemed relevant by the classifier for making a prediction. Our model formulation also enables learning concepts by incorporating the supervision of pretrained annotation models such as state-of-the-art image segmentation models. We evaluated our method through quantitative and qualitative studies involving black-and-white images, color images, and audio. As a result of these studies we found that PIQ generates interpretations that are more easily understood by participants to our user studies when compared to several other interpretation methods in the literature.
翻訳日:2023-05-31 01:10:00 公開日:2023-05-27
# 単語長の圧縮の直接的および間接的証拠。 Zipfの省略法則の再検討

Direct and indirect evidence of compression of word lengths. Zipf's law of abbreviation revisited ( http://arxiv.org/abs/2303.10128v2 )

ライセンス: Link先を確認
Sonia Petrini, Antoni Casas-i-Mu\~noz, Jordi Cluet-i-Martinell, Mengxue Wang, Chris Bentz and Ramon Ferrer-i-Cancho(参考訳) Zipfの省略法則(英語版)は、より頻繁な単語が短くなる傾向にあり、例外なく、あるいは地球上の言語の数に比べて圧倒的に小さい例外があるという意味で、言語普遍の最も堅固な候補の1つである。 Zipfの先駆的な研究以来、この法則は、コミュニケーションの労力を減らすために、コミュニケーションの普遍的な原則、すなわち単語長の最小化の現れと見なされてきた。 ここでは、文語と略語の法則の一致を再検討する。 特に,14の言語族に属する46の言語において,この法が音声(単語の長さが経時的に測定されている場合)にも当てはまるというより広い証拠を提供する。 省略法則との合意は、省略法則が最適符号化の予測であるという理論的議論を通じて、言語圧縮の間接的な証拠を提供する。 圧縮の直接的な証拠の必要性から,単語の長さが言語系や書記系にまたがって体系的に低いこと,また測定単位(文字の長さや時間長)とは独立に,ランダムなベースラインの単純な公式を導出する。 我々の研究は、言語における単語長の最適度を測り、比較する方法である。

Zipf's law of abbreviation, the tendency of more frequent words to be shorter, is one of the most solid candidates for a linguistic universal, in the sense that it has the potential for being exceptionless or with a number of exceptions that is vanishingly small compared to the number of languages on Earth. Since Zipf's pioneering research, this law has been viewed as a manifestation of a universal principle of communication, i.e. the minimization of word lengths, to reduce the effort of communication. Here we revisit the concordance of written language with the law of abbreviation. Crucially, we provide wider evidence that the law holds also in speech (when word length is measured in time), in particular in 46 languages from 14 linguistic families. Agreement with the law of abbreviation provides indirect evidence of compression of languages via the theoretical argument that the law of abbreviation is a prediction of optimal coding. Motivated by the need of direct evidence of compression, we derive a simple formula for a random baseline indicating that word lengths are systematically below chance, across linguistic families and writing systems, and independently of the unit of measurement (length in characters or duration in time). Our work paves the way to measure and compare the degree of optimality of word lengths in languages.
翻訳日:2023-05-31 01:09:26 公開日:2023-05-27
# 資源測度の量子古典分解によるR'enyiエントロピーの非対称性およびより厳密な不確実性関係

Asymmetry and tighter uncertainty relations for R\'enyi entropies via quantum-classical decompositions of resource measures ( http://arxiv.org/abs/2304.05704v2 )

ライセンス: Link先を確認
Michael J. W. Hall(参考訳) 量子可観測物の分散とエントロピーは、本質的に量子的および古典的な寄与に分解されることが知られている。 ここでは、与えられた作用素集合の量子状態に対する非可換性の測定によって特定される量子寄与と、状態の混合性によって生成される古典的寄与とを用いて、不確実性などの資源の量子古典的分解を構築する一般的な方法について議論する。 非可換性あるいは「量子性」の適切な測度には、量子フィッシャー情報や、与えられた集合、作用素の群または代数の非対称性が含まれ、非射影可観測や量子チャネルに一般化される。 強エントロピーの不確実性関係とr\'enyiエントロピーの下限が得られ、任意の離散観測可能量に対して、下界への古典的貢献によって状態の混合を考慮に入れることができる。 これらの関係は量子古典的分解に言及せずに解釈でき、一方の観測可能な非対称性を他方のエントロピーの観点で束縛するトレードオフ関係として解釈できる。

It is known that the variance and entropy of quantum observables decompose into intrinsically quantum and classical contributions. Here a general method of constructing quantum-classical decompositions of resources such as uncertainty is discussed, with the quantum contribution specified by a measure of the noncommutativity of a given set of operators relative to the quantum state, and the classical contribution generated by the mixedness of the state. Suitable measures of noncommutativity or 'quantumness' include quantum Fisher information, and the asymmetry of a given set, group or algebra of operators, and are generalised to nonprojective observables and quantum channels. Strong entropic uncertainty relations and lower bounds for R\'enyi entropies are obtained, valid for arbitrary discrete observables, that take the mixedness of the state into account via a classical contribution to the lower bound. These relations can also be interpreted without reference to quantum-classical decompositions, as tradeoff relations that bound the asymmetry of one observable in terms of the entropy of another.
翻訳日:2023-05-31 01:00:21 公開日:2023-05-27
# powergan:compute-in-memoryacceleratorのパワーサイドチャネル攻撃のための機械学習アプローチ

PowerGAN: A Machine Learning Approach for Power Side-Channel Attack on Compute-in-Memory Accelerators ( http://arxiv.org/abs/2304.11056v2 )

ライセンス: Link先を確認
Ziyu Wang, Yuting Wu, Yongmo Park, Sangmin Yoo, Xinxin Wang, Jason K. Eshraghian, and Wei D. Lu(参考訳) アナログ・コンピュート・イン・メモリ(cim)システムは、エネルギー効率と高スループットのため、ディープニューラルネットワーク(dnn)推論の高速化に有望である。 しかし、DNNの利用が拡大するにつれ、ユーザの入力プライバシー保護がますます重要になっている。 本稿では,dnnモデルの知識がなくても,パワーサイドチャネル攻撃からユーザのプライベート入力データを適切なデータ取得と前処理の下で再構築できる潜在的なセキュリティ脆弱性を明らかにする。 さらに、GAN(Generative Adversarial Network)を用いた機械学習による攻撃手法を実証し、データ再構成を強化する。 提案手法は,大規模な騒音レベルであっても,アナログCIM加速器の電力リークからユーザインプットを再構築する上で有効であることを示す。 具体的には、脳腫瘍検出のためのU-Net推論チップの例に対するアプローチの有効性を実証し、最大出力信号値の20%の標準偏差のノイズレベルにおいても、元の磁気共鳴画像(MRI)の医用画像の再構成に成功したことを示す。 本研究は、アナログCIMアクセラレーターにおける潜在的なセキュリティ脆弱性を強調し、そのようなシステムにおけるユーザプライバシを侵害するためにGANを使用することに対する認識を高める。

Analog compute-in-memory (CIM) systems are promising for deep neural network (DNN) inference acceleration due to their energy efficiency and high throughput. However, as the use of DNNs expands, protecting user input privacy has become increasingly important. In this paper, we identify a potential security vulnerability wherein an adversary can reconstruct the user's private input data from a power side-channel attack, under proper data acquisition and pre-processing, even without knowledge of the DNN model. We further demonstrate a machine learning-based attack approach using a generative adversarial network (GAN) to enhance the data reconstruction. Our results show that the attack methodology is effective in reconstructing user inputs from analog CIM accelerator power leakage, even at large noise levels and after countermeasures are applied. Specifically, we demonstrate the efficacy of our approach on an example of U-Net inference chip for brain tumor detection, and show the original magnetic resonance imaging (MRI) medical images can be successfully reconstructed even at a noise-level of 20% standard deviation of the maximum power signal value. Our study highlights a potential security vulnerability in analog CIM accelerators and raises awareness of using GAN to breach user privacy in such systems.
翻訳日:2023-05-31 00:51:10 公開日:2023-05-27
# 生成モデルに対するマッチングに基づくデータ評価

Matching-based Data Valuation for Generative Model ( http://arxiv.org/abs/2304.10701v2 )

ライセンス: Link先を確認
Jiaxi Yang and Wenglong Deng and Benlin Liu and Yangsibo Huang and Xiaoxiao Li(参考訳) データバリュエーションは、モデルの透明性を高め、データプロパティを保護するため、機械学習において重要である。 既存のデータ評価手法は主に差別モデルに焦点を当てており、近年注目されている深層生成モデルを無視している。 識別モデルと同様に、深層生成モデルにおけるデータ寄与度の評価も緊急に必要である。 しかし、従来のデータ評価アプローチは、主に差別的なモデルパフォーマンスメトリクスと必要なモデル再トレーニングに依存していた。 その結果, 直接的かつ効率的に, 生成的対向ネットワークや拡散モデルといった最近の深層生成モデルに適用することはできない。 このギャップを埋めるために、類似性マッチングの観点から生成モデルにおけるデータ評価問題を定式化する。 具体的には、生成モデルに対する最初のモデルに依存しないアプローチである生成モデル評価器(GMValuator)を紹介する。 提案手法の有効性を実証するための広範な実験を行った。 彼らの知る限り、gmvaluatorは、深層生成モデルにトレーニングフリーでポストホックなデータバリュエーション戦略を提供する最初の作品だ。

Data valuation is critical in machine learning, as it helps enhance model transparency and protect data properties. Existing data valuation methods have primarily focused on discriminative models, neglecting deep generative models that have recently gained considerable attention. Similar to discriminative models, there is an urgent need to assess data contributions in deep generative models as well. However, previous data valuation approaches mainly relied on discriminative model performance metrics and required model retraining. Consequently, they cannot be applied directly and efficiently to recent deep generative models, such as generative adversarial networks and diffusion models, in practice. To bridge this gap, we formulate the data valuation problem in generative models from a similarity-matching perspective. Specifically, we introduce Generative Model Valuator (GMValuator), the first model-agnostic approach for any generative models, designed to provide data valuation for generation tasks. We have conducted extensive experiments to demonstrate the effectiveness of the proposed method. To the best of their knowledge, GMValuator is the first work that offers a training-free, post-hoc data valuation strategy for deep generative models.
翻訳日:2023-05-31 00:50:27 公開日:2023-05-27
# クロスレファレンストランスによる医療画像の分節化

Few-shot Medical Image Segmentation via Cross-Reference Transformer ( http://arxiv.org/abs/2304.09630v2 )

ライセンス: Link先を確認
Yao Huang and Jianming Liu(参考訳) 深層学習モデルは医用画像セグメンテーションの主流となっているが、トレーニングには大規模な手動ラベル付きデータセットが必要であり、目に見えないカテゴリに拡張することは困難である。 Few-shot segmentation(FSS)は、少数のラベル付きサンプルから新しいカテゴリを学習することで、これらの課題に対処する可能性がある。 現在の手法のほとんどはプロトタイプ学習アーキテクチャを採用しており、サポート対象のベクトルを拡張し、条件付きセグメンテーションを実行するためにクエリ機能と結合する。 しかし、このようなフレームワークは、サポートとクエリ機能の相関を無視する一方で、クエリ機能に重点を置く可能性がある。 本稿では,支援画像と問合せ画像との相互作用の欠如に対処するために,クロスリファレンストランスを用いた,自己教師付き少数の医用画像分割ネットワークを提案する。 まず,両方向のクロスアテンションモジュールを用いて,サポートセット画像とクエリ画像の相関性を向上する。 次に,高次元チャネルにおけるサポート機能やクエリ機能の類似部分を発掘・拡張するために,クロスリファレンス機構を採用している。 実験の結果,CTデータセットとMRIデータセットの両方で良好な結果が得られた。

Deep learning models have become the mainstream method for medical image segmentation, but they require a large manually labeled dataset for training and are difficult to extend to unseen categories. Few-shot segmentation(FSS) has the potential to address these challenges by learning new categories from a small number of labeled samples. The majority of the current methods employ a prototype learning architecture, which involves expanding support prototype vectors and concatenating them with query features to conduct conditional segmentation. However, such framework potentially focuses more on query features while may neglect the correlation between support and query features. In this paper, we propose a novel self-supervised few shot medical image segmentation network with Cross-Reference Transformer, which addresses the lack of interaction between the support image and the query image. We first enhance the correlation features between the support set image and the query image using a bidirectional cross-attention module. Then, we employ a cross-reference mechanism to mine and enhance the similar parts of support features and query features in high-dimensional channels. Experimental results show that the proposed model achieves good results on both CT dataset and MRI dataset.
翻訳日:2023-05-31 00:49:36 公開日:2023-05-27
# MoDA: カジュアルビデオから変形可能な3Dオブジェクトをモデリング

MoDA: Modeling Deformable 3D Objects from Casual Videos ( http://arxiv.org/abs/2304.08279v2 )

ライセンス: Link先を確認
Chaoyue Song, Tianyi Chen, Yiwen Chen, Jiacheng Wei, Chuan Sheng Foo, Fayao Liu, Guosheng Lin(参考訳) 本稿では,変形可能な3dオブジェクトをカジュアルビデオからモデル化する課題に着目する。 ニューラルラジアンス場(NeRF)の人気により、多くの研究が、観測空間と標準空間の間の3次元点変換を実現する変形モデルと標準のNeRFを用いて動的シーンに拡張している。 最近の研究は、標準-観測変換を達成するために線形ブレンドスキン(LBS)に依存している。 しかし、剛性変換行列の線形重み付き結合は剛性であることを保証するものではない。 実のところ、予期せぬ規模とせん断要因がしばしば現れる。 実際には、変形モデルとしてLBSを使用すると、常に曲げたりねじったりするための皮膚を折り畳むアーティファクトにつながる可能性がある。 この問題を解決するために,ニューラルデュアル四元系ブレンドスキン(NeuDBS)を提案し,スキンを折り畳むことなく剛性変換が可能な3次元点変形を実現する。 異なるフレーム間で2Dピクセルを登録する試みにおいて、正準空間内の3D点を符号化する正準特徴埋め込みと、最適輸送問題を解くことによって2D画像特徴との対応性を確立する。 さらに、テクスチャレンダリングのためのテクスチャフィルタリング手法を導入し、ターゲット変形対象外におけるノイズ色の影響を効果的に最小化する。 実および合成データセットに関する広範囲な実験により,我々は最先端の手法よりも質的かつ定量的な性能で3dモデルを構築することができることを示した。

In this paper, we focus on the challenges of modeling deformable 3D objects from casual videos. With the popularity of neural radiance fields (NeRF), many works extend it to dynamic scenes with a canonical NeRF and a deformation model that achieves 3D point transformation between the observation space and the canonical space. Recent works rely on linear blend skinning (LBS) to achieve the canonical-observation transformation. However, the linearly weighted combination of rigid transformation matrices is not guaranteed to be rigid. As a matter of fact, unexpected scale and shear factors often appear. In practice, using LBS as the deformation model can always lead to skin-collapsing artifacts for bending or twisting motions. To solve this problem, we propose neural dual quaternion blend skinning (NeuDBS) to achieve 3D point deformation, which can perform rigid transformation without skin-collapsing artifacts. In the endeavor to register 2D pixels across different frames, we establish a correspondence between canonical feature embeddings that encodes 3D points within the canonical space, and 2D image features by solving an optimal transport problem. Besides, we introduce a texture filtering approach for texture rendering that effectively minimizes the impact of noisy colors outside target deformable objects. Extensive experiments on real and synthetic datasets show that our approach can reconstruct 3D models for humans and animals with better qualitative and quantitative performance than state-of-the-art methods.
翻訳日:2023-05-31 00:49:00 公開日:2023-05-27
# クロノシンボリック学習:シンボリック推論と帰納的学習を用いた効率的なchc解法

Chronosymbolic Learning: Efficient CHC Solving with Symbolic Reasoning and Inductive Learning ( http://arxiv.org/abs/2305.01206v2 )

ライセンス: Link先を確認
Ziyan Luo and Xujie Si(参考訳) Solving Constrained Horn Clauses (CHCs)は、幅広い検証と分析タスクの背後にある根本的な課題である。 データ駆動型アプローチは、さまざまなヒューリスティックを作成、チューニングする手作業で苦労することなく、CHC解決を改善する上で非常に有望である。 しかし、データ駆動型CHCソルバとシンボリック推論ベースのソルバの間には大きなパフォーマンスギャップが存在する。 本研究では,記号情報と数値データポイントを統一し,CHCシステムを効率的に解くための,シンプルで効果的なフレームワークであるChronosymbolic Learningを開発する。 また、データ駆動学習とBMCスタイルの推論を併用したクロノシンボリック学習の簡単な例を示す。 その単純さにもかかわらず、実験結果はツールの有効性と堅牢性を示している。 これは288のベンチマークからなるデータセット上で、非線形整数演算を持つ多くのインスタンスを含む最先端のCHCソルバより優れている。

Solving Constrained Horn Clauses (CHCs) is a fundamental challenge behind a wide range of verification and analysis tasks. Data-driven approaches show great promise in improving CHC solving without the painstaking manual effort of creating and tuning various heuristics. However, a large performance gap exists between data-driven CHC solvers and symbolic reasoning-based solvers. In this work, we develop a simple but effective framework, "Chronosymbolic Learning", which unifies symbolic information and numerical data points to solve a CHC system efficiently. We also present a simple instance of Chronosymbolic Learning with a data-driven learner and a BMC-styled reasoner. Despite its great simplicity, experimental results show the efficacy and robustness of our tool. It outperforms state-of-the-art CHC solvers on a dataset consisting of 288 benchmarks, including many instances with non-linear integer arithmetics.
翻訳日:2023-05-31 00:41:40 公開日:2023-05-27
# Decker: Commonsense Fact Verificationのための不均一な知識による二重チェック

Decker: Double Check with Heterogeneous Knowledge for Commonsense Fact Verification ( http://arxiv.org/abs/2305.05921v2 )

ライセンス: Link先を確認
Anni Zou, Zhuosheng Zhang and Hai Zhao(参考訳) commonsense fact verificationは、commonsense question-answering(qa)の挑戦的な分野として、あるcommonsenseクレームが正しいかどうかを事実を通して検証することを目的としている。 常識的質問に答えるには、様々なレベルの知識の組み合わせが必要である。 しかし、既存の研究は、構造化知識ベースから非構造的証拠または潜在的推論経路の把握に大きく依存しているが、同時に異種知識の利点を活用できなかった。 そこで本研究では,構造化知識と非構造化知識の潜伏関係を明らかにすることで,異種知識をブリッジ可能な共通知識事実検証モデルであるDeckerを提案する。 csqa2.0 と creak の2つの commonsense fact verification benchmark データセットにおける実験結果は、我々のデッカーの有効性を示し、さらなる分析によって推論を通じてより貴重な情報を取得する能力を検証する。

Commonsense fact verification, as a challenging branch of commonsense question-answering (QA), aims to verify through facts whether a given commonsense claim is correct or not. Answering commonsense questions necessitates a combination of knowledge from various levels. However, existing studies primarily rest on grasping either unstructured evidence or potential reasoning paths from structured knowledge bases, yet failing to exploit the benefits of heterogeneous knowledge simultaneously. In light of this, we propose Decker, a commonsense fact verification model that is capable of bridging heterogeneous knowledge by uncovering latent relationships between structured and unstructured knowledge. Experimental results on two commonsense fact verification benchmark datasets, CSQA2.0 and CREAK demonstrate the effectiveness of our Decker and further analysis verifies its capability to seize more precious information through reasoning.
翻訳日:2023-05-31 00:32:12 公開日:2023-05-27
# Semantic Embedded Deep Neural Network: マルチラベル画像分類性能向上のためのジェネリックアプローチ

Semantic Embedded Deep Neural Network: A Generic Approach to Boost Multi-Label Image Classification Performance ( http://arxiv.org/abs/2305.05228v3 )

ライセンス: Link先を確認
Xin Shen, Xiaonan Zhao, Rui Luo(参考訳) 細粒度のマルチラベル分類モデルは、ファッション属性の検出からブランド認識まで、視覚的なラベル予測など、amazonのプロダクション機能に幅広く応用されている。 実世界におけるこれらの分類タスクの満足な性能を達成するための課題の一つは、関心領域に焦点を絞って特定の領域に予測する無関係な画素を含む視覚的背景信号である。 本稿では,複数ラベル予測のためのモデル性能向上のための局所化ガイダンスを活用すべく,チャネル毎の注意に基づくモデルを取り入れた空間認識意味的特徴を応用した,汎用的意味埋め込み型深層ニューラルネットワークを提案する。 我々は,avg.relative improvement (avg.relative improvement) を全ラベルのaucスコアで15.27%向上させた。 コア実験とアブレーション研究は、Instagramのファッションアパレルの画像で実行されるマルチラベルファッション属性の分類を含む。 モデルのパフォーマンスを,我々のアプローチ,ベースラインアプローチ,セマンティック機能を活用する3つの代替アプローチと比較した。 結果は我々のアプローチに好成績を示した。

Fine-grained multi-label classification models have broad applications in Amazon production features, such as visual based label predictions ranging from fashion attribute detection to brand recognition. One challenge to achieve satisfactory performance for those classification tasks in real world is the wild visual background signal that contains irrelevant pixels which confuses model to focus onto the region of interest and make prediction upon the specific region. In this paper, we introduce a generic semantic-embedding deep neural network to apply the spatial awareness semantic feature incorporating a channel-wise attention based model to leverage the localization guidance to boost model performance for multi-label prediction. We observed an Avg.relative improvement of 15.27% in terms of AUC score across all labels compared to the baseline approach. Core experiment and ablation studies involve multi-label fashion attribute classification performed on Instagram fashion apparels' image. We compared the model performances among our approach, baseline approach, and 3 alternative approaches to leverage semantic features. Results show favorable performance for our approach.
翻訳日:2023-05-31 00:31:37 公開日:2023-05-27
# 教師なし深部FCDDを用いた農村鉄道診断のための木造スリーパー劣化検出

Wooden Sleeper Deterioration Detection for Rural Railway Prognostics Using Unsupervised Deeper FCDDs ( http://arxiv.org/abs/2305.05103v4 )

ライセンス: Link先を確認
Takato Yasuno, Masahiro Okano, and Junichiro Fujii(参考訳) 日々の鉄道運行における利用者の安全確保は、鉄道管理者にとって不可欠である。 この取り組みを支援するため、トップカメラやサイドカメラ、GPS測位システムは、欠陥点検の定期的検査の自動化や、鉄道部品の劣化状況の評価に進展している。 しかし,劣化状態に関するデータ収集には時間を要する可能性があり,過度な時間的発生の不均衡のため,データ取得の繰り返しが必要となる。 教師付き学習では、欠陥のある生画像と注釈付きラベルを含む何千ものペアデータセットが必要である。 しかし、一級分類アプローチは、通常の特徴や異常な特徴を訓練するためのパラメータを最適化するために、画像が少ないという利点がある。 FCDDは, 構造物や倒木, 倒木などのコンクリート・鋼構造物の損傷データ集合に適用し, 災害時の木造建築物の崩壊について検討した。 しかし、まだ鉄道部品が可能であることは分かっていない。 本研究では, 鉄道部品の深いFCDDを用いた一級損傷分類を自動化するための識別器パイプラインを考案した。 また,畳み込みニューラルネットワーク(CNN)を用いた深部骨のアブレーション研究を行った。 さらに,転置ガウスアップサンプリングを用いて劣化特性を可視化した。 我々は,曇りと晴れた風景の後方から鉄道線路の映像取得データセットを用いて,鉄道検査への適用を実証した。 最後に,本手法の有用性と今後の鉄道検査研究について検討した。

Maintaining high standards for user safety during daily railway operations is crucial for railway managers. To aid in this endeavor, top- or side-view cameras and GPS positioning systems have facilitated progress toward automating periodic inspections of defective features and assessing the deteriorating status of railway components. However, collecting data on deteriorated status can be time-consuming and requires repeated data acquisition because of the extreme temporal occurrence imbalance. In supervised learning, thousands of paired data sets containing defective raw images and annotated labels are required. However, the one-class classification approach offers the advantage of requiring fewer images to optimize parameters for training normal and anomalous features. The deeper fully-convolutional data descriptions (FCDDs) were applicable to several damage data sets of concrete/steel components in structures, and fallen tree, and wooden building collapse in disasters. However, it is not yet known to feasible to railway components. In this study, we devised a prognostic discriminator pipeline to automate one-class damage classification using the deeper FCDDs for defective railway components. We also performed ablation studies of the deeper backbone based on convolutional neural networks (CNNs). Furthermore, we visualized deterioration features by using transposed Gaussian upsampling. We demonstrated our application to railway inspection using a video acquisition dataset of railway track from backward view at a cloudy and sunny scene. Finally, we examined the usability of our approach for prognostics and future work on railway inspection.
翻訳日:2023-05-31 00:31:18 公開日:2023-05-27
# Vcc:重要なトークンを優先してトランスフォーマーを128万トン以上にスケールアップする

Vcc: Scaling Transformers to 128K Tokens or More by Prioritizing Important Tokens ( http://arxiv.org/abs/2305.04241v2 )

ライセンス: Link先を確認
Zhanpeng Zeng, Cole Hawkins, Mingyi Hong, Aston Zhang, Nikolaos Pappas, Vikas Singh, Shuai Zheng(参考訳) トランスフォーマーは現代の自然言語処理とコンピュータビジョンアプリケーションの中心である。 このようなモデルの2次コスト(シーケンス長の関数として)の削減に向けられた最近の研究にもかかわらず、超長いシーケンス(例えば16Kトークン)を扱うことは難しい。 本に基づく質問への回答や科学記事の要約といった応用は非効率的あるいは実現不可能である。 本稿では,超長列の変換器の効率を,各層でより小さな表現に圧縮することにより大幅に向上させる手法を提案する。 具体的には、多くのタスクにおいて、VIPトークンの小さなサブセットのみが最終予測に最も関係しているという事実を利用して、VIPトークンの表現の近似に対する影響に基づいて、列を選択的に圧縮するVIPトークン中心圧縮(VCC)方式を提案する。 競合するベースラインと比較して、我々のアルゴリズムは効率的であるだけでなく(4Kと16Kのベースラインと比較して3ドル以上の効率向上を達成する)、多くのタスクにおいて競合/ベターパフォーマンスを提供する。 さらに,アルゴリズムは128kトークン(あるいはそれ以上)までスケールし,一貫して精度を向上させる。

Transformers are central in modern natural language processing and computer vision applications. Despite recent works devoted to reducing the quadratic cost of such models (as a function of the sequence length), dealing with ultra long sequences (e.g., with more than 16K tokens) remains challenging. Applications such as answering questions based on a book or summarizing a scientific article are inefficient or infeasible. Here, we propose to significantly improve the efficiency of Transformers for ultra long sequences, by compressing the sequence into a much smaller representation at each layer. Specifically, by exploiting the fact that in many tasks, only a small subset of special tokens (we call VIP-tokens) are most relevant to the final prediction, we propose a VIP-token centric compression (VCC) scheme which selectively compresses the sequence based on their impact on approximating the representation of the VIP-tokens. Compared with competitive baselines, our algorithm is not only efficient (achieving more than $3\times$ efficiency gain compared to baselines on 4K and 16K lengths), but also offers competitive/better performance on a large number of tasks. Further, we show that our algorithm scales to 128K tokens (or more) while consistently offering accuracy improvement.
翻訳日:2023-05-31 00:30:24 公開日:2023-05-27
# データセット蒸留に関する総合的研究:性能,プライバシ,ロバスト性,公正性

A Comprehensive Study on Dataset Distillation: Performance, Privacy, Robustness and Fairness ( http://arxiv.org/abs/2305.03355v3 )

ライセンス: Link先を確認
Zongxiong Chen, Jiahui Geng, Derui Zhu, Herbert Woisetschlaeger, Qing Li, Sonja Schimmler, Ruben Mayer, Chunming Rong(参考訳) データセット蒸留の目的は、元のデータセットの豊富な特徴を小さなデータセットにエンコードすることである。 ニューラルネットワークのトレーニングと関連する研究を加速する有望なアプローチである。 蒸留画像のインフォメーション性と一般化性能を改善するために異なるアプローチが提案されている。 しかしながら、セキュリティの観点からこのテクニックを包括的に分析する作業はなく、潜在的なリスクに関する体系的な理解が欠如している。 本研究では,現状のデータセット蒸留法を評価するために,広範囲にわたる実験を行った。 私たちは、プライバシーリスクがまだ残っていることを示すために、メンバーシップ推論攻撃をうまく利用しています。 我々の研究は、データセットの蒸留がモデルロバスト性に様々な影響を及ぼし、予測を行う際にクラス間のモデル不公平性を増幅することを示した。 この研究は、データセットの蒸留評価のための大規模なベンチマークフレームワークを提供する。

The aim of dataset distillation is to encode the rich features of an original dataset into a tiny dataset. It is a promising approach to accelerate neural network training and related studies. Different approaches have been proposed to improve the informativeness and generalization performance of distilled images. However, no work has comprehensively analyzed this technique from a security perspective and there is a lack of systematic understanding of potential risks. In this work, we conduct extensive experiments to evaluate current state-of-the-art dataset distillation methods. We successfully use membership inference attacks to show that privacy risks still remain. Our work also demonstrates that dataset distillation can cause varying degrees of impact on model robustness and amplify model unfairness across classes when making predictions. This work offers a large-scale benchmarking framework for dataset distillation evaluation.
翻訳日:2023-05-31 00:29:59 公開日:2023-05-27
# 非線形偏微分方程式を解くための深層学習に基づく量子アルゴリズム

Deep learning-based quantum algorithms for solving nonlinear partial differential equations ( http://arxiv.org/abs/2305.02019v2 )

ライセンス: Link先を確認
Lukas Mouton, Florentin Reiter, Ying Chen, Patrick Rebentrost(参考訳) 偏微分方程式は自然科学や関連する分野にしばしば現れる。 それらの解くことは、特に高次元では「次元の曲線」のため、しばしば困難である。 本研究では,量子サブルーチンを用いて高次元非線形偏微分方程式を解くための古典的深層学習法の拡張の可能性を探る。 まず,ノイズの多い中間スケール量子コンピュータを念頭に置いて,変動量子回路と古典的ニューラルネットワークを併用したアーキテクチャを構築する。 ハイブリッドアーキテクチャは、シミュレーションにおいて完全に古典的なアーキテクチャよりも同等か悪い性能を示すが、それでも非常に高次元のケースや、量子力学的性質の場合に使用される。 次に,モンテカルロサンプリングによるボトルネックとニューラルネットワークのトレーニングを同定する。 量子加速モンテカルロ法は損失関数の推定を高速化する可能性を秘めている。 さらに,量子加速モンテカルロ法を用いて,最近開発されたバックプロパゲーションフリー前方勾配法を含む,異なる手法で勾配を推定する場合のトレードオフを同定・解析する。 最後に、フィードフォワードニューラルネットワークのトレーニングを高速化するための適切な量子アルゴリズムの利用について論じる。 したがって、この研究は非線形偏微分方程式の深層学習法における多項式スピードアップのポテンシャルと異なる経路を提供する。

Partial differential equations frequently appear in the natural sciences and related disciplines. Solving them is often challenging, particularly in high dimensions, due to the "curse of dimensionality". In this work, we explore the potential for enhancing a classical deep learning-based method for solving high-dimensional nonlinear partial differential equations with suitable quantum subroutines. First, with near-term noisy intermediate-scale quantum computers in mind, we construct architectures employing variational quantum circuits and classical neural networks in conjunction. While the hybrid architectures show equal or worse performance than their fully classical counterparts in simulations, they may still be of use in very high-dimensional cases or if the problem is of a quantum mechanical nature. Next, we identify the bottlenecks imposed by Monte Carlo sampling and the training of the neural networks. We find that quantum-accelerated Monte Carlo methods offer the potential to speed up the estimation of the loss function. In addition, we identify and analyse the trade-offs when using quantum-accelerated Monte Carlo methods to estimate the gradients with different methods, including a recently developed backpropagation-free forward gradient method. Finally, we discuss the usage of a suitable quantum algorithm for accelerating the training of feed-forward neural networks. Hence, this work provides different avenues with the potential for polynomial speedups for deep learning-based methods for nonlinear partial differential equations.
翻訳日:2023-05-31 00:29:29 公開日:2023-05-27
# 事前データから言語モデル、下流タスクへ:不公平なNLPモデルによる政治的バイアスの軌跡を追跡する

From Pretraining Data to Language Models to Downstream Tasks: Tracking the Trails of Political Biases Leading to Unfair NLP Models ( http://arxiv.org/abs/2305.08283v2 )

ライセンス: Link先を確認
Shangbin Feng, Chan Young Park, Yuhan Liu, Yulia Tsvetkov(参考訳) 言語モデル(LM)は、ニュース、ディスカッションフォーラム、書籍、オンライン百科事典など、さまざまなデータソースで事前訓練されている。 このデータの大部分には、民主主義とアイデアの多様性を祝福する意見と視点が含まれており、一方で本質的に社会的に偏っている。 本研究は,(1)そのようなコーパスで訓練されたLMの社会的偏見を社会的・経済的軸に沿って測定し,(2)政治的偏見のあるLM上で訓練された下流NLPモデルの公平さを測定するための新しい手法を開発する。 我々はヘイトスピーチと誤情報検出に注目し、ハイテイクなソーシャル指向タスクの公平性に関する事前学習データにおける政治的(社会的、経済的)バイアスの効果を実証的に定量化することを目的としている。 以上の結果から, 事前学習されたLMは, コーパスの偏極性を高める政治的傾向を示し, 社会的バイアスをヘイトスピーチ予測や誤情報検知器に伝播させることがわかった。 我々は,nlp研究の意義を議論し,不公平を緩和するための今後の方向性を提案する。

Language models (LMs) are pretrained on diverse data sources, including news, discussion forums, books, and online encyclopedias. A significant portion of this data includes opinions and perspectives which, on one hand, celebrate democracy and diversity of ideas, and on the other hand are inherently socially biased. Our work develops new methods to (1) measure political biases in LMs trained on such corpora, along social and economic axes, and (2) measure the fairness of downstream NLP models trained on top of politically biased LMs. We focus on hate speech and misinformation detection, aiming to empirically quantify the effects of political (social, economic) biases in pretraining data on the fairness of high-stakes social-oriented tasks. Our findings reveal that pretrained LMs do have political leanings that reinforce the polarization present in pretraining corpora, propagating social biases into hate speech predictions and misinformation detectors. We discuss the implications of our findings for NLP research and propose future directions to mitigate unfairness.
翻訳日:2023-05-31 00:21:23 公開日:2023-05-27
# ゼロショットFactual Error Correction

Zero-shot Faithful Factual Error Correction ( http://arxiv.org/abs/2305.07982v2 )

ライセンス: Link先を確認
Kung-Hsiang Huang, Hou Pong Chan, Heng Ji(参考訳) 事実的誤りを忠実に訂正することは、テキスト的知識基盤の完全性を維持し、シーケンスからシーケンスへのモデルの幻覚を防止するために重要である。 人間が事実の誤りを識別し、訂正する能力に基づいて、入力クレームに関する質問を定式化し、与えられた証拠の正しい回答を求め、その証拠と整合性に基づいて各補正の忠実さを評価するゼロショットフレームワークを提案する。 私たちのゼロショットフレームワークは、FEVERとSciFactデータセットの実験で示されたように、完全に教師されたアプローチよりも優れています。 さらに重要なことに、フレームワークの分解性は本質的に解釈可能性を提供します。 さらに,事実的誤り訂正を評価するのに最も適した指標を明らかにするために,一般的に使用される指標と人間の判断との相関を,知性と忠実性に関する3つの異なる次元で分析する。

Faithfully correcting factual errors is critical for maintaining the integrity of textual knowledge bases and preventing hallucinations in sequence-to-sequence models. Drawing on humans' ability to identify and correct factual errors, we present a zero-shot framework that formulates questions about input claims, looks for correct answers in the given evidence, and assesses the faithfulness of each correction based on its consistency with the evidence. Our zero-shot framework outperforms fully-supervised approaches, as demonstrated by experiments on the FEVER and SciFact datasets, where our outputs are shown to be more faithful. More importantly, the decomposability nature of our framework inherently provides interpretability. Additionally, to reveal the most suitable metrics for evaluating factual error corrections, we analyze the correlation between commonly used metrics with human judgments in terms of three different dimensions regarding intelligibility and faithfulness.
翻訳日:2023-05-31 00:20:23 公開日:2023-05-27
# タグ付き多要素モデルにおけるリードラグ関係のロバスト検出

Robust Detection of Lead-Lag Relationships in Lagged Multi-Factor Models ( http://arxiv.org/abs/2305.06704v2 )

ライセンス: Link先を確認
Yichi Zhang, Mihai Cucuringu, Alexander Y. Shestopaloff, Stefan Zohren(参考訳) 多変量時系列システムでは、データに固有のリードラグ関係を発見し、2つの時系列間の依存性を相対的に変化させ、制御、予測、クラスタリングの目的で利用することができる。 階層化多要素モデルにおけるリードラグ関係のロバスト検出のためのクラスタリング駆動手法を開発した。 フレームワーク内では、想定されたパイプラインが一連の時系列の入力として取り込まれ、スライディングウインドウアプローチにより、各入力時系列から抽出されたサブシーケンス時系列の拡大宇宙を生成する。 その後、様々なクラスタリング技術(k-means++やspectral clusteringなど)が応用され、非線形のものを含む様々なペアワイズ類似性測度が用いられる。 クラスタが抽出されると、クラスタ間のリードラグ推定が頑健に集約され、元の宇宙における一貫した関係の同定が強化される。 我々は、同種および異種両方の設定に対する多重参照アライメント問題への接続を確立する。 多変量時系列は幅広い領域に分布しているため、我々の手法は金融市場でのリードラグ関係を堅牢に検出できるだけでなく、環境データセットに適用した場合にも洞察力のある結果が得られることを示す。

In multivariate time series systems, key insights can be obtained by discovering lead-lag relationships inherent in the data, which refer to the dependence between two time series shifted in time relative to one another, and which can be leveraged for the purposes of control, forecasting or clustering. We develop a clustering-driven methodology for robust detection of lead-lag relationships in lagged multi-factor models. Within our framework, the envisioned pipeline takes as input a set of time series, and creates an enlarged universe of extracted subsequence time series from each input time series, via a sliding window approach. This is then followed by an application of various clustering techniques, (such as k-means++ and spectral clustering), employing a variety of pairwise similarity measures, including nonlinear ones. Once the clusters have been extracted, lead-lag estimates across clusters are robustly aggregated to enhance the identification of the consistent relationships in the original universe. We establish connections to the multireference alignment problem for both the homogeneous and heterogeneous settings. Since multivariate time series are ubiquitous in a wide range of domains, we demonstrate that our method is not only able to robustly detect lead-lag relationships in financial markets, but can also yield insightful results when applied to an environmental data set.
翻訳日:2023-05-31 00:19:50 公開日:2023-05-27
# グラフニューラルネットワークのための特徴拡張

Feature Expansion for Graph Neural Networks ( http://arxiv.org/abs/2305.06142v2 )

ライセンス: Link先を確認
Jiaqi Sun, Lin Zhang, Guangyi Chen, Kun Zhang, Peng XU, Yujiu Yang(参考訳) グラフニューラルネットワークはグラフ構造化データの表現を学習することを目的としており、特にノード分類において顕著な性能を示す。 近年、最適化目標とスペクトルグラフ理論の観点から、多くの手法がgnnの表現を研究している。 しかし、表現学習を支配する特徴空間はグラフニューラルネットワークにおいて体系的に研究されていない。 本稿では,空間モデルとスペクトルモデルの両方の特徴空間を解析することにより,このギャップを埋めることを提案する。 グラフニューラルネットワークを特徴空間と学習可能な重みに分解し、行列空間解析を用いて特徴空間を明示的に研究する利便性を提供する。 特に、理論的には、特徴空間は繰り返しの集合によって線形に相関する傾向がある。 これらの発見に動機づけられ 1)特徴部分空間の平坦化 2) 機能空間を拡大するための構造主成分。 広範な実験により,提案するより包括的な特徴空間の有効性を検証し,ベースラインに対する推定時間と比較し,その効率的な収束能力を示す。

Graph neural networks aim to learn representations for graph-structured data and show impressive performance, particularly in node classification. Recently, many methods have studied the representations of GNNs from the perspective of optimization goals and spectral graph theory. However, the feature space that dominates representation learning has not been systematically studied in graph neural networks. In this paper, we propose to fill this gap by analyzing the feature space of both spatial and spectral models. We decompose graph neural networks into determined feature spaces and trainable weights, providing the convenience of studying the feature space explicitly using matrix space analysis. In particular, we theoretically find that the feature space tends to be linearly correlated due to repeated aggregations. Motivated by these findings, we propose 1) feature subspaces flattening and 2) structural principal components to expand the feature space. Extensive experiments verify the effectiveness of our proposed more comprehensive feature space, with comparable inference time to the baseline, and demonstrate its efficient convergence capability.
翻訳日:2023-05-31 00:18:59 公開日:2023-05-27
# ジェネレーティブAIが3Dに到達 - AIGC時代のテキストから3Dへ

Generative AI meets 3D: A Survey on Text-to-3D in AIGC Era ( http://arxiv.org/abs/2305.06131v2 )

ライセンス: Link先を確認
Chenghao Li, Chaoning Zhang, Atish Waghwase, Lik-Hang Lee, Francois Rameau, Yang Yang, Sung-Ho Bae, Choong Seon Hong(参考訳) 生成AI(AIGC、別名AI生成コンテンツ)は、ここ数年で顕著な進歩を遂げており、テキスト誘導コンテンツ生成は、人間の命令とAIGCの相互作用を可能にするため、最も実用的なものとなっている。 テキスト・ツー・イメージや3Dモデリング技術(NeRFなど)の発展により、テキスト・トゥ・3Dは新しく生まれたが非常に活発な研究分野となった。 我々の研究は、テキストから3Dへの包括的調査を初めて実施し、読者がこの方向に関心を持ち、その迅速な開発に素早く追いつくのに役立つ。 まず,ユークリッドデータと非ユークリッドデータの両方を含む3次元データ表現を導入する。 さらに, 様々な基礎技術を紹介するとともに, それらの基礎技術を組み合わせて, 良好なテキスト・トゥ・3Dを実現する方法について概説する。 さらに, アバター生成, テクスチャ生成, 形状変換, シーン生成など様々な用途において, テキストから3d技術がどのように使われているかを概説する。

Generative AI (AIGC, a.k.a. AI generated content) has made remarkable progress in the past few years, among which text-guided content generation is the most practical one since it enables the interaction between human instruction and AIGC. Due to the development in text-to-image as well 3D modeling technologies (like NeRF), text-to-3D has become a newly emerging yet highly active research field. Our work conducts the first yet comprehensive survey on text-to-3D to help readers interested in this direction quickly catch up with its fast development. First, we introduce 3D data representations, including both Euclidean data and non-Euclidean data. On top of that, we introduce various foundation technologies as well as summarize how recent works combine those foundation technologies to realize satisfactory text-to-3D. Moreover, we summarize how text-to-3D technology is used in various applications, including avatar generation, texture generation, shape transformation, and scene generation.
翻訳日:2023-05-31 00:18:45 公開日:2023-05-27
# 自動運転とインテリジェント自動車のマイルストーン その1:制御、計算システム設計、コミュニケーション、hdマップ、テスト、人間の行動

Milestones in Autonomous Driving and Intelligent Vehicles Part I: Control, Computing System Design, Communication, HD Map, Testing, and Human Behaviors ( http://arxiv.org/abs/2305.11239v2 )

ライセンス: Link先を確認
Long Chen, Yuchen Li, Chao Huang, Yang Xing, Daxin Tian, Li Li, Zhongxu Hu, Siyu Teng, Chen Lv, Jinjun Wang, Dongpu Cao, Nanning Zheng and Fei-Yue Wang(参考訳) 自動運転(AD)とインテリジェント車(IV)への関心は、利便性、安全性、経済的利益のために急速に成長している。 多くの調査がこの分野の研究成果をレビューしているが、特定のタスクに制限があり、将来的なシステム的な要約や研究の方向性が欠如している。 私たちの研究は3つの独立した記事に分かれており、第1部はadとivsの全技術に関する調査(sos)で、その歴史とマイルストーンを要約し、展望、倫理、今後の研究の方向性を提供する。 コントロール、コンピュータシステム設計、通信、ハイディフィケーションマップ(hdマップ)、テスト、およびivsにおける人間の行動の発達を概観する第2部(技術調査第i部)である。 また、第3部(第2部)は、認識と計画のセクションを見直しることである。 本稿の目的は,adのすべてのセクションを包含し,最新の技術マイルストーンを要約し,アドとivsの発展を迅速に理解するためのアベドリアンを指導することである。 SoS と Part II を組み合わせることで、この研究は研究者や学術関係者に新しい多様な洞察をもたらし、過去と未来を橋渡しすることを期待している。

Interest in autonomous driving (AD) and intelligent vehicles (IVs) is growing at a rapid pace due to the convenience, safety, and economic benefits. Although a number of surveys have reviewed research achievements in this field, they are still limited in specific tasks and lack systematic summaries and research directions in the future. Our work is divided into 3 independent articles and the first part is a Survey of Surveys (SoS) for total technologies of AD and IVs that involves the history, summarizes the milestones, and provides the perspectives, ethics, and future research directions. This is the second part (Part I for this technical survey) to review the development of control, computing system design, communication, High Definition map (HD map), testing, and human behaviors in IVs. In addition, the third part (Part II for this technical survey) is to review the perception and planning sections. The objective of this paper is to involve all the sections of AD, summarize the latest technical milestones, and guide abecedarians to quickly understand the development of AD and IVs. Combining the SoS and Part II, we anticipate that this work will bring novel and diverse insights to researchers and abecedarians, and serve as a bridge between past and future.
翻訳日:2023-05-31 00:13:46 公開日:2023-05-27
# ベイズ正規化

Bayesian Renormalization ( http://arxiv.org/abs/2305.10491v2 )

ライセンス: Link先を確認
David S. Berman, Marc S. Klinger and Alexander G. Stapleton(参考訳) 本稿では,ベイズ統計的推論にインスパイアされた再正規化に対する完全情報理論的アプローチについて述べる。 ベイズ再正規化の主な洞察は、フィッシャー計量が確率分布の空間における近傍点の微分可能性の定量化に緊急RGスケールの役割を担う相関長を定義することである。 このRGスケールは、統計的推論実験中に与えられたシステムについてできる一意な観測の最大数のプロキシとして解釈できる。 ベイズ再正規化スキームの役割は、上記のスケールで境界付けられた精度まで、与えられたシステムの効果的なモデルを作成することである。 ベイズ的再正規化の物理系への応用において、創発的情報理論スケールは、現在の実験装置で探索できる最大エネルギーと自然に同一視されるため、ベイズ的再正規化は通常の再正規化と一致する。 しかしながら、ベイズ再正規化は、即時物理的スケールが存在しない状況でも適用できるほど一般的であり、従ってデータサイエンスの文脈における再正規化への理想的なアプローチを提供する。 この目的のために,ベイズ正規化方式が,情報ボトルネックや拡散学習パラダイムといった既存のデータ圧縮手法やデータ生成手法とどのように関係しているかを考察する。

In this note we present a fully information theoretic approach to renormalization inspired by Bayesian statistical inference, which we refer to as Bayesian Renormalization. The main insight of Bayesian Renormalization is that the Fisher metric defines a correlation length that plays the role of an emergent RG scale quantifying the distinguishability between nearby points in the space of probability distributions. This RG scale can be interpreted as a proxy for the maximum number of unique observations that can be made about a given system during a statistical inference experiment. The role of the Bayesian Renormalization scheme is subsequently to prepare an effective model for a given system up to a precision which is bounded by the aforementioned scale. In applications of Bayesian Renormalization to physical systems, the emergent information theoretic scale is naturally identified with the maximum energy that can be probed by current experimental apparatus, and thus Bayesian Renormalization coincides with ordinary renormalization. However, Bayesian Renormalization is sufficiently general to apply even in circumstances in which an immediate physical scale is absent, and thus provides an ideal approach to renormalization in data science contexts. To this end, we provide insight into how the Bayesian Renormalization scheme relates to existing methods for data compression and data generation such as the information bottleneck and the diffusion learning paradigm.
翻訳日:2023-05-31 00:13:22 公開日:2023-05-27
# 脳腫瘍分離(BraTS)チャレンジ2023: 腫瘍分離(BraSyn)のための脳MR画像合成

The Brain Tumor Segmentation (BraTS) Challenge 2023: Brain MR Image Synthesis for Tumor Segmentation (BraSyn) ( http://arxiv.org/abs/2305.09011v4 )

ライセンス: Link先を確認
Hongwei Bran Li, Gian Marco Conte, Syed Muhammad Anwar, Florian Kofler, Koen van Leemput, Marie Piraud, Ivan Ezhov, Felix Meissen, Maruf Adewole, Anastasia Janas, Anahita Fathi Kazerooni, Dominic LaBella, Ahmed W. Moawad, Keyvan Farahani, James Eddy, Timothy Bergquist, Verena Chung, Russell Takeshi Shinohara, Farouk Dako, Walter Wiggins, Zachary Reitman, Chunhao Wang, Xinyang Liu, Zhifan Jiang, Ariana Familiar, Elaine Johanson, Zeke Meier, Christos Davatzikos, John Freymann, Justin Kirby, Michel Bilello, Hassan M. Fathallah-Shaykh, Roland Wiest, Jan Kirschke, Rivka R. Colen, Aikaterini Kotrotsou, Pamela Lamontagne, Daniel Marcus, Mikhail Milchenko, Arash Nazeri, Marc Andr\'e Weber, Abhishek Mahajan, Suyash Mohan, John Mongan, Christopher Hess, Soonmee Cha, Javier Villanueva, Meyer Errol Colak, Priscila Crivellaro, Andras Jakab, Jake Albrecht, Udunna Anazodo, Mariam Aboian, Thomas Yu, Verena Chung, Timothy Bergquist, James Eddy, Jake Albrecht, Ujjwal Baid, Spyridon Bakas, Marius George Linguraru, Bjoern Menze, Juan Eugenio Iglesias, Benedikt Wiestler(参考訳) 自動脳腫瘍分画法が確立され,臨床応用可能な性能レベルに達している。 これらの手法は通常、T1強調画像、T2強調画像、FLAIR画像の4つの入力磁気共鳴イメージング(MRI)モードに依存している。 しかしながら、一部のシーケンスは、時間的制約や患者の動きのようなイメージアーティファクトのために臨床実践に欠落することが多い。 その結果、これらのアルゴリズムが臨床ルーチンで広く採用されるためには、欠落したモダリティを置換し、セグメンテーション性能を得る能力が極めて望ましい。 本稿では,医療用画像コンピューティングとコンピュータ支援インターベンション(MICCAI)2023と連携して脳MR画像合成ベンチマーク(BraSyn)の確立について述べる。 この課題の主な目的は、複数の利用可能な画像が提供される際に、MRIの欠落を現実的に生成できる画像合成手法を評価することである。 究極の目的は、自動的な脳腫瘍セグメンテーションパイプラインを促進することである。 ベンチマークで使用される画像データセットは多様で多様であり、様々な病院や研究機関と協力して作成された。

Automated brain tumor segmentation methods have become well-established and reached performance levels offering clear clinical utility. These methods typically rely on four input magnetic resonance imaging (MRI) modalities: T1-weighted images with and without contrast enhancement, T2-weighted images, and FLAIR images. However, some sequences are often missing in clinical practice due to time constraints or image artifacts, such as patient motion. Consequently, the ability to substitute missing modalities and gain segmentation performance is highly desirable and necessary for the broader adoption of these algorithms in the clinical routine. In this work, we present the establishment of the Brain MR Image Synthesis Benchmark (BraSyn) in conjunction with the Medical Image Computing and Computer-Assisted Intervention (MICCAI) 2023. The primary objective of this challenge is to evaluate image synthesis methods that can realistically generate missing MRI modalities when multiple available images are provided. The ultimate aim is to facilitate automated brain tumor segmentation pipelines. The image dataset used in the benchmark is diverse and multi-modal, created through collaboration with various hospitals and research institutions.
翻訳日:2023-05-31 00:10:50 公開日:2023-05-27
# 共変量シフト適応のための二重重み付け

Double-Weighting for Covariate Shift Adaptation ( http://arxiv.org/abs/2305.08637v2 )

ライセンス: Link先を確認
Jos\'e I. Segovia-Mart\'in, Santiago Mazuelas, and Anqi Liu(参考訳) 教師付き学習は、トレーニングおよびテストサンプルのインスタンス(covariates $x$)の限界分布である$\mathrm{p}_\text{tr}(x)$と$\mathrm{p}_\text{te}(x)$が異なるが、ラベル条件が一致する共変量シフトによってしばしば影響を受ける。 既存のアプローチでは、比 $\mathrm{p}_\text{te}(x)/\mathrm{p}_\text{tr}(x)$ to weight training sample (reweighted methods)または比 $\mathrm{p}_\text{tr}(x)/\mathrm{p}_\text{te}(x)$ to weight testing sample (robust methods)を使用して、このような共変量シフトに対処する。 しかし、そのような手法の性能は、サポートミスマッチや上記の比率が大きな値を取る場合、劣る可能性がある。 本稿では,トレーニングとテストサンプルの重み付けによる制限を回避するために,共変量シフト適応のためのミニマックスリスク分類(mrc)手法を提案する。 さらに,重みを両立させ,従来のカーネル平均マッチング法を一般化する効果的な手法を開発した。 提案手法は,再重み付け法に比べて有効試料サイズが有意に増加することを示す新しい一般化境界を提供する。 提案手法は, 合成実験と実験実験の両方において, 高度な分類性能を実現する。

Supervised learning is often affected by a covariate shift in which the marginal distributions of instances (covariates $x$) of training and testing samples $\mathrm{p}_\text{tr}(x)$ and $\mathrm{p}_\text{te}(x)$ are different but the label conditionals coincide. Existing approaches address such covariate shift by either using the ratio $\mathrm{p}_\text{te}(x)/\mathrm{p}_\text{tr}(x)$ to weight training samples (reweighted methods) or using the ratio $\mathrm{p}_\text{tr}(x)/\mathrm{p}_\text{te}(x)$ to weight testing samples (robust methods). However, the performance of such approaches can be poor under support mismatch or when the above ratios take large values. We propose a minimax risk classification (MRC) approach for covariate shift adaptation that avoids such limitations by weighting both training and testing samples. In addition, we develop effective techniques that obtain both sets of weights and generalize the conventional kernel mean matching method. We provide novel generalization bounds for our method that show a significant increase in the effective sample size compared with reweighted methods. The proposed method also achieves enhanced classification performance in both synthetic and empirical experiments.
翻訳日:2023-05-31 00:10:30 公開日:2023-05-27
# 時系列予測のためにトランスフォーマーを素晴らしいものにする - channel aligned robust dual transformer

Make Transformer Great Again for Time Series Forecasting: Channel Aligned Robust Dual Transformer ( http://arxiv.org/abs/2305.12095v3 )

ライセンス: Link先を確認
Wang Xue, Tian Zhou, Qingsong Wen, Jinyang Gao, Bolin Ding, Rong Jin(参考訳) 近年の研究では,時系列予測における深層学習,特に Transformer と MLP の大きな効果が示されている。 NLPとCVで成功したにもかかわらず、多くの研究でTransformerは時系列予測においてMLPよりも効果が低いことが判明した。 本研究では, 時系列予測における変圧器の重要な欠点に対処する, チャネル整合型ロバスト2重変圧器(略してカード)を設計する。 まず、CARDは2つのトランスフォーマー構造を導入し、信号間の時間的相関と、時間とともに複数の変数間の動的依存の両方を捉えることができる。 第2に, 時系列予測のためのロバストな損失関数を導入し, 潜在過充足問題を緩和する。 この新しい損失関数は、予測の不確実性に基づく有限地平線上の予測の重要性を強調する。 複数の長期・短期予測データセットの評価は、CARDがTransformerモデルとMLPモデルの両方を含む最先端の時系列予測手法を著しく上回っていることを示す。

Recent studies have demonstrated the great power of deep learning methods, particularly Transformer and MLP, for time series forecasting. Despite its success in NLP and CV, many studies found that Transformer is less effective than MLP for time series forecasting. In this work, we design a special Transformer, i.e., channel-aligned robust dual Transformer (CARD for short), that addresses key shortcomings of Transformer in time series forecasting. First, CARD introduces a dual Transformer structure that allows it to capture both temporal correlations among signals and dynamical dependence among multiple variables over time. Second, we introduce a robust loss function for time series forecasting to alleviate the potential overfitting issue. This new loss function weights the importance of forecasting over a finite horizon based on prediction uncertainties. Our evaluation of multiple long-term and short-term forecasting datasets demonstrates that CARD significantly outperforms state-of-the-art time series forecasting methods, including both Transformer and MLP-based models.
翻訳日:2023-05-31 00:01:07 公開日:2023-05-27
# sneakyprompt:テキスト対画像生成モデルの安全フィルタのロバスト性評価

SneakyPrompt: Evaluating Robustness of Text-to-image Generative Models' Safety Filters ( http://arxiv.org/abs/2305.12082v2 )

ライセンス: Link先を確認
Yuchen Yang, Bo Hui, Haolin Yuan, Neil Gong, Yinzhi Cao(参考訳) Stable Diffusion や DALL$\cdot$E 2 のようなテキストから画像への生成モデルは、現実世界に広く応用されているため、出版以来多くの注目を集めている。 テキスト・ツー・イメージ・ジェネレーティブ・モデルの難しい問題のひとつは、暴力や成人に関連するものなど、Not-Safe-for-Work(NSFW)コンテンツの生成である。 したがって、一般的には、テキストまたは画像の特徴に基づいてNSFWコンテンツをブロックするいわゆるセーフティフィルタをデプロイする。 先行研究は、このような安全フィルタのバイパスの可能性を研究した。 しかし、既存の作品はほとんど手作業で、安定拡散の公式な安全フィルターに特化している。 また, 本評価では, 安定拡散フィルタのバイパス比が23.51%と低かった。 本稿では,SneakyPromptと呼ばれる最初の自動攻撃フレームワークを提案し,最先端のテキスト画像生成モデルにおける実世界の安全フィルタの堅牢性を評価する。 我々のキーとなる洞察は、NSFW画像を生成するプロンプトで代替トークンを探すことで、生成されたプロンプト(対向プロンプトと呼ばれる)が既存の安全フィルタをバイパスする。 具体的には、SneakyPromptは強化学習(RL)を使用して、意味的類似性とバイパス成功に対する肯定的な報酬を持つエージェントを誘導する。 SneakyPrompt はオンラインモデル DALL$\cdot$E 2 を用いて,デフォルトのクローズドボックスセーフティフィルタにより NSFW コンテンツの生成に成功した。 同時に,sneapyprompt は nsfw コンテンツの生成を成功させるだけでなく,クエリ数や画像品質の面で既存の敵対的攻撃よりも優れていることを示す。

Text-to-image generative models such as Stable Diffusion and DALL$\cdot$E 2 have attracted much attention since their publication due to their wide application in the real world. One challenging problem of text-to-image generative models is the generation of Not-Safe-for-Work (NSFW) content, e.g., those related to violence and adult. Therefore, a common practice is to deploy a so-called safety filter, which blocks NSFW content based on either text or image features. Prior works have studied the possible bypass of such safety filters. However, existing works are largely manual and specific to Stable Diffusion's official safety filter. Moreover, the bypass ratio of Stable Diffusion's safety filter is as low as 23.51% based on our evaluation. In this paper, we propose the first automated attack framework, called SneakyPrompt, to evaluate the robustness of real-world safety filters in state-of-the-art text-to-image generative models. Our key insight is to search for alternative tokens in a prompt that generates NSFW images so that the generated prompt (called an adversarial prompt) bypasses existing safety filters. Specifically, SneakyPrompt utilizes reinforcement learning (RL) to guide an agent with positive rewards on semantic similarity and bypass success. Our evaluation shows that SneakyPrompt successfully generated NSFW content using an online model DALL$\cdot$E 2 with its default, closed-box safety filter enabled. At the same time, we also deploy several open-source state-of-the-art safety filters on a Stable Diffusion model and show that SneakyPrompt not only successfully generates NSFW content, but also outperforms existing adversarial attacks in terms of the number of queries and image qualities.
翻訳日:2023-05-31 00:00:48 公開日:2023-05-27
# 単一画像超解像用高能率混合変圧器

Efficient Mixed Transformer for Single Image Super-Resolution ( http://arxiv.org/abs/2305.11403v3 )

ライセンス: Link先を確認
Ling Zheng, Jinchen Zhu, Jinpeng Shi, Shizhuang Weng(参考訳) 近年,変圧器を用いた手法は単一画像超解像法 (sisr) で印象的な結果を得ている。 しかし、局所性機構の欠如と高複雑性は超解像(SR)の分野における応用を制限する。 これらの問題を解決するため,本研究ではEMT(Efficient Mixed Transformer)を提案する。 具体的には,複数の連続トランス層からなるMixed Transformer Block (MTB)を提案する。 PMはピクセルシフト操作によって局所的な知識集約を強化することができる。 pmにはパラメータや浮動小数点演算がないため、追加の複雑さは導入されない。 さらに、画像異方性を利用して、効率的なグローバル依存モデリングを実現するために、SA(SWSA)のストライプウィンドウを用いる。 実験結果から,EMTはベンチマークデータセット上で既存の手法よりも優れ,最先端の性能を達成した。 コードはhttps://github.comで入手できる。 Fried-Rice-Lab/EMT.git.com

Recently, Transformer-based methods have achieved impressive results in single image super-resolution (SISR). However, the lack of locality mechanism and high complexity limit their application in the field of super-resolution (SR). To solve these problems, we propose a new method, Efficient Mixed Transformer (EMT) in this study. Specifically, we propose the Mixed Transformer Block (MTB), consisting of multiple consecutive transformer layers, in some of which the Pixel Mixer (PM) is used to replace the Self-Attention (SA). PM can enhance the local knowledge aggregation with pixel shifting operations. At the same time, no additional complexity is introduced as PM has no parameters and floating-point operations. Moreover, we employ striped window for SA (SWSA) to gain an efficient global dependency modelling by utilizing image anisotropy. Experimental results show that EMT outperforms the existing methods on benchmark dataset and achieved state-of-the-art performance. The Code is available at https://github. com/Fried-Rice-Lab/EMT.git.
翻訳日:2023-05-30 23:59:15 公開日:2023-05-27
# 実世界マルチエージェントによる強化学習における適応的行動指導

Adaptive action supervision in reinforcement learning from real-world multi-agent demonstrations ( http://arxiv.org/abs/2305.13030v2 )

ライセンス: Link先を確認
Keisuke Fujii, Kazushi Tsutsui, Atom Scott, Hiroshi Nakahara, Naoya Takeishi, Yoshinobu Kawahara(参考訳) 実世界の生物多エージェントのモデリングは、様々な科学・工学分野における根本的な問題である。 強化学習(Reinforcement Learning, RL)は、サイバー空間における柔軟な多様な行動を生成する強力なフレームワークであるが、実世界の生物学的多エージェントをモデル化する際には、ソース(実世界のデータ)とターゲット(即ちRLのサイバー空間)の振る舞いと、ソース環境パラメータが通常不明である。 本稿では,マルチエージェントシナリオにおける実世界の実演からRLにおける適応的行動監視手法を提案する。 本研究では, 動的時間ワーピングの最小距離に基づいて, rlにおける実演の動作を選択することで, rlと教師付き学習を組み合わせる手法を提案する。 このアプローチは多くの既存のニューラルネットワークアーキテクチャに容易に適用でき、再現可能性とサイバースペースにおける報酬を得るために一般化能力のバランスをとるRLモデルを提供する。 実験では,未知のソースとターゲット環境の異なるダイナミックスを用いて,チェイス・アンド・エスケープとフットボールのタスクを用いて,再現性と一般化能力のバランスを,ベースラインと比較して達成した。 特に,プロサッカー選手の追跡データをサッカーのエキスパート・デモとして使用し,チェイス・アンド・エスケープ・タスクよりもソースとターゲット環境の挙動の差が大きいにもかかわらず,成功例を示した。

Modeling of real-world biological multi-agents is a fundamental problem in various scientific and engineering fields. Reinforcement learning (RL) is a powerful framework to generate flexible and diverse behaviors in cyberspace; however, when modeling real-world biological multi-agents, there is a domain gap between behaviors in the source (i.e., real-world data) and the target (i.e., cyberspace for RL), and the source environment parameters are usually unknown. In this paper, we propose a method for adaptive action supervision in RL from real-world demonstrations in multi-agent scenarios. We adopt an approach that combines RL and supervised learning by selecting actions of demonstrations in RL based on the minimum distance of dynamic time warping for utilizing the information of the unknown source dynamics. This approach can be easily applied to many existing neural network architectures and provide us with an RL model balanced between reproducibility as imitation and generalization ability to obtain rewards in cyberspace. In the experiments, using chase-and-escape and football tasks with the different dynamics between the unknown source and target environments, we show that our approach achieved a balance between the reproducibility and the generalization ability compared with the baselines. In particular, we used the tracking data of professional football players as expert demonstrations in football and show successful performances despite the larger gap between behaviors in the source and target environments than the chase-and-escape task.
翻訳日:2023-05-30 23:51:06 公開日:2023-05-27
# 光沢のないエンドツーエンド手話翻訳

Gloss-Free End-to-End Sign Language Translation ( http://arxiv.org/abs/2305.12876v2 )

ライセンス: Link先を確認
Kezhou Lin, Xiaohan Wang, Linchao Zhu, Ke Sun, Bang Zhang, Yi Yang(参考訳) 本稿では,グロスアノテーションを使わずに手話翻訳(SLT)の問題に取り組む。 glossのような中間表現は有効であることが証明されているが、glossアノテーションは、特に大量では取得が難しい。 これにより翻訳データセットのドメインカバレッジが制限され、現実世界のアプリケーションをハンディキャップできる。 この問題を軽減するため,GloFE (Gross-Free End-to-end手話翻訳フレームワーク) を設計した。 本手法は,符号の共通意味論と対応する音声翻訳を活用し,光沢のない設定におけるsltの性能を向上させる。 共通概念はテキストから抽出され、中間表現の弱い形式として使用される。 これらの概念のグローバル埋め込みは、学習した視覚機能の中で対応する情報を見つけるためのクロスアテンションのクエリとして使用される。 対照的に、そのような概念を含むサンプル間のクエリ結果の類似性を奨励し、そうでないものを減らす。 OpenASLやHow2Signなど,大規模データセットの最先端結果を得た。 コードとモデルはhttps://github.com/HenryLittle/GloFE.comから入手できる。

In this paper, we tackle the problem of sign language translation (SLT) without gloss annotations. Although intermediate representation like gloss has been proven effective, gloss annotations are hard to acquire, especially in large quantities. This limits the domain coverage of translation datasets, thus handicapping real-world applications. To mitigate this problem, we design the Gloss-Free End-to-end sign language translation framework (GloFE). Our method improves the performance of SLT in the gloss-free setting by exploiting the shared underlying semantics of signs and the corresponding spoken translation. Common concepts are extracted from the text and used as a weak form of intermediate representation. The global embedding of these concepts is used as a query for cross-attention to find the corresponding information within the learned visual features. In a contrastive manner, we encourage the similarity of query results between samples containing such concepts and decrease those that do not. We obtained state-of-the-art results on large-scale datasets, including OpenASL and How2Sign. The code and model will be available at https://github.com/HenryLittle/GloFE.
翻訳日:2023-05-30 23:50:40 公開日:2023-05-27
# REC-MV:モノクロ映像から3D動的衣服を再構築

REC-MV: REconstructing 3D Dynamic Cloth from Monocular Videos ( http://arxiv.org/abs/2305.14236v2 )

ライセンス: Link先を確認
Lingteng Qiu, Guanying Chen, Jiapeng Zhou, Mutian Xu, Junle Wang and Xiaoguang Han(参考訳) モノクロ映像から開放された境界で動的3D衣料表面を再構築することは、実用的で低コストな衣料デジタル化ソリューションを提供するため重要な問題である。 近年のニューラルレンダリング法は, モノクロ映像から高品質な動的布地を再現するが, 衣服表面を体から切り離すことはできない。 さらに, 特徴曲線表現に基づく既存の衣服再構築手法は, 単一画像からの衣服復元の印象的な結果を示すが, 映像入力に対して時間的に一貫した表面を生成するのに苦慮している。 本稿では,この課題を3次元衣料特徴曲線の最適化問題と単眼映像による表面再構成問題として定式化する。 衣服の明示的特徴曲線と暗黙的符号距離場(SDF)を協調的に最適化する,REC-MVと呼ばれる新しい手法を提案する。 そして、前記開衣メッシュを、前記正準空間における衣料テンプレート登録により抽出することができる。 複数のカジュアルにキャプチャされたデータセットの実験は、我々のアプローチが既存の手法より優れており、高品質な動的衣服表面を作り出すことができることを示している。 ソースコードはhttps://github.com/GAP-LAB-CUHK-SZ/REC-MVで入手できる。

Reconstructing dynamic 3D garment surfaces with open boundaries from monocular videos is an important problem as it provides a practical and low-cost solution for clothes digitization. Recent neural rendering methods achieve high-quality dynamic clothed human reconstruction results from monocular video, but these methods cannot separate the garment surface from the body. Moreover, despite existing garment reconstruction methods based on feature curve representation demonstrating impressive results for garment reconstruction from a single image, they struggle to generate temporally consistent surfaces for the video input. To address the above limitations, in this paper, we formulate this task as an optimization problem of 3D garment feature curves and surface reconstruction from monocular video. We introduce a novel approach, called REC-MV, to jointly optimize the explicit feature curves and the implicit signed distance field (SDF) of the garments. Then the open garment meshes can be extracted via garment template registration in the canonical space. Experiments on multiple casually captured datasets show that our approach outperforms existing methods and can produce high-quality dynamic garment surfaces. The source code is available at https://github.com/GAP-LAB-CUHK-SZ/REC-MV.
翻訳日:2023-05-30 23:41:30 公開日:2023-05-27
# 引用に基づくモデルによる調査回答の予測:米国に対する好意性に関する事例研究

Predicting Survey Response with Quotation-based Modeling: A Case Study on Favorability towards the United States ( http://arxiv.org/abs/2305.14086v2 )

ライセンス: Link先を確認
Alireza Amirshahi, Nicolas Kirsch, Jonathan Reymond and Saleh Baghersalimi(参考訳) 世論の理解を目的とした調査を行う上で,調査回答の獲得は重要な要素である。 しかし、適切な応答率を保証することなく、調査データ収集は困難であり、時間がかかり、高価である。 本稿では,機械学習を用いた引用を検証し,調査回答を予測する先駆的手法を提案する。 本調査は、多くの組織や政府に対する関心事である米国に対する優遇度を評価することに焦点を当てている。 異なる国籍や期間にまたがる個人からの膨大な引用を活用し、彼らの好意のレベルを抽出する。 自然言語処理技術と機械学習アルゴリズムを組み合わせて,質問応答の予測モデルを構築した。 第一に, 国内調査が行われていない場合, 第二に調査が行われた場合, 特定の年において, 年中調査を行わない場合の2つのシナリオについて検討した。 実験の結果,提案手法は高精度にサーベイ応答を予測できることがわかった。 さらに,モデルの性能に寄与した重要な特徴を徹底的に分析する。 本研究は、世論の正確な予測を同時に提供しつつ、調査に要するコストと時間を大幅に削減し、データサイエンス分野における調査研究に影響を与える可能性がある。

The acquisition of survey responses is a crucial component in conducting research aimed at comprehending public opinion. However, survey data collection can be arduous, time-consuming, and expensive, with no assurance of an adequate response rate. In this paper, we propose a pioneering approach for predicting survey responses by examining quotations using machine learning. Our investigation focuses on evaluating the degree of favorability towards the United States, a topic of interest to many organizations and governments. We leverage a vast corpus of quotations from individuals across different nationalities and time periods to extract their level of favorability. We employ a combination of natural language processing techniques and machine learning algorithms to construct a predictive model for survey responses. We investigate two scenarios: first, when no surveys have been conducted in a country, and second when surveys have been conducted but in specific years and do not cover all the years. Our experimental results demonstrate that our proposed approach can predict survey responses with high accuracy. Furthermore, we provide an exhaustive analysis of the crucial features that contributed to the model's performance. This study has the potential to impact survey research in the field of data science by substantially decreasing the cost and time required to conduct surveys while simultaneously providing accurate predictions of public opinion.
翻訳日:2023-05-30 23:41:09 公開日:2023-05-27
# 呼吸音分類における音声スペクトログラムトランスフォーマを用いたパッチミックスコントラスト学習

Patch-Mix Contrastive Learning with Audio Spectrogram Transformer on Respiratory Sound Classification ( http://arxiv.org/abs/2305.14032v2 )

ライセンス: Link先を確認
Sangmin Bae, June-Woo Kim, Won-Yang Cho, Hyerim Baek, Soyoun Son, Byungjo Lee, Changwan Ha, Kyongpil Tae, Sungnyun Kim, Se-Young Yun(参考訳) 呼吸音は致命的な肺疾患の早期診断に重要な情報を含んでいる。 新型コロナウイルス(COVID-19)のパンデミック以降、電子聴診器に基づく非接触医療への関心が高まっている。 この目的のために、最先端の深層学習モデルが肺疾患の診断のために開発されたが、医療データの不足のため、依然として困難である。 本研究では,大規模視覚および音声データセットにおける事前学習モデルが呼吸音分類タスクに一般化できることを実証する。 さらに,Audio Spectrogram Transformer (AST) を用いて,異なるサンプル間のパッチをランダムに混合する,単純なPatch-Mix Augmentationを導入する。 さらに,潜在空間における混合表現を識別する新しいパッチ混合コントラスト学習を提案する。 提案手法はICBHIデータセット上での最先端性能を実現し,4.08%の改善により先行先行スコアを上回った。

Respiratory sound contains crucial information for the early diagnosis of fatal lung diseases. Since the COVID-19 pandemic, there has been a growing interest in contact-free medical care based on electronic stethoscopes. To this end, cutting-edge deep learning models have been developed to diagnose lung diseases; however, it is still challenging due to the scarcity of medical data. In this study, we demonstrate that the pretrained model on large-scale visual and audio datasets can be generalized to the respiratory sound classification task. In addition, we introduce a straightforward Patch-Mix augmentation, which randomly mixes patches between different samples, with Audio Spectrogram Transformer (AST). We further propose a novel and effective Patch-Mix Contrastive Learning to distinguish the mixed representations in the latent space. Our method achieves state-of-the-art performance on the ICBHI dataset, outperforming the prior leading score by an improvement of 4.08%.
翻訳日:2023-05-30 23:40:48 公開日:2023-05-27
# 画像超解像のための最適境界条件付き拡散モードの解法

Solving Diffusion ODEs with Optimal Boundary Conditions for Better Image Super-Resolution ( http://arxiv.org/abs/2305.15357v2 )

ライセンス: Link先を確認
Yiyang Ma, Huan Yang, Wenhan Yang, Jianlong Fu, Jiaying Liu(参考訳) 拡散モデルは、強力な生成モデルの一種であり、画像超解像(SR)タスクにおいて印象的な結果をもたらした。 しかし、拡散モデルの逆過程に導入されたランダム性により、拡散ベースのsrモデルの性能はサンプリングのたびに変動し、特にサンプリングされたステップがほとんどないサンプラーでは顕著である。 この拡散モデル固有のランダム性は非効率性と不安定性をもたらし、SR結果の品質を保証することは困難である。 しかし、我々の研究は、このランダム性を機会として捉えており、それを十分に分析し活用することで、一連の拡散ベースのSR手法の恩恵を受ける可能性を持つ効果的なプラグアンドプレイサンプリング手法の構築につながる。 より詳しくは、拡散常微分方程式(拡散ODE)を最適境界条件(BC)で解き、BCの選択と対応するSR結果との間の特性を解析することにより、事前訓練された拡散ベースSRモデルから高品質なSR画像のサンプリングを行うことを提案する。 我々の分析は、空間全体における効率的な探索を通して、およそ最適なBCを得るための経路を示す。 提案手法で得られたsrの質は,事前学習した拡散ベースsrモデルとランダム性を持つ電流法でサンプリングされたsrの質を上回っており,追加のトレーニングを必要とせず,電流拡散ベースのsrモデルを「ブースト」する。

Diffusion models, as a kind of powerful generative model, have given impressive results on image super-resolution (SR) tasks. However, due to the randomness introduced in the reverse process of diffusion models, the performances of diffusion-based SR models are fluctuating at every time of sampling, especially for samplers with few resampled steps. This inherent randomness of diffusion models results in ineffectiveness and instability, making it challenging for users to guarantee the quality of SR results. However, our work takes this randomness as an opportunity: fully analyzing and leveraging it leads to the construction of an effective plug-and-play sampling method that owns the potential to benefit a series of diffusion-based SR methods. More in detail, we propose to steadily sample high-quality SR images from pretrained diffusion-based SR models by solving diffusion ordinary differential equations (diffusion ODEs) with optimal boundary conditions (BCs) and analyze the characteristics between the choices of BCs and their corresponding SR results. Our analysis shows the route to obtain an approximately optimal BC via an efficient exploration in the whole space. The quality of SR results sampled by the proposed method with fewer steps outperforms the quality of results sampled by current methods with randomness from the same pretrained diffusion-based SR model, which means that our sampling method "boosts" current diffusion-based SR models without any additional training.
翻訳日:2023-05-30 23:32:42 公開日:2023-05-27
# 可視性アンサンブル予測の統計的後処理

Statistical post-processing of visibility ensemble forecasts ( http://arxiv.org/abs/2305.15325v2 )

ライセンス: Link先を確認
S\'andor Baran and M\'aria Lakatos(参考訳) 可視性の正確かつ信頼性の高い予測を可能にすることは、航空気象学だけでなく、水や道路輸送においても重要である。 現在、いくつかの気象サービスは可視性の予測を提供しているが、その技術や可視性予測の信頼性は温度や風速といった他の変数と比べてはるかに低下している。 したがって、ある種のキャリブレーションは強く推奨され、通常は、機械学習ベースの技術を含むパラメトリックまたは非パラメトリックアプローチによって、手前の気象量の予測分布を推定することを意味する。 世界気象機関(World Meteorological Organization)の提案によれば、可視性観測は通常離散値で報告されるため、この変数の予測分布は離散確率法則であり、キャリブレーションを分類問題に還元することができる。 中央・西欧の2つのやや重なり合う領域と2つの異なる期間をカバーした欧州中レージ気象予報センターの可視的アンサンブル予測に基づき、局所的、半局所的に訓練された比例オッズ対数回帰(POLR)と多層パーセプトロン(MLP)ニューラルネットワーク分類器の予測性能について検討した。 気候学的な予測は生のアンサンブルを広範囲に上回るが,ポストプロセッシングにより予測能力は向上し,一般にPOLRモデルの方がMPPモデルよりも優れていることを示す。

To be able to produce accurate and reliable predictions of visibility has crucial importance in aviation meteorology, as well as in water- and road transportation. Nowadays, several meteorological services provide ensemble forecasts of visibility; however, the skill, and reliability of visibility predictions are far reduced compared to other variables, such as temperature or wind speed. Hence, some form of calibration is strongly advised, which usually means estimation of the predictive distribution of the weather quantity at hand either by parametric or non-parametric approaches, including also machine learning-based techniques. As visibility observations - according to the suggestion of the World Meteorological Organization - are usually reported in discrete values, the predictive distribution for this particular variable is a discrete probability law, hence calibration can be reduced to a classification problem. Based on visibility ensemble forecasts of the European Centre for Medium-Range Weather Forecasts covering two slightly overlapping domains in Central and Western Europe and two different time periods, we investigate the predictive performance of locally, semi-locally and regionally trained proportional odds logistic regression (POLR) and multilayer perceptron (MLP) neural network classifiers. We show that while climatological forecasts outperform the raw ensemble by a wide margin, post-processing results in further substantial improvement in forecast skill and in general, POLR models are superior to their MLP counterparts.
翻訳日:2023-05-30 23:32:12 公開日:2023-05-27
# replicable強化学習

Replicable Reinforcement Learning ( http://arxiv.org/abs/2305.15284v2 )

ライセンス: Link先を確認
Eric Eaton, Marcel Hussing, Michael Kearns, Jessica Sorrell(参考訳) 社会的、行動的、データ科学における複製可能性の危機は、複製性のためのアルゴリズムフレームワーク、すなわち、アルゴリズムが同じ分布から2つの異なるサンプルを実行する際に(高い確率で)同じ出力を生成するという要求を定式化した。 まだ初期段階だが、統計的クエリ学習、ヘビーヒッター問題、分散テストなど、機械学習と統計学における多くの基本的なタスクのために、確実に再現可能なアルゴリズムが開発されている。 本研究では,レプリケーブル強化学習(replicable reinforcement learning)の研究を開始し,並列値反復のためのproplicableアルゴリズムと,エピソディック設定におけるr-maxのreplicableバージョンを提供する。 これらは、バッチ学習設定とは異なるレプリケーションの課題を示す、制御問題に対する最初の公式な再現性結果である。

The replicability crisis in the social, behavioral, and data sciences has led to the formulation of algorithm frameworks for replicability -- i.e., a requirement that an algorithm produce identical outputs (with high probability) when run on two different samples from the same underlying distribution. While still in its infancy, provably replicable algorithms have been developed for many fundamental tasks in machine learning and statistics, including statistical query learning, the heavy hitters problem, and distribution testing. In this work we initiate the study of replicable reinforcement learning, providing a provably replicable algorithm for parallel value iteration, and a provably replicable version of R-max in the episodic setting. These are the first formal replicability results for control problems, which present different challenges for replication than batch learning settings.
翻訳日:2023-05-30 23:31:43 公開日:2023-05-27
# 画像・テキスト・パラメトリックデータを用いた車両評価予測のためのマルチモーダル機械学習

Multi-modal Machine Learning for Vehicle Rating Predictions Using Image, Text, and Parametric Data ( http://arxiv.org/abs/2305.15218v2 )

ライセンス: Link先を確認
Hanqi Su, Binyang Song and Faez Ahmed(参考訳) 正確な車両評価予測は、優れた車両の設計と構成を容易にする。 この予測により、自動車デザイナーやメーカーはデザインをタイムリーに最適化し、改善し、製品性能を高め、消費者を効果的に惹きつけることができる。 しかし、既存のデータ駆動方式のほとんどは、テキスト、画像、パラメトリックデータのような単一のモードからのデータに依存しており、利用可能な情報の限定的かつ不完全な探索をもたらす。 これらの手法は、複数のモードからのデータの包括的な分析と探索を欠き、おそらく不正確な結論を導き、この分野の進歩を妨げる。 この制限を克服するために,より包括的かつ正確な車両評価予測のためのマルチモーダル学習モデルを提案する。 具体的には、パラメトリック仕様、テキスト記述、車両のイメージから特徴を同時に学習し、合計スコア、批評家スコア、パフォーマンススコア、安全スコア、インテリアスコアを含む5つの車両評価スコアを予測する。 マルチモーダル学習モデルと対応するユニモーダルモデルを比較し,マルチモーダルモデルの説明力は,ユニモーダルモデルよりも4%~12%高いことがわかった。 そこで本研究では, SHAPを用いた感度解析を行い, 設計者や製造者に設計と最適化の方向性を提供する。 本研究は,車両設計,評価,最適化におけるデータ駆動型マルチモーダル学習手法の重要性を強調する。 コードはhttp://decode.mit.edu/projects/vehicleratings/で公開しています。

Accurate vehicle rating prediction can facilitate designing and configuring good vehicles. This prediction allows vehicle designers and manufacturers to optimize and improve their designs in a timely manner, enhance their product performance, and effectively attract consumers. However, most of the existing data-driven methods rely on data from a single mode, e.g., text, image, or parametric data, which results in a limited and incomplete exploration of the available information. These methods lack comprehensive analyses and exploration of data from multiple modes, which probably leads to inaccurate conclusions and hinders progress in this field. To overcome this limitation, we propose a multi-modal learning model for more comprehensive and accurate vehicle rating predictions. Specifically, the model simultaneously learns features from the parametric specifications, text descriptions, and images of vehicles to predict five vehicle rating scores, including the total score, critics score, performance score, safety score, and interior score. We compare the multi-modal learning model to the corresponding unimodal models and find that the multi-modal model's explanatory power is 4% - 12% higher than that of the unimodal models. On this basis, we conduct sensitivity analyses using SHAP to interpret our model and provide design and optimization directions to designers and manufacturers. Our study underscores the importance of the data-driven multi-modal learning approach for vehicle design, evaluation, and optimization. We have made the code publicly available at http://decode.mit.edu/projects/vehicleratings/.
翻訳日:2023-05-30 23:31:28 公開日:2023-05-27
# 肯定的スケーリングを超えて - ネゲーションが言語モデルのスケーリングトレンドに与える影響

Beyond Positive Scaling: How Negation Impacts Scaling Trends of Language Models ( http://arxiv.org/abs/2305.17311v1 )

ライセンス: Link先を確認
Yuhui Zhang, Michihiro Yasunaga, Zhengping Zhou, Jeff Z. HaoChen, James Zou, Percy Liang, Serena Yeung(参考訳) 言語モデルは、サイズ、計算、データの観点からモデルがスケールアップされるにつれてパフォーマンスが向上する、ポジティブなスケーリングを示すことが示されている。 本研究では,言語モデルが直接的正のスケーリングを示しない否定を伴う質問からなるデータセットであるNeQAを紹介する。 このタスクは逆スケーリング、u字型スケーリング、あるいはプラススケーリングを示すことができ、より強力なプロンプトメソッドやモデルファミリを使用するため、3つのスケーリングトレンドはこの順にシフトする。 我々は、NeQAの解決は、質問応答(タスク1)と否定理解(タスク2)という2つのサブタスクに依存すると仮定する。 タスク1は線形スケーリングであり,タスク2は緊急遷移点を持つシグモノイド形状のスケーリングを持ち,これら2つのスケーリングトレンドを構成することにより,NeQAの最終スケーリング傾向が得られる。 私たちの研究は、言語モデルの複雑なスケーリングトレンドを分析し、分析する方法を提供する。

Language models have been shown to exhibit positive scaling, where performance improves as models are scaled up in terms of size, compute, or data. In this work, we introduce NeQA, a dataset consisting of questions with negation in which language models do not exhibit straightforward positive scaling. We show that this task can exhibit inverse scaling, U-shaped scaling, or positive scaling, and the three scaling trends shift in this order as we use more powerful prompting methods or model families. We hypothesize that solving NeQA depends on two subtasks: question answering (task 1) and negation understanding (task 2). We find that task 1 has linear scaling, while task 2 has sigmoid-shaped scaling with an emergent transition point, and composing these two scaling trends yields the final scaling trend of NeQA. Our work reveals and provides a way to analyze the complex scaling trends of language models.
翻訳日:2023-05-30 20:36:26 公開日:2023-05-27
# Zero-TPrune: 事前学習トランスにおけるアテンショングラフの活用によるゼロショットトケンプルーニング

Zero-TPrune: Zero-Shot Token Pruning through Leveraging of the Attention Graph in Pre-Trained Transformers ( http://arxiv.org/abs/2305.17328v1 )

ライセンス: Link先を確認
Hongjie Wang, Bhishma Dedhia, Niraj K. Jha(参考訳) 入力シーケンスのトークン数と2倍スケールのモデルサイズと推論コストが指数関数的に増加するため、エッジへのトランスフォーマーモデルのデプロイはますます難しくなっている。 Token pruningは、様々なTransformerバックボーンへのデプロイが容易であるため、この問題に対処する新たなソリューションである。 しかし、ほとんどのトークンプルーニング法は、プルーニングの後に、あるいはプルーニング中の微調整プロセスを必要とする。 近年の研究では、微調整なしで既修のトランスフォーマーを刈り取る方法が研究されている。 しかし、それらはトークンの重要性だけを考慮に入れる。 本研究では,トークンプルーニングにおけるトークンの重要性と類似性を両立する最初のゼロショット手法であるZero-TPruneを提案する。 Zero-TPruneは、事前訓練されたTransformerモデルのアテンショングラフを活用して、トークンの重要ランクを生成し、情報の少ないトークンを削除する。 注目行列は、グラフシフト演算子を反復的に適用して重要スコア分布を得ることができる有向グラフの隣接行列と考えることができる。 この分布はトークンを2つのグループに分割し、それらの類似性を測定する。 微調整オーバヘッドの除去により、ゼロツルーンは容易に大きな模型を刈り込み、ハイパーパラメータチューニングを効率的に行うことができる。 様々な視覚トランスフォーマーバックボーンに適用することにより,視覚タスクにおけるゼロツルーンの性能を評価する。 ファインチューニングを必要とする最先端のプルーニング法と比較すると、Zero-TPruneはプルーニング後の微調整の必要性をなくすだけでなく、約0.3%の精度の損失しか与えない。 最先端の微調整不要プルーニング法と比較して、Zero-TPruneは中型モデルの精度損失を最大45%削減する。

Deployment of Transformer models on the edge is increasingly challenging due to the exponentially growing model size and inference cost that scales quadratically with the number of tokens in the input sequence. Token pruning is an emerging solution to address this challenge due to its ease of deployment on various Transformer backbones. However, most token pruning methods require a computationally-expensive fine-tuning process after or during pruning, which is not desirable in many cases. Some recent works explore pruning of off-the-shelf pre-trained Transformers without fine-tuning. However, they only take the importance of tokens into consideration. In this work, we propose Zero-TPrune, the first zero-shot method that considers both the importance and similarity of tokens in performing token pruning. Zero-TPrune leverages the attention graph of pre-trained Transformer models to produce an importance rank for tokens and removes the less informative tokens. The attention matrix can be thought of as an adjacency matrix of a directed graph, to which a graph shift operator can be applied iteratively to obtain the importance score distribution. This distribution guides the partition of tokens into two groups and measures similarity between them. Due to the elimination of the fine-tuning overhead, Zero-TPrune can easily prune large models and perform hyperparameter tuning efficiently. We evaluate the performance of Zero-TPrune on vision tasks by applying it to various vision Transformer backbones. Compared with state-of-the-art pruning methods that require fine-tuning, Zero-TPrune not only eliminates the need for fine-tuning after pruning, but does so with only around 0.3% accuracy loss. Compared with state-of-the-art fine-tuning-free pruning methods, Zero-TPrune reduces accuracy loss by up to 45% on medium-sized models.
翻訳日:2023-05-30 20:24:33 公開日:2023-05-27
# 階層型ディープデファクトレグレスト最小化

Hierarchical Deep Counterfactual Regret Minimization ( http://arxiv.org/abs/2305.17327v1 )

ライセンス: Link先を確認
Jiayu Chen, Tian Lan, Vaneet Aggarwal(参考訳) 不完全な情報ゲーム(IIG)は、意思決定者が不確実性に直面したり、完全な情報を欠いているシナリオに対して堅牢なモデルを提供する。 Counterfactual Regret Minimization (CFR)は、IIGに対処するための最も成功したアルゴリズムの1つである。 CFRとスキルベースの戦略学習の統合により、複雑なIIGの学習性能が向上する可能性がある。 そのためには階層的な戦略を学ぶ必要があり、低レベルのコンポーネントは特定のスキルを表し、高レベルのコンポーネントはスキル間の遷移を管理する。 この階層的アプローチは解釈性も強化し、エージェントが苦労しているシナリオを人間が特定し、ターゲットとする専門知識に介入するのに役立つ。 本稿では,大規模な状態空間と深部ゲームツリーを含むタスクにおいて,学習効率を向上させる革新的な手法であるDeep CFR (HDCFR) の最初の階層バージョンを紹介する。 この分野でのHDCFRの顕著な利点は、事前に定義された(人間的な)専門知識による学習の促進と、同様のタスクに適用可能な伝達可能なスキルの獲得を促進する能力である。 これを実現するために,まず,階層型cfr更新ルールと分散削減モンテカルロサンプリング拡張を包含する表型設定でアルゴリズムを構築し,本質的な理論的保証を提供する。 そこで,本アルゴリズムを大規模アプリケーションに適用するために,ニューラルネットワークを関数近似器として使用し,理論的結果を維持しながら表裏の設定と一致する深層学習目標を提案する。

Imperfect Information Games (IIGs) offer robust models for scenarios where decision-makers face uncertainty or lack complete information. Counterfactual Regret Minimization (CFR) has been one of the most successful family of algorithms for tackling IIGs. The integration of skill-based strategy learning with CFR could potentially enhance learning performance for complex IIGs. For this, a hierarchical strategy needs to be learnt, wherein low-level components represent specific skills and the high-level component manages the transition between skills. This hierarchical approach also enhances interpretability, helping humans pinpoint scenarios where the agent is struggling and intervene with targeted expertise. This paper introduces the first hierarchical version of Deep CFR (HDCFR), an innovative method that boosts learning efficiency in tasks involving extensively large state spaces and deep game trees. A notable advantage of HDCFR over previous research in this field is its ability to facilitate learning with predefined (human) expertise and foster the acquisition of transferable skills that can be applied to similar tasks. To achieve this, we initially construct our algorithm on a tabular setting, encompassing hierarchical CFR updating rules and a variance-reduced Monte-Carlo sampling extension, and offer its essential theoretical guarantees. Then, to adapt our algorithm for large-scale applications, we employ neural networks as function approximators and suggest deep learning objectives that coincide with those in the tabular setting while maintaining the theoretical outcomes.
翻訳日:2023-05-30 20:24:03 公開日:2023-05-27
# Kernel-SSL: 自己教師型学習のためのカーネルKL多様性

Kernel-SSL: Kernel KL Divergence for Self-supervised Learning ( http://arxiv.org/abs/2305.17326v1 )

ライセンス: Link先を確認
Yifan Zhang, Zhiquan Tan, Jingqin Yang, Yang Yuan(参考訳) 対照的な学習は通常、1つの正のアンカーサンプルと多くの負のサンプルを比較して自己監督学習(SSL)を実行する。 あるいは、BYOL、SimSiam、Barlow Twinsといった手法で実証された非コントラスト学習は、負のサンプルを明示的に使用せずにSSLを達成する。 コントラスト学習のための既存の解析に触発されて、既存の多くの非矛盾学習法を再現するカーネルヒルベルト空間(rkhs)を提供する。 次に、RKHS内の平均埋め込みと共分散演算子を直接最適化する新しい損失関数Kernel-SSLを提案する。 実験では,Kernel-SSL法は,線形評価条件下でのImageNetデータセットにおいて,最先端の手法よりも高い性能を示した。 具体的には,100エポックの事前学習を行う場合,SimCLRが4.6%向上する。

Contrastive learning usually compares one positive anchor sample with lots of negative samples to perform Self-Supervised Learning (SSL). Alternatively, non-contrastive learning, as exemplified by methods like BYOL, SimSiam, and Barlow Twins, accomplishes SSL without the explicit use of negative samples. Inspired by the existing analysis for contrastive learning, we provide a reproducing kernel Hilbert space (RKHS) understanding of many existing non-contrastive learning methods. Subsequently, we propose a novel loss function, Kernel-SSL, which directly optimizes the mean embedding and the covariance operator within the RKHS. In experiments, our method Kernel-SSL outperforms state-of-the-art methods by a large margin on ImageNet datasets under the linear evaluation settings. Specifically, when performing 100 epochs pre-training, our method outperforms SimCLR by 4.6%.
翻訳日:2023-05-30 20:23:38 公開日:2023-05-27
# なぜゼロショットのクロスリンガル世代は失敗するのか? 説明と解決法

Why Does Zero-Shot Cross-Lingual Generation Fail? An Explanation and a Solution ( http://arxiv.org/abs/2305.17325v1 )

ライセンス: Link先を確認
Tianjian Li and Kenton Murray(参考訳) ゼロショットの言語間移動は、多言語モデルを訓練してある言語でタスクを実行し、別の言語に適用される場合である。 ゼロショットの言語間移動アプローチは様々な分類タスクで成功したが、自然言語生成タスクのパフォーマンスは品質が低く、時に誤った言語を出力する。 本研究では,微調整プロセスが言語不変表現を学習し,分類タスクには有益であるが,生成タスクには有害であることを示す。 そこで本研究では,学習言語不変表現からモデルを正規化するための簡単な手法と,対象言語の開発セットを使わずにモデルチェックポイントを選択する方法を提案する。 3つの意味的に多様な生成タスクの実験により,提案手法は事故翻訳問題を68%削減し,ROUGE-Lスコアを平均1.5改善した。

Zero-shot cross-lingual transfer is when a multilingual model is trained to perform a task in one language and then is applied to another language. Although the zero-shot cross-lingual transfer approach has achieved success in various classification tasks, its performance on natural language generation tasks falls short in quality and sometimes outputs an incorrect language. In our study, we show that the fine-tuning process learns language invariant representations, which is beneficial for classification tasks but harmful for generation tasks. Motivated by this, we propose a simple method to regularize the model from learning language invariant representations and a method to select model checkpoints without a development set in the target language, both resulting in better generation quality. Experiments on three semantically diverse generation tasks show that our method reduces the accidental translation problem by 68% and improves the ROUGE-L score by 1.5 on average.
翻訳日:2023-05-30 20:23:24 公開日:2023-05-27
# 強凸最適化のための下次手法の原始双対理論

Some Primal-Dual Theory for Subgradient Methods for Strongly Convex Optimization ( http://arxiv.org/abs/2305.17323v1 )

ライセンス: Link先を確認
Benjamin Grimmer, Danlin Li(参考訳) 強凸だが非滑らかな非リプシッツ最適化のための(統計的)部分次数法を考える。 古典的下位段階法,近位下位段階法,スイッチング下位段階法に対して,新しい等価な二重記述(二重平均化のスタイル)を提供する。 これらの同値性により、$O(1/T)$収束保証は古典的原始的ギャップと、強い凸最適化のための以前に解析されなかった双対ギャップの両方の観点から可能である。 その結果,本理論は,計算コストを増すことなく,簡便で最適な停止基準と最適性証明書をこれらの古典的手法に提供する。 結論は, 段階的選択や, 非リプシッツ非条件問題において, 段階的手法の初期イテレーションが指数関数的に変動する可能性(我々の知識の最大値に対して, 先行研究が対処されない現象)に対して適用できる。 このような望ましくない振る舞いが存在する場合でも、我々の理論は最終的な収束を保証し、境界を与える。

We consider (stochastic) subgradient methods for strongly convex but potentially nonsmooth non-Lipschitz optimization. We provide new equivalent dual descriptions (in the style of dual averaging) for the classic subgradient method, the proximal subgradient method, and the switching subgradient method. These equivalences enable $O(1/T)$ convergence guarantees in terms of both their classic primal gap and a not previously analyzed dual gap for strongly convex optimization. Consequently, our theory provides these classic methods with simple, optimal stopping criteria and optimality certificates at no added computational cost. Our results apply under nearly any stepsize selection and for a range of non-Lipschitz ill-conditioned problems where the early iterations of the subgradient method may diverge exponentially quickly (a phenomenon which, to the best of our knowledge, no prior works address). Even in the presence of such undesirable behaviors, our theory still ensures and bounds eventual convergence.
翻訳日:2023-05-30 20:23:07 公開日:2023-05-27
# 非同相動的対称性による離散時間結晶の解法モデル

A Solvable Model for Discrete Time Crystal Enforced by Nonsymmorphic Dynamical Symmetry ( http://arxiv.org/abs/2305.17322v1 )

ライセンス: Link先を確認
Zi-Ang Hu, Bo Fu, Xiao Li, and Shun-Qing Shen(参考訳) 離散時間結晶は、外部周期駆動に対する非調和応答を示す非平衡量子系のクラスである。 本稿では,非対称力学対称性によって強制される離散時間結晶のクラスを提案する。 まず、非対称性の動的対称性を持つ系から始め、瞬時固有状態が m\"obius twist となり、即ち瞬時状態の周期を2倍にする。 時間依存シュリンガー方程式の正確な解は、系が一連の特異進化周波数や長い進化周期の極限に対して量子的重ね合わせ状態を実行せずに自発的に周期拡張を示すことを示している。 さらに、そのような場合、系は2つの周期の進化の後、ベリー相を得る。 最後に,多体相互作用が導入された場合でもサブハーモニック応答は安定であり,熱力学的限界のdtc相を示す。

Discrete time crystal is a class of nonequilibrium quantum systems exhibiting subharmonic responses to external periodic driving. Here we propose a class of discrete time crystals enforced by nonsymmorphic dynamical symmetry. We start with a system with nonsymmorphic dynamical symmetry, in which the instantaneous eigenstates become M\"obius twisted, hence doubling the period of the instantaneous state. The exact solution of the time-dependent Schr\"odinger equation shows that the system spontaneously exhibits a period extension without undergoing quantum superposition states for a series of specifc evolution frequencies or in the limit of long evolution period. Moreover, in such case the system gains a {\pi} Berry phase after two periods' evolution. Finally, we show that the subharmonic response is stable even when many-body interactions are introduced, indicating a DTC phase in the thermodynamic limit.
翻訳日:2023-05-30 20:22:49 公開日:2023-05-27
# マイノリティのモラルマシンかティラニーか?

Moral Machine or Tyranny of the Majority? ( http://arxiv.org/abs/2305.17319v1 )

ライセンス: Link先を確認
Michael Feffer, Hoda Heidari, and Zachary C. Lipton(参考訳) 人工知能システムは、コンセンサスが欠如している倫理的な状況においてどのように振る舞うべきか、研究者たちは疑問を呈し始めた。 Moral Machineプロジェクトでは、自動運転車に関する"Trolley Problems"に対する回答をクラウドソーシングした。 その後、noothigattu et al. (2018) は、各個人の選好を近似する線形関数を推測し、これらの線形モデルを集団全体のパラメータ平均化によって集約することを提案した。 本稿では,この平均化メカニズムを,戦略的効果の存在下での公平性に焦点をあてて検討する。 人口が2つのグループで構成され、少数派が人口の0.5パーセントを占める単純な構成について検討する。 分析を単純化するため、グループ内の選好が均質である極端なケースを考察する。 少数派が優勢な競合事例のごく一部に着目して、以下の観察を行う。 (a)すべての当事者が真実に選好を報告しても、少数派が優勢である紛争のごく一部は、アルファに比例しない。 b) グループ間の不一致の度合いが増加するにつれて、サブプロポージャ性がより深刻になる。 c) 当事者が戦略的に選好を報告する場合は,純粋な戦略平衡が常に存在するとは限らない。 (d) 純粋な戦略均衡が存在する場合、多数派は時間の100%を占める。 これらの知見は、発散音声を集約するメカニズムとしての選好ベクトル平均化の安定性と公平性に関する懸念を提起する。 最後に、ランダム化された独裁と中央集権的なメカニズムを含む代替案について論じる。

With Artificial Intelligence systems increasingly applied in consequential domains, researchers have begun to ask how these systems ought to act in ethically charged situations where even humans lack consensus. In the Moral Machine project, researchers crowdsourced answers to "Trolley Problems" concerning autonomous vehicles. Subsequently, Noothigattu et al. (2018) proposed inferring linear functions that approximate each individual's preferences and aggregating these linear models by averaging parameters across the population. In this paper, we examine this averaging mechanism, focusing on fairness concerns in the presence of strategic effects. We investigate a simple setting where the population consists of two groups, with the minority constituting an {\alpha} < 0.5 share of the population. To simplify the analysis, we consider the extreme case in which within-group preferences are homogeneous. Focusing on the fraction of contested cases where the minority group prevails, we make the following observations: (a) even when all parties report their preferences truthfully, the fraction of disputes where the minority prevails is less than proportionate in {\alpha}; (b) the degree of sub-proportionality grows more severe as the level of disagreement between the groups increases; (c) when parties report preferences strategically, pure strategy equilibria do not always exist; and (d) whenever a pure strategy equilibrium exists, the majority group prevails 100% of the time. These findings raise concerns about stability and fairness of preference vector averaging as a mechanism for aggregating diverging voices. Finally, we discuss alternatives, including randomized dictatorship and median-based mechanisms.
翻訳日:2023-05-30 20:22:34 公開日:2023-05-27
# 暗く照らすレーダー:カメラとレーダーの融合による自動車の低視認性向上

Radar Enlighten the Dark: Enhancing Low-Visibility Perception for Automated Vehicles with Camera-Radar Fusion ( http://arxiv.org/abs/2305.17318v1 )

ライセンス: Link先を確認
Can Cui, Yunsheng Ma, Juanwu Lu and Ziran Wang(参考訳) センサフュージョンは、様々な運転条件下での自動車の認識システムの精度と信頼性を向上させるための重要な拡張技術である。 しかし、悪天候と低照度環境は依然として困難であり、センサー性能は著しく低下し、車両の安全性が潜在的な危険にさらされている。 lidarのような高度なセンサーは問題を緩和するが、限界コストは非常に高い。 本稿では,バードズ・アイ・ビュー・カメラ・レーダー融合を利用して,より実用的で費用対効果の高いソリューションのパワーを活用し,視認性の低い3次元物体検出モデル「レッドフォーマ」を提案する。 マルチレーダ点雲,気象情報,日時データを用いたnuScenesデータセットを用いて,分類と検出精度に関する最新技術(SOTA)モデルを上回った。 最後に,上記の課題に対処すべく,各モデルコンポーネントの広範なアブレーション研究を行う。 特に,本モデルは,低視認性シナリオにおいてベースラインモデルよりも大幅に性能が向上し,特に雨シーンが31.31%,夜間シーンが46.99%向上していることを示した。

Sensor fusion is a crucial augmentation technique for improving the accuracy and reliability of perception systems for automated vehicles under diverse driving conditions. However, adverse weather and low-light conditions remain challenging, where sensor performance degrades significantly, exposing vehicle safety to potential risks. Advanced sensors such as LiDARs can help mitigate the issue but with extremely high marginal costs. In this paper, we propose a novel transformer-based 3D object detection model "REDFormer" to tackle low visibility conditions, exploiting the power of a more practical and cost-effective solution by leveraging bird's-eye-view camera-radar fusion. Using the nuScenes dataset with multi-radar point clouds, weather information, and time-of-day data, our model outperforms state-of-the-art (SOTA) models on classification and detection accuracy. Finally, we provide extensive ablation studies of each model component on their contributions to address the above-mentioned challenges. Particularly, it is shown in the experiments that our model achieves a significant performance improvement over the baseline model in low-visibility scenarios, specifically exhibiting a 31.31% increase in rainy scenes and a 46.99% enhancement in nighttime scenes.The source code of this study is publicly available.
翻訳日:2023-05-30 20:22:10 公開日:2023-05-27
# 地域風害評価のための機械学習による屋根型自動分類

Automatic Roof Type Classification Through Machine Learning for Regional Wind Risk Assessment ( http://arxiv.org/abs/2305.17315v1 )

ライセンス: Link先を確認
Shuochuan Meng, Mohammad Hesam Soleimani-Babakamali, Ertugrul Taciroglu(参考訳) 屋根型は風の脆弱性モデリングにおいて最も重要な建築特性の1つである。 また、一般に利用可能なデータベースから最も頻繁に欠落するビルディング機能である。 自動屋根分類フレームワークを開発し、機械学習を用いて高解像度屋根型データを生成する。 畳み込みニューラルネットワーク(cnn)を用いて,建物レベルの衛星画像を用いて屋根タイプを分類した。 このモデルは1000の試験棟の屋根型予測において0.96のF1スコアを達成した。 CNNモデルはその後、ニューハノーバー郡とマイアミ・デイド郡の161,772世帯の屋根型を予測するために使用された。 市町村における屋根型の分布について検討した。 調査管内の屋上タイプでは,高いばらつきが見られた。 屋根型データの完全性を向上させるため,低品質画像による屋根データの欠落を重要建築物属性と近傍屋根特性を用いて推定するインプテーションアルゴリズムを開発した。

Roof type is one of the most critical building characteristics for wind vulnerability modeling. It is also the most frequently missing building feature from publicly available databases. An automatic roof classification framework is developed herein to generate high-resolution roof-type data using machine learning. A Convolutional Neural Network (CNN) was trained to classify roof types using building-level satellite images. The model achieved an F1 score of 0.96 on predicting roof types for 1,000 test buildings. The CNN model was then used to predict roof types for 161,772 single-family houses in New Hanover County, NC, and Miami-Dade County, FL. The distribution of roof type in city and census tract scales was presented. A high variance was observed in the dominant roof type among census tracts. To improve the completeness of the roof-type data, imputation algorithms were developed to populate missing roof data due to low-quality images, using critical building attributes and neighborhood-level roof characteristics.
翻訳日:2023-05-30 20:21:46 公開日:2023-05-27
# アテンションモジュールとサブピクセル畳み込み層を用いたライセンスプレート画像の超解像

Super-Resolution of License Plate Images Using Attention Modules and Sub-Pixel Convolution Layers ( http://arxiv.org/abs/2305.17313v1 )

ライセンス: Link先を確認
Valfride Nascimento, Rayson Laroca, Jorge de A. Lambert, William Robson Schwartz, David Menotti(参考訳) 近年、深層学習技術の統合とトレーニングデータの利用の増加により、ライセンスプレート認識(LPR)の分野で大きな発展を遂げている。 それでも、低解像度(LR)監視映像からライセンスプレート(LP)を再構築することは困難である。 この問題に対処するために、LR画像の構造的特徴やテクスチャ的特徴の検出を強化するために、注目モジュールとトランスフォーマーモジュールを統合したSingle-Image Super-Resolution (SISR)アプローチを導入する。 提案手法は,サブピクセルの畳み込み層(PixelShuffleとも呼ばれる)と,光学文字認識(OCR)モデルを用いて特徴抽出を行うロス関数を含む。 2つの公開データセットから高分解能LP画像に重いガウス雑音を適用して生成した合成画像に基づいて,提案アーキテクチャを訓練した。 その結果、生成された画像は、構造類似度指標(SSIM)が0.10未満である。 以上の結果から, これらの低解像度合成画像の再構成手法は, 定量化と定性化の両面で, 既存の画像よりも優れていることがわかった。 私たちのコードはhttps://github.com/valfride/lpr-rsr-ext/で公開されています。

Recent years have seen significant developments in the field of License Plate Recognition (LPR) through the integration of deep learning techniques and the increasing availability of training data. Nevertheless, reconstructing license plates (LPs) from low-resolution (LR) surveillance footage remains challenging. To address this issue, we introduce a Single-Image Super-Resolution (SISR) approach that integrates attention and transformer modules to enhance the detection of structural and textural features in LR images. Our approach incorporates sub-pixel convolution layers (also known as PixelShuffle) and a loss function that uses an Optical Character Recognition (OCR) model for feature extraction. We trained the proposed architecture on synthetic images created by applying heavy Gaussian noise to high-resolution LP images from two public datasets, followed by bicubic downsampling. As a result, the generated images have a Structural Similarity Index Measure (SSIM) of less than 0.10. Our results show that our approach for reconstructing these low-resolution synthesized images outperforms existing ones in both quantitative and qualitative measures. Our code is publicly available at https://github.com/valfride/lpr-rsr-ext/
翻訳日:2023-05-30 20:21:32 公開日:2023-05-27
# 入力型動的タイムステップスパイクニューラルネットワークによる効率的なインメモリコンピューティング

Input-Aware Dynamic Timestep Spiking Neural Networks for Efficient In-Memory Computing ( http://arxiv.org/abs/2305.17346v1 )

ライセンス: Link先を確認
Yuhang Li, Abhishek Moitra, Tamar Geller, Priyadarshini Panda(参考訳) Spiking Neural Networks(SNN)は、スパースとバイナリスパイク情報を処理し、高価な乗算操作を避ける能力により、従来のニューラルネットワーク(ANN)に代わる効率的な代替手段として、最近広く研究の関心を集めている。 In-Memory Computing (IMC) アーキテクチャではSNNの効率が向上するが、SNNのエネルギーコストとレイテンシはIMCハードウェアで使用される時間ステップの数と線形にスケールすることを示す。 そこで本研究では,SNNの効率を最大化するために,入力依存に基づく推論中の時間ステップ数を動的に決定する新しいアルゴリズムである,入力対応動的時間ステップSNN(DT-SNN)を提案する。 各タイムステップ後の累積出力のエントロピーを計算することで、予め定義された閾値と比較し、現在のタイムステップで処理された情報が自信ある予測に十分かどうかを判断できる。 IMCアーキテクチャ上にDT-SNNをデプロイし,計算オーバーヘッドが無視できることを示す。 提案手法は,4段階静的SNNの精度向上のために平均時間1.46しか使用せず,エネルギー遅延係数を80%低減することを示した。

Spiking Neural Networks (SNNs) have recently attracted widespread research interest as an efficient alternative to traditional Artificial Neural Networks (ANNs) because of their capability to process sparse and binary spike information and avoid expensive multiplication operations. Although the efficiency of SNNs can be realized on the In-Memory Computing (IMC) architecture, we show that the energy cost and latency of SNNs scale linearly with the number of timesteps used on IMC hardware. Therefore, in order to maximize the efficiency of SNNs, we propose input-aware Dynamic Timestep SNN (DT-SNN), a novel algorithmic solution to dynamically determine the number of timesteps during inference on an input-dependent basis. By calculating the entropy of the accumulated output after each timestep, we can compare it to a predefined threshold and decide if the information processed at the current timestep is sufficient for a confident prediction. We deploy DT-SNN on an IMC architecture and show that it incurs negligible computational overhead. We demonstrate that our method only uses 1.46 average timesteps to achieve the accuracy of a 4-timestep static SNN while reducing the energy-delay-product by 80%.
翻訳日:2023-05-30 20:16:17 公開日:2023-05-27
# モダリティ非依存教師が弱い教師の視聴覚イベントパーサに出会う

Modality-Independent Teachers Meet Weakly-Supervised Audio-Visual Event Parser ( http://arxiv.org/abs/2305.17343v1 )

ライセンス: Link先を確認
Yung-Hsuan Lai, Yen-Chun Chen, Yu-Chiang Frank Wang(参考訳) 音声視覚学習はマルチモーダル機械学習の主要な柱であり、コミュニティは主にそのモダリティに沿った設定に焦点を当てている。 look, listen, parse dataset (llp) を用いて未検討のアンアライメント設定を調査し,弱ラベルのみ観察したビデオ内の音声と視覚イベントの認識を目標とした。 このような弱いビデオレベルのラベルは、知覚されるモダリティ(オーディオ、視覚、またはその両方)を知らずに、何が起こるかのみを知らせる。 この困難な環境での学習を強化するために,モダリティ教師として大規模コントラスト・事前学習モデルを取り入れた。 VALOR(Visual-Audio Label Elaboration)と呼ばれる、シンプルで効果的で汎用的な手法は、トレーニングイベントのモダリティラベルを抽出するために革新されている。 経験的な研究では、収穫されたラベルは平均f-score (type@av) で8.0の注目ベースラインを大幅に改善している。 驚くことに、モダリティ非依存の教師は、モダリティと融合した教師よりも、他の非アライメントモダリティよりもノイズ耐性が高いことが分かりました。 さらに,本モデルでは,LLPのすべての測定値における新たな最先端化を実現している(Type@AVでは+5.4Fスコア)。 VALORはAudio-Visual Event Localizationにさらに一般化され、新しい最先端技術も実現している。 コードはhttps://github.com/franklin905/valor.com/。

Audio-visual learning has been a major pillar of multi-modal machine learning, where the community mostly focused on its modality-aligned setting, i.e., the audio and visual modality are both assumed to signal the prediction target. With the Look, Listen, and Parse dataset (LLP), we investigate the under-explored unaligned setting, where the goal is to recognize audio and visual events in a video with only weak labels observed. Such weak video-level labels only tell what events happen without knowing the modality they are perceived (audio, visual, or both). To enhance learning in this challenging setting, we incorporate large-scale contrastively pre-trained models as the modality teachers. A simple, effective, and generic method, termed Visual-Audio Label Elaboration (VALOR), is innovated to harvest modality labels for the training events. Empirical studies show that the harvested labels significantly improve an attentional baseline by 8.0 in average F-score (Type@AV). Surprisingly, we found that modality-independent teachers outperform their modality-fused counterparts since they are noise-proof from the other potentially unaligned modality. Moreover, our best model achieves the new state-of-the-art on all metrics of LLP by a substantial margin (+5.4 F-score for Type@AV). VALOR is further generalized to Audio-Visual Event Localization and achieves the new state-of-the-art as well. Code is available at: https://github.com/Franklin905/VALOR.
翻訳日:2023-05-30 20:15:56 公開日:2023-05-27
# 敵政策の再考: 多エージェントRLにおける汎用的な攻撃の定式化と防御

Rethinking Adversarial Policies: A Generalized Attack Formulation and Provable Defense in Multi-Agent RL ( http://arxiv.org/abs/2305.17342v1 )

ライセンス: Link先を確認
Xiangyu Liu, Souradip Chakraborty, Yanchao Sun, Furong Huang(参考訳) 既存の著作の多くは、敵の攻撃下で強化学習エージェントの脆弱性を示すために、被害者の状態/行動の直接的摂動や、基礎となる遷移ダイナミクスを考察している。 しかし、そのような直接操作は必ずしも実現可能であるとは限らない。 そこで本論文では, エージェントが十分に訓練されたマルチエージェントrl設定において, 被害者エージェント $\nu$ は, 攻撃者によって悪用され, 他のエージェント$\alpha$ を制御して, \textit{adversarial policy} を用いて被害者に対して敵対的に行動する。 このような設定下での先行攻撃モデルは、攻撃者が抵抗に直面することはできないので、エージェント $\alpha$ の部分的な制御しか受け取らず、容易に検出可能な ``abnormal'' の動作を導入することができる。 これらの対立政策に対する証明可能な防御力も欠如している。 これらの問題を解決するために,我々は,敵がエージェントを制御し,敵の政策を作成できる程度までモデル化できる,より一般的な攻撃形式を導入する。 このような汎用的な攻撃枠組みに基づき、攻撃者は攻撃予算を通じて攻撃による状態分布シフトを規制し、被害者エージェントを悪用できるステルスな敵ポリシーを作成できる。 さらに,「it経験的」な防御しか提供しない教師付き学習における敵意訓練とは対照的に,時間スケール分離による敵意訓練を通じて,最も強固な被害者政策に収束した,最初の堅牢な防御を提供する。

Most existing works consider direct perturbations of victim's state/action or the underlying transition dynamics to show vulnerability of reinforcement learning agents under adversarial attacks. However, such direct manipulation may not always be feasible in practice. In this paper, we consider another common and realistic attack setup: in a multi-agent RL setting with well-trained agents, during deployment time, the victim agent $\nu$ is exploited by an attacker who controls another agent $\alpha$ to act adversarially against the victim using an \textit{adversarial policy}. Prior attack models under such setup do not consider that the attacker can confront resistance and thus can only take partial control of the agent $\alpha$, as well as introducing perceivable ``abnormal'' behaviors that are easily detectable. A provable defense against these adversarial policies is also lacking. To resolve these issues, we introduce a more general attack formulation that models to what extent the adversary is able to control the agent to produce the adversarial policy. Based on such a generalized attack framework, the attacker can also regulate the state distribution shift caused by the attack through an attack budget, and thus produce stealthy adversarial policies that can exploit the victim agent. Furthermore, we provide the first provably robust defenses with convergence guarantee to the most robust victim policy via adversarial training with timescale separation, in sharp contrast to adversarial training in supervised learning which may only provide {\it empirical} defenses.
翻訳日:2023-05-30 20:15:29 公開日:2023-05-27
# 空間最適化同型行列乗算によるプライバシー保護PCAの改善

Improved Privacy-Preserving PCA Using Space-optimized Homomorphic Matrix Multiplication ( http://arxiv.org/abs/2305.17341v1 )

ライセンス: Link先を確認
Xirong Ma(参考訳) 主成分分析(PCA)は、機械学習とデータ分析の分野で重要な技術である。 本研究では,近似数値計算準同型暗号法を用いて,プライバシ保存型pcaの新しい手法を提案する。 提案手法は,共分散行列を入力とし,データセットの最初の主成分に対応する近似固有ベクトルを生成するPowerMethodと呼ばれるPCAルーチンに基づいて構築する。 提案手法は,従来の手法(例えば Pandas CSCML 21)を,効率,精度,スケーラビリティの面で上回っている。 このような効率性と精度を達成するため、我々は以下の最適化を実装した。 (i)共分散行列の計算において重要な役割を果たす準同型行列乗法(jiang et al. sigsac 2018)を最適化した。 (ii)共分散行列を準同型に計算するための効率的な準同型回路を考案した。 3) 正準ベクトル正規化の体系的戦略を取り入れ, 精度と実用性を両立させた, 新規で効率的なPowerMethod用準同型回路を設計した。 我々の行列乗算最適化は、128\times 128$準同型行列乗算に必要な最小回転鍵空間を最大64\%削減し、複数の行列乗算インスタンスのより広範な並列計算を可能にする。 我々の同型共分散行列計算法は, MNISTデータセットの共分散行列(60000\times 256$)を51分で計算する。 当社の新しい準同型powermethod回路に基づくプライバシ保護型pcaスキームは,mnistやfashion-mnistといったデータセットの上位8つの主要コンポーネントを約1時間で計算し,0.7~0.9のr2精度を実現し,従来のアプローチと比較して平均4倍の速度向上を達成し,高い精度を実現している。

Principal Component Analysis (PCA) is a pivotal technique in the fields of machine learning and data analysis. In this study, we present a novel approach for privacy-preserving PCA using an approximate numerical arithmetic homomorphic encryption scheme. We build our method upon a proposed PCA routine known as the PowerMethod, which takes the covariance matrix as input and produces an approximate eigenvector corresponding to the first principal component of the dataset. Our method surpasses previous approaches (e.g., Pandas CSCML 21) in terms of efficiency, accuracy, and scalability. To achieve such efficiency and accuracy, we have implemented the following optimizations: (i) We optimized a homomorphic matrix multiplication technique (Jiang et al. SIGSAC 2018) that will play a crucial role in the computation of the covariance matrix. (ii) We devised an efficient homomorphic circuit for computing the covariance matrix homomorphically. (iii) We designed a novel and efficient homomorphic circuit for the PowerMethod that incorporates a systematic strategy for homomorphic vector normalization enhancing both its accuracy and practicality. Our matrix multiplication optimization reduces the minimum rotation key space required for a $128\times 128$ homomorphic matrix multiplication by up to 64\%, enabling more extensive parallel computation of multiple matrix multiplication instances. Our homomorphic covariance matrix computation method manages to compute the covariance matrix of the MNIST dataset ($60000\times 256$) in 51 minutes. Our privacy-preserving PCA scheme based on our new homomorphic PowerMethod circuit successfully computes the top 8 principal components of datasets such as MNIST and Fashion-MNIST in approximately 1 hour, achieving an r2 accuracy of 0.7 to 0.9, achieving an average speed improvement of over 4 times and offers higher accuracy compared to previous approaches.
翻訳日:2023-05-30 20:14:59 公開日:2023-05-27
# 水中船舶検査のためのマルチラベルビデオ分類

Multi-label Video Classification for Underwater Ship Inspection ( http://arxiv.org/abs/2305.17338v1 )

ライセンス: Link先を確認
Md Abulkalam Azad, Ahmed Mohammed, Maryna Waszak, Brian Elves{\ae}ter and Martin Ludvigsen(参考訳) 現在の船体検査は、外装の検査、欠陥の検出、腐食や海洋成長などの他の種類の外的劣化を遠隔操作車両(rovs)によって水中で行う。 検査プロセスは、時間消費かつ労働集約的なプロセスである手動のビデオ分析からなる。 そこで本研究では,深層学習とコンピュータビジョンを用いた自動映像解析システムを提案する。 時間情報の追加とフレームベース分類器の解析の利点を探究し,トランスフォーマの自己照査機構を利用して連続する映像フレームの時空間的注意を捉えるマルチラベルビデオ分類モデルを提案する。 提案手法は有望な結果を示し,水中ビデオ検査における今後の研究・開発のためのベンチマークとなる。

Today ship hull inspection including the examination of the external coating, detection of defects, and other types of external degradation such as corrosion and marine growth is conducted underwater by means of Remotely Operated Vehicles (ROVs). The inspection process consists of a manual video analysis which is a time-consuming and labor-intensive process. To address this, we propose an automatic video analysis system using deep learning and computer vision to improve upon existing methods that only consider spatial information on individual frames in underwater ship hull video inspection. By exploring the benefits of adding temporal information and analyzing frame-based classifiers, we propose a multi-label video classification model that exploits the self-attention mechanism of transformers to capture spatiotemporal attention in consecutive video frames. Our proposed method has demonstrated promising results and can serve as a benchmark for future research and development in underwater video inspection applications.
翻訳日:2023-05-30 20:14:27 公開日:2023-05-27
# 生成モデルと横モードエンティティリンクのベンチマーク

Benchmarking Diverse-Modal Entity Linking with Generative Models ( http://arxiv.org/abs/2305.17337v1 )

ライセンス: Link先を確認
Sijia Wang, Alexander Hanbo Li, Henry Zhu, Sheng Zhang, Chung-Wei Hang, Pramuditha Perera, Jie Ma, William Wang, Zhiguo Wang, Vittorio Castelli, Bing Xiang, Patrick Ng(参考訳) エンティティは、テキスト、イメージ、カラム名、セル値などの様々なフォーマットで表わすことができる。 既存のエンティティリンク(EL)モデルは、テキストのみのEL、ビジュアルグラウンド、スキーマリンクなど、モダリティ構成ごとにうまく機能するが、様々なモダリティ構成のための統一モデルの設計はより困難である。 様々なモダリティ構成を実現するため,既存のELデータセットから,テキスト,画像,テーブルを含む3つのモダリティを網羅した多様モードEL(DMEL)のベンチマークを構築した。 DMEL タスクにアプローチするため,マルチモーダルエンコーダ・デコーダのパラダイムに則って生成多モードモデル (GDMM) を提案する。 リッチコーパスによる事前トレーニング \Modelは、推論のためにKB全体を格納せずにDMELの基盤を構築する。 微調整GDMMはDMELベースラインを強化し、平均8.51F1スコアで最先端のタスク固有ELモデルを上回っている。 さらに,DMELの課題を浮き彫りにするために,広範囲な誤差解析を行い,今後の課題について検討する。

Entities can be expressed in diverse formats, such as texts, images, or column names and cell values in tables. While existing entity linking (EL) models work well on per modality configuration, such as text-only EL, visual grounding, or schema linking, it is more challenging to design a unified model for diverse modality configurations. To bring various modality configurations together, we constructed a benchmark for diverse-modal EL (DMEL) from existing EL datasets, covering all three modalities including text, image, and table. To approach the DMEL task, we proposed a generative diverse-modal model (GDMM) following a multimodal-encoder-decoder paradigm. Pre-training \Model with rich corpora builds a solid foundation for DMEL without storing the entire KB for inference. Fine-tuning GDMM builds a stronger DMEL baseline, outperforming state-of-the-art task-specific EL models by 8.51 F1 score on average. Additionally, extensive error analyses are conducted to highlight the challenges of DMEL, facilitating future research on this task.
翻訳日:2023-05-30 20:14:11 公開日:2023-05-27
# 単なる前方通過を伴う微調整言語モデル

Fine-Tuning Language Models with Just Forward Passes ( http://arxiv.org/abs/2305.17333v1 )

ライセンス: Link先を確認
Sadhika Malladi, Tianyu Gao, Eshaan Nichani, Alex Damian, Jason D. Lee, Danqi Chen, Sanjeev Arora(参考訳) 微調整言語モデル(LM)は、様々な下流タスクで成功したが、LMのサイズが大きくなるにつれて、バックプロパゲーションは極めて大量のメモリを必要とする。 ゼロ階法(ZO)は、原則として2つの前方パスのみを用いて勾配を推定できるが、大模型を最適化するために破滅的に遅いと理論化されている。 本研究では,従来のZO-SGD法をインプレースに適応させたメモリ効率の高いゼロオーダー最適化器(MeZO)を提案する。 例えば、単一のa100 80gb gpuでは、30億のパラメータモデルをトレーニングできるが、バックプロパゲーションによる微調整では、同じ予算で2.7b lmしかトレーニングできない。 モデルタイプ(マストおよび自己回帰型lms)、モデルスケール(最大66b)、下流タスク(分類、多重化、生成)にまたがる包括的な実験を行う。 その結果,(1)MeZOは文脈内学習や線形探索よりも優れており,(2)MeZOは最大12倍のメモリ削減,(3)LoRAやプレフィックスチューニングといったパラメータ効率のよいチューニング技術と互換性があり,(4)MeZOは非微分可能な目的(例えば,精度の最大化やF1)を効果的に最適化できることがわかった。 我々は、従来のZO分析ではそうでなかったが、MeZOがいかに十分な事前学習とタスクプロンプトが巨大なモデルを微調整できるかを強調し、理論的洞察で実証的な結果を支持する。

Fine-tuning language models (LMs) has yielded success on diverse downstream tasks, but as LMs grow in size, backpropagation requires a prohibitively large amount of memory. Zeroth-order (ZO) methods can in principle estimate gradients using only two forward passes but are theorized to be catastrophically slow for optimizing large models. In this work, we propose a memory-efficient zerothorder optimizer (MeZO), adapting the classical ZO-SGD method to operate in-place, thereby fine-tuning LMs with the same memory footprint as inference. For example, with a single A100 80GB GPU, MeZO can train a 30-billion parameter model, whereas fine-tuning with backpropagation can train only a 2.7B LM with the same budget. We conduct comprehensive experiments across model types (masked and autoregressive LMs), model scales (up to 66B), and downstream tasks (classification, multiple-choice, and generation). Our results demonstrate that (1) MeZO significantly outperforms in-context learning and linear probing; (2) MeZO achieves comparable performance to fine-tuning with backpropagation across multiple tasks, with up to 12x memory reduction; (3) MeZO is compatible with both full-parameter and parameter-efficient tuning techniques such as LoRA and prefix tuning; (4) MeZO can effectively optimize non-differentiable objectives (e.g., maximizing accuracy or F1). We support our empirical findings with theoretical insights, highlighting how adequate pre-training and task prompts enable MeZO to fine-tune huge models, despite classical ZO analyses suggesting otherwise.
翻訳日:2023-05-30 20:13:49 公開日:2023-05-27
# 学習能力:モデルの効果的な次元の尺度

Learning Capacity: A Measure of the Effective Dimensionality of a Model ( http://arxiv.org/abs/2305.17332v1 )

ライセンス: Link先を確認
Daiwei Chen, Weikai Chang, Pratik Chaudhari(参考訳) 熱力学と推論の形式的対応を用いて,試料数を逆温度と考えることができ,モデルの有効次元の尺度である「学習能力」を定義する。 学習能力は、典型的なデータセットに基づいてトレーニングされた多くのディープネットワークのパラメータのごく一部であり、トレーニングに使用されるサンプルの数に依存し、PAC-Bayesianフレームワークから得られたキャパシティの概念と数値的に一致していることを示す。 学習能力の関数としての試験誤差は二重降下を示しない。 モデルの学習能力は、非常に小さく、非常に大きなサンプルサイズで飽和していることを示し、より多くのデータを取得するべきか、新しいアーキテクチャを探すべきか、パフォーマンスを改善するためのガイドラインを提供する。 ランダム森林や$k$-nearestといった非パラメトリックモデルにおいても,学習能力が有効次元の理解にどのように利用できるかを示す。

We exploit a formal correspondence between thermodynamics and inference, where the number of samples can be thought of as the inverse temperature, to define a "learning capacity'' which is a measure of the effective dimensionality of a model. We show that the learning capacity is a tiny fraction of the number of parameters for many deep networks trained on typical datasets, depends upon the number of samples used for training, and is numerically consistent with notions of capacity obtained from the PAC-Bayesian framework. The test error as a function of the learning capacity does not exhibit double descent. We show that the learning capacity of a model saturates at very small and very large sample sizes; this provides guidelines, as to whether one should procure more data or whether one should search for new architectures, to improve performance. We show how the learning capacity can be used to understand the effective dimensionality, even for non-parametric models such as random forests and $k$-nearest neighbor classifiers.
翻訳日:2023-05-30 20:13:16 公開日:2023-05-27
# Augmentation-Adapted Retrieverはジェネリックプラグインとして言語モデルの一般化を改善する

Augmentation-Adapted Retriever Improves Generalization of Language Models as Generic Plug-In ( http://arxiv.org/abs/2305.17331v1 )

ライセンス: Link先を確認
Zichun Yu, Chenyan Xiong, Shi Yu and Zhiyuan Liu(参考訳) 検索の強化は、知識集約的なタスクにおいて言語モデル(LM)を補助し、外部情報を提供する。 検索強化に関する先行研究は、通常、レトリバーとLMを微調整し、密結合させる。 本稿では, 汎用検索プラグインの手法について検討する: 検索者は, 事前に知られていなかったり, 微調整ができないようなターゲットLMを支援する。 未確認のターゲットLMのための有用な文書を検索するために、既知のソースLMから得られたLMの好みを学習する拡張適応レトリバー(AAR)を提案する。 MMLUおよびPopQAデータセットを用いた実験により,小音源LMを用いて訓練したAARは,250M Flan-T5から175B InstructGPTの範囲において,より大きな目標LMのゼロショット一般化を著しく改善できることが示された。 さらに分析したところ、異なるLMの嗜好が重なり、単一のソースLMでトレーニングされたAARが、様々なターゲットLMの汎用プラグインとして機能することが示された。 私たちのコードはhttps://github.com/openmatch/augmentation-adapted-retrieverでオープンソースです。

Retrieval augmentation can aid language models (LMs) in knowledge-intensive tasks by supplying them with external information. Prior works on retrieval augmentation usually jointly fine-tune the retriever and the LM, making them closely coupled. In this paper, we explore the scheme of generic retrieval plug-in: the retriever is to assist target LMs that may not be known beforehand or are unable to be fine-tuned together. To retrieve useful documents for unseen target LMs, we propose augmentation-adapted retriever (AAR), which learns LM's preferences obtained from a known source LM. Experiments on the MMLU and PopQA datasets demonstrate that our AAR trained with a small source LM is able to significantly improve the zero-shot generalization of larger target LMs ranging from 250M Flan-T5 to 175B InstructGPT. Further analysis indicates that the preferences of different LMs overlap, enabling AAR trained with a single source LM to serve as a generic plug-in for various target LMs. Our code is open-sourced at https://github.com/OpenMatch/Augmentation-Adapted-Retriever.
翻訳日:2023-05-30 20:12:59 公開日:2023-05-27
# MADiff:拡散モデルを用いたオフラインマルチエージェント学習

MADiff: Offline Multi-agent Learning with Diffusion Models ( http://arxiv.org/abs/2305.17330v1 )

ライセンス: Link先を確認
Zhengbang Zhu, Minghuan Liu, Liyuan Mao, Bingyi Kang, Minkai Xu, Yong Yu, Stefano Ermon, Weinan Zhang(参考訳) 拡散モデル (DM) は, オフライン強化学習を含む様々なシナリオにおいて, オンライン評価の軌跡を生かし, 計画の実施を学んでいる。 しかしながら、単一エージェント学習の有効性は示されているものの、エージェントが各エージェントの軌道を独立にモデル化することで、適切な調整なしにチームワークを完了できないマルチエージェント問題において、dmがどのように機能するかは、まだ不明である。 本稿では,この問題に対処する新しい生成型マルチエージェント学習フレームワークであるMADiffを提案する。 MADiffは注意に基づく拡散モデルを用いて実現され、複数の拡散剤の挙動間の複雑な協調をモデル化する。 私たちの知る限り、MADiffは分散化ポリシと集中型コントローラの両方として機能し、対戦型モデリングを含み、マルチエージェント軌道予測に使用できる初めての拡散型オフラインRLフレームワークである。 MADiffは拡散の強力な生成能力を生かし、複雑なマルチエージェント相互作用のモデリングに適している。 本実験は,マルチエージェント学習タスクにおけるベースラインアルゴリズムと比較して,MADiffの優れた性能を示す。

Diffusion model (DM), as a powerful generative model, recently achieved huge success in various scenarios including offline reinforcement learning, where the policy learns to conduct planning by generating trajectory in the online evaluation. However, despite the effectiveness shown for single-agent learning, it remains unclear how DMs can operate in multi-agent problems, where agents can hardly complete teamwork without good coordination by independently modeling each agent's trajectories. In this paper, we propose MADiff, a novel generative multi-agent learning framework to tackle this problem. MADiff is realized with an attention-based diffusion model to model the complex coordination among behaviors of multiple diffusion agents. To the best of our knowledge, MADiff is the first diffusion-based multi-agent offline RL framework, which behaves as both a decentralized policy and a centralized controller, which includes opponent modeling and can be used for multi-agent trajectory prediction. MADiff takes advantage of the powerful generative ability of diffusion while well-suited in modeling complex multi-agent interactions. Our experiments show the superior performance of MADiff compared to baseline algorithms in a range of multi-agent learning tasks.
翻訳日:2023-05-30 20:12:39 公開日:2023-05-27
# DNA-GPT:GPT生成テキストのトレーニング不要検出のための多様性N-Gram解析

DNA-GPT: Divergent N-Gram Analysis for Training-Free Detection of GPT-Generated Text ( http://arxiv.org/abs/2305.17359v1 )

ライセンス: Link先を確認
Xianjun Yang, Wei Cheng, Linda Petzold, William Yang Wang, Haifeng Chen(参考訳) 大規模言語モデル(LLM)は、機械生成テキストの流布度と多様性を著しく向上させた。 しかし、この進歩は、与えられたテキストの起源を検出する上でも重要な課題であり、LLMの急速な進化の背後にあるラグの検出方法に関する現在の研究である。 従来のトレーニングベースの方法は柔軟性に制限があり、特に新しいドメインに適応する場合、説明力に欠けることが多い。 そこで本研究では,Divergent N-Gram Analysis (DNA-GPT) と呼ばれる新たなトレーニング不要検出手法を提案する。 テキストが与えられた後、まず中央で切り刻み、次にLCMへの入力として前の部分のみを使用し、新しい残部を再生します。 ブラックボックスのN-gram解析やホワイトボックスの確率ばらつきにより,元の部分と新しい部分の違いを解析することにより,機械生成テキストと人文テキストの顕著な相違を明らかにすることができる。 我々は,GPT-NeoX-20BやLLaMa-13Bといったオープンソースモデルとともに,テキストダビンシ003,GPT-3.5-turbo,GPT-4など,OpenAIの最も先進的なLCMについて広範な実験を行った。 その結果、我々のゼロショットアプローチは、4つの英語と1つのドイツ語データセット上の人間とGPT生成したテキストを区別し、数百万のテキストで訓練されたOpenAI独自の分類器より優れていることを示す。 さらに,提案手法は,説明可能な検出のユニークな特徴であるクレームを支持する合理的な説明と証拠を提供する。 本手法は,修正テキスト攻撃においても頑健であり,さらにモデルソーシングを解決できる。 コードはhttps://github.com/Xianjun-Yang/DNA-GPTで公開されている。

Large language models (LLMs) have notably enhanced the fluency and diversity of machine-generated text. However, this progress also presents a significant challenge in detecting the origin of a given text, and current research on detection methods lags behind the rapid evolution of LLMs. Conventional training-based methods have limitations in flexibility, particularly when adapting to new domains, and they often lack explanatory power. To address this gap, we propose a novel training-free detection strategy called Divergent N-Gram Analysis (DNA-GPT). Given a text, we first truncate it in the middle and then use only the preceding portion as input to the LLMs to regenerate the new remaining parts. By analyzing the differences between the original and new remaining parts through N-gram analysis in black-box or probability divergence in white-box, we can clearly illustrate significant discrepancies between machine-generated and human-written text. We conducted extensive experiments on the most advanced LLMs from OpenAI, including text-davinci-003, GPT-3.5-turbo, and GPT-4, as well as open-source models such as GPT-NeoX-20B and LLaMa-13B. Results show that our zero-shot approach exhibits state-of-the-art performance in distinguishing between human and GPT-generated text on four English and one German dataset, outperforming OpenAI's own classifier, which is trained on millions of text. Additionally, our methods provide reasonable explanations and evidence to support our claim, which is a unique feature of explainable detection. Our method is also robust under the revised text attack and can additionally solve model sourcing. Codes are available at https://github.com/Xianjun-Yang/DNA-GPT.
翻訳日:2023-05-30 20:05:12 公開日:2023-05-27
# CTCに基づく非自己回帰音声翻訳

CTC-based Non-autoregressive Speech Translation ( http://arxiv.org/abs/2305.17358v1 )

ライセンス: Link先を確認
Chen Xu, Xiaoqian Liu, Xiaowen Liu, Qingxuan Sun, Yuhao Zhang, Murun Yang, Qianqian Dong, Tom Ko, Mingxuan Wang, Tong Xiao, Anxiang Ma and Jingbo Zhu(参考訳) エンドツーエンドの音声翻訳(ST)と非自己回帰(NAR)生成の組み合わせは、誤りの伝播の低減と低レイテンシの利点のために、言語と音声処理において有望である。 本稿では,非自己回帰音声翻訳(NAST)における接続性時間分類(CTC)の可能性を検討する。 特に,ctcで誘導される2つのエンコーダからなるモデルを開発し,ソースとターゲットテキストをそれぞれ予測する。 CTCをNASTに両言語で導入することは、明らかな課題である。 1) 条件付き独立世代は、トークン間の相互依存を多少壊し、 2)標準CTCにおける単調アライメントの仮定は翻訳タスクでは成立しない。 そこで我々は,これらの問題に対処するために,予測認識エンコーディング手法と層間注意アプローチを開発した。 また、カリキュラム学習を用いて学習の収束を改善する。 MuST-C STベンチマークの実験では、NASTモデルの平均BLEUスコアは29.5で、スピードアップは5.67$\times$であり、これは自己回帰に匹敵するものであり、0.9BLEUポイントの前の最高の結果よりも優れていた。

Combining end-to-end speech translation (ST) and non-autoregressive (NAR) generation is promising in language and speech processing for their advantages of less error propagation and low latency. In this paper, we investigate the potential of connectionist temporal classification (CTC) for non-autoregressive speech translation (NAST). In particular, we develop a model consisting of two encoders that are guided by CTC to predict the source and target texts, respectively. Introducing CTC into NAST on both language sides has obvious challenges: 1) the conditional independent generation somewhat breaks the interdependency among tokens, and 2) the monotonic alignment assumption in standard CTC does not hold in translation tasks. In response, we develop a prediction-aware encoding approach and a cross-layer attention approach to address these issues. We also use curriculum learning to improve convergence of training. Experiments on the MuST-C ST benchmarks show that our NAST model achieves an average BLEU score of 29.5 with a speed-up of 5.67$\times$, which is comparable to the autoregressive counterpart and even outperforms the previous best result of 0.9 BLEU points.
翻訳日:2023-05-30 20:04:41 公開日:2023-05-27
# 音響モデリングのための粒度ギャップのブリッジ化

Bridging the Granularity Gap for Acoustic Modeling ( http://arxiv.org/abs/2305.17356v1 )

ライセンス: Link先を確認
Chen Xu, Yuhao Zhang, Chengbo Jiao, Xiaoqian Liu, Chi Hu, Xin Zeng, Tong Xiao, Anxiang Ma, Huizhen Wang, JingBo Zhu(参考訳) Transformerは音声のデファクトスタンダードになっているが、細かなフレームレベルの特徴に基づくモデリングは、長距離依存を捉え、注意重みを分散するというオープンな課題である。 テキストレベルの表現のようなより完全な意味情報を含む粗粒度単位に徐々に音響的特徴を圧縮する「textit{Progressive Down-Sampling} (PDS)」を提案する。 さらに,高圧縮時に必然的に発生する情報損失を軽減する表現融合法を開発した。 このようにして、音声認識タスクにおいて、音響特性を初期長の1/32に圧縮し、より良い又は同等のパフォーマンスを達成する。 そしてボーナスとして、1.20$\times$から1.47$\times$まで推論速度が上がる。 モデリングの重荷を軽減し,より困難な音声翻訳タスクを訓練した場合の競争結果も達成する。

While Transformer has become the de-facto standard for speech, modeling upon the fine-grained frame-level features remains an open challenge of capturing long-distance dependencies and distributing the attention weights. We propose \textit{Progressive Down-Sampling} (PDS) which gradually compresses the acoustic features into coarser-grained units containing more complete semantic information, like text-level representation. In addition, we develop a representation fusion method to alleviate information loss that occurs inevitably during high compression. In this way, we compress the acoustic features into 1/32 of the initial length while achieving better or comparable performances on the speech recognition task. And as a bonus, it yields inference speedups ranging from 1.20$\times$ to 1.47$\times$. By reducing the modeling burden, we also achieve competitive results when training on the more challenging speech translation task.
翻訳日:2023-05-30 20:04:21 公開日:2023-05-27
# PRLの再考: 逆ハーフトニングのための多段階的残留学習ネットワーク

Rethinking PRL: A Multiscale Progressively Residual Learning Network for Inverse Halftoning ( http://arxiv.org/abs/2305.17355v1 )

ライセンス: Link先を確認
Feiyu Li, Jun Yang(参考訳) image inverse halftoningは古典的な画像復元タスクであり、半音画像から2レベルピクセルのみの連続音画像を復元することを目的としている。 ハーフトーン画像はオリジナル画像のほとんどを失うため、逆ハーフトーン化は古典的な問題である。 既存の逆ハーフトンアルゴリズムは優れた性能を発揮するが、画像の詳細や特徴は失われる。 したがって、高品質な連続トーン画像の復元は依然として課題である。 本稿では,UNetアーキテクチャを持ち,マルチスケールの入力画像を取得する,エンドツーエンドのマルチスケール逐次学習ネットワーク(MSPRL)を提案する。 異なる入力画像情報をフル活用するために、異なるスケールの画像間で類似した特徴をキャプチャする浅い特徴抽出モジュールを設計する。 異なる手法の性能を体系的に検討し,提案手法と比較した。 さらに,モデルの最適化には異なるトレーニング戦略を採用しており,トレーニングプロセスの最適化とパフォーマンス向上に重要である。 広範な実験により,msprlモデルは細部までの性能向上を実現した。

Image inverse halftoning is a classic image restoration task, aiming to recover continuous-tone images from halftone images with only bilevel pixels. Because the halftone images lose much of the original image content, inverse halftoning is a classic ill-problem. Although existing inverse halftoning algorithms achieve good performance, their results lose image details and features. Therefore, it is still a challenge to recover high-quality continuous-tone images. In this paper, we propose an end-to-end multiscale progressively residual learning network (MSPRL), which has a UNet architecture and takes multiscale input images. To make full use of different input image information, we design a shallow feature extraction module to capture similar features between images of different scales. We systematically study the performance of different methods and compare them with our proposed method. In addition, we employ different training strategies to optimize the model, which is important for optimizing the training process and improving performance. Extensive experiments demonstrate that our MSPRL model obtains considerable performance gains in detail restoration.
翻訳日:2023-05-30 20:04:06 公開日:2023-05-27
# 補完的・統合的健康辞書(CIHLex)と文献におけるエンティティ認識

Complementary and Integrative Health Lexicon (CIHLex) and Entity Recognition in the Literature ( http://arxiv.org/abs/2305.17353v1 )

ライセンス: Link先を確認
Huixue Zhou, Robin Austin, Sheng-Chieh Lu, Greg Silverman, Yuqi Zhou, Halil Kilicoglu, Hua Xu, Rui Zhang(参考訳) 目的:本研究は,標準用語における身体的・心理的なCIHアプローチをより良く表現するために,完全補完・統合健康(CIHLex)レキシコンを構築することを目的とした。 また,トランスフォーマー(BERT)による双方向エンコーダ表現や,エンティティ認識のためのGPT-3.5 Turboといった,高度な自然言語処理(NLP)モデルの適用を意図し,メタマップやCLAMPといった既存のモデルに対して性能評価を行った。 資料と方法: 様々な資源を統合し, バイオメディカル文献や関連知識ベースからのデータをコンパイルし, 統合することでCIHLexを構築した。 Lexiconは198のユニークな概念と1090のユニークな用語を含んでいる。 これらの概念をUMLS(Unified Medical Language System)と比較した。 さらに,BERTモデルを開発し,その効率をMetaMap,CLAMP,GPT3.5-turboといった他のモデルと比較した。 結果: CIHLexの198のユニークな概念から、62.1%はUMLSの少なくとも1つの用語と一致する。 さらに、地図化されたUMLS概念の75.7%が「治療的または予防的手続き」に分類された。 CIHのエンティティ認識に適用されたモデルのうち、BLUEBERTはマクロ平均F1スコアが0.90で、他のモデルを上回った。 結論:CIHLexは生医学文献におけるCIHアプローチの表現を著しく増強する。 BERTは高度なNLPモデルの実用性を実証し、特にCIHエンティティ認識に優れていた。 これらの結果は,生物医学的文脈におけるCIH用語の標準化と認識を促進するための有望な戦略を強調した。

Objective: Our study aimed to construct an exhaustive Complementary and Integrative Health (CIH) Lexicon (CIHLex) to better represent the often underrepresented physical and psychological CIH approaches in standard terminologies. We also intended to apply advanced Natural Language Processing (NLP) models such as Bidirectional Encoder Representations from Transformers (BERT) and GPT-3.5 Turbo for CIH named entity recognition, evaluating their performance against established models like MetaMap and CLAMP. Materials and Methods: We constructed the CIHLex by integrating various resources, compiling and integrating data from biomedical literature and relevant knowledge bases. The Lexicon encompasses 198 unique concepts with 1090 corresponding unique terms. We matched these concepts to the Unified Medical Language System (UMLS). Additionally, we developed and utilized BERT models and compared their efficiency in CIH named entity recognition to that of other models such as MetaMap, CLAMP, and GPT3.5-turbo. Results: From the 198 unique concepts in CIHLex, 62.1% could be matched to at least one term in the UMLS. Moreover, 75.7% of the mapped UMLS Concept Unique Identifiers (CUIs) were categorized as "Therapeutic or Preventive Procedure." Among the models applied to CIH named entity recognition, BLUEBERT delivered the highest macro average F1-score of 0.90, surpassing other models. Conclusion: Our CIHLex significantly augments representation of CIH approaches in biomedical literature. Demonstrating the utility of advanced NLP models, BERT notably excelled in CIH entity recognition. These results highlight promising strategies for enhancing standardization and recognition of CIH terminology in biomedical contexts.
翻訳日:2023-05-30 20:03:49 公開日:2023-05-27
# 分散実行フレームワークによる集中型トレーニングはMARLにとって十分か?

Is Centralized Training with Decentralized Execution Framework Centralized Enough for MARL? ( http://arxiv.org/abs/2305.17352v1 )

ライセンス: Link先を確認
Yihe Zhou, Shunyu Liu, Yunpeng Qing, Kaixuan Chen, Tongya Zheng, Yanhao Huang, Jie Song, Mingli Song(参考訳) 分散実行による集中的トレーニング(CTDE)は、エージェントが集中的な方法でトレーニングをガイドし、分散化されたローカルポリシーのみに基づいて独自の意思決定を行うために、MARL(Multi-Agent Reinforcement Learning)の人気のあるフレームワークとして最近登場した。 奨励的な成果にもかかわらず、CTDEはエージェントポリシーを独立に仮定し、エージェントは集中トレーニング中に互いにグローバルな協調情報を採用することを制限している。 したがって,既存のCTDE法は訓練にグローバル情報を完全に活用できないため,非効率な共同政治探索や準最適結果さえもたらさない。 本稿では,エージェント間の効果的なメッセージ交換を可能にするだけでなく,実行時の独立ポリシーも保証する,多エージェント強化学習のための新しいCADPフレームワークを提案する。 第一に、CADPはエージェントに対して、より集中的な訓練のために異なるエージェントからアドバイスを求め、受けられる明示的なコミュニケーションチャネルを提供する。 さらに分散化を確実にするため,エージェント協調能力の劣化を伴わずに,エージェント通信を閉じたものに段階的に制約するスムーズなモデルプルーニング機構を提案する。 StarCraft IIのマイクロマネジメントとGoogle Research Footballベンチマークに関する実証的な評価は、提案されたフレームワークが最先端のフレームワークよりも優れたパフォーマンスを実現していることを示している。 私たちのコードは公開されます。

Centralized Training with Decentralized Execution (CTDE) has recently emerged as a popular framework for cooperative Multi-Agent Reinforcement Learning (MARL), where agents can use additional global state information to guide training in a centralized way and make their own decisions only based on decentralized local policies. Despite the encouraging results achieved, CTDE makes an independence assumption on agent policies, which limits agents to adopt global cooperative information from each other during centralized training. Therefore, we argue that existing CTDE methods cannot fully utilize global information for training, leading to an inefficient joint-policy exploration and even suboptimal results. In this paper, we introduce a novel Centralized Advising and Decentralized Pruning (CADP) framework for multi-agent reinforcement learning, that not only enables an efficacious message exchange among agents during training but also guarantees the independent policies for execution. Firstly, CADP endows agents the explicit communication channel to seek and take advices from different agents for more centralized training. To further ensure the decentralized execution, we propose a smooth model pruning mechanism to progressively constraint the agent communication into a closed one without degradation in agent cooperation capability. Empirical evaluations on StarCraft II micromanagement and Google Research Football benchmarks demonstrate that the proposed framework achieves superior performance compared with the state-of-the-art counterparts. Our code will be made publicly available.
翻訳日:2023-05-30 20:03:22 公開日:2023-05-27
# 曖昧な語彙制約を持つニューラルマシン翻訳

Disambiguated Lexically Constrained Neural Machine Translation ( http://arxiv.org/abs/2305.17351v1 )

ライセンス: Link先を確認
Jinpeng Zhang, Nini Xiao, Ke Wang, Chuanqi Dong, Xiangyu Duan, Yuqi Zhang, Min Zhang(参考訳) プレ特定制約による翻訳生成を制御するLexically constrained Neural Machine Translation (LCNMT)は,多くの実用化において重要である。 LCNMTへの現在のアプローチは、通常、あらかじめ指定された語彙制約が文脈的に適切であると仮定する。 この仮定は、ソースレキシコンが複数のターゲット制約を持ち、最も適切なものを選択するために曖昧さをなくすことができる現実のシナリオにアプリケーションを限定する。 本稿では,この問題を解決するために不明瞭なLCNMT(D-LCNMT)を提案する。 D-LCNMTは堅牢で効果的な2段階のフレームワークであり、最初は文脈に基づいて制約を曖昧にし、その曖昧な制約をLCNMTに統合する。 実験の結果,提案手法は,ベンチマークデータセットに基づく既存データ拡張アプローチや,ソース辞書が複数のターゲット制約に対応するシナリオにおける包括的実験など,強いベースラインよりも優れていることが示された。

Lexically constrained neural machine translation (LCNMT), which controls the translation generation with pre-specified constraints, is important in many practical applications. Current approaches to LCNMT typically assume that the pre-specified lexical constraints are contextually appropriate. This assumption limits their application to real-world scenarios where a source lexicon may have multiple target constraints, and disambiguation is needed to select the most suitable one. In this paper, we propose disambiguated LCNMT (D-LCNMT) to solve the problem. D-LCNMT is a robust and effective two-stage framework that disambiguates the constraints based on contexts at first, then integrates the disambiguated constraints into LCNMT. Experimental results show that our approach outperforms strong baselines including existing data augmentation based approaches on benchmark datasets, and comprehensive experiments in scenarios where a source lexicon corresponds to multiple target constraints demonstrate the constraint disambiguation superiority of our approach.
翻訳日:2023-05-30 20:02:57 公開日:2023-05-27
# マルチモーダルな談話アノテーションとしての自動セグメンテーションはどの程度有効か?

How Good is Automatic Segmentation as a Multimodal Discourse Annotation Aid? ( http://arxiv.org/abs/2305.17350v1 )

ライセンス: Link先を確認
Corbin Terpstra, Ibrahim Khebour, Mariah Bradford, Brett Wisniewski, Nikhil Krishnaswamy, Nathaniel Blanchard(参考訳) チーム内の協調的問題解決(CPS)は、位置し、協調的なタスクにおける参加者間の共通の意味の創造と密接に結びついています。 そこで本研究では,CPSのアノテートを支援するため,異なる発話セグメンテーション手法の質を評価する。 1) 対話と物理オブジェクト操作を含む課題を協調的に解決する三者組のデータセットにおいて,手作業で発話を書き起こし,(2)金本に準じた協調動作を注釈し,(3)google と openai のwhisper のツールキットを用いて自動的に分割された発話に適用する。 また, 音素発声は, 自動分節音声と最小の対応を保ち, 異なる分節音声を用いた分節音声も一致しないことを示す。 また,アノテータは,アノテータが他のアノテータが複製できない任意の判断を行うために,他の情報を呼び出す必要がある。 我々は、将来のアノテーション仕様がこれらのニーズをどのように説明できるかについての議論で締めくくります。

Collaborative problem solving (CPS) in teams is tightly coupled with the creation of shared meaning between participants in a situated, collaborative task. In this work, we assess the quality of different utterance segmentation techniques as an aid in annotating CPS. We (1) manually transcribe utterances in a dataset of triads collaboratively solving a problem involving dialogue and physical object manipulation, (2) annotate collaborative moves according to these gold-standard transcripts, and then (3) apply these annotations to utterances that have been automatically segmented using toolkits from Google and OpenAI's Whisper. We show that the oracle utterances have minimal correspondence to automatically segmented speech, and that automatically segmented speech using different segmentation methods is also inconsistent. We also show that annotating automatically segmented speech has distinct implications compared with annotating oracle utterances--since most annotation schemes are designed for oracle cases, when annotating automatically-segmented utterances, annotators must invoke other information to make arbitrary judgments which other annotators may not replicate. We conclude with a discussion of how future annotation specs can account for these needs.
翻訳日:2023-05-30 20:02:39 公開日:2023-05-27
# 条件不変意味セグメンテーション

Condition-Invariant Semantic Segmentation ( http://arxiv.org/abs/2305.17349v1 )

ライセンス: Link先を確認
Christos Sakaridis, David Bruggemann, Fisher Yu, Luc Van Gool(参考訳) 自律走行車やロボットのロバストな知覚には,訓練時に地中アノテーションが利用可能なものと異なる視覚条件にセマンティックセグメンテーションネットワークを適応させることが不可欠である。 しかし, 従来の研究では, 対角的訓練を施し, 合成対現実的適応で検証されるほとんどの特徴レベル適応法は, 通常の対逆条件レベル適応において限界ゲインを与え, 単純な画素レベルの適応法よりもスタイリゼーションにより優れていた。 これらの結果から,ネットワークのエンコーダが抽出した深い特徴と,各入力画像のスタイリングされたビューとを新たな特徴分散損失に整合させることにより,特徴レベルの適応を行う上でのスタイル化を活用することを提案する。 このようにして、エンコーダは入力のスタイルに不変な特徴を抽出し、デコーダは入力の特定のスタイルからさらに抽象化するのではなく、これらの特徴を解析することに集中できるようにする。 提案手法である条件不変セマンティクスセグメンテーション (ciss) を最上位のドメイン適応アーキテクチャ上に実装し, cityscapes$\to$acdc と cityscapes$\to$dark zurich adapt の両方において,従来の最先端手法よりも大幅に改善することを示す。 特に、CISSは、パブリックなACDCリーダーボードで公表されたすべての非教師なしドメイン適応手法の中で、第1位である。 また, BDD100K-night やナイトタイム・ドライビングにおいて, 競合する領域適応アプローチよりも優れていることを示す。 コードはhttps://github.com/SysCV/CISSで公開されている。

Adaptation of semantic segmentation networks to different visual conditions from those for which ground-truth annotations are available at training is vital for robust perception in autonomous cars and robots. However, previous work has shown that most feature-level adaptation methods, which employ adversarial training and are validated on synthetic-to-real adaptation, provide marginal gains in normal-to-adverse condition-level adaptation, being outperformed by simple pixel-level adaptation via stylization. Motivated by these findings, we propose to leverage stylization in performing feature-level adaptation by aligning the deep features extracted by the encoder of the network from the original and the stylized view of each input image with a novel feature invariance loss. In this way, we encourage the encoder to extract features that are invariant to the style of the input, allowing the decoder to focus on parsing these features and not on further abstracting from the specific style of the input. We implement our method, named Condition-Invariant Semantic Segmentation (CISS), on the top-performing domain adaptation architecture and demonstrate a significant improvement over previous state-of-the-art methods both on Cityscapes$\to$ACDC and Cityscapes$\to$Dark Zurich adaptation. In particular, CISS is ranked first among all published unsupervised domain adaptation methods on the public ACDC leaderboard. Our method is also shown to generalize well to domains unseen during training, outperforming competing domain adaptation approaches on BDD100K-night and Nighttime Driving. Code is publicly available at https://github.com/SysCV/CISS .
翻訳日:2023-05-30 20:02:15 公開日:2023-05-27
# CGELBank アノテーションマニュアル v1.0

CGELBank Annotation Manual v1.0 ( http://arxiv.org/abs/2305.17347v1 )

ライセンス: Link先を確認
Brett Reynolds, Nathan Schneider, Aryaman Arora(参考訳) CGELBankは、ケンブリッジ・グラマー・オブ・イングリッシュ(Cambridge Grammar of the English)から派生した英語の構文形式に基づくツリーバンクおよび関連ツールである。 この文書はCGELBankアノテーションスキームの特異性を概説している。

CGELBank is a treebank and associated tools based on a syntactic formalism for English derived from the Cambridge Grammar of the English Language. This document lays out the particularities of the CGELBank annotation scheme.
翻訳日:2023-05-30 20:01:42 公開日:2023-05-27
# 神経エージェントの注意スキーマ

Attention Schema in Neural Agents ( http://arxiv.org/abs/2305.17375v1 )

ライセンス: Link先を確認
Dianbo Liu, Samuele Bolotta, He Zhu, Yoshua Bengio, Guillaume Dumas(参考訳) ディープラーニングアーキテクチャでは、注意が一般的な要素になっている。 重み付けによってサポートされている情報の静的な選択の上に、情報の動的選択を追加している。 同様に、注意の上に構築された高次情報フィルタを想像することができる:注意スキーマ(as)、すなわち注意の記述と予測モデル。 認知神経科学において、注意スキーマ理論(AST)は、注意をASと区別するこの考え方を支持している。 この理論の強い予測は、エージェントが自身のASを使用して他のエージェントの注意を推論し、結果として他のエージェントとの協調を強化することができるということである。 このように、多エージェント強化学習は、ASTの有効性を実験的に検証するのに理想的な設定である。 我々は、注意とアソシエーションが互いに相互作用する方法を探究する。 予備結果は,asをリカレント内部制御として実装したエージェントが最高の性能を得ることを示す。 一般に、これらの探索実験は、注意モデルによる人工エージェントの装備が、彼らの社会的知性を高めることを示唆している。

Attention has become a common ingredient in deep learning architectures. It adds a dynamical selection of information on top of the static selection of information supported by weights. In the same way, we can imagine a higher-order informational filter built on top of attention: an Attention Schema (AS), namely, a descriptive and predictive model of attention. In cognitive neuroscience, Attention Schema Theory (AST) supports this idea of distinguishing attention from AS. A strong prediction of this theory is that an agent can use its own AS to also infer the states of other agents' attention and consequently enhance coordination with other agents. As such, multi-agent reinforcement learning would be an ideal setting to experimentally test the validity of AST. We explore different ways in which attention and AS interact with each other. Our preliminary results indicate that agents that implement the AS as a recurrent internal control achieve the best performance. In general, these exploratory experiments suggest that equipping artificial agents with a model of attention can enhance their social intelligence.
翻訳日:2023-05-30 19:56:08 公開日:2023-05-27
# LE2Fusion:赤外および可視画像融合のための新しい局所端強調モジュール

LE2Fusion: A novel local edge enhancement module for infrared and visible image fusion ( http://arxiv.org/abs/2305.17374v1 )

ライセンス: Link先を確認
Yongbiao Xiao, Hui Li, Chunyang Cheng, and Xiaoning Song(参考訳) Infrared and visible image fusion taskは、多ソース画像から有能な特徴と豊かなテクスチャを含む融合画像を生成することを目的としている。 しかし, 複雑な照明条件下では, 下流作業に欠かせないローカル領域のエッジ情報に注目するアルゴリズムはほとんどない。 そこで本研究では, LE2Fusion というローカルエッジ拡張に基づく融合ネットワークを提案する。 特に、複雑な照明条件下でのエッジ情報の改善と画像の本質的特徴の保存のために、局所エッジ強調(le2)モジュールが提案されている。 特徴抽出にはマルチスケール残留注意モジュール(MRA)を用いてリッチな特徴を抽出する。 そして、LE2では、特徴融合戦略で利用し、画像再構成を誘導する一連の強調重みを生成する。 局所的詳細情報と構造情報をよりよく保存するために、局所的領域に基づく画素強度損失関数も提示する。 実験により,提案手法は,公開データセットにおける最先端の融合手法よりも高い融合性能を示すことが示された。

Infrared and visible image fusion task aims to generate a fused image which contains salient features and rich texture details from multi-source images. However, under complex illumination conditions, few algorithms pay attention to the edge information of local regions which is crucial for downstream tasks. To this end, we propose a fusion network based on the local edge enhancement, named LE2Fusion. Specifically, a local edge enhancement (LE2) module is proposed to improve the edge information under complex illumination conditions and preserve the essential features of image. For feature extraction, a multi-scale residual attention (MRA) module is applied to extract rich features. Then, with LE2, a set of enhancement weights are generated which are utilized in feature fusion strategy and used to guide the image reconstruction. To better preserve the local detail information and structure information, the pixel intensity loss function based on the local region is also presented. The experiments demonstrate that the proposed method exhibits better fusion performance than the state-of-the-art fusion methods on public datasets.
翻訳日:2023-05-30 19:55:54 公開日:2023-05-27
# プロンプトベースメタ学習によるゼロショットイベント検出

Zero- and Few-Shot Event Detection via Prompt-Based Meta Learning ( http://arxiv.org/abs/2305.17373v1 )

ライセンス: Link先を確認
Zhenrui Yue, Huimin Zeng, Mengfei Lan, Heng Ji, Dong Wang(参考訳) 多数の新しいイベントのソースとしてオンライントピックが出現するにつれ、目に見えない/稀なイベントタイプの検出は、トレーニングに限られたデータアクセスのみを提供する既存のイベント検出方法において、明らかな課題となる。 イベント検出におけるデータ不足問題に対処するために,ゼロおよび少数ショットイベント検出のためのメタ学習ベースのフレームワークであるMetaEventを提案する。 具体的には、既存のイベントタイプからトレーニングタスクをサンプリングし、メタトレーニングを行い、未確認タスクに迅速に適応する最適なパラメータを探索する。 提案フレームワークでは,clozeベースのプロンプトとトリガーアウェアソフト言語化器を用いて,未知のイベントタイプに対して効率的にアウトプットを投影する手法を提案する。 さらに,クラス分離機能を学ぶために,mmd(maximum mean discrepancy)に基づくコントラスト的メタ目標を設計する。 したがって、提案するmetaeventは、事前の知識なしに、特徴をイベントタイプにマッピングすることで、ゼロショットイベント検出を行うことができる。 実験では,提案手法がベンチマークデータセットFewEventとMAVENの広範な実験で最先端の性能を達成する場合,ゼロショットシナリオと少数ショットシナリオの両方においてMetaEventの有効性を実証した。

With emerging online topics as a source for numerous new events, detecting unseen / rare event types presents an elusive challenge for existing event detection methods, where only limited data access is provided for training. To address the data scarcity problem in event detection, we propose MetaEvent, a meta learning-based framework for zero- and few-shot event detection. Specifically, we sample training tasks from existing event types and perform meta training to search for optimal parameters that quickly adapt to unseen tasks. In our framework, we propose to use the cloze-based prompt and a trigger-aware soft verbalizer to efficiently project output to unseen event types. Moreover, we design a contrastive meta objective based on maximum mean discrepancy (MMD) to learn class-separating features. As such, the proposed MetaEvent can perform zero-shot event detection by mapping features to event types without any prior knowledge. In our experiments, we demonstrate the effectiveness of MetaEvent in both zero-shot and few-shot scenarios, where the proposed method achieves state-of-the-art performance in extensive experiments on benchmark datasets FewEvent and MAVEN.
翻訳日:2023-05-30 19:55:39 公開日:2023-05-27
# 確率ゲームにおける報酬機械による強化学習

Reinforcement Learning With Reward Machines in Stochastic Games ( http://arxiv.org/abs/2305.17372v1 )

ライセンス: Link先を確認
Jueming Hu, Jean-Rapha\"el Gaglione, Yanze Wang, Zhe Xu, Ufuk Topcu, and Yongming Liu(参考訳) 複雑タスクを伴う確率ゲームにおけるマルチエージェント強化学習について, 報酬関数が非マルコフ型である場合について検討する。 我々は報酬機を利用して複雑なタスクの高度な知識を取り入れる。 確率ゲーム(QRM-SG)の報酬機を用いたQラーニングと呼ばれるアルゴリズムを開発し,各エージェントのNash平衡における最適応答戦略を学習する。 QRM-SGでは、拡張状態空間におけるナッシュ平衡におけるQ関数を定義する。 拡張状態空間は、確率ゲームの状態と報酬マシンの状態を統合する。 各エージェントはシステム内のすべてのエージェントのQ関数を学習する。 我々は,QRM-SGで学習したQ関数が,学習中の各段階のステージゲームが大域的最適点またはサドル点を持つ場合,ナッシュ平衡においてQ関数に収束することが証明され,エージェントは,この時点でのベストレスポンス戦略に基づいてQ関数を更新する。 lemke-howson法を用いて,現在のq関数に対する最善応答戦略を導出する。 3つのケーススタディは、QRM-SGが最良の応答戦略を効果的に学習できることを示している。 QRM-SGは,ケーススタディIで約7500回,ケーススタディIIで1000回,ケーススタディIIIで1500回,ナッシュQ-ラーニングやMADDPGといったベースライン手法がナッシュ平衡に収束しない場合に,最も優れた応答戦略を学習する。

We investigate multi-agent reinforcement learning for stochastic games with complex tasks, where the reward functions are non-Markovian. We utilize reward machines to incorporate high-level knowledge of complex tasks. We develop an algorithm called Q-learning with reward machines for stochastic games (QRM-SG), to learn the best-response strategy at Nash equilibrium for each agent. In QRM-SG, we define the Q-function at a Nash equilibrium in augmented state space. The augmented state space integrates the state of the stochastic game and the state of reward machines. Each agent learns the Q-functions of all agents in the system. We prove that Q-functions learned in QRM-SG converge to the Q-functions at a Nash equilibrium if the stage game at each time step during learning has a global optimum point or a saddle point, and the agents update Q-functions based on the best-response strategy at this point. We use the Lemke-Howson method to derive the best-response strategy given current Q-functions. The three case studies show that QRM-SG can learn the best-response strategies effectively. QRM-SG learns the best-response strategies after around 7500 episodes in Case Study I, 1000 episodes in Case Study II, and 1500 episodes in Case Study III, while baseline methods such as Nash Q-learning and MADDPG fail to converge to the Nash equilibrium in all three case studies.
翻訳日:2023-05-30 19:55:16 公開日:2023-05-27
# マルチビュー拡張蒸留によるエンティティリンクの改善

Towards Better Entity Linking with Multi-View Enhanced Distillation ( http://arxiv.org/abs/2305.17371v1 )

ライセンス: Link先を確認
Yi Liu, Yuan Tian, Jianxun Lian, Xinlong Wang, Yanan Cao, Fang Fang, Wen Zhang, Haizhen Huang, Denvy Deng and Qi Zhang(参考訳) デンス検索は大規模知識ベースからエンティティを検索するためにエンティティリンクに広く利用されている。 メインストリームの技術は、参照とエンティティを独立にエンコードし、粗いインタラクションメトリクスを通じてそれらの関連性を計算するデュアルエンコーダフレームワークに基づいている。 本稿では,多視点拡張蒸留(MVD)フレームワークを提案する。このフレームワークは,クロスエンコーダからデュアルエンコーダへ,エンティティ内の複数の細粒度および参照関連部分の知識を効果的に伝達する。 各エンティティは、参照関係ビューに過剰な情報が入り込むのを避けるために、複数のビューに分割される。 教師モデルから学生モデルへの細粒度知識の蒸留を容易にするため,この枠組みの相互調整と自己調整機構を更に設計する。 一方で、統一情報の分散を防ぐために、エンティティ全体を組み込んだグローバルビューを予約します。 実験により,提案手法はいくつかのエンティティリンクベンチマークにおいて最先端の性能を達成することを示す。

Dense retrieval is widely used for entity linking to retrieve entities from large-scale knowledge bases. Mainstream techniques are based on a dual-encoder framework, which encodes mentions and entities independently and calculates their relevances via rough interaction metrics, resulting in difficulty in explicitly modeling multiple mention-relevant parts within entities to match divergent mentions. Aiming at learning entity representations that can match divergent mentions, this paper proposes a Multi-View Enhanced Distillation (MVD) framework, which can effectively transfer knowledge of multiple fine-grained and mention-relevant parts within entities from cross-encoders to dual-encoders. Each entity is split into multiple views to avoid irrelevant information being over-squashed into the mention-relevant view. We further design cross-alignment and self-alignment mechanisms for this framework to facilitate fine-grained knowledge distillation from the teacher model to the student model. Meanwhile, we reserve a global-view that embeds the entity as a whole to prevent dispersal of uniform information. Experiments show our method achieves state-of-the-art performance on several entity linking benchmarks.
翻訳日:2023-05-30 19:54:48 公開日:2023-05-27
# 知識蒸留で学習した小さな組織データセットのための視覚変換器

Vision Transformers for Small Histological Datasets Learned through Knowledge Distillation ( http://arxiv.org/abs/2305.17370v1 )

ライセンス: Link先を確認
Neel Kanwal and Trygve Eftestol and Farbod Khoraminia and Tahlita CM Zuiverloon and Kjersti Engan(参考訳) 計算病理学(CPATH)システムは、診断タスクを自動化する可能性がある。 しかしながら、デジタル化されたヒストロジカルガラススライドの人工物は、WSI(Whole Slide Images)と呼ばれ、CPATHシステム全体の性能を阻害する可能性がある。 視覚変換器(ViT)のようなディープラーニング(DL)モデルは、診断アルゴリズムを実行する前に人工物を検出して排除することができる。 堅牢で一般化されたViTを開発するための簡単な方法は、巨大なデータセットでトレーニングすることだ。 残念ながら、大規模な医療データセットの取得は高価で不便であり、WSIの汎用的なアーティファクト検出方法の必要性が生じる。 本稿では, 気泡検出タスクにおけるViTの分類性能を向上させるために, 学生と教師のレシピを提案する。 ViTは、高能力教師モデルから既存の知識を蒸留することで、生徒-教師の枠組みの下で訓練された。 ベストパフォーマンスのViTでは,それぞれ0.961,0.911F1スコア,MCCが得られ,スタンドアローントレーニングに対するMCCの7%の上昇が観察された。 提案手法は,CPATHシステムにおける効率的な前処理パイプラインにカスタマイズされたトランスフォーマの利用を促進するために,トランスファーラーニングよりも知識蒸留を活用する新しい視点を示す。

Computational Pathology (CPATH) systems have the potential to automate diagnostic tasks. However, the artifacts on the digitized histological glass slides, known as Whole Slide Images (WSIs), may hamper the overall performance of CPATH systems. Deep Learning (DL) models such as Vision Transformers (ViTs) may detect and exclude artifacts before running the diagnostic algorithm. A simple way to develop robust and generalized ViTs is to train them on massive datasets. Unfortunately, acquiring large medical datasets is expensive and inconvenient, prompting the need for a generalized artifact detection method for WSIs. In this paper, we present a student-teacher recipe to improve the classification performance of ViT for the air bubbles detection task. ViT, trained under the student-teacher framework, boosts its performance by distilling existing knowledge from the high-capacity teacher model. Our best-performing ViT yields 0.961 and 0.911 F1-score and MCC, respectively, observing a 7% gain in MCC against stand-alone training. The proposed method presents a new perspective of leveraging knowledge distillation over transfer learning to encourage the use of customized transformers for efficient preprocessing pipelines in the CPATH systems.
翻訳日:2023-05-30 19:54:28 公開日:2023-05-27
# 事前学習モデルを用いたモジュール化ゼロショットVQA

Modularized Zero-shot VQA with Pre-trained Models ( http://arxiv.org/abs/2305.17369v1 )

ライセンス: Link先を確認
Rui Cao and Jing Jiang(参考訳) 大規模事前訓練モデル(PTM)は、優れたゼロショット機能を示す。 本稿では,ゼロショット視覚質問応答(VQA)の活用方法について検討する。 我々のアプローチはいくつかの観察によって動機づけられている。 第一に、VQAの質問は、しばしば複数の推論ステップを必要とするが、ほとんどのPTMに欠けている能力である。 第2に、VQA推論チェーンの異なるステップは、オブジェクト検出やリレーショナル推論のような異なるスキルを必要とするが、単一のPTMはこれらのスキルをすべて持っていないかもしれない。 第3に、ゼロショットVQAに関する最近の研究は、多段階推論連鎖を明示的に考慮していない。 本稿では,質問を部分的推論ステップに明示的に分解し,高い解釈性を持つモジュラー化ゼロショットネットワークを提案する。 我々はサブ推論タスクを PTM の許容目的に変換し、適応なしに適切な PTM にタスクを割り当てる。 ゼロショット設定下での2つのVQAベンチマーク実験は,本手法の有効性と,いくつかのベースラインと比較して高い解釈性を示した。

Large-scale pre-trained models (PTMs) show great zero-shot capabilities. In this paper, we study how to leverage them for zero-shot visual question answering (VQA). Our approach is motivated by a few observations. First, VQA questions often require multiple steps of reasoning, which is still a capability that most PTMs lack. Second, different steps in VQA reasoning chains require different skills such as object detection and relational reasoning, but a single PTM may not possess all these skills. Third, recent work on zero-shot VQA does not explicitly consider multi-step reasoning chains, which makes them less interpretable compared with a decomposition-based approach. We propose a modularized zero-shot network that explicitly decomposes questions into sub reasoning steps and is highly interpretable. We convert sub reasoning tasks to acceptable objectives of PTMs and assign tasks to proper PTMs without any adaptation. Our experiments on two VQA benchmarks under the zero-shot setting demonstrate the effectiveness of our method and better interpretability compared with several baselines.
翻訳日:2023-05-30 19:54:10 公開日:2023-05-27
# ファウショット認識のためのインスタンスベースマックスマージン

Instance-based Max-margin for Practical Few-shot Recognition ( http://arxiv.org/abs/2305.17368v1 )

ライセンス: Link先を確認
Minghao Fu, Ke Zhu, Jianxin Wu(参考訳) そこで本研究では,FSLを実世界のアプリケーションに近づけるために,FSL(False- few-shot learning, FSL)の能力を模倣し,実用的FSL(PFSL)設定を提案する。 pFSLは、教師なし事前訓練されたモデル(人間の事前知識に類似)に基づいており、多くの新しいクラスを同時に認識する。 従来のFSLと比較して、pFSLはより単純で、評価しやすく、より困難で実用的である。 本稿では,新しいpFSL設定だけでなく,従来のFSLシナリオでも有効に動作するインスタンスベースの最大値法であるIbM2を提案する。 ガウスアンヌス定理に基づいて、IbM2はインスタンスに適用されたランダムノイズを、多方向のpFSL(または従来のFSL)認識タスクにおける最大マージンを達成するメカニズムに変換する。 様々な自己教師付き事前学習法と多方向・多方向FSLタスクによる実験により、IbM2は基本的に、それぞれのベースライン法よりも改善され、ほとんどの場合、改善は重要であることが示された。 本稿では,新しいpFSL設定法と新しいIbM2法の両方を用いて,実用的少数ショット学習が実現可能かつ有望であることを示す。

In order to mimic the human few-shot learning (FSL) ability better and to make FSL closer to real-world applications, this paper proposes a practical FSL (pFSL) setting. pFSL is based on unsupervised pretrained models (analogous to human prior knowledge) and recognizes many novel classes simultaneously. Compared to traditional FSL, pFSL is simpler in its formulation, easier to evaluate, more challenging and more practical. To cope with the rarity of training examples, this paper proposes IbM2, an instance-based max-margin method not only for the new pFSL setting, but also works well in traditional FSL scenarios. Based on the Gaussian Annulus Theorem, IbM2 converts random noise applied to the instances into a mechanism to achieve maximum margin in the many-way pFSL (or traditional FSL) recognition task. Experiments with various self-supervised pretraining methods and diverse many- or few-way FSL tasks show that IbM2 almost always leads to improvements compared to its respective baseline methods, and in most cases the improvements are significant. With both the new pFSL setting and novel IbM2 method, this paper shows that practical few-shot learning is both viable and promising.
翻訳日:2023-05-30 19:53:54 公開日:2023-05-27
# 翻訳記憶を用いた大規模言語モデル翻訳者の拡張

Augmenting Large Language Model Translators via Translation Memories ( http://arxiv.org/abs/2305.17367v1 )

ライセンス: Link先を確認
Yongyu Mu, Abudurexiti Reheman, Zhiquan Cao, Yuchun Fan, Bei Li, Yinqiao Li, Tong Xiao, Chunliang Zhang, Jingbo Zhu(参考訳) 翻訳メモリ(tms)をプロンプトとして使用することは、機械翻訳モデルの文脈内学習に有望なアプローチである。 本研究は,大規模言語モデル(LLM)をTMでプロンプトし,より優れた翻訳者を実現するためのステップである。 LLM が ``understand'' プロンプトを '`understand' する能力は確かに TM をよりよく活用するのに役立ちます。 実験により, 高品質TMベースのプロンプトを用いることで, 事前学習したLLMトランスレータの結果を大幅に改善できることが示された。 これらの結果は、大規模なドメイン内バイリンガルデータにアクセスでき、下流タスクによく調整されている最先端のnmtシステムとさえ匹敵する。

Using translation memories (TMs) as prompts is a promising approach to in-context learning of machine translation models. In this work, we take a step towards prompting large language models (LLMs) with TMs and making them better translators. We find that the ability of LLMs to ``understand'' prompts is indeed helpful for making better use of TMs. Experiments show that the results of a pre-trained LLM translator can be greatly improved by using high-quality TM-based prompts. These results are even comparable to those of the state-of-the-art NMT systems which have access to large-scale in-domain bilingual data and are well tuned on the downstream tasks.
翻訳日:2023-05-30 19:53:31 公開日:2023-05-27
# 医用ノート自動生成のための評価指標の検討

An Investigation of Evaluation Metrics for Automated Medical Note Generation ( http://arxiv.org/abs/2305.17364v1 )

ライセンス: Link先を確認
Asma Ben Abacha and Wen-wai Yim and George Michalopoulos and Thomas Lin(参考訳) 近年のノート自動生成研究は、医師がクリニカルノート自動生成(Knoll et al., 2022)を使用する場合、かなりの時間を節約できることを示した。 この課題の要約モデルを用いて、医師と患者の会話の要約(Krishna et al., 2021; Cai et al., 2022)として臨床ノートを作成する。 しかし,どのモデルが臨床医に最善かを評価することは,適切なサマリーの集合や,自動評価指標の潜在的な限界のため,依然として困難な課題である。 本稿では,医療談話から臨床メモの自動生成のための評価方法と指標について検討する。 特に,タスク固有の指標を新たに提案し,テキスト要約・生成におけるSOTA評価指標と比較する。 (i)知識グラフ埋め込みに基づくメトリクス (ii)カスタマイズされたモデルベースメトリクス (iii)ドメイン適応/微調整指標、及び (iv)アンサンブルメトリクス。 自動測定と手動判断の相関性を検討するために,システムと参照事実を比較し,事実の正確性,および重要な医学的事実に対する幻覚・欠落率を算出し,自動ノート/要約を評価する。 この研究は、ドメインの専門家が手動で注釈付けした7つのデータセットに依存した。 実験の結果, 自動評価指標は, 異なる種類の臨床記録データに対して, かなり異なる挙動を示すことがわかった。 しかし, 測定値の1つの安定な部分集合は, ヒトの判断に最も相関し, 関連する評価基準の集約を示す。

Recent studies on automatic note generation have shown that doctors can save significant amounts of time when using automatic clinical note generation (Knoll et al., 2022). Summarization models have been used for this task to generate clinical notes as summaries of doctor-patient conversations (Krishna et al., 2021; Cai et al., 2022). However, assessing which model would best serve clinicians in their daily practice is still a challenging task due to the large set of possible correct summaries, and the potential limitations of automatic evaluation metrics. In this paper, we study evaluation methods and metrics for the automatic generation of clinical notes from medical conversations. In particular, we propose new task-specific metrics and we compare them to SOTA evaluation metrics in text summarization and generation, including: (i) knowledge-graph embedding-based metrics, (ii) customized model-based metrics, (iii) domain-adapted/fine-tuned metrics, and (iv) ensemble metrics. To study the correlation between the automatic metrics and manual judgments, we evaluate automatic notes/summaries by comparing the system and reference facts and computing the factual correctness, and the hallucination and omission rates for critical medical facts. This study relied on seven datasets manually annotated by domain experts. Our experiments show that automatic evaluation metrics can have substantially different behaviors on different types of clinical notes datasets. However, the results highlight one stable subset of metrics as the most correlated with human judgments with a relevant aggregation of different evaluation criteria.
翻訳日:2023-05-30 19:53:19 公開日:2023-05-27
# ニューロ:マルチビュー画像からの反射物体のニューラルジオメトリとBRDF再構成

NeRO: Neural Geometry and BRDF Reconstruction of Reflective Objects from Multiview Images ( http://arxiv.org/abs/2305.17398v1 )

ライセンス: Link先を確認
Yuan Liu and Peng Wang and Cheng Lin and Xiaoxiao Long and Jiepeng Wang and Lingjie Liu and Taku Komura and Wenping Wang(参考訳) 未知の環境で撮影された多視点画像から反射物体の形状とBRDFを再構成するニューラルネットワークNeROを提案する。 反射物体のマルチビュー再構成は、鏡面反射がビュー依存であるため、多くのマルチビュー再構成法の基礎となるマルチビュー一貫性に違反するため、非常に困難である。 最近のニューラルレンダリング技術は、環境光とオブジェクト表面との相互作用をモデル化して、ビュー依存の反射に適合させることができるため、マルチビュー画像から反射オブジェクトを再構築することができる。 しかし、特に幾何学が未知の場合、ニューラルネットワークによる環境光を正確にモデル化することは困難である。 環境光をモデル化できる既存のニューラルレンダリング手法のほとんどは、直接の光しか考慮せず、オブジェクトマスクを使用して、鏡面の弱い反射でオブジェクトを再構築している。 そのため、特に物体マスクが入手できず、間接的な光で照らされる場合、反射体を再構成することができない。 我々はこの問題に取り組むための2段階のアプローチを提案する。 まず, 直接光と間接光の両方の陰影効果を近似するために, スプリットサム近似と統合方向符号化を適用し, 物体マスクを使わずに反射物体の形状を正確に再構成することができる。 次に,オブジェクトの形状を固定することで,より正確なサンプリングを行い,オブジェクトの環境光とbrdfを復元する。 広汎な実験により,環境光や物体マスクを知ることなく,RGB画像のみから反射物体の形状とBRDFを正確に再構成できることが実証された。 コードとデータセットはhttps://github.com/liuyuan-pal/neroで入手できる。

We present a neural rendering-based method called NeRO for reconstructing the geometry and the BRDF of reflective objects from multiview images captured in an unknown environment. Multiview reconstruction of reflective objects is extremely challenging because specular reflections are view-dependent and thus violate the multiview consistency, which is the cornerstone for most multiview reconstruction methods. Recent neural rendering techniques can model the interaction between environment lights and the object surfaces to fit the view-dependent reflections, thus making it possible to reconstruct reflective objects from multiview images. However, accurately modeling environment lights in the neural rendering is intractable, especially when the geometry is unknown. Most existing neural rendering methods, which can model environment lights, only consider direct lights and rely on object masks to reconstruct objects with weak specular reflections. Therefore, these methods fail to reconstruct reflective objects, especially when the object mask is not available and the object is illuminated by indirect lights. We propose a two-step approach to tackle this problem. First, by applying the split-sum approximation and the integrated directional encoding to approximate the shading effects of both direct and indirect lights, we are able to accurately reconstruct the geometry of reflective objects without any object masks. Then, with the object geometry fixed, we use more accurate sampling to recover the environment lights and the BRDF of the object. Extensive experiments demonstrate that our method is capable of accurately reconstructing the geometry and the BRDF of reflective objects from only posed RGB images without knowing the environment lights and the object masks. Codes and datasets are available at https://github.com/liuyuan-pal/NeRO.
翻訳日:2023-05-30 19:47:04 公開日:2023-05-27
# 音声QAにおける意味改革による未回答質問への回答

Answering Unanswered Questions through Semantic Reformulations in Spoken QA ( http://arxiv.org/abs/2305.17393v1 )

ライセンス: Link先を確認
Pedro Faustini, Zhiyu Chen, Besnik Fetahu, Oleg Rokhlenko and Shervin Malmasi(参考訳) Spoken Question Answering (QA) は音声アシスタントの重要な機能であり、通常は複数のQAシステムによって支援される。 ユーザは、流儀、エラー、非公式な構文やフレーズを含む自発的な音声で質問する。 これはQAにおける大きな課題であり、答えのない質問や無関係な回答を引き起こし、ユーザエクスペリエンスを悪化させます。 我々は失敗したQA要求を分析し、語彙的ギャップ、命題型、複雑な構文構造、高い特異性など、主要な課題を特定する。 本稿では,3つの言語的操作(リペア,構文的再構成,一般化)による質問の書き直しと回答を容易にするセマンティック質問修正(SURF)モデルを提案する。 音声アシスタントによる100万件の未回答質問に対するオフライン評価では、SURFは回答率を大幅に改善し、未回答質問の最大24%が関連回答(75%)を得た。 ライブデプロイメントは、答えのない疑問を持つ数百万の顧客に対して肯定的な影響を示す。

Spoken Question Answering (QA) is a key feature of voice assistants, usually backed by multiple QA systems. Users ask questions via spontaneous speech which can contain disfluencies, errors, and informal syntax or phrasing. This is a major challenge in QA, causing unanswered questions or irrelevant answers, and leading to bad user experiences. We analyze failed QA requests to identify core challenges: lexical gaps, proposition types, complex syntactic structure, and high specificity. We propose a Semantic Question Reformulation (SURF) model offering three linguistically-grounded operations (repair, syntactic reshaping, generalization) to rewrite questions to facilitate answering. Offline evaluation on 1M unanswered questions from a leading voice assistant shows that SURF significantly improves answer rates: up to 24% of previously unanswered questions obtain relevant answers (75%). Live deployment shows positive impact for millions of customers with unanswered questions; explicit relevance feedback shows high user satisfaction.
翻訳日:2023-05-30 19:46:38 公開日:2023-05-27
# SwiftSage: 複雑なインタラクティブタスクのための高速かつスロー思考を備えた生成エージェント

SwiftSage: A Generative Agent with Fast and Slow Thinking for Complex Interactive Tasks ( http://arxiv.org/abs/2305.17390v1 )

ライセンス: Link先を確認
Bill Yuchen Lin, Yicheng Fu, Karina Yang, Prithviraj Ammanabrolu, Faeze Brahman, Shiyu Huang, Chandra Bhagavatula, Yejin Choi, Xiang Ren(参考訳) 複雑な対話的推論タスクの行動計画において優れた能力を持つように設計された,人間認知のデュアルプロセス理論に触発された新しいエージェントフレームワークであるswiftsageを紹介する。 SwiftSageは、振る舞いのクローン化と大きな言語モデル(LLM)の長所を統合して、タスク完了のパフォーマンスを向上する。 フレームワークは、高速で直感的な思考を表すSwiftモジュールと、意図的な思考プロセスをエミュレートするSageモジュールの2つの主要なモジュールで構成されている。 Swiftモジュールは、オラクルエージェントのアクショントラジェクトリを微調整した小さなエンコーダ-デコーダ LM であり、Sageモジュールはサブゴール計画とグラウンドニングに GPT-4 などの LLM を使用している。 2つのモジュールを調和的に統合するヒューリスティックな手法を開発し,より効率的でロバストな問題解決プロセスを実現する。 ScienceWorldベンチマークの30のタスクにおいて、SwiftSageはSayCan、ReAct、Reflexionといった他のメソッドよりも大幅に優れており、複雑な実世界のタスクを解決する上での有効性を示している。

We introduce SwiftSage, a novel agent framework inspired by the dual-process theory of human cognition, designed to excel in action planning for complex interactive reasoning tasks. SwiftSage integrates the strengths of behavior cloning and prompting large language models (LLMs) to enhance task completion performance. The framework comprises two primary modules: the Swift module, representing fast and intuitive thinking, and the Sage module, emulating deliberate thought processes. The Swift module is a small encoder-decoder LM fine-tuned on the oracle agent's action trajectories, while the Sage module employs LLMs such as GPT-4 for subgoal planning and grounding. We develop a heuristic method to harmoniously integrate the two modules, resulting in a more efficient and robust problem-solving process. In 30 tasks from the ScienceWorld benchmark, SwiftSage significantly outperforms other methods such as SayCan, ReAct, and Reflexion, demonstrating its effectiveness in solving complex real-world tasks.
翻訳日:2023-05-30 19:46:19 公開日:2023-05-27
# mpchat: マルチモーダルなパーソナライズド会話に向けて

MPCHAT: Towards Multimodal Persona-Grounded Conversation ( http://arxiv.org/abs/2305.17388v1 )

ライセンス: Link先を確認
Jaewoo Ahn, Yeda Song, Sangdoo Yun, Gunhee Kim(参考訳) 自己一貫性のある対話エージェントを構築するために、これまでの研究は主に個人的事実や個性を提供するテキストペルソナに焦点を当ててきた。 しかし、ペルソナの多面的な性質を十分に説明するために、イメージモダリティは、エピソード記憶における話者の個人的特徴と経験を明らかにするのに役立つ(Rubin et al., 2003; Conway, 2009)。 本研究では,ペルソナベースの対話をマルチモーダルドメインに拡張し,2つの大きな貢献を行う。 まず,テキストと画像の両方でペルソナを拡張するmpchatという,マルチモーダルペルソナベースの対話データセットを提案する。 第2に,マルチモーダル・パーソナラの導入は,提案する3つの対話タスク(すなわち,次の応答予測,パーソナラ予測,話者識別)によって測定され,すべてのタスクにおいて統計的に有意なパフォーマンス改善をもたらすことを実証的に示す。 そこで本研究では,マルチモーダル・ペルソナが多モーダル・対話の理解向上に不可欠であること,MPCHATが研究の質の高い情報源であることを示す。

In order to build self-consistent personalized dialogue agents, previous research has mostly focused on textual persona that delivers personal facts or personalities. However, to fully describe the multi-faceted nature of persona, image modality can help better reveal the speaker's personal characteristics and experiences in episodic memory (Rubin et al., 2003; Conway, 2009). In this work, we extend persona-based dialogue to the multimodal domain and make two main contributions. First, we present the first multimodal persona-based dialogue dataset named MPCHAT, which extends persona with both text and images to contain episodic memories. Second, we empirically show that incorporating multimodal persona, as measured by three proposed multimodal persona-grounded dialogue tasks (i.e., next response prediction, grounding persona prediction, and speaker identification), leads to statistically significant performance improvements across all tasks. Thus, our work highlights that multimodal persona is crucial for improving multimodal dialogue comprehension, and our MPCHAT serves as a high-quality resource for this research.
翻訳日:2023-05-30 19:45:45 公開日:2023-05-27
# 物理インフォームドニューラルネットワークにおける積分損失からの学習

Learning from Integral Losses in Physics Informed Neural Networks ( http://arxiv.org/abs/2305.17387v1 )

ライセンス: Link先を確認
Ehsan Saleh, Saba Ghaffari, Timothy Bretl, Luke Olson, Matthew West(参考訳) 本研究では,部分積分微分方程式の下での物理情報ネットワークのトレーニング問題に対する解を提案する。 これらの方程式はトレーニングのために1つの残差を構成するために無限あるいは多量の神経評価を必要とする。 その結果、正確な評価は実用的でない可能性があり、これらの積分を偏りのない推定に置き換えるナイーブ近似が偏り損失関数と解をもたらすことを示した。 このバイアスを克服するために,決定論的サンプリング法,ダブルサンプリング法,遅延目標法という3つの方法を検討した。 ベンチマークのためのPDEの3つのクラスを考える: 1つは特異電荷と弱解を持つポアソン問題、もう1つは電磁場上の弱解とマクスウェル方程式、もう1つはスモロショフスキ凝固問題を定義する。 また,提案手法が提案されたことにより,多数のサンプルから推定した値に匹敵する精度で精度の高い解が得られることを示す。 私たちの実装はオープンソースで、https://github.com/ehsansaleh/btspinnで利用可能です。

This work proposes a solution for the problem of training physics informed networks under partial integro-differential equations. These equations require infinite or a large number of neural evaluations to construct a single residual for training. As a result, accurate evaluation may be impractical, and we show that naive approximations at replacing these integrals with unbiased estimates lead to biased loss functions and solutions. To overcome this bias, we investigate three types of solutions: the deterministic sampling approach, the double-sampling trick, and the delayed target method. We consider three classes of PDEs for benchmarking; one defining a Poisson problem with singular charges and weak solutions, another involving weak solutions on electro-magnetic fields and a Maxwell equation, and a third one defining a Smoluchowski coagulation problem. Our numerical results confirm the existence of the aforementioned bias in practice, and also show that our proposed delayed target approach can lead to accurate solutions with comparable quality to ones estimated with a large number of samples. Our implementation is open-source and available at https://github.com/ehsansaleh/btspinn.
翻訳日:2023-05-30 19:44:59 公開日:2023-05-27
# HyperFormer: Hypergraph Transformerによる表現的スパース特徴表現の学習

HyperFormer: Learning Expressive Sparse Feature Representations via Hypergraph Transformer ( http://arxiv.org/abs/2305.17386v1 )

ライセンス: Link先を確認
Kaize Ding, Albert Jiongqian Liang, Bryan Perrozi, Ting Chen, Ruoxi Wang, Lichan Hong, Ed H. Chi, Huan Liu, Derek Zhiyuan Cheng(参考訳) 高次元でスパースな特徴のための表現表現の学習は、情報検索における長年の問題であった。 最近のディープラーニング手法は部分的には解決できるが、多くのスパースな特徴、特にトレーニングデータで発生頻度の低いテール特徴値の処理に失敗することが多い。 さらに悪いことに、既存のメソッドは、異なるインスタンス間の相関を明示的に活用できないので、そのような関係の事前知識が提供されていないため、スパース機能での表現学習をさらに改善することができる。 本稿では,これらの課題に対処するために,グラフ学習の観点から特徴スパースデータを用いた表現学習の問題に取り組む。 具体的には,各ノードがデータインスタンスを表し,各ハイパーエッジが特徴値を表すハイパーグラフを用いて,異なるインスタンスのスパース特徴をモデル化することを提案する。 ハイパーグラフトランスフォーマー(hyperformer)に基づいて構築したハイパーグラフにメッセージを渡すことにより、学習された特徴表現は、異なるインスタンス間の相関だけでなく、特徴間の相関もキャプチャする。 提案手法は,スパース特徴量に基づく特徴表現学習を効果的に改善できることを示す。

Learning expressive representations for high-dimensional yet sparse features has been a longstanding problem in information retrieval. Though recent deep learning methods can partially solve the problem, they often fail to handle the numerous sparse features, particularly those tail feature values with infrequent occurrences in the training data. Worse still, existing methods cannot explicitly leverage the correlations among different instances to help further improve the representation learning on sparse features since such relational prior knowledge is not provided. To address these challenges, in this paper, we tackle the problem of representation learning on feature-sparse data from a graph learning perspective. Specifically, we propose to model the sparse features of different instances using hypergraphs where each node represents a data instance and each hyperedge denotes a distinct feature value. By passing messages on the constructed hypergraphs based on our Hypergraph Transformer (HyperFormer), the learned feature representations capture not only the correlations among different instances but also the correlations among features. Our experiments demonstrate that the proposed approach can effectively improve feature representation learning on sparse features.
翻訳日:2023-05-30 19:44:22 公開日:2023-05-27
# cvpr 2023 vandワークショップトラック1&2:ゼロショット広告1位, 少数ショット広告4位におけるゼロショット・アノマリー分類とセグメンテーション手法

A Zero-/Few-Shot Anomaly Classification and Segmentation Method for CVPR 2023 VAND Workshop Challenge Tracks 1&2: 1st Place on Zero-shot AD and 4th Place on Few-shot AD ( http://arxiv.org/abs/2305.17382v1 )

ライセンス: Link先を確認
Xuhai Chen, Yue Han, Jiangning Zhang(参考訳) 本報告では,視覚異常と新奇性検出(vand)2023チャレンジのゼロ/フェーショットトラックの解法を簡潔に紹介する。 産業用視覚検査では、通常の参照画像がなければ、あるいはわずか数個の参照画像で、多数のカテゴリに迅速に適応できる単一のモデルを構築することが、有望な研究方向である。 これは主に製品タイプが多種多様であるためである。 ゼロショットトラックでは、余分な線形層を追加してCLIPモデルに基づく解を提案する。 これらのレイヤーは画像特徴をジョイント埋め込み空間にマッピングするために使用され、テキスト特徴と比較して異常マップを生成することができる。 さらに、参照画像が利用可能である場合には、複数のメモリバンクを使用して、それらの特徴を格納し、テストフェーズにおけるテスト画像の特徴と比較する。 この課題において,本手法はゼロショットトラックにおいて,特にセグメンテーションに優れ,F1スコアは第2ランクの参加者よりも0.0489向上した。 さらに,全参加チームの中ではF1のスコアが0.8687で,第4位を総合的に確保した。

In this technical report, we briefly introduce our solution for the Zero/Few-shot Track of the Visual Anomaly and Novelty Detection (VAND) 2023 Challenge. For industrial visual inspection, building a single model that can be rapidly adapted to numerous categories without or with only a few normal reference images is a promising research direction. This is primarily because of the vast variety of the product types. For the zero-shot track, we propose a solution based on the CLIP model by adding extra linear layers. These layers are used to map the image features to the joint embedding space, so that they can compare with the text features to generate the anomaly maps. Besides, when the reference images are available, we utilize multiple memory banks to store their features and compare them with the features of the test images during the testing phase. In this challenge, our method achieved first place in the zero-shot track, especially excelling in segmentation with an impressive F1 score improvement of 0.0489 over the second-ranked participant. Furthermore, in the few-shot track, we secured the fourth position overall, with our classification F1 score of 0.8687 ranking first among all participating teams.
翻訳日:2023-05-30 19:44:02 公開日:2023-05-27
# 逆損失と遷移を考慮したオンライン強化学習

No-Regret Online Reinforcement Learning with Adversarial Losses and Transitions ( http://arxiv.org/abs/2305.17380v1 )

ライセンス: Link先を確認
Tiancheng Jin, Junyan Liu, Chlo\'e Rouyer, William Chan, Chen-Yu We, Haipeng Luo(参考訳) 既存の対戦型マルコフ決定過程のオンライン学習アルゴリズムは、もし損失関数が敵によって任意に選択されたとしても、その遷移関数が固定されなければならないという注意を払っても、$T$の相互作用の後に${O}(\sqrt{T})$後悔を達成する。 これは、対向遷移関数が非回帰学習を不可能にすることが示されているためである。 このような不合理な結果にもかかわらず、本研究では、敵の悪意の程度で後悔がスムーズに増加し、敵の損失と敵の遷移の両方を処理できるアルゴリズムを開発する。 より具体的には、まず、$\widetilde{O}}(\sqrt{T} + C^{\textsf{P}})$ regret ここで、$C^{\textsf{P}}$は、遷移関数がいかに敵対的であり、少なくとも${O}(T)$であるかを測るアルゴリズムを提案する。 このアルゴリズム自体は$c^{\textsf{p}}$の知識を必要とするが、我々はこの要件を取り除くブラックボックス還元アプローチをさらに開発する。 さらに、アルゴリズムのさらなる改良は、同じ後悔のバウンドを維持するだけでなく、より簡単な環境(jin et al.[2021]のように確率的に制約された方法で損失が生成される)にも同時に適応し、$\widetilde{{{o}}(u + \sqrt{uc^{\textsf{l}}} + c^{\textsf{p}})$ regret、ここでは$u$は標準のギャップ依存係数であり、$c^{\textsf{l}}$は損失に対する腐敗の量である。

Existing online learning algorithms for adversarial Markov Decision Processes achieve ${O}(\sqrt{T})$ regret after $T$ rounds of interactions even if the loss functions are chosen arbitrarily by an adversary, with the caveat that the transition function has to be fixed. This is because it has been shown that adversarial transition functions make no-regret learning impossible. Despite such impossibility results, in this work, we develop algorithms that can handle both adversarial losses and adversarial transitions, with regret increasing smoothly in the degree of maliciousness of the adversary. More concretely, we first propose an algorithm that enjoys $\widetilde{{O}}(\sqrt{T} + C^{\textsf{P}})$ regret where $C^{\textsf{P}}$ measures how adversarial the transition functions are and can be at most ${O}(T)$. While this algorithm itself requires knowledge of $C^{\textsf{P}}$, we further develop a black-box reduction approach that removes this requirement. Moreover, we also show that further refinements of the algorithm not only maintains the same regret bound, but also simultaneously adapts to easier environments (where losses are generated in a certain stochastically constrained manner as in Jin et al.[2021]) and achieves $\widetilde{{O}}(U + \sqrt{UC^{\textsf{L}}} + C^{\textsf{P}})$ regret, where $U$ is some standard gap-dependent coefficient and $C^{\textsf{L}}$ is the amount of corruption on losses.
翻訳日:2023-05-30 19:43:37 公開日:2023-05-27
# 言語モデルに基づくテキスト-SQLセマンティックパーシングにおける一般化の改善:2つの単純なセマンティック境界ベース手法

Improving Generalization in Language Model-Based Text-to-SQL Semantic Parsing: Two Simple Semantic Boundary-Based Techniques ( http://arxiv.org/abs/2305.17378v1 )

ライセンス: Link先を確認
Daking Rai, Bailin Wang, Yilun Zhou and Ziyu Yao(参考訳) 合成およびドメインの一般化は、事前訓練された言語モデル(LM)に基づく最先端のセマンティックパーサに対しても、セマンティックパーシングにおいて重要な課題となる。 本研究では, トークンレベルでは, lmトークン化器が生成するトークンの意味的境界を保存するトークン前処理手法を導入し, シーケンスレベルでは, 入力と出力の間に配列されたコンポーネントの境界をマークするために特別なトークンを用いることを提案する。 2つのテキストからSQLへのセマンティックパーシングデータセットによる実験結果から,トークン前処理は単純ではあるが,両タイプの一般化におけるLM性能を大幅に向上させることができることがわかった。

Compositional and domain generalization present significant challenges in semantic parsing, even for state-of-the-art semantic parsers based on pre-trained language models (LMs). In this study, we empirically investigate improving an LM's generalization in semantic parsing with two simple techniques: at the token level, we introduce a token preprocessing method to preserve the semantic boundaries of tokens produced by LM tokenizers; at the sequence level, we propose to use special tokens to mark the boundaries of components aligned between input and output. Our experimental results on two text-to-SQL semantic parsing datasets show that our token preprocessing, although simple, can substantially improve the LM performance on both types of generalization, and our component boundary marking method is particularly helpful for compositional generalization.
翻訳日:2023-05-30 19:42:59 公開日:2023-05-27
# wavepf: 赤外線および可視画像のためのウェーブレット誘導プールに基づく新しい融合手法

WavePF: A Novel Fusion Approach based on Wavelet-guided Pooling for Infrared and Visible Images ( http://arxiv.org/abs/2305.17376v1 )

ライセンス: Link先を確認
Hui Li, Yongbiao Xiao, Chunyang Cheng, Zhongwei Shen, Xiaoning Song(参考訳) 赤外線および可視画像融合は、下降タスクの促進に使用できる、優れた特徴と豊富なテクスチャ詳細を含む合成画像を同時に生成することを目的としている。 しかし, 既存の核融合法は, テクスチャロスやエッジ情報不足の問題に悩まされており, 結果として準最適核融合が生じる。 一方、ストレートフォワードアップサンプリングオペレータは、マルチスケールの特徴からソース情報を十分に保存できない。 これらの問題に対処するため、ウェーブレット誘導プール法(ウェーブプール法)に基づく新しい融合ネットワークをWavePFと呼ぶ。 具体的には、ウェーブプールに基づくエンコーダは、複数スケールの画像とソース画像の詳細な特徴を同時に抽出するように設計されている。 さらに,空間的注意モデルを用いて,これらの特徴を集約する。 その後、融合した特徴はデコーダによって再構成され、アップサンプリング演算子がウェーブプール反転操作に置き換えられる。 一般的な最大サンプリング技術とは異なり、ウェーブプール層後の画像特徴は豊富な詳細情報を保持でき、融合プロセスの恩恵を受けることができる。 この場合、再建段階では、リッチテクスチャの詳細とマルチスケール情報を維持することができる。 実験結果から,複数の画像融合ベンチマークにおいて,本手法は最先端の核融合性能を示すことが示された。

Infrared and visible image fusion aims to generate synthetic images simultaneously containing salient features and rich texture details, which can be used to boost downstream tasks. However, existing fusion methods are suffering from the issues of texture loss and edge information deficiency, which result in suboptimal fusion results. Meanwhile, the straight-forward up-sampling operator can not well preserve the source information from multi-scale features. To address these issues, a novel fusion network based on the wavelet-guided pooling (wave-pooling) manner is proposed, termed as WavePF. Specifically, a wave-pooling based encoder is designed to extract multi-scale image and detail features of source images at the same time. In addition, the spatial attention model is used to aggregate these salient features. After that, the fused features will be reconstructed by the decoder, in which the up-sampling operator is replaced by the wave-pooling reversed operation. Different from the common max-pooling technique, image features after the wave-pooling layer can retain abundant details information, which can benefit the fusion process. In this case, rich texture details and multi-scale information can be maintained during the reconstruction phase. The experimental results demonstrate that our method exhibits superior fusion performance over the state-of-the-arts on multiple image fusion benchmarks
翻訳日:2023-05-30 19:42:46 公開日:2023-05-27
# 多言語質問と回答生成のための実践的ツールキット

A Practical Toolkit for Multilingual Question and Answer Generation ( http://arxiv.org/abs/2305.17416v1 )

ライセンス: Link先を確認
Asahi Ushio and Fernando Alva-Manchego and Jose Camacho-Collados(参考訳) テキストからの質問の生成と関連する回答は、学生向けの読解テストの作成や、クエリに基づいた補助的な質問や回答を提供することによる文書検索の改善など、いくつかの領域で応用されている。 質問と回答の生成のためのトレーニングモデル(QAG)は、期待される構造化された出力(すなわち質問と回答のペアのリスト)のため簡単ではない。 これにより、少数の公開アクセス可能なQAGモデルが得られる。 本稿では,マルチ言語QAGのオンラインサービスであるAutoQGと,モデル微調整,生成,評価のためのオールインワンPythonパッケージであるlmqgを紹介する。 また、事前訓練されたエンコーダ-デコーダ言語モデルのいくつかの変種を微調整した8言語でQAGモデルをリリースしています。 これらのリソースにより、あらゆるレベルの実践者は、エンドユーザのためのwebインターフェースや、カスタムモデルや生成のためのきめ細かいコントロールを必要とする開発者にとって使いやすいコードを含むツールキットの恩恵を受けることができる。

Generating questions along with associated answers from a text has applications in several domains, such as creating reading comprehension tests for students, or improving document search by providing auxiliary questions and answers based on the query. Training models for question and answer generation (QAG) is not straightforward due to the expected structured output (i.e. a list of question and answer pairs), as it requires more than generating a single sentence. This results in a small number of publicly accessible QAG models. In this paper, we introduce AutoQG, an online service for multilingual QAG, along with lmqg, an all-in-one Python package for model fine-tuning, generation, and evaluation. We also release QAG models in eight languages fine-tuned on a few variants of pre-trained encoder-decoder language models, which can be used online via AutoQG or locally via lmqg. With these resources, practitioners of any level can benefit from a toolkit that includes a web interface for end users, and easy-to-use code for developers who require custom models or fine-grained controls for generation.
翻訳日:2023-05-30 19:37:21 公開日:2023-05-27
# マルチモーダルコードブックによるより良いテキスト画像翻訳の探索

Exploring Better Text Image Translation with Multimodal Codebook ( http://arxiv.org/abs/2305.17415v1 )

ライセンス: Link先を確認
Zhibin Lan, Jiawei Yu, Xiang Li, Wen Zhang, Jian Luan, Bin Wang, Degen Huang, Jinsong Su(参考訳) テキスト画像翻訳(TIT)は、画像に埋め込まれたテキストをターゲット翻訳に変換することを目的としており、幅広い応用があり、重要な研究価値を持つ。 しかし、TITに関する最近の研究は2つの主要なボトルネックに直面している。 1) このタスクにはTITデータセットが公開されていない。 2) 支配的モデルはカスケード方式で構築され, 光文字認識(OCR)の誤差伝播に悩まされる傾向にある。 本研究ではまず,中国語のTITデータセットOCRMT30Kに注釈を付け,その後の研究に便宜を提供する。 そこで本研究では,画像と関連するテキストを関連付け,翻訳に有用な補足情報を提供するマルチモーダルコードブックを用いたTITモデルを提案する。 さらに、テキスト機械翻訳、画像テキストアライメント、TITタスクを含む多段階トレーニングフレームワークを提案し、追加のバイリンガルテキスト、OCRデータセット、OCRMT30Kデータセットをフル活用してモデルをトレーニングします。 広範な実験と詳細な分析は,提案するモデルとトレーニングフレームワークの有効性を強く実証する。

Text image translation (TIT) aims to translate the source texts embedded in the image to target translations, which has a wide range of applications and thus has important research value. However, current studies on TIT are confronted with two main bottlenecks: 1) this task lacks a publicly available TIT dataset, 2) dominant models are constructed in a cascaded manner, which tends to suffer from the error propagation of optical character recognition (OCR). In this work, we first annotate a Chinese-English TIT dataset named OCRMT30K, providing convenience for subsequent studies. Then, we propose a TIT model with a multimodal codebook, which is able to associate the image with relevant texts, providing useful supplementary information for translation. Moreover, we present a multi-stage training framework involving text machine translation, image-text alignment, and TIT tasks, which fully exploits additional bilingual texts, OCR dataset and our OCRMT30K dataset to train our model. Extensive experiments and in-depth analyses strongly demonstrate the effectiveness of our proposed model and training framework.
翻訳日:2023-05-30 19:37:02 公開日:2023-05-27
# 早期訓練におけるクラス選択ニューロンの役割について

On the special role of class-selective neurons in early training ( http://arxiv.org/abs/2305.17409v1 )

ライセンス: Link先を確認
Omkar Ranadive, Nikhil Thakurdesai, Ari S Morcos, Matthew Leavitt, St\'ephane Deny(参考訳) 分類のために訓練された深層ネットワークは、その初期層と中間層にクラス選択的ニューロンを示すことが一般的である。 興味深いことに、最近の研究では、これらのクラス選択性ニューロンはネットワーク機能を低下させることなく減少させることができることが示されている。 しかし、もしクラス選択ニューロンが必要でなければ、なぜ存在するのか? 我々は、ImageNetでトレーニングされたResNet-50の一連の実験で、この問題に答えようとしている。 まず, クラス選択ニューロンは, トレーニング開始後数年で出現し, 急速に回復するが, 完全ではないことを示し, 学習ネットワークで見られるクラス選択ニューロンは, 早期訓練の既往の遺残であることが示唆された。 単一ニューロンアブレーション実験により,この初期トレーニングにおいて,クラス選択性ニューロンがネットワーク機能にとって重要であることを示した。 また,ネットワークはこの初期段階において線形状態に近いことから,分類タスクの準線形ショートカット解として,クラス選択性ニューロンが訓練の初期段階に現れると推測する。 最後に、訓練の異なる点におけるクラス選択性に対して正則化を行う因果実験において、トレーニングの初期におけるクラス選択性ニューロンの存在がネットワークのトレーニングの成功に重要であることを示す。 トレーニングの初期段階におけるクラス選択的ニューロンの存在のメカニズムがネットワークのトレーニングの成功に寄与するかは、まだ理解されていない。

It is commonly observed that deep networks trained for classification exhibit class-selective neurons in their early and intermediate layers. Intriguingly, recent studies have shown that these class-selective neurons can be ablated without deteriorating network function. But if class-selective neurons are not necessary, why do they exist? We attempt to answer this question in a series of experiments on ResNet-50s trained on ImageNet. We first show that class-selective neurons emerge during the first few epochs of training, before receding rapidly but not completely; this suggests that class-selective neurons found in trained networks are in fact vestigial remains of early training. With single-neuron ablation experiments, we then show that class-selective neurons are important for network function in this early phase of training. We also observe that the network is close to a linear regime in this early phase; we thus speculate that class-selective neurons appear early in training as quasi-linear shortcut solutions to the classification task. Finally, in causal experiments where we regularize against class selectivity at different points in training, we show that the presence of class-selective neurons early in training is critical to the successful training of the network; in contrast, class-selective neurons can be suppressed later in training with little effect on final accuracy. It remains to be understood by which mechanism the presence of class-selective neurons in the early phase of training contributes to the successful training of networks.
翻訳日:2023-05-30 19:36:42 公開日:2023-05-27
# AdaptGear:GPU上でのAdaptive Subgraph-LevelカーネルによるGNNトレーニングの高速化

AdaptGear: Accelerating GNN Training via Adaptive Subgraph-Level Kernels on GPUs ( http://arxiv.org/abs/2305.17408v1 )

ライセンス: Link先を確認
Yangjie Zhou, Yaoxu Song, Jingwen Leng, Zihan Liu, Weihao Cui, Zhendong Zhang, Cong Guo, Quan Chen, Li Li, Minyi Guo(参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造や機能から探索および学習するための強力なツールである。 そのため、GNNの高性能実行が重要となる。 以前の研究は、フルグラフレベルまたはブロックレベルのスパーシティフォーマットを使用するgnnを加速するために入力グラフのスパーシティ(すなわち低密度)を探索することを提案した。 私たちは、スパーシティの利点とカーネルの実行効率のバランスが取れないことを示します。 本稿では,サブグラフレベルの密度特性に合わせたカーネルを活用することで,GNNの性能を最適化する課題に対処する,AdaptGearと呼ばれる新しいシステムを提案する。 また,与えられた入力グラフに対して最適なカーネル群を動的に選択する手法を提案する。 我々の評価によると、AdaptGearは、さまざまなデータセットにわたる2つのメインストリームのNVIDIA GPU上での最先端の作業よりも、最大6.49 \times$(1.87 \times$)の大幅なパフォーマンス向上を実現している。

Graph neural networks (GNNs) are powerful tools for exploring and learning from graph structures and features. As such, achieving high-performance execution for GNNs becomes crucially important. Prior works have proposed to explore the sparsity (i.e., low density) in the input graph to accelerate GNNs, which uses the full-graph-level or block-level sparsity format. We show that they fail to balance the sparsity benefit and kernel execution efficiency. In this paper, we propose a novel system, referred to as AdaptGear, that addresses the challenge of optimizing GNNs performance by leveraging kernels tailored to the density characteristics at the subgraph level. Meanwhile, we also propose a method that dynamically chooses the optimal set of kernels for a given input graph. Our evaluation shows that AdaptGear can achieve a significant performance improvement, up to $6.49 \times$ ($1.87 \times$ on average), over the state-of-the-art works on two mainstream NVIDIA GPUs across various datasets.
翻訳日:2023-05-30 19:36:19 公開日:2023-05-27
# 母国語翻訳の強化:多言語モデルによる実験

Enhancing Translation for Indigenous Languages: Experiments with Multilingual Models ( http://arxiv.org/abs/2305.17406v1 )

ライセンス: Link先を確認
Atnafu Lambebo Tonja, Hellina Hailu Nigatu, Olga Kolesnikova, Grigori Sidorov, Alexander Gelbukh, Jugal Kalita(参考訳) 本稿では,CIC NLPがアメリカスNLP 2023に提出したアメリカ先住民語機械翻訳システムにおける共有タスクについて述べる。 本稿では,3つの方法のシステム記述について述べる。 我々はM2M-100とmBART50という2つの多言語モデルと1つのバイリンガル(1対1)-ヘルシンキNLPスペイン語翻訳モデルを使い、異なるトランスファー学習装置で実験した。 アメリカから11の言語を実験し、使用したセットアップと、達成した成果を報告しました。 全体として、mBARTセットアップは11言語中3言語でベースラインを改善することができた。

This paper describes CIC NLP's submission to the AmericasNLP 2023 Shared Task on machine translation systems for indigenous languages of the Americas. We present the system descriptions for three methods. We used two multilingual models, namely M2M-100 and mBART50, and one bilingual (one-to-one) -- Helsinki NLP Spanish-English translation model, and experimented with different transfer learning setups. We experimented with 11 languages from America and report the setups we used as well as the results we achieved. Overall, the mBART setup was able to improve upon the baseline for three out of the eleven languages.
翻訳日:2023-05-30 19:36:00 公開日:2023-05-27
# ネイティブ言語翻訳のための並列コーパス:スペイン語-マサテック語とスペイン語-ミクシュテカ語

Parallel Corpus for Indigenous Language Translation: Spanish-Mazatec and Spanish-Mixtec ( http://arxiv.org/abs/2305.17404v1 )

ライセンス: Link先を確認
Atnafu Lambebo Tonja, Christian Maldonado-Sifuentes, David Alejandro Mendoza Castillo, Olga Kolesnikova, No\'e Castro-S\'anchez, Grigori Sidorov, Alexander Gelbukh(参考訳) 本稿では,MazatecとMixtecがメキシコ原産の2つの言語である,機械翻訳(MT)タスクのための並列なスペイン語-Mazatecとスペイン語-Mixtecコーパスを提案する。 トランスフォーマー,転送学習,事前学習された多言語mtモデルという3つのアプローチを用いて,収集したコーパスのユーザビリティを評価した。 facebook m2m100-48モデルの微調整は、それぞれマサテカ・スペイン・マサテカ翻訳で12.09点、22.25点、ミシュテカ・スペイン・ミシュテカ翻訳で16.75点、22.15点という他のアプローチよりも優れていた。 その結果,Mixtecのデータセットサイズ(9,799文),Mixtecの13,235文)が翻訳性能に影響を及ぼし,対象言語として使用する場合のネイティブ言語の性能が向上した。 この知見は,低リソース翻訳タスクにおいて,ネイティブ言語のための並列コーパスの作成と微調整モデルの重要性を強調した。 今後,低リソース環境での翻訳性能を向上させるため,ゼロショットおよび少数ショット学習アプローチについて検討する。 データセットとスクリプトは \url{https://github.com/atnafuatx/Machine-Translation-Resources} で入手できる。

In this paper, we present a parallel Spanish-Mazatec and Spanish-Mixtec corpus for machine translation (MT) tasks, where Mazatec and Mixtec are two indigenous Mexican languages. We evaluated the usability of the collected corpus using three different approaches: transformer, transfer learning, and fine-tuning pre-trained multilingual MT models. Fine-tuning the Facebook M2M100-48 model outperformed the other approaches, with BLEU scores of 12.09 and 22.25 for Mazatec-Spanish and Spanish-Mazatec translations, respectively, and 16.75 and 22.15 for Mixtec-Spanish and Spanish-Mixtec translations, respectively. The findings show that the dataset size (9,799 sentences in Mazatec and 13,235 sentences in Mixtec) affects translation performance and that indigenous languages work better when used as target languages. The findings emphasize the importance of creating parallel corpora for indigenous languages and fine-tuning models for low-resource translation tasks. Future research will investigate zero-shot and few-shot learning approaches to further improve translation performance in low-resource settings. The dataset and scripts are available at \url{https://github.com/atnafuatx/Machine-Translation-Resources}
翻訳日:2023-05-30 19:35:49 公開日:2023-05-27
# SSVEPを用いた脳-コンピュータインタフェースのためのDNNのソースフリードメイン適応

Source Free Domain Adaptation of a DNN for SSVEP-based Brain-Computer Interfaces ( http://arxiv.org/abs/2305.17403v1 )

ライセンス: Link先を確認
Osman Berke Guney, Deniz Kucukahmetler and Huseyin Ozkan(参考訳) 本稿では、定常視覚誘発電位(SSVEP)に基づく脳-コンピュータインタフェース(BCI)スペルに対するソースフリードメイン適応手法を提案する。 ssvepベースのbciスペラは、発話困難を経験する個人を助け、高速でコミュニケーションを可能にする。 しかし,現在の方法では,高情報伝達率(ITR)を実現するには,システムを使用する前に広い校正期間を必要とするため,新規ユーザの不快感が生じる。 我々は、新しいユーザ(ターゲットドメイン)のラベル付きデータのみを使用して、ソースドメイン(ラベル付きデータ収集のための以前の実験の参加者)のデータに事前トレーニングされたディープニューラルネットワーク(DNN)を適用する方法を提案する。 この適応は、自己適応と局所正規性損失項からなるカスタム損失関数を最小化する。 自己適応項は擬似ラベル戦略を使い、新しい局所規則項はデータ構造を利用してDNNに同じラベルを隣接インスタンスに割り当てるよう強制する。 ベンチマークとベータデータセットでそれぞれ201.15ビット/minと145.02ビット/minのitrを達成し、最先端の代替技術よりも優れています。 提案手法は,ユーザの不快感を軽減し,優れた識別性能を示すため,日常生活におけるSSVEPベースのBCIシステムの普及に寄与する可能性がある。

This paper presents a source free domain adaptation method for steady-state visually evoked potential (SSVEP) based brain-computer interface (BCI) spellers. SSVEP-based BCI spellers help individuals experiencing speech difficulties, enabling them to communicate at a fast rate. However, achieving a high information transfer rate (ITR) in the current methods requires an extensive calibration period before using the system, leading to discomfort for new users. We address this issue by proposing a method that adapts the deep neural network (DNN) pre-trained on data from source domains (participants of previous experiments conducted for labeled data collection), using only the unlabeled data of the new user (target domain). This adaptation is achieved by minimizing our proposed custom loss function composed of self-adaptation and local-regularity loss terms. The self-adaptation term uses the pseudo-label strategy, while the novel local-regularity term exploits the data structure and forces the DNN to assign the same labels to adjacent instances. Our method achieves striking 201.15 bits/min and 145.02 bits/min ITRs on the benchmark and BETA datasets, respectively, and outperforms the state-of-the-art alternative techniques. Our approach alleviates user discomfort and shows excellent identification performance, so it would potentially contribute to the broader application of SSVEP-based BCI systems in everyday life.
翻訳日:2023-05-30 19:35:20 公開日:2023-05-27
# マルチユニットオークションにおけるオンライン学習

Online Learning in Multi-unit Auctions ( http://arxiv.org/abs/2305.17402v1 )

ライセンス: Link先を確認
Simina Br\^anzei and Mahsa Derakhshan and Negin Golrezaei and Yanjun Han(参考訳) 我々は,炭素ライセンスなどの商品の割当に広く用いられている,均一価格の複数単位のオークションを繰り返すことを検討する。 各ラウンドにおいて、$k$の同一のユニットは、限界リターンを減少させるバリュエーションを持つバリュエーションを持つグループに販売される。 購入者は各ユニットの入札を提出し、各ユニットごとに$p$が設定され、すべてのユニットが販売される。 我々は、オークションの2つのバリエーションを検討し、価格がそれぞれk$-th highest bidと$(k+1)$-st highest bidに設定される。 我々は、このオークションのプロパティをオフラインとオンラインの両方の設定で分析する。 オフライン環境では、1人のプレイヤーが対面している問題を考える:過去のオークションで競合が提示した入札を含むデータセットへのアクセスを与えられた場合、データセット上のプレイヤー$i$の累積ユーティリティを最大化する入札ベクターを見つける。 この問題に対して多項式時間アルゴリズムを設計し、慎重に構築された有向非巡回グラフ上で最大重み付き経路を求めることに等価であることを示す。 オンライン環境では、プレイヤーは学習アルゴリズムを実行し、オークションに参加するときに入札を更新する。 オフラインアルゴリズムに基づいて、入札のための効率的なオンライン学習アルゴリズムを設計する。 アルゴリズムは、完全な情報とバンディットフィードバック構造の両方の下で、サブリニアな後悔を持っている。 私たちはオンライン学習アルゴリズムを後悔の少ない限界で補完します。 最後に、入札者間のゲームにおけるコアソリューション概念のレンズを通して、最悪の場合における平衡の質を分析する。 我々は、$(K+1)$-stの価格フォーマットが入札者間の共謀の影響を受けやすいことを示し、一方で、$K$-thの価格フォーマットにはこの問題がない。

We consider repeated multi-unit auctions with uniform pricing, which are widely used in practice for allocating goods such as carbon licenses. In each round, $K$ identical units of a good are sold to a group of buyers that have valuations with diminishing marginal returns. The buyers submit bids for the units, and then a price $p$ is set per unit so that all the units are sold. We consider two variants of the auction, where the price is set to the $K$-th highest bid and $(K+1)$-st highest bid, respectively. We analyze the properties of this auction in both the offline and online settings. In the offline setting, we consider the problem that one player $i$ is facing: given access to a data set that contains the bids submitted by competitors in past auctions, find a bid vector that maximizes player $i$'s cumulative utility on the data set. We design a polynomial time algorithm for this problem, by showing it is equivalent to finding a maximum-weight path on a carefully constructed directed acyclic graph. In the online setting, the players run learning algorithms to update their bids as they participate in the auction over time. Based on our offline algorithm, we design efficient online learning algorithms for bidding. The algorithms have sublinear regret, under both full information and bandit feedback structures. We complement our online learning algorithms with regret lower bounds. Finally, we analyze the quality of the equilibria in the worst case through the lens of the core solution concept in the game among the bidders. We show that the $(K+1)$-st price format is susceptible to collusion among the bidders; meanwhile, the $K$-th price format does not have this issue.
翻訳日:2023-05-30 19:34:55 公開日:2023-05-27
# 学術論文からテキスト分類とオブジェクト認識を洗練するためのフレームワーク

A Framework For Refining Text Classification and Object Recognition from Academic Articles ( http://arxiv.org/abs/2305.17401v1 )

ライセンス: Link先を確認
Jinghong Li, Koichi Ota, Wen Gu, Shinobu Hasegawa(参考訳) インターネットの普及に伴い、大量の学術論文から特定の情報を効率的に抽出することがますます重要になっている。 データマイニング技術は一般にこの問題を解決するために用いられる。 しかし, 学術論文のデータマイニングは, 複雑かつ非構造的なレイアウト文書中の特定のパターンを自動的に抽出する必要があるため, 困難である。 現在の学術論文のデータマイニング手法はルールベース(RB)または機械学習(ML)アプローチを採用している。 しかし、ルールベースの手法を用いることで複雑なタイプセット記事のコーディングコストが高くなる。 一方、単に機械学習手法を用いることで、論文内の複雑なコンテンツタイプに対するアノテーション作業が必要となり、コストがかかる可能性がある。 さらに、機械学習のみを用いることで、ルールベースの手法で容易に認識できるパターンを誤って抽出するケースが生まれる。 これらの課題を克服するために,特定出版物で使用される標準レイアウトと型設定の分析の観点から,学術論文に特有の特徴を具体化する手法を強調する。 我々は,機械学習とルールベースのスキームハイブリッドであるテキストブロック精錬フレームワーク(TBRF)を開発した。 検証実験では,有名なACL論文を実験データとして使用した。 実験の結果,表や図の95%以上の分類精度と90%以上の検出精度が得られた。

With the widespread use of the internet, it has become increasingly crucial to extract specific information from vast amounts of academic articles efficiently. Data mining techniques are generally employed to solve this issue. However, data mining for academic articles is challenging since it requires automatically extracting specific patterns in complex and unstructured layout documents. Current data mining methods for academic articles employ rule-based(RB) or machine learning(ML) approaches. However, using rule-based methods incurs a high coding cost for complex typesetting articles. On the other hand, simply using machine learning methods requires annotation work for complex content types within the paper, which can be costly. Furthermore, only using machine learning can lead to cases where patterns easily recognized by rule-based methods are mistakenly extracted. To overcome these issues, from the perspective of analyzing the standard layout and typesetting used in the specified publication, we emphasize implementing specific methods for specific characteristics in academic articles. We have developed a novel Text Block Refinement Framework (TBRF), a machine learning and rule-based scheme hybrid. We used the well-known ACL proceeding articles as experimental data for the validation experiment. The experiment shows that our approach achieved over 95% classification accuracy and 90% detection accuracy for tables and figures.
翻訳日:2023-05-30 19:34:28 公開日:2023-05-27
# 優先型強化学習におけるクエリ・ポリティクスのミスアライメント

Query-Policy Misalignment in Preference-Based Reinforcement Learning ( http://arxiv.org/abs/2305.17400v1 )

ライセンス: Link先を確認
Xiao Hu, Jianxiong Li, Xianyuan Zhan, Qing-Shan Jia, Ya-Qin Zhang(参考訳) 嗜好に基づく強化学習(PbRL)は、RLエージェントの振る舞いを人間の望ましい結果と整合させる自然な方法を提供するが、コストのかかる人間のフィードバックによって抑制されることが多い。 フィードバック効率を向上させるため,既存のPbRL手法の多くは,報酬モデル全体の品質を最大化するためにクエリの選択に重点を置いている。 この謎を解くために、既存のPbRL研究のクエリ選択スキームにおいて、長年無視されてきた問題を特定する: Query-Policy Misalignment。 報酬モデル全体の品質を改善するために選択された一見有意義なクエリは、実際にはRLエージェントの関心と一致せず、政策学習にはほとんど役立ちず、結果としてフィードバック効率が低下することを示します。 この課題は,双方向のクエリとポリシのアライメントを両立させる特別に設計されたハイブリッド・エクスペリエンス・リプレイによって効果的に解決できることを示す。 シンプルでエレガントな手法で、数行のコードだけを変更することで、既存のアプローチに容易に組み込むことができます。 提案手法は,PbRLタスクにおけるクエリ・ポリティクスのミスアライメントに対処することの重要性を実証し,人間のフィードバックとRLサンプルの効率の両面で大幅に向上することを示す。

Preference-based reinforcement learning (PbRL) provides a natural way to align RL agents' behavior with human desired outcomes, but is often restrained by costly human feedback. To improve feedback efficiency, most existing PbRL methods focus on selecting queries to maximally improve the overall quality of the reward model, but counter-intuitively, we find that this may not necessarily lead to improved performance. To unravel this mystery, we identify a long-neglected issue in the query selection schemes of existing PbRL studies: Query-Policy Misalignment. We show that the seemingly informative queries selected to improve the overall quality of reward model actually may not align with RL agents' interests, thus offering little help on policy learning and eventually resulting in poor feedback efficiency. We show that this issue can be effectively addressed via near on-policy query and a specially designed hybrid experience replay, which together enforce the bidirectional query-policy alignment. Simple yet elegant, our method can be easily incorporated into existing approaches by changing only a few lines of code. We showcase in comprehensive experiments that our method achieves substantial gains in both human feedback and RL sample efficiency, demonstrating the importance of addressing query-policy misalignment in PbRL tasks.
翻訳日:2023-05-30 19:34:09 公開日:2023-05-27
# 量子状態の幾何ダイアバティック制御の実証

Demonstration of geometric diabatic control of quantum states ( http://arxiv.org/abs/2305.17434v1 )

ライセンス: Link先を確認
Kento Sasaki, Yuki Nakamura, Tokuyuki Teraji, Takashi Oka, Kensuke Kobayashi(参考訳) 幾何学効果は量子操作の合理化において重要な役割を果たす。 本研究では, ダイヤモンド中のスピン状態間の完全トンネルを, 駆動場の2次スイープにより, 幾何学的ダイアバティック制御を実証する。 完全トンネルのフィールド掃除速度は幾何振幅係数によって決定され、任意に調整することができる。 我々の結果はベリーのねじれたランダウ・ツェナーモデルの二次バージョンをテストすることによって得られる。 この幾何的チューニングは広いパラメータ範囲で堅牢である。 我々の研究は、凝縮物質物理学、量子計算、核磁気共鳴など、様々なシステムにおける量子制御の基礎を提供する。

Geometric effects can play a pivotal role in streamlining quantum manipulation. We demonstrate a geometric diabatic control, that is, perfect tunneling between spin states in a diamond by a quadratic sweep of a driving field. The field sweep speed for the perfect tunneling is determined by the geometric amplitude factor and can be tuned arbitrarily. Our results are obtained by testing a quadratic version of Berry's twisted Landau-Zener model. This geometric tuning is robust over a wide parameter range. Our work provides a basis for quantum control in various systems, including condensed matter physics, quantum computation, and nuclear magnetic resonance.
翻訳日:2023-05-30 19:26:46 公開日:2023-05-27
# マルチモーダル対話システムにおけるスロットベース応答生成のための統一フレームワーク

A Unified Framework for Slot based Response Generation in a Multimodal Dialogue System ( http://arxiv.org/abs/2305.17433v1 )

ライセンス: Link先を確認
Mauajama Firdaus, Avinash Madasu, Asif Ekbal(参考訳) 自然言語理解(NLU)と自然言語生成(NLG)は、必要な情報をスロットの形で取得し、抽出した情報に応じて適切な応答を生成することにより、ユーザを理解するタスクを処理するすべての会話システムの2つの重要なコンポーネントである。 近年,画像,音声,映像などの補完的情報と統合した対話システムが広く普及している。 本研究では,テキスト情報と視覚情報の両方を有するマルチモーダル対話システムにおいて,発話から必要なスロット値を抽出し,コヒーレント応答を生成する機能を備えたエンド・ツー・エンドのフレームワークを提案する。 必要な情報を抽出するタスクは、テキストだけでなく、対話に存在する視覚的な手がかりにも依存する。 同様に、生成には、マルチモーダル情報を含む前のダイアログコンテキストが、コヒーレントかつインフォメーションな応答を提供する上で重要である。 事前学習したDialoGPTを用いたマルチモーダル階層エンコーダと、知識ベース(Kb)を利用して、両方のタスクに対してより強力なコンテキストを提供する。 最後に、所定の発話における必要な情報に焦点を当てるスロットアテンション機構を設計する。 そして、デコーダは、与えられた対話コンテキストと抽出されたスロット値に対応する応答を生成する。 multimodal dialogue dataset (mmd) を用いた実験の結果,提案手法が両タスクのベースラインアプローチを上回っていることがわかった。 コードはhttps://github.com/avinashsai/slot-gptで入手できる。

Natural Language Understanding (NLU) and Natural Language Generation (NLG) are the two critical components of every conversational system that handles the task of understanding the user by capturing the necessary information in the form of slots and generating an appropriate response in accordance with the extracted information. Recently, dialogue systems integrated with complementary information such as images, audio, or video have gained immense popularity. In this work, we propose an end-to-end framework with the capability to extract necessary slot values from the utterance and generate a coherent response, thereby assisting the user to achieve their desired goals in a multimodal dialogue system having both textual and visual information. The task of extracting the necessary information is dependent not only on the text but also on the visual cues present in the dialogue. Similarly, for the generation, the previous dialog context comprising multimodal information is significant for providing coherent and informative responses. We employ a multimodal hierarchical encoder using pre-trained DialoGPT and also exploit the knowledge base (Kb) to provide a stronger context for both the tasks. Finally, we design a slot attention mechanism to focus on the necessary information in a given utterance. Lastly, a decoder generates the corresponding response for the given dialogue context and the extracted slot values. Experimental results on the Multimodal Dialogue Dataset (MMD) show that the proposed framework outperforms the baselines approaches in both the tasks. The code is available at https://github.com/avinashsai/slot-gpt.
翻訳日:2023-05-30 19:26:36 公開日:2023-05-27
# GMSF:グローバルマッチングシーンフロー

GMSF: Global Matching Scene Flow ( http://arxiv.org/abs/2305.17432v1 )

ライセンス: Link先を確認
Yushan Zhang, Johan Edstedt, Bastian Wandt, Per-Erik Forss\'en, Maria Magnusson, Michael Felsberg(参考訳) 我々は点雲からのシーンフロー推定の課題に取り組む。 ソースとターゲットポイントクラウドが与えられた場合、目標はソースポイントクラウドの各ポイントからターゲットへの変換を見積もることであり、結果として3dモーションベクトルフィールドが生成される。 従来主流であったシーンフロー推定手法では,多段階的な細粒化や再帰的なアーキテクチャが必要であった。 対照的に,この問題に対処するために,単発グローバルマッチングの簡易化を提案する。 私たちの重要な発見は、ポイントペア間の信頼性の高い機能類似性が不可欠であり、正確なシーンフローを推定するのに十分であることです。 そこで本研究では, 高精度でロバストな特徴表現に不可欠な, ハイブリッドな局所・グローバル・クロストランスフォーマーアーキテクチャによる特徴抽出ステップの分解を提案する。 大規模な実験により、GMSFは複数のシーンフロー推定ベンチマークに新たな最先端を設定できることがわかった。 FlyingThings3Dでは、オクルージョンポイントが存在するため、GMSFは前回の最高パフォーマンスの27.4%から11.7%に減らす。 KITTI Scene Flowでは微調整が不要であり,提案手法は最先端の性能を示す。

We tackle the task of scene flow estimation from point clouds. Given a source and a target point cloud, the objective is to estimate a translation from each point in the source point cloud to the target, resulting in a 3D motion vector field. Previous dominant scene flow estimation methods require complicated coarse-to-fine or recurrent architectures as a multi-stage refinement. In contrast, we propose a significantly simpler single-scale one-shot global matching to address the problem. Our key finding is that reliable feature similarity between point pairs is essential and sufficient to estimate accurate scene flow. To this end, we propose to decompose the feature extraction step via a hybrid local-global-cross transformer architecture which is crucial to accurate and robust feature representations. Extensive experiments show that GMSF sets a new state-of-the-art on multiple scene flow estimation benchmarks. On FlyingThings3D, with the presence of occlusion points, GMSF reduces the outlier percentage from the previous best performance of 27.4% to 11.7%. On KITTI Scene Flow, without any fine-tuning, our proposed method shows state-of-the-art performance.
翻訳日:2023-05-30 19:26:11 公開日:2023-05-27
# テキスト-画像拡散モデルによる一貫性ビデオ編集に向けて

Towards Consistent Video Editing with Text-to-Image Diffusion Models ( http://arxiv.org/abs/2305.17431v1 )

ライセンス: Link先を確認
Zicheng Zhang, Bonan Li, Xuecheng Nie, Congying Han, Tiande Guo, Luoqi Liu(参考訳) 既存の作品には、ビデオ編集のための高度なテキスト・ツー・イメージ(TTI)拡散モデルがある。 データと計算の要求が低いにもかかわらず、これらの手法はテキストプロンプトと時間的シーケンスとの整合性に乏しい結果をもたらし、現実の世界での利用を制限する。 本稿では, tti ベースのフレームワークのcons\textbf{e}nhancing v\textbf{i}deo \textbf{e}diting cons\textbf{i}stencyに対する新しい ei$^2$ モデルを提案する。 具体的には,時間情報学習のためのttiモデルに新たに加えたモジュールが不整合問題の原因であることを示す。 これらのモジュールは機能空間の共変につながり、編集能力に悪影響を及ぼす。 そこで我々は,シフト制限時間アテンションモジュール (STAM) とファイン粗いフレームアテンションモジュール (FFAM) の2つの古典モジュールを用いて,上記の欠点に対処するためにEI$^2$を設計する。 まず、理論的解析により、共変量シフトが層正規化と高い関係があることを示し、STAMは時間的特徴の分布を保存するためにそれを置換する \textit{Instance Centering} 層を用いる。 さらに、{STAM} は、分散シフトを制約しながら時間的特徴を変換するために、正規化されたマッピングを持つアテンション層を用いる。 第2部として, フレーム全体の粗大な空間情報を効率よく活用し, 時間的整合性をさらに向上する, 新規なFFAMを組み込んだ {STAM} を提案する。 テキスト駆動ビデオ編集において,提案したEI$^2$モデルの優位性を示す実験を行った。

Existing works have advanced Text-to-Image (TTI) diffusion models for video editing in a one-shot learning manner. Despite their low requirements of data and computation, these methods might produce results of unsatisfied consistency with text prompt as well as temporal sequence, limiting their applications in the real world. In this paper, we propose to address the above issues with a novel EI$^2$ model towards \textbf{E}nhancing v\textbf{I}deo \textbf{E}diting cons\textbf{I}stency of TTI-based frameworks. Specifically, we analyze and find that the inconsistent problem is caused by newly added modules into TTI models for learning temporal information. These modules lead to covariate shift in the feature space, which harms the editing capability. Thus, we design EI$^2$ to tackle the above drawbacks with two classical modules: Shift-restricted Temporal Attention Module (STAM) and Fine-coarse Frame Attention Module (FFAM). First, through theoretical analysis, we demonstrate that covariate shift is highly related to Layer Normalization, thus STAM employs a \textit{Instance Centering} layer replacing it to preserve the distribution of temporal features. In addition, {STAM} employs an attention layer with normalized mapping to transform temporal features while constraining the variance shift. As the second part, we incorporate {STAM} with a novel {FFAM}, which efficiently leverages fine-coarse spatial information of overall frames to further enhance temporal consistency. Extensive experiments demonstrate the superiority of the proposed EI$^2$ model for text-driven video editing.
翻訳日:2023-05-30 19:25:53 公開日:2023-05-27
# 適切な重みの選択:レコメンダシステムにおける価値、戦略、ノイズのバランス

Choosing the Right Weights: Balancing Value, Strategy, and Noise in Recommender Systems ( http://arxiv.org/abs/2305.17428v1 )

ライセンス: Link先を確認
Smitha Milli, Emma Pierson, Nikhil Garg(参考訳) 多くのレコメンダシステムは、クリック、いいね!、シェアなど、異なるユーザーの行動の線形重み付けを最適化することに基づいている。 重量の選択は大きな影響を与える可能性があるが、その選択方法に関する正式な研究やガイダンスはほとんどない。 重みの最適選択は、重みに戦略的に反応するユーザーとコンテンツ制作者の両方の観点から分析する。 我々は,ユーザの行動の3つの側面について考察する。すなわち,価値満足性(ユーザがコンテンツの価値を評価できるかを示す行動の程度),戦略ロバスト性(プロデューサが振る舞いを操作するのがいかに難しいか),無意味性(行動を予測する上での推測誤差がどの程度あるか)である。 提案手法では, 提案手法では, 消費者にとって, 付加価値や騒音の少ない行動は, 高い実用性をもたらすが, 生産者においては, 付加価値や戦略ロバスト行動の増大は, 高い福祉(騒音の影響は単調ではない)をもたらす。 最後に、システム設計者が実際に重みを選択できる方法について議論する。

Many recommender systems are based on optimizing a linear weighting of different user behaviors, such as clicks, likes, shares, etc. Though the choice of weights can have a significant impact, there is little formal study or guidance on how to choose them. We analyze the optimal choice of weights from the perspectives of both users and content producers who strategically respond to the weights. We consider three aspects of user behavior: value-faithfulness (how well a behavior indicates whether the user values the content), strategy-robustness (how hard it is for producers to manipulate the behavior), and noisiness (how much estimation error there is in predicting the behavior). Our theoretical results show that for users, upweighting more value-faithful and less noisy behaviors leads to higher utility, while for producers, upweighting more value-faithful and strategy-robust behaviors leads to higher welfare (and the impact of noise is non-monotonic). Finally, we discuss how our results can help system designers select weights in practice.
翻訳日:2023-05-30 19:25:17 公開日:2023-05-27
# FISEdit:キャッシュ対応スパース拡散推論によるテキスト画像編集の高速化

FISEdit: Accelerating Text-to-image Editing via Cache-enabled Sparse Diffusion Inference ( http://arxiv.org/abs/2305.17423v1 )

ライセンス: Link先を確認
Zihao Yu, Haoyang Li, Fangcheng Fu, Xupeng Miao, Bin Cui(参考訳) 近年の拡散モデルの成功により,テキスト・画像生成が普及し,幅広い応用が達成されている。 その中でも、テキスト・ツー・イメージの編集や連続的なテキスト・ツー・イメージ生成は、多くの注目を集め、生成した画像の品質を向上させる可能性がある。 ユーザは、何ラウンドかの拡散推論のために入力テキスト記述を微調整することで、生成した画像をわずかに編集したいと考えるのが一般的です。 しかし、そのような画像編集プロセスは、GPUアクセラレーターを使用しても、既存の多くの拡散モデルの低推論効率に悩まされる。 この問題を解決するために,キャッシュ型スパース拡散モデル推論エンジンであるFast Image Semantically Edit (FISEdit)を導入する。 このアプローチの背後にある重要な直感は、入力テキストのマイナーな変更と出力画像の影響を受ける領域の間のセマンティックマッピングを利用することです。 テキスト編集ステップ毎に、FISEditは影響を受ける画像領域を自動で識別し、キャッシュされた未変更領域の特徴マップを利用して推論プロセスを高速化する。 大規模な実験結果によると、FISEditはNVIDIA TITAN RTXとA100 GPUの既存の方法よりも3.4\times$と4.4\times$で、より満足できる画像を生成することができる。

Due to the recent success of diffusion models, text-to-image generation is becoming increasingly popular and achieves a wide range of applications. Among them, text-to-image editing, or continuous text-to-image generation, attracts lots of attention and can potentially improve the quality of generated images. It's common to see that users may want to slightly edit the generated image by making minor modifications to their input textual descriptions for several rounds of diffusion inference. However, such an image editing process suffers from the low inference efficiency of many existing diffusion models even using GPU accelerators. To solve this problem, we introduce Fast Image Semantically Edit (FISEdit), a cached-enabled sparse diffusion model inference engine for efficient text-to-image editing. The key intuition behind our approach is to utilize the semantic mapping between the minor modifications on the input text and the affected regions on the output image. For each text editing step, FISEdit can automatically identify the affected image regions and utilize the cached unchanged regions' feature map to accelerate the inference process. Extensive empirical results show that FISEdit can be $3.4\times$ and $4.4\times$ faster than existing methods on NVIDIA TITAN RTX and A100 GPUs respectively, and even generates more satisfactory images.
翻訳日:2023-05-30 19:24:54 公開日:2023-05-27
# 感情の妥当性を理解することは、共同学習課題である

Understanding Emotion Valence is a Joint Deep Learning Task ( http://arxiv.org/abs/2305.17422v1 )

ライセンス: Link先を確認
Gabriel Roccabruna, Seyed Mahed Mousavi, Giuseppe Riccardi(参考訳) 話者の発話や文章の投稿の原子価分析は、会話を通して感情状態の活性化と変動を理解するのに役立つ。 最近では、話者が感じた感情とその表現を説明するために感情キャリア(EC)の概念が導入されている。 本研究では、マルチタスク学習手法を用いて、価値とECの自然な相互依存性について検討する。 我々は、単タスク、2ステップ、およびvalenceおよびec予測タスクのジョイント設定のための事前学習された言語モデル(plm)を実験する。 生成的アーキテクチャ(GPT-2)と識別的アーキテクチャ(BERT)の性能をそれぞれ比較,評価した。 一方のタスクの真理ラベルを提供することで、他方のタスクにおけるモデルの予測性能が向上することが観察された。 さらに,識別モデルは,共同予測設定における有価値とEC予測タスクの最良のトレードオフを達成することを観察した。 その結果、両方のタスクを実行する単一のモデルが得られるため、トレーニングや推論時に計算リソースを節約できる。

The valence analysis of speakers' utterances or written posts helps to understand the activation and variations of the emotional state throughout the conversation. More recently, the concept of Emotion Carriers (EC) has been introduced to explain the emotion felt by the speaker and its manifestations. In this work, we investigate the natural inter-dependency of valence and ECs via a multi-task learning approach. We experiment with Pre-trained Language Models (PLM) for single-task, two-step, and joint settings for the valence and EC prediction tasks. We compare and evaluate the performance of generative (GPT-2) and discriminative (BERT) architectures in each setting. We observed that providing the ground truth label of one task improves the prediction performance of the models in the other task. We further observed that the discriminative model achieves the best trade-off of valence and EC prediction tasks in the joint prediction setting. As a result, we attain a single model that performs both tasks, thus, saving computation resources at training and inference times.
翻訳日:2023-05-30 19:24:30 公開日:2023-05-27
# FoPro-KD : 長期医療画像認識のための効果的な知識蒸留法

FoPro-KD: Fourier Prompted Effective Knowledge Distillation for Long-Tailed Medical Image Recognition ( http://arxiv.org/abs/2305.17421v1 )

ライセンス: Link先を確認
Marawan Elbatel, Robert Mart\'i, and Xiaomeng Li(参考訳) 転送学習は医用画像分類、特に長い尾のデータセットに有望な技術である。 しかし、医用画像領域におけるデータの不足は、大規模な公開トレーニング済みモデルを微調整する場合、過度なパラメータ化につながることが多い。 さらに、これらの大規模モデルは、計算コストのため、臨床現場での展開に効果がない。 これらの課題に対処するために,我々はfopro-kdを提案する。この手法は,公開事前学習モデルから得られた周波数パターンのパワーを解き放ち,その伝達性と圧縮性を高める。 fopro-kdは、fourier prompt generator (fpg)、 effective knowledge distillation (ekd)、adversarial knowledge distillation (akd)の3つのモジュールからなる。 FPGモジュールは、ターゲットデータセット上でターゲット摂動条件を生成することを学び、自然画像に基づいてトレーニングされた凍結事前学習モデルの表現を探索する。 EKDモジュールは、これらの一般化可能な表現を蒸留によってより小さなターゲットモデルに利用し、AKDモジュールは蒸留プロセスをさらに強化する。 これらのモジュールを通じて、fopro-kdは、ロングテールの医用画像分類ベンチマークのパフォーマンスが大幅に向上し、事前訓練されたモデルから学習された周波数パターンを活用できる可能性を示し、大規模な事前訓練モデルの転送学習と圧縮を、実現可能なデプロイメントのために強化する。

Transfer learning is a promising technique for medical image classification, particularly for long-tailed datasets. However, the scarcity of data in medical imaging domains often leads to overparameterization when fine-tuning large publicly available pre-trained models. Moreover, these large models are ineffective in deployment in clinical settings due to their computational expenses. To address these challenges, we propose FoPro-KD, a novel approach that unleashes the power of frequency patterns learned from frozen publicly available pre-trained models to enhance their transferability and compression. FoPro-KD comprises three modules: Fourier prompt generator (FPG), effective knowledge distillation (EKD), and adversarial knowledge distillation (AKD). The FPG module learns to generate targeted perturbations conditional on a target dataset, exploring the representations of a frozen pre-trained model, trained on natural images. The EKD module exploits these generalizable representations through distillation to a smaller target model, while the AKD module further enhances the distillation process. Through these modules, FoPro-KD achieves significant improvements in performance on long-tailed medical image classification benchmarks, demonstrating the potential of leveraging the learned frequency patterns from pre-trained models to enhance transfer learning and compression of large pre-trained models for feasible deployment.
翻訳日:2023-05-30 19:24:16 公開日:2023-05-27
# CCDWT-GAN:文書画像二元化のための離散ウェーブレット変換を用いたカラーチャネルに基づく生成逆ネットワーク

CCDWT-GAN: Generative Adversarial Networks Based on Color Channel Using Discrete Wavelet Transform for Document Image Binarization ( http://arxiv.org/abs/2305.17420v1 )

ライセンス: Link先を確認
Rui-Yang Ju, Yu-Shian Lin, Jen-Shiun Chiang, Chih-Chia Chen, Wei-Han Chen, Chun-Tse Chien(参考訳) 色劣化文書画像からテキスト情報を効率よく抽出することが重要な研究課題である。 古文書の長期的不完全保存は、ページ染色、紙黄化、インクの出血などの様々な種類の劣化をもたらし、これらの劣化は、情報抽出のための画像処理に悪影響を及ぼす。 本稿では、RGB(赤、緑、青)チャネル分割画像上の離散ウェーブレット変換(DWT)を利用するGAN(generative adversarial network)であるCCDWT-GANを提案する。 提案手法は,画像前処理,画像強調,画像二元化の3段階からなる。 本研究は、画像前処理段階における比較実験を行い、正規化によるDWTの最適選択を決定する。 さらに,画像強調段階と画像バイナライゼーション段階の結果についてアブレーション研究を行い,モデル性能に対する肯定的な影響を検証した。 本研究は,提案手法とDIBCOおよびH-DIBCO(Handwriting)文書画像バイナリ化コンペティション)データセットを用いたSOTA法の性能を比較した。 実験の結果、CCDWT-GANは複数のベンチマークデータセット上で上位2つのパフォーマンスを達成し、他のSOTAメソッドよりも優れていることが示された。

To efficiently extract the textual information from color degraded document images is an important research topic. Long-term imperfect preservation of ancient documents has led to various types of degradation such as page staining, paper yellowing, and ink bleeding; these degradations badly impact the image processing for information extraction. In this paper, we present CCDWT-GAN, a generative adversarial network (GAN) that utilizes the discrete wavelet transform (DWT) on RGB (red, green, blue) channel splited images. The proposed method comprises three stages: image preprocessing, image enhancement, and image binarization. This work conducts comparative experiments in the image preprocessing stage to determine the optimal selection of DWT with normalization. Additionally, we perform an ablation study on the results of the image enhancement stage and the image binarization stage to validate their positive effect on the model performance. This work compares the performance of the proposed method with other state-of-the-art (SOTA) methods on DIBCO and H-DIBCO ((Handwritten) Document Image Binarization Competition) datasets. The experimental results demonstrate that CCDWT-GAN achieves a top two performance on multiple benchmark datasets, and outperforms other SOTA methods.
翻訳日:2023-05-30 19:23:50 公開日:2023-05-27
# 動的不均一グラフのモデル化と将来予測のためのノードの重要性

Modeling Dynamic Heterogeneous Graph and Node Importance for Future Citation Prediction ( http://arxiv.org/abs/2305.17417v1 )

ライセンス: Link先を確認
Hao Geng, Deqing Wang, Fuzhen Zhuang, Xuehua Ming, Chenguang Du, Ting Jiang, Haolong Guo, Rui Liu(参考訳) 新刊論文の正確な引用数予測は、編集者や読者が将来影響力のある論文を迅速に発見するのに役立ちます。 論文の将来的な引用を予測するために多くのアプローチが提案されているが、ほとんどは学術ネットワークにおける動的不均一グラフ構造やノードの重要性を無視している。 この問題に対処するために、動的不均一グラフとノード重要情報をフル活用して、新たに公開された論文の今後の引用傾向を予測する動的不均一グラフおよびノード重要度ネットワーク(DGNI)学習フレームワークを提案する。 まず、学術ネットワーク全体の動的進化傾向を捉えるために、動的不均一ネットワーク埋め込みモジュールを提供する。 次に,各論文のノード重要度を求めるために,グローバルな一貫性関係を捉えたノード重要度埋め込みモジュールを提案する。 最後に、上述した動的進化傾向埋め込みとノードの重要性埋め込みを組み合わせることで、多面的な紙ノード表現に従って、ログ正規分布モデルにより各紙の将来の引用回数を共同で予測する。 2つの大規模データセットに対する大規模な実験により、我々のモデルはSOTAモデルと比較して全ての指標を大幅に改善することを示した。

Accurate citation count prediction of newly published papers could help editors and readers rapidly figure out the influential papers in the future. Though many approaches are proposed to predict a paper's future citation, most ignore the dynamic heterogeneous graph structure or node importance in academic networks. To cope with this problem, we propose a Dynamic heterogeneous Graph and Node Importance network (DGNI) learning framework, which fully leverages the dynamic heterogeneous graph and node importance information to predict future citation trends of newly published papers. First, a dynamic heterogeneous network embedding module is provided to capture the dynamic evolutionary trends of the whole academic network. Then, a node importance embedding module is proposed to capture the global consistency relationship to figure out each paper's node importance. Finally, the dynamic evolutionary trend embeddings and node importance embeddings calculated above are combined to jointly predict the future citation counts of each paper, by a log-normal distribution model according to multi-faced paper node representations. Extensive experiments on two large-scale datasets demonstrate that our model significantly improves all indicators compared to the SOTA models.
翻訳日:2023-05-30 19:23:24 公開日:2023-05-27
# 歩行者行動予測のための視覚モデルの解析

Analysis over vision-based models for pedestrian action anticipation ( http://arxiv.org/abs/2305.17451v1 )

ライセンス: Link先を確認
Lina Achaji, Julien Moreau, Fran\c{c}ois Aioun, Fran\c{c}ois Charpillet(参考訳) 自動運転車の前で人間の行動を予測することは難しい課題だ。 歩行者横断行動の予測に複数の入力特徴を組み合わせることでこの問題に対処するモデルアーキテクチャを提案している論文もいくつかある。 本稿では,歩行者のコンテクスト画像の入力特徴としての利用に着目した。 歩行者予測のバックボーンとして標準CNNとTransformerモジュールを利用する時空間モデルアーキテクチャを提案する。 しかし,本論文の目的は,最先端のベンチマークを上回ることではなく,これらのモデルの正および負の予測を分析することである。 そこで,歩行者行動予測の文脈における視覚に基づくトランスフォーマーモデルの説明可能性について考察する。 本稿では,歩行者行動予測問題に対する説明可能性への投資の重要性を強調しながら,人間的な説明を質的に提示する上で,モデルが正しい定量的結果が得られるケースを強調した。

Anticipating human actions in front of autonomous vehicles is a challenging task. Several papers have recently proposed model architectures to address this problem by combining multiple input features to predict pedestrian crossing actions. This paper focuses specifically on using images of the pedestrian's context as an input feature. We present several spatio-temporal model architectures that utilize standard CNN and Transformer modules to serve as a backbone for pedestrian anticipation. However, the objective of this paper is not to surpass state-of-the-art benchmarks but rather to analyze the positive and negative predictions of these models. Therefore, we provide insights on the explainability of vision-based Transformer models in the context of pedestrian action prediction. We will highlight cases where the model can achieve correct quantitative results but falls short in providing human-like explanations qualitatively, emphasizing the importance of investing in explainability for pedestrian action anticipation problems.
翻訳日:2023-05-30 19:17:35 公開日:2023-05-27
# fisheye8k:fisheye cameraオブジェクト検出のためのベンチマークとデータセット

FishEye8K: A Benchmark and Dataset for Fisheye Camera Object Detection ( http://arxiv.org/abs/2305.17449v1 )

ライセンス: Link先を確認
Munkhjargal Gochoo, Munkh-Erdene Otgonbold, Erkhembayar Ganbold, Jun-Wei Hsieh, Ming-Ching Chang, Ping-Yang Chen, Byambaa Dorj, Hamad Al Jassmi, Ganzorig Batnasan, Fady Alnajjar, Mohammed Abduljabbar, Fang-Pang Lin(参考訳) AIの進歩により、道路物体検出はコンピュータビジョンにおいて顕著なトピックとなり、主に視点カメラを用いている。 魚眼レンズは、道路の交差点を監視するためにカメラを少なくするための全方位広角カバーを提供するが、視野の歪みがある。 我々の知る限り、魚眼カメラの交通監視のための既存のオープンデータセットは存在しない。 本稿では,5つのクラス (歩行者, 自転車, 自動車, バス, トラック) にまたがる157Kのバウンディングボックスを含む,道路物体検出タスクのためのオープンなFishEye8Kベンチマークデータセットを提案する。 さらに, YOLOv5, YOLOR, YOLO7, YOLOv8 のバリエーションを含む State-of-The-Art (SoTA) モデルのベンチマーク結果を示す。 このデータセットは、台湾のhsinchuにある18台のfisheyeカメラを使って22台のビデオに記録された8000枚の画像から成り、解像度は1080$\times$1080と1280$\times$1280である。 データアノテーションと検証プロセスは、非常に広いパノラマと半球の魚眼カメラの画像と、大きな歪みと多くのロード参加者、特にスクーターに乗っている人によって、大変で時間がかかりました。 偏りを避けるために、特定のカメラからのフレームをトレーニングセットまたはテストセットに割り当て、各クラス内の画像数とバウンディングボックスの両方に対して約70:30の比率を維持した。 実験の結果, YOLOv8 と YOLOR は入力サイズ 640$\times$640 と 1280$\times$1280 でそれぞれ優れていた。 データセットはGitHubでPASCAL VOC、MS COCO、YOLOアノテーション形式で提供される。 FishEye8Kベンチマークは、魚眼ビデオ分析とスマートシティアプリケーションに重要な貢献をする。

With the advance of AI, road object detection has been a prominent topic in computer vision, mostly using perspective cameras. Fisheye lens provides omnidirectional wide coverage for using fewer cameras to monitor road intersections, however with view distortions. To our knowledge, there is no existing open dataset prepared for traffic surveillance on fisheye cameras. This paper introduces an open FishEye8K benchmark dataset for road object detection tasks, which comprises 157K bounding boxes across five classes (Pedestrian, Bike, Car, Bus, and Truck). In addition, we present benchmark results of State-of-The-Art (SoTA) models, including variations of YOLOv5, YOLOR, YOLO7, and YOLOv8. The dataset comprises 8,000 images recorded in 22 videos using 18 fisheye cameras for traffic monitoring in Hsinchu, Taiwan, at resolutions of 1080$\times$1080 and 1280$\times$1280. The data annotation and validation process were arduous and time-consuming, due to the ultra-wide panoramic and hemispherical fisheye camera images with large distortion and numerous road participants, particularly people riding scooters. To avoid bias, frames from a particular camera were assigned to either the training or test sets, maintaining a ratio of about 70:30 for both the number of images and bounding boxes in each class. Experimental results show that YOLOv8 and YOLOR outperform on input sizes 640$\times$640 and 1280$\times$1280, respectively. The dataset will be available on GitHub with PASCAL VOC, MS COCO, and YOLO annotation formats. The FishEye8K benchmark will provide significant contributions to the fisheye video analytics and smart city applications.
翻訳日:2023-05-30 19:17:22 公開日:2023-05-27
# asteモデルを野生で測定する - アスペクト感情三重項抽出のための多種多様なマルチドメインデータセット

Measuring Your ASTE Models in The Wild: A Diversified Multi-domain Dataset For Aspect Sentiment Triplet Extraction ( http://arxiv.org/abs/2305.17448v1 )

ライセンス: Link先を確認
Ting Xu, Huiyun Yang, Zhen Wu, Jiaze Chen, Fei Zhao, Xinyu Dai(参考訳) Aspect Sentiment Triplet extract (ASTE) は様々な用途で広く利用されている。 しかし、既存のasteデータセットは現実世界のシナリオを表現する能力に制限があり、この分野の研究の進歩を妨げる。 本稿では,DMASTEという新しいデータセットを紹介し,タスクに対してより多彩で現実的なレビューを提供することにより,現実のシナリオに適合するように手動でアノテートする。 データセットには、さまざまな長さ、多様な表現、より多くのアスペクトタイプ、既存のデータセットよりも多くのドメインが含まれている。 我々は,従来のASTE手法を評価するために,DMASTEを複数設定で広範な実験を行った。 実験の結果、DMASTEはより難しいASTEデータセットであることが示された。 ドメイン内およびクロスドメイン設定のさらなる分析は、将来の研究に有望な方向を提供する。 私たちのコードとデータセットはhttps://github.com/njunlp/dmasteで利用可能です。

Aspect Sentiment Triplet Extraction (ASTE) is widely used in various applications. However, existing ASTE datasets are limited in their ability to represent real-world scenarios, hindering the advancement of research in this area. In this paper, we introduce a new dataset, named DMASTE, which is manually annotated to better fit real-world scenarios by providing more diverse and realistic reviews for the task. The dataset includes various lengths, diverse expressions, more aspect types, and more domains than existing datasets. We conduct extensive experiments on DMASTE in multiple settings to evaluate previous ASTE approaches. Empirical results demonstrate that DMASTE is a more challenging ASTE dataset. Further analyses of in-domain and cross-domain settings provide promising directions for future research. Our code and dataset are available at https://github.com/NJUNLP/DMASTE.
翻訳日:2023-05-30 19:16:50 公開日:2023-05-27
# タイニー部分空間における微調整現象:事前訓練された言語モデルの固有のタスク固有部分空間の探索

Fine-tuning Happens in Tiny Subspaces: Exploring Intrinsic Task-specific Subspaces of Pre-trained Language Models ( http://arxiv.org/abs/2305.17446v1 )

ライセンス: Link先を確認
Zhong Zhang, Bang Liu, Junming Shao(参考訳) 事前学習された言語モデル(plm)は過度にパラメータ化され、有意な冗長性を有し、plmの自由度が小さいことが知られている。 本稿では,その観察に動機づけられたplmの再パラメータ化と微調整の問題について,タスク固有の部分空間の発見という新たな視点から検討する。 具体的には、与えられたタスクの微調整プロセスのダイナミクスを利用してパラメータ最適化軌道を学習し、そのタスク固有の部分空間を明らかにする。 鍵となる発見は、PLMは少数の自由パラメータを持つ部分空間で効果的に微調整できることである。 さらに、部分空間の微調整中に現れるいくつかの外界次元を観察する。 これらの次元の無効化はモデルの性能を著しく低下させる。 これは、これらの次元がタスク固有の知識を下流のタスクに誘導するのに重要であることを示唆している。

Pre-trained language models (PLMs) are known to be overly parameterized and have significant redundancy, indicating a small degree of freedom of the PLMs. Motivated by the observation, in this paper, we study the problem of re-parameterizing and fine-tuning PLMs from a new perspective: Discovery of intrinsic task-specific subspace. Specifically, by exploiting the dynamics of the fine-tuning process for a given task, the parameter optimization trajectory is learned to uncover its intrinsic task-specific subspace. A key finding is that PLMs can be effectively fine-tuned in the subspace with a small number of free parameters. Beyond, we observe some outlier dimensions emerging during fine-tuning in the subspace. Disabling these dimensions degrades the model performance significantly. This suggests that these dimensions are crucial to induce task-specific knowledge to downstream tasks.
翻訳日:2023-05-30 19:16:37 公開日:2023-05-27
# ベイジアン最適化によるクエリ効率の良いブラックボックスレッドチーム

Query-Efficient Black-Box Red Teaming via Bayesian Optimization ( http://arxiv.org/abs/2305.17444v1 )

ライセンス: Link先を確認
Deokjae Lee, JunYeong Lee, Jung-Woo Ha, Jin-Hwa Kim, Sang-Woo Lee, Hwaran Lee, Hyun Oh Song(参考訳) 大規模な生成モデルのデプロイは、予測不能な方法でユーザを害する潜在的なリスクによって、しばしば制限される。 ブラックボックスのレッドチームでは、レッドチームがテストケースを生成し、被害者モデルと対話し、クエリアクセスに制限のあるさまざまな障害セットを発見する。 既存のred teamingメソッドは、human supervision or language model(lm)に基づいたテストケースを構築し、過去の評価からの情報を取り込むことなく、すべてのテストケースをブルートフォースでクエリします。 そこで本研究では,事前定義されたユーザ入力プールと過去の評価を用いて,モデル障害につながるさまざまなポジティブなテストケースを反復的に識別する,ベイズ最適化に基づくクエリ効率の高いブラックボックスレッドチーム化手法であるベイズレッドチーム化(brt)を提案する。 様々なユーザ入力プールにおける実験結果から,本手法はベースライン手法よりも限定的なクエリ予算下での多種多様なポジティブテストケースを一貫して発見することが示された。 ソースコードはhttps://github.com/snu-mllab/Bayesian-Red-Teamingで入手できる。

The deployment of large-scale generative models is often restricted by their potential risk of causing harm to users in unpredictable ways. We focus on the problem of black-box red teaming, where a red team generates test cases and interacts with the victim model to discover a diverse set of failures with limited query access. Existing red teaming methods construct test cases based on human supervision or language model (LM) and query all test cases in a brute-force manner without incorporating any information from past evaluations, resulting in a prohibitively large number of queries. To this end, we propose Bayesian red teaming (BRT), novel query-efficient black-box red teaming methods based on Bayesian optimization, which iteratively identify diverse positive test cases leading to model failures by utilizing the pre-defined user input pool and the past evaluations. Experimental results on various user input pools demonstrate that our method consistently finds a significantly larger number of diverse positive test cases under the limited query budget than the baseline methods. The source code is available at https://github.com/snu-mllab/Bayesian-Red-Teaming.
翻訳日:2023-05-30 19:16:23 公開日:2023-05-27
# 考えるより弱い: 教師付き学習を批判的に見る

Weaker Than You Think: A Critical Look atWeakly Supervised Learning ( http://arxiv.org/abs/2305.17442v1 )

ライセンス: Link先を確認
Dawei Zhu, Xiaoyu Shen, Marius Mosbach, Andreas Stephan, Dietrich Klakow(参考訳) 弱い教師付き学習は、低リソース環境で機械学習モデルをトレーニングするための一般的なアプローチである。 高品質で高価なヒューマンアノテーションを要求する代わりに、さまざまな弱いソースから得られたノイズの多いアノテーションを持つトレーニングモデルを可能にする。 近年,ラベルノイズ下でのロバストトレーニングに多くの高度な手法が提案されている。 本稿では、これらのアプローチのセットアップを再検討し、これらのアプローチがもたらす利点が大幅に過大評価されていることを明らかにする。 具体的には、既存の弱い教師付き学習アプローチの成功は、クリーンな検証サンプルの可用性に大きく依存していることが分かりました。 トレーニングでこれらのクリーンなラベルを使用した後、これらの高度なアプローチを使用する利点は、ほとんど失われる。 利用可能なクリーンデータのサイズをクラス毎にわずか5つのサンプルに縮小しても、これは事実であり続けます。 弱教師付き学習の真の価値を理解するために,我々は多種多様なNLPデータセットとタスクを分析し,弱教師付きアプローチがいつ,なぜ機能するのかを確認し,今後の研究に推奨する。

Weakly supervised learning is a popular approach for training machine learning models in low-resource settings. Instead of requesting high-quality yet costly human annotations, it allows training models with noisy annotations obtained from various weak sources. Recently, many sophisticated approaches have been proposed for robust training under label noise, reporting impressive results. In this paper, we revisit the setup of these approaches and find that the benefits brought by these approaches are significantly overestimated. Specifically, we find that the success of existing weakly supervised learning approaches heavily relies on the availability of clean validation samples which, as we show, can be leveraged much more efficiently by simply training on them. After using these clean labels in training, the advantages of using these sophisticated approaches are mostly wiped out. This remains true even when reducing the size of the available clean data to just five samples per class, making these approaches impractical. To understand the true value of weakly supervised learning, we thoroughly analyse diverse NLP datasets and tasks to ascertain when and why weakly supervised approaches work, and provide recommendations for future research.
翻訳日:2023-05-30 19:16:05 公開日:2023-05-27
# 逐次決定法としての事前学習言語モデルの逆攻撃のモデル化

Modeling Adversarial Attack on Pre-trained Language Models as Sequential Decision Making ( http://arxiv.org/abs/2305.17440v1 )

ライセンス: Link先を確認
Xuanjie Fang, Sijie Cheng, Yang Liu, Wei Wang(参考訳) プレトレーニング言語モデル(PLM)は、様々な下流タスクの基盤となるために広く使われている。 しかし, PLMは小さな摂動に対して脆弱であることがわかった。 メインストリームメソッドは、各ステップにおける置換の影響を考慮せずに攻撃するために分離された2段階のフレームワークを採用する。 本稿では, PLM における対角攻撃タスクを, 単語ファインダと単語置換という2つの意思決定問題と連続した順序決定問題として, 形式的にモデル化する。 攻撃プロセスは直接的中間信号がなければ最終状態しか受信できないので,SDM-Attack と呼ばれる敵を生成するための適切な逐次攻撃経路を見つけるために強化学習を用いることを提案する。 実験結果から, SDM-Attack が最も高い攻撃成功率を達成し, 修正率とセマンティックな類似性が得られた。 さらに,本研究ではsdm攻撃の一般化と伝達性を示す。 コードはhttps://github.com/fduxuan/SDM-Attack.comで入手できる。

Pre-trained language models (PLMs) have been widely used to underpin various downstream tasks. However, the adversarial attack task has found that PLMs are vulnerable to small perturbations. Mainstream methods adopt a detached two-stage framework to attack without considering the subsequent influence of substitution at each step. In this paper, we formally model the adversarial attack task on PLMs as a sequential decision-making problem, where the whole attack process is sequential with two decision-making problems, i.e., word finder and word substitution. Considering the attack process can only receive the final state without any direct intermediate signals, we propose to use reinforcement learning to find an appropriate sequential attack path to generate adversaries, named SDM-Attack. Extensive experimental results show that SDM-Attack achieves the highest attack success rate with a comparable modification rate and semantic similarity to attack fine-tuned BERT. Furthermore, our analyses demonstrate the generalization and transferability of SDM-Attack. The code is available at https://github.com/fduxuan/SDM-Attack.
翻訳日:2023-05-30 19:15:46 公開日:2023-05-27
# 物体検出器の対向ロバスト性に対するバックボーンの重要性について

On the Importance of Backbone to the Adversarial Robustness of Object Detectors ( http://arxiv.org/abs/2305.17438v1 )

ライセンス: Link先を確認
Xiao Li and Hang Chen and Xiaolin Hu(参考訳) オブジェクト検出は、自動運転やビデオ監視など、さまざまなセキュリティに敏感なアプリケーションの重要なコンポーネントである。 しかし、既存のディープラーニングベースのオブジェクト検出器は敵攻撃に弱いため、信頼性と安全性に大きな課題が生じる。 実験により,物体検出器の対向性向上に向けた既存の研究が,セキュリティの誤った感覚を与えていることがわかった。 対象検出器の対向ロバスト性を高めるためには,逆向きに事前学習したバックボーンネットワークを用いることが不可欠である。 本稿では,逆さまに事前学習したバックボーンを持つ物体検出器の高速逆方向微調整法を提案する。 物体検出器の構造に何ら変更を加えることなく,従来の手法よりもはるかに頑健性が向上した。 さらに, このレシピを用いて, 敵の強靭性を向上させるため, 近代的物体検出装置の可能性を探り, 興味深い知見をいくつか示す。 我々の実験結果は新たなマイルストーンを樹立し、対向的に堅牢な物体検出の理解を深めた。 コードとトレーニングされたチェックポイントが公開される。

Object detection is a critical component of various security-sensitive applications, such as autonomous driving and video surveillance. However, existing deep learning-based object detectors are vulnerable to adversarial attacks, which poses a significant challenge to their reliability and safety. Through experiments, we found that existing works on improving the adversarial robustness of object detectors have given a false sense of security. We argue that using adversarially pre-trained backbone networks is essential for enhancing the adversarial robustness of object detectors. We propose a simple yet effective recipe for fast adversarial fine-tuning on object detectors with adversarially pre-trained backbones. Without any modifications to the structure of object detectors, our recipe achieved significantly better adversarial robustness than previous works. Moreover, we explore the potential of different modern object detectors to improve adversarial robustness using our recipe and demonstrate several interesting findings. Our empirical results set a new milestone and deepen the understanding of adversarially robust object detection. Code and trained checkpoints will be publicly available.
翻訳日:2023-05-30 19:15:28 公開日:2023-05-27
# GIMM: 自動グラフコントラスト学習のためのInfoMin-Max

GIMM: InfoMin-Max for Automated Graph Contrastive Learning ( http://arxiv.org/abs/2305.17437v1 )

ライセンス: Link先を確認
Xin Xiong (1), Furao Shen (1), Xiangyu Wang (1), Jian Zhao (2) ((1) School of Artificial Intelligence, Nanjing University, (2) School of Electronic Science and Engineering, Nanjing University)(参考訳) グラフコントラスト学習(GCL)は教師なしグラフ表現学習において大きな可能性を示す。 データ拡張はGCLにおいて重要な役割を担い、最適な選択は下流のタスクに大きく依存する。 自動データ拡張を伴う多くのgcl手法は、下流タスクに必要な必須情報を保存できないため、不十分な情報のリスクに直面している。 そこで本研究では,gclが冗長な情報をエンコードし,本質的な情報を失うことを防止し,グラフコントラスト学習(gimm)のためのインフォミンマックスを提案する。 GIMM は,(1) タスク関連情報を必要とせずに InfoMin の最適ビューの近似を取得する自動グラフビュー生成器,(2) ビュー比較,(2) ビュー表現に InfoMax を適用して優れたエンコーダを学習するビュー比較という2つの主要なモジュールから構成される。 我々の知る限りでは、GIMMはGCLにおけるInfoMinとInfoMaxの原則を組み合わせた最初の方法です。 さらに、GIMMは乱れを増大させ、摂動に対してモデルを安定化させる。 ノードおよびグラフ分類のための教師なしおよび半教師付き学習に関する広範囲な実験は、自動および手動データ拡張による最先端GCL法よりもGIMMの方が優れていることを示す。

Graph contrastive learning (GCL) shows great potential in unsupervised graph representation learning. Data augmentation plays a vital role in GCL, and its optimal choice heavily depends on the downstream task. Many GCL methods with automated data augmentation face the risk of insufficient information as they fail to preserve the essential information necessary for the downstream task. To solve this problem, we propose InfoMin-Max for automated Graph contrastive learning (GIMM), which prevents GCL from encoding redundant information and losing essential information. GIMM consists of two major modules: (1) automated graph view generator, which acquires the approximation of InfoMin's optimal views through adversarial training without requiring task-relevant information; (2) view comparison, which learns an excellent encoder by applying InfoMax to view representations. To the best of our knowledge, GIMM is the first method that combines the InfoMin and InfoMax principles in GCL. Besides, GIMM introduces randomness to augmentation, thus stabilizing the model against perturbations. Extensive experiments on unsupervised and semi-supervised learning for node and graph classification demonstrate the superiority of our GIMM over state-of-the-art GCL methods with automated and manual data augmentation.
翻訳日:2023-05-30 19:15:13 公開日:2023-05-27
# ランダム化SVDの雑音感度について

On the Noise Sensitivity of the Randomized SVD ( http://arxiv.org/abs/2305.17435v1 )

ライセンス: Link先を確認
Elad Romanov(参考訳) ランダム化特異値分解(R-SVD)は、大きな行列の部分的なSVDを効率的に計算するためのスケッチベースアルゴリズムである。 行列が低ランクの場合、R-SVDはその部分SVDを正確に生成するが、ランクが大きいと近似しか得られない。 データサイエンスと主成分分析(PCA)の応用により、低ランク信号と雑音測定モデルの下でR-SVDを解析する。 R-SVD が生成した特異値は BBP のような相転移を示すことが示され、SNR が特定の検出可能性閾値を超えると、寸法減少係数に依存する最大の特異値は外れ値となる。 さらに、基底真理信号特異ベクトルとR-SVDによる近似との重なり合いに関する漸近公式を計算する。 次元の減少は、ノイズを非常に非線形に増幅する悪影響がある。 以上の結果から,R-SVDの信号検出と推定の両面での統計的優位性を示すとともに,スケッチ寸法が小さい場合には特に顕著である。 我々の分析は漸近的に正確であり、R-SVDの既存の作用素-ノルム誤差境界よりもかなり微細である。 これは、ガウスのi.d.スケッチ、ランダム・プロジェクション、サブサンプラート・アダマール変換など、以前に文献で考えられていたスケッチ行列の幅広いファミリーに適用される。 最後に、r-svd によって得られる特異値とベクトルに対する最適特異値縮小器を導出し、行列の除算への応用に有用である。

The randomized singular value decomposition (R-SVD) is a popular sketching-based algorithm for efficiently computing the partial SVD of a large matrix. When the matrix is low-rank, the R-SVD produces its partial SVD exactly; but when the rank is large, it only yields an approximation. Motivated by applications in data science and principal component analysis (PCA), we analyze the R-SVD under a low-rank signal plus noise measurement model; specifically, when its input is a spiked random matrix. The singular values produced by the R-SVD are shown to exhibit a BBP-like phase transition: when the SNR exceeds a certain detectability threshold, that depends on the dimension reduction factor, the largest singular value is an outlier; below the threshold, no outlier emerges from the bulk of singular values. We further compute asymptotic formulas for the overlap between the ground truth signal singular vectors and the approximations produced by the R-SVD. Dimensionality reduction has the adverse affect of amplifying the noise in a highly nonlinear manner. Our results demonstrate the statistical advantage -- in both signal detection and estimation -- of the R-SVD over more naive sketched PCA variants; the advantage is especially dramatic when the sketching dimension is small. Our analysis is asymptotically exact, and substantially more fine-grained than existing operator-norm error bounds for the R-SVD, which largely fail to give meaningful error estimates in the moderate SNR regime. It applies for a broad family of sketching matrices previously considered in the literature, including Gaussian i.i.d. sketches, random projections, and the sub-sampled Hadamard transform, among others. Lastly, we derive an optimal singular value shrinker for singular values and vectors obtained through the R-SVD, which may be useful for applications in matrix denoising.
翻訳日:2023-05-30 19:14:52 公開日:2023-05-27
# ディープラーニングモデルの概要と比較分析:CNN, RNN, LSTM, GRU

A Comprehensive Overview and Comparative Analysis on Deep Learning Models: CNN, RNN, LSTM, GRU ( http://arxiv.org/abs/2305.17473v1 )

ライセンス: Link先を確認
Farhad Mortezapour Shiri, Thinagaran Perumal, Norwati Mustapha, Raihani Mohamed(参考訳) ディープラーニング(DL)は、機械学習(ML)と人工知能(AI)の強力なサブセットとして現れ、特に非構造化および大規模データセットの処理において、従来のMLメソッドよりも優れています。 その影響は、音声認識、ヘルスケア、自動運転車、サイバーセキュリティ、予測分析など、さまざまなドメインに及んでいる。 しかし、現実世界の問題の複雑さと動的性質は、効果的なディープラーニングモデルを設計する上での課題をもたらす。 その結果、様々な問題や応用に取り組むために、いくつかのディープラーニングモデルが開発された。 本稿では、畳み込みニューラルネットワーク(cnns)、リカレントニューラルネットワーク(rnn)、生成モデル、深層強化学習(drl)、深層伝達学習など、さまざまなディープラーニングモデルに関する総合的な調査を行う。 我々は,各モデルの構造,アプリケーション,メリット,および制限について検討する。 さらに、imdb, aras, fruit-360の3つの公開データセットを用いて分析を行う。 CNN,Simple RNN,Long Short-Term Memory (LSTM), Bidirectional LSTM, Gated Recurrent Unit (GRU), Bidirectional GRUの6つの有名なディープラーニングモデルの性能を比較した。

Deep learning (DL) has emerged as a powerful subset of machine learning (ML) and artificial intelligence (AI), outperforming traditional ML methods, especially in handling unstructured and large datasets. Its impact spans across various domains, including speech recognition, healthcare, autonomous vehicles, cybersecurity, predictive analytics, and more. However, the complexity and dynamic nature of real-world problems present challenges in designing effective deep learning models. Consequently, several deep learning models have been developed to address different problems and applications. In this article, we conduct a comprehensive survey of various deep learning models, including Convolutional Neural Networks (CNNs), Recurrent Neural Networks (RNNs), Generative Models, Deep Reinforcement Learning (DRL), and Deep Transfer Learning. We examine the structure, applications, benefits, and limitations of each model. Furthermore, we perform an analysis using three publicly available datasets: IMDB, ARAS, and Fruit-360. We compare the performance of six renowned deep learning models: CNN, Simple RNN, Long Short-Term Memory (LSTM), Bidirectional LSTM, Gated Recurrent Unit (GRU), and Bidirectional GRU.
翻訳日:2023-05-30 19:06:48 公開日:2023-05-27
# pt対称非エルミート物理のプラットフォームとしての異方性励起子ポラリトン対

Anisotropic exciton polariton pairs as a platform for PT-symmetric non-Hermitian physics ( http://arxiv.org/abs/2305.17472v1 )

ライセンス: Link先を確認
Devarshi Chakrabarty, Avijit Dhara, Pritam Das, Kritika Ghosh, Ayan Roy Chaudhuri, Sajal Dhara(参考訳) 非エルミートpt対称系は古典領域の光学系において便利に実現でき、損失誘起発振や導波路におけるカイラルモードの選択的伝播のようなエキゾチックな現象の多岐にわたる探索に用いられている。 一方、マイクロキャビティ励起子-ポーラリトン系は量子状態において本質的に非エルミート系である。 しかし、pt対称相におけるそのような系の実現はこれまで達成されていない。 ここでは、一対の異方性励起子-ポーラリトンが複数のepを実現するための汎用プラットフォームを提供する方法を示し、pt対称系を実現するためのロードマップを提案する。 プローブビームの偏光における結合強度とエネルギーの調整性、入射角、異方性試料の配向を利用して、偏光-可変偏光子分散が1組のEPを生成するのに対して、試料の回転は特定の向きのVoigt EPを明らかにする。 一対の異方性マイクロキャビティ励起子-ポーラリトンは、非エルミート量子物理学や位相ポラリトンの基礎研究だけでなく、ゼロしきい値レーザーを実現するシステムの提供も提案している。

Non-Hermitian PT-symmetric systems can be conveniently realized in optical systems in the classical domain and have been used to explore a plethora of exotic phenomena like loss-induced lasing and selective propagation of chiral modes in waveguides. On the other hand, a microcavity exciton-polariton system is intrinsically non-Hermitian in the quantum regime. However, realization of such systems in the PT-symmetric phase has not been achieved so far. Here we show how a pair of nearly orthogonal sets of anisotropic exciton-polaritons can offer a versatile platform for realizing multiple Eps and propose a roadmap to achieve a PT-symmetric system. By utilizing the tunability of coupling strength and energy detuning on the polarization of probe beam, the angle of incidence, and the orientation of the anisotropic sample, we realise two kinds of Eps: Polarization-tunable polariton dispersion creates one set of EPs based on tunable coupling strength, while the rotating the sample reveals Voigt EPs for specific orientations. Pair of anisotropic microcavity exciton-polaritons can offer a promising platform not only for fundamental research in non-Hermitian quantum physics and topological polaritons but also, we have proposed that it can offer a system to realize zero threshold laser.
翻訳日:2023-05-30 19:06:26 公開日:2023-05-27
# $\ell_1-\ell_2$最適化による構造モデル選択

Structured model selection via $\ell_1-\ell_2$ optimization ( http://arxiv.org/abs/2305.17467v1 )

ライセンス: Link先を確認
Xiaofan Lu, Linan Zhang and Hongjin He(参考訳) 自動モデル選択は科学と工学において重要な応用である。 本研究では,アンダーサンプルとノイズのある時空間データから構造化力学系を同定する学習手法を開発する。 非凸$\ell_1-\ell_2$スパース最適化を乗算器の交互方向法で解くことにより、多数の候補関数に対してスパース最小二乗法により学習を行う。 コヒーレンス条件を持つベルンシュタイン的不等式を用いて、候補関数の集合が有界直交系の構造化ランダムサンプリング行列を形成する場合、回復は安定であり、誤差は有界であることを示す。 学習アプローチは、粘性バーガース方程式と2つの反応拡散方程式によって生成された合成データに基づいて検証される。 計算結果は, 環境次元と候補関数数に関して, 成功の理論的保証と効率を示す。

Automated model selection is an important application in science and engineering. In this work, we develop a learning approach for identifying structured dynamical systems from undersampled and noisy spatiotemporal data. The learning is performed by a sparse least-squares fitting over a large set of candidate functions via a nonconvex $\ell_1-\ell_2$ sparse optimization solved by the alternating direction method of multipliers. Using a Bernstein-like inequality with a coherence condition, we show that if the set of candidate functions forms a structured random sampling matrix of a bounded orthogonal system, the recovery is stable and the error is bounded. The learning approach is validated on synthetic data generated by the viscous Burgers' equation and two reaction-diffusion equations. The computational results demonstrate the theoretical guarantees of success and the efficiency with respect to the ambient dimension and the number of candidate functions.
翻訳日:2023-05-30 19:06:00 公開日:2023-05-27
# 最適化の無視規範

Optimization's Neglected Normative Commitments ( http://arxiv.org/abs/2305.17465v1 )

ライセンス: Link先を確認
Benjamin Laufer, Thomas Krendl Gilbert, Helen Nissenbaum(参考訳) 最適化は、不確実性と矛盾する利益を含む複雑な現実世界の意思決定を解決する客観的アプローチとして提供される。 ビジネス戦略と公共政策を駆動し、ますます高度な機械学習システムの中心となっている。 潜在的に高い意思決定にアプローチするために使用されるパラダイムは、現実世界を決定(s)、目的(s)、制約(s)の集合に抽象化することに依存する。 本稿では,モデリングプロセスと実例の範囲から,最適化に必然的に含まれる規範的選択と仮定について述べる。 そして、無視される可能性のある6つの問題を特定します。 1) ミス特定値は、特定の命令を完全に省略する最適化や、それらを制約として又は目的の一部として誤って組み込むことができる。 2) 問題的決定境界は,モジュール性の仮定やフィードバックループの欠陥につながる可能性がある。 3)複数のエージェントの異なる目標や決定を説明できないことは、特定の狭い利益のみを果たす政策につながる可能性がある。 4)誤記及び誤記は、偏見及び不当さをもたらすことがある。 5) 形式的特徴及び保証を伴わない緩和及び近似法の誤用は、適用性を著しく阻害し得る。 6) 行動の正当化として最適化を扱い、必要な文脈情報を規定することなく、倫理的に疑わしい、または不当な判断を下すことができる。 最適化が不正に使用される際に生じる害をさらに理解し、抑制するために提案される。

Optimization is offered as an objective approach to resolving complex, real-world decisions involving uncertainty and conflicting interests. It drives business strategies as well as public policies and, increasingly, lies at the heart of sophisticated machine learning systems. A paradigm used to approach potentially high-stakes decisions, optimization relies on abstracting the real world to a set of decision(s), objective(s) and constraint(s). Drawing from the modeling process and a range of actual cases, this paper describes the normative choices and assumptions that are necessarily part of using optimization. It then identifies six emergent problems that may be neglected: 1) Misspecified values can yield optimizations that omit certain imperatives altogether or incorporate them incorrectly as a constraint or as part of the objective, 2) Problematic decision boundaries can lead to faulty modularity assumptions and feedback loops, 3) Failing to account for multiple agents' divergent goals and decisions can lead to policies that serve only certain narrow interests, 4) Mislabeling and mismeasurement can introduce bias and imprecision, 5) Faulty use of relaxation and approximation methods, unaccompanied by formal characterizations and guarantees, can severely impede applicability, and 6) Treating optimization as a justification for action, without specifying the necessary contextual information, can lead to ethically dubious or faulty decisions. Suggestions are given to further understand and curb the harms that can arise when optimization is used wrongfully.
翻訳日:2023-05-30 19:05:46 公開日:2023-05-27
# ペンタゴンマッチング(pmatch):局所特徴マッチングに基づくホモグラフィ推定のためのビュー不変平面特徴の同定

Pentagon-Match (PMatch): Identification of View-Invariant Planar Feature for Local Feature Matching-Based Homography Estimation ( http://arxiv.org/abs/2305.17463v1 )

ライセンス: Link先を確認
Yueh-Cheng Huang, Chen-Tao Hsu, and Jen-Hui Chuang(参考訳) コンピュータビジョンでは、画像のスティッチング、画像検索、視覚定位など多くのアプリケーションにおいて、画像間の正しい点対応を見つけることが重要な役割を果たす。 これらの研究の多くは、RANSACのようなサンプリング手法が使われる前に局所的な特徴のマッチングに焦点を合わせ、画像間の特定のグローバルな変換を繰り返すことで初期マッチング結果を検証する。 しかし、不一致が残ることもある。 そこで本研究では,ランダムにサンプリングされたペンタゴンを用いて初期マッチングされたキーポイントの正しさを検証するために,新しいサンプリング方式であるペンタゴンマッチング(pmatch)を提案する。 これらの五角形の形状と位置が横比 (CR) の様々な評価で不変であることを保証することにより、キーポイントの誤一致を正しく一致した五角形から推定したホモグラフィーで容易に識別できる。 実験の結果, loftr が提供するキーポイントマッチング結果に基づいて, ハパッチデータセットの平面シーンに対して, 高精度なホモグラフィ推定が可能となった。 さらに、上記のマッチング結果に対する正確な外れ値の同定と、多面的状況に対するアプローチの拡張の可能性も示す。

In computer vision, finding correct point correspondence among images plays an important role in many applications, such as image stitching, image retrieval, visual localization, etc. Most of the research works focus on the matching of local feature before a sampling method is employed, such as RANSAC, to verify initial matching results via repeated fitting of certain global transformation among the images. However, incorrect matches may still exist. Thus, a novel sampling scheme, Pentagon-Match (PMatch), is proposed in this work to verify the correctness of initially matched keypoints using pentagons randomly sampled from them. By ensuring shape and location of these pentagons are view-invariant with various evaluations of cross-ratio (CR), incorrect matches of keypoint can be identified easily with homography estimated from correctly matched pentagons. Experimental results show that highly accurate estimation of homography can be obtained efficiently for planar scenes of the HPatches dataset, based on keypoint matching results provided by LoFTR. Besides, accurate outlier identification for the above matching results and possible extension of the approach for multi-plane situation are also demonstrated.
翻訳日:2023-05-30 19:05:24 公開日:2023-05-27
# 量子真空からの非局所コヒーレンス抽出

Nonlocal coherence harvesting from quantum vacuum ( http://arxiv.org/abs/2305.17461v1 )

ライセンス: Link先を確認
Rui-Di Wang, Shu-Min Wu, Xiao-Li Huang(参考訳) 非局所コヒーレンスが量子エンタングルーメントよりも非古典的相関を反映していることはよく知られている。 本研究では,量子真空から粒子検出器への非局所コヒーレンスをミンコフスキー時空における量子スカラー場と相互作用させて解析する。 非局所コヒーレンスの収穫可能分離範囲は量子エンタングルメントよりも大きいことが判明した。 エネルギーギャップが十分に大きくなると、検出器は量子コヒーレンスが少なくなり、検出器は真空状態からより多くの量子絡み合いを抽出することができる。 線形配置とステン構成と比較すると、等方三角形配置は三部構造コヒーレンスを抽出するのに最適なモデルである。 最後に、コヒーレンスの3成分l1-ノルムが本質的に2成分型である一夫多妻関係を見つける。

It is well known that nonlocal coherence reflects nonclassical correlations better than quantum entan-glement. Here, we analyze nonlocal coherence harvesting from the quantum vacuum to particle detectors adiabatically interacting with a quantum scalar field in Minkowski spacetime. We find that the harvesting-achievable separation range of nonlocal coherence is larger than that of quantum entanglement. As the energy gap grows sufficiently large, the detectors harvest less quantum coherence, while the detectors could extract more quantum entanglement from the vacuum state. Compared with the linear configuration and the scalene configuration, the equilateral triangle configuration is the best model to harvest tripartite coherence. Finally, we find a monogamous relationship, which means that tripartite l1-norm of coherence is essentially bipartite types.
翻訳日:2023-05-30 19:05:02 公開日:2023-05-27
# イベント骨格生成のための拡散モデル

A Diffusion Model for Event Skeleton Generation ( http://arxiv.org/abs/2305.17458v1 )

ライセンス: Link先を確認
Fangqi Zhu, Lin Zhang, Jun Gao, Bing Qin, Ruifeng Xu, Haiqin Yang(参考訳) イベントスケルトン生成は、イベントノードを抽象化したイベントスキーマスケルトングラフとイベントインスタンスグラフの集合からの時間関係を誘導することを目的としており、時間的複合イベントスキーマ誘導タスクにおいて重要なステップである。 既存の方法は、このタスクをグラフ生成の観点から効果的に処理するが、ノイズに敏感でエラーの蓄積に悩まされる。 そこで我々は,これらの問題に対処する新しい拡散事象グラフモデル~(DEGM)を提案する。 我々のDEGMは、イベントスケルトン生成のための最初の実行可能な拡散モデルであり、個別のイベントグラフを学習可能な潜在表現に変換するために、カスタムエッジベースの損失を伴う埋め込みおよび丸め技術を導入している。 さらに,モデルのロバスト性を維持するための発声訓練プロセスを提案する。 その結果、DEGMは最終スキーマを導出し、スキーマ生成プロセス中に遅延表現を反復的に精錬することでエラー訂正が保証される。 ied爆撃データセットの3つの実験結果は、degmが他の最先端のベースラインよりも優れた結果を得ることを示している。 私たちのコードとデータはhttps://github.com/zhufq00/eventskeletongenerationで入手できます。

Event skeleton generation, aiming to induce an event schema skeleton graph with abstracted event nodes and their temporal relations from a set of event instance graphs, is a critical step in the temporal complex event schema induction task. Existing methods effectively address this task from a graph generation perspective but suffer from noise-sensitive and error accumulation, e.g., the inability to correct errors while generating schema. We, therefore, propose a novel Diffusion Event Graph Model~(DEGM) to address these issues. Our DEGM is the first workable diffusion model for event skeleton generation, where the embedding and rounding techniques with a custom edge-based loss are introduced to transform a discrete event graph into learnable latent representation. Furthermore, we propose a denoising training process to maintain the model's robustness. Consequently, DEGM derives the final schema, where error correction is guaranteed by iteratively refining the latent representation during the schema generation process. Experimental results on three IED bombing datasets demonstrate that our DEGM achieves better results than other state-of-the-art baselines. Our code and data are available at https://github.com/zhufq00/EventSkeletonGeneration.
翻訳日:2023-05-30 19:04:49 公開日:2023-05-27
# 財務的誤り検出:現実的な評価

Financial misstatement detection: a realistic evaluation ( http://arxiv.org/abs/2305.17457v1 )

ライセンス: Link先を確認
Elias Zavitsanos, Dimitris Mavroeidis, Konstantinos Bougiatiotis, Eirini Spyropoulou, Lefteris Loukas, Georgios Paliouras(参考訳) そこで本研究では,誤報を含むリスクの高い財務報告を検知するタスクの評価プロセスについて検討する。 このタスクは、文献では「財務報告におけるミスステートメント検出」と呼ばれることが多い。 関連文献を概観する。 従来の作業の大部分とは違って,タスクに対する新たな現実的な評価フレームワークを提案する。 (a)不備クラスとその希少性に焦点を当てる。 b) データをトレーニングとテストに分割する際の時間次元を考慮し、 (c)誤言を検知するのに長い時間がかかるという事実を考える。 最も重要な点は,評価プロセスがシステム性能に大きく影響することを示し,新しい現実的なフレームワークにおいて,異なるモデルや特徴型のパフォーマンスを分析することである。

In this work, we examine the evaluation process for the task of detecting financial reports with a high risk of containing a misstatement. This task is often referred to, in the literature, as ``misstatement detection in financial reports''. We provide an extensive review of the related literature. We propose a new, realistic evaluation framework for the task which, unlike a large part of the previous work: (a) focuses on the misstatement class and its rarity, (b) considers the dimension of time when splitting data into training and test and (c) considers the fact that misstatements can take a long time to detect. Most importantly, we show that the evaluation process significantly affects system performance, and we analyze the performance of different models and feature types in the new realistic framework.
翻訳日:2023-05-30 19:04:29 公開日:2023-05-27
# 医用画像セグメンテーションのための信頼できる深層学習

Trustworthy Deep Learning for Medical Image Segmentation ( http://arxiv.org/abs/2305.17456v1 )

ライセンス: Link先を確認
Lucas Fidon(参考訳) 医学画像セグメンテーションにおける新しい最先端精度を達成するためのディープラーニング手法が最近成功しているにも関わらず、いくつかの大きな制限は依然として臨床への展開を制限するものである。 深層学習に基づくセグメンテーションの方法の1つの大きな制限は、画像取得プロトコルと、トレーニングデータセットでは表現されなかったり、表現されていない画像解剖学において、変化に対する堅牢性の欠如である。 これは、イメージの多様性をよりよくカバーするために、トレーニングデータセットに新しい手動のセグメントイメージを追加することを示唆している。 しかし、多くの場合、手作業による医療画像のセグメンテーションには高度に熟練したパーサーが必要であり、時間を要するため、このソリューションは極めて高価である。 異なるソースから手動で分割したイメージが利用可能である場合でも、全く同じ関心領域で注釈を付けることは滅多にない。 これは、教師付き学習に依存する現在のディープラーニングセグメンテーションメソッドにとって、新たな課題となり、トレーニングに使用するすべてのイメージに対して、関心のあるすべての領域をセグメンテーションする必要がある。 この論文は、これらの制限を緩和する新しい数学的および最適化手法を導入する。

Despite the recent success of deep learning methods at achieving new state-of-the-art accuracy for medical image segmentation, some major limitations are still restricting their deployment into clinics. One major limitation of deep learning-based segmentation methods is their lack of robustness to variability in the image acquisition protocol and in the imaged anatomy that were not represented or were underrepresented in the training dataset. This suggests adding new manually segmented images to the training dataset to better cover the image variability. However, in most cases, the manual segmentation of medical images requires highly skilled raters and is time-consuming, making this solution prohibitively expensive. Even when manually segmented images from different sources are available, they are rarely annotated for exactly the same regions of interest. This poses an additional challenge for current state-of-the-art deep learning segmentation methods that rely on supervised learning and therefore require all the regions of interest to be segmented for all the images to be used for training. This thesis introduces new mathematical and optimization methods to mitigate those limitations.
翻訳日:2023-05-30 19:04:20 公開日:2023-05-27
# crossget:視覚言語トランスフォーマーを加速するトークンのクロスガイドアンサンブル

CrossGET: Cross-Guided Ensemble of Tokens for Accelerating Vision-Language Transformers ( http://arxiv.org/abs/2305.17455v1 )

ライセンス: Link先を確認
Dachuan Shi, Chaofan Tao, Anyi Rao, Zhendong Yang, Chun Yuan, Jiaqi Wang(参考訳) ビジョン言語モデルは、私たちが予想した以上に大きな進歩を遂げました。 しかし、その計算コストとレイテンシも急速に増加しており、限られたリソースを持つ研究者やローエンドデバイスを持つ消費者にとっては、モデルアクセラレーションが極めて重要である。 ユニモーダルモデルについては広く研究されているが、マルチモーダルモデル、特に視覚言語変換器の加速は、いまだに未探索である。 そこで本稿では, クロスモーダル誘導オンザフライによる推論中にトークン数を適応的に減少させ, 高い性能を維持しつつ, モデル加速度を著しく低減するユニバーサルビゾン言語トランスフォーマーアクセラレーションフレームワークとして, \textbf{Cross}-\textbf{G}uided \textbf{E}nsemble of \textbf{T}okens (\textbf{\emph{CrossGET}})を提案する。 具体的には、提案された \textit{CrossGET} には、2つの重要な設計がある。 \textit{CrossGET}は、クロスモーダルなガイド付きトークンマッチングとアンサンブルを組み込んでトークンを効果的にマージする。 2) \textit{Complete-Graph Soft Matching}。 従来の二部作のソフトマッチング手法とは対照的に, より信頼性の高いトークンマッチング結果を実現するために, 効率的かつ効果的な完全グラフソフトマッチングポリシーを導入している。 さまざまな視覚言語タスク、データセット、モデルアーキテクチャに関する広範な実験は、提案された‘textit{CrossGET}フレームワークの有効性と汎用性を示している。 コードはhttps://github.com/sdc17/crossget。

Vision-language models have achieved tremendous progress far beyond what we ever expected. However, their computational costs and latency are also dramatically growing with rapid development, making model acceleration exceedingly critical for researchers with limited resources and consumers with low-end devices. Although extensively studied for unimodal models, the acceleration for multimodal models, especially the vision-language Transformers, is still relatively under-explored. Accordingly, this paper proposes \textbf{Cross}-\textbf{G}uided \textbf{E}nsemble of \textbf{T}okens (\textbf{\emph{CrossGET}}) as a universal vison-language Transformer acceleration framework, which adaptively reduces token numbers during inference via cross-modal guidance on-the-fly, leading to significant model acceleration while keeping high performance. Specifically, the proposed \textit{CrossGET} has two key designs:1) \textit{Cross-Guided Matching and Ensemble}. \textit{CrossGET} incorporates cross-modal guided token matching and ensemble to merge tokens effectively, only introducing cross-modal tokens with negligible extra parameters. 2) \textit{Complete-Graph Soft Matching}. In contrast to the previous bipartite soft matching approach, \textit{CrossGET} introduces an efficient and effective complete-graph soft matching policy to achieve more reliable token-matching results. Extensive experiments on various vision-language tasks, datasets, and model architectures demonstrate the effectiveness and versatility of the proposed \textit{CrossGET} framework. The code will be at https://github.com/sdc17/CrossGET.
翻訳日:2023-05-30 19:03:58 公開日:2023-05-27
# 確率勾配Descenceにおける動的安定性の帰納規則化

The Implicit Regularization of Dynamical Stability in Stochastic Gradient Descent ( http://arxiv.org/abs/2305.17490v1 )

ライセンス: Link先を確認
Lei Wu, Weijie J. Su(参考訳) 本稿では, 確率勾配勾配(SGD)の暗黙的正則化を, {\displaystyle {\em dynamical stability} のレンズを通して検討する(Wu et al., 2018)。 まずsgdの既存の安定性解析を改訂し、フロベニウスのノルムとヘッセンのトレースが安定性の異なる概念とどのように関係しているかを示す。 特に、大域的最小値が SGD に対して線形安定であれば、ヘッセン語のトレースは 2/\eta$ 以下でなければならず、$\eta$ は学習率を表す。 対照的に、勾配降下 (gd) では、安定性は同様の制約を課すが、ヘッセンの最大固有値にのみ依存する。 次に、これらの安定ミニマの一般化特性を解析し、2層ReLUネットワークと対角線ネットワークに焦点をあてる。 特に、これらのシャープネスの測定値と2つのモデルに対するパラメータノルムとの等価性を確立し、SGDの安定な最小値が確実に一般化可能であることを示す。 対照的に、gd の安定性によって引き起こされる正則化は、十分に一般化するには弱すぎる。 この矛盾は、SGD が GD よりもよく一般化する理由を説明する。 学習速度(LR)は安定誘導正規化の強さにおいて重要な役割を果たす。 LRが増加するにつれて正規化効果がより顕著になり、より大きなLRを持つSGDが常に優れた一般化能力を示す理由が解明される。 さらに,我々の理論的知見を裏付ける数値実験を行った。

In this paper, we study the implicit regularization of stochastic gradient descent (SGD) through the lens of {\em dynamical stability} (Wu et al., 2018). We start by revising existing stability analyses of SGD, showing how the Frobenius norm and trace of Hessian relate to different notions of stability. Notably, if a global minimum is linearly stable for SGD, then the trace of Hessian must be less than or equal to $2/\eta$, where $\eta$ denotes the learning rate. By contrast, for gradient descent (GD), the stability imposes a similar constraint but only on the largest eigenvalue of Hessian. We then turn to analyze the generalization properties of these stable minima, focusing specifically on two-layer ReLU networks and diagonal linear networks. Notably, we establish the {\em equivalence} between these metrics of sharpness and certain parameter norms for the two models, which allows us to show that the stable minima of SGD provably generalize well. By contrast, the stability-induced regularization of GD is provably too weak to ensure satisfactory generalization. This discrepancy provides an explanation of why SGD often generalizes better than GD. Note that the learning rate (LR) plays a pivotal role in the strength of stability-induced regularization. As the LR increases, the regularization effect becomes more pronounced, elucidating why SGD with a larger LR consistently demonstrates superior generalization capabilities. Additionally, numerical experiments are provided to support our theoretical findings.
翻訳日:2023-05-30 18:58:47 公開日:2023-05-27
# 画像情報除去によるテキスト・画像編集

Text-to-image Editing by Image Information Removal ( http://arxiv.org/abs/2305.17489v1 )

ライセンス: Link先を確認
Zhongping Zhang, Jian Zheng, Jacob Zhiyuan Fang, Bryan A. Plummer(参考訳) 拡散モデルはテキスト誘導画像生成において顕著な性能を示した。 画像編集におけるテキスト誘導画像生成モデルの知識を活用するため、現在のアプローチでは、入力画像(例えばImagic)を使用して事前訓練されたモデルを微調整するか、事前訓練されたモデル(例えばControlNet)に付加的な制約として構造情報を組み込む。 しかしながら、単一の画像上での大規模拡散モデルの微調整は、深刻な過剰フィッティング問題と長い推論時間を引き起こす可能性がある。 事前学習されたモデルからの情報漏洩は、入力画像のテキスト関連コンテンツの保存を困難にし、言語記述に導かれる新機能を生成する。 一方で、追加の制約として構造的ガイダンス(エッジマップ、セマンティックマップ、キーポイントなど)を組み込んだメソッドは、色やテクスチャといった元のイメージの他の属性を保存する際の制限に直面する。 オリジナルのイメージを組み込む簡単な方法は、直接それを追加のコントロールとして使うことである。 しかし、画像編集法は通常、画像再構成タスクで訓練されるため、組み込まれていると同一のマッピング問題が発生し、そこでモデルが入力と同一の画像の出力を学習し、編集能力が制限される。 これらの課題に対処するため、画像情報除去モジュール(IIR)を用いたテキスト画像編集モデルを提案し、原画像から色関連情報やテクスチャ関連情報を選択的に消去し、テキスト関連コンテンツをより保存し、同一のマッピング問題を回避する。 我々は,cub,アウトドアシーン,cocoという3つのベンチマークデータセットでモデルを評価する。 提案手法は,COCOの先行技術よりも,アノテータの方が約35%好適な編集可能性-忠実トレードオフを実現する。

Diffusion models have demonstrated impressive performance in text-guided image generation. To leverage the knowledge of text-guided image generation models in image editing, current approaches either fine-tune the pretrained models using the input image (e.g., Imagic) or incorporate structure information as additional constraints into the pretrained models (e.g., ControlNet). However, fine-tuning large-scale diffusion models on a single image can lead to severe overfitting issues and lengthy inference time. The information leakage from pretrained models makes it challenging to preserve the text-irrelevant content of the input image while generating new features guided by language descriptions. On the other hand, methods that incorporate structural guidance (e.g., edge maps, semantic maps, keypoints) as additional constraints face limitations in preserving other attributes of the original image, such as colors or textures. A straightforward way to incorporate the original image is to directly use it as an additional control. However, since image editing methods are typically trained on the image reconstruction task, the incorporation can lead to the identical mapping issue, where the model learns to output an image identical to the input, resulting in limited editing capabilities. To address these challenges, we propose a text-to-image editing model with Image Information Removal module (IIR) to selectively erase color-related and texture-related information from the original image, allowing us to better preserve the text-irrelevant content and avoid the identical mapping issue. We evaluate our model on three benchmark datasets: CUB, Outdoor Scenes, and COCO. Our approach achieves the best editability-fidelity trade-off, and our edited images are approximately 35% more preferred by annotators than the prior-arts on COCO.
翻訳日:2023-05-30 18:58:22 公開日:2023-05-27
# 4H-SiCにおける近赤外放射体としての正電荷炭素空孔欠陥

The positively charged carbon vacancy defect as a near-infrared emitter in 4H-SiC ( http://arxiv.org/abs/2305.17483v1 )

ライセンス: Link先を確認
Meysam Mohseni, P\'eter Udvarhelyi, Gerg\H{o} Thiering, and Adam Gali(参考訳) 炭化ケイ素の固有の点欠陥は、効率的なスピン-光子界面を持つ有望な量子系である。 炭化ケイ素の炭素空隙は初等で比較的豊富な本質的欠陥であるが、それに関連する光信号は報告されていない。 ここでは,炭化ケイ素の4Hポリタイプ (4H-SiC) における正電荷の炭素空孔欠陥をtextit{ab initio} 計算により再検討する。 励起状態は4h-sicにおける炭素空孔のhサイト配置に光学活性があり、ゼロフォノン線は0.65〜\mathrm{ev}$である。 この欠陥をir-b領域における異種常磁性近赤外放射体として提案する。

Certain intrinsic point defects in silicon carbide are promising quantum systems with efficient spin-photon interface. Despite carbon vacancy in silicon carbide is an elementary and relatively abundant intrinsic defect, no optical signal has been reported associated with it. Here, we revisit the positively charged carbon vacancy defects in the 4H polytype of silicon carbide (4H-SiC) by means of \textit{ab initio} calculations. We find that the excited state is optically active for the so-called h-site configuration of carbon vacancy in 4H-SiC, with zero-phonon line at $0.65~\mathrm{eV}$. We propose this defect as an exotic paramagnetic near-infrared emitter in the IR-B region.
翻訳日:2023-05-30 18:57:50 公開日:2023-05-27
# 2次法によるフェデレーション実証リスク最小化

Federated Empirical Risk Minimization via Second-Order Method ( http://arxiv.org/abs/2305.17482v1 )

ライセンス: Link先を確認
Song Bian, Zhao Song, Junze Yin(参考訳) 機械学習における重要な応用に関する凸最適化問題の多くは経験的リスク最小化(ERM)として定式化されている。 線形およびロジスティック回帰、LASSO、カーネル回帰、量子回帰、$p$-norm回帰、サポートベクターマシン(SVM)、平均場変動推論などがある。 データプライバシを改善するために,ネットワークエッジ上で,ノード間でデータを共有することなくディープラーニングモデルをトレーニングするためのフレームワークとして,機械学習において連合学習を提案する。 本研究では,連合学習環境下での一般的なERM問題を解決するための内部点法(IPM)を提案する。 IPMの各イテレーションの通信複雑性が$\tilde{O}(d^{3/2})$であることを示す。

Many convex optimization problems with important applications in machine learning are formulated as empirical risk minimization (ERM). There are several examples: linear and logistic regression, LASSO, kernel regression, quantile regression, $p$-norm regression, support vector machines (SVM), and mean-field variational inference. To improve data privacy, federated learning is proposed in machine learning as a framework for training deep learning models on the network edge without sharing data between participating nodes. In this work, we present an interior point method (IPM) to solve a general ERM problem under the federated learning setting. We show that the communication complexity of each iteration of our IPM is $\tilde{O}(d^{3/2})$, where $d$ is the dimension (i.e., number of features) of the dataset.
翻訳日:2023-05-30 18:57:37 公開日:2023-05-27
# 天国におけるマッチ:ハイパーボイルとメタファー検出のためのマルチタスクフレームワーク

A Match Made in Heaven: A Multi-task Framework for Hyperbole and Metaphor Detection ( http://arxiv.org/abs/2305.17480v1 )

ライセンス: Link先を確認
Naveen Badathala (1), Abisek Rajakumar Kalarani (1), Tejpalsingh Siledar (1), Pushpak Bhattacharyya (1), ((1) Indian Institute of Technology Bombay)(参考訳) ハイパーボイルとメタファーは、日々のコミュニケーション(例えば、"i am in deep trouble": how does trouble have depth?)において一般的であり、特に会話型ai環境では、その検出が重要である。 メタファとハイパーボイルを自動的に検出する既存のアプローチは、これらの言語現象を独立に研究してきたが、それらの関係が計算的に研究されることはなかった。 本稿では,ハイパーボラとメタファを同時に検出するマルチタスク深層学習フレームワークを提案する。 我々はメタファがハイパボラ検出に役立ち、その逆を仮定する。 この仮説をテストするために,2つのハイパボラデータセット(HYPOとHYPO-L)をメタファーラベルで注釈付けする。 同時に、2つのメタファデータセット、TroFi と LCC をハイパボレラベルで注釈付けする。 これらのデータセットを用いた実験は、ハイパーボールの検出技術の現状を12%改善する。 さらに、マルチタスク学習(MTL)アプローチでは、ハイパボラとメタファ検出の両方において、シングルタスク学習(STL)よりも最大17%改善し、仮説を支持しています。 我々の知る限りでは、メタファーとハイパーボールの言語親和性を利用した計算の初めての実証であり、ハイパーボールのSTLよりもMTLの方が優れていることを示す。

Hyperbole and metaphor are common in day-to-day communication (e.g., "I am in deep trouble": how does trouble have depth?), which makes their detection important, especially in a conversational AI setting. Existing approaches to automatically detect metaphor and hyperbole have studied these language phenomena independently, but their relationship has hardly, if ever, been explored computationally. In this paper, we propose a multi-task deep learning framework to detect hyperbole and metaphor simultaneously. We hypothesize that metaphors help in hyperbole detection, and vice-versa. To test this hypothesis, we annotate two hyperbole datasets- HYPO and HYPO-L- with metaphor labels. Simultaneously, we annotate two metaphor datasets- TroFi and LCC- with hyperbole labels. Experiments using these datasets give an improvement of the state of the art of hyperbole detection by 12%. Additionally, our multi-task learning (MTL) approach shows an improvement of up to 17% over single-task learning (STL) for both hyperbole and metaphor detection, supporting our hypothesis. To the best of our knowledge, ours is the first demonstration of computational leveraging of linguistic intimacy between metaphor and hyperbole, leading to showing the superiority of MTL over STL for hyperbole and metaphor detection.
翻訳日:2023-05-30 18:57:21 公開日:2023-05-27
# 不均一な相互影響下で因果効果を推測する

Inferring Causal Effects Under Heterogeneous Peer Influence ( http://arxiv.org/abs/2305.17479v1 )

ライセンス: Link先を確認
Shishir Adhikari, Elena Zheleva(参考訳) ネットワークにおける因果推論は、ユニットの結果がピアの処置や結果に影響されたときに発生する干渉を考慮すべきである。 ユニットの成果がそれぞれの属性や関係に基づいて異なるピアから異なる影響を受ける場合や、各ユニットがピア影響に対して異なる感受性を持つ場合、ユニット間で異質なピア影響が生じる可能性がある。 干渉下での因果推論の既存の解は、ピアからの均質な影響または特定の異質な影響機構(例えば、局所的な近傍構造に基づく)を考察する。 本稿では、任意メカニズムによる異種ピアの影響の有無の個人因果効果を推定する手法を提案する。 本稿では,ネットワーク構造,干渉条件,因果依存性に関する任意の仮定を捉えるネットワークの構造因果モデルを提案する。 因果モデルを用いて、潜在的な異種コンテキストを特定し、個々の因果効果を推定する新しいグラフニューラルネットワークに基づく推定器を提案する。 個別因果効果推定のための既存の最先端手法は,異質な相互影響の存在下で偏りのある結果をもたらし,提案手法はロバストであることを示す。

Causal inference in networks should account for interference, which occurs when a unit's outcome is influenced by treatments or outcomes of peers. There can be heterogeneous peer influence between units when a unit's outcome is subjected to variable influence from different peers based on their attributes and relationships, or when each unit has a different susceptibility to peer influence. Existing solutions to causal inference under interference consider either homogeneous influence from peers or specific heterogeneous influence mechanisms (e.g., based on local neighborhood structure). This paper presents a methodology for estimating individual causal effects in the presence of heterogeneous peer influence due to arbitrary mechanisms. We propose a structural causal model for networks that can capture arbitrary assumptions about network structure, interference conditions, and causal dependence. We identify potential heterogeneous contexts using the causal model and propose a novel graph neural network-based estimator to estimate individual causal effects. We show that existing state-of-the-art methods for individual causal effect estimation produce biased results in the presence of heterogeneous peer influence, and that our proposed estimator is robust.
翻訳日:2023-05-30 18:56:57 公開日:2023-05-27
# 深部病変デフィシットマッピング

Deep Variational Lesion-Deficit Mapping ( http://arxiv.org/abs/2305.17478v1 )

ライセンス: Link先を確認
Guilherme Pombo, Robert Gray, Amy P.K. Nelson, Chris Foulon, John Ashburner, Parashkev Nachev(参考訳) 人間の脳の機能的構造の因果マッピングには、自然起源の病的病変のみから十分なスケールで利用可能な \textit{necessity} の証拠が必要である。 これにより、病理損傷の観測可能な分布と神経基質の観測できない分布の両方を捉えるのに十分な柔軟性を持つ推論モデルが要求される。 現在のモデルフレームワーク -- 大量ユニバリケートと多変量 -- は、分散障害と障害の関係を無視したり、予測タスクに付随する成果化に依存して、明示的にモデル化しない。 そこで我々は, 深部生成型ニューラルネットワークアーキテクチャの病変・欠損推論への応用を開始し, 潜在神経基板上での関節病変の表現的階層モデルと欠損分布の推定として定式化した。 変形性畳み込み型自動エンコーダを用いた深部病変評価を行った。 本稿では, 多様な候補基板, 基質相互作用形態, 試料サイズ, 騒音破壊, 個体群不均一性を含む, 病変欠陥モデル比較のための包括的枠組みを提案する。 5500の等時性脳卒中の画像をもとに,本モデルが,比較的小規模でノイズの多いデータレジームを含む全てのシミュレーションシナリオにおいて,確立した手法をかなりのマージンで上回っていることを示す。 私たちの分析は、このアプローチが広く採用されていることを正当化しており、オープンソース実装を提供しています。

Causal mapping of the functional organisation of the human brain requires evidence of \textit{necessity} available at adequate scale only from pathological lesions of natural origin. This demands inferential models with sufficient flexibility to capture both the observable distribution of pathological damage and the unobserved distribution of the neural substrate. Current model frameworks -- both mass-univariate and multivariate -- either ignore distributed lesion-deficit relations or do not model them explicitly, relying on featurization incidental to a predictive task. Here we initiate the application of deep generative neural network architectures to the task of lesion-deficit inference, formulating it as the estimation of an expressive hierarchical model of the joint lesion and deficit distributions conditioned on a latent neural substrate. We implement such deep lesion deficit inference with variational convolutional volumetric auto-encoders. We introduce a comprehensive framework for lesion-deficit model comparison, incorporating diverse candidate substrates, forms of substrate interactions, sample sizes, noise corruption, and population heterogeneity. Drawing on 5500 volume images of ischaemic stroke, we show that our model outperforms established methods by a substantial margin across all simulation scenarios, including comparatively small-scale and noisy data regimes. Our analysis justifies the widespread adoption of this approach, for which we provide an open source implementation: https://github.com/guilherme-pombo/vae_lesion_deficit
翻訳日:2023-05-30 18:56:37 公開日:2023-05-27
# BASED:デブロアリングのベンチマーク、分析、構造推定

BASED: Benchmarking, Analysis, and Structural Estimation of Deblurring ( http://arxiv.org/abs/2305.17477v1 )

ライセンス: Link先を確認
Nikita Alutis, Egor Chistov, Mikhail Dremin, Dmitriy Vatolin(参考訳) 本稿では,デブラリング手法の品質評価の課題について考察し,機械学習に基づく基準の削減を提案する。 PSNRやSSIMのような従来の品質評価指標は、このタスクには一般的なものであるが、主観的な評価と相関するだけでなく、デブロアの場合は入手が困難であるグラウンド・トゥルース(GT)フレームも必要である。 測定値の開発と評価のために,ビームスプリッタを用いた新しいモーションブラインドデータセットを開発した。 既存のデータセットのほとんどのシーンは、カメラの動きによるぼやけを含むため、スタティックカメラを使用して様々なモーションタイプをキャプチャした。 また,メートル法開発支援のための主観的比較を2回行った。 結果、GTフレームは必要とせず、ぼかしの主観的人間の知覚とよく相関する。

This paper discusses the challenges of evaluating deblurring-methods quality and proposes a reduced-reference metric based on machine learning. Traditional quality-assessment metrics such as PSNR and SSIM are common for this task, but not only do they correlate poorly with subjective assessments, they also require ground-truth (GT) frames, which can be difficult to obtain in the case of deblurring. To develop and evaluate our metric, we created a new motion-blur dataset using a beam splitter. The setup captured various motion types using a static camera, as most scenes in existing datasets include blur due to camera motion. We also conducted two large subjective comparisons to aid in metric development. Our resulting metric requires no GT frames, and it correlates well with subjective human perception of blur.
翻訳日:2023-05-30 18:55:59 公開日:2023-05-27
# 生成データ拡張の理解に向けて

Toward Understanding Generative Data Augmentation ( http://arxiv.org/abs/2305.17476v1 )

ライセンス: Link先を確認
Chenyu Zheng, Guoqiang Wu, Chongxuan Li(参考訳) トレーニングされた条件付き生成モデルから偽のラベル付き例を取得してデータセットをスケールする生成データ拡張は、(半)教師付き学習、少数ショット学習、敵対的ロバストな学習など、さまざまな学習タスクの分類性能を高める。 しかし、生成データ増強の効果を理論的に研究する研究はほとんどない。 このギャップを埋めるために、学習された分布が元の列車集合に依存し、一般には真の分布と同一でないような、独立で同じ分布(非等化)の設定に縛られる一般的な安定性を確立する。 我々の理論的結果は、学習分布と真の分布の相違を含む。 生成データの増大は、発散項の順序が $o(\max\left( \log(m)\beta_m, 1 / \sqrt{m})\right)$ であるとき、より高速な学習率を享受できることを示し、$m$ は列車のセットサイズであり、$\beta_m$ は対応する安定性定数である。 さらに,gaussian mixed modelとgenerative adversarial netsへの学習設定を指定する。 いずれの場合も、生成データの増大は学習速度の速さを損なうものではないが、列車セットが小さい場合の学習保証を一定レベル改善することができることが証明されている。 ガウス混合モデルのシミュレーション結果と生成逆数ネットの実証結果は、我々の理論的な結論を支持する。 私たちのコードはhttps://github.com/ML-GSAI/Understanding-GDAで公開されています。

Generative data augmentation, which scales datasets by obtaining fake labeled examples from a trained conditional generative model, boosts classification performance in various learning tasks including (semi-)supervised learning, few-shot learning, and adversarially robust learning. However, little work has theoretically investigated the effect of generative data augmentation. To fill this gap, we establish a general stability bound in this not independently and identically distributed (non-i.i.d.) setting, where the learned distribution is dependent on the original train set and generally not the same as the true distribution. Our theoretical result includes the divergence between the learned distribution and the true distribution. It shows that generative data augmentation can enjoy a faster learning rate when the order of divergence term is $o(\max\left( \log(m)\beta_m, 1 / \sqrt{m})\right)$, where $m$ is the train set size and $\beta_m$ is the corresponding stability constant. We further specify the learning setup to the Gaussian mixture model and generative adversarial nets. We prove that in both cases, though generative data augmentation does not enjoy a faster learning rate, it can improve the learning guarantees at a constant level when the train set is small, which is significant when the awful overfitting occurs. Simulation results on the Gaussian mixture model and empirical results on generative adversarial nets support our theoretical conclusions. Our code is available at https://github.com/ML-GSAI/Understanding-GDA.
翻訳日:2023-05-30 18:55:32 公開日:2023-05-27
# ゼロthresholdポラリトンラマンレーザー

A Zero-Threshold Polariton-Raman Laser ( http://arxiv.org/abs/2305.17475v1 )

ライセンス: Link先を確認
Avijit Dhara, Devarshi Chakrabarty, Pritam Das, Kritika Ghosh, Ayan Roy Chaudhuri, Sajal Dhara(参考訳) ラマンレーザーは、従来のレーザーでは達成できない低出力動作と波長可変で知られている。 最近の超低融点ラマンレーザーは様々な測地線を持つ半導体で実現されていた。 ゼロ閾値レーザーは従来は単一モードキャビティに強く結合した単一原子エミッタとユニティの自然放出結合係数でのみ実現されていた。 しかし, 異方性ラマン活性物質を担持するマイクロキャビティでは, 縮退した裸空洞モードでは実現不可能であった。 ここでは、ストロークシフトポラリトンラマンモードが光学的微小キャビティ内の異方性励起子-ポラリトンバンドの1つ内で調整されると、ゼロしきい値のラマンレーザーが得られることを示す。 さらに、単一モードのマイクロキャビティにおけるラマン活性異方性励起子-ポーラリトンは、例外点を含む非自明なバンド分散を構成する2つの略直交偏光子モードからなるpt対称非エルミート量子系を実現するプラットフォームを提供する。 その結果, ゼロスレッショルド発振に寄与するpt対称相は, 浴温の変動によるキャビティデチューニングとポンプ偏光とエネルギーの変動により, pt対称性破壊相の有限しきい値に切り替えることができることがわかった。 ゼロしきい値ポラリトンラマンレーザーの発見は、量子光学やオンチップフォトニクスの分野での応用のいくつかの新しいパラダイムを開くだけでなく、pt対称非ヘルミティアン系の量子物理学の研究のためのプラットフォームを提供するだろう。

Raman lasers are known for their low power operation and wavelength tunability unattainable by conventional lasers. Recently ultralow-threshold Raman lasers had been realized in semiconductors with various geometries. Zero-threshold lasers were realized previously only in single atom emitter strongly coupled in a single mode cavity with spontaneous emission coupling factor of unity. However, this was not feasible in microcavities hosting isotropic Raman active materials with degenerate bare cavity modes. Here we show that a zero threshold Raman laser can be achieved when Stoke shifted polariton Raman modes are tuned within one of the anisotropic exciton-polariton bands in an optical microcavity. In addition, we demonstrate that Raman active anisotropic exciton-polaritons in a single mode microcavity offers a platform to realize a PT-symmetric non-Hermitian quantum system of two nearly orthogonal polariton modes that constitute a non-trivial band dispersion containing exceptional points. We found that the PT-symmetric phase responsible for the zero-threshold lasing can be switched to a finite threshold in PT-symmetry broken phase via cavity detuning by the variation of bath temperature, as well as by the variation of pump polarization and energy. Our discovery of zero threshold polariton Raman laser, would not only open up several new paradigms of applications in the areas of quantum optics and on-chip photonics but also offer a platform for research in quantum physics of PT-symmetric non-Hermitian system.
翻訳日:2023-05-30 18:55:01 公開日:2023-05-27
# 運動量状態格子の分光

Spectroscopy of momentum state lattices ( http://arxiv.org/abs/2305.17507v1 )

ライセンス: Link先を確認
Sai Naga Manoj Paladugu, Tao Chen, Fangzhao Alex An, Bo Yan, and Bryce Gadway(参考訳) 走査型トンネル顕微鏡に類似した合成格子中のエネルギースペクトルを探索する手法について検討する。 結合原子運動量状態の1次元合成格子を用いて、この分光学的手法を探求し、小さな2点および3点格子の計測およびシミュレーションエネルギースペクトルと一様多点格子との質的一致を観察する。 最後に, この手法により, 合成格子で実現したホフシュタッターモデルのトポロジカルバンドとフラクタルエネルギースペクトルの探索が可能となることを示す。

We explore a technique for probing energy spectra in synthetic lattices that is analogous to scanning tunneling microscopy. Using one-dimensional synthetic lattices of coupled atomic momentum states, we explore this spectroscopic technique and observe qualitative agreement between the measured and simulated energy spectra for small two- and three-site lattices as well as a uniform many-site lattice. Finally, through simulations, we show that this technique should allow for the exploration of the topological bands and the fractal energy spectrum of the Hofstadter model as realized in synthetic lattices.
翻訳日:2023-05-30 18:47:03 公開日:2023-05-27
# バックドア型ニューラルコード検索

Backdooring Neural Code Search ( http://arxiv.org/abs/2305.17506v1 )

ライセンス: Link先を確認
Weisong Sun, Yuchen Chen, Guanhong Tao, Chunrong Fang, Xiangyu Zhang, Quanjun Zhang, Bin Luo(参考訳) オンラインリポジトリから既製のコードスニペットを再利用することは、ソフトウェア開発者の生産性を大幅に向上させる一般的なプラクティスである。 望ましいコードスニペットを見つけるために、開発者は自然言語クエリを通じてコード検索エンジンに頼る。 そのため、ニューラルコード検索モデルはそのようなエンジンの背後にある。 これらのモデルはディープラーニングに基づいており、その印象的なパフォーマンスによってかなりの注目を集めています。 しかし、これらのモデルのセキュリティ面はほとんど研究されていない。 特に、敵は、セキュリティやプライバシーの問題でバグや脆弱なコードを返すニューラルコード検索モデルにバックドアを注入することができる。 これは下流のソフトウェア(株式取引システムや自動運転など)に影響を及ぼし、財政的損失や致命的な事故を引き起こす可能性がある。 本稿では,このような攻撃が実現可能であり,極めてステルス性が高いことを示す。 1つの変数/関数名を変更するだけで、攻撃者はバギー/vulnerableのコードランクをトップ11%にすることができる。 我々の攻撃BADCODEは、攻撃をより効果的かつステルス的に、特別なトリガー生成および注入手順を特徴としている。 2つのニューラルコード探索モデルを用いて評価を行い,本攻撃がベースラインを60%上回ることを示した。 ユーザ調査の結果,f1スコアに基づく攻撃はベースラインよりも2倍ステルス性が高いことがわかった。

Reusing off-the-shelf code snippets from online repositories is a common practice, which significantly enhances the productivity of software developers. To find desired code snippets, developers resort to code search engines through natural language queries. Neural code search models are hence behind many such engines. These models are based on deep learning and gain substantial attention due to their impressive performance. However, the security aspect of these models is rarely studied. Particularly, an adversary can inject a backdoor in neural code search models, which return buggy or even vulnerable code with security/privacy issues. This may impact the downstream software (e.g., stock trading systems and autonomous driving) and cause financial loss and/or life-threatening incidents. In this paper, we demonstrate such attacks are feasible and can be quite stealthy. By simply modifying one variable/function name, the attacker can make buggy/vulnerable code rank in the top 11%. Our attack BADCODE features a special trigger generation and injection procedure, making the attack more effective and stealthy. The evaluation is conducted on two neural code search models and the results show our attack outperforms baselines by 60%. Our user study demonstrates that our attack is more stealthy than the baseline by two times based on the F1 score.
翻訳日:2023-05-30 18:46:53 公開日:2023-05-27
# 量子ldpc符号に対するpauli演算子のデカップリング表現に基づく信念伝播復号アルゴリズムの改良

Improved belief propagation decoding algorithm based on decoupling representation of Pauli operators for quantum LDPC codes ( http://arxiv.org/abs/2305.17505v1 )

ライセンス: Link先を確認
Zhengzhong Yi, Zhipeng Liang, Kaixin Zhong, Yulin Wu, Zhou Fang, Xuan Wang(参考訳) そこで我々は,量子低密度パリティチェック符号に対する部分的疎結合な信念伝播と完全疎結合な信念伝播復号アルゴリズムを提案する。 Under the assumption that there is no measurement error, compared with traditional belief propagation algorithm in symplectic representation over GF(2), within the same number of iterations, the decoding accuracy of partially decoupled belief propagation and fully decoupled belief propagation algorithm is significantly improved in pure Y noise channel and depolarizing noise channel, which supports that decoding algorithms of quantum error correcting codes might have better performance in decoupling representation than in symplectic representation. 完全に分離された信念伝播アルゴリズムの印象的な性能は、工学における量子エラー訂正符号の実現を促進するかもしれない。

We propose a new method called decoupling representation to represent Pauli operators as vectors over GF(2), based on which we propose partially decoupled belief propagation and fully decoupled belief propagation decoding algorithm for quantum low density parity-check codes. Under the assumption that there is no measurement error, compared with traditional belief propagation algorithm in symplectic representation over GF(2), within the same number of iterations, the decoding accuracy of partially decoupled belief propagation and fully decoupled belief propagation algorithm is significantly improved in pure Y noise channel and depolarizing noise channel, which supports that decoding algorithms of quantum error correcting codes might have better performance in decoupling representation than in symplectic representation. The impressive performance of fully decoupled belief propagation algorithm might promote the realization of quantum error correcting codes in engineering.
翻訳日:2023-05-30 18:46:34 公開日:2023-05-27
# CIF-PT:連続的統合と火災予報による音声理解のためのブリッジ音声とテキスト表現

CIF-PT: Bridging Speech and Text Representations for Spoken Language Understanding via Continuous Integrate-and-Fire Pre-Training ( http://arxiv.org/abs/2305.17499v1 )

ライセンス: Link先を確認
Linhao Dong, Zhecheng An, Peihao Wu, Jun Zhang, Lu Lu, Zejun Ma(参考訳) 事前訓練されたモデルによって生成された音声やテキストの表現は、音声言語理解(SLU)タスクに役立てることができる、モーダル固有の情報を含んでいる。 本研究では,CIF-PT(Continuous Integrate-and-Fire Pre-Training)と呼ばれる新しい事前学習パラダイムを提案する。 音声とテキスト間の表現を橋渡しするために、cif(continuous integrated-and-fire)という、単純だが効果的なフレーム間アライメントに依存している。 cifをプリトレーニング(pt)として、音声対テキストの訓練と言語モデル蒸留を共同で行う。 SLUベンチマークのSLURPデータセットで評価すると、CIF-PTは、意図分類とスロットフィリングのタスクにおいて、それぞれ1.94%の精度と2.71%のSLU-F1よりも優れていた。 また、CIF-PTによって抽出されたクロスモーダル表現は、自己教師付き事前学習から学習した支配的な音声表現を含む、SLUのタスクにおける他の神経インタフェースよりも優れた性能を得る。

Speech or text representation generated by pre-trained models contains modal-specific information that could be combined for benefiting spoken language understanding (SLU) tasks. In this work, we propose a novel pre-training paradigm termed Continuous Integrate-and-Fire Pre-Training (CIF-PT). It relies on a simple but effective frame-to-token alignment: continuous integrate-and-fire (CIF) to bridge the representations between speech and text. It jointly performs speech-to-text training and language model distillation through CIF as the pre-training (PT). Evaluated on SLU benchmark SLURP dataset, CIF-PT outperforms the state-of-the-art model by 1.94% of accuracy and 2.71% of SLU-F1 on the tasks of intent classification and slot filling, respectively. We also observe the cross-modal representation extracted by CIF-PT obtains better performance than other neural interfaces for the tasks of SLU, including the dominant speech representation learned from self-supervised pre-training.
翻訳日:2023-05-30 18:46:22 公開日:2023-05-27
# CVaR以上の最小化のためのモデルベース手法

A Model-Based Method for Minimizing CVaR and Beyond ( http://arxiv.org/abs/2305.17498v1 )

ライセンス: Link先を確認
Si Yi Meng, Robert M. Gower(参考訳) 本研究では,CVaR目標を最小化するための確率的 Prox-linear 法の変種を開発する。 CVaRは最悪のケースのパフォーマンスを最小化することに焦点を当てたリスク尺度であり、損失の最上位量の平均として定義される。 機械学習では、そのようなリスク尺度はより堅牢なモデルをトレーニングするのに有用である。 CVaRの目的を最小化するためには,SGM法が自然な選択であるが,我々の確率的 Prox-linear (SPL+) アルゴリズムは,その目的の構造をよりよく活用できる一方で,便利なクローズドフォーム更新を提供する。 我々のSPL+法は損失関数のスケーリングにも適応し、簡単にチューニングできる。 次に、SPL+の一般収束定理を我々の設定に特殊化し、SGMと比較してより広いステップサイズの選択を可能にすることを示す。 我々はこの理論的発見を実験的に支持する。

We develop a variant of the stochastic prox-linear method for minimizing the Conditional Value-at-Risk (CVaR) objective. CVaR is a risk measure focused on minimizing worst-case performance, defined as the average of the top quantile of the losses. In machine learning, such a risk measure is useful to train more robust models. Although the stochastic subgradient method (SGM) is a natural choice for minimizing the CVaR objective, we show that our stochastic prox-linear (SPL+) algorithm can better exploit the structure of the objective, while still providing a convenient closed form update. Our SPL+ method also adapts to the scaling of the loss function, which allows for easier tuning. We then specialize a general convergence theorem for SPL+ to our setting, and show that it allows for a wider selection of step sizes compared to SGM. We support this theoretical finding experimentally.
翻訳日:2023-05-30 18:46:01 公開日:2023-05-27
# FACTUAL: 忠実で一貫性のあるテキストシーングラフ解析のためのベンチマーク

FACTUAL: A Benchmark for Faithful and Consistent Textual Scene Graph Parsing ( http://arxiv.org/abs/2305.17497v1 )

ライセンス: Link先を確認
Zhuang Li, Yuyang Chai, Terry Zhuo Yue, Lizhen Qu, Gholamreza Haffari, Fei Li, Donghong Ji, Quan Hung Tran(参考訳) 画像キャプション評価や画像検索など,様々な視覚言語アプリケーションにおいて,テキストシーングラフ解析の重要性が高まっている。 しかし、画像キャプションをシーングラフに変換する既存のシーングラフパーサは、しばしば2種類のエラーに悩まされる。 まず、生成されたシーングラフは、キャプションや対応する画像の真の意味を捉えられなかったため、忠実さが欠落した。 第二に、生成されたシーングラフは一貫性が高く、同じセマンティクスは異なるアノテーションで表される。 これらの課題に対処するために,視覚ゲノム(vg)のキャプションをfactual-mrと呼ばれる新しい中間表現を用いて再注釈する新しいデータセットを提案する。 factual-mrは、忠実で一貫性のあるシーングラフアノテーションに直接変換できる。 実験の結果、データセットでトレーニングされたパーサは、忠実さと一貫性の観点から既存のアプローチよりも優れています。 この改善は、画像キャプション評価とゼロショット画像検索タスクの両方において、大幅なパフォーマンス向上をもたらす。 さらに,シーングラフの類似度を測定するための新しい指標を導入し,改良されたシーングラフパーサと組み合わせることで,上記タスクの複数のベンチマークデータセットで最先端(sota)結果を得る。 コードとデータセットはhttps://github.com/zhuang-li/factualで入手できる。

Textual scene graph parsing has become increasingly important in various vision-language applications, including image caption evaluation and image retrieval. However, existing scene graph parsers that convert image captions into scene graphs often suffer from two types of errors. First, the generated scene graphs fail to capture the true semantics of the captions or the corresponding images, resulting in a lack of faithfulness. Second, the generated scene graphs have high inconsistency, with the same semantics represented by different annotations. To address these challenges, we propose a novel dataset, which involves re-annotating the captions in Visual Genome (VG) using a new intermediate representation called FACTUAL-MR. FACTUAL-MR can be directly converted into faithful and consistent scene graph annotations. Our experimental results clearly demonstrate that the parser trained on our dataset outperforms existing approaches in terms of faithfulness and consistency. This improvement leads to a significant performance boost in both image caption evaluation and zero-shot image retrieval tasks. Furthermore, we introduce a novel metric for measuring scene graph similarity, which, when combined with the improved scene graph parser, achieves state-of-the-art (SOTA) results on multiple benchmark datasets for the aforementioned tasks. The code and dataset are available at https://github.com/zhuang-li/FACTUAL .
翻訳日:2023-05-30 18:45:44 公開日:2023-05-27
# 異方性における時間外相関器の量子崩壊と指数的成長

Quantum collapse and exponential growth of out-of-time-ordered correlator in anisotropic ( http://arxiv.org/abs/2305.17495v1 )

ライセンス: Link先を確認
Shangyun Wang, Songbai Chen, Jiliang Jing, Jieci Wang, Heng Fan(参考訳) 量子カオスは興味深い話題であり、量子力学やブラックホール物理学に多くの関心を寄せている。 近年,量子カオスの診断と対応原理の検証のために,時間外相関器(OTOC)の指数的成長が提案されている。 ここでは、初期状態の初期におけるOTOCの指数的成長が、異方性量子Rabiモデルのカオス領域と安定領域の両方に集中していることを示す。 我々は、OTOCの指数的成長を量子崩壊とみなし、量子系におけるOTOCの指数的成長をもたらす新しいメカニズムを提供する。 さらに、量子崩壊効果はカオス状態を中心とする初期状態に対してより明らかである。 その結果,オトックと比較して,線形エンタングルメントエントロピーとロスシュミットエコーは異方性量子ラビモデルにおける量子カオスの信号の診断に有効であることが示唆された。

Quantum chaos is an intriguing topic and has attracting a great deal of interests in quantum mechanics and black hole physics. Recently, the exponential growth of out-of-time-ordered correlator (OTOC) has been proposed to diagnose quantum chaos and verify the correspondence principle. Here, we demonstrate that the exponential growth of the OTOC at early times for the initial states centered both in the chaotic and stable regions of the anisotropic quantum Rabi model. We attribute the exponential growth of the OTOC to quantum collapse which provides a novel mechanism of yielding exponential growth of the OTOC in quantum systems. Moreover, the quantum collapse effect is more obvious for the initial states centered in the chaotic one. Our results show that compared with the OTOC, the linear entanglement entropy and Loschmidt echo seem to be more effective to diagnose the signals of quantum chaos in the anisotropic quantum Rabi model.
翻訳日:2023-05-30 18:45:20 公開日:2023-05-27
# Model Dementia: 生成されたデータはモデルを忘れる

Model Dementia: Generated Data Makes Models Forget ( http://arxiv.org/abs/2305.17493v1 )

ライセンス: Link先を確認
Ilia Shumailov, Zakhar Shumaylov, Yiren Zhao, Yarin Gal, Nicolas Papernot, Ross Anderson(参考訳) 安定拡散は記述テキストからの画像生成に革命をもたらした。 GPT-2、GPT-3(.5)、GPT-4は様々な言語タスクで驚くべき性能を示した。 ChatGPTはそのような言語モデルを一般向けに導入した。 現在、大規模言語モデル(llm)が存続していることは明らかであり、オンラインテキストと画像のエコシステム全体に劇的な変化をもたらすだろう。 本稿では,今後の展望について考察する。 LLMがオンラインにある言語の多くに貢献したら、GPT-{n}はどうなるでしょう? トレーニングにおけるモデル生成コンテンツの使用は、元のコンテンツ分布の尾部が消える結果のモデルに不可逆的な欠陥を引き起こす。 我々はこの効果モデルを認知症と呼び、変分オートエンコーダ(VAE)、ガウス混合モデル(GMM)、LLMで起こりうることを示す。 我々は、この現象の背後に理論的直観を構築し、すべての学習された生成モデルの中でその普遍性を描写する。 Webから取り除かれた大規模なデータからトレーニングのメリットを維持するためには、真剣に取り組まなければならないことを実証する。 実際、システムとの真の人間関係に関する収集されたデータの価値は、インターネットからクロールされたデータの中でLLMが生成したコンテンツの存在において、ますます貴重になる。

Stable Diffusion revolutionised image creation from descriptive text. GPT-2, GPT-3(.5) and GPT-4 demonstrated astonishing performance across a variety of language tasks. ChatGPT introduced such language models to the general public. It is now clear that large language models (LLMs) are here to stay, and will bring about drastic change in the whole ecosystem of online text and images. In this paper we consider what the future might hold. What will happen to GPT-{n} once LLMs contribute much of the language found online? We find that use of model-generated content in training causes irreversible defects in the resulting models, where tails of the original content distribution disappear. We call this effect model dementia and show that it can occur in Variational Autoencoders (VAEs), Gaussian Mixture Models (GMMs) and LLMs. We build theoretical intuition behind the phenomenon and portray its ubiquity amongst all learned generative models. We demonstrate that it has to be taken seriously if we are to sustain the benefits of training from large-scale data scraped from the web. Indeed, the value of data collected about genuine human interactions with systems will be increasingly valuable in the presence of content generated by LLMs in data crawled from the Internet.
翻訳日:2023-05-30 18:45:04 公開日:2023-05-27
# 動的ユーザセグメンテーションと利用状況のプロファイリング

Dynamic User Segmentation and Usage Profiling ( http://arxiv.org/abs/2305.17492v1 )

ライセンス: Link先を確認
Animesh Mitra, Saswata Sahoo, Soumyabrata Dey(参考訳) 楽曲、映画、ウェブページ、リンク、一般家庭製品、モバイルアプリ、ゲームなど、多数のカテゴリにまたがるユーザーの利用データは、超高次元で巨大なサイズになる可能性がある。 この種のデータはカテゴリ的にも性質的にもばらばらであるため、ユーザクラスタのような隠れたパターンを解釈するのがさらに難しくなります。 しかし、この情報が正確に推定できれば、アプリ、曲、映画、その他の類似製品に対するユーザー推薦、電子健康記録(EHR)データを用いた健康分析、保険料見積や車両管理のためのドライバープロファイリングなど、さまざまなビジネス領域に大きな影響を与えることになる。 本稿では,データセットの隠れたスパーシティを利用して,そのようなカテゴリビッグデータのクラスタリング戦略を提案する。 ほとんどの従来のクラスタリング手法は、そのようなデータに対して適切なクラスタを与えず、データクラスタの真の構造に関係なく、小さなクラスタを持つひとつの大きなクラスタを与えることになります。 本稿では,二項値付き利用ベクトルを,共変類と呼ばれる利用カテゴリ群の観点から,低次元連続的特徴空間にマッピングする特徴変換を提案する。 共変類の観点からの低次元特徴表現はクラスタリングに使うことができる。 提案手法を実装し,大規模で高次元の楽曲プレイリストデータセットに適用し,性能検証を行った。 クラスタ間のオーバーラップが最小限に抑えられ(平均8%)、同じサイズのユーザクラスタを達成できたので、結果は印象的です。 提案手法は非常に汎用的なフレームワークであるため,知的かつダイナミックなパーソナルレコメンデーションシステムやスマートなビジネス意思決定支援システムを実現する上で,上記の多くのビジネスユースケースの分析エンジンとして利用することができる。

Usage data of a group of users distributed across a number of categories, such as songs, movies, webpages, links, regular household products, mobile apps, games, etc. can be ultra-high dimensional and massive in size. More often this kind of data is categorical and sparse in nature making it even more difficult to interpret any underlying hidden patterns such as clusters of users. However, if this information can be estimated accurately, it will have huge impacts in different business areas such as user recommendations for apps, songs, movies, and other similar products, health analytics using electronic health record (EHR) data, and driver profiling for insurance premium estimation or fleet management. In this work, we propose a clustering strategy of such categorical big data, utilizing the hidden sparsity of the dataset. Most traditional clustering methods fail to give proper clusters for such data and end up giving one big cluster with small clusters around it irrespective of the true structure of the data clusters. We propose a feature transformation, which maps the binary-valued usage vector to a lower dimensional continuous feature space in terms of groups of usage categories, termed as covariate classes. The lower dimensional feature representations in terms of covariate classes can be used for clustering. We implemented the proposed strategy and applied it to a large sized very high-dimensional song playlist dataset for the performance validation. The results are impressive as we achieved similar-sized user clusters with minimal between-cluster overlap in the feature space (8%) on average). As the proposed strategy has a very generic framework, it can be utilized as the analytic engine of many of the above-mentioned business use cases allowing an intelligent and dynamic personal recommendation system or a support system for smart business decision-making.
翻訳日:2023-05-30 18:44:45 公開日:2023-05-27
# FERMAT:数値推論の精度の代替

FERMAT: An Alternative to Accuracy for Numerical Reasoning ( http://arxiv.org/abs/2305.17491v1 )

ライセンス: Link先を確認
Jasivan Alex Sivakumar and Nafise Sadat Moosavi(参考訳) 事前訓練された言語モデルは、様々なNLPベンチマークで優れたパフォーマンスを達成するが、数値的推論を必要とするタスクには依然として苦戦している。 数値推論の改善の最近の進歩は、数十億のパラメータを含む非常に大きな言語モデルを使用して達成されており、誰でもアクセスできない。 さらに、既存のデータセットの単一スコアを用いて数値推論を測定する。 その結果、異なる数値的推論側面における既存モデルの強みや欠点を明確に理解できないため、それらをスケールアップすることとは別に改善する方法が考えられる。 CheckList (Ribeiro et al., 2020) に触発され, FERMAT と呼ばれる英語の数値推論のための多視点評価セットを導入する。 FERMATはデータセット全体を単一のスコアでレポートする代わりに、数値理解、数学的操作、トレーニング依存など、さまざまな重要な数値推論の側面でモデルを評価する。 FERMATは、異なる数値推論の側面におけるモデルの総合的な評価を提供する以外に、各側面に対する任意の大規模なトレーニングや評価セットの体系的かつ自動生成を可能にし、これらのデータセットとコードは、人工的なタスクや言語のためのさらなるマルチビューデータを生成するために、一般に利用可能である。

While pre-trained language models achieve impressive performance on various NLP benchmarks, they still struggle with tasks that require numerical reasoning. Recent advances in improving numerical reasoning are mostly achieved using very large language models that contain billions of parameters and are not accessible to everyone. In addition, numerical reasoning is measured using a single score on existing datasets. As a result, we do not have a clear understanding of the strengths and shortcomings of existing models on different numerical reasoning aspects and therefore, potential ways to improve them apart from scaling them up. Inspired by CheckList (Ribeiro et al., 2020), we introduce a multi-view evaluation set for numerical reasoning in English, called FERMAT. Instead of reporting a single score on a whole dataset, FERMAT evaluates models on various key numerical reasoning aspects such as number understanding, mathematical operations, and training dependency. Apart from providing a comprehensive evaluation of models on different numerical reasoning aspects, FERMAT enables a systematic and automated generation of an arbitrarily large training or evaluation set for each aspect.The datasets and codes are publicly available to generate further multi-view data for ulterior tasks and languages.
翻訳日:2023-05-30 18:44:16 公開日:2023-05-27
# PuMer: 効率的なビジョン言語モデルのためのプルングとマージトークン

PuMer: Pruning and Merging Tokens for Efficient Vision Language Models ( http://arxiv.org/abs/2305.17530v1 )

ライセンス: Link先を確認
Qingqing Cao, Bhargavi Paranjape, Hannaneh Hajishirzi(参考訳) 大規模視覚言語(vl)モデルは、トランスフォーマーを使用して入力テキストと画像間のクロスモーダルインタラクションを実行する。 これらのクロスモーダルな相互作用は計算コストが高く、入力画像とテキストを処理する2次的な複雑さのためにメモリ集約的です。 入力画像とテキストのトークンを段階的に削減し,モデル推論速度を改善し,メモリフットプリントを削減するために,テキストインフォームドプルーニングとモダリティ対応マージ戦略を用いたトークン削減フレームワークPuMerを提案する。 PuMerは入力テキストに関連する適切な画像トークンを保持し、VLモデル内のいくつかのクロスモーダル層に軽量なトークンリデューサモジュールを追加することで、同様のテキストおよびビジュアルトークンをマージする。 PuMerのトレーニングは、オリジナルのVLモデルを微調整したものとほとんど同じだが、高速である。 下流VLタスクにおける2つの視覚言語モデルの評価では、PuMerは推論スループットを最大2倍に向上し、メモリフットプリントを50%以上削減し、精度を1%以下に抑えた。

Large-scale vision language (VL) models use Transformers to perform cross-modal interactions between the input text and image. These cross-modal interactions are computationally expensive and memory-intensive due to the quadratic complexity of processing the input image and text. We present PuMer: a token reduction framework that uses text-informed Pruning and modality-aware Merging strategies to progressively reduce the tokens of input image and text, improving model inference speed and reducing memory footprint. PuMer learns to keep salient image tokens related to the input text and merges similar textual and visual tokens by adding lightweight token reducer modules at several cross-modal layers in the VL model. Training PuMer is mostly the same as finetuning the original VL model but faster. Our evaluation for two vision language models on four downstream VL tasks shows PuMer increases inference throughput by up to 2x and reduces memory footprint by over 50% while incurring less than a 1% accuracy drop.
翻訳日:2023-05-30 18:39:10 公開日:2023-05-27
# MeetingBank: 要約のためのベンチマークデータセット

MeetingBank: A Benchmark Dataset for Meeting Summarization ( http://arxiv.org/abs/2305.17529v1 )

ライセンス: Link先を確認
Yebowen Hu and Tim Ganter and Hanieh Deilamsalehy and Franck Dernoncourt and Hassan Foroosh and Fei Liu(参考訳) 記録された会議の数が増えるにつれて、これらの記録の有用な要約を作成するために要約技術を活用することがますます重要になる。 しかし,この技術を開発する上では,特にトピックが非公開である場合に,ミーティングの収集が困難になるため,注釈付きミーティングコーパスが欠落している。 さらに、経験豊富な作家による要約は乏しいため、抽象的な要約者が信頼できる参照を伴わずに合理的なアウトプットを生成することは困難である。 この注釈付きコーパスの欠如は、ミーティング要約技術の開発を妨げている。 本稿では,過去10年間の市政委員会会議のベンチマークデータセットである meetingbank について述べる。 ミーティングバンクは他のミーティングコーパスの中で、専門的に書かれたミーティング分を短いパスに分割し、ミーティングの特定のセグメントにまとめる、というアプローチでユニークなものです。 これは、長いミーティングをもっと小さく、より管理しやすいタスクにまとめるプロセスを壊します。 データセットは、様々なミーティングの要約システムの新しいテストベッドを提供し、また、一般大衆が理事会の決定がどのように行われるかについての洞察を得ることを可能にする。 我々は,会議ビデオリンク,テキスト,参照要約,アジェンダ,その他のメタデータなどのコレクションを作成し,より優れた会議要約技術の開発を容易にする。 私たちのデータセットは、https://meetingbank.github.ioでアクセスできます。

As the number of recorded meetings increases, it becomes increasingly important to utilize summarization technology to create useful summaries of these recordings. However, there is a crucial lack of annotated meeting corpora for developing this technology, as it can be hard to collect meetings, especially when the topics discussed are confidential. Furthermore, meeting summaries written by experienced writers are scarce, making it hard for abstractive summarizers to produce sensible output without a reliable reference. This lack of annotated corpora has hindered the development of meeting summarization technology. In this paper, we present MeetingBank, a new benchmark dataset of city council meetings over the past decade. MeetingBank is unique among other meeting corpora due to its divide-and-conquer approach, which involves dividing professionally written meeting minutes into shorter passages and aligning them with specific segments of the meeting. This breaks down the process of summarizing a lengthy meeting into smaller, more manageable tasks. The dataset provides a new testbed of various meeting summarization systems and also allows the public to gain insight into how council decisions are made. We make the collection, including meeting video links, transcripts, reference summaries, agenda, and other metadata, publicly available to facilitate the development of better meeting summarization techniques. Our dataset can be accessed at: https://meetingbank.github.io
翻訳日:2023-05-30 18:38:50 公開日:2023-05-27
# 2つの頭は1より優れている:トランスダクションとリジェクションの組み合わせによる対向ロバストネスの改善を目指して

Two Heads are Better than One: Towards Better Adversarial Robustness by Combining Transduction and Rejection ( http://arxiv.org/abs/2305.17528v1 )

ライセンス: Link先を確認
Nils Palumbo, Yang Guo, Xi Wu, Jiefeng Chen, Yingyu Liang, Somesh Jha(参考訳) トランスダクションと拒絶は、敵の摂動を防御する重要な技術として現れてきた。 Tram\`er による最近の研究は、拒絶のみの場合(トランスダクションなし)、強い拒絶解を強い(しかし計算上非効率な)非還元解に変換することができることを示した。 この検出器から分類器への還元は、強い選択的モデル解の特定の主張が影響を受けやすいという証拠を与えるために主に適用され、拒絶の利点は不明確である。 一方、goldwasserらによる最近の研究は、拒絶と変換が組み合わさることで(特定の問題に対して)証明可能な保証が得られないことを示した。 それにもかかわらず、最近の強敵攻撃(GMSA)では、ゴールドワッサーらの研究は実践的な深層学習環境では性能が低いことが示されている。 本稿では,より現実的なシナリオにおけるトランスダクション+リジェクションの実現に向けて一歩踏み出した。 理論的には、トランスダクティブ・セッティングにおけるTram\`er's classifier-to-detector 法の新たな応用により、ロバストな一般化のためのサンプル複雑度が大幅に向上することを示す。 我々の理論的構成は計算量的に非効率であるが、選択モデルを学ぶための効率的なトランスダクティブアルゴリズムの同定を導く。 GMSA (AutoAttack, GMSA) を用いた大規模実験により, 本手法の精度は大幅に向上した。

Both transduction and rejection have emerged as important techniques for defending against adversarial perturbations. A recent work by Tram\`er showed that, in the rejection-only case (no transduction), a strong rejection-solution can be turned into a strong (but computationally inefficient) non-rejection solution. This detector-to-classifier reduction has been mostly applied to give evidence that certain claims of strong selective-model solutions are susceptible, leaving the benefits of rejection unclear. On the other hand, a recent work by Goldwasser et al. showed that rejection combined with transduction can give provable guarantees (for certain problems) that cannot be achieved otherwise. Nevertheless, under recent strong adversarial attacks (GMSA, which has been shown to be much more effective than AutoAttack against transduction), Goldwasser et al.'s work was shown to have low performance in a practical deep-learning setting. In this paper, we take a step towards realizing the promise of transduction+rejection in more realistic scenarios. Theoretically, we show that a novel application of Tram\`er's classifier-to-detector technique in the transductive setting can give significantly improved sample-complexity for robust generalization. While our theoretical construction is computationally inefficient, it guides us to identify an efficient transductive algorithm to learn a selective model. Extensive experiments using state of the art attacks (AutoAttack, GMSA) show that our solutions provide significantly better robust accuracy.
翻訳日:2023-05-30 18:38:29 公開日:2023-05-27
# 半環上の一般化パターンベースエネルギーの分配関数の計算

Computing a partition function of a generalized pattern-based energy over a semiring ( http://arxiv.org/abs/2305.17526v1 )

ライセンス: Link先を確認
Rustem Takhanov(参考訳) 順序変数(VCSPO)による値制約満足問題は、変数が完全に順序づけられ、順序に反しない変数のタプルにソフト制約が課される特別なケースである。 本稿では、隣接する変数のセグメントにソフト制約を課し、制約言語$\Gamma$は述語の特徴関数の$\{0,1\}$値を持つVCSPOの制限について検討する。 この種のポテンシャルは、構造化予測の多くのタスクで適用されたいわゆるパターンベースポテンシャルを一般化する。 制約言語$\Gamma$に対して、クロージャ演算子、$ \overline{\Gamma^{\cap}}\supseteq \Gamma$を導入し、$|\overline{\Gamma^{\cap}}|$が小さい制約言語の例を示します。 もし$\gamma$ の全ての述語がデカルト積であれば、一般化されたパターンベースのポテンシャル(あるいはその分割関数の計算)の最小化は${\mathcal o}(|v|\cdot |d|^2 \cdot |\overline{\gamma^{\cap}}|^2 )$ time、ただし $v$ は変数の集合であり、$d$ は整域集合である。 さらに、制約の非正の重みのみを許せば、最小化タスクの複雑さは${\mathcal O}(|V|\cdot |\overline{\Gamma^{\cap}}| \cdot |D| \cdot \max_{\rho\in \Gamma}\|\rho\|^2 )$に減少する。 一般言語 $\Gamma$ および非正重みに対して、最小化タスクは ${\mathcal O}(|V|\cdot |\overline{\Gamma^{\cap}}|^2)$ time で実行することができる。 多くの自然の場合、$\overline{\Gamma^{\cap}}$は適度の大きさであるが、最悪の場合は$|\overline{\Gamma^{\cap}}|$は爆発し、指数関数的に$\max_{\rho\in \Gamma}\|\rho\|$に依存する。

Valued constraint satisfaction problems with ordered variables (VCSPO) are a special case of Valued CSPs in which variables are totally ordered and soft constraints are imposed on tuples of variables that do not violate the order. We study a restriction of VCSPO, in which soft constraints are imposed on a segment of adjacent variables and a constraint language $\Gamma$ consists of $\{0,1\}$-valued characteristic functions of predicates. This kind of potentials generalizes the so-called pattern-based potentials, which were applied in many tasks of structured prediction. For a constraint language $\Gamma$ we introduce a closure operator, $ \overline{\Gamma^{\cap}}\supseteq \Gamma$, and give examples of constraint languages for which $|\overline{\Gamma^{\cap}}|$ is small. If all predicates in $\Gamma$ are cartesian products, we show that the minimization of a generalized pattern-based potential (or, the computation of its partition function) can be made in ${\mathcal O}(|V|\cdot |D|^2 \cdot |\overline{\Gamma^{\cap}}|^2 )$ time, where $V$ is a set of variables, $D$ is a domain set. If, additionally, only non-positive weights of constraints are allowed, the complexity of the minimization task drops to ${\mathcal O}(|V|\cdot |\overline{\Gamma^{\cap}}| \cdot |D| \cdot \max_{\rho\in \Gamma}\|\rho\|^2 )$ where $\|\rho\|$ is the arity of $\rho\in \Gamma$. For a general language $\Gamma$ and non-positive weights, the minimization task can be carried out in ${\mathcal O}(|V|\cdot |\overline{\Gamma^{\cap}}|^2)$ time. We argue that in many natural cases $\overline{\Gamma^{\cap}}$ is of moderate size, though in the worst case $|\overline{\Gamma^{\cap}}|$ can blow up and depend exponentially on $\max_{\rho\in \Gamma}\|\rho\|$.
翻訳日:2023-05-30 18:38:04 公開日:2023-05-27
# 張力と圧力を伴う量子ループガスモデルにおける部分位相位相

Partially topological phase in a quantum loop gas model with tension and pressure ( http://arxiv.org/abs/2305.17525v1 )

ライセンス: Link先を確認
J. Abouie, and M. H. Zarei(参考訳) 摂動に対する位相秩序の強固さの強化は、トポロジカル量子コンピューティングの主要な目標の1つである。 励起の速度論は位相秩序のロバスト性と相反するので、励起の移動性を低下させるメカニズムはロバスト性に有利である。 この方向の戦略は、トポロジカルシステムにフラストレーションを加えることである。 本稿では,かごめ格子上のフラストレーションのあるトーリックコードについて考察し,摂動強度の増大は系のトポロジ的秩序を低下させるが,完全には破壊できないことを示す。 我々のフラストレーションのあるトーリック符号は、実際に弦張力と圧力を持つ量子ループガスモデルであり、その競合は励起が特定の部分格子内での移動に制限される部分位相位相(PTP)につながる。 このフェーズでは、基底状態は準1次元のはしごに対応する多くの変動ループ状態のコピーの積である。 非局所行列順序パラメータを定義し、基底状態大域絡み(GE)の挙動を研究することにより、PTPを標準位相と区別する。 本システムにおける励起の部分移動性は,移動性が制限されたフラクトン符号を想起させるため,このような制限を3次元で行うための代替手段を提案する。

Enhancing robustness of topological orders against perturbations is one of the main goals in topological quantum computing. Since the kinetic of excitations is in conflict with the robustness of topological orders, any mechanism that reduces the mobility of excitations will be in favor of robustness. A strategy in this direction is adding frustration to topological systems. In this paper we consider a frustrated toric code on a kagome lattice, and show that although increasing the strength of perturbation reduces the topological order of the system, it cannot destroy it completely. Our frustrated toric code is indeed a quantum loop gas model with string tension and pressure which their competition leads to a partially topological phase (PTP) in which the excitations are restricted to move in particular sublattices. In this phase the ground state is a product of many copies of fluctuating loop states corresponding to quasi one dimensional ladders. By defining a non-local matrix order parameter and studying the behavior of ground state global entanglement (GE), we distinguish the PTP from the standard topological phase. The partial mobility of excitations in our system is a reminiscent of fracton codes with restricted mobility, and therefore our results propose an alternative way for making such a restriction in three dimension.
翻訳日:2023-05-30 18:37:08 公開日:2023-05-27
# インド株式市場における平均分散、階層的リスクパリティ、強化学習アプローチを用いたポートフォリオ最適化の比較分析

A Comparative Analysis of Portfolio Optimization Using Mean-Variance, Hierarchical Risk Parity, and Reinforcement Learning Approaches on the Indian Stock Market ( http://arxiv.org/abs/2305.17523v1 )

ライセンス: Link先を確認
Jaydip Sen, Aditya Jaiswal, Anshuman Pathak, Atish Kumar Majee, Kushagra Kumar, Manas Kumar Sarkar, and Soubhik Maji(参考訳) 本稿では,3つのポートフォリオ最適化手法の性能の比較分析を行う。 この作業で考慮されるポートフォリオ最適化の3つのアプローチは、平均分散ポートフォリオ(MVP)、階層的リスクパリティ(HRP)ポートフォリオ、強化学習ベースのポートフォリオである。 ポートフォリオはトレーニングされ、いくつかのストックデータ上でテストされ、パフォーマンスは年間リターン、年間リスク、シャープ比で比較される。 強化学習に基づくポートフォリオ設計アプローチでは、深層学習技術が活用されている。 多くの可能な状態のため、Qテーブルの構築はディープニューラルネットワークを用いて行われる。 NIFTY50として知られるインド株式市場の主要50銘柄の歴史的価格と、インド株式市場の重要な10分野のいくつかの銘柄は、エージェントを訓練するための環境を作成するために使用される。

This paper presents a comparative analysis of the performances of three portfolio optimization approaches. Three approaches of portfolio optimization that are considered in this work are the mean-variance portfolio (MVP), hierarchical risk parity (HRP) portfolio, and reinforcement learning-based portfolio. The portfolios are trained and tested over several stock data and their performances are compared on their annual returns, annual risks, and Sharpe ratios. In the reinforcement learning-based portfolio design approach, the deep Q learning technique has been utilized. Due to the large number of possible states, the construction of the Q-table is done using a deep neural network. The historical prices of the 50 premier stocks from the Indian stock market, known as the NIFTY50 stocks, and several stocks from 10 important sectors of the Indian stock market are used to create the environment for training the agent.
翻訳日:2023-05-30 18:36:45 公開日:2023-05-27
# 深層学習に基づく指紋提示検出:包括的調査

Deep Learning based Fingerprint Presentation Attack Detection: A Comprehensive Survey ( http://arxiv.org/abs/2305.17522v1 )

ライセンス: Link先を確認
Hailin Li and Raghavendra Ramachandra(参考訳) 指紋認証システムの脆弱性は、高度にセキュアなアクセス制御アプリケーションに適用する際のセキュリティ上の懸念を引き起こした。 そのため,指紋認証の信頼性確保には指紋提示検出(FPAD)法が不可欠である。 従来の手作りの手法による生成能力の欠如により、ディープラーニングベースのFPADが主流となり、過去10年間に顕著なパフォーマンスを達成してきた。 既存のレビューでは、古くなった深層学習ベースの方法よりも、手作業に重点が置かれている。 今後の研究を促進するため、我々は最近の深層学習に基づくFPAD手法にのみ焦点をあてる。 本稿では,まず,最も一般的なプレゼンテーションアタック・インスツルメンツ(PAI)と一般公開されている指紋提示アタック(PA)データセットについて紹介する。 次に、既存のディープラーニングFPADを接触、接触なし、スマートフォンベースのアプローチに分類して記述する。 最後に,現在進行中のオープン課題について議論し,今後の展望を強調することで,論文を締めくくる。

The vulnerabilities of fingerprint authentication systems have raised security concerns when adapting them to highly secure access-control applications. Therefore, Fingerprint Presentation Attack Detection (FPAD) methods are essential for ensuring reliable fingerprint authentication. Owing to the lack of generation capacity of traditional handcrafted based approaches, deep learning-based FPAD has become mainstream and has achieved remarkable performance in the past decade. Existing reviews have focused more on hand-cratfed rather than deep learning-based methods, which are outdated. To stimulate future research, we will concentrate only on recent deep-learning-based FPAD methods. In this paper, we first briefly introduce the most common Presentation Attack Instruments (PAIs) and publicly available fingerprint Presentation Attack (PA) datasets. We then describe the existing deep-learning FPAD by categorizing them into contact, contactless, and smartphone-based approaches. Finally, we conclude the paper by discussing the open challenges at the current stage and emphasizing the potential future perspective.
翻訳日:2023-05-30 18:36:30 公開日:2023-05-27
# USIM-DAL:超解像のための統計的画像モデリングに基づく高感度能動学習

USIM-DAL: Uncertainty-aware Statistical Image Modeling-based Dense Active Learning for Super-resolution ( http://arxiv.org/abs/2305.17520v1 )

ライセンス: Link先を確認
Vikrant Rangnekar, Uddeshya Upadhyay, Zeynep Akata, Biplab Banerjee(参考訳) デンス回帰(Dense regression)は、画像の超解像、エンハンスメント、深さ推定などのタスクのためのコンピュータビジョンで広く使われているアプローチである。 しかし、アノテーションとラベルのコストが高いため、正確な結果を得るのは難しい。 この問題に対処するために,能動学習を高密度回帰モデルに組み込むことを提案する。 アクティブな学習により、モデルはラベル付けのための最も有益なサンプルを選択し、全体的なアノテーションコストを削減し、パフォーマンスを向上させることができる。 その可能性にもかかわらず、能動学習は超解像のような高次元コンピュータビジョン回帰タスクでは広く研究されていない。 本研究では,この研究のギャップに対処し,色画像の統計的特性を活かし,不確実性定量化を可能にするヘテロシドスティック予測分布をモデル化する確率的深層ニューラルネットワークを用いた情報優先学習を行う,usim-dalという新たな枠組みを提案する。 さらに、ネットワークからのアレタリック不確実性は、アクティブな学習に使用されるエラーのプロキシとして機能する。 自然画像 (visual genome, bsd100), 医用画像 (histopathology slides), リモートセンシング (satellite images) の応用にまたがる多種多様なデータセットに関する実験により, 新たに提案するusim-dalの有効性と, 高密度回帰能動学習法に対する優越性が実証された。

Dense regression is a widely used approach in computer vision for tasks such as image super-resolution, enhancement, depth estimation, etc. However, the high cost of annotation and labeling makes it challenging to achieve accurate results. We propose incorporating active learning into dense regression models to address this problem. Active learning allows models to select the most informative samples for labeling, reducing the overall annotation cost while improving performance. Despite its potential, active learning has not been widely explored in high-dimensional computer vision regression tasks like super-resolution. We address this research gap and propose a new framework called USIM-DAL that leverages the statistical properties of colour images to learn informative priors using probabilistic deep neural networks that model the heteroscedastic predictive distribution allowing uncertainty quantification. Moreover, the aleatoric uncertainty from the network serves as a proxy for error that is used for active learning. Our experiments on a wide variety of datasets spanning applications in natural images (visual genome, BSD100), medical imaging (histopathology slides), and remote sensing (satellite images) demonstrate the efficacy of the newly proposed USIM-DAL and superiority over several dense regression active learning methods.
翻訳日:2023-05-30 18:36:13 公開日:2023-05-27
# ブロック型ビジュアルプログラミングタスクのためのサブタスクの進行の合成

Synthesizing a Progression of Subtasks for Block-Based Visual Programming Tasks ( http://arxiv.org/abs/2305.17518v1 )

ライセンス: Link先を確認
Alperen Tercan, Ahana Ghosh, Hasan Ferit Eniser, Maria Christakis, Adish Singla(参考訳) ブロックベースのビジュアルプログラミング環境は、k-12の学生にコンピューティングの概念を導入する上で、ますます重要な役割を果たす。 近年、ニューロシンボリックaiの人気も高まり、一般的な問題解決と論理的推論スキルの評価の指標となっている。 これらのビジュアルプログラミングタスクのオープンで概念的な性質は、最先端のAIエージェントと初心者プログラマの両方にとって難しい。 問題解決の支援を提供する自然なアプローチは、複雑なタスクをより単純なサブタスクの進行に分割することである。 本稿では,ある参照ブロックベースの視覚的プログラミングタスクに対して,そのような進捗を合成する問題を形式化する。 そこで本研究では,その複雑度を考慮に入れた高品質なサブタスクの進行を生成する新しい合成アルゴリズムを提案する。 本稿では,AIエージェント(この場合,ニューラルプログラムシンセサイザー)のKarelプログラミング環境における課題解決における有効性向上における合成アルゴリズムの有用性を示す。 そして、我々は、コード-dot-orgによるHour of Code: Maze Challengeのタスクを初心者プログラマが解くのに、サブタスクの合成が役立つことを示すために、ユーザスタディを実施します。

Block-based visual programming environments play an increasingly important role in introducing computing concepts to K-12 students. In recent years, they have also gained popularity in neuro-symbolic AI, serving as a benchmark to evaluate general problem-solving and logical reasoning skills. The open-ended and conceptual nature of these visual programming tasks make them challenging, both for state-of-the-art AI agents as well as for novice programmers. A natural approach to providing assistance for problem-solving is breaking down a complex task into a progression of simpler subtasks; however, this is not trivial given that the solution codes are typically nested and have non-linear execution behavior. In this paper, we formalize the problem of synthesizing such a progression for a given reference block-based visual programming task. We propose a novel synthesis algorithm that generates a progression of subtasks that are high-quality, well-spaced in terms of their complexity, and solving this progression leads to solving the reference task. We show the utility of our synthesis algorithm in improving the efficacy of AI agents (in this case, neural program synthesizers) for solving tasks in the Karel programming environment. Then, we conduct a user study to demonstrate that our synthesized progression of subtasks can assist a novice programmer in solving tasks in the Hour of Code: Maze Challenge by Code-dot-org.
翻訳日:2023-05-30 18:35:48 公開日:2023-05-27
# 畳み込み層に対するアダマール変換に基づくハイブリッド量子-古典的アプローチ

A Hybrid Quantum-Classical Approach based on the Hadamard Transform for the Convolutional Layer ( http://arxiv.org/abs/2305.17510v1 )

ライセンス: Link先を確認
Hongyi Pan, Xin Zhu, Salih Atici, Ahmet Enis Cetin(参考訳) 本稿では,ハイブリッド量子古典計算のための新しいアダマール変換(HT)ベースのニューラルネットワーク層を提案する。 アダマール変換領域に規則的な畳み込み層を実装する。 この考えは HT の畳み込み定理に基づいており、2つのベクトル間の二進畳み込みは HT 表現の要素ワイド乗法と等価である。 HTの計算は、単純に各キュービットに対するアダマールゲートの応用であり、提案した階層のHT計算を量子コンピュータ上で実装することができる。 通常のConv2D層と比較して、提案したHTパーセプトロン層は計算効率が良い。 同じ練習可能なパラメータ数と99.26\%のテスト精度を持つcnnと比較して、我々のhtネットワークは、mnistデータセットで57.1\%のmacで99.31\%のテスト精度に達し、imagenet-1k実験では、ベースラインresnet-50の精度を11.5\%のパラメータと12.6\%のmacで0.059\%の精度で上回っています。

In this paper, we propose a novel Hadamard Transform (HT)-based neural network layer for hybrid quantum-classical computing. It implements the regular convolutional layers in the Hadamard transform domain. The idea is based on the HT convolution theorem which states that the dyadic convolution between two vectors is equivalent to the element-wise multiplication of their HT representation. Computing the HT is simply the application of a Hadamard gate to each qubit individually, so the HT computations of our proposed layer can be implemented on a quantum computer. Compared to the regular Conv2D layer, the proposed HT-perceptron layer is computationally more efficient. Compared to a CNN with the same number of trainable parameters and 99.26\% test accuracy, our HT network reaches 99.31\% test accuracy with 57.1\% MACs reduced in the MNIST dataset; and in our ImageNet-1K experiments, our HT-based ResNet-50 exceeds the accuracy of the baseline ResNet-50 by 0.59\% center-crop top-1 accuracy using 11.5\% fewer parameters with 12.6\% fewer MACs.
翻訳日:2023-05-30 18:35:27 公開日:2023-05-27
# 大規模言語モデルにおける編集障害の検出: 仕様性ベンチマークの改良

Detecting Edit Failures In Large Language Models: An Improved Specificity Benchmark ( http://arxiv.org/abs/2305.17553v1 )

ライセンス: Link先を確認
Jason Hoelscher-Obermaier, Julia Persson, Esben Kran, Ioannis Konstas and Fazl Barez(参考訳) 近年のモデル編集技術は、LLMトレーニング中に偽りや時代遅れの関連を記憶する問題を緩和することを約束している。 しかし,これらの手法は既存の特異性ベンチマークでは検出されない大きな副作用をもたらす可能性がある。 既存のCounterFactベンチマークを動的コンポーネントを含むように拡張し、ベンチマークのCounterFact+をダブします。 さらに,kl発散基準を用いて特異度を測定するためのメトリクスを拡張した。 この改良されたベンチマークを用いて、最近のモデル編集手法を評価し、それらが低特異性に悩まされていることを確認する。 我々の研究は、望ましくない副作用を特定し予防する改良された特異性ベンチマークの必要性を強調した。

Recent model editing techniques promise to mitigate the problem of memorizing false or outdated associations during LLM training. However, we show that these techniques can introduce large unwanted side effects which are not detected by existing specificity benchmarks. We extend the existing CounterFact benchmark to include a dynamic component and dub our benchmark CounterFact+. Additionally, we extend the metrics used for measuring specificity by a principled KL divergence-based metric. We use this improved benchmark to evaluate recent model editing techniques and find that they suffer from low specificity. Our findings highlight the need for improved specificity benchmarks that identify and prevent unwanted side effects.
翻訳日:2023-05-30 18:27:14 公開日:2023-05-27
# オンライン非定型モデルフリー強化学習

Online Nonstochastic Model-Free Reinforcement Learning ( http://arxiv.org/abs/2305.17552v1 )

ライセンス: Link先を確認
Udaya Ghai, Arushi Gupta, Wenhan Xia, Karan Singh, Elad Hazan(参考訳) 本研究では,動的あるいは逆向きな環境に対する頑健なモデルフリー強化学習アルゴリズムについて検討する。 従来の州ベースの政策は、そのような状況において、非モデル化された乱れの存在によって課される課題に適合しない。 さらに、線形状態ベースのポリシーの最適化は効率的な最適化の障害となり、線形力学系のような良質な環境でも非凸目的が達成される。 モデルベース制御の最近の進歩から着想を得て,外乱信号に着目した新しい手法を提案する。 我々はこれらの信号のいくつかのカテゴリを定義し、これらに基づいて擬似障害と対応するポリシークラスを定義した。 これらのポリシーを最適化するための効率的で実用的なアルゴリズムを提供する。 次に、敵の障害に対する強化学習エージェントのオンライン適応の課題について検討する。 我々の手法は任意のブラックボックスのモデルフリーアプローチと統合でき、基盤となるダイナミクスが線形であれば後悔の保証ができる。 提案手法を標準RLベンチマークで評価し,ロバスト性の向上を実証した。

In this work, we explore robust model-free reinforcement learning algorithms for environments that may be dynamic or even adversarial. Conventional state-based policies fail to accommodate the challenge imposed by the presence of unmodeled disturbances in such settings. Additionally, optimizing linear state-based policies pose obstacle for efficient optimization, leading to nonconvex objectives even in benign environments like linear dynamical systems. Drawing inspiration from recent advancements in model-based control, we introduce a novel class of policies centered on disturbance signals. We define several categories of these signals, referred to as pseudo-disturbances, and corresponding policy classes based on them. We provide efficient and practical algorithms for optimizing these policies. Next, we examine the task of online adaptation of reinforcement learning agents to adversarial disturbances. Our methods can be integrated with any black-box model-free approach, resulting in provable regret guarantees if the underlying dynamics is linear. We evaluate our method over different standard RL benchmarks and demonstrate improved robustness.
翻訳日:2023-05-30 18:27:03 公開日:2023-05-27
# Translatotron 3:モノリンガルデータを用いた音声から音声への翻訳

Translatotron 3: Speech to Speech Translation with Monolingual Data ( http://arxiv.org/abs/2305.17547v1 )

ライセンス: Link先を確認
Eliya Nachmani, Alon Levkovitch, Yifan Ding, Chulayutsh Asawaroengchai, Heiga Zen, Michelle Tadmor Ramanovich(参考訳) 本稿ではtranslatotron 3について述べる。このtranslatotron 3は,単言語音声テキストデータセットから直接音声から音声への翻訳モデルを,教師なしの方法でのみ訓練する新しい手法である。 Translatotron 3はマスク付きオートエンコーダ、教師なし埋め込みマッピング、バックトランスレーションを組み合わせてこの目標を達成する。 スペイン語と英語の音声音声翻訳タスクの実験結果から、Translatotron 3はベースラインカスケードシステムよりも優れており、18.14 BLEUは合成されたアンペア・会話データセットの改善点を報告している。 不可能な実対データを必要とする教師付きアプローチや、パラ言語情報や非言語情報を複製する特殊なモデリングとは対照的に、Translatotron 3は停止、発話率、話者識別などのパラ言語/非言語情報を維持できる能力を示している。 オーディオサンプルは当社のwebサイトhttp://google-research.github.io/lingvo-lab/translatotron3にあります。

This paper presents Translatotron 3, a novel approach to train a direct speech-to-speech translation model from monolingual speech-text datasets only in a fully unsupervised manner. Translatotron 3 combines masked autoencoder, unsupervised embedding mapping, and back-translation to achieve this goal. Experimental results in speech-to-speech translation tasks between Spanish and English show that Translatotron 3 outperforms a baseline cascade system, reporting 18.14 BLEU points improvement on the synthesized Unpaired-Conversational dataset. In contrast to supervised approaches that necessitate real paired data, which is unavailable, or specialized modeling to replicate para-/non-linguistic information, Translatotron 3 showcases its capability to retain para-/non-linguistic such as pauses, speaking rates, and speaker identity. Audio samples can be found in our website http://google-research.github.io/lingvo-lab/translatotron3
翻訳日:2023-05-30 18:26:47 公開日:2023-05-27
# 汎用最適化法におけるマージン最大化速度の高速化

Faster Margin Maximization Rates for Generic Optimization Methods ( http://arxiv.org/abs/2305.17544v1 )

ライセンス: Link先を確認
Guanghui Wang, Zihao Hu, Vidya Muthukumar, Jacob Abernethy(参考訳) 一階最適化法は、与えられた訓練目標を複数の局所最適度で最小化する場合、本質的に他よりも特定の解を好む傾向にある。 この現象は暗黙バイアスと呼ばれ、最適化アルゴリズムの一般化能力を理解する上で重要な役割を果たしている。 近年の研究では、分別可能な二分分類の文脈で$\ell_2$-maximal margin分類器に対して、勾配日光に基づく手法が暗黙のバイアスを示すことが明らかになっている。 対照的に、ミラー降下や急勾配のような一般的な最適化手法は、代替測度によって定義される最大辺分類器に収束することが示されている。 しかし, 勾配日光に基づくアルゴリズムは, 暗黙的バイアス率を高速に示す一方で, 一般最適化手法の暗黙的バイアス率は比較的遅い。 本稿では,この制限に対処するために,ミラー降下と最急降下アルゴリズムに対する最先端の暗黙的バイアス率について述べる。 我々の主な手法は、汎用最適化アルゴリズムを、正規化双線形ゲームを解くオンライン学習ダイナミクスに変換し、様々な最適化手法の暗黙のバイアスを分析するための統一的なフレームワークを提供する。 この加速レートは、このゲームフレームワークにおけるオンライン学習アルゴリズムの後悔の限界を利用したものである。

First-order optimization methods tend to inherently favor certain solutions over others when minimizing a given training objective with multiple local optima. This phenomenon, known as implicit bias, plays a critical role in understanding the generalization capabilities of optimization algorithms. Recent research has revealed that gradient-descent-based methods exhibit an implicit bias for the $\ell_2$-maximal margin classifier in the context of separable binary classification. In contrast, generic optimization methods, such as mirror descent and steepest descent, have been shown to converge to maximal margin classifiers defined by alternative geometries. However, while gradient-descent-based algorithms demonstrate fast implicit bias rates, the implicit bias rates of generic optimization methods have been relatively slow. To address this limitation, in this paper, we present a series of state-of-the-art implicit bias rates for mirror descent and steepest descent algorithms. Our primary technique involves transforming a generic optimization algorithm into an online learning dynamic that solves a regularized bilinear game, providing a unified framework for analyzing the implicit bias of various optimization methods. The accelerated rates are derived leveraging the regret bounds of online learning algorithms within this game framework.
翻訳日:2023-05-30 18:26:31 公開日:2023-05-27
# マルチメディアグラウンドリングによる非逐次グラフスクリプトインジェクション

Non-Sequential Graph Script Induction via Multimedia Grounding ( http://arxiv.org/abs/2305.17542v1 )

ライセンス: Link先を確認
Yu Zhou, Sha Li, Manling Li, Xudong Lin, Shih-Fu Chang, Mohit Bansal and Heng Ji(参考訳) WikiHowのようなオンラインリソースは、日常的なタスクを実行するための幅広いスクリプトをコンパイルする。 しかし、スクリプトは常に直線的に表示され、実際のタスクを実行する人が表示する柔軟性を反映していない。 例えば、クロスタスクデータセットでは、連続したステップペアの64.5%が逆順序で観察され、順序が固定されていないことを示唆する。 さらに、各ステップの平均的な次のステップは2.56で、"ブランチ"を示す。 本稿では,プロシージャ計画における任意のステップと交換可能なステップを捉えることを目的とした,非逐次グラフスクリプトインジェクションの課題を提案する。 与えられたタスクに対するグラフスクリプトの誘導を自動化するために,タスクを実行する人の疎結合ビデオを活用することを提案する。 特に,手続き的映像をwikihowテクストステップにグラウンドするマルチモーダル・フレームワークを設計し,各映像を潜在的地上真理グラフスクリプト上で観察されたステップパスに変換する。 このキー変換により、学習タスクのための明示的なグラフスクリプトの生成と、部分的なステップシーケンスによって将来のステップを予測することができるスクリプト知識モデルをトレーニングすることができます。 我々の最良のモデルは、F1@3で17.52%、Acc@1で13.8%の絶対ゲインで部分的なシークエンス完了で最高の純粋テキスト/ビジョンベースラインを上回ります。 人間による評価では、ウィキハウ線形ベースラインを48.76%上回っており、シーケンシャルおよび非シーケンシャルなステップ関係を捉えている。

Online resources such as WikiHow compile a wide range of scripts for performing everyday tasks, which can assist models in learning to reason about procedures. However, the scripts are always presented in a linear manner, which does not reflect the flexibility displayed by people executing tasks in real life. For example, in the CrossTask Dataset, 64.5% of consecutive step pairs are also observed in the reverse order, suggesting their ordering is not fixed. In addition, each step has an average of 2.56 frequent next steps, demonstrating "branching". In this paper, we propose the new challenging task of non-sequential graph script induction, aiming to capture optional and interchangeable steps in procedural planning. To automate the induction of such graph scripts for given tasks, we propose to take advantage of loosely aligned videos of people performing the tasks. In particular, we design a multimodal framework to ground procedural videos to WikiHow textual steps and thus transform each video into an observed step path on the latent ground truth graph script. This key transformation enables us to train a script knowledge model capable of both generating explicit graph scripts for learnt tasks and predicting future steps given a partial step sequence. Our best model outperforms the strongest pure text/vision baselines by 17.52% absolute gains on F1@3 for next step prediction and 13.8% absolute gains on Acc@1 for partial sequence completion. Human evaluation shows our model outperforming the WikiHow linear baseline by 48.76% absolute gains in capturing sequential and non-sequential step relationships.
翻訳日:2023-05-30 18:26:10 公開日:2023-05-27
# 子どもからの学習 : カリキュラムによるイメージキャプチャ事前学習の改善

Learning from Children: Improving Image-Caption Pretraining via Curriculum ( http://arxiv.org/abs/2305.17540v1 )

ライセンス: Link先を確認
Hammad A. Ayyubi, Rahul Lokesh, Alireza Zareian, Bo Wu, Shih-Fu Chang(参考訳) 画像キャプチャ事前トレーニングは、ゼロショット画像分類やオブジェクト検出といった下流の視覚タスクに成功している。 しかし、画像キャプチャの事前トレーニングは依然として難しい問題だ。キャプションから複数の概念(名詞)をイメージ内の複数のオブジェクトに整列させる必要がある。この問題に対処するためには、最良の学習者である子どもたちの根元に進む。 我々は,子どもの言語学習を扱う認知科学研究から着想を得て,カリキュラム学習フレームワークを提案する。 学習は、キャプションごとにひとつの概念を含む画像キャプションペアから始まります。 新しいフェーズごとに、キャプションごとに1つずつ概念を追加することで、難易度が徐々に増加する。 次いで、学習段階ごとに獲得した知識を次の段階に活用し、学習問題を効果的に制約して、各段階に1つの新しい概念と対象のペアを整合させる。 この学習戦略は,事前学習された画像や/および事前学習されたテキストエンコーダ,低データ構造など,さまざまな環境でのバニラ画像キャプチャトレーニングよりも改善されていることを示す。

Image-caption pretraining has been quite successfully used for downstream vision tasks like zero-shot image classification and object detection. However, image-caption pretraining is still a hard problem -- it requires multiple concepts (nouns) from captions to be aligned to several objects in images. To tackle this problem, we go to the roots -- the best learner, children. We take inspiration from cognitive science studies dealing with children's language learning to propose a curriculum learning framework. The learning begins with easy-to-align image caption pairs containing one concept per caption. The difficulty is progressively increased with each new phase by adding one more concept per caption. Correspondingly, the knowledge acquired in each learning phase is utilized in subsequent phases to effectively constrain the learning problem to aligning one new concept-object pair in each phase. We show that this learning strategy improves over vanilla image-caption training in various settings -- pretraining from scratch, using a pretrained image or/and pretrained text encoder, low data regime etc.
翻訳日:2023-05-30 18:25:43 公開日:2023-05-27
# シーングラフメモリを用いた動的環境のモデリング

Modeling Dynamic Environments with Scene Graph memory ( http://arxiv.org/abs/2305.17537v1 )

ライセンス: Link先を確認
Andrey Kurenkov, Michael Lingelbach, Tanmay Agarwal, Chengshu Li, Emily Jin, Ruohan Zhang, Fei-Fei Li, Jiajun Wu, Silvio Savarese, Roberto Mart\'in-Mart\'in(参考訳) 家庭などの大規模環境でオブジェクトを検索する具体化されたaiエージェントは、部分的な情報に基づいてオブジェクトの位置を予測することによって、効率的な判断を行う必要がある。 我々はこれを新しいタイプのリンク予測問題として、部分的に観測可能な動的グラフ上のリンク予測を行う。 私たちのグラフは、部屋やオブジェクトがノードであり、それらの関係がエッジにエンコードされるシーンの表現です。 この部分的な可観測性は、既存のリンク予測アプローチに課題をもたらします。 本稿では,エージェントの蓄積した観測データをキャプチャする新たな状態表現であるシーングラフメモリ(sgm)と,sgmから情報を抽出して効率的に探索するノードエッジ予測器(nep)と呼ばれるニューラルネットワークアーキテクチャを提案する。 提案手法は,家庭で一般的に見られるセマンティックなパターンに従って,多様な動的グラフを生成する新しいベンチマークであるDynamic House Simulatorで評価され,多様な物体の動きの動態を持つ様々な環境におけるオブジェクトの位置を予測し,新たなシーン適応性と全体的な精度の両方において,ベースラインよりも優れていることを示す。 コードベース等はhttps://www.scenegraph memory.comで見ることができる。

Embodied AI agents that search for objects in large environments such as households often need to make efficient decisions by predicting object locations based on partial information. We pose this as a new type of link prediction problem: link prediction on partially observable dynamic graphs. Our graph is a representation of a scene in which rooms and objects are nodes, and their relationships are encoded in the edges; only parts of the changing graph are known to the agent at each timestep. This partial observability poses a challenge to existing link prediction approaches, which we address. We propose a novel state representation -- Scene Graph Memory (SGM) -- with captures the agent's accumulated set of observations, as well as a neural net architecture called a Node Edge Predictor (NEP) that extracts information from the SGM to search efficiently. We evaluate our method in the Dynamic House Simulator, a new benchmark that creates diverse dynamic graphs following the semantic patterns typically seen at homes, and show that NEP can be trained to predict the locations of objects in a variety of environments with diverse object movement dynamics, outperforming baselines both in terms of new scene adaptability and overall accuracy. The codebase and more can be found at https://www.scenegraphmemory.com.
翻訳日:2023-05-30 18:25:22 公開日:2023-05-27
# PFNは実世界ベイズ最適化のためのフレキシブルモデルである

PFNs Are Flexible Models for Real-World Bayesian Optimization ( http://arxiv.org/abs/2305.17535v1 )

ライセンス: Link先を確認
Samuel M\"uller, Matthias Feurer, Noah Hollmann, Frank Hutter(参考訳) 本稿では,ベイズ最適化(BO)のためのフレキシブルサロゲートとして,PFN(Presideed Data Fitted Networks)を用いる。 PFNは、効率的にサンプリングできる任意の事前分布の後方予測分布(PPD)を近似するように訓練された神経プロセスである。 BOにおけるサロゲートモデリングにおいて,この柔軟性をどのように活用できるかを述べる。 我々はPFNを用いて、単純なガウス過程(GP)、高度なGP、ベイズニューラルネットワーク(BNN)を模倣する。 また,オプティマの位置に関するヒントを許容したり,無関係次元を無視したり,取得関数を学習して非オプティマボを実行したりするなど,さらに情報を前もって組み込む方法を示す。 これらの拡張の基盤となる柔軟性は、BOにPFNを使用する大きな可能性を開く。 人工GP試料と3種類のハイパーパラメータ最適化テストベッド(HPO-B, Bayesmark, PD1)の大規模評価において, BOに対するPFNの有用性を示す。 トレーニングされたモデルをhttp://github.com/automl/PFNs4BOで公開しています。

In this paper, we use Prior-data Fitted Networks (PFNs) as a flexible surrogate for Bayesian Optimization (BO). PFNs are neural processes that are trained to approximate the posterior predictive distribution (PPD) for any prior distribution that can be efficiently sampled from. We describe how this flexibility can be exploited for surrogate modeling in BO. We use PFNs to mimic a naive Gaussian process (GP), an advanced GP, and a Bayesian Neural Network (BNN). In addition, we show how to incorporate further information into the prior, such as allowing hints about the position of optima (user priors), ignoring irrelevant dimensions, and performing non-myopic BO by learning the acquisition function. The flexibility underlying these extensions opens up vast possibilities for using PFNs for BO. We demonstrate the usefulness of PFNs for BO in a large-scale evaluation on artificial GP samples and three different hyperparameter optimization testbeds: HPO-B, Bayesmark, and PD1. We publish code alongside trained models at http://github.com/automl/PFNs4BO.
翻訳日:2023-05-30 18:24:59 公開日:2023-05-27
# ノイズ注入による教師なし選択合理化

Unsupervised Selective Rationalization with Noise Injection ( http://arxiv.org/abs/2305.17534v1 )

ライセンス: Link先を確認
Adam Storek, Melanie Subbiah, Kathleen McKeown(参考訳) センシティブなアプリケーションでディープラーニングモデルを使用する場合の大きな問題は、アウトプットの説明ができないことだ。 この問題に対処するために、教師なし選択的合理化は、2つの共同学習されたコンポーネント、合理生成器と予測器をチェーンすることで、予測と共に有理性を生成する。 このアーキテクチャは、予測が理性のみに依存することを保証しているが、その理性が予測に妥当な説明を含むことは保証しない。 本稿では,生成器と予測器との間にノイズを注入することにより,有理数生成を効果的に抑制する新しい訓練手法を提案する。 さらに,既存のデータセットからの映画レビューを用いた教師なし選択的合理化モデルを評価するための新しいベンチマークを提案する。 モデル忠実性を維持したり改善したりしながら、新しいベンチマークを含む様々なタスクにおいて、最先端技術に対する合理的な妥当性とタスク精度を大幅に改善する。

A major issue with using deep learning models in sensitive applications is that they provide no explanation for their output. To address this problem, unsupervised selective rationalization produces rationales alongside predictions by chaining two jointly-trained components, a rationale generator and a predictor. Although this architecture guarantees that the prediction relies solely on the rationale, it does not ensure that the rationale contains a plausible explanation for the prediction. We introduce a novel training technique that effectively limits generation of implausible rationales by injecting noise between the generator and the predictor. Furthermore, we propose a new benchmark for evaluating unsupervised selective rationalization models using movie reviews from existing datasets. We achieve sizeable improvements in rationale plausibility and task accuracy over the state-of-the-art across a variety of tasks, including our new benchmark, while maintaining or improving model faithfulness.
翻訳日:2023-05-30 18:24:41 公開日:2023-05-27
# 強化学習による反応チャネルの探索

Probing reaction channels via reinforcement learning ( http://arxiv.org/abs/2305.17531v1 )

ライセンス: Link先を確認
Senwei Liang, Aditya N. Singh, Yuanran Zhu, David T. Limmer, Chao Yang(参考訳) 化学反応経路に沿って反応と生成物を結合する重要な構成を同定するための強化学習に基づく手法を提案する。 これらの構成から複数の軌道を撮影することで、遷移経路のアンサンブルに集中する構成のアンサンブルを生成することができる。 この構成アンサンブルは、ニューラルネットワークに基づく偏微分方程式解法で有効に利用することができ、問題の次元が非常に高い場合でも、制限された後向きコルモゴロフ方程式の近似解を得ることができる。 結果として得られる解はコミッタ関数(committor function)と呼ばれ、反応の機械的な情報をエンコードし、反応速度を評価するのに使うことができる。

We propose a reinforcement learning based method to identify important configurations that connect reactant and product states along chemical reaction paths. By shooting multiple trajectories from these configurations, we can generate an ensemble of configurations that concentrate on the transition path ensemble. This configuration ensemble can be effectively employed in a neural network-based partial differential equation solver to obtain an approximation solution of a restricted Backward Kolmogorov equation, even when the dimension of the problem is very high. The resulting solution, known as the committor function, encodes mechanistic information for the reaction and can in turn be used to evaluate reaction rates.
翻訳日:2023-05-30 18:24:25 公開日:2023-05-27
# コラボレーション型マルチエージェントビデオの高速転送

Collaborative Multi-Agent Video Fast-Forwarding ( http://arxiv.org/abs/2305.17569v1 )

ライセンス: Link先を確認
Shuyue Lan, Zhilu Wang, Ermin Wei, Amit K. Roy-Chowdhury and Qi Zhu(参考訳) マルチエージェントアプリケーションは近年大きな人気を集めている。 多くのコンピュータビジョンタスクでは、カメラを持ったロボットのチームのようなエージェントのネットワークが協調して作業することで、環境を効率よく正確な状況認識に利用することができる。 しかし、これらのエージェントは計算、通信、ストレージ資源が限られていることが多い。 したがって、マルチエージェントシステムを展開する際には、環境の正確な認識を保ちながらリソース消費を減らすことが重要な目標となる。 この目的を達成するために,マルチエージェントシステムにおける異なるカメラビュー間の重なり合いを識別し,冗長/重要/重要ビデオフレームの処理,送信,保存を削減した。 具体的には,分散設定と集中設定の2つの協調的マルチエージェントビデオ高速転送フレームワークを開発した。 これらのフレームワークでは、各エージェントは強化学習を通じて複数の戦略に基づいて、調整可能なペースでビデオフレームを選択的に処理またはスキップすることができる。 複数のエージェントが協調して環境を感知する 1)DMVFと呼ばれる合意に基づく分散フレームワークで、隣人とのコミュニケーションと合意を確立することにより、エージェントの迅速な前進戦略を定期的に更新する。 2)MFFNetと呼ばれる集中型フレームワークは,収集データに基づいてエージェントの高速フォワード戦略を決定するために中央制御器を利用する。 実世界の監視ビデオデータセット VideoWeb と新しいシミュレートドライビングデータセット CarlaSim 上で,TCP 通信を備えた組み込みプラットフォーム上での広範なシミュレーションとデプロイにより,提案手法の有効性と効率を実証した。 文献の他のアプローチと比較して、フレームワークは重要なフレームのカバレッジを向上し、各エージェントで処理されるフレームの数を著しく削減する。

Multi-agent applications have recently gained significant popularity. In many computer vision tasks, a network of agents, such as a team of robots with cameras, could work collaboratively to perceive the environment for efficient and accurate situation awareness. However, these agents often have limited computation, communication, and storage resources. Thus, reducing resource consumption while still providing an accurate perception of the environment becomes an important goal when deploying multi-agent systems. To achieve this goal, we identify and leverage the overlap among different camera views in multi-agent systems for reducing the processing, transmission and storage of redundant/unimportant video frames. Specifically, we have developed two collaborative multi-agent video fast-forwarding frameworks in distributed and centralized settings, respectively. In these frameworks, each individual agent can selectively process or skip video frames at adjustable paces based on multiple strategies via reinforcement learning. Multiple agents then collaboratively sense the environment via either 1) a consensus-based distributed framework called DMVF that periodically updates the fast-forwarding strategies of agents by establishing communication and consensus among connected neighbors, or 2) a centralized framework called MFFNet that utilizes a central controller to decide the fast-forwarding strategies for agents based on collected data. We demonstrate the efficacy and efficiency of our proposed frameworks on a real-world surveillance video dataset VideoWeb and a new simulated driving dataset CarlaSim, through extensive simulations and deployment on an embedded platform with TCP communication. We show that compared with other approaches in the literature, our frameworks achieve better coverage of important frames, while significantly reducing the number of frames processed at each agent.
翻訳日:2023-05-30 18:19:20 公開日:2023-05-27
# 汎用性を有する安全マルチエージェントRLのための拡張性プリマル2次元アクター臨界法

Scalable Primal-Dual Actor-Critic Method for Safe Multi-Agent RL with General Utilities ( http://arxiv.org/abs/2305.17568v1 )

ライセンス: Link先を確認
Donghao Ying, Yunkai Zhang, Yuhao Ding, Alec Koppel, Javad Lavaei(参考訳) 本研究では,エージェントが安全制約を満たしながら,局所目標の総和を最大化しようとする,安全なマルチエージェント強化学習について検討する。 目的と制約は、リスク、探索、模倣といった広範な意思決定目標を包含する長期状態行動占有測度の非線形関数である {\it general utilities} によって記述される。 エージェント数による状態-作用空間の大きさの指数的な増加は、エージェントの安全制約から生じるグローバルカップリングによってさらに悪化する、グローバルな観測可能性への挑戦を示す。 この問題に対処するために,dow reward と $\kappa$-hop neighbor truncation を相関減衰特性の形で利用し,$\kappa$ を通信半径とする原始双対手法を提案する。 正確な設定では、我々のアルゴリズムは$\mathcal{O}\left(T^{-2/3}\right)$のレートで一階定常点(FOSP)に収束する。 サンプルベースの設定では、高い確率で、我々のアルゴリズムは$\widetilde{\mathcal{O}}\left(\epsilon^{-3.5}\right)$サンプルを必要とし、$\epsilon$-FOSPを近似誤差$\mathcal{O}(\phi_0^{2\kappa})$、$\phi_0\in (0,1)$を達成する。 最後に, 大規模数値実験により, モデルの有効性を実証する。

We investigate safe multi-agent reinforcement learning, where agents seek to collectively maximize an aggregate sum of local objectives while satisfying their own safety constraints. The objective and constraints are described by {\it general utilities}, i.e., nonlinear functions of the long-term state-action occupancy measure, which encompass broader decision-making goals such as risk, exploration, or imitations. The exponential growth of the state-action space size with the number of agents presents challenges for global observability, further exacerbated by the global coupling arising from agents' safety constraints. To tackle this issue, we propose a primal-dual method utilizing shadow reward and $\kappa$-hop neighbor truncation under a form of correlation decay property, where $\kappa$ is the communication radius. In the exact setting, our algorithm converges to a first-order stationary point (FOSP) at the rate of $\mathcal{O}\left(T^{-2/3}\right)$. In the sample-based setting, we demonstrate that, with high probability, our algorithm requires $\widetilde{\mathcal{O}}\left(\epsilon^{-3.5}\right)$ samples to achieve an $\epsilon$-FOSP with an approximation error of $\mathcal{O}(\phi_0^{2\kappa})$, where $\phi_0\in (0,1)$. Finally, we demonstrate the effectiveness of our model through extensive numerical experiments.
翻訳日:2023-05-30 18:18:54 公開日:2023-05-27
# インタラクションモードとしての行動余裕の自己教師付き学習

Self-Supervised Learning of Action Affordances as Interaction Modes ( http://arxiv.org/abs/2305.17565v1 )

ライセンス: Link先を確認
Liquan Wang, Nikita Dvornik, Rafael Dubeau, Mayank Mittal, Animesh Garg(参考訳) 人間が明瞭なオブジェクトでタスクを実行するとき、それらはいくつかの方法でのみオブジェクトと対話しますが、すべての可能な相互作用の空間はほぼ無限です。 これは、人間がどのインタラクションが成功するか、すなわち、最初にハンドルを試す新しいドアを開くための事前知識を持っているためです。 人間にとってこのような前科を監督せずに学ぶことは簡単だが、機械にとっては非常に難しい。 本研究では,対話モードと呼ばれる,対話型オブジェクトとの有用なインタラクションの事前の教師なし学習に取り組む。 従来の技術とは対照的に、我々は監視や特権情報を使用しず、シミュレータ内の深度センサーにアクセスして相互作用モードを学習するのみである。 より正確には、良好なインタラクションを視覚環境を実質的に変えるものと定義し、オブジェクトの所望のゴール状態に基づいて条件づけ可能なそのようなインタラクションの生成モデルを学ぶ。 実験では,我々のモデルが人間のインタラクションモードの大部分をカバーし,既存の最先端学習手法を上回っており,トレーニング中に見ることのない物体に一般化できることを示した。 さらに,目標条件設定における有望な結果を示し,与えられたタスクを実行するために,我々のモデルを迅速に微調整することができる。 実験では,問合せ対象の対話モードのほとんどをカバーする対話を,目標条件モデルに微調整できるインタラクションを予測できることを示す。 追加情報: https://actaim.github.io。

When humans perform a task with an articulated object, they interact with the object only in a handful of ways, while the space of all possible interactions is nearly endless. This is because humans have prior knowledge about what interactions are likely to be successful, i.e., to open a new door we first try the handle. While learning such priors without supervision is easy for humans, it is notoriously hard for machines. In this work, we tackle unsupervised learning of priors of useful interactions with articulated objects, which we call interaction modes. In contrast to the prior art, we use no supervision or privileged information; we only assume access to the depth sensor in the simulator to learn the interaction modes. More precisely, we define a successful interaction as the one changing the visual environment substantially and learn a generative model of such interactions, that can be conditioned on the desired goal state of the object. In our experiments, we show that our model covers most of the human interaction modes, outperforms existing state-of-the-art methods for affordance learning, and can generalize to objects never seen during training. Additionally, we show promising results in the goal-conditional setup, where our model can be quickly fine-tuned to perform a given task. We show in the experiments that such affordance learning predicts interaction which covers most modes of interaction for the querying articulated object and can be fine-tuned to a goal-conditional model. For supplementary: https://actaim.github.io.
翻訳日:2023-05-30 18:18:21 公開日:2023-05-27
# 分散不確かさ定量化のためのフェデレート共形予測器

Federated Conformal Predictors for Distributed Uncertainty Quantification ( http://arxiv.org/abs/2305.17564v1 )

ライセンス: Link先を確認
Charles Lu, Yaodong Yu, Sai Praneeth Karimireddy, Michael I. Jordan, Ramesh Raskar(参考訳) 共形予測(conformal prediction)は、機械学習において厳密な不確実性定量化を提供するための一般的なパラダイムとして登場している。 本稿では,共用学習環境に共形予測を拡張した。 私たちが直面する主な課題は、クライアント間のデータの不均一性です -- これは、共形予測に必要な \emph{exchangeability} の基本原則に違反します。 我々は, fl 設定に適合したより弱い \emph{partial exchangeability} の概念を提案し, fcp(federated conformal prediction) フレームワークの開発に使用する。 複数のコンピュータビジョンおよび医用画像データセットにおいて、fcpは厳密な理論的保証と優れた経験的性能を享受している。 本研究は,分散環境と異種環境に意味のある不確実性定量化を組み込むための実践的アプローチを示す。 実験で使われたコードは、url{https://github.com/clu5/federated-conformal}です。

Conformal prediction is emerging as a popular paradigm for providing rigorous uncertainty quantification in machine learning since it can be easily applied as a post-processing step to already trained models. In this paper, we extend conformal prediction to the federated learning setting. The main challenge we face is data heterogeneity across the clients -- this violates the fundamental tenet of \emph{exchangeability} required for conformal prediction. We propose a weaker notion of \emph{partial exchangeability}, better suited to the FL setting, and use it to develop the Federated Conformal Prediction (FCP) framework. We show FCP enjoys rigorous theoretical guarantees and excellent empirical performance on several computer vision and medical imaging datasets. Our results demonstrate a practical approach to incorporating meaningful uncertainty quantification in distributed and heterogeneous environments. We provide code used in our experiments \url{https://github.com/clu5/federated-conformal}.
翻訳日:2023-05-30 18:17:58 公開日:2023-05-27
# ナラティブテキストにおける接地特性と場所

Grounding Characters and Places in Narrative Texts ( http://arxiv.org/abs/2305.17561v1 )

ライセンス: Link先を確認
Sandeep Soni, Amanpreet Sihra, Elizabeth F. Evans, Matthew Wilkens, David Bamman(参考訳) ストーリー全体のキャラクターや位置を追跡することは、そのプロット構造を理解するのに役立つ。 先行研究は、物語の時間に文字をその位置まで接地させることなく、テキストから文字と位置を独立に分析した。 本稿では,新しい空間関係分類タスクを提案することで,このギャップに対処する。 本課題は,言語文脈,物語の時制,時間的スコープを考慮した,テキストのウィンドウ内における文字と位置の共メントの空間的関係カテゴリを割り当てることである。 この目的のために,約2500冊の抄録に空間的関係を付記し,それらの関係を予測する特徴として文脈埋め込みを用いたモデルを訓練する。 一連の本に適用した場合、本モデルでは移動性や家庭空間に関するいくつかの仮説を試すことができ、主人公が非中央的キャラクターよりも移動性が高く、女性が男性よりも内的空間を占有する傾向にあることが明らかになった。 全体として、私たちの研究は物語テキストにおける文字と場所の合同モデリングと分析への第一歩である。

Tracking characters and locations throughout a story can help improve the understanding of its plot structure. Prior research has analyzed characters and locations from text independently without grounding characters to their locations in narrative time. Here, we address this gap by proposing a new spatial relationship categorization task. The objective of the task is to assign a spatial relationship category for every character and location co-mention within a window of text, taking into consideration linguistic context, narrative tense, and temporal scope. To this end, we annotate spatial relationships in approximately 2500 book excerpts and train a model using contextual embeddings as features to predict these relationships. When applied to a set of books, this model allows us to test several hypotheses on mobility and domestic space, revealing that protagonists are more mobile than non-central characters and that women as characters tend to occupy more interior space than men. Overall, our work is the first step towards joint modeling and analysis of characters and places in narrative text.
翻訳日:2023-05-30 18:17:43 公開日:2023-05-27
# PDEサロゲートモデリングのためのスケーラブルトランス

Scalable Transformer for PDE Surrogate Modeling ( http://arxiv.org/abs/2305.17560v1 )

ライセンス: Link先を確認
Zijie Li, Dule Shu, Amir Barati Farimani(参考訳) Transformerは様々なアプリケーションで最先端の性能を示しており、最近偏微分方程式(PDE)のサロゲートモデリングのための有望なツールとして登場した。 線形複雑変種が導入されたにも拘わらず、多数の格子点に注意を向けると不安定となり、計算には依然としてコストがかかる。 本研究では,軸因子化カーネル積分に基づく因子化トランス(factformer)を提案する。 具体的には、入力関数を1次元領域を持つ複数のサブ関数に分解する学習可能な投影演算子を導入する。 これらのサブ関数は評価され、軸分解スキームでインスタンスベースのカーネルを計算するのに使用される。 提案手法は,256×256グリッドの2次元コルモゴロフ流と64×64グリッドの3次元煙浮力を精度と効率良くシミュレートできることを示す。 さらに, 因子化方式により, 注意行列はソフトマックスフリーの注意行列よりもコンパクトなスペクトルを享受できることが判明した。

Transformer has shown state-of-the-art performance on various applications and has recently emerged as a promising tool for surrogate modeling of partial differential equations (PDEs). Despite the introduction of linear-complexity variant, applying attention to a large number of grid points can result in instability and is still expensive to compute. In this work, we propose Factorized Transformer(FactFormer), which is based on an axial factorized kernel integral. Concretely, we introduce a learnable projection operator that decomposes the input function into multiple sub-functions with one-dimensional domain. These sub-functions are then evaluated and used to compute the instance-based kernel with an axial factorized scheme. We showcase that the proposed model is able to simulate 2D Kolmogorov flow on a 256 by 256 grid and 3D smoke buoyancy on a 64 by 64 by 64 grid with good accuracy and efficiency. In addition, we find out that with the factorization scheme, the attention matrices enjoy a more compact spectrum than full softmax-free attention matrices.
翻訳日:2023-05-30 18:17:26 公開日:2023-05-27
# 初期化でのpruning -- スケッチの観点

Pruning at Initialization -- A Sketching Perspective ( http://arxiv.org/abs/2305.17559v1 )

ライセンス: Link先を確認
Noga Bar and Raja Giryes(参考訳) 抽選チケット仮説(LTH)は、初期化時にプルーニングニューラルネットワークに注意を向けている。 我々はこの問題を線形設定で研究する。 初期化時にスパースマスクを見つけることは、効率的な行列乗算に導入されたスケッチ問題と同値であることを示す。 これにより、LTH問題を分析し、それに対する洞察を得るためのツールが提供されます。 具体的には,初期化時に発見されたマスクを用いて,訓練終了時のプルーンド線形モデルの近似誤差を限定する。 我々は、スパースネットワークの探索がデータ独立であるかもしれないという過去の経験的証拠を理論的に正当化する。 スケッチの観点を用いて,初期化時にプルーニングを行う既存のアルゴリズムを汎用的に改良する手法を提案する。

The lottery ticket hypothesis (LTH) has increased attention to pruning neural networks at initialization. We study this problem in the linear setting. We show that finding a sparse mask at initialization is equivalent to the sketching problem introduced for efficient matrix multiplication. This gives us tools to analyze the LTH problem and gain insights into it. Specifically, using the mask found at initialization, we bound the approximation error of the pruned linear model at the end of training. We theoretically justify previous empirical evidence that the search for sparse networks may be data independent. By using the sketching perspective, we suggest a generic improvement to existing algorithms for pruning at initialization, which we show to be beneficial in the data-independent case.
翻訳日:2023-05-30 18:17:07 公開日:2023-05-27
# 仮想粒子の確率近似によるsvgdの高速有限粒子変種

Provably Fast Finite Particle Variants of SVGD via Virtual Particle Stochastic Approximation ( http://arxiv.org/abs/2305.17558v1 )

ライセンス: Link先を確認
Aniket Das and Dheeraj Nagaraj(参考訳) Stein Variational Gradient Descent (SVGD) は、相互作用する粒子系をターゲット分布からおよそサンプルにシミュレートし、様々な領域にわたる印象的な経験的性能を持つ、一般的な変分推論アルゴリズムである。 理論的には、その個体群(すなわち無限粒子)の極限ダイナミクスはよく研究されているが、有限粒子状態におけるSVGDの挙動は理解されていない。 本研究では,計算効率の良い2種類のSVGD,すなわちVP-SVGD(概念上はエレガント)とGB-SVGD(経験的に有効)を設計し,高速な有限粒子収束率を示す。 本稿では, 有限個の粒子を用いて正確に実装可能な確率測度の空間における群-極限svgdダイナミクスの新たな確率近似法を提案する。 我々のアルゴリズムは、通常のSVGDよりも計算効率が高いSVGDの特定のランダムバッチ近似と見なすことができる。 VP-SVGD と GB-SVGD によって出力される$n$ 粒子は、バッチサイズ$K$ で$T$ のステップで実行され、標準仮定の下では最大$O\left(\tfrac{d^{1/3}}{(KT)^{1/6}}\right)$であるような分布から得られるサンプルと同等の値であることを示す。 また, ポテンシャル関数に対する温和な成長条件下では, イソペリメトリック(ポインケア不等式など)や情報伝達条件(例えば, タラグランの不等式$\mathsf{t}_1$)よりもかなり弱い。 結論として、実験測度(VP-SVGD と GB-SVGD によって出力される粒子の)を対象分布に収束させ、最もよく知られた SVGD の有限粒子解析に対して 'emph{double index improvement} を示す。

Stein Variational Gradient Descent (SVGD) is a popular variational inference algorithm which simulates an interacting particle system to approximately sample from a target distribution, with impressive empirical performance across various domains. Theoretically, its population (i.e, infinite-particle) limit dynamics is well studied but the behavior of SVGD in the finite-particle regime is much less understood. In this work, we design two computationally efficient variants of SVGD, namely VP-SVGD (which is conceptually elegant) and GB-SVGD (which is empirically effective), with provably fast finite-particle convergence rates. We introduce the notion of \emph{virtual particles} and develop novel stochastic approximations of population-limit SVGD dynamics in the space of probability measures, which are exactly implementable using a finite number of particles. Our algorithms can be viewed as specific random-batch approximations of SVGD, which are computationally more efficient than ordinary SVGD. We show that the $n$ particles output by VP-SVGD and GB-SVGD, run for $T$ steps with batch-size $K$, are at-least as good as i.i.d samples from a distribution whose Kernel Stein Discrepancy to the target is at most $O\left(\tfrac{d^{1/3}}{(KT)^{1/6}}\right)$ under standard assumptions. Our results also hold under a mild growth condition on the potential function, which is much weaker than the isoperimetric (e.g. Poincare Inequality) or information-transport conditions (e.g. Talagrand's Inequality $\mathsf{T}_1$) generally considered in prior works. As a corollary, we consider the convergence of the empirical measure (of the particles output by VP-SVGD and GB-SVGD) to the target distribution and demonstrate a \emph{double exponential improvement} over the best known finite-particle analysis of SVGD.
翻訳日:2023-05-30 18:16:57 公開日:2023-05-27
# 階層型フェアディリクレプロセスによるフェアクラスタリング

Fair Clustering via Hierarchical Fair-Dirichlet Process ( http://arxiv.org/abs/2305.17557v1 )

ライセンス: Link先を確認
Abhisek Chakraborty, Anirban Bhattacharya, Debdeep Pati(参考訳) MLによる意思決定と政策形成の出現は、アルゴリズムの公正性に焦点をあてることに繋がった。 クラスタリングは、教師なし機械学習の最も一般的に使われるアプローチの1つなので、自然に『em fair clustering』に関する文献が急増している。 クラスタリングにおける公正性の一般的な概念は、クラスタを均衡させる、すなわち保護属性の各レベルは、各クラスタにほぼ等しく表現されなければならない。 もともとの枠組みに基づいて、この文学は様々な面で急速に拡大してきた。 本稿では,適切な目的関数の最適化にほぼ専念した既存の文献を補完する,公正クラスタリングのモデルに基づく新しい定式化を提案する。

The advent of ML-driven decision-making and policy formation has led to an increasing focus on algorithmic fairness. As clustering is one of the most commonly used unsupervised machine learning approaches, there has naturally been a proliferation of literature on {\em fair clustering}. A popular notion of fairness in clustering mandates the clusters to be {\em balanced}, i.e., each level of a protected attribute must be approximately equally represented in each cluster. Building upon the original framework, this literature has rapidly expanded in various aspects. In this article, we offer a novel model-based formulation of fair clustering, complementing the existing literature which is almost exclusively based on optimizing appropriate objective functions.
翻訳日:2023-05-30 18:16:10 公開日:2023-05-27
# 皮質表面再構成のためのスライスワッサースタイン距離最適化による異方性変形

Diffeomorphic Deformation via Sliced Wasserstein Distance Optimization for Cortical Surface Reconstruction ( http://arxiv.org/abs/2305.17555v1 )

ライセンス: Link先を確認
Tung Le, Khai Nguyen, Shanlin Sun, Kun Han, Nhat Ho, Xiaohui Xie(参考訳) メッシュ変形は3次元メッシュ再構築のコアタスクであるが、予測メッシュとターゲットメッシュの効率的な相違を定義することは未解決の問題である。 現在のディープラーニングにおける一般的なアプローチは、2つのメッシュからランダムにサンプリングされた2つのポイントクラウドと、chamferの擬似距離を比較して、2つの表面間の不一致を測定するセットベースアプローチである。 それにもかかわらず、集合ベースのアプローチには、サンプリングされた点クラウド内の点数を選択する理論的保証の欠如、シャムファーの発散の擬計量性と二次複雑性など、まだ限界がある。 そこで本稿では,メッシュ変形の学習のための新しい指標を提案する。 この計量は、セットベースのアプローチを一般化する確率測度として表されるメッシュ上のワッサーシュタイン距離をスライスして定義される。 確率測度空間を利用することで、連続的、経験的、離散的測度といった様々な形式の確率測度を用いてメッシュを符号化する柔軟性を得ることができる。 確率測度を符号化した後, 最適な輸送距離であるスライスワッサースタイン距離と線形計算複雑性を用いてメッシュを比較できるとともに, メッシュ表面を近似する高速統計速度を提供することができる。 さらに,入力面を対象形状に変形させるために,入力面上の点の軌跡をモデル化する神経常微分方程式(ode)を用いる。 皮質表面再構成実験は,複数のデータセットとメトリクスにおいて,他の競合する方法を超えることを実証する。

Mesh deformation is a core task for 3D mesh reconstruction, but defining an efficient discrepancy between predicted and target meshes remains an open problem. A prevalent approach in current deep learning is the set-based approach which measures the discrepancy between two surfaces by comparing two randomly sampled point-clouds from the two meshes with Chamfer pseudo-distance. Nevertheless, the set-based approach still has limitations such as lacking a theoretical guarantee for choosing the number of points in sampled point-clouds, and the pseudo-metricity and the quadratic complexity of the Chamfer divergence. To address these issues, we propose a novel metric for learning mesh deformation. The metric is defined by sliced Wasserstein distance on meshes represented as probability measures that generalize the set-based approach. By leveraging probability measure space, we gain flexibility in encoding meshes using diverse forms of probability measures, such as continuous, empirical, and discrete measures via \textit{varifold} representation. After having encoded probability measures, we can compare meshes by using the sliced Wasserstein distance which is an effective optimal transport distance with linear computational complexity and can provide a fast statistical rate for approximating the surface of meshes. Furthermore, we employ a neural ordinary differential equation (ODE) to deform the input surface into the target shape by modeling the trajectories of the points on the surface. Our experiments on cortical surface reconstruction demonstrate that our approach surpasses other competing methods in multiple datasets and metrics.
翻訳日:2023-05-30 18:15:57 公開日:2023-05-27
# 近似同値(近似)群の近似一般化トレードオフ

Approximation-Generalization Trade-offs under (Approximate) Group Equivariance ( http://arxiv.org/abs/2305.17592v1 )

ライセンス: Link先を確認
Mircea Petrache, Shubhendu Trivedi(参考訳) 対称性によるタスク固有の帰納バイアスの明示的な取り込みは、高性能機械学習モデルの開発における一般的な設計規範として現れている。 例えば、グループ同変ニューラルネットワークは、タンパク質や薬物設計のような様々なドメインやアプリケーションで印象的なパフォーマンスを示している。 そのようなモデルに関する一般的な直観は、関連する対称性の統合が一般化を促進することである。 さらに、データおよび/またはモデルが$\textit{approximate}$または$\textit{partial}$対称性しか持たない場合、最適または最良の性能モデルは、モデル対称性がデータ対称性と整合するものであると仮定される。 本稿では,これらの直観の形式的統一的な調査を行う。 まず、タスク固有の対称性を捉えるモデルが一般化にどう貢献するかを示す一般的な量的境界を示す。 実際、我々の結果は変換が有限であることや群を形成する必要はなく、偏等式や近似等式で作用することができる。 この定量化を利用して、モデルミス特定のより一般的な問題、すなわちモデル対称性がデータ対称性と一致しない場合を検討する。 与えられた対称性群に対して,モデルの近似/偏同分散とデータ分布との定量的比較を行い,モデル同分散誤差とデータ同分散誤差を精度良く結びつけた。 その結果、モデル等分散誤差が最適である条件を記述し、与えられたタスクとデータに対して最適なモデルが得られる。

The explicit incorporation of task-specific inductive biases through symmetry has emerged as a general design precept in the development of high-performance machine learning models. For example, group equivariant neural networks have demonstrated impressive performance across various domains and applications such as protein and drug design. A prevalent intuition about such models is that the integration of relevant symmetry results in enhanced generalization. Moreover, it is posited that when the data and/or the model may only exhibit $\textit{approximate}$ or $\textit{partial}$ symmetry, the optimal or best-performing model is one where the model symmetry aligns with the data symmetry. In this paper, we conduct a formal unified investigation of these intuitions. To begin, we present general quantitative bounds that demonstrate how models capturing task-specific symmetries lead to improved generalization. In fact, our results do not require the transformations to be finite or even form a group and can work with partial or approximate equivariance. Utilizing this quantification, we examine the more general question of model mis-specification i.e. when the model symmetries don't align with the data symmetries. We establish, for a given symmetry group, a quantitative comparison between the approximate/partial equivariance of the model and that of the data distribution, precisely connecting model equivariance error and data equivariance error. Our result delineates conditions under which the model equivariance error is optimal, thereby yielding the best-performing model for the given task and data.
翻訳日:2023-05-30 18:09:06 公開日:2023-05-27
# オープンワールドにおけるタスク計画と状況処理のための行動知識とLLMの統合

Integrating Action Knowledge and LLMs for Task Planning and Situation Handling in Open Worlds ( http://arxiv.org/abs/2305.17590v1 )

ライセンス: Link先を確認
Yan Ding, Xiaohan Zhang, Saeid Amiri, Nieqing Cao, Hao Yang, Andy Kaminski, Chad Esselink, Shiqi Zhang(参考訳) タスク計画システムは、ロボットが人間の知識(行動に関する)を使って長期のタスクを完了するのを助けるために開発された。 それらの多くは「閉じた世界」のために開発され、ロボットが完全な世界知識を提供すると仮定している。 しかし、現実の世界は一般にオープンであり、ロボットは計画者の完全性を損なう可能性のある予期せぬ状況にしばしば遭遇する。 従来の計画システムが新しい状況に対処できるように、LLM(Large Language Models)の最近の進歩を活用できるだろうか? 本稿では,オープンワールドなタスク計画と状況処理のための新しいフレームワークであるCOWPを紹介する。 COWPは、タスク指向のコモンセンス知識によって、動作の前提条件や効果を含む、ロボットの行動知識を動的に増強する。 COWP は LLM から開放性を受け入れ、アクション知識を通じて特定のドメインに基盤を置いている。 体系的な評価のために,1,085の実行時状況を含むデータセットを収集した。 各状況は、通常動作するソリューションを使用して、ロボットがタスクを完了できない状態のインスタンスに対応する。 実験の結果,我々のアプローチは,サービスタスクの成功率において,文献の競合ベースラインを上回っていることがわかった。 さらに,移動マニピュレータを用いたCOWPの実証を行った。 追加資料は、https://cowplanning.github.io/で入手できる。

Task planning systems have been developed to help robots use human knowledge (about actions) to complete long-horizon tasks. Most of them have been developed for "closed worlds" while assuming the robot is provided with complete world knowledge. However, the real world is generally open, and the robots frequently encounter unforeseen situations that can potentially break the planner's completeness. Could we leverage the recent advances on pre-trained Large Language Models (LLMs) to enable classical planning systems to deal with novel situations? This paper introduces a novel framework, called COWP, for open-world task planning and situation handling. COWP dynamically augments the robot's action knowledge, including the preconditions and effects of actions, with task-oriented commonsense knowledge. COWP embraces the openness from LLMs, and is grounded to specific domains via action knowledge. For systematic evaluations, we collected a dataset that includes 1,085 execution-time situations. Each situation corresponds to a state instance wherein a robot is potentially unable to complete a task using a solution that normally works. Experimental results show that our approach outperforms competitive baselines from the literature in the success rate of service tasks. Additionally, we have demonstrated COWP using a mobile manipulator. Supplementary materials are available at: https://cowplanning.github.io/
翻訳日:2023-05-30 18:08:40 公開日:2023-05-27
# メッセージパッシングのないトランスフォーマにおけるグラフインダクティブバイアス

Graph Inductive Biases in Transformers without Message Passing ( http://arxiv.org/abs/2305.17589v1 )

ライセンス: Link先を確認
Liheng Ma, Chen Lin, Derek Lim, Adriana Romero-Soriano, Puneet K. Dokania, Mark Coates, Philip Torr, Ser-Nam Lim(参考訳) グラフデータのトランスフォーマーはますます広く研究され、多くの学習タスクで成功している。 グラフインダクティブバイアスはグラフトランスフォーマーに不可欠であり、以前の作品ではメッセージパッシングモジュールや位置エンコーディングを使用してそれらを取り込んでいる。 しかし、メッセージパッシングを使用するグラフトランスフォーマーは、メッセージパッシングの既知の問題を継承し、他のドメインで使用されるトランスフォーマーと大きく異なるため、研究の進歩の伝達が困難になる。 一方、メッセージパッシングのないグラフトランスフォーマーは、インダクティブバイアスがより重要である小さなデータセットでは、パフォーマンスが悪いことが多い。 このギャップを埋めるため、メッセージパッシングを使わずにグラフ帰納バイアスを組み込む新しいグラフ変換器GRIT(Graph Inductive bias Transformer)を提案する。 GRITは、ランダムウォーク確率で初期化された相対的な位置エンコーディングの学習、ノードとノードペアの表現を更新するフレキシブルアテンション機構、各レイヤにおける次数情報の注入など、理論的および経験的に正当化されたいくつかのアーキテクチャ上の変更に基づいている。 我々はGRITが表現的であることを証明し、最短経路距離と様々なグラフ伝搬行列を表現できる。 gritはさまざまなグラフデータセットで最先端の経験的パフォーマンスを実現し、メッセージパッシングなしでグラフトランスフォーマーが提供できる能力を示している。

Transformers for graph data are increasingly widely studied and successful in numerous learning tasks. Graph inductive biases are crucial for Graph Transformers, and previous works incorporate them using message-passing modules and/or positional encodings. However, Graph Transformers that use message-passing inherit known issues of message-passing, and differ significantly from Transformers used in other domains, thus making transfer of research advances more difficult. On the other hand, Graph Transformers without message-passing often perform poorly on smaller datasets, where inductive biases are more crucial. To bridge this gap, we propose the Graph Inductive bias Transformer (GRIT) -- a new Graph Transformer that incorporates graph inductive biases without using message passing. GRIT is based on several architectural changes that are each theoretically and empirically justified, including: learned relative positional encodings initialized with random walk probabilities, a flexible attention mechanism that updates node and node-pair representations, and injection of degree information in each layer. We prove that GRIT is expressive -- it can express shortest path distances and various graph propagation matrices. GRIT achieves state-of-the-art empirical performance across a variety of graph datasets, thus showing the power that Graph Transformers without message-passing can deliver.
翻訳日:2023-05-30 18:08:19 公開日:2023-05-27
# 病理報告分類における事前訓練データ分布の影響に関する検討

An Investigation into the Effects of Pre-training Data Distributions for Pathology Report Classification ( http://arxiv.org/abs/2305.17588v1 )

ライセンス: Link先を確認
Aliyah R. Hsu, Yeshwanth Cherapanamjeri, Briton Park, Tristan Naumann, Anobel Y. Odisho, Bin Yu(参考訳) 事前訓練されたトランスフォーマーモデルは、多くの自然言語処理(NLP)タスクで成功している。 これらのモデルを臨床領域に適用する場合、大規模なバイオメディカルデータに基づいて言語モデルをスクラッチから事前訓練することで、大幅な改善が期待できる。 前立腺癌2907例のコーパス上で4つの病理分類タスクでこの仮定を検証した。 同一サイズながらコーパスの予習が異なる5つの変圧器予習モデルについて評価した。 具体的には,1)一般ドメイン: BERTとチューリング自然言語表現(TNLR)モデル,2)事前学習に汎用コーパスを使用するBioBERTモデル,2)事前学習にPubMed抽象を組み込んだBERTと,3)MIC-III臨床ノートを付加した臨床BioBERT,3)ドメイン固有: PubMed抽象をスクラッチからトレーニングしたPubMedBERTの3つのカテゴリを解析する。 混合ドメインモデルとドメイン固有モデルは、微調整時により高速な特徴の曖昧さを示す。 しかし、ドメイン固有モデルであるPubMedBERTは、病理報告データにおいて一般的なシナリオであるクラス不均衡が提示された場合、マイノリティクラスに過度に適合する。 同時に、混合ドメインモデルはオーバーフィッティングに対してより耐性がある。 本研究は, 一般自然言語とドメイン固有コーパスの事前学習が, 病理報告分類の補完的目的であることを示す。 第1は、不均衡なデータセットで微調整を行う場合のオーバーフィッティングに対する耐性、第2は、微調整ドメインのより正確なモデリングを可能にする。 各モデルの共通外れ値モードを明らかにするために、専門家による評価も行われる。 以上の結果から,不均衡な下流データセットに対する混合ドメインモデルの利点を活用できる可能性が示唆された。

Pre-trained transformer models have demonstrated success across many natural language processing (NLP) tasks. In applying these models to the clinical domain, a prevailing assumption is that pre-training language models from scratch on large-scale biomedical data results in substantial improvements. We test this assumption with 4 pathology classification tasks on a corpus of 2907 prostate cancer pathology reports. We evaluate 5 transformer pre-trained models that are the same size but differ in pre-training corpora. Specifically, we analyze 3 categories of models: 1)General-domain: BERT and Turing Natural Language Representation (TNLR) models, which use general corpora for pre-training, 2)Mixed-domain: BioBERT which is obtained from BERT by including PubMed abstracts in pre-training and Clinical BioBERT which additionally includes MIMIC-III clinical notes and 3)Domain-specific: PubMedBERT which is pre-trained from scratch on PubMed abstracts. We find the mixed-domain and domain-specific models exhibit faster feature disambiguation during fine-tuning. However, the domain-specific model, PubMedBERT, can overfit to minority classes when presented with class imbalance, a common scenario in pathology report data. At the same time, the mixed-domain models are more resistant to overfitting. Our findings indicate that the use of general natural language and domain-specific corpora in pre-training serve complementary purposes for pathology report classification. The first enables resistance to overfitting when fine-tuning on an imbalanced dataset while the second allows for more accurate modelling of the fine-tuning domain. An expert evaluation is also conducted to reveal common outlier modes of each model. Our results could inform better fine-tuning practices in the clinical domain, to possibly leverage the benefits of mixed-domain models for imbalanced downstream datasets.
翻訳日:2023-05-30 18:07:54 公開日:2023-05-27
# 量子機器の理論

A Theory of Quantum Instruments ( http://arxiv.org/abs/2305.17584v1 )

ライセンス: Link先を確認
Stanley Gudder(参考訳) 最近まで、量子楽器はヒルベルト空間上の状態の集合からそれ自身への完全正の操作値測度として定義されていた。 ここ数年、この定義は、入力および出力ヒルベルト空間と呼ばれる異なるヒルベルト空間からの状態の集合の間のそのような測度に一般化された。 本稿では, コンベックス結合, 後処理, 逐次生成物, テンソル生成物, 条件付けなど, 組み合わせ可能な楽器について考察する。 また, 限界的, 縮小された楽器について考察し, それらの楽器の共存(結合性)を定義するために用いる方法について考察する。 最後に,楽器の一般化が必須となる量子計測モデルの簡単な紹介を行う。 この理論の多くの概念は例によって示される。 特にホレヴォとクラウスの楽器について議論する。

Until recently, a quantum instrument was defined to be a completely positive operation-valued measure from the set of states on a Hilbert space to itself. In the last few years, this definition has been generalized to such measures between sets of states from different Hilbert spaces called the input and output Hilbert spaces. This article presents a theory of such instruments.Ways that instruments can be combined such as convex combinations, post-processing, sequential products, tensor products and conditioning are studied. We also consider marginal, reduced instruments and how these are used to define coexistence (compatibility) of instruments. Finally, we present a brief introduction to quantum measurement models where the generalization of instruments is essential. Many of the concepts of the theory are illustrated by examples. In particular, we discuss Holevo and Kraus instruments.
翻訳日:2023-05-30 18:07:18 公開日:2023-05-27
# 木構造確率的図形モデルとしてのニューラルネットワークについて

On Neural Networks as Infinite Tree-Structured Probabilistic Graphical Models ( http://arxiv.org/abs/2305.17583v1 )

ライセンス: Link先を確認
Boyao Li, Alexandar J. Thomson, Matthew M. Engelhard, David Page(参考訳) ディープニューラルネットワーク(DNN)は、確率的グラフィカルモデル(PGM)の正確なセマンティクスと決定的な確率論的解釈を欠いている。 本稿では,ニューラルネットワークに対応する無限木構造PGMを構築することにより,革新的な解を提案する。 我々の研究は、DNNが前方伝播中に、この代替のPGM構造において正確であるPGMの近似を行うことを明らかにした。 我々の研究は、ニューラルネットワークをカーネルマシンや無限サイズのガウス過程として記述する既存の研究を補完するだけでなく、DNNがPGMで正確に推測するより直接的な近似も解明している。 潜在的な利点としては、教育とDNNの解釈の改善、PGMとDNNの強みをマージするアルゴリズムなどがある。

Deep neural networks (DNNs) lack the precise semantics and definitive probabilistic interpretation of probabilistic graphical models (PGMs). In this paper, we propose an innovative solution by constructing infinite tree-structured PGMs that correspond exactly to neural networks. Our research reveals that DNNs, during forward propagation, indeed perform approximations of PGM inference that are precise in this alternative PGM structure. Not only does our research complement existing studies that describe neural networks as kernel machines or infinite-sized Gaussian processes, it also elucidates a more direct approximation that DNNs make to exact inference in PGMs. Potential benefits include improved pedagogy and interpretation of DNNs, and algorithms that can merge the strengths of PGMs and DNNs.
翻訳日:2023-05-30 18:07:08 公開日:2023-05-27
# 知識蒸留による部分変量低減

Knowledge Distillation Performs Partial Variance Reduction ( http://arxiv.org/abs/2305.17581v1 )

ライセンス: Link先を確認
Mher Safaryan and Alexandra Peste and Dan Alistarh(参考訳) 知識蒸留は、より強力な『教師』モデルを活用することにより、表現能力の低い『学生』モデルの性能を高めるための一般的なアプローチである。 その明らかな単純さと広く使われているにもかかわらず、知識蒸留(KD)の基盤となるメカニズムは未だ完全には理解されていない。 本研究では,最適化の観点から検討し,本手法の内部動作に新たな光を当てる。 線形モデルと深い線形モデルの文脈において、kdは確率的分散還元機構の新しいタイプとして解釈できることを示す。 我々は、強凸損失と非凸損失の両方の標準仮定で成り立つ結果のダイナミクスの詳細な収束解析を行い、KD が確率勾配雑音を低減できる 'emph{partial variance reduction} の形式として作用することを示した。 我々の分析は、KDの慎重なパラメトリゼーションの必要性、特に蒸留損失の重み付けに重点を置いており、線形モデルとディープニューラルネットワークの両方で実証的に検証されている。

Knowledge distillation is a popular approach for enhancing the performance of ``student'' models, with lower representational capacity, by taking advantage of more powerful ``teacher'' models. Despite its apparent simplicity and widespread use, the underlying mechanics behind knowledge distillation (KD) are still not fully understood. In this work, we shed new light on the inner workings of this method, by examining it from an optimization perspective. We show that, in the context of linear and deep linear models, KD can be interpreted as a novel type of stochastic variance reduction mechanism. We provide a detailed convergence analysis of the resulting dynamics, which hold under standard assumptions for both strongly-convex and non-convex losses, showing that KD acts as a form of \emph{partial variance reduction}, which can reduce the stochastic gradient noise, but may not eliminate it completely, depending on the properties of the ``teacher'' model. Our analysis puts further emphasis on the need for careful parametrization of KD, in particular w.r.t. the weighting of the distillation loss, and is validated empirically on both linear models and deep neural networks.
翻訳日:2023-05-30 18:06:56 公開日:2023-05-27
# arpanemo:covid-19パンデミック時のアラビア語オンラインコンテンツにおけるきめ細かな感情認識のためのオープンソースのデータセット

ArPanEmo: An Open-Source Dataset for Fine-Grained Emotion Recognition in Arabic Online Content during COVID-19 Pandemic ( http://arxiv.org/abs/2305.17580v1 )

ライセンス: Link先を確認
Maha Jarallah Althobaiti(参考訳) 感情認識は自然言語処理(NLP)において重要なタスクであり、機械がテキストで伝達される感情を理解できるようにする。 感情認識の応用は、メンタルヘルス診断、学生支援、オンライン不審行動の検出など多岐にわたる。 様々な言語における感情認識に関する膨大な文献にもかかわらず、アラビア語の感情認識は比較的ほとんど関心を示さず、感情を付加したコーパスが不足している。 本稿では,アラビア語におけるオンライン投稿の微粒な感情認識のための新しいデータセットであるArPanEmoデータセットを提案する。 このデータセットは、10の感情カテゴリまたは中立性のために手動でラベル付けされた11,128のオンライン投稿で構成されており、fleiss' kappa は 0.71 である。 特定のアラビア語方言をターゲットとし、新型コロナウイルス(COVID-19)のパンデミックに関連する話題に対処する。 Pythonのパッケージは、2020年3月から2022年3月までの3つのソース、Twitter、YouTube、オンライン新聞コメントから、COVID-19パンデミックに関連するオンライン投稿の収集に使用された。 オンライン投稿を収集すると、各投稿は感情関連用語の語彙を用いて半自動分類を行い、中性カテゴリーか感情カテゴリーかを判定した。 その後、感情データをよりきめ細かい感情カテゴリーに分類するために手動ラベリングを行った。

Emotion recognition is a crucial task in Natural Language Processing (NLP) that enables machines to comprehend the feelings conveyed in the text. The applications of emotion recognition are diverse, including mental health diagnosis, student support, and the detection of online suspicious behavior. Despite the substantial amount of literature available on emotion recognition in various languages, Arabic emotion recognition has received relatively little attention, leading to a scarcity of emotion-annotated corpora. This paper presents the ArPanEmo dataset, a novel dataset for fine-grained emotion recognition of online posts in Arabic. The dataset comprises 11,128 online posts manually labeled for ten emotion categories or neutral, with Fleiss' kappa of 0.71. It targets a specific Arabic dialect and addresses topics related to the COVID-19 pandemic, making it the first and largest of its kind. Python's packages were utilized to collect online posts related to the COVID-19 pandemic from three sources: Twitter, YouTube, and online newspaper comments between March 2020 and March 2022. Upon collection of the online posts, each one underwent a semi-automatic classification process using a lexicon of emotion-related terms to determine whether it belonged to the neutral or emotional category. Subsequently, manual labeling was conducted to further categorize the emotional data into fine-grained emotion categories.
翻訳日:2023-05-30 18:06:21 公開日:2023-05-27
# 疾患原因の患者特異的根の偽造

Counterfactual Formulation of Patient-Specific Root Causes of Disease ( http://arxiv.org/abs/2305.17574v1 )

ライセンス: Link先を確認
Eric V. Strobl(参考訳) 疾患の根原因は、診断の可能性を増加させる根頂点と直感的に一致する。 この根本原因の記述は、データから根本原因を自動的に検出するように設計されたコンピュータアルゴリズムの開発に必要な厳密な数学的定式化を欠いている。 以前の研究では、パール病原病の患者固有の根本原因を、パール病原病の第二のラングにのみ登る介入主義的説明を用いて定義した。 本論では,固定された事実データのみに基づく臨床的直観に一致する対実的定義を提唱し,第3段階まで登頂する。 次に、説明可能な人工知能のShapley値を用いて、各変数に根因果寄与スコアを割り当てる方法を示す。 提案する患者固有の疾患の根源原因の偽りの定式化は,ノイズラベルを伴い,疾患の流行に適応し,偽りのシミュレーションを必要とせずに高速な計算が可能となる。

Root causes of disease intuitively correspond to root vertices that increase the likelihood of a diagnosis. This description of a root cause nevertheless lacks the rigorous mathematical formulation needed for the development of computer algorithms designed to automatically detect root causes from data. Prior work defined patient-specific root causes of disease using an interventionalist account that only climbs to the second rung of Pearl's Ladder of Causation. In this theoretical piece, we climb to the third rung by proposing a counterfactual definition matching clinical intuition based on fixed factual data alone. We then show how to assign a root causal contribution score to each variable using Shapley values from explainable artificial intelligence. The proposed counterfactual formulation of patient-specific root causes of disease accounts for noisy labels, adapts to disease prevalence and admits fast computation without the need for counterfactual simulation.
翻訳日:2023-05-30 18:05:38 公開日:2023-05-27
# 賭けによる公正の監査

Auditing Fairness by Betting ( http://arxiv.org/abs/2305.17570v1 )

ライセンス: Link先を確認
Ben Chugg, Santiago Cortes-Gomez, Bryan Wilder, Aaditya Ramdas(参考訳) 我々は,デプロイされた分類と回帰モデルの公平性を監査するための実用的,効率的,非パラメトリックな手法を提供する。 従来の作業では固定サンプルサイズに依存していましたが、私たちの手法はシーケンシャルで、入ってくるデータの継続的な監視を可能にします。 我々はまた、人口から一様にサンプリングされるのに対して、確率的政策によってデータを収集することを許可する。 これにより、別の目的のために収集されたデータで監査を行うことができる。 さらに、この政策は時間とともに変化し、異なる政策は異なるサブ人口に使用される。 最後に,本手法は,モデルの変化や基盤人口の変化から生じる分布変化を処理できる。 我々のアプローチは、特に「賭けによるテスト」フレームワークであるanytime-valid推論とゲーム理論統計の最近の進歩に基づいている。 これらの接続により、私たちのメソッドは解釈可能で、高速で、実装が容易になります。 いくつかのベンチマークフェアネスデータセットにおいて,本手法の有効性を示す。

We provide practical, efficient, and nonparametric methods for auditing the fairness of deployed classification and regression models. Whereas previous work relies on a fixed-sample size, our methods are sequential and allow for the continuous monitoring of incoming data, making them highly amenable to tracking the fairness of real-world systems. We also allow the data to be collected by a probabilistic policy as opposed to sampled uniformly from the population. This enables auditing to be conducted on data gathered for another purpose. Moreover, this policy may change over time and different policies may be used on different subpopulations. Finally, our methods can handle distribution shift resulting from either changes to the model or changes in the underlying population. Our approach is based on recent progress in anytime-valid inference and game-theoretic statistics-the "testing by betting" framework in particular. These connections ensure that our methods are interpretable, fast, and easy to implement. We demonstrate the efficacy of our methods on several benchmark fairness datasets.
翻訳日:2023-05-30 18:05:08 公開日:2023-05-27
# Python Wrapper - HPOベンチマーク上でのマルチファイダリティ最適化のシミュレーション

Python Wrapper for Simulating Multi-Fidelity Optimization on HPO Benchmarks without Any Wait ( http://arxiv.org/abs/2305.17595v1 )

ライセンス: Link先を確認
Shuhei Watanabe(参考訳) ディープラーニング(DL)のハイパーパラメータ(HP)最適化は高性能に不可欠である。 DLは訓練に数時間から数日を要することが多いため、HP最適化(HPO)は高額であることが多い。 これにより表型ベンチマークやsurrogateベンチマークが出現し、dlの(予測的な)パフォーマンスを分数で特定のhp構成でクエリできるようになった。 しかし、DLトレーニングの実際のランタイムはクエリ応答時間と大きく異なるため、単純な実装では、非同期HPOのシミュレータ、例えばマルチ忠実度最適化は、各イテレーションで実際のランタイムを待つ必要がある。 この問題を緩和するため、実際の実験と評価順序を一致させるために、各作業者に待機を強制するPythonラッパーを開発し、使用法を説明する。 我々の実装は待ち時間を0.01秒に短縮し、https://github.com/nabe0928/mfhpo-simulator/で利用可能です。

Hyperparameter (HP) optimization of deep learning (DL) is essential for high performance. As DL often requires several hours to days for its training, HP optimization (HPO) of DL is often prohibitively expensive. This boosted the emergence of tabular or surrogate benchmarks, which enable querying the (predictive) performance of DL with a specific HP configuration in a fraction. However, since actual runtimes of a DL training are significantly different from query response times, in a naive implementation, simulators of an asynchronous HPO, e.g. multi-fidelity optimization, must wait for the actual runtimes at each iteration; otherwise, the evaluation order in the simulator does not match with the real experiment. To ease this issue, we develop a Python wrapper to force each worker to wait in order to match the evaluation order with the real experiment and describe the usage. Our implementation reduces the waiting time to 0.01 seconds and it is available at https://github.com/nabenabe0928/mfhpo-simulator/.
翻訳日:2023-05-30 17:56:39 公開日:2023-05-27
# 推論時のデータ最小化

Data Minimization at Inference Time ( http://arxiv.org/abs/2305.17593v1 )

ライセンス: Link先を確認
Cuong Tran and Ferdinando Fioretto(参考訳) 法律、採用、医療といった高い利害関係を持つドメインでは、学習モデルは推論に敏感なユーザデータに頼ることが多く、機能の完全なセットを必要とする。 これは個人に重大なプライバシーリスクをもたらすだけでなく、組織から情報の正確性を検証するためにかなりの人的努力を要求する。 本稿では,推論時の正確な予測に \emph{all} 入力機能を使う必要があるかどうかを問う。 パーソナライズされた環境では、個人は、意思決定の正確さを損なうことなく、機能のごく一部を開示するだけでよい。 また、各個人が提供すべき適切な属性を決定するための効率的なシーケンシャルアルゴリズムも提供する。 様々な学習課題に対する評価は、個人がユーザ情報の完全なセットを利用するモデルと同じ精度を維持しながら、情報の10%程度を報告できることを示している。

In domains with high stakes such as law, recruitment, and healthcare, learning models frequently rely on sensitive user data for inference, necessitating the complete set of features. This not only poses significant privacy risks for individuals but also demands substantial human effort from organizations to verify information accuracy. This paper asks whether it is necessary to use \emph{all} input features for accurate predictions at inference time. The paper demonstrates that, in a personalized setting, individuals may only need to disclose a small subset of their features without compromising decision-making accuracy. The paper also provides an efficient sequential algorithm to determine the appropriate attributes for each individual to provide. Evaluations across various learning tasks show that individuals can potentially report as little as 10\% of their information while maintaining the same accuracy level as a model that employs the full set of user information.
翻訳日:2023-05-30 17:56:20 公開日:2023-05-27
# ニュース注文における中立性の最大化

Maximizing Neutrality in News Ordering ( http://arxiv.org/abs/2305.15790v2 )

ライセンス: Link先を確認
Rishi Advani, Paolo Papotti, Abolfazl Asudeh(参考訳) 偽ニュースの検出はここ数年で注目を集めていますが、視聴者を欺く方法はもっと微妙です。 ニュース記事の内容に加えて、彼らのプレゼンテーションは誤解を招くか偏見を与えることもできる。 本研究では,ニュース記事の順序付けがオーディエンス知覚に与える影響について検討する。 本稿では,ニュース注文におけるサクラニュース注文の検出と中立性の最大化の問題を紹介する。 難易度を証明し,これらの問題を近似的に解くアルゴリズムをいくつか提示する。 さらに, 実世界における桜の摘み取りの可能性を示すとともに, 広範な実験結果を提供する。

The detection of fake news has received increasing attention over the past few years, but there are more subtle ways of deceiving one's audience. In addition to the content of news stories, their presentation can also be made misleading or biased. In this work, we study the impact of the ordering of news stories on audience perception. We introduce the problems of detecting cherry-picked news orderings and maximizing neutrality in news orderings. We prove hardness results and present several algorithms for approximately solving these problems. Furthermore, we provide extensive experimental results and present evidence of potential cherry-picking in the real world.
翻訳日:2023-05-30 11:18:35 公開日:2023-05-27
# 最適輸送による分散誤差の特徴付け

Characterizing Out-of-Distribution Error via Optimal Transport ( http://arxiv.org/abs/2305.15640v2 )

ライセンス: Link先を確認
Yuzhe Lu, Yilong Qin, Runtian Zhai, Andrew Shen, Ketong Chen, Zhenlin Wang, Soheil Kolouri, Simon Stepputtis, Joseph Campbell, Katia Sycara(参考訳) アウト・オブ・ディストリビューション(OOD)データは、デプロイされた機械学習モデルにおいて深刻な課題となるため、ラベルなしでOODデータ上でモデルのパフォーマンスを予測する方法は、機械学習の安全性にとって重要である。 先行研究によって多くの方法が提案されているが、しばしば実際のエラーを過小評価し、時には大きなマージンで、実際のタスクへの適用性に大きな影響を与えている。 本研究では,この過小評価の重要な指標として,擬似ラベルシフト,あるいは予測値と真のOODラベル分布の違いを同定する。 そこで本研究では, 最適輸送理論である信頼度最適輸送(cot)を活用し, モデル性能を推定する新しい手法を提案する。 さらに,個々の輸送コストにしきい値を適用するとともに,cotの誤差推定精度をさらに向上させるcotの実証的モチベーションである信頼度最適輸送法(cott)を導入する。 cot と cott は様々な分散シフトを誘導する様々な標準ベンチマーク -- 合成, 新規なサブポピュレーション, 自然 – で評価し, 既存の最先端手法を最大3倍低い予測誤差で大幅に上回ることを示した。

Out-of-distribution (OOD) data poses serious challenges in deployed machine learning models, so methods of predicting a model's performance on OOD data without labels are important for machine learning safety. While a number of methods have been proposed by prior work, they often underestimate the actual error, sometimes by a large margin, which greatly impacts their applicability to real tasks. In this work, we identify pseudo-label shift, or the difference between the predicted and true OOD label distributions, as a key indicator to this underestimation. Based on this observation, we introduce a novel method for estimating model performance by leveraging optimal transport theory, Confidence Optimal Transport (COT), and show that it provably provides more robust error estimates in the presence of pseudo-label shift. Additionally, we introduce an empirically-motivated variant of COT, Confidence Optimal Transport with Thresholding (COTT), which applies thresholding to the individual transport costs and further improves the accuracy of COT's error estimates. We evaluate COT and COTT on a variety of standard benchmarks that induce various types of distribution shift -- synthetic, novel subpopulation, and natural -- and show that our approaches significantly outperform existing state-of-the-art methods with an up to 3x lower prediction error.
翻訳日:2023-05-30 11:18:27 公開日:2023-05-27
# 二元探索による同時機械翻訳のための最適方針の学習

Learning Optimal Policy for Simultaneous Machine Translation via Binary Search ( http://arxiv.org/abs/2305.12774v3 )

ライセンス: Link先を確認
Shoutao Guo, Shaolei Zhang, Yang Feng(参考訳) 同時機械翻訳(simt)は、原文を読みながら翻訳を出力し始め、生成された翻訳をいつ出力するかを決定する正確なポリシーを必要とする。 したがって、ポリシーは、各ターゲットトークンの翻訳中に読み込まれるソーストークンの数を決定する。 しかし, 並列文に対応する黄金律が存在しないため, 高い遅延品質のトレードオフを実現するためには, 正確な翻訳方針を習得することは困難である。 本稿では,バイナリ検索によりオンラインの最適ポリシーを構築する新しい手法を提案する。 本手法では, 明示的な監督手法を用いることで, 推論中の翻訳の完了を誘導する最適ポリシーをSiMTモデルで学習することができる。 4つの翻訳タスクを実験した結果,提案手法はすべてのレイテンシシナリオにおいて強いベースラインを超越できることがわかった。

Simultaneous machine translation (SiMT) starts to output translation while reading the source sentence and needs a precise policy to decide when to output the generated translation. Therefore, the policy determines the number of source tokens read during the translation of each target token. However, it is difficult to learn a precise translation policy to achieve good latency-quality trade-offs, because there is no golden policy corresponding to parallel sentences as explicit supervision. In this paper, we present a new method for constructing the optimal policy online via binary search. By employing explicit supervision, our approach enables the SiMT model to learn the optimal policy, which can guide the model in completing the translation during inference. Experiments on four translation tasks show that our method can exceed strong baselines across all latency scenarios.
翻訳日:2023-05-30 11:17:32 公開日:2023-05-27
# BLOOM+1:ゼロショットプロンプトのためのBLOOMに言語サポートを追加

BLOOM+1: Adding Language Support to BLOOM for Zero-Shot Prompting ( http://arxiv.org/abs/2212.09535v3 )

ライセンス: Link先を確認
Zheng-Xin Yong, Hailey Schoelkopf, Niklas Muennighoff, Alham Fikri Aji, David Ifeoluwa Adelani, Khalid Almubarak, M Saiful Bari, Lintang Sutawika, Jungo Kasai, Ahmed Baruwa, Genta Indra Winata, Stella Biderman, Edward Raff, Dragomir Radev and Vassilina Nikoulina(参考訳) BLOOMモデルは広く公開されている多言語言語モデルであるが、事前訓練は46言語に限られていた。 BLOOMの利点を他言語に拡張するためには,事前学習中に見られない新しい言語にBLOOMを適用することが望ましい。 本研究では,既存の言語適応戦略をBLOOMに適用し,リソース制約条件下で8つの新しい言語の性能向上を促すゼロショットをベンチマークする。 新たな言語におけるゼロショット性能の向上には,言語適応が有効である。 驚いたことに、アダプタベースの微調整は、大型モデルの事前訓練よりも効果的である。 また,書記システムなどの言語特化によって,性能の促進が大きな影響を受けないことが判明した。 主に言語適応データの大きさによって決定される。 また,タスク命令をゼロショットで追従するBLOOMのマルチタスク微調整版であるBLOOMZに新たな言語を追加する。 新しい言語をマルチタスクの微調整混合物に含めることで、bloomzに新しい言語を教える最も効果的な方法を見出した。 十分なトレーニングによって、データ言語適応は多様な言語にうまく一般化できると結論づけた。 私たちのコードはhttps://github.com/bigscience-workshop/multilingual-modelingで利用可能です。

The BLOOM model is a large publicly available multilingual language model, but its pretraining was limited to 46 languages. To extend the benefits of BLOOM to other languages without incurring prohibitively large costs, it is desirable to adapt BLOOM to new languages not seen during pretraining. In this work, we apply existing language adaptation strategies to BLOOM and benchmark its zero-shot prompting performance on eight new languages in a resource-constrained setting. We find language adaptation to be effective at improving zero-shot performance in new languages. Surprisingly, we find that adapter-based finetuning is more effective than continued pretraining for large models. In addition, we discover that prompting performance is not significantly affected by language specifics, such as the writing system. It is primarily determined by the size of the language adaptation data. We also add new languages to BLOOMZ, which is a multitask finetuned version of BLOOM capable of following task instructions zero-shot. We find including a new language in the multitask fine-tuning mixture to be the most effective method to teach BLOOMZ a new language. We conclude that with sufficient training data language adaptation can generalize well to diverse languages. Our code is available at https://github.com/bigscience-workshop/multilingual-modeling.
翻訳日:2023-05-30 11:15:55 公開日:2023-05-27
# 部分観測可能なマルチエージェントパス探索のためのユニバーサルプランの計算について

On Computing Universal Plans for Partially Observable Multi-Agent Path Finding ( http://arxiv.org/abs/2305.16203v2 )

ライセンス: Link先を確認
Fengming Zhu, Fangzhen Lin(参考訳) マルチエージェントルーティング問題は、倉庫ロボット、物流自動化、交通制御などの幅広い産業的応用により、近年大きな注目を集めている。 伝統的に、それらは古典的な計画問題としてモデル化される。 本稿では,これらを共通計画問題として定式化することは有益であると主張する。 そこで我々は,ソリューション概念としてポリシとしても知られるユニバーサルプランを提案し,それらを計算するためのasp-maupf (answer set programming for multi-agent universal plan find) というシステムを実装した。 任意の2次元地図とエージェントの目標プロファイルが与えられた場合、システムは、他のエージェントとの衝突を確実にする、各エージェントの可能な普遍的な計画を見つける。 我々はシステムを用いていくつかの実験を行い、実現可能なポリシーを持つ目標プロファイルと環境の種類と、エージェントのセンサーにどのように依存するかを観察する。 また、ユーザがアクションの好みをカスタマイズして、より効率的なポリシーを(ほぼ)最適に処理する方法も示しています。

Multi-agent routing problems have drawn significant attention nowadays due to their broad industrial applications in, e.g., warehouse robots, logistics automation, and traffic control. Conventionally, they are modelled as classical planning problems. In this paper, we argue that it is beneficial to formulate them as universal planning problems. We therefore propose universal plans, also known as policies, as the solution concepts, and implement a system called ASP-MAUPF (Answer Set Programming for Multi-Agent Universal Plan Finding) for computing them. Given an arbitrary two-dimensional map and a profile of goals for the agents, the system finds a feasible universal plan for each agent that ensures no collision with others. We use the system to conduct some experiments, and make some observations on the types of goal profiles and environments that will have feasible policies, and how they may depend on agents' sensors. We also demonstrate how users can customize action preferences to compute more efficient policies, even (near-)optimal ones.
翻訳日:2023-05-30 11:09:12 公開日:2023-05-27
# LEDを用いた量子ランダム数発生装置

Quantum Random Number Generator Based on LED ( http://arxiv.org/abs/2305.16101v2 )

ライセンス: Link先を確認
Mohammadreza Moeini, Mohsen Akbari, Mohammad Mirsadeghi, Hamid Reza Naeij, Nima Haghkish, Ali Hayeri, Mehrdad Malekian(参考訳) 量子乱数生成器は量子力学の固有確率の性質に基づいて乱数を生成し、真の乱数生成器となる。 本稿では,LEDにおける自発放射のゆらぎに基づいて乱数を生成する組込みQRNGの設計と製造を行う。 また、LEDにおける組換え過程のランダム性に関する新たな視点が、実験結果と一致して導入された。 堅牢で信頼性の高いQRNGmを実現するために,通常のポストプロセッシング手法を比較し,リアルタイムデバイスに最適なQRNGを選択する。 この装置はNISTテストに合格し、出力速度はSあたり1Mbitであり、出力データのランダム性は時間と温度によって不変である。

Quantum Random Number Generators Produce random numbers based on the intrinsic probability nature of quantum mechanics, making them true random number generators. In this paper, we design and fabricate an embedded QRNG that produces random numbers based on fluctuations of spontaneous emission in a LED. Additionally, a new perspective on the randomness of the recombination process in a LED is introduced that is consistent with experimental results. To achieve a robust and reliable QRNGm we compare some usual post processing methods and select the best one for a real time device. This device could pass NIST tests, the output speed is 1 Mbit per S and the randomness of the output data is invariant in time and different temperatures.
翻訳日:2023-05-30 11:08:53 公開日:2023-05-27
# ChatGPTにおける音韻的バイアスの発生

Emergence of a phonological bias in ChatGPT ( http://arxiv.org/abs/2305.15929v2 )

ライセンス: Link先を確認
Juan Manuel Toro(参考訳) OpenAIのChatGPTのような現在の大きな言語モデルは、言語の使用においていかに顕著であるかから、一般大衆の注目を集めている。 ここでは,chatgptが人間の言語処理の要点である音韻バイアスを示すことを示す。 より具体的には、ChatGPTは人間と同じように子音バイアスを持っている。 つまり、このチャットボットは母音上の子音を使って単語を識別する傾向にある。 これは、英語やスペイン語のような子音と母音の相対分布が異なる言語間で観察される。 現在の人工知能言語モデルにおける言語刺激の処理方法と幼児の言語習得方法の違いにもかかわらず、このような訓練はChatGPTにおける音韻的バイアスの出現に十分であると思われる。

Current large language models, such as OpenAI's ChatGPT, have captured the public's attention because how remarkable they are in the use of language. Here, I demonstrate that ChatGPT displays phonological biases that are a hallmark of human language processing. More concretely, just like humans, ChatGPT has a consonant bias. That is, the chatbot has a tendency to use consonants over vowels to identify words. This is observed across languages that differ in their relative distribution of consonants and vowels such as English and Spanish. Despite the differences in how current artificial intelligence language models are trained to process linguistic stimuli and how human infants acquire language, such training seems to be enough for the emergence of a phonological bias in ChatGPT
翻訳日:2023-05-30 11:07:24 公開日:2023-05-27
# MEMEX:知識豊か化によるミームの説明的証拠の検出

MEMEX: Detecting Explanatory Evidence for Memes via Knowledge-Enriched Contextualization ( http://arxiv.org/abs/2305.15913v2 )

ライセンス: Link先を確認
Shivam Sharma, Ramaneswaran S, Udit Arora, Md. Shad Akhtar and Tanmoy Chakraborty(参考訳) ミームはソーシャルメディア上でコミュニケーションするための強力なツールだ。 政治、歴史、社会文化的現象にまたがって進化する彼らの親和性は、理想的なコミュニケーション手段となる。 ミーム内で伝達される微妙なメッセージを理解するには、その全体的同化を容易にする背景を理解する必要がある。 knowyourmeme.comのようないくつかのウェブサイトによるミームとそのメタデータのデジタルアーカイブの他に、現在、ミームのコンテキストを動的に推測する効率的な方法は存在しない。 本研究では,新しい課題であるmemexgiven a memeと関連する文書を提案し,memeの背景を簡潔に説明する文脈をマイニングすることを目的としている。 まず,MEMEXのための新しいデータセットであるMCC(Meme Context Corpus)を開発した。 さらに,mccをベンチマークするために,meme (multimodal meme explaineder) を提案する。memeは,meme表現の共通性を利用したマルチモーダルニューラルネットワークフレームワークであり,memeとコンテキスト間の相互モーダルセマンティクス依存性を捉えるための階層的アプローチである。 MIMEはいくつかの単調なマルチモーダルシステムを超え、最高のベースラインに対して 4% F1スコアの絶対的な改善をもたらす。 最後に,mimeの性能に関する詳細な分析を行い,クロスモーダル文脈関係の最適モデリングにつながる可能性のある側面を強調する。

Memes are a powerful tool for communication over social media. Their affinity for evolving across politics, history, and sociocultural phenomena makes them an ideal communication vehicle. To comprehend the subtle message conveyed within a meme, one must understand the background that facilitates its holistic assimilation. Besides digital archiving of memes and their metadata by a few websites like knowyourmeme.com, currently, there is no efficient way to deduce a meme's context dynamically. In this work, we propose a novel task, MEMEX - given a meme and a related document, the aim is to mine the context that succinctly explains the background of the meme. At first, we develop MCC (Meme Context Corpus), a novel dataset for MEMEX. Further, to benchmark MCC, we propose MIME (MultImodal Meme Explainer), a multimodal neural framework that uses common sense enriched meme representation and a layered approach to capture the cross-modal semantic dependencies between the meme and the context. MIME surpasses several unimodal and multimodal systems and yields an absolute improvement of ~ 4% F1-score over the best baseline. Lastly, we conduct detailed analyses of MIME's performance, highlighting the aspects that could lead to optimal modeling of cross-modal contextual associations.
翻訳日:2023-05-30 11:07:11 公開日:2023-05-27