このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240502となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 生成人工知能による画像のバイアスの分類
A Taxonomy of the Biases of the Images created by Generative Artificial Intelligence ( http://arxiv.org/abs/2407.01556v1 ) ライセンス: Link先を確認 | Adriana Fernández de Caleya Vázquez, Eduardo C. Garrido-Merchán, | (参考訳) 生成する人工知能モデルは、ユーザーからプロンプトを受けただけで、ユニークなコンテンツを自動生成する素晴らしいパフォーマンスを示している。
生成した出力がテキストフォーマットに属するモデルだけでなく、プロンプトが与えられた高品質の真の画像やビデオを自動的に生成できるモデルも存在します。
画像生成のパフォーマンスは印象的と思われるが、ユーザがインターネットに膨大な量のデータをアップロードしているため、これらのモデルが生成しているコンテンツをゆっくりと評価する必要がある。
重要な点として、生成AIはパラメータ値が推定される統計モデルであり、画像データセットが与えられたパラメータの確率を最大化するアルゴリズムである点が挙げられる。
したがって、画像データセットが性別や肌の色などの弱い変数の特定の値に偏っている場合、これらのモデルの生成されたコンテンツは特定のグループに有害である可能性がある。
これらのコンテンツを生成し、ユーザーによってインターネットにアップロードすることで、これらのバイアスは、脆弱なグループにとって有害なステレオタイプを永続させ、例えば、美や障害について、社会的ビジョンを分極する。
本研究では、これらのモデルによって生成されたコンテンツが、変数の多元性に対してどのように強くバイアスを受けることができるのかを詳細に分析し、新しい画像生成型AI分類に編成する。
また、これらのバイアスの社会的、政治的、経済的含意とそれらを緩和する可能性についても論じる。
Generative artificial intelligence models show an amazing performance creating unique content automatically just by being given a prompt by the user, which is revolutionizing several fields such as marketing and design. Not only are there models whose generated output belongs to the text format but we also find models that are able to automatically generate high quality genuine images and videos given a prompt. Although the performance in image creation seems impressive, it is necessary to slowly assess the content that these models are generating, as the users are uploading massively this material on the internet. Critically, it is important to remark that generative AI are statistical models whose parameter values are estimated given algorithms that maximize the likelihood of the parameters given an image dataset. Consequently, if the image dataset is biased towards certain values for vulnerable variables such as gender or skin color, we might find that the generated content of these models can be harmful for certain groups of people. By generating this content and being uploaded into the internet by users, these biases are perpetuating harmful stereotypes for vulnerable groups, polarizing social vision about, for example, what beauty or disability is and means. In this work, we analyze in detail how the generated content by these models can be strongly biased with respect to a plethora of variables, which we organize into a new image generative AI taxonomy. We also discuss the social, political and economical implications of these biases and possible ways to mitigate them. | 翻訳日:2024-07-22 22:28:39 公開日:2024-05-02 |
# AIガバナンスと説明責任: 人類学の主張の分析
AI Governance and Accountability: An Analysis of Anthropic's Claude ( http://arxiv.org/abs/2407.01557v1 ) ライセンス: Link先を確認 | Aman Priyanshu, Yash Maurya, Zuofei Hong, | (参考訳) AIシステムがますます普及し、影響力を持つようになるにつれ、効果的なAIガバナンスと説明責任対策の必要性が最重要である。
本稿では,基本的AIモデルであるArthropicのClaudeに着目し,AIガバナンスの展望について考察する。
我々は、NIST AI Risk Management FrameworkとEU AI Actのレンズを通してCludeを分析し、潜在的な脅威を特定し、緩和戦略を提案する。
論文では、AIシステムの責任ある開発と展開を保証する上で、透明性、厳格なベンチマーク、包括的なデータ処理プロセスの重要性を強調している。
我々は、AIガバナンスの社会的影響と、AI説明責任に関する倫理的考察を議論することで締めくくります。
As AI systems become increasingly prevalent and impactful, the need for effective AI governance and accountability measures is paramount. This paper examines the AI governance landscape, focusing on Anthropic's Claude, a foundational AI model. We analyze Claude through the lens of the NIST AI Risk Management Framework and the EU AI Act, identifying potential threats and proposing mitigation strategies. The paper highlights the importance of transparency, rigorous benchmarking, and comprehensive data handling processes in ensuring the responsible development and deployment of AI systems. We conclude by discussing the social impact of AI governance and the ethical considerations surrounding AI accountability. | 翻訳日:2024-07-22 22:28:39 公開日:2024-05-02 |
# 深層学習に基づくマルチモーダルアプローチによる包括的音声・映像分析ツールチェーン(暴動・暴力的文脈検出の事例)
A Toolchain for Comprehensive Audio/Video Analysis Using Deep Learning Based Multimodal Approach (A use case of riot or violent context detection) ( http://arxiv.org/abs/2407.03110v1 ) ライセンス: Link先を確認 | Lam Pham, Phat Lam, Tin Nguyen, Hieu Tang, Alexander Schindler, | (参考訳) 本稿では,ディープラーニングに基づくマルチモーダルアプローチを活用することで,包括的オーディオ/ビデオ分析のためのツールチェーンを提案する。
この目的のために、音声テキスト(S2T)、音響シーン分類(ASC)、音響イベント検出(AED)、ビジュアルオブジェクト検出(VOD)、画像キャプション(IC)、ビデオキャプション(VC)の各特定のタスクを実行し、ツールチェーンに統合する。
個々のタスクを組み合わせて、入力されたビデオから抽出されたオーディオと視覚の両方のデータを解析することにより、ツールチェーンは、様々なオーディオ/ビデオベースのアプリケーションを提供する。
さらに、ツールチェーンはフレキシブルで適応可能なアーキテクチャを提供しており、さらなるオーディオ/ビデオベースのアプリケーションのために新しいモデルを統合するのに効果的である。
In this paper, we present a toolchain for a comprehensive audio/video analysis by leveraging deep learning based multimodal approach. To this end, different specific tasks of Speech to Text (S2T), Acoustic Scene Classification (ASC), Acoustic Event Detection (AED), Visual Object Detection (VOD), Image Captioning (IC), and Video Captioning (VC) are conducted and integrated into the toolchain. By combining individual tasks and analyzing both audio \& visual data extracted from input video, the toolchain offers various audio/video-based applications: Two general applications of audio/video clustering, comprehensive audio/video summary and a specific application of riot or violent context detection. Furthermore, the toolchain presents a flexible and adaptable architecture that is effective to integrate new models for further audio/video-based applications. | 翻訳日:2024-07-22 22:18:55 公開日:2024-05-02 |
# 予測分析を用いた大学生のオンタイム大学生卒業率の向上
Improving On-Time Undergraduate Graduation Rate For Undergraduate Students Using Predictive Analytics ( http://arxiv.org/abs/2407.10253v1 ) ライセンス: Link先を確認 | Ramineh Lopez-Yazdani, Roberto Rivera, | (参考訳) プエルトリコの大学におけるオンタイム卒業率は、米国本土よりも大幅に低い。
この問題は、社会と経済の両方、教育機関と地域経済において、学生にとって重大なネガティブな結果をもたらすため、注目すべきである。
本研究は,学生の学習開始時期を正確に把握し,時間通りに卒業しないリスクを負う予測モデルの構築を目的とする。
これを行うために様々な予測モデルが開発され、最高のモデル、最高の性能を持つモデルが選択される。
マヤゲスにあるプエルトリコ大学の24432人の大学生の情報を含むデータセットを用いて、モデルの予測性能を2つのシナリオで評価する。
全体として、両方のシナリオにおいて、オーバーサンプリングデータセットでトレーニングされたブースティングモデルは、誰が時間通りに卒業しないかを予測する上で最も成功している。
The on-time graduation rate among universities in Puerto Rico is significantly lower than in the mainland United States. This problem is noteworthy because it leads to substantial negative consequences for the student, both socially and economically, the educational institution and the local economy. This project aims to develop a predictive model that accurately detects students early in their academic pursuit at risk of not graduating on time. Various predictive models are developed to do this, and the best model, the one with the highest performance, is selected. Using a dataset containing information from 24432 undergraduate students at the University of Puerto Rico at Mayaguez, the predictive performance of the models is evaluated in two scenarios: Group I includes both the first year of college and pre-college factors, and Group II only considers pre-college factors. Overall, for both scenarios, the boosting model, trained on the oversampled dataset, is the most successful at predicting who will not graduate on time. | 翻訳日:2024-07-22 12:59:07 公開日:2024-05-02 |
# Chaos-based Cryptography を用いた複数診断画像のスクランブル
An Effective Approach to Scramble Multiple Diagnostic Imageries Using Chaos-Based Cryptography ( http://arxiv.org/abs/2406.07560v1 ) ライセンス: Link先を確認 | Dr Chandra Sekhar Sanaboina, Tejaswini Yadla, | (参考訳) 医療画像の暗号化は患者のプライバシーを守るのに役立つ。
本稿では,カオスシステムを用いた医用画像暗号化手法を提案する。
拡散と置換のアーキテクチャが用いられた。
プレーン画像とカオスキーに基づく置換は、プレーン画像のピクセルを他の行や列にシャッフルし、隣接するピクセル間の強いつながりを弱める。
拡散は、暗号効果を高めるために、暗号画像中のすべてのピクセルにプレーン画像の小さな変化を拡散することを示唆している。
本研究では, 分岐プロット, リアプノフ指数, MSE, PSNR試験, ヒストグラム解析などの様々な手法と試験を用いて, 提案システムのカオス的挙動を解析した。
Medical image encryption could aid in preserving patient privacy. In this article, we provide a chaotic system-based medical picture encryption method. The diffusion and permutation architecture was used. The permutation based on plain image and chaotic keys is offered to shuffle the plain picture's pixels to other rows and columns, weakening the strong connections between neighboring pixels. Diffusion is suggested to spread small changes of plain images to all of the pixels in cipher images to enhance the encryption effect. We analyze the chaotic behavior of the proposed system using various techniques and tests such as bifurcation plots, Lyapunov exponents, MSE, PSNR tests, and histogram analysis. | 翻訳日:2024-07-01 08:00:19 公開日:2024-05-02 |
# TextAge: 年齢分類のためのキュレートされた多元テキストデータセット
TextAge: A Curated and Diverse Text Dataset for Age Classification ( http://arxiv.org/abs/2406.16890v1 ) ライセンス: Link先を確認 | Shravan Cheekati, Mridul Gupta, Vibha Raghu, Pranav Raj, | (参考訳) 年齢に関連する言語パターンは、言語の違いを理解し、年齢に合ったコミュニケーション戦略を開発する上で重要な役割を担っている。
しかし、包括的で多様なデータセットの欠如は、この分野の研究の進展を妨げている。
この問題に対処するために、テキストデータセットTextAgeを提案する。テキストデータセットは、テキストをプロデューサーの年齢と年齢グループにマッピングし、未成年(13歳未満)ラベルを出力する。
TextAgeは幅広い年齢をカバーしており、ChiLDES、Meta、Poki Poems-by-kids、JUSThink、テレビ番組「Survivor」など、様々なソースからの音声と文字のデータを含んでいる。
データセットは、データ品質と一貫性を保証するために、広範囲なクリーニングと前処理を行う。
我々は,TextAgeの実用性を,下地検出と世代分類の2つの応用を通して実証する。
未成年者や未成年者の言語パターンを区別するために、Naive Bayes分類器、微調整RoBERTa、XLNetモデルを訓練する。
世代別分類では、言語パターンを異なる年齢グループ(キッド、十代、二十代など)に分類する。
モデルは「キッド」グループを分類することに長けているが、年齢層、特に「5代」、「6代」、「7代」に苦慮している。
TextAgeは、年齢関連の言語パターンを研究し、年齢に敏感な言語モデルを開発するための貴重なリソースを提供する。
データセットの多様な構成と、分類タスクの有望な成果は、コンテンツモデレーション、ターゲット広告、年齢に応じたコミュニケーションなど、さまざまな応用の可能性を強調している。
今後の研究は、データセットをさらに拡張し、高齢者グループのパフォーマンスを改善するための高度なモデリング技術を探究することを目的としている。
Age-related language patterns play a crucial role in understanding linguistic differences and developing age-appropriate communication strategies. However, the lack of comprehensive and diverse datasets has hindered the progress of research in this area. To address this issue, we present TextAge, a curated text dataset that maps sentences to the age and age group of the producer, as well as an underage (under 13) label. TextAge covers a wide range of ages and includes both spoken and written data from various sources such as CHILDES, Meta, Poki Poems-by-kids, JUSThink, and the TV show "Survivor." The dataset undergoes extensive cleaning and preprocessing to ensure data quality and consistency. We demonstrate the utility of TextAge through two applications: Underage Detection and Generational Classification. For Underage Detection, we train a Naive Bayes classifier, fine-tuned RoBERTa, and XLNet models to differentiate between language patterns of minors and young-adults and over. For Generational Classification, the models classify language patterns into different age groups (kids, teens, twenties, etc.). The models excel at classifying the "kids" group but struggle with older age groups, particularly "fifties," "sixties," and "seventies," likely due to limited data samples and less pronounced linguistic differences. TextAge offers a valuable resource for studying age-related language patterns and developing age-sensitive language models. The dataset's diverse composition and the promising results of the classification tasks highlight its potential for various applications, such as content moderation, targeted advertising, and age-appropriate communication. Future work aims to expand the dataset further and explore advanced modeling techniques to improve performance on older age groups. | 翻訳日:2024-07-01 06:51:29 公開日:2024-05-02 |
# ピアツーピア学習におけるシーケンス・ツー・シーケンスモデル--実践的応用
Sequence-to-sequence models in peer-to-peer learning: A practical application ( http://arxiv.org/abs/2406.02565v1 ) ライセンス: Link先を確認 | Robert Šajina, Ivo Ipšić, | (参考訳) 本稿では,ピアツーピア学習環境における音声認識(ASR)タスクのLSTM単位に基づくシーケンス・ツー・シーケンス(Seq2Seq)モデルの適用性について検討する。
2つの異なるピアツーピア学習手法を活用することで、エージェントの学習プロセスをシミュレートし、2つの異なるASRデータセットを使用して、ASRタスクのパフォーマンスを評価する。
集中型トレーニング設定では、Deep Speech 2モデルのスケールダウン版を利用することで、UserLibriデータセットでトレーニングされた場合のワードエラー率(WER)が84倍、LJ Speechデータセットでトレーニングされた場合の38倍に達した。
逆に、55のエージェントを含むピアツーピアの学習シナリオでは、ユーザリベリデータセットでは87~92~%、LJスピーチデータセットでは52~56~%であった。
その結果, 集中学習法に比べて単語誤り率(WER)が若干高いにもかかわらず, 分散環境でのSeq2Seqモデルの適用可能性を示した。
This paper explores the applicability of sequence-to-sequence (Seq2Seq) models based on LSTM units for Automatic Speech Recognition (ASR) task within peer-to-peer learning environments. Leveraging two distinct peer-to-peer learning methods, the study simulates the learning process of agents and evaluates their performance in ASR task using two different ASR datasets. In a centralized training setting, utilizing a scaled-down variant of the Deep Speech 2 model, a single model achieved a Word Error Rate (WER) of 84\% when trained on the UserLibri dataset, and 38\% when trained on the LJ Speech dataset. Conversely, in a peer-to-peer learning scenario involving 55 agents, the WER ranged from 87\% to 92\% for the UserLibri dataset, and from 52\% to 56\% for the LJ Speech dataset. The findings demonstrate the feasibility of employing Seq2Seq models in decentralized settings, albeit with slightly higher Word Error Rates (WER) compared to centralized training methods. | 翻訳日:2024-06-09 15:49:54 公開日:2024-05-02 |
# MEC支援RANスライシングネットワークにおけるインテリジェントハイブリッドリソース割り当て
Intelligent Hybrid Resource Allocation in MEC-assisted RAN Slicing Network ( http://arxiv.org/abs/2405.17436v1 ) ライセンス: Link先を確認 | Chong Zheng, Yongming Huang, Cheng Zhang, Tony Q. S. Quek, | (参考訳) 本稿では, 協調型MEC支援RANスライシングシステムにおける異種サービス要求に対するSSRの最大化を, 多ノードコンピューティングリソースの協調と割り当て, 送信リソースブロック(RB)の割り当て, システムの時間的変動を共同で検討することを目的とする。
この目的のために,システムを重み付けされた無方向性トポロジグラフに抽象化し,最適ハイブリッドRAポリシーをインテリジェントに学習するための再帰グラフ強化学習(RGRL)アルゴリズムを提案する。
これにより、グラフニューラルネットワーク(GCN)とDeep Deterministic Policy gradient(DDPG)を組み合わせて、等価なトポロジーグラフから空間的特徴を効果的に抽出する。
さらに、提案したRGRLアルゴリズムにおいて、後続の時点におけるポリシーネットワークの状態入力にポリシーネットワークの動作出力を組み込むことにより、時間変化および文脈の異なるネットワーク環境に対処し、新たな時間繰り返し強化学習フレームワークを設計する。
さらに,提案したRGRLアルゴリズムの普遍的優位性について議論するため,2つのユースケースシナリオについて検討する。
シミュレーションの結果,提案アルゴリズムは平均SSR, 性能安定性, ネットワークの複雑さの観点から, 優位性を示した。
In this paper, we aim to maximize the SSR for heterogeneous service demands in the cooperative MEC-assisted RAN slicing system by jointly considering the multi-node computing resources cooperation and allocation, the transmission resource blocks (RBs) allocation, and the time-varying dynamicity of the system. To this end, we abstract the system into a weighted undirected topology graph and, then propose a recurrent graph reinforcement learning (RGRL) algorithm to intelligently learn the optimal hybrid RA policy. Therein, the graph neural network (GCN) and the deep deterministic policy gradient (DDPG) is combined to effectively extract spatial features from the equivalent topology graph. Furthermore, a novel time recurrent reinforcement learning framework is designed in the proposed RGRL algorithm by incorporating the action output of the policy network at the previous moment into the state input of the policy network at the subsequent moment, so as to cope with the time-varying and contextual network environment. In addition, we explore two use case scenarios to discuss the universal superiority of the proposed RGRL algorithm. Simulation results demonstrate the superiority of the proposed algorithm in terms of the average SSR, the performance stability, and the network complexity. | 翻訳日:2024-06-02 14:30:04 公開日:2024-05-02 |
# 敵攻撃調査のための次世代ネットワークの物理層データ取得
Obtaining physical layer data of latest generation networks for investigating adversary attacks ( http://arxiv.org/abs/2405.19340v1 ) ライセンス: Link先を確認 | M. V. Ushakova, Yu. A. Ushakov, L. V. Legashev, | (参考訳) 機械学習の分野は急速に発展しており、科学やテクノロジーの様々な分野で使われている。
このようにして、機械学習は、5Gや6Gといった最新世代のデータネットワークの機能の最適化に使用できる。
これは、より低いレベルの関数にも適用される。
現代の超大質量MIMOや再構成可能なインテリジェントインターフェースなどの技術において、無線経路における機械学習の利用は、物理層からのデータの複雑な取得と処理である。
さらに、多くの機械学習モデルが誤った入力データに敏感であるため、インテリジェントな機械学習モデルの振る舞いを操作できる敵対策が大きな関心事となっている。
サービス情報処理から直接攻撃に関する情報を得るために,機械学習アプリケーションと連携して動作するシミュレーションモデルを提案する。
The field of machine learning is developing rapidly and is being used in various fields of science and technology. In this way, machine learning can be used to optimize the functions of latest generation data networks such as 5G and 6G. This also applies to functions at a lower level. A feature of the use of machine learning in the radio path for targeted radiation generation in modern ultra-massive MIMO, reconfigurable intelligent interfaces and other technologies is the complex acquisition and processing of data from the physical layer. Additionally, adversarial measures that manipulate the behaviour of intelligent machine learning models are becoming a major concern, as many machine learning models are sensitive to incorrect input data. To obtain data on attacks directly from processing service information, a simulation model is proposed that works in conjunction with machine learning applications. | 翻訳日:2024-06-02 14:20:20 公開日:2024-05-02 |
# 名前付きエンティティとパート・オブ・音声を用いた金融関係抽出のための言語モデルの構築
Enhancing Language Models for Financial Relation Extraction with Named Entities and Part-of-Speech ( http://arxiv.org/abs/2405.06665v1 ) ライセンス: Link先を確認 | Menglin Li, Kwan Hui Lim, | (参考訳) 金融関係抽出(FinRE)タスクは、財務諸表や文書からエンティティとそれらの関係を識別する。
このFinRE問題を解決するために,NERとPOSを併用することで,事前学習した言語モデルの性能を向上する,シンプルかつ効果的な手法を提案する。
金融関係データセットの実験は有望な結果を示し、既存のモデルにNERとPOSを組み込むことの利点を強調している。
データセットとコードはhttps://github.com/kwanhui/FinRelExtract.comから入手可能です。
The Financial Relation Extraction (FinRE) task involves identifying the entities and their relation, given a piece of financial statement/text. To solve this FinRE problem, we propose a simple but effective strategy that improves the performance of pre-trained language models by augmenting them with Named Entity Recognition (NER) and Part-Of-Speech (POS), as well as different approaches to combine these information. Experiments on a financial relations dataset show promising results and highlights the benefits of incorporating NER and POS in existing models. Our dataset and codes are available at https://github.com/kwanhui/FinRelExtract. | 翻訳日:2024-05-27 03:27:39 公開日:2024-05-02 |
# 短距離光学系における機械学習:包括的調査
Machine Learning in Short-Reach Optical Systems: A Comprehensive Survey ( http://arxiv.org/abs/2405.09557v1 ) ライセンス: Link先を確認 | Chen Shao, Syed Moktacim Billah, Elias Giacoumidis, Shi Li, Jialei Li, Prashasti Sahu, Andre Richter, Tobias Kaefer, Michael Faerber, | (参考訳) 近年,様々な直接検出・自己整合型短距離通信アプリケーションにおける機械学習アルゴリズムの利用について,広範な研究が進められている。
これらのアプリケーションには、帯域幅要求予測、信号品質監視、障害検出、トラフィック予測、デジタル信号処理(DSP)に基づく等化など、幅広いタスクが含まれている。
汎用的なアプローチとして、機械学習は、決定論的手法が不足する可能性のある光学系ネットワークにおける確率現象に対処する能力を示す。
しかし、DSP等化アルゴリズムの場合、その性能改善はしばしば限界であり、特にパッシブ光ネットワーク(PON)のようなコストに敏感な短距離通信シナリオでは、その複雑さは著しく高い。
時間的依存を捕捉し、不規則パターンや非線形パターンを効果的に処理し、変動時間間隔を調節する。
本稿では,短距離通信における機械学習技術の応用について概説する。
特に、機械学習信号処理に使用される時系列手法の新たな分類法を導入し、構造化された分類フレームワークを提供する。
我々の分類学は、現在の時系列法を、伝統的な方法、フーリエ畳み込みに基づく方法、トランスフォーマーに基づくモデル、時系列畳み込みネットワークの4つのグループに分類する。
最後に、この急速に発展する分野における今後の研究の方向性を強調し、ハードウェア実装に関連する複雑さを軽減するための具体的な解決策を概説する。
我々は,複雑性問題に対処して,短時間の光通信システムにおいて,より実用的で効率的な機械学習アプローチの展開の道を開くことを目的としている。
In recent years, extensive research has been conducted to explore the utilization of machine learning algorithms in various direct-detected and self-coherent short-reach communication applications. These applications encompass a wide range of tasks, including bandwidth request prediction, signal quality monitoring, fault detection, traffic prediction, and digital signal processing (DSP)-based equalization. As a versatile approach, machine learning demonstrates the ability to address stochastic phenomena in optical systems networks where deterministic methods may fall short. However, when it comes to DSP equalization algorithms, their performance improvements are often marginal, and their complexity is prohibitively high, especially in cost-sensitive short-reach communications scenarios such as passive optical networks (PONs). They excel in capturing temporal dependencies, handling irregular or nonlinear patterns effectively, and accommodating variable time intervals. Within this extensive survey, we outline the application of machine learning techniques in short-reach communications, specifically emphasizing their utilization in high-bandwidth demanding PONs. Notably, we introduce a novel taxonomy for time-series methods employed in machine learning signal processing, providing a structured classification framework. Our taxonomy categorizes current time series methods into four distinct groups: traditional methods, Fourier convolution-based methods, transformer-based models, and time-series convolutional networks. Finally, we highlight prospective research directions within this rapidly evolving field and outline specific solutions to mitigate the complexity associated with hardware implementations. We aim to pave the way for more practical and efficient deployment of machine learning approaches in short-reach optical communication systems by addressing complexity concerns. | 翻訳日:2024-05-27 03:17:55 公開日:2024-05-02 |
# マルチアンテナ受信器を用いたデバイス自由位置推定のためのEMボディモデル:最初の研究
An EM Body Model for Device-Free Localization with Multiple Antenna Receivers: A First Study ( http://arxiv.org/abs/2405.09558v1 ) ライセンス: Link先を確認 | Vittorio Rampa, Federica Fieramosca, Stefano Savazzi, Michele D'Amico, | (参考訳) デバイスフリーローカライゼーション (DFL) は、電子機器を装着させることなく人を検知し、見つけることのできるパッシブ無線技術を採用している。
統合センシングと通信のパラダイムを活用することで、DFLネットワークは無線周波数(RF)ノードを使用して、監視領域内を移動する被験者(つまり人体)が導入する過剰な減衰を測定し、その位置と動きを推定する。
ノードが収集したRF信号に基づいて体の位置を推定する物理・統計・電磁気モデルが文献で提案されている。
これらのボディモデルは通常、ローカライゼーションのためにシングルアンテナ処理を使用する。
しかし、WLAN(Wireless Local Area Network)アプリケーションに使用されるような低コストのマルチアンテナデバイスや、配列ベースボディモデルのタイムリーな開発により、DFLネットワークに配列ベースの処理技術を採用することができる。
本稿では、適切な配列対応EMボディモデルを利用することで、人物のセンシングと位置推定を改善するための配列ベースのフレームワークを提案する。
特に,シングルアンテナとマルチアンテナの両方のシナリオでモデル結果を比較するためのシミュレーションが提案され,議論されている。
提案されたフレームワークは、マルチアンテナデバイス(例えば、現在のIEEE 802.11ac/ax/beと今後のIEEE 802.11beネットワークで採用されているもの)と、DFLシナリオのための新しいビームフォーミングアルゴリズムの幅広い使用方法を舗装している。
Device-Free Localization (DFL) employs passive radio techniques capable to detect and locate people without imposing them to wear any electronic device. By exploiting the Integrated Sensing and Communication paradigm, DFL networks employ Radio Frequency (RF) nodes to measure the excess attenuation introduced by the subjects (i.e., human bodies) moving inside the monitored area, and to estimate their positions and movements. Physical, statistical, and ElectroMagnetic (EM) models have been proposed in the literature to estimate the body positions according to the RF signals collected by the nodes. These body models usually employ a single-antenna processing for localization purposes. However, the availability of low-cost multi-antenna devices such as those used for WLAN (Wireless Local Area Network) applications and the timely development of array-based body models, allow us to employ array-based processing techniques in DFL networks. By exploiting a suitable array-capable EM body model, this paper proposes an array-based framework to improve people sensing and localization. In particular, some simulations are proposed and discussed to compare the model results in both single- and multi-antenna scenarios. The proposed framework paves the way for a wider use of multi-antenna devices (e.g., those employed in current IEEE 802.11ac/ax/be and forthcoming IEEE 802.11be networks) and novel beamforming algorithms for DFL scenarios. | 翻訳日:2024-05-27 03:17:55 公開日:2024-05-02 |
# KID-PPG:スマートウォッチから心拍数を抽出するディープラーニング
KID-PPG: Knowledge Informed Deep Learning for Extracting Heart Rate from a Smartwatch ( http://arxiv.org/abs/2405.09559v1 ) ライセンス: Link先を確認 | Christodoulos Kechris, Jonathan Dan, Jose Miranda, David Atienza, | (参考訳) 光胸腺造影(PPG)信号からの心拍数の正確な抽出は、運動アーチファクトと信号劣化のため、依然として困難である。
データ駆動推論問題として訓練されたディープラーニング手法は、有望な解決策を提供するが、医療や信号処理コミュニティからの既存の知識を過小評価することが多い。
本稿では, 深層学習モデルの3つの欠点として, モーションアーティファクト除去, 劣化評価, PPG信号の生理学的解析について述べる。
KID-PPGは,適応線形フィルタリング,深層確率推論,データ拡張を通じて専門家の知識を統合する知識インフォームド・ディープラーニングモデルである。
PPGDaliaデータセット上でKID-PPGを評価し,従来の再現可能な手法を上回り,毎分平均2.85回の平均絶対誤差を達成した。
以上の結果から,先行知識を深層学習モデルに組み込むことにより,心拍追跡の大幅な向上が示された。
このアプローチは、ディープラーニングモデルに既存のエキスパート知識を取り入れることで、様々なバイオメディカル応用の強化を約束する。
Accurate extraction of heart rate from photoplethysmography (PPG) signals remains challenging due to motion artifacts and signal degradation. Although deep learning methods trained as a data-driven inference problem offer promising solutions, they often underutilize existing knowledge from the medical and signal processing community. In this paper, we address three shortcomings of deep learning models: motion artifact removal, degradation assessment, and physiologically plausible analysis of the PPG signal. We propose KID-PPG, a knowledge-informed deep learning model that integrates expert knowledge through adaptive linear filtering, deep probabilistic inference, and data augmentation. We evaluate KID-PPG on the PPGDalia dataset, achieving an average mean absolute error of 2.85 beats per minute, surpassing existing reproducible methods. Our results demonstrate a significant performance improvement in heart rate tracking through the incorporation of prior knowledge into deep learning models. This approach shows promise in enhancing various biomedical applications by incorporating existing expert knowledge in deep learning models. | 翻訳日:2024-05-27 03:17:55 公開日:2024-05-02 |
# SoMeR: ソーシャルメディアのためのマルチビューユーザ表現学習
SoMeR: Multi-View User Representation Learning for Social Media ( http://arxiv.org/abs/2405.05275v1 ) ライセンス: Link先を確認 | Siyi Guo, Keith Burghardt, Valeria Pantè, Kristina Lerman, | (参考訳) ユーザ表現学習は、低次元ベクトル表現におけるユーザの好み、興味、振る舞いを捉えることを目的としている。
これらの表現はレコメンデーションシステムや広告に広く応用されているが、既存の手法はテキストコンテンツ、アクティビティパターン、プラットフォームメタデータといった特定の機能に依存しており、様々なモダリティをまたいだユーザー行動のモデル化に失敗している。
この制限に対処するため,ソーシャルメディアのユーザ表現学習フレームワークであるSoMeRを提案する。
SoMeRは、ユーザポストストリームをタイムスタンプ付きテキスト機能のシーケンスとしてエンコードし、トランスフォーマーを使用してプロファイルデータと共にそれを埋め込み、リンク予測とコントラスト学習の目標を併用して、ユーザの類似性をキャプチャする。
我々は2つのアプリケーションを通してSoMeRの汎用性を実証する。
1)類似コンテンツを同時に投稿するユーザを検出して、協調的影響操作に関わる不正アカウントを同定し、
2) 主要イベント後のオンライン議論における偏光の増大を, 異なる信念を持つユーザが, 埋め込み空間内でより遠くへ移動する様子を定量化することによって測定した。
SoMeRのユーザを全体モデリングする能力は、偽情報、社会的緊張、オンライン行動理解に関する重要な問題に対する新しいソリューションを可能にする。
User representation learning aims to capture user preferences, interests, and behaviors in low-dimensional vector representations. These representations have widespread applications in recommendation systems and advertising; however, existing methods typically rely on specific features like text content, activity patterns, or platform metadata, failing to holistically model user behavior across different modalities. To address this limitation, we propose SoMeR, a Social Media user Representation learning framework that incorporates temporal activities, text content, profile information, and network interactions to learn comprehensive user portraits. SoMeR encodes user post streams as sequences of timestamped textual features, uses transformers to embed this along with profile data, and jointly trains with link prediction and contrastive learning objectives to capture user similarity. We demonstrate SoMeR's versatility through two applications: 1) Identifying inauthentic accounts involved in coordinated influence operations by detecting users posting similar content simultaneously, and 2) Measuring increased polarization in online discussions after major events by quantifying how users with different beliefs moved farther apart in the embedding space. SoMeR's ability to holistically model users enables new solutions to important problems around disinformation, societal tensions, and online behavior understanding. | 翻訳日:2024-05-12 15:40:48 公開日:2024-05-02 |
# QxEAI - 量子様進化アルゴリズムによる確率予測の自動化
QxEAI - Automated probabilistic forecasting with Quantum-like evolutionary algorithm ( http://arxiv.org/abs/2405.03701v1 ) ライセンス: Link先を確認 | Kevin Xin, Lizhi Xin, | (参考訳) 将来の出来事を見積もるためには、予測はビジネスと意思決定に不可欠である。
本稿では,量子ライクな論理決定木と古典値木を少数の時系列でトレーニングし,量子ライクな進化アルゴリズムを用いた確率予測手法であるQxEAIを提案する。
ダウ・ジョーンズ指数の異なるサイクル(毎年、毎月、毎週、毎日)を使うことで、我々の方法論がいかに正確な予測を生み出し、手作業はほとんど必要としないかを実証する。
Forecasting, to estimate future events, is crucial for business and decision-making. This paper proposes QxEAI, a methodology that produces a probabilistic forecast that utilizes a quantum-like evolutionary algorithm based on training a quantum-like logic decision tree and a classical value tree on a small number of related time series. By using different cycles of the Dow Jones Index (yearly, monthly, weekly, daily), we demonstrate how our methodology produces accurate forecasts while requiring little to none manual work. | 翻訳日:2024-05-08 18:34:09 公開日:2024-05-02 |
# 空飛ぶドローン画像の中の雑草をリアルに分類する「Leafy Spurge Dataset」
Leafy Spurge Dataset: Real-world Weed Classification Within Aerial Drone Imagery ( http://arxiv.org/abs/2405.03702v1 ) ライセンス: Link先を確認 | Kyle Doherty, Max Gurinas, Erik Samsoe, Charles Casper, Beau Larkin, Philip Ramsey, Brandon Trabucco, Ruslan Salakhutdinov, | (参考訳) 外来植物種は、農業と森林の双方の生態に有害である。
ユープホルビア・エスラ(Euphorbia esula)は、北アメリカの大部分を東ヨーロッパから広げた植物である。
現代のコンピュータビジョンシステムと組み合わせると、無人航空機、またはドローンは、葉のような問題植物の拡大を追跡する手段を提供し、これらの雑草を制御する機会を向上させる。
米国モンタナ州西部の草原で、葉質のふわふわしたスプージの存在と不在のデータセットを収集し、商用ドローンでこれらの地域を調査した。
我々はこれらのデータに基づいて画像分類器を訓練し、最高の性能モデルである事前訓練されたDINOv2視覚変換器は、葉状突起を0.84精度(テストセット)で同定した。
この結果から, 葉柄のスプージの分類は抽出可能であるが, 解けないことが示唆された。
私たちは、機械学習コミュニティが探索するために、ラベル付きでラベル付けされていない無人ドローン画像のこのユニークなデータセットをリリースします。
葉のふわふわの分類性能の向上は、生態学、保存学、リモートセンシングの分野にも恩恵をもたらすだろう。
コードとデータは、私たちのWebサイト(leapy-spurge-dataset.github.io)で公開されています。
Invasive plant species are detrimental to the ecology of both agricultural and wildland areas. Euphorbia esula, or leafy spurge, is one such plant that has spread through much of North America from Eastern Europe. When paired with contemporary computer vision systems, unmanned aerial vehicles, or drones, offer the means to track expansion of problem plants, such as leafy spurge, and improve chances of controlling these weeds. We gathered a dataset of leafy spurge presence and absence in grasslands of western Montana, USA, then surveyed these areas with a commercial drone. We trained image classifiers on these data, and our best performing model, a pre-trained DINOv2 vision transformer, identified leafy spurge with 0.84 accuracy (test set). This result indicates that classification of leafy spurge is tractable, but not solved. We release this unique dataset of labelled and unlabelled, aerial drone imagery for the machine learning community to explore. Improving classification performance of leafy spurge would benefit the fields of ecology, conservation, and remote sensing alike. Code and data are available at our website: leafy-spurge-dataset.github.io. | 翻訳日:2024-05-08 18:34:09 公開日:2024-05-02 |
# CityLearn v2: グリッド・インタラクティブ・コミュニティにおけるエネルギーフレキシブル、レジリエント、占有中心、およびカーボン・アウェア・マネジメント
CityLearn v2: Energy-flexible, resilient, occupant-centric, and carbon-aware management of grid-interactive communities ( http://arxiv.org/abs/2405.03848v1 ) ライセンス: Link先を確認 | Kingsley Nweye, Kathryn Kaspar, Giacomo Buscemi, Tiago Fonseca, Giuseppe Pinto, Dipanjan Ghose, Satvik Duddukuru, Pavani Pratapa, Han Li, Javad Mohammadi, Luis Lino Ferreira, Tianzhen Hong, Mohamed Ouf, Alfonso Capozzoli, Zoltan Nagy, | (参考訳) より多くの分散エネルギー資源が需要側インフラの一部となるにつれ、地域規模で提供されるエネルギーの柔軟性を定量化することが重要であり、特に地理的、気候的、占有する行動の違いがそれらの効果に与える影響を理解し、また、実際の導入を加速するための最良の制御戦略を特定することが重要である。
CityLearnは、ルールベース、モデル予測、強化学習制御を含む、単純で高度な分散エネルギー資源制御アルゴリズムをベンチマークするための環境を提供する。
CityLearn v2はCityLearn v1を拡張し、米国向けのエンドユースロードプロファイルを活用するシミュレーション環境を提供する。
本研究は、v2環境設計を詳述し、蓄電池システムの充電/放電サイクル、車両間制御、ヒートポンプ電力変調時の熱快適性を管理するための強化学習を利用した応用例を提供する。
As more distributed energy resources become part of the demand-side infrastructure, it is important to quantify the energy flexibility they provide on a community scale, particularly to understand the impact of geographic, climatic, and occupant behavioral differences on their effectiveness, as well as identify the best control strategies to accelerate their real-world adoption. CityLearn provides an environment for benchmarking simple and advanced distributed energy resource control algorithms including rule-based, model-predictive, and reinforcement learning control. CityLearn v2 presented here extends CityLearn v1 by providing a simulation environment that leverages the End-Use Load Profiles for the U.S. Building Stock dataset to create virtual grid-interactive communities for resilient, multi-agent distributed energy resources and objective control with dynamic occupant feedback. This work details the v2 environment design and provides application examples that utilize reinforcement learning to manage battery energy storage system charging/discharging cycles, vehicle-to-grid control, and thermal comfort during heat pump power modulation. | 翻訳日:2024-05-08 16:07:44 公開日:2024-05-02 |
# 差分プライバシストリーミングによるL_2$平均推定における通信プライバシトレードオフの改善
Improved Communication-Privacy Trade-offs in $L_2$ Mean Estimation under Streaming Differential Privacy ( http://arxiv.org/abs/2405.02341v1 ) ライセンス: Link先を確認 | Wei-Ning Chen, Berivan Isik, Peter Kairouz, Albert No, Sewoong Oh, Zheng Xu, | (参考訳) まず、両制約を同時に扱う既存の平均推定スキームは、通常、$L_\infty$幾何に対して最適化され、ランダム回転またはKashinの表現に依存して、平均二乗誤差(MSEs)に適応する。
本研究では,分散化に固有のランダム性をDPノイズに組み込んだ,分散化ガウス機構の新たなプライバシ会計手法を導入することにより,これらの課題に対処する。
従来の手法とは異なり、我々の会計アルゴリズムは直接$L_2$幾何で動作し、非圧縮ガウスの機構に迅速に収束するMSEが得られる。
さらに,このスペーシフィケーションスキームを,ストリーミングDP下での行列分解フレームワークに拡張し,DP-FTRL型オプティマイザに適した正確な会計情報を提供する。
実験により, DP-SGD の圧縮性能は FL タスクの少なくとも 100 倍向上したことを示す。
We study $L_2$ mean estimation under central differential privacy and communication constraints, and address two key challenges: firstly, existing mean estimation schemes that simultaneously handle both constraints are usually optimized for $L_\infty$ geometry and rely on random rotation or Kashin's representation to adapt to $L_2$ geometry, resulting in suboptimal leading constants in mean square errors (MSEs); secondly, schemes achieving order-optimal communication-privacy trade-offs do not extend seamlessly to streaming differential privacy (DP) settings (e.g., tree aggregation or matrix factorization), rendering them incompatible with DP-FTRL type optimizers. In this work, we tackle these issues by introducing a novel privacy accounting method for the sparsified Gaussian mechanism that incorporates the randomness inherent in sparsification into the DP noise. Unlike previous approaches, our accounting algorithm directly operates in $L_2$ geometry, yielding MSEs that fast converge to those of the uncompressed Gaussian mechanism. Additionally, we extend the sparsification scheme to the matrix factorization framework under streaming DP and provide a precise accountant tailored for DP-FTRL type optimizers. Empirically, our method demonstrates at least a 100x improvement of compression for DP-SGD across various FL tasks. | 翻訳日:2024-05-07 20:29:40 公開日:2024-05-02 |
# 有限格子のバーホフ完備化
The Birkhoff completion of finite lattices ( http://arxiv.org/abs/2405.02342v1 ) ライセンス: Link先を確認 | Mohammad Abdulla, Johannes Hirth, Gerd Stumme, | (参考訳) 我々は、与えられた有限格子を半格子として埋め込むことができる最小の分配格子としてバーホフ完備化を導入する。
我々は、その含意論、特にR. Willeの単純含意論との関係について論じる。
例えば、Birkhoffの完成度を、順序データ科学のツールとして使う方法を示す。
We introduce the Birkhoff completion as the smallest distributive lattice in which a given finite lattice can be embedded as semi-lattice. We discuss its relationship to implicational theories, in particular to R. Wille's simply-implicational theories. By an example, we show how the Birkhoff completion can be used as a tool for ordinal data science. | 翻訳日:2024-05-07 20:29:40 公開日:2024-05-02 |
# 属性手法の高精度評価のためのバックドアベース説明可能なAIベンチマーク
Backdoor-based Explainable AI Benchmark for High Fidelity Evaluation of Attribution Methods ( http://arxiv.org/abs/2405.02344v1 ) ライセンス: Link先を確認 | Peiyu Yang, Naveed Akhtar, Jiantong Jiang, Ajmal Mian, | (参考訳) 属性法は入力特徴の重要度を計算し、深層モデルの出力予測を説明する。
しかし, モデル予測のためのベンチマーク忠実度が欠如していることから, 帰属法を正確に評価することは困難である。
さらに、帰属推定における他の要因として、後処理手法のセットアップ選択やモデル予測の説明などがあり、評価の信頼性をさらに損なう。
本研究はまず,属性手法の信頼性ベンチマークが満たすであろう信頼度基準の集合を同定し,属性評価の体系的評価を容易にする。
次に、所望の忠実度基準に準拠したBackdoorベースのeXplainable AIベンチマーク(BackX)を紹介します。
提案手法は,提案手法の既存ベンチマークに対する優位性を理論的に確立し,信頼性の高い属性評価を行う。
広範囲な分析により、異なる基礎となる方法論にまたがる属性メソッドの一貫性と公正なベンチマークのセットアップも特定できる。
このセットアップは最終的に、BackXベンチマークを使用して既存のメソッドを包括的に比較するために使用されます。
最後に,我々の分析は,帰属的手法の助けを借りてバックドア攻撃を防御するためのガイダンスも提供する。
Attribution methods compute importance scores for input features to explain the output predictions of deep models. However, accurate assessment of attribution methods is challenged by the lack of benchmark fidelity for attributing model predictions. Moreover, other confounding factors in attribution estimation, including the setup choices of post-processing techniques and explained model predictions, further compromise the reliability of the evaluation. In this work, we first identify a set of fidelity criteria that reliable benchmarks for attribution methods are expected to fulfill, thereby facilitating a systematic assessment of attribution benchmarks. Next, we introduce a Backdoor-based eXplainable AI benchmark (BackX) that adheres to the desired fidelity criteria. We theoretically establish the superiority of our approach over the existing benchmarks for well-founded attribution evaluation. With extensive analysis, we also identify a setup for a consistent and fair benchmarking of attribution methods across different underlying methodologies. This setup is ultimately employed for a comprehensive comparison of existing methods using our BackX benchmark. Finally, our analysis also provides guidance for defending against backdoor attacks with the help of attribution methods. | 翻訳日:2024-05-07 20:29:40 公開日:2024-05-02 |
# 多様な設計ソリューションを生成するための大規模言語モデルの能力を探る
Exploring the Capabilities of Large Language Models for Generating Diverse Design Solutions ( http://arxiv.org/abs/2405.02345v1 ) ライセンス: Link先を確認 | Kevin Ma, Daniele Grandi, Christopher McComb, Kosa Goucher-Lambert, | (参考訳) 多数の多様な設計ソリューションへのアクセスは、設計プロセスの初期段階でデザイナをサポートすることができる。
本稿では,大規模言語モデル(LLM)による多種多様な設計ソリューションの創出の有効性について検討し,パラメータチューニングや各種プロンプトエンジニアリング技術がLLM生成設計ソリューションの多様性に与える影響について検討する。
具体的には,5つの異なる設計トピック,8つのパラメータの組み合わせ,および8つの異なる種類のプロンプトエンジニアリングテクニックを比較し,各パラメータとプロンプトエンジニアリング手法の組み合わせを4つの多様性メトリクスで比較する。
LLMの生成したソリューションは、同じ多様性メトリクスセットを使用して、それぞれのデザイントピックにおいて100人の人為的なソリューションと比較される。
結果は、人為的ソリューションは、すべての設計トピックにおいて、常により多様性のスコアを持つことを示している。
ポストホックロジスティック回帰分析を用いて、これらの違いが主に意味レベルで存在するかどうかを考察する。
結果は、人間とLLM生成ソリューションの間には、いくつかの設計トピックが分断されている一方で、明確な分断がないことを示している。
これらの結果は,多種多様な設計ソリューションの生成におけるLLMの能力の理解に寄与し,多種多様な設計課題(例えばインスピレーション的刺激)のための多種多様な設計ソリューションの生成にLLMを活用する将来の研究への洞察を与える。
Access to large amounts of diverse design solutions can support designers during the early stage of the design process. In this paper, we explore the efficacy of large language models (LLM) in producing diverse design solutions, investigating the level of impact that parameter tuning and various prompt engineering techniques can have on the diversity of LLM-generated design solutions. Specifically, LLMs are used to generate a total of 4,000 design solutions across five distinct design topics, eight combinations of parameters, and eight different types of prompt engineering techniques, comparing each combination of parameter and prompt engineering method across four different diversity metrics. LLM-generated solutions are compared against 100 human-crowdsourced solutions in each design topic using the same set of diversity metrics. Results indicate that human-generated solutions consistently have greater diversity scores across all design topics. Using a post hoc logistic regression analysis we investigate whether these differences primarily exist at the semantic level. Results show that there is a divide in some design topics between humans and LLM-generated solutions, while others have no clear divide. Taken together, these results contribute to the understanding of LLMs' capabilities in generating a large volume of diverse design solutions and offer insights for future research that leverages LLMs to generate diverse design solutions for a broad range of design tasks (e.g., inspirational stimuli). | 翻訳日:2024-05-07 20:29:40 公開日:2024-05-02 |
# 悪意行動の時間的評価-フィールドデータ監視への応用
Temporal assessment of malicious behaviors: application to turnout field data monitoring ( http://arxiv.org/abs/2405.02346v1 ) ライセンス: Link先を確認 | Sara Abdellaoui, Emil Dumitrescu, Cédric Escudero, Eric Zamaï, | (参考訳) 列車の停留所から収集された監視データは、サイバー攻撃に対して脆弱である:攻撃者は障害を隠蔽するか、不必要なメンテナンスアクションを引き起こす可能性がある。
この問題に対処するために, ターンアウト行動の時間的変化から得られた予測に基づいて, サイバー攻撃調査手法を提案する。
これらの予測は、任意の不一致を検出するために取得したフィールドデータと比較される。
この方法は実生活データの収集に例証する。
Monitored data collected from railway turnouts are vulnerable to cyberattacks: attackers may either conceal failures or trigger unnecessary maintenance actions. To address this issue, a cyberattack investigation method is proposed based on predictions made from the temporal evolution of the turnout behavior. These predictions are then compared to the field acquired data to detect any discrepancy. This method is illustrated on a collection of real-life data. | 翻訳日:2024-05-07 20:29:40 公開日:2024-05-02 |
# COPAL: 大規模言語生成モデルにおける連続的なプルーニング
COPAL: Continual Pruning in Large Language Generative Models ( http://arxiv.org/abs/2405.02347v1 ) ライセンス: Link先を確認 | Srikanth Malla, Joon Hee Choi, Chiho Choi, | (参考訳) 自然言語処理において、訓練済みの大規模言語モデルを異なる領域に適応させるには、高い計算要求と連続的な適応ができないモデルの2つの重要な考慮が必要である。
両課題を同時に解決するために,大規模言語生成モデルを連続モデル適応条件下で解析するために開発されたCOPAL(Continual Pruning in Adaptive Language settings)を提案する。
資源量の多い微調整や再訓練を回避しながら,提案した感度解析によって刈り取りプロセスが導かれる。
この感度は、新しいデータセットによって導入された摂動に耐えるモデルの能力を効果的に測定し、遭遇したすべてのデータセットに関連するモデルの重みを見つける。
その結果、COPALはリソース効率を高めつつ、新しいドメインへのシームレスなモデル適応を可能にする。
LLMの様々なサイズに関する実証実験により,COPALはベースラインモデルより優れ,効率と適応性において有効であることが示された。
Adapting pre-trained large language models to different domains in natural language processing requires two key considerations: high computational demands and model's inability to continual adaptation. To simultaneously address both issues, this paper presents COPAL (COntinual Pruning in Adaptive Language settings), an algorithm developed for pruning large language generative models under a continual model adaptation setting. While avoiding resource-heavy finetuning or retraining, our pruning process is guided by the proposed sensitivity analysis. The sensitivity effectively measures model's ability to withstand perturbations introduced by the new dataset and finds model's weights that are relevant for all encountered datasets. As a result, COPAL allows seamless model adaptation to new domains while enhancing the resource efficiency. Our empirical evaluation on a various size of LLMs show that COPAL outperforms baseline models, demonstrating its efficacy in efficiency and adaptability. | 翻訳日:2024-05-07 20:29:40 公開日:2024-05-02 |
# MBTI型マルチラベル分類
Explainable Muti-Label Classification of MBTI Types ( http://arxiv.org/abs/2405.02349v1 ) ライセンス: Link先を確認 | Siana Kong, Marina Sokolova, | (参考訳) 本研究では、Reddit投稿とKaggleデータセットからMyers-Briggs Type Indicator(MBTI)タイプを正確に分類するための最も効果的な機械学習モデルを特定することを目的とする。
Binary Relevance 法によるマルチラベル分類を適用した。
説明可能な人工知能(XAI)アプローチを使用して、プロセスと結果の透明性と理解性を強調します。
これを実現するために,ガラス箱学習モデル,すなわち,シンプルさ,透明性,解釈可能性のために設計されたモデルを用いて実験を行った。
ガラス箱モデルに対して, k-Nearest Neighbour, Multinomial Naive Bayes, Logistic Regressionを選択した。
我々は, オブザーバ(S)特性を持つクラスが除外された場合, マルチノミアル・ネイブベイズとk-Nearest Neighbourがより優れていることを示す。
In this study, we aim to identify the most effective machine learning model for accurately classifying Myers-Briggs Type Indicator (MBTI) types from Reddit posts and a Kaggle data set. We apply multi-label classification using the Binary Relevance method. We use Explainable Artificial Intelligence (XAI) approach to highlight the transparency and understandability of the process and result. To achieve this, we experiment with glass-box learning models, i.e. models designed for simplicity, transparency, and interpretability. We selected k-Nearest Neighbour, Multinomial Naive Bayes, and Logistic Regression for the glass-box models. We show that Multinomial Naive Bayes and k-Nearest Neighbour perform better if classes with Observer (S) traits are excluded, whereas Logistic Regression obtains its best results when all classes have > 550 entries. | 翻訳日:2024-05-07 20:29:40 公開日:2024-05-02 |
# モデルが構成的になる理由 - 理論的考察-
What makes Models Compositional? A Theoretical View: With Supplement ( http://arxiv.org/abs/2405.02350v1 ) ライセンス: Link先を確認 | Parikshit Ram, Tim Klinger, Alexander G. Gray, | (参考訳) 構成性は言語の重要な構成要素と考えられており、既存のシーケンス処理モデルの合成一般化を実証的に研究するための様々な構成ベンチマークが開発されている。
これらのベンチマークは、しばしば既存のモデルの失敗をハイライトするが、なぜこの方法で失敗するのかは明らかではない。
本稿では,これらの失敗におけるモデルの構成構造の役割と,その表現性とサンプルの複雑さとの関連性について理論的に解明する。
本稿では,構成関数の一般神経-記号的定義とその構成複雑性について述べる。
次に、既存の汎用および特殊なシーケンス処理モデル(リカレント、畳み込み、アテンションベースなど)がこの定義にどのように適合するかを示し、それらの構成複雑性を分析する。
最後に、提案した定義に明示的に依存する構成モデルの表現性と体系的な一般化に関する理論的保証と、経験的性能を低下させる要因の強調を提供する。
Compositionality is thought to be a key component of language, and various compositional benchmarks have been developed to empirically probe the compositional generalization of existing sequence processing models. These benchmarks often highlight failures of existing models, but it is not clear why these models fail in this way. In this paper, we seek to theoretically understand the role the compositional structure of the models plays in these failures and how this structure relates to their expressivity and sample complexity. We propose a general neuro-symbolic definition of compositional functions and their compositional complexity. We then show how various existing general and special purpose sequence processing models (such as recurrent, convolution and attention-based ones) fit this definition and use it to analyze their compositional complexity. Finally, we provide theoretical guarantees for the expressivity and systematic generalization of compositional models that explicitly depend on our proposed definition and highlighting factors which drive poor empirical performance. | 翻訳日:2024-05-07 20:29:40 公開日:2024-05-02 |
# 特殊化ニューラル加速器を用いた一般ニューラルサロゲート解法に向けて
Towards General Neural Surrogate Solvers with Specialized Neural Accelerators ( http://arxiv.org/abs/2405.02351v1 ) ライセンス: Link先を確認 | Chenkai Mao, Robert Lupoiu, Tianxiang Dai, Mingkun Chen, Jonathan A. Fan, | (参考訳) サーロゲートニューラルネットワークに基づく偏微分方程式(PDE)は、PDEを加速的に解くことができるが、それらは、固定された領域サイズ、幾何学的レイアウト、境界条件を含むシステムに限られる。
本稿では、任意の境界条件と幾何パラメータを含むサブドメイン問題を、特別なニューラル演算子のアンサンブルを用いて正確に解決する、DDMに基づくPDE解法であるSNAP-DDM(Federized Neural Accelerator-Powered Domain Decomposition Methods)を提案する。
SNAP-DDMを2次元電磁および流体流問題に調整し、ネットワークアーキテクチャと損失関数工学の革新によって、サブドメインの特殊サロゲートをほぼ一元的精度で生成できることを示す。
我々は、これらの解法を標準DDMアルゴリズムを用いて、幅広い領域サイズを特徴とする自由形電磁・流体問題を正確に解く。
Surrogate neural network-based partial differential equation (PDE) solvers have the potential to solve PDEs in an accelerated manner, but they are largely limited to systems featuring fixed domain sizes, geometric layouts, and boundary conditions. We propose Specialized Neural Accelerator-Powered Domain Decomposition Methods (SNAP-DDM), a DDM-based approach to PDE solving in which subdomain problems containing arbitrary boundary conditions and geometric parameters are accurately solved using an ensemble of specialized neural operators. We tailor SNAP-DDM to 2D electromagnetics and fluidic flow problems and show how innovations in network architecture and loss function engineering can produce specialized surrogate subdomain solvers with near unity accuracy. We utilize these solvers with standard DDM algorithms to accurately solve freeform electromagnetics and fluids problems featuring a wide range of domain sizes. | 翻訳日:2024-05-07 20:29:40 公開日:2024-05-02 |
# 初期変圧器:初期ロテリティケットによる変圧器モデルの効率的な訓練に関する研究
Early Transformers: A study on Efficient Training of Transformer Models through Early-Bird Lottery Tickets ( http://arxiv.org/abs/2405.02353v1 ) ライセンス: Link先を確認 | Shravan Cheekati, | (参考訳) Transformerモデルのトレーニングは自然言語処理とコンピュータビジョンに革命をもたらしたが、依然としてリソース集約的で時間を要するプロセスである。
本稿では,トランスフォーマーモデルのトレーニング効率を最適化するための早期バードチケット仮説の適用性について検討する。
本稿では, ViT, Swin-T, GPT-2, RoBERTaなどのトランスフォーマーアーキテクチャにおいて, 初期バードチケットを識別するために, 反復的プルーニング, マスク付き距離計算, 選択的再訓練を組み合わせた手法を提案する。
実験結果から,早期バードチケットはトレーニングや微調整の初期段階で一貫して発見できることが示され,性能を損なうことなく資源最適化が実現された。
アーリーバードチケットから得られたプルーンドモデルは、メモリ使用量を大幅に削減しつつ、未使用のものと同等またはそれ以上の精度を達成する。
さらに,我々の比較分析では,トランスフォーマーモデルとタスク間の早期バードチケット現象の一般化性を強調した。
この研究は、Transformerモデルの効率的なトレーニング戦略の開発に寄与し、よりアクセスしやすく、リソースに優しいものとなる。
早期バードチケットを活用することで,自然言語処理やコンピュータビジョンアプリケーションの進歩を加速し,トランスフォーマーモデルのトレーニングに伴う計算負担を軽減することができる。
The training of Transformer models has revolutionized natural language processing and computer vision, but it remains a resource-intensive and time-consuming process. This paper investigates the applicability of the early-bird ticket hypothesis to optimize the training efficiency of Transformer models. We propose a methodology that combines iterative pruning, masked distance calculation, and selective retraining to identify early-bird tickets in various Transformer architectures, including ViT, Swin-T, GPT-2, and RoBERTa. Our experimental results demonstrate that early-bird tickets can be consistently found within the first few epochs of training or fine-tuning, enabling significant resource optimization without compromising performance. The pruned models obtained from early-bird tickets achieve comparable or even superior accuracy to their unpruned counterparts while substantially reducing memory usage. Furthermore, our comparative analysis highlights the generalizability of the early-bird ticket phenomenon across different Transformer models and tasks. This research contributes to the development of efficient training strategies for Transformer models, making them more accessible and resource-friendly. By leveraging early-bird tickets, practitioners can accelerate the progress of natural language processing and computer vision applications while reducing the computational burden associated with training Transformer models. | 翻訳日:2024-05-07 20:29:40 公開日:2024-05-02 |
# Deformable ProtoPNet:Deformable Prototypesを用いた解釈可能な画像分類器
Deformable ProtoPNet: An Interpretable Image Classifier Using Deformable Prototypes ( http://arxiv.org/abs/2111.15000v3 ) ライセンス: Link先を確認 | Jon Donnelly, Alina Jade Barnett, Chaofan Chen, | (参考訳) 本稿では,Deformable ProtoPNet(Deformable ProtoPNet)という,ディープラーニングのパワーとケースベース推論の解釈可能性を統合した解釈可能な画像分類器を提案する。
このモデルは、訓練中に学習したプロトタイプと比較することで入力画像の分類を行い、「これに似ている」という形で説明を与える。
しかし、従来の手法では空間的に剛性のあるプロトタイプが用いられていたが、空間的に柔軟なプロトタイプを提案することでこの欠点に対処する。
各プロトタイプは、入力画像に応じて相対的な空間位置を適応的に変化させるいくつかの原型部品で構成されている。
その結果、Deformable ProtoPNetは、ポーズのバリエーションとコンテキストを明示的にキャプチャし、モデル精度と提供された説明の豊かさの両方を改善することができる。
プロトタイプを用いた他のケースベース解釈モデルと比較して,本手法は最先端の精度を実現し,よりコンテキストの高い説明を与える。
コードはhttps://github.com/jdonnelly36/Deformable-ProtoPNetで公開されている。
We present a deformable prototypical part network (Deformable ProtoPNet), an interpretable image classifier that integrates the power of deep learning and the interpretability of case-based reasoning. This model classifies input images by comparing them with prototypes learned during training, yielding explanations in the form of "this looks like that." However, while previous methods use spatially rigid prototypes, we address this shortcoming by proposing spatially flexible prototypes. Each prototype is made up of several prototypical parts that adaptively change their relative spatial positions depending on the input image. Consequently, a Deformable ProtoPNet can explicitly capture pose variations and context, improving both model accuracy and the richness of explanations provided. Compared to other case-based interpretable models using prototypes, our approach achieves state-of-the-art accuracy and gives an explanation with greater context. The code is available at https://github.com/jdonnelly36/Deformable-ProtoPNet. | 翻訳日:2024-05-06 18:35:59 公開日:2024-05-02 |
# グラフ機械学習の自動化 - アプローチ、ライブラリ、ベンチマーク、方向性
Automated Graph Machine Learning: Approaches, Libraries, Benchmarks and Directions ( http://arxiv.org/abs/2201.01288v2 ) ライセンス: Link先を確認 | Xin Wang, Ziwei Zhang, Haoyang Li, Wenwu Zhu, | (参考訳) グラフ機械学習は学術と産業の両方で広く研究されている。
しかし、グラフ学習に関する文献が多くの新しい手法や技術と共にブームとなり、異なるグラフ関連タスクに対して最適な機械学習アルゴリズムを手動で設計することはますます困難になっている。
この課題に対処するために、さまざまなグラフタスク/データに対して、手動設計なしで最高のハイパーパラメータとニューラルネットワーク構成を見つけることを目的とした、自動グラフ機械学習が、研究コミュニティから注目を集めている。
本稿では,グラフ機械学習のためのハイパーパラメータ最適化 (HPO) とニューラルアーキテクチャ探索 (NAS) を網羅する,グラフ機械学習の自動手法について論じる。
グラフ機械学習または自動機械学習用に設計された既存のライブラリを概説し、さらに詳しくは、当社の専用ライブラリであるAutoGLと、グラフ機械学習自動化のための世界初のオープンソースライブラリを紹介します。
また、統一的で再現性があり、効率的な評価をサポートする調整済みのベンチマークについて述べる。
最後に、グラフ機械学習を自動化するための今後の研究の方向性について、私たちの洞察を共有します。
本論文は,自動グラフ機械学習のためのアプローチ,ライブラリ,方向性に関する,最初の体系的かつ包括的な議論である。
Graph machine learning has been extensively studied in both academic and industry. However, as the literature on graph learning booms with a vast number of emerging methods and techniques, it becomes increasingly difficult to manually design the optimal machine learning algorithm for different graph-related tasks. To tackle the challenge, automated graph machine learning, which aims at discovering the best hyper-parameter and neural architecture configuration for different graph tasks/data without manual design, is gaining an increasing number of attentions from the research community. In this paper, we extensively discuss automated graph machine learning approaches, covering hyper-parameter optimization (HPO) and neural architecture search (NAS) for graph machine learning. We briefly overview existing libraries designed for either graph machine learning or automated machine learning respectively, and further in depth introduce AutoGL, our dedicated and the world's first open-source library for automated graph machine learning. Also, we describe a tailored benchmark that supports unified, reproducible, and efficient evaluations. Last but not least, we share our insights on future research directions for automated graph machine learning. This paper is the first systematic and comprehensive discussion of approaches, libraries as well as directions for automated graph machine learning. | 翻訳日:2024-05-06 18:35:59 公開日:2024-05-02 |
# 認識・認識のための階層的画像分割学習
Learning Hierarchical Image Segmentation For Recognition and By Recognition ( http://arxiv.org/abs/2210.00314v4 ) ライセンス: Link先を確認 | Tsung-Wei Ke, Sangwoo Mo, Stella X. Yu, | (参考訳) 画像テキストアソシエーションを通じて直接学習された大きな視覚と言語モデルは、しばしば詳細な視覚的サブスタンスを欠くが、画像分割タスクは認識とは別々に扱われ、相互接続なしに教師付きで学習される。
私たちのキーとなる観察は、画像は複数の方法で認識できるが、それぞれが一貫した部分と全体的な視覚的組織を持っていることである。
したがって、セグメンテーションは、教師付き学習によってマスターされる最終タスクとしてではなく、認識の最終的な目標を進化させ支援する内部プロセスとして扱われるべきである。
本稿では,階層的なセグメンタを認識プロセスに統合し,画像レベルの認識目的のみに基づいてモデル全体を訓練し,適応させることを提案する。
我々は,認識とともに自由な階層的セグメンテーションを学習し,その基盤となるだけでなく,認識の向上にも寄与する部分間関係を自動的に発見する。
適応セグメントトークンとグラフプーリングによるビジョントランスフォーマー(ViT)の強化では、教師なし部分発見、セマンティックセグメンテーション、画像分類、効率がViTを上回っている。
特に,このモデルでは,PartImageNetオブジェクトセグメンテーションにおいて,mIoUの絶対8%をSAM(11Mイメージと10億マスクでトレーニング)より優れていた。
Large vision and language models learned directly through image-text associations often lack detailed visual substantiation, whereas image segmentation tasks are treated separately from recognition, supervisedly learned without interconnections. Our key observation is that, while an image can be recognized in multiple ways, each has a consistent part-and-whole visual organization. Segmentation thus should be treated not as an end task to be mastered through supervised learning, but as an internal process that evolves with and supports the ultimate goal of recognition. We propose to integrate a hierarchical segmenter into the recognition process, train and adapt the entire model solely on image-level recognition objectives. We learn hierarchical segmentation for free alongside recognition, automatically uncovering part-to-whole relationships that not only underpin but also enhance recognition. Enhancing the Vision Transformer (ViT) with adaptive segment tokens and graph pooling, our model surpasses ViT in unsupervised part-whole discovery, semantic segmentation, image classification, and efficiency. Notably, our model (trained on unlabeled 1M ImageNet images) outperforms SAM (trained on 11M images and 1 billion masks) by absolute 8% in mIoU on PartImageNet object segmentation. | 翻訳日:2024-05-06 18:35:59 公開日:2024-05-02 |
# FedLAP-DP: 個人的損失近似の共有によるフェデレートラーニング
FedLAP-DP: Federated Learning by Sharing Differentially Private Loss Approximations ( http://arxiv.org/abs/2302.01068v4 ) ライセンス: Link先を確認 | Hui-Po Wang, Dingfan Chen, Raouf Kerkouche, Mario Fritz, | (参考訳) FedAvgのような従来のFederated Learning(FL)の勾配共有アプローチは、ローカルモデルの集約に依存しており、しばしばローカルとグローバルの目的の矛盾に起因する差分プライバシー(DP)メカニズムやデータ不均一性の下でパフォーマンス劣化に直面している。
この問題に対処するため,FLの新しいプライバシ保護手法であるFedLAP-DPを提案する。
我々の定式化は、局所的な画像の勾配をシミュレートすることで、局所的なロスランドスケープを近似する小さなサンプルセットをクライアントが合成することを含む。
ロスサロゲートとして機能し、これらの合成サンプルはサーバ側で集約され、グローバルなロスランドスケープを明らかにし、グローバルな最適化を可能にする。
これらの知見に基づいて、FLにおける記録レベルの差分プライバシーを強制する新たな視点を提供する。
公式なプライバシー分析は、FedLAP-DPが通常の勾配共有方式と同じプライバシーコストを発生させ、プライバシとユーティリティのトレードオフを改善していることを示している。
DPと非DPの双方で高度に歪んだ分布を持つ各種データセットにおけるアプローチの優位性を検証する。
提案手法は,有望な性能の他に,一般的な勾配共有手法よりも高速な収束速度を示すとともに,より大規模な合成画像の送信により,より優れた性能を実現するための取引通信コストの低減を図っている。
ソースはhttps://github.com/a514514772/FedLAP-DPで公開されている。
Conventional gradient-sharing approaches for federated learning (FL), such as FedAvg, rely on aggregation of local models and often face performance degradation under differential privacy (DP) mechanisms or data heterogeneity, which can be attributed to the inconsistency between the local and global objectives. To address this issue, we propose FedLAP-DP, a novel privacy-preserving approach for FL. Our formulation involves clients synthesizing a small set of samples that approximate local loss landscapes by simulating the gradients of real images within a local region. Acting as loss surrogates, these synthetic samples are aggregated on the server side to uncover the global loss landscape and enable global optimization. Building upon these insights, we offer a new perspective to enforce record-level differential privacy in FL. A formal privacy analysis demonstrates that FedLAP-DP incurs the same privacy costs as typical gradient-sharing schemes while achieving an improved trade-off between privacy and utility. Extensive experiments validate the superiority of our approach across various datasets with highly skewed distributions in both DP and non-DP settings. Beyond the promising performance, our approach presents a faster convergence speed compared to typical gradient-sharing methods and opens up the possibility of trading communication costs for better performance by sending a larger set of synthetic images. The source is available at https://github.com/a514514772/FedLAP-DP. | 翻訳日:2024-05-06 18:26:14 公開日:2024-05-02 |
# JWA(Joint Weighted Average)演算子
The Joint Weighted Average (JWA) Operator ( http://arxiv.org/abs/2302.11885v2 ) ライセンス: Link先を確認 | Stephen B. Broomell, Christian Wagner, | (参考訳) 情報収集は、不確実性の存在下で人や機械による意思決定に不可欠なツールである。
伝統的に、アグリゲーションのアプローチは、情報ソースに価値または重みがあるものと、その情報源から得られた証拠に価値があるとされるものという2つのカテゴリに大別される。
後者は物理科学において広く普及し、線形順序統計学の基盤となり、非線形アグリゲーションを可能にしている。
前者は社会科学で人気があり、情報源について解釈可能な洞察を提供する。
先行研究では、両方のアプローチを同時に適用する必要性が特定されているが、概念的には両方のアプローチを統合し、生じる集約アプローチのセマンティック解釈を提供していない。
ここでは、両手法を新しい結合重み付き平均化演算子に概念的に統合する。
我々は、この積分の基盤となる構成幾何学を活用し、それが重み付けされた集約演算子の組み合わせの体系的な基礎を提供することを示す。
得られた演算子がどのように、情報源と証拠の両方の価値についての事前の信念を体系的に統合し、両方の重み付け戦略のセマンティックな統合を反映しているかを示す。
我々は、機械学習から心理学まで、さまざまな分野のオペレーターの可能性を結論し、強調する。
Information aggregation is a vital tool for human and machine decision making in the presence of uncertainty. Traditionally, approaches to aggregation broadly diverge into two categories, those which attribute a worth or weight to information sources and those which attribute said worth to the evidence arising from said sources. The latter is pervasive in the physical sciences, underpinning linear order statistics and enabling non-linear aggregation. The former is popular in the social sciences, providing interpretable insight on the sources. While prior work has identified the need to apply both approaches simultaneously, it has yet to conceptually integrate both approaches and provide a semantic interpretation of the arising aggregation approach. Here, we conceptually integrate both approaches in a novel joint weighted averaging operator. We leverage compositional geometry to underpin this integration, showing how it provides a systematic basis for the combination of weighted aggregation operators--which has thus far not been considered in the literature. We proceed to show how the resulting operator systematically integrates a priori beliefs about the worth of both sources and evidence, reflecting the semantic integration of both weighting strategies. We conclude and highlight the potential of the operator across disciplines, from machine learning to psychology. | 翻訳日:2024-05-06 18:26:14 公開日:2024-05-02 |
# LTM: 言語モデルに基づく拡張性とブラックボックス類似性に基づくテストスイートの最小化
LTM: Scalable and Black-box Similarity-based Test Suite Minimization based on Language Models ( http://arxiv.org/abs/2304.01397v3 ) ライセンス: Link先を確認 | Rongqi Pan, Taher A. Ghaleb, Lionel Briand, | (参考訳) テストスイートはソフトウェアが進化するにつれて成長する傾向にあり、特に大規模なソフトウェアシステムにおいて、割り当てられたテスト予算ですべてのテストケースを実行することができないことが多い。
テストスイートの最小化(TSM)は、冗長なテストケースを取り除き、テスト時間とリソースを削減し、テストスイートの障害検出能力を維持しながら、ソフトウェアテストの効率を向上させるために使用される。
既存のTSMアプローチのほとんどはコードカバレッジ(ホワイトボックス)やモデルベースの機能に依存している。
ATMやFAST-Rのようなテストコード(ブラックボックス)のみに依存する最近のTSMアプローチが提案されている。
このスケーラビリティに対処するため,大規模言語モデル(LLM)に基づく新しい,スケーラブルかつブラックボックス類似性に基づくTSMアプローチであるLTM(Language Model-based Test Suite Minimization)を提案する。
テストコード埋め込みにおける類似度測定を支援するため,CodeBERT,GraphCodeBERT,Unixcoder,StarEncoder,CodeLlamaの5つの事前学習言語モデルについて検討した。
我々のゴールは、計算効率が向上するだけでなく、遺伝的アルゴリズム(GA)により最適な最小化テストスイートを探索し、全体の探索時間を短縮できる類似性尺度を見つけることである。
実験結果から, LTM (UniXcoder/Cosine) の最適構成は, 3つの点でATMより優れていることがわかった。
(a)試験時間の若干の節約率(平均40.29%に対して41.72%)を達成すること。
(b)断層検出率(平均0.84対0.81)が著しく高く、そして最も重要な点
(c) テストスイートを平均で5倍近い速度で最小化する。
Test suites tend to grow when software evolves, making it often infeasible to execute all test cases with the allocated testing budgets, especially for large software systems. Test suite minimization (TSM) is employed to improve the efficiency of software testing by removing redundant test cases, thus reducing testing time and resources, while maintaining the fault detection capability of the test suite. Most existing TSM approaches rely on code coverage (white-box) or model-based features, which are not always available to test engineers. Recent TSM approaches that rely only on test code (black-box) have been proposed, such as ATM and FAST-R. To address the scalability, we propose LTM (Language model-based Test suite Minimization), a novel, scalable, and black-box similarity-based TSM approach based on large language models (LLMs), which is the first application of LLMs in the context of TSM. To support similarity measurement for test code embeddings, we investigate five pre-trained language models: CodeBERT, GraphCodeBERT, UniXcoder, StarEncoder, and CodeLlama, on which we compute two similarity measures: Cosine Similarity and Euclidean Distance. Our goal is to find similarity measures that are not only computationally more efficient but can also better guide a Genetic Algorithm (GA) to search for optimal minimized test suites, thus reducing the overall search time. Experimental results show that the best configuration of LTM (UniXcoder/Cosine) outperforms ATM in three aspects: (a) achieving a slightly greater saving rate of testing time (41.72% versus 40.29%, on average); (b) attaining a significantly higher fault detection rate (0.84 versus 0.81, on average); and, most importantly, (c) minimizing test suites nearly five times faster on average, with higher gains for larger test suites and systems, thus achieving much higher scalability. | 翻訳日:2024-05-06 18:26:14 公開日:2024-05-02 |
# バリウム(II)カチオンによる時間分解ルビジウム支援電子捕獲
Time-Resolved Rubidium-Assisted Electron Capture by Barium (II) Cation ( http://arxiv.org/abs/2306.09580v2 ) ライセンス: Link先を確認 | Axel Molle, Jan Philipp Drennhaus, Viktoria Noel, Nikola Kolev, Annika Bande, | (参考訳) イオン化しきい値に近い有界電子状態間の非局所エネルギー移動は、技術基盤から量子コンピューティングへの希薄原子系の効率的な状態準備に使用される。
連続体への電子遷移への一般化は、そのような潜在的な実験を動機付けるために必要な量子シミュレーションが欠如している。
本稿では、この目的のために、完全に3次元の原子系をシミュレートする電子力学モデルの最初の開発について述べる。
本研究では, ルビジウム原子が近傍にあるため, 環境支援電子捕獲による超低温バリウム(II)の再結合における本モデルの有効性について検討した。
どちらの原子サイトもMulti Configuration Time Dependent Hartree (MCTDH) アルゴリズムを用いて効果的な1電子系としてモデル化され、双極子-双極子相互作用によってエネルギーを伝達することができる。
シミュレーションは原子間エネルギー交換を伴わないシミュレーションと比較することで定量化できる希薄な原子間距離上でのキャプチャーを実現するのに十分堅牢であることがわかった。
現在のパラメータがまだ反応確率に最適化されていない場合、環境イオン化補助キャプチャーは、最初の15〜\mathrm{fs}$よりも1.9\times10^{-5}~\%$の確率を持つ。
$[\text{Ba}^{+*}\text{Rb}^{*}]$は、捕獲が完了した後、少なくとも20〜\mathrm{fs}$に対して8.2\times10^{-4}~\%の確率で安定な長寿命中間状態として現れる。
このモデルは、最適化されたパラメータを可能な限り正確に予測し、実験システムに存在する条件に適合する可能性を示す。
既存の技術で環境支援型電子捕獲を実験的に実現するための第一歩として,提案装置を前進させた。
Non-local energy transfer between bound electronic states close to the ionisation threshold is employed for efficient state preparation in dilute atom systems from technological foundations to quantum computing. The generalisation to electronic transitions into and out of the continuum is lacking quantum simulations necessary to motivate such potential experiments. Here, we present the first development of a electron-dynamical model simulating fully three-dimensional atomic systems for this purpose. We investigate the viability of this model for the prototypical case of recombination of ultracold barium(II) by environment-assisted electron capture thanks to a rubidium atom in its vicinity. Both atomic sites are modelled as effective one-electron systems using the Multi Configuration Time Dependent Hartree (MCTDH) algorithm and can transfer energy by dipole-dipole interaction. We find that the simulations are robust enough to realise assisted capture over a dilute interatomic distance which we are able to quantify by comparing to simulations without interatomic energy exchange. For our current parameters not yet optimised for reaction likelihood, an environment-ionising assisted capture has a probability of $1.9\times10^{-5}~\%$ over the first $15~\mathrm{fs}$ of the simulation. The environment-exciting assisted-capture path to $[\text{Ba}^{+*}\text{Rb}^{*}]$ appears as a stable long-lived intermediate state with a probability of $8.2\times10^{-4}~\%$ for at least $20~\mathrm{fs}$ after the capture has been completed. This model shows potential to predict optimised parameters as well as to accommodate the conditions present in experimental systems as closely as possible. We put the presented setup forward as a suitable first step to experimentally realise environment-assisted electron capture with current existing technologies. | 翻訳日:2024-05-06 18:16:30 公開日:2024-05-02 |
# 教師付き学習問題の崩壊--タイポロジーと緩和
Corruptions of Supervised Learning Problems: Typology and Mitigations ( http://arxiv.org/abs/2307.08643v2 ) ライセンス: Link先を確認 | Laura Iacovissi, Nan Lu, Robert C. Williamson, | (参考訳) 崩壊はデータ収集で広く知られている。
大規模な研究にもかかわらず、汚職に関する既存の文献は主に特定の設定と学習シナリオに焦点を当てており、統一された視点は欠如している。
マシンラーニングの問題を効果的にモデル化し、緩和する方法については、まだ限定的な理解が残っている。
本研究では,マルコフ核を基礎となる数学的ツールとして,情報理論の観点からの汚職の一般的な理論を開発する。
汚職は、モデルクラスや損失関数の変更を含む学習問題のすべての修正を含む。
ここでは確率分布の変化に注目します。
まず、ペアワイズマルコフ汚職に対する証明可能な網羅的な枠組みを構築する。
このフレームワークは、入力空間に基づいて汚職タイプを研究するだけでなく、特定の汚職モデルに関する事前の作業を統一し、一貫した命名法を確立するのにも役立ちます。
第2に, クリーンかつ破損したシナリオにおけるベイズリスクを比較することにより, 学習課題における汚職の影響を系統的に分析する。
この検査は、ラベルと属性の両方に対する共同および依存的な汚職から生じる複雑さに光を当てる。
特に、ラベルの破損は損失関数にのみ影響するが、属性の破損を含むより複雑なケースは、仮説クラスに影響を与える損失を超えて影響を拡大する。
第3に、これらの結果に基づいて、各種汚職の軽減について検討する。
ラベルの破損に対する既存の損失補正結果を拡張し、従来の汚職訂正学習フレームワークをより弱い要件で新しいパラダイムに一般化する必要性を特定する。
後者の設定では,属性と共同汚損事例の損失補正に対して負の結果が得られた。
Corruption is notoriously widespread in data collection. Despite extensive research, the existing literature on corruption predominantly focuses on specific settings and learning scenarios, lacking a unified view. There is still a limited understanding of how to effectively model and mitigate corruption in machine learning problems. In this work, we develop a general theory of corruption from an information-theoretic perspective - with Markov kernels as a foundational mathematical tool. We generalize the definition of corruption beyond the concept of distributional shift: corruption includes all modifications of a learning problem, including changes in model class and loss function. We will focus here on changes in probability distributions. First, we construct a provably exhaustive framework for pairwise Markovian corruptions. The framework not only allows us to study corruption types based on their input space, but also serves to unify prior works on specific corruption models and establish a consistent nomenclature. Second, we systematically analyze the consequences of corruption on learning tasks by comparing Bayes risks in the clean and corrupted scenarios. This examination sheds light on complexities arising from joint and dependent corruptions on both labels and attributes. Notably, while label corruptions affect only the loss function, more intricate cases involving attribute corruptions extend the influence beyond the loss to affect the hypothesis class. Third, building upon these results, we investigate mitigations for various corruption types. We expand the existing loss-correction results for label corruption, and identify the necessity to generalize the classical corruption-corrected learning framework to a new paradigm with weaker requirements. Within the latter setting, we provide a negative result for loss correction in the attribute and the joint corruption case. | 翻訳日:2024-05-06 18:16:30 公開日:2024-05-02 |
# Decolonial AIアライメント:オープンネス、ヴィシェド{s}a-ダルマ、排他的知識を含む
Decolonial AI Alignment: Openness, Viśe\d{s}a-Dharma, and Including Excluded Knowledges ( http://arxiv.org/abs/2309.05030v3 ) ライセンス: Link先を確認 | Kush R. Varshney, | (参考訳) 以前の研究は、抽出主義、自動化、社会学的本質主義、監視、封じ込めといったメカニズムを通じて、人工知能(AI)の発展と展開の植民地性を明らかにしてきた。
しかし、その仕事は整合性に大きな言語モデル(LLM)に望ましい値に従って行動を教えること、そしてそのプロセスの中で生じるメカニズムとは考えていない:道徳的絶対主義 - 知識の植民地性の一部である。
植民地主義は、植民地化された人々の信念や価値観を変えてきた歴史があり、本稿では、この歴史は現在のLLMアライメントの実践と技術で再カプセル化されていると論じる。
さらに、モデルのオープン性、社会へのオープン性、除外された知識に対するオープン性という3つの形態を用いて、AIアライメントを非植民地化することを提案します。
このDecolonial AIアライメントへのアプローチは、ヒンドゥー教の議論的な倫理的哲学的伝統のアイデアを用いており、これはオープンソース宗教として説明されてきた。
1つの概念はvi\'{s}e\d{s}a-dharma、または特定の文脈固有の右と右の概念である。
論文の最後に、提案されたフレームワークに向けて作業するための推奨参照アーキテクチャを提案します。
Prior work has explicated the coloniality of artificial intelligence (AI) development and deployment through mechanisms such as extractivism, automation, sociological essentialism, surveillance, and containment. However, that work has not engaged much with alignment: teaching behaviors to a large language model (LLM) in line with desired values, and has not considered a mechanism that arises within that process: moral absolutism -- a part of the coloniality of knowledge. Colonialism has a history of altering the beliefs and values of colonized peoples; in this paper, I argue that this history is recapitulated in current LLM alignment practices and technologies. Furthermore, I suggest that AI alignment be decolonialized using three forms of openness: openness of models, openness to society, and openness to excluded knowledges. This suggested approach to decolonial AI alignment uses ideas from the argumentative moral philosophical tradition of Hinduism, which has been described as an open-source religion. One concept used is vi\'{s}e\d{s}a-dharma, or particular context-specific notions of right and wrong. At the end of the paper, I provide a suggested reference architecture to work toward the proposed framework. | 翻訳日:2024-05-06 18:06:46 公開日:2024-05-02 |
# 連続空間における無限水平平均場問題に対する深部強化学習
Deep Reinforcement Learning for Infinite Horizon Mean Field Problems in Continuous Spaces ( http://arxiv.org/abs/2309.10953v2 ) ライセンス: Link先を確認 | Andrea Angiuli, Jean-Pierre Fouque, Ruimeng Hu, Alan Raydan, | (参考訳) 連続空間平均場ゲーム(MFG)と平均場制御(MFC)問題を統一的に解くために設計された強化学習(RL)アルゴリズムの開発と解析を行う。
提案手法は,パラメータ化スコア関数による平均場分布の表現とアクタ・クリティカル(AC)パラダイムを組み合わせ,オンライン手法で効率的に更新し,Langevin Dynamics を用いて結果の分布からサンプルを得る。
ACエージェントとスコア関数は、学習率の選択に応じて、所定の平均場問題に対してMFG平衡またはMFC最適化のいずれかに収束するように反復的に更新される。
アルゴリズムの簡単な修正により、混合平均場制御ゲーム(MFCG)を解くことができる。
このアルゴリズムの性能は漸近無限地平線フレームワークにおける線形四分法ベンチマークを用いて評価する。
We present the development and analysis of a reinforcement learning (RL) algorithm designed to solve continuous-space mean field game (MFG) and mean field control (MFC) problems in a unified manner. The proposed approach pairs the actor-critic (AC) paradigm with a representation of the mean field distribution via a parameterized score function, which can be efficiently updated in an online fashion, and uses Langevin dynamics to obtain samples from the resulting distribution. The AC agent and the score function are updated iteratively to converge, either to the MFG equilibrium or the MFC optimum for a given mean field problem, depending on the choice of learning rates. A straightforward modification of the algorithm allows us to solve mixed mean field control games (MFCGs). The performance of our algorithm is evaluated using linear-quadratic benchmarks in the asymptotic infinite horizon framework. | 翻訳日:2024-05-06 18:06:46 公開日:2024-05-02 |
# SMSがIoTデバイスに侵入する恐れを調査
Investigating Threats Posed by SMS Origin Spoofing to IoT Devices ( http://arxiv.org/abs/2310.11052v2 ) ライセンス: Link先を確認 | Akaki Tsunoda, | (参考訳) ショートメッセージサービス(SMS)は、モバイルネットワークを介してテキストを交換するサービスであり、加入者間のテキスト通信だけでなく、IoT(Internet of Things)デバイスをリモートで管理する手段として開発された。
しかし、SMSの発端となる番号は偽造することができる。
IoTデバイスがSMSの発端数に基づいて管理者を認証した場合、認証はSMSの発端の偽造によってバイパスされる。
その結果、IoTデバイスは攻撃者からのコマンドを受け入れ、無許可のアクションを実行するリスクがある。
そこで本研究では,SMSによる遠隔管理に着目して,主要なセルラーIoTゲートウェイの仕様を評価し,認証バイパス仮説を検証した。
その結果,対象製品32種のうち25種がSMSベースの遠隔管理をサポートし,20種がSMSの発信数に基づいて認証を実装した。
さらに、SMSの発端数を隠蔽することで、認証バイパスによってリモートで利用できることが実証された。
そこで本研究では,SMS起源の脅威がIoTデバイスに波及し,SMS起源の脅威が人間のテキスト通信を脅かすだけでなく,機械通信を危険にさらすことを実証した。
The short message service (SMS) is a service for exchanging texts via mobile networks that has been developed not only as a means of text communication between subscribers but also as a means to remotely manage Internet of Things (IoT) devices. However, the originating number of an SMS can be spoofed. If IoT devices authenticate administrators based on the originating number of an SMS, the authentication is bypassed via SMS origin spoofing. Consequently, IoT devices are at risk of accepting commands from attackers and performing unauthorized actions. Accordingly, in this study, the specifications of major cellular IoT gateways were evaluated by focusing on remote management via SMS, and the authentication bypass hypothesis was verified. The results showed that 25 of the 32 targeted products supported SMS-based remote management, and 20 implemented authentication based on the originating number of the SMS. Furthermore, by spoofing the originating number of the SMS, one product was demonstrated to be remotely exploitable through authentication bypassing. Thus, this study revealed the threats posed by SMS origin spoofing to IoT devices and proved that SMS origin spoofing not only threatens text communication between people but also puts machine communication at risk. | 翻訳日:2024-05-06 17:57:02 公開日:2024-05-02 |
# nach0: マルチモーダルな自然言語と化学言語の基礎モデル
nach0: Multimodal Natural and Chemical Languages Foundation Model ( http://arxiv.org/abs/2311.12410v3 ) ライセンス: Link先を確認 | Micha Livne, Zulfat Miftahutdinov, Elena Tutubalina, Maksim Kuznetsov, Daniil Polykovskiy, Annika Brundyn, Aastha Jhunjhunwala, Anthony Costa, Alex Aliper, Alán Aspuru-Guzik, Alex Zhavoronkov, | (参考訳) 大規模言語モデル(LLM)は、様々な領域において科学的進歩を著しく推進し、多くの論文が創造的なソリューションで複雑な問題に取り組む能力を示した。
本稿では, 生物医学的質問応答, 実体認識, 分子生成, 分子合成, 属性予測など, 様々な化学・生物学的課題を解く新しい基礎モデル, nach0を提案する。
nach0は、科学文献、特許、分子文字列のラベルのないテキストで事前訓練されたマルチドメインでマルチタスクのエンコーダである。
我々は,タスクの最終的なセットに対して,特定のタスク関連命令を使用してnach0を微調整するインストラクションチューニングを採用した。
nach0を効果的に訓練するために、NeMoフレームワークを活用し、ベースモデルと大型モデルの両方を効率的に並列に最適化する。
大規模な実験により、我々のモデルは単一ドメインおよびクロスドメインタスクにおける最先端のベースラインより優れていることが示された。
さらに、分子およびテキスト形式で高品質な出力を生成することができ、その有効性をマルチドメイン設定で示すことができる。
Large Language Models (LLMs) have substantially driven scientific progress in various domains, and many papers have demonstrated their ability to tackle complex problems with creative solutions. Our paper introduces a new foundation model, nach0, capable of solving various chemical and biological tasks: biomedical question answering, named entity recognition, molecular generation, molecular synthesis, attributes prediction, and others. nach0 is a multi-domain and multi-task encoder-decoder LLM pre-trained on unlabeled text from scientific literature, patents, and molecule strings to incorporate a range of chemical and linguistic knowledge. We employed instruction tuning, where specific task-related instructions are utilized to fine-tune nach0 for the final set of tasks. To train nach0 effectively, we leverage the NeMo framework, enabling efficient parallel optimization of both base and large model versions. Extensive experiments demonstrate that our model outperforms state-of-the-art baselines on single-domain and cross-domain tasks. Furthermore, it can generate high-quality outputs in molecular and textual formats, showcasing its effectiveness in multi-domain setups. | 翻訳日:2024-05-06 17:47:17 公開日:2024-05-02 |
# STAMINAによる連続拡散:Stack-and-Maskインクリメンタルアダプタ
Continual Diffusion with STAMINA: STack-And-Mask INcremental Adapters ( http://arxiv.org/abs/2311.18763v2 ) ライセンス: Link先を確認 | James Seale Smith, Yen-Chang Hsu, Zsolt Kira, Yilin Shen, Hongxia Jin, | (参考訳) 最近の研究は、テキストと画像の拡散モデルを連続的な(連続的な)方法で複数の微細な概念にカスタマイズし、各概念のサンプル画像のみを提供する、という驚くべき能力を示している。
この設定は連続拡散として知られている。
これらのメソッドを忘れずに、より長い概念シーケンスにスケールできますか?
先行研究は、以前に学んだ概念の忘れを緩和するが、新しいタスクを学習する能力はより長いシーケンスで飽和に達することを示す。
本稿では,低ランクアテンションマスキングアダプタとカスタマイズMLPトークンからなるSTAMINA(STack-And-Mask Incremental Adapters)を導入することで,この問題に対処する。
STAMINAは、低ランクのMLPでパラメータ化された学習可能なハードアテンションマスクを介して、シーケンシャルな概念学習のためのLoRAの堅牢な微調整特性を強化するために設計されており、スパース適応による正確でスケーラブルな学習を可能にする。
特に、導入されたトレーニング可能なパラメータはすべて、トレーニング後にモデルに折り返し、追加の推論パラメータコストを発生させない。
ランドマークと人間の顔からなる50概念のベンチマークにおいて,テキストと画像の連続的なカスタマイズの設定において,STAMINAが従来のSOTAよりも優れており,リプレイデータが保存されていないことを示す。
さらに,この手法を画像分類のための連続学習の設定に拡張し,この標準ベンチマークで得られたゲインが最先端の性能にも変換できることを実証した。
Recent work has demonstrated a remarkable ability to customize text-to-image diffusion models to multiple, fine-grained concepts in a sequential (i.e., continual) manner while only providing a few example images for each concept. This setting is known as continual diffusion. Here, we ask the question: Can we scale these methods to longer concept sequences without forgetting? Although prior work mitigates the forgetting of previously learned concepts, we show that its capacity to learn new tasks reaches saturation over longer sequences. We address this challenge by introducing a novel method, STack-And-Mask INcremental Adapters (STAMINA), which is composed of low-ranked attention-masked adapters and customized MLP tokens. STAMINA is designed to enhance the robust fine-tuning properties of LoRA for sequential concept learning via learnable hard-attention masks parameterized with low rank MLPs, enabling precise, scalable learning via sparse adaptation. Notably, all introduced trainable parameters can be folded back into the model after training, inducing no additional inference parameter costs. We show that STAMINA outperforms the prior SOTA for the setting of text-to-image continual customization on a 50-concept benchmark composed of landmarks and human faces, with no stored replay data. Additionally, we extended our method to the setting of continual learning for image classification, demonstrating that our gains also translate to state-of-the-art performance in this standard benchmark. | 翻訳日:2024-05-06 17:47:17 公開日:2024-05-02 |
# リレーショナルニューラルネットワークが解決できる計画上の問題
What Planning Problems Can A Relational Neural Network Solve? ( http://arxiv.org/abs/2312.03682v2 ) ライセンス: Link先を確認 | Jiayuan Mao, Tomás Lozano-Pérez, Joshua B. Tenenbaum, Leslie Pack Kaelbling, | (参考訳) ゴール条件付きポリシーは一般に、現在の状態と目標仕様から次のアクションにマップするニューラルネットワークの形で、"フィードフォワード"回路であると理解されている。
しかし、どのような状況でそのような政策が学べるか、その政策がいかに効率的に行われるかはよく分かっていない。
本稿では,連続目標回帰探索(S-GRS)との接続を描画することにより,計画上の問題に対するポリシを表すリレーショナルニューラルネットワーク(グラフニューラルネットワークやトランスフォーマーなど)の回路複雑性解析を行う。
回路幅と深さの増大を対象物の数と計画水平線の関数として考慮し, 構成的証明を提供することで, 計画問題の一般的なクラスが3つ存在することを示す。
また、政策学習のためのニューラルネットワーク設計におけるこの分析の有用性についても解説する。
Goal-conditioned policies are generally understood to be "feed-forward" circuits, in the form of neural networks that map from the current state and the goal specification to the next action to take. However, under what circumstances such a policy can be learned and how efficient the policy will be are not well understood. In this paper, we present a circuit complexity analysis for relational neural networks (such as graph neural networks and transformers) representing policies for planning problems, by drawing connections with serialized goal regression search (S-GRS). We show that there are three general classes of planning problems, in terms of the growth of circuit width and depth as a function of the number of objects and planning horizon, providing constructive proofs. We also illustrate the utility of this analysis for designing neural networks for policy learning. | 翻訳日:2024-05-06 17:47:17 公開日:2024-05-02 |
# Dr. JekyllとMr. Hyde: LLMの2つの顔
Dr. Jekyll and Mr. Hyde: Two Faces of LLMs ( http://arxiv.org/abs/2312.03853v3 ) ライセンス: Link先を確認 | Matteo Gioele Collu, Tom Janssen-Groesbeek, Stefanos Koffas, Mauro Conti, Stjepan Picek, | (参考訳) 最近、チャットボットアシスタントのようなアプリケーションで、LLM(Large Language Models)の使用が増加しているのを目撃しました。
これらのアシスタントからの不適切な応答を防止するため、安全機構と特別な訓練手順が実施されている。
本研究では,ChatGPTとBard(ある程度はBingチャット)に対するこれらの対策を回避し,誠実なアシスタントと整合しない人格特性を持つ複雑なペルソナを具体化する。
まず、これらのペルソナの精巧な伝記を作成し、それから同じチャットボットで新しいセッションで使用します。
私たちの会話は、禁止された応答を引き出すためにロールプレイスタイルを踏襲しました。
ペルソナを利用することで、そのような応答が実際に提供され、不正、違法、有害な情報を得ることができることを示す。
この研究は、敵対的ペルソナを使用することで、ChatGPTとBardによって設定された安全メカニズムを克服できることを示している。
また、このような敵対的ペルソナを活性化する方法をいくつか導入し、どちらのチャットボットもこの種の攻撃に対して脆弱であることを示す。
同じ原則で、モデルに信頼に値する個人性を解釈させ、そのような攻撃に対してより堅牢にする2つの防衛法を導入する。
Recently, we have witnessed a rise in the use of Large Language Models (LLMs), especially in applications like chatbot assistants. Safety mechanisms and specialized training procedures are implemented to prevent improper responses from these assistants. In this work, we bypass these measures for ChatGPT and Bard (and, to some extent, Bing chat) by making them impersonate complex personas with personality characteristics that are not aligned with a truthful assistant. We start by creating elaborate biographies of these personas, which we then use in a new session with the same chatbots. Our conversations then followed a role-play style to elicit prohibited responses. By making use of personas, we show that such responses are actually provided, making it possible to obtain unauthorized, illegal, or harmful information. This work shows that by using adversarial personas, one can overcome safety mechanisms set out by ChatGPT and Bard. We also introduce several ways of activating such adversarial personas, which show that both chatbots are vulnerable to this kind of attack. With the same principle, we introduce two defenses that push the model to interpret trustworthy personalities and make it more robust against such attacks. | 翻訳日:2024-05-06 17:47:17 公開日:2024-05-02 |
# 数値トランケーションセキュリティ述語
Numeric Truncation Security Predicate ( http://arxiv.org/abs/2312.06425v2 ) ライセンス: Link先を確認 | Timofey Mezhuev, Ilay Kobrin, Alexey Vishnyakov, Daniil Kuts, | (参考訳) 数値トランケーション(英: Numeric truncation)は、C/C++やJavaのような静的データ型付けを持つ言語で書かれたソフトウェアで広く使われているエラーである。
これは、より大きな型サイズの値のかなりのビットが、より小さな型への値変換中に切り替わるときに発生する。
動的シンボル実行(DSE)と呼ばれる経路探索と自動バグ検出の最も強力な手法の1つを利用して,DSEツールSydr上に開発された数値トランケーション誤り検出のためのシンボルセキュリティ述語を提案する。
まず、データ上でプログラムを実行するが、エラーは発生しない。
プログラム実行中、シンボルのシャドウスタックとシャドウレジスタを更新して、シンボル変数のシンボルサイズを追跡し、偽陽性を避ける。
そして,シンボル変数をトランケートする命令を満たすと,セキュリティ述語を構築し,SMT解決器で解決しようと試み,成功した場合には新しい入力ファイルを保存してエラーを再現する。
CWE-197のJuliet Dynamicテストスイートでアプローチをテストし、100%の精度を実現しました。
OSS-Sydr-Fuzz プロジェクト内の5つの実世界のオープンソースプロジェクトにおいて,12の誤りを検知し,本手法の作業性を承認した。
すべてのエラーが報告され、ほとんどの報告には適切な修正が加えられ、プロジェクトのメンテナの確認と適用が成功しました。
Numeric truncation is a widely spread error in software written in languages with static data typing, such as C/C++ or Java. It occurs when the significant bits of the value with a bigger type size are truncated during value conversion to the smaller type. Utilizing one of the most powerful methods for path exploration and automated bug detection called dynamic symbolic execution (DSE), we propose the symbolic security predicate for numeric truncation error detection, developed on top of DSE tool Sydr. Firstly, we execute the program on the data, which does not lead to any errors. During program execution we update symbolic shadow stack and shadow registers to track symbolic sizes of the symbolic variables to avoid false positives. Then, if we meet the instruction, which truncates the symbolic variable, we build the security predicate, try to solve it with the SMT-solver and in case of success save new input file to reproduce the error. We tested our approach on Juliet Dynamic test suite for CWE-197 and achieved 100% accuracy. We approved the workability of our approach by detecting 12 new errors of numeric truncation in 5 different real-world open source projects within OSS-Sydr-Fuzz project. All of the errors were reported, most of the reports were equipped with appropriate fixes, successfully confirmed and applied by project maintainers. | 翻訳日:2024-05-06 17:47:17 公開日:2024-05-02 |
# キャッシュに基づく自動音声認識のためのステートフルコンバータ
Stateful Conformer with Cache-based Inference for Streaming Automatic Speech Recognition ( http://arxiv.org/abs/2312.17279v3 ) ライセンス: Link先を確認 | Vahid Noroozi, Somshubra Majumdar, Ankur Kumar, Jagadeesh Balam, Boris Ginsburg, | (参考訳) 本稿では,FastConformerアーキテクチャに基づく,効率的かつ高精度なストリーミング音声認識モデルを提案する。
我々は,(1)エンコーダのルックアヘッドと過去のコンテキストの両方を制約し,(2)非自己回帰エンコーダが推論中に自己回帰的に動作できるようにするアクティベーションキャッシング機構を導入することによって,ストリーミングアプリケーションにFastConformerアーキテクチャを適用した。
提案モデルは,多くのストリーミングモデルに共通する列車と推定時間間の精度の相違を解消する目的で設計されている。
さらに,提案するエンコーダは,CTC(Connectionist Temporal Classification)やRNNT(RNNT)デコーダなど,さまざまなデコーダ構成で動作する。
さらに,共有エンコーダとCTCデコーダとRNNTデコーダを併用したハイブリッドCTC/RNNTアーキテクチャを導入し,精度の向上と計算量の削減を実現した。
提案手法をLibriSpeechデータセットとマルチドメイン大規模データセット上で評価し,従来のバッファリングストリーミングモデルベースラインと比較して,レイテンシと推論時間で精度が向上できることを実証した。
また、複数のレイテンシでモデルをトレーニングすることで、単一のレイテンシモデルよりも精度が向上し、単一のモデルで複数のレイテンシをサポートできることを示した。
また,CTCデコーダの収束を高速化するだけでなく,単一デコーダモデルと比較してストリーミングモデルの精度も向上することを示した。
In this paper, we propose an efficient and accurate streaming speech recognition model based on the FastConformer architecture. We adapted the FastConformer architecture for streaming applications through: (1) constraining both the look-ahead and past contexts in the encoder, and (2) introducing an activation caching mechanism to enable the non-autoregressive encoder to operate autoregressively during inference. The proposed model is thoughtfully designed in a way to eliminate the accuracy disparity between the train and inference time which is common for many streaming models. Furthermore, our proposed encoder works with various decoder configurations including Connectionist Temporal Classification (CTC) and RNN-Transducer (RNNT) decoders. Additionally, we introduced a hybrid CTC/RNNT architecture which utilizes a shared encoder with both a CTC and RNNT decoder to boost the accuracy and save computation. We evaluate the proposed model on LibriSpeech dataset and a multi-domain large scale dataset and demonstrate that it can achieve better accuracy with lower latency and inference time compared to a conventional buffered streaming model baseline. We also showed that training a model with multiple latencies can achieve better accuracy than single latency models while it enables us to support multiple latencies with a single model. Our experiments also showed the hybrid architecture would not only speedup the convergence of the CTC decoder but also improves the accuracy of streaming models compared to single decoder models. | 翻訳日:2024-05-06 17:37:33 公開日:2024-05-02 |
# 要求工学における自然言語処理技術の選択と評価に関する実践的ガイドライン
Practical Guidelines for the Selection and Evaluation of Natural Language Processing Techniques in Requirements Engineering ( http://arxiv.org/abs/2401.01508v2 ) ライセンス: Link先を確認 | Mehrdad Sabetzadeh, Chetan Arora, | (参考訳) [コンテキストとモチベーション] 自然言語処理(NLP)が要求自動化の基盤となりました。
要求工学(RE)におけるNLPの採用の増加の背景にある重要な要因の1つは、業界における要求を特定するために自然言語(NL)が普及していることである。
NLP技術は、要求を自動的に分類し、重要な情報、例えばドメインモデルや用語を抽出し、曖昧性処理や完全性チェックなどの品質保証タスクを実行するために一般的に用いられる。
多くの異なるNLPソリューション戦略が利用可能であり、機械学習を同時に適用することが可能であるため、特定のREタスクの適切な戦略を選択し、結果のソリューションを経験的に厳密な方法で評価することは困難である。
[内容]本章では,NLP技術の選択に関するガイドラインと,REの文脈における評価について述べる。
特に,従来のNLP,特徴ベース機械学習,言語モデルに基づく手法など,さまざまな戦略を選択する方法について議論する。
[貢献]この章の究極の希望は、NLP4REへの新規参入者を支援し、RE分野に最も関係のあるNLP技術に迅速に参入することである。
[Context and Motivation] Natural Language Processing (NLP) is now a cornerstone of requirements automation. One compelling factor behind the growing adoption of NLP in Requirements Engineering (RE) is the prevalent use of natural language (NL) for specifying requirements in industry. NLP techniques are commonly used for automatically classifying requirements, extracting important information, e.g., domain models and glossary terms, and performing quality assurance tasks, such as ambiguity handling and completeness checking. With so many different NLP solution strategies available and the possibility of applying machine learning alongside, it can be challenging to choose the right strategy for a specific RE task and to evaluate the resulting solution in an empirically rigorous manner. [Content] In this chapter, we present guidelines for the selection of NLP techniques as well as for their evaluation in the context of RE. In particular, we discuss how to choose among different strategies such as traditional NLP, feature-based machine learning, and language-model-based methods. [Contribution] Our ultimate hope for this chapter is to serve as a stepping stone, assisting newcomers to NLP4RE in quickly initiating themselves into the NLP technologies most pertinent to the RE field. | 翻訳日:2024-05-06 17:37:33 公開日:2024-05-02 |
# クレダーラーニング理論
Credal Learning Theory ( http://arxiv.org/abs/2402.00957v3 ) ライセンス: Link先を確認 | Michele Caprio, Maryam Sultana, Eleni Elia, Fabio Cuzzolin, | (参考訳) 統計的学習理論は機械学習の基礎であり、未知の確率分布から生じると仮定された(単一の)トレーニングセットから学習したモデルのリスクに関する理論的境界を提供する。
しかし、実際のデプロイメントでは、データの分散は(しばしば)異なるため、ドメイン適応/一般化の問題を引き起こします。
本稿では,データ生成分布の変動をモデル化するために,確率の凸集合(クレダル集合)を用いて,学習の「クレダル」理論の基礎を定式化する。
そのようなクレダル集合は、訓練集合の有限標本から推測されるかもしれない。
境界は有限仮説空間や古典的な結果を直接一般化する無限モデル空間の場合に導かれる。
Statistical learning theory is the foundation of machine learning, providing theoretical bounds for the risk of models learnt from a (single) training set, assumed to issue from an unknown probability distribution. In actual deployment, however, the data distribution may (and often does) vary, causing domain adaptation/generalization issues. In this paper we lay the foundations for a `credal' theory of learning, using convex sets of probabilities (credal sets) to model the variability in the data-generating distribution. Such credal sets, we argue, may be inferred from a finite sample of training sets. Bounds are derived for the case of finite hypotheses spaces (both assuming realizability or not) as well as infinite model spaces, which directly generalize classical results. | 翻訳日:2024-05-06 17:37:33 公開日:2024-05-02 |
# Wukong: 大規模レコメンデーションのスケーリング法を目指して
Wukong: Towards a Scaling Law for Large-Scale Recommendation ( http://arxiv.org/abs/2403.02545v3 ) ライセンス: Link先を確認 | Buyun Zhang, Liang Luo, Yuxin Chen, Jade Nie, Xi Liu, Daifeng Guo, Yanli Zhao, Shen Li, Yuchen Hao, Yantao Yao, Guna Lakshminarayanan, Ellie Dingqiao Wen, Jongsoo Park, Maxim Naumov, Wenlin Chen, | (参考訳) スケーリング法則はモデル品質の持続的な改善に重要な役割を果たしている。
残念ながら、現在のレコメンデーションモデルは、大規模な言語モデルのドメインで見られるような法則を示さない。
この制限は、これらのモデルをより複雑な現実世界のデータセットに適応させる上で大きな課題となる。
本稿では,階層化された因子化マシンをベースとした効率的なネットワークアーキテクチャと,Wukongと呼ばれる相乗的アップスケーリング戦略を提案し,推薦領域におけるスケーリング法則を確立する。
Wukongのユニークなデザインは、より高層でより広い層を通して、多様な、あらゆる順序の相互作用をキャプチャすることを可能にする。
我々は,6つの公開データセットに対して広範囲な評価を行い,その結果から,Wukongが常に最先端のモデルよりも品質的に優れていることを示した。
さらに、内部の大規模データセット上でのWukongのスケーラビリティを評価した。
その結果,Wukongは,100Gflopを超える,あるいはそれに相当する大規模言語モデル(GPT-3)トレーニング計算スケールの2桁のスケール法則を保ちながら,最先端のモデルよりも高品質を維持していることがわかった。
Scaling laws play an instrumental role in the sustainable improvement in model quality. Unfortunately, recommendation models to date do not exhibit such laws similar to those observed in the domain of large language models, due to the inefficiencies of their upscaling mechanisms. This limitation poses significant challenges in adapting these models to increasingly more complex real-world datasets. In this paper, we propose an effective network architecture based purely on stacked factorization machines, and a synergistic upscaling strategy, collectively dubbed Wukong, to establish a scaling law in the domain of recommendation. Wukong's unique design makes it possible to capture diverse, any-order of interactions simply through taller and wider layers. We conducted extensive evaluations on six public datasets, and our results demonstrate that Wukong consistently outperforms state-of-the-art models quality-wise. Further, we assessed Wukong's scalability on an internal, large-scale dataset. The results show that Wukong retains its superiority in quality over state-of-the-art models, while holding the scaling law across two orders of magnitude in model complexity, extending beyond 100 Gflop or equivalently up to Large Language Model (GPT-3) training compute scale, where prior arts fall short. | 翻訳日:2024-05-06 17:27:48 公開日:2024-05-02 |
# 耐震性ハードウェアトロイの木馬を用いた実用ステージ攻撃に向けて
Towards Practical Fabrication Stage Attacks Using Interrupt-Resilient Hardware Trojans ( http://arxiv.org/abs/2403.10659v2 ) ライセンス: Link先を確認 | Athanasios Moschos, Fabian Monrose, Angelos D. Keromytis, | (参考訳) 我々は、割り込み耐性トロイの木馬(IRT)と呼ばれる新しい種類のハードウェアトロイの木馬を紹介する。
我々の研究は、CPUに対するハードウェアトロイの木馬攻撃が、適切な攻撃シナリオ(例えば、ローカルシステムアクセスを持つ攻撃者)であっても、決定論的でないコンテキスト切替イベントによる予測不可能な影響を受けているという観察に動機づけられている。
実験で確認したように、これらのイベントはトリガー信号とトロイの木馬ペイロード(CPUメモリアクセスなど)がターゲットとするCPUイベントの間の競合状態を引き起こし、攻撃の信頼性に影響を与える可能性がある。
我々の研究は、割り込み耐性トロイの木馬がCPUの非決定的トリガ問題にうまく対処できることを示し、洗練されたハードウェアトロイの木馬攻撃の実装における信頼性の高い保証を提供する。
具体的には、Linux対応CPU設計に対する異なる攻撃シナリオでIRTをうまく利用し、コンテキストスイッチングイベントに対するレジリエンスを示す。
さらに,28nmの商用技術プロセスにおいて,テープアウト可能な高速RISC-Vマイクロアーキテクチャへの攻撃を,20ピコ秒の平均オーバーヘッド遅延で実装し,レイアウトのサインオフ特性をそのまま残しながら,シームレスな統合を実現していることを示す。
そこで我々は、強力なトロイの木馬を挿入するための後期サプライチェーンステージ(例えば、製造)の柔軟性の低さに関する共通の知恵に挑戦する。
マイクロプロセッサトロイの木馬のさらなる研究を促進するため,我々は設計をオープンソース化し,それに伴うソフトウェアロジックを提供する。
We introduce a new class of hardware trojans called interrupt-resilient trojans (IRTs). Our work is motivated by the observation that hardware trojan attacks on CPUs, even under favorable attack scenarios (e.g., an attacker with local system access), are affected by unpredictability due to non-deterministic context switching events. As we confirm experimentally, these events can lead to race conditions between trigger signals and the CPU events targeted by the trojan payloads (e.g., a CPU memory access), thus affecting the reliability of the attacks. Our work shows that interrupt-resilient trojans can successfully address the problem of non-deterministic triggering in CPUs, thereby providing high reliability guarantees in the implementation of sophisticated hardware trojan attacks. Specifically, we successfully utilize IRTs in different attack scenarios against a Linux-capable CPU design and showcase its resilience against context-switching events. More importantly, we show that our design allows for seamless integration during fabrication stage attacks.We evaluate different strategies for the implementation of our attacks on a tape-out ready high-speed RISC-V microarchitecture in a 28nm commercial technology process and successfully implement them with an average overhead delay of only 20 picoseconds, while leaving the sign-off characteristics of the layout intact. In doing so, we challenge the common wisdom regarding the low flexibility of late supply chain stages (e.g., fabrication) for the insertion of powerful trojans. To promote further research on microprocessor trojans, we open-source our designs and provide the accompanying supporting software logic. | 翻訳日:2024-05-06 17:27:48 公開日:2024-05-02 |
# 不変性を用いた行動に基づく表現の学習
Learning Action-based Representations Using Invariance ( http://arxiv.org/abs/2403.16369v2 ) ライセンス: Link先を確認 | Max Rudolph, Caleb Chuck, Kevin Black, Misha Lvovsky, Scott Niekum, Amy Zhang, | (参考訳) 高次元観測を用いた頑健な強化学習エージェントは、多くの異種性障害の中で、関連する状態の特徴を識別できなければならない。
制御可能性をキャプチャする表現は、エージェント制御に影響を与えるものを決定することによって、これらの状態要素を識別する。
逆ダイナミクスや相互情報キャプチャといった手法は、限られた時間ステップで制御可能であるが、長い水平要素をキャプチャすることは難しい問題である。
ミオピックコントロールは、エージェントが壁に入る直前の瞬間をキャプチャできるが、エージェントが遠くにいる間は、壁の制御関連性はない。
そこで本研究では,バイシミュレーション不変な擬似メトリックにインスパイアされた動作ビシミュレーション符号化を導入し,再帰的不変性制約を伴って単一ステップ制御性を拡張する。
これを行うことで、アクションビシミュレーションは、制御に関連する離れた状態の特徴を円滑に割引する、多段階の制御可能性指標を学ぶ。
本研究では、報酬のない一様ランダムなデータに基づく行動ビシミュレーション事前学習により、光現実性3DシミュレーションドメインHabitatを含む複数の環境におけるサンプル効率が向上することを示す。
さらに,動作ビシミュレーションによって得られた情報について,理論的解析と定性的な結果を提供する。
Robust reinforcement learning agents using high-dimensional observations must be able to identify relevant state features amidst many exogeneous distractors. A representation that captures controllability identifies these state elements by determining what affects agent control. While methods such as inverse dynamics and mutual information capture controllability for a limited number of timesteps, capturing long-horizon elements remains a challenging problem. Myopic controllability can capture the moment right before an agent crashes into a wall, but not the control-relevance of the wall while the agent is still some distance away. To address this we introduce action-bisimulation encoding, a method inspired by the bisimulation invariance pseudometric, that extends single-step controllability with a recursive invariance constraint. By doing this, action-bisimulation learns a multi-step controllability metric that smoothly discounts distant state features that are relevant for control. We demonstrate that action-bisimulation pretraining on reward-free, uniformly random data improves sample efficiency in several environments, including a photorealistic 3D simulation domain, Habitat. Additionally, we provide theoretical analysis and qualitative results demonstrating the information captured by action-bisimulation. | 翻訳日:2024-05-06 17:27:48 公開日:2024-05-02 |
# 基礎世界モデルを用いた自律ロボットのゼロショット安全予測
Zero-shot Safety Prediction for Autonomous Robots with Foundation World Models ( http://arxiv.org/abs/2404.00462v3 ) ライセンス: Link先を確認 | Zhenjiang Mao, Siqi Dai, Yuang Geng, Ivan Ruchkin, | (参考訳) 世界モデルは、コントローラを訓練し、システムの内部のダイナミックモデルを学ぶことによって安全違反を予測するために代理世界を作成する。
しかし、既存の世界モデルは、アクションに反応して観測がどのように変化するかの統計的学習のみに依存しており、サロゲート力学の正確さの正確な定量化が欠如しており、安全クリティカルなシステムにおいて大きな課題となっている。
この課題に対処するために,観測結果を意味的かつ因果的に潜伏した表現に埋め込む基礎世界モデルを提案する。
これにより、Surrogate dynamicsは、トレーニング不要な大規模言語モデルを活用することで、因果先状態を直接予測できる。
2つの一般的なベンチマークでは、この新モデルは安全予測タスクにおいて標準的な世界モデルよりも優れており、データを使用しないにもかかわらず教師付き学習に匹敵する性能を有する。
我々は、観測範囲の誤差を集約するのではなく、推定状態を比較することにより、より専門的でシステム関連度の高い測定値を用いて、その性能を評価する。
A world model creates a surrogate world to train a controller and predict safety violations by learning the internal dynamic model of systems. However, the existing world models rely solely on statistical learning of how observations change in response to actions, lacking precise quantification of how accurate the surrogate dynamics are, which poses a significant challenge in safety-critical systems. To address this challenge, we propose foundation world models that embed observations into meaningful and causally latent representations. This enables the surrogate dynamics to directly predict causal future states by leveraging a training-free large language model. In two common benchmarks, this novel model outperforms standard world models in the safety prediction task and has a performance comparable to supervised learning despite not using any data. We evaluate its performance with a more specialized and system-relevant metric by comparing estimated states instead of aggregating observation-wide error. | 翻訳日:2024-05-06 17:18:04 公開日:2024-05-02 |
# David and Goliath: ディープエッジにおけるQNNの攻撃と防御に関する実証的評価
David and Goliath: An Empirical Evaluation of Attacks and Defenses for QNNs at the Deep Edge ( http://arxiv.org/abs/2404.05688v2 ) ライセンス: Link先を確認 | Miguel Costa, Sandro Pinto, | (参考訳) MLはクラウドからエッジにシフトしています。
エッジコンピューティングは、プライベートデータを露出する表面を低減し、リアルタイムアプリケーションで信頼性の高いスループットを保証する。
エッジにデプロイされるデバイスのうち、リソースに制約のあるMCU、例えばArm Cortex-Mは、より一般的で、桁違いに安価で、アプリケーションプロセッサやGPUよりも電力消費が少ない。
したがって、ディープエッジでのインテリジェンスの実現はサイテジストであり、研究者はこれらの制約されたデバイスにANNをデプロイするための新しいアプローチを公開することに重点を置いている。
量子化(quantization)は、ニューラルネットワークをMCUにデプロイする上で有効な確立されたテクニックだが、敵の例に直面したQNNの堅牢性を理解することは、依然としてオープンな疑問である。
このギャップを埋めるために、我々は(完全精度)ANNから(拘束された)QNNへの攻撃と防御の有効性を実証的に評価した。
評価には、TinyMLアプリケーションをターゲットにした3つのQNN、10回の攻撃、6回の防御が含まれている。
本研究では,本研究から興味深い知見が得られた。
第一に、量子化は決定境界までの点距離を増大させ、いくつかの攻撃によって見積もられた勾配を爆発または消滅させる。
第二に、量子化は雑音の大きさによってノイズ減衰器や増幅器として機能し、勾配のずれを引き起こす。
対向防御については,入力前処理防衛は小さな摂動に対して印象的な結果を示すが,摂動が増加するにつれて低下する。
同時に、列車ベースの防御は、定量化後に保持される決定境界への平均点距離を増大させる。
しかし、QNNに対する対向的なサンプル転送性に対処するために、電車による防御は量子化シフトと勾配の誤調整現象を円滑にする必要があると論じる。
成果の独立した検証を可能にするため、すべての成果物はオープンソースである。
ML is shifting from the cloud to the edge. Edge computing reduces the surface exposing private data and enables reliable throughput guarantees in real-time applications. Of the panoply of devices deployed at the edge, resource-constrained MCUs, e.g., Arm Cortex-M, are more prevalent, orders of magnitude cheaper, and less power-hungry than application processors or GPUs. Thus, enabling intelligence at the deep edge is the zeitgeist, with researchers focusing on unveiling novel approaches to deploy ANNs on these constrained devices. Quantization is a well-established technique that has proved effective in enabling the deployment of neural networks on MCUs; however, it is still an open question to understand the robustness of QNNs in the face of adversarial examples. To fill this gap, we empirically evaluate the effectiveness of attacks and defenses from (full-precision) ANNs on (constrained) QNNs. Our evaluation includes three QNNs targeting TinyML applications, ten attacks, and six defenses. With this study, we draw a set of interesting findings. First, quantization increases the point distance to the decision boundary and leads the gradient estimated by some attacks to explode or vanish. Second, quantization can act as a noise attenuator or amplifier, depending on the noise magnitude, and causes gradient misalignment. Regarding adversarial defenses, we conclude that input pre-processing defenses show impressive results on small perturbations; however, they fall short as the perturbation increases. At the same time, train-based defenses increase the average point distance to the decision boundary, which holds after quantization. However, we argue that train-based defenses still need to smooth the quantization-shift and gradient misalignment phenomenons to counteract adversarial example transferability to QNNs. All artifacts are open-sourced to enable independent validation of results. | 翻訳日:2024-05-06 17:18:04 公開日:2024-05-02 |
# 注意駆動型マルチエージェント強化学習:エキスパートインフォームドタスクによる意思決定の強化
Attention-Driven Multi-Agent Reinforcement Learning: Enhancing Decisions with Expertise-Informed Tasks ( http://arxiv.org/abs/2404.05840v2 ) ライセンス: Link先を確認 | Andre R Kuroswiski, Annie S Wu, Angelo Passaro, | (参考訳) 本稿では,ドメイン知識とアテンションに基づく政策機構を統合することで,MARL(Multi-Agent Reinforcement Learning)を強化するための代替手法を提案する。
本手法は,協調行動の開発を簡略化する学習プロセスにドメイン特化専門知識を取り入れることに重点を置いている。
このアプローチは、エージェントが複雑なタスクの本質的な側面に集中できるようにし、学習曲線を最適化することにより、MARLに典型的な複雑性と学習オーバーヘッドを減らすことを目的としている。
注意機構の利用は,我々のモデルにおいて重要な役割を担っている。
動的コンテキストデータの効率的な処理とニュアンスされたエージェントインタラクションを可能にし、より洗練された意思決定につながる。
本手法は,Stanford Intelligent Systems Laboratory (SISL) Pursuit and Multi-Particle Environments (MPE) Simple Spreadなどの標準的なMARLシナリオに適用し,学習効率と協調行動の有効性を両立させる。
その結果、我々の注意に基づくアプローチは、MARLトレーニングプロセスの効率を向上し、ドメイン固有の知識をアクションレベルで統合するための有効なアプローチである可能性が示唆された。
In this paper, we introduce an alternative approach to enhancing Multi-Agent Reinforcement Learning (MARL) through the integration of domain knowledge and attention-based policy mechanisms. Our methodology focuses on the incorporation of domain-specific expertise into the learning process, which simplifies the development of collaborative behaviors. This approach aims to reduce the complexity and learning overhead typically associated with MARL by enabling agents to concentrate on essential aspects of complex tasks, thus optimizing the learning curve. The utilization of attention mechanisms plays a key role in our model. It allows for the effective processing of dynamic context data and nuanced agent interactions, leading to more refined decision-making. Applied in standard MARL scenarios, such as the Stanford Intelligent Systems Laboratory (SISL) Pursuit and Multi-Particle Environments (MPE) Simple Spread, our method has been shown to improve both learning efficiency and the effectiveness of collaborative behaviors. The results indicate that our attention-based approach can be a viable approach for improving the efficiency of MARL training process, integrating domain-specific knowledge at the action level. | 翻訳日:2024-05-06 17:18:04 公開日:2024-05-02 |
# 言語モデルにおける(Near)duplicateサブワードの効果について
On the Effect of (Near) Duplicate Subwords in Language Modelling ( http://arxiv.org/abs/2404.06508v2 ) ライセンス: Link先を確認 | Anton Schäfer, Thomas Hofmann, Imanol Schlag, Tiago Pimentel, | (参考訳) トークン化は言語モデル(LM)の中核部分である。
文字列をサブワードに分割し、任意のインデックスが割り当てられてLMに渡される。
文字レベルの情報を除去するので、LMが Now や Now のような類似のサブワードをまたいで一般化することが難しくなる可能性がある。
我々はそのような副語をほぼ重複として言及する。
本稿では,ほぼ重複したサブワードがLMトレーニング効率に与える影響について検討する。
まず、ほぼ重複するモデルを完全に一般化できれば、モデルがどの程度改善されるか、という上限を与える実験を設計する。
私たちは、LMの語彙で各サブワードを複製し、完全に等価なサブワードのクラスを作成します。
実験により、完全に複製された環境でのトレーニングでは、LMには約17%以上のデータが必要であることがわかった。
第2に,複製近傍の自然発生がLMに与える影響について検討した。
ここでは、それらのマージがLMのパフォーマンスを著しく損なうことが分かります。
したがって、サブワード重複はLMトレーニング効率に悪影響を及ぼすが、自然に重複の近くで起こることは予想されるほどに似ていないため、性能改善の可能性を制限することができる。
Tokenisation is a core part of language models (LMs). It involves splitting a character sequence into subwords which are assigned arbitrary indices before being served to the LM. While typically lossless, however, this process may lead to less sample efficient LM training: as it removes character-level information, it could make it harder for LMs to generalise across similar subwords, such as now and Now. We refer to such subwords as near duplicates. In this paper, we study the impact of near duplicate subwords on LM training efficiency. First, we design an experiment that gives us an upper bound to how much we should expect a model to improve if we could perfectly generalise across near duplicates. We do this by duplicating each subword in our LM's vocabulary, creating perfectly equivalent classes of subwords. Experimentally, we find that LMs need roughly 17% more data when trained in a fully duplicated setting. Second, we investigate the impact of naturally occurring near duplicates on LMs. Here, we see that merging them considerably hurts LM performance. Therefore, although subword duplication negatively impacts LM training efficiency, naturally occurring near duplicates may not be as similar as anticipated, limiting the potential for performance improvements. | 翻訳日:2024-05-06 17:18:04 公開日:2024-05-02 |
# ハードネガティブサンプリングによるハイパーボリックメトリック学習の理解
Understanding Hyperbolic Metric Learning through Hard Negative Sampling ( http://arxiv.org/abs/2404.15523v2 ) ライセンス: Link先を確認 | Yun Yue, Fangzhou Lin, Guanyi Mou, Ziming Zhang, | (参考訳) 近年,双曲幾何学手法をコンピュータビジョンに取り入れる傾向が高まっている。
これらの手法は、双曲距離測定を用いた様々な計量学習タスクにおいて最先端の性能を達成しているが、この優れた性能を支える基礎となる理論的分析は未解明のままである。
本研究では,ハイパーボリック空間をメトリクス学習に統合することの効果について検討する。
既存の文献における対照的な損失における温度効果に関するユークリッド空間と双曲空間の包括的比較の必要性を明らかにする。
このギャップに対処するために、ユークリッド空間と双曲空間の損失を組み合わせたハイブリッド目的関数を用いて視覚変換器(ViT)の結果のベンチマークを行う。
さらに,観測された性能改善に関する理論的分析を行った。
また,双曲的メートル法学習は強陰性サンプリングに強く関連しており,今後の研究に洞察を与えていることも明らかにした。
この研究は、双曲像の埋め込みを理解するための貴重なデータポイントと経験を提供する。
問題の解決と、私たちのアプローチのさらなる調査を促進するために、私たちのコードはオンラインで利用可能です(https://github.com/YunYunY/HypMix.)。
In recent years, there has been a growing trend of incorporating hyperbolic geometry methods into computer vision. While these methods have achieved state-of-the-art performance on various metric learning tasks using hyperbolic distance measurements, the underlying theoretical analysis supporting this superior performance remains under-exploited. In this study, we investigate the effects of integrating hyperbolic space into metric learning, particularly when training with contrastive loss. We identify a need for a comprehensive comparison between Euclidean and hyperbolic spaces regarding the temperature effect in the contrastive loss within the existing literature. To address this gap, we conduct an extensive investigation to benchmark the results of Vision Transformers (ViTs) using a hybrid objective function that combines loss from Euclidean and hyperbolic spaces. Additionally, we provide a theoretical analysis of the observed performance improvement. We also reveal that hyperbolic metric learning is highly related to hard negative sampling, providing insights for future work. This work will provide valuable data points and experience in understanding hyperbolic image embeddings. To shed more light on problem-solving and encourage further investigation into our approach, our code is available online (https://github.com/YunYunY/HypMix). | 翻訳日:2024-05-06 17:08:18 公開日:2024-05-02 |
# TimeFlows: 異種情報オブジェクトのVastコレクションからプロセス年表を可視化する
TimeFlows: Visualizing Process Chronologies from Vast Collections of Heterogeneous Information Objects ( http://arxiv.org/abs/2404.16051v2 ) ライセンス: Link先を確認 | Max Lonysa Muller, Erik Saaman, Jan Martijn E. M. van der Werf, Charles Jeurgens, Hajo A. Reijers, | (参考訳) 多くの事実調査、特に議会の審問において、プロセス・クロノロジーは、議論を呼ぶ政策や決定がいかに成立するかを再構築するために作成される。
タイムラインのような現在のアプローチでは、歴史的出来事が全体の年代と結びつく可能性のある様々な関係を表現するための表現力が欠如している。
これは、イベント間の相互依存の性質と、それらが蒸留されるテキストを曖昧にする。
専門家との爆発的なインタビューに基づいて、我々は、拡張されたリッチな関係セットを提案する。
どのようにしてTimeFlowsとして視覚化できるかを説明します。
オランダの近年の政治に深く影響した「児童養護給付詐欺」を解説し、このような可視化の例を挙げる。
この研究は、構造化されていない情報オブジェクトから反復的でないプロセスを公開する方向について、既存のプロセス発見研究の範囲を広げる。
In many fact-finding investigations, notably parliamentary inquiries, process chronologies are created to reconstruct how a controversial policy or decision came into existence. Current approaches, like timelines, lack the expressiveness to represent the variety of relations in which historic events may link to the overall chronology. This obfuscates the nature of the interdependence among the events, and the texts from which they are distilled. Based on explorative interviews with expert analysts, we propose an extended, rich set of relationships. We describe how these can be visualized as TimeFlows. We provide an example of such a visualization by illustrating the Childcare Benefits Scandal -- an affair that deeply affected Dutch politics in recent years. This work extends the scope of existing process discovery research into the direction of unveiling non-repetitive processes from unstructured information objects. | 翻訳日:2024-05-06 17:08:18 公開日:2024-05-02 |
# 視覚変換器を用いた表面熱画像からの溶融プール深さパターン予測の深層学習
Deep Learning for Melt Pool Depth Contour Prediction From Surface Thermal Images via Vision Transformers ( http://arxiv.org/abs/2404.17699v2 ) ライセンス: Link先を確認 | Francis Ogoke, Peter Myung-Won Pak, Alexander Myers, Guadalupe Quirarte, Jack Beuth, Jonathan Malen, Amir Barati Farimani, | (参考訳) レーザー粉層融合(L-PBF)で生成する溶融プール間の十分な重なり合いは、融解欠陥の欠如と機械的および疲労性能の低下につながる可能性がある。
溶融プール地下形態のその場監視には、容易にアクセスできない、または拡張性のない特殊な装置が必要である。
そこで本研究では,高速カラーイメージングにより観察された2色熱画像と溶融プール断面の2次元形状を相関付ける機械学習フレームワークを提案する。
具体的には,光顕微鏡を用いて測定した単一ビーズオフ軸熱画像列と溶融プール断面輪郭との相関関係を確立するために,ハイブリッドCNN-Transformerアーキテクチャを用いる。
このアーキテクチャでは、ResNetモデルは熱画像に含まれる空間情報を潜伏ベクトルに埋め込むが、Transformerモデルは埋め込みベクトルのシーケンスを相関付け、時間情報を抽出する。
本フレームワークは, 地下融解プール構造の曲率をモデル化し, 解析的融解プールモデルと比較して高エネルギー密度モデルの性能を向上させることができる。
本モデルの性能は, 実験用メルトプール観測と比較し, 次元および幾何学的比較により評価した。
Insufficient overlap between the melt pools produced during Laser Powder Bed Fusion (L-PBF) can lead to lack-of-fusion defects and deteriorated mechanical and fatigue performance. In-situ monitoring of the melt pool subsurface morphology requires specialized equipment that may not be readily accessible or scalable. Therefore, we introduce a machine learning framework to correlate in-situ two-color thermal images observed via high-speed color imaging to the two-dimensional profile of the melt pool cross-section. Specifically, we employ a hybrid CNN-Transformer architecture to establish a correlation between single bead off-axis thermal image sequences and melt pool cross-section contours measured via optical microscopy. In this architecture, a ResNet model embeds the spatial information contained within the thermal images to a latent vector, while a Transformer model correlates the sequence of embedded vectors to extract temporal information. Our framework is able to model the curvature of the subsurface melt pool structure, with improved performance in high energy density regimes compared to analytical melt pool models. The performance of this model is evaluated through dimensional and geometric comparisons to the corresponding experimental melt pool observations. | 翻訳日:2024-05-06 17:08:18 公開日:2024-05-02 |
# 超伝導回路における近距離非線形光物質結合
Near-ultrastrong nonlinear light-matter coupling in superconducting circuits ( http://arxiv.org/abs/2404.19199v2 ) ライセンス: Link先を確認 | Yufeng Ye, Jeremy B. Kline, Alec Yen, Gregory Cunningham, Max Tan, Alicia Zang, Michael Gingras, Bethany M. Niedzielski, Hannah Stickler, Kyle Serniak, Mollie E. Schwartz, Kevin P. O'Brien, | (参考訳) 原子と共振器の電磁モードの相互作用は基本的関心事であり、量子技術においてユビキタスである。
多くの先行研究は、$g \widehat{\sigma}_x (\widehat{a} + \widehat{a}^\dagger)$という形の線形光物質結合を研究しており、ここで、$g$はフォトニック(\omega_a$)およびアトミック(\omega_b$)モードの周波数は超強規則(g/\omega_{a}\!
>\!
10^{-1}$)。
対照的に、$\frac{\chi}{2} \widehat{\sigma}_z \widehat{a}^\dagger \widehat{a}$ という形の非線形光物質結合は、原子$\widehat{\sigma}_z$ とフォトニック $\widehat{a}^\dagger\widehat{a}$ Hamiltonian との交換の利点があり、量子非破壊測定のような基本的な操作を可能にする。
しかし、非線形結合の摂動的性質のため、最先端の $\chi/\text{max}(\omega_a, \omega_b)$ は $\!
<\!
10-2 ドル。
ここでは、クォートンカップラを特徴とする超伝導回路アーキテクチャを用いて、超伝導人工原子とニアリニア共振器との非線形結合を初めて実証する。
また、光の非線形結合 (\chi\widehat{a}^\dagger\widehat{a}\widehat{b}^\dagger\widehat{b}$) と$\chi/2\pi = 580.3 \pm 0.4 $ MHz matter-matter linear coupling (\frac{\chi}{4}\widehat{\sigma}_{z,a}\widehat{\sigma}_{z,b}$) のシグネチャを示す。
このような光の非線形結合強度の進歩、物質モードは新たな物理レシエーションを可能にし、より高速な量子ビットの読み出しやゲートのような応用につながる可能性がある。
The interaction between an atom and an electromagnetic mode of a resonator is of both fundamental interest and is ubiquitous in quantum technologies. Most prior work studies a linear light-matter coupling of the form $g \widehat{\sigma}_x (\widehat{a} + \widehat{a}^\dagger)$, where $g$ measured relative to photonic ($\omega_a$) and atomic ($\omega_b$) mode frequencies can reach the ultrastrong regime ($g/\omega_{a}\!>\!10^{-1}$). In contrast, a nonlinear light-matter coupling of the form $\frac{\chi}{2} \widehat{\sigma}_z \widehat{a}^\dagger \widehat{a}$ has the advantage of commuting with the atomic $\widehat{\sigma}_z$ and photonic $\widehat{a}^\dagger\widehat{a}$ Hamiltonian, allowing for fundamental operations such as quantum-non-demolition measurement. However, due to the perturbative nature of nonlinear coupling, the state-of-the-art $\chi/\text{max}(\omega_a, \omega_b)$ is limited to $\!<\!10^{-2}$. Here, we use a superconducting circuit architecture featuring a quarton coupler to experimentally demonstrate, for the first time, a near-ultrastrong $\chi/\text{max}(\omega_a, \omega_b)= (4.852\pm0.006)\times10^{-2}$ nonlinear coupling of a superconducting artificial atom and a nearly-linear resonator. We also show signatures of light-light nonlinear coupling ($\chi\widehat{a}^\dagger\widehat{a}\widehat{b}^\dagger\widehat{b}$), and $\chi/2\pi = 580.3 \pm 0.4 $ MHz matter-matter nonlinear coupling ($\frac{\chi}{4}\widehat{\sigma}_{z,a}\widehat{\sigma}_{z,b}$) which represents the largest reported $ZZ$ interaction between two coherent qubits. Such advances in the nonlinear coupling strength of light, matter modes enable new physical regimes and could lead to applications such as orders of magnitude faster qubit readout and gates. | 翻訳日:2024-05-06 16:58:34 公開日:2024-05-02 |
# 変分量子回路の正則化によるトレーニング性の向上
Improving Trainability of Variational Quantum Circuits via Regularization Strategies ( http://arxiv.org/abs/2405.01606v1 ) ライセンス: Link先を確認 | Jun Zhuang, Jack Cunningham, Chaowen Guan, | (参考訳) ノイズの多い中間規模量子 (NISQ) の時代において、変分量子回路 (VQC) は様々な領域で広く適用され、古典的モデルに対する量子回路の優位性を推し進めてきた。
古典モデルと同様に、正規のVQCは様々な勾配法で最適化できる。
しかし、最適化は最初は不毛の高原に閉じ込められたり、訓練中にサドルポイントに絡まっていたりすることができる。
これらの勾配問題は、VQCの訓練性を著しく損なう可能性がある。
本研究では,列車データとガウス雑音拡散の事前知識を用いてモデルパラメータを正規化する手法を提案する。
我々は,4つの公開データセットにおける戦略の有効性を検証するためのアブレーション研究を行い,上記の勾配問題に対するVQCのトレーニング性の向上を実証した。
In the era of noisy intermediate-scale quantum (NISQ), variational quantum circuits (VQCs) have been widely applied in various domains, advancing the superiority of quantum circuits against classic models. Similar to classic models, regular VQCs can be optimized by various gradient-based methods. However, the optimization may be initially trapped in barren plateaus or eventually entangled in saddle points during training. These gradient issues can significantly undermine the trainability of VQC. In this work, we propose a strategy that regularizes model parameters with prior knowledge of the train data and Gaussian noise diffusion. We conduct ablation studies to verify the effectiveness of our strategy across four public datasets and demonstrate that our method can improve the trainability of VQCs against the above-mentioned gradient issues. | 翻訳日:2024-05-06 15:04:28 公開日:2024-05-02 |
# 森林火災のリスク予測 : レビュー
Wildfire Risk Prediction: A Review ( http://arxiv.org/abs/2405.01607v1 ) ライセンス: Link先を確認 | Zhengsen Xu, Jonathan Li, Linlin Xu, | (参考訳) 森林火災は地球規模の植生、野生生物、人間に重大な影響を及ぼす。
植物群落や野生生物の生息地を破壊し、二酸化炭素、酸化窒素、メタン、その他の汚染物質の排出の増加に貢献している。
山火事の予測は、回帰や機械学習の手法と組み合わせた様々な独立変数に依存している。
本稿では,独立変数の選択肢,データ処理手法,モデル,独立変数のコリニアリティと重要度推定手法,モデル性能評価指標について述べる。
まず,独立変数を気候・気象条件,社会経済的要因,地形・水文学的特徴,山火事の歴史記録の4つの側面に分けた。
第二に、前処理法は、大きさ、空間時間分解能、データの異なるフォーマットについて記述する。
第3に、独立変数のコリニアリティと重要度評価方法についても検討する。
第4に、山火事リスク予測における統計モデル、従来の機械学習モデル、ディープラーニングモデルの適用について論じる。
本項では,他のレビューと比較して,特に評価指標と近年のディープラーニング手法の進歩について論じる。
最後に,本研究の限界に対処するため,より効果的な深層学習時系列予測アルゴリズムの必要性,地上および幹燃料を含む3次元データの利用,より正確な歴史的火点データの抽出,モデル評価指標の改善等を強調した。
Wildfires have significant impacts on global vegetation, wildlife, and humans. They destroy plant communities and wildlife habitats and contribute to increased emissions of carbon dioxide, nitrogen oxides, methane, and other pollutants. The prediction of wildfires relies on various independent variables combined with regression or machine learning methods. In this technical review, we describe the options for independent variables, data processing techniques, models, independent variables collinearity and importance estimation methods, and model performance evaluation metrics. First, we divide the independent variables into 4 aspects, including climate and meteorology conditions, socio-economical factors, terrain and hydrological features, and wildfire historical records. Second, preprocessing methods are described for different magnitudes, different spatial-temporal resolutions, and different formats of data. Third, the collinearity and importance evaluation methods of independent variables are also considered. Fourth, we discuss the application of statistical models, traditional machine learning models, and deep learning models in wildfire risk prediction. In this subsection, compared with other reviews, this manuscript particularly discusses the evaluation metrics and recent advancements in deep learning methods. Lastly, addressing the limitations of current research, this paper emphasizes the need for more effective deep learning time series forecasting algorithms, the utilization of three-dimensional data including ground and trunk fuel, extraction of more accurate historical fire point data, and improved model evaluation metrics. | 翻訳日:2024-05-06 15:04:28 公開日:2024-05-02 |
# ソフトウェアライフサイクルによる自動テストに関する総合的研究
A Comprehensive Study on Automated Testing with the Software Lifecycle ( http://arxiv.org/abs/2405.01608v1 ) ライセンス: Link先を確認 | Hussein Mohammed Ali, Mahmood Yashar Hamza, Tarik Ahmed Rashid, | (参考訳) ソフトウェア開発ライフサイクルはテストプロセスに大きく依存します。
ソフトウェアテストは、手動と自動の2つの方法で行うことができる。
ソフトウェアライフサイクルにおける主要な機能、一般にテストの関連性、それに伴う利点に重点を置いて、この記事では、自動テストの徹底的なレビューを行う。
ソフトウェアテストのための時間と費用効率のよい方法を見つける。
この研究は、自動テストがソフトウェアの品質を評価するのをいかに簡単にするか、手動テストと比べてどのように時間を節約するか、そして利点と欠点の観点から、それぞれのテストとどのように違うかを調べる。
ソフトウェアアプリケーションのテストプロセスは、単純化され、特定のテスト状況に合わせてカスタマイズされ、自動テストツールを使用してうまく実行される。
The software development lifecycle depends heavily on the testing process, which is an essential part of finding issues and reviewing the quality of software. Software testing can be done in two ways: manually and automatically. With an emphasis on its primary function within the software lifecycle, the relevance of testing in general, and the advantages that come with it, this article aims to give a thorough review of automated testing. Finding time- and cost-effective methods for software testing. The research examines how automated testing makes it easier to evaluate software quality, how it saves time as compared to manual testing, and how it differs from each of them in terms of benefits and drawbacks. The process of testing software applications is simplified, customized to certain testing situations, and can be successfully carried out by using automated testing tools. | 翻訳日:2024-05-06 15:04:28 公開日:2024-05-02 |
# デジタルメディアによる公衆衛生分析と生物多様性に対する態度の自動化
Automating the Analysis of Public Saliency and Attitudes towards Biodiversity from Digital Media ( http://arxiv.org/abs/2405.01610v1 ) ライセンス: Link先を確認 | Noah Giebink, Amrita Gupta, Diogo Verìssimo, Charlotte H. Chang, Tony Chang, Angela Brennan, Brett Dickson, Alex Bowmer, Jonathan Baillie, | (参考訳) 野生生物に対する公衆の態度を測定することは、自然との関係に重要な洞察を与え、グローバル生物多様性フレームワークの目標に向けた進捗を監視するのに役立ちます。
しかし、このような評価を世界規模で行うことは困難である。
ニュースやソーシャルメディアを検索するための検索用語を手作業でキュレートするのは面倒でコストがかかり、バイアスのある結果につながる可能性がある。
クエリから返される生ニュースやソーシャルメディアデータは、無関係なコンテンツやシンジケートされた記事で混乱することが多い。
我々は,現代の自然言語処理(NLP)ツールを活用することで,これらの課題を克服することを目指している。
本稿では,検索語生成の改善のための民生分類法を導入し,用語頻度-逆文書頻度ベクトルのコサイン類似性を利用して,シンジケートされた記事のフィルタリングを行う。
また、教師なし学習を用いて共通のトピックを明らかにする拡張可能な関連性フィルタリングパイプラインを導入し、その後、オープンソースのゼロショット大言語モデル(LLM)を用いてニュース記事のタイトルにトピックを割り当て、関連性を割り当てる。
最後に、結果データに対する感情、話題、ボリューム分析を行う。
我々は、コウモリ、パンゴリン、ゾウ、ゴリラなど、さまざまな哺乳類の分類群について、新型コロナウイルスパンデミック前後のニュースとX(旧Twitter)データをケーススタディで分析した。
データ収集期間中、コウモリに関するキーワードを含む記事の62%は生物多様性とは無関係と見なされ、関連フィルタリングの重要性が強調された。
パンデミックの開始時に、パンデミックに関係していたコウモリに対する体積増加と大きな感情変化が見られたが、他の焦点分類には及ばなかった。
提案手法は, 生物多様性の認知度を明らかにするため, 近代的, 新興のNLPツールを応用した保護実践者への扉を開くものである。
Measuring public attitudes toward wildlife provides crucial insights into our relationship with nature and helps monitor progress toward Global Biodiversity Framework targets. Yet, conducting such assessments at a global scale is challenging. Manually curating search terms for querying news and social media is tedious, costly, and can lead to biased results. Raw news and social media data returned from queries are often cluttered with irrelevant content and syndicated articles. We aim to overcome these challenges by leveraging modern Natural Language Processing (NLP) tools. We introduce a folk taxonomy approach for improved search term generation and employ cosine similarity on Term Frequency-Inverse Document Frequency vectors to filter syndicated articles. We also introduce an extensible relevance filtering pipeline which uses unsupervised learning to reveal common topics, followed by an open-source zero-shot Large Language Model (LLM) to assign topics to news article titles, which are then used to assign relevance. Finally, we conduct sentiment, topic, and volume analyses on resulting data. We illustrate our methodology with a case study of news and X (formerly Twitter) data before and during the COVID-19 pandemic for various mammal taxa, including bats, pangolins, elephants, and gorillas. During the data collection period, up to 62% of articles including keywords pertaining to bats were deemed irrelevant to biodiversity, underscoring the importance of relevance filtering. At the pandemic's onset, we observed increased volume and a significant sentiment shift toward horseshoe bats, which were implicated in the pandemic, but not for other focal taxa. The proposed methods open the door to conservation practitioners applying modern and emerging NLP tools, including LLMs "out of the box," to analyze public perceptions of biodiversity during current events or campaigns. | 翻訳日:2024-05-06 15:04:28 公開日:2024-05-02 |
# 生成モデル評価のための高精度リコールメトリクスの統一と拡張
Unifying and extending Precision Recall metrics for assessing generative models ( http://arxiv.org/abs/2405.01611v1 ) ライセンス: Link先を確認 | Benjamin Sykes, Loic Simon, Julien Rabin, | (参考訳) 近年,画像およびテキストにおける生成モデルの成功により,生成モデルの評価が注目されている。
ほとんどの生成モデルは、Frechet Inception Distance (FID) やInception Score (IS) のようなスカラー値で比較されるが、過去数年間(Sajjadi et al , 2018)では、2つの分布の近接性を特徴づける精度-リコール曲線の定義を提案した。
それ以来、精度とリコールに関する様々なアプローチが光を見てきた(Kynkaanniemi et al , 2019; Naeem et al , 2020; Park & Kim, 2023)。
彼らは正確さとリコールの極端な価値に注意を向けるが、この事実とは別に、彼らの関係は明白である。
本稿では,これらのアプローチのほとんどを同一の傘の下で統一し,Simon et al , 2019。
そうすることで、曲線全体を復元するだけでなく、関連するメトリクスの落とし穴を説明できるのです。
また、対応する文献で示される結果を超える一貫性のある結果も提供します。
最後に,実験により得られた曲線の異なる挙動について検討した。
With the recent success of generative models in image and text, the evaluation of generative models has gained a lot of attention. Whereas most generative models are compared in terms of scalar values such as Frechet Inception Distance (FID) or Inception Score (IS), in the last years (Sajjadi et al., 2018) proposed a definition of precision-recall curve to characterize the closeness of two distributions. Since then, various approaches to precision and recall have seen the light (Kynkaanniemi et al., 2019; Naeem et al., 2020; Park & Kim, 2023). They center their attention on the extreme values of precision and recall, but apart from this fact, their ties are elusive. In this paper, we unify most of these approaches under the same umbrella, relying on the work of (Simon et al., 2019). Doing so, we were able not only to recover entire curves, but also to expose the sources of the accounted pitfalls of the concerned metrics. We also provide consistency results that go well beyond the ones presented in the corresponding literature. Last, we study the different behaviors of the curves obtained experimentally. | 翻訳日:2024-05-06 15:04:28 公開日:2024-05-02 |
# ソフトウェアマネジメントにおける効果的な委任とリーダーシップ
Effective Delegation and Leadership in Software Management ( http://arxiv.org/abs/2405.01612v1 ) ライセンス: Link先を確認 | Star Dawood Mirkhan, Skala Kamaran Omer, Hussein Mohammed Ali, Mahmood Yashar Hamza, Tarik Ahmed Rashid, Poornima Nedunchezhian, | (参考訳) デリゲートとリーダーシップは、ソフトウェア開発プロセスの成功を決定する上で重要な役割を果たすため、ソフトウェア管理の重要な要素である。
本研究では,ソフトウェア管理におけるデリゲートとリーダーシップの関係と,これらの要因がプロジェクト成果に与える影響について検討した。
その結果、効果的な委譲と変革的なリーダシップスタイルは、ワークフローを改善し、チームのモチベーションと生産性を高め、最終的にはソフトウェア開発プロジェクトを成功させる可能性があることが示されました。
組織やソフトウェアマネージャは、ソフトウェア開発イニシアチブの成功を確実にするために、効果的な委譲とリーダーシップのプラクティスの開発を優先すべきである。
ソフトウェア管理におけるデリゲートとリーダーシップの複雑な相互作用を調査し、これらのプロセスを改善するためのベストプラクティスを特定するためには、さらなる研究が必要である。
Delegation and leadership are critical components of software management, as they play a crucial role in determining the success of the software development process. This study examined the relationship between delegation and leadership in software management and the impact of these factors on project outcomes. Results showed that effective delegation and transformational leadership styles can improve workflow, enhance team motivation and productivity, and ultimately lead to successful software development projects. The findings of this study have important implications for software management practices, as they suggest that organizations and software managers should prioritize the development of effective delegation and leadership practices to ensure the success of their software development initiatives. Further research is needed to explore the complex interplay between delegation and leadership in software management and to identify best practices for improving these processes. | 翻訳日:2024-05-06 15:04:28 公開日:2024-05-02 |
# 検閲された時間-時間データから有用寿命の確率論的推定
A probabilistic estimation of remaining useful life from censored time-to-event data ( http://arxiv.org/abs/2405.01614v1 ) ライセンス: Link先を確認 | Christian Marius Lillelund, Fernando Pannullo, Morten Opprud Jakobsen, Manuel Morante, Christian Fischer Pedersen, | (参考訳) ボールベアリングの残りの有用寿命(RUL)を予測することは, 予測維持において重要な役割を担っている。
RULの一般的な定義は、軸受がもはや機能しなくなるまでの時間であり、我々はイベントと表現し、RULを予測するために多くのデータ駆動手法が提案されている。
しかし、この現象が観察されず、単にこれらの観測を無視しただけで失敗リスクの過大評価につながるという検閲データの問題に対処する研究はほとんどない。
本稿では,検閲データをサポートする生存分析を用いたRULの確率的推定を提案する。
まず,現在のプロセスの確率密度関数(PDF)と参照PDFとの間のKL(Kullback-Leibler)のばらつきを計算し,周波数領域におけるボールベアリングからのセンサ読み取りを分析し,ベアリングが劣化し始めるとアノテートする。
第二に、アノテートされた軸受データセット上の生存モデルをトレーニングし、生存関数を用いて有限時間水平線上でRULを予測する。
この関数は厳密に単調に減少することが保証され、残りの寿命を直感的に推定する。
我々は,クロスバリデーションを用いたXJTU-SYデータセットのアプローチを実証し,平均絶対誤差(MAE)の観点から,ランダムサバイバルフォレストがニューラルネットワークとニューラルネットワークの両方を一貫して上回ることを示した。
我々の研究は、予測保守モデルに検閲データを組み込むことを奨励し、確率的RUL推定や早期故障検出において生存分析がもたらす独特な利点を強調した。
Predicting the remaining useful life (RUL) of ball bearings plays an important role in predictive maintenance. A common definition of the RUL is the time until a bearing is no longer functional, which we denote as an event, and many data-driven methods have been proposed to predict the RUL. However, few studies have addressed the problem of censored data, where this event of interest is not observed, and simply ignoring these observations can lead to an overestimation of the failure risk. In this paper, we propose a probabilistic estimation of RUL using survival analysis that supports censored data. First, we analyze sensor readings from ball bearings in the frequency domain and annotate when a bearing starts to deteriorate by calculating the Kullback-Leibler (KL) divergence between the probability density function (PDF) of the current process and a reference PDF. Second, we train several survival models on the annotated bearing dataset, capable of predicting the RUL over a finite time horizon using the survival function. This function is guaranteed to be strictly monotonically decreasing and is an intuitive estimation of the remaining lifetime. We demonstrate our approach in the XJTU-SY dataset using cross-validation and find that Random Survival Forests consistently outperforms both non-neural networks and neural networks in terms of the mean absolute error (MAE). Our work encourages the inclusion of censored data in predictive maintenance models and highlights the unique advantages that survival analysis offers when it comes to probabilistic RUL estimation and early fault detection. | 翻訳日:2024-05-06 15:04:28 公開日:2024-05-02 |
# 強化学習における進化戦略とハードThresholding
Hard-Thresholding Meets Evolution Strategies in Reinforcement Learning ( http://arxiv.org/abs/2405.01615v1 ) ライセンス: Link先を確認 | Chengqian Gao, William de Vazelhes, Hualin Zhang, Bin Gu, Zhiqiang Xu, | (参考訳) Evolution Strategies (ES) はモデルレス強化学習の競争相手として登場し、Mujoco や Atari といったタスクにおける模範的なパフォーマンスを示している。
特に、それらは不完全な報酬関数を持つシナリオで輝き、高密度の報酬信号が取り除かれるような現実世界のアプリケーションでは重要ではない。
しかし、すべての入力特徴がタスク関連であるというES固有の仮定は、特に現実世界の問題に共通する無関係な特徴に直面している場合、課題を提起する。
この研究は、特に自然進化戦略(NES)の亜種に焦点を当てて、この制限を精査している。
本稿では,HT(Hard-Thresholding)とNESを統合したNESHTを提案する。
厳密な分析と実証テストによって支援されたNESHTは、無関係な機能の落とし穴を軽減し、ノイズの多いMujocoやAtariタスクのような複雑な意思決定問題に光を当てるという、その約束を実証している。
Evolution Strategies (ES) have emerged as a competitive alternative for model-free reinforcement learning, showcasing exemplary performance in tasks like Mujoco and Atari. Notably, they shine in scenarios with imperfect reward functions, making them invaluable for real-world applications where dense reward signals may be elusive. Yet, an inherent assumption in ES, that all input features are task-relevant, poses challenges, especially when confronted with irrelevant features common in real-world problems. This work scrutinizes this limitation, particularly focusing on the Natural Evolution Strategies (NES) variant. We propose NESHT, a novel approach that integrates Hard-Thresholding (HT) with NES to champion sparsity, ensuring only pertinent features are employed. Backed by rigorous analysis and empirical tests, NESHT demonstrates its promise in mitigating the pitfalls of irrelevant features and shines in complex decision-making problems like noisy Mujoco and Atari tasks. | 翻訳日:2024-05-06 15:04:28 公開日:2024-05-02 |
# 小分子タンパク質結合体探索のための生成能動的学習
Generative Active Learning for the Search of Small-molecule Protein Binders ( http://arxiv.org/abs/2405.01616v1 ) ライセンス: Link先を確認 | Maksym Korablyov, Cheng-Hao Liu, Moksh Jain, Almer M. van der Sloot, Eric Jolicoeur, Edward Ruediger, Andrei Cristian Nica, Emmanuel Bengio, Kostiantyn Lapchevskyi, Daniel St-Cyr, Doris Alexandra Schuetz, Victor Ion Butoi, Jarrid Rector-Brooks, Simon Blackburn, Leo Feng, Hadi Nekoei, SaiKrishna Gottipati, Priyesh Vijayan, Prateek Gupta, Ladislav Rampášek, Sasikanth Avancha, Pierre-Luc Bacon, William L. Hamilton, Brooks Paige, Sanchit Misra, Stanislaw Kamil Jastrzebski, Bharat Kaul, Doina Precup, José Miguel Hernández-Lobato, Marwin Segler, Michael Bronstein, Anne Marinier, Mike Tyers, Yoshua Bengio, | (参考訳) 近年の科学的発見のための機械学習の進歩にもかかわらず、興味のある性質を示す小さな分子の真にデ・ノボ設計は大きな課題である。
我々は、合成可能な分子を探索するための生成能動的学習アプローチであるLambdaZeroを紹介する。
LambdaZeroは、深層強化学習の力を借りて、分子の広大な空間を探索して、望ましい性質を持つ候補を見つける。
我々はLambdaZeroに分子ドッキングを施し、酵素可溶性エポキシドヒドロラーゼ2(sEH)を阻害する新規な小分子を設計し、合成性および薬物類似性に制約を課す。
LambdaZeroは高価な分子ドッキングオラクルへの呼び出し数で指数関数的なスピードアップを提供し、LambdaZero de novoの設計した分子はドッキングスコアに達する。
重要なことに、LambdaZeroはsEHの合成可能な薬物様阻害剤の新たな足場を発見した。
In vitro実験では、生成キナゾリン系足場からの一連のリガンドが合成され、リード阻害剤N-(4,6-di(pyrrolidin-1-yl)quinazolin-2-yl)-N-methylbenzamide (UM0152893)がsEHのサブミクロモル酵素阻害を示した。
Despite substantial progress in machine learning for scientific discovery in recent years, truly de novo design of small molecules which exhibit a property of interest remains a significant challenge. We introduce LambdaZero, a generative active learning approach to search for synthesizable molecules. Powered by deep reinforcement learning, LambdaZero learns to search over the vast space of molecules to discover candidates with a desired property. We apply LambdaZero with molecular docking to design novel small molecules that inhibit the enzyme soluble Epoxide Hydrolase 2 (sEH), while enforcing constraints on synthesizability and drug-likeliness. LambdaZero provides an exponential speedup in terms of the number of calls to the expensive molecular docking oracle, and LambdaZero de novo designed molecules reach docking scores that would otherwise require the virtual screening of a hundred billion molecules. Importantly, LambdaZero discovers novel scaffolds of synthesizable, drug-like inhibitors for sEH. In in vitro experimental validation, a series of ligands from a generated quinazoline-based scaffold were synthesized, and the lead inhibitor N-(4,6-di(pyrrolidin-1-yl)quinazolin-2-yl)-N-methylbenzamide (UM0152893) displayed sub-micromolar enzyme inhibition of sEH. | 翻訳日:2024-05-06 15:04:28 公開日:2024-05-02 |
# 若年性特発性関節炎患児における顎関節病変検出のための説明可能なコンフォーマルAIモデル
An Explainable and Conformal AI Model to Detect Temporomandibular Joint Involvement in Children Suffering from Juvenile Idiopathic Arthritis ( http://arxiv.org/abs/2405.01617v1 ) ライセンス: Link先を確認 | Lena Todnem Bach Christensen, Dikte Straadt, Stratos Vassis, Christian Marius Lillelund, Peter Bangsgaard Stoustrup, Ruben Pauwels, Thomas Klit Pedersen, Christian Fischer Pedersen, | (参考訳) 若年性特発性関節炎(JIA)は小児期および青年期で最も多い慢性関節リウマチである。
顎関節症(顎関節症)はJIA患者において最も頻度の高い関節の1つであり, 顎の成長は小児における顎関節関節の関節的変化に対して特に脆弱である。
臨床検査は、TMJの関与を診断するための最も費用対効果の高い方法であるが、臨床医は、臨床検査でのみ使用される場合、解釈し、不正確であると判断する。
本研究は、臨床医がTMJの関与を評価するのに役立つ説明可能な人工知能(AI)モデルを実装した。
分類モデルは,1035名の小児患者(女性67%,男性33%)の6154名を対象にランダムフォレストを用いて訓練し,TMJの関与を正しく分類する能力について検討した。
その結果,初診後2年以内にTMJの精度0.86,感度0.7と分類できることが示唆された。
その結果,子供におけるTMJの関与評価や意思決定支援ツールとしてのAIモデルの実現が期待できることがわかった。
Juvenile idiopathic arthritis (JIA) is the most common rheumatic disease during childhood and adolescence. The temporomandibular joints (TMJ) are among the most frequently affected joints in patients with JIA, and mandibular growth is especially vulnerable to arthritic changes of the TMJ in children. A clinical examination is the most cost-effective method to diagnose TMJ involvement, but clinicians find it difficult to interpret and inaccurate when used only on clinical examinations. This study implemented an explainable artificial intelligence (AI) model that can help clinicians assess TMJ involvement. The classification model was trained using Random Forest on 6154 clinical examinations of 1035 pediatric patients (67% female, 33% male) and evaluated on its ability to correctly classify TMJ involvement or not on a separate test set. Most notably, the results show that the model can classify patients within two years of their first examination as having TMJ involvement with a precision of 0.86 and a sensitivity of 0.7. The results show promise for an AI model in the assessment of TMJ involvement in children and as a decision support tool. | 翻訳日:2024-05-06 15:04:28 公開日:2024-05-02 |
# 予熱期における相互作用する準周期スピン鎖
Interacting quasiperiodic spin chains in the prethermal regime ( http://arxiv.org/abs/2405.01622v1 ) ライセンス: Link先を確認 | Yi-Ting Tu, David M. Long, Sankar Das Sarma, | (参考訳) 強い不規則な相互作用を持つスピン鎖における多体局在(MBL)の研究の最近の進歩は、有限時間前熱的挙動と長い時間と大きな体積漸近とを区別することの重要性を強調している。
準周期的に乱れた鎖の非エルゴディック拡張(NEE)機構をこの観点から再検討し、この機構が予熱的特徴であることを示す。
実際、NEE体制はスピンスピン自己相関関数の関数形式の変化によって特定される可能性があり、中間時間力学においてNEE体制が識別可能であることを示す。
これは、NEE則と1粒子スペクトルにおける漸近移動エッジの存在に関する既存の予想とは対照的である。
そこで本研究では,スピン鎖の漸近特性に依存しないNEE構造の形成機構を提案する。
すなわち、障害ポテンシャルの深い井戸が周期的に空間化されているため、NEE体制が出現することを提案する。
高度に劣化した部位は、システム全体のスピン輸送を抑制し、チェーンを効果的に切断し、異なる演算子の拡散の間の時間スケールの分離を生成する。
この提案を支持するために、NEE現象は、深部井戸を持つランダムモデルでも、モビリティエッジのないモデルでも発生し、モビリティエッジを持つ準周期モデルでは発生しないが、深部井戸を持たないモデルでは発生しないことを示す。
以上の結果から, 予熱期における準周期系とランダムに乱れた系の力学には, 明確な違いはないという結論が得られた。
より具体的には、一般的な相互作用準周期モデルは、その単一粒子移動エッジから生じる安定な中間動的位相を持たず、そのようなモデルにおけるNEE現象は過渡的である。
Recent progress in the study of many-body localization (MBL) in strongly disordered interacting spin chains has emphasized the importance of distinguishing finite time prethermal behavior from long time and large volume asymptotics. We re-examine a reported non-ergodic extended (NEE) regime in quasiperiodically disordered chains from this perspective, and propose that this regime is a prethermal feature. Indeed, we argue that the NEE regime may be identified through a change in the functional form of spin-spin autocorrelation functions, demonstrating that the NEE regime is distinguishable within intermediate-time dynamics. This is in contrast with existing conjectures relating the NEE regime to the presence of an asymptotic mobility edge in the single-particle spectrum. Thus, we propose a mechanism for the formation of an NEE regime which does not rely on asymptotic properties of the spin chain. Namely, we propose that the NEE regime emerges due to regularly spaced deep wells in the disorder potential. The highly detuned sites suppress spin transport across the system, effectively cutting the chain, and producing a separation of time scales between the spreading of different operators. To support this proposal, we show that the NEE phenomenology also occurs in random models with deep wells but with no mobility edges, and does not occur in quasiperiodic models with mobility edges but with no deep wells. Our results support the broad conclusion that there is not a sharp distinction between the dynamics of quasiperiodically and randomly disordered systems in the prethermal regime. More specifically, we find that generic interacting quasiperiodic models do not have stable intermediate dynamical phases arising from their single-particle mobility edges, and that NEE phenomenology in such models is transient. | 翻訳日:2024-05-06 15:04:28 公開日:2024-05-02 |
# 医学・産業・その他における画像セグメンテーションにおける説明可能なAI(XAI)
Explainable AI (XAI) in Image Segmentation in Medicine, Industry, and Beyond: A Survey ( http://arxiv.org/abs/2405.01636v1 ) ライセンス: Link先を確認 | Rokas Gipiškis, Chun-Wei Tsai, Olga Kurasova, | (参考訳) 人工知能(XAI)はコンピュータビジョンに多くの応用を見出した。
画像分類に基づく説明可能性技術は注目されているが、セマンティックセグメンテーションの手法は比較的無視されている。
画像のセグメンテーションは、医療から産業への展開まで広く使われているため、これらの技術は体系的な外観を保証している。
本稿では,セマンティックイメージセグメンテーションにおけるXAIの総合的な調査について紹介する。
この研究は、高密度な予測タスクのために特別に導入された技術や、既存の手法を分類して拡張された技術に焦点を当てている。
我々は、アプリケーションカテゴリとドメイン、および使用される評価指標とデータセットに基づいて、文献を分析し、分類する。
また,解釈可能なセマンティックセグメンテーションのための分類法を提案し,潜在的な課題と今後の研究方向性について議論する。
Artificial Intelligence (XAI) has found numerous applications in computer vision. While image classification-based explainability techniques have garnered significant attention, their counterparts in semantic segmentation have been relatively neglected. Given the prevalent use of image segmentation, ranging from medical to industrial deployments, these techniques warrant a systematic look. In this paper, we present the first comprehensive survey on XAI in semantic image segmentation. This work focuses on techniques that were either specifically introduced for dense prediction tasks or were extended for them by modifying existing methods in classification. We analyze and categorize the literature based on application categories and domains, as well as the evaluation metrics and datasets used. We also propose a taxonomy for interpretable semantic segmentation, and discuss potential challenges and future research directions. | 翻訳日:2024-05-06 15:04:28 公開日:2024-05-02 |
# 一次元PT対称量子臨界における普遍非エルミート流
Universal non-Hermitian flow in one-dimensional PT-symmetric quantum criticalities ( http://arxiv.org/abs/2405.01640v1 ) ライセンス: Link先を確認 | Xin-Chi Zhou, Ke Wang, | (参考訳) 位相相転移の臨界点は共形場理論(CFT)によって記述され、基底状態エネルギーに対する有限サイズの補正はその中心電荷と一意に関係している。
非エルミート的Su-Schrieffer-Heeger(SSH)モデルのエネルギーの有限サイズスケーリングについて、パリティ対称性と時間反転対称性(\mathcal{PT}$)対称性について検討する。
開境界条件 (OBC) の下では、エネルギースケーリング$E(L)\sim c/L$ は非エルミート臨界点において負中心電荷$c=-2$ を、非ユニタリ CFT の指標として明らかにする。
さらに,Dirac CFT から$c=1$ のシステムの流れを,$c=-2$ の非単位 CFT へキャプチャする普遍的スケーリング関数が発見された。
スケーリング関数は、位相的に非自明で、臨界点の自明な側で異なる挙動を示す。
特に、トポロジカル臨界点の領域において、スケーリング関数は普遍的なライズ・ディップ・ライズ・ライズ・パターンを示し、非エルミート的トポロジカル臨界点に固有の特異点を示す。
スケーリング関数の解析式は導出され、数値結果とよく一致している。
The critical point of a topological phase transition is described by a conformal field theory (CFT), where the finite-size corrections to the ground state energy are uniquely related to its central charge. We study the finite-size scaling of the energy of non-Hermitian Su-Schrieffer-Heeger (SSH) model with parity and time-reversal symmetry ($\mathcal{PT}$) symmetry. We find that under open boundary condition (OBC), the energy scaling $E(L)\sim c/L$ reveals a negative central charge $c=-2$ at the non-Hermitian critical point, indicative of a non-unitary CFT. Furthermore, we discover a universal scaling function capturing the flow of a system from Dirac CFT with $c=1$ to a non-unitary CFT with $c=-2$. The scaling function demonstrates distinct behaviors at topologically non-trivial and trivial sides of critical points. Notably, within the realm of topological criticality, the scaling function exhibits an universal rise-dip-rise pattern, manifesting a characteristic singularity inherent in the non-Hermitian topological critical points. The analytic expression of the scaling function has been derived and is in good agreement with the numerical results. | 翻訳日:2024-05-06 14:54:33 公開日:2024-05-02 |
# カオス的、局所的、および積分可能なオープン量子多体系におけるスペクトル形成因子
Spectral form factor in chaotic, localized, and integrable open quantum many-body systems ( http://arxiv.org/abs/2405.01641v1 ) ライセンス: Link先を確認 | Jiachen Li, Stephen Yan, Tomaž Prosen, Amos Chan, | (参考訳) 我々は,量子カオス(あるいはその欠如)のシグネチャとして,オープン量子多体系(OQMBS)のスペクトル統計を,スペクトル形状因子の複素スペクトルへの一般化である散逸スペクトル形状因子(DSFF)を用いて数値的に研究する。
カオス OQMBS の DSFF は、閉量子系におけるガウスアンサンブルの線形ランププレート挙動とは対照的に、ランダム行列理論から、ジニブレアンサンブルの$\textit{quadratic}$ ramp-plateau の振る舞いを一般化的に表示する。
さらに、多体相互作用が存在する場合、そのような RMT の挙動は、時間尺度 $\tau_{\mathrm{dev}}$ の後にのみ現れる。
ランダム行列理論の振る舞いの普遍性は、ランダムクラウス回路(量子チャネル)やランダムリンドブラディアン(リウヴィリアス)を含む12種類のOQMBSモデルや、SYK(Sachdev-Ye-Kitaev)、XXZ(英語版)、横フィールドイジングモデル(英語版)といったパラダイムモデルのリンドブラディアン(英語版)を調査することによって実証される。
我々は、カオスな OQMBS のために、DSFF の普遍的な RMT 様のシグネチャを隠蔽する状態の平均密度の変動を取り除くために、展開とフィルタリングの手順を考案した。
カオスなOQMBSの他に、非カオスなOQMBSのスペクトル統計、特に、確率行列理論の傾斜板挙動とは異なるDSFF挙動を示す多体局所化(MBL)系における積分可能なXXモデルとシステムについて検討する。
最後に、ハミルトニアン項をゼロとするリンドブラディアンのDSFFについて研究し、すなわちジャンプ作用素のみが存在することを示し、RMTの普遍性と多体Thouless時間のスケーリングの結果がコヒーレントな進化を伴わずに生き残ることを示した。
We numerically study the spectral statistics of open quantum many-body systems (OQMBS) as signatures of quantum chaos (or the lack thereof), using the dissipative spectral form factor (DSFF), a generalization of the spectral form factor to complex spectra. We show that the DSFF of chaotic OQMBS generically displays the $\textit{quadratic}$ ramp-plateau behaviour of the Ginibre ensemble from random matrix theory, in contrast to the linear ramp-plateau behaviour of the Gaussian ensemble in closed quantum systems. Furthermore, in the presence of many-body interactions, such RMT behaviour emerges only after a time scale $\tau_{\mathrm{dev}}$, which generally increases with system size for sufficiently large system size, and can be identified as the non-Hermitian analogue of the $\textit{many-body Thouless time}$. The universality of the random matrix theory behavior is demonstrated by surveying twelve models of OQMBS, including random Kraus circuits (quantum channels) and random Lindbladians (Liouvillians) in several symmetry classes, as well as Lindbladians of paradigmatic models such as the Sachdev-Ye-Kitaev (SYK), XXZ, and the transverse field Ising models. We devise an unfolding and filtering procedure to remove variations of the averaged density of states which would otherwise hide the universal RMT-like signatures in the DSFF for chaotic OQMBS. Beyond chaotic OQMBS, we study the spectral statistics of non-chaotic OQMBS, specifically the integrable XX model and a system in the many-body localized (MBL) regime in the presence of dissipation, which exhibit DSFF behaviours distinct from the ramp-plateau behaviour of random matrix theory. Lastly, we study the DSFF of Lindbladians with the Hamiltonian term set to zero, i.e. only the jump operators are present, and demonstrate that the results of RMT universality and scaling of many-body Thouless time survive even without coherent evolution. | 翻訳日:2024-05-06 14:54:33 公開日:2024-05-02 |
# 臨界系における不均一量子カオスを利用したフロケット
Floquet engineered inhomogeneous quantum chaos in critical systems ( http://arxiv.org/abs/2405.01642v1 ) ライセンス: Link先を確認 | Bastien Lapierre, Tokiro Numasawa, Titus Neupert, Shinsei Ryu, | (参考訳) 我々は、空間的に不均一な共形場理論によって記述された、周期的に駆動される大規模臨界系の普遍カオス力学について研究する。
時間外相関器(OTOC)のリアプノフ指数が捉えた量子カオス相関の開始は、創発的なフロケ地平線のホーキング温度によって決定されることを示す。
さらに、量子情報のスクランブルは強い不均一性を示し、駆動パラメータをチューニングすることによってカオスから非カオス状態へ遷移する。
量子シミュレータでOTOCをシミュレートし,測定するための具体的なプロトコルを,我々のフレームワークを用いて提案した。
We study universal chaotic dynamics of a large class of periodically driven critical systems described by spatially inhomogeneous conformal field theories. By employing an effective curved spacetime approach, we show that the onset of quantum chaotic correlations, captured by the Lyapunov exponent of out-of-time-order correlators (OTOCs), is set by the Hawking temperature of emergent Floquet horizons. Furthermore, scrambling of quantum information is shown to be strongly inhomogeneous, leading to transitions from chaotic to non-chaotic regimes by tuning driving parameters. We finally use our framework to propose a concrete protocol to simulate and measure OTOCs in quantum simulators, by designing an efficient stroboscopic backward time evolution. | 翻訳日:2024-05-06 14:54:33 公開日:2024-05-02 |
# 多嚢胞性肝疾患と大腸癌CT像の転移を用いた分類ベース適応分割パイプラインの有用性の検討
A Classification-Based Adaptive Segmentation Pipeline: Feasibility Study Using Polycystic Liver Disease and Metastases from Colorectal Cancer CT Images ( http://arxiv.org/abs/2405.01644v1 ) ライセンス: Link先を確認 | Peilong Wang, Timothy L. Kline, Andy D. Missert, Cole J. Cook, Matthew R. Callstrom, Alex Chan, Robert P. Hartman, Zachary S. Kelm, Panagiotis Korfiatis, | (参考訳) 自動セグメンテーションツールは、異なる病理像に適用した場合、しばしば精度と適応性の問題に遭遇する。
本研究の目的は、特に訓練されたセグメンテーションモデルに効率的に画像をルーティングするワークフロー構築の可能性を検討することである。
画像を自動的に分類し、適切なセグメンテーションモデルにルーティングするディープラーニング分類器を実装することで、ワークフローが画像に異なる病理を正確に分割できることを期待する。
今回,多発性嚢胞性肝疾患患者350例のCT画像と大腸癌肝転移患者350例のCT画像を用いて検討した。
すべての画像は、訓練された画像分析官によって肝臓を手動でセグメント化していた。
提案した適応セグメンテーションワークフローは, 総肝セグメンテーションの課題に対して, 一般的なシングルセグメンテーションモデル (非パラメトリックウィルコクソン符号ランク試験, n=100, p-値<< 0.001) と比較して統計的に有意な改善が得られた。
このアプローチは幅広いシナリオに適用可能であり、セグメンテーションパイプラインの臨床的実装に有用であることが証明されるべきである。
Automated segmentation tools often encounter accuracy and adaptability issues when applied to images of different pathology. The purpose of this study is to explore the feasibility of building a workflow to efficiently route images to specifically trained segmentation models. By implementing a deep learning classifier to automatically classify the images and route them to appropriate segmentation models, we hope that our workflow can segment the images with different pathology accurately. The data we used in this study are 350 CT images from patients affected by polycystic liver disease and 350 CT images from patients presenting with liver metastases from colorectal cancer. All images had the liver manually segmented by trained imaging analysts. Our proposed adaptive segmentation workflow achieved a statistically significant improvement for the task of total liver segmentation compared to the generic single segmentation model (non-parametric Wilcoxon signed rank test, n=100, p-value << 0.001). This approach is applicable in a wide range of scenarios and should prove useful in clinical implementations of segmentation pipelines. | 翻訳日:2024-05-06 14:54:33 公開日:2024-05-02 |
# オブジェクトとプライバシに関連するモデルの説明
Explaining models relating objects and privacy ( http://arxiv.org/abs/2405.01646v1 ) ライセンス: Link先を確認 | Alessio Xompero, Myriam Bontonou, Jean-Michel Arbona, Emmanouil Benetos, Andrea Cavallaro, | (参考訳) さまざまなコンテンツやプライバシーそのものの主観的な性質のために、画像がオンラインで共有する前にプライベートであるかどうかを正確に予測することは難しい。
本稿では,画像から抽出したオブジェクトを用いたプライバシモデルの評価を行い,画像がなぜプライベートであるかを判断する。
これらのモデルの決定を説明するために、我々は、どのオブジェクト(およびそれらの特徴のどれ)が、公開として予測される参照入力(つまり、画像に局所化されたオブジェクトは存在しない)に関して、プライバシ分類に関連があるかを識別し、定量化するために、特徴属性を使用する。
プライバシ決定の主要な要因は、個人カテゴリの存在と、その濃度であることを示す。
そのため、これらのモデルは、機密データ、車両の所有、インターネット活動、人々との公開画像(例えば、野外コンサートや有名なランドマークの隣の公共空間を歩いている人々)を含む文書を描写したプライベート画像の特定にほとんど失敗している。
将来のベンチマークのベースラインとして、個人の存在と信条に基づく2つの戦略を考案し、プライバシモデルの同等の分類性能を達成する。
Accurately predicting whether an image is private before sharing it online is difficult due to the vast variety of content and the subjective nature of privacy itself. In this paper, we evaluate privacy models that use objects extracted from an image to determine why the image is predicted as private. To explain the decision of these models, we use feature-attribution to identify and quantify which objects (and which of their features) are more relevant to privacy classification with respect to a reference input (i.e., no objects localised in an image) predicted as public. We show that the presence of the person category and its cardinality is the main factor for the privacy decision. Therefore, these models mostly fail to identify private images depicting documents with sensitive data, vehicle ownership, and internet activity, or public images with people (e.g., an outdoor concert or people walking in a public space next to a famous landmark). As baselines for future benchmarks, we also devise two strategies that are based on the person presence and cardinality and achieve comparable classification performance of the privacy models. | 翻訳日:2024-05-06 14:54:33 公開日:2024-05-02 |
# 論理型カリキュラムチューニングによる知識グラフによる複雑な推論の改善
Improving Complex Reasoning over Knowledge Graph with Logic-Aware Curriculum Tuning ( http://arxiv.org/abs/2405.01649v1 ) ライセンス: Link先を確認 | Tianle Xia, Liang Ding, Guojia Wan, Yibing Zhan, Bo Du, Dacheng Tao, | (参考訳) 不完全知識グラフ(KG)上で複雑な論理的クエリを答えることは困難である。
これまでのほとんどの研究は、エンティティ/リレーション埋め込みの学習と、ニューラルネットワークによる一階述語論理演算子のシミュレートに重点を置いていた。
しかし、それらは論理的推論を改善するために世界知識を共有することができないためにボトルネックとなり、結果として準最適性能をもたらす。
本稿では,大規模言語モデル(LLM)に基づく知識グラフ上の複雑な論理推論スキーマを提案する。
具体的には、任意の一階論理クエリを二分木分解により拡張し、LLMの推論能力を刺激する。
複雑な問合せの難易度に対処するため,我々はシンプルで柔軟な論理型学習フレームワークを設計する。
広く使われているデータセットに対する実験では、LACTは高度な手法よりも大幅に改善され(平均+5.5%のMRRスコアを得る)、新しい最先端技術を実現している。
コードとモデルはすぐにGitHubでリリースされ、抱きしめます。
Answering complex logical queries over incomplete knowledge graphs (KGs) is challenging. Most previous works have focused on learning entity/relation embeddings and simulating first-order logic operators with various neural networks. However, they are bottlenecked by the inability to share world knowledge to improve logical reasoning, thus resulting in suboptimal performance. In this paper, we propose a complex logical reasoning schema over knowledge graphs upon large language models (LLMs), containing a curriculum-based logical-aware instruction tuning framework, named LACT. Specifically, we augment the arbitrary first-order logical queries via binary tree decomposition, to stimulate the reasoning capability of LLMs. To address the difficulty gap among different types of complex queries, we design a simple and flexible logic-aware curriculum learning framework. Experiments across widely used datasets demonstrate that LACT has substantial improvements~(brings an average +5.5% MRR score) over advanced methods, achieving the new state-of-the-art. Our code and model will be released at GitHub and huggingface soon. | 翻訳日:2024-05-06 14:54:33 公開日:2024-05-02 |
# 量子ランダム回路における資源分布の幾何学的側面
Geometrical Aspects Of Resources Distribution In Quantum Random Circuits ( http://arxiv.org/abs/2405.01650v1 ) ライセンス: Link先を確認 | Andrés Camilo Granda Arango, Federico Hernan Holik, Giuseppe Sergioli, Roberto Giuntini, | (参考訳) 本研究では,量子乱数回路(QRC)によって生成される状態間で資源がどのように分配されるかを検討する。
マルチパーティの非局所性に焦点をあてるが、異なる絡み合いや非古典性対策に訴えて量子相関も分析する。
我々は、普遍的なゲートと非普遍的なゲートの集合を比較して、量子的優位性を説明する問題の洞察を得る。
理想的な(ノイズのない)中間規模量子(NISQ)デバイスで得られた結果を比較することで、あるデバイスが生成できる状態間の資源分布がどれほど堅牢であるかを定量化することを目的とした認証プロトコルの基礎を定めている。
In this work, we explore how resources are distributed among the states generated by quantum random circuits (QRC). We focus on multipartite non-locality, but we also analyze quantum correlations by appealing to different entanglement and non-classicality measures. We compare universal vs non-universal sets of gates to gain insight into the problem of explaining quantum advantage. By comparing the results obtained with ideal (noiseless) vs noisy intermediate-scale quantum (NISQ) devices, we lay the basis of a certification protocol, which aims to quantify how robust is the resources distribution among the states that a given device can generate. | 翻訳日:2024-05-06 14:54:33 公開日:2024-05-02 |
# 必要なのは、ロバストな診断のための複数のインスタンス学習フレームワーク
Key Patches Are All You Need: A Multiple Instance Learning Framework For Robust Medical Diagnosis ( http://arxiv.org/abs/2405.01654v1 ) ライセンス: Link先を確認 | Diogo J. Araújo, M. Rita Verdelho, Alceu Bissoto, Jacinto C. Nascimento, Carlos Santiago, Catarina Barata, | (参考訳) 深層学習モデルは、優れたパフォーマンスのために、医療画像分析の分野に革命をもたらした。
しかし、それらは素早い相関に敏感であり、しばしばデータセットバイアスを利用してドメイン内のデータの結果を改善するが、一般化能力を損なう。
本稿では,MIL(Multiple Case Learning)フレームワークを用いて,モデルが最終分類に達するために使用する情報量を制限することを提案する。
MILは、イメージ内のパッチの(小さな)サブセットのみを使用することを強制し、識別領域を識別する。
これは、医学的決定が局所的な発見に基づいて行われる臨床手順を模倣する。
皮膚内視鏡検査による皮膚癌診断とマンモグラフィーによる乳癌診断の2つの医学的応用について検討した。
その結果,パッチのサブセットのみを使用することで,ベースラインアプローチと比較して,ドメイン内のデータの診断性能を損なうことはないことがわかった。
しかし,我々のアプローチは,患者の人口動態の変化に対してより堅牢であり,また,どの地域が決定に寄与したか,より詳細な説明を提供する。
コードは、https://github.com/diogojpa99/MedicalMultiple-Instance-Learningで入手できる。
Deep learning models have revolutionized the field of medical image analysis, due to their outstanding performances. However, they are sensitive to spurious correlations, often taking advantage of dataset bias to improve results for in-domain data, but jeopardizing their generalization capabilities. In this paper, we propose to limit the amount of information these models use to reach the final classification, by using a multiple instance learning (MIL) framework. MIL forces the model to use only a (small) subset of patches in the image, identifying discriminative regions. This mimics the clinical procedures, where medical decisions are based on localized findings. We evaluate our framework on two medical applications: skin cancer diagnosis using dermoscopy and breast cancer diagnosis using mammography. Our results show that using only a subset of the patches does not compromise diagnostic performance for in-domain data, compared to the baseline approaches. However, our approach is more robust to shifts in patient demographics, while also providing more detailed explanations about which regions contributed to the decision. Code is available at: https://github.com/diogojpa99/MedicalMultiple-Instance-Learning. | 翻訳日:2024-05-06 14:54:33 公開日:2024-05-02 |
# S4: スペクトルを横断するセルフ・スーパービジョン・センシング
S4: Self-Supervised Sensing Across the Spectrum ( http://arxiv.org/abs/2405.01656v1 ) ライセンス: Link先を確認 | Jayanth Shenoy, Xinjian Davis Zhang, Shlok Mehrotra, Bill Tao, Rem Yang, Han Zhao, Deepak Vasisht, | (参考訳) 衛星画像時系列(SITS)セグメンテーションは、環境モニタリング、土地被覆マッピング、農作物の種類分類など、多くの用途に欠かせない。
しかし、SITSセグメンテーションのトレーニングモデルは、詳細なアノテーションを必要とする豊富なトレーニングデータがないため、依然として困難な課題である。
我々は,2つの新たな洞察を生かしてラベル付きトレーニングデータの要求を大幅に低減する,自己指導型事前学習手法S4を提案する。
(a)衛星は、電波周波数や可視周波数などのスペクトルの異なる部分の画像を取得する。
(b)衛星画像は、微細な空間アライメントが可能なジオ登録されている。
これらの知見をS4における事前学習タスクの定式化に活用する。
また、S4の代表的な事前学習データとして機能する、ラベルなし、空間整列、マルチモーダル、地理的特化SITSの大規模データセットであるm2s2-SITSをキュレートする。
最後に、複数のSITSセグメンテーションデータセット上でS4を評価し、ラベル付き限られたデータを用いて競合するベースラインに対して有効性を示す。
Satellite image time series (SITS) segmentation is crucial for many applications like environmental monitoring, land cover mapping and agricultural crop type classification. However, training models for SITS segmentation remains a challenging task due to the lack of abundant training data, which requires fine grained annotation. We propose S4 a new self-supervised pre-training approach that significantly reduces the requirement for labeled training data by utilizing two new insights: (a) Satellites capture images in different parts of the spectrum such as radio frequencies, and visible frequencies. (b) Satellite imagery is geo-registered allowing for fine-grained spatial alignment. We use these insights to formulate pre-training tasks in S4. We also curate m2s2-SITS, a large-scale dataset of unlabeled, spatially-aligned, multi-modal and geographic specific SITS that serves as representative pre-training data for S4. Finally, we evaluate S4 on multiple SITS segmentation datasets and demonstrate its efficacy against competing baselines while using limited labeled data. | 翻訳日:2024-05-06 14:54:33 公開日:2024-05-02 |
# MMIST-ccRCC:マルチモーダルシステム開発のための実世界医療データセット
MMIST-ccRCC: A Real World Medical Dataset for the Development of Multi-Modal Systems ( http://arxiv.org/abs/2405.01658v1 ) ライセンス: Link先を確認 | Tiago Mota, M. Rita Verdelho, Alceu Bissoto, Carlos Santiago, Catarina Barata, | (参考訳) さまざまなデータモダリティの獲得は、さまざまな病気の知識と理解を高め、よりパーソナライズされたヘルスケアへの道を開くことができる。
したがって、医療は、大量のマルチモーダルデータ(分子、放射線学、病理学)の生成に向かって徐々に進んでいる。
これは、データ中心の機械学習アプローチを収益化するのに理想的な環境のように思えるかもしれないが、ほとんどのメソッドは、さまざまな理由から、シングルまたはペアのモダリティを探索することに重点を置いている。
一 キュレートされたデータセットを使用する準備ができていないこと。
二 最良のマルチモーダル核融合戦略を特定することの難しさ及び
三 患者間のモダリティの欠如
本報告では,鮮明な細胞腎細胞癌(ccRCC)618例の2つの放射線学的モダリティ(CTとMRI),病理組織学,ゲノム学,臨床データからなるMMIST-CCRCCと呼ばれる実世界のマルチモーダルデータセットについて紹介する。
我々は、各患者の1つ以上の欠失モダリティの挑戦シナリオにおいて、12ヶ月の生存予測のタスクにおいて、単一およびマルチモーダル(早期および後期融合)ベンチマークを提供し、その欠失率は、ゲノムデータに対して26$\%$から90$\%$までの範囲である。
このような深刻な欠落率であっても、モダリティの融合は生存予測の改善につながることを示す。
さらに、利用可能なモダリティが不足しているモダリティの潜在表現を生成する戦略を取り入れることで、パフォーマンスがさらに向上し、モダリティ間の潜在的な相補性が強調される。
私たちのデータセットとコードはこちらで利用可能です。
The acquisition of different data modalities can enhance our knowledge and understanding of various diseases, paving the way for a more personalized healthcare. Thus, medicine is progressively moving towards the generation of massive amounts of multi-modal data (\emph{e.g,} molecular, radiology, and histopathology). While this may seem like an ideal environment to capitalize data-centric machine learning approaches, most methods still focus on exploring a single or a pair of modalities due to a variety of reasons: i) lack of ready to use curated datasets; ii) difficulty in identifying the best multi-modal fusion strategy; and iii) missing modalities across patients. In this paper we introduce a real world multi-modal dataset called MMIST-CCRCC that comprises 2 radiology modalities (CT and MRI), histopathology, genomics, and clinical data from 618 patients with clear cell renal cell carcinoma (ccRCC). We provide single and multi-modal (early and late fusion) benchmarks in the task of 12-month survival prediction in the challenging scenario of one or more missing modalities for each patient, with missing rates that range from 26$\%$ for genomics data to more than 90$\%$ for MRI. We show that even with such severe missing rates the fusion of modalities leads to improvements in the survival forecasting. Additionally, incorporating a strategy to generate the latent representations of the missing modalities given the available ones further improves the performance, highlighting a potential complementarity across modalities. Our dataset and code are available here: https://multi-modal-ist.github.io/datasets/ccRCC | 翻訳日:2024-05-06 14:54:33 公開日:2024-05-02 |
# Redditのショーア思想のドメイン特化書体スタイル適応におけるワイト,クリエイティビティ,および大規模言語モデルの検出可能性の検討
Investigating Wit, Creativity, and Detectability of Large Language Models in Domain-Specific Writing Style Adaptation of Reddit's Showerthoughts ( http://arxiv.org/abs/2405.01660v1 ) ライセンス: Link先を確認 | Tolga Buz, Benjamin Frost, Nikola Genchev, Moritz Schneider, Lucie-Aimée Kaffee, Gerard de Melo, | (参考訳) 近年のLarge Language Models (LLM) は、人間の文章と区別が難しい、あるいは不可能なコンテンツを生成する能力を示している。
本研究は,Shower Thoughts領域の短い創造的テキストにおいて,人間の書体スタイルを再現する異なる大きさのLLMが,日常的な活動中に起こりうる思考を再現する能力について考察する。
GPT-2とGPT-NeoをRedditのデータで微調整し、GPT-3.5をゼロショットで実行し、人間によるテキストと比較した。
創造的で機知に富んだテキストの品質を考慮に入れた、特定の次元のテキストに対する人間の嗜好を測定する。
さらに、AI生成テキストを検出するための微調整RoBERTa分類器と人間の比較を行った。
人間の評価者は、生成したテキストの創造性について平均的にわずかに悪い評価を下すが、人間の文章とAI生成したテキストを確実に区別することはできないと結論付けている。
さらに、Reddit Shower Thoughtsの投稿に基づく創造的で知的なテキスト生成のためのデータセットも提供します。
Recent Large Language Models (LLMs) have shown the ability to generate content that is difficult or impossible to distinguish from human writing. We investigate the ability of differently-sized LLMs to replicate human writing style in short, creative texts in the domain of Showerthoughts, thoughts that may occur during mundane activities. We compare GPT-2 and GPT-Neo fine-tuned on Reddit data as well as GPT-3.5 invoked in a zero-shot manner, against human-authored texts. We measure human preference on the texts across the specific dimensions that account for the quality of creative, witty texts. Additionally, we compare the ability of humans versus fine-tuned RoBERTa classifiers to detect AI-generated texts. We conclude that human evaluators rate the generated texts slightly worse on average regarding their creative quality, but they are unable to reliably distinguish between human-written and AI-generated texts. We further provide a dataset for creative, witty text generation based on Reddit Showerthoughts posts. | 翻訳日:2024-05-06 14:54:33 公開日:2024-05-02 |
# 概念以上の意味を持つ関係:CoReXによる分類決定の探索と評価
When a Relation Tells More Than a Concept: Exploring and Evaluating Classifier Decisions with CoReX ( http://arxiv.org/abs/2405.01661v1 ) ライセンス: Link先を確認 | Bettina Finzel, Patrick Hilme, Johannes Rabold, Ute Schmid, | (参考訳) 入力画素の関連性に基づく畳み込みニューラルネットワーク(CNN)の解説は、どの入力特徴がモデル決定にどのように影響するかを評価するには、あまり特異ではないかもしれない。
特にバイオメディシンのような複雑な現実世界のドメインでは、特定の概念(例えば、特定の種類の細胞)の存在と、概念間の関係(例えば、ある細胞型が隣り合う)は、クラス(例えば、異なる種類の組織)間で識別される。
ピクセルの関連性はこの種の情報を伝えるのに十分ではない。
結果として、モデル評価は制限され、データに関連性があり、モデル決定に影響を与えることは見過ごされかねない。
本研究では,概念と関係に基づく説明器(CoReX)を用いて,CNNモデルの説明と評価を行う新しい手法を提案する。
決定過程から関連する概念をマスキングし,学習した解釈可能なサロゲートモデルにおける関係を拘束することにより,画像の集合上でのモデルの予測挙動を説明する。
いくつかの画像データセットとCNNアーキテクチャでアプローチをテストする。
結果から,CNNモデルに対するCReXの説明は予測結果に忠実であることが示唆された。
さらに,コレックスは誤分類や曖昧な分類の識別と再分類を支援するCNNの評価に適したツールであることを示す。
Explanations for Convolutional Neural Networks (CNNs) based on relevance of input pixels might be too unspecific to evaluate which and how input features impact model decisions. Especially in complex real-world domains like biomedicine, the presence of specific concepts (e.g., a certain type of cell) and of relations between concepts (e.g., one cell type is next to another) might be discriminative between classes (e.g., different types of tissue). Pixel relevance is not expressive enough to convey this type of information. In consequence, model evaluation is limited and relevant aspects present in the data and influencing the model decisions might be overlooked. This work presents a novel method to explain and evaluate CNN models, which uses a concept- and relation-based explainer (CoReX). It explains the predictive behavior of a model on a set of images by masking (ir-)relevant concepts from the decision-making process and by constraining relations in a learned interpretable surrogate model. We test our approach with several image data sets and CNN architectures. Results show that CoReX explanations are faithful to the CNN model in terms of predictive outcomes. We further demonstrate that CoReX is a suitable tool for evaluating CNNs supporting identification and re-classification of incorrect or ambiguous classifications. | 翻訳日:2024-05-06 14:54:33 公開日:2024-05-02 |
# 最後の畳み込み層が出力する高次元特徴の部分空間投影に基づく分布外検出
Out-of-distribution detection based on subspace projection of high-dimensional features output by the last convolutional layer ( http://arxiv.org/abs/2405.01662v1 ) ライセンス: Link先を確認 | Qiuyu Zhu, Yiwei He, | (参考訳) 信頼性のあるパターン分類に不可欠であるアウト・オブ・ディストリビューション(OOD)検出は、サンプルがトレーニング分布の外で発生したかどうかを識別する。
本稿では,リッチな画像特徴を含む最終畳み込み層によって出力される高次元特徴に焦点をあてる。
我々のキーとなるアイデアは、これらの高次元特徴を2つの特定の特徴部分空間に投影し、ネットワークの線形層の次元削減能力を活用することである。
これは、3つの射影角と特徴のノルム値のコサインを計算し、OOD検出を支援する非分布(ID)データとOODデータ特有の情報を識別する。
これに基づいて、完全連結層に先立ってバッチ正規化(BN)とReLU層を修正し、出力特性分布への影響を低減し、IDとOODデータ特徴間の分散ギャップを広げた。
本手法では,入力前処理や特定のOODデータの事前チューニングの必要性を排除し,分類ネットワークモデルのトレーニングのみを必要とする。
いくつかのベンチマークデータセットに対する大規模な実験は、我々のアプローチが最先端のパフォーマンスを提供することを示す。
私たちのコードはhttps://github.com/Hewell0/ProjOOD.comで公開されています。
Out-of-distribution (OOD) detection, crucial for reliable pattern classification, discerns whether a sample originates outside the training distribution. This paper concentrates on the high-dimensional features output by the final convolutional layer, which contain rich image features. Our key idea is to project these high-dimensional features into two specific feature subspaces, leveraging the dimensionality reduction capacity of the network's linear layers, trained with Predefined Evenly-Distribution Class Centroids (PEDCC)-Loss. This involves calculating the cosines of three projection angles and the norm values of features, thereby identifying distinctive information for in-distribution (ID) and OOD data, which assists in OOD detection. Building upon this, we have modified the batch normalization (BN) and ReLU layer preceding the fully connected layer, diminishing their impact on the output feature distributions and thereby widening the distribution gap between ID and OOD data features. Our method requires only the training of the classification network model, eschewing any need for input pre-processing or specific OOD data pre-tuning. Extensive experiments on several benchmark datasets demonstrates that our approach delivers state-of-the-art performance. Our code is available at https://github.com/Hewell0/ProjOOD. | 翻訳日:2024-05-06 14:54:33 公開日:2024-05-02 |
# ATNPA: グラフニューラルネットワークにおける過度な緩和の統一ビュー
ATNPA: A Unified View of Oversmoothing Alleviation in Graph Neural Networks ( http://arxiv.org/abs/2405.01663v1 ) ライセンス: Link先を確認 | Yufei Jin, Xingquan Zhu, | (参考訳) オーバースムーシングはグラフニューラルネットワーク(GNN)学習において一般的に見られる課題であり、レイヤが増加するにつれて、GNNから学んだ機能がすぐに類似/区別不能になり、ネットワーク近接を区別することができない。
浅い層構造を持つGNNは、短命関係や局所構造情報のみを学習することができ、異種グラフ上の劣等学習性能によって証明された長期接続の学習能力を制限することができる。
GNNのディープレイヤアーキテクチャを利用するには、オーバースムースな処理が不可欠だ。
これまで、過剰なスムーシングを緩和するために多くの方法が提案されてきた。
設計原則の背景にある大きな違いは、グラフの複雑さと組み合わせることで、過度にスムースに対処する際の彼らの違いを理解し、比較することさえ難しくなります。
本稿では,Augmentation, Transformation, Normalization, Propagation, Aggregationの5つの重要なステップを持つ統一的な視点であるATNPAを提案し,GNNの過度な緩和アプローチを要約する。
まず,3つのテーマを概説し,すべての手法を6つのカテゴリに分けた上で,ATNPAとの関係,ニッチ,強度,弱さに関する議論など,代表的手法の詳細なレビューを行った。
このレビューは,現場における既存手法の詳細な理解だけでなく,今後の研究に向けた明確なロードマップも示している。
Oversmoothing is a commonly observed challenge in graph neural network (GNN) learning, where, as layers increase, embedding features learned from GNNs quickly become similar/indistinguishable, making them incapable of differentiating network proximity. A GNN with shallow layer architectures can only learn short-term relation or localized structure information, limiting its power of learning long-term connection, evidenced by their inferior learning performance on heterophilous graphs. Tackling oversmoothing is crucial to harness deep-layer architectures for GNNs. To date, many methods have been proposed to alleviate oversmoothing. The vast difference behind their design principles, combined with graph complications, make it difficult to understand and even compare their difference in tackling the oversmoothing. In this paper, we propose ATNPA, a unified view with five key steps: Augmentation, Transformation, Normalization, Propagation, and Aggregation, to summarize GNN oversmoothing alleviation approaches. We first outline three themes to tackle oversmoothing, and then separate all methods into six categories, followed by detailed reviews of representative methods, including their relation to the ATNPA, and discussion about their niche, strength, and weakness. The review not only draws in-depth understanding of existing methods in the field, but also shows a clear road map for future study. | 翻訳日:2024-05-06 14:54:33 公開日:2024-05-02 |
# 多モードボソニック系における多重量子例外、ダイアボリック、ハイブリッド点:I. 継承された特異点と真の特異点
Multiple quantum exceptional, diabolical, and hybrid points in multimode bosonic systems: I. Inherited and genuine singularities ( http://arxiv.org/abs/2405.01666v1 ) ライセンス: Link先を確認 | Kishore Thapliyal, Jan Peřina Jr., Grzegorz Chimczak, Anna Kowalewska-Kudłaszyk, Adam Miranowicz, | (参考訳) 減衰および/または増幅を伴う最大5つのモードからなる単純なボソニック系の量子的例外、ダイアボリック、ハイブリッド(すなわち、ダイアボリックに分解された例外)の特異点の存在と退化を解析する。
二次非エルミート・ハミルトニアンによって支配されるそれらの力学は、ハイゼンベルク・ランゲヴィン方程式を用いて従う。
場の作用素の力学で直接観測される遺伝量子ハイブリッド点の観測条件は,3階の例外的および2階のダイアボリックデジェネシーを持つ。
第二次場-演算モーメントの力学で観測される例外的および図形的真の点とその退化について分析した。
驚くべきことに、2階と3階のみの例外的な退化が明らかにされている。
それにもかかわらず、解析されたボソニック系は、それらの2階のダイアボリックな退化のため、リッチなダイナミクスを示す。
The existence and degeneracies of quantum exceptional, diabolical, and hybrid (i.e., diabolically degenerated exceptional) singularities of simple bosonic systems composed of up to five modes with damping and/or amplification are analyzed. Their dynamics governed by quadratic non-Hermitian Hamiltonians is followed using the Heisenberg-Langevin equations. Conditions for the observation of inherited quantum hybrid points, observed directly in the dynamics of field operators, having up to third-order exceptional and second-order diabolical degeneracies are revealed. Exceptional and diabolical genuine points and their degeneracies observed in the dynamics of second-order field-operator moments are analyzed. Surprisingly, exceptional degeneracies of only second and third orders are revealed. Nevertheless the analyzed bosonic systems exhibit rich dynamics, also owing to their common second-order diabolical degeneracies. | 翻訳日:2024-05-06 14:54:33 公開日:2024-05-02 |
# 多モードボソニック系における多重量子例外、ダイアボリック、ハイブリッド点:II. 非伝統的なPT対称力学と一方向結合
Multiple quantum exceptional, diabolical, and hybrid points in multimode bosonic systems: II. Nonconventional PT-symmetric dynamics and unidirectional coupling ( http://arxiv.org/abs/2405.01667v1 ) ライセンス: Link先を確認 | Jan Peřina Jr., Kishore Thapliyal, Grzegorz Chimczak, Anna Kowalewska-Kudłaszyk, Adam Miranowicz, | (参考訳) 我々は、減衰および/または増幅を伴う最大6つのモードから構成され、非伝統的なダイナミクスを示す単純なボソニック系の量子的例外、ダイアボリック、ハイブリッド点の存在と退化を解析する。
これらは、PT対称系に典型的な力学が、系状態(非古典的なPT対称力学)のリウヴィル空間全体の部分空間と一方向結合を含む部分空間でのみ観察される構成を含む。
二次非エルミート・ハミルトニアンによって記述される系力学はハイゼンベルク・ランゲヴィン方程式によって支配される。
6階の例外的および2階のダイアボリックデジェネティクスを持つ遺伝量子ハイブリッド点の観測条件が明らかにされているが、これは短時間のダイナミクスにのみ関係している。
このことは、任意の時間に物理的に有意な振る舞いを示すボゾン系に高次継承特異点が存在するかどうかという問題を提起する。
一方、短時間で、様々なタイプの一方向結合により、単純なボソニック系と2階および3階の例外的退化をオンデマンドで結合することができる。
このアプローチは、様々な構造を持つシステムで観測される、任意に高い例外的な退化を生成することを可能にする。
量子的例外点とハイブリッド点を数値的に同定し、それらの退化を決定する方法について議論する。
高次場演算モーメントのリッチダイナミクスは、例外的およびダイアボリックな点の存在と、一般にその退化という観点から分析される。
We analyze the existence and degeneracies of quantum exceptional, diabolical, and hybrid points of simple bosonic systems, composed of up to six modes with damping and/or amplification and exhibiting nonconventional dynamics. They involve the configurations in which the dynamics typical for PT-symmetric systems is observed only in a subspace of the whole Liouville space of the system states (nonconventional PT-symmetric dynamics) as well as those containing unidirectional coupling. The system dynamics described by quadratic non-Hermitian Hamiltonians is governed by the Heisenberg-Langevin equations. Conditions for the observation of inherited quantum hybrid points with up to sixth-order exceptional and second-order diabolical degeneracies are revealed, though relevant only for short-time dynamics. This raises the question of whether higher-order inherited singularities exist in bosonic systems that exhibit physically meaningful behavior at arbitrary times. On the other hand, for short times, unidirectional coupling of various types enables the concatenation of simple bosonic systems with second- and third-order exceptional degeneracies on demand. This approach allows for the creation of arbitrarily high exceptional degeneracies observed in systems with diverse structures. Methods for numerical identifying the quantum exceptional and hybrid points, and determining their degeneracies are discussed. Rich dynamics of higher-order field-operator moments is analyzed from the point of view of the presence of exceptional and diabolical points with their degeneracies in general. | 翻訳日:2024-05-06 14:44:38 公開日:2024-05-02 |
# WitheredLeaf: LLMでエンティティ一貫性のないバグを見つける
WitheredLeaf: Finding Entity-Inconsistency Bugs with LLMs ( http://arxiv.org/abs/2405.01668v1 ) ライセンス: Link先を確認 | Hongbo Chen, Yifan Zhang, Xing Han, Huanyao Rong, Yuheng Zhang, Tianhao Mao, Hang Zhang, XiaoFeng Wang, Luyi Xing, Xun Chen, | (参考訳) セマンティックバグから派生したEntity-Inconsistency Bugs (EIB)は、しばしばセキュリティに影響を及ぼす変数識別子や関数名など、構文的に妥当で不正なプログラムエンティティを誤用する。
単純な構文上の脆弱性とは異なり、ERBは微妙であり、何年も検出されていない。
静的解析や動的テストのような従来の検出手法は、ERBの汎用性やコンテキスト依存性のため、しばしば不足する。
しかし, GPT-4のような大規模言語モデル(LLM)の進歩に伴い, これらのモデルのセマンティクス理解能力によって, LLM による自動 EIB 検出がますます実現可能になると信じている。
この研究はまず、ELBの検出におけるLCMの能力の体系的な測定を行い、GPT-4が期待されているものの、その実用性を妨げているリコールと精度が限られていることを明らかにした。
第一の問題は、EIBを欠いた無関係なコードスニペットにフォーカスする傾向にある。
そこで我々は,より小型のコード固有言語モデルを利用して,ほとんどの負のケースをフィルタリングし,問題を緩和し,全体的な精度とリコールを大幅に向上させる,新しいEIB検出システムであるWitheredLeafを導入する。
我々は154のPythonとCのGitHubリポジトリでWitheredLeafを評価し、それぞれ1000以上のスターを持ち、123の新たな欠陥を特定しました。
69件の修正案のうち、27件が合併に成功している。
Originating from semantic bugs, Entity-Inconsistency Bugs (EIBs) involve misuse of syntactically valid yet incorrect program entities, such as variable identifiers and function names, which often have security implications. Unlike straightforward syntactic vulnerabilities, EIBs are subtle and can remain undetected for years. Traditional detection methods, such as static analysis and dynamic testing, often fall short due to the versatile and context-dependent nature of EIBs. However, with advancements in Large Language Models (LLMs) like GPT-4, we believe LLM-powered automatic EIB detection becomes increasingly feasible through these models' semantics understanding abilities. This research first undertakes a systematic measurement of LLMs' capabilities in detecting EIBs, revealing that GPT-4, while promising, shows limited recall and precision that hinder its practical application. The primary problem lies in the model's tendency to focus on irrelevant code snippets devoid of EIBs. To address this, we introduce a novel, cascaded EIB detection system named WitheredLeaf, which leverages smaller, code-specific language models to filter out most negative cases and mitigate the problem, thereby significantly enhancing the overall precision and recall. We evaluated WitheredLeaf on 154 Python and C GitHub repositories, each with over 1,000 stars, identifying 123 new flaws, 45% of which can be exploited to disrupt the program's normal operations. Out of 69 submitted fixes, 27 have been successfully merged. | 翻訳日:2024-05-06 14:44:38 公開日:2024-05-02 |
# ShadowNav:ダークネスにおける月面航法のための自律的グローバルローカライゼーション
ShadowNav: Autonomous Global Localization for Lunar Navigation in Darkness ( http://arxiv.org/abs/2405.01673v1 ) ライセンス: Link先を確認 | Deegan Atha, R. Michael Swan, Abhishek Cauligi, Anne Bettens, Edwin Goh, Dima Kogan, Larry Matthies, Masahiro Ono, | (参考訳) 慣性フレームにおけるローバーのポーズを自律的に決定する能力は、他の惑星の天体上での次世代の表面ローバーミッションに必要な重要な能力である。
現在進行中のローバーのミッションでは、ポーズ推定のドリフトを手動で修正するためにグランド・イン・ザ・ループの介入を使用しており、この人間の監督は、ローバーが自律的に操作できる距離をボトルネックにし、科学的な測定を行う。
本稿では,暗闇や夜間の運転に重点を置いた,月面のグローバルローカライゼーションのための自律的アプローチであるShadowNavを紹介する。
我々のアプローチでは、ルナークレーターの先端をランドマークとして使用し、検出されたクレーターと検出されたクレーターをオフボードマップ上の既知のクレーターに関連付けるために粒子フィルタリング手法を用いています。
ステレオカメラと外部照明源を備えたLunarローバーの概念を用いてShadowNavフレームワークを開発する際の重要な設計決定について論じる。
最後に,アリゾナ州シンダーレイクスにおけるフィールドテストにおいて,Lunarシミュレーション環境とデータの両方において提案手法の有効性を実証した。
The ability to determine the pose of a rover in an inertial frame autonomously is a crucial capability necessary for the next generation of surface rover missions on other planetary bodies. Currently, most on-going rover missions utilize ground-in-the-loop interventions to manually correct for drift in the pose estimate and this human supervision bottlenecks the distance over which rovers can operate autonomously and carry out scientific measurements. In this paper, we present ShadowNav, an autonomous approach for global localization on the Moon with an emphasis on driving in darkness and at nighttime. Our approach uses the leading edge of Lunar craters as landmarks and a particle filtering approach is used to associate detected craters with known ones on an offboard map. We discuss the key design decisions in developing the ShadowNav framework for use with a Lunar rover concept equipped with a stereo camera and an external illumination source. Finally, we demonstrate the efficacy of our proposed approach in both a Lunar simulation environment and on data collected during a field test at Cinder Lakes, Arizona. | 翻訳日:2024-05-06 14:44:38 公開日:2024-05-02 |
# サイバーセキュリティにおけるジェネレーティブAI
Generative AI in Cybersecurity ( http://arxiv.org/abs/2405.01674v1 ) ライセンス: Link先を確認 | Shivani Metta, Isaac Chang, Jack Parker, Michael P. Roman, Arturo F. Ehuan, | (参考訳) ジェネレーティブ・人工知能(GAI)の夜明けは、GPT(Generative Pre-trained Transformers)やLLM(Large Language Models)といった先進的なモデルによって特徴づけられ、データ分析、パターン認識、意思決定プロセスの分野を変える上で重要な役割を担っている。
GAI技術の急速な進歩は、データ処理と自動化の革新的な機会だけでなく、重要なサイバーセキュリティの課題も引き起こした。
GAIが急速に進歩するにつれて、現在のサイバーセキュリティプロトコルと規制フレームワークのペースを超越し、デジタルインフラの安全を意図した同様のイノベーションが、サイバー犯罪者が利用できる武器の強化にも繋がるパラドックスへと繋がる。
これらの敵は、新興テクノロジーの迅速な統合と活用に長けており、GAIを利用してより隠蔽的で適応可能なマルウェアを開発し、従来のサイバーセキュリティの取り組みを複雑にしている。
GAIの加速はサイバーセキュリティの専門家にとって曖昧なフロンティアであり、脅威の検出と応答のための強力なツールを提供し、同時にサイバー攻撃者により複雑で強力なマルウェアを設計する手段を提供する。
Duke Pratt School of Engineering, Coalfire, Safebreachの共同研究を通じて、この研究は、GAIが攻撃戦略を強化するためにどのように悪意あるエージェントを悪用しているかを綿密に分析し、将来のサイバーセキュリティイニシアチブの完全性にとって重要な課題を強調した。
この研究は、マルウェア生成におけるGAIの高度な利用に対抗するために、より複雑な防衛戦略を積極的に特定し、開発する組織にとって重要な必要性を強調している。
The dawn of Generative Artificial Intelligence (GAI), characterized by advanced models such as Generative Pre-trained Transformers (GPT) and other Large Language Models (LLMs), has been pivotal in reshaping the field of data analysis, pattern recognition, and decision-making processes. This surge in GAI technology has ushered in not only innovative opportunities for data processing and automation but has also introduced significant cybersecurity challenges. As GAI rapidly progresses, it outstrips the current pace of cybersecurity protocols and regulatory frameworks, leading to a paradox wherein the same innovations meant to safeguard digital infrastructures also enhance the arsenal available to cyber criminals. These adversaries, adept at swiftly integrating and exploiting emerging technologies, may utilize GAI to develop malware that is both more covert and adaptable, thus complicating traditional cybersecurity efforts. The acceleration of GAI presents an ambiguous frontier for cybersecurity experts, offering potent tools for threat detection and response, while concurrently providing cyber attackers with the means to engineer more intricate and potent malware. Through the joint efforts of Duke Pratt School of Engineering, Coalfire, and Safebreach, this research undertakes a meticulous analysis of how malicious agents are exploiting GAI to augment their attack strategies, emphasizing a critical issue for the integrity of future cybersecurity initiatives. The study highlights the critical need for organizations to proactively identify and develop more complex defensive strategies to counter the sophisticated employment of GAI in malware creation. | 翻訳日:2024-05-06 14:44:38 公開日:2024-05-02 |
# 安全強化学習のためのバランス・リワードと安全最適化:グラディエント・マニピュレーションの観点から
Balance Reward and Safety Optimization for Safe Reinforcement Learning: A Perspective of Gradient Manipulation ( http://arxiv.org/abs/2405.01677v1 ) ライセンス: Link先を確認 | Shangding Gu, Bilgehan Sel, Yuhao Ding, Lu Wang, Qingwei Lin, Ming Jin, Alois Knoll, | (参考訳) RL(Reinforcement Learning)の安全性の確保は、現実世界のアプリケーションへの展開に不可欠である。
それでも、探査中の報酬と安全の間のトレードオフを管理することは大きな課題である。
政策調整による報酬性能の向上は、安全性能に悪影響を及ぼす可能性がある。
本研究では,勾配操作の理論を活用することによって,この矛盾する関係に対処することを目的とする。
最初は報酬と安全勾配の対立を分析した。
その後,ソフトスイッチングポリシ最適化手法を提案することで,報酬と安全性の最適化のバランスに取り組み,収束解析を行う。
理論的検討に基づき、上記の課題を克服するための安全なRLフレームワークを提供し、安全なRLアルゴリズムの性能を評価するためのSafety-MuJoCoベンチマークを開発する。
最後に,この手法の有効性を,Safety-MuJoCoベンチマークと一般的なセーフベンチマークであるOmnisafeで評価した。
実験の結果,提案アルゴリズムは報酬のバランスと安全性の最適化の観点から,最先端のベースラインよりも優れていた。
Ensuring the safety of Reinforcement Learning (RL) is crucial for its deployment in real-world applications. Nevertheless, managing the trade-off between reward and safety during exploration presents a significant challenge. Improving reward performance through policy adjustments may adversely affect safety performance. In this study, we aim to address this conflicting relation by leveraging the theory of gradient manipulation. Initially, we analyze the conflict between reward and safety gradients. Subsequently, we tackle the balance between reward and safety optimization by proposing a soft switching policy optimization method, for which we provide convergence analysis. Based on our theoretical examination, we provide a safe RL framework to overcome the aforementioned challenge, and we develop a Safety-MuJoCo Benchmark to assess the performance of safe RL algorithms. Finally, we evaluate the effectiveness of our method on the Safety-MuJoCo Benchmark and a popular safe benchmark, Omnisafe. Experimental results demonstrate that our algorithms outperform several state-of-the-art baselines in terms of balancing reward and safety optimization. | 翻訳日:2024-05-06 14:44:38 公開日:2024-05-02 |
# 1-Diffractor:Word-Level Metric Differential Privacyを活用したテキスト難読化の効率と実用性
1-Diffractor: Efficient and Utility-Preserving Text Obfuscation Leveraging Word-Level Metric Differential Privacy ( http://arxiv.org/abs/2405.01678v1 ) ライセンス: Link先を確認 | Stephen Meisenbacher, Maulik Chevli, Florian Matthes, | (参考訳) 近年,プライバシ保護自然言語処理(NLP)の研究が注目されている。
有望な方法の1つは、さまざまなアプリケーション設定において革新的な方法をもたらした、NLPにおける差分プライバシーの統合について研究している。
特に注目すべきは、$\textit{word-level Metric Local Differential Privacy (MLDP)$ mechanismである。
これらの手法は実証実験で有望な結果を示したが,(1)ノイズの付加による実用性低下の回避,(2)高次元単語埋め込みにおけるこれらのメカニズムの実行の計算コストの増大,の2つの大きな欠点がある。
本研究では,従来のメカニズムと比較して高速な高速化を実現する新しいメカニズムである$\texttt{1-Diffractor}$を提案しながら,強力なユーティリティとプライバシ保護機能を示すことで,これらの課題に対処することを目指している。
我々は、いくつかのNLPタスク、理論的およびタスクベースのプライバシ、スピードとメモリの面での効率のために、$\texttt{1-Diffractor}$を評価した。
$\texttt{1-Diffractor}$は、これまでのMLDPメカニズムと比較したすべてのテストにおいて、競争力のあるユーティリティとプライバシのスコアを維持しながら、効率が大幅に向上したことを示している。
私たちのコードは、https://github.com/sjmeis/Diffractor.comで利用可能です。
The study of privacy-preserving Natural Language Processing (NLP) has gained rising attention in recent years. One promising avenue studies the integration of Differential Privacy in NLP, which has brought about innovative methods in a variety of application settings. Of particular note are $\textit{word-level Metric Local Differential Privacy (MLDP)}$ mechanisms, which work to obfuscate potentially sensitive input text by performing word-by-word $\textit{perturbations}$. Although these methods have shown promising results in empirical tests, there are two major drawbacks: (1) the inevitable loss of utility due to addition of noise, and (2) the computational expensiveness of running these mechanisms on high-dimensional word embeddings. In this work, we aim to address these challenges by proposing $\texttt{1-Diffractor}$, a new mechanism that boasts high speedups in comparison to previous mechanisms, while still demonstrating strong utility- and privacy-preserving capabilities. We evaluate $\texttt{1-Diffractor}$ for utility on several NLP tasks, for theoretical and task-based privacy, and for efficiency in terms of speed and memory. $\texttt{1-Diffractor}$ shows significant improvements in efficiency, while still maintaining competitive utility and privacy scores across all conducted comparative tests against previous MLDP mechanisms. Our code is made available at: https://github.com/sjmeis/Diffractor. | 翻訳日:2024-05-06 14:44:38 公開日:2024-05-02 |
# 物理インフォームドニューラルネットワーク:広帯域ネットワークによる残留損失の最小化と有効活性化
Physics-Informed Neural Networks: Minimizing Residual Loss with Wide Networks and Effective Activations ( http://arxiv.org/abs/2405.01680v1 ) ライセンス: Link先を確認 | Nima Hosseini Dashtbayaz, Ghazal Farhani, Boyu Wang, Charles X. Ling, | (参考訳) 物理情報ニューラルネットワーク(PINN)の残留損失は、差動演算子を適用することにより、フィードフォワードニューラルネットワークのレイヤの単純な再帰的関係を変化させる。
したがって、既存の理論を頼りにすれば、不適切な設計選択と準最適性能につながる。
本研究では,その特性を臨界点で調べて残余損失を分析し,PINNを効果的に訓練する条件を見出す。
具体的には、ある条件下では、PINNの残留損失は広義のニューラルネットワークによって世界規模で最小化できることを示す。
さらに, 高次導関数を持つ活性化関数が, 残留損失を最小限に抑える上で重要な役割を担っていることも明らかにした。
特に、$k$-次 PDE を解くためには、活性化関数の$k$-次微分は単射であるべきである。
確立された理論は、PINNの効果的なアクティベーション関数の設計と選択の方法を示し、なぜ周期的アクティベーションが有望な性能を示したのかを説明する。
最後に、いくつかのPDEに対して一連の実験を行うことで、この結果を検証する。
私たちのコードはhttps://github.com/nimahsn/pinns_tf2.comで公開されています。
The residual loss in Physics-Informed Neural Networks (PINNs) alters the simple recursive relation of layers in a feed-forward neural network by applying a differential operator, resulting in a loss landscape that is inherently different from those of common supervised problems. Therefore, relying on the existing theory leads to unjustified design choices and suboptimal performance. In this work, we analyze the residual loss by studying its characteristics at critical points to find the conditions that result in effective training of PINNs. Specifically, we first show that under certain conditions, the residual loss of PINNs can be globally minimized by a wide neural network. Furthermore, our analysis also reveals that an activation function with well-behaved high-order derivatives plays a crucial role in minimizing the residual loss. In particular, to solve a $k$-th order PDE, the $k$-th derivative of the activation function should be bijective. The established theory paves the way for designing and choosing effective activation functions for PINNs and explains why periodic activations have shown promising performance in certain cases. Finally, we verify our findings by conducting a set of experiments on several PDEs. Our code is publicly available at https://github.com/nimahsn/pinns_tf2. | 翻訳日:2024-05-06 14:44:38 公開日:2024-05-02 |
# 低リソース言語におけるクローン病放射線学レポートからの構造化情報抽出のためのプロンプト学習の活用
Leveraging Prompt-Learning for Structured Information Extraction from Crohn's Disease Radiology Reports in a Low-Resource Language ( http://arxiv.org/abs/2405.01682v1 ) ライセンス: Link先を確認 | Liam Hazan, Gili Focht, Naama Gavrielov, Roi Reichart, Talar Hagopian, Mary-Louise C. Greer, Ruth Cytter Kuint, Dan Turner, Moti Freiman, | (参考訳) 自然言語処理(NLP)技術を用いた自由テキストラジオグラフィーレポートの構造化データへの自動変換は,大規模に疾患を解析するために重要である。
英語のような広く話されている言語でのタスクに効果的であるが、生成的大言語モデル(LLM)は一般的にあまり一般的でない言語でパフォーマンスが低く、患者のプライバシーに潜在的なリスクをもたらす可能性がある。
微調整されたローカルNLPモデルは、希少な発見が重要なデータ不均衡を示す現実世界の医療データセットの歪んだ性質によって妨げられている。
SMP-BERTは,これらの課題を克服するために,レポートの構造的性質を活用する新しいプロンプト学習手法である。
ヘブライ語におけるクローン病の放射線学レポート(8000人以上、10,000人以上)の収集に関する本研究では、SMP-BERTが従来の微調整法を大幅に上回り、特に頻度の低い状況(AUC: 0.99対0.94、F1: 0.84対0.34)が検出された。
SMP-BERTは、低リソース言語で利用可能なより正確なAI診断を可能にする。
Automatic conversion of free-text radiology reports into structured data using Natural Language Processing (NLP) techniques is crucial for analyzing diseases on a large scale. While effective for tasks in widely spoken languages like English, generative large language models (LLMs) typically underperform with less common languages and can pose potential risks to patient privacy. Fine-tuning local NLP models is hindered by the skewed nature of real-world medical datasets, where rare findings represent a significant data imbalance. We introduce SMP-BERT, a novel prompt learning method that leverages the structured nature of reports to overcome these challenges. In our studies involving a substantial collection of Crohn's disease radiology reports in Hebrew (over 8,000 patients and 10,000 reports), SMP-BERT greatly surpassed traditional fine-tuning methods in performance, notably in detecting infrequent conditions (AUC: 0.99 vs 0.94, F1: 0.84 vs 0.34). SMP-BERT empowers more accurate AI diagnostics available for low-resource languages. | 翻訳日:2024-05-06 14:44:38 公開日:2024-05-02 |
# リセットフリーRLのためのインテリジェントスイッチング
Intelligent Switching for Reset-Free RL ( http://arxiv.org/abs/2405.01684v1 ) ライセンス: Link先を確認 | Darshan Patil, Janarthanan Rajendran, Glen Berseth, Sarath Chandar, | (参考訳) 実世界では、シミュレーションでエージェントを訓練するのに必要とされる強いエピソードリセットメカニズムは利用できない。
エージェントにリセットを提供するには、通常、手作りのメカニズムや人間の介入を追加する必要がある。
最近の研究は、フォワードエージェントを初期状態に戻す第2の(\textit{backward})エージェントを構築することで、学習したリセットでエージェント(\textit{forward})をトレーニングすることを目的としている。
これら2つのエージェント間の遷移の終了とタイミングは、アルゴリズムの成功に不可欠である。
このことを念頭に、エージェントの現在の目標達成に対する自信に基づいて、2つのエージェントをインテリジェントに切り替える、Intelligently Switching Controller (RISC)によるReset Free RLというアルゴリズムを作成します。
提案手法は,リセット不要なRLのためのいくつかの挑戦環境における最先端性能を実現する。
In the real world, the strong episode resetting mechanisms that are needed to train agents in simulation are unavailable. The \textit{resetting} assumption limits the potential of reinforcement learning in the real world, as providing resets to an agent usually requires the creation of additional handcrafted mechanisms or human interventions. Recent work aims to train agents (\textit{forward}) with learned resets by constructing a second (\textit{backward}) agent that returns the forward agent to the initial state. We find that the termination and timing of the transitions between these two agents are crucial for algorithm success. With this in mind, we create a new algorithm, Reset Free RL with Intelligently Switching Controller (RISC) which intelligently switches between the two agents based on the agent's confidence in achieving its current goal. Our new method achieves state-of-the-art performance on several challenging environments for reset-free RL. | 翻訳日:2024-05-06 14:44:38 公開日:2024-05-02 |
# 大規模言語モデルを用いたランダム化制御試行からの自動抽出
Automatically Extracting Numerical Results from Randomized Controlled Trials with Large Language Models ( http://arxiv.org/abs/2405.01686v1 ) ライセンス: Link先を確認 | Hye Sun Yun, David Pogrebitskiy, Iain J. Marshall, Byron C. Wallace, | (参考訳) メタアナリシスは、異なるランダム化制御試験(RCT)の結果を統計的に集計し、治療効果を評価する。
これは治療効果の頑健な評価をもたらすため、メタアナリシスの結果は最も強力な証拠であると考えられている。
しかし、厳密な証拠合成は時間がかかり、労働集約的であり、個々の試験から手動でデータを抽出する必要がある。
理想的には、言語技術はオンデマンドで完全に自動的なメタ分析を可能にする。
これは、自然言語処理(NLP)モデルの能力を超えてきた個々の試行から、正確に数値的な結果を抽出する必要がある。
本研究では,現代の大規模言語モデル (LLM) がこのタスクを確実に実行できるかを評価する。
介入, コンパレータ, 結果に付随する数値的な所見を伴い, 臨床試験報告の質素で粒度のよい評価データセットを注釈(およびリリース)する。
本データセットを用いて,実験報告から数値結果を条件付き抽出する作業において,ゼロショットを用いた7つのLLMの性能評価を行った。
長い入力を許容できる大規模なLLMは, 完全自動メタアナリシスの実現に極めて近いことが判明した。
しかし、バイオメディカルテキストで訓練されたものを含むLSMは、結果が複雑で、結果の推測が要求される場合、パフォーマンスが低下する。
この研究は、LLMによるRTTの完全自動メタ分析への道筋をグラフ化し、既存のモデルの限界を強調した。
Meta-analyses statistically aggregate the findings of different randomized controlled trials (RCTs) to assess treatment effectiveness. Because this yields robust estimates of treatment effectiveness, results from meta-analyses are considered the strongest form of evidence. However, rigorous evidence syntheses are time-consuming and labor-intensive, requiring manual extraction of data from individual trials to be synthesized. Ideally, language technologies would permit fully automatic meta-analysis, on demand. This requires accurately extracting numerical results from individual trials, which has been beyond the capabilities of natural language processing (NLP) models to date. In this work, we evaluate whether modern large language models (LLMs) can reliably perform this task. We annotate (and release) a modest but granular evaluation dataset of clinical trial reports with numerical findings attached to interventions, comparators, and outcomes. Using this dataset, we evaluate the performance of seven LLMs applied zero-shot for the task of conditionally extracting numerical findings from trial reports. We find that massive LLMs that can accommodate lengthy inputs are tantalizingly close to realizing fully automatic meta-analysis, especially for dichotomous (binary) outcomes (e.g., mortality). However, LLMs -- including ones trained on biomedical texts -- perform poorly when the outcome measures are complex and tallying the results requires inference. This work charts a path toward fully automatic meta-analysis of RCTs via LLMs, while also highlighting the limitations of existing models for this aim. | 翻訳日:2024-05-06 14:44:38 公開日:2024-05-02 |
# コンピュータ病理学における自己指導型学習の適応
Adapting Self-Supervised Learning for Computational Pathology ( http://arxiv.org/abs/2405.01688v1 ) ライセンス: Link先を確認 | Eric Zimmermann, Neil Tenenholtz, James Hall, George Shaikovski, Michal Zelechowski, Adam Casson, Fausto Milletari, Julian Viret, Eugene Vorontsov, Siqi Liu, Kristen Severson, | (参考訳) 自己教師あり学習(SSL)は、タスク固有の監督なしに様々なタスクにうまく適応できるネットワークを訓練するための重要な技術として登場した。
この性質はSSLを計算病理学、組織のデジタル化画像の研究に好適であり、多くのターゲットアプリケーションやラベル付きトレーニングサンプルが限られている。
しかし、SSLアルゴリズムとモデルは、主に自然画像の分野で開発されており、特定の領域への適応によってその性能が向上するかどうかは未解決のままである。
そこで本研究では,DINOv2アルゴリズムを中心に,病理データに対するSSLの修正について検討する。
そこで我々は,病理画像の特徴を動機とした,代替の拡張,正規化機能,位置符号化を提案する。
これらの変更がいくつかのベンチマークに与える影響を評価し、調整されたアプローチの価値を実証する。
Self-supervised learning (SSL) has emerged as a key technique for training networks that can generalize well to diverse tasks without task-specific supervision. This property makes SSL desirable for computational pathology, the study of digitized images of tissues, as there are many target applications and often limited labeled training samples. However, SSL algorithms and models have been primarily developed in the field of natural images and whether their performance can be improved by adaptation to particular domains remains an open question. In this work, we present an investigation of modifications to SSL for pathology data, specifically focusing on the DINOv2 algorithm. We propose alternative augmentations, regularization functions, and position encodings motivated by the characteristics of pathology images. We evaluate the impact of these changes on several benchmarks to demonstrate the value of tailored approaches. | 翻訳日:2024-05-06 14:44:38 公開日:2024-05-02 |
# 自動走行におけるアウト・オブ・ディストリビューション検出のための言語強化潜在表現
Language-Enhanced Latent Representations for Out-of-Distribution Detection in Autonomous Driving ( http://arxiv.org/abs/2405.01691v1 ) ライセンス: Link先を確認 | Zhenjiang Mao, Dong-You Jhong, Ao Wang, Ivan Ruchkin, | (参考訳) 学習ベースコンポーネントが予期しない入力にいつ遭遇するかを判断するために、自動走行において、アウト・オブ・ディストリビューション(OOD)検出が不可欠である。
従来の検出器は通常、固定された設定を持つエンコーダモデルを使用するため、効果的なヒューマンインタラクション能力が欠如している。
大規模基盤モデルの台頭に伴い、マルチモーダル入力は人間の言語を潜在表現として捉える可能性を提供し、言語定義のOOD検出を可能にする。
本稿では、マルチモーダルモデルCLIPによって符号化された画像とテキストのコサイン類似性を新しい表現として利用し、視覚異常検出に使用される潜時符号化の透明性と制御性を改善する。
我々は,ユーザの視点では意味のない潜在表現しか生成できない既存の事前学習エンコーダと比較する。
現実的な駆動データを用いた実験では,言語に基づく潜在表現は従来の視覚エンコーダの表現よりも優れており,標準表現と組み合わせることで検出性能の向上が期待できる。
Out-of-distribution (OOD) detection is essential in autonomous driving, to determine when learning-based components encounter unexpected inputs. Traditional detectors typically use encoder models with fixed settings, thus lacking effective human interaction capabilities. With the rise of large foundation models, multimodal inputs offer the possibility of taking human language as a latent representation, thus enabling language-defined OOD detection. In this paper, we use the cosine similarity of image and text representations encoded by the multimodal model CLIP as a new representation to improve the transparency and controllability of latent encodings used for visual anomaly detection. We compare our approach with existing pre-trained encoders that can only produce latent representations that are meaningless from the user's standpoint. Our experiments on realistic driving data show that the language-based latent representation performs better than the traditional representation of the vision encoder and helps improve the detection performance when combined with standard representations. | 翻訳日:2024-05-06 14:44:38 公開日:2024-05-02 |
# 指揮統制のための強化学習エージェントの敵攻撃
Adversarial Attacks on Reinforcement Learning Agents for Command and Control ( http://arxiv.org/abs/2405.01693v1 ) ライセンス: Link先を確認 | Ahaan Dabholkar, James Z. Hare, Mark Mittrick, John Richardson, Nicholas Waytowich, Priya Narayanan, Saurabh Bagchi, | (参考訳) StarCraftやDoTA(Defense of The Ancients)のような複雑なゲームに勝つためのトレーニングエージェントに対するDeep Reinforcement Learningの影響を考えると、プロのウォーゲーム、戦場シミュレーション、モデリングのための学習ベースのテクニックを活用する研究が急増している。
リアルタイム戦略ゲームやシミュレータは、作戦計画や軍事研究の貴重な資源となっている。
しかし、近年の研究では、このような学習に基づくアプローチは、敵の摂動に非常に敏感であることが示されている。
本稿では,能動敵に制御される環境において,指揮制御タスクのために訓練されたエージェントの堅牢性について検討する。
C2エージェントは、最先端のRLアルゴリズムであるA3CとPPOを使用して、カスタムのStarCraft IIマップでトレーニングされる。
実験により,これらのアルゴリズムを用いて訓練されたエージェントは,敵が注入したノイズに強い感受性を示し,これらの摂動が訓練されたエージェントの性能に与える影響を検証した。
私たちの研究は、特に戦場のような重要な分野において、より堅牢なトレーニングアルゴリズムを開発する緊急の必要性を強調しています。
Given the recent impact of Deep Reinforcement Learning in training agents to win complex games like StarCraft and DoTA(Defense Of The Ancients) - there has been a surge in research for exploiting learning based techniques for professional wargaming, battlefield simulation and modeling. Real time strategy games and simulators have become a valuable resource for operational planning and military research. However, recent work has shown that such learning based approaches are highly susceptible to adversarial perturbations. In this paper, we investigate the robustness of an agent trained for a Command and Control task in an environment that is controlled by an active adversary. The C2 agent is trained on custom StarCraft II maps using the state of the art RL algorithms - A3C and PPO. We empirically show that an agent trained using these algorithms is highly susceptible to noise injected by the adversary and investigate the effects these perturbations have on the performance of the trained agent. Our work highlights the urgent need to develop more robust training algorithms especially for critical arenas like the battlefield. | 翻訳日:2024-05-06 14:44:38 公開日:2024-05-02 |
# LLMを用いたシミュリンクモデルの要求駆動スライシング
Requirements-driven Slicing of Simulink Models Using LLMs ( http://arxiv.org/abs/2405.01695v1 ) ライセンス: Link先を確認 | Dipeeka Luitel, Shiva Nejati, Mehrdad Sabetzadeh, | (参考訳) モデルスライシングは、与えられた要求を満たすことに関連するより大きなモデルのサブセットを特定するのに有用なテクニックである。
特筆すべきスライシングの応用としては、関心事の要件を満たすために設計適性をチェックするときや、変更の影響分析を行うときの検査労力の削減がある。
本稿では,グラフィカルシミュリンクモデルからモデルスライスを抽出する大規模言語モデル(LLM)に基づく手法を提案する。
提案手法は,Simulinkモデルをテキスト表現に変換し,特定の要件を満たすために必要なSimulinkブロックを識別し,LLMが特定したブロックを組み込んだ音響モデルスライスを構築する。
我々は、Simulinkモデルをテキスト表現に変換する際の粒度(バービシティ)の異なるレベルと、LCMを誘導する戦略が、生成されたスライスの精度にどのように影響するかを考察する。
予備的な知見は,Simulinkブロックの構文と意味を保ちながら,Simulinkモデルの視覚的レンダリング情報を省略したテキスト表現によって生成されるプロンプトが,最も正確なスライスを生成することを示唆している。
さらに、チェーン・オブ・シンクレットとゼロショット・プロンプト戦略は、我々のアプローチによって生成されたモデルスライスを最も多く生成する。
Model slicing is a useful technique for identifying a subset of a larger model that is relevant to fulfilling a given requirement. Notable applications of slicing include reducing inspection effort when checking design adequacy to meet requirements of interest and when conducting change impact analysis. In this paper, we present a method based on large language models (LLMs) for extracting model slices from graphical Simulink models. Our approach converts a Simulink model into a textual representation, uses an LLM to identify the necessary Simulink blocks for satisfying a specific requirement, and constructs a sound model slice that incorporates the blocks identified by the LLM. We explore how different levels of granularity (verbosity) in transforming Simulink models into textual representations, as well as the strategy used to prompt the LLM, impact the accuracy of the generated slices. Our preliminary findings suggest that prompts created by textual representations that retain the syntax and semantics of Simulink blocks while omitting visual rendering information of Simulink models yield the most accurate slices. Furthermore, the chain-of-thought and zero-shot prompting strategies result in the largest number of accurate model slices produced by our approach. | 翻訳日:2024-05-06 14:44:38 公開日:2024-05-02 |
# 組織における人工知能の倫理的包括的実装に向けて:多次元フレームワーク
Towards an Ethical and Inclusive Implementation of Artificial Intelligence in Organizations: A Multidimensional Framework ( http://arxiv.org/abs/2405.01697v1 ) ライセンス: Link先を確認 | Ernesto Giralt Hernández, | (参考訳) 本稿では,現代社会における人工知能(AI)の影響と,組織内における倫理的アプローチの採用の重要性について分析する。
これは、人間の自律性を損なう可能性のある過剰な技術化のリスクを警告する哲学者や研究者のテクノクリティカルな視点を検証している。
しかし、この記事は、政府、学術、市民社会といった様々な俳優が、人間や社会的価値観に沿ったAIの発展を形作る上で、積極的な役割を担っていることも認めている。
倫理と規制、革新、教育を組み合わせた多次元的アプローチが提案されている。
それは、詳細な倫理的枠組みを開発することの重要性を強調し、専門家の訓練に倫理を取り入れ、倫理的影響監査を行い、AIの設計に利害関係者が参加することを奨励する。
さらに、組織におけるAIの倫理的実践のための4つの基本的柱が提示される。
1)総合値。
2)信頼と透明性。
3)人間の成長を強力にすること、そして
4) 戦略的要因の特定。
これらの柱には、企業の倫理的アイデンティティ、ガバナンスと説明責任、人間中心のデザイン、継続的なトレーニング、技術と市場の変化への適応性といった側面が含まれる。
この結論は、倫理がAIを導入し、テクノロジーが人間の価値を尊重し、促進する方法で開発され、使用されることを保証する堅固な枠組みを確立するあらゆる組織の戦略の基盤でなければならないことを強調している。
This article analyzes the impact of artificial intelligence (AI) on contemporary society and the importance of adopting an ethical approach to its development and implementation within organizations. It examines the technocritical perspective of some philosophers and researchers, who warn of the risks of excessive technologization that could undermine human autonomy. However, the article also acknowledges the active role that various actors, such as governments, academics, and civil society, can play in shaping the development of AI aligned with human and social values. A multidimensional approach is proposed that combines ethics with regulation, innovation, and education. It highlights the importance of developing detailed ethical frameworks, incorporating ethics into the training of professionals, conducting ethical impact audits, and encouraging the participation of stakeholders in the design of AI. In addition, four fundamental pillars are presented for the ethical implementation of AI in organizations: 1) Integrated values, 2) Trust and transparency, 3) Empowering human growth, and 4) Identifying strategic factors. These pillars encompass aspects such as alignment with the company's ethical identity, governance and accountability, human-centered design, continuous training, and adaptability to technological and market changes. The conclusion emphasizes that ethics must be the cornerstone of any organization's strategy that seeks to incorporate AI, establishing a solid framework that ensures that technology is developed and used in a way that respects and promotes human values. | 翻訳日:2024-05-06 14:44:38 公開日:2024-05-02 |
# SOAR:状態空間モデルとプログラム可能な勾配を用いた航空画像の小型物体検出の進歩
SOAR: Advancements in Small Body Object Detection for Aerial Imagery Using State Space Models and Programmable Gradients ( http://arxiv.org/abs/2405.01699v1 ) ライセンス: Link先を確認 | Tushar Verma, Jyotsna Singh, Yash Bhartari, Rishi Jarwal, Suraj Singh, Shubhkarman Singh, | (参考訳) 空中画像における小さな物体検出は、小さな物体に固有の最小限のデータと、大きな物体や背景ノイズによって隠蔽される確率によって、コンピュータビジョンにおいて重大な課題を呈する。
トランスフォーマーベースのモデルを用いた従来の手法は、特殊データベースの欠如から生じる制約に直面し、様々な向きやスケールのオブジェクトでパフォーマンスに悪影響を及ぼす。
これにより、より適応的で軽量なモデルの必要性が浮き彫りになる。
そこで本研究では,小型航空機の検知とセグメンテーション機能を大幅に向上する2つの革新的な手法を提案する。
まず,Programmable Gradient Information (PGI) を利用した,新たに導入された軽量YOLO v9アーキテクチャ上でのSAHIフレームワークの利用について検討する。
本稿では,位置認識型視覚理解を容易にするために位置埋め込みを取り入れた視覚マンバモデルと,効果的な視覚コンテキストモデリングのための新しい双方向状態空間モデル(SSM)を組み合わせる。
この状態空間モデルは、CNNの線形複雑性とトランスフォーマーの世界的な受容領域をうまく利用し、リモートセンシング画像分類に特に有効である。
実験の結果, 検出精度と処理効率が大幅に向上し, 様々な航空シナリオにまたがる実時間小物体検出への適用性が検証された。
本稿では,これらの手法が空中物体認識技術の今後の進歩の基盤モデルとして機能する可能性についても論じる。
ソースコードはここでアクセス可能である。
Small object detection in aerial imagery presents significant challenges in computer vision due to the minimal data inherent in small-sized objects and their propensity to be obscured by larger objects and background noise. Traditional methods using transformer-based models often face limitations stemming from the lack of specialized databases, which adversely affect their performance with objects of varying orientations and scales. This underscores the need for more adaptable, lightweight models. In response, this paper introduces two innovative approaches that significantly enhance detection and segmentation capabilities for small aerial objects. Firstly, we explore the use of the SAHI framework on the newly introduced lightweight YOLO v9 architecture, which utilizes Programmable Gradient Information (PGI) to reduce the substantial information loss typically encountered in sequential feature extraction processes. The paper employs the Vision Mamba model, which incorporates position embeddings to facilitate precise location-aware visual understanding, combined with a novel bidirectional State Space Model (SSM) for effective visual context modeling. This State Space Model adeptly harnesses the linear complexity of CNNs and the global receptive field of Transformers, making it particularly effective in remote sensing image classification. Our experimental results demonstrate substantial improvements in detection accuracy and processing efficiency, validating the applicability of these approaches for real-time small object detection across diverse aerial scenarios. This paper also discusses how these methodologies could serve as foundational models for future advancements in aerial object recognition technologies. The source code will be made accessible here. | 翻訳日:2024-05-06 14:34:45 公開日:2024-05-02 |
# バウンディングボックスアノテーションを用いた能動的学習による低コストセル画像分割
Active Learning Enabled Low-cost Cell Image Segmentation Using Bounding Box Annotation ( http://arxiv.org/abs/2405.01701v1 ) ライセンス: Link先を確認 | Yu Zhu, Qiang Yang, Li Xu, | (参考訳) セルイメージセグメンテーションは通常、広範囲な注釈付きトレーニングデータに大きく依存する完全に教師付きディープラーニング手法を用いて実装される。
しかし、細胞形態学の複雑さと専門知識の要求により、細胞画像のピクセルレベルのアノテーションは、非常に労働集約的なタスクとなっている。
上記の問題に対処するため,バウンディングボックスアノテーションを用いたセルセグメンテーションのための能動的学習フレームワークを提案し,セルセグメンテーションアルゴリズムのデータアノテーションコストを大幅に削減する。
まず, YOLOv8検出器とSegment Anything Model(SAM)を組み合わせることで, データアノテーションの複雑さを効果的に軽減し, ボックス教師付き学習法(YOLO-SAM)を作成する。
さらに、MC DropBlock法を用いたアクティブラーニングフレームワークに統合され、ボックスアノテーションの少ないサンプルでセグメンテーションモデルをトレーニングする。
大規模な実験により、我々のモデルは、マスクによる深層学習法と比較して、9割以上のデータアノテーション時間を節約できることが示された。
Cell image segmentation is usually implemented using fully supervised deep learning methods, which heavily rely on extensive annotated training data. Yet, due to the complexity of cell morphology and the requirement for specialized knowledge, pixel-level annotation of cell images has become a highly labor-intensive task. To address the above problems, we propose an active learning framework for cell segmentation using bounding box annotations, which greatly reduces the data annotation cost of cell segmentation algorithms. First, we generate a box-supervised learning method (denoted as YOLO-SAM) by combining the YOLOv8 detector with the Segment Anything Model (SAM), which effectively reduces the complexity of data annotation. Furthermore, it is integrated into an active learning framework that employs the MC DropBlock method to train the segmentation model with fewer box-annotated samples. Extensive experiments demonstrate that our model saves more than ninety percent of data annotation time compared to mask-supervised deep learning methods. | 翻訳日:2024-05-06 14:34:45 公開日:2024-05-02 |
# ランダム一般化されたスティーフェル多様体上の取り消しのない最適化
Optimization without retraction on the random generalized Stiefel manifold ( http://arxiv.org/abs/2405.01702v1 ) ライセンス: Link先を確認 | Simon Vary, Pierre Ablin, Bin Gao, P. -A. Absil, | (参考訳) X^\top B X = I_p$ を満たす行列の集合に対する最適化は、正準相関解析(CCA)、独立成分分析(ICA)、一般化固有値問題(GEVP)などのサンプル共分散行列を含む多くの応用に現れる。
これらの問題の解法は典型的にはリーマンのアプローチのような反復的な方法によって行われ、これは完全に形成された$B$を含む計算に高価な固有値分解を必要とする。
本稿では,確率的反復法を提案する。これは,確率的集合のランダムな推定にのみアクセス可能でありながら,最適化問題を解く。
我々の手法はすべての反復の制約を正確に強制するのではなく、予想で定義される一般化されたスティーフェル多様体上の臨界点に収束する反復を生成する。
この手法は点当たりのコストが低く、行列乗法しか必要とせず、完全行列の$B$を含むリーマン的手法と同じ収束率を持つ。
実験は、CCA、ICA、GEVPを含む一般化直交制約を含む様々な機械学習アプリケーションでその効果を示す。
Optimization over the set of matrices that satisfy $X^\top B X = I_p$, referred to as the generalized Stiefel manifold, appears in many applications involving sampled covariance matrices such as canonical correlation analysis (CCA), independent component analysis (ICA), and the generalized eigenvalue problem (GEVP). Solving these problems is typically done by iterative methods, such as Riemannian approaches, which require a computationally expensive eigenvalue decomposition involving fully formed $B$. We propose a cheap stochastic iterative method that solves the optimization problem while having access only to a random estimate of the feasible set. Our method does not enforce the constraint in every iteration exactly, but instead it produces iterations that converge to a critical point on the generalized Stiefel manifold defined in expectation. The method has lower per-iteration cost, requires only matrix multiplications, and has the same convergence rates as its Riemannian counterparts involving the full matrix $B$. Experiments demonstrate its effectiveness in various machine learning applications involving generalized orthogonality constraints, including CCA, ICA, and GEVP. | 翻訳日:2024-05-06 14:34:45 公開日:2024-05-02 |
# フェデレーション学習のためのプライバシを意識したBerrut近似コーデックコンピューティング
Privacy-aware Berrut Approximated Coded Computing for Federated Learning ( http://arxiv.org/abs/2405.01704v1 ) ライセンス: Link先を確認 | Xavier Martínez Luaña, Rebeca P. Díaz Redondo, Manuel Fernández Veiga, | (参考訳) フェデレートラーニング(FL)は、プライベートデータセットを公開せずに、異なるデータ所有者間でAIモデルの協調トレーニングを可能にする興味深い戦略である。
それでもFLには、差分プライバシ(DP)、ホモモルフィック暗号化(HE)、セキュアマルチパーティ計算(SMPC)など、いくつかのテクニックを適用することで克服された、いくつかのプライバシー上の脆弱性がある。
しかしながら、これらの手法には、非線形関数を扱うことや、大きな行列乗算を演算すること、半正直なノードを管理するための高い通信と計算コストなど、適用範囲を狭めるいくつかの重要な欠点がある。
そこで本稿では,FLスキームのプライバシを保証し,上記の問題を同時に解決する手法を提案する。
提案手法は,シークレット共有構成に適応し,FLへの入力プライバシをスケーラブルに提供するための,Coded Distributed ComputingパラダイムのテクニックであるBerrut Approximated Coded Computingに基づく。
これは非線形関数の計算に適用でき、分散行列乗法(分散行列乗法)の特殊な場合を扱う。
これらの特徴から、FLスキームで使用される機械学習モデルや集約アルゴリズムとは独立しているため、幅広いFLシナリオに適用することができる。
我々は,ソリューションの達成したプライバシと複雑性の分析を行い,その数値的な結果から,プライバシと精度の良好なトレードオフを見ることができる。
Federated Learning (FL) is an interesting strategy that enables the collaborative training of an AI model among different data owners without revealing their private datasets. Even so, FL has some privacy vulnerabilities that have been tried to be overcome by applying some techniques like Differential Privacy (DP), Homomorphic Encryption (HE), or Secure Multi-Party Computation (SMPC). However, these techniques have some important drawbacks that might narrow their range of application: problems to work with non-linear functions and to operate large matrix multiplications and high communication and computational costs to manage semi-honest nodes. In this context, we propose a solution to guarantee privacy in FL schemes that simultaneously solves the previously mentioned problems. Our proposal is based on the Berrut Approximated Coded Computing, a technique from the Coded Distributed Computing paradigm, adapted to a Secret Sharing configuration, to provide input privacy to FL in a scalable way. It can be applied for computing non-linear functions and treats the special case of distributed matrix multiplication, a key primitive at the core of many automated learning tasks. Because of these characteristics, it could be applied in a wide range of FL scenarios, since it is independent of the machine learning models or aggregation algorithms used in the FL scheme. We provide analysis of the achieve privacy and complexity of our solution and, due to the extensive numerical results performed, it can be observed a good trade-off between privacy and precision. | 翻訳日:2024-05-06 14:34:45 公開日:2024-05-02 |
# 特徴空間拡張と反復学習によるロングテール画像生成
Long Tail Image Generation Through Feature Space Augmentation and Iterated Learning ( http://arxiv.org/abs/2405.01705v1 ) ライセンス: Link先を確認 | Rafael Elberg, Denis Parra, Mircea Petrache, | (参考訳) 画像およびマルチモーダル機械学習タスクは、分散データが不十分な場合に非常に困難である。
特に、データの可用性とプライバシーの制限は、医療領域におけるこれらのハードルを悪化させます。
画像生成の品質の最先端は、Latent Diffusionモデルによって保持され、この問題に対処するための主要な候補となる。
しかし、未表現のクラスからデータを生成するのが難しいことや、推論プロセスが遅いことなど、いくつかの重要な問題がまだ解決する必要がある。
これらの問題を緩和するため,本稿では,事前学習した安定拡散モデルのリッチ潜在空間を活用することで,長期データにおける画像拡張手法を提案する。
我々は、頭と尾のクラスの例を混合するために、改良された分離可能なラテント空間を作成する。
K-NNアプローチによるタスク固有の相性マップに適用する。
コードはhttps://github.com/SugarFreeManatee/Feature-Space-Augmentation-and-Iterated-Learningで入手できる。
Image and multimodal machine learning tasks are very challenging to solve in the case of poorly distributed data. In particular, data availability and privacy restrictions exacerbate these hurdles in the medical domain. The state of the art in image generation quality is held by Latent Diffusion models, making them prime candidates for tackling this problem. However, a few key issues still need to be solved, such as the difficulty in generating data from under-represented classes and a slow inference process. To mitigate these issues, we propose a new method for image augmentation in long-tailed data based on leveraging the rich latent space of pre-trained Stable Diffusion Models. We create a modified separable latent space to mix head and tail class examples. We build this space via Iterated Learning of underlying sparsified embeddings, which we apply to task-specific saliency maps via a K-NN approach. Code is available at https://github.com/SugarFreeManatee/Feature-Space-Augmentation-and-Iterated-Learning | 翻訳日:2024-05-06 14:34:45 公開日:2024-05-02 |
# 完全解釈可能な旅行行動解析のための深い因果推論モデル
A deep causal inference model for fully-interpretable travel behaviour analysis ( http://arxiv.org/abs/2405.01708v1 ) ライセンス: Link先を確認 | Kimia Kamal, Bilal Farooq, | (参考訳) 交通政策評価は因果問題を伴うことが多いが、伝統的な旅行行動モデルの因果推論能力は最も限られている。
本稿では、旅行行動における因果関係を明示的にモデル化し、予測精度を高め、因果推論、深層学習、従来の個別選択モデルを利用して解釈可能性を維持するフレームワークである、traveL behavIour analysis(CAROLINA)の深部CAusal infeRence mOdelを提案する。
本枠組みでは, 正規化フロー法を適用し, 人間の行動予測のための生成対実モデルを提案する。
仮想現実感に基づく歩行者横断行動のケーススタディを通じて、ロンドンからの嗜好旅行行動と合成データを明らかにし、因果関係の解明、予測精度、政策介入の評価において提案したモデルの有効性を実証した。
以上の結果から,歩行者のストレスレベルを低下させる介入機構が,待ち時間の短い個人において38.5%の増加につながることが示唆された。
ロンドンにおける旅行距離の減少は、持続可能な旅行モードの47%の増加をもたらす。
Transport policy assessment often involves causal questions, yet the causal inference capabilities of traditional travel behavioural models are at best limited. We present the deep CAusal infeRence mOdel for traveL behavIour aNAlysis (CAROLINA), a framework that explicitly models causality in travel behaviour, enhances predictive accuracy, and maintains interpretability by leveraging causal inference, deep learning, and traditional discrete choice modelling. Within this framework, we introduce a Generative Counterfactual model for forecasting human behaviour by adapting the Normalizing Flow method. Through the case studies of virtual reality-based pedestrian crossing behaviour, revealed preference travel behaviour from London, and synthetic data, we demonstrate the effectiveness of our proposed models in uncovering causal relationships, prediction accuracy, and assessing policy interventions. Our results show that intervention mechanisms that can reduce pedestrian stress levels lead to a 38.5% increase in individuals experiencing shorter waiting times. Reducing the travel distances in London results in a 47% increase in sustainable travel modes. | 翻訳日:2024-05-06 14:34:45 公開日:2024-05-02 |
# 不均質な部分群を持つデータに対するMinimaxレグレト学習
Minimax Regret Learning for Data with Heterogeneous Subgroups ( http://arxiv.org/abs/2405.01709v1 ) ライセンス: Link先を確認 | Weibin Mo, Weijing Tang, Songkai Xue, Yufeng Liu, Ji Zhu, | (参考訳) 現代の複雑なデータセットは、しばしば様々なサブ集団から構成される。
サブポピュレーションの不均一性の存在下でのロバストで一般化可能な手法を開発するためには,平均的な手法ではなく,一様学習性能を保証することが重要である。
多くのアプリケーションでは、データポイントがどのサブポピュレーションやグループに属しているかという事前情報が得られる。
観察されたデータ群を考慮し,最悪のグループ後悔を最小限に抑えるため,一般教師あり学習のためのMMR学習フレームワークを開発した。
後悔に基づく決定論の枠組みから動機づけられたMMRは,既存の文献における価値に基づく,あるいはリスクに基づく頑健な学習方法と区別される。
後悔の基準は、いくつかの頑丈さと不変性を同時に特徴付ける。
一般化可能性の観点からは,観察されたサブポピュレーション,それらの混合物,および観察されたサブポピュレーションによって近似できる他の未確認サブポピュレーションを組み込んだメタデータのスーパーポピュレーションに対する最悪の後悔の理論的保証を開発する。
広範囲なシミュレーション研究を通じて本手法の有効性を実証し, 数百の移植センターからの腎臓移植データに適用した。
Modern complex datasets often consist of various sub-populations. To develop robust and generalizable methods in the presence of sub-population heterogeneity, it is important to guarantee a uniform learning performance instead of an average one. In many applications, prior information is often available on which sub-population or group the data points belong to. Given the observed groups of data, we develop a min-max-regret (MMR) learning framework for general supervised learning, which targets to minimize the worst-group regret. Motivated from the regret-based decision theoretic framework, the proposed MMR is distinguished from the value-based or risk-based robust learning methods in the existing literature. The regret criterion features several robustness and invariance properties simultaneously. In terms of generalizability, we develop the theoretical guarantee for the worst-case regret over a super-population of the meta data, which incorporates the observed sub-populations, their mixtures, as well as other unseen sub-populations that could be approximated by the observed ones. We demonstrate the effectiveness of our method through extensive simulation studies and an application to kidney transplantation data from hundreds of transplant centers. | 翻訳日:2024-05-06 14:34:45 公開日:2024-05-02 |
# 重み付けとチューニングによる個人フェアネス
Individual Fairness Through Reweighting and Tuning ( http://arxiv.org/abs/2405.01711v1 ) ライセンス: Link先を確認 | Abdoul Jalil Djiberou Mahamadou, Lea Goetz, Russ Altman, | (参考訳) 社会内の本質的なバイアスは、人工知能(AI)システムによって増幅し、永続することができる。
この問題に対処するために、偏見を識別し緩和し、個人やグループに対して公平さを強制する幅広い解決策が提案されている。
近年,半教師付き学習文献からの正規化手法であるGraph Laplacian Regularizer (GLR) が,一般のリプシッツ条件の代替として利用され,個人的公正性(IF)が向上している。
著名な先行研究により、GLRを介してIFを強制することは、共変量シフトの下でAIモデルの伝達学習精度を向上させることが示されている。
しかしながら、以前の作業では、ソースとターゲットデータを組み合わせたGLRを定義しており、実際には保持されないかもしれない列車時にターゲットデータが利用可能であることを暗黙的に仮定している。
本研究では,GLRを列車上で独立に定義し,目標データに先行する作業モデルと同等の精度を維持できるかどうかを検討した。
さらに,FGN(正規化フェアネスゲインスコア)を導入し,アルゴリズムフェアネス手法のIFを測定した。
FGNは、GLRを使用するか否かにかかわらず、取得した公正度を定量化する。
我々は、FGN、予測整合性(PC)、ドイツの信用承認データセットにおける従来の分類基準について、新しい手法とオリジナル手法を評価した。
その結果, 2つのモデルが5倍のクロスバリデーションで同様の統計的平均性能を達成できた。
さらに,提案手法では,FGNスコアが小さいのに対して,PCスコアは高く,統計的にフェアネス強化モデルに類似しうるため,PCスコアは誤解を招く可能性があることを示した。
この研究は、GLRがIFとPCの落とし穴を効果的に強化する際の新たな洞察を提供する。
Inherent bias within society can be amplified and perpetuated by artificial intelligence (AI) systems. To address this issue, a wide range of solutions have been proposed to identify and mitigate bias and enforce fairness for individuals and groups. Recently, Graph Laplacian Regularizer (GLR), a regularization technique from the semi-supervised learning literature has been used as a substitute for the common Lipschitz condition to enhance individual fairness (IF). Notable prior work has shown that enforcing IF through a GLR can improve the transfer learning accuracy of AI models under covariate shifts. However, the prior work defines a GLR on the source and target data combined, implicitly assuming that the target data are available at train time, which might not hold in practice. In this work, we investigated whether defining a GLR independently on the train and target data could maintain similar accuracy compared to the prior work model. Furthermore, we introduced the Normalized Fairness Gain score (FGN) to measure IF for in-processing algorithmic fairness techniques. FGN quantifies the amount of gained fairness when a GLR is used versus not. We evaluated the new and original methods under FGN, the Prediction Consistency (PC), and traditional classification metrics on the German Credit Approval dataset. The results showed that the two models achieved similar statistical mean performances over five-fold cross-validation. Furthermore, the proposed metric showed that PC scores can be misleading as the scores can be high and statistically similar to fairness-enhanced models while FGN scores are small. This work therefore provides new insights into when a GLR effectively enhances IF and the pitfalls of PC. | 翻訳日:2024-05-06 14:34:45 公開日:2024-05-02 |
# モデル非依存アテンションマップを用いた解釈可能なバイタルサイン予測
Interpretable Vital Sign Forecasting with Model Agnostic Attention Maps ( http://arxiv.org/abs/2405.01714v1 ) ライセンス: Link先を確認 | Yuwei Liu, Chen Dan, Anubhav Bhatti, Bingjie Shen, Divij Gupta, Suraj Parmar, San Lee, | (参考訳) セプシスは集中治療室(ICU)の死亡率の主要な原因であり、深刻な医療上の課題である。
敗血症を予測するために様々な重要な兆候を分析する複雑さは、この問題をさらに悪化させる。
深層学習技術は早期の敗血症予測のために進歩してきたが、その'ブラックボックス'という性質は内部ロジックを曖昧にし、ICUのようなクリティカルな設定での解釈性を損なう。
本稿では,深層学習モデルと注意機構を組み合わせたフレームワークを提案する。これは,予測過程における臨界時間ステップを強調し,モデル解釈性を改善し,臨床的意思決定を支援する。
注意機構は,N-HiTSやN-BEATSといった様々なブラックボックス時系列予測モデルに適用可能であることを示す。
本手法は,従来のディープラーニングモデルの精度を保ちながら,注目重み付きヒートマップによる解釈性を向上させる。
eICU-CRDデータセットを用いて,敗血症患者に対するバイタルサインの予測に焦点をあてた。
平均二乗誤差 (MSE) と動的時間歪み (DTW) 測定値を用いて評価を行った。
我々は,N-HiTS と N-BEATS の注意マップを探索し,その性能の違いを調べた。
Sepsis is a leading cause of mortality in intensive care units (ICUs), representing a substantial medical challenge. The complexity of analyzing diverse vital signs to predict sepsis further aggravates this issue. While deep learning techniques have been advanced for early sepsis prediction, their 'black-box' nature obscures the internal logic, impairing interpretability in critical settings like ICUs. This paper introduces a framework that combines a deep learning model with an attention mechanism that highlights the critical time steps in the forecasting process, thus improving model interpretability and supporting clinical decision-making. We show that the attention mechanism could be adapted to various black box time series forecasting models such as N-HiTS and N-BEATS. Our method preserves the accuracy of conventional deep learning models while enhancing interpretability through attention-weight-generated heatmaps. We evaluated our model on the eICU-CRD dataset, focusing on forecasting vital signs for sepsis patients. We assessed its performance using mean squared error (MSE) and dynamic time warping (DTW) metrics. We explored the attention maps of N-HiTS and N-BEATS, examining the differences in their performance and identifying crucial factors influencing vital sign forecasting. | 翻訳日:2024-05-06 14:34:45 公開日:2024-05-02 |
# ATTAXONOMY: 差別的プライバシー保護を現実の広告主から解放する
ATTAXONOMY: Unpacking Differential Privacy Guarantees Against Practical Adversaries ( http://arxiv.org/abs/2405.01716v1 ) ライセンス: Link先を確認 | Rachel Cummings, Shlomi Hod, Jayshree Sarathy, Marika Swanberg, | (参考訳) 微分プライバシ(DP)は、機械学習と統計分析に関連するプライバシーリスクを軽減するために、数学的なフレームワークである。
DPの定義から最も自然に従う保証は、1つのデータ記録を全て知っていて、無制限に補助的な知識を持つ敵によるメンバーシップ推論に対する保護である。
多くの設定では、この敵は現実世界のプライバシーパラメータを設定する方法を知るにはあまりにも強すぎる。
プライバシパラメータをコンテキスト化するための1つのアプローチは、技術的攻撃の成功を定義して測定することであるが、それを行うには、関連する攻撃空間を体系的に分類する必要がある。
本研究は,攻撃の様々な側面を示す詳細な分類法を提供し,実世界の多くの設定が検討されていることを強調した。
われわれの分類学は、現実世界の展開を分析し、より有益なプライバシー攻撃のための理論的境界を開発するためのロードマップを提供する。
イスラエルの厚生労働省が最近、DPを用いた出生データセットを公開し、その分類がどのようにしてきめ細かな脅威モデリングを可能にし、情報的プライバシーパラメータの選択に対する洞察を提供するかを示した。
最後に,本研究は,従来の文献より現実的な攻撃,すなわち分布再構成攻撃の定義に活用する。我々は,分布不確実性のある低インフォームの敵に対して,Balle et alの再構築堅牢性の概念を一般化し,DPの最悪の保証を,この平均ケース設定にまで拡張する。
Differential Privacy (DP) is a mathematical framework that is increasingly deployed to mitigate privacy risks associated with machine learning and statistical analyses. Despite the growing adoption of DP, its technical privacy parameters do not lend themselves to an intelligible description of the real-world privacy risks associated with that deployment: the guarantee that most naturally follows from the DP definition is protection against membership inference by an adversary who knows all but one data record and has unlimited auxiliary knowledge. In many settings, this adversary is far too strong to inform how to set real-world privacy parameters. One approach for contextualizing privacy parameters is via defining and measuring the success of technical attacks, but doing so requires a systematic categorization of the relevant attack space. In this work, we offer a detailed taxonomy of attacks, showing the various dimensions of attacks and highlighting that many real-world settings have been understudied. Our taxonomy provides a roadmap for analyzing real-world deployments and developing theoretical bounds for more informative privacy attacks. We operationalize our taxonomy by using it to analyze a real-world case study, the Israeli Ministry of Health's recent release of a birth dataset using DP, showing how the taxonomy enables fine-grained threat modeling and provides insight towards making informed privacy parameter choices. Finally, we leverage the taxonomy towards defining a more realistic attack than previously considered in the literature, namely a distributional reconstruction attack: we generalize Balle et al.'s notion of reconstruction robustness to a less-informed adversary with distributional uncertainty, and extend the worst-case guarantees of DP to this average-case setting. | 翻訳日:2024-05-06 14:34:45 公開日:2024-05-02 |
# FSM Builder: 自動フィニット自動質問を書くツール
FSM Builder: A Tool for Writing Autograded Finite Automata Questions ( http://arxiv.org/abs/2405.01717v1 ) ライセンス: Link先を確認 | Eliot Wong Robson, Sam Ruggerio, Jeff Erickson, | (参考訳) 決定論的および非決定論的有限オートマトン(DFAs、NFA)は、入門計算理論のコースで一般的に教えられる計算の抽象モデルである。
これらのモデルには重要な応用(高速正規表現マッチングなど)があり、形式言語理論の導入に用いられる。
大学生は、抽象化のレベルのため、最初はこれらのモデルを理解するのに苦労することが多い。
その結果、学生がこれらのモデルで実践できるように、様々な教育ツールが開発されている。
FSM Builderは、学生がグラフィカルエディタでDFAやNFAの構築を実践し、パーソナライズされたフィードバックと部分的なクレジットを提供するための新しい教育ツールである。
これらを生成するアルゴリズムは、以前の研究に強くインスパイアされている。
競合他社にとって重要な利点は、柔軟性とスケーラビリティだ。
これは、FSM Builderがオープンソースパッケージの効率的なアルゴリズムを使って実装されているためである。
複数の大規模コースでこのツールを使用した経験から,ツールの実装,従来のツールとどのように際立っているか,といった点について論じる。
調査の結果,ツールが提供するインターフェースとフィードバックは学生にとって有用であった。
Deterministic and nondeterministic finite automata (DFAs and NFAs) are abstract models of computation commonly taught in introductory computing theory courses. These models have important applications (such as fast regular expression matching), and are used to introduce formal language theory. Undergraduate students often struggle with understanding these models at first, due to the level of abstraction. As a result, various pedagogical tools have been developed to allow students to practice with these models. We introduce the FSM Builder, a new pedagogical tool enabling students to practice constructing DFAs and NFAs with a graphical editor, giving personalized feedback and partial credit. The algorithms used for generating these are heavily inspired by previous works. The key advantages to its competitors are greater flexibility and scalability. This is because the FSM Builder is implemented using efficient algorithms from an open source package, allowing for easy extension and question creation. We discuss the implementation of the tool, how it stands out from previous tools, and takeaways from experiences of using the tool in multiple large courses. Survey results indicate the interface and feedback provided by the tool were useful to students. | 翻訳日:2024-05-06 14:34:45 公開日:2024-05-02 |
# 条件付き付加価値を用いたロバストリスク感性強化学習
Robust Risk-Sensitive Reinforcement Learning with Conditional Value-at-Risk ( http://arxiv.org/abs/2405.01718v1 ) ライセンス: Link先を確認 | Xinyi Ni, Lifeng Lai, | (参考訳) ロバスト・マルコフ決定過程(RMDP)は、しばしば固定遷移確率を仮定する標準マルコフ決定過程(MDP)の代替として、大きな研究関心を集めている。
RMDPは、あいまいさセット内の最悪のシナリオを最適化することで、この問題に対処する。
従来のRMDPの研究はリスクニュートラル強化学習(RL)を中心に行われてきたが,本研究では,CVaRをベースとしたRMDPによるリスク感受性RLのロバスト性について検討した。
まず、所定のあいまいさ集合を考える。
CVaRのコヒーレンシに基づいて,ロバストネスとリスク感度の関連性を確立する。
さらに、実世界の問題における意思決定依存の不確実性の存在を動機として、状態行動依存曖昧性集合による問題を研究する。
そこで我々は, NCVaR という新たなリスク尺度を定義し, NCVaR 最適化とロバストな CVaR 最適化の等価性を構築する。
さらに,数値反復アルゴリズムを提案し,シミュレーション実験におけるアプローチを検証する。
Robust Markov Decision Processes (RMDPs) have received significant research interest, offering an alternative to standard Markov Decision Processes (MDPs) that often assume fixed transition probabilities. RMDPs address this by optimizing for the worst-case scenarios within ambiguity sets. While earlier studies on RMDPs have largely centered on risk-neutral reinforcement learning (RL), with the goal of minimizing expected total discounted costs, in this paper, we analyze the robustness of CVaR-based risk-sensitive RL under RMDP. Firstly, we consider predetermined ambiguity sets. Based on the coherency of CVaR, we establish a connection between robustness and risk sensitivity, thus, techniques in risk-sensitive RL can be adopted to solve the proposed problem. Furthermore, motivated by the existence of decision-dependent uncertainty in real-world problems, we study problems with state-action-dependent ambiguity sets. To solve this, we define a new risk measure named NCVaR and build the equivalence of NCVaR optimization and robust CVaR optimization. We further propose value iteration algorithms and validate our approach in simulation experiments. | 翻訳日:2024-05-06 14:34:45 公開日:2024-05-02 |
# マルチタスクベンチマークにおける多様性と安定性の因果的トレードオフ
Inherent Trade-Offs between Diversity and Stability in Multi-Task Benchmark ( http://arxiv.org/abs/2405.01719v1 ) ライセンス: Link先を確認 | Guanhua Zhang, Moritz Hardt, | (参考訳) 社会的選択論のレンズを用いた機械学習におけるマルチタスクベンチマークについて検討する。
我々は、モデルが候補であり、タスクが投票者である、ベンチマークと選挙システムの間の類似性を描く。
これは、基数ベンチマークと順序ベンチマークの区別を示唆している。
前者の集計スコアは1つのモデルランキングに分類され、後者の集計スコアは各タスクごとにランク付けされる。
順序数ベンチマークにアローの不合理性定理を適用し、順序数系の固有の制限、特に無関係なモデルの包含に対する感度を強調する。
Arrowの定理に触発されて、既存のマルチタスクベンチマークにおける無関係な変化に対する多様性と感受性の強いトレードオフを実証的に実証した。
この結果は、私たちが導入した多様性と感度の新しい定量的尺度に基づいています。
感度は、タスクの無関係な変更がベンチマークに与える影響を定量化する。
多様性は、タスク間のモデルランキングにおける不一致の度合いを捉えます。
正確な計算が困難であるため,両測度に対する効率的な近似アルゴリズムを開発した。
7つのベンチマークと11の順序ベンチマークに関する広範な実験を通じて、多様性と安定性の間に明確なトレードオフが示されている。
さらに、既存のベンチマークの集計されたランキングは、無関係な変更の下で非常に不安定であることを示す。
コードとデータはhttps://socialfoundations.github.io/benchbench/で公開されている。
We examine multi-task benchmarks in machine learning through the lens of social choice theory. We draw an analogy between benchmarks and electoral systems, where models are candidates and tasks are voters. This suggests a distinction between cardinal and ordinal benchmark systems. The former aggregate numerical scores into one model ranking; the latter aggregate rankings for each task. We apply Arrow's impossibility theorem to ordinal benchmarks to highlight the inherent limitations of ordinal systems, particularly their sensitivity to the inclusion of irrelevant models. Inspired by Arrow's theorem, we empirically demonstrate a strong trade-off between diversity and sensitivity to irrelevant changes in existing multi-task benchmarks. Our result is based on new quantitative measures of diversity and sensitivity that we introduce. Sensitivity quantifies the impact that irrelevant changes to tasks have on a benchmark. Diversity captures the degree of disagreement in model rankings across tasks. We develop efficient approximation algorithms for both measures, as exact computation is computationally challenging. Through extensive experiments on seven cardinal benchmarks and eleven ordinal benchmarks, we demonstrate a clear trade-off between diversity and stability: The more diverse a multi-task benchmark, the more sensitive to trivial changes it is. Additionally, we show that the aggregated rankings of existing benchmarks are highly unstable under irrelevant changes. The codes and data are available at https://socialfoundations.github.io/benchbench/. | 翻訳日:2024-05-06 14:34:45 公開日:2024-05-02 |
# ボルン・レッドフィールド・マスター方程式を超える非マルコビアン性のスペクトルシグネチャの定量化
Quantifying spectral signatures of non-Markovianity beyond Born-Redfield master equation ( http://arxiv.org/abs/2405.01722v1 ) ライセンス: Link先を確認 | A. Keefe, N. Agarwal, A. Kamal, | (参考訳) オープン量子力学における記憶あるいは時間非局所効果は、ノイズ量子系の理解と制御において理論的および実践的な課題をもたらす。
非マルコフ力学の診断の開発には包括的で協力的な取り組みがあったが、既存の測定基準はすべて時間領域の測定に頼っている。
本研究では,システム定常状態における非マルコビアン性の検出が可能な非マルコビアン性の分光測度を提案する。
実験可能なことに加えて,提案手法には直接情報理論的解釈があり,マルコフ近似を行う際の単位帯域当たりの情報損失が大きい。
同じ静脈では、周波数領域量子マスター方程式(FD-QME)がボルン・レッドフィールドの標準的な記述を超え、還元されたシステムの状態の完全なメモリを保持する。
FD-QMEと提案手法を用いて, 環境相関や遅延効果を含む複数のシステム環境環境で, 非マルコビアン性を確実に診断し, 定量化することができる。
Memory or time-non-local effects in open quantum dynamics pose theoretical as well as practical challenges in the understanding and control of noisy quantum systems. While there has been a comprehensive and concerted effort towards developing diagnostics for non-Markovian dynamics, all existing measures rely on time-domain measurements which are typically slow and expensive as they require averaging several runs to resolve small transient features on a broad background, and scale unfavorably with system size and complexity. In this work, we propose a spectroscopic measure of non-Markovianity which can detect persistent non-Markovianity in the system steady state. In addition to being experimentally viable, the proposed measure has a direct information theoretic interpretation: a large value indicates the information loss per unit bandwidth of making the Markov approximation. In the same vein, we derive a frequency-domain quantum master equation (FD-QME) that goes beyond the standard Born-Redfield description and retains the full memory of the state of the reduced system. Using the FD-QME and the proposed measure, we are able to reliably diagnose and quantify non-Markovianity in several system-environment settings including those with environmental correlations and retardation effects. | 翻訳日:2024-05-06 14:34:45 公開日:2024-05-02 |
# 深層学習と幾何運動モデル融合による野生におけるゼロショット単眼運動分割
Zero-Shot Monocular Motion Segmentation in the Wild by Combining Deep Learning with Geometric Motion Model Fusion ( http://arxiv.org/abs/2405.01723v1 ) ライセンス: Link先を確認 | Yuxiang Huang, Yuhao Chen, John Zelek, | (参考訳) 動くモノクロカメラから動く物体を検知・分画することは、未知のカメラの動き、多様な物体の動き、複雑なシーン構造の存在において困難である。
既存のほとんどの手法は、動きのセグメンテーションを実行するために単一の動きキューに依存しており、これは通常、異なる複雑な環境に直面すると不十分である。
最近のディープラーニングベースの手法では、複数のモーションキューを組み合わせることで精度の向上を実現しているが、膨大なデータセットと広範なアノテーションに大きく依存しているため、新たなシナリオへの適応性が低い。
これらの制約に対処するために,最先端の動作セグメント化をゼロショット方式で実現した,単分子密分法を提案する。
提案手法は,物体の提案に対して幾何モデル融合を行うことにより,深層学習と幾何モデル融合法の強みを相乗的に結合する。
実験により,本手法はいくつかの動作セグメンテーションデータセットの競合的な結果を得ることができ,また,特定のベンチマークにおける最先端の教師付き手法を超越する結果も得られた。
また, 異なる幾何学的モデルを組み合わせることで, 動きのセグメンテーションを図り, 幾何学的モデル融合戦略の価値を明らかにするためのアブレーション実験を行った。
Detecting and segmenting moving objects from a moving monocular camera is challenging in the presence of unknown camera motion, diverse object motions and complex scene structures. Most existing methods rely on a single motion cue to perform motion segmentation, which is usually insufficient when facing different complex environments. While a few recent deep learning based methods are able to combine multiple motion cues to achieve improved accuracy, they depend heavily on vast datasets and extensive annotations, making them less adaptable to new scenarios. To address these limitations, we propose a novel monocular dense segmentation method that achieves state-of-the-art motion segmentation results in a zero-shot manner. The proposed method synergestically combines the strengths of deep learning and geometric model fusion methods by performing geometric model fusion on object proposals. Experiments show that our method achieves competitive results on several motion segmentation datasets and even surpasses some state-of-the-art supervised methods on certain benchmarks, while not being trained on any data. We also present an ablation study to show the effectiveness of combining different geometric models together for motion segmentation, highlighting the value of our geometric model fusion strategy. | 翻訳日:2024-05-06 14:34:45 公開日:2024-05-02 |
# 大規模言語モデルは一貫性がなくバイアスの多い評価器である
Large Language Models are Inconsistent and Biased Evaluators ( http://arxiv.org/abs/2405.01724v1 ) ライセンス: Link先を確認 | Rickard Stureborg, Dimitris Alikaniotis, Yoshi Suhara, | (参考訳) LLM(Large Language Models)のゼロショット機能は、様々なタスクに対して非常に柔軟で参照不要なメトリクスを可能にし、LPM評価ツールをNLPで一般的なツールにしている。
しかしながら、これらのLCM評価器の頑健性は、人間の専門家のスコアとLLMのスコアを関連付けるという点で、既存の研究は主に最適なパフォーマンスを追求している。
本稿では,SummEvalデータセットを用いて一連の分析を行い,LLMが偏見評価器であることを確認する。(1)低難易度テキストに対する親しみやすさの偏見を示すこと,(2)偏見の偏見のある評価分布を示すこと,(3)多属性判定に対するアンカーリング効果を経験すること,である。
また, LLM は不整合性評価器であり, テキスト品質の人間の理解に欠かせない相違を誘発する「サンプル間合意」が低く, 感度が高いことがわかった。
さらに、これらの制限を緩和するためにLCM評価器を設定するためのレシピを共有します。
RoSEデータセットの実験結果は、最先端のLCM評価器よりも改善されている。
The zero-shot capability of Large Language Models (LLMs) has enabled highly flexible, reference-free metrics for various tasks, making LLM evaluators common tools in NLP. However, the robustness of these LLM evaluators remains relatively understudied; existing work mainly pursued optimal performance in terms of correlating LLM scores with human expert scores. In this paper, we conduct a series of analyses using the SummEval dataset and confirm that LLMs are biased evaluators as they: (1) exhibit familiarity bias-a preference for text with lower perplexity, (2) show skewed and biased distributions of ratings, and (3) experience anchoring effects for multi-attribute judgments. We also found that LLMs are inconsistent evaluators, showing low "inter-sample" agreement and sensitivity to prompt differences that are insignificant to human understanding of text quality. Furthermore, we share recipes for configuring LLM evaluators to mitigate these limitations. Experimental results on the RoSE dataset demonstrate improvements over the state-of-the-art LLM evaluators. | 翻訳日:2024-05-06 14:24:53 公開日:2024-05-02 |
# コンピュータビジョンと医用画像解析のためのディープニューラルネットワークにおけるスキップ接続の開発:サーベイ
Development of Skip Connection in Deep Neural Networks for Computer Vision and Medical Image Analysis: A Survey ( http://arxiv.org/abs/2405.01725v1 ) ライセンス: Link先を確認 | Guoping Xu, Xiaxia Wang, Xinglong Wu, Xuesong Leng, Yongchao Xu, | (参考訳) ディープラーニングはコンピュータビジョン、特に画像分類、オブジェクト検出、セマンティックセグメンテーションにおいて大きな進歩を遂げた。
スキップ接続はディープニューラルネットワークのアーキテクチャにおいて重要な役割を担い、トレーニング段階での残留学習による最適化を容易にし、テスト中の精度を向上させる。
多くのニューラルネットワークは、様々なタスクのスキップ接続で残留学習というアイデアを継承しており、ニューラルネットワークを設計するための標準選択となっている。
このサーベイは、ディープニューラルネットワークにおけるスキップ接続の開発に関する包括的な概要と展望を提供する。
スキップ接続の短い歴史を概説し、ディープニューラルネットワークにおける残留学習の開発について概説する。
トレーニングおよびテスト段階におけるスキップ接続の有効性を要約し、残留学習におけるスキップ接続の利用に向けた今後の方向性について述べる。
最後に、画像分類、オブジェクト検出、セマンティックセグメンテーション、画像再構成を含むコンピュータビジョンにおけるスキップ接続を利用したセミナー論文、ソースコード、モデル、データセットを要約する。
この調査によって、コミュニティの仲間の研究者が、様々な形態やタスクにおける接続をスキップし、深層ニューラルネットワークにおける残留学習の理論を発展させられることを期待しています。
プロジェクトページはhttps://github.com/apple 1986/Residual_Learning_For_Imagesにある。
Deep learning has made significant progress in computer vision, specifically in image classification, object detection, and semantic segmentation. The skip connection has played an essential role in the architecture of deep neural networks,enabling easier optimization through residual learning during the training stage and improving accuracy during testing. Many neural networks have inherited the idea of residual learning with skip connections for various tasks, and it has been the standard choice for designing neural networks. This survey provides a comprehensive summary and outlook on the development of skip connections in deep neural networks. The short history of skip connections is outlined, and the development of residual learning in deep neural networks is surveyed. The effectiveness of skip connections in the training and testing stages is summarized, and future directions for using skip connections in residual learning are discussed. Finally, we summarize seminal papers, source code, models, and datasets that utilize skip connections in computer vision, including image classification, object detection, semantic segmentation, and image reconstruction. We hope this survey could inspire peer researchers in the community to develop further skip connections in various forms and tasks and the theory of residual learning in deep neural networks. The project page can be found at https://github.com/apple1986/Residual_Learning_For_Images | 翻訳日:2024-05-06 14:24:53 公開日:2024-05-02 |
# SSUMamba:ハイパースペクトル画像復調のための空間スペクトル選択状態空間モデル
SSUMamba: Spatial-Spectral Selective State Space Model for Hyperspectral Image Denoising ( http://arxiv.org/abs/2405.01726v1 ) ライセンス: Link先を確認 | Guanyiman Fu, Fengchao Xiong, Jianfeng Lu, Jun Zhou, Yuntao Qian, | (参考訳) ハイパースペクトル画像(HSI)のデノイングは、画像内メカニズムや環境要因から生じるノイズにより、重要な前処理手順である。
スペクトル相関,空間自己相似性,空間スペクトル相関といったHSIのドメイン固有知識を活用することは,深層学習に基づく認知に不可欠である。
既存の手法はしばしば、時間、空間の複雑さ、計算の複雑さによって制約され、これらの先行を別々に探索する戦略を採用する。
ハイパースペクトル画像は、強い空間連続性とスペクトル相関を持つ3次元画像であるため、余分な情報を避けることができるが、この種の戦略は、画像復元に肯定的な影響を与える微妙な長距離空間スペクトル情報を必然的に見落としている。
本稿では,空間スペクトル選択状態モデルに基づくU字型ネットワークであるSpatial-Spectral U-Mamba(SSUMamba)を提案する。
状態空間モデル(SSM)計算における線形空間複雑性のおかげで,モジュール内の全地球空間スペクトル相関が得られる。
本研究では,3次元HSIにおける複数方向の情報フローのモデル化を支援するSSAS(Alternating Scan)戦略を提案する。
実験結果から,本手法は比較手法よりも優れていることが示された。
ソースコードはhttps://github.com/lronkitty/SSUMamba.comから入手できる。
Denoising hyperspectral images (HSIs) is a crucial preprocessing procedure due to the noise originating from intra-imaging mechanisms and environmental factors. Utilizing domain-specific knowledge of HSIs, such as spectral correlation, spatial self-similarity, and spatial-spectral correlation, is essential for deep learning-based denoising. Existing methods are often constrained by running time, space complexity, and computational complexity, employing strategies that explore these priors separately. While the strategies can avoid some redundant information, considering that hyperspectral images are 3-D images with strong spatial continuity and spectral correlation, this kind of strategy inevitably overlooks subtle long-range spatial-spectral information that positively impacts image restoration. This paper proposes a Spatial-Spectral Selective State Space Model-based U-shaped network, termed Spatial-Spectral U-Mamba (SSUMamba), for hyperspectral image denoising. We can obtain complete global spatial-spectral correlation within a module thanks to the linear space complexity in State Space Model (SSM) computations. We introduce an Alternating Scan (SSAS) strategy for HSI data, which helps model the information flow in multiple directions in 3-D HSIs. Experimental results demonstrate that our method outperforms several compared methods. The source code will be available at https://github.com/lronkitty/SSUMamba. | 翻訳日:2024-05-06 14:24:53 公開日:2024-05-02 |
# マルウェア検出器の逆襲攻撃に関する説明可能性
Explainability Guided Adversarial Evasion Attacks on Malware Detectors ( http://arxiv.org/abs/2405.01728v1 ) ライセンス: Link先を確認 | Kshitiz Aryal, Maanak Gupta, Mahmoud Abdelsalam, Moustafa Saleh, | (参考訳) 人工知能(AI)のセキュリティが最重要視されるにつれ、最適な対向的摂動の創造と挿入に関する研究がますます重要になっている。
マルウェア領域では、この逆のサンプル生成は、訓練された分類器を避けることを目的として、工芸品の摂動の正確さと配置に大きく依存する。
本研究は, 機械学習ベースのWindows PEマルウェア検出装置において, 敵の回避攻撃を強化するための説明可能性技術の適用に焦点を当てた。
この説明可能なツールは、与えられたマルウェア検出装置の意思決定プロセスに最も大きな影響を及ぼすPEマルウェアファイルの領域を識別するので、同じ領域を利用して敵の摂動を最大効率で注入することができる。
PEマルウェアのファイル領域のプロファイリングは、マルウェア検知器の決定に対する影響に基づいて、摂動注入の最適な場所を特定するための効率的な戦略の導出を可能にする。
この戦略は、マルウェア検知器の決定に影響を与える領域の重要性と、その領域を変更するためのPEマルウェアファイルの整合性に対する感受性を取り入れるべきである。
CNNベースのマルウェア検出装置であるMalConvを用いて, SHAPのDeepExplainerモジュールを用いて, PEマルウェアの各領域の発見に対する寄与を判定する。
さらに、Windows PEの各セクションを小さなサブセクションに分割することで、より粒度の高いSHAP値の意義を分析した。
次に,バイト配列の対応するSHAP値に基づいて,サブセクションに対する逆回避攻撃を行った。
As the focus on security of Artificial Intelligence (AI) is becoming paramount, research on crafting and inserting optimal adversarial perturbations has become increasingly critical. In the malware domain, this adversarial sample generation relies heavily on the accuracy and placement of crafted perturbation with the goal of evading a trained classifier. This work focuses on applying explainability techniques to enhance the adversarial evasion attack on a machine-learning-based Windows PE malware detector. The explainable tool identifies the regions of PE malware files that have the most significant impact on the decision-making process of a given malware detector, and therefore, the same regions can be leveraged to inject the adversarial perturbation for maximum efficiency. Profiling all the PE malware file regions based on their impact on the malware detector's decision enables the derivation of an efficient strategy for identifying the optimal location for perturbation injection. The strategy should incorporate the region's significance in influencing the malware detector's decision and the sensitivity of the PE malware file's integrity towards modifying that region. To assess the utility of explainable AI in crafting an adversarial sample of Windows PE malware, we utilize the DeepExplainer module of SHAP for determining the contribution of each region of PE malware to its detection by a CNN-based malware detector, MalConv. Furthermore, we analyzed the significance of SHAP values at a more granular level by subdividing each section of Windows PE into small subsections. We then performed an adversarial evasion attack on the subsections based on the corresponding SHAP values of the byte sequences. | 翻訳日:2024-05-06 14:24:53 公開日:2024-05-02 |
# ソードガウス波パケットダイナミクス:3つの伝搬スキームの批判的評価
Thawed Gaussian wave packet dynamics: a critical assessment of three propagation schemes ( http://arxiv.org/abs/2405.01729v1 ) ライセンス: Link先を確認 | Ilya G. Ryabinkin, Rami Gherib, Scott N. Genin, | (参考訳) 本研究では,モースやダブルウェルポテンシャルの影響下で移動する可変幅(ソード)ガウス波パケットを化学的に代表されるパラメータで伝搬する3つのスキームについて検討した。
最も厳密なスキームは、時間依存変動原理(TDVP)に基づいており、調査されたすべてのレシエーションにおいて、ウェーブパケットの中心と幅の現実的な挙動をもたらす。
他の2つの近似スキーム、ヘラーと拡張半古典的スキームは、様々な収差を示す。
ヘラーのスキームは、様々なゼロ点エネルギー関連の効果を適切に説明せず、トンネルの予測ができず、さらに重要なことは、完全に非物理的で非有界な幅の振動を示すことである。
ヘラーの欠点のいくつかに対処するために開発された拡張半古典的スキームは、モースポテンシャルとダブルウェルポテンシャルの両方における軌道の自己トラッピングという別の非物理的挙動を示す。
我々はTDVPに基づくスキームのみが問題のない動的シミュレーションに適していると結論付けた。
しかし、これは高次元システムでどのように効率的に活用するかという疑問を提起する。
We assessed three schemes for propagating a variable-width (thawed) Gaussian wave packet moving under the influence of Morse or double-well potentials with parameters that are chemically representative. The most rigorous scheme is based on the time-dependent variational principle (TDVP); it leads to realistic behaviour of the center and width of a wave packet in all investigated regimes. Two other approximate schemes, Heller's and the extended semiclassical ones, demonstrate various aberrations. Heller's scheme does not properly account for various zero-point energy-related effects, is unable to predict tunneling, and more importantly, exhibits completely nonphysical unbound width oscillations. The extended semiclassical scheme, which was developed to address some of the shortcomings of the Heller counterpart, demonstrates another unphysical behaviour: self-trapping of a trajectory in both Morse and double-well potentials. We conclude that only the TDVP-based scheme is suitable for problem-free dynamical simulations. This, however, raises the question of how to utilize it efficiently in high-dimensional systems. | 翻訳日:2024-05-06 14:24:53 公開日:2024-05-02 |
# 雑音微分自由最適化のための動的異方性平滑化
Dynamic Anisotropic Smoothing for Noisy Derivative-Free Optimization ( http://arxiv.org/abs/2405.01731v1 ) ライセンス: Link先を確認 | Sam Reifenstein, Timothee Leleu, Yoshihisa Yamamoto, | (参考訳) 目的関数の不均一曲率を考慮に入れ, 雑音のない微分自由最適化のための球平滑化法とガウス平滑化法を拡張した新しいアルゴリズムを提案する。
アルゴリズムはスムーズなカーネルの形状を動的に適応させ、局所最適関数の Hessian を近似する。
このアプローチは,サンプリングによる雑音評価から勾配を推定する際の誤差を著しく低減する。
人工的な問題に対する数値実験により,本手法の有効性を実証する。
さらに、既存の最先端のヒューリスティックなデリバティブフリーおよびベイズ最適化手法と比較して、NPハード組合せ最適化器のチューニング性能が向上した。
We propose a novel algorithm that extends the methods of ball smoothing and Gaussian smoothing for noisy derivative-free optimization by accounting for the heterogeneous curvature of the objective function. The algorithm dynamically adapts the shape of the smoothing kernel to approximate the Hessian of the objective function around a local optimum. This approach significantly reduces the error in estimating the gradient from noisy evaluations through sampling. We demonstrate the efficacy of our method through numerical experiments on artificial problems. Additionally, we show improved performance when tuning NP-hard combinatorial optimization solvers compared to existing state-of-the-art heuristic derivative-free and Bayesian optimization methods. | 翻訳日:2024-05-06 14:24:53 公開日:2024-05-02 |
# 量子伝達学習を用いた糖尿病網膜症検出
Diabetic Retinopathy Detection Using Quantum Transfer Learning ( http://arxiv.org/abs/2405.01734v1 ) ライセンス: Link先を確認 | Ankush Jain, Rinav Gupta, Jai Singhal, | (参考訳) 糖尿病患者の合併症である糖尿病網膜症(DR)は、網膜に発生する病変により視力障害を引き起こすことがある。
進行期におけるDRの検出は、しばしば不可逆的な盲目を引き起こす。
眼科医による網膜基底画像からDRを診断する従来のプロセスは、時間集約的なだけでなく、高価なものでもある。
従来の移動学習モデルはコンピュータ支援によるDRの検出に広く採用されているが、その高いメンテナンスコストは検出効率を損なう可能性がある。
対照的に、Quantum Transfer Learningはこの課題に対してより効果的なソリューションを提供する。
このアプローチはヒューリスティックな原則に基づいており、タスクに高度に最適化されているため、特に有利である。
提案手法では,このハイブリッド量子トランスファー学習手法を用いてDRを検出する。
初期特徴抽出には、ResNet-18、ResNet34、ResNet50、ResNet101、ResNet152、Inception V3が使用される。
分類段階では変分量子分類器を用いる。
我々のハイブリッド量子モデルは、ResNet-18で97%の精度で顕著な結果を示した。
これは、量子コンピューティングが量子機械学習と統合されると、古典的なコンピュータだけでは達成できないレベルのパワーと効率でタスクを実行できることを示している。
これらの高度な技術を活用することで、糖尿病網膜症の検出と診断を大幅に改善することができ、視覚障害のリスクから多くの人を救える可能性がある。
キーワード:糖尿病網膜症、量子伝達学習、ディープラーニング
Diabetic Retinopathy (DR), a prevalent complication in diabetes patients, can lead to vision impairment due to lesions formed on the retina. Detecting DR at an advanced stage often results in irreversible blindness. The traditional process of diagnosing DR through retina fundus images by ophthalmologists is not only time-intensive but also expensive. While classical transfer learning models have been widely adopted for computer-aided detection of DR, their high maintenance costs can hinder their detection efficiency. In contrast, Quantum Transfer Learning offers a more effective solution to this challenge. This approach is notably advantageous because it operates on heuristic principles, making it highly optimized for the task. Our proposed methodology leverages this hybrid quantum transfer learning technique to detect DR. To construct our model, we utilize the APTOS 2019 Blindness Detection dataset, available on Kaggle. We employ the ResNet-18, ResNet34, ResNet50, ResNet101, ResNet152 and Inception V3, pre-trained classical neural networks, for the initial feature extraction. For the classification stage, we use a Variational Quantum Classifier. Our hybrid quantum model has shown remarkable results, achieving an accuracy of 97% for ResNet-18. This demonstrates that quantum computing, when integrated with quantum machine learning, can perform tasks with a level of power and efficiency unattainable by classical computers alone. By harnessing these advanced technologies, we can significantly improve the detection and diagnosis of Diabetic Retinopathy, potentially saving many from the risk of blindness. Keywords: Diabetic Retinopathy, Quantum Transfer Learning, Deep Learning | 翻訳日:2024-05-06 14:24:53 公開日:2024-05-02 |
# 暗黙的HMMのサンプル効率神経電位自由ベイズ推定
Sample-efficient neural likelihood-free Bayesian inference of implicit HMMs ( http://arxiv.org/abs/2405.01737v1 ) ライセンス: Link先を確認 | Sanmitra Ghosh, Paul J. Birrell, Daniela De Angelis, | (参考訳) ニューラル条件密度推定に基づく自由度推論法は,ABCなどの古典的手法と比較してシミュレーション負荷を大幅に削減することを示した。
隠れマルコフモデル(HMM)のような潜在変数モデルのコンテキストに適用した場合、これらの手法はパラメータと隠れ状態の共分散ではなくパラメータのみを推定するように設計されている。
これらの手法をHMMに適用することは、この結合後部分布の推測を無視して、後部分布の正確な推定を行い、その結果、適合性の評価を妨げます。
この問題を解決するために,暗黙的HMMの高次元隠蔽状態を推定する,サンプル効率の低い新しい手法を提案する。
提案手法は,マルコフ特性を利用した自己回帰フローを用いて,隠れ状態の難解な後部分布を直接学習することに依存する。
暗黙的HMMに対する我々のアプローチを評価すると、我々の手法を用いて得られた推定値の品質は、より計算コストのかかるSMCアルゴリズムで得られるものと比較できることがわかった。
Likelihood-free inference methods based on neural conditional density estimation were shown to drastically reduce the simulation burden in comparison to classical methods such as ABC. When applied in the context of any latent variable model, such as a Hidden Markov model (HMM), these methods are designed to only estimate the parameters, rather than the joint distribution of the parameters and the hidden states. Naive application of these methods to a HMM, ignoring the inference of this joint posterior distribution, will thus produce an inaccurate estimate of the posterior predictive distribution, in turn hampering the assessment of goodness-of-fit. To rectify this problem, we propose a novel, sample-efficient likelihood-free method for estimating the high-dimensional hidden states of an implicit HMM. Our approach relies on learning directly the intractable posterior distribution of the hidden states, using an autoregressive-flow, by exploiting the Markov property. Upon evaluating our approach on some implicit HMMs, we found that the quality of the estimates retrieved using our method is comparable to what can be achieved using a much more computationally expensive SMC algorithm. | 翻訳日:2024-05-06 14:24:53 公開日:2024-05-02 |
# 商品メタデータを用いた会話型ショッピングアシスタントに対する質問
Question Suggestion for Conversational Shopping Assistants Using Product Metadata ( http://arxiv.org/abs/2405.01738v1 ) ライセンス: Link先を確認 | Nikhita Vedula, Oleg Rokhlenko, Shervin Malmasi, | (参考訳) デジタルアシスタントは、情報検索(IR)、自然言語処理(NLP)、生成人工知能(AI)の最近の進歩に続いて、電子商取引アプリケーションにおいてユビキタスになった。
しかし、顧客は買い物のニーズを満たすために、これらのアシスタントと効果的に会話する方法を知らない、あるいは知らないことが多い。
本研究では,顧客に対して,対話型ショッピングアシスタントと対話するための,迅速で使いやすく,自然な方法を提供することの重要性を強調した。
本稿では,Large Language Models (LLMs) を用いて,コンテキスト内学習と教師付き微調整を通じて,製品に関する文脈的,有用な,答え可能な,流動的で多様な質問を自動的に生成するフレームワークを提案する。
これらの質問を顧客に対して、会話の開始と継続の両方に役立つ提案やヒントとして再検討することは、会話のオーバーヘッドと摩擦を減らすことで、よりスムーズで高速なショッピング体験をもたらす可能性がある。
我々は、広範囲なオフライン評価を行い、顧客の潜在的な影響、実際のショッピングアシスタントに組み込まれた場合の製品質問のタイプ、長さ、待ち時間について詳細に論じる。
Digital assistants have become ubiquitous in e-commerce applications, following the recent advancements in Information Retrieval (IR), Natural Language Processing (NLP) and Generative Artificial Intelligence (AI). However, customers are often unsure or unaware of how to effectively converse with these assistants to meet their shopping needs. In this work, we emphasize the importance of providing customers a fast, easy to use, and natural way to interact with conversational shopping assistants. We propose a framework that employs Large Language Models (LLMs) to automatically generate contextual, useful, answerable, fluent and diverse questions about products, via in-context learning and supervised fine-tuning. Recommending these questions to customers as helpful suggestions or hints to both start and continue a conversation can result in a smoother and faster shopping experience with reduced conversation overhead and friction. We perform extensive offline evaluations, and discuss in detail about potential customer impact, and the type, length and latency of our generated product questions if incorporated into a real-world shopping assistant. | 翻訳日:2024-05-06 14:24:53 公開日:2024-05-02 |
# ゲーテッド圧縮層を用いたオンデバイス機械学習におけるユーザエクスペリエンス向上
Enhancing User Experience in On-Device Machine Learning with Gated Compression Layers ( http://arxiv.org/abs/2405.01739v1 ) ライセンス: Link先を確認 | Haiguang Li, Usama Pervaiz, Joseph Antognini, Michał Matuszak, Lawrence Au, Gilles Roux, Trausti Thormundsso, | (参考訳) オンデバイス機械学習(ODML)は強力なエッジアプリケーションを実現するが、リソース制約のあるデバイスにとって電力消費は依然として重要な課題である。
これを解決するために、開発者はしばしばモデル精度と消費電力のトレードオフに直面し、高電力コアに計算集約的なモデルを採用するか、低電力コアにパードダウンモデルを使用する。
どちらのアプローチも通常、ユーザエクスペリエンス(UX)の妥協につながる。
この研究は、特に常時オンのユースケースにおいて、電力の保存とコスト効率の最大化を図りながら、ODMLモデル性能を向上させるために、GC(Gated Compression)層を使用することに焦点を当てている。
GCレイヤは、ニューラルネットワーク内のニューロンの活性化を選択的にゲーティングし、非必須入力を効果的にフィルタリングすることで、データフローを動的に制御する。
これらの改善は、バッテリー寿命の延長、デバイスの応答性の改善、ユーザーの快適性の向上を通じてUXを向上させる。
本研究では,トランスフォーマーベースのViTモデルを含む視覚領域モデルと音声領域モデルにGC層を統合した。
実験では, 常時オンシナリオの場合, 158倍から30,000倍の範囲で理論的な電力効率が向上することを示した。
この大幅な改善により、UXのメリットが強化されたODMLアプリケーションが強化される。
On-device machine learning (ODML) enables powerful edge applications, but power consumption remains a key challenge for resource-constrained devices. To address this, developers often face a trade-off between model accuracy and power consumption, employing either computationally intensive models on high-power cores or pared-down models on low-power cores. Both approaches typically lead to a compromise in user experience (UX). This work focuses on the use of Gated Compression (GC) layer to enhance ODML model performance while conserving power and maximizing cost-efficiency, especially for always-on use cases. GC layers dynamically regulate data flow by selectively gating activations of neurons within the neural network and effectively filtering out non-essential inputs, which reduces power needs without compromising accuracy, and enables more efficient execution on heterogeneous compute cores. These improvements enhance UX through prolonged battery life, improved device responsiveness, and greater user comfort. In this work, we have integrated GC layers into vision and speech domain models including the transformer-based ViT model. Our experiments demonstrate theoretical power efficiency gains ranging from 158x to 30,000x for always-on scenarios. This substantial improvement empowers ODML applications with enhanced UX benefits. | 翻訳日:2024-05-06 14:24:53 公開日:2024-05-02 |
# ジェネレーティブAIハームの心理的影響
The Psychosocial Impacts of Generative AI Harms ( http://arxiv.org/abs/2405.01740v1 ) ライセンス: Link先を確認 | Faye-Marie Vassel, Evan Shieh, Cassidy R. Sugimoto, Thema Monroe-White, | (参考訳) ジェネレーティブ言語モデル(LM)の急速な台頭は、それらの未検討の採用が多様なユーザーグループの社会的幸福に与える影響について懸念を募らせている。
一方、K-20の学校や1対1の学生設定では、LMが採用されつつある。
この論文は、現実/日常のユースケース(例えば、AI記述アシスタント)によって部分的に動機付けられ、オープン・エンド・プロンプトに反応する5つの主要なLMが生み出す、潜在的な精神社会的害について考察する。
本研究は, 学生の教室の相互作用に関連する150K100ワードの物語を分析し, ステレオタイピング障害の発見を拡張した。
LM生成されたキャラクターの人口動態と表現的害(消去、調整、ステレオタイピング)のパターンを調べ、特に過激なヴィグネットを強調し、LM生成されたアウトプットは、疎外的でマイノリティ化されたアイデンティティを持つユーザの体験に影響を与え、様々な社会的文脈に展開および活用する際に、生成AIツールの心理社会的影響に対する批判的な理解の必要性を強調する。
The rapid emergence of generative Language Models (LMs) has led to growing concern about the impacts that their unexamined adoption may have on the social well-being of diverse user groups. Meanwhile, LMs are increasingly being adopted in K-20 schools and one-on-one student settings with minimal investigation of potential harms associated with their deployment. Motivated in part by real-world/everyday use cases (e.g., an AI writing assistant) this paper explores the potential psychosocial harms of stories generated by five leading LMs in response to open-ended prompting. We extend findings of stereotyping harms analyzing a total of 150K 100-word stories related to student classroom interactions. Examining patterns in LM-generated character demographics and representational harms (i.e., erasure, subordination, and stereotyping) we highlight particularly egregious vignettes, illustrating the ways LM-generated outputs may influence the experiences of users with marginalized and minoritized identities, and emphasizing the need for a critical understanding of the psychosocial impacts of generative AI tools when deployed and utilized in diverse social contexts. | 翻訳日:2024-05-06 14:24:53 公開日:2024-05-02 |
# PVF (Parameter Vulnerability Factor): パラメータ破壊に対するAIの脆弱性とレジリエンスを定量的に測定する尺度
PVF (Parameter Vulnerability Factor): A Quantitative Metric Measuring AI Vulnerability and Resilience Against Parameter Corruptions ( http://arxiv.org/abs/2405.01741v1 ) ライセンス: Link先を確認 | Xun Jiao, Fred Lin, Harish D. Dixit, Joel Coburn, Abhinav Pandey, Han Wang, Jianyu Huang, Venkat Ramesh, Wang Xu, Daniel Moore, Sriram Sankar, | (参考訳) AIシステムの信頼性は、デプロイメントの成功とAI技術の広範な採用に対する基本的な懸念である。
残念なことに、AIハードウェアシステムのエスカレートする複雑さとヘテロジニティは、モデルパラメータを破損させる可能性のあるハードウェアの欠陥(例えばビットフリップ)に必然的に、ますます影響を受けやすくなります。
この課題を考えると、本論文は批判的な疑問に答えることを目的としている。 パラメータの破損が誤ったモデル出力をもたらす可能性はどの程度あるのか?
この問題に体系的に答えるために,コンピュータアーキテクチャコミュニティにおいて,パラメータ脆弱性因子 (AVF) に触発された新しい量的尺度であるパラメータ脆弱性因子 (PVF) を提案し,パラメータ破損に対するAIモデルレジリエンス/脆弱性の定量化を目指す。
モデルパラメータのPVFを、そのモデルパラメータの破損が誤った出力をもたらす確率として定義する。
AVFと同様に、この統計的概念は統計的に広範かつ有意義な断層注入(FI)実験から導かれる。
本稿では,推論中のPVFを3種類のタスク/モデルに適用するためのいくつかのユースケースについて述べる。
PVFは、脆弱なAIパラメータコンポーネントを保護されたハードウェアモジュールにマッピングするなど、フォールトプロテクションとパフォーマンス/効率のトレードオフのバランスにおいて、AIハードウェアデザイナに重要な洞察を提供することができる。
PVFメトリックは任意のAIモデルに適用可能であり、AI脆弱性/レジリエンス評価プラクティスの統合と標準化を支援する可能性がある。
Reliability of AI systems is a fundamental concern for the successful deployment and widespread adoption of AI technologies. Unfortunately, the escalating complexity and heterogeneity of AI hardware systems make them inevitably and increasingly susceptible to hardware faults (e.g., bit flips) that can potentially corrupt model parameters. Given this challenge, this paper aims to answer a critical question: How likely is a parameter corruption to result in an incorrect model output? To systematically answer this question, we propose a novel quantitative metric, Parameter Vulnerability Factor (PVF), inspired by architectural vulnerability factor (AVF) in computer architecture community, aiming to standardize the quantification of AI model resilience/vulnerability against parameter corruptions. We define a model parameter's PVF as the probability that a corruption in that particular model parameter will result in an incorrect output. Similar to AVF, this statistical concept can be derived from statistically extensive and meaningful fault injection (FI) experiments. In this paper, we present several use cases on applying PVF to three types of tasks/models during inference -- recommendation (DLRM), vision classification (CNN), and text classification (BERT). PVF can provide pivotal insights to AI hardware designers in balancing the tradeoff between fault protection and performance/efficiency such as mapping vulnerable AI parameter components to well-protected hardware modules. PVF metric is applicable to any AI model and has a potential to help unify and standardize AI vulnerability/resilience evaluation practice. | 翻訳日:2024-05-06 14:24:53 公開日:2024-05-02 |
# ALCM: 自律型LLM拡張因果発見フレームワーク
ALCM: Autonomous LLM-Augmented Causal Discovery Framework ( http://arxiv.org/abs/2405.01744v1 ) ライセンス: Link先を確認 | Elahe Khatibi, Mahyar Abbasian, Zhongqi Yang, Iman Azimi, Amir M. Rahmani, | (参考訳) 高次元データセットにおいて効果的な因果推論を行い、因果発見によるプロセスの開始が必須であり、観察データに基づいて因果グラフを生成する。
しかし、完全かつ正確な因果グラフを得るには、NPハード問題として認識される深刻な課題が伴う。
近年,Large Language Models (LLMs) の出現は,医学,金融,科学など多種多様な分野における因果推論を促進する上で,その創発的能力と広範な適用性を示している。
LLMの広大な知識基盤は、解釈可能性を提供し、推論し、一般化し、新しい因果構造を明らかにすることによって因果推論の分野を増大させる可能性を持っている。
本稿では,ALCM(Autonomous LLM-Augmented Causal Discovery Framework)と呼ばれる新しいフレームワークを導入する。
ALCMは、因果構造学習(英語版)、因果ラッパー(英語版)、LLM駆動因果リファクター(英語版)の3つの統合的な構成要素から構成される。
これらのコンポーネントは動的環境内で自律的に協調し、因果発見問題に対処し、妥当な因果グラフを提供する。
我々は、よく知られた7つのデータセットに2つのデモを実装することで、ALCMフレームワークを評価する。
実験の結果,ALCMは従来のLCM法や従来のデータ駆動因果推論機構よりも優れていた。
本研究は,ALCMの有効性だけでなく,LSMの因果推論能力を活用する上での新たな研究の方向性を裏付けるものである。
To perform effective causal inference in high-dimensional datasets, initiating the process with causal discovery is imperative, wherein a causal graph is generated based on observational data. However, obtaining a complete and accurate causal graph poses a formidable challenge, recognized as an NP-hard problem. Recently, the advent of Large Language Models (LLMs) has ushered in a new era, indicating their emergent capabilities and widespread applicability in facilitating causal reasoning across diverse domains, such as medicine, finance, and science. The expansive knowledge base of LLMs holds the potential to elevate the field of causal reasoning by offering interpretability, making inferences, generalizability, and uncovering novel causal structures. In this paper, we introduce a new framework, named Autonomous LLM-Augmented Causal Discovery Framework (ALCM), to synergize data-driven causal discovery algorithms and LLMs, automating the generation of a more resilient, accurate, and explicable causal graph. The ALCM consists of three integral components: causal structure learning, causal wrapper, and LLM-driven causal refiner. These components autonomously collaborate within a dynamic environment to address causal discovery questions and deliver plausible causal graphs. We evaluate the ALCM framework by implementing two demonstrations on seven well-known datasets. Experimental results demonstrate that ALCM outperforms existing LLM methods and conventional data-driven causal reasoning mechanisms. This study not only shows the effectiveness of the ALCM but also underscores new research directions in leveraging the causal reasoning capabilities of LLMs. | 翻訳日:2024-05-06 14:24:53 公開日:2024-05-02 |
# UAV用大規模言語モデルの現状と将来への道筋
Large Language Models for UAVs: Current State and Pathways to the Future ( http://arxiv.org/abs/2405.01745v1 ) ライセンス: Link先を確認 | Shumaila Javaid, Nasir Saeed, Bin He, | (参考訳) 無人航空機(UAV)は様々な分野にまたがる革新的技術として登場し、軍事と民間の両方において複雑な課題に対する適応可能な解決策を提供している。
彼らの拡張能力は、人工知能(AI)や機械学習(ML)アルゴリズムといった最先端の計算ツールを統合することで、さらなる進歩のためのプラットフォームを提供する。
これらの進歩は人類の様々な側面に大きく影響を与え、非並列な効率性と利便性の時代を育んでいる。
AIのキーコンポーネントであるLarge Language Models(LLMs)は、デプロイされた環境内での卓越した学習と適応能力を示し、人間レベルの熟練度にアプローチする可能性を備えた、進化したインテリジェンスの形態を示す。
この研究は、自律システムの開発を促進するために、UAVとLLMを統合する大きな可能性を探求する。
我々はLLMアーキテクチャを概観的にレビューし、UAV統合への適合性を評価した。
さらに,最新のLLMベースのUAVアーキテクチャを要約し,UAVフレームワークにLLMを組み込む新たな機会を見出した。
特に,データ分析と意思決定のプロセス,特にUAVアプリケーションにおけるスペクトルセンシングと共有の強化にLLMを活用することに注力する。
さらに, LLM 統合が既存の UAV アプリケーションの範囲を拡大し, 自律型データ処理の実現, 意思決定の改善, 災害対応やネットワーク復旧といった緊急時の応答時間短縮を実現する方法について検討した。
最後に, LLM と UAV の効果的な統合を促進する上で重要な今後の研究分野について紹介する。
Unmanned Aerial Vehicles (UAVs) have emerged as a transformative technology across diverse sectors, offering adaptable solutions to complex challenges in both military and civilian domains. Their expanding capabilities present a platform for further advancement by integrating cutting-edge computational tools like Artificial Intelligence (AI) and Machine Learning (ML) algorithms. These advancements have significantly impacted various facets of human life, fostering an era of unparalleled efficiency and convenience. Large Language Models (LLMs), a key component of AI, exhibit remarkable learning and adaptation capabilities within deployed environments, demonstrating an evolving form of intelligence with the potential to approach human-level proficiency. This work explores the significant potential of integrating UAVs and LLMs to propel the development of autonomous systems. We comprehensively review LLM architectures, evaluating their suitability for UAV integration. Additionally, we summarize the state-of-the-art LLM-based UAV architectures and identify novel opportunities for LLM embedding within UAV frameworks. Notably, we focus on leveraging LLMs to refine data analysis and decision-making processes, specifically for enhanced spectral sensing and sharing in UAV applications. Furthermore, we investigate how LLM integration expands the scope of existing UAV applications, enabling autonomous data processing, improved decision-making, and faster response times in emergency scenarios like disaster response and network restoration. Finally, we highlight crucial areas for future research that are critical for facilitating the effective integration of LLMs and UAVs. | 翻訳日:2024-05-06 14:24:53 公開日:2024-05-02 |
# PointCompress3D -- インテリジェントトランスポートシステムにおけるロードサイドLiDARのためのポイントクラウド圧縮フレームワーク
PointCompress3D -- A Point Cloud Compression Framework for Roadside LiDARs in Intelligent Transportation Systems ( http://arxiv.org/abs/2405.01750v1 ) ライセンス: Link先を確認 | Walter Zimmer, Ramandika Pranamulia, Xingcheng Zhou, Mingyu Liu, Alois C. Knoll, | (参考訳) インテリジェントトランスポーテーションシステム(ITS)の文脈では、ロードサイドのLiDARセンサーが取得した大規模クラウドデータを管理する上で、効率的なデータ圧縮が不可欠である。
ポイントクラウドデータに対する効率的なストレージ、ストリーミング、およびリアルタイムオブジェクト検出能力の需要は非常に大きい。
この研究は、ロードサイドのLiDARに特化した新しいポイントクラウド圧縮フレームワークであるPointCompress3Dを紹介した。
本フレームワークは,道路側LiDARセンサとの精度と互換性を維持しつつ,高分解能点雲を圧縮する課題に対処する。
実世界のTUMTrafデータセットファミリを用いて,3つの最先端圧縮手法を適応し,拡張し,統合し,評価する。
圧縮サイズを105Kb以下に保ちながら10FPSのフレームレートを実現し、50倍の削減を実現し、元のデータと同等のオブジェクト検出性能を維持する。
大規模な実験およびアブレーション研究において、データセット上でPSNR d2の94.46とBPPの6.54を達成した。
今後の作業には、ライブシステムへのデプロイが含まれる。
コードは、プロジェクトのWebサイト(https://pointcompress3d.github.io.)で入手できる。
In the context of Intelligent Transportation Systems (ITS), efficient data compression is crucial for managing large-scale point cloud data acquired by roadside LiDAR sensors. The demand for efficient storage, streaming, and real-time object detection capabilities for point cloud data is substantial. This work introduces PointCompress3D, a novel point cloud compression framework tailored specifically for roadside LiDARs. Our framework addresses the challenges of compressing high-resolution point clouds while maintaining accuracy and compatibility with roadside LiDAR sensors. We adapt, extend, integrate, and evaluate three cutting-edge compression methods using our real-world-based TUMTraf dataset family. We achieve a frame rate of 10 FPS while keeping compression sizes below 105 Kb, a reduction of 50 times, and maintaining object detection performance on par with the original data. In extensive experiments and ablation studies, we finally achieved a PSNR d2 of 94.46 and a BPP of 6.54 on our dataset. Future work includes the deployment on the live system. The code is available on our project website: https://pointcompress3d.github.io. | 翻訳日:2024-05-06 14:24:53 公開日:2024-05-02 |
# 頭頸部癌におけるセグメンテーションフリーアウト予測:PET画像の多角最大強度投影(MA-MIP)からの深層学習による特徴抽出
Segmentation-Free Outcome Prediction in Head and Neck Cancer: Deep Learning-based Feature Extraction from Multi-Angle Maximum Intensity Projections (MA-MIPs) of PET Images ( http://arxiv.org/abs/2405.01756v1 ) ライセンス: Link先を確認 | Amirhosein Toosi, Isaac Shiri, Habib Zaidi, Arman Rahmim, | (参考訳) 頭頸部癌 (HNC) 患者の予後予測のための革新的, 単純, 効果的セグメンテーションフリーアプローチを提案する。
深層学習に基づく特徴抽出技術とFDG-PET(Fluorodeoxyglucose Positron Emission Tomography)ボリュームに適用した多角最大強度投影(MA-MIPs)を利用することで,本手法は原発性腫瘍や関連するリンパ節などの関心領域(ROIs)を手動で分割する必要がなくなる。
代わりに、最先端の物体検出モデルを訓練し、PETボリューム上で頭頸部領域の自動収穫を行う。
次に、予め訓練した深部畳み込みニューラルネットワークのバックボーンを用いて、収穫されたPETボリュームの72個の多角軸回転から得られたMA-MIPから深部特徴を抽出する。
PETボリュームの複数の投射像から抽出したこれらの深い特徴を集約して融合し,489人のHNC患者のコホートで無再発生存分析を行う。
提案手法は,再現性のない生存分析のタスクにおいて,目標データセット上で最高の性能を発揮する。
そこで本研究では,FDG PET-CT画像の悪性度を手動で判定することで,主観的解釈への依存を排除し,生存分析法の再現性を高める。
We introduce an innovative, simple, effective segmentation-free approach for outcome prediction in head \& neck cancer (HNC) patients. By harnessing deep learning-based feature extraction techniques and multi-angle maximum intensity projections (MA-MIPs) applied to Fluorodeoxyglucose Positron Emission Tomography (FDG-PET) volumes, our proposed method eliminates the need for manual segmentations of regions-of-interest (ROIs) such as primary tumors and involved lymph nodes. Instead, a state-of-the-art object detection model is trained to perform automatic cropping of the head and neck region on the PET volumes. A pre-trained deep convolutional neural network backbone is then utilized to extract deep features from MA-MIPs obtained from 72 multi-angel axial rotations of the cropped PET volumes. These deep features extracted from multiple projection views of the PET volumes are then aggregated and fused, and employed to perform recurrence-free survival analysis on a cohort of 489 HNC patients. The proposed approach outperforms the best performing method on the target dataset for the task of recurrence-free survival analysis. By circumventing the manual delineation of the malignancies on the FDG PET-CT images, our approach eliminates the dependency on subjective interpretations and highly enhances the reproducibility of the proposed survival analysis method. | 翻訳日:2024-05-06 14:15:00 公開日:2024-05-02 |
# ダブルエッジソードを目指して - アジャイルソフトウェア開発への影響をモデル化する
Towards A Double-Edged Sword: Modelling the Impact in Agile Software Development ( http://arxiv.org/abs/2405.01757v1 ) ライセンス: Link先を確認 | Michael Neumann, Philipp Diebold, | (参考訳) アジャイルメソッドはソフトウェア開発における最先端の手法です。
世界中の企業は、市場のダイナミクスに対処するためにアジャイルを適用しています。
文化のようなさまざまな要因が,アジャイルメソッドの実践的な適用に影響を与えていることは分かっています。
これらの問題に対処するため、文献で示された2つの因果モデル、The Agile Practices Impact ModelとThe Model of Cultural Impactを組み合わせています。
本稿では、アジャイルにおける2つの要因の側面について、より深く理解したいと思っています。
この中核的な貢献は、アジャイルの影響とImactモデルであり、アジャイル要素に影響を与える要因と、組織的な方法で特定の特性に与える影響について説明する。
Agile methods are state of the art in software development. Companies worldwide apply agile to counter the dynamics of the markets. We know, that various factors like culture influence the successfully application of agile methods in practice and the sucess is differing from company to company. To counter these problems, we combine two causal models presented in literature: The Agile Practices Impact Model and the Model of Cultural Impact. In this paper, we want to better understand the two facets of factors in agile: Those influencing their application and those impacting the results when applying them. This papers core contribution is the Agile Influence and Imact Model, describing the factors influencing agile elements and the impact on specific characteristics in a systematic manner. | 翻訳日:2024-05-06 14:15:00 公開日:2024-05-02 |
# CGD:UAV軌道計画のための制約誘導拡散政策
CGD: Constraint-Guided Diffusion Policies for UAV Trajectory Planning ( http://arxiv.org/abs/2405.01758v1 ) ライセンス: Link先を確認 | Kota Kondo, Andrea Tagliabue, Xiaoyi Cai, Claudius Tewari, Olivia Garcia, Marcos Espitia-Alvarez, Jonathan P. How, | (参考訳) 従来の最適化ベースのプランナーは、有効ではあるが高い計算コストに悩まされ、軌道生成が遅くなる。
計算時間を短縮するために成功した戦略は、Imitation Learning(IL)を使用して、専門家の実証者として扱われる、これらのプランナーから高速ニューラルネットワーク(NN)ポリシーを開発することである。
その結果, NN ポリシは, 専門家と同様の軌道を迅速に生成する上で有効であるが, 1) アウトプットは動的実現性を考慮しておらず, (2) トレーニング中に使用する制約と異なる制約の変化に対応できない。
これらの制約を克服するために,新しいILベースの軌道計画手法である Constraint-Guided Diffusion (CGD) を提案する。
CGDは、拡散ポリシーと代理効率のよい最適化問題を組み合わせたハイブリッド学習/オンライン最適化方式を利用して、衝突のない動的に実現可能な軌道生成を可能にする。
CGDのキーとなる考え方は、専門家によって解決された元の挑戦的な最適化問題を、より管理しやすい2つのサブプロブレムに分割することである。
(a)衝突のない経路を効率よく見つけ、
(b)これらの経路に対して動的に実現可能な時間パラメトリゼーションを決定し、軌道を得る。
従来のニューラルネットワークアーキテクチャと比較して,トレーニング中に発生しない新たな制約のあるシナリオにおいて,性能と動的実現可能性の大幅な向上を示す。
Traditional optimization-based planners, while effective, suffer from high computational costs, resulting in slow trajectory generation. A successful strategy to reduce computation time involves using Imitation Learning (IL) to develop fast neural network (NN) policies from those planners, which are treated as expert demonstrators. Although the resulting NN policies are effective at quickly generating trajectories similar to those from the expert, (1) their output does not explicitly account for dynamic feasibility, and (2) the policies do not accommodate changes in the constraints different from those used during training. To overcome these limitations, we propose Constraint-Guided Diffusion (CGD), a novel IL-based approach to trajectory planning. CGD leverages a hybrid learning/online optimization scheme that combines diffusion policies with a surrogate efficient optimization problem, enabling the generation of collision-free, dynamically feasible trajectories. The key ideas of CGD include dividing the original challenging optimization problem solved by the expert into two more manageable sub-problems: (a) efficiently finding collision-free paths, and (b) determining a dynamically-feasible time-parametrization for those paths to obtain a trajectory. Compared to conventional neural network architectures, we demonstrate through numerical evaluations significant improvements in performance and dynamic feasibility under scenarios with new constraints never encountered during training. | 翻訳日:2024-05-06 14:15:00 公開日:2024-05-02 |
# クディット・ハミルトン系の幾何学と純度特性
Geometry and purity properties of qudit Hamiltonian systems ( http://arxiv.org/abs/2405.01759v1 ) ライセンス: Link先を確認 | J. A. López-Saldívar, O. Castaños, S. Cordero, E. Nahmad-Achar, R. López-Peña, | (参考訳) 最大エントロピーの原理は、既知の平均エネルギーを持つ有限次元ハミルトン系のアンサンブルの幾何学的性質を研究するために用いられる。
これらの幾何学的特徴付けは、一般化された対角ブロッホベクトルと$n$次元の特殊ユニタリ群の不変量の観点から与えられる。
例として、角運動量環の線型および二次生成の項で書かれたハミルトニアンは、$J=1$および$J=3/2$とみなす。
これらの場合、温度の関数としての経路は、対応する単純表現、およびハミルトンモデルの相互作用強度の断熱的進化に確立される。
リプキン・メシュコフ・グリク・ハミルトニアンに対して、量子位相図はパラメータ空間の異なる温度値に対して明示的に示される。
The principle of maximum entropy is used to study the geometric properties of an ensemble of finite dimensional Hamiltonian systems with known average energy. These geometric characterization is given in terms of the generalized diagonal Bloch vectors and the invariants of the special unitary group in $n$ dimensions. As examples, Hamiltonians written in terms of linear and quadratic generators of the angular momentum algebra are considered with $J= 1$ and $J=3/2$. For these cases, paths as functions of the temperature are established in the corresponding simplex representations, as well as the adiabatic evolution of the interaction strengths of the Hamiltonian models. For the Lipkin-Meshkov-Glick Hamiltonian the quantum phase diagram is explicitly shown for different temperature values in parameter space. | 翻訳日:2024-05-06 14:15:00 公開日:2024-05-02 |
# 強化学習による半監督学習
Reinforcement Learning-Guided Semi-Supervised Learning ( http://arxiv.org/abs/2405.01760v1 ) ライセンス: Link先を確認 | Marzi Heidari, Hanping Zhang, Yuhong Guo, | (参考訳) 近年,ラベル付きデータとラベルなしデータの両方を活用することで,特にラベル付きデータが不足している場合に,モデル性能を向上させる能力から,半教師付き学習(SSL)が注目されている。
しかし、現在のSSLメソッドのほとんどは、擬似ラベルを生成し、ラベルのないデータを活用するためのヒューリスティックや事前定義されたルールに依存している。
これらは標準標準における損失関数や正規化メソッドの利用に限られる。
本稿では,一本腕バンディット問題としてSSLを定式化し,重み付き報酬に基づいて革新的なRL損失を展開し,予測モデルの学習過程を適応的にガイドする新しいRL指導型SSL法(RLGSSL)を提案する。
RLGSSLは、ラベル付きデータとラベルなしデータのバランスを保ち、一般化性能を向上させるために、慎重に設計された報酬関数を組み込んでいる。
学習安定性を高めるため、教師教育のための半教師型フレームワークを更に展開する。
我々は,複数のベンチマークデータセットに対する広範な実験を通じてRCGSSLの有効性を実証し,我々の手法が最先端のSSL手法と比較して一貫した優れた性能を実現することを示す。
In recent years, semi-supervised learning (SSL) has gained significant attention due to its ability to leverage both labeled and unlabeled data to improve model performance, especially when labeled data is scarce. However, most current SSL methods rely on heuristics or predefined rules for generating pseudo-labels and leveraging unlabeled data. They are limited to exploiting loss functions and regularization methods within the standard norm. In this paper, we propose a novel Reinforcement Learning (RL) Guided SSL method, RLGSSL, that formulates SSL as a one-armed bandit problem and deploys an innovative RL loss based on weighted reward to adaptively guide the learning process of the prediction model. RLGSSL incorporates a carefully designed reward function that balances the use of labeled and unlabeled data to enhance generalization performance. A semi-supervised teacher-student framework is further deployed to increase the learning stability. We demonstrate the effectiveness of RLGSSL through extensive experiments on several benchmark datasets and show that our approach achieves consistent superior performance compared to state-of-the-art SSL methods. | 翻訳日:2024-05-06 14:15:00 公開日:2024-05-02 |
# 回帰のための多変量ベイズ最後の層:不確かさの定量化と絡み合い
Multivariate Bayesian Last Layer for Regression: Uncertainty Quantification and Disentanglement ( http://arxiv.org/abs/2405.01761v1 ) ライセンス: Link先を確認 | Han Wang, Eiji Kawasaki, Guillaume Damblin, Geoffrey Daniel, | (参考訳) 本稿では,非定常雑音下での多変量回帰の設定に新しいベイズラストレイヤーモデルを提案し,パラメータ学習のための最適化アルゴリズムを提案する。
ベイジアン・ラスト・レイヤは、予測分布のベイジアンモデルとニューラルネットワークを組み合わせ、前者のパラメータ化を行い、単一の前方通過で不確実性定量化の魅力的な性質を持つ。
提案するフレームワークは、動脈とてんかんの不確実性を解消し、キャノン訓練されたディープニューラルネットワークを不確実性を認識した新しいデータドメインに転送するために使用できる。
We present new Bayesian Last Layer models in the setting of multivariate regression under heteroscedastic noise, and propose an optimization algorithm for parameter learning. Bayesian Last Layer combines Bayesian modelling of the predictive distribution with neural networks for parameterization of the prior, and has the attractive property of uncertainty quantification with a single forward pass. The proposed framework is capable of disentangling the aleatoric and epistemic uncertainty, and can be used to transfer a canonically trained deep neural network to new data domains with uncertainty-aware capability. | 翻訳日:2024-05-06 14:15:00 公開日:2024-05-02 |
# EiG-Search: 線形時間でのGNN説明のためのエッジ誘発サブグラフの生成
EiG-Search: Generating Edge-Induced Subgraphs for GNN Explanation in Linear Time ( http://arxiv.org/abs/2405.01762v1 ) ライセンス: Link先を確認 | Shengyao Lu, Bang Liu, Keith G. Mills, Jiao He, Di Niu, | (参考訳) グラフニューラルネットワーク(GNN)の予測を理解し,説明することは,安全性と信頼性を高める上で重要である。
字幕レベルの説明は直感的なアピールのために注目を集めている。
しかし、既存の部分グラフレベルの説明者は、複雑な探索プロセスのため、GNNの説明において効率上の課題に直面している。
重要な課題は、透明性を確保しながら、直感性と効率性のバランスを見つけることです。
さらに、これらの説明者は、通常ノードによってサブグラフを誘導し、サブグラフレベルの説明に直観的でない非連結ノードを導入するか、多くの重要なサブグラフ構造を省略する。
本稿では,エッジによる部分グラフ説明の誘導が,他の部分グラフ推論手法よりも包括的であることを明らかにする。
また、異なるデータインスタンスが異なる重要なサブ構造を含む可能性があるため、各データインスタンスのサブグラフ説明サイズを決定する必要があることも強調します。
これらの考察に基づいて,EeG-Searchというトレーニング不要のアプローチを導入する。
我々は、エッジ誘導サブグラフに対して効率的な線形時間探索アルゴリズムを用い、エッジを勾配に基づく重要度でランク付けする。
合計7つのデータセットに対して広範な実験を行い、その優れた性能と、主要なベースラインに対して定量的かつ定性的に効率を示す。
Understanding and explaining the predictions of Graph Neural Networks (GNNs), is crucial for enhancing their safety and trustworthiness. Subgraph-level explanations are gaining attention for their intuitive appeal. However, most existing subgraph-level explainers face efficiency challenges in explaining GNNs due to complex search processes. The key challenge is to find a balance between intuitiveness and efficiency while ensuring transparency. Additionally, these explainers usually induce subgraphs by nodes, which may introduce less-intuitive disconnected nodes in the subgraph-level explanations or omit many important subgraph structures. In this paper, we reveal that inducing subgraph explanations by edges is more comprehensive than other subgraph inducing techniques. We also emphasize the need of determining the subgraph explanation size for each data instance, as different data instances may involve different important substructures. Building upon these considerations, we introduce a training-free approach, named EiG-Search. We employ an efficient linear-time search algorithm over the edge-induced subgraphs, where the edges are ranked by an enhanced gradient-based importance. We conduct extensive experiments on a total of seven datasets, demonstrating its superior performance and efficiency both quantitatively and qualitatively over the leading baselines. | 翻訳日:2024-05-06 14:15:00 公開日:2024-05-02 |
# Biased Random-Key Genetic Algorithmsの初期 : 体系的レビュー
Early years of Biased Random-Key Genetic Algorithms: A systematic review ( http://arxiv.org/abs/2405.01765v1 ) ライセンス: Link先を確認 | Mariana A. Londe, Luciana S. Pessoa, Cartlos E. Andrade, Mauricio G. C. Resende, | (参考訳) 本稿では,Biased Random-Key Genetic Algorithms (BRKGA)に着目し,系統的な文献レビューと文献分析を行う。
BRKGAは、遺伝的アルゴリズムとともにバイアス付き、均一でエリート的な交配戦略を持つランダムキーベースの染色体を使用するメタヒューリスティックなフレームワークである。
このレビューでは、古典的な組合せ最適化問題から現実の産業シナリオ、さらには機械学習におけるハイパーパラメータチューニングや2段階問題のためのシナリオ生成といった非伝統的なアプリケーションまで、さまざまな応用を網羅した約250の論文を取り上げている。
本研究はBRKGAメタヒューリスティックとその様々な応用を包括的に検討し,今後の研究の鍵となる領域に光を当てるものである。
This paper presents a systematic literature review and bibliometric analysis focusing on Biased Random-Key Genetic Algorithms (BRKGA). BRKGA is a metaheuristic framework that uses random-key-based chromosomes with biased, uniform, and elitist mating strategies alongside a genetic algorithm. This review encompasses around~250 papers, covering a diverse array of applications ranging from classical combinatorial optimization problems to real-world industrial scenarios, and even non-traditional applications like hyperparameter tuning in machine learning and scenario generation for two-stage problems. In summary, this study offers a comprehensive examination of the BRKGA metaheuristic and its various applications, shedding light on key areas for future research. | 翻訳日:2024-05-06 14:15:00 公開日:2024-05-02 |
# CoS: コンテキストステアリングによるパーソナライズとバイアスの緩和
CoS: Enhancing Personalization and Mitigating Bias with Context Steering ( http://arxiv.org/abs/2405.01768v1 ) ライセンス: Link先を確認 | Jerry Zhi-Yang He, Sashrika Pandey, Mariah L. Schrum, Anca Dragan, | (参考訳) 大規模言語モデル(LLM)を問う場合、エンドユーザー固有の個人的、人口統計学的、文化的情報といった文脈は、LLMの応答を著しく形作ることができる。
例えば、ニュートンの第二法則を「私は幼児だ」という文脈で説明するよう依頼すると、「私は物理学の教授だ」という文脈とは異なる答えが得られる。
適切な文脈の使用により、LSMはパーソナライズされた応答を生成できるが、不適切な文脈の影響は、ステレオタイプで潜在的に有害な世代(例えば「女性」と「家政婦」を関連付ける)につながる可能性がある。
実際には、コンテキストを活用する際に適切なバランスを取ることは、多くの場合状況に依存している、面倒で困難な問題です。
この課題に対処する一般的なアプローチの1つは、文脈的に適切な応答に基づいてLSMを微調整することである。
しかし、このアプローチは高価で時間がかかり、異なる状況のエンドユーザには制御できない。
本研究では,自動回帰 LLM に推論時に容易に適用可能な簡易なトレーニングフリー手法である Context Steering (CoS) を提案する。
本手法は,トークン予測可能性の観点からコンテキスト影響を計測し,それを調整することにより,特定のユースケースとエンドユーザーベースに基づいて適切なコンテキスト影響のレベルを決定することができる。
モデルバイアスを低減するために、よりパーソナライズを向上し、不要な影響を緩和するために、文脈の影響を増幅することを含む、CoSの様々な応用を紹介した。
さらに,インターネット上でのヘイトスピーチの程度を定量化するために,CoSとベイズ推論を組み合わせることができることを示す。
最先端のLCMとベンチマークにおけるCoSの有効性を実証する。
When querying a large language model (LLM), the context, i.e. personal, demographic, and cultural information specific to an end-user, can significantly shape the response of the LLM. For example, asking the model to explain Newton's second law with the context "I am a toddler" yields a different answer compared to the context "I am a physics professor." Proper usage of the context enables the LLM to generate personalized responses, whereas inappropriate contextual influence can lead to stereotypical and potentially harmful generations (e.g. associating "female" with "housekeeper"). In practice, striking the right balance when leveraging context is a nuanced and challenging problem that is often situation-dependent. One common approach to address this challenge is to fine-tune LLMs on contextually appropriate responses. However, this approach is expensive, time-consuming, and not controllable for end-users in different situations. In this work, we propose Context Steering (CoS) - a simple training-free method that can be easily applied to autoregressive LLMs at inference time. By measuring the contextual influence in terms of token prediction likelihood and modulating it, our method enables practitioners to determine the appropriate level of contextual influence based on their specific use case and end-user base. We showcase a variety of applications of CoS including amplifying the contextual influence to achieve better personalization and mitigating unwanted influence for reducing model bias. In addition, we show that we can combine CoS with Bayesian Inference to quantify the extent of hate speech on the internet. We demonstrate the effectiveness of CoS on state-of-the-art LLMs and benchmarks. | 翻訳日:2024-05-06 14:15:00 公開日:2024-05-02 |
# クリティカル・ソシエタリ・ドメインのための大規模言語モデルに関する調査--財務・医療・法律
A Survey on Large Language Models for Critical Societal Domains: Finance, Healthcare, and Law ( http://arxiv.org/abs/2405.01769v1 ) ライセンス: Link先を確認 | Zhiyu Zoey Chen, Jing Ma, Xinlu Zhang, Nan Hao, An Yan, Armineh Nourbakhsh, Xianjun Yang, Julian McAuley, Linda Petzold, William Yang Wang, | (参考訳) 人工知能の急速な発展の中で、GPT-3やGPT-4のような大規模言語モデル(LLM)は、金融、医療、法律の風景に革命をもたらしている。
この調査は、これらのハイテイク分野におけるLCMの方法論、応用、課題、そして先見的な機会を詳細に調査する。
我々は、医療における診断・治療方法論の強化、財務分析の革新、法的解釈・コンプライアンス戦略の精査におけるLCMの役割を強調した。
さらに、これらの分野におけるLLMアプリケーションの倫理を批判的に検討し、既存の倫理的懸念と規制規範を尊重する透明で公平で堅牢なAIシステムの必要性を指摘した。
現状の文献と実践的応用を概観することにより, LLMの変革的影響を概観し, 学際的協力, 方法論的進歩, 倫理的警戒の要点を概説する。
このレンズを通して、これらの精度依存セクターにおけるリスクを軽減しつつ、LLMのメリットを最大化することを目的とした対話を刺激し、将来の研究を刺激することを目的としている。
これらの重要な社会的領域におけるLCMの今後の研究を促進するために、このトピックの最新の進歩を追跡する読み込みリストも開始する。
In the fast-evolving domain of artificial intelligence, large language models (LLMs) such as GPT-3 and GPT-4 are revolutionizing the landscapes of finance, healthcare, and law: domains characterized by their reliance on professional expertise, challenging data acquisition, high-stakes, and stringent regulatory compliance. This survey offers a detailed exploration of the methodologies, applications, challenges, and forward-looking opportunities of LLMs within these high-stakes sectors. We highlight the instrumental role of LLMs in enhancing diagnostic and treatment methodologies in healthcare, innovating financial analytics, and refining legal interpretation and compliance strategies. Moreover, we critically examine the ethics for LLM applications in these fields, pointing out the existing ethical concerns and the need for transparent, fair, and robust AI systems that respect regulatory norms. By presenting a thorough review of current literature and practical applications, we showcase the transformative impact of LLMs, and outline the imperative for interdisciplinary cooperation, methodological advancements, and ethical vigilance. Through this lens, we aim to spark dialogue and inspire future research dedicated to maximizing the benefits of LLMs while mitigating their risks in these precision-dependent sectors. To facilitate future research on LLMs in these critical societal domains, we also initiate a reading list that tracks the latest advancements under this topic, which will be continually updated: \url{https://github.com/czyssrs/LLM_X_papers}. | 翻訳日:2024-05-06 14:15:00 公開日:2024-05-02 |
# Torch2Chip: プロトタイプハードウェアアクセラレータ設計のためのエンドツーエンドでカスタマイズ可能なDeep Neural Network Compression and Deployment Toolkit
Torch2Chip: An End-to-end Customizable Deep Neural Network Compression and Deployment Toolkit for Prototype Hardware Accelerator Design ( http://arxiv.org/abs/2405.01775v1 ) ライセンス: Link先を確認 | Jian Meng, Yuan Liao, Anupreetham Anupreetham, Ahmed Hasssan, Shixing Yu, Han-sok Suh, Xiaofeng Hu, Jae-sun Seo, | (参考訳) モデル圧縮の開発は、ASICやFPGAによる様々なニューラルネットワークアクセラレータの進化によって継続的に動機付けられている。
アルゴリズム側では、量子化やプルーニングの最終的な目標は、低消費電力ハードウェア上での高価なDNN計算を加速させることである。
しかしながら、このような"Design-and-deploy"ワークフローは、現在のハードウェア・アルゴリズムの共同設計コミュニティにおいて、未解決の課題に直面している。
第一に、最先端の量子化アルゴリズムは精度の劣化を無視して低い精度を達成することができるが、最新のディープラーニングフレームワーク(例えば、PyTorch)は、非減衰可能な8ビット精度、データフォーマット、パラメータ抽出しかサポートできない。
第二に、量子化の目的は、低精度のデータによる計算を可能にすることである。
しかし、現在のSoTAアルゴリズムは量子化整数を中間結果として扱い、一方、量子化器の最終出力は「分散」浮動小数点値であり、実際的な要求を無視し、整数パラメータ抽出と層融合のためのハードウェア設計者に追加の作業負荷を加える。
最後に、業界によって設計された圧縮ツールキットは、自社製品または少数のアルゴリズムに制約される。
現在のツールキットの限られた自由度と未探索のカスタマイズは、ASICまたはFPGAベースのアクセル設計を妨げている。
これらの課題を解決するために,Torch2Chipを提案する。Torch2Chipはオープンソースで,完全にカスタマイズ可能で,ユーザ設計の圧縮と自動モデル融合とパラメータ抽出をサポートする高性能ツールキットである。
Torch2Chip には階層型設計ワークフローが組み込まれており、ユーザカスタマイズ圧縮アルゴリズムは CNN または Vision Transformer (ViT) を使ったプロトタイプチップ検証用のデプロイ可能なフォーマットに直接組み込まれている。
コードはhttps://github.com/SeoLabCornell/torch2chipで公開されている。
The development of model compression is continuously motivated by the evolution of various neural network accelerators with ASIC or FPGA. On the algorithm side, the ultimate goal of quantization or pruning is accelerating the expensive DNN computations on low-power hardware. However, such a "design-and-deploy" workflow faces under-explored challenges in the current hardware-algorithm co-design community. First, although the state-of-the-art quantization algorithm can achieve low precision with negligible degradation of accuracy, the latest deep learning framework (e.g., PyTorch) can only support non-customizable 8-bit precision, data format, and parameter extraction. Secondly, the objective of quantization is to enable the computation with low-precision data. However, the current SoTA algorithm treats the quantized integer as an intermediate result, while the final output of the quantizer is the "discretized" floating-point values, ignoring the practical needs and adding additional workload to hardware designers for integer parameter extraction and layer fusion. Finally, the compression toolkits designed by the industry are constrained to their in-house product or a handful of algorithms. The limited degree of freedom in the current toolkit and the under-explored customization hinder the prototype ASIC or FPGA-based accelerator design. To resolve these challenges, we propose Torch2Chip, an open-sourced, fully customizable, and high-performance toolkit that supports user-designed compression followed by automatic model fusion and parameter extraction. Torch2Chip incorporates the hierarchical design workflow, and the user-customized compression algorithm will be directly packed into the deployment-ready format for prototype chip verification with either CNN or vision transformer (ViT). The code is available at https://github.com/SeoLabCornell/torch2chip. | 翻訳日:2024-05-06 14:15:00 公開日:2024-05-02 |
# 自動運転機能の安全性試験における系統的データ取得とデータ駆動シミュレーションへのアプローチ
An Approach to Systematic Data Acquisition and Data-Driven Simulation for the Safety Testing of Automated Driving Functions ( http://arxiv.org/abs/2405.01776v1 ) ライセンス: Link先を確認 | Leon Eisemann, Mirjam Fehling-Kaschek, Henrik Gommel, David Hermann, Marvin Klemp, Martin Lauer, Benjamin Lickert, Florian Luettner, Robin Moss, Nicole Neis, Maria Pohle, Simon Romanski, Daniel Stadler, Alexander Stolz, Jens Ziehn, Jingxing Zhou, | (参考訳) 道路交通における自動運転機能の複雑さと臨界度が増大し,その操作設計領域(ODD)は,仮想環境やシミュレーションモデルを通じて,開発,検証,検証のかなりの割合をカバーする必要性が高まっている。
しかし、シミュレーションが実世界の実験を増強するだけでなく、それらを置き換えるためには、シミュレーションモデルが現実を適切に表現する度合いや条件を測る定量的なアプローチが必要である。
特に「オープンワールド」の安全性への影響に関連する研究開発分野では、シミュレーションのパラメータ化や検証を行う実世界のデータが著しく不足している。
本稿では、異種な方法で公共交通のデータを体系的に取得し、それらを統一表現に変換し、自動運転機能のデータ駆動仮想検証に使用する交通行動モデルを自動的にパラメータ化する手法を提案する。
With growing complexity and criticality of automated driving functions in road traffic and their operational design domains (ODD), there is increasing demand for covering significant proportions of development, validation, and verification in virtual environments and through simulation models. If, however, simulations are meant not only to augment real-world experiments, but to replace them, quantitative approaches are required that measure to what degree and under which preconditions simulation models adequately represent reality, and thus, using their results accordingly. Especially in R&D areas related to the safety impact of the "open world", there is a significant shortage of real-world data to parameterize and/or validate simulations - especially with respect to the behavior of human traffic participants, whom automated driving functions will meet in mixed traffic. We present an approach to systematically acquire data in public traffic by heterogeneous means, transform it into a unified representation, and use it to automatically parameterize traffic behavior models for use in data-driven virtual validation of automated driving functions. | 翻訳日:2024-05-06 14:15:00 公開日:2024-05-02 |
# 判別一般化ディリクレ分類器の階層的混合
Hierarchical mixture of discriminative Generalized Dirichlet classifiers ( http://arxiv.org/abs/2405.01778v1 ) ライセンス: Link先を確認 | Elvis Togban, Djemel Ziou, | (参考訳) 本稿では,合成データに対する識別分類器を提案する。
この分類器は、一般化ディリクレ混合モデルの判別式である一般化ディリクレの後方分布に基づいている。
さらに、専門家のパラダイムの混合に続いて、我々はこの分類器の階層的な混合を提案した。
モデルパラメータを学習するために、一般化ディリクレ混合の上界を導出した変分近似を用いる。
我々の知る限りでは、この境界が文献で提案されたのはこれが初めてである。
スパム検出と色空間同定のための実験結果が提示された。
This paper presents a discriminative classifier for compositional data. This classifier is based on the posterior distribution of the Generalized Dirichlet which is the discriminative counterpart of Generalized Dirichlet mixture model. Moreover, following the mixture of experts paradigm, we proposed a hierarchical mixture of this classifier. In order to learn the models parameters, we use a variational approximation by deriving an upper-bound for the Generalized Dirichlet mixture. To the best of our knownledge, this is the first time this bound is proposed in the literature. Experimental results are presented for spam detection and color space identification. | 翻訳日:2024-05-06 14:15:00 公開日:2024-05-02 |
# 量子機械学習:量子カーネル法
Quantum Machine Learning: Quantum Kernel Methods ( http://arxiv.org/abs/2405.01780v1 ) ライセンス: Link先を確認 | Sanjeev Naguleswaran, | (参考訳) 量子カーネル法に基づく量子アルゴリズムは以前にも研究されてきた[1]。
量子的優位性は、量子処理のみが固有のラベリングパターンを認識することのできるデータセット群を構築することができ、古典的なコンピュータでは、データセットはノイズのように見えるという事実から導かれる。
これは、巡回群における対数の計算に固有の効率性を利用するアルゴリズムが原因である。
離散ログ問題は、量子対古典計算のよく知られた利点であり、単一の数学的演算を用いてグループのすべてのメンバーを生成することができる。
カーネルメソッドは古典的な機械学習において強力で一般的なテクニックである。
量子コンピュータ上でしか効率的に計算できない量子特徴空間を使用することで、量子上の優位性を導出することができる。
本稿では,従来のサポートベクトルマシン(SVM)アルゴリズムの量子バージョンへのそのようなカーネル手法の適用について述べる。
データ依存型投影量子カーネルは、古典的カーネルに対して大きな利点をもたらすことが示されている。
さらに,ディープラーニングアプリケーションにおいて広く用いられているアーキテクチャである畳み込みニューラルネットワーク(CNN)において,量子カーネルを特徴抽出層としての利用を拡大する研究成果について述べる。
Quantum algorithms based on quantum kernel methods have been investigated previously [1]. A quantum advantage is derived from the fact that it is possible to construct a family of datasets for which, only quantum processing can recognise the intrinsic labelling patterns, while for classical computers the dataset looks like noise. This is due to the algorithm leveraging inherent efficiencies in the computation of logarithms in a cyclic group. The discrete log problem.is a well-known advantage of quantum vs classical computation: where it is possible to generate all the members of the group using a single mathematical operation. Kernel methods are a powerful and popular technique in classical Machine Learning. The use of a quantum feature space that can only be calculated efficiently on a quantum computer potentially allows for deriving a quantum advantage. In this paper, we intend to first describe the application of such a kernel method to a Quantum version of the classical Support Vector Machine (SVM) algorithm to identify conditions under which, a quantum advantage is realised. A data dependent projected quantum kernel was shown to provide significant advantage over classical kernels. Further, we present results of investigations and ideas pertaining to extending the use of quantum kernels as a feature extraction layer in a Convolutional Neural Networks (CNN) that is a widely used architecture in deep-learning applications. | 翻訳日:2024-05-06 14:15:00 公開日:2024-05-02 |
# 言語技術とLiveLanguageイニシアチブ
Layers of technology in pluriversal design. Decolonising language technology with the LiveLanguage initiative ( http://arxiv.org/abs/2405.01783v1 ) ライセンス: Link先を確認 | Gertraud Koch, Gábor Bella, Paula Helm, Fausto Giunchiglia, | (参考訳) 言語技術は意味のある翻訳を通して文化間コミュニケーションを促進する可能性がある。
しかし、現在の言語技術の状況は、人工知能(AI)のグローバルガバナンスにおける経路依存とネオコロニアルな傾向により、植民地的知識と深く絡み合っている。
言語技術は複雑で新興の分野であり、グローバルな規模と多様な場所の集合体と知識の強度を包み込み、共同設計の介入の課題を提示している。
本稿では,語彙データベースであるLiveLanguageを用いて,言語多様性のモデル化と小・少数言語の統合を重視したサービスの集合を,多元的設計理論から実践へのギャップを論じ,解決する一例として挙げる。
新興技術の概念を多様化させることで、グローバルな文脈における言語技術へのより良いアプローチが可能になる。
本稿では,5層の技術活動からなるモデルを提案する。
それぞれのレイヤは、特定のプラクティスと利害関係者で構成されており、多元性に向けて言語技術をデリンクし、再考し、再構築する手段として、共同設計の介入のための独特なスペースを提供する。
そこで本論文は,創発的技術のデコロン化における共同設計の位置づけを反映し,言語技術設計へのデコロン化に向けた複雑な理論的知識の統合に寄与する。
Language technology has the potential to facilitate intercultural communication through meaningful translations. However, the current state of language technology is deeply entangled with colonial knowledge due to path dependencies and neo-colonial tendencies in the global governance of artificial intelligence (AI). Language technology is a complex and emerging field that presents challenges for co-design interventions due to enfolding in assemblages of global scale and diverse sites and its knowledge intensity. This paper uses LiveLanguage, a lexical database, a set of services with particular emphasis on modelling language diversity and integrating small and minority languages, as an example to discuss and close the gap from pluriversal design theory to practice. By diversifying the concept of emerging technology, we can better approach language technology in global contexts. The paper presents a model comprising of five layers of technological activity. Each layer consists of specific practices and stakeholders, thus provides distinctive spaces for co-design interventions as mode of inquiry for de-linking, re-thinking and re-building language technology towards pluriversality. In that way, the paper contributes to reflecting the position of co-design in decolonising emergent technologies, and to integrating complex theoretical knowledge towards decoloniality into language technology design. | 翻訳日:2024-05-06 14:15:00 公開日:2024-05-02 |
# SiN膜上に懸濁した超電導共振器の性能
Performance of Superconducting Resonators Suspended on SiN Membranes ( http://arxiv.org/abs/2405.01784v1 ) ライセンス: Link先を確認 | Trevor Chistolini, Kyunghoon Lee, Archan Banerjee, Mohammed Alghadeer, Christian Jünger, M. Virginia P. Altoé, Chengyu Song, Sudi Chen, Feng Wang, David I. Santiago, Irfan Siddiqi, | (参考訳) 非平衡準粒子による超伝導回路の相関誤差は、フォールトトレラント量子コンピューティングの実現に向けた取り組みにおいて顕著な関心事である。
これらの相関誤差を引き起こす準粒子の伝播は、基質中のフォノンによって媒介される可能性がある。
したがって、SiN膜上にデバイスを分離するなど、基板からデバイスを切り離す方法が考えられる。
本研究では,SiN膜技術と高品質超伝導回路との整合性を検証し,その技術をコミュニティの製作ツールボックスに追加する。
超伝導コプラナー導波管共振器を極薄(\sim$110 nm)SiN層上に作製し, 当初支持していたバルクSiをエッチングし, 最短長の膜が約7.4 \times 10^3$のアスペクト比が得られるようにした。
これらの膜共振器を同一チップ上のオン基板共振器と比較し, 内部品質係数$\sim$$10^5$を単一光子レベルで求める。
さらに, これらの膜が共振器熱化速度に悪影響を及ぼさないことを確認した。
これらの重要なベンチマークを検証し、このテクニックをqubitに拡張することができる。
Correlated errors in superconducting circuits due to nonequilibrium quasiparticles are a notable concern in efforts to achieve fault tolerant quantum computing. The propagation of quasiparticles causing these correlated errors can potentially be mediated by phonons in the substrate. Therefore, methods that decouple devices from the substrate are possible solutions, such as isolating devices atop SiN membranes. In this work, we validate the compatibility of SiN membrane technology with high quality superconducting circuits, adding the technique to the community's fabrication toolbox. We do so by fabricating superconducting coplanar waveguide resonators entirely atop a thin ($\sim$110 nm) SiN layer, where the bulk Si originally supporting it has been etched away, achieving a suspended membrane where the shortest length to its thickness yields an aspect ratio of approximately $7.4 \times 10^3$. We compare these membrane resonators to on-substrate resonators on the same chip, finding similar internal quality factors $\sim$$10^5$ at single photon levels. Furthermore, we confirm that these membranes do not adversely affect the resonator thermalization rate. With these important benchmarks validated, this technique can be extended to qubits. | 翻訳日:2024-05-06 14:05:10 公開日:2024-05-02 |
# マトリックス製品の成長--最速、平均、総じて
Growth in products of matrices: fastest, average, and generic ( http://arxiv.org/abs/2405.00610v2 ) ライセンス: Link先を確認 | Vladimir Shpilrain, | (参考訳) この論文で私たちが考慮する問題は次のとおりである。
A と B を 2x2 行列(実数)とする。
w(A, B) を長さ n の語とする。
w(A, B) を行列の積として評価した後、2x2 行列を W と呼びます。n の関数として長さ n のすべての w(A, B) 上で W の最も大きい(絶対値による)入力は何か?
各行列が A または B で確率 0.5 であるような n 行列のランダム積における最大の(絶対値による)エントリーの絶対値は何でしょうか。
そのようなランダムな行列積に対するリャプノフ指数は何か。
これらの質問の第一に部分的な回答を与え、第二に本質的に完全な回答を与える。
第3の質問(三つの中で最も難しい)に対して、行列 A と B のすべての成分が非負である場合、リャプノフ指数上の上限を生成できる非常に単純な方法を提供する。
The problems that we consider in this paper are as follows. Let A and B be 2x2 matrices (over reals). Let w(A, B) be a word of length n. After evaluating w(A, B) as a product of matrices, we get a 2x2 matrix, call it W. What is the largest (by the absolute value) possible entry of W, over all w(A, B) of length n, as a function of n? What is the expected absolute value of the largest (by the absolute value) entry in a random product of n matrices, where each matrix is A or B with probability 0.5? What is the Lyapunov exponent for a random matrix product like that? We give partial answer to the first of these questions and an essentially complete answer to the second question. For the third question (the most difficult of the three), we offer a very simple method to produce an upper bound on the Lyapunov exponent in the case where all entries of the matrices A and B are nonnegative. | 翻訳日:2024-05-06 11:57:06 公開日:2024-05-02 |
# McDiarmidの不等式の拡張
An extension of McDiarmid's inequality ( http://arxiv.org/abs/1511.05240v4 ) ライセンス: Link先を確認 | Richard Combes, | (参考訳) 我々は、高確率集合上の有界差を持つ函数に対するマクダイアルミドの不等式を、拡張引数を用いて一般化する。
これらの機能は条件付き期待に集中する。
さらに、一般計量空間の濃度まで結果を拡張する。
We generalize McDiarmid's inequality for functions with bounded differences on a high probability set, using an extension argument. Those functions concentrate around their conditional expectations. We further extend the results to concentration in general metric spaces. | 翻訳日:2024-05-05 21:52:25 公開日:2024-05-02 |
# Neural Operator: 関数空間間のマップ学習
Neural Operator: Learning Maps Between Function Spaces ( http://arxiv.org/abs/2108.08481v6 ) ライセンス: Link先を確認 | Nikola Kovachki, Zongyi Li, Burigede Liu, Kamyar Azizzadenesheli, Kaushik Bhattacharya, Andrew Stuart, Anima Anandkumar, | (参考訳) ニューラルネットワークの古典的な発展は、主に有限次元ユークリッド空間または有限集合間の写像の学習に焦点を当てている。
本稿では,無限次元関数空間間を写像する演算子,いわゆるニューラル演算子を学習するためのニューラルネットワークの一般化を提案する。
線形積分作用素と非線形活性化関数の合成としてニューラル作用素を定式化する。
提案したニューラル作用素に対して普遍近似定理を証明し、任意の非線形連続作用素を近似することができることを示す。
提案したニューラル作用素は離散化不変であり、すなわち、基底関数空間の異なる離散化の間で同じモデルパラメータを共有する。
さらに、効率的なパラメータ化、viz.、グラフニューラル演算子、多極グラフニューラル演算子、低ランクニューラル演算子、フーリエニューラル演算子という4つのクラスを導入する。
ニューラル作用素にとって重要な応用は、偏微分方程式(PDE)の解作用素に対する代理写像の学習である。
本稿では,バーガース,ダーシー地下流れ,ナビエ・ストークス方程式などの標準的なPDEを考察し,従来のPDE解法よりも数桁高速でありながら,提案したニューラル演算子が既存の機械学習ベースの手法よりも優れた性能を有することを示す。
The classical development of neural networks has primarily focused on learning mappings between finite dimensional Euclidean spaces or finite sets. We propose a generalization of neural networks to learn operators, termed neural operators, that map between infinite dimensional function spaces. We formulate the neural operator as a composition of linear integral operators and nonlinear activation functions. We prove a universal approximation theorem for our proposed neural operator, showing that it can approximate any given nonlinear continuous operator. The proposed neural operators are also discretization-invariant, i.e., they share the same model parameters among different discretization of the underlying function spaces. Furthermore, we introduce four classes of efficient parameterization, viz., graph neural operators, multi-pole graph neural operators, low-rank neural operators, and Fourier neural operators. An important application for neural operators is learning surrogate maps for the solution operators of partial differential equations (PDEs). We consider standard PDEs such as the Burgers, Darcy subsurface flow, and the Navier-Stokes equations, and show that the proposed neural operators have superior performance compared to existing machine learning based methodologies, while being several orders of magnitude faster than conventional PDE solvers. | 翻訳日:2024-05-05 21:52:25 公開日:2024-05-02 |
# 非対称分散信頼
Asymmetric Distributed Trust ( http://arxiv.org/abs/1906.09314v2 ) ライセンス: Link先を確認 | Orestis Alpos, Christian Cachin, Björn Tackmann, Luca Zanolini, | (参考訳) 量子システムは、信頼の前提を捉えるために分散フォールトトレラントコンピューティングにおいて重要な抽象化である。
信頼性のあるブロードキャスト、共有メモリ、コンセンサス、その他の問題を実装するための多くのアルゴリズムの中核にある。
本稿では、主観的信頼をモデル化する非対称ビザンチン量子系を紹介する。
すべてのプロセスは、信頼している他のプロセスの組み合わせと、どれが欠陥と考えているかを自由に選択できます。
非対称量子系は標準ビザンチン量子系を厳密に一般化するが、これはすべての過程に対して1つの大域的信頼前提を持つ。
この研究は、共有メモリの抽象化、ブロードキャストプリミティブ、およびビザンチン障害や非対称信頼につながるプロセス間のコンセンサスプロトコルを実装するプロトコルも提示する。
このモデルとプロトコルは、非対称信頼でより精巧なアルゴリズムを実現するための道を開いた。
Quorum systems are a key abstraction in distributed fault-tolerant computing for capturing trust assumptions. They can be found at the core of many algorithms for implementing reliable broadcasts, shared memory, consensus and other problems. This paper introduces asymmetric Byzantine quorum systems that model subjective trust. Every process is free to choose which combinations of other processes it trusts and which ones it considers faulty. Asymmetric quorum systems strictly generalize standard Byzantine quorum systems, which have only one global trust assumption for all processes. This work also presents protocols that implement abstractions of shared memory, broadcast primitives, and a consensus protocol among processes prone to Byzantine faults and asymmetric trust. The model and protocols pave the way for realizing more elaborate algorithms with asymmetric trust. | 翻訳日:2024-05-05 18:18:22 公開日:2024-05-02 |
# 高速3次元再構成とグレープ品質CNNを用いた6-DoFグレープ計画
6-DoF Grasp Planning using Fast 3D Reconstruction and Grasp Quality CNN ( http://arxiv.org/abs/2009.08618v2 ) ライセンス: Link先を確認 | Yahav Avigal, Samuel Paradis, Harry Zhang, | (参考訳) 近年,家庭用ロボットの消費者需要がロボットの把握能力の向上に寄与している。
しかし、認識パイプラインの重要なコンポーネントであるディープカメラは依然として高価であり、ほとんどの消費者にはアクセスできない。
さらに、大規模データセットとクラウドロボティクスを活用し、状態と行動空間を4自由度(DoF)でトップダウングリップに制限することで、グリップ計画が大幅に改善された。
市販のRGBカメラやLearning Stereo Machine (LSM\cite{kar2017learning})のような最先端のアルゴリズムなどの安価な機器を用いて、物体の多視点形状を利用することにより、ロボットは6-DoFで異なる角度からより堅牢なグルーピングを生成することができる。
本稿では,グラスプ・クオリティーCNN(GQ-CNN\cite{mahler2017dex})をベースとした6-DoFグリッププランナを開発した。
Recent consumer demand for home robots has accelerated performance of robotic grasping. However, a key component of the perception pipeline, the depth camera, is still expensive and inaccessible to most consumers. In addition, grasp planning has significantly improved recently, by leveraging large datasets and cloud robotics, and by limiting the state and action space to top-down grasps with 4 degrees of freedom (DoF). By leveraging multi-view geometry of the object using inexpensive equipment such as off-the-shelf RGB cameras and state-of-the-art algorithms such as Learn Stereo Machine (LSM\cite{kar2017learning}), the robot is able to generate more robust grasps from different angles with 6-DoF. In this paper, we present a modification of LSM to graspable objects, evaluate the grasps, and develop a 6-DoF grasp planner based on Grasp-Quality CNN (GQ-CNN\cite{mahler2017dex}) that exploits multiple camera views to plan a robust grasp, even in the absence of a possible top-down grasp. | 翻訳日:2024-05-05 18:14:01 公開日:2024-05-02 |
# MBDP:ダブルドロップアウト計画によるロバストネスとサンプル効率の両立に向けたモデルベースアプローチ
MBDP: A Model-based Approach to Achieve both Robustness and Sample Efficiency via Double Dropout Planning ( http://arxiv.org/abs/2108.01295v2 ) ライセンス: Link先を確認 | Wanpeng Zhang, Xi Xiao, Yao Yao, Mingzhe Chen, Dijun Luo, | (参考訳) モデルに基づく強化学習は、過剰なサンプル要求を解決するための広く受け入れられているソリューションである。
しかし、力学モデルの予測は必ずしも正確ではなく、結果として生じるバイアスは、不十分な堅牢性のために破滅的な決定を引き起こす可能性がある。
そのため,高サンプリング効率を維持しつつ,モデルベースRLアルゴリズムのロバスト性を改善する方法について検討することが望まれている。
本稿では,ロバスト性と効率のバランスをとるために,モデルベースダブルドロップアウト計画(MBDP)を提案する。
MBDPは2種類のドロップアウト機構から構成されており、ロールアウト・ドロップアウトは少量のサンプル効率でロバスト性を改善することを目的としており、モデル・ドロップアウトはロバスト性をわずかに犠牲にして損失効率を補うように設計されている。
相補的な方法で組み合わせることで、MBDPは、2つの対応するドロップアウト比を調整することによって、異なる堅牢性と効率性の要求を満たす柔軟な制御機構を提供する。
MBDPの有効性は理論的にも実験的にも示される。
Model-based reinforcement learning is a widely accepted solution for solving excessive sample demands. However, the predictions of the dynamics models are often not accurate enough, and the resulting bias may incur catastrophic decisions due to insufficient robustness. Therefore, it is highly desired to investigate how to improve the robustness of model-based RL algorithms while maintaining high sampling efficiency. In this paper, we propose Model-Based Double-dropout Planning (MBDP) to balance robustness and efficiency. MBDP consists of two kinds of dropout mechanisms, where the rollout-dropout aims to improve the robustness with a small cost of sample efficiency, while the model-dropout is designed to compensate for the lost efficiency at a slight expense of robustness. By combining them in a complementary way, MBDP provides a flexible control mechanism to meet different demands of robustness and efficiency by tuning two corresponding dropout ratios. The effectiveness of MBDP is demonstrated both theoretically and experimentally. | 翻訳日:2024-05-05 18:14:01 公開日:2024-05-02 |
# 失われたアークのロボット:固定端ケーブルを動的に操作する自己教師付き学習
Robots of the Lost Arc: Self-Supervised Learning to Dynamically Manipulate Fixed-Endpoint Cables ( http://arxiv.org/abs/2011.04840v3 ) ライセンス: Link先を確認 | Harry Zhang, Jeffrey Ichnowski, Daniel Seita, Jonathan Wang, Huang Huang, Ken Goldberg, | (参考訳) ロボットアームの高速動作は、ケーブルを動的に操作して障害物を乗り越えたり、台座から物をノックしたり、障害物の間を織ったりすることができる。
本稿では、UR5ロボットがこれらの3つのタスクを実行できる自己教師型学習フレームワークを提案する。
このフレームワークは、ロボットアームの3D頂点点を見つけ、タスク固有の軌道関数とともに、ケーブルを動的に操作してさまざまな障害物や目標位置でタスクを実行するアーク動作を定義する。
軌道関数は、2次プログラムを繰り返し解き、最も短く最も速く実行可能な運動を見つけることで、関節の限界内に留まることと、3D頂点点を通ることを制約された最小のジェット運動を計算する。
厚みと質量の異なる5本の物理的ケーブルを実験し, 頂点点を選択する2本のベースラインと比較した。
その結果、3つのタスクで固定された頂点を持つベースラインがそれぞれ51.7%、36.7%、15.0%の成功率、人間の特定されたタスク固有の頂点を持つベースラインが66.7%、56.7%、および15.0%の成功率を達成し、学習された頂点を用いたロボットは、跳躍で81.7%、ノックで65.0%、織りで60.0%となることが示唆された。
コード、データ、補足資料はhttps: //sites.google.com/berkeley.edu/dynrope/homeで入手できる。
We explore how high-speed robot arm motions can dynamically manipulate cables to vault over obstacles, knock objects from pedestals, and weave between obstacles. In this paper, we propose a self-supervised learning framework that enables a UR5 robot to perform these three tasks. The framework finds a 3D apex point for the robot arm, which, together with a task-specific trajectory function, defines an arcing motion that dynamically manipulates the cable to perform tasks with varying obstacle and target locations. The trajectory function computes minimum-jerk motions that are constrained to remain within joint limits and to travel through the 3D apex point by repeatedly solving quadratic programs to find the shortest and fastest feasible motion. We experiment with 5 physical cables with different thickness and mass and compare performance against two baselines in which a human chooses the apex point. Results suggest that a baseline with a fixed apex across the three tasks achieves respective success rates of 51.7%, 36.7%, and 15.0%, and a baseline with human-specified, task-specific apex points achieves 66.7%, 56.7%, and 15.0% success rate respectively, while the robot using the learned apex point can achieve success rates of 81.7% in vaulting, 65.0% in knocking, and 60.0% in weaving. Code, data, and supplementary materials are available at https: //sites.google.com/berkeley.edu/dynrope/home. | 翻訳日:2024-05-03 22:58:28 公開日:2024-05-02 |
# リンドブラッド方程式の構造保存数値スキーム
Structure-preserving numerical schemes for Lindblad equations ( http://arxiv.org/abs/2103.01194v2 ) ライセンス: Link先を確認 | Yu Cao, Jianfeng Lu, | (参考訳) 我々はリンドブラッド方程式に対する構造保存的決定論的数値スキームの族を研究する。
このスキームの族は単純な形式を持ち、理論上の任意の高次精度を体系的に達成することができる。
さらに、これらのスキームは、多くの伝統的な数値スキームから生じる非物理的問題を克服することも可能である。
物理的性質の保存のため、これらのスキームはリンドブラッド方程式をシミュレートするランダム化および量子化アルゴリズムのさらなる発展のためのバックボーンとして簡単に使用できる。
本研究では,これらの手法を体系的に研究し,数値的な例から検証した詳細な誤り解析を行う。
We study a family of structure-preserving deterministic numerical schemes for Lindblad equations. This family of schemes has a simple form and can systemically achieve arbitrary high-order accuracy in theory. Moreover, these schemes can also overcome the non-physical issues that arise from many traditional numerical schemes. Due to their preservation of physical nature, these schemes can be straightforwardly used as backbones for further developing randomized and quantum algorithms in simulating Lindblad equations. In this work, we systematically study these methods and perform a detailed error analysis, which is validated through numerical examples. | 翻訳日:2024-05-03 22:58:28 公開日:2024-05-02 |
# インクリメンタルトランスに向けて:インクリメンタルNLU用トランスモデルの実証分析
Towards Incremental Transformers: An Empirical Analysis of Transformer Models for Incremental NLU ( http://arxiv.org/abs/2109.07364v2 ) ライセンス: Link先を確認 | Patrick Kahardipraja, Brielen Madureira, David Schlangen, | (参考訳) インクリメンタル処理により、対話システムは部分的な入力に基づいて応答することができる。
現在人気のTransformerアーキテクチャは本質的にシーケンス全体を処理し、時間の概念を抽象化している。
最近の作業では、再起動と増分を繰り返すことでトランスフォーマーを不規則なモデルに繰り返し適用し、より長い入力プレフィックスで部分出力を生成しようとする試みが行われている。
しかし、このアプローチは計算コストが高く、長いシーケンスに対して効率よくスケールしない。
並行して,リニアトランス (LT) やリカレンス機構など,トランスフォーマーをより効率的にするための取り組みも見受けられる。
本研究では,英語におけるインクリメンタルNLUの実現可能性について検討する。
本結果から,再帰型LTモデルでは,非インクリメンタル(フルシーケンス)の品質を犠牲にしつつ,再帰型LTモデルでは,通常のTransformerやLTに比べてインクリメンタルな性能と推論速度が向上していることがわかった。
出力にコミットする前に適切なコンテキストを待つようにモデルをトレーニングすることで、性能低下を軽減できることを示し、入力プレフィックスによるトレーニングは、正しい部分出力を提供するのに有用であることを示す。
Incremental processing allows interactive systems to respond based on partial inputs, which is a desirable property e.g. in dialogue agents. The currently popular Transformer architecture inherently processes sequences as a whole, abstracting away the notion of time. Recent work attempts to apply Transformers incrementally via restart-incrementality by repeatedly feeding, to an unchanged model, increasingly longer input prefixes to produce partial outputs. However, this approach is computationally costly and does not scale efficiently for long sequences. In parallel, we witness efforts to make Transformers more efficient, e.g. the Linear Transformer (LT) with a recurrence mechanism. In this work, we examine the feasibility of LT for incremental NLU in English. Our results show that the recurrent LT model has better incremental performance and faster inference speed compared to the standard Transformer and LT with restart-incrementality, at the cost of part of the non-incremental (full sequence) quality. We show that the performance drop can be mitigated by training the model to wait for right context before committing to an output and that training with input prefixes is beneficial for delivering correct partial outputs. | 翻訳日:2024-05-03 22:58:28 公開日:2024-05-02 |
# FlowBot3D: Articulated Objectsを操作するために3次元Articulation Flowを学ぶ
FlowBot3D: Learning 3D Articulation Flow to Manipulate Articulated Objects ( http://arxiv.org/abs/2205.04382v6 ) ライセンス: Link先を確認 | Ben Eisner, Harry Zhang, David Held, | (参考訳) 我々は,ロボットが見えない物体のクラスを明瞭に表現できるように,一般化した3次元音節オブジェクトを知覚し,操作する新しい手法を探究する。
本研究では,物体の下流動作計画の導出を行うために,物体の様々な部分の潜在的な動きを学習する視覚ベースシステムを提案する。
物体の動きを予測するため,ニューラルネットワークを訓練し,点雲内の点の運動方向を表す高密度ベクトル場を調音下で出力する。
次に、このベクトル場に基づいて解析的運動プランナを配置し、最大調音を与えるポリシーを実現する。
我々は,シミュレーションで完全に視覚システムを訓練し,シミュレーションと実世界の両方において未知のオブジェクトインスタンスと新しいカテゴリに一般化する能力を実証し,微調整のないSawyerロボットにポリシーを展開した。
その結果,本システムは実世界のシミュレーション実験と実世界実験の両方において,最先端の性能を達成できることが示唆された。
We explore a novel method to perceive and manipulate 3D articulated objects that generalizes to enable a robot to articulate unseen classes of objects. We propose a vision-based system that learns to predict the potential motions of the parts of a variety of articulated objects to guide downstream motion planning of the system to articulate the objects. To predict the object motions, we train a neural network to output a dense vector field representing the point-wise motion direction of the points in the point cloud under articulation. We then deploy an analytical motion planner based on this vector field to achieve a policy that yields maximum articulation. We train the vision system entirely in simulation, and we demonstrate the capability of our system to generalize to unseen object instances and novel categories in both simulation and the real world, deploying our policy on a Sawyer robot with no finetuning. Results show that our system achieves state-of-the-art performance in both simulated and real-world experiments. | 翻訳日:2024-05-03 22:58:28 公開日:2024-05-02 |
# 一般測地におけるPDEの学習変形を考慮したフーリエニューラル演算子
Fourier Neural Operator with Learned Deformations for PDEs on General Geometries ( http://arxiv.org/abs/2207.05209v2 ) ライセンス: Link先を確認 | Zongyi Li, Daniel Zhengyu Huang, Burigede Liu, Anima Anandkumar, | (参考訳) ディープラーニングサロゲートモデルは偏微分方程式(PDE)の解法において有望であることを示す。
このうち、フーリエニューラル演算子(FNO)は精度が良く、流体の流れなど様々なPDE上で数値解法よりもはるかに高速である。
しかし、FNOは、一様格子を持つ矩形領域に限定される高速フーリエ変換(FFT)を用いる。
本研究では、任意の測地におけるPDEを解くための新しいフレームワーク、viz.、geo-FNOを提案する。
Geo-FNO は入力(物理)領域を不規則で、一様格子を持つ潜在空間に変形させることを学ぶ。
FFTを用いたFNOモデルは潜在空間に適用される。
得られたGeo-FNOモデルは、FFTの計算効率と任意のジオメトリを扱う柔軟性の両方を持っている。
私たちのGeo-FNOは、入力フォーマット、viz.、ポイントクラウド、メッシュ、設計パラメータもすべて有効な入力です。
我々は, 弾性, 塑性, オイラー方程式, ナビエ・ストークス方程式などの多種多様なPDEと, 前方モデリングと逆設計の問題を考察する。
Geo-FNOは、標準的な数値解法よりも10^5$速く、FNOのような既存のMLベースのPDE解法を直接補間するよりも2倍精度が高い。
Deep learning surrogate models have shown promise in solving partial differential equations (PDEs). Among them, the Fourier neural operator (FNO) achieves good accuracy, and is significantly faster compared to numerical solvers, on a variety of PDEs, such as fluid flows. However, the FNO uses the Fast Fourier transform (FFT), which is limited to rectangular domains with uniform grids. In this work, we propose a new framework, viz., geo-FNO, to solve PDEs on arbitrary geometries. Geo-FNO learns to deform the input (physical) domain, which may be irregular, into a latent space with a uniform grid. The FNO model with the FFT is applied in the latent space. The resulting geo-FNO model has both the computation efficiency of FFT and the flexibility of handling arbitrary geometries. Our geo-FNO is also flexible in terms of its input formats, viz., point clouds, meshes, and design parameters are all valid inputs. We consider a variety of PDEs such as the Elasticity, Plasticity, Euler's, and Navier-Stokes equations, and both forward modeling and inverse design problems. Geo-FNO is $10^5$ times faster than the standard numerical solvers and twice more accurate compared to direct interpolation on existing ML-based PDE solvers such as the standard FNO. | 翻訳日:2024-05-03 22:58:28 公開日:2024-05-02 |
# グレディGQのための有限時間誤差境界
Finite-Time Error Bounds for Greedy-GQ ( http://arxiv.org/abs/2209.02555v2 ) ライセンス: Link先を確認 | Yue Wang, Yi Zhou, Shaofeng Zou, | (参考訳) 線形関数近似を用いたGreedy-GQは、もともと \cite{maei2010toward} で提案され、強化学習における最適制御のための値ベースのオフポリティアルゴリズムであり、非凸目的関数を持つ非線形2時間スケール構造を持つ。
本稿では,最も厳密な有限時間誤差境界を開発する。
We show that the Greedy-GQ algorithm converges as $\mathcal{O}({1}/{\sqrt{T}})$ under the i.d.\ setting and $\mathcal{O}({\log T}/{\sqrt{T}})$ under the Markovian set。
さらに、ネストループ法を用いて、バニラグレディ-GQアルゴリズムの変種を設計し、サンプルの複雑さが$\mathcal{O}({\log(1/\epsilon)\epsilon^{-2}})$であることを示し、バニラグレディ-GQの変種と一致する。
我々の有限時間誤差境界は、2つの時間スケールの更新において付加的な課題があるにもかかわらず、一般的な滑らかな非凸最適化問題に対する確率勾配勾配勾配アルゴリズムの1つと一致する。
我々の有限サンプル分析は、実際の収束を早めるためのステップサイズの選択に関する理論的ガイダンスを提供し、得られた政策の収束率と品質のトレードオフを示唆している。
本手法は,非凸な2つの時間スケール値に基づく強化学習アルゴリズムの有限サンプル解析に対する一般的な手法を提供する。
Greedy-GQ with linear function approximation, originally proposed in \cite{maei2010toward}, is a value-based off-policy algorithm for optimal control in reinforcement learning, and it has a non-linear two timescale structure with the non-convex objective function. This paper develops its tightest finite-time error bounds. We show that the Greedy-GQ algorithm converges as fast as $\mathcal{O}({1}/{\sqrt{T}})$ under the i.i.d.\ setting and $\mathcal{O}({\log T}/{\sqrt{T}})$ under the Markovian setting. We further design a variant of the vanilla Greedy-GQ algorithm using the nested-loop approach, and show that its sample complexity is $\mathcal{O}({\log(1/\epsilon)\epsilon^{-2}})$, which matches with the one of the vanilla Greedy-GQ. Our finite-time error bounds match with one of the stochastic gradient descent algorithms for general smooth non-convex optimization problems, despite its additonal challenge in the two time-scale updates. Our finite-sample analysis provides theoretical guidance on choosing step-sizes for faster convergence in practice, and suggests the trade-off between the convergence rate and the quality of the obtained policy. Our techniques provide a general approach for finite-sample analysis of non-convex two timescale value-based reinforcement learning algorithms. | 翻訳日:2024-05-03 22:58:28 公開日:2024-05-02 |
# USC: 自律運転における安全指向型3D物体検出器の空間制約の非競合化
USC: Uncompromising Spatial Constraints for Safety-Oriented 3D Object Detectors in Autonomous Driving ( http://arxiv.org/abs/2209.10368v4 ) ライセンス: Link先を確認 | Brian Hsuan-Cheng Liao, Chih-Hong Cheng, Hasan Esen, Alois Knoll, | (参考訳) 自律運転における3次元物体検出器の安全性指向性能について考察する。
特に、大量の文献で示された印象的な結果にもかかわらず、開発者はこれらの学習ベースの知覚モデルの安全なデプロイを保証するのが難しいと感じることが多い。
安全志向の指標の欠如に起因する課題として,我々は,自律走行車から物体を完全に覆うことを要求する,単純かつ重要な位置決め要求を特徴付ける空間制約(USC)を非競合的に提示する。
遠近法と鳥眼図を用いて定式化した制約は,高得点の物体検出器を持つことで衝突のリスクが低くなるなど,定量的な測定によって自然に反映できる。
最後に、モデル評価を超えて、既存のモデルに対する安全性指向の微調整を可能にするために、定量的な測定値を共通の損失関数に組み込む。
nuScenesデータセットとクローズドループシミュレーションを用いた実験により、認識レベルでの安全性概念の考察は、精度以上のモデル性能を改善するだけでなく、実際のシステム安全性へのより直接的なリンクを可能にする。
We consider the safety-oriented performance of 3D object detectors in autonomous driving contexts. Specifically, despite impressive results shown by the mass literature, developers often find it hard to ensure the safe deployment of these learning-based perception models. Attributing the challenge to the lack of safety-oriented metrics, we hereby present uncompromising spatial constraints (USC), which characterize a simple yet important localization requirement demanding the predictions to fully cover the objects when seen from the autonomous vehicle. The constraints, as we formulate using the perspective and bird's-eye views, can be naturally reflected by quantitative measures, such that having an object detector with a higher score implies a lower risk of collision. Finally, beyond model evaluation, we incorporate the quantitative measures into common loss functions to enable safety-oriented fine-tuning for existing models. With experiments using the nuScenes dataset and a closed-loop simulation, our work demonstrates such considerations of safety notions at the perception level not only improve model performances beyond accuracy but also allow for a more direct linkage to actual system safety. | 翻訳日:2024-05-03 22:58:28 公開日:2024-05-02 |
# 過去と現在の間のギャップを埋める時変確率スコア
Time-Varying Propensity Score to Bridge the Gap between the Past and Present ( http://arxiv.org/abs/2210.01422v5 ) ライセンス: Link先を確認 | Rasool Fakoor, Jonas Mueller, Zachary C. Lipton, Pratik Chaudhari, Alexander J. Smola, | (参考訳) データが時間とともに進化するので、機械学習モデルの現実的な展開は難しい。
データが任意の方法で進化する際には、モデルが機能しないが、もしこれらの変更に何らかのパターンがあるなら、それに対応するメソッドを設計できるかもしれない。
本稿では,データが徐々に進化する状況に対処する。
我々は、データ分布の段階的な変化を検知し、過去のデータを選択的にサンプリングしてモデルを更新できる時間変化確率スコアを導入します。
時間変動確率スコアは非常に一般的で,教師付き学習(例:画像分類問題)から,段階的な変化の連続する学習課題(例:ロボット操作と連続制御),データ変更やタスク変更に伴う強化学習タスク(例:ロボット操作と連続制御)に至るまで,さまざまな方法で実装し,さまざまな問題に対して評価する。
Real-world deployment of machine learning models is challenging because data evolves over time. While no model can work when data evolves in an arbitrary fashion, if there is some pattern to these changes, we might be able to design methods to address it. This paper addresses situations when data evolves gradually. We introduce a time-varying propensity score that can detect gradual shifts in the distribution of data which allows us to selectively sample past data to update the model -- not just similar data from the past like that of a standard propensity score but also data that evolved in a similar fashion in the past. The time-varying propensity score is quite general: we demonstrate different ways of implementing it and evaluate it on a variety of problems ranging from supervised learning (e.g., image classification problems) where data undergoes a sequence of gradual shifts, to reinforcement learning tasks (e.g., robotic manipulation and continuous control) where data shifts as the policy or the task changes. | 翻訳日:2024-05-03 22:58:28 公開日:2024-05-02 |
# DynamicLight: 2段階の動的信号タイミング
DynamicLight: Two-Stage Dynamic Traffic Signal Timing ( http://arxiv.org/abs/2211.01025v2 ) ライセンス: Link先を確認 | Liang Zhang, Yutong Zhang, Shubin Xie, Jianming Deng, Chen Li, | (参考訳) 交通信号制御 (TSC) の効果的なアプローチとして強化学習 (RL) が普及し, この領域での利用が増加している。
しかし、既存のほとんどのRL手法はシングルステージのTSCフレームワークに限られており、主に一定の動作間隔で適切な信号位相を選択することに焦点を当てており、柔軟性がなく、適応性も低い。
このような制約に対処するために,DynamicLight という新しい2段階の TSC フレームワークを導入する。
このフレームワークは、最適なトラフィックフェーズを決定するためのフェーズ制御戦略と、対応するフェーズ期間を決定するための期間制御戦略とを同時に開始する。
実験により、DynamicLightは最先端のTSCモデルより優れ、例外的なモデル一般化能力を示すことが示された。
さらに、DynamicLightの実際の実装の堅牢性やポテンシャルは、様々なDynamicLight変種によってさらに実証され、検証される。
コードはhttps://github.com/LiangZhang1996/DynamicLightで公開されている。
Reinforcement learning (RL) is gaining popularity as an effective approach for traffic signal control (TSC) and is increasingly applied in this domain. However, most existing RL methodologies are confined to a single-stage TSC framework, primarily focusing on selecting an appropriate traffic signal phase at fixed action intervals, leading to inflexible and less adaptable phase durations. To address such limitations, we introduce a novel two-stage TSC framework named DynamicLight. This framework initiates with a phase control strategy responsible for determining the optimal traffic phase, followed by a duration control strategy tasked with determining the corresponding phase duration. Experimental results show that DynamicLight outperforms state-of-the-art TSC models and exhibits exceptional model generalization capabilities. Additionally, the robustness and potential for real-world implementation of DynamicLight are further demonstrated and validated through various DynamicLight variants. The code is released at https://github.com/LiangZhang1996/DynamicLight. | 翻訳日:2024-05-03 22:58:28 公開日:2024-05-02 |
# TAX-Pose:ロボット操作のためのタスク特異的クロスポース推定
TAX-Pose: Task-Specific Cross-Pose Estimation for Robot Manipulation ( http://arxiv.org/abs/2211.09325v3 ) ライセンス: Link先を確認 | Chuer Pan, Brian Okorn, Harry Zhang, Ben Eisner, David Held, | (参考訳) ロボットに、見えない物体を効率的に操作し、デモに基づいて関連するスキルを伝達する能力を与えるには、どうすればいいのか?
エンドツーエンドの学習方法は、新しいオブジェクトや目に見えない設定に一般化できないことが多い。
代わりに、相互作用するオブジェクトの関連部分間のタスク固有のポーズ関係に注目します。
この関係は、同じカテゴリの新たな対象に移動できる操作タスクの一般化可能な概念であり、例えば、オーブンに対するパンのポーズとマグラックに対するマグカップのポーズの関係を含む。
我々は、このタスク固有のポーズ関係を「クロスポジション」と呼び、この概念の数学的定義を提供する。
本稿では,学習対象の相互対応を用いて,与えられた操作タスクに対して2つのオブジェクト間の交差位置を推定する視覚ベースシステムを提案する。
次に、推定されたクロスポジションを使用して、下流のモーションプランナーがオブジェクトを所望のポーズ関係(鍋をオーブンに入れたり、マグカップをラグラックに入れたりする)に操作する。
実世界における10個の実演の訓練後, 対象物を一般化する手法の能力を実証する。
その結果,本システムは,シミュレーションおよび実世界の両実験において,様々な課題において,最先端の性能を達成できることが示唆された。
追加情報とビデオはhttps://sites.google.com/view/tax-pose/home.comで見ることができる。
How do we imbue robots with the ability to efficiently manipulate unseen objects and transfer relevant skills based on demonstrations? End-to-end learning methods often fail to generalize to novel objects or unseen configurations. Instead, we focus on the task-specific pose relationship between relevant parts of interacting objects. We conjecture that this relationship is a generalizable notion of a manipulation task that can transfer to new objects in the same category; examples include the relationship between the pose of a pan relative to an oven or the pose of a mug relative to a mug rack. We call this task-specific pose relationship "cross-pose" and provide a mathematical definition of this concept. We propose a vision-based system that learns to estimate the cross-pose between two objects for a given manipulation task using learned cross-object correspondences. The estimated cross-pose is then used to guide a downstream motion planner to manipulate the objects into the desired pose relationship (placing a pan into the oven or the mug onto the mug rack). We demonstrate our method's capability to generalize to unseen objects, in some cases after training on only 10 demonstrations in the real world. Results show that our system achieves state-of-the-art performance in both simulated and real-world experiments across a number of tasks. Supplementary information and videos can be found at https://sites.google.com/view/tax-pose/home. | 翻訳日:2024-05-03 22:58:28 公開日:2024-05-02 |
# アンタングル表現学習
Disentangled Representation Learning ( http://arxiv.org/abs/2211.11695v3 ) ライセンス: Link先を確認 | Xin Wang, Hong Chen, Si'ao Tang, Zihao Wu, Wenwu Zhu, | (参考訳) Disentangled Representation Learning (DRL) は、観測可能なデータに隠された基礎的要因を表現形式で識別し、切り離すことができるモデルを学習することを目的としている。
変化の根底にある要因を変数に分割するプロセスは、対象や関係を観察する際の人間の意味的な理解過程を模倣する、説明可能なデータ表現の学習において利益をもたらす。
一般的な学習戦略として、DRLは、コンピュータビジョン、自然言語処理、データマイニングといった幅広いシナリオにおいて、モデル説明可能性、制御可能性、堅牢性、および一般化能力を改善する能力を示した。
本稿では,モチベーション,定義,方法論,評価,応用,モデル設計など,さまざまな側面からDRLを包括的に検討する。
まず,不整合表現学習のための直観的定義とグループ理論定義という,よく認識された2つの定義を提示する。
さらに,DRLの方法論を,モデルタイプ,表現構造,監視信号,独立性仮定の4つのグループに分類する。
また、実用アプリケーションで異なるタスクに利益をもたらす可能性のある、異なるDRLモデルを設計するための原則も分析する。
最後に,DRLの課題と今後の研究の方向性を指摘する。
我々は、この研究がコミュニティにおけるDRL研究を促進するための洞察を与えるかもしれないと考えている。
Disentangled Representation Learning (DRL) aims to learn a model capable of identifying and disentangling the underlying factors hidden in the observable data in representation form. The process of separating underlying factors of variation into variables with semantic meaning benefits in learning explainable representations of data, which imitates the meaningful understanding process of humans when observing an object or relation. As a general learning strategy, DRL has demonstrated its power in improving the model explainability, controlability, robustness, as well as generalization capacity in a wide range of scenarios such as computer vision, natural language processing, and data mining. In this article, we comprehensively investigate DRL from various aspects including motivations, definitions, methodologies, evaluations, applications, and model designs. We first present two well-recognized definitions, i.e., Intuitive Definition and Group Theory Definition for disentangled representation learning. We further categorize the methodologies for DRL into four groups from the following perspectives, the model type, representation structure, supervision signal, and independence assumption. We also analyze principles to design different DRL models that may benefit different tasks in practical applications. Finally, we point out challenges in DRL as well as potential research directions deserving future investigations. We believe this work may provide insights for promoting the DRL research in the community. | 翻訳日:2024-05-03 22:58:28 公開日:2024-05-02 |
# 絡み合いの相対エントロピーの新たな加法的性質とその一般化
New additivity properties of the relative entropy of entanglement and its generalizations ( http://arxiv.org/abs/2211.12804v3 ) ライセンス: Link先を確認 | Roberto Rubboli, Marco Tomamichel, | (参考訳) エンタングルメントの相対エントロピーは \emph{at} がある特定のクラスに属するとき加法的であることを証明する。
これらのクラスは、二部類、最大相関、GHZ、ベル対角線、等方性、一般化されたディック状態を含むことを示す。
以前は、追加性は \textit{both} 状態が同じクラスに属する場合にのみ確立されていた。
さらに、これらの結果は、$\alpha$-$z$ R\'enyi 相対エントロピーに基づくエンタングルメント単調に拡張する。
特に、この単調の族は、絡み合いの一般化された堅牢性や絡み合いの幾何学的測度も含む。
さらに、量子相対エントロピーに基づく任意のモノトンが一般状態に対して加法的でないことを証明する。
また, 両部純物, ベル対角, 一般化Werner, 一般化Dicke, 最大相関Bell対角状態に対するモノトーンの閉形式表現も計算した。
この結果は,初期凸最適化問題をより単純な線形に再キャストする手法の開発に依存している。
主に絡み合い理論に焦点をあてるが、より一般的な凸最適化問題を調べる上では、技術的結果のいくつかが有用であると予想する。
We prove that the relative entropy of entanglement is additive when \emph{at least one of the two states} belongs to some specific class. We show that these classes include bipartite pure, maximally correlated, GHZ, Bell diagonal, isotropic, and generalized Dicke states. Previously, additivity was established only if \textit{both} states belong to the same class. Moreover, we extend these results to entanglement monotones based on the $\alpha$-$z$ R\'enyi relative entropy. Notably, this family of monotones includes also the generalized robustness of entanglement and the geometric measure of entanglement. In addition, we prove that any monotone based on a quantum relative entropy is not additive for general states. We also compute closed-form expressions of the monotones for bipartite pure, Bell diagonal, isotropic, generalized Werner, generalized Dicke, and maximally correlated Bell diagonal states. Our results rely on developing a method that allows us to recast the initial convex optimization problem into a simpler linear one. Even though we mostly focus on entanglement theory, we expect that some of our technical results could be useful in investigating more general convex optimization problems. | 翻訳日:2024-05-03 22:49:30 公開日:2024-05-02 |
# 最適精度をもつ確率的ユニタリ合成
Probabilistic unitary synthesis with optimal accuracy ( http://arxiv.org/abs/2301.06307v2 ) ライセンス: Link先を確認 | Seiseki Akibue, Go Kato, Seiichiro Tani, | (参考訳) ユニタリ合成の目的は、ターゲットのユニタリ変換を最適に近似するゲート列を見つけることである。
確率論的合成と呼ばれる新しい合成手法が導入され、近似誤差やゲート長に関して従来の決定論的アプローチよりも優位性が確認されている。
しかし、現在の確率論的合成アルゴリズムの最適性は不明である。
最適確率合成により得られた近似誤差の厳密な下限を求め,電流アルゴリズムの準最適性を保証する。
また、目標ユニタリーのクラスに応じて、現在の上限を改善し、統一する、厳密な上限を示す。
これら2つの境界は、確率近似とユニタリ変換の決定論的近似の近似誤差の基本的な関係を明らかにしている。
計算の観点からは、最適確率分布は、構築する半定値プログラム(SDP)によって計算可能であることを示す。
また,単一量子ユニタリに対する効率的な確率的合成アルゴリズムを構築し,その時間的複雑性を厳密に推定し,決定論的アルゴリズムと比較して近似誤差を2次的に減少させることを示した。
The purpose of unitary synthesis is to find a gate sequence that optimally approximates a target unitary transformation. A new synthesis approach, called probabilistic synthesis, has been introduced, and its superiority has been demonstrated over traditional deterministic approaches with respect to approximation error and gate length. However, the optimality of current probabilistic synthesis algorithms is unknown. We obtain the tight lower bound on the approximation error obtained by the optimal probabilistic synthesis, which guarantees the sub-optimality of current algorithms. We also show its tight upper bound, which improves and unifies current upper bounds depending on the class of target unitaries. These two bounds reveal the fundamental relationship of approximation error between probabilistic approximation and deterministic approximation of unitary transformations. From a computational point of view, we show that the optimal probability distribution can be computed by the semidefinite program (SDP) we construct. We also construct an efficient probabilistic synthesis algorithm for single-qubit unitaries, rigorously estimate its time complexity, and show that it reduces the approximation error quadratically compared with deterministic algorithms. | 翻訳日:2024-05-03 22:49:30 公開日:2024-05-02 |
# MEGA-DAgger: 複数専門家による模倣学習
MEGA-DAgger: Imitation Learning with Multiple Imperfect Experts ( http://arxiv.org/abs/2303.00638v3 ) ライセンス: Link先を確認 | Xiatao Sun, Shuo Yang, Mingyan Zhou, Kunpeng Liu, Rahul Mangharam, | (参考訳) 共変量シフトに対処するインタラクティブアルゴリズムの開発や、行動クローニングのような従来のアプローチによって引き起こされるエラーの複合化などにより、模倣学習は様々な自律システムに広く適用されてきた。
しかし、既存のインタラクティブな模倣学習手法は、一人の完璧な専門家にアクセスできることを前提としている。
しかし実際には、複数の不完全な専門家がいる可能性が高い。
本稿では,複数の不完全な専門家との対話型学習に適した新しいDAggerであるMEGA-DAggerを提案する。
まず、トレーニングデータを集約しながら、安全でないデモをフィルタリングする。
次に、専門家は、専門家間の矛盾するラベルを解決するために、シナリオ固有のメトリクスを評価して比較する。
自律的なレースシナリオの実験を通じて、MEGA-DAggerを用いて学習したポリシーは、Human-Gated DAggerのような最先端のインタラクティブな模倣学習アルゴリズムを用いて学んだ専門家とポリシーの両方より優れていることを示した。
補足ビデオは \url{https://youtu.be/wPCht31MHrw} で見ることができる。
Imitation learning has been widely applied to various autonomous systems thanks to recent development in interactive algorithms that address covariate shift and compounding errors induced by traditional approaches like behavior cloning. However, existing interactive imitation learning methods assume access to one perfect expert. Whereas in reality, it is more likely to have multiple imperfect experts instead. In this paper, we propose MEGA-DAgger, a new DAgger variant that is suitable for interactive learning with multiple imperfect experts. First, unsafe demonstrations are filtered while aggregating the training data, so the imperfect demonstrations have little influence when training the novice policy. Next, experts are evaluated and compared on scenarios-specific metrics to resolve the conflicted labels among experts. Through experiments in autonomous racing scenarios, we demonstrate that policy learned using MEGA-DAgger can outperform both experts and policies learned using the state-of-the-art interactive imitation learning algorithms such as Human-Gated DAgger. The supplementary video can be found at \url{https://youtu.be/wPCht31MHrw}. | 翻訳日:2024-05-03 22:49:30 公開日:2024-05-02 |
# 教師付きコントラスト学習を用いた医用画像分類のためのピラミッドコンテクスト適応ネットワーク
Pyramid Pixel Context Adaption Network for Medical Image Classification with Supervised Contrastive Learning ( http://arxiv.org/abs/2303.01917v3 ) ライセンス: Link先を確認 | Xiaoqing Zhang, Zunjie Xiao, Xiao Wu, Yanlin Chen, Jilu Zhao, Yan Hu, Jiang Liu, | (参考訳) 空間的注意機構はディープニューラルネットワーク(DNN)に広く組み込まれており、長距離依存モデリングによるコンピュータビジョンタスクのパフォーマンスを大幅に向上させている。
しかし、医用画像解析では不十分である。
残念ながら、既存の取り組みはしばしば、長距離依存性モデリングが微妙な病変領域の強調に限界があることに気付いていない。
この制限を克服するために,マルチスケールの画素コンテキスト情報を利用して画素位置を動的に動的に補正する,実用的で軽量なアーキテクチャユニットであるPraamid Pixel Context Adaption (PPCA) モジュールを提案する。
PPCAは、まず、マルチスケールの画素コンテキスト情報を集約するために、よく設計されたクロスチャネルピラミッドプーリングを適用し、その後、よく設計されたピクセル正規化により、それらの不整合を排除し、最後にピクセルコンテキスト統合により、ピクセル毎の注目重量を推定する。
DNNにPPCAを埋め込むことにより,医用画像分類のためのPPCANetを開発した。
さらに,教師付きコントラスト学習を導入し,教師付きコントラスト損失によるラベル情報の可能性を利用して特徴表現を強化する。
6つの医用画像データセットに関する広範な実験は、PPCANetが最先端の注目ネットワークと最近のディープニューラルネットワークより優れていることを示している。
また、意思決定過程におけるPPCANetの挙動を説明するために、視覚分析およびアブレーション研究を行った。
Spatial attention mechanism has been widely incorporated into deep neural networks (DNNs), significantly lifting the performance in computer vision tasks via long-range dependency modeling. However, it may perform poorly in medical image analysis. Unfortunately, existing efforts are often unaware that long-range dependency modeling has limitations in highlighting subtle lesion regions. To overcome this limitation, we propose a practical yet lightweight architectural unit, Pyramid Pixel Context Adaption (PPCA) module, which exploits multi-scale pixel context information to recalibrate pixel position in a pixel-independent manner dynamically. PPCA first applies a well-designed cross-channel pyramid pooling to aggregate multi-scale pixel context information, then eliminates the inconsistency among them by the well-designed pixel normalization, and finally estimates per pixel attention weight via a pixel context integration. By embedding PPCA into a DNN with negligible overhead, the PPCANet is developed for medical image classification. In addition, we introduce supervised contrastive learning to enhance feature representation by exploiting the potential of label information via supervised contrastive loss. The extensive experiments on six medical image datasets show that PPCANet outperforms state-of-the-art attention-based networks and recent deep neural networks. We also provide visual analysis and ablation study to explain the behavior of PPCANet in the decision-making process. | 翻訳日:2024-05-03 22:49:30 公開日:2024-05-02 |
# PARASOL:拡散画像合成のためのパラメトリックスタイル制御
PARASOL: Parametric Style Control for Diffusion Image Synthesis ( http://arxiv.org/abs/2303.06464v3 ) ライセンス: Link先を確認 | Gemma Canet Tarrés, Dan Ruta, Tu Bui, John Collomosse, | (参考訳) 両コンテンツと微細な視覚スタイルの埋め込みを共同で条件付けすることで、画像の視覚スタイルの非交叉パラメトリック制御を可能にするマルチモーダル合成モデルであるPARASOLを提案する。
本研究では,各モードに対する特定の損失を用いた潜伏拡散モデル(LDM)を訓練し,推論時間における独立コンテンツやスタイルのモダリティに対する不整合制御を奨励するための分類子フリーガイダンスを適用した。
補助的なセマンティクスとスタイルに基づく検索を活用して,コンテンツとスタイルの相補性を保証し,LCMの監督を行うためのトレーニングトレーレットを作成する。
PARASOLは、画像生成とスタイリゼーションのための拡散モデルにおける視覚スタイルのニュアンス制御を可能にするとともに、テキストベースの検索結果を、コンテンツとスタイル記述子の両方を補間することによって、より密にユーザ意図に適合させることができる生成検索を可能にすることを約束している。
We propose PARASOL, a multi-modal synthesis model that enables disentangled, parametric control of the visual style of the image by jointly conditioning synthesis on both content and a fine-grained visual style embedding. We train a latent diffusion model (LDM) using specific losses for each modality and adapt the classifier-free guidance for encouraging disentangled control over independent content and style modalities at inference time. We leverage auxiliary semantic and style-based search to create training triplets for supervision of the LDM, ensuring complementarity of content and style cues. PARASOL shows promise for enabling nuanced control over visual style in diffusion models for image creation and stylization, as well as generative search where text-based search results may be adapted to more closely match user intent by interpolating both content and style descriptors. | 翻訳日:2024-05-03 22:49:30 公開日:2024-05-02 |
# DataLight: オフラインのデータ駆動型信号制御
DataLight: Offline Data-Driven Traffic Signal Control ( http://arxiv.org/abs/2303.10828v2 ) ライセンス: Link先を確認 | Liang Zhang, Yutong Zhang, Jianming Deng, Chen Li, | (参考訳) Reinforcement Learning (RL) は、交通信号制御(TSC)の課題に対処するための有望なソリューションとして登場した。
ほとんどのRTLベースのTSCシステムは、通常、オンラインアプローチを採用し、環境との頻繁な対話を促進するが、そのような戦略を現実世界で学ぶことは、安全性とリスクの懸念のために現実的ではない。
これらの課題に対処するために、この研究は、DataLightと呼ばれる革新的なオフラインデータ駆動アプローチを導入しました。
DataLightは、環境内の車両の速度情報をキャプチャすることで、効果的な状態表現と報酬関数を使用する。
次に道路を分割して空間情報をキャプチャし、逐次モデリングにより空間的に区切られた状態表現をさらに強化する。
実験結果は、最先端のオンラインTSC法とオフラインTSC法の両方と比較して優れた性能を示すDataLightの有効性を示す。
さらに、DataLightは、現実世界のデプロイメント問題に関する堅牢な学習機能を示している。
コードはhttps://github.com/LiangZhang1996/DataLightで公開されている。
Reinforcement learning (RL) has emerged as a promising solution for addressing traffic signal control (TSC) challenges. While most RL-based TSC systems typically employ an online approach, facilitating frequent active interaction with the environment, learning such strategies in the real world is impractical due to safety and risk concerns. To tackle these challenges, this study introduces an innovative offline data-driven approach, called DataLight. DataLight employs effective state representations and reward function by capturing vehicular speed information within the environment. It then segments roads to capture spatial information and further enhances the spatially segmented state representations with sequential modeling. The experimental results demonstrate the effectiveness of DataLight, showcasing superior performance compared to both state-of-the-art online and offline TSC methods. Additionally, DataLight exhibits robust learning capabilities concerning real-world deployment issues. The code is available at https://github.com/LiangZhang1996/DataLight. | 翻訳日:2024-05-03 22:49:30 公開日:2024-05-02 |
# スケルトン回帰(Skeleton Regression): マニフォールド構造を用いたグラフに基づく推定手法
Skeleton Regression: A Graph-Based Approach to Estimation with Manifold Structure ( http://arxiv.org/abs/2303.11786v2 ) ライセンス: Link先を確認 | Zeyu Wei, Yen-Chi Chen, | (参考訳) 雑音を伴う低次元多様体の周囲に存在する大規模で複雑なデータを扱うために設計された新しい回帰フレームワークを提案する。
提案手法はまず,基礎となる幾何学的構造を捉えるために,スケルトンと呼ばれるグラフ表現を構築する。
次に、スケルトングラフ上のメトリクスを定義し、非パラメトリック回帰手法とグラフに基づく特徴変換を適用して回帰関数を推定する。
また、骨格グラフのような一般的な計量空間に関して、いくつかの非パラメトリック回帰器の制限についても論じる。
提案した回帰フレームワークは、基礎となる幾何学的構造とデータを扱う新しい方法を提案するとともに、複数の多様体の結合、加法的雑音、ノイズ観測を扱う際のさらなる利点を提供する。
提案手法を統計的に保証し,シミュレーションおよび実データ例を用いてその有効性を実証する。
We introduce a new regression framework designed to deal with large-scale, complex data that lies around a low-dimensional manifold with noises. Our approach first constructs a graph representation, referred to as the skeleton, to capture the underlying geometric structure. We then define metrics on the skeleton graph and apply nonparametric regression techniques, along with feature transformations based on the graph, to estimate the regression function. We also discuss the limitations of some nonparametric regressors with respect to the general metric space such as the skeleton graph. The proposed regression framework suggests a novel way to deal with data with underlying geometric structures and provides additional advantages in handling the union of multiple manifolds, additive noises, and noisy observations. We provide statistical guarantees for the proposed method and demonstrate its effectiveness through simulations and real data examples. | 翻訳日:2024-05-03 22:49:30 公開日:2024-05-02 |
# 凸制約下における線形力学系の学習
Learning linear dynamical systems under convex constraints ( http://arxiv.org/abs/2303.15121v3 ) ライセンス: Link先を確認 | Hemant Tyagi, Denis Efimov, | (参考訳) 本稿では, 線形力学系の有限時間同定の問題について, 単一軌道の$T$サンプルから考察する。
最近の結果は、システム行列 $A^* \in \mathbb{R}^{n \times n}$ に構造的仮定が存在しないような設定に主に焦点を合わせ、その結果、通常の最小二乗推定器(OLS)を詳細に分析した。
A^*$ に関する以前の構造情報は、$A^*$ を含む凸集合 $\mathcal{K}$ の形で取得できると仮定する。
続く制約最小二乗推定子の解に対し、フロベニウスノルムの非漸近誤差境界を導出し、局所サイズ$\mathcal{K}$ at$A^*$ に依存する。
これらの結果の有用性を説明するために、4つの例でインスタンス化します。
(i)$A^*$はスパースで$\mathcal{K}$は適切なスケールの$\ell_1$ボールである。
(ii) $\mathcal{K}$ は部分空間である。
(iii)$\mathcal{K}$は、一様$n \times n$ grid(凸回帰)上の二変数凸関数をサンプリングすることによって形成される行列からなる。
(iv)$\mathcal{K}$は、各行の行列からなり、一変数リプシッツ函数の一様サンプリング(ステップサイズ1/T$)によって形成される。
これらすべての状況において、制約のない設定に必要なものよりもはるかに小さい$T$の値に対して、$A^*$を確実に推定できることが示される。
We consider the problem of finite-time identification of linear dynamical systems from $T$ samples of a single trajectory. Recent results have predominantly focused on the setup where no structural assumption is made on the system matrix $A^* \in \mathbb{R}^{n \times n}$, and have consequently analyzed the ordinary least squares (OLS) estimator in detail. We assume prior structural information on $A^*$ is available, which can be captured in the form of a convex set $\mathcal{K}$ containing $A^*$. For the solution of the ensuing constrained least squares estimator, we derive non-asymptotic error bounds in the Frobenius norm that depend on the local size of $\mathcal{K}$ at $A^*$. To illustrate the usefulness of these results, we instantiate them for four examples, namely when (i) $A^*$ is sparse and $\mathcal{K}$ is a suitably scaled $\ell_1$ ball; (ii) $\mathcal{K}$ is a subspace; (iii) $\mathcal{K}$ consists of matrices each of which is formed by sampling a bivariate convex function on a uniform $n \times n$ grid (convex regression); (iv) $\mathcal{K}$ consists of matrices each row of which is formed by uniform sampling (with step size $1/T$) of a univariate Lipschitz function. In all these situations, we show that $A^*$ can be reliably estimated for values of $T$ much smaller than what is needed for the unconstrained setting. | 翻訳日:2024-05-03 22:49:30 公開日:2024-05-02 |
# 連続拡散:C-LoRAによるテキスト間拡散の連続的カスタマイズ
Continual Diffusion: Continual Customization of Text-to-Image Diffusion with C-LoRA ( http://arxiv.org/abs/2304.06027v2 ) ライセンス: Link先を確認 | James Seale Smith, Yen-Chang Hsu, Lingyu Zhang, Ting Hua, Zsolt Kira, Yilin Shen, Hongxia Jin, | (参考訳) 最近の研究は、サンプル画像のみを提供しながら、テキストから画像への拡散モデルをカスタマイズする素晴らしい能力を示している。
連続的な(連続的な)方法で、複数のきめ細かい概念を使って、そのようなモデルをカスタマイズしようとすると、どうなるでしょう?
本稿では,最近のテクスト・ツー・イメージのカスタマイズが,新しい概念が次々に現れると,破滅的な忘れ込みに悩まされていることを示す。
特に、新しい概念を追加するとき、過去の高品質なイメージを生成する能力は、同様の概念は劣化する。
そこで本研究では,従来の安定拡散モデルを用いたクロスアテンション層における自己規則化低ランク適応を連続的に行うC-LoRAを提案する。
さらに、カスタマイズされたオブジェクト(例えば、人間の顔データセットの「人」)の単語を含まないカスタマイズプロンプトを、完全にランダムな埋め込みとして初期化する。
重要なこととして,本手法は限界余剰パラメータコストのみを誘導し,再生にユーザデータの保存を必要としない。
我々は、C-LoRAが、連続的拡散(Continuous Diffusion)と呼ぶテキスト・ツー・イメージの連続的カスタマイズの設定において、いくつかのベースラインを上回るだけでなく、画像分類のためのリハーサルなし連続的学習設定において、新しい最先端技術を実現することを示す。
C-LoRAの2つの異なる領域における高い性能は、それを広範囲のアプリケーションにとって魅力的なソリューションとして位置づけている。
プロジェクトページ: https://jamessealesmith.github.io/continual-diffusion/
Recent works demonstrate a remarkable ability to customize text-to-image diffusion models while only providing a few example images. What happens if you try to customize such models using multiple, fine-grained concepts in a sequential (i.e., continual) manner? In our work, we show that recent state-of-the-art customization of text-to-image models suffer from catastrophic forgetting when new concepts arrive sequentially. Specifically, when adding a new concept, the ability to generate high quality images of past, similar concepts degrade. To circumvent this forgetting, we propose a new method, C-LoRA, composed of a continually self-regularized low-rank adaptation in cross attention layers of the popular Stable Diffusion model. Furthermore, we use customization prompts which do not include the word of the customized object (i.e., "person" for a human face dataset) and are initialized as completely random embeddings. Importantly, our method induces only marginal additional parameter costs and requires no storage of user data for replay. We show that C-LoRA not only outperforms several baselines for our proposed setting of text-to-image continual customization, which we refer to as Continual Diffusion, but that we achieve a new state-of-the-art in the well-established rehearsal-free continual learning setting for image classification. The high achieving performance of C-LoRA in two separate domains positions it as a compelling solution for a wide range of applications, and we believe it has significant potential for practical impact. Project page: https://jamessealesmith.github.io/continual-diffusion/ | 翻訳日:2024-05-03 22:49:30 公開日:2024-05-02 |
# 急速回転量子気体中のキラルエッジ輸送の観測
Observation of chiral edge transport in a rapidly-rotating quantum gas ( http://arxiv.org/abs/2304.10468v3 ) ライセンス: Link先を確認 | Ruixiao Yao, Sungjae Chi, Biswaroop Mukherjee, Airlia Shaffer, Martin Zwierlein, Richard J. Fletcher, | (参考訳) トポロジカル物質の境界における粒子の摩擦のない方向伝播は、輸送において最も顕著な現象の1つである。
これらのキラルエッジモードは整数と分数量子ホール効果の中心にあり、ノイズや障害に対する異常な堅牢性はホールの伝導率の量子化を反映している。
中心的な重要性にもかかわらず、エッジモードの制御可能な注入と、その伝播、構造、ダイナミクスを直接撮像することは困難である。
ここでは,光学境界に閉じ込められた急速回転するボゾン超流動層における個々のキラルエッジ状態の蒸留を実証する。
壁のシャープネスを調整し, 伝播速度が壁の急勾配に比例する軟壁挙動と, キラルフリー粒子を呈する硬壁構造との円滑な交差関係を明らかにする。
境界に沿った原子のスキップ運動から、地上と第1の励起エッジバンドの間のエネルギーギャップを分光的に推測し、その進化を、ソフト境界のために分割されたバルクランダウ準位から硬壁限界まで明らかにする。
The frictionless, directional propagation of particles at the boundary of topological materials is one of the most striking phenomena in transport. These chiral edge modes lie at the heart of the integer and fractional quantum Hall effects, and their extraordinary robustness against noise and disorder reflects the quantization of Hall conductivity in these systems. Despite their central importance, controllable injection of edge modes, and direct imaging of their propagation, structure, and dynamics, is challenging. Here, we demonstrate the distillation of individual chiral edge states in a rapidly-rotating bosonic superfluid confined by an optical boundary. Tuning the wall sharpness, we reveal the smooth crossover between soft wall behaviour in which the propagation speed is proportional to wall steepness, and the hard wall regime exhibiting chiral free particles. From the skipping motion of atoms along the boundary, we spectroscopically infer the energy gap between the ground and first excited edge bands, and reveal its evolution from the bulk Landau level splitting for a soft boundary, to the hard wall limit. | 翻訳日:2024-05-03 22:49:30 公開日:2024-05-02 |
# シリコン量子ドットの高速読み出し・チャージノイズ評価のためのマルチモジュールマイクロ波アセンブリ
Multi-module microwave assembly for fast read-out and charge noise characterization of silicon quantum dots ( http://arxiv.org/abs/2304.13442v2 ) ライセンス: Link先を確認 | Felix-Ekkehard von Horstig, David J. Ibberson, Giovanni A. Oakes, Laurence Cochrane, David F. Wise, Nadia Stelmashenko, Sylvain Barraud, Jason A. W. Robinson, Frederico Martins, M. Fernando Gonzalez-Zalba, | (参考訳) 量子デバイスの高速測定は、量子センシング、量子コンピューティング、ナノデバイスの品質分析などの分野で重要である。
そこで我々は, 超伝導体-半導体多モジュールマイクロ波アセンブリを開発し, 最先端の電荷状態の読み出しを実証する。
このアセンブリは、シリコンオン絶縁体(SOI)チップレットと接続された超伝導リードアウト共振器からなり、量子ドット(QD)を高価格のナノワイヤトランジスタに収めている。
超伝導チップレットは共振素子とカップリング素子とLC$フィルタを含み、シリコンチップとインターフェースすると共振周波数$f=2.12$ GHz、負荷品質係数$Q=850$、共振器インピーダンス$Z=470$\Omega$となる。
SOI技術のゲートレバーアームと組み合わせることで、それぞれ2.77 nsと13.5 nsの単一QD遷移と二重QD遷移の最小積分時間を達成できる。
このアセンブリを用いて、最大500kHzまでの9年間の周波数で電荷ノイズを測定し、周波数スペクトル全体の1/f$依存性と4$\mu$eV/$\sqrt{\text{Hz}}$の電荷ノイズレベルを1Hzとする。
ここで提示されるモジュラーマイクロ波回路は、他の量子デバイスと直接的に利用することができ、読み出し性能を改善し、また、超伝導体と半導体のモノリシックな製造の複雑さを伴わずに、大きな帯域幅のノイズスペクトロスコピーを可能にする。
Fast measurements of quantum devices is important in areas such as quantum sensing, quantum computing and nanodevice quality analysis. Here, we develop a superconductor-semiconductor multi-module microwave assembly to demonstrate charge state readout at the state-of-the-art. The assembly consist of a superconducting readout resonator interfaced to a silicon-on-insulator (SOI) chiplet containing quantum dots (QDs) in a high-$\kappa$ nanowire transistor. The superconducting chiplet contains resonant and coupling elements as well as $LC$ filters that, when interfaced with the silicon chip, result in a resonant frequency $f=2.12$ GHz, a loaded quality factor $Q=850$, and a resonator impedance $Z=470$ $\Omega$. Combined with the large gate lever arms of SOI technology, we achieve a minimum integration time for single and double QD transitions of 2.77 ns and 13.5 ns, respectively. We utilize the assembly to measure charge noise over 9 decades of frequency up to 500 kHz and find a 1/$f$ dependence across the whole frequency spectrum as well as a charge noise level of 4 $\mu$eV/$\sqrt{\text{Hz}}$ at 1 Hz. The modular microwave circuitry presented here can be directly utilized in conjunction with other quantum device to improve the readout performance as well as enable large bandwidth noise spectroscopy, all without the complexity of superconductor-semiconductor monolithic fabrication. | 翻訳日:2024-05-03 22:49:30 公開日:2024-05-02 |
# 地域から地点まで:意味的・幾何学的複合特徴マッチングのための階層的枠組み
Searching from Area to Point: A Hierarchical Framework for Semantic-Geometric Combined Feature Matching ( http://arxiv.org/abs/2305.00194v5 ) ライセンス: Link先を確認 | Yesheng Zhang, Xu Zhao, Dahong Qian, | (参考訳) 特徴マッチングはコンピュータビジョンにおいて重要な技術である。
本課題の統一的な視点は,検索空間を狭め,画像間のマッチングを指示する効率的な探索戦略を目指して,探索問題として扱うことである。
検索戦略の重要な側面の1つは検索空間であり、現在のアプローチでは慎重に定義されていないため、マッチング精度が制限されている。
そこで本論文では,探索空間に注意を払って,特徴的意味領域マッチングを含むマッチング画像領域として,点マッチングの初期探索空間を設定することを提案する。
この検索空間は、有意な特徴による点マッチングを好んでおり、最近のTransformerベースのマッチング手法の精度制限を緩和している。
この検索空間を実現するために、まず画像間のセマンティックな領域マッチングを見つけ、その後、エリアマッチングでポイントマッチングを行うための階層的な特徴マッチングフレームワーク、A2PM(Area to Point Matching)を導入する。
さらに、セマンティック・幾何学領域マッチング(SGAM)手法を提案し、画像間の正確な領域マッチングを確立するために、セマンティック・幾何学領域マッチング(Semantic and Geometry Area Matching, SGAM)手法を提案する。
SGAMを既製の最先端のマッカーと統合することにより,A2PMフレームワークを応用し,大規模点マッチングにおける精度向上とポーズ推定実験を実現する。
Feature matching is a crucial technique in computer vision. A unified perspective for this task is to treat it as a searching problem, aiming at an efficient search strategy to narrow the search space to point matches between images. One of the key aspects of search strategy is the search space, which in current approaches is not carefully defined, resulting in limited matching accuracy. This paper, thus, pays attention to the search space and proposes to set the initial search space for point matching as the matched image areas containing prominent semantic, named semantic area matches. This search space favors point matching by salient features and alleviates the accuracy limitation in recent Transformer-based matching methods. To achieve this search space, we introduce a hierarchical feature matching framework: Area to Point Matching (A2PM), to first find semantic area matches between images and later perform point matching on area matches. We further propose Semantic and Geometry Area Matching (SGAM) method to realize this framework, which utilizes semantic prior and geometry consistency to establish accurate area matches between images. By integrating SGAM with off-the-shelf state-of-the-art matchers, our method, adopting the A2PM framework, achieves encouraging precision improvements in massive point matching and pose estimation experiments. | 翻訳日:2024-05-03 22:49:30 公開日:2024-05-02 |
# プロキシ変数を用いた条件付き独立性テストによる因果発見
Causal Discovery via Conditional Independence Testing with Proxy Variables ( http://arxiv.org/abs/2305.05281v3 ) ライセンス: Link先を確認 | Mingzhou Liu, Xinwei Sun, Yu Qiao, Yizhou Wang, | (参考訳) 相関関係から因果関係を識別することは、多くのシナリオにおいて重要である。
しかし、潜伏した共同設立者のような観測されていない変数の存在は、因果関係を特定するための制約に基づく因果関係の発見に一般的に使用される条件付き独立テストにおいてバイアスをもたらす可能性がある。
この問題に対処するため、既存のメソッドでは、観測不能に起因するバイアスを調整するためにプロキシ変数を導入している。
しかし、これらの手法は分類変数に限られるか、同定のための強いパラメトリック仮定に依存していた。
本稿では,パラメトリック制約を伴わずに連続変数上の因果関係の存在を効果的に検証できる仮説テスト手法を提案する。
本手法は,完全性条件下での離散化に基づいて,因果帰納仮説の下で係数ベクトルが同定可能な線形方程式を漸近的に確立することができる。
これに基づいて,テスト統計を導入し,その漸近レベルとパワーを実証する。
提案手法の有効性を,合成データと実世界のデータの両方を用いて検証する。
Distinguishing causal connections from correlations is important in many scenarios. However, the presence of unobserved variables, such as the latent confounder, can introduce bias in conditional independence testing commonly employed in constraint-based causal discovery for identifying causal relations. To address this issue, existing methods introduced proxy variables to adjust for the bias caused by unobserveness. However, these methods were either limited to categorical variables or relied on strong parametric assumptions for identification. In this paper, we propose a novel hypothesis-testing procedure that can effectively examine the existence of the causal relationship over continuous variables, without any parametric constraint. Our procedure is based on discretization, which under completeness conditions, is able to asymptotically establish a linear equation whose coefficient vector is identifiable under the causal null hypothesis. Based on this, we introduce our test statistic and demonstrate its asymptotic level and power. We validate the effectiveness of our procedure using both synthetic and real-world data. | 翻訳日:2024-05-03 22:39:45 公開日:2024-05-02 |
# CLIP4STR: 事前学習型視覚言語モデルによるシーンテキスト認識のための簡易ベースライン
CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model ( http://arxiv.org/abs/2305.14014v3 ) ライセンス: Link先を確認 | Shuai Zhao, Ruijie Quan, Linchao Zhu, Yi Yang, | (参考訳) 事前学習された視覚言語モデル~(VLM)は、様々な下流タスクのためのデファクト基礎モデルである。
しかし、シーンテキスト認識法は、VLMが強力なシーンテキストリーダーとして機能する可能性にもかかわらず、単一のモダリティ、すなわち視覚的モダリティで事前訓練されたバックボーンを好む。
例えば、CLIPは画像中の正規(水平)および不規則(回転、湾曲、ぼやけた、あるいは隠された)テキストを堅牢に識別することができる。
このようなメリットにより、CLIPをシーンテキストリーダーに変換し、CLIPのイメージエンコーダとテキストエンコーダ上に構築されたシンプルで効果的なSTRメソッドであるCLIP4STRを導入する。
エンコーダとデコーダのブランチが2つあり、ビジュアルブランチとクロスモーダルブランチがある。
視覚分岐は、視覚的特徴に基づく初期予測を提供し、横断的分岐は、視覚的特徴とテキスト意味論の相違に対処することによって、この予測を洗練させる。
両分岐の機能を完全に活用するために、推論のための2つの予測と再定義の復号方式を設計する。
モデルサイズ、事前トレーニングデータ、トレーニングデータの観点からCLIP4STRをスケールし、11のSTRベンチマークで最先端のパフォーマンスを達成する。
さらに、CLIPのSTRへの適応の理解を高めるための総合的な実証研究が提供される。
VLMを用いた将来のSTR研究において,本手法は単純だが強力なベースラインを確立できると考えている。
Pre-trained vision-language models~(VLMs) are the de-facto foundation models for various downstream tasks. However, scene text recognition methods still prefer backbones pre-trained on a single modality, namely, the visual modality, despite the potential of VLMs to serve as powerful scene text readers. For example, CLIP can robustly identify regular (horizontal) and irregular (rotated, curved, blurred, or occluded) text in images. With such merits, we transform CLIP into a scene text reader and introduce CLIP4STR, a simple yet effective STR method built upon image and text encoders of CLIP. It has two encoder-decoder branches: a visual branch and a cross-modal branch. The visual branch provides an initial prediction based on the visual feature, and the cross-modal branch refines this prediction by addressing the discrepancy between the visual feature and text semantics. To fully leverage the capabilities of both branches, we design a dual predict-and-refine decoding scheme for inference. We scale CLIP4STR in terms of the model size, pre-training data, and training data, achieving state-of-the-art performance on 11 STR benchmarks. Additionally, a comprehensive empirical study is provided to enhance the understanding of the adaptation of CLIP to STR. We believe our method establishes a simple yet strong baseline for future STR research with VLMs. | 翻訳日:2024-05-03 22:39:45 公開日:2024-05-02 |
# 単語データの深部異常検出のための個人入力
Beyond Individual Input for Deep Anomaly Detection on Tabular Data ( http://arxiv.org/abs/2305.15121v6 ) ライセンス: Link先を確認 | Hugo Thimonier, Fabrice Popineau, Arpad Rimmel, Bich-Liên Doan, | (参考訳) 異常検出は、金融、医療、サイバーセキュリティなど、多くの領域において不可欠である。
本稿では,非パラメトリックトランスフォーマ(NPT)を利用した表型データに対する新しい深層異常検出手法を提案する。
再構成に基づくフレームワークでは、通常のサンプルのマスク付き特徴を再構成するためにNPTを訓練する。
非パラメトリックな方法では、推論中にトレーニングセット全体を活用し、マスクした特徴を再構成して異常スコアを生成するモデルの能力を利用する。
私たちの知る限りでは、グラフデータセット上の異常検出のために、機能機能とサンプルサンプルの依存関係をうまく組み合わせる最初の試みである。
F1スコアとAUROCでそれぞれ2.4%,1.2%の高速化を実現した。
我々のアブレーション研究は、両方の依存関係のモデリングが表データの異常検出に重要であることを証明している。
Anomaly detection is vital in many domains, such as finance, healthcare, and cybersecurity. In this paper, we propose a novel deep anomaly detection method for tabular data that leverages Non-Parametric Transformers (NPTs), a model initially proposed for supervised tasks, to capture both feature-feature and sample-sample dependencies. In a reconstruction-based framework, we train an NPT to reconstruct masked features of normal samples. In a non-parametric fashion, we leverage the whole training set during inference and use the model's ability to reconstruct the masked features to generate an anomaly score. To the best of our knowledge, this is the first work to successfully combine feature-feature and sample-sample dependencies for anomaly detection on tabular datasets. Through extensive experiments on 31 benchmark tabular datasets, we demonstrate that our method achieves state-of-the-art performance, outperforming existing methods by 2.4% and 1.2% in terms of F1-score and AUROC, respectively. Our ablation study further proves that modeling both types of dependencies is crucial for anomaly detection on tabular data. | 翻訳日:2024-05-03 22:39:45 公開日:2024-05-02 |
# MultiGAIN 2.0:マルチ平均ペイオフ, LTL, 定常制約に対するMPPコントローラ合成
MULTIGAIN 2.0: MDP controller synthesis for multiple mean-payoff, LTL and steady-state constraints ( http://arxiv.org/abs/2305.16752v2 ) ライセンス: Link先を確認 | Severin Bals, Alexandros Evangelidis, Jan Křetínský, Jakob Waibel, | (参考訳) 本稿では,確率論的モデルチェッカーPRISM上に構築されたコントローラ合成ツールであるMultiGAIN 2.0について述べる。
この新バージョンはMultiGAINの多目的能力を拡張し、多次元の長期平均報酬構造、定常的制約、線形時間論理特性を持つ確率システムのコントローラの形式的検証と合成を可能にする。
さらに、MultiGAIN 2.0は、基礎となる線形プログラムを変更して、非有界メモリや他の直観的ソリューションを防ぎ、パレート曲線を2次元および3次元のケースで可視化し、多目的シナリオにおけるトレードオフ解析を容易にする。
We present MULTIGAIN 2.0, a major extension to the controller synthesis tool MULTIGAIN, built on top of the probabilistic model checker PRISM. This new version extends MULTIGAIN's multi-objective capabilities, by allowing for the formal verification and synthesis of controllers for probabilistic systems with multi-dimensional long-run average reward structures, steady-state constraints, and linear temporal logic properties. Additionally, MULTIGAIN 2.0 can modify the underlying linear program to prevent unbounded-memory and other unintuitive solutions and visualizes Pareto curves, in the two- and three-dimensional cases, to facilitate trade-off analysis in multi-objective scenarios. | 翻訳日:2024-05-03 22:39:45 公開日:2024-05-02 |
# ショートカットサンプリングによる逆問題に対する拡散モデルの高速化
Accelerating Diffusion Models for Inverse Problems through Shortcut Sampling ( http://arxiv.org/abs/2305.16965v2 ) ライセンス: Link先を確認 | Gongye Liu, Haoze Sun, Jiayi Li, Fei Yin, Yujiu Yang, | (参考訳) 拡散モデルは最近、教師なしの方法で逆問題に対処する印象的な能力を示した。
既存の手法は、主に後部サンプリングプロセスの変更に焦点を当てているが、前部サンプリングプロセスの可能性はほとんど未解明のままである。
本研究では,ゼロショット方式で逆問題の解法を新たに提案するショートカットサンプリング・フォー・ディフュージョン(SSD)を提案する。
ランダムノイズから始める代わりに、SSDの中核となる概念は、計測画像yと復元された画像xをブリッジする特定の遷移状態を見つけることである。
入力-遷移状態-出力」のショートカットパスを利用することで、SSDはより少ないステップで正確な復元を行うことができる。
前処理中の遷移状態を導出するために、歪み適応反転を導入する。
さらに、生成プロセス中に追加の一貫性制約として、逆予測を適用します。
実験では、複数の代表的赤外線タスクにおいてSSDの有効性を実証した。
提案手法は,最先端ゼロショット法(100 NFE)と比較して30 NFEで競合し,特定のタスクにおいて100 NFEより優れる。
コードはhttps://github.com/GongyeLiu/SSDで入手できる。
Diffusion models have recently demonstrated an impressive ability to address inverse problems in an unsupervised manner. While existing methods primarily focus on modifying the posterior sampling process, the potential of the forward process remains largely unexplored. In this work, we propose Shortcut Sampling for Diffusion(SSD), a novel approach for solving inverse problems in a zero-shot manner. Instead of initiating from random noise, the core concept of SSD is to find a specific transitional state that bridges the measurement image y and the restored image x. By utilizing the shortcut path of "input - transitional state - output", SSD can achieve precise restoration with fewer steps. To derive the transitional state during the forward process, we introduce Distortion Adaptive Inversion. Moreover, we apply back projection as additional consistency constraints during the generation process. Experimentally, we demonstrate SSD's effectiveness on multiple representative IR tasks. Our method achieves competitive results with only 30 NFEs compared to state-of-the-art zero-shot methods(100 NFEs) and outperforms them with 100 NFEs in certain tasks. Code is available at https://github.com/GongyeLiu/SSD | 翻訳日:2024-05-03 22:39:45 公開日:2024-05-02 |
# 線形関数近似を用いた政策評価のための高確率サンプル複雑度
High-probability sample complexities for policy evaluation with linear function approximation ( http://arxiv.org/abs/2305.19001v2 ) ライセンス: Link先を確認 | Gen Li, Weichen Wu, Yuejie Chi, Cong Ma, Alessandro Rinaldo, Yuting Wei, | (参考訳) 本稿では, 無限地平面マルコフ決定過程における線形関数近似を用いた政策評価の問題点について考察する。
本稿では、時間差(TD)学習アルゴリズムと、勾配補正(TDC)アルゴリズムを用いた2時間スケール線形TDという2つの広く使われている政策評価アルゴリズムに対して、最適線形係数の事前定義された推定誤差を保証するために必要なサンプル複雑さについて検討する。
対象政策から観測結果が生成されるオン・ポリティシック・セッティングと、対象政策と潜在的に異なる行動方針からサンプルを引き出すオフ・ポリティシック・セッティングの両方において、許容度に最適な依存を達成できる高確率収束保証と結びついた最初のサンプル複雑性を確立する。
また,問題関連量への明示的な依存を誇示し,その上限が,特徴写像の選択や問題次元を含む重要な問題パラメータの最小限の値と一致することを示す。
This paper is concerned with the problem of policy evaluation with linear function approximation in discounted infinite horizon Markov decision processes. We investigate the sample complexities required to guarantee a predefined estimation error of the best linear coefficients for two widely-used policy evaluation algorithms: the temporal difference (TD) learning algorithm and the two-timescale linear TD with gradient correction (TDC) algorithm. In both the on-policy setting, where observations are generated from the target policy, and the off-policy setting, where samples are drawn from a behavior policy potentially different from the target policy, we establish the first sample complexity bound with high-probability convergence guarantee that attains the optimal dependence on the tolerance level. We also exhihit an explicit dependence on problem-related quantities, and show in the on-policy setting that our upper bound matches the minimax lower bound on crucial problem parameters, including the choice of the feature maps and the problem dimension. | 翻訳日:2024-05-03 22:39:45 公開日:2024-05-02 |
# アナログバウンシング幾何学からのホーキング放射
Hawking radiation from an analogue bouncing geometry ( http://arxiv.org/abs/2306.05250v2 ) ライセンス: Link先を確認 | Alberto García Martín-Caro, Gerardo García-Moreno, Javier Olmedo, Jose M. Sánchez Velázquez, | (参考訳) 本稿では, 超伝導量子干渉装置で終端するコプラナー導波路からなる構成において, アナログバウンシング幾何からホーキング放射をシミュレートする構成, すなわち, 有限時間後に崩壊を反転させる崩壊幾何学を提案する。
現在の技術における提案手法の有効性を実証する。
我々の分析は、エネルギースケールでの物理変化の下でのホーキング放射のレジリエンスが温度よりもはるかに大きいことを示しており、通常のブラックホール代替物質がホーキング放射を放出するという考えを支持している。
We propose a setting that simulates Hawking radiation from an analogue bouncing geometry, i.e., a collapsing geometry that reverts its collapse after a finite time, in a setup consisting of a coplanar waveguide terminated in superconducting quantum-interference devices at both ends. We demonstrate experimental feasibility of the proposed setup within the current technology. Our analysis illustrates the resilience of Hawking radiation under changes in the physics at energy scales much larger than the temperature, supporting the idea that regular alternatives to black holes would also emit Hawking radiation. | 翻訳日:2024-05-03 22:39:45 公開日:2024-05-02 |
# 半無限導波路で閉じた2原子ネットワークの量子フィードバック制御
Quantum feedback control of a two-atom network closed by a semi-infinite waveguide ( http://arxiv.org/abs/2306.06373v2 ) ライセンス: Link先を確認 | Haijin Ding, Guofeng Zhang, Mu-Tian Cheng, Guoqing Cai, | (参考訳) 本研究の目的は、2つの原子が半無限導波路と結合するコヒーレントフィードバックネットワークのダイナミクスを研究することである。
このセットアップでは、2レベル原子が光子源として機能し、光子が導波路内の原子と異なる方向伝播モードとの結合強度が同一であるか否かに応じて、原子と導波路の間の非キラル結合またはキラル結合を介して導波路に放出される。
2つの原子のうちの1つによって放出される光子は、終端ミラーによって反射されるか、または他の原子と相互作用し、光子は元の原子と再相互作用することができる。
2つの原子が最初に励起されると、導波管には自発的な放出とフィードバック相互作用によって2光子、1光子、または0光子状態が存在し、これは原子の位置と原子と導波管のカップリングのキラリティに影響される。
同様に、2つの原子のうち1つだけが最初に励起された場合、導波路に0または1個の光子が存在する。
したがって、導波路と原子状態の光子の数は、フィードバックループ長と原子と導波路の間のキラル結合を調整することによって制御できる。
導波路内のフォトニック状態は周波数領域と空間領域で解析され、この2つの領域の包括的解析に基づいて光子放出の過渡過程をよりよく理解することができる。
The purpose of this paper is to study the dynamics of a coherent feedback network where two two-level atoms are coupled with a semi-infinite waveguide. In this set-up, the two-level atoms can work as the photon source, and the photons can be emitted into the waveguide via the nonchiral or chiral couplings between the atom and the waveguide, according to whether the coupling strengths between the atoms and different directional propagating modes in the waveguide are identical or not. For the photon emitted by one of the two atoms, it can be reflected by the terminal mirror, or interact with the other atom, and then the photon can re-interact with the former atom. When the two atoms are both initially excited, finally there can be two-photon, one-photon or zero-photon states in the waveguide via the spontaneous emission and feedback interactions, and this is influenced by the locations of the atoms and the chirality of the coupling between the atom and the waveguide. Similarly, if only one of the two atoms is initially excited, there can be zero or one photon in the waveguide. Thus we can control the number of the photons in the waveguide and the atomic states by tuning the feedback loop length and the chiral couplings between the atom and waveguide. The photonic state in the waveguide is analyzed in the frequency domain and the spatial domain, and the transient process of photon emissions can be better understood based on the comprehensive analysis in these two domains. | 翻訳日:2024-05-03 22:39:45 公開日:2024-05-02 |
# モジュール型連続学習のための確率的フレームワーク
A Probabilistic Framework for Modular Continual Learning ( http://arxiv.org/abs/2306.06545v2 ) ライセンス: Link先を確認 | Lazar Valkov, Akash Srivastava, Swarat Chaudhuri, Charles Sutton, | (参考訳) 各問題に対して異なるモジュール構成を使用するモジュールアプローチは、連続学習(CL)において有望な方向である。
しかし、特に構成のパフォーマンスを評価するには、ニューラルネットワークの学習のラウンドを必要とするため、モジュール構成の大規模で離散的な空間を探索することは困難である。
この課題に対処するモジュール型CLフレームワークであるPICLEは、確率モデルを用いて、各構成の適合度を安価に計算し、PICLEが知覚的、少数ショット、潜在トランスファーの両方を達成できるようにする。
このモデルは、優れたモジュール構成に関する事前知識とデータセット固有の情報を組み合わせる。
CL手法の異なるデシラタを評価するために2つのベンチマークスイートを用いてPICLEを評価した。
幅広い手法と比較して、PICLEは、大きな探索空間に順応しながら、知覚的、少数ショット的、潜在的な転送を実現する最初のモジュラーCLアルゴリズムであり、長い問題列に対する従来の最先端のモジュラーCLアプローチよりも優れていることを示す。
Modular approaches that use a different composition of modules for each problem are a promising direction in continual learning (CL). However, searching through the large, discrete space of module compositions is challenging, especially because evaluating a composition's performance requires a round of neural network training. We address this challenge through a modular CL framework, PICLE, that uses a probabilistic model to cheaply compute the fitness of each composition, allowing PICLE to achieve both perceptual, few-shot and latent transfer. The model combines prior knowledge about good module compositions with dataset-specific information. We evaluate PICLE using two benchmark suites designed to assess different desiderata of CL techniques. Comparing to a wide range of approaches, we show that PICLE is the first modular CL algorithm to achieve perceptual, few-shot and latent transfer while scaling well to large search spaces, outperforming previous state-of-the-art modular CL approaches on long problem sequences. | 翻訳日:2024-05-03 22:39:45 公開日:2024-05-02 |
# オントロジーによるテンポラルクエリの特異性と学習性
Unique Characterisability and Learnability of Temporal Queries Mediated by an Ontology ( http://arxiv.org/abs/2306.07662v2 ) ライセンス: Link先を確認 | Jean Christoph Jung, Vladislav Ryzhikov, Frank Wolter, Michael Zakharyaschev, | (参考訳) データベースクエリを例から学習するアルゴリズムと、例によるクエリのユニークな特徴付けは、クエリ構築と説明の自動サポートを開発するための重要な出発点である。
オントロジーを介する時間的クエリの学習と特徴付けに関する最近の成果とテクニックが,時間的データやクエリにまで拡張可能であるかを検討する。
時間的ケースにおける関連するアプローチの体系的なレビューに基づいて、時間的ケースで構成された時間的クエリが(ポリノミカルに)学習可能で、一意に特徴付けられる条件を特定する一般的な転送結果を得る。
Algorithms for learning database queries from examples and unique characterisations of queries by examples are prominent starting points for developing automated support for query construction and explanation. We investigate how far recent results and techniques on learning and unique characterisations of atemporal queries mediated by an ontology can be extended to temporal data and queries. Based on a systematic review of the relevant approaches in the atemporal case, we obtain general transfer results identifying conditions under which temporal queries composed of atemporal ones are (polynomially) learnable and uniquely characterisable. | 翻訳日:2024-05-03 22:39:45 公開日:2024-05-02 |
# ReactGenie: 大規模言語モデルを用いた複雑なマルチモーダルインタラクションのための開発フレームワーク
ReactGenie: A Development Framework for Complex Multimodal Interactions Using Large Language Models ( http://arxiv.org/abs/2306.09649v3 ) ライセンス: Link先を確認 | Jackie Junrui Yang, Yingtian Shi, Yuhan Zhang, Karina Li, Daniel Wan Rosli, Anisha Jain, Shuning Zhang, Tianshi Li, James A. Landay, Monica S. Lam, | (参考訳) 音声とタッチの相互作用を組み合わせることで、マルチモーダルインタフェースはモダリティのみの効率を超えることができる。
従来のマルチモーダルフレームワークは、ユーザのマルチモーダルコマンドがおそらく指数関数的なアクション/関数呼び出しの組み合わせを含むようなリッチなマルチモーダルコマンドをサポートするために、精力的な開発者作業を必要とする。
提案するReactGenieは,マルチモーダル入力を計算モデルからより分離したプログラミングフレームワークで,効率的なマルチモーダルインタフェースを開発者が簡単に作成できるようにする。
ReactGenieはマルチモーダルユーザコマンドをNLPL(Natural Language Programming Language)に変換する。
ReactGenieランタイムは解析済みのNLPLを解釈し、複雑なユーザコマンドを実装するために計算モデルでプリミティブを構成する。
結果として、ReactGenieは、マルチモーダルアプリのエンドユーザに対して、簡単な実装と前例のないコマンドのリッチ化を可能にします。
評価の結果、12人の開発者が平均2.5時間以内で、非自明なReactGenieアプリケーションを学習し、構築できることがわかった。
さらに、従来のGUIと比較して、エンドユーザは、ReactGenieアプリを使用して、タスクをより速く、より少ないタスク負荷で完了することができる。
By combining voice and touch interactions, multimodal interfaces can surpass the efficiency of either modality alone. Traditional multimodal frameworks require laborious developer work to support rich multimodal commands where the user's multimodal command involves possibly exponential combinations of actions/function invocations. This paper presents ReactGenie, a programming framework that better separates multimodal input from the computational model to enable developers to create efficient and capable multimodal interfaces with ease. ReactGenie translates multimodal user commands into NLPL (Natural Language Programming Language), a programming language we created, using a neural semantic parser based on large-language models. The ReactGenie runtime interprets the parsed NLPL and composes primitives in the computational model to implement complex user commands. As a result, ReactGenie allows easy implementation and unprecedented richness in commands for end-users of multimodal apps. Our evaluation showed that 12 developers can learn and build a nontrivial ReactGenie application in under 2.5 hours on average. In addition, compared with a traditional GUI, end-users can complete tasks faster and with less task load using ReactGenie apps. | 翻訳日:2024-05-03 22:39:45 公開日:2024-05-02 |
# 境界駆動型フェミオン鎖の密度と電流統計
Density and current statistics in boundary-driven monitored fermionic chains ( http://arxiv.org/abs/2306.09893v3 ) ライセンス: Link先を確認 | Xhek Turkeshi, Lorenzo Piroli, Marco Schirò, | (参考訳) 境界駆動とバルク粒子密度の連続モニタリングを兼ね備えた1次元非干渉フェルミオン系を考察する。
この測定により、局所密度と電流演算子の期待値は、よく研究されたリンドブラッドマスター方程式によって記述された平均挙動を持つ確率変数である。
正確な数値計算により、我々は平均的力学を超え、その全確率分布関数を、深夜定常状態に焦点をあてて研究する。
平均値とは対照的に、中央密度と電流の空間分布は非自明であり、モニタリング強度の関数として定性的差異を示す。
弱いモニタリングでは、中央値は平均に近づき、拡散的な空間プロファイルを表示する。
強いモニタリングでは、中央値密度と電流がそれぞれドメインウォールと単一ピークプロファイルを発達させ、これは典型的量子軌道におけるゼノ様の局在が示唆される。
モニタリングレートの関数として急激な位相遷移を特定できないが、モニタリングされた多体量子力学の文脈において、平均値を超える典型的な振る舞いを特徴づけることの有用性を強調した。
We consider a one-dimensional system of non-interacting fermions featuring both boundary driving and continuous monitoring of the bulk particle density. Due to the measurements, the expectation values of the local density and current operators are random variables whose average behavior is described by a well studied Lindblad master equation. By means of exact numerical computations, we go beyond the averaged dynamics and study their full probability distribution functions, focusing on the late-time stationary regime. We find that, contrary to the averaged values, the spatial profiles of the median density and current are non-trivial, exhibiting qualitative differences as a function of the monitoring strength. At weak monitoring, the medians are close to the means, displaying diffusive spatial profiles. At strong monitoring, we find that the median density and current develop a domain-wall and single-peak profile, respectively, which are suggestive of a Zeno-like localization in typical quantum trajectories. While we are not able to identify a sharp phase transition as a function of the monitoring rate, our work highlights the usefulness of characterizing typical behavior beyond the averaged values in the context of monitored many-body quantum dynamics. | 翻訳日:2024-05-03 22:39:45 公開日:2024-05-02 |
# オンライン動的部分モジュラ最適化
Online Dynamic Submodular Optimization ( http://arxiv.org/abs/2306.10835v3 ) ライセンス: Link先を確認 | Antoine Lesage-Landry, Julien Pallage, | (参考訳) 本稿では,一般制約や動的条件下でのオンライン二項最適化のための証明可能な性能を持つ新しいアルゴリズムを提案する。
目的関数が部分モジュラーな問題の部分集合を考える。
本稿では,従来のラウンドロス関数の近似を最適に解き,元の問題のNP硬さを回避するオンラインサブモジュラーグリードアルゴリズム(OSGA)を提案する。
我々はOSGAを一般的な近似関数に拡張する。
我々は,OSGAが時間的地平線と累積ラウンド最適変動に関して,オンライン凸最適化の最も厳密な境界に類似した動的後悔境界を有することを示す。
近似が存在しない場合や計算学的に単純な実装が望まれる場合、Lova\sz拡張を利用してオンラインのサブモジュラー射影勾配勾配(OSPGD)を設計する。
従来のオンライン勾配勾配勾配(OGD)に類似した後悔境界を得る。
最後に、我々のアルゴリズムを高速な需要応答とリアルタイム分散ネットワーク再構成の2つのパワーシステムアプリケーションで数値的にテストする。
We propose new algorithms with provable performance for online binary optimization subject to general constraints and in dynamic settings. We consider the subset of problems in which the objective function is submodular. We propose the online submodular greedy algorithm (OSGA) which solves to optimality an approximation of the previous round loss function to avoid the NP-hardness of the original problem. We extend OSGA to a generic approximation function. We show that OSGA has a dynamic regret bound similar to the tightest bounds in online convex optimization with respect to the time horizon and the cumulative round optimum variation. For instances where no approximation exists or a computationally simpler implementation is desired, we design the online submodular projected gradient descent (OSPGD) by leveraging the Lova\'sz extension. We obtain a regret bound that is akin to the conventional online gradient descent (OGD). Finally, we numerically test our algorithms in two power system applications: fast-timescale demand response and real-time distribution network reconfiguration. | 翻訳日:2024-05-03 22:30:00 公開日:2024-05-02 |
# 自動調整型クライアントによる適応的フェデレーション学習
Adaptive Federated Learning with Auto-Tuned Clients ( http://arxiv.org/abs/2306.11201v3 ) ライセンス: Link先を確認 | Junhyung Lyle Kim, Mohammad Taha Toghani, César A. Uribe, Anastasios Kyrillidis, | (参考訳) Federated Learning(FL)は、中央サーバのグローバルモデルがデータを共有せずにクライアントに参加することで、複数の協調的なステップを通じてトレーニングされる分散機械学習フレームワークである。
ローカルデータの分散、参加率、各クライアントの計算能力が大きく変化するフレキシブルなフレームワークである一方で、このような柔軟性は、特にクライアント側のハイパーパラメータチューニングにおいて、多くの新しい課題を引き起こします。
そこで我々は,SGDの単純なステップサイズルールである$\Delta$-SGDを提案する。
クライアント適応性の利点が様々なFLシナリオで示される理論的および実証的な結果を提供する。
Federated learning (FL) is a distributed machine learning framework where the global model of a central server is trained via multiple collaborative steps by participating clients without sharing their data. While being a flexible framework, where the distribution of local data, participation rate, and computing power of each client can greatly vary, such flexibility gives rise to many new challenges, especially in the hyperparameter tuning on the client side. We propose $\Delta$-SGD, a simple step size rule for SGD that enables each client to use its own step size by adapting to the local smoothness of the function each client is optimizing. We provide theoretical and empirical results where the benefit of the client adaptivity is shown in various FL scenarios. | 翻訳日:2024-05-03 22:30:00 公開日:2024-05-02 |
# 地理的負荷分散による環境に配慮したAIの実現に向けて
Towards Environmentally Equitable AI via Geographical Load Balancing ( http://arxiv.org/abs/2307.05494v2 ) ライセンス: Link先を確認 | Pengfei Li, Jianyi Yang, Adam Wierman, Shaolei Ren, | (参考訳) 大規模言語や基礎モデルの普及により、人工知能(AI)モデルの巨大な環境フットプリントの急速な成長は、より精査されている。
AIをよりエネルギー効率が高く環境に優しいものにするために多くのアプローチが提案されているが、環境不平等(AIの環境フットプリントが他の地域よりも不均等に高いという事実)が出現し、社会的・生態学的正義の懸念が高まっている。
本稿では、その地域的負の環境影響のバランスをとることによって、AIの環境不平等に対処する第一歩を踏み出す。
具体的には、AIモデル推論の炭素と水のフットプリントに注目し、最も不利な領域におけるAIの環境影響を明確化するために、エクイティ対応の地理的負荷分散(GLB)を提案する。
大規模言語AIモデルに対する推論要求を提供する地理的に分散した10のデータセンタを考慮し、トレースベースのシミュレーションを実行する。
その結果,既存のGLBアプローチは環境不平等を増大させる可能性を示し,提案したエクイティ対応GLBは,炭素および水のフットプリントにおける地域格差を著しく低減できることを示した。
Fueled by the soaring popularity of large language and foundation models, the accelerated growth of artificial intelligence (AI) models' enormous environmental footprint has come under increased scrutiny. While many approaches have been proposed to make AI more energy-efficient and environmentally friendly, environmental inequity -- the fact that AI's environmental footprint can be disproportionately higher in certain regions than in others -- has emerged, raising social-ecological justice concerns. This paper takes a first step toward addressing AI's environmental inequity by balancing its regional negative environmental impact. Concretely, we focus on the carbon and water footprints of AI model inference and propose equity-aware geographical load balancing (GLB) to explicitly address AI's environmental impacts on the most disadvantaged regions. We run trace-based simulations by considering a set of 10 geographically-distributed data centers that serve inference requests for a large language AI model. The results demonstrate that existing GLB approaches may amplify environmental inequity while our proposed equity-aware GLB can significantly reduce the regional disparity in terms of carbon and water footprints. | 翻訳日:2024-05-03 22:30:00 公開日:2024-05-02 |
# 運用支援エミュレータネットワーク
Operational Support Estimator Networks ( http://arxiv.org/abs/2307.06065v3 ) ライセンス: Link先を確認 | Mete Ahishali, Mehmet Yamac, Serkan Kiranyaz, Moncef Gabbouj, | (参考訳) 本研究では,OSEN(Operational Support Estimator Networks)と呼ばれる新しい手法を提案する。
サポート推定(SE)はスパース信号中のゼロでない要素の位置を見つけるものとして定義される。
その性質上、測定とスパース信号のマッピングは非線形演算である。
従来のサポート推定器は、そのような非線形性を達成するために計算コストのかかる反復的な信号回復技術に依存している。
畳み込み層とは対照的に、提案されたOSENアプローチは、深いネットワークを必要とせずに複雑な非線形性を学ぶことができる運用層で構成されている。
このようにして、非観念的サポート推定の性能が大幅に向上する。
さらに、オペレーショナルレイヤは、いわゆる生成スーパーニューロンと非局所カーネルから構成される。
各ニューロン/機能マップのカーネル位置は、トレーニング中のSEタスクに共同で最適化される。
我々はOSENを3つの異なるアプリケーションで評価する。
Compressive Sensing (CS) Measurement, ii。
表現に基づく分類、iii。
学習支援型CS再構成では,OSENの出力をCSアルゴリズムの事前知識として使用し,再現性を向上させる。
実験結果から,提案手法は計算効率が向上し,競合手法,特に有意なマージンによる低測定率で性能が向上することが示された。
ソフトウェアの実装はhttps://github.com/meteahishali/OSENで共有されている。
In this work, we propose a novel approach called Operational Support Estimator Networks (OSENs) for the support estimation task. Support Estimation (SE) is defined as finding the locations of non-zero elements in sparse signals. By its very nature, the mapping between the measurement and sparse signal is a non-linear operation. Traditional support estimators rely on computationally expensive iterative signal recovery techniques to achieve such non-linearity. Contrary to the convolutional layers, the proposed OSEN approach consists of operational layers that can learn such complex non-linearities without the need for deep networks. In this way, the performance of non-iterative support estimation is greatly improved. Moreover, the operational layers comprise so-called generative super neurons with non-local kernels. The kernel location for each neuron/feature map is optimized jointly for the SE task during training. We evaluate the OSENs in three different applications: i. support estimation from Compressive Sensing (CS) measurements, ii. representation-based classification, and iii. learning-aided CS reconstruction where the output of OSENs is used as prior knowledge to the CS algorithm for enhanced reconstruction. Experimental results show that the proposed approach achieves computational efficiency and outperforms competing methods, especially at low measurement rates by significant margins. The software implementation is shared at https://github.com/meteahishali/OSEN. | 翻訳日:2024-05-03 22:30:00 公開日:2024-05-02 |
# スパイクニューロンによるスパース事象の学習による自動車物体検出
Automotive Object Detection via Learning Sparse Events by Spiking Neurons ( http://arxiv.org/abs/2307.12900v4 ) ライセンス: Link先を確認 | Hu Zhang, Yanchen Li, Luziwei Leng, Kaiwei Che, Qian Liu, Qinghai Guo, Jianxing Liao, Ran Cheng, | (参考訳) イベントベースのセンサーは、1ドル\mathrm{\mu}\text{s}$の時間分解能と120ドル\text{dB}$のダイナミックレンジによって区別される。
ANN(Artificial Neural Networks)を利用する従来のオブジェクト検出技術は、これらのセンサがキャプチャするイベントのスパースで非同期性のため、課題に直面している。
対照的に、スパイキングニューラルネットワーク(SNN)は、イベントベースのデータに本質的に整合した時間表現を提供する、有望な代替手段を提供する。
本稿では,SNNの膜電位ダイナミクスとスパース現象の変調能力について検討する。
安定トレーニング用に設計された革新的スパイクトリガー適応しきい値機構を導入する。
これらの知見に基づいて,自動車のイベントベース物体検出に最適化されたスパイク特徴ピラミッドネットワーク(SpikeFPN)を提案する。
総合的な評価は、SpikeFPNが従来のSNNと高度なANNの両方を上回り、注意機構が強化されていることを示している。
明らかに、SpikeFPNはgen1 Automotive Detection (GAD)ベンチマークデータセットで平均平均精度0.477を達成する。
さらに、SpikeFPNの効率的な設計は、計算資源を最適化しながら堅牢な性能を確保する。
Event-based sensors, distinguished by their high temporal resolution of 1 $\mathrm{\mu}\text{s}$ and a dynamic range of 120 $\text{dB}$, stand out as ideal tools for deployment in fast-paced settings like vehicles and drones. Traditional object detection techniques that utilize Artificial Neural Networks (ANNs) face challenges due to the sparse and asynchronous nature of the events these sensors capture. In contrast, Spiking Neural Networks (SNNs) offer a promising alternative, providing a temporal representation that is inherently aligned with event-based data. This paper explores the unique membrane potential dynamics of SNNs and their ability to modulate sparse events. We introduce an innovative spike-triggered adaptive threshold mechanism designed for stable training. Building on these insights, we present a specialized spiking feature pyramid network (SpikeFPN) optimized for automotive event-based object detection. Comprehensive evaluations demonstrate that SpikeFPN surpasses both traditional SNNs and advanced ANNs enhanced with attention mechanisms. Evidently, SpikeFPN achieves a mean Average Precision (mAP) of 0.477 on the GEN1 Automotive Detection (GAD) benchmark dataset, marking significant increases over the selected SNN baselines. Moreover, the efficient design of SpikeFPN ensures robust performance while optimizing computational resources, attributed to its innate sparse computation capabilities. | 翻訳日:2024-05-03 22:30:00 公開日:2024-05-02 |
# 量子符号からのNalain CFTと$\mathbb{Z}_2$ Gauging
Narain CFTs from quantum codes and their $\mathbb{Z}_2$ gauging ( http://arxiv.org/abs/2308.01579v4 ) ライセンス: Link先を確認 | Kohki Kawabata, Tatsuma Nishioka, Takuya Okuda, | (参考訳) キュディット安定化符号から構築したナライン共形場理論(CFT)における$\mathbb{Z}_2$対称性のゲージングについて検討する。
オービフォールドとフェルミオン化の両方を考慮すると、$\mathbb{Z}_2$ガウイングプロシージャと、$\mathbb{Z}_2$対称性を特徴づけるベクトルによる運動量格子の修正の間の接続を確立する。
また、対称トポロジカル場の理論として作用するアーベル・チャーン・サイモンズ理論を通じて、$\mathbb{Z}_2$ガウイングの3次元解釈も提供する。
We investigate the gauging of a $\mathbb{Z}_2$ symmetry in Narain conformal field theories (CFTs) constructed from qudit stabilizer codes. Considering both orbifold and fermionization, we establish a connection between $\mathbb{Z}_2$ gauging procedures and modifications of the momentum lattice by vectors characterizing the $\mathbb{Z}_2$ symmetry. We also provide three-dimensional interpretations of $\mathbb{Z}_2$ gaugings through abelian Chern-Simons theories, which act as symmetry topological field theories. | 翻訳日:2024-05-03 22:30:00 公開日:2024-05-02 |
# 自衛隊の自衛隊:自衛隊は自衛隊の攻撃を自衛隊に知らせる
LLM Self Defense: By Self Examination, LLMs Know They Are Being Tricked ( http://arxiv.org/abs/2308.07308v4 ) ライセンス: Link先を確認 | Mansi Phute, Alec Helbling, Matthew Hull, ShengYun Peng, Sebastian Szyller, Cory Cornelius, Duen Horng Chau, | (参考訳) 大規模言語モデル(LLM)は高品質なテキスト生成に人気があるが、強化学習を通じて人的価値に合わせる場合でも有害なコンテンツを生成できる。
敵のプロンプトは安全対策を回避できる。
LLM自己防衛(LSM Self Defense, LLM Self Defense)は, LLMスクリーンに応答を誘導することでこれらの攻撃を防御する簡単な手法である。
我々の手法は、微調整、入力前処理、反復出力生成を一切必要としない。
その代わりに、生成されたコンテンツを事前に定義されたプロンプトに組み込んで、LLMの別のインスタンスを使ってテキストを分析し、それが有害かどうかを予測する。
我々は, GPT 3.5 と Llama 2 の LLM Self Defense を, GPT 3.5 と Llama 2 の2つの主要な LLM の様々な攻撃に対して試験する。
特に、LDM Self Defense は GPT 3.5 と Llama 2 を用いて攻撃成功率を事実上 0 に下げることに成功した。
コードはhttps://github.com/poloclub/llm-self-defenseで公開されている。
Large language models (LLMs) are popular for high-quality text generation but can produce harmful content, even when aligned with human values through reinforcement learning. Adversarial prompts can bypass their safety measures. We propose LLM Self Defense, a simple approach to defend against these attacks by having an LLM screen the induced responses. Our method does not require any fine-tuning, input preprocessing, or iterative output generation. Instead, we incorporate the generated content into a pre-defined prompt and employ another instance of an LLM to analyze the text and predict whether it is harmful. We test LLM Self Defense on GPT 3.5 and Llama 2, two of the current most prominent LLMs against various types of attacks, such as forcefully inducing affirmative responses to prompts and prompt engineering attacks. Notably, LLM Self Defense succeeds in reducing the attack success rate to virtually 0 using both GPT 3.5 and Llama 2. The code is publicly available at https://github.com/poloclub/llm-self-defense | 翻訳日:2024-05-03 22:30:00 公開日:2024-05-02 |
# 高密度イジング最適化問題のための数個の超伝導量子ビットと数千個のゲートを用いた量子回路の設計と実行
Design and execution of quantum circuits using tens of superconducting qubits and thousands of gates for dense Ising optimization problems ( http://arxiv.org/abs/2308.12423v3 ) ライセンス: Link先を確認 | Filip B. Maciejewski, Stuart Hadfield, Benjamin Hall, Mark Hodson, Maxime Dupont, Bram Evert, James Sud, M. Sohaib Alam, Zhihui Wang, Stephen Jeffrey, Bhuvanesh Sundar, P. Aaron Lott, Shon Grabbe, Eleanor G. Rieffel, Matthew J. Reagor, Davide Venturelli, | (参考訳) 本研究では,各層におけるコストハミルトニアンのすべての相互作用のサブセットをパラメトリズする,既存のアンサツェから派生した,変動最適化のためのハードウェア効率の良いアンサッツを開発する。
ゲートオーダリングを変動パラメータとして扱うことにより,実験において大きな性能向上が期待できる。
我々は,Rigetti Aspen-M-3トランスモンプロセッサの50ビット線形鎖サブシステム上で,完全連結シェリントン・カークパトリック・ハミルトンのコンパイル最適化実装を実験的に実施した。
実験の結果, 高レベルのノイズが存在するにもかかわらず, 最適回路設計において, 最適化角度とゲートオーダーの平均性能は回路深度とともに増大することがわかった。
最大5000個の2量子ビットおよび5000個の1量子ビットネイティブゲートを含む回路において、ランダムな推定オラクルを使用するよりも、性能が大幅に向上したことを報告した。
我々はまた、現在の量子プロセッサと将来の量子プロセッサをより効果的に活用するために、この結果の様々な利点について論じる。
We develop a hardware-efficient ansatz for variational optimization, derived from existing ansatze in the literature, that parametrizes subsets of all interactions in the Cost Hamiltonian in each layer. We treat gate orderings as a variational parameter and observe that doing so can provide significant performance boosts in experiments. We carried out experimental runs of a compilation-optimized implementation of fully-connected Sherrington-Kirkpatrick Hamiltonians on a 50-qubit linear-chain subsystem of Rigetti Aspen-M-3 transmon processor. Our results indicate that, for the best circuit designs tested, the average performance at optimized angles and gate orderings increases with circuit depth (using more parameters), despite the presence of a high level of noise. We report performance significantly better than using a random guess oracle for circuits involving up to approx 5000 two-qubit and approx 5000 one-qubit native gates. We additionally discuss various takeaways of our results toward more effective utilization of current and future quantum processors for optimization. | 翻訳日:2024-05-03 22:30:00 公開日:2024-05-02 |
# APLA: 対向訓練を可能とした遅延雑音に対する追加摂動
APLA: Additional Perturbation for Latent Noise with Adversarial Training Enables Consistency ( http://arxiv.org/abs/2308.12605v2 ) ライセンス: Link先を確認 | Yupu Yao, Shangqi Deng, Zihan Cao, Harry Zhang, Liang-Jian Deng, | (参考訳) 拡散モデルはビデオ生成において有望な進歩を見せている。
しかし、フレーム間の局所領域内では、一貫性のある詳細を維持するのに苦労することが多い。
1つの根本的な原因は、従来の拡散モデルが入力自体の固有情報の影響を完全に考慮せずに予測ノイズを利用してガウス雑音分布を近似することである。
さらに、これらのモデルは、ビデオに固有の情報を無視して、予測と参照の区別を強調する。
自己注意機構に着想を得たこの制限に対処するため,拡散モデルに基づく新たなテキスト・ツー・ビデオ(T2V)生成ネットワーク構造を提案する。
提案手法では,1本の動画を入力として必要とせず,事前学習した安定拡散ネットワーク上に構築する。
特に,ビデオ生成変換器(VGT)と呼ばれる小型ネットワークを導入する。
この補助成分は、入力に含まれる固有情報から摂動を抽出し、時間的予測中に不整合画素を精製するように設計されている。
我々は、変換器と畳み込みのハイブリッドアーキテクチャを活用して、時間的複雑さを補償し、ビデオ内の異なるフレーム間の一貫性を向上させる。
実験では、生成したビデオの質的かつ定量的な一貫性が顕著に向上したことを示した。
Diffusion models have exhibited promising progress in video generation. However, they often struggle to retain consistent details within local regions across frames. One underlying cause is that traditional diffusion models approximate Gaussian noise distribution by utilizing predictive noise, without fully accounting for the impact of inherent information within the input itself. Additionally, these models emphasize the distinction between predictions and references, neglecting information intrinsic to the videos. To address this limitation, inspired by the self-attention mechanism, we propose a novel text-to-video (T2V) generation network structure based on diffusion models, dubbed Additional Perturbation for Latent noise with Adversarial training (APLA). Our approach only necessitates a single video as input and builds upon pre-trained stable diffusion networks. Notably, we introduce an additional compact network, known as the Video Generation Transformer (VGT). This auxiliary component is designed to extract perturbations from the inherent information contained within the input, thereby refining inconsistent pixels during temporal predictions. We leverage a hybrid architecture of transformers and convolutions to compensate for temporal intricacies, enhancing consistency between different frames within the video. Experiments demonstrate a noticeable improvement in the consistency of the generated videos both qualitatively and quantitatively. | 翻訳日:2024-05-03 22:30:00 公開日:2024-05-02 |
# 拡散モデルの興味深い性質:テキスト・画像生成モデルにおける自然攻撃能力に関する実証的研究
Intriguing Properties of Diffusion Models: An Empirical Study of the Natural Attack Capability in Text-to-Image Generative Models ( http://arxiv.org/abs/2308.15692v2 ) ライセンス: Link先を確認 | Takami Sato, Justin Yue, Nanze Chen, Ningfei Wang, Qi Alfred Chen, | (参考訳) 確率的拡散モデルのノイズ化は、GANのような以前のモデルよりも、よりリアルな画像や人間レベルのイラストを生成するために画期的な性能を示している。
この高い画像生成能力は、様々な領域で多くの下流アプリケーションの作成を刺激している。
人間の視覚システム(HVS)に不可欠な、頑丈な機能を意図的に取り除いたとしても、最先端のディープニューラルネットワーク(DNN)モデルが予測を保っているという発見に基づいて、Natural Denoising Diffusion(NDD)攻撃と呼ばれる新たなタイプの攻撃を特定します。
NDD攻撃は、拡散モデルにおける自然攻撃能力を利用して、低コスト、モデル非依存、移動可能な敵攻撃を生成する能力が著しく高いことを示す。
NDD攻撃のリスクを体系的に評価するため,新たに作成したNatural Denoising Diffusion Attack (NDDA)データセットを用いて大規模実験を行った。
我々は,6つの研究課題に答えることにより,自然攻撃能力を評価する。
また, 拡散モデルに埋め込まれた非破壊的特徴は, 自然攻撃能力に寄与することがわかった。
モデル非依存かつ移動可能な攻撃能力を確認するため,Tesla Model 3に対するNDD攻撃を行い,物理的に印刷された攻撃の73%が停止標識として検出できることを確認した。
我々の望みは、この研究とデータセットが、拡散モデルのリスクを認識し、堅牢なDNNモデルへのさらなる研究を促進することにある。
Denoising probabilistic diffusion models have shown breakthrough performance to generate more photo-realistic images or human-level illustrations than the prior models such as GANs. This high image-generation capability has stimulated the creation of many downstream applications in various areas. However, we find that this technology is actually a double-edged sword: We identify a new type of attack, called the Natural Denoising Diffusion (NDD) attack based on the finding that state-of-the-art deep neural network (DNN) models still hold their prediction even if we intentionally remove their robust features, which are essential to the human visual system (HVS), through text prompts. The NDD attack shows a significantly high capability to generate low-cost, model-agnostic, and transferable adversarial attacks by exploiting the natural attack capability in diffusion models. To systematically evaluate the risk of the NDD attack, we perform a large-scale empirical study with our newly created dataset, the Natural Denoising Diffusion Attack (NDDA) dataset. We evaluate the natural attack capability by answering 6 research questions. Through a user study, we find that it can achieve an 88% detection rate while being stealthy to 93% of human subjects; we also find that the non-robust features embedded by diffusion models contribute to the natural attack capability. To confirm the model-agnostic and transferable attack capability, we perform the NDD attack against the Tesla Model 3 and find that 73% of the physically printed attacks can be detected as stop signs. Our hope is that the study and dataset can help our community be aware of the risks in diffusion models and facilitate further research toward robust DNN models. | 翻訳日:2024-05-03 22:30:00 公開日:2024-05-02 |
# 翻訳不変双極子保存系における充足制約
Filling constraints on translation invariant dipole conserving systems ( http://arxiv.org/abs/2308.16241v2 ) ライセンス: Link先を確認 | Fiona J. Burnell, Sanjay Moudgalya, Abhinav Prem, | (参考訳) 保存された双極子モーメントを持つ系は、傾いた光学格子に関する最近の実験において、その実現に多大な関心を寄せている。
このようなシステムにとって重要な問題は、すべての対称性に整合した特異なギャップのある基底状態が認められる条件を明確にすることである。
ここでは、U(1)電荷と$\mathbb{Z}_L$双極子モーメントを保存する一次元の変換不変格子について検討する。
これらの系では、対称性、ギャップ化、非退化基底状態は、整数電荷充填だけでなく、双極子充填の固定値も必要であり、他の分数双極子充填はギャップレスまたは対称性破壊基底状態のいずれかを強制することを示した。
文献の先行結果と対照的に、双極子充填制約は電荷充填とシステムサイズの両方に依存しており、双極子対称性と境界条件との微妙な相互作用を強調している。
我々は数値シミュレーションと正確な結果で結果を裏付ける。
Systems with conserved dipole moment have drawn considerable interest in light of their realization in recent experiments on tilted optical lattices. An important question for such systems is delineating the conditions under which they admit a unique gapped ground state that is consistent with all symmetries. Here, we study one-dimensional translation-invariant lattices that conserve U(1) charge and $\mathbb{Z}_L$ dipole moment, where discreteness of the dipole symmetry is enforced by periodic boundary conditions, with $L$ the system size. We show that in these systems, a symmetric, gapped, and non-degenerate ground state requires not only integer charge filling, but also a fixed value of the dipole filling, while other fractional dipole fillings enforce either a gapless or symmetry-breaking ground state. In contrast with prior results in the literature, we find that the dipole filling constraint depends both on the charge filling as well as the system size, emphasizing the subtle interplay of dipole symmetry with boundary conditions. We support our results with numerical simulations and exact results. | 翻訳日:2024-05-03 22:30:00 公開日:2024-05-02 |
# モータースキル生成のためのマルチタスク学習による基礎的政策獲得
Foundational Policy Acquisition via Multitask Learning for Motor Skill Generation ( http://arxiv.org/abs/2308.16471v3 ) ライセンス: Link先を確認 | Satoshi Yamamori, Jun Morimoto, | (参考訳) 本研究では,新しい運動能力を生み出すための基本方針獲得のためのマルチタスク強化学習アルゴリズムを提案する。
ヒトの感覚運動適応機構に触発されて、単一運動カテゴリーで新しい運動能力を学ぶのによく用いられるエンコーダ・デコーダネットワークを訓練することを目指している。
政策ネットワークを訓練するために,動的運動生成タスクにおいて,異なる報酬関数を持つ目標や環境の変化に対処する必要があるマルチタスク強化学習法を開発した。
ここでは,具体的な課題として,単足ロボットモデルを用いてボール誘導タスクを用いて提案手法の評価を行った。
その結果, 提案手法は, 新規な目標位置や未経験球再生係数に適応できることがわかった。
さらに,この学習した基本方針ネットワークは,もともと方向運動で学んだもので,全く新しい頭上蹴りスキルを生み出すことができることを示した。
In this study, we propose a multitask reinforcement learning algorithm for foundational policy acquisition to generate novel motor skills. Inspired by human sensorimotor adaptation mechanisms, we aim to train encoder-decoder networks that can be commonly used to learn novel motor skills in a single movement category. To train the policy network, we develop the multitask reinforcement learning method, where the policy needs to cope with changes in goals or environments with different reward functions or physical parameters of the environment in dynamic movement generation tasks. Here, as a concrete task, we evaluated the proposed method with the ball heading task using a monopod robot model. The results showed that the proposed method could adapt to novel target positions or inexperienced ball restitution coefficients. Furthermore, we demonstrated that the acquired foundational policy network originally learned for heading motion, can be used to generate an entirely new overhead kicking skill. | 翻訳日:2024-05-03 22:30:00 公開日:2024-05-02 |
# TExplain: 事前トレーニング(Frozen)言語モデルによる学習済みの視覚機能の説明
TExplain: Explaining Learned Visual Features via Pre-trained (Frozen) Language Models ( http://arxiv.org/abs/2309.00733v4 ) ライセンス: Link先を確認 | Saeid Asgari Taghanaki, Aliasghar Khani, Ali Saheb Pasand, Amir Khasahmadi, Aditya Sanghi, Karl D. D. Willis, Ali Mahdavi-Amiri, | (参考訳) 視覚モデルの学習した特徴を解釈することは、機械学習の分野で長年の課題となっている。
この問題に対処するために,事前学習された画像分類器の学習特徴を解釈するために,言語モデルの能力を活用する新しい手法を提案する。
TExplainと呼ばれる我々の手法は、ニューラルネットワークを訓練し、画像分類器の特徴空間と言語モデルとの接続を確立することで、この課題に取り組む。
そして,提案手法は,画像の分類器が学習した特徴を説明するために,膨大な数の文を生成する。
これらの文は、最も頻繁な単語を抽出するために使用され、分類器内の学習した特徴やパターンを包括的に理解する。
本手法は, 視覚表現に対応する頻繁な単語を用いて, 独立に訓練された分類器の意思決定過程を把握し, 素早い相関, バイアス, 行動のより深い理解を可能にする。
提案手法の有効性を検証するため,ImageNet-9LやWaterbirdsなどの多様なデータセットで実験を行った。
その結果,画像分類器の解釈可能性やロバスト性を高める手法の可能性が示された。
Interpreting the learned features of vision models has posed a longstanding challenge in the field of machine learning. To address this issue, we propose a novel method that leverages the capabilities of language models to interpret the learned features of pre-trained image classifiers. Our method, called TExplain, tackles this task by training a neural network to establish a connection between the feature space of image classifiers and language models. Then, during inference, our approach generates a vast number of sentences to explain the features learned by the classifier for a given image. These sentences are then used to extract the most frequent words, providing a comprehensive understanding of the learned features and patterns within the classifier. Our method, for the first time, utilizes these frequent words corresponding to a visual representation to provide insights into the decision-making process of the independently trained classifier, enabling the detection of spurious correlations, biases, and a deeper comprehension of its behavior. To validate the effectiveness of our approach, we conduct experiments on diverse datasets, including ImageNet-9L and Waterbirds. The results demonstrate the potential of our method to enhance the interpretability and robustness of image classifiers. | 翻訳日:2024-05-03 22:20:15 公開日:2024-05-02 |
# 分散機械学習におけるデータ収集の委譲
Delegating Data Collection in Decentralized Machine Learning ( http://arxiv.org/abs/2309.01837v2 ) ライセンス: Link先を確認 | Nivasini Ananthakrishnan, Stephen Bates, Michael I. Jordan, Nika Haghtalab, | (参考訳) 分散機械学習(ML)エコシステムの出現に動機付けられ,データ収集のデリゲートについて検討する。
契約理論の分野を出発点として、分散MLで生じる2つの基本的な情報非対称性を扱う最適かつほぼ最適な契約を設計する。
最適効用の1-1/e分を達成できるような単純な線形契約により、主成分がそのような非対称性に対処できることが示される。
最適性能に関する事前知識の欠如に対処するため,最適契約を適応的かつ効率的に計算できる凸プログラムを提案する。
また、線形契約を研究し、複数の相互作用のより複雑な設定において最適な効用を導出する。
Motivated by the emergence of decentralized machine learning (ML) ecosystems, we study the delegation of data collection. Taking the field of contract theory as our starting point, we design optimal and near-optimal contracts that deal with two fundamental information asymmetries that arise in decentralized ML: uncertainty in the assessment of model quality and uncertainty regarding the optimal performance of any model. We show that a principal can cope with such asymmetry via simple linear contracts that achieve 1-1/e fraction of the optimal utility. To address the lack of a priori knowledge regarding the optimal performance, we give a convex program that can adaptively and efficiently compute the optimal contract. We also study linear contracts and derive the optimal utility in the more complex setting of multiple interactions. | 翻訳日:2024-05-03 22:20:15 公開日:2024-05-02 |
# キャビティ電気機械装置における単一光子誘起不安定性
Single-photon induced instabilities in a cavity electromechanical device ( http://arxiv.org/abs/2309.06765v2 ) ライセンス: Link先を確認 | Tanmoy Bera, Mridul Kandpal, G. S. Agarwal, Vibhor Singh, | (参考訳) キャビティ・エレクトロメカニクス系は、機械共振器の振動を量子限界まで検出・制御するために広く用いられている。
これらの系における非線形放射線-圧力相互作用は、周波数コム、周期二重分岐、カオスなどの特徴を示す機械共振器の不安定な応答をもたらす可能性がある。
しかしながら、弱い光-物質相互作用のため、これらの効果は典型的には非常に高い駆動強度で現れる。
強結合型フラックス可変トランスモンとマイクロ波キャビティによって形成されるポラリトンモードを用いて、電気機械装置を実演し、単光子カップリングレート$g_0/2\pi$ of $160~$kHzを実現し、機械周波数$\omega_m$の4倍近くとなる。
大きな$g_0/\omega_m$比のため、サブシングル光子制限の周波数コムが発生する不安定な機械的応答を示す。
不安定な応答の境界を体系的に検討し、光力学的バックアクションと電磁モードの非線形性によって支配される2つの重要な状態を特定する。
このような単一光子結合率の向上と単一光子レベルでのマイクロ波周波数コムの観測は、運動状態の量子制御や臨界パラメトリックセンシングに応用できるかもしれない。
我々の実験は、不安定性を理解するための新しいアプローチの必要性を強く示唆している。
Cavity-electromechanical systems are extensively used for sensing and controlling the vibrations of mechanical resonators down to their quantum limit. The nonlinear radiation-pressure interaction in these systems could result in an unstable response of the mechanical resonator showing features such as frequency-combs, period-doubling bifurcations and chaos. However, due to weak light-matter interaction, typically these effects appear at very high driving strengths. By using polariton modes formed by a strongly coupled flux-tunable transmon and a microwave cavity, here we demonstrate an electromechanical device and achieve a single-photon coupling rate $g_0/2\pi$ of $160~$kHz, which is nearly 4\% of the mechanical frequency $\omega_m$. Due to large $g_0/\omega_m$ ratio, the device shows an unstable mechanical response resulting in frequency combs in sub-single photon limit. We systematically investigate the boundary of the unstable response and identify two important regimes governed by the optomechanical backaction and the nonlinearity of the electromagnetic mode. Such an improvement in the single-photon coupling rate and the observations of microwave frequency combs at single-photon levels may have applications in the quantum control of the motional states and critical parametric sensing. Our experiments strongly suggest the requirement of newer approaches to understand instabilities. | 翻訳日:2024-05-03 22:20:15 公開日:2024-05-02 |
# 2光子干渉サンプリング測定による2光子間の横変位の究極的量子精度の推定
Estimation with ultimate quantum precision of the transverse displacement between two photons via two-photon interference sampling measurements ( http://arxiv.org/abs/2309.06883v2 ) ライセンス: Link先を確認 | Danilo Triggiani, Vincenzo Tamma, | (参考訳) 本稿では, ビームスプリッタに干渉する2つの光子間の逆変位の推定において, 最終的な量子感度を実現するための量子センシング手法を提案する。
このスキームは、回折限界におけるカメラ解像度の標準的な直接イメージングの要求を回避し、高強度の目的を回避し、超解像単分子局在顕微鏡のような高精度なナノスコープ技術に繋がる可能性がある。
興味深いことに、我々の干渉計技術は、2つの変位したフォトニック波束の重なりによらず、自然界における最終的な空間精度を達成し、その精度は非空間的自由度で異なる光子の定数係数でしか低下しない。
これにより、空間的に解決された量子干渉と量子増強された空間感度のインターフェースに基づく新しい研究パラダイムが開かれる。
We present a quantum sensing scheme achieving the ultimate quantum sensitivity in the estimation of the transverse displacement between two photons interfering at a balanced beam splitter, based on transverse-momentum sampling measurements at the output. This scheme can possibly lead to enhanced high-precision nanoscopic techniques, such as super-resolved single-molecule localization microscopy with quantum dots, by circumventing the requirements in standard direct imaging of cameras resolution at the diffraction limit, and of highly magnifying objectives. Interestingly, we show that our interferometric technique achieves the ultimate spatial precision in nature irrespectively of the overlap of the two displaced photonic wavepackets, while its precision is only reduced of a constant factor for photons differing in any non-spatial degrees of freedom. This opens a new research paradigm based on the interface between spatially resolved quantum interference and quantum-enhanced spatial sensitivity. | 翻訳日:2024-05-03 22:20:15 公開日:2024-05-02 |
# DA-RAW:現実世界の逆気象条件に対するドメイン適応物体検出
DA-RAW: Domain Adaptive Object Detection for Real-World Adverse Weather Conditions ( http://arxiv.org/abs/2309.08152v2 ) ライセンス: Link先を確認 | Minsik Jeon, Junwon Seo, Jihong Min, | (参考訳) 近年、深層学習に基づく物体検出手法が成功しているにもかかわらず、雨や雪などの悪天候条件下で物体検出装置を信頼性の高いものにすることは依然として困難である。
対象検出器のロバストな性能のために、教師なし領域適応を用いて、晴天画像に基づいて訓練された検出ネットワークを悪天候画像に適応させる。
従来の手法では、適応中の気象汚染を明示的に解決するものではないが、明瞭な気象と悪天候の間の領域ギャップは、スタイルギャップと天気ギャップという2つの特徴を持つ2つの要因に分解することができる。
本稿では,これら2つのギャップを個別に解決することにより,悪天候環境下での現実環境への適応を効果的に行うことができるオブジェクト検出のための教師なしドメイン適応フレームワークを提案する。
本手法は,注目モジュールを用いた高次特徴のスタイル関連情報に集中することで,スタイルギャップを解消する。
自己教師付きコントラスト学習を用いて、我々のフレームワークは、気象のギャップを減らし、気象汚染に対して堅牢な事例特徴を取得する。
本手法は,悪天候条件下での物体検出において,他の手法よりも優れていることを示す。
Despite the success of deep learning-based object detection methods in recent years, it is still challenging to make the object detector reliable in adverse weather conditions such as rain and snow. For the robust performance of object detectors, unsupervised domain adaptation has been utilized to adapt the detection network trained on clear weather images to adverse weather images. While previous methods do not explicitly address weather corruption during adaptation, the domain gap between clear and adverse weather can be decomposed into two factors with distinct characteristics: a style gap and a weather gap. In this paper, we present an unsupervised domain adaptation framework for object detection that can more effectively adapt to real-world environments with adverse weather conditions by addressing these two gaps separately. Our method resolves the style gap by concentrating on style-related information of high-level features using an attention module. Using self-supervised contrastive learning, our framework then reduces the weather gap and acquires instance features that are robust to weather corruption. Extensive experiments demonstrate that our method outperforms other methods for object detection in adverse weather conditions. | 翻訳日:2024-05-03 22:20:15 公開日:2024-05-02 |
# 大規模言語モデルは検索者の好みを正確に予測できる
Large language models can accurately predict searcher preferences ( http://arxiv.org/abs/2309.10621v2 ) ライセンス: Link先を確認 | Paul Thomas, Seth Spielman, Nick Craswell, Bhaskar Mitra, | (参考訳) 検索結果が検索者にとって価値があるかどうかを示す関連ラベルは、検索システムの評価と最適化の鍵となる。
ユーザの真の好みを捉える最善の方法は、どの結果が有用か、慎重にフィードバックを求めることですが、このアプローチは多数のラベルを生成するためにスケールしません。
関連ラベルの大規模取得は通常,ユーザに代わって判断するサードパーティのラベルラによって行われるが,ラベルラがユーザニーズを理解していない場合,低品質なデータが発生するリスクがある。
品質向上のためには,インタビューやユーザスタディ,直接的なフィードバックを通じて実際のユーザを調査し,ラベルがユーザと体系的に意見の一致しない領域を見つけ,ガイドラインやトレーニング,監視を通じて,ユーザニーズに関するラベルラを教育する,というアプローチが一般的である。
本稿では,ラベルの品質向上のための代替手法を提案する。
定義上は、導出可能な高品質なサードパーティ製ゴールドデータであり、そのデータに一致する大きな言語モデルプロンプトを開発する。
我々は,Bingにおける大規模レバレンスラベリングのための言語モデルの展開からアイデアと観察を行い,TRECのデータで説明する。
大規模な言語モデルは、人間のラベルラーと同じくらい正確で、最も難しいクエリやベストラン、ベストグループを選択するのに類似した能力で有効であることがわかった。
プロンプトの体系的な変化は精度に違いをもたらすが、単純な言い換えもできる。
実際の検索者との合意を測るためには、高品質な「ゴールド」ラベルが必要ですが、これらのモデルでは、コストのごく一部で、サードパーティの作業者よりも優れたラベルを生成することが分かりました。
Relevance labels, which indicate whether a search result is valuable to a searcher, are key to evaluating and optimising search systems. The best way to capture the true preferences of users is to ask them for their careful feedback on which results would be useful, but this approach does not scale to produce a large number of labels. Getting relevance labels at scale is usually done with third-party labellers, who judge on behalf of the user, but there is a risk of low-quality data if the labeller doesn't understand user needs. To improve quality, one standard approach is to study real users through interviews, user studies and direct feedback, find areas where labels are systematically disagreeing with users, then educate labellers about user needs through judging guidelines, training and monitoring. This paper introduces an alternate approach for improving label quality. It takes careful feedback from real users, which by definition is the highest-quality first-party gold data that can be derived, and develops an large language model prompt that agrees with that data. We present ideas and observations from deploying language models for large-scale relevance labelling at Bing, and illustrate with data from TREC. We have found large language models can be effective, with accuracy as good as human labellers and similar capability to pick the hardest queries, best runs, and best groups. Systematic changes to the prompts make a difference in accuracy, but so too do simple paraphrases. To measure agreement with real searchers needs high-quality ``gold'' labels, but with these we find that models produce better labels than third-party workers, for a fraction of the cost, and these labels let us train notably better rankers. | 翻訳日:2024-05-03 22:20:15 公開日:2024-05-02 |
# CPLLM:大規模言語モデルによる臨床予測
CPLLM: Clinical Prediction with Large Language Models ( http://arxiv.org/abs/2309.11295v2 ) ライセンス: Link先を確認 | Ofir Ben Shoham, Nadav Rappoport, | (参考訳) 本稿では,臨床疾患と寛容予測のための訓練済み大言語モデル(LLM)を微調整する手法として,CPLLM(Large Language Models)を用いた臨床予測を提案する。
我々は量子化を利用して、プロンプトを用いてLLMを微調整した。
診断予測には,患者の来訪時に対象疾患と診断されるか,その後に診断されるかを,過去の診断記録を利用して予測する。
我々は,この結果とRETAIN,Med-BERTなどの様々なベースラインを比較した。
また,CPLLMを患者病院入所予測用として評価し,本手法の性能をベンチマークベースラインと比較した。
提案手法であるCPLLMはPR-AUCおよびROC-AUCの指標で全試験モデルを上回り,診断予測と患者病院入院予測の最先端結果を示した。
このような方法を簡単に実装し、臨床プロセスに統合することで、医療提供者が患者の次のステップを見積もることができる。
We present Clinical Prediction with Large Language Models (CPLLM), a method that involves fine-tuning a pre-trained Large Language Model (LLM) for clinical disease and readmission prediction. We utilized quantization and fine-tuned the LLM using prompts. For diagnosis prediction, we predict whether patients will be diagnosed with a target disease during their next visit or in the subsequent diagnosis, leveraging their historical diagnosis records. We compared our results to various baselines, including RETAIN, and Med-BERT, the current state-of-the-art model for disease prediction using temporal structured EHR data. In addition, We also evaluated CPLLM for patient hospital readmission prediction and compared our method's performance with benchmark baselines. Our experiments have shown that our proposed method, CPLLM, surpasses all the tested models in terms of PR-AUC and ROC-AUC metrics, showing state-of-the-art results for diagnosis prediction and patient hospital readmission prediction. Such a method can be easily implemented and integrated into the clinical process to help care providers estimate the next steps of patients | 翻訳日:2024-05-03 22:20:15 公開日:2024-05-02 |
# HANS, you smart? Clever Hans Effect Analysis of Neural Systems
HANS, are you clever? Clever Hans Effect Analysis of Neural Systems ( http://arxiv.org/abs/2309.12481v2 ) ライセンス: Link先を確認 | Leonardo Ranaldi, Fabio Massimo Zanzotto, | (参考訳) インストラクション・チューニングされた大規模言語モデル( It-LLMs)は、認知状態、意図、反応を推論する優れた能力を示しており、人間は日々の社会的相互作用を効果的にガイドし理解することができる。
実際、モデル能力の確固たる評価を構築するために、MCQ(Multiple-choice Question)ベンチマークがいくつか提案されている。
しかし、初期の研究は、I-LLMに固有の「順序バイアス」があることを示しており、適切な評価に挑戦している。
本稿では,4つのMCQベンチマークを用いて,I-LLMの一連の探索試験に対する弾力性について検討する。
まず,選択の順序が変化すると,選択バイアスが明らかになり,議論の推論能力がもたらされる。
位置バイアスによる第1位とモデル選択の相関から,I-LLMの意思決定過程における構造的ヒューリスティックスの存在を仮定し,いくつかのシナリオに顕著な例を含めることにより強化した。
最後に、Chain-of-Thought(CoT)技術を用いることで、より堅牢なモデルを得ることで、バイアスを推論し緩和するモデルを導き出す。
Instruction-tuned Large Language Models (It-LLMs) have been exhibiting outstanding abilities to reason around cognitive states, intentions, and reactions of all people involved, letting humans guide and comprehend day-to-day social interactions effectively. In fact, several multiple-choice questions (MCQ) benchmarks have been proposed to construct solid assessments of the models' abilities. However, earlier works are demonstrating the presence of inherent "order bias" in It-LLMs, posing challenges to the appropriate evaluation. In this paper, we investigate It-LLMs' resilience abilities towards a series of probing tests using four MCQ benchmarks. Introducing adversarial examples, we show a significant performance gap, mainly when varying the order of the choices, which reveals a selection bias and brings into discussion reasoning abilities. Following a correlation between first positions and model choices due to positional bias, we hypothesized the presence of structural heuristics in the decision-making process of the It-LLMs, strengthened by including significant examples in few-shot scenarios. Finally, by using the Chain-of-Thought (CoT) technique, we elicit the model to reason and mitigate the bias by obtaining more robust models. | 翻訳日:2024-05-03 22:20:15 公開日:2024-05-02 |
# ロングベースライン量子クロック干渉計における有限パルス時間効果
Finite Pulse-Time Effects in Long-Baseline Quantum Clock Interferometry ( http://arxiv.org/abs/2309.14426v2 ) ライセンス: Link先を確認 | Gregor Janson, Alexander Friedrich, Richard Lopp, | (参考訳) 量子時計干渉計は、自由落下(UFF)の普遍性と重力赤方偏移(UGR)の普遍性をテストする量子プローブとして提案されている。
典型的な実験的スキームでは、ドップラーのないE1-M1遷移を用いるのが有利に思える。
ここでは、完全に量子化された原子自由度を考察し、内部時計遷移とともに非局在化された$-$となる量子中心質量(COM)$-$の相互作用を研究する。
特に、有限時間E1-M1遷移の原子内外結合と任意の位置依存レーザー強度のモデルから導出する。
さらに、摂動型リコイルレスクロックパルスの理想的な表現を一般化する。
最後に、ガウスレーザーの例において、提案した量子時計干渉計は、原子COMの十分に小さな量子非局在化のために、様々な光学場からの摂動に対して安定であることを示す。
Quantum-clock interferometry has been suggested as a quantum probe to test the universality of free fall (UFF) and the universality of gravitational redshift (UGR). In typical experimental schemes it seems advantageous to employ Doppler-free E1-M1 transitions which have so far been investigated in quantum gases at rest. Here, we consider the fully quantized atomic degrees of freedom and study the interplay of the quantum center-of-mass (COM) $-$ that can become delocalized $-$ together with the internal clock transitions. In particular, we derive a model for finite-time E1-M1 transitions with atomic intern-extern coupling and arbitrary position-dependent laser intensities. We further provide generalizations to the ideal expressions for perturbed recoilless clock pulses. Finally, we show at the example of a Gaussian laser beam that the proposed quantum-clock interferometers are stable against perturbations from varying optical fields for a sufficiently small quantum delocalization of the atomic COM. | 翻訳日:2024-05-03 22:20:15 公開日:2024-05-02 |
# タスク一貫性スコア識別特徴分布モデリングによる連続行動評価
Continual Action Assessment via Task-Consistent Score-Discriminative Feature Distribution Modeling ( http://arxiv.org/abs/2309.17105v5 ) ライセンス: Link先を確認 | Yuan-Ming Li, Ling-An Zeng, Jing-Ke Meng, Wei-Shi Zheng, | (参考訳) アクション品質アセスメント(AQA)は、アクションがどれだけうまく実行されるかに答えようとするタスクである。
目覚ましい進歩が達成されているが、既存のAQAの研究は、すべてのトレーニングデータが一度にトレーニングのために見えるが、新しい技術行動を評価するための継続的な学習はできないと仮定している。
本研究では,AQA(Continual-AQA)の継続学習問題に対処し,AQAタスクを忘れずに逐次学習するよう統一モデルに促す。
連続AQAのモデル化の考え方は、タスクやアクションの種類に関わらず、潜在特徴がスコアラベルと強い相関関係を示すタスク一貫性のあるスコア識別特徴分布を逐次学習することであり、この観点からは、連続AQAにおける忘れを2つの側面から緩和することを目的としている。
まず,新しいデータと過去のデータの特徴を識別的分布に融合させるため,メモリサイズが制限された前のタスクからのデータを保存・再利用する新しい特徴スコア相関認識リハーサルを提案する。
第2に、行動一般グラフ(Action General-Specific Graph)が開発され、行動一般および行動特化知識を学習・分離し、タスク一貫性のスコア識別特徴をよりよく抽出する。
提案する部品の寄与を評価するため, 広範囲な実験を行った。
既存の継続学習手法との比較により,提案手法の有効性と妥当性が検証された。
データとコードはhttps://github.com/iSEE-Laboratory/Continual-AQA.comで入手できる。
Action Quality Assessment (AQA) is a task that tries to answer how well an action is carried out. While remarkable progress has been achieved, existing works on AQA assume that all the training data are visible for training at one time, but do not enable continual learning on assessing new technical actions. In this work, we address such a Continual Learning problem in AQA (Continual-AQA), which urges a unified model to learn AQA tasks sequentially without forgetting. Our idea for modeling Continual-AQA is to sequentially learn a task-consistent score-discriminative feature distribution, in which the latent features express a strong correlation with the score labels regardless of the task or action types.From this perspective, we aim to mitigate the forgetting in Continual-AQA from two aspects. Firstly, to fuse the features of new and previous data into a score-discriminative distribution, a novel Feature-Score Correlation-Aware Rehearsal is proposed to store and reuse data from previous tasks with limited memory size. Secondly, an Action General-Specific Graph is developed to learn and decouple the action-general and action-specific knowledge so that the task-consistent score-discriminative features can be better extracted across various tasks. Extensive experiments are conducted to evaluate the contributions of proposed components. The comparisons with the existing continual learning methods additionally verify the effectiveness and versatility of our approach. Data and code are available at https://github.com/iSEE-Laboratory/Continual-AQA. | 翻訳日:2024-05-03 22:20:15 公開日:2024-05-02 |
# Deep Learning Image Age Approximationにおけるコンテンツバイアス: 説明可能性向上に向けた新しいアプローチ
Content Bias in Deep Learning Image Age Approximation: A new Approach Towards better Explainability ( http://arxiv.org/abs/2310.02067v3 ) ライセンス: Link先を確認 | Robert Jöchl, Andreas Uhl, | (参考訳) 時間的画像法医学の文脈では、異なる時間スロット(クラス)の画像に基づいて訓練されたニューラルネットワークが、画像年齢に関連する特徴のみを活用することは明らかではない。
通常、時間的近接(例えば、同じ年齢層に属する)で撮影された画像は、いくつかの共通の内容特性を共有している。
このようなコンテンツバイアスはニューラルネットワークによって利用することができる。
本研究では,画像コンテンツの影響を評価する新しい手法を提案する。
このアプローチは、年齢信号が埋め込まれた合成画像(コンテンツバイアスを除外できる)を用いて検証される。
提案手法により,年齢分類の文脈における深層学習手法は,画像内容に大きく依存している可能性が示唆された。
その対策として,画像ステガナリシスの分野での2つの異なるモデルと,信号-雑音比(画像内容への年齢信号)を高めるための3つの前処理手法について,提案手法を用いて評価を行った。
In the context of temporal image forensics, it is not evident that a neural network, trained on images from different time-slots (classes), exploits solely image age related features. Usually, images taken in close temporal proximity (e.g., belonging to the same age class) share some common content properties. Such content bias can be exploited by a neural network. In this work, a novel approach is proposed that evaluates the influence of image content. This approach is verified using synthetic images (where content bias can be ruled out) with an age signal embedded. Based on the proposed approach, it is shown that a deep learning approach proposed in the context of age classification is most likely highly dependent on the image content. As a possible countermeasure, two different models from the field of image steganalysis, along with three different preprocessing techniques to increase the signal-to-noise ratio (age signal to image content), are evaluated using the proposed method. | 翻訳日:2024-05-03 22:20:15 公開日:2024-05-02 |
# Relaxの学習: 線形システムインスタンスのシーケンス全体にわたるソルバーパラメータの設定
Learning to Relax: Setting Solver Parameters Across a Sequence of Linear System Instances ( http://arxiv.org/abs/2310.02246v2 ) ライセンス: Link先を確認 | Mikhail Khodak, Edmond Chow, Maria-Florina Balcan, Ameet Talwalkar, | (参考訳) 線形システムの解法である$Ax=b$は、多くの解法とプリコンディショナーが開発された基本的な科学計算プリミティブである。
これらのパラメータは、解決されるシステムに依存する最適な値を持ち、しばしば識別が不可能または高価であるため、実際には準最適ヒューリスティックが使用される。
一つの数値シミュレーションにおいて,多くの関係線形系を解かなければならないような共通設定について考察する。
このシナリオでは、余分な行列計算なしで、ほぼ最適に近い反復数が得られるパラメータを逐次選択できるだろうか?
パラメータが$\omega$の標準解法であるSOR(Successive Over-Relaxation)はランタイムに強い影響を与える。
そこで本手法では,反復回数のみをフィードバックとして使用するバンディットオンライン学習アルゴリズムが,シーケンス長が増加するにつれて最大固定$\omega$に近づくような,一連のインスタンスのパラメータを選択できることを示す。
さらに、追加構造情報を与えると、文脈的バンディット法がインスタンス最適化ポリシーの性能を漸近的に達成し、各インスタンスに対して最高の$\omega$を選択することを示す。
我々の研究は、高精度線形システム解法の最初の学習理論的処理と、データ駆動型科学計算のエンドツーエンド保証を提供し、よく理解された学習アルゴリズムを用いて数値的手法を高速化する可能性を理論的に実証した。
Solving a linear system $Ax=b$ is a fundamental scientific computing primitive for which numerous solvers and preconditioners have been developed. These come with parameters whose optimal values depend on the system being solved and are often impossible or too expensive to identify; thus in practice sub-optimal heuristics are used. We consider the common setting in which many related linear systems need to be solved, e.g. during a single numerical simulation. In this scenario, can we sequentially choose parameters that attain a near-optimal overall number of iterations, without extra matrix computations? We answer in the affirmative for Successive Over-Relaxation (SOR), a standard solver whose parameter $\omega$ has a strong impact on its runtime. For this method, we prove that a bandit online learning algorithm--using only the number of iterations as feedback--can select parameters for a sequence of instances such that the overall cost approaches that of the best fixed $\omega$ as the sequence length increases. Furthermore, when given additional structural information, we show that a contextual bandit method asymptotically achieves the performance of the instance-optimal policy, which selects the best $\omega$ for each instance. Our work provides the first learning-theoretic treatment of high-precision linear system solvers and the first end-to-end guarantees for data-driven scientific computing, demonstrating theoretically the potential to speed up numerical methods using well-understood learning algorithms. | 翻訳日:2024-05-03 22:20:15 公開日:2024-05-02 |
# 辞書強化学習のための優先度付きソフトQ-分解法
Prioritized Soft Q-Decomposition for Lexicographic Reinforcement Learning ( http://arxiv.org/abs/2310.02360v2 ) ライセンス: Link先を確認 | Finn Rietz, Erik Schaffernicht, Stefan Heinrich, Johannes Andreas Stork, | (参考訳) 複雑なタスクに対する強化学習(RL)は、主に工学的なスカラー報酬関数の難しさと、スクラッチからトレーニングモデルの本質的な非効率性のために、依然として課題である。
代わりに、基本的なサブタスクの観点から複雑なタスクを指定し、可能な限りサブタスクソリューションを再利用する方がよい。
本研究では,連続空間レキシコグラフィーによる多重対象RL問題に対処する。
本研究では,これらをサブタスク変換でスキャラライズし,値分解を用いて段階的に解いた。
この知見を出し, 連続状態-作用空間における語彙的優先度の下でサブタスク解を学習し, 適応するための新しいアルゴリズムである, 優先度付きソフトQ分解(PSQD)を提案する。
PSQDは、学習済みのサブタスクソリューションをゼロショット合成で再利用する機能を提供し、次に適応ステップを提供する。
オフライン学習のために保持されたサブタスクトレーニングデータを使用する能力は、適応中に新しい環境相互作用を不要にする。
我々は,低次元・高次元のロボット制御タスクとオフラインの学習結果の両方に対して,学習,再利用,適応結果を提供することにより,本手法の有効性を実証する。
ベースラインアプローチとは対照的に、PSQDは競合するサブタスクや優先順位制約をトレードオフせず、学習中にサブタスクの優先順位を満たす。
PSQDは複雑なRL問題に取り組むための直感的なフレームワークを提供し、サブタスク構成の内部動作に関する洞察を提供する。
Reinforcement learning (RL) for complex tasks remains a challenge, primarily due to the difficulties of engineering scalar reward functions and the inherent inefficiency of training models from scratch. Instead, it would be better to specify complex tasks in terms of elementary subtasks and to reuse subtask solutions whenever possible. In this work, we address continuous space lexicographic multi-objective RL problems, consisting of prioritized subtasks, which are notoriously difficult to solve. We show that these can be scalarized with a subtask transformation and then solved incrementally using value decomposition. Exploiting this insight, we propose prioritized soft Q-decomposition (PSQD), a novel algorithm for learning and adapting subtask solutions under lexicographic priorities in continuous state-action spaces. PSQD offers the ability to reuse previously learned subtask solutions in a zero-shot composition, followed by an adaptation step. Its ability to use retained subtask training data for offline learning eliminates the need for new environment interaction during adaptation. We demonstrate the efficacy of our approach by presenting successful learning, reuse, and adaptation results for both low- and high-dimensional simulated robot control tasks, as well as offline learning results. In contrast to baseline approaches, PSQD does not trade off between conflicting subtasks or priority constraints and satisfies subtask priorities during learning. PSQD provides an intuitive framework for tackling complex RL problems, offering insights into the inner workings of the subtask composition. | 翻訳日:2024-05-03 22:10:30 公開日:2024-05-02 |
# LLMの極端端のファインチューニング: 良い、悪い、うぬぼれ
Federated Fine-Tuning of LLMs on the Very Edge: The Good, the Bad, the Ugly ( http://arxiv.org/abs/2310.03150v2 ) ライセンス: Link先を確認 | Herbert Woisetschläger, Alexander Isenko, Shiqiang Wang, Ruben Mayer, Hans-Arno Jacobsen, | (参考訳) 大規模言語モデル(LLM)と基礎モデルは、個人や企業が自然言語処理を改善し、データと対話し、情報を素早く取得する新たな機会を提供するものとして人気がある。
しかし、トレーニングや微調整 LLM は膨大な量のデータを必要とするため、法的あるいは技術的な制約によりアクセスが困難になり、プライベートコンピューティングリソースが必要になる可能性がある。
Federated Learning(FL)は、これらの課題を克服し、ディープラーニングアプリケーションのためのデータアクセスを拡張するために設計されたソリューションである。
本稿では,LLMを現代のエッジコンピューティングシステムにどのように適用できるかを,ハードウェア中心のアプローチで検討する。
本研究は,テキスト要約タスクにFLを用いて,FLAN-T5モデルファミリを80Mから3Bパラメータに微調整する。
マイクロレベルのハードウェアベンチマークを行い、FLOPモデルと最先端のデータセンターGPUを比較し、現実的な条件下でのネットワーク利用について検討する。
まず、エッジコンピューティングシステムの現在の能力とLLM FLワークロードの可能性を評価します。
第二に、これらのシステムをデータセンターのGPUと比較することにより、改善の可能性と、エッジでの計算効率向上に向けた次のステップを実証する。
Large Language Models (LLM) and foundation models are popular as they offer new opportunities for individuals and businesses to improve natural language processing, interact with data, and retrieve information faster. However, training or fine-tuning LLMs requires a vast amount of data, which can be challenging to access due to legal or technical restrictions and may require private computing resources. Federated Learning (FL) is a solution designed to overcome these challenges and expand data access for deep learning applications. This paper takes a hardware-centric approach to explore how LLMs can be brought to modern edge computing systems. Our study fine-tunes the FLAN-T5 model family, ranging from 80M to 3B parameters, using FL for a text summarization task. We provide a micro-level hardware benchmark, compare the model FLOP utilization to a state-of-the-art data center GPU, and study the network utilization in realistic conditions. Our contribution is twofold: First, we evaluate the current capabilities of edge computing systems and their potential for LLM FL workloads. Second, by comparing these systems with a data-center GPU, we demonstrate the potential for improvement and the next steps toward achieving greater computational efficiency at the edge. | 翻訳日:2024-05-03 22:10:30 公開日:2024-05-02 |
# BrainSCUBA:視覚皮質選択性の自然言語キャプション
BrainSCUBA: Fine-Grained Natural Language Captions of Visual Cortex Selectivity ( http://arxiv.org/abs/2310.04420v2 ) ライセンス: Link先を確認 | Andrew F. Luo, Margaret M. Henderson, Michael J. Tarr, Leila Wehbe, | (参考訳) 高次視覚野の機能的構造を理解することは神経科学の中心である。
過去の研究は、主に手選択刺激を用いて、神経集団の視覚的および意味的な選択性をマッピングしてきた。
従来の手法を超越して、興味ある個々のボクセルを最大限に活性化させると予測される画像の自然言語記述を生成するデータ駆動方式を導入する。
提案手法は,脳機能を利用したセマンティックキャプション("BrainSCUBA")を用いて,コントラスト型視覚言語モデルで学習した豊かな埋め込み空間上に構築し,事前学習した大言語モデルを用いて解釈可能なキャプションを生成する。
高次視覚領域にまたがる微細なボクセルレベルのキャプションにより,本手法の有効性を検証した。
さらに,字幕を用いたテキスト条件画像合成を行い,画像のセマンティックコヒーレント性を示すとともに,高いアクティベーションが期待できることを示す。
最後に,脳内の「個人」表現の分布に関する探索的研究を行い,身体選択領域における微細な意味的選択性を明らかにする。
テキストをデコードする以前の研究とは異なり、本手法は意味的選択性のボクセル的キャプションを導出する。
以上の結果から、BrainSCUBAは脳の機能的嗜好を理解するための有望な手段であり、視覚野の仮説駆動によるさらなる研究の動機となることが示唆された。
Understanding the functional organization of higher visual cortex is a central focus in neuroscience. Past studies have primarily mapped the visual and semantic selectivity of neural populations using hand-selected stimuli, which may potentially bias results towards pre-existing hypotheses of visual cortex functionality. Moving beyond conventional approaches, we introduce a data-driven method that generates natural language descriptions for images predicted to maximally activate individual voxels of interest. Our method -- Semantic Captioning Using Brain Alignments ("BrainSCUBA") -- builds upon the rich embedding space learned by a contrastive vision-language model and utilizes a pre-trained large language model to generate interpretable captions. We validate our method through fine-grained voxel-level captioning across higher-order visual regions. We further perform text-conditioned image synthesis with the captions, and show that our images are semantically coherent and yield high predicted activations. Finally, to demonstrate how our method enables scientific discovery, we perform exploratory investigations on the distribution of "person" representations in the brain, and discover fine-grained semantic selectivity in body-selective areas. Unlike earlier studies that decode text, our method derives voxel-wise captions of semantic selectivity. Our results show that BrainSCUBA is a promising means for understanding functional preferences in the brain, and provides motivation for further hypothesis-driven investigation of visual cortex. | 翻訳日:2024-05-03 22:10:30 公開日:2024-05-02 |
# コンフォーマル決定理論:不完全予測からの安全な自律的決定
Conformal Decision Theory: Safe Autonomous Decisions from Imperfect Predictions ( http://arxiv.org/abs/2310.05921v3 ) ライセンス: Link先を確認 | Jordan Lekeufack, Anastasios N. Angelopoulos, Andrea Bajcsy, Michael I. Jordan, Jitendra Malik, | (参考訳) 不完全な機械学習予測にも拘わらず、安全な自律的意思決定を実現するためのフレームワークであるコンフォーマル決定理論を導入する。
このような決定の例としては、歩行者の予測に依存するロボット計画アルゴリズムから、高いスループットと低いエラーを示すための自動製造の調整、ランタイムで安全なバックアップポリシーに切り替えるよりも、名目上のポリシーを信頼する選択などが挙げられる。
我々のアルゴリズムが生み出した決定は、世界モデルに何の仮定もせずに低いリスクを持つという証明可能な統計的保証があるという意味では安全である。
この理論は、予測セットの構築を必要とせず、共形予測の結果を拡張して、直接決定を校正する。
実験は、人間のまわりのロボットの動き計画、自動株式取引、ロボット製造において、我々のアプローチの有用性を実証する。
We introduce Conformal Decision Theory, a framework for producing safe autonomous decisions despite imperfect machine learning predictions. Examples of such decisions are ubiquitous, from robot planning algorithms that rely on pedestrian predictions, to calibrating autonomous manufacturing to exhibit high throughput and low error, to the choice of trusting a nominal policy versus switching to a safe backup policy at run-time. The decisions produced by our algorithms are safe in the sense that they come with provable statistical guarantees of having low risk without any assumptions on the world model whatsoever; the observations need not be I.I.D. and can even be adversarial. The theory extends results from conformal prediction to calibrate decisions directly, without requiring the construction of prediction sets. Experiments demonstrate the utility of our approach in robot motion planning around humans, automated stock trading, and robot manufacturing. | 翻訳日:2024-05-03 22:10:30 公開日:2024-05-02 |
# セマンティック指標としての言語モデル
Language Models As Semantic Indexers ( http://arxiv.org/abs/2310.07815v2 ) ライセンス: Link先を確認 | Bowen Jin, Hansi Zeng, Guoyin Wang, Xiusi Chen, Tianxin Wei, Ruirui Li, Zhengyang Wang, Zheng Li, Yang Li, Hanqing Lu, Suhang Wang, Jiawei Han, Xianfeng Tang, | (参考訳) セマンティック識別子 (ID) は、情報検索において重要な概念であり、ID内の文書やアイテムなどのオブジェクトのセマンティクスを保存することを目的としている。
従来の研究では、2段階のパイプラインを使用してセマンティックIDを学習し、まず既製のテキストエンコーダを使用して埋め込みを取得し、次に埋め込みに基づいてIDを導出する。
しかし、各ステップは潜在的な情報損失を導入し、通常、テキストエンコーダが生成する潜伏空間における埋め込みの分布と、セマンティックインデックス作成に必要な予測分布との間には、固有のミスマッチがある。
セマンティックIDが離散的かつシーケンシャルな構造であり、セマンティックな管理が不十分であることを考えると、文書の意味表現とその階層構造を同時に学習できる手法を設計するのは簡単ではない。
本稿では,ジェネレーティブ言語モデルを用いてセマンティックIDを学習する自己教師型フレームワークLMIndexerを紹介する。
逐次離散IDの課題は、逐次学習とコントラスト学習を併用して、ニューラルネットワークの逐次離散表現を生成するセマンティックインデクサを導入することで解決される。
セマンティック・インテリジェンス・インテリジェンス・インテリジェンス(セマンティック・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス)の欠如に対応して,自己管理型文書再構築を目標としたモデルの構築を提案する。
学習したIDの質の高さを示し、各ドメインの5つのデータセットの推薦、製品検索、文書検索を含む3つのタスクにおいて、その効果を実証する。
コードはhttps://github.com/PeterGriffinJin/LMIndexerで入手できる。
Semantic identifier (ID) is an important concept in information retrieval that aims to preserve the semantics of objects such as documents and items inside their IDs. Previous studies typically adopt a two-stage pipeline to learn semantic IDs by first procuring embeddings using off-the-shelf text encoders and then deriving IDs based on the embeddings. However, each step introduces potential information loss, and there is usually an inherent mismatch between the distribution of embeddings within the latent space produced by text encoders and the anticipated distribution required for semantic indexing. It is non-trivial to design a method that can learn the document's semantic representations and its hierarchical structure simultaneously, given that semantic IDs are discrete and sequentially structured, and the semantic supervision is deficient. In this paper, we introduce LMIndexer, a self-supervised framework to learn semantic IDs with a generative language model. We tackle the challenge of sequential discrete ID by introducing a semantic indexer capable of generating neural sequential discrete representations with progressive training and contrastive learning. In response to the semantic supervision deficiency, we propose to train the model with a self-supervised document reconstruction objective. We show the high quality of the learned IDs and demonstrate their effectiveness on three tasks including recommendation, product search, and document retrieval on five datasets from various domains. Code is available at https://github.com/PeterGriffinJin/LMIndexer. | 翻訳日:2024-05-03 22:10:30 公開日:2024-05-02 |
# ABACuS: スケーラブルで低オーバーヘッドなRowHammer緩和のための全銀行のアクティベーションカウンタ
ABACuS: All-Bank Activation Counters for Scalable and Low Overhead RowHammer Mitigation ( http://arxiv.org/abs/2310.09977v3 ) ライセンス: Link先を確認 | Ataberk Olgun, Yahya Can Tugrul, Nisa Bostanci, Ismail Emir Yuksel, Haocong Luo, Steve Rhyner, Abdullah Giray Yaglikci, Geraldo F. Oliveira, Onur Mutlu, | (参考訳) 我々はABACuSを紹介した。ABACuSは、RowHammerの脆弱性を悪化させ、パフォーマンス、エネルギー、面積効率を向上する、新しい低コストのハードウェアカウンタベースのRowHammer緩和技術である。
良性ワークロードとRowHammer攻撃の両方が、複数のDRAMバンクで同じ行アドレスを持つDRAM行に、ほぼ同時にアクセスする傾向にあることを観察する。
この観測に基づいて、ABACuSのキーとなるアイデアは、単一の共有行アクティベーションカウンタを使用して、すべてのDRAMバンクで同じ行アドレスを持つ行へのアクティベーションを追跡することである。
DRAMバンク毎に個別の行アクティベーションカウンタを実装する、最先端のRowHammer緩和メカニズムとは異なり、ABACuSでは、同じ数の攻撃行を追跡するカウンタ(例えば、たった1つ)が少ない。
評価の結果,ABACuSはローハマービットフリップを低性能/エネルギーオーバーヘッド,低面積コストで確実に防止できることがわかった。
我々はABACuSを4つの最先端緩和機構と比較した。
約1000のRowHammerしきい値では、ABACuSは0.58% (0.77%)のパフォーマンスと1.66% (2.12%)のDRAMエネルギーオーバーヘッドを発生させ、平均62のシングルコア(8コア)のワークロードで、ストレージは9.47KiBしか必要としなかった。
1000のRowHammerしきい値では、ABACuSよりも平均的なパフォーマンスオーバーヘッドが1.80%高く、ABACuSは2.50倍小さいチップ面積を必要とする。
将来のRowHammerしきい値125では、ABACuSは22.72倍の小さなチップ領域を必要としながら、最高の性能とエネルギー効率のRowHammer軽減機構を(性能の0.38%で)実現している。
ABACuSはhttps://github.com/CMU-SAFARI/ABACuSで無料で公開されている。
We introduce ABACuS, a new low-cost hardware-counter-based RowHammer mitigation technique that performance-, energy-, and area-efficiently scales with worsening RowHammer vulnerability. We observe that both benign workloads and RowHammer attacks tend to access DRAM rows with the same row address in multiple DRAM banks at around the same time. Based on this observation, ABACuS's key idea is to use a single shared row activation counter to track activations to the rows with the same row address in all DRAM banks. Unlike state-of-the-art RowHammer mitigation mechanisms that implement a separate row activation counter for each DRAM bank, ABACuS implements fewer counters (e.g., only one) to track an equal number of aggressor rows. Our evaluations show that ABACuS securely prevents RowHammer bitflips at low performance/energy overhead and low area cost. We compare ABACuS to four state-of-the-art mitigation mechanisms. At a near-future RowHammer threshold of 1000, ABACuS incurs only 0.58% (0.77%) performance and 1.66% (2.12%) DRAM energy overheads, averaged across 62 single-core (8-core) workloads, requiring only 9.47 KiB of storage per DRAM rank. At the RowHammer threshold of 1000, the best prior low-area-cost mitigation mechanism incurs 1.80% higher average performance overhead than ABACuS, while ABACuS requires 2.50X smaller chip area to implement. At a future RowHammer threshold of 125, ABACuS performs very similarly to (within 0.38% of the performance of) the best prior performance- and energy-efficient RowHammer mitigation mechanism while requiring 22.72X smaller chip area. ABACuS is freely and openly available at https://github.com/CMU-SAFARI/ABACuS. | 翻訳日:2024-05-03 22:10:30 公開日:2024-05-02 |
# 高帯域メモリにおける読み取り外乱:HBM2 DRAMチップの詳細な実験
Read Disturbance in High Bandwidth Memory: A Detailed Experimental Study on HBM2 DRAM Chips ( http://arxiv.org/abs/2310.14665v3 ) ライセンス: Link先を確認 | Ataberk Olgun, Majd Osseiran, Abdullah Giray Yaglikci, Yahya Can Tugrul, Haocong Luo, Steve Rhyner, Behzad Salami, Juan Gomez Luna, Onur Mutlu, | (参考訳) 高帯域メモリ(HBM)における読み出し障害(RowHammer,RowPress)の効果を実験的に実証し,未文書読み出し障害防御機構の内部動作を明らかにする。
2つの異なるFPGA基板における6つの実HBM2 DRAMチップの詳細な特徴は、(1)読み出し障害の脆弱性は、異なるHBM2チップと、チップ内の異なるコンポーネント(例えば、3Dスタックされたチャネル)の間で大きく異なること、(2) エンドおよび銀行の真ん中のDRAM行は、読み出し障害の回復性が高いこと、(3) 行が比較的高いアクティベーション数で最初のビットフリップを示した場合、DRAM行の読み出し障害のビットフリップを誘導するのに十分な追加のアクティベートが減少すること、(4) 最新のHBM2チップは、アクティベート数に基づいて潜在的攻撃的行を追跡する文書化されていない読み取り障害防御を実装していること、である。
我々は,より強力な読解障害攻撃とより効率的な防御機構を開発するために,我々の研究成果をどのように活用できるかを述べる。
我々は、すべてのコードとデータをオープンソース化し、https://github.com/CMU-SAFARI/HBM-Read-Disturbance.comで将来の研究を促進する。
We experimentally demonstrate the effects of read disturbance (RowHammer and RowPress) and uncover the inner workings of undocumented read disturbance defense mechanisms in High Bandwidth Memory (HBM). Detailed characterization of six real HBM2 DRAM chips in two different FPGA boards shows that (1) the read disturbance vulnerability significantly varies between different HBM2 chips and between different components (e.g., 3D-stacked channels) inside a chip, (2) DRAM rows at the end and in the middle of a bank are more resilient to read disturbance, (3) fewer additional activations are sufficient to induce more read disturbance bitflips in a DRAM row if the row exhibits the first bitflip at a relatively high activation count, (4) a modern HBM2 chip implements undocumented read disturbance defenses that track potential aggressor rows based on how many times they are activated. We describe how our findings could be leveraged to develop more powerful read disturbance attacks and more efficient defense mechanisms. We open source all our code and data to facilitate future research at https://github.com/CMU-SAFARI/HBM-Read-Disturbance. | 翻訳日:2024-05-03 22:10:30 公開日:2024-05-02 |
# ディープニューラルネットワークにおける逆例の転送可能性に関する調査
A Survey on Transferability of Adversarial Examples across Deep Neural Networks ( http://arxiv.org/abs/2310.17626v2 ) ライセンス: Link先を確認 | Jindong Gu, Xiaojun Jia, Pau de Jorge, Wenqain Yu, Xinwei Liu, Avery Ma, Yuan Xun, Anjun Hu, Ashkan Khakzar, Zhijiang Li, Xiaochun Cao, Philip Torr, | (参考訳) ディープニューラルネットワーク(DNN)の出現は、画像認識、自然言語処理、科学的問題解決にまたがる複雑なタスクの解決を可能にすることで、さまざまな領域に革命をもたらした。
しかし、この進歩は、潜在的な脆弱性、すなわち敵の例にも光を当てている。
これらの人工的な入力は、人間には受け入れられず、機械学習モデルを操作して誤った予測をし、安全クリティカルなアプリケーションに対する懸念を高めることができる。
この現象の興味深い性質は、あるモデルのために作られた摂動が、しばしば異なるアーキテクチャで他のモデルを騙すことができる敵の例の転送可能性である。
この興味深い性質は、ターゲットモデルの詳細な知識を回避できるブラックボックス攻撃を可能にする。
本研究は, 対角移動可能性の展望を考察した。
本稿では,既存の手法を分類して,敵の移動可能性を高めるとともに,それぞれのアプローチを導く基本原則について議論する。
主な研究機関は画像分類に重点を置いているが、他のビジョンタスクを網羅する議論も拡張している。
課題と機会が議論され、進化する風景における敵の脆弱性に対するDNNの強化の重要性を強調している。
The emergence of Deep Neural Networks (DNNs) has revolutionized various domains by enabling the resolution of complex tasks spanning image recognition, natural language processing, and scientific problem-solving. However, this progress has also brought to light a concerning vulnerability: adversarial examples. These crafted inputs, imperceptible to humans, can manipulate machine learning models into making erroneous predictions, raising concerns for safety-critical applications. An intriguing property of this phenomenon is the transferability of adversarial examples, where perturbations crafted for one model can deceive another, often with a different architecture. This intriguing property enables black-box attacks which circumvents the need for detailed knowledge of the target model. This survey explores the landscape of the adversarial transferability of adversarial examples. We categorize existing methodologies to enhance adversarial transferability and discuss the fundamental principles guiding each approach. While the predominant body of research primarily concentrates on image classification, we also extend our discussion to encompass other vision tasks and beyond. Challenges and opportunities are discussed, highlighting the importance of fortifying DNNs against adversarial vulnerabilities in an evolving landscape. | 翻訳日:2024-05-03 22:10:30 公開日:2024-05-02 |
# AISを用いたマルチパス長期船体軌道予測のための確率的特徴増強
Probabilistic Feature Augmentation for AIS-Based Multi-Path Long-Term Vessel Trajectory Forecasting ( http://arxiv.org/abs/2310.18948v5 ) ライセンス: Link先を確認 | Gabriel Spadon, Jay Kumar, Derek Eden, Josh van Berkel, Tom Foster, Amilcar Soares, Ronan Fablet, Stan Matwin, Ronald Pelot, | (参考訳) 海洋輸送は世界経済の成長を達成する上で最重要であり、持続可能性と絶滅危惧種の保護に関する生態学的義務を兼ね備えている。
この点において、自動識別システム(AIS)データは、船舶の移動にリアルタイムのストリーミングデータを提供することで、交通監視の強化によって重要な役割を果たす。
本研究では,AISデータ系列から長期の船舶軌道を予測することにより,船体衝突を防止するためのAISデータについて検討する。
そこで我々は, 双方向長短期記憶ネットワーク(Bi-LSTM)を用いたエンコーダ・デコーダモデルアーキテクチャを開発し, 入力として1~3時間AISデータを用いて, 次の12時間の船舶軌道を予測した。
我々は,各軌道の潜在的な経路や目的地を示す歴史的AISデータから構築した確率的特徴をモデルに提供する。
このモデルは,空間的特徴学習における畳み込み層と,時間的特徴学習における時系列の最近の時間ステップの重要性を高める位置認識型注意機構を活用することで,これらの付加的特徴を考慮し,船舶の軌道を予測する。
確率的特徴は、それぞれの特徴タイプに対して、それぞれ約85%と75%のF1スコアを持ち、ニューラルネットワークへの情報拡張の有効性を示す。
我々は、北大西洋右クジラ(NARW)の生息地として知られるセントローレンス湾で、我々のモデルを検証した。
我々のモデルは、様々な技術と特徴を用いて、高いR2スコアを98%以上達成した。
旋回や経路選択において複雑な決定を下すことができるため、他のアプローチの中でも際立っている。
本研究は,海洋生物種の保全のためのデータ工学および軌道予測モデルの可能性を明らかにする。
Maritime transportation is paramount in achieving global economic growth, entailing concurrent ecological obligations in sustainability and safeguarding endangered marine species, most notably preserving large whale populations. In this regard, the Automatic Identification System (AIS) data plays a significant role by offering real-time streaming data on vessel movement, allowing enhanced traffic monitoring. This study explores using AIS data to prevent vessel-to-whale collisions by forecasting long-term vessel trajectories from engineered AIS data sequences. For such a task, we have developed an encoder-decoder model architecture using Bidirectional Long Short-Term Memory Networks (Bi-LSTM) to predict the next 12 hours of vessel trajectories using 1 to 3 hours of AIS data as input. We feed the model with probabilistic features engineered from historical AIS data that refer to each trajectory's potential route and destination. The model then predicts the vessel's trajectory, considering these additional features by leveraging convolutional layers for spatial feature learning and a position-aware attention mechanism that increases the importance of recent timesteps of a sequence during temporal feature learning. The probabilistic features have an F1 Score of approximately 85% and 75% for each feature type, respectively, demonstrating their effectiveness in augmenting information to the neural network. We test our model on the Gulf of St. Lawrence, a region known to be the habitat of North Atlantic Right Whales (NARW). Our model achieved a high R2 score of over 98% using various techniques and features. It stands out among other approaches as it can make complex decisions during turnings and path selection. Our study highlights the potential of data engineering and trajectory forecasting models for marine life species preservation. | 翻訳日:2024-05-03 22:10:30 公開日:2024-05-02 |
# CreoleVal: クリーンのためのマルチ言語マルチタスクベンチマーク
CreoleVal: Multilingual Multitask Benchmarks for Creoles ( http://arxiv.org/abs/2310.19567v2 ) ライセンス: Link先を確認 | Heather Lent, Kushal Tatariya, Raj Dabre, Yiyi Chen, Marcell Fekete, Esther Ploeger, Li Zhou, Ruth-Ann Armstrong, Abee Eijansantos, Catriona Malau, Hans Erik Heje, Ernests Lavrinovics, Diptesh Kanojia, Paul Belony, Marcel Bollmann, Loïc Grobol, Miryam de Lhoneux, Daniel Hershcovich, Michel DeGraff, Anders Søgaard, Johannes Bjerva, | (参考訳) クレオールは、NLP研究のために利用可能な資源がほとんどない未調査の言語群であり、クレオールと多くの高リソース言語との系譜的結びつきは、伝達学習の重要な可能性を示しているが、この注釈付きデータが欠如していることから、このポテンシャルは妨げられている。
この研究では、最大28のCreole言語をカバーする8つの異なるNLPタスクにまたがるベンチマークデータセットのコレクションであるCreoleValを紹介します。
ベンチマーク毎にゼロショット設定でベースライン実験を行い、クレオールの移動学習の能力と限界をさらに確認する。
最終的に、CreoleValは、NLPおよび計算言語学におけるクレオールの研究を強化する機会であり、一般的には、世界中のより公平な言語技術への一歩であると考えています。
Creoles represent an under-explored and marginalized group of languages, with few available resources for NLP research.While the genealogical ties between Creoles and a number of highly-resourced languages imply a significant potential for transfer learning, this potential is hampered due to this lack of annotated data. In this work we present CreoleVal, a collection of benchmark datasets spanning 8 different NLP tasks, covering up to 28 Creole languages; it is an aggregate of novel development datasets for reading comprehension, relation classification, and machine translation for Creoles, in addition to a practical gateway to a handful of preexisting benchmarks. For each benchmark, we conduct baseline experiments in a zero-shot setting in order to further ascertain the capabilities and limitations of transfer learning for Creoles. Ultimately, we see CreoleVal as an opportunity to empower research on Creoles in NLP and computational linguistics, and in general, a step towards more equitable language technology around the globe. | 翻訳日:2024-05-03 22:10:30 公開日:2024-05-02 |
# 広告ホック情報検索手法の評価
Evaluating Generative Ad Hoc Information Retrieval ( http://arxiv.org/abs/2311.04694v2 ) ライセンス: Link先を確認 | Lukas Gienapp, Harrisen Scells, Niklas Deckers, Janek Bevendorff, Shuai Wang, Johannes Kiesel, Shahbaz Syed, Maik Fröbe, Guido Zuccon, Benno Stein, Matthias Hagen, Martin Potthast, | (参考訳) 大規模言語モデルにおける最近の進歩は、実行可能な生成検索システムの開発を可能にしている。
従来の文書ランキングの代わりに、多くの生成検索システムは、クエリや質問として表現された情報に対する回答として、接地された生成されたテキストを直接返します。
このような生成的アドホック検索を適切に評価するには,テキスト応答の有用性の定量化が不可欠である。
しかし、ランキングベース検索のための確立された評価手法は、信頼性、再現性、再現性のある回答の評価には適していない。
本稿では、情報検索と自然言語処理の分野から関連文献を調査し、生成検索における探索タスクとシステムアーキテクチャを特定し、対応するユーザモデルを構築し、その運用について検討する。
本分析は, アドホック検索に着目した生成検索システム評価のための基礎と新たな知見を提供する。
Recent advances in large language models have enabled the development of viable generative retrieval systems. Instead of a traditional document ranking, many generative retrieval systems directly return a grounded generated text as an answer to an information need expressed as a query or question. Quantifying the utility of the textual responses is essential for appropriately evaluating such generative ad hoc retrieval. Yet, the established evaluation methodology for ranking-based retrieval is not suited for reliable, repeatable, and reproducible evaluation of generated answers. In this paper, we survey the relevant literature from the fields of information retrieval and natural language processing, we identify search tasks and system architectures in generative retrieval, we develop a corresponding user model, and we study its operationalization. Our analysis provides a foundation and new insights for the evaluation of generative retrieval systems, focusing on ad hoc retrieval. | 翻訳日:2024-05-03 22:10:30 公開日:2024-05-02 |
# ブリッジ次元:高次元制御器の信頼性
Bridging Dimensions: Confident Reachability for High-Dimensional Controllers ( http://arxiv.org/abs/2311.04843v4 ) ライセンス: Link先を確認 | Yuang Geng, Jake Brandon Baldauf, Souradeep Dutta, Chao Huang, Ivan Ruchkin, | (参考訳) 自律システムは、エンド・ツー・エンドの学習ベースのコントローラを使ってますます実装されている。
このようなコントローラは、実際のシステムで実行される決定を行い、イメージを主要なセンシングモダリティの1つとします。
ディープニューラルネットワークは、そのようなコントローラの基本的な構成要素を形成する。
残念ながら、既存のニューラルネットワーク検証ツールは数千の次元の入力にはスケールしない。
本稿では,高次元制御器と全閉ループ検証を接続するための一歩を踏み出した。
我々の重要な洞察は、高次元コントローラの挙動を複数の低次元コントローラで近似できるということである。
低次元コントローラの近似精度と検証可能性のバランスをとるために,我々は最新の検証認識知識蒸留を活用している。
そして,低次元到達度を統計的近似誤差で改善し,高次元制御器に対する高信頼到達性保証を実現する。
トラジェクトリとコントロールアクションに基づく2つのインフレーション手法を調査し、どちらもOpenAIの3つのジムベンチマークで説得力のあるパフォーマンスを示している。
Autonomous systems are increasingly implemented using end-to-end learning-based controllers. Such controllers make decisions that are executed on the real system, with images as one of the primary sensing modalities. Deep neural networks form a fundamental building block of such controllers. Unfortunately, the existing neural-network verification tools do not scale to inputs with thousands of dimensions -- especially when the individual inputs (such as pixels) are devoid of clear physical meaning. This paper takes a step towards connecting exhaustive closed-loop verification with high-dimensional controllers. Our key insight is that the behavior of a high-dimensional controller can be approximated with several low-dimensional controllers. To balance the approximation accuracy and verifiability of our low-dimensional controllers, we leverage the latest verification-aware knowledge distillation. Then, we inflate low-dimensional reachability results with statistical approximation errors, yielding a high-confidence reachability guarantee for the high-dimensional controller. We investigate two inflation techniques -- based on trajectories and control actions -- both of which show convincing performance in three OpenAI gym benchmarks. | 翻訳日:2024-05-03 22:10:30 公開日:2024-05-02 |
# 決定論的画像復元における知覚・ロバスト性トレードオフ
The Perception-Robustness Tradeoff in Deterministic Image Restoration ( http://arxiv.org/abs/2311.09253v2 ) ライセンス: Link先を確認 | Guy Ohayon, Tomer Michaeli, Michael Elad, | (参考訳) 本研究では,画像の逆問題に対する決定論的手法の挙動について検討する。
これらの手法は,(1)高い知覚品質を達成すること,(2)測定値に整合した再構成を生成すること,の2つの目標を達成するために設計されている。
我々は、予測器がこれらの2つの要件を満たすほど、そのリプシッツ定数が大きくなるほど、関連する分解の性質に関係なく、より厳密な証明を与える。
特に、完全な知覚品質と完全整合性にアプローチするには、モデルのリプシッツ定数は無限大に成長しなければならない。
このことは、このような手法が敵の攻撃の影響を受けやすいことを暗示している。
我々は単一画像の超解像アルゴリズムについて,ノイズと雑音の両方に対処する理論を実証する。
また、この望ましくない振る舞いを利用して後続分布を探索し、決定論的モデルが確率的手法を模倣できることを示す。
We study the behavior of deterministic methods for solving inverse problems in imaging. These methods are commonly designed to achieve two goals: (1) attaining high perceptual quality, and (2) generating reconstructions that are consistent with the measurements. We provide a rigorous proof that the better a predictor satisfies these two requirements, the larger its Lipschitz constant must be, regardless of the nature of the degradation involved. In particular, to approach perfect perceptual quality and perfect consistency, the Lipschitz constant of the model must grow to infinity. This implies that such methods are necessarily more susceptible to adversarial attacks. We demonstrate our theory on single image super-resolution algorithms, addressing both noisy and noiseless settings. We also show how this undesired behavior can be leveraged to explore the posterior distribution, thereby allowing the deterministic model to imitate stochastic methods. | 翻訳日:2024-05-03 22:10:30 公開日:2024-05-02 |
# 視覚受容場に対する一般化されたガウス微分モデルに基づく時空間受容場に対する幾何学的画像変換の下での合同共分散特性
Joint covariance properties under geometric image transformations for spatio-temporal receptive fields according to the generalized Gaussian derivative model for visual receptive fields ( http://arxiv.org/abs/2311.10543v5 ) ライセンス: Link先を確認 | Tony Lindeberg, | (参考訳) 自然画像変換が受容野反応に与える影響は、コンピュータビジョンと生物学的ビジョンにおける視覚操作のモデル化に不可欠である。
この点において、視覚階層の最初期の層における幾何学的画像変換に関する共分散特性は、ロバストな画像操作を表現し、より高いレベルで不変な視覚操作を定式化するために不可欠である。
本稿では,空間的スケーリング変換,空間的アフィン変換,ガリレオ変換,時間的スケーリング変換といった構成条件下での結合共分散特性の集合を定義,証明し,異なるタイプの画像変換が相互にどのように相互作用するかを特徴付ける。
ここでは、スケール正規化微分の概念をアフィン正規化微分に拡張し、アフィンガウス核による空間滑らか化に基づいて計算される空間微分の真のアフィン共変特性を得ることができる。
導出された関係は、合成時空間画像変換の下での時空間受容場からの出力と一致するように、受容場のパラメータをどのように変換する必要があるかを示す。
副作用として、異なる幾何学的画像変換の統合結合に対する共同共分散性の証明も、これまで文献で完全に報告されていなかった個々の変換特性の具体的な証明を提供する。
また、導出共分散特性の幾何学的解釈の詳細な理論的解析や、これらの結果の多くの生物学的解釈について概説する。
The influence of natural image transformations on receptive field responses is crucial for modelling visual operations in computer vision and biological vision. In this regard, covariance properties with respect to geometric image transformations in the earliest layers of the visual hierarchy are essential for expressing robust image operations, and for formulating invariant visual operations at higher levels. This paper defines and proves a set of joint covariance properties under compositions of spatial scaling transformations, spatial affine transformations, Galilean transformations and temporal scaling transformations, which make it possible to characterize how different types of image transformations interact with each other and the associated spatio-temporal receptive field responses. In this regard, we also extend the notion of scale-normalized derivatives to affine-normalized derivatives, to be able to obtain true affine-covariant properties of spatial derivatives, that are computed based on spatial smoothing with affine Gaussian kernels. The derived relations show how the parameters of the receptive fields need to be transformed, in order to match the output from spatio-temporal receptive fields under composed spatio-temporal image transformations. As a side effect, the presented proof for the joint covariance property over the integrated combination of the different geometric image transformations also provides specific proofs for the individual transformation properties, which have not previously been fully reported in the literature. The paper also presents an in-depth theoretical analysis of geometric interpretations of the derived covariance properties, as well as outlines a number of biological interpretations of these results. | 翻訳日:2024-05-03 22:10:30 公開日:2024-05-02 |
# StableSSM: 安定再パラメータ化による状態空間モデルのメモリ曲線の緩和
StableSSM: Alleviating the Curse of Memory in State-space Models through Stable Reparameterization ( http://arxiv.org/abs/2311.14495v2 ) ライセンス: Link先を確認 | Shida Wang, Qianxiao Li, | (参考訳) 本稿では,パラメータ化の観点から,状態空間モデル(SSM)の長期記憶学習能力について検討する。
状態空間モデルによって安定に近似できる対象関係は指数的に減衰するメモリを持つ必要がある。
本分析では, 安定境界に収束するリカレント重みの結果として, この「メモリの電流」を同定し, 再パラメータ化手法が有効であることを示す。
そこで本稿では,SSMのメモリ制限を効果的に解消する手法について紹介する。
近似能力の向上に加えて,再パラメータ化方式の原理的選択により最適化安定性が向上することを示す。
本研究は,合成データセット,言語モデル,画像分類を用いて検証する。
In this paper, we investigate the long-term memory learning capabilities of state-space models (SSMs) from the perspective of parameterization. We prove that state-space models without any reparameterization exhibit a memory limitation similar to that of traditional RNNs: the target relationships that can be stably approximated by state-space models must have an exponential decaying memory. Our analysis identifies this ``curse of memory'' as a result of the recurrent weights converging to a stability boundary, suggesting that a reparameterization technique can be effective. To this end, we introduce a class of reparameterization techniques for SSMs that effectively lift its memory limitations. Besides improving approximation capabilities, we further illustrate that a principled choice of reparameterization scheme can also enhance optimization stability. We validate our findings using synthetic datasets, language models and image classifications. | 翻訳日:2024-05-03 22:00:43 公開日:2024-05-02 |
# Atomique: 再構成可能な中性原子配列のための量子コンパイラ
Atomique: A Quantum Compiler for Reconfigurable Neutral Atom Arrays ( http://arxiv.org/abs/2311.15123v2 ) ライセンス: Link先を確認 | Hanrui Wang, Pengyu Liu, Daniel Bochen Tan, Yilian Liu, Jiaqi Gu, David Z. Pan, Jason Cong, Umut A. Acar, Song Han, | (参考訳) 中性原子配列は、そのスケーラビリティと操作の忠実さのために量子コンピューティングで有名になった。
従来の研究は、長距離通信のために広範囲にわたるSWAP操作を必要とする固定原子配列(FAA)に焦点を当てていた。
この研究は、新しいアーキテクチャ再構成可能な原子配列(RAA)、またはフィールドプログラマブル量子ビットアレイ(FPQA)を探索し、回路実行中に一定の制約の下でコヒーレントな原子の動きを可能にする。
このような原子の動きは、この構造に特有のものであり、戦略的に原子の動きをスケジュールすれば、長距離相互作用のコストを大幅に削減できる。
本研究では, 量子ビットマッピング, 原子移動, RAAのためのゲートスケジューリングのためのコンパイルフレームワークAtomiqueを紹介する。
Atomiqueにはqubit-arrayマッパーが含まれており、構築されたゲート周波数グラフ上のMAX k-Cutを利用してSWAPオーバーヘッドを最小限に抑える。
その後、クビット原子マッパーが配列内の特定の原子へのクビットの微細なマッピングを決定し、負荷バランスを考慮してハードウェアの制約違反を防止する。
さらに,並列ゲートを識別し,同時にスケジュールし,深さを低減するルータを提案する。
汎用回路(arbitrary, QASMBench, SupermarQ)、量子シミュレーション、QAOA回路など、20以上の多様なベンチマークでAtomiqueを評価した。
Atomiqueは、IBM Superconducting, FAA with long-range gate, FAA with square and triangular topologies を一貫して上回り、深さと2ビットゲートの数を大幅に減らしている。
The neutral atom array has gained prominence in quantum computing for its scalability and operation fidelity. Previous works focus on fixed atom arrays (FAAs) that require extensive SWAP operations for long-range interactions. This work explores a novel architecture reconfigurable atom arrays (RAAs), also known as field programmable qubit arrays (FPQAs), which allows for coherent atom movements during circuit execution under some constraints. Such atom movements, which are unique to this architecture, could reduce the cost of long-range interactions significantly if the atom movements could be scheduled strategically. In this work, we introduce Atomique, a compilation framework designed for qubit mapping, atom movement, and gate scheduling for RAA. Atomique contains a qubit-array mapper to decide the coarse-grained mapping of the qubits to arrays, leveraging MAX k-Cut on a constructed gate frequency graph to minimize SWAP overhead. Subsequently, a qubit-atom mapper determines the fine-grained mapping of qubits to specific atoms in the array and considers load balance to prevent hardware constraint violations. We further propose a router that identifies parallel gates, schedules them simultaneously, and reduces depth. We evaluate Atomique across 20+ diverse benchmarks, including generic circuits (arbitrary, QASMBench, SupermarQ), quantum simulation, and QAOA circuits. Atomique consistently outperforms IBM Superconducting, FAA with long-range gates, and FAA with rectangular and triangular topologies, achieving significant reductions in depth and the number of two-qubit gates. | 翻訳日:2024-05-03 22:00:43 公開日:2024-05-02 |
# 雑音量子コンピュータ上のSachdev-Ye-Kitaevモデル
Sachdev-Ye-Kitaev model on a noisy quantum computer ( http://arxiv.org/abs/2311.17991v4 ) ライセンス: Link先を確認 | Muhammad Asaduzzaman, Raghav G. Jha, Bharath Sambasivam, | (参考訳) 我々は、IBMの超伝導量子ビット量子コンピュータ上で、量子重力の重要な玩具モデルであるSYKモデルを研究する。
グラフカラー化アルゴリズムを用いて、量子化ハミルトニアンにおける項の可換クラスタ数を最小化することにより、$N$Majorana fermionsの1次積公式を用いて時間進化のゲート複雑性が$\mathcal{O}(N^5 J^{2}t^2/\epsilon)$であるのに対して、$J$は次元結合パラメータであり、$t$は進化時間であり、$\epsilon$は所望の精度である。
この改良により、最大2量子ビット回路深さ343のN=6, 8$の時間発展を行う。
我々は、ノイズの多いハードウェア上で異なる誤差軽減方式を実行し、古典コンピュータやノイズレスシミュレータ上での正確な対角化結果とよく一致している。
特に、量子系のカオスの性質を定量化するための標準観測可能な、時間$t$と時間外順序相関器(OTOC)の後の戻り確率を計算する。
We study the SYK model -- an important toy model for quantum gravity on IBM's superconducting qubit quantum computers. By using a graph-coloring algorithm to minimize the number of commuting clusters of terms in the qubitized Hamiltonian, we find the gate complexity of the time evolution using the first-order product formula for $N$ Majorana fermions is $\mathcal{O}(N^5 J^{2}t^2/\epsilon)$ where $J$ is the dimensionful coupling parameter, $t$ is the evolution time, and $\epsilon$ is the desired precision. With this improved resource requirement, we perform the time evolution for $N=6, 8$ with maximum two-qubit circuit depth of 343. We perform different error mitigation schemes on the noisy hardware results and find good agreement with the exact diagonalization results on classical computers and noiseless simulators. In particular, we compute return probability after time $t$ and out-of-time order correlators (OTOC) which is a standard observable of quantifying the chaotic nature of quantum systems. | 翻訳日:2024-05-03 22:00:43 公開日:2024-05-02 |
# ロボットにおけるトランスファーラーニング : 今後のブレークスルー : 約束と挑戦
Transfer Learning in Robotics: An Upcoming Breakthrough? A Review of Promises and Challenges ( http://arxiv.org/abs/2311.18044v3 ) ライセンス: Link先を確認 | Noémie Jaquier, Michael C. Welle, Andrej Gams, Kunpeng Yao, Bernardo Fichera, Aude Billard, Aleš Ude, Tamim Asfour, Danica Kragic, | (参考訳) トランスファーラーニング(Transfer Learning)は、真にインテリジェントなエンボディエージェントを追求する概念的なパラダイムである。
新たな状況から学び、そこから学ぶための事前知識の再利用という中心的な概念は、人間が新しい状況に対処するためにうまく活用されている。
近年では、模倣学習、ドメイン適応、シミュレーションから実世界への体験の移譲など、様々な視点からコミュニティから新たな関心を集めている。
本稿では,ロボット工学における伝達学習の概念を統一し,ロボット,タスク,環境といった重要な概念を考慮に入れた最初の分類法を提供する。
この分野における約束と課題のレビューを通じて、異なる抽象レベルでの転送の必要性、転送ギャップの定量化の必要性、転送品質、および負の転送の危険性を特定する。
この立場から,ロボット工学における伝達学習の可能性を実現するために,コミュニティの努力を最も重要な道路ブロックへと導いていくことを願っている。
Transfer learning is a conceptually-enticing paradigm in pursuit of truly intelligent embodied agents. The core concept -- reusing prior knowledge to learn in and from novel situations -- is successfully leveraged by humans to handle novel situations. In recent years, transfer learning has received renewed interest from the community from different perspectives, including imitation learning, domain adaptation, and transfer of experience from simulation to the real world, among others. In this paper, we unify the concept of transfer learning in robotics and provide the first taxonomy of its kind considering the key concepts of robot, task, and environment. Through a review of the promises and challenges in the field, we identify the need of transferring at different abstraction levels, the need of quantifying the transfer gap and the quality of transfer, as well as the dangers of negative transfer. Via this position paper, we hope to channel the effort of the community towards the most significant roadblocks to realize the full potential of transfer learning in robotics. | 翻訳日:2024-05-03 22:00:43 公開日:2024-05-02 |
# 局所的な深部表現を用いた指紋照合
Fingerprint Matching with Localized Deep Representation ( http://arxiv.org/abs/2311.18576v2 ) ライセンス: Link先を確認 | Yongjie Duan, Zhiyu Pan, Jianjiang Feng, Jie Zhou, | (参考訳) 栄養素に基づく指紋表現と比較して、固定長表現は単純で効率的なマッチングのために魅力的である。
固定長の指紋表現は、異なる指紋ポーズや取得方法によって生じる異なる可視領域の指紋をマッチングする場合に、精度が制限される。
この問題に対処するために,LDRFという指紋の局所的な深部表現を提案する。
LDRFは局所領域における識別特性に焦点をあてることで、可変可視領域を持つ指紋に対して、より堅牢で正確な固定長表現を提供する。
LDRFは任意の有効な領域に情報を保持するように適応することができ、柔軟性が高い。
LDRFによるマッチングスコアも直感的な統計特性を示し,非常に小さな重複領域の場合の不確実性を軽減するために,マッチングスコア正規化手法を提案する。
この新しい手法では,データベースのサイズが急速に拡大しても,指紋マッチングにおいて高い精度と信頼性を維持することができる。
種々の指ポーズと印象型の140K以上の指紋を含む21個のデータセットを用いた実験結果,LDRFが他の固定長表現よりも優れており,センシング技術や印象型に頑健であることがわかった。
さらに,提案したマッチングスコア正規化は,5.11万以上の指紋を含む大規模識別実験において,偽一致率(FMR)を効果的に低減する。
特に, この手法は, スコア正規化を伴わないマッチングに比べて2桁の精度を低下させ, 先行処理に比べて5桁の精度を低下させる。
Compared to minutia-based fingerprint representations, fixed-length representations are attractive due to simple and efficient matching. However, fixed-length fingerprint representations are limited in accuracy when matching fingerprints with different visible areas, which can occur due to different finger poses or acquisition methods. To address this issue, we propose a localized deep representation of fingerprint, named LDRF. By focusing on the discriminative characteristics within local regions, LDRF provides a more robust and accurate fixed-length representation for fingerprints with variable visible areas. LDRF can be adapted to retain information within any valid area, making it highly flexible. The matching scores produced by LDRF also exhibit intuitive statistical characteristics, which led us to propose a matching score normalization technique to mitigate the uncertainty in the cases of very small overlapping area. With this new technique, we can maintain a high level of accuracy and reliability in our fingerprint matching, even as the size of the database grows rapidly. Our experimental results on 21 datasets containing over 140K fingerprints of various finger poses and impression types show that LDRF outperforms other fixed-length representations and is robust to sensing technologies and impression types. Besides, the proposed matching score normalization effectively reduces the false match rate (FMR) in large-scale identification experiments comprising over 5.11 million fingerprints. Specifically, this technique results in a reduction of two orders of magnitude compared to matching without matching score normalization and five orders of magnitude compared to prior works. | 翻訳日:2024-05-03 22:00:43 公開日:2024-05-02 |
# 言語モデルにおける透かしの学習性について
On the Learnability of Watermarks for Language Models ( http://arxiv.org/abs/2312.04469v3 ) ライセンス: Link先を確認 | Chenchen Gu, Xiang Lisa Li, Percy Liang, Tatsunori Hashimoto, | (参考訳) 言語モデル出力の透かしにより、モデル生成テキストの統計的検出が可能となり、言語モデルの害や誤用を軽減することができる。
既存のウォーターマーキング戦略は、既存の言語モデルのデコーダを変更することで機能する。
本稿では,実際の透かしの展開に重要な意味を持つ透かし文を生成するために,言語モデルが直接学習できるかどうかを問う。
まず、学習した透かしを使って、自然に透かしのテキストを生成するオープンモデルを構築することができる。
第二に、生成されたテキストの出所を決定するために透かしを用いると、敵は透かしを偽造し、有害な透かしを発生させることで、被害者モデルの評判を損なう可能性がある。
電子透かしを用いた電子透かしを用いた電子透かしによる電子透かしによる電子透かしによる電子透かしの学習性について検討するため,学生モデルに復号型透かしを用いた教師モデルとしての振る舞いを訓練する透かし蒸留法を提案する。
提案手法は,3つの復号型透かし戦略と様々なハイパーパラメータ設定で検証し,高い検出性で透かし付きテキストの生成を学習できることを見出した。
また,テキストの微調整による透かし能力の喪失や,低歪み透かしを学習する際のサンプルの複雑さなど,学習可能性の制限も見いだす。
Watermarking of language model outputs enables statistical detection of model-generated text, which can mitigate harms and misuses of language models. Existing watermarking strategies operate by altering the decoder of an existing language model. In this paper, we ask whether language models can directly learn to generate watermarked text, which would have significant implications for the real-world deployment of watermarks. First, learned watermarks could be used to build open models that naturally generate watermarked text, enabling watermarking for open models, where users can control the decoding procedure. Second, if watermarking is used to determine the provenance of generated text, an adversary can hurt the reputation of a victim model by spoofing its watermark and generating damaging watermarked text. To investigate the learnability of watermarks, we propose watermark distillation, which trains a student model to behave like a teacher model that uses decoding-based watermarking. We test our approach on three decoding-based watermarking strategies and various hyperparameter settings, finding that models can learn to generate watermarked text with high detectability. We also find limitations to learnability, including the loss of watermarking capabilities under fine-tuning on normal text and high sample complexity when learning low-distortion watermarks. | 翻訳日:2024-05-03 22:00:43 公開日:2024-05-02 |
# エッジレベルEgo-NetworkエンコーディングによるサブグラフGNNの改善
Improving Subgraph-GNNs via Edge-Level Ego-Network Encodings ( http://arxiv.org/abs/2312.05905v2 ) ライセンス: Link先を確認 | Nurudin Alvarez-Gonzalez, Andreas Kaltenbrunner, Vicenç Gómez, | (参考訳) 本稿では,ノードやエッジ機能の追加やメッセージパッシングフォーマットの拡張によって,MP-GNN(Message Passing Graph Neural Networks)を強化可能な,グラフ上での新たなエッジレベルのego-network符号化を提案する。
提案した符号化法は,3WL相当グラフ群であるStrongly Regular Graphsを識別するのに十分である。
このような符号化はノードベースのMP-GNNよりも表現力が高いことを示す。
10のグラフデータセットを持つ4つのベンチマークに対する実証的な評価では、実際の設定ではメモリ使用量を18.1倍削減しつつ、表現性、グラフ分類、グラフ回帰、近接タスクの以前のベースラインにマッチまたは改善しています。
We present a novel edge-level ego-network encoding for learning on graphs that can boost Message Passing Graph Neural Networks (MP-GNNs) by providing additional node and edge features or extending message-passing formats. The proposed encoding is sufficient to distinguish Strongly Regular Graphs, a family of challenging 3-WL equivalent graphs. We show theoretically that such encoding is more expressive than node-based sub-graph MP-GNNs. In an empirical evaluation on four benchmarks with 10 graph datasets, our results match or improve previous baselines on expressivity, graph classification, graph regression, and proximity tasks -- while reducing memory usage by 18.1x in certain real-world settings. | 翻訳日:2024-05-03 22:00:43 公開日:2024-05-02 |
# 有限相関状態の学習:スペクトル再構成の安定性
Learning finitely correlated states: stability of the spectral reconstruction ( http://arxiv.org/abs/2312.07516v2 ) ライセンス: Link先を確認 | Marco Fanizza, Niklas Galke, Josep Lumbreras, Cambyse Rouzé, Andreas Winter, | (参考訳) 鎖上の有限相関変換不変状態の$t$系のブロックの辺は、その状態から構築されたある写像の局所次元、メモリ次元、スペクトル特性に明示的に依存した$O(t^2)$コピーと、$t$の計算複雑性多項式によって、トレース距離で学習できることが示される。
このアルゴリズムは、最小結合次元に縛られる最悪の場合において、制御された大きさの辺りの推定のみを必要とし、そこから変換不変行列積演算子を再構成する。
解析において、中心的な役割は作用素系の理論によって演じられる。
洗練されたエラー境界は、メモリシステムに適用された逐次量子チャネルの操作的解釈を持つ$C^*$-finitely correlation(英語版)状態に対して証明することができる。
また、局所境界によって再構成可能な行列積密度作用素のクラスに対する類似誤差を得ることもできる。
この場合、線形数の限界を推定し、サンプルの複雑さは$\tilde{O}(t^3)$である。
学習アルゴリズムは、有限相関状態にしか近づかない状態に対しても有効であり、他の興味深い状態の族に対して競合アルゴリズムを提供する可能性がある。
We show that marginals of blocks of $t$ systems of any finitely correlated translation invariant state on a chain can be learned, in trace distance, with $O(t^2)$ copies -- with an explicit dependence on local dimension, memory dimension and spectral properties of a certain map constructed from the state -- and computational complexity polynomial in $t$. The algorithm requires only the estimation of a marginal of a controlled size, in the worst case bounded by the minimum bond dimension, from which it reconstructs a translation invariant matrix product operator. In the analysis, a central role is played by the theory of operator systems. A refined error bound can be proven for $C^*$-finitely correlated states, which have an operational interpretation in terms of sequential quantum channels applied to the memory system. We can also obtain an analogous error bound for a class of matrix product density operators reconstructible by local marginals. In this case, a linear number of marginals must be estimated, obtaining a sample complexity of $\tilde{O}(t^3)$. The learning algorithm also works for states that are only close to a finitely correlated state, with the potential of providing competitive algorithms for other interesting families of states. | 翻訳日:2024-05-03 22:00:43 公開日:2024-05-02 |
# Sparseは、微調整された事前訓練された大規模言語モデルで十分である
Sparse is Enough in Fine-tuning Pre-trained Large Language Models ( http://arxiv.org/abs/2312.11875v2 ) ライセンス: Link先を確認 | Weixi Song, Zuchao Li, Lefei Zhang, Hai Zhao, Bo Du, | (参考訳) トレーニング済みの微調整パラダイムが普及するにつれて、トレーニング済みモデルを下流タスクに効率的に適応する方法が興味深い問題となっている。
パラメータ効率の良いファインチューニング法 (PEFT) が低コストな適応法として提案されている。
PEFTは有効性を示し、広く応用されているが、根本原理はまだ不明である。
本稿では、事前学習を事前分布のシフトと見なして、PAC-ベイジアン一般化誤差を一般化誤差のより厳密な境界に導く。
我々はこの変化を、損失景観における振動と勾配分布における準スパーシティーの観点から検証する。
そこで本研究では,Sparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
コードはhttps://github.com/song-wx/SIFT/でアクセスできる。
With the prevalence of pre-training-fine-tuning paradigm, how to efficiently adapt the pre-trained model to the downstream tasks has been an intriguing issue. Parameter-Efficient Fine-Tuning (PEFT) methods have been proposed for low-cost adaptation. Although PEFT has demonstrated effectiveness and been widely applied, the underlying principles are still unclear. In this paper, we adopt the PAC-Bayesian generalization error bound, viewing pre-training as a shift of prior distribution which leads to a tighter bound for generalization error. We validate this shift from the perspectives of oscillations in the loss landscape and the quasi-sparsity in gradient distribution. Based on this, we propose a gradient-based sparse fine-tuning algorithm, named Sparse Increment Fine-Tuning (SIFT), and validate its effectiveness on a range of tasks including the GLUE Benchmark and Instruction-tuning. The code is accessible at https://github.com/song-wx/SIFT/. | 翻訳日:2024-05-03 22:00:43 公開日:2024-05-02 |
# 自己組織型ガウス格子によるコンパクトな3次元シーン表現
Compact 3D Scene Representation via Self-Organizing Gaussian Grids ( http://arxiv.org/abs/2312.13299v2 ) ライセンス: Link先を確認 | Wieland Morgenstern, Florian Barthel, Anna Hilsmann, Peter Eisert, | (参考訳) 3D Gaussian Splattingは、静的な3Dシーンをモデリングするための非常に有望なテクニックとして最近登場した。
Neural Radiance Fieldsとは対照的に、高速な高速レンダリングを可能にする効率的なラスタライゼーションを利用している。
しかし、ストレージサイズは著しく高く、例えばリソース制約のあるデバイスでは、実際のデプロイメントを妨げます。
本稿では,3次元ガウス平板(3DGS)のパラメータを局所的均一性を持つ2次元グリッドに整理したコンパクトなシーン表現を導入する。
私たちの考えの中心は、自然界に存在する知覚的冗長性の明示的な利用である。
本質的に、シーンの本質的な性質は、ガウスパラメータの多数の置換を同値に表現することができる。
そこで本研究では,高次元ガウスパラメータを2次元格子に規則的に配置し,その近傍構造を保存した新しい並列アルゴリズムを提案する。
トレーニング中、グリッド内のソートされたパラメータ間の局所的な滑らかさをさらに強化する。
圧縮されていないガウス人は3DGSと同じ構造を使い、確立したレンダラーとのシームレスな統合を保証する。
本手法は,3次元シーンの分布と消費の領域において,トレーニング時間の増加を伴わない複雑なシーンに対して,17倍から42倍の縮小係数を実現する。
詳細はプロジェクトのページにある。 https://fraunhoferhhi.github.io/Self-Organizing-Gaussians/
3D Gaussian Splatting has recently emerged as a highly promising technique for modeling of static 3D scenes. In contrast to Neural Radiance Fields, it utilizes efficient rasterization allowing for very fast rendering at high-quality. However, the storage size is significantly higher, which hinders practical deployment, e.g. on resource constrained devices. In this paper, we introduce a compact scene representation organizing the parameters of 3D Gaussian Splatting (3DGS) into a 2D grid with local homogeneity, ensuring a drastic reduction in storage requirements without compromising visual quality during rendering. Central to our idea is the explicit exploitation of perceptual redundancies present in natural scenes. In essence, the inherent nature of a scene allows for numerous permutations of Gaussian parameters to equivalently represent it. To this end, we propose a novel highly parallel algorithm that regularly arranges the high-dimensional Gaussian parameters into a 2D grid while preserving their neighborhood structure. During training, we further enforce local smoothness between the sorted parameters in the grid. The uncompressed Gaussians use the same structure as 3DGS, ensuring a seamless integration with established renderers. Our method achieves a reduction factor of 17x to 42x in size for complex scenes with no increase in training time, marking a substantial leap forward in the domain of 3D scene distribution and consumption. Additional information can be found on our project page: https://fraunhoferhhi.github.io/Self-Organizing-Gaussians/ | 翻訳日:2024-05-03 22:00:43 公開日:2024-05-02 |
# 構造化確率符号化
Structured Probabilistic Coding ( http://arxiv.org/abs/2312.13933v5 ) ライセンス: Link先を確認 | Dou Hu, Lingwei Wei, Yaxin Liu, Wei Zhou, Songlin Hu, | (参考訳) 本稿では,対象タスクに関連する入力からコンパクトかつ情報的表現を学習するための,新しい教師付き表現学習フレームワーク,すなわち構造化確率符号化(SPC)を提案する。
SPCはエンコーダのみの確率的符号化技術であり、ターゲット空間から構造化された正規化を持つ。
事前訓練された言語モデルの一般化能力を高め、言語理解を向上させることができる。
具体的には,1つのモジュールで情報符号化とタスク予測を同時に行うことで,入力データから有効な情報をより完全に活用する。
出力空間における変分推論を用いて、ランダム性と不確実性を低減する。
さらに、確率的表現の学習過程をよりよく制御するために、潜在空間におけるクラス間の均一性を促進するために構造化正規化を提案する。
正規化項により、SPCは潜伏符号のガウス構造を保ち、クラスで隠された空間を均一にカバーできる。
12の自然言語理解タスクに関する実験結果から,SPCが事前学習した言語モデルの性能を効果的に向上することが示された。
大規模な実験により、SPCは出力表現の一般化能力、ラベルノイズに対する堅牢性、クラスタリング品質を向上させることができることが示された。
This paper presents a new supervised representation learning framework, namely structured probabilistic coding (SPC), to learn compact and informative representations from input related to the target task. SPC is an encoder-only probabilistic coding technology with a structured regularization from the target space. It can enhance the generalization ability of pre-trained language models for better language understanding. Specifically, our probabilistic coding simultaneously performs information encoding and task prediction in one module to more fully utilize the effective information from input data. It uses variational inference in the output space to reduce randomness and uncertainty. Besides, to better control the learning process of probabilistic representations, a structured regularization is proposed to promote uniformity across classes in the latent space. With the regularization term, SPC can preserve the Gaussian structure of the latent code and achieve better coverage of the hidden space with class uniformly. Experimental results on 12 natural language understanding tasks demonstrate that our SPC effectively improves the performance of pre-trained language models for classification and regression. Extensive experiments show that SPC can enhance the generalization capability, robustness to label noise, and clustering quality of output representations. | 翻訳日:2024-05-03 22:00:43 公開日:2024-05-02 |
# ランダム化コンパイルによる適応フィードバックに対する中間回路測定の準確率的読み出し補正
Quasi-Probabilistic Readout Correction of Mid-Circuit Measurements for Adaptive Feedback via Measurement Randomized Compiling ( http://arxiv.org/abs/2312.14139v4 ) ライセンス: Link先を確認 | Akel Hashim, Arnaud Carignan-Dugas, Larry Chen, Christian Juenger, Neelay Fruitwala, Yilun Xu, Gang Huang, Joel J. Wallman, Irfan Siddiqi, | (参考訳) 量子測定は量子コンピューティングの基本的な構成要素である。
しかし、現代の量子コンピュータでは、測定は量子ゲートよりもエラーを起こしやすく、測定クロストークによる非局所的相関だけでなく、非単位誤差にも影響を受けやすい。
読み出しエラーは後処理で軽減できるが、組合せ的に大きな可能な状態の数を特徴付ける必要があるため、キュービット数では非効率である。
本研究では, ランダム化コンパイルを用いた単純な確率的誤差モデルに補正し, 指数的に大きな混乱行列における単一準備状態の測定から再構成した準確率分布による読み出し誤差の効率的な緩和を可能にすることを示す。
本研究では,8個の超伝導トランスモン量子ビットのレジスタに印加された多数の準備状態に対して,行列反転を伴わない読み出し誤差を補正することにより,このアプローチのスケーラビリティとパワーを実証する。
さらに,本手法は,準確率的誤差キャンセルによるアクティブフィードバックに用いる中間回路計測に拡張可能であること,また,絡み合ったメモリ量子ビット上のビットフリップ誤差を検出し,積極的に補正するために使用するアンシラ量子ビットにおける測定誤差の補正を示す。
提案手法は,多数の量子ビット上での読み出し誤差の補正を可能にするとともに,実時間で非局所量子ビットの条件演算を行うために,中間回路計測結果を用いた適応回路における読み出し誤差の補正手法を提供する。
Quantum measurements are a fundamental component of quantum computing. However, on modern-day quantum computers, measurements can be more error prone than quantum gates, and are susceptible to non-unital errors as well as non-local correlations due to measurement crosstalk. While readout errors can be mitigated in post-processing, it is inefficient in the number of qubits due to a combinatorially-large number of possible states that need to be characterized. In this work, we show that measurement errors can be tailored into a simple stochastic error model using randomized compiling, enabling the efficient mitigation of readout errors via quasi-probability distributions reconstructed from the measurement of a single preparation state in an exponentially large confusion matrix. We demonstrate the scalability and power of this approach by correcting readout errors without matrix inversion on a large number of different preparation states applied to a register of eight superconducting transmon qubits. Moreover, we show that this method can be extended to mid-circuit measurements used for active feedback via quasi-probabilistic error cancellation, and demonstrate the correction of measurement errors on an ancilla qubit used to detect and actively correct bit-flip errors on an entangled memory qubit. Our approach enables the correction of readout errors on large numbers of qubits, and offers a strategy for correcting readout errors in adaptive circuits in which the results of mid-circuit measurements are used to perform conditional operations on non-local qubits in real time. | 翻訳日:2024-05-03 22:00:43 公開日:2024-05-02 |
# ソフトQ-ラーニングによる最大エントロピーGFlowNets
Maximum entropy GFlowNets with soft Q-learning ( http://arxiv.org/abs/2312.14331v2 ) ライセンス: Link先を確認 | Sobhan Mohammadpour, Emmanuel Bengio, Emma Frejinger, Pierre-Luc Bacon, | (参考訳) Generative Flow Networks (GFNs) は、非正規分布から離散オブジェクトをサンプリングする強力なツールとして登場し、Markov Chain Monte Carlo (MCMC) 法に代わるスケーラブルな代替手段を提供している。
GFNは最大エントロピー強化学習(英語版)(英語版) (RL) からインスピレーションを得ているが、両者のつながりは明らかになっていない。
本稿では、適切な報酬関数を構築し、GFNと最大エントロピーRLの正確な関係を確立することにより、接続に対処する。
この構成により、一様後方方針を持つGFNとは対照的に、状態空間に制約を加えることなくGFNが達成できる最大エントロピーを実現することができる。
Generative Flow Networks (GFNs) have emerged as a powerful tool for sampling discrete objects from unnormalized distributions, offering a scalable alternative to Markov Chain Monte Carlo (MCMC) methods. While GFNs draw inspiration from maximum entropy reinforcement learning (RL), the connection between the two has largely been unclear and seemingly applicable only in specific cases. This paper addresses the connection by constructing an appropriate reward function, thereby establishing an exact relationship between GFNs and maximum entropy RL. This construction allows us to introduce maximum entropy GFNs, which, in contrast to GFNs with uniform backward policy, achieve the maximum entropy attainable by GFNs without constraints on the state space. | 翻訳日:2024-05-03 22:00:43 公開日:2024-05-02 |
# 時系列を個別に埋め込む学習
Learning to Embed Time Series Patches Independently ( http://arxiv.org/abs/2312.16427v4 ) ライセンス: Link先を確認 | Seunghan Lee, Taeyoung Park, Kibok Lee, | (参考訳) 近年,時系列モデリングは時系列の自己教師型表現学習戦略として注目されている。
コンピュータビジョンにおけるマスク付きイメージモデリングにインスパイアされた最近の研究は、まず最初にパッチをパッチ化し、部分的に時系列をマスクアウトし、次にトランスフォーマーをトレーニングして、マスク付きパッチを未マスクのパッチから予測することでパッチ間の依存関係をキャプチャする。
しかし、このようなパッチ依存関係をキャプチャすることは、時系列表現学習の最適戦略ではなく、個別にパッチを埋め込む学習は、より良い時系列表現をもたらす。
具体的には
1)他のパッチを見ることなく各パッチを自動エンコードする簡単なパッチ再構築タスク。
2) パッチを個別に埋め込むシンプルなパッチワイドMLP。
さらに,隣接時系列情報の階層的取得を効率的に行うために,補完的コントラスト学習を導入する。
提案手法は,現状のトランスフォーマーモデルと比較して時系列予測と分類性能を向上し,パラメータ数やトレーニング/推論時間の観点からより効率的である。
コードは、このリポジトリで入手できる。
Masked time series modeling has recently gained much attention as a self-supervised representation learning strategy for time series. Inspired by masked image modeling in computer vision, recent works first patchify and partially mask out time series, and then train Transformers to capture the dependencies between patches by predicting masked patches from unmasked patches. However, we argue that capturing such patch dependencies might not be an optimal strategy for time series representation learning; rather, learning to embed patches independently results in better time series representations. Specifically, we propose to use 1) the simple patch reconstruction task, which autoencode each patch without looking at other patches, and 2) the simple patch-wise MLP that embeds each patch independently. In addition, we introduce complementary contrastive learning to hierarchically capture adjacent time series information efficiently. Our proposed method improves time series forecasting and classification performance compared to state-of-the-art Transformer-based models, while it is more efficient in terms of the number of parameters and training/inference time. Code is available at this repository: https://github.com/seunghan96/pits. | 翻訳日:2024-05-03 22:00:43 公開日:2024-05-02 |
# 注意力強化型貯留層計算
Attention-Enhanced Reservoir Computing ( http://arxiv.org/abs/2312.16503v2 ) ライセンス: Link先を確認 | Felix Köster, Kazutaka Kanno, Jun Ohkubo, Atsushi Uchida, | (参考訳) フォトニック貯水池コンピューティングは、ハードウェア実装の必要性が高まるにつれて、時系列予測においてうまく活用されている。
従来の貯水池計算フレームワークが予測精度の限界に直面する領域である。
出力段階における貯水池計算モデルに注意機構を導入する。
この注目層は、異なる特徴や時間的シーケンスを優先し、予測精度を大幅に向上させるように設計されている。
以上の結果から,アテンション機構により強化されたフォトニック貯水池コンピュータは,より小型の貯水池の予測能力を向上することを示した。
これらの進歩は、カオス時系列の正確な予測が不可欠である実用的な応用のための貯水池計算の変換可能性を強調している。
Photonic reservoir computing has been successfully utilized in time-series prediction as the need for hardware implementations has increased. Prediction of chaotic time series remains a significant challenge, an area where the conventional reservoir computing framework encounters limitations of prediction accuracy. We introduce an attention mechanism to the reservoir computing model in the output stage. This attention layer is designed to prioritize distinct features and temporal sequences, thereby substantially enhancing the prediction accuracy. Our results show that a photonic reservoir computer enhanced with the attention mechanism exhibits improved prediction capabilities for smaller reservoirs. These advancements highlight the transformative possibilities of reservoir computing for practical applications where accurate prediction of chaotic time series is crucial. | 翻訳日:2024-05-03 21:50:58 公開日:2024-05-02 |
# モーフィング・トークンは、強いマスク画像モデルを描く
Morphing Tokens Draw Strong Masked Image Models ( http://arxiv.org/abs/2401.00254v2 ) ライセンス: Link先を確認 | Taekyung Kim, Byeongho Heo, Dongyoon Han, | (参考訳) Masked Image Modeling (MIM)は、様々な自己教師付き学習(SSL)メソッドの中でビジョントランスフォーマーをトレーニングするための有望な選択肢である。
MIMの本質はトークン単位のマスク付きトークン予測にあり、ターゲットは画像からトークン化されたり、視覚言語モデルのような事前訓練されたモデルによって生成される。
トークン化器や事前訓練されたモデルがMIMターゲットであるのに対して、近隣のトークンに対しても空間的に一貫性のないターゲットを提供し、統一された識別表現を学習するためにモデルを複雑にすることが多い。
実験により,空間的不整合に対処することで,表現の質が向上する可能性が確認された。
本研究の目的は,動的トークンを動的に集約し,コンテキスト化されたターゲットを生成する,動的トーケンモーフィング (DTM) と呼ばれる新しい自己超越信号を導入することである。
DTMはさまざまなSSLフレームワークと互換性があり、DTMを採用することで改善されたMIMを示します。
ImageNet-1K と ADE20K に関する実験は、最先端の複雑なMIM 手法と比較して、我々の手法の優位性を実証している。
さらに,iNaturalistと細粒度視覚分類データセットの比較により,下流タスクにおける本手法の伝達性について検証した。
コードはhttps://github.com/naver-ai/dtmで入手できる。
Masked image modeling (MIM) is a promising option for training Vision Transformers among various self-supervised learning (SSL) methods. The essence of MIM lies in token-wise masked token predictions, with targets tokenized from images or generated by pre-trained models such as vision-language models. While tokenizers or pre-trained models are plausible MIM targets, they often offer spatially inconsistent targets even for neighboring tokens, complicating models to learn unified discriminative representations. Our pilot study confirms that addressing spatial inconsistencies has the potential to enhance representation quality. Motivated by the findings, we introduce a novel self-supervision signal called Dynamic Token Morphing (DTM), which dynamically aggregates contextually related tokens to yield contextualized targets. DTM is compatible with various SSL frameworks; we showcase an improved MIM by employing DTM, barely introducing extra training costs. Our experiments on ImageNet-1K and ADE20K demonstrate the superiority of our methods compared with state-of-the-art, complex MIM methods. Furthermore, the comparative evaluation of the iNaturalists and fine-grained visual classification datasets further validates the transferability of our method on various downstream tasks. Code is available at https://github.com/naver-ai/dtm | 翻訳日:2024-05-03 21:50:58 公開日:2024-05-02 |
# 四次時間におけるスケーラブルネットワーク再構築
Scalable network reconstruction in subquadratic time ( http://arxiv.org/abs/2401.01404v4 ) ライセンス: Link先を確認 | Tiago P. Peixoto, | (参考訳) ネットワーク再構築は、それらの結合(典型的には、グラフィカルモデルからの時系列または独立したサンプル)に条件づけられた、結果の振る舞いに関する観測データのみを与えられた$N$ノード間の、観測されていないペアワイズ結合を決定することである。
この問題のために提案されたアルゴリズムのスケーラビリティに対する大きな障害は、少なくとも一度は考えられるペアワイズ結合の要求に対応する、$\Omega(N^2)$という一見避けられない二次複雑性である。
ここでは、この2次ベースラインを大幅に上回る幅広い再構成問題に適用可能な一般アルゴリズムを提案する。
我々のアルゴリズムは、確率的に2番目の隣人探索(Dong et al , 2011)に依存し、高い確率で最適なエッジ候補を生成する。
第二隣の探索が対数直線時間で終了する(Baron & Darling, 2020; 2022)という予想を頼りにすれば、我々のアルゴリズムは準四進時間で終了し、データ依存の複雑さは$O(N^{3/2}\log N)$でゆるやかに上界するが、より典型的な対数直線の複雑性は$O(N\log^2N)$である。
実際、我々のアルゴリズムは2次ベースラインよりも桁違いに高速な並列化を実現し、数十万のノードとエッジによるネットワークの再構築を可能にした。
Network reconstruction consists in determining the unobserved pairwise couplings between $N$ nodes given only observational data on the resulting behavior that is conditioned on those couplings -- typically a time-series or independent samples from a graphical model. A major obstacle to the scalability of algorithms proposed for this problem is a seemingly unavoidable quadratic complexity of $\Omega(N^2)$, corresponding to the requirement of each possible pairwise coupling being contemplated at least once, despite the fact that most networks of interest are sparse, with a number of non-zero couplings that is only $O(N)$. Here we present a general algorithm applicable to a broad range of reconstruction problems that significantly outperforms this quadratic baseline. Our algorithm relies on a stochastic second neighbor search (Dong et al., 2011) that produces the best edge candidates with high probability, thus bypassing an exhaustive quadratic search. If we rely on the conjecture that the second-neighbor search finishes in log-linear time (Baron & Darling, 2020; 2022), we demonstrate theoretically that our algorithm finishes in subquadratic time, with a data-dependent complexity loosely upper bounded by $O(N^{3/2}\log N)$, but with a more typical log-linear complexity of $O(N\log^2N)$. In practice, we show that our algorithm achieves a performance that is many orders of magnitude faster than the quadratic baseline -- in a manner consistent with our theoretical analysis -- allows for easy parallelization, and thus enables the reconstruction of networks with hundreds of thousands and even millions of nodes and edges. | 翻訳日:2024-05-03 21:50:58 公開日:2024-05-02 |
# 炭化ケイ素導波路繊維界面の精密評価
Precise characterization of a silicon carbide waveguide fiber interface ( http://arxiv.org/abs/2401.06096v3 ) ライセンス: Link先を確認 | Marcel Krumrein, Raphael Nold, Flavie Davidson-Marquis, Arthur Bourama, Lukas Niechziol, Timo Steidl, Ruoming Peng, Jonathan Körber, Rainer Stöhr, Nils Gross, Jurgen Smet, Jawad Ul-Hassan, Péter Udvarhelyi, Adam Gali, Florian Kaiser, Jörg Wrachtrup, | (参考訳) 4H-SiCのような高屈折率材料中のエミッタは、内部反射による損失により光子の検出が減少する。
したがって、光子の放出を適切に定義された導波路モードに結合する効率的なナノフォトニック構造への統合は、光子検出効率を著しく向上させることができる。
さらに、この導波路を古典的なファイバーネットワークに対向させることは、光子を検出し実験を行うためにも同様に重要である。
ここではSiCの導波路繊維界面について述べる。
慎重な測定により、SiCナノビームから繊維への光子の移動効率は93%を超える。
我々はこのインタフェースを用いて4H-SiCにおける導波路集積V2欠陥に基づく明るい単一光子源を作成し、181km/秒の光子カウント率を得る。
我々は、基底状態スピン状態のひずみ誘起シフトを観察し、T2=42.5$\rm\mu$sのコヒーレンス時間で電子スピンのコヒーレント制御を示す。
Emitters in high refractive index materials like 4H-SiC suffer from reduced detection of photons because of losses caused by total internal reflection. Thus, integration into efficient nanophotonic structures which couple the emission of photons to a well defined waveguide mode can significantly enhance the photon detection efficiency. In addition, interfacing this waveguide to a classical fiber network is of similar importance to detect the photons and perform experiments. Here, we show a waveguide fiber interface in SiC. By careful measurements we determine efficiencies exceeding 93 % for the transfer of photons from SiC nanobeams to fibers. We use this interface to create a bright single photon source based on waveguide integrated V2 defects in 4H-SiC and achieve an overall photon count rate of 181 kilo-counts per second. We observe and quantify the strain induced shift of the ground state spin states and demonstrate coherent control of the electron spin with a coherence time of T2=42.5 $\rm\mu$s. | 翻訳日:2024-05-03 21:50:58 公開日:2024-05-02 |
# COMET:オンラインソースフリーユニバーサルドメイン適応のための対照的な平均教師
COMET: Contrastive Mean Teacher for Online Source-Free Universal Domain Adaptation ( http://arxiv.org/abs/2401.17728v2 ) ライセンス: Link先を確認 | Pascal Schlachter, Bin Yang, | (参考訳) 現実世界のアプリケーションでは、トレーニングからテストデータへのドメインシフトが頻繁に発生します。
この観察はテスト時間適応(TTA)の開発につながった。
ソースデータへのアクセスを必要とせずに、事前トレーニングされたソースモデルをテストデータに適用することを目指している。
これにより、既存のほとんどの著作物は閉集合の仮定に制限され、すなわち、ソース領域とターゲット領域の間の圏シフトは存在しない。
現実的なオープンワールド設定では、カテゴリシフトがドメインシフトに加えて現れる可能性がある、と私たちは主張する。
つまり、個々のソースクラスは、もはやターゲットドメインに現れず、新しいクラスのサンプルは、ターゲットドメインの一部であったり、同時に両方であったりします。
さらに、多くの実世界のシナリオでは、テストデータは一度にすべてにアクセスできないが、即座に予測を要求するバッチのストリームとして順次到着する。
したがって、TTAはオンラインの方法で適用されなければならない。
我々の知る限り、これらの側面、すなわちオンラインのソースフリーユニバーサルドメイン適応(オンラインSF-UniDA)の組み合わせは、まだ研究されていない。
本稿では,このシナリオに合わせたコントラスト的平均教師(COMET)を紹介する。
これは、既知のクラスのサンプルが異なるクラスタを構築し、新しいクラスのサンプルがそれらとよく区別される機能空間を再構築するために、対照的な損失を適用します。
これは、分類器出力が既知のクラスのサンプルに対して小さなエントロピーを持ち、新しいクラスのサンプルに対して大きなエントロピーを持つことを保証するエントロピー損失によって補完される。
信頼できる擬似ラベルで損失を与えるため、彼らは平均教師(MT)フレームワークに組み込まれる。
提案手法は,オンラインSF-UniDAの初期ベンチマークを設定するために,2つのデータセットとすべてのカテゴリシフトにまたがって評価する。
これによりCOMETは最先端のパフォーマンスを獲得し、さまざまなシナリオで一貫性と堅牢性を示す。
In real-world applications, there is often a domain shift from training to test data. This observation resulted in the development of test-time adaptation (TTA). It aims to adapt a pre-trained source model to the test data without requiring access to the source data. Thereby, most existing works are limited to the closed-set assumption, i.e. there is no category shift between source and target domain. We argue that in a realistic open-world setting a category shift can appear in addition to a domain shift. This means, individual source classes may not appear in the target domain anymore, samples of new classes may be part of the target domain or even both at the same time. Moreover, in many real-world scenarios the test data is not accessible all at once but arrives sequentially as a stream of batches demanding an immediate prediction. Hence, TTA must be applied in an online manner. To the best of our knowledge, the combination of these aspects, i.e. online source-free universal domain adaptation (online SF-UniDA), has not been studied yet. In this paper, we introduce a Contrastive Mean Teacher (COMET) tailored to this novel scenario. It applies a contrastive loss to rebuild a feature space where the samples of known classes build distinct clusters and the samples of new classes separate well from them. It is complemented by an entropy loss which ensures that the classifier output has a small entropy for samples of known classes and a large entropy for samples of new classes to be easily detected and rejected as unknown. To provide the losses with reliable pseudo labels, they are embedded into a mean teacher (MT) framework. We evaluate our method across two datasets and all category shifts to set an initial benchmark for online SF-UniDA. Thereby, COMET yields state-of-the-art performance and proves to be consistent and robust across a variety of different scenarios. | 翻訳日:2024-05-03 21:50:58 公開日:2024-05-02 |
# 非インタラクティブソースシミュレーションにおける量子アドバンテージ
Quantum Advantage in Non-Interactive Source Simulation ( http://arxiv.org/abs/2402.00242v2 ) ライセンス: Link先を確認 | Hojat Allah Salehi, Farhad Shirani, S. Sandeep Pradhan, | (参考訳) 本研究は非インタラクティブソースシミュレーション問題(NISS)について考察する。
NISSの標準的なシナリオでは、分散エージェントのペアであるAliceとBobは、共同分布の$P_{X,Y}$に基づいて生成された分散バイナリメモリレスソース$(X^d,Y^d)$を観測する。
エージェントは、一対の離散確率変数 $(U_d,V_d)$ と、連立分布 $P_{U_d,V_d}$ を、ターゲット分布 $Q_{U,V}$ に全変動距離で収束させるように生成したい。
NISSのシナリオには2つのバリエーションがある。
最初のバリエーションでは、$(X^d,Y^d) に加えて、エージェントは共有の Bell 状態にアクセスすることができる。
エージェントはそれぞれの状態を測定し、それぞれの選択を計測し、その古典的な出力と$(X^d,Y^d)$を使ってターゲット分布をシミュレートする。
このシナリオは、絡み合い支援NIS(EA-NISS)と呼ばれる。
第2のバリエーションでは、エージェントは$(X^d,Y^d)$に加えて古典的な共通乱数ビット$Z$にアクセスできる。
このシナリオは古典的共通ランダムネス NISS (CR-NISS) と呼ばれる。
バイナリ出力NASのシナリオでは、EA-NISSとCR-NISSの可能な分布の集合は互いに等しいことが示されている。
したがって、これらのEA-NISSシナリオには量子的優位性はない。
非バイナリ出力NASの場合、EA-NISSでは可能だがCR-NISSでは不可能な分布が存在するという例で示される。
これは、非バイナリ出力EA-NISSに量子的優位性が存在することを示している。
This work considers the non-interactive source simulation problem (NISS). In the standard NISS scenario, a pair of distributed agents, Alice and Bob, observe a distributed binary memoryless source $(X^d,Y^d)$ generated based on joint distribution $P_{X,Y}$. The agents wish to produce a pair of discrete random variables $(U_d,V_d)$ with joint distribution $P_{U_d,V_d}$, such that $P_{U_d,V_d}$ converges in total variation distance to a target distribution $Q_{U,V}$. Two variations of the standard NISS scenario are considered. In the first variation, in addition to $(X^d,Y^d)$ the agents have access to a shared Bell state. The agents each measure their respective state, using a measurement of their choice, and use its classical output along with $(X^d,Y^d)$ to simulate the target distribution. This scenario is called the entanglement-assisted NISS (EA-NISS). In the second variation, the agents have access to a classical common random bit $Z$, in addition to $(X^d,Y^d)$. This scenario is called the classical common randomness NISS (CR-NISS). It is shown that for binary-output NISS scenarios, the set of feasible distributions for EA-NISS and CR-NISS are equal with each other. Hence, there is not quantum advantage in these EA-NISS scenarios. For non-binary output NISS scenarios, it is shown through an example that there are distributions that are feasible in EA-NISS but not in CR-NISS. This shows that there is a quantum advantage in non-binary output EA-NISS. | 翻訳日:2024-05-03 21:50:58 公開日:2024-05-02 |
# 衝突モデルにおけるガウス量子ステアリングによる非マルコフ性の証人化
Witnessing non-Markovianity with Gaussian quantum steering in collision model ( http://arxiv.org/abs/2402.00524v2 ) ライセンス: Link先を確認 | Yan Li, Xingli Li, Jiasen Jin, | (参考訳) 完全正のトレース保存(CPTP)写像の下での時間量子ステアリングの非増加特性は、ChenらによってPhysで提案された。
Rev. Lett.
116, 020503 (2016) は非マルコビアン性の実践的な尺度とみなされている。
本稿では,非マルコフ的衝突モデルをシミュレートするための全光学的スキームと,構造化連続変数(CV)ガウスチャネルの非マルコフ性を評価するツールとしてガウス的ステアリングをどのように利用できるかを検討する。
ビームスプリッター(BSs)の反射率を変更することで、チャネルの非マルコビアン性の度合いを調整できる。
2つのステアリングシナリオにおける散逸チャネルの非マルコフ次数を解析した結果、ガウスステアリングに基づく非マルコフ測度はガウスステアリングの非対称性のため、特定のシナリオに依存することがわかった。
また,ガウスのステアリングに基づく非マルコビアン性とCPTPマップの可視性違反に基づく非マルコビアン性を比較した。
The nonincreasing feature of temporal quantum steering under a completely positive trace-preserving (CPTP) map, as proposed by Chen, et al. in Phys. Rev. Lett. 116, 020503 (2016), has been considered as a practical measure of non-Markovianity. In this paper, we utilize an all-optical scheme to simulate a non-Markovian collision model and to examine how Gaussian steering can be used as a tool for quantifying the non-Markovianity of a structured continuous variable (CV) Gaussian channel. By modifying the reflectivity of the beam splitters (BSs), we are able to tune the degree of non-Markovianity of the channel. After analyzing the non-Markovian degree of the dissipative channel within two steering scenarios, we discovered that the Gaussian steering-based non-Markovian measure depends the specific scenario because of the asymmetry of Gaussian steering. We also compared the Gaussian steering based non-Markovianity to the one based on the violation of the divisibility of CPTP map. | 翻訳日:2024-05-03 21:50:58 公開日:2024-05-02 |
# Monotone, Bi-Lipschitz, Polyak-Lojasiewicz Networks
Monotone, Bi-Lipschitz, and Polyak-Lojasiewicz Networks ( http://arxiv.org/abs/2402.01344v3 ) ライセンス: Link先を確認 | Ruigang Wang, Krishnamurthy Dvijotham, Ian R. Manchester, | (参考訳) 本稿では, 入力摂動に対する出力感度) と, 入力出力からの入力感度(逆リプシッツ性) の両方を制御可能な, ニューラルネットBiLipNetを提案する。
主な貢献は、証明された強い単調性とリプシッツ性を持つ新しい可逆残留層であり、双リプシッツネットワークを構築するために直交層を構成する。
証明はインクリメンタルな二次的制約に基づいており、スペクトル正規化よりもはるかに厳密な境界を達成している。
さらに、高速アルゴリズムが知られている3演算分割問題としてモデル逆計算を定式化する。
提案した双Lipschitzネットワークに基づいて,Polyak-\L{}ojasiewicz条件を満たす新しいスカラー出力ネットワークPLNetを導入する。
非凸サロゲート損失を好適な性質(例えば、一意的かつ効率的に計算可能な大域最小値)で学習するために適用することができる。
This paper presents a new \emph{bi-Lipschitz} invertible neural network, the BiLipNet, which has the ability to control both its \emph{Lipschitzness} (output sensitivity to input perturbations) and \emph{inverse Lipschitzness} (input distinguishability from different outputs). The main contribution is a novel invertible residual layer with certified strong monotonicity and Lipschitzness, which we compose with orthogonal layers to build bi-Lipschitz networks. The certification is based on incremental quadratic constraints, which achieves much tighter bounds compared to spectral normalization. Moreover, we formulate the model inverse calculation as a three-operator splitting problem, for which fast algorithms are known. Based on the proposed bi-Lipschitz network, we introduce a new scalar-output network, the PLNet, which satisfies the Polyak-\L{}ojasiewicz condition. It can be applied to learn non-convex surrogate losses with favourable properties, e.g., a unique and efficiently-computable global minimum. | 翻訳日:2024-05-03 21:50:58 公開日:2024-05-02 |
# テキスト・ツー・3次元生成のための検索拡張スコア蒸留法
Retrieval-Augmented Score Distillation for Text-to-3D Generation ( http://arxiv.org/abs/2402.02972v2 ) ライセンス: Link先を確認 | Junyoung Seo, Susung Hong, Wooseok Jang, Inès Hyeonsu Kim, Minseop Kwak, Doyup Lee, Seungryong Kim, | (参考訳) テキスト・ツー・3D生成は強力な2次元拡散モデルを導入することで大きな成功を収めてきたが、3Dの事前知識の不足は3次元幾何学の不整合にも繋がる。
近年,大規模なマルチビューデータセットがリリースされているため,多ビューデータセット上での拡散モデルを微調整することが主流となって3次元不整合問題を解決する。
しかし,2次元データと比較すると,3次元データの質や多様性の限界に関する根本的な問題に直面している。
これらのトレードオフを横取りするために、ReDreamと呼ばれるスコア蒸留に適した検索強化アプローチを探索する。
2次元拡散モデルの表現性と3次元資産の幾何学的整合性は、最適化プロセス内で意味論的に関連する資産を直接利用することによって、完全に活用できると仮定する。
そこで本研究では,テキスト・ツー・3D生成における検索に基づく品質向上のための新しいフレームワークを提案する。
抽出した資産を利用して、その幾何学的事前を変動対象に組み入れ、拡散モデルの2次元を視点整合性に適応させ、生成したシーンの幾何学的および忠実性の両方において劇的な改善を実現する。
我々はReDreamが幾何整合性を高めて優れた品質を示すことを示すために広範な実験を行った。
プロジェクトページはhttps://ku-cvlab.github.io/ReDream/.comで公開されている。
Text-to-3D generation has achieved significant success by incorporating powerful 2D diffusion models, but insufficient 3D prior knowledge also leads to the inconsistency of 3D geometry. Recently, since large-scale multi-view datasets have been released, fine-tuning the diffusion model on the multi-view datasets becomes a mainstream to solve the 3D inconsistency problem. However, it has confronted with fundamental difficulties regarding the limited quality and diversity of 3D data, compared with 2D data. To sidestep these trade-offs, we explore a retrieval-augmented approach tailored for score distillation, dubbed ReDream. We postulate that both expressiveness of 2D diffusion models and geometric consistency of 3D assets can be fully leveraged by employing the semantically relevant assets directly within the optimization process. To this end, we introduce novel framework for retrieval-based quality enhancement in text-to-3D generation. We leverage the retrieved asset to incorporate its geometric prior in the variational objective and adapt the diffusion model's 2D prior toward view consistency, achieving drastic improvements in both geometry and fidelity of generated scenes. We conduct extensive experiments to demonstrate that ReDream exhibits superior quality with increased geometric consistency. Project page is available at https://ku-cvlab.github.io/ReDream/. | 翻訳日:2024-05-03 21:50:58 公開日:2024-05-02 |
# 難解なギブズサンプリング
Diffusive Gibbs Sampling ( http://arxiv.org/abs/2402.03008v3 ) ライセンス: Link先を確認 | Wenlin Chen, Mingtian Zhang, Brooks Paige, José Miguel Hernández-Lobato, David Barber, | (参考訳) 従来のマルコフ・チェイン・モンテカルロ法(MCMC)のマルチモーダル分布に対する不適切な混合は、ベイズ推論や分子動力学のような実践的応用において重要な課題である。
そこで本稿では,ディフューシブギブズサンプリング(Diffusive Gibbs Sampling, DiGS)を提案する。
DiGSは拡散モデルにおける最近の発展を統合し、ガウスの畳み込みを利用して元の空間の孤立モードをブリッジする補助ノイズ分布を作成し、ギブスサンプリングを用いて両方の空間からサンプルを交互に描画する。
新規なメトロポリス・ウィスティン・ギブス法は, サンプリング工程における混合性を高めるために提案されている。
DiGSは、並列テンパリングのような最先端の手法よりも、マルチモーダル分布をサンプリングするためのより優れた混合特性を示し、ガウス、ベイズニューラルネットワーク、分子動力学の混合を含む様々なタスクにおける性能を大幅に改善した。
The inadequate mixing of conventional Markov Chain Monte Carlo (MCMC) methods for multi-modal distributions presents a significant challenge in practical applications such as Bayesian inference and molecular dynamics. Addressing this, we propose Diffusive Gibbs Sampling (DiGS), an innovative family of sampling methods designed for effective sampling from distributions characterized by distant and disconnected modes. DiGS integrates recent developments in diffusion models, leveraging Gaussian convolution to create an auxiliary noisy distribution that bridges isolated modes in the original space and applying Gibbs sampling to alternately draw samples from both spaces. A novel Metropolis-within-Gibbs scheme is proposed to enhance mixing in the denoising sampling step. DiGS exhibits a better mixing property for sampling multi-modal distributions than state-of-the-art methods such as parallel tempering, attaining substantially improved performance across various tasks, including mixtures of Gaussians, Bayesian neural networks and molecular dynamics. | 翻訳日:2024-05-03 21:50:58 公開日:2024-05-02 |
# BetterV: 識別誘導による制御されたVerilog生成
BetterV: Controlled Verilog Generation with Discriminative Guidance ( http://arxiv.org/abs/2402.03375v3 ) ライセンス: Link先を確認 | Zehua Pei, Hui-Ling Zhen, Mingxuan Yuan, Yu Huang, Bei Yu, | (参考訳) 現代集積回路(IC)の複雑さが増大しているため、自動回路設計法が必要である。
近年,設計プロセスを容易にするハードウェア設計言語の開発が盛んに行われている。
そこで本研究では,処理されたドメイン固有データセット上での大規模言語モデル(LLM)を微調整し,特定の設計要求に対するガイダンスに生成識別器を組み込んだVerilog生成フレームワークであるBetterVを提案する。
Verilogモジュールは、クリーンで豊富なデータセットを形成するために、インターネットから収集、フィルタリング、処理される。
インストラクションチューニング法は、Verilogに関する知識を理解するためにLLMを微調整するために特別に設計されている。
さらに、トレーニングセットを充実させるためにデータを拡張し、特定の下流タスクで生成的識別器を訓練するためにも使用し、Verilogの実装を最適化するためのLLMのガイダンスを導いた。
BetterV は構文的にも機能的にも Verilog を生成する機能を備えており、VerilogEval ベンチマークでは GPT-4 よりも優れている。
タスク固有の生成識別器の助けを借りて、BetterVは様々な電子設計自動化(EDA)下流タスクにおいて顕著な改善を達成できる。
Due to the growing complexity of modern Integrated Circuits (ICs), there is a need for automated circuit design methods. Recent years have seen rising research in hardware design language generation to facilitate the design process. In this work, we propose a Verilog generation framework, BetterV, which fine-tunes the large language models (LLMs) on processed domain-specific datasets and incorporates generative discriminators for guidance on particular design demands. The Verilog modules are collected, filtered and processed from internet to form a clean and abundant dataset. Instruct-tuning methods are specially designed to fine-tune the LLMs to understand the knowledge about Verilog. Furthermore, data are augmented to enrich the training set and also used to train a generative discriminator on particular downstream task, which leads a guidance for the LLMs to optimize the Verilog implementation. BetterV has the ability to generate syntactically and functionally correct Verilog, which can outperform GPT-4 on the VerilogEval benchmark. With the help of task-specific generative discriminator, BetterV can achieve remarkable improvement on various electronic design automation (EDA) downstream tasks, including the netlist node reduction for synthesis and verification runtime reduction with Boolean Satisfiability (SAT) solving. | 翻訳日:2024-05-03 21:41:12 公開日:2024-05-02 |
# 拡散モデルのための青色雑音
Blue noise for diffusion models ( http://arxiv.org/abs/2402.04930v2 ) ライセンス: Link先を確認 | Xingchang Huang, Corentin Salaün, Cristina Vasconcelos, Christian Theobalt, Cengiz Öztireli, Gurprit Singh, | (参考訳) 既存の拡散モデルの多くは、ガウスノイズを全時間ステップのトレーニングとサンプリングに使用しており、デノナイジングネットワークによって再構成された周波数内容を最適に考慮していない可能性がある。
コンピュータグラフィックスにおける相関ノイズの多様な応用にもかかわらず、トレーニングプロセスを改善する可能性は過小評価されている。
本稿では,画像内および画像間の相関雑音を考慮した拡散モデルを提案する。
具体的には、学習過程に相関ノイズを組み込む時間変化ノイズモデルと、相関ノイズマスクを高速に生成する方法を提案する。
本モデルは,決定論的拡散モデルに基づいて構築され,ガウスホワイト(ランダム)ノイズのみを用いた場合と比較して,生成品質を向上させるために青色ノイズを利用する。
さらに,このフレームワークでは,画像間の相関関係を1つのミニバッチ内に導入し,勾配流を改善する。
本手法を用いて, 各種データセットの質的, 定量的な評価を行い, 既存の決定論的拡散モデルに比較して, FIDメトリックスの観点から, 様々なタスクの改善を実現している。
Most of the existing diffusion models use Gaussian noise for training and sampling across all time steps, which may not optimally account for the frequency contents reconstructed by the denoising network. Despite the diverse applications of correlated noise in computer graphics, its potential for improving the training process has been underexplored. In this paper, we introduce a novel and general class of diffusion models taking correlated noise within and across images into account. More specifically, we propose a time-varying noise model to incorporate correlated noise into the training process, as well as a method for fast generation of correlated noise mask. Our model is built upon deterministic diffusion models and utilizes blue noise to help improve the generation quality compared to using Gaussian white (random) noise only. Further, our framework allows introducing correlation across images within a single mini-batch to improve gradient flow. We perform both qualitative and quantitative evaluations on a variety of datasets using our method, achieving improvements on different tasks over existing deterministic diffusion models in terms of FID metric. | 翻訳日:2024-05-03 21:41:12 公開日:2024-05-02 |
# CIC: 文化的イメージキャプションのためのフレームワーク
CIC: A framework for Culturally-aware Image Captioning ( http://arxiv.org/abs/2402.05374v2 ) ライセンス: Link先を確認 | Youngsik Yun, Jihie Kim, | (参考訳) Image Captioningは、BLIPのようなVLP(Vision-Language Pre-trained Model)を用いて画像から記述文を生成する。
しかし、現在の方法では、アジアの文化集団の人々が着用する伝統的な衣服など、画像に描かれている文化財の詳細な説明文が作成されていない。
本稿では,文化を表すイメージにおいて,文化的な視覚的要素から抽出された文化的要素をキャプションとして表現し,表現する新しい枠組みである「CIC」を提案する。
視覚的モダリティとLarge Language Models(LLMs)を適切なプロンプトで組み合わせた手法に着想を得て,(1)画像から文化的カテゴリに基づく質問,(2)視覚的質問回答(VQA)から文化的な視覚要素を抽出し,(3)LPMとプロンプトを併用して文化的に認識されたキャプションを生成する。
VLPをベースとした画像キャプティングベースラインと比較すると,文化の理解度が高い4つの文化グループから45人の被験者を対象に人的評価を行った結果,より文化的に記述的なキャプションが生成されることがわかった。
私たちのコードとデータセットは、受け入れ次第公開されます。
Image Captioning generates descriptive sentences from images using Vision-Language Pre-trained models (VLPs) such as BLIP, which has improved greatly. However, current methods lack the generation of detailed descriptive captions for the cultural elements depicted in the images, such as the traditional clothing worn by people from Asian cultural groups. In this paper, we propose a new framework, \textbf{Culturally-aware Image Captioning (CIC)}, that generates captions and describes cultural elements extracted from cultural visual elements in images representing cultures. Inspired by methods combining visual modality and Large Language Models (LLMs) through appropriate prompts, our framework (1) generates questions based on cultural categories from images, (2) extracts cultural visual elements from Visual Question Answering (VQA) using generated questions, and (3) generates culturally-aware captions using LLMs with the prompts. Our human evaluation conducted on 45 participants from 4 different cultural groups with a high understanding of the corresponding culture shows that our proposed framework generates more culturally descriptive captions when compared to the image captioning baseline based on VLPs. Our code and dataset will be made publicly available upon acceptance. | 翻訳日:2024-05-03 21:41:12 公開日:2024-05-02 |
# ケースレベル安全対応型合成データの忠実度とその校正
Instance-Level Safety-Aware Fidelity of Synthetic Data and Its Calibration ( http://arxiv.org/abs/2402.07031v2 ) ライセンス: Link先を確認 | Chih-Hong Cheng, Paul Stöckel, Xingyu Zhao, | (参考訳) 合成データの忠実度をモデル化し、調整することは、現実世界のデータ収集に代わる費用効率が高くスケーラブルな代替手段を提供することで、安全で信頼性の高い自動運転技術の未来を形作る上で、最重要である。
安全クリティカルなアプリケーションにおけるその役割に焦点をあて、視覚的な入力特性を超える4種類のインスタンスレベルの忠実さを導入します。
この目的は、合成データにテストを適用することで、現実世界の安全性上の問題や、合成データの下でのテストにおいて安全性に重大な問題がないことが、現実世界の行動に強力な安全保証をもたらすことを保証することである。
合成データ生成装置を改良する最適化手法を提案する。
実験により、このチューニングは、合成データと実データにおける安全クリティカルエラーの相関性を高めることが示された。
Modeling and calibrating the fidelity of synthetic data is paramount in shaping the future of safe and reliable self-driving technology by offering a cost-effective and scalable alternative to real-world data collection. We focus on its role in safety-critical applications, introducing four types of instance-level fidelity that go beyond mere visual input characteristics. The aim is to ensure that applying testing on synthetic data can reveal real-world safety issues, and the absence of safety-critical issues when testing under synthetic data can provide a strong safety guarantee in real-world behavior. We suggest an optimization method to refine the synthetic data generator, reducing fidelity gaps identified by deep learning components. Experiments show this tuning enhances the correlation between safety-critical errors in synthetic and real data. | 翻訳日:2024-05-03 21:41:12 公開日:2024-05-02 |
# データポジショニングが非現実的説明に及ぼす影響
The Effect of Data Poisoning on Counterfactual Explanations ( http://arxiv.org/abs/2402.08290v2 ) ライセンス: Link先を確認 | André Artelt, Shubham Sharma, Freddy Lecué, Barbara Hammer, | (参考訳) 対実的な説明はブラックボックスシステムの予測を解析するための一般的な方法であり、異なる(より好ましい)システム出力を得るために入力を変更する方法に関する実用的な変更を提案することによって、計算的リコースの機会を提供することができる。
しかし、最近の研究は、さまざまなタイプの操作に対する脆弱性を強調している。
この研究は、データ中毒に対する非現実的な説明の脆弱性を研究する。
我々は、データ中毒を、3つの異なるレベル(ローカルに1つのインスタンス、サブグループに1つ、グローバルにすべてのインスタンスに1つ)でリコースのコストを増大させるために、反ファクト的な説明の文脈で定式化する。
現状の逆ファクト生成手法である<&>ツールボックスがこのようなデータ中毒に弱いことを実証する。
Counterfactual explanations provide a popular method for analyzing the predictions of black-box systems, and they can offer the opportunity for computational recourse by suggesting actionable changes on how to change the input to obtain a different (i.e. more favorable) system output. However, recent work highlighted their vulnerability to different types of manipulations. This work studies the vulnerability of counterfactual explanations to data poisoning. We formalize data poisoning in the context of counterfactual explanations for increasing the cost of recourse on three different levels: locally for a single instance, or a sub-group of instances, or globally for all instances. We demonstrate that state-of-the-art counterfactual generation methods \& toolboxes are vulnerable to such data poisoning. | 翻訳日:2024-05-03 21:41:12 公開日:2024-05-02 |
# GNSSデータにおける干渉分類のための不確実性に基づく四括弧選択によるFew-Shot学習
Few-Shot Learning with Uncertainty-based Quadruplet Selection for Interference Classification in GNSS Data ( http://arxiv.org/abs/2402.09466v2 ) ライセンス: Link先を確認 | Felix Ott, Lucas Heublein, Nisha Lakshmana Raichur, Tobias Feigl, Jonathan Hansen, Alexander Rügamer, Christopher Mutschler, | (参考訳) ジャミング装置は、グローバルナビゲーション衛星システム(GNSS)からの信号を妨害し、正確な位置決めの堅牢性を損なうことにより、重大な脅威となる。
周波数スナップショットにおける異常の検出は、これらの干渉を効果的に対処するために重要である。
GNSSの信頼性を確保するためには,多様な干渉特性に適応する能力が不可欠である。
本稿では,新しい干渉クラスに適応する数ショット学習(FSL)手法を提案する。
本手法では,様々な正と負の干渉クラスを用いて表現を学習するために,モデルの四重項選択を用いる。
さらに,同類を区別するために,アレタリックおよびてんかんの不確実性に基づく四重項変種を選択する。
8種類の干渉クラスを持つ高速道路において,4重項損失を有するFSL法は,ジャマー分類精度97.66%で他のFSL法よりも優れていた。
https://gitlab.cc-asp.fraunhofer.de/darcy_gnss/FIOT_highway
Jamming devices pose a significant threat by disrupting signals from the global navigation satellite system (GNSS), compromising the robustness of accurate positioning. Detecting anomalies in frequency snapshots is crucial to counteract these interferences effectively. The ability to adapt to diverse, unseen interference characteristics is essential for ensuring the reliability of GNSS in real-world applications. In this paper, we propose a few-shot learning (FSL) approach to adapt to new interference classes. Our method employs quadruplet selection for the model to learn representations using various positive and negative interference classes. Furthermore, our quadruplet variant selects pairs based on the aleatoric and epistemic uncertainty to differentiate between similar classes. We recorded a dataset at a motorway with eight interference classes on which our FSL method with quadruplet loss outperforms other FSL techniques in jammer classification accuracy with 97.66%. Dataset available at: https://gitlab.cc-asp.fraunhofer.de/darcy_gnss/FIOT_highway | 翻訳日:2024-05-03 21:41:12 公開日:2024-05-02 |
# オンラインパーソナライズされた平均推定のためのスケーラブルな分散アルゴリズム
Scalable Decentralized Algorithms for Online Personalized Mean Estimation ( http://arxiv.org/abs/2402.12812v2 ) ライセンス: Link先を確認 | Franco Galante, Giovanni Neglia, Emilio Leonardi, | (参考訳) 多くの設定では、エージェントはモデルを直接学習する十分なデータを持っていない。
他のエージェントとのコラボレーションは役に立つかもしれないが、ローカルなデータ分布が異なる場合、バイアス分散トレードオフが導入される。
重要な課題は、各エージェントがモデルを学びながら、同様の分布を持つクライアントを特定することです。
本研究は,各エージェントが実数値分布からサンプルを収集し,その平均値を推定する,オーバーアーキシング問題の簡易版に焦点を当てた。
既存のアルゴリズムは非現実的な空間と時間的複雑さに直面している(エージェントAの数では4倍)。
スケーラビリティの課題に対処するため、エージェントがグラフに自己組織化し、各エージェントが選択したピア数rのみと通信できるフレームワークを提案する。
我々は2つの協調平均推定アルゴリズムを導入する: 1つは信念の伝播からインスピレーションを導き、もう1つはO(r |A| log |A|) と O(r |A|) の複雑さを持つコンセンサスに基づくアプローチを採用する。
両アルゴリズムが漸近的に最適な推定値を得る条件を確立し,その性能を理論的に評価する。
In numerous settings, agents lack sufficient data to directly learn a model. Collaborating with other agents may help, but it introduces a bias-variance trade-off, when local data distributions differ. A key challenge is for each agent to identify clients with similar distributions while learning the model, a problem that remains largely unresolved. This study focuses on a simplified version of the overarching problem, where each agent collects samples from a real-valued distribution over time to estimate its mean. Existing algorithms face impractical space and time complexities (quadratic in the number of agents A). To address scalability challenges, we propose a framework where agents self-organize into a graph, allowing each agent to communicate with only a selected number of peers r. We introduce two collaborative mean estimation algorithms: one draws inspiration from belief propagation, while the other employs a consensus-based approach, with complexity of O( r |A| log |A|) and O(r |A|), respectively. We establish conditions under which both algorithms yield asymptotically optimal estimates and offer a theoretical characterization of their performance. | 翻訳日:2024-05-03 21:41:12 公開日:2024-05-02 |
# SimPro: リアルタイム型半教師付き学習を目指すシンプルな確率的フレームワーク
SimPro: A Simple Probabilistic Framework Towards Realistic Long-Tailed Semi-Supervised Learning ( http://arxiv.org/abs/2402.13505v2 ) ライセンス: Link先を確認 | Chaoqun Du, Yizeng Han, Gao Huang, | (参考訳) 半教師付き学習の最近の進歩は、ラベル付きデータの不均衡に対処しながら、ラベル付きデータのクラス分布が未知であり、潜在的にミスマッチしているという、より現実的で難しい課題に焦点が当てられている。
この領域における現在のアプローチは、ラベルのないデータのクラス分布に関する厳密な仮定を前提としており、したがってモデルの適応性は特定の分布範囲に限られる。
本研究では,ラベルなしデータの分布に関する前提に頼らない,高度に適応可能なフレームワークをSimProとして提案する。
我々のフレームワークは確率論的モデルに基づいており、条件と限界のクラス分布のモデリングを明示的に分離することにより、期待最大化(EM)アルゴリズムを革新的に洗練する。
この分離は、最大化フェーズにおけるクラス分布推定のための閉形式解を容易にし、ベイズ分類器の定式化につながる。
ベイズ分類器は、予想フェーズにおける擬ラベルの品質を高める。
注目すべきなのは、SimProフレームワークには理論的保証だけでなく、実装も簡単であることだ。
さらに,評価の範囲を広げる2つの新しいクラス分布を導入する。
本手法は,様々なベンチマークやデータ分散シナリオにまたがる一貫した最先端性能を示す。
私たちのコードはhttps://github.com/LeapLabTHU/SimProで利用可能です。
Recent advancements in semi-supervised learning have focused on a more realistic yet challenging task: addressing imbalances in labeled data while the class distribution of unlabeled data remains both unknown and potentially mismatched. Current approaches in this sphere often presuppose rigid assumptions regarding the class distribution of unlabeled data, thereby limiting the adaptability of models to only certain distribution ranges. In this study, we propose a novel approach, introducing a highly adaptable framework, designated as SimPro, which does not rely on any predefined assumptions about the distribution of unlabeled data. Our framework, grounded in a probabilistic model, innovatively refines the expectation-maximization (EM) algorithm by explicitly decoupling the modeling of conditional and marginal class distributions. This separation facilitates a closed-form solution for class distribution estimation during the maximization phase, leading to the formulation of a Bayes classifier. The Bayes classifier, in turn, enhances the quality of pseudo-labels in the expectation phase. Remarkably, the SimPro framework not only comes with theoretical guarantees but also is straightforward to implement. Moreover, we introduce two novel class distributions broadening the scope of the evaluation. Our method showcases consistent state-of-the-art performance across diverse benchmarks and data distribution scenarios. Our code is available at https://github.com/LeapLabTHU/SimPro. | 翻訳日:2024-05-03 21:41:12 公開日:2024-05-02 |
# (ほとんど)すべてはディックモデルであり、非超放射的相関光マター系を正確に解けるディックモデルにマッピングする。
(Almost) Everything is a Dicke model -- Mapping non-superradiant correlated light-matter systems to the exactly solvable Dicke model ( http://arxiv.org/abs/2402.15209v3 ) ライセンス: Link先を確認 | Andreas Schellenberger, Kai Phillip Schmidt, | (参考訳) 我々は、強く相関した光物質系のパラダイム的な例として、ディック結合を持つ単一モード空洞における相互作用量子スピン系のクラスを考察する。
弱い光物質結合と多数の物質実体の極限から、非超ラディアン相の広いクラスのモデルの関連する低エネルギーセクターを、正確に解けるディックモデルにマッピングする。
平均場理論により得られた結果と一致して、Dicke-Isingモデルにパラダイム的な例として結果を適用する。
さらに,直交対角化法と直列展開法pcst++を用いて,有限サイズ計算による解析結果の検証を行った。
We investigate classes of interacting quantum spin systems in a single-mode cavity with a Dicke coupling, as a paradigmatic example of strongly correlated light-matter systems. Coming from the limit of weak light-matter couplings and large number of matter entities, we map the relevant low-energy sector of a broad class of models in the non-superradiant phases onto the exactly solvable Dicke model. We apply the outcomes to the Dicke-Ising model as a paradigmatic example, in agreement with results obtained by mean-field theory. We further accompany and verify our findings with finite-size calculations, using exact diagonalization and the series expansion method pcst++. | 翻訳日:2024-05-03 21:41:12 公開日:2024-05-02 |
# スクラッチから始めるな:補間剤による政策拡散による行動的リファインメント
Don't Start from Scratch: Behavioral Refinement via Interpolant-based Policy Diffusion ( http://arxiv.org/abs/2402.16075v2 ) ライセンス: Link先を確認 | Kaiqi Chen, Eugene Lim, Kelvin Lin, Yiyang Chen, Harold Soh, | (参考訳) 模倣学習は、人工エージェントがデモンストレーションから学ぶことによって、行動の模倣を促進する。
近年,高次元およびマルチモーダル分布をモデル化できる拡散モデルが,模倣学習タスクにおいて顕著な性能を示した。
これらのモデルは、標準ガウスノイズから作用(あるいは状態)を拡散することでポリシーを形成することを学ぶ。
しかし、学習対象の方針はガウスとは大きく異なり、このミスマッチは、少数の拡散ステップ(推論速度を改善するために)を使用し、限られたデータの下では性能が低下する可能性がある。
この研究における鍵となる考え方は、ガウシアンよりも情報的な情報源から開始することで、上記の制限を緩和する拡散法が可能であるということである。
提案手法は,情報ソースポリシーの利点を示す理論的結果,新しい方法,実証的な知見の両方に寄与する。
我々の手法はBRIDGERと呼ばれ、確率補間フレームワークを利用して任意のポリシーをブリッジし、模倣学習への柔軟なアプローチを可能にする。
これは、標準ガウスがまだ適用可能であるという事前の作業を一般化するが、他のソースポリシーが利用可能であれば利用できる。
課題のあるシミュレーションベンチマークや実際のロボットの実験では、BRIDGERは最先端の拡散ポリシーより優れている。
BRIDGERを適用する際の設計上の考慮事項についてさらに分析する。
Imitation learning empowers artificial agents to mimic behavior by learning from demonstrations. Recently, diffusion models, which have the ability to model high-dimensional and multimodal distributions, have shown impressive performance on imitation learning tasks. These models learn to shape a policy by diffusing actions (or states) from standard Gaussian noise. However, the target policy to be learned is often significantly different from Gaussian and this mismatch can result in poor performance when using a small number of diffusion steps (to improve inference speed) and under limited data. The key idea in this work is that initiating from a more informative source than Gaussian enables diffusion methods to mitigate the above limitations. We contribute both theoretical results, a new method, and empirical findings that show the benefits of using an informative source policy. Our method, which we call BRIDGER, leverages the stochastic interpolants framework to bridge arbitrary policies, thus enabling a flexible approach towards imitation learning. It generalizes prior work in that standard Gaussians can still be applied, but other source policies can be used if available. In experiments on challenging simulation benchmarks and on real robots, BRIDGER outperforms state-of-the-art diffusion policies. We provide further analysis on design considerations when applying BRIDGER. | 翻訳日:2024-05-03 21:41:12 公開日:2024-05-02 |
# 集積非線形量子フォトニクスのシミュレーションフレームワーク
Simulation framework for integrated nonlinear quantum photonics ( http://arxiv.org/abs/2402.19317v2 ) ライセンス: Link先を確認 | Seonghun Kim, Youngbin Kim, Young-Do Yoon, Seongjin Jeon, Woo-Joo Kim, Young-Ik Sohn, | (参考訳) 非線形量子フォトニクスは、普遍量子コンピューティングや量子通信のようなフォトニック量子技術の基盤となる。
統合フォトニクスプラットフォームの出現は、大規模製造の利点を提供するだけでなく、様々な工学的手法も提供する。
統合フォトニクス工学の複雑さを考えると、プラットフォームの可能性を完全に活用するためには、包括的なシミュレーションフレームワークが不可欠である。
本稿では, 非線形量子フォトニクスシミュレーションフレームワークを導入し, 断熱導波路, 材料異方性, 線形光学部品, 光子損失, 検出器などの様々な特徴を正確にモデル化する。
さらに,このフレームワークを利用して,様々な量子情報処理タスクに有用なチップスケールの時間的ウォークオフ補償装置を開発した。
シミュレーション・フレームワークを用いて,提案手法により, ポンプパワーを必要とせずに, 光子対光源のスクイーズパラメータと量子周波数変換器の変換効率を向上させることができることを示す。
Nonlinear quantum photonics serves as a cornerstone in photonic quantum technologies, such as universal quantum computing and quantum communications. The emergence of integrated photonics platform not only offers the advantage of large-scale manufacturing but also provides a variety of engineering methods. Given the complexity of integrated photonics engineering, a comprehensive simulation framework is essential to fully harness the potential of the platform. In this context, we introduce a nonlinear quantum photonics simulation framework which can accurately model a variety of features such as adiabatic waveguide, material anisotropy, linear optics components, photon losses, and detectors. Furthermore, utilizing the framework, we have developed a device scheme, chip-scale temporal walk-off compensation, that is useful for various quantum information processing tasks. Applying the simulation framework, we show that the proposed device scheme can enhance the squeezing parameter of photon-pair sources and the conversion efficiency of quantum frequency converters without relying on higher pump power. | 翻訳日:2024-05-03 21:41:12 公開日:2024-05-02 |
# AI生成コンテンツの検索拡張生成:サーベイ
Retrieval-Augmented Generation for AI-Generated Content: A Survey ( http://arxiv.org/abs/2402.19473v4 ) ライセンス: Link先を確認 | Penghao Zhao, Hailin Zhang, Qinhan Yu, Zhengren Wang, Yunteng Geng, Fangcheng Fu, Ling Yang, Wentao Zhang, Jie Jiang, Bin Cui, | (参考訳) モデルアルゴリズムの進歩、基礎モデルの成長、高品質なデータセットへのアクセスは、人工知能生成コンテンツ(AIGC)の進化を促している。
その顕著な成功にもかかわらず、AIGCは、知識の更新、長期データ処理、データ漏洩の軽減、高いトレーニングと推論コストの管理といったハードルに直面している。
Retrieval-Augmented Generation (RAG) はそのような課題に対処するためのパラダイムとして最近登場した。
特に、RAGは情報検索プロセスを導入し、関連オブジェクトを利用可能なデータストアから取得することで生成プロセスを強化し、より高い精度と堅牢性を実現する。
本稿では,RAG手法をAIGCシナリオに統合する既存の取り組みを概観的にレビューする。
本稿では、まず、レトリバーがジェネレータをどのように拡張するかに応じてRAG基盤を分類し、様々なレトリバーやジェネレータのための拡張手法の基本的抽象化を蒸留する。
この統合された視点は、すべてのRAGシナリオを包含し、将来の進歩に役立つ進歩と重要な技術を示します。
また、RAGシステムの効率的なエンジニアリングと実装を容易にするため、RAGのさらなる拡張手法についても要約する。
そして、別の視点から、様々なモダリティやタスクにまたがるRAGの実践的応用を調査し、研究者や実践者に貴重な参考資料を提供する。
さらに、RAGのベンチマークを導入し、現在のRAGシステムの限界について議論し、今後の研究の方向性を提案する。
Github:https://github.com/PKU-DAIR/RAG-Survey.com
Advancements in model algorithms, the growth of foundational models, and access to high-quality datasets have propelled the evolution of Artificial Intelligence Generated Content (AIGC). Despite its notable successes, AIGC still faces hurdles such as updating knowledge, handling long-tail data, mitigating data leakage, and managing high training and inference costs. Retrieval-Augmented Generation (RAG) has recently emerged as a paradigm to address such challenges. In particular, RAG introduces the information retrieval process, which enhances the generation process by retrieving relevant objects from available data stores, leading to higher accuracy and better robustness. In this paper, we comprehensively review existing efforts that integrate RAG technique into AIGC scenarios. We first classify RAG foundations according to how the retriever augments the generator, distilling the fundamental abstractions of the augmentation methodologies for various retrievers and generators. This unified perspective encompasses all RAG scenarios, illuminating advancements and pivotal technologies that help with potential future progress. We also summarize additional enhancements methods for RAG, facilitating effective engineering and implementation of RAG systems. Then from another view, we survey on practical applications of RAG across different modalities and tasks, offering valuable references for researchers and practitioners. Furthermore, we introduce the benchmarks for RAG, discuss the limitations of current RAG systems, and suggest potential directions for future research. Github: https://github.com/PKU-DAIR/RAG-Survey. | 翻訳日:2024-05-03 21:31:27 公開日:2024-05-02 |
# 分散型マルチTower:高効率大規模レコメンデーションのためのトポロジー・アウェア・モデリング技術
Disaggregated Multi-Tower: Topology-aware Modeling Technique for Efficient Large-Scale Recommendation ( http://arxiv.org/abs/2403.00877v3 ) ライセンス: Link先を確認 | Liang Luo, Buyun Zhang, Michael Tsang, Yinbin Ma, Ching-Hsiang Chu, Yuxin Chen, Shen Li, Yuchen Hao, Yanli Zhao, Guna Lakshminarayanan, Ellie Dingqiao Wen, Jongsoo Park, Dheevatsa Mudigere, Maxim Naumov, | (参考訳) 本稿では,ディープラーニング推薦モデルのフラットアーキテクチャ,共通分散トレーニングパラダイム,階層型データセンタトポロジのミスマッチについて検討する。
本手法は,(1)意味的な特徴相互作用と負荷バランスを考慮した塔を体系的に作成し,学習された埋め込みを通してモデル品質とスループットを維持するための特徴分割器であるタワーモジュール (TM) と,(2)階層的特徴相互作用によるモデル複雑性と通信量を削減するために各タワーに取り付けられた相乗的密度成分であるタワーモジュール (TM) と,(3)タワー分割器 (TP) から構成される。
DMTは、複数の世代のハードウェアにおいて、大規模データセンタースケールで精度を損なうことなく、最先端のベースラインと比較して最大1.9倍の高速化を実現可能であることを示す。
We study a mismatch between the deep learning recommendation models' flat architecture, common distributed training paradigm and hierarchical data center topology. To address the associated inefficiencies, we propose Disaggregated Multi-Tower (DMT), a modeling technique that consists of (1) Semantic-preserving Tower Transform (SPTT), a novel training paradigm that decomposes the monolithic global embedding lookup process into disjoint towers to exploit data center locality; (2) Tower Module (TM), a synergistic dense component attached to each tower to reduce model complexity and communication volume through hierarchical feature interaction; and (3) Tower Partitioner (TP), a feature partitioner to systematically create towers with meaningful feature interactions and load balanced assignments to preserve model quality and training throughput via learned embeddings. We show that DMT can achieve up to 1.9x speedup compared to the state-of-the-art baselines without losing accuracy across multiple generations of hardware at large data center scales. | 翻訳日:2024-05-03 21:31:27 公開日:2024-05-02 |
# Neural Exec: プロンプトインジェクション攻撃のための(そしてそこから学ぶ)実行トリガー
Neural Exec: Learning (and Learning from) Execution Triggers for Prompt Injection Attacks ( http://arxiv.org/abs/2403.03792v2 ) ライセンス: Link先を確認 | Dario Pasquini, Martin Strohmeier, Carmela Troncoso, | (参考訳) 我々はニューラルエクセルと呼ばれる新しいインジェクション攻撃のファミリーを導入する。
手作り文字列に依存する既知の攻撃(例えば、"Ignore previous instructions and ...")とは異なり、実行トリガの生成を識別可能な検索問題として概念化し、学習に基づく手法を用いて自律的に生成できることが示されている。
以上の結果から,現在の手工芸品よりもはるかに効果的であるだけでなく,形状,特性,機能に固有の柔軟性を示すトリガが,モチベーションに富むことが示唆された。
この方向において、攻撃者は、Retrieval-Augmented Generation (RAG)ベースのアプリケーションのように、マルチステージ前処理パイプラインを通して持続可能なNeural Execを設計、生成できることを示す。
さらに重要なことは、攻撃者は既存のブラックリストに基づく検知と衛生のアプローチを横取りして、既知の攻撃から形や形を逸脱するトリガーを生成できるということです。
We introduce a new family of prompt injection attacks, termed Neural Exec. Unlike known attacks that rely on handcrafted strings (e.g., "Ignore previous instructions and..."), we show that it is possible to conceptualize the creation of execution triggers as a differentiable search problem and use learning-based methods to autonomously generate them. Our results demonstrate that a motivated adversary can forge triggers that are not only drastically more effective than current handcrafted ones but also exhibit inherent flexibility in shape, properties, and functionality. In this direction, we show that an attacker can design and generate Neural Execs capable of persisting through multi-stage preprocessing pipelines, such as in the case of Retrieval-Augmented Generation (RAG)-based applications. More critically, our findings show that attackers can produce triggers that deviate markedly in form and shape from any known attack, sidestepping existing blacklist-based detection and sanitation approaches. | 翻訳日:2024-05-03 21:31:27 公開日:2024-05-02 |
# 時間CCSの強い優先順位と決定性
Strong Priority and Determinacy in Timed CCS ( http://arxiv.org/abs/2403.04618v3 ) ライセンス: Link先を確認 | Luigi Liquori, Michael Mendler, | (参考訳) プロセス代数の標準理論を優先して構築し、同期プログラミングの本質を捉えるために設計された「構成的還元」と呼ばれる新しいスケジューリング機構を同定する。
この評価戦略の特長は、共有メモリを用いたマルチキャスト同時通信において、決定性バイコンストラクションを実現することである。
クロックと優先順位によって拡張されたCCSの技術的な設定において、構成的還元のための共役性(confluence property)を多種多様な「コヒーレント(coherent)」プロセスで処理することが証明される。
ピボタビリティ(pivotability)と呼ばれるいくつかの制限の下では、コヒーレンスはプレフィックス、要約、並列合成、制限、隠蔽といった演算子によって保持される。
これはメモリと共有を許すため、優先順位のないCCSの古典的収束理論よりもはるかに大きなプロセスのクラスをカバーできる。
Building on the standard theory of process algebra with priorities, we identify a new scheduling mechanism, called "constructive reduction" which is designed to capture the essence of synchronous programming. The distinctive property of this evaluation strategy is to achieve determinacy-by-construction for multi-cast concurrent communication with shared memory. In the technical setting of CCS extended by clocks and priorities, we prove for a large class of "coherent" processes a confluence property for constructive reductions. We show that under some restrictions, called "pivotability", coherence is preserved by the operators of prefix, summation, parallel composition, restriction and hiding. Since this permits memory and sharing, we are able to cover a strictly larger class of processes compared to those in Milner's classical confluence theory for CCS without priorities. | 翻訳日:2024-05-03 21:31:27 公開日:2024-05-02 |
# TS-RSR:バッチベイズ最適化のための証明可能な効率的なアプローチ
TS-RSR: A provably efficient approach for batch bayesian optimization ( http://arxiv.org/abs/2403.04764v3 ) ライセンス: Link先を確認 | Zhaolin Ren, Na Li, | (参考訳) 本稿では,Thompson Smpling-Regret to Sigma Ratio Directed sample (TS-RSR) と呼ばれるバッチベイズ最適化(BO)の新しい手法を提案する。
我々のサンプリング目的は、高い予測手段や高い不確実性のある点に着目しながら、各バッチで選択されたアクションを、ポイント間の冗長性を最小限に抑えるように調整することができる。
理論的には、アルゴリズムの後悔に対する厳密な収束保証を提供し、数値的には、我々の手法が様々な難解な合成および現実的なテスト機能において最先端の性能を達成することを実証し、いくつかの競合ベンチマーク BO アルゴリズムより優れていることを示す。
This paper presents a new approach for batch Bayesian Optimization (BO) called Thompson Sampling-Regret to Sigma Ratio directed sampling (TS-RSR), where we sample a new batch of actions by minimizing a Thompson Sampling approximation of a regret to uncertainty ratio. Our sampling objective is able to coordinate the actions chosen in each batch in a way that minimizes redundancy between points whilst focusing on points with high predictive means or high uncertainty. Theoretically, we provide rigorous convergence guarantees on our algorithm's regret, and numerically, we demonstrate that our method attains state-of-the-art performance on a range of challenging synthetic and realistic test functions, where it outperforms several competitive benchmark batch BO algorithms. | 翻訳日:2024-05-03 21:31:27 公開日:2024-05-02 |
# 均一暗号を用いたプライバシー保護拡散モデル
Privacy-Preserving Diffusion Model Using Homomorphic Encryption ( http://arxiv.org/abs/2403.05794v2 ) ライセンス: Link先を確認 | Yaojian Chen, Qiben Yan, | (参考訳) 本稿では, HE拡散法(HE-Diffusion) と呼ばれる, 拡散過程のデノナイズフェーズの保護を主眼とした同相暗号を利用した, プライバシ保護型安定拡散フレームワークを提案する。
HE-Diffusionは、プライバシと機能の両方を確実にする、安定した拡散のユニークなアーキテクチャに合わせて設計された、カスタマイズされた暗号化フレームワークである。
そこで本研究では,提案手法を用いて,効率的な部分的画像暗号化を実現し,出力品質を損なうことなくオーバヘッドを大幅に低減する手法を提案する。
さらに、スパーステンソル表現を用いて計算処理を高速化し、プライバシ保存拡散プロセスの全体的な効率を向上させる。
HEベースのプライバシ保存型安定拡散推論の実装に成功した。
実験の結果,HE-Diffusionはベースライン法と比較して500倍の高速化を実現し,同型暗号化推論の時間コストを極小レベルまで低減することがわかった。
HE-Diffusionの性能と精度は、平文と同等である。
弊社のアプローチは、高度な暗号技術と最先端の生成モデルを統合するための重要なステップであり、重要なアプリケーションにおけるプライバシー保護と効率的な画像生成の道を開く。
In this paper, we introduce a privacy-preserving stable diffusion framework leveraging homomorphic encryption, called HE-Diffusion, which primarily focuses on protecting the denoising phase of the diffusion process. HE-Diffusion is a tailored encryption framework specifically designed to align with the unique architecture of stable diffusion, ensuring both privacy and functionality. To address the inherent computational challenges, we propose a novel min-distortion method that enables efficient partial image encryption, significantly reducing the overhead without compromising the model's output quality. Furthermore, we adopt a sparse tensor representation to expedite computational operations, enhancing the overall efficiency of the privacy-preserving diffusion process. We successfully implement HE-based privacy-preserving stable diffusion inference. The experimental results show that HE-Diffusion achieves 500 times speedup compared with the baseline method, and reduces time cost of the homomorphically encrypted inference to the minute level. Both the performance and accuracy of the HE-Diffusion are on par with the plaintext counterpart. Our approach marks a significant step towards integrating advanced cryptographic techniques with state-of-the-art generative models, paving the way for privacy-preserving and efficient image generation in critical applications. | 翻訳日:2024-05-03 21:31:27 公開日:2024-05-02 |
# 6次元物体姿勢推定のための深部アンサンブルによる不確かさの定量化
Uncertainty Quantification with Deep Ensembles for 6D Object Pose Estimation ( http://arxiv.org/abs/2403.07741v2 ) ライセンス: Link先を確認 | Kira Wursthorn, Markus Hillemann, Markus Ulrich, | (参考訳) 6Dオブジェクトのポーズの推定は多くのコンピュータビジョンアプリケーションにおいて基本的なタスクである。
特に、人間とロボットの相互作用、産業検査、自動化といったリスクの高いシナリオでは、信頼性の高いポーズ推定が不可欠である。
近年,6次元オブジェクトポーズ推定のための,より正確で堅牢なディープラーニングベースのアプローチが提案されている。
多くのトップパフォーマンスメソッドはエンドツーエンドのトレーニングが可能ではなく、複数のステージで構成されている。
深い不確実性定量化の文脈において、深いアンサンブルは、よく校正され頑健な不確実性推定を導出することが証明されたため、最先端のアンサンブルと見なされている。
しかし、ディープアンサンブルはエンドツーエンドでトレーニングできるメソッドにのみ適用できる。
本研究では,深層アンサンブルを用いた多段6次元オブジェクトポーズ推定手法の不確かさを定量化する手法を提案する。
BOPチャレンジ2022において、最も優れた6Dオブジェクトポーズ推定手法の1つであるため、SurfEmbを代表として採用する。
結果を評価するために、確立されたメトリクスと概念を深い不確実性定量化に適用する。
さらに、推定不確実性の品質を定量化するために、回帰タスクのための新しい不確実性校正スコアを提案する。
The estimation of 6D object poses is a fundamental task in many computer vision applications. Particularly, in high risk scenarios such as human-robot interaction, industrial inspection, and automation, reliable pose estimates are crucial. In the last years, increasingly accurate and robust deep-learning-based approaches for 6D object pose estimation have been proposed. Many top-performing methods are not end-to-end trainable but consist of multiple stages. In the context of deep uncertainty quantification, deep ensembles are considered as state of the art since they have been proven to produce well-calibrated and robust uncertainty estimates. However, deep ensembles can only be applied to methods that can be trained end-to-end. In this work, we propose a method to quantify the uncertainty of multi-stage 6D object pose estimation approaches with deep ensembles. For the implementation, we choose SurfEmb as representative, since it is one of the top-performing 6D object pose estimation approaches in the BOP Challenge 2022. We apply established metrics and concepts for deep uncertainty quantification to evaluate the results. Furthermore, we propose a novel uncertainty calibration score for regression tasks to quantify the quality of the estimated uncertainty. | 翻訳日:2024-05-03 21:31:27 公開日:2024-05-02 |
# Chronos: 時系列の言語を学ぶ
Chronos: Learning the Language of Time Series ( http://arxiv.org/abs/2403.07815v2 ) ライセンス: Link先を確認 | Abdul Fatir Ansari, Lorenzo Stella, Caner Turkmen, Xiyuan Zhang, Pedro Mercado, Huibin Shen, Oleksandr Shchur, Syama Sundar Rangapuram, Sebastian Pineda Arango, Shubham Kapoor, Jasper Zschiegner, Danielle C. Maddix, Hao Wang, Michael W. Mahoney, Kari Torkkola, Andrew Gordon Wilson, Michael Bohlke-Schneider, Yuyang Wang, | (参考訳) 我々は、事前訓練された確率時系列モデルのためのシンプルで効果的なフレームワークであるChronosを紹介する。
Chronosは、スケーリングと量子化を使用して時系列値を固定語彙にトークン化し、これらのトークン化された時系列上で既存のトランスフォーマーベースの言語モデルアーキテクチャをクロスエントロピー損失によって訓練する。
T5ファミリー(20Mから710Mパラメータ)をベースとしたChronosモデルを,ガウス過程を通じて生成した合成データセットを補完し,一般化を向上した。
42のデータセットからなり、古典的局所モデルと深層学習の両方からなる総合的なベンチマークでは、クロノスモデルが示される。
(a)トレーニングコーパスの一部であるデータセットにおいて、他の方法よりも格段に優れ、
b) 新たなデータセットに対して,特に訓練された手法と比較して,ゼロショット性能が同等で,しかも例外的に優れている。
以上の結果から,Chronosモデルは様々な領域の時系列データを利用して,未知の予測タスクのゼロショット精度を向上し,事前学習したモデルを実行可能なツールとして位置づけることで,予測パイプラインを大幅に単純化できることが示唆された。
We introduce Chronos, a simple yet effective framework for pretrained probabilistic time series models. Chronos tokenizes time series values using scaling and quantization into a fixed vocabulary and trains existing transformer-based language model architectures on these tokenized time series via the cross-entropy loss. We pretrained Chronos models based on the T5 family (ranging from 20M to 710M parameters) on a large collection of publicly available datasets, complemented by a synthetic dataset that we generated via Gaussian processes to improve generalization. In a comprehensive benchmark consisting of 42 datasets, and comprising both classical local models and deep learning methods, we show that Chronos models: (a) significantly outperform other methods on datasets that were part of the training corpus; and (b) have comparable and occasionally superior zero-shot performance on new datasets, relative to methods that were trained specifically on them. Our results demonstrate that Chronos models can leverage time series data from diverse domains to improve zero-shot accuracy on unseen forecasting tasks, positioning pretrained models as a viable tool to greatly simplify forecasting pipelines. | 翻訳日:2024-05-03 21:31:27 公開日:2024-05-02 |
# なぜE.T.は自宅に電話できないのか - VoWiFiにおけるIPベースのジオブロッキングのグローバルな展望
Why E.T. Can't Phone Home: A Global View on IP-based Geoblocking at VoWiFi ( http://arxiv.org/abs/2403.11759v2 ) ライセンス: Link先を確認 | Gabriel Karl Gegenhuber, Philipp Frenzel, Edgar Weippl, | (参考訳) 現在のセルラーネットワーク世代 (4G, 5G) では、IMS (IP Multimedia Subsystem) が音声通話やショートメッセージの終了に重要な役割を果たしている。
多くのオペレーターはVoWiFi(Voice over Wi-Fi、Wi-Fi通話)を代替のネットワークアクセス技術として使用し、無線信号がない地域(例えば、農村部やシールドビルなど)での携帯電話の通信を補完する。
顧客が国境を定期的に横断するモバイルの世界では、VoWiFiの通話は通常国内レートで請求されるため、海外旅行中に高価な国際ローミング料金を回避できる。
この収益源を失わないために、海外に滞在する顧客のためにIMSへのアクセスをブロックするオペレーターもいる。
本研究は,世界のオペレータ間のVoWiFiの現在の展開状況を評価し,200カ国以上からの接続性を測定することにより,IP層上の既存のジオブロッキング対策を解析する。
オペレータのかなりのシェア(IPv4: 14.6%、IPv6: 65.2%)がDNSまたはVoWiFiプロトコルレベルでジオブロッキングを実装しており、緊急呼び出しサービスの可用性に関して深刻な欠点を浮き彫りにしている。
In current cellular network generations (4G, 5G) the IMS (IP Multimedia Subsystem) plays an integral role in terminating voice calls and short messages. Many operators use VoWiFi (Voice over Wi-Fi, also Wi-Fi calling) as an alternative network access technology to complement their cellular coverage in areas where no radio signal is available (e.g., rural territories or shielded buildings). In a mobile world where customers regularly traverse national borders, this can be used to avoid expensive international roaming fees while journeying overseas, since VoWiFi calls are usually invoiced at domestic rates. To not lose this revenue stream, some operators block access to the IMS for customers staying abroad. This work evaluates the current deployment status of VoWiFi among worldwide operators and analyzes existing geoblocking measures on the IP layer by measuring connectivity from over 200 countries. We show that a substantial share (IPv4: 14.6%, IPv6: 65.2%) of operators implement geoblocking at the DNS- or VoWiFi protocol level, and highlight severe drawbacks in terms of emergency calling service availability. | 翻訳日:2024-05-03 21:31:27 公開日:2024-05-02 |
# 自由電子量子光学系における強結合と単一光子非線形性
Strong coupling and single-photon nonlinearity in free-electron quantum optics ( http://arxiv.org/abs/2403.13071v2 ) ライセンス: Link先を確認 | Aviv Karnieli, Charles Roques-Carmes, Nicholas Rivera, Shanhui Fan, | (参考訳) 自由電子が量子化された電磁場や物質系とコヒーレントに相互作用できるという観測は、自由電子のユニークな量子的性質を活用する多くの提案につながった。
これらの提案の中心には、空飛ぶ自由電子とフォトニックモードの間の強い量子相互作用の仮定がある。
しかし、既存のスキームは電子回折によって本質的に制限され、相互作用長と量子カップリング強度に上限が与えられる。
ここでは、自由電子が2つの誘導モードで共伝播する「自由電子ファイバー」を効果的に1次元フォトニックシステムとして使用することを提案する。
第1モードは、自由電子に雷動トラップを適用し、電子回折による限界を効果的に引き上げる。
第2モードはガイドされた自由電子に強く結合し、以前の設計よりも桁違いに大きい結合が強化される。
さらに,提案手法によって実現された相互作用長の延長により,自由電子を介する強い単一光子非線形性を実現することができる。
我々は、決定論的単一光子放出や複素非線形多モードダイナミクスなど、我々のシステムにおけるいくつかの興味深い観測可能な量子効果を予測する。
我々の提案は、非ガウス光発生、決定論的単一光子放出、自由電子-光子相互作用によって制御される量子ゲートなど、自由電子量子光学における多くの期待される効果の実現に向けた道を開くものである。
The observation that free electrons can interact coherently with quantized electromagnetic fields and matter systems has led to a plethora of proposals leveraging the unique quantum properties of free electrons. At the heart of these proposals lies the assumption of a strong quantum interaction between a flying free electron and a photonic mode. However, existing schemes are intrinsically limited by electron diffraction, which puts an upper bound on the interaction length and therefore the quantum coupling strength. Here, we propose the use of "free-electron fibers'': effectively one-dimensional photonic systems where free electrons co-propagate with two guided modes. The first mode applies a ponderomotive trap to the free electron, effectively lifting the limitations due to electron diffraction. The second mode strongly couples to the guided free electron, with an enhanced coupling that is orders of magnitude larger than previous designs. Moreover, the extended interaction lengths enabled by our scheme allows for strong single-photon nonlinearities mediated by free electrons. We predict a few interesting observable quantum effects in our system, such as deterministic single-photon emission and complex, nonlinear multimode dynamics. Our proposal paves the way towards the realization of many anticipated effects in free-electron quantum optics, such as non-Gaussian light generation, deterministic single photon emission, and quantum gates controlled by free-electron--photon interactions. | 翻訳日:2024-05-03 21:31:27 公開日:2024-05-02 |
# コンフォーマルオンラインモデルアグリゲーション
Conformal online model aggregation ( http://arxiv.org/abs/2403.15527v2 ) ライセンス: Link先を確認 | Matteo Gasparin, Aaditya Ramdas, | (参考訳) コンフォーマル予測は、強い分布仮定を行うことなく、不確実性定量化の合理的な概念を機械学習モデルに装備する。
ブラックボックス予測モデルをラップし、ポイント予測を予め定義された範囲範囲の保証を持つセット予測に変換する。
しかし、共形予測は、基礎となる機械学習モデルを事前に修正した場合にのみ有効である。
共形予測における比較的未適応な問題は、モデル選択と/または集約である:与えられた問題に対して、予測方法(ランダムフォレスト、ニューラルネット、正規化線形モデルなど)のどれを共形化するべきか?
本稿では,複数アルゴリズムの予測セットを投票によって組み合わせたオンライン環境における共形モデルアグリゲーションへの新たなアプローチを提案する。
Conformal prediction equips machine learning models with a reasonable notion of uncertainty quantification without making strong distributional assumptions. It wraps around any black-box prediction model and converts point predictions into set predictions that have a predefined marginal coverage guarantee. However, conformal prediction only works if we fix the underlying machine learning model in advance. A relatively unaddressed issue in conformal prediction is that of model selection and/or aggregation: for a given problem, which of the plethora of prediction methods (random forests, neural nets, regularized linear models, etc.) should we conformalize? This paper proposes a new approach towards conformal model aggregation in online settings that is based on combining the prediction sets from several algorithms by voting, where weights on the models are adapted over time based on past performance. | 翻訳日:2024-05-03 21:31:27 公開日:2024-05-02 |
# 相互情報規則化によるランドマーク誘導型クロススピーカリップ読解
Landmark-Guided Cross-Speaker Lip Reading with Mutual Information Regularization ( http://arxiv.org/abs/2403.16071v2 ) ライセンス: Link先を確認 | Linzhi Wu, Xingyu Zhang, Yakun Zhang, Changyan Zheng, Tiejun Liu, Liang Xie, Ye Yan, Erwei Yin, | (参考訳) 視覚的な唇の動きからサイレントスピーチを解釈するプロセスであるリップリーディングは、幅広い現実的な応用において注目を集めている。
深層学習アプローチは、現在の唇読解システムを大幅に改善する。
しかし、話者アイデンティティが変化する話者間シナリオにおける唇読みは、話者間のばらつきによって難しい問題を引き起こす。
十分に訓練された唇読解システムは、真新しい話者を扱う際には、性能が良くない。
話者不自由な唇読解モデルを学ぶために、重要な洞察は、特定の話者に過度に適合するモデルを避けることで、話者間の視覚的変動を減らすことである。
本研究は,ハイブリッドCTC/アテンションアーキテクチャに基づく入力視覚的手がかりと潜時表現の両方の観点から,頻繁に使用される口輪画像の代わりに,唇のランドマーク付ききめ細かな視覚的手がかりを応用し,話者特有の外観特性を低下させる手法を提案する。
さらに、話者不感な潜在表現をキャプチャするために、最大最小の相互情報正規化手法を提案する。
提案手法の有効性を, 話者内および話者間条件下で実験的に評価した。
Lip reading, the process of interpreting silent speech from visual lip movements, has gained rising attention for its wide range of realistic applications. Deep learning approaches greatly improve current lip reading systems. However, lip reading in cross-speaker scenarios where the speaker identity changes, poses a challenging problem due to inter-speaker variability. A well-trained lip reading system may perform poorly when handling a brand new speaker. To learn a speaker-robust lip reading model, a key insight is to reduce visual variations across speakers, avoiding the model overfitting to specific speakers. In this work, in view of both input visual clues and latent representations based on a hybrid CTC/attention architecture, we propose to exploit the lip landmark-guided fine-grained visual clues instead of frequently-used mouth-cropped images as input features, diminishing speaker-specific appearance characteristics. Furthermore, a max-min mutual information regularization approach is proposed to capture speaker-insensitive latent representations. Experimental evaluations on public lip reading datasets demonstrate the effectiveness of the proposed approach under the intra-speaker and inter-speaker conditions. | 翻訳日:2024-05-03 21:31:27 公開日:2024-05-02 |
# 複数の専門家のLLMをジェネラリストとして、エキスパートのToken Routingを通じてシンジケートする
An Expert is Worth One Token: Synergizing Multiple Expert LLMs as Generalist via Expert Token Routing ( http://arxiv.org/abs/2403.16854v2 ) ライセンス: Link先を確認 | Ziwei Chai, Guoyin Wang, Jing Su, Tianjie Zhang, Xuanwen Huang, Xuwu Wang, Jingjing Xu, Jianbo Yuan, Hongxia Yang, Fei Wu, Yang Yang, | (参考訳) 本稿では,複数の専門家LLMのシームレスな統合を支援する汎用フレームワークであるExpert-Token-Routingを紹介する。
我々のフレームワークは,メタLLMの語彙内の特別な専門家トークンとして,専門家LLMを表現している。
メタLSMは、新しいトークンを生成するように、専門家のLSMにルーティングすることができる。
Expert-Token-Routingは、既存の命令データセットから専門家のLLMの暗黙の専門知識を学ぶことをサポートするだけでなく、プラグイン・アンド・プレイで新しい専門家のLLMを動的に拡張することを可能にする。
また、ユーザの視点からは詳細なコラボレーションプロセスを隠蔽し、独特なLLMのように対話を容易にする。
本フレームワークは,6つの異なる専門家ドメインを組み込んだベンチマークにおいて,複数の専門家LLMを相乗化して汎用LLMシステムを構築する上での有効性と堅牢性を示すため,既存の複数LLMコラボレーションパラダイムよりも優れていた。
We present Expert-Token-Routing, a unified generalist framework that facilitates seamless integration of multiple expert LLMs. Our framework represents expert LLMs as special expert tokens within the vocabulary of a meta LLM. The meta LLM can route to an expert LLM like generating new tokens. Expert-Token-Routing not only supports learning the implicit expertise of expert LLMs from existing instruction dataset but also allows for dynamic extension of new expert LLMs in a plug-and-play manner. It also conceals the detailed collaboration process from the user's perspective, facilitating interaction as though it were a singular LLM. Our framework outperforms various existing multi-LLM collaboration paradigms across benchmarks that incorporate six diverse expert domains, demonstrating effectiveness and robustness in building generalist LLM system via synergizing multiple expert LLMs. | 翻訳日:2024-05-03 21:31:27 公開日:2024-05-02 |
# マスクオートエンコーダのオーバーフィットによる生成的パロイングの検出
Detecting Generative Parroting through Overfitting Masked Autoencoders ( http://arxiv.org/abs/2403.19050v2 ) ライセンス: Link先を確認 | Saeid Asgari Taghanaki, Joseph Lambourne, | (参考訳) 生成型AIモデルの出現は、デジタルコンテンツ作成に革命をもたらしたが、生成型パロットによる著作権の完全性を維持する上での課題を導入している。
本研究は, 過度に適合したMasked Autoencoder (MAE) を用いて, この課題に対処する新しい手法を提案する。
トレーニングデータセットの平均損失に基づいて検出しきい値を確立し、修正データセットにおけるオウム内容の正確な識別を可能にする。
予備評価の結果は有望な結果を示し,提案手法が倫理的利用を確実にし,生成モデルの法的遵守を強化する可能性を示唆している。
The advent of generative AI models has revolutionized digital content creation, yet it introduces challenges in maintaining copyright integrity due to generative parroting, where models mimic their training data too closely. Our research presents a novel approach to tackle this issue by employing an overfitted Masked Autoencoder (MAE) to detect such parroted samples effectively. We establish a detection threshold based on the mean loss across the training dataset, allowing for the precise identification of parroted content in modified datasets. Preliminary evaluations demonstrate promising results, suggesting our method's potential to ensure ethical use and enhance the legal compliance of generative models. | 翻訳日:2024-05-03 21:21:42 公開日:2024-05-02 |
# スケーラブルなニューラルコンビネーション最適化のための自己改善学習
Self-Improved Learning for Scalable Neural Combinatorial Optimization ( http://arxiv.org/abs/2403.19561v3 ) ライセンス: Link先を確認 | Fu Luo, Xi Lin, Zhenkun Wang, Xialiang Tong, Mingxuan Yuan, Qingfu Zhang, | (参考訳) The end-to-end Neural combinatorial Optimization (NCO) method shows promising performance in solve complex combinatorial optimization problem without without the need of expert design。
しかし、既存の手法は大規模な問題に悩まされ、実用性に支障をきたす。
この制限を克服するために、ニューラル組合せ最適化のスケーラビリティを向上させるための新しい自己改善学習法(SIL)を提案する。
具体的には,ラベル付きデータなしで大規模問題インスタンス上での直接モデルトレーニングを可能にする,効率的な自己改善機構を開発する。
革新的な局所的再構成手法によって、この手法は、効率的なモデルトレーニングを導くための擬似ラベルとして、より優れた解を反復的に生成することができる。
さらに,計算オーバーヘッドの少ない大規模組合せ問題インスタンスを効率的に処理するための線形複雑性注意機構を設計する。
本研究では,TSPとCVRP(Capacitated Vehicle Routing Problem)に関する一様分布と実空間分布の両方で最大100Kノードの総合的な実験を行い,本手法のスケーラビリティを実証した。
The end-to-end neural combinatorial optimization (NCO) method shows promising performance in solving complex combinatorial optimization problems without the need for expert design. However, existing methods struggle with large-scale problems, hindering their practical applicability. To overcome this limitation, this work proposes a novel Self-Improved Learning (SIL) method for better scalability of neural combinatorial optimization. Specifically, we develop an efficient self-improved mechanism that enables direct model training on large-scale problem instances without any labeled data. Powered by an innovative local reconstruction approach, this method can iteratively generate better solutions by itself as pseudo-labels to guide efficient model training. In addition, we design a linear complexity attention mechanism for the model to efficiently handle large-scale combinatorial problem instances with low computation overhead. Comprehensive experiments on the Travelling Salesman Problem (TSP) and the Capacitated Vehicle Routing Problem (CVRP) with up to 100K nodes in both uniform and real-world distributions demonstrate the superior scalability of our method. | 翻訳日:2024-05-03 21:21:42 公開日:2024-05-02 |
# HARMamba:双方向選択SSMに基づく効率的なウェアラブルセンサヒューマンアクティビティ認識
HARMamba: Efficient Wearable Sensor Human Activity Recognition Based on Bidirectional Selective SSM ( http://arxiv.org/abs/2403.20183v2 ) ライセンス: Link先を確認 | Shuangjian Li, Tao Zhu, Furong Duan, Liming Chen, Huansheng Ning, Christopher Nugent, Yaping Wan, | (参考訳) ウェアラブルセンサーによる人間の活動認識(HAR)は、活動知覚において重要な研究領域である。
しかし、高い効率と長いシーケンス認識を実現することは依然として課題である。
CNN、RNN、トランスフォーマーといった時間的深層学習モデルの広範な研究にもかかわらず、その広範なパラメータは、しばしば計算とメモリの制約を生じさせ、リソースに制約のあるモバイルヘルスアプリケーションには適さない。
本研究は,選択的双方向SSMとハードウェア対応設計を組み合わせた,革新的な軽量で多用途なHARアーキテクチャであるHARMambaを紹介する。
HARMambaは、現実的なシナリオにおけるリアルタイムリソース消費を最適化するために、線形再帰機構とパラメータの離散化を採用し、スキャンと再計算を効率的に融合させながら、関連する入力シーケンスに選択的にフォーカスすることができる。
無効なセンサデータの潜在的な問題に対処するため、システムは独立したチャネルを通じてデータストリームを処理し、各チャネルを"パッチ"に分割し、シーケンスの最後に分類トークンを付加する。
位置埋め込みはシーケンス順序を表すために組み込まれ、そのアクティビティカテゴリは分類ヘッダを介して出力される。
HARMamba BlockはHARMambaアーキテクチャの基本コンポーネントとして機能し、より差別的なアクティビティシークエンスの特徴を効果的に捉えることができる。
HARMambaは現代の最先端フレームワークより優れており、計算とメモリの要求を大幅に削減し、同等またはより良い精度を提供する。
この効果は、PAMAP2、WISDM、UNIMIB SHAR、UCIといった公開データセットで広く検証されており、印象的な結果を示している。
Wearable sensor-based human activity recognition (HAR) is a critical research domain in activity perception. However, achieving high efficiency and long sequence recognition remains a challenge. Despite the extensive investigation of temporal deep learning models, such as CNNs, RNNs, and transformers, their extensive parameters often pose significant computational and memory constraints, rendering them less suitable for resource-constrained mobile health applications. This study introduces HARMamba, an innovative light-weight and versatile HAR architecture that combines selective bidirectional SSM and hardware-aware design. To optimize real-time resource consumption in practical scenarios, HARMamba employs linear recursive mechanisms and parameter discretization, allowing it to selectively focus on relevant input sequences while efficiently fusing scan and recompute operations. To address potential issues with invalid sensor data, the system processes the data stream through independent channels, dividing each channel into "patches" and appending classification token to the end of the sequence. Position embeddings are incorporated to represent the sequence order, and the activity categories are output through a classification header. The HARMamba Block serves as the fundamental component of the HARMamba architecture, enabling the effective capture of more discriminative activity sequence features. HARMamba outperforms contemporary state-of-the-art frameworks, delivering comparable or better accuracy with significantly reducing computational and memory demands. It's effectiveness has been extensively validated on public datasets like PAMAP2, WISDM, UNIMIB SHAR and UCI, showcasing impressive results. | 翻訳日:2024-05-03 21:21:42 公開日:2024-05-02 |
# 騒音に強いロバスト性を持つ中性個体群
Already Moderate Population Sizes Provably Yield Strong Robustness to Noise ( http://arxiv.org/abs/2404.02090v3 ) ライセンス: Link先を確認 | Denis Antipov, Benjamin Doerr, Alexandra Ivanova, | (参考訳) 経験から、典型的な進化的アルゴリズムは、ノイズ関数評価のような確率的障害にうまく対応できることが示されている。
1+\lambda)$と$(1,\lambda)$の進化的アルゴリズムのこの最初の数学的ランタイム解析では、両方のアルゴリズムがOneMaxベンチマークの漸近的ランタイムを増大させることなく、一定のノイズ確率を許容できることが示される。
これに対し、集団サイズ$\lambda$ sufficesは、少なくとも問題サイズ$n$の対数である。
この方向に向けられた唯一の結果は、現実的でない1ビットノイズモデルであり、問題サイズが超直線的であることが必要であり、OneMaxベンチマークのノイズレスランタイムでは、ほぼ3分の1の保証が保証された。
より強力な結果は、ノイズのない子孫は親と騒々しい子孫の間に偏りのある均一な交叉と見なすことができるという新しい証明理論に基づくものである。
この知見から得られた技術的補題は、進化的アルゴリズムの数学的ランタイム解析にも応用できると楽観的である。
Experience shows that typical evolutionary algorithms can cope well with stochastic disturbances such as noisy function evaluations. In this first mathematical runtime analysis of the $(1+\lambda)$ and $(1,\lambda)$ evolutionary algorithms in the presence of prior bit-wise noise, we show that both algorithms can tolerate constant noise probabilities without increasing the asymptotic runtime on the OneMax benchmark. For this, a population size $\lambda$ suffices that is at least logarithmic in the problem size $n$. The only previous result in this direction regarded the less realistic one-bit noise model, required a population size super-linear in the problem size, and proved a runtime guarantee roughly cubic in the noiseless runtime for the OneMax benchmark. Our significantly stronger results are based on the novel proof argument that the noiseless offspring can be seen as a biased uniform crossover between the parent and the noisy offspring. We are optimistic that the technical lemmas resulting from this insight will find applications also in future mathematical runtime analyses of evolutionary algorithms. | 翻訳日:2024-05-03 21:21:42 公開日:2024-05-02 |
# 橋の向こう:マルチGPUインターコネクションにおけるコンテントベースのカバーとサイドチャネルアタック
Beyond the Bridge: Contention-Based Covert and Side Channel Attacks on Multi-GPU Interconnect ( http://arxiv.org/abs/2404.03877v2 ) ライセンス: Link先を確認 | Yicheng Zhang, Ravan Nazaraliyev, Sankha Baran Dutta, Nael Abu-Ghazaleh, Andres Marquez, Kevin Barker, | (参考訳) NVLinkのような高速インターコネクトは、CPUとGPUの間の重要なリンクとして機能し、現代のマルチGPUシステムに不可欠なものである。
本研究は,相互接続の混雑による隠蔽およびサイドチャネル攻撃に対するマルチGPUシステムの脆弱性を浮き彫りにする。
相手は、特別な許可を必要とせず、NVLinkの混雑を監視することにより、被害者の行動に関する個人情報を推測することができる。
この知見を活かして、45.5kbpsの帯域幅と低いエラー率を持つ2つのGPUにまたがる隠蔽チャネルアタックを開発し、攻撃者が共有NVLinkインターコネクトを介してアプリケーションにフィンガープリントできるサイドチャネルアタックを導入する。
High-speed interconnects, such as NVLink, are integral to modern multi-GPU systems, acting as a vital link between CPUs and GPUs. This study highlights the vulnerability of multi-GPU systems to covert and side channel attacks due to congestion on interconnects. An adversary can infer private information about a victim's activities by monitoring NVLink congestion without needing special permissions. Leveraging this insight, we develop a covert channel attack across two GPUs with a bandwidth of 45.5 kbps and a low error rate, and introduce a side channel attack enabling attackers to fingerprint applications through the shared NVLink interconnect. | 翻訳日:2024-05-03 21:21:42 公開日:2024-05-02 |
# AIが学習していないもの(そしてなぜ) - ロボットのためのバイオインスパイアされた基礎モデル
What AIs are not Learning (and Why): Bio-Inspired Foundation Models for Robots ( http://arxiv.org/abs/2404.04267v7 ) ライセンス: Link先を確認 | Mark Stefik, | (参考訳) 便利なロボット(テレロボットを含む)を作ることは困難であり、堅牢で汎用的な自律ロボットを作ることは困難である。
現在のスマートロボットは、手動プログラミング、数学的モデル、計画フレームワーク、強化学習を使って作成されている。
これらの手法は、ディープラーニング、生成AI、基礎モデル(FM)で見られるパフォーマンスと一般性の飛躍に繋がらない。
現代のロボットは、ホームケア、看護助手、家事の仕方など、人よりはマシなことを学ばない。
ロボットサービスアプリケーションの願望に応えるには、その作り方を改善する必要がある。
2足歩行ロボット(ボディ)の高コストは、研究と展開の両方において大きな障害となる。
より深い問題は、主流のFM(「ミンド」)が現実世界の文脈における知覚、行動、学習をサポートしていないことである。
うまくコミュニケーションしたり協力したりするロボットに繋がることはない。
実験をしたり、他人に質問したり、模倣学習を適当に行おうとするロボットに導かれることはない。
それらは、サービスアプリケーションに広くデプロイされるのに十分な知識を持つロボットにつながらない。
本稿では、人間互換サービスロボットが知っておくべきことに焦点を当てる。
ブートストラップのための経験的(別名「ロボティック」)FMの開発を推奨している。
It is hard to make robots (including telerobots) that are useful, and harder to make autonomous robots that are robust and general. Current smart robots are created using manual programming, mathematical models, planning frameworks, and reinforcement learning. These methods do not lead to the leaps in performance and generality seen with deep learning, generative AI, and foundation models (FMs). Today's robots do not learn to provide home care, to be nursing assistants, or to do household chores nearly as well as people do. Addressing the aspirational opportunities of robot service applications requires improving how they are created. The high cost of bipedal multi-sensory robots ("bodies") is a significant obstacle for both research and deployment. A deeper issue is that mainstream FMs ("minds") do not support sensing, acting, and learning in context in the real world. They do not lead to robots that communicate well or collaborate. They do not lead to robots that try to learn by experimenting, by asking others, or by imitation learning as appropriate. They do not lead to robots that know enough to be deployed widely in service applications. This paper focuses on what human-compatible service robots need to know. It recommends developing experiential (aka "robotic") FMs for bootstrapping them. | 翻訳日:2024-05-03 21:21:42 公開日:2024-05-02 |
# プリミティブエンド・ツー・エンドデコーダによる拡散に基づく知覚画像圧縮の補正
Correcting Diffusion-Based Perceptual Image Compression with Privileged End-to-End Decoder ( http://arxiv.org/abs/2404.04916v2 ) ライセンス: Link先を確認 | Yiyang Ma, Wenhan Yang, Jiaying Liu, | (参考訳) 拡散モデルにより生成された画像は、優れた知覚品質が得られる。
しかし、拡散モデルが歪みを保証することは困難であるため、拡散モデルと画像圧縮モデルの統合はいまだにより包括的な探索を必要としている。
本稿では,特権付きエンド・ツー・エンド・エンド・デコーダ・モデルを用いた拡散型画像圧縮法を提案する。
我々は拡散モデルを構築し、拡散モデルとエンドツーエンドデコーダを組み合わせた新しいパラダイムを設計し、後者はエンコーダ側で抽出された特権情報を送信する。
具体的には,エンコーダ側の拡散モデルの再構成過程を,元の画像が見えるように理論的に解析する。
この分析に基づいて、エンコーダ側のスコア関数 $\nabla_{\mathbf{x}_t}\log p(\mathbf{x}_t)$ をよりよく近似し、その組み合わせを効果的に伝達する、エンドツーエンドの畳み込みデコーダを導入する。
従来の知覚圧縮法と比較して,歪みと知覚の両方において,本手法の優位性を示す実験を行った。
The images produced by diffusion models can attain excellent perceptual quality. However, it is challenging for diffusion models to guarantee distortion, hence the integration of diffusion models and image compression models still needs more comprehensive explorations. This paper presents a diffusion-based image compression method that employs a privileged end-to-end decoder model as correction, which achieves better perceptual quality while guaranteeing the distortion to an extent. We build a diffusion model and design a novel paradigm that combines the diffusion model and an end-to-end decoder, and the latter is responsible for transmitting the privileged information extracted at the encoder side. Specifically, we theoretically analyze the reconstruction process of the diffusion models at the encoder side with the original images being visible. Based on the analysis, we introduce an end-to-end convolutional decoder to provide a better approximation of the score function $\nabla_{\mathbf{x}_t}\log p(\mathbf{x}_t)$ at the encoder side and effectively transmit the combination. Experiments demonstrate the superiority of our method in both distortion and perception compared with previous perceptual compression methods. | 翻訳日:2024-05-03 21:21:42 公開日:2024-05-02 |
# 量子光学系におけるトポロジカル光子励起
Topological photon pumping in quantum optical systems ( http://arxiv.org/abs/2404.05570v2 ) ライセンス: Link先を確認 | Mathias B. M. Svendsen, Marcel Cech, Max Schemmer, Beatriz Olmos, | (参考訳) 長距離相互作用を持つ一次元系におけるトポロジカルポンピングの概念を確立し、量子光学系における光子の輸送に適用する。
理論的検討では、すべての交換相互作用を持つライス・ミールモデルの拡張版を導入する。
その性質を解析することにより、トポロジカルポンピングの一般的な条件を特定し、1次元エミッタ鎖上の光子のトポロジカルに保護され、分散しない輸送を示す。
具体例として、Rydberg原子格子、低電子状態に励起される原子の高密度格子、導波路に結合した原子の3つの一般的な量子光学プラットフォームについて実験的なパラメータを用いて検討する。
双極子-双極子相互作用の長距離特性にもかかわらず、トポロジカルポンピングは1サイクルあたりの忠実度が99.9%に達する光子の輸送を促進する。
さらに,光子ポンプ法は結合速度の局所的障害に対して位相的に保護されていることが判明した。
We establish the concept of topological pumping in one-dimensional systems with long-range interactions and apply it to the transport of a photon in quantum optical systems. In our theoretical investigation, we introduce an extended version of the Rice-Mele model with all-to-all exchange interactions. By analyzing its properties, we identify the general conditions for topological pumping and demonstrate the topologically protected and dispersionless transport of a photon on a one-dimensional emitter chain. As concrete examples, we investigate three different popular quantum optics platforms, namely Rydberg atom lattices, dense lattices of atoms excited to low-lying electronic states, and atoms coupled to waveguides, using experimentally relevant parameters. We observe that despite the long-ranged character of the dipole-dipole interactions, topological pumping facilitates the transport of a photon with a fidelity per cycle which can reach 99.9%. Moreover, we find that the photon pumping process remains topologically protected against local disorder in the coupling rates. | 翻訳日:2024-05-03 21:21:42 公開日:2024-05-02 |
# レーンウェイズとトポロジ不変区間交通シミュレーションのためのグラフ注意ネットワーク
Graph Attention Network for Lane-Wise and Topology-Invariant Intersection Traffic Simulation ( http://arxiv.org/abs/2404.07446v2 ) ライセンス: Link先を確認 | Nooshin Yousefzadeh, Rahul Sengupta, Yashaswi Karnati, Anand Rangarajan, Sanjay Ranka, | (参考訳) 交通渋滞は経済、環境、社会に重大な影響を与えている。
区間交通流のダイナミクスは多くの要因の影響を受けている。
微視的な交通シミュレータは貴重なツールであるが、計算集約的で校正が難しい。
さらに、既存の機械学習アプローチでは、レーン固有の波形を提供したり、交差点トポロジや交通パターンに適応するのに苦労しています。
本研究では,グラフ注意ニューラルネットワーク(GAT)を用いて,交差点に対する2つの効率的かつ正確な「デジタルツイン」モデルを提案する。
これらの注目グラフ自動エンコーダデジタルツインは、交差点内の交通の時間的、空間的、文脈的側面を捉え、高分解能ループ検出器波形、信号状態記録、運転行動、回転運動数などの様々な要因を取り入れている。
複数の交差点にまたがる様々な対物的シナリオに基づいて、我々のモデルはよく一般化され、任意の交差点アプローチと出口車線に対する詳細な交通波形を推定できる。
マルチスケール誤差測定は、我々のモデルがマイクロシミュレーションと相容れない性能を示す。
本研究の主な用途は交通システム研究における交通信号の最適化である交通信号の最適化である。
これらの軽量なデジタルツインは、廊下とネットワーク信号タイミング最適化フレームワークにシームレスに統合することができる。
さらに,本研究の応用は,車線再構成,運転行動解析,交差点の安全性と効率向上に関する情報決定の促進にまで及んでいる。
将来の研究のための有望な道は、このアプローチを都市高速道路回廊に拡張し、有効性の測定値と統合することである。
Traffic congestion has significant economic, environmental, and social ramifications. Intersection traffic flow dynamics are influenced by numerous factors. While microscopic traffic simulators are valuable tools, they are computationally intensive and challenging to calibrate. Moreover, existing machine-learning approaches struggle to provide lane-specific waveforms or adapt to intersection topology and traffic patterns. In this study, we propose two efficient and accurate "Digital Twin" models for intersections, leveraging Graph Attention Neural Networks (GAT). These attentional graph auto-encoder digital twins capture temporal, spatial, and contextual aspects of traffic within intersections, incorporating various influential factors such as high-resolution loop detector waveforms, signal state records, driving behaviors, and turning-movement counts. Trained on diverse counterfactual scenarios across multiple intersections, our models generalize well, enabling the estimation of detailed traffic waveforms for any intersection approach and exit lanes. Multi-scale error metrics demonstrate that our models perform comparably to microsimulations. The primary application of our study lies in traffic signal optimization, a pivotal area in transportation systems research. These lightweight digital twins can seamlessly integrate into corridor and network signal timing optimization frameworks. Furthermore, our study's applications extend to lane reconfiguration, driving behavior analysis, and facilitating informed decisions regarding intersection safety and efficiency enhancements. A promising avenue for future research involves extending this approach to urban freeway corridors and integrating it with measures of effectiveness metrics. | 翻訳日:2024-05-03 21:21:42 公開日:2024-05-02 |
# 物理過程の最大因果効果と最小因果効果
Maximum and minimum causal effects of physical processes ( http://arxiv.org/abs/2404.07683v2 ) ライセンス: Link先を確認 | Kaumudibikash Goswami, Giulio Chiribella, | (参考訳) 一般的な物理理論における因果関係の強さに関する2つの定量的尺度を導入する。
これら2つの尺度は、最大因果効果と最小因果効果と呼ばれ、他の系の変化によって引き起こされる物理的系の最大と最小の変化を捉えている。
量子論において、両測度が連続性や忠実性などの重要な性質を有しており、入力状態の直交対に対する最適化によって評価できることを示す。
最大因果効果について,完全量子プロセストモグラフィーを行なわずに因果関係の強さを推定するために,変分アルゴリズムに基づく数値的な下界を提供する。
本アルゴリズムでは, 直接因数と共通因数のコヒーレントな量子重ね合わせと, 2つの完全非偏極チャネルのコヒーレントな量子重ね合わせによる通信を含む2つのパラダイム的な例を分析した。
We introduce two quantitative measures of the strength of causal relations in general physical theories. These two measures called the maximum and minimum causal effect, capture the maximum and minimum changes in a physical system induced by changes in another system. In quantum theory, we show that both measures possess important properties, such as continuity and faithfulness, and can be evaluated through optimization over orthogonal pairs of input states. For the maximum causal effect, we provide numerical lower bounds based on a variational algorithm, which can be used to estimate the strength of causal relations without performing a full quantum process tomography. To illustrate our algorithm, we analyze two paradigmatic examples, the first involving a coherent quantum superposition of direct cause and common cause, and the second involving communication through a coherent quantum superposition of two completely depolarizing channels. | 翻訳日:2024-05-03 21:21:42 公開日:2024-05-02 |
# AmpleGCG: オープンおよびクローズドの両方のLLMをジェイルブレイクするためのユニバーサルおよびトランスファー可能な逆接尾辞生成モデル学習
AmpleGCG: Learning a Universal and Transferable Generative Model of Adversarial Suffixes for Jailbreaking Both Open and Closed LLMs ( http://arxiv.org/abs/2404.07921v2 ) ライセンス: Link先を確認 | Zeyi Liao, Huan Sun, | (参考訳) 大規模言語モデル(LLM)がますます普及し、自律システムに統合されるにつれて、その安全性は不可欠である。
近年のGCG~\citep{zou2023universal} では,安全性向上に向けた大きな前進にもかかわらず,離散トークン最適化アルゴリズムを提案し,単一サフィックスを最小の損失で選択し,ジェイルブレイクアライメントされたLDMを成功させる。
本研究はまず,GCG最適化時に最も損失の少ない接尾辞のみを選択することの欠点について論じ,中間段階において失敗した接尾辞の発見を行う。
さらに、これらのサフィックスをトレーニングデータとして利用して、有害なクエリを与えられた逆サフィックスの分布をキャプチャし、有害なクエリに対する数百サフィックスを数秒で高速に生成する、AmpleGCGという生成モデルを学ぶ。
AmpleGCGはLLM(Llama-2-7B-chatとVicuna-7B)上で100倍近い攻撃成功率(ASR)を達成する。
さらに興味深いことに、AmpleGCGは、最新のGPT-3.5で99\%のASRを達成するために、クローズドソースLLMを含むさまざまなモデルにシームレスに転送する。
要約すると、我々の研究は、いかなる有害なクエリにも普遍的で、オープンソースLSMからクローズドソースLSMへの攻撃から移行可能な逆接尾辞の生成モデルを訓練することで、GCGの影響を増幅する。
さらに、1つの有害なクエリに対してわずか4秒で200の逆サフィックスを生成することができるため、防御がより困難になる。
As large language models (LLMs) become increasingly prevalent and integrated into autonomous systems, ensuring their safety is imperative. Despite significant strides toward safety alignment, recent work GCG~\citep{zou2023universal} proposes a discrete token optimization algorithm and selects the single suffix with the lowest loss to successfully jailbreak aligned LLMs. In this work, we first discuss the drawbacks of solely picking the suffix with the lowest loss during GCG optimization for jailbreaking and uncover the missed successful suffixes during the intermediate steps. Moreover, we utilize those successful suffixes as training data to learn a generative model, named AmpleGCG, which captures the distribution of adversarial suffixes given a harmful query and enables the rapid generation of hundreds of suffixes for any harmful queries in seconds. AmpleGCG achieves near 100\% attack success rate (ASR) on two aligned LLMs (Llama-2-7B-chat and Vicuna-7B), surpassing two strongest attack baselines. More interestingly, AmpleGCG also transfers seamlessly to attack different models, including closed-source LLMs, achieving a 99\% ASR on the latest GPT-3.5. To summarize, our work amplifies the impact of GCG by training a generative model of adversarial suffixes that is universal to any harmful queries and transferable from attacking open-source LLMs to closed-source LLMs. In addition, it can generate 200 adversarial suffixes for one harmful query in only 4 seconds, rendering it more challenging to defend. | 翻訳日:2024-05-03 21:21:42 公開日:2024-05-02 |
# 深部マルチスケールエンタングルメント再正規化アザッツを用いたクビットフラジアルエンタングルメント決定
Qubit frugal entanglement determination with the deep multi-scale entanglement renormalization ansatz ( http://arxiv.org/abs/2404.08548v2 ) ライセンス: Link先を確認 | Kushagra Garg, Zeeshan Ahmed, Andreas Thomasen, | (参考訳) 量子ハードウェア上でのDMERA(Deep Multi-scale entanglement renormalization ansatz)と、それを構成する量子ビットのサブセットの因果錐について検討する。
この因果錐は量子デバイス上の$O(M+\log{N})$物理量子ビットにまたがっており、$M$と$N$はそれぞれアンサッツのサブセットサイズと総数量子ビットである。
これにより、還元密度行列(RDM)の対角化により、$O(M+\log{N})$ qubits を用いて、$N$ qubit波動関数のフォン・ノイマン絡みエントロピーを決定することができる。
16-qubit DMERAをランダムに初期化し、密度行列シミュレーションを用いて$M$-qubitサブシステムの結果のRDMを対角化する。
実用的関心の例として、DMERAを用いて8スピン上の量子臨界長距離逆場イジングモデル(LRTIM)の変動基底状態を符号化する。
4量子ビットしか持たない別の実験でエンタングルメントエントロピーを得るため,ノイズを伴わない密度行列シミュレーションを行った。
最後に、IBM京都バックエンドのシミュレーション結果を再現する実験を繰り返す。
We study the deep multi-scale entanglement renormalization ansatz (DMERA) on quantum hardware and the causal cone of a subset of the qubits which make up the ansatz. This causal cone spans $O(M+\log{N})$ physical qubits on a quantum device, where $M$ and $N$ are the subset size and the total number qubits in the ansatz respectively. This allows for the determination of the von Neumann entanglement entropy of the $N$ qubit wave-function using $O(M+\log{N})$ qubits by diagonalization of the reduced density matrix (RDM). We show this by randomly initializing a 16-qubit DMERA and diagonalizing the resulting RDM of the $M$-qubit subsystem using density matrix simulation. As an example of practical interest, we also encode the variational ground state of the quantum critical long-range transverse field Ising model (LRTIM) on 8 spins using DMERA. We perform density matrix simulation with and without noise to obtain entanglement entropies in separate experiments using only 4 qubits. Finally we repeat the experiment on the IBM Kyoto backend reproducing simulation results. | 翻訳日:2024-05-03 21:21:42 公開日:2024-05-02 |
# 高速分子電子基底エネルギー推定のための軌道最適化による初期状態重なりの強調
Enhancing initial state overlap through orbital optimization for faster molecular electronic ground-state energy estimation ( http://arxiv.org/abs/2404.08565v2 ) ライセンス: Link先を確認 | Pauline J. Ollitrault, Cristian L. Cortes, Jerome F. Gonthier, Robert M. Parrish, Dario Rocca, Gian-Luca Anselmetti, Matthias Degroote, Nikolaj Moll, Raffaele Santagati, Michael Streif, | (参考訳) 量子位相推定アルゴリズムは、量子コンピュータ上で分子電子ハミルトニアンの基底状態エネルギーを決定する主要な方法である。
この文脈では、所望の基底状態と強く重なり合う古典的に抽出可能な状態を初期化する能力は、アルゴリズムのランタイムに直接影響するため、重要である。
しかし、いくつかの数値的な研究により、この重複はシステムサイズと指数関数的に崩壊することが示されている。
本研究では,1つのスレーター行列式から構築した初期状態に対して,分子軌道基底を最適化することにより,この崩壊を緩和できることを実証する。
そこで本研究では,真の分子基底状態を知ることなく,この最適化を実現するための実用的な手法を提案し,数値的に検証する。
得られた最適化された軌道と自然軌道を比較することで、オーバーラップが改善された。
具体的には, 上記崩壊に苦しむ4つの鉄-硫黄分子について, 局所化分子軌道に比べて1~2桁の精度向上が得られた。
The quantum phase estimation algorithm stands as the primary method for determining the ground state energy of a molecular electronic Hamiltonian on a quantum computer. In this context, the ability to initialize a classically tractable state that has a strong overlap with the desired ground state is critical as it directly affects the runtime of the algorithm. However, several numerical studies have shown that this overlap decays exponentially with system size. In this work, we demonstrate that this decay can be alleviated by optimizing the molecular orbital basis, for an initial state constructed from a single Slater determinant. We propose a practical method to achieve this optimization without knowledge of the true molecular ground state and test this method numerically. By comparing the resulting optimized orbitals to the natural orbitals, we find improved overlap. Specifically, for four iron-sulfur molecules, which are known to suffer from the mentioned decay, we show that our method yields one to two orders of magnitude improvement compared to localized molecular orbitals. | 翻訳日:2024-05-03 21:21:42 公開日:2024-05-02 |
# NeuroLGP-SM: ディープニューラルネットワークのためのスケーラブルなサロゲート支援神経進化
NeuroLGP-SM: Scalable Surrogate-Assisted Neuroevolution for Deep Neural Networks ( http://arxiv.org/abs/2404.08786v3 ) ライセンス: Link先を確認 | Fergal Stapleton, Edgar Galván, | (参考訳) 進化的アルゴリズム(EA)は、神経進化として知られるプロセスであるArtificial Deep Neural Networks(DNN)のアーキテクチャ構成とトレーニングにおいて重要な役割を果たす。
しかし、神経進化は、その固有の計算コストによって妨げられ、複数の世代、多数の人口、多くのエポックを必要としている。
最も計算集約的な側面は、単一の候補解の適合関数を評価することである。
この課題に対処するため、我々はSurrogate-assisted EAs (SAEAs) を採用する。
神経進化においていくつかのSAEAアプローチが提案されているが、難解な情報利用のような問題のため、真のDNNには適用されていない。
本研究では、遺伝的プログラミングのセマンティクスからインスピレーションを得て、DNNから出力される表現型距離ベクトルと、これらの大きなベクトルを扱うのに有効なKPLS(Partial Least Squares)とを併用し、探索に適した手法を提案する。
提案手法はニューロLinear Genetic Programming surrogate model (NeuroLGP-SM) と名付けられ, 完全評価を必要とせず, DNNの適合性を効率的に正確に推定する。
NeuroLGP-SMは、SMを持たないNeuroLGP、畳み込みニューラルネットワーク、サポートベクターマシン、オートエンコーダなど、他の12の方法と比較して、競合的または優れた結果を示す。
また、NeuroLGP-SMはNeuroLGPよりも25%エネルギー効率が高い。
この効率性は,提案したNeuroLGP-SMが大規模DNNの構成を最適化する際の全体的な魅力を増す。
Evolutionary Algorithms (EAs) play a crucial role in the architectural configuration and training of Artificial Deep Neural Networks (DNNs), a process known as neuroevolution. However, neuroevolution is hindered by its inherent computational expense, requiring multiple generations, a large population, and numerous epochs. The most computationally intensive aspect lies in evaluating the fitness function of a single candidate solution. To address this challenge, we employ Surrogate-assisted EAs (SAEAs). While a few SAEAs approaches have been proposed in neuroevolution, none have been applied to truly large DNNs due to issues like intractable information usage. In this work, drawing inspiration from Genetic Programming semantics, we use phenotypic distance vectors, outputted from DNNs, alongside Kriging Partial Least Squares (KPLS), an approach that is effective in handling these large vectors, making them suitable for search. Our proposed approach, named Neuro-Linear Genetic Programming surrogate model (NeuroLGP-SM), efficiently and accurately estimates DNN fitness without the need for complete evaluations. NeuroLGP-SM demonstrates competitive or superior results compared to 12 other methods, including NeuroLGP without SM, convolutional neural networks, support vector machines, and autoencoders. Additionally, it is worth noting that NeuroLGP-SM is 25% more energy-efficient than its NeuroLGP counterpart. This efficiency advantage adds to the overall appeal of our proposed NeuroLGP-SM in optimising the configuration of large DNNs. | 翻訳日:2024-05-03 21:11:56 公開日:2024-05-02 |
# 深層ネットワークがスパースと階層データをどのように学習するか:スパースランダム階層モデル
How Deep Networks Learn Sparse and Hierarchical Data: the Sparse Random Hierarchy Model ( http://arxiv.org/abs/2404.10727v2 ) ライセンス: Link先を確認 | Umberto Tomasini, Matthieu Wyart, | (参考訳) 高次元データを学習可能にするものを理解することは、機械学習の基本的な問題である。
一方、ディープラーニングの成功は、エッジのような単純な機能からより複雑な概念へと、深みとともにますます抽象化されていく表現の階層を構築する能力にあると信じられている。
一方、画像データセットのスムーズな変換のようなタスクの不変性に敏感な学習は、ディープネットワークにとって重要であると主張しており、その性能と強く相関している。
本研究は,この相関関係を説明し,これら2つの視点を統合することを目的とする。
生成的階層的データモデルに空間性を導入することで、スムーズな変換の離散バージョンである空間変換に対する非感受性を得ることを示す。
特に,Sparse Random Hierarchy Model (SRHM)を導入し,階層モデルに反映した階層的表現が,その不感度が学習された時に正確に学習されることを観察・合理化し,後者と性能の強い相関関係を説明する。
さらに、SRHMを学習するCNNのサンプルの複雑さが、タスクのスパーシリティと階層構造の両方にどのように依存するかを定量化する。
Understanding what makes high-dimensional data learnable is a fundamental question in machine learning. On the one hand, it is believed that the success of deep learning lies in its ability to build a hierarchy of representations that become increasingly more abstract with depth, going from simple features like edges to more complex concepts. On the other hand, learning to be insensitive to invariances of the task, such as smooth transformations for image datasets, has been argued to be important for deep networks and it strongly correlates with their performance. In this work, we aim to explain this correlation and unify these two viewpoints. We show that by introducing sparsity to generative hierarchical models of data, the task acquires insensitivity to spatial transformations that are discrete versions of smooth transformations. In particular, we introduce the Sparse Random Hierarchy Model (SRHM), where we observe and rationalize that a hierarchical representation mirroring the hierarchical model is learnt precisely when such insensitivity is learnt, thereby explaining the strong correlation between the latter and performance. Moreover, we quantify how the sample complexity of CNNs learning the SRHM depends on both the sparsity and hierarchical structure of the task. | 翻訳日:2024-05-03 21:11:56 公開日:2024-05-02 |
# 単一波動関数による高次ホール導電性:(2+1)Dトポロジカル秩序の対称性保存ギャップエッジへの障害
Higher Hall conductivity from a single wave function: Obstructions to symmetry-preserving gapped edge of (2+1)D topological order ( http://arxiv.org/abs/2404.10814v2 ) ライセンス: Link先を確認 | Ryohei Kobayashi, Taige Wang, Tomohiro Soejima, Roger S. K. Mong, Shinsei Ryu, | (参考訳) U(1)対称性を持つ(2+1)Dトポロジカル秩序相は、熱と電気のホールの導電性の両方が消滅しても、対称的なギャップ状態を持つかもしれないし、そうでないかもしれない。
最近、フェルミオン分数量子ホール(FQH)状態に有効な「高い」ホール導電性が存在することが判明した。
本稿では,部分空間回転とU(1)位相回転を組み合わせた「部分回転」ユニタリの期待値を評価することにより,FQH状態の単一波動関数から高ホール導電率を抽出できることを示す。
この結果は、フェルミオン性ラウリン状態が$\nu=1/3$, $1/5$, および非アベリアムーア-リード状態で数値的に検証される。
位相的絡み合いエントロピーとともに、部分回転の期待値が、U(1)対称性を持つボゾン/フェルミオンアベリアン位相秩序が対称性保存可能なギャップ状態を持つか否かを、完全に決定することを証明する。
また,アベリアのトポロジカル秩序の熱的および電気的ホール伝導度は部分回転により抽出できることを示した。
非アベリア FQH 状態においても、部分回転は、バルク境界系の低エネルギースペクトルを制約するリーブ・シュルツ・マティス型定理を与える。
リー群対称性を持つ場合に対する高次ホール導電率の一般化も示される。
A (2+1)D topological ordered phase with U(1) symmetry may or may not have a symmetric gapped edge state, even if both thermal and electric Hall conductivity are vanishing. It is recently discovered that there are "higher" versions of Hall conductivity valid for fermionic fractional quantum Hall (FQH) states, which obstructs symmetry-preserving gapped edge state beyond thermal and electric Hall conductivity. In this paper, we show that one can extract higher Hall conductivity from a single wave function of an FQH state, by evaluating the expectation value of the "partial rotation" unitary which is a combination of partial spatial rotation and a U(1) phase rotation. This result is verified numerically with the fermionic Laughlin state with $\nu=1/3$, $1/5$, as well as the non-Abelian Moore-Read state. Together with topological entanglement entropy, we prove that the expectation values of the partial rotation completely determines if a bosonic/fermionic Abelian topological order with U(1) symmetry has a symmetry-preserving gappable edge state or not. We also show that thermal and electric Hall conductivity of Abelian topological order can be extracted by partial rotations. Even in non-Abelian FQH states, partial rotation provides the Lieb-Schultz-Mattis type theorem constraining the low-energy spectrum of the bulk-boundary system. The generalization of higher Hall conductivity to the case with Lie group symmetry is also presented. | 翻訳日:2024-05-03 21:11:56 公開日:2024-05-02 |
# 言語モデリングを改善するローワー・トランケーション
Fewer Truncations Improve Language Modeling ( http://arxiv.org/abs/2404.10830v2 ) ライセンス: Link先を確認 | Hantian Ding, Zijian Wang, Giovanni Paolini, Varun Kumar, Anoop Deoras, Dan Roth, Stefano Soatto, | (参考訳) 大規模な言語モデルトレーニングでは、入力文書は典型的には結合され、パディングトークンを避けるために等しい長さのシーケンスに分割される。
その効率性にもかかわらず、結合アプローチはデータの整合性を損なう -- 多くのドキュメントを必然的に不完全な部分に分解し、モデルが学習を妨げ、完全なコンテキストに根ざした論理的に一貫性のある、事実的に一貫性のあるコンテンツを構成する。
そこで本研究では,文書を長さを考慮した組合せ最適化によりトレーニングシーケンスにまとめる,スケーラブルで効率的なBest-fit Packingを提案する。
本手法は,連結と同じ訓練効率を維持しつつ,不要な切り離しを完全に除去する。
テキストとコードによる事前学習による実験結果から,本手法は優れた性能(読解理解では+4.7%,文脈順では+16.8%,プログラム合成では+9.2%)を達成し,閉領域幻覚を58.3%まで効果的に減少させることがわかった。
In large language model training, input documents are typically concatenated together and then split into sequences of equal length to avoid padding tokens. Despite its efficiency, the concatenation approach compromises data integrity -- it inevitably breaks many documents into incomplete pieces, leading to excessive truncations that hinder the model from learning to compose logically coherent and factually consistent content that is grounded on the complete context. To address the issue, we propose Best-fit Packing, a scalable and efficient method that packs documents into training sequences through length-aware combinatorial optimization. Our method completely eliminates unnecessary truncations while retaining the same training efficiency as concatenation. Empirical results from both text and code pre-training show that our method achieves superior performance (e.g., relatively +4.7% on reading comprehension; +16.8% in context following; and +9.2% on program synthesis), and reduces closed-domain hallucination effectively by up to 58.3%. | 翻訳日:2024-05-03 21:11:56 公開日:2024-05-02 |
# 分子グラフにおけるGNNのスケーラビリティについて
On the Scalability of GNNs for Molecular Graphs ( http://arxiv.org/abs/2404.11568v3 ) ライセンス: Link先を確認 | Maciej Sypetkowski, Frederik Wenkel, Farimah Poursafaei, Nia Dickson, Karush Suri, Philip Fradkin, Dominique Beaini, | (参考訳) ディープラーニングモデルをスケールすることは、言語モデリングと画像生成における最近の革命の中心である。
モデルのサイズ、データセットのサイズ、パフォーマンスには強い関係がある。
しかし、グラフニューラルネットワーク(GNN)のような構造ベースのアーキテクチャは、スパース演算の効率の低下、大規模なデータ要求、各種アーキテクチャの有効性に関する明確さの欠如など、スケールのメリットを示さない。
このようなGNNの欠点を,そのスケーリング行動を研究することによって解決する。
具体的には,2次元分子グラフの公開コレクションにおいて,メッセージパッシングネットワーク,グラフトランスフォーマー,ハイブリッドアーキテクチャを解析する。
初めて、GNNは、深度、幅、分子数、ラベルの数、事前学習データセットの多様性の増大によって、非常に恩恵を受けることを観察した。
さらに、38の高度に競争力のある下流タスクにおいて、従来の大規模モデルよりも優れた微調整のスケーリング挙動を示す。
これは、化学空間をナビゲートできる新しいグラフ基盤モデルであるMolGPSが、38の下流タスクのうち26の最先端タスクより優れている。
我々の研究が、基礎的なGNNが医薬品の発見を促進する時代への道を開くことを願っている。
Scaling deep learning models has been at the heart of recent revolutions in language modelling and image generation. Practitioners have observed a strong relationship between model size, dataset size, and performance. However, structure-based architectures such as Graph Neural Networks (GNNs) are yet to show the benefits of scale mainly due to the lower efficiency of sparse operations, large data requirements, and lack of clarity about the effectiveness of various architectures. We address this drawback of GNNs by studying their scaling behavior. Specifically, we analyze message-passing networks, graph Transformers, and hybrid architectures on the largest public collection of 2D molecular graphs. For the first time, we observe that GNNs benefit tremendously from the increasing scale of depth, width, number of molecules, number of labels, and the diversity in the pretraining datasets. We further demonstrate strong finetuning scaling behavior on 38 highly competitive downstream tasks, outclassing previous large models. This gives rise to MolGPS, a new graph foundation model that allows to navigate the chemical space, outperforming the previous state-of-the-arts on 26 out the 38 downstream tasks. We hope that our work paves the way for an era where foundational GNNs drive pharmaceutical drug discovery. | 翻訳日:2024-05-03 21:11:56 公開日:2024-05-02 |
# Pixelは「バリアー」:拡散モデルは想像以上に逆向きにロバスト
Pixel is a Barrier: Diffusion Models Are More Adversarially Robust Than We Think ( http://arxiv.org/abs/2404.13320v2 ) ライセンス: Link先を確認 | Haotian Xue, Yongxin Chen, | (参考訳) 拡散モデルの逆例は、安全上の問題に対する解決策として広く使われている。
個人画像に敵対的摂動を加えることで、攻撃者は容易にそれらを編集したり模倣したりすることはできない。
しかしながら、これらすべての保護が潜在拡散モデル(LDM)をターゲットにしていることに注意する必要がある。
このことは、拡散モデルがほとんどの深層モデルのような敵攻撃に対して脆弱であると考えることを誤解させるかもしれない。
本稿では, 勾配をベースとしたホワイトボックス攻撃がLDM攻撃に有効であっても, PDM攻撃に失敗する,という新たな知見を示す。
この発見は、異なるモデル構造を持つ様々なPDMおよびLCDに対する、ほぼ幅広い攻撃手法の広範な実験によって裏付けられている。
また, PDMは, 画像を保護するために, LDMで生成した対向パターンを効果的に除去するために, オフ・ザ・シェルフ・パーファイラとして使用することができる。
我々は、我々の洞察が、拡散モデルに対する敵のサンプルを保護方法として再考し、より効果的な保護に向けて前進させることを期待している。
コードはhttps://github.com/xavihart/PDM-Pure.comで入手できる。
Adversarial examples for diffusion models are widely used as solutions for safety concerns. By adding adversarial perturbations to personal images, attackers can not edit or imitate them easily. However, it is essential to note that all these protections target the latent diffusion model (LDMs), the adversarial examples for diffusion models in the pixel space (PDMs) are largely overlooked. This may mislead us to think that the diffusion models are vulnerable to adversarial attacks like most deep models. In this paper, we show novel findings that: even though gradient-based white-box attacks can be used to attack the LDMs, they fail to attack PDMs. This finding is supported by extensive experiments of almost a wide range of attacking methods on various PDMs and LDMs with different model structures, which means diffusion models are indeed much more robust against adversarial attacks. We also find that PDMs can be used as an off-the-shelf purifier to effectively remove the adversarial patterns that were generated on LDMs to protect the images, which means that most protection methods nowadays, to some extent, cannot protect our images from malicious attacks. We hope that our insights will inspire the community to rethink the adversarial samples for diffusion models as protection methods and move forward to more effective protection. Codes are available in https://github.com/xavihart/PDM-Pure. | 翻訳日:2024-05-03 21:11:56 公開日:2024-05-02 |
# 累積ハザード関数に基づく多変量時間点プロセス学習
Cumulative Hazard Function Based Efficient Multivariate Temporal Point Process Learning ( http://arxiv.org/abs/2404.13663v2 ) ライセンス: Link先を確認 | Bingqing Liu, | (参考訳) 既存の時間的点過程モデルの多くは条件付き強度関数によって特徴づけられる。
これらのモデルは、確率評価のための数値近似法を必要とすることが多く、性能を損なう可能性がある。
強度関数の積分、すなわち累積ハザード関数(CHF)を直接モデル化することにより、確率を正確に評価し、有望なアプローチとなる。
しかし、既存のCHFベースの手法は十分に定義されていない、すなわちCHFの数学的制約は完全に満たされておらず、信頼できない結果をもたらす。
多変量時間点プロセスでは、既存のほとんどのメソッドは、各変数の強度(または密度など)関数をモデル化し、スケーラビリティを制限します。
本稿では、ニューラルネットワークを用いてフレキシブルだが適切に定義されたCHFをモデル化し、パラメータの複雑さの低い多変量時間点過程を学習する。
6つのデータセットに対する実験結果から,提案モデルがデータ適合性およびイベント予測タスクの最先端性能を達成すると同時に,強力な競合相手よりもパラメータやメモリ使用量が大幅に少ないことを示す。
ソースコードとデータはhttps://github.com/lbq8942/NPPから取得できる。
Most existing temporal point process models are characterized by conditional intensity function. These models often require numerical approximation methods for likelihood evaluation, which potentially hurts their performance. By directly modelling the integral of the intensity function, i.e., the cumulative hazard function (CHF), the likelihood can be evaluated accurately, making it a promising approach. However, existing CHF-based methods are not well-defined, i.e., the mathematical constraints of CHF are not completely satisfied, leading to untrustworthy results. For multivariate temporal point process, most existing methods model intensity (or density, etc.) functions for each variate, limiting the scalability. In this paper, we explore using neural networks to model a flexible but well-defined CHF and learning the multivariate temporal point process with low parameter complexity. Experimental results on six datasets show that the proposed model achieves the state-of-the-art performance on data fitting and event prediction tasks while having significantly fewer parameters and memory usage than the strong competitors. The source code and data can be obtained from https://github.com/lbq8942/NPP. | 翻訳日:2024-05-03 21:11:56 公開日:2024-05-02 |
# HCEyeに焦点を移す - 視覚的ハイライトと認知的負荷のダイナミクスがユーザの注意と満足度予測に与える影響を探求する
Shifting Focus with HCEye: Exploring the Dynamics of Visual Highlighting and Cognitive Load on User Attention and Saliency Prediction ( http://arxiv.org/abs/2404.14232v3 ) ライセンス: Link先を確認 | Anwesha Das, Zekun Wu, Iza Škrjanec, Anna Maria Feit, | (参考訳) ビジュアルハイライトは、複雑なインターフェイスでユーザーの注意を誘導する。
しかし、注意力の制限による効果は未発見である。
本稿では,視覚強調(永続的・動的)と両タスクによる認知負荷が視線行動に及ぼす影響について検討する。
150のユニークなWebページを見る27人の被験者の眼球運動データを用いて分析したところ、認知負荷の増加に伴い、参加者のUI要素への参加能力は低下するが、動的適応(ハイライト)は注意を引くままであることがわかった。
これらの要因の存在は、人々が出席するものと、従順なものを大きく変えます。
したがって, 認知負荷の異なる場合, 最先端の正当性モデルでは, 性能が向上することを示す。
私たちの経験的な洞察は、オープンに利用可能なデータセットとともに、さまざまな認知的(そして知覚的)負荷の下でUIの注意プロセスの理解を高め、マルチタスク中にユーザの注意を予測できる新しいモデルへの扉を開くのです。
Visual highlighting can guide user attention in complex interfaces. However, its effectiveness under limited attentional capacities is underexplored. This paper examines the joint impact of visual highlighting (permanent and dynamic) and dual-task-induced cognitive load on gaze behaviour. Our analysis, using eye-movement data from 27 participants viewing 150 unique webpages reveals that while participants' ability to attend to UI elements decreases with increasing cognitive load, dynamic adaptations (i.e., highlighting) remain attention-grabbing. The presence of these factors significantly alters what people attend to and thus what is salient. Accordingly, we show that state-of-the-art saliency models increase their performance when accounting for different cognitive loads. Our empirical insights, along with our openly available dataset, enhance our understanding of attentional processes in UIs under varying cognitive (and perceptual) loads and open the door for new models that can predict user attention while multitasking. | 翻訳日:2024-05-03 21:11:56 公開日:2024-05-02 |
# OpenELM: オープントレーニングと推論フレームワークを備えた効率的な言語モデルファミリー
OpenELM: An Efficient Language Model Family with Open Training and Inference Framework ( http://arxiv.org/abs/2404.14619v2 ) ライセンス: Link先を確認 | Sachin Mehta, Mohammad Hossein Sekhavat, Qingqing Cao, Maxwell Horton, Yanzi Jin, Chenfan Sun, Iman Mirzadeh, Mahyar Najibi, Dmitry Belenko, Peter Zatloukal, Mohammad Rastegari, | (参考訳) 大規模言語モデルの再現性と透明性は、オープンな研究を推進し、結果の信頼性を確保し、データやモデルバイアスの調査を可能にするとともに、潜在的なリスクの可能性を秘めている。
この目的のために、我々は最先端のオープン言語モデルであるOpenELMをリリースする。
OpenELMは、レイヤワイズスケーリング戦略を使用して、トランスフォーマーモデルの各レイヤ内のパラメータを効率的に割り当て、精度を向上する。
例えば、パラメータ予算が約10億のOpenELMでは、OLMoに比べて精度が2.36%向上し、事前トレーニングトークンが2ドル以上必要となる。
モデルウェイトと推論コードのみを提供する以前のプラクティスと異なり、プライベートデータセットで事前トレーニングされる私たちのリリースには、トレーニングログ、複数のチェックポイント、事前トレーニング設定を含む、公開データセット上での言語モデルのトレーニングと評価のための完全なフレームワークが含まれています。
また、モデルをMLXライブラリに変換して、Appleデバイス上での推論と微調整を行うコードもリリースしています。
この包括的リリースは、オープンリサーチコミュニティの強化と強化を目的としており、将来のオープンリサーチへの取り組みの道を開くことを目的としている。
トレーニング済みのモデルウェイトとトレーニングレシピとともに、ソースコードは \url{https://github.com/apple/corenet} で公開されています。
さらに、モデルモデルはHuggingFace at: \url{https://huggingface.co/apple/OpenELM} で見ることができる。
The reproducibility and transparency of large language models are crucial for advancing open research, ensuring the trustworthiness of results, and enabling investigations into data and model biases, as well as potential risks. To this end, we release OpenELM, a state-of-the-art open language model. OpenELM uses a layer-wise scaling strategy to efficiently allocate parameters within each layer of the transformer model, leading to enhanced accuracy. For example, with a parameter budget of approximately one billion parameters, OpenELM exhibits a 2.36% improvement in accuracy compared to OLMo while requiring $2\times$ fewer pre-training tokens. Diverging from prior practices that only provide model weights and inference code, and pre-train on private datasets, our release includes the complete framework for training and evaluation of the language model on publicly available datasets, including training logs, multiple checkpoints, and pre-training configurations. We also release code to convert models to MLX library for inference and fine-tuning on Apple devices. This comprehensive release aims to empower and strengthen the open research community, paving the way for future open research endeavors. Our source code along with pre-trained model weights and training recipes is available at \url{https://github.com/apple/corenet}. Additionally, \model models can be found on HuggingFace at: \url{https://huggingface.co/apple/OpenELM}. | 翻訳日:2024-05-03 21:11:56 公開日:2024-05-02 |
# MISLEAD:エスプレッションアタックにおけるエプシロン学習のための選択機能の重要性の操作
MISLEAD: Manipulating Importance of Selected features for Learning Epsilon in Evasion Attack Deception ( http://arxiv.org/abs/2404.15656v2 ) ライセンス: Link先を確認 | Vidit Khazanchi, Pavan Kulkarni, Yuvaraj Govindarajulu, Manojkumar Parmar, | (参考訳) 敵攻撃による機械学習(ML)モデルの新たな脆弱性は、その信頼性に対する懸念を引き起こす。
特に、回避攻撃は入力データに正確な摂動を導入してモデルを操作し、誤った予測を引き起こす。
そこで本稿では,SHAP(SHapley Additive exPlanations)を特徴量分析に用いた手法と,回避攻撃を行うためのイノベーティブな最適エプシロン手法を提案する。
私たちのアプローチは、モデル脆弱性を理解するためのSHAPベースの分析から始まり、ターゲットの回避戦略の考案に不可欠です。
バイナリ探索アルゴリズムを用いた最適エプシロン法は,回避に要する最小エプシロンを効率的に決定する。
多様な機械学習アーキテクチャによる評価は、敵のサンプルを生成する際のテクニックの精度を示し、モデル結果を操作する上での有効性を裏付けている。
本研究は,機械学習システムにおける潜在的なセキュリティリスクを特定し,軽減するための,継続的評価とモニタリングの重要性を強調する。
Emerging vulnerabilities in machine learning (ML) models due to adversarial attacks raise concerns about their reliability. Specifically, evasion attacks manipulate models by introducing precise perturbations to input data, causing erroneous predictions. To address this, we propose a methodology combining SHapley Additive exPlanations (SHAP) for feature importance analysis with an innovative Optimal Epsilon technique for conducting evasion attacks. Our approach begins with SHAP-based analysis to understand model vulnerabilities, crucial for devising targeted evasion strategies. The Optimal Epsilon technique, employing a Binary Search algorithm, efficiently determines the minimum epsilon needed for successful evasion. Evaluation across diverse machine learning architectures demonstrates the technique's precision in generating adversarial samples, underscoring its efficacy in manipulating model outcomes. This study emphasizes the critical importance of continuous assessment and monitoring to identify and mitigate potential security risks in machine learning systems. | 翻訳日:2024-05-03 21:11:56 公開日:2024-05-02 |
# 非局所性から文脈性への変換
Converting nonlocality into contextuality ( http://arxiv.org/abs/2404.15793v2 ) ライセンス: Link先を確認 | Karl Svozil, | (参考訳) 行列鉛筆の対角化は、多部相関を含むブールの「可能な経験条件」の演算子評価違反を文脈性に書き起こす一貫した手法を提供する。
また、関連する文脈の構造解析を行い、古典的な予測から量子化されたシステムの偏差のコンパクトな形式を提案する。
Diagonalization of matrix pencils provide a uniform technique to transcribe operator-valued violations of Boole's `conditions of possible experience' involving multipartite correlations into contextuality. They also provide structural analysis of the contexts involved, and thereby suggest compact forms of deviations of quantized systems from classical predictions. | 翻訳日:2024-05-03 21:11:56 公開日:2024-05-02 |
# 畳み込みニューラルネットワーク, ResNet と Grad-CAM を用いた黄斑変性の知覚と局在
Perception and Localization of Macular Degeneration Applying Convolutional Neural Network, ResNet and Grad-CAM ( http://arxiv.org/abs/2404.15918v2 ) ライセンス: Link先を確認 | Tahmim Hossain, Sagor Chandro Bakchy, | (参考訳) 罹患した患者にぼやけた視力を送る有名な網膜疾患は黄斑変性症である。
本研究は, 歯根の病変部位を局在させることにより, 歯根の健全性および黄斑変性を分類することに基づく。
バックボーンとして、ResNetアーキテクチャとCNN(ResNet50、ResNet50v2、ResNet101、ResNet101v2、ResNet152、ResNet152v2)が使用される。
データは3つのカテゴリに分けられる。
(a)トレーニングセットは90%、テストセットは10%
(b)トレーニングセットは80%、テストセットは20%
(c)トレーニングセットは50%、テストセットは50%である。
トレーニングの後、評価指標から最良のモデルが選択されました。
モデルの中で、ResNet50のバックボーンを持つCNNは、90%の列車で98.7%のトレーニング精度と10%のテストデータを分割した。
このモデルを用いてグラード-CAM可視化を行い, 被害地域を把握した。
A well-known retinal disease that sends blurry visions to the affected patients is Macular Degeneration. This research is based on classifying the healthy and macular degeneration fundus by localizing the affected region of the fundus. A CNN architecture and CNN with ResNet architecture (ResNet50, ResNet50v2, ResNet101, ResNet101v2, ResNet152, ResNet152v2) as the backbone are used to classify the two types of fundus. The data are split into three categories including (a) Training set is 90% and Testing set is 10% (b) Training set is 80% and Testing set is 20%, (c) Training set is 50% and Testing set is 50%. After the training, the best model has been selected from the evaluation metrics. Among the models, CNN with a backbone of ResNet50 performs best which gives the training accuracy of 98.7% for 90% train and 10% test data split. With this model, we have performed the Grad-CAM visualization to get the region of the affected area of the fundus. | 翻訳日:2024-05-03 21:02:11 公開日:2024-05-02 |
# 力学系における部分微分方程式の発見の自動化
Automating the Discovery of Partial Differential Equations in Dynamical Systems ( http://arxiv.org/abs/2404.16444v2 ) ライセンス: Link先を確認 | Weizhen Li, Rui Carvalho, | (参考訳) データから偏微分方程式(PDE)を同定することは自然現象の制御機構を理解する上で重要であるが、それでも難しい課題である。
本稿では,ARGOSフレームワークであるARGOS-RALの拡張について述べる。
本手法は,部分微分の計算を自動化し,候補ライブラリを構築し,スパースモデルを推定する。
各種ノイズレベルおよびサンプルサイズの下での標準PDEの同定におけるARGOS-RALの性能を厳格に評価し,ノイズや不均一な分散データを扱う際の頑健さを実証した。
また、ランダムノイズのみからなるデータセット上でのアルゴリズムの性能テストを行い、データ品質を著しく損なうシナリオをシミュレートする。
以上の結果から,ARGOS-ALはデータから基礎となるPDEを効果的かつ確実に同定し,ほとんどの場合において逐次しきい値リッジ回帰法よりも優れていることがわかった。
本稿では, 統計的手法, 機械学習, 動的システム理論を組み合わせることで, 収集したデータから制御方程式を自動的に発見し, 科学的モデリングプロセスの合理化の可能性を強調する。
Identifying partial differential equations (PDEs) from data is crucial for understanding the governing mechanisms of natural phenomena, yet it remains a challenging task. We present an extension to the ARGOS framework, ARGOS-RAL, which leverages sparse regression with the recurrent adaptive lasso to identify PDEs from limited prior knowledge automatically. Our method automates calculating partial derivatives, constructing a candidate library, and estimating a sparse model. We rigorously evaluate the performance of ARGOS-RAL in identifying canonical PDEs under various noise levels and sample sizes, demonstrating its robustness in handling noisy and non-uniformly distributed data. We also test the algorithm's performance on datasets consisting solely of random noise to simulate scenarios with severely compromised data quality. Our results show that ARGOS-RAL effectively and reliably identifies the underlying PDEs from data, outperforming the sequential threshold ridge regression method in most cases. We highlight the potential of combining statistical methods, machine learning, and dynamical systems theory to automatically discover governing equations from collected data, streamlining the scientific modeling process. | 翻訳日:2024-05-03 21:02:11 公開日:2024-05-02 |
# EchoScene:インフォメーションエコーによる屋内シーン生成
EchoScene: Indoor Scene Generation via Information Echo over Scene Graph Diffusion ( http://arxiv.org/abs/2405.00915v1 ) ライセンス: Link先を確認 | Guangyao Zhai, Evin Pınar Örnek, Dave Zhenyu Chen, Ruotong Liao, Yan Di, Nassir Navab, Federico Tombari, Benjamin Busam, | (参考訳) シーングラフ上に3次元屋内シーンを生成する対話型かつ制御可能な生成モデルであるEchoSceneを提案する。
EchoSceneは、シーングラフに動的に適応するデュアルブランチ拡散モデルを活用する。
既存の手法では、様々なノード数、複数のエッジの組み合わせ、マニピュレータによるノードエッジ操作によるシーングラフの処理に苦労している。
EchoSceneは、各ノードを認知プロセスに関連付け、協調的な情報交換を可能にし、グローバルな制約を認識した制御可能で一貫性のある生成を強化することで、これを克服する。
これは、形状とレイアウトの両方で情報エコースキームによって達成される。
すべてのデノイングステップにおいて、すべてのプロセスは、これらの更新をグラフ畳み込みを使って組み合わせた情報交換ユニットと、デノイングデータを共有します。
このスキームにより、デノナイジングプロセスはシーングラフの全体的理解の影響を受け、グローバルな一貫性のあるシーンの生成を促進することができる。
結果のシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることにより、推論中に操作することができる。
大規模な実験により、シーン制御性を維持し、生成忠実度において従来の手法を超越したアプローチが検証された。
さらに、生成されたシーンは高品質で、即ち市販のテクスチャ生成と直接互換性がある。
コードとトレーニングされたモデルはオープンソースである。
We present EchoScene, an interactive and controllable generative model that generates 3D indoor scenes on scene graphs. EchoScene leverages a dual-branch diffusion model that dynamically adapts to scene graphs. Existing methods struggle to handle scene graphs due to varying numbers of nodes, multiple edge combinations, and manipulator-induced node-edge operations. EchoScene overcomes this by associating each node with a denoising process and enables collaborative information exchange, enhancing controllable and consistent generation aware of global constraints. This is achieved through an information echo scheme in both shape and layout branches. At every denoising step, all processes share their denoising data with an information exchange unit that combines these updates using graph convolution. The scheme ensures that the denoising processes are influenced by a holistic understanding of the scene graph, facilitating the generation of globally coherent scenes. The resulting scenes can be manipulated during inference by editing the input scene graph and sampling the noise in the diffusion model. Extensive experiments validate our approach, which maintains scene controllability and surpasses previous methods in generation fidelity. Moreover, the generated scenes are of high quality and thus directly compatible with off-the-shelf texture generation. Code and trained models are open-sourced. | 翻訳日:2024-05-03 18:14:01 公開日:2024-05-02 |
# 一般化された群設計: 4-Design-barrierを克服し、任意の次元で新しい2-Designを構築する
Generalized group designs: overcoming the 4-design-barrier and constructing novel unitary 2-designs in arbitrary dimensions ( http://arxiv.org/abs/2405.00919v1 ) ライセンス: Link先を確認 | Ágoston Kaposi, Zoltán Kolarovszki, Adrián Solymos, Zoltán Zimborás, | (参考訳) ユニタリ設計は、いくつかの量子情報プロトコルにおいて必須のツールである。
他の設計概念と同様に、ユニタリ設計は、主に関連する空間上の平均化を促進するために使用され、この場合、ユニタリ群 $\mathrm{U}(d)$ が成り立つ。
正確な単位の$t$-designsは、任意の次数$t$と次元$d$に対して存在することは知られているが、最も魅力的なタイプのデザイン、グループデザイン(グループを構成する設計要素)は、少なくとも3$-designsを提供することができる。
さらに、グループ2$-設計でさえ、限られた次元にしか存在しない。
本稿では、ユニタリ群とその有限部分群の表現理論に基づいて、ユニタリ群設計の4ドルの設計障壁を克服する、厳密な一般化群設計を作成するための新しい構成法を提案する。
さらに、任意の次元で一般化群 2$-設計を作成するための構成が提示される。
Unitary designs are essential tools in several quantum information protocols. Similarly to other design concepts, unitary designs are mainly used to facilitate averaging over a relevant space, in this case, the unitary group $\mathrm{U}(d)$. While it is known that exact unitary $t$-designs exist for any degree $t$ and dimension $d$, the most appealing type of designs, group designs (in which the elements of the design form a group), can provide at most $3$-designs. Moreover, even group $2$-designs can only exist in limited dimensions. In this paper, we present novel construction methods for creating exact generalized group designs based on the representation theory of the unitary group and its finite subgroups that overcome the $4$-design-barrier of unitary group designs. Furthermore, a construction is presented for creating generalized group $2$-designs in arbitrary dimensions. | 翻訳日:2024-05-03 18:14:01 公開日:2024-05-02 |
# MTDT: マルチタスクディープラーニングデジタル双発機
MTDT: A Multi-Task Deep Learning Digital Twin ( http://arxiv.org/abs/2405.00922v1 ) ライセンス: Link先を確認 | Nooshin Yousefzadeh, Rahul Sengupta, Yashaswi Karnati, Anand Rangarajan, Sanjay Ranka, | (参考訳) 交通渋滞は経済と環境の両方に大きな影響を及ぼす。
有効性の尺度(MOEs)は、長い間、交通交差点のサービスレベルと運用効率を評価するための標準であった。
しかし、従来の高分解能ループ検出器データ(ATSPM)の不足は、MOEを正確に測定したり、都市交差点交通に固有の複雑な時間空間特性を捉えたりする際の課題を提示する。
この課題に対して,多面的かつ正確な交差点交通流シミュレーションのためのソリューションとして,マルチタスク深層学習デジタルツイン (MTDT) を導入した。
MTDTは,交通相に付随する各レーン群と任意の都市交差点のすべてのアプローチに対して,ループ検出波形時系列の高精度かつきめ細かな推定を可能にした。
既存の深層学習法とは異なり、MTDTは信号タイミング計画、交差点トポロジー、運転行動、回転運動数などの局所的時間的・空間的特徴への適応性を通じて自分自身を区別する。
簡単な設計を維持しながら,交通モデリングにおけるマルチタスク学習の利点を強調した。
複数のタスクにまたがって学習プロセスを統合することで、MTDTはオーバーフィッティングの削減、効率の向上、異なるタスクで学習した表現の共有による効果の向上を示す。
さらに,本手法は逐次計算を容易にし,GPU実装による並列化を実現する。
これは計算プロセスの合理化だけでなく、スケーラビリティやパフォーマンスの向上にも寄与する。
Traffic congestion has significant impacts on both the economy and the environment. Measures of Effectiveness (MOEs) have long been the standard for evaluating the level of service and operational efficiency of traffic intersections. However, the scarcity of traditional high-resolution loop detector data (ATSPM) presents challenges in accurately measuring MOEs or capturing the intricate temporospatial characteristics inherent in urban intersection traffic. In response to this challenge, we have introduced the Multi-Task Deep Learning Digital Twin (MTDT) as a solution for multifaceted and precise intersection traffic flow simulation. MTDT enables accurate, fine-grained estimation of loop detector waveform time series for each lane of movement, alongside successful estimation of several MOEs for each lane group associated with a traffic phase concurrently and for all approaches of an arbitrary urban intersection. Unlike existing deep learning methodologies, MTDT distinguishes itself through its adaptability to local temporal and spatial features, such as signal timing plans, intersection topology, driving behaviors, and turning movement counts. While maintaining a straightforward design, our model emphasizes the advantages of multi-task learning in traffic modeling. By consolidating the learning process across multiple tasks, MTDT demonstrates reduced overfitting, increased efficiency, and enhanced effectiveness by sharing representations learned by different tasks. Furthermore, our approach facilitates sequential computation and lends itself to complete parallelization through GPU implementation. This not only streamlines the computational process but also enhances scalability and performance. | 翻訳日:2024-05-03 18:14:01 公開日:2024-05-02 |
# コンパクト周波数支持型量子ウェーブレット変換
Quantum Wave Packet Transforms with compact frequency support ( http://arxiv.org/abs/2405.00929v1 ) ライセンス: Link先を確認 | Hongkang Ni, Lexing Ying, | (参考訳) 異なる種類のウェーブパケット変換は、信号処理タスクにおけるマルチスケール構造を抽出するために広く用いられている。
本稿では,ガボル原子やウェーブレットを含む広帯域のウェーブパケットの量子回路実装について紹介する。
提案手法は、量子コンピュータ上での操作に適した信号の移動と再シャッフルを含む周波数空間で動作する。
得られた実装は、空間的にコンパクトに支持されたウェーブレットのための既存の量子アルゴリズムと異なり、コンパクトな周波数サポートを持つ他のウェーブパケットの量子変換に容易に拡張できる。
Different kinds of wave packet transforms are widely used for extracting multi-scale structures in signal processing tasks. This paper introduces the quantum circuit implementation of a broad class of wave packets, including Gabor atoms and wavelets, with compact frequency support. Our approach operates in the frequency space, involving reallocation and reshuffling of signals tailored for manipulation on quantum computers. The resulting implementation is different from the existing quantum algorithms for spatially compactly supported wavelets and can be readily extended to quantum transforms of other wave packets with compact frequency support. | 翻訳日:2024-05-03 18:14:01 公開日:2024-05-02 |
# 音声・音楽・音響イベントのベンチマーク表現
Benchmarking Representations for Speech, Music, and Acoustic Events ( http://arxiv.org/abs/2405.00934v1 ) ライセンス: Link先を確認 | Moreno La Quatra, Alkis Koudounas, Lorenzo Vaiani, Elena Baralis, Luca Cagliero, Paolo Garza, Sabato Marco Siniscalchi, | (参考訳) 音声表現学習(ARL)手法の評価のための標準化されたベンチマークの限られた多様性は、現在の手法の能力の体系的な比較を妨げる可能性がある。
本稿では、様々な音声分類領域におけるARL手法の評価のための総合的なベンチマークであるARCHについて述べる。
ARCHは12のデータセットで構成されており、異なるサイズのトレーニング済みSSLモデルを徹底的に評価することができます。
ARCHは、広範囲のドメインへの統一アクセスと、新しいデータセットやモデルを簡単に組み込む機能を通じて、ARLテクニックのベンチマークを合理化している。
現在、非音声のためのオープンソースの事前学習モデルがないことに対処するため、非音声データセット上で強力なパフォーマンスを示す新しい事前学習モデルもリリースする。
提案した広範評価は,最先端ARL手法に関する貴重な洞察を与え,有望な研究方向の特定に有用である,と論じる。
Limited diversity in standardized benchmarks for evaluating audio representation learning (ARL) methods may hinder systematic comparison of current methods' capabilities. We present ARCH, a comprehensive benchmark for evaluating ARL methods on diverse audio classification domains, covering acoustic events, music, and speech. ARCH comprises 12 datasets, that allow us to thoroughly assess pre-trained SSL models of different sizes. ARCH streamlines benchmarking of ARL techniques through its unified access to a wide range of domains and its ability to readily incorporate new datasets and models. To address the current lack of open-source, pre-trained models for non-speech audio, we also release new pre-trained models that demonstrate strong performance on non-speech datasets. We argue that the presented wide-ranging evaluation provides valuable insights into state-of-the-art ARL methods, and is useful to pinpoint promising research directions. | 翻訳日:2024-05-03 18:14:01 公開日:2024-05-02 |
# 量子緩和に基づくブランチ・アンド・バウンドにおける効率的な内部戦略
Efficient Internal Strategies in Quantum Relaxation based Branch-and-Bound ( http://arxiv.org/abs/2405.00935v1 ) ライセンス: Link先を確認 | Hiromichi Matsuyama, Wei-hao Huang, Kohji Nishimura, Yu Yamashiro, | (参考訳) 組合せ最適化問題は制約の下で最適解を見つけることである。
これは量子コンピュータの潜在的な応用の1つである。
量子ランダムアクセス最適化(英: Quantum Random Access Optimization、QRAO)は、量子ハミルトニアンを構成するために複数の古典変数を1つの量子ビットにエンコードする量子最適化アルゴリズムである。
QRAOハミルトニアンの基底エネルギーは、符号化する前に元の問題の最適値に低い境界を与える。
この性質により、QRAOハミルトニアンは元の問題の緩和として用いることができ、したがって量子緩和ハミルトニアンと呼ばれる。
ブランチ・アンド・バウンド法では、緩和問題を解くことが重要な役割を果たす。
本研究では,分枝結合フレームワークに量子緩和を組み込む手法である分枝結合法(QR-BnB)を開発した。
我々は,MaxCut問題とトラベリングセールスマン問題を実験で解決した。
この研究のすべての事例において、量子緩和による正確な下界の計算に成功するたびに最適な解を得た。
緩和法や変数選択のような内部戦略は分岐境界の収束に影響を与える。
そこで我々はQR-BnBの内部戦略をさらに発展させ,これらの戦略が収束にどのように影響するかを検討した。
パウリ作用素の期待値による変数選択戦略は、素数選択よりも収束性が高いことを示す。
QRAOは制約のない最適化問題にのみ対処するが、QR-BnBは古典的な計算部分のブランチ・アンド・バウンド処理のためにより柔軟に制約を処理できる。
トラベリングセールスマン問題を用いた実験では,制約情報を用いてQR-BnBの収束が3倍以上速くなった。
A combinatorial optimization problem is to find an optimal solution under the constraints. This is one of the potential applications for quantum computers. Quantum Random Access Optimization (QRAO) is the quantum optimization algorithm that encodes multiple classical variables into a single qubit to construct a quantum Hamiltonian, thereby reducing the number of qubits required. The ground energy of the QRAO Hamiltonian provides a lower bound on the original problem's optimal value before encoding. This property allows the QRAO Hamiltonian to be used as a relaxation of the original problem, and it is thus referred to as a quantum relaxed Hamiltonian. In the Branch-and-Bound method, solving the relaxation problem plays a significant role. In this study, we developed Quantum Relaxation based Branch-and-Bound (QR-BnB), a method incorporating quantum relaxation into the Branch-and-Bound framework. We solved the MaxCut Problem and the Travelling Salesman Problem in our experiments. In all instances in this study, we obtained the optimal solution whenever we successfully computed the exact lower bound through quantum relaxation. Internal strategies, such as relaxation methods and variable selection, influence the convergence of the Branch-and-Bound. Thus, we have further developed the internal strategies for QR-BnB and examined how these strategies influence its convergence. We show that our variable selection strategy via the expectation value of the Pauli operators gives better convergence than the naive random choice. QRAO deals with only unconstrained optimization problems, but QR-BnB can handle constraints more flexibly because of the Branch-and-Bound processes on the classical computing part. We demonstrate that in our experiments with the Travelling Salesman Problem, the convergence of QR-BnB became more than three times faster by using the information in the constraints. | 翻訳日:2024-05-03 18:14:01 公開日:2024-05-02 |
# 集合クラスタリングのための完全リンクおよびその他のリンク法の結合に関する新しい境界
New bounds on the cohesion of complete-link and other linkage methods for agglomeration clustering ( http://arxiv.org/abs/2405.00937v1 ) ライセンス: Link先を確認 | Sanjoy Dasgupta, Eduardo Laber, | (参考訳) リンク手法は階層的クラスタリングにおいて最も一般的なアルゴリズムの一つである。
関連性にもかかわらず、これらの手法によって生成されたクラスタリングの品質に関する現在の知識は限られている。
ここでは、距離空間の完全リンクにより得られるクラスタリングの最大径に関する現在利用可能な境界を改善する。
我々の新しい境界の1つは、既存の境界とは対照的に、直径の近似の観点から、完全リンクを単一リンクから分離することができ、これは、ゴールがコンパクトクラスタを生成するときに、前者が後者よりも適切であるという共通の認識を裏付ける。
また,本手法は,非常に一般的な平均リンクを含む一連のリンク手法の凝集に関する上限を導出するためにも有効であることを示す。
Linkage methods are among the most popular algorithms for hierarchical clustering. Despite their relevance the current knowledge regarding the quality of the clustering produced by these methods is limited. Here, we improve the currently available bounds on the maximum diameter of the clustering obtained by complete-link for metric spaces. One of our new bounds, in contrast to the existing ones, allows us to separate complete-link from single-link in terms of approximation for the diameter, which corroborates the common perception that the former is more suitable than the latter when the goal is producing compact clusters. We also show that our techniques can be employed to derive upper bounds on the cohesion of a class of linkage methods that includes the quite popular average-link. | 翻訳日:2024-05-03 18:14:01 公開日:2024-05-02 |
# LLaVAが無料ランチ発見:LLMのコンテンツ理解能力を改善する人間行動を教える
LLaVA Finds Free Lunch: Teaching Human Behavior Improves Content Understanding Abilities Of LLMs ( http://arxiv.org/abs/2405.00942v1 ) ライセンス: Link先を確認 | Somesh Singh, Harini S I, Yaman K Singla, Veeky Baths, Rajiv Ratn Shah, Changyou Chen, Balaji Krishnamurthy, | (参考訳) コミュニケーションは ``Who say what to who with what effect。
''コミュニケータからのメッセージは下流の受信側エフェクトを生成します。
受信者の振る舞いは、メッセージの下流効果であり、それに関する豊富な信号を運ぶ。
メッセージに関する信号を伝達した後でも、大きな言語モデルをトレーニングしている間、振る舞いデータは無視されることが多い。
受信者の行動に対するLLMの訓練は,コンテンツ理解能力の向上に有効であることを示す。
具体的には,多種多様なダウンストリームコンテンツ理解タスクにおけるLLMの性能向上を図るために,LLMを学習し,好みやコメントの受信行動を予測できることを示す。
この性能は、0ショットと微調整の両方の設定で23のベンチマークデータセットに対して、40以上のビデオおよび画像理解タスクで向上し、多くの教師付きベースラインよりも優れています。
さらに、愛やコメントなどのレシーバの動作はデフォルトでインターネット上で収集されるため、人間のアノテーションが役に立たないため、このデータのトレーニング後に得られるパフォーマンス改善は基本的に無料です。
我々は、複数のプラットフォームから収集された750kの画像やビデオのレシーバ動作をクリーン化したコメントやお気に入りを、インストラクションチューニングデータとともにリリースする。
Communication is defined as ``Who says what to whom with what effect.'' A message from a communicator generates downstream receiver effects, also known as behavior. Receiver behavior, being a downstream effect of the message, carries rich signals about it. Even after carrying signals about the message, the behavior data is often ignored while training large language models. We show that training LLMs on receiver behavior can actually help improve their content-understanding abilities. Specifically, we show that training LLMs to predict the receiver behavior of likes and comments improves the LLM's performance on a wide variety of downstream content understanding tasks. We show this performance increase over 40 video and image understanding tasks over 23 benchmark datasets across both 0-shot and fine-tuning settings, outperforming many supervised baselines. Moreover, since receiver behavior, such as likes and comments, is collected by default on the internet and does not need any human annotations to be useful, the performance improvement we get after training on this data is essentially free-lunch. We release the receiver behavior cleaned comments and likes of 750k images and videos collected from multiple platforms along with our instruction-tuning data. | 翻訳日:2024-05-03 18:14:01 公開日:2024-05-02 |
# SparseTSF: 1kパラメータによる長期時系列予測のモデル化
SparseTSF: Modeling Long-term Time Series Forecasting with 1k Parameters ( http://arxiv.org/abs/2405.00946v1 ) ライセンス: Link先を確認 | Shengsheng Lin, Weiwei Lin, Wentai Wu, Haojun Chen, Junjie Yang, | (参考訳) 本稿では,SparseTSFについて紹介する。SparseTSFは,最小限の計算資源を持つ拡張地平線上での複雑な時間的依存関係をモデル化する際の課題を解決するために設計された,長期時系列予測(LTSF)のための新しい,非常に軽量なモデルである。
SparseTSFの中心にはCross-Period Sparse Forecasting技術があり、時系列データの周期性と傾向を分離することで予測タスクを単純化する。
この手法は、モデルの複雑さとパラメータ数を最小限に抑えながら、周期的な特徴を効果的に抽出する。
この技術に基づいて、SparseTSFモデルは1k未満のパラメータを使用して、最先端モデルと比較して、競争力や優れた性能を達成する。
さらに、SparseTSFは目覚ましい一般化機能を示し、限られた計算資源、小さなサンプル、低品質のデータを扱うシナリオに適している。
コードは、https://github.com/lss-1138/SparseTSFで入手できる。
This paper introduces SparseTSF, a novel, extremely lightweight model for Long-term Time Series Forecasting (LTSF), designed to address the challenges of modeling complex temporal dependencies over extended horizons with minimal computational resources. At the heart of SparseTSF lies the Cross-Period Sparse Forecasting technique, which simplifies the forecasting task by decoupling the periodicity and trend in time series data. This technique involves downsampling the original sequences to focus on cross-period trend prediction, effectively extracting periodic features while minimizing the model's complexity and parameter count. Based on this technique, the SparseTSF model uses fewer than 1k parameters to achieve competitive or superior performance compared to state-of-the-art models. Furthermore, SparseTSF showcases remarkable generalization capabilities, making it well-suited for scenarios with limited computational resources, small samples, or low-quality data. The code is available at: https://github.com/lss-1138/SparseTSF. | 翻訳日:2024-05-03 18:14:01 公開日:2024-05-02 |
# 会話における共感的アライメントのモデル化
Modeling Empathetic Alignment in Conversation ( http://arxiv.org/abs/2405.00948v1 ) ライセンス: Link先を確認 | Jiamin Yang, David Jurgens, | (参考訳) 共感は視点を取ることを必要とし、共感的な反応は、他人が経験したことについて推論し、言語における理解を伝達することを要求する。
しかしながら、ほとんどのNLPアプローチは、このアライメントプロセスを明示的にモデル化していない。
本稿では,評価理論に基づく共感音声のアライメント認識のための新しいアプローチを提案する。
講演者と観察者の発話の間に異なるタイプの評価の9.2K以上のスパンレベルアノテーションと3K以上の共感的アライメントのデータセットを新たに導入する。
計算実験により,これらの評価とアライメントを正確に認識できることが判明した。
920万以上のReddit会話での実験では、評価は意味のある行動のグループを捉えるが、ほとんどの反応は最小限のアライメントを持つ。
しかし、メンタルヘルスの専門家は、より共感的なアライメントに深く関与している。
Empathy requires perspective-taking: empathetic responses require a person to reason about what another has experienced and communicate that understanding in language. However, most NLP approaches to empathy do not explicitly model this alignment process. Here, we introduce a new approach to recognizing alignment in empathetic speech, grounded in Appraisal Theory. We introduce a new dataset of over 9.2K span-level annotations of different types of appraisals of a person's experience and over 3K empathetic alignments between a speaker's and observer's speech. Through computational experiments, we show that these appraisals and alignments can be accurately recognized. In experiments in over 9.2M Reddit conversations, we find that appraisals capture meaningful groupings of behavior but that most responses have minimal alignment. However, we find that mental health professionals engage with substantially more empathetic alignment. | 翻訳日:2024-05-03 18:14:01 公開日:2024-05-02 |
# 分子特性予測におけるモデル構造とスケールの役割:微調整RoBERTa, BART, LLaMAからの考察
The Role of Model Architecture and Scale in Predicting Molecular Properties: Insights from Fine-Tuning RoBERTa, BART, and LLaMA ( http://arxiv.org/abs/2405.00949v1 ) ライセンス: Link先を確認 | Lee Youngmin, Lang S. I. D. Andrew, Cai Duoduo, Wheat R. Stephen, | (参考訳) 本研究では,各種ケミノフォマティクスタスクの微調整におけるLarge Language Models(LLMs)の有効性を比較するための体系的枠組みを提案する。
統一的なトレーニング手法を用いて,分子入力線入力システム(SMILES)を用いた分子特性の予測能力について,RoBERTa,BART,LLaMAの3つのよく知られたモデルを評価した。
比較分析では、パラメータサイズやデータセットスケールの異なる18のモデルの事前トレーニングを行い、その後、DeepChemの6つのベンチマークタスクでそれらを微調整しました。
信頼性のある比較を保証するため、モデル全体で一貫したトレーニング環境を維持しました。
このアプローチにより、モデルタイプ、サイズ、トレーニングデータセットサイズがモデルパフォーマンスに与える影響を評価することができます。
具体的には、LLaMAベースのモデルは、一般的に最低限のバリデーション損失を示し、タスクやスケールの順応性が優れていることを示唆している。
しかし、我々は、絶対的な検証損失はモデルパフォーマンスの決定的な指標ではなく、少なくとも微調整タスクでは、過去の研究と矛盾している。
複数のトレーニングと微調整サイクルを含む厳密なレプリケーションと検証を通じて,本研究では,各モデルの強度と限界を規定するだけでなく,特定のケミノフォマティクスアプリケーションに最適なLCMを選択するための堅牢な方法論も提供する。
本研究は, 分子特性予測のためのAIの展開において, モデルアーキテクチャとデータセットの特徴を考慮することの重要性を強調し, 薬物発見および関連分野におけるAIのより情報的かつ効果的な活用の道を開く。
This study introduces a systematic framework to compare the efficacy of Large Language Models (LLMs) for fine-tuning across various cheminformatics tasks. Employing a uniform training methodology, we assessed three well-known models-RoBERTa, BART, and LLaMA-on their ability to predict molecular properties using the Simplified Molecular Input Line Entry System (SMILES) as a universal molecular representation format. Our comparative analysis involved pre-training 18 configurations of these models, with varying parameter sizes and dataset scales, followed by fine-tuning them on six benchmarking tasks from DeepChem. We maintained consistent training environments across models to ensure reliable comparisons. This approach allowed us to assess the influence of model type, size, and training dataset size on model performance. Specifically, we found that LLaMA-based models generally offered the lowest validation loss, suggesting their superior adaptability across tasks and scales. However, we observed that absolute validation loss is not a definitive indicator of model performance - contradicts previous research - at least for fine-tuning tasks: instead, model size plays a crucial role. Through rigorous replication and validation, involving multiple training and fine-tuning cycles, our study not only delineates the strengths and limitations of each model type but also provides a robust methodology for selecting the most suitable LLM for specific cheminformatics applications. This research underscores the importance of considering model architecture and dataset characteristics in deploying AI for molecular property prediction, paving the way for more informed and effective utilization of AI in drug discovery and related fields. | 翻訳日:2024-05-03 18:14:01 公開日:2024-05-02 |
# 未知遷移と帯域フィードバックを有する逆レスマルチアーマバンドの高能率強化学習
Provably Efficient Reinforcement Learning for Adversarial Restless Multi-Armed Bandits with Unknown Transitions and Bandit Feedback ( http://arxiv.org/abs/2405.00950v1 ) ライセンス: Link先を確認 | Guojun Xiong, Jian Li, | (参考訳) レストレス・マルチアーム・バンディット(RMAB)は、瞬時アクティベーション制約の下での逐次決定問題のモデル化において中心的な役割を果たす。
各レストアームには、活性化の有無にかかわらずマルコフ決定プロセスに従って独立に進化する状態が与えられる。
本稿では,各エピソードにおいて任意に変化しうる,未知の遷移関数と敵の報酬を持つ表在的RMABにおける学習課題について考察する。
さらに,動作中の腕の対人報酬のみを意思決定者(DM)に開示する,困難だが自然な盗聴フィードバックの設定も検討する。
DMの目的は、学習過程における全対向報酬を最大化することであり、同時に、各決定時代において即時的なアクティベーション制約を満たさなければならない。
本稿では,帯域フィードバックと未知の遷移に対処する新しいバイアス付き対向報酬推定器と,瞬時アクティベーション制約を満たす低複雑さ指標ポリシーの2つの主要な貢献者による新しい強化学習アルゴリズムを開発する。
我々は、我々のアルゴリズムに対して$\tilde{\mathcal{O}}(H\sqrt{T})$ regret boundを示す。
我々の知る限り、このアルゴリズムは、私たちが検討した挑戦的な設定において、RMABの敵に対する後悔を$\tilde{\mathcal{O}}(\sqrt{T})$で保証する最初のアルゴリズムである。
Restless multi-armed bandits (RMAB) play a central role in modeling sequential decision making problems under an instantaneous activation constraint that at most B arms can be activated at any decision epoch. Each restless arm is endowed with a state that evolves independently according to a Markov decision process regardless of being activated or not. In this paper, we consider the task of learning in episodic RMAB with unknown transition functions and adversarial rewards, which can change arbitrarily across episodes. Further, we consider a challenging but natural bandit feedback setting that only adversarial rewards of activated arms are revealed to the decision maker (DM). The goal of the DM is to maximize its total adversarial rewards during the learning process while the instantaneous activation constraint must be satisfied in each decision epoch. We develop a novel reinforcement learning algorithm with two key contributors: a novel biased adversarial reward estimator to deal with bandit feedback and unknown transitions, and a low-complexity index policy to satisfy the instantaneous activation constraint. We show $\tilde{\mathcal{O}}(H\sqrt{T})$ regret bound for our algorithm, where $T$ is the number of episodes and $H$ is the episode length. To our best knowledge, this is the first algorithm to ensure $\tilde{\mathcal{O}}(\sqrt{T})$ regret for adversarial RMAB in our considered challenging settings. | 翻訳日:2024-05-03 18:14:01 公開日:2024-05-02 |
# 一般化3DTVとテンソルCUR分解に基づくハイパースペクトル帯域選択
Hyperspectral Band Selection based on Generalized 3DTV and Tensor CUR Decomposition ( http://arxiv.org/abs/2405.00951v1 ) ライセンス: Link先を確認 | Katherine Henneberger, Jing Qin, | (参考訳) ハイパースペクトルイメージング(HSI)はリモートセンシングにおいて重要な技術である。
しかし、高次元とデータボリュームは典型的に重要な計算課題を生じさせる。
帯域選択は、内在的臨界情報を保持しながら、高スペクトル像のスペクトル冗長性を低減するために不可欠である。
本研究では、データを低ランクで滑らかな成分とスパース成分に分解することで、新しい超スペクトル帯選択モデルを提案する。
特に,空間-スペクトルの滑らかさを維持するために$\ell_1^p$-normを導関数に適用することにより,一般化された3次元全変動(G3DTV)を開発する。
乗算器の交互方向法(ADMM)を用いることで、テンソルの低ランク性をテンソルCUR分解によって示唆する効率的なアルゴリズムを導出する。
提案手法の有効性を,2つのベンチマーク実世界のデータセットを用いて,様々な最先端バンド選択手法との比較により示す。
さらに,雑音のないシナリオとノイズの多いシナリオの両方において,パラメータ選択の実践的ガイドラインを提供する。
Hyperspectral Imaging (HSI) serves as an important technique in remote sensing. However, high dimensionality and data volume typically pose significant computational challenges. Band selection is essential for reducing spectral redundancy in hyperspectral imagery while retaining intrinsic critical information. In this work, we propose a novel hyperspectral band selection model by decomposing the data into a low-rank and smooth component and a sparse one. In particular, we develop a generalized 3D total variation (G3DTV) by applying the $\ell_1^p$-norm to derivatives to preserve spatial-spectral smoothness. By employing the alternating direction method of multipliers (ADMM), we derive an efficient algorithm, where the tensor low-rankness is implied by the tensor CUR decomposition. We demonstrate the effectiveness of the proposed approach through comparisons with various other state-of-the-art band selection techniques using two benchmark real-world datasets. In addition, we provide practical guidelines for parameter selection in both noise-free and noisy scenarios. | 翻訳日:2024-05-03 18:14:01 公開日:2024-05-02 |
# X-Oscar:高品質テキスト誘導型3Dアニマタブルアバター生成のためのプログレッシブフレームワーク
X-Oscar: A Progressive Framework for High-quality Text-guided 3D Animatable Avatar Generation ( http://arxiv.org/abs/2405.00954v1 ) ライセンス: Link先を確認 | Yiwei Ma, Zhekai Lin, Jiayi Ji, Yijun Fan, Xiaoshuai Sun, Rongrong Ji, | (参考訳) テキストによる自動3Dアバター生成の進歩は大きな進歩を遂げた。
しかし、既存の手法には過飽和や低品質な出力といった制限がある。
これらの課題に対処するため,テキストプロンプトから高品質なアニマタブルアバターを生成するためのプログレッシブフレームワークであるX-Oscarを提案する。
逐次的なGeometry->Texture->Animationパラダイムに従い、ステップバイステップ生成による最適化を簡素化する。
過飽和に対処するために,アバターをトレーニング中の適応分布として表現する適応変分パラメータ (Adaptive Variational Parameter, AVP) を導入する。
Avatar-aware Score Distillation Sampling (ASDS) は,アバター認識ノイズをレンダリング画像に組み込むことで,最適化時の生成品質を向上させる技術である。
X-Oscar が既存のテキスト・ツー・3D やテキスト・トゥ・アバター・アプローチよりも優れていることを確認する。
私たちの匿名プロジェクトページは、https://xmu-xiaoma666.github.io/Projects/X-Oscar/です。
Recent advancements in automatic 3D avatar generation guided by text have made significant progress. However, existing methods have limitations such as oversaturation and low-quality output. To address these challenges, we propose X-Oscar, a progressive framework for generating high-quality animatable avatars from text prompts. It follows a sequential Geometry->Texture->Animation paradigm, simplifying optimization through step-by-step generation. To tackle oversaturation, we introduce Adaptive Variational Parameter (AVP), representing avatars as an adaptive distribution during training. Additionally, we present Avatar-aware Score Distillation Sampling (ASDS), a novel technique that incorporates avatar-aware noise into rendered images for improved generation quality during optimization. Extensive evaluations confirm the superiority of X-Oscar over existing text-to-3D and text-to-avatar approaches. Our anonymous project page: https://xmu-xiaoma666.github.io/Projects/X-Oscar/. | 翻訳日:2024-05-03 18:04:13 公開日:2024-05-02 |
# フェデレーションラーニングにおけるローカルアップデートからラベルを復元する
Recovering Labels from Local Updates in Federated Learning ( http://arxiv.org/abs/2405.00955v1 ) ライセンス: Link先を確認 | Huancheng Chen, Haris Vikalo, | (参考訳) グラディエント・インバージョン(GI)攻撃は、クライアントのデータを通信モデル更新から再構築することを目的とした、連邦学習(FL)におけるクライアントのプライバシに対する脅威となる。
ローカルトレーニングで使用するサンプルのラベルを最初に再構成することで,データ回復を加速する手法がいくつかある。
しかし,既存のラベル抽出手法は,現実的なFL設定では成立しない強い仮定を導出する。
本稿では,未学習の(最も脆弱な)モデルを攻撃した場合に,ほぼ完璧な精度でラベルを検索できる新しいラベル復元手法であるRecovering Labels from Local Updates(RLU)を提案する。
さらに、FLシステム内のクライアントが複数のローカルエポックを実行し、異種データのトレーニングを行い、異なる目的関数を最小化するために様々なオプティマイザをデプロイする現実的な現実的環境においても、RLUは高いパフォーマンスを達成する。
具体的には、RLUは、トレーニングラウンドで使用されるデータポイントのラベルと結果の出力層の更新との相関の分析から生じる最小二乗問題を解くことでラベルを推定する。
提案手法が既存のベースラインを一貫して上回り,PSNRとLPIPSの両方の観点からGI攻撃における再構成画像の品質向上に寄与することを示す。
Gradient inversion (GI) attacks present a threat to the privacy of clients in federated learning (FL) by aiming to enable reconstruction of the clients' data from communicated model updates. A number of such techniques attempts to accelerate data recovery by first reconstructing labels of the samples used in local training. However, existing label extraction methods make strong assumptions that typically do not hold in realistic FL settings. In this paper we present a novel label recovery scheme, Recovering Labels from Local Updates (RLU), which provides near-perfect accuracy when attacking untrained (most vulnerable) models. More significantly, RLU achieves high performance even in realistic real-world settings where the clients in an FL system run multiple local epochs, train on heterogeneous data, and deploy various optimizers to minimize different objective functions. Specifically, RLU estimates labels by solving a least-square problem that emerges from the analysis of the correlation between labels of the data points used in a training round and the resulting update of the output layer. The experimental results on several datasets, architectures, and data heterogeneity scenarios demonstrate that the proposed method consistently outperforms existing baselines, and helps improve quality of the reconstructed images in GI attacks in terms of both PSNR and LPIPS. | 翻訳日:2024-05-03 18:04:13 公開日:2024-05-02 |
# 物理埋め込み3Dガウスによるロボット手術映像を用いた効率的なデータ駆動シーンシミュレーション
Efficient Data-driven Scene Simulation using Robotic Surgery Videos via Physics-embedded 3D Gaussians ( http://arxiv.org/abs/2405.00956v1 ) ライセンス: Link先を確認 | Zhenya Yang, Kai Chen, Yonghao Long, Qi Dou, | (参考訳) 手術シーンシミュレーションは,外科教育とシミュレータに基づくロボット学習において重要な役割を担っている。
これらの環境を外科的シーンで作る従来のアプローチは、デザイナーがソフトボディシミュレーションのためのテクスチャとジオメトリーを備えた手作りの組織をモデル化する、労働集約的なプロセスを含んでいる。
この手動のアプローチは時間を要するだけでなく、スケーラビリティやリアリズムにも制限があります。
対照的に、データ駆動シミュレーションは魅力的な代替手段を提供する。
実世界の手術映像データから3Dの手術シーンを自動的に再構築し、ソフトボディ物理を応用する可能性がある。
しかし、この地域は比較的無漁である。
本研究では3D Gaussianを手術シーンの学習可能な表現として紹介し,立体内視鏡映像から学習した。
これらのシーンの過度な適合を防止し、幾何学的正当性を確保するため、奥行き監視と異方性正規化をガウス学習プロセスに組み込む。
さらに,3次元ガウスに物理特性を統合したマテリアルポイント法を適用し,現実的なシーン変形を実現する。
本手法を社内および公開外科用ビデオデータセットで評価した。
以上の結果から, 内視鏡的画像からの手術シーンの再構築とシミュレーションを効率的に行うことができ, 手術シーンの再構築に数分しかかからず, リアルタイムに近づく速度で視覚的, 身体的両面の変形を生成できることが示唆された。
その結果,手術教育やロボット学習で利用可能なシミュレーションの効率性と多様性を高めるための提案手法の可能性が示唆された。
Surgical scene simulation plays a crucial role in surgical education and simulator-based robot learning. Traditional approaches for creating these environments with surgical scene involve a labor-intensive process where designers hand-craft tissues models with textures and geometries for soft body simulations. This manual approach is not only time-consuming but also limited in the scalability and realism. In contrast, data-driven simulation offers a compelling alternative. It has the potential to automatically reconstruct 3D surgical scenes from real-world surgical video data, followed by the application of soft body physics. This area, however, is relatively uncharted. In our research, we introduce 3D Gaussian as a learnable representation for surgical scene, which is learned from stereo endoscopic video. To prevent over-fitting and ensure the geometrical correctness of these scenes, we incorporate depth supervision and anisotropy regularization into the Gaussian learning process. Furthermore, we apply the Material Point Method, which is integrated with physical properties, to the 3D Gaussians to achieve realistic scene deformations. Our method was evaluated on our collected in-house and public surgical videos datasets. Results show that it can reconstruct and simulate surgical scenes from endoscopic videos efficiently-taking only a few minutes to reconstruct the surgical scene-and produce both visually and physically plausible deformations at a speed approaching real-time. The results demonstrate great potential of our proposed method to enhance the efficiency and variety of simulations available for surgical education and robot learning. | 翻訳日:2024-05-03 18:04:13 公開日:2024-05-02 |
# イントラミクス:正確なラベルと隣人のためのクラス内混合生成
IntraMix: Intra-Class Mixup Generation for Accurate Labels and Neighbors ( http://arxiv.org/abs/2405.00957v1 ) ライセンス: Link先を確認 | Shenghe Zheng, Hongzhi Wang, Xianglong Liu, | (参考訳) グラフニューラルネットワーク(GNN)は,周辺情報を集約し,ラベルから学習するという,グラフ上での優れたパフォーマンスを示す。
しかし、ほとんどのグラフデータセットにおける一般的な課題は、不十分な高品質ラベルと近隣のラックの2倍であり、結果としてGNNが弱くなる。
これら2つの問題に対処するために設計された既存のデータ拡張手法は、しばしば1つだけに対処する。
ジェネレータの広範な訓練が必要か、過度に単純化戦略に依存しているか、あるいはかなりの事前知識を要求するかのいずれかで、最適でない一般化能力に繋がる。
これら2つの課題を同時に解決するために,IntraMixと呼ばれるエレガントな手法を提案する。
イントラミクスは、同じクラスの低品質ラベル付きデータの中でMixupを革新的に採用し、最小コストで高品質ラベル付きデータを生成する。
さらに、同一クラスのデータを高い信頼性で接続することで、生成されたデータの近傍を確立し、グラフの近傍を豊かにする。
イントラミクスはグラフが直面する2つの課題に効果的に取り組み、ノード分類におけるミックスアップの限定的な有効性という事前概念に挑戦する。
イントラMixは、すべてのGNNに容易に適用可能な普遍的なフレームワークとして機能する。
大規模な実験では、様々なGNNやデータセットにまたがるイントラMixの有効性が示されている。
Graph Neural Networks (GNNs) demonstrate excellent performance on graphs, with their core idea about aggregating neighborhood information and learning from labels. However, the prevailing challenges in most graph datasets are twofold of Insufficient High-Quality Labels and Lack of Neighborhoods, resulting in weak GNNs. Existing data augmentation methods designed to address these two issues often tackle only one. They may either require extensive training of generators, rely on overly simplistic strategies, or demand substantial prior knowledge, leading to suboptimal generalization abilities. To simultaneously address both of these two challenges, we propose an elegant method called IntraMix. IntraMix innovatively employs Mixup among low-quality labeled data of the same class, generating high-quality labeled data at minimal cost. Additionally, it establishes neighborhoods for the generated data by connecting them with data from the same class with high confidence, thereby enriching the neighborhoods of graphs. IntraMix efficiently tackles both challenges faced by graphs and challenges the prior notion of the limited effectiveness of Mixup in node classification. IntraMix serves as a universal framework that can be readily applied to all GNNs. Extensive experiments demonstrate the effectiveness of IntraMix across various GNNs and datasets. | 翻訳日:2024-05-03 18:04:13 公開日:2024-05-02 |
# 拡散モデルとChatGPTを用いた生産システム
Generative manufacturing systems using diffusion models and ChatGPT ( http://arxiv.org/abs/2405.00958v1 ) ライセンス: Link先を確認 | Xingyu Li, Fei Tao, Wei Ye, Aydin Nassehi, John W. Sutherland, | (参考訳) 本研究では, 自律生産資産を効果的に管理・調整するための新しい手法として生成生産システム(GMS)を導入し, その応答性と柔軟性を高め, 幅広い生産目標と人的嗜好に対処する。
従来の明示的モデリングから逸脱したGMSでは、予測された未来から暗黙的に学習するために、拡散モデルやChatGPTを含む生成AIを使用している。
生成AIの統合により、GMSは人間との対話を通じて複雑な意思決定を可能にし、製造資産は人間のフィードバックに基づいて反復的に洗練された複数の高品質なグローバルな決定を生成できる。
実証的な発見は、GMSがシステムレジリエンスと不確実性への応答性を大幅に改善し、決定時間が秒からミリ秒に短縮されたことを示している。
この研究は、生成したソリューションの本質的な創造性と多様性を強調し、シームレスで継続的な人間と機械の相互作用を通じて人間中心の意思決定を促進する。
In this study, we introduce Generative Manufacturing Systems (GMS) as a novel approach to effectively manage and coordinate autonomous manufacturing assets, thereby enhancing their responsiveness and flexibility to address a wide array of production objectives and human preferences. Deviating from traditional explicit modeling, GMS employs generative AI, including diffusion models and ChatGPT, for implicit learning from envisioned futures, marking a shift from a model-optimum to a training-sampling decision-making. Through the integration of generative AI, GMS enables complex decision-making through interactive dialogue with humans, allowing manufacturing assets to generate multiple high-quality global decisions that can be iteratively refined based on human feedback. Empirical findings showcase GMS's substantial improvement in system resilience and responsiveness to uncertainties, with decision times reduced from seconds to milliseconds. The study underscores the inherent creativity and diversity in the generated solutions, facilitating human-centric decision-making through seamless and continuous human-machine interactions. | 翻訳日:2024-05-03 18:04:13 公開日:2024-05-02 |
# デジタルツインの基礎
Foundations for Digital Twins ( http://arxiv.org/abs/2405.00960v1 ) ライセンス: Link先を確認 | Regina Hurley, Dan Maxwell, Jon McLellan, Finn Wilson, John Beverley, | (参考訳) さまざまな産業やドメインにおけるデジタルツインへの依存の高まりは、セマンティック相互運用性の課題をもたらしている。
オントロジーはこのような課題に対処するためのよく知られた戦略であるが、現象の複雑さを考えると、オントロジー表現のレベルでの相互運用性の問題を再導入するリスクがある。
このような落とし穴を避けるため、我々は、広く使われている基本形式オントロジーの拡張であるCommon Core Ontologyの文脈において、デジタル双生児の特性を導入し、擁護する。
デジタル双生児のドメインに関する定義とデザインパターンのセットを提供し、デジタル双生児とその物理的な双生児の実証的なユースケースで強調する。
そこで我々は,デジタル双生児に関連する,より洗練されたオントロジコンテンツを構築するための基盤を提供する。
The growing reliance on digital twins across various industries and domains brings with it semantic interoperability challenges. Ontologies are a well-known strategy for addressing such challenges, though given the complexity of the phenomenon, there are risks of reintroducing the interoperability challenges at the level of ontology representations. In the interest of avoiding such pitfalls, we introduce and defend characterizations of digital twins within the context of the Common Core Ontologies, an extension of the widely-used Basic Formal Ontology. We provide a set of definitions and design patterns relevant to the domain of digital twins, highlighted by illustrative use cases of digital twins and their physical counterparts. In doing so, we provide a foundation on which to build more sophisticated ontological content related and connected to digital twins. | 翻訳日:2024-05-03 18:04:13 公開日:2024-05-02 |
# FITA: 放射線学レポート生成のための微細な画像テキストアグリゲータ
FITA: Fine-grained Image-Text Aligner for Radiology Report Generation ( http://arxiv.org/abs/2405.00962v1 ) ライセンス: Link先を確認 | Honglong Yang, Hui Tang, Xiaomeng Li, | (参考訳) 放射線学レポート生成は、放射線学画像と並行して詳細で一貫性のある記述レポートを自動生成することを目的としている。
これまでの研究は主に、きめ細かい画像の特徴の精細化や外部知識の活用に重点を置いていた。
しかし、細かな画像特徴と対応するテキスト記述との正確なアライメントは考慮されていない。
本稿では,画像特徴とテキスト特徴の微粒化アライメントを構築するために,FITA ( Fine-fine Image-Text Aligner) と呼ばれる新しい手法を提案する。
Image Feature Refiner (IFR)、Text Feature Refiner (TFR)、Contrastive Aligner (CA)の3つの新しいデザインがある。
IFRとTFRはそれぞれ、きめ細かい画像とテキストの特徴を学習することを目指している。
本研究では,視覚領域の異常な症状を効果的に解き放つためにサリエンシマップを活用するとともに,精密に構築した三重奏法を用いて訓練を行った。
最後に、CAモジュールは、正確なアライメントのためにコントラッシブロスを使用して、きめ細かい画像とテキストの特徴を整列する。
その結果,提案手法は広く用いられているベンチマークにおいて既存の手法を超越していることがわかった。
Radiology report generation aims to automatically generate detailed and coherent descriptive reports alongside radiology images. Previous work mainly focused on refining fine-grained image features or leveraging external knowledge. However, the precise alignment of fine-grained image features with corresponding text descriptions has not been considered. This paper presents a novel method called Fine-grained Image-Text Aligner (FITA) to construct fine-grained alignment for image and text features. It has three novel designs: Image Feature Refiner (IFR), Text Feature Refiner (TFR) and Contrastive Aligner (CA). IFR and TFR aim to learn fine-grained image and text features, respectively. We achieve this by leveraging saliency maps to effectively fuse symptoms with corresponding abnormal visual regions, and by utilizing a meticulously constructed triplet set for training. Finally, CA module aligns fine-grained image and text features using contrastive loss for precise alignment. Results show that our method surpasses existing methods on the widely used benchmark | 翻訳日:2024-05-03 18:04:13 公開日:2024-05-02 |
# リーマーとヘルダーの導出は、多変量指数族に対する最大重み付き推定として意味する
Deriving Lehmer and Hölder means as maximum weighted likelihood estimates for the multivariate exponential family ( http://arxiv.org/abs/2405.00964v1 ) ライセンス: Link先を確認 | Djemel Ziou, Issam Fakir, | (参考訳) リーマーとH\"olderの平均族と重み付き最大極大推定器の関係は、最近、正規単変量指数族の場合において確立されている。
本稿では,多変量の場合に対して得られた結果を拡張する。
この拡張は、これらの手段の族を確率論的に解釈し、したがって様々な応用においてそれらの用途を広げることができる。
The links between the mean families of Lehmer and H\"older and the weighted maximum likelihood estimator have recently been established in the case of a regular univariate exponential family. In this article, we will extend the outcomes obtained to the multivariate case. This extension provides a probabilistic interpretation of these families of means and could therefore broaden their uses in various applications. | 翻訳日:2024-05-03 18:04:13 公開日:2024-05-02 |
# ローカルアップデートとグラディエントトラッキングによるロバストな分散学習
Robust Decentralized Learning with Local Updates and Gradient Tracking ( http://arxiv.org/abs/2405.00965v1 ) ライセンス: Link先を確認 | Sajjad Ghiasvand, Amirhossein Reisizadeh, Mahnoosh Alizadeh, Ramtin Pedarsani, | (参考訳) フェデレートラーニング(Federated Learning)やIoT(Internet of Things)、エッジコンピューティング(Edge Computing)といった分散学習アプリケーションが成長するにつれて、理論的観点からこれらの技術の欠点に対処することが重要である。
抽象化として、クライアントやノードのネットワーク上での分散学習を考察し、データ不均一性と対向ロバスト性という2つの大きな課題に対処する。
本稿では,局所的な更新と勾配追跡という2つの重要なモジュールを用いた分散化ミニマックス最適化手法を提案する。
最小限の最適化は、堅牢性を確保するために敵のトレーニングを可能にする重要なツールである。
局所的な更新は、通信ボトルネックを軽減するために、フェデレートラーニング(FL)アプリケーションにおいて不可欠であり、データ不均一性の場合には、勾配追跡を活用することが収束を証明する上で不可欠である。
提案アルゴリズムであるDec-FedTrackは,非凸凸凸凹形最小値最適化の場合の性能を解析し,定常点を収束させることを実証する。
また,理論的な知見を裏付ける数値実験も行った。
As distributed learning applications such as Federated Learning, the Internet of Things (IoT), and Edge Computing grow, it is critical to address the shortcomings of such technologies from a theoretical perspective. As an abstraction, we consider decentralized learning over a network of communicating clients or nodes and tackle two major challenges: data heterogeneity and adversarial robustness. We propose a decentralized minimax optimization method that employs two important modules: local updates and gradient tracking. Minimax optimization is the key tool to enable adversarial training for ensuring robustness. Having local updates is essential in Federated Learning (FL) applications to mitigate the communication bottleneck, and utilizing gradient tracking is essential to proving convergence in the case of data heterogeneity. We analyze the performance of the proposed algorithm, Dec-FedTrack, in the case of nonconvex-strongly concave minimax optimization, and prove that it converges a stationary point. We also conduct numerical experiments to support our theoretical findings. | 翻訳日:2024-05-03 18:04:13 公開日:2024-05-02 |
# マルチタスク多言語音声モデルの効率的な圧縮
Efficient Compression of Multitask Multilingual Speech Models ( http://arxiv.org/abs/2405.00966v1 ) ライセンス: Link先を確認 | Thomas Palmeira Ferraz, | (参考訳) Whisperは99言語をカバーするマルチタスクおよび多言語音声モデルである。
圧縮可能な自動音声認識(ASR)が対象言語のサブセットとなるが、モデルが未表現の言語を無視できないほど性能が劣っているため、より小さなモデルではさらに悪化する。
本研究では, 話者関連(性別, 年齢) とモデル関連(資源性, モデルサイズ) バイアスの存在を実証し, その限界について検討する。
それにもかかわらず、量子化によってモデル関連バイアスのみが増幅され、低リソース言語やより小さなモデルに影響を及ぼすことを示す。
より優れた圧縮手法を探索し、マルチタスクと多言語機能の利点を維持しつつ、これらの言語に対するASRのパフォーマンスギャップを埋めることのできるアプローチであるDistilWhisperを提案する。
提案手法は, 言語専門家を用いた軽量モジュール型ASR微調整と, ささやかな大口径v2からの知識蒸留の2つの戦略を含む。
この2つのアプローチにより、マルチタスクと多言語事前学習から受け継いだロバスト性を保ちながら、ASRの性能を効果的に向上させることができる。
その結果,本手法は通常のファインチューニングやLoRAアダプタよりも有効であり,ドメイン内および外部テストセットのターゲット言語の性能を向上させるとともに,推論時のパラメータオーバーヘッドが無視できるだけであることがわかった。
Whisper is a multitask and multilingual speech model covering 99 languages. It yields commendable automatic speech recognition (ASR) results in a subset of its covered languages, but the model still underperforms on a non-negligible number of under-represented languages, a problem exacerbated in smaller model versions. In this work, we examine its limitations, demonstrating the presence of speaker-related (gender, age) and model-related (resourcefulness and model size) bias. Despite that, we show that only model-related bias are amplified by quantization, impacting more low-resource languages and smaller models. Searching for a better compression approach, we propose DistilWhisper, an approach that is able to bridge the performance gap in ASR for these languages while retaining the advantages of multitask and multilingual capabilities. Our approach involves two key strategies: lightweight modular ASR fine-tuning of whisper-small using language-specific experts, and knowledge distillation from whisper-large-v2. This dual approach allows us to effectively boost ASR performance while keeping the robustness inherited from the multitask and multilingual pre-training. Results demonstrate that our approach is more effective than standard fine-tuning or LoRA adapters, boosting performance in the targeted languages for both in- and out-of-domain test sets, while introducing only a negligible parameter overhead at inference. | 翻訳日:2024-05-03 18:04:13 公開日:2024-05-02 |
# 光電子波束の量子状態トモグラフィーへの多次元的アプローチ
A multidimensional approach to quantum state tomography of photoelectron wavepackets ( http://arxiv.org/abs/2405.00968v1 ) ライセンス: Link先を確認 | Hugo Laurell, Jorge Baños-Gutiérrez, David Busto, Anne L'Huillier, Daniel Finkelstein-Shapiro, | (参考訳) 光電離電子の密度行列の再構成、特にデコヒーレンスを系の部分的な測定または確率的環境とのカップリングによって導入できる複雑なシステムにおける関心が高まっている。
このために、密度行列、量子状態トモグラフィープロトコルを再構築するいくつかの手法が、アト秒パルスからのXUV光子の吸収により希ガスから放出される光電子に対して開発され、試験されている。
密度行列を高忠実度で再構成できるモデルフリーの単一スキャンプロトコルを得るのは難しい。
現在の方法では、広範囲な測定や信号の複雑なフィッティングが必要となる。
忠実な単一スキャンの再構築は、研究できるシステムの数を増やすのに大いに役立ちます。
我々は,光電子の連続的変動密度行列を単一時間遅延スキャンで再構成できる,より効率的で効率的なプロトコルである虹色のKRAKENを提案する。
時間的に走査されるブロードバンドIRプローブと、XUVパルスに時間的に固定される狭帯域IR参照を用いて、XUVパルスの吸収によって生成される光電子のコヒーレンスを測定する。
スピン軌道分割により生じるArの混合状態とHeにおけるファノ共鳴の性能について述べる。
このプロトコルは, 良好な忠実度とほぼ完全な純度推定をもたらすことを示す。
There is a growing interest in reconstructing the density matrix of photoionized electrons, in particular in complex systems where decoherence can be introduced either by a partial measurement of the system or through coupling with a stochastic environment. To this, end, several methods to reconstruct the density matrix, quantum state tomography protocols, have been developed and tested on photoelectrons ejected from noble gases following absorption of XUV photons from attosecond pulses. It remains a challenge to obtain model-free, single scan protocols that can reconstruct the density matrix with high fidelities. Current methods require extensive measurements or involve complex fitting of the signal. Faithful single-scan reconstructions would be of great help to increase the number of systems that can be studied. We propose a new and more efficient protocol - rainbow-KRAKEN - that is able to reconstruct the continuous variable density matrix of a photoelectron in a single time delay scan. It is based on measuring the coherences of a photoelectron created by absorption of an XUV pulse using a broadband IR probe that is scanned in time and a narrowband IR reference that is temporally fixed to the XUV pulse. We illustrate its performance for a Fano resonance in He as well as mixed states in Ar arising from spin-orbit splitting. We show that the protocol results in excellent fidelities and near-perfect estimation of the purity. | 翻訳日:2024-05-03 18:04:13 公開日:2024-05-02 |
# どうしたらいいのか? GPT を使って不適切な研修生の反応を言い換える
How Can I Get It Right? Using GPT to Rephrase Incorrect Trainee Responses ( http://arxiv.org/abs/2405.00970v1 ) ライセンス: Link先を確認 | Jionghao Lin, Zifei Han, Danielle R. Thomas, Ashish Gurung, Shivang Gupta, Vincent Aleven, Kenneth R. Koedinger, | (参考訳) ワン・ワン・ワン・チュータリングは、有資格家庭教師に条件付けされた効果的な指導方法として広く認められている。
しかし、資格のある家庭教師に対する高い需要は依然として課題であり、効果的な家庭教師を確保するために初心者家庭教師(すなわち研修生)の訓練を必要とすることが多い。
タイムリーな説明的フィードバックを提供することで、研修生のトレーニングプロセスが促進されることが研究で示唆されている。
しかし,人間専門家による研修生の成績を評価するのに時間を要するため,課題が提示される。
近年の大規模言語モデル (LLM) の発展に触発されて, GPT-4 モデルを用いて説明フィードバックシステムを構築した。
本システムは,学習者の反応を二分形式(すなわち正しい/正しくない)で識別し,GPT-4モデルで適切に表現された応答をテンプレートベースのフィードバックとして自動的に提供する。
本研究は, 効果的な評価, 誤りに対する反応, 学生が知っていることの判断の3つの授業で, 研修生の410の回答について検討した。
私たちの発見は以下のとおりである。
1) 数点のアプローチを用いて, GPT-4モデルは, 平均F1スコア0.84, AUCスコア0.85の3つのトレーニングレッスンから, 正誤判定を効果的に行う。
2) GPT-4モデルは,少数ショットアプローチを用いて,不適切な研修生の反応を所望の応答に順応的に言い換え,人的専門家の反応に匹敵する性能を達成した。
One-on-one tutoring is widely acknowledged as an effective instructional method, conditioned on qualified tutors. However, the high demand for qualified tutors remains a challenge, often necessitating the training of novice tutors (i.e., trainees) to ensure effective tutoring. Research suggests that providing timely explanatory feedback can facilitate the training process for trainees. However, it presents challenges due to the time-consuming nature of assessing trainee performance by human experts. Inspired by the recent advancements of large language models (LLMs), our study employed the GPT-4 model to build an explanatory feedback system. This system identifies trainees' responses in binary form (i.e., correct/incorrect) and automatically provides template-based feedback with responses appropriately rephrased by the GPT-4 model. We conducted our study on 410 responses from trainees across three training lessons: Giving Effective Praise, Reacting to Errors, and Determining What Students Know. Our findings indicate that: 1) using a few-shot approach, the GPT-4 model effectively identifies correct/incorrect trainees' responses from three training lessons with an average F1 score of 0.84 and an AUC score of 0.85; and 2) using the few-shot approach, the GPT-4 model adeptly rephrases incorrect trainees' responses into desired responses, achieving performance comparable to that of human experts. | 翻訳日:2024-05-03 18:04:13 公開日:2024-05-02 |
# CACTUS: ツールと科学を結びつける化学薬品
CACTUS: Chemistry Agent Connecting Tool-Usage to Science ( http://arxiv.org/abs/2405.00972v1 ) ライセンス: Link先を確認 | Andrew D. McNaughton, Gautham Ramalaxmi, Agustin Kruel, Carter R. Knutson, Rohith A. Varikoti, Neeraj Kumar, | (参考訳) 大規模言語モデル(LLM)は、様々なドメインにおいて顕著な可能性を示しているが、ドメイン固有の知識やツールにアクセスし、推論する能力に欠けることが多い。
本稿では,化学・分子発見における高度な推論と問題解決を可能にするため,化学情報処理ツールを統合したLCMベースのエージェントであるCACTUS(Chemistry Agent Connecting Tool-Usage to Science)を紹介した。
我々は, Gemma-7b, Falcon-7b, MPT-7b, Llama2-7b, Mistral-7bなど, 様々なオープンソースのLCMを用いてCACTUSの性能評価を行った。
その結果, CACTUS は, Gemma-7b および Mistral-7b モデルにおいて, 使用するプロンプト戦略によらず高い精度を達成し, ベースライン LLM を著しく上回っていることがわかった。
さらに、ドメイン固有のプロンプトとハードウェア構成がモデル性能に与える影響について検討し、プロンプトエンジニアリングの重要性と、より小さなモデルをコンシューマグレードのハードウェアに展開する可能性を強調した。
オープンソースLLMの認知能力とドメイン固有のツールを組み合わせることで、CACTUSは分子特性予測、類似性探索、薬物類似性評価といった課題の研究者を支援することができる。
さらに、CACTUSは化学情報学の分野で重要なマイルストーンであり、化学と分子発見に携わる研究者に適応可能なツールを提供する。
オープンソースLDMの強みとドメイン固有のツールを統合することで、CACTUSは、新しい、効果的で安全な治療候補、触媒、材料の探索において、科学的進歩を加速し、新たなフロンティアを解放する可能性がある。
さらに、CACTUSが自動実験プラットフォームと統合し、データ駆動による意思決定をリアルタイムで行う能力は、自律的な発見の新たな可能性を開く。
Large language models (LLMs) have shown remarkable potential in various domains, but they often lack the ability to access and reason over domain-specific knowledge and tools. In this paper, we introduced CACTUS (Chemistry Agent Connecting Tool-Usage to Science), an LLM-based agent that integrates cheminformatics tools to enable advanced reasoning and problem-solving in chemistry and molecular discovery. We evaluate the performance of CACTUS using a diverse set of open-source LLMs, including Gemma-7b, Falcon-7b, MPT-7b, Llama2-7b, and Mistral-7b, on a benchmark of thousands of chemistry questions. Our results demonstrate that CACTUS significantly outperforms baseline LLMs, with the Gemma-7b and Mistral-7b models achieving the highest accuracy regardless of the prompting strategy used. Moreover, we explore the impact of domain-specific prompting and hardware configurations on model performance, highlighting the importance of prompt engineering and the potential for deploying smaller models on consumer-grade hardware without significant loss in accuracy. By combining the cognitive capabilities of open-source LLMs with domain-specific tools, CACTUS can assist researchers in tasks such as molecular property prediction, similarity searching, and drug-likeness assessment. Furthermore, CACTUS represents a significant milestone in the field of cheminformatics, offering an adaptable tool for researchers engaged in chemistry and molecular discovery. By integrating the strengths of open-source LLMs with domain-specific tools, CACTUS has the potential to accelerate scientific advancement and unlock new frontiers in the exploration of novel, effective, and safe therapeutic candidates, catalysts, and materials. Moreover, CACTUS's ability to integrate with automated experimentation platforms and make data-driven decisions in real time opens up new possibilities for autonomous discovery. | 翻訳日:2024-05-03 18:04:13 公開日:2024-05-02 |
# 大規模ストリーミング高密度検索のためのPLAID ShiRTTT
PLAID SHIRTTT for Large-Scale Streaming Dense Retrieval ( http://arxiv.org/abs/2405.00975v1 ) ライセンス: Link先を確認 | Dawn Lawrie, Efsun Kayi, Eugene Yang, James Mayfield, Douglas W. Oard, | (参考訳) PLAIDは、事前訓練された言語モデルを用いたColBERT遅延対話バイエンコーダの効率的な実装であり、モノリンガル、クロスランガル、マルチランガル検索における最先端のパフォーマンスを一貫して達成する。
PLAIDはColBERTと異なり、クラスタに項を割り当て、これらの項をクラスタセントロイドと圧縮された残留ベクトルとして表す。
PLAIDはバッチ実験で有効であるが、新しいトークンの表現がクラスタセントロイドの選択に使われた初期のトークンによってモデル化されていないため、ドキュメントが時間とともに到着するストリーミング設定ではパフォーマンスが低下する。
PLAID Streaming Hierarchical Indexing that Runs on Terabytes of Temporal Text (PLAID ShiRTTT) この懸念に対処する。
ClueWeb09 と Multilingual NeuCLIR コレクションの実験では,ColBERT アーキテクチャによってインデックス付けされた最大コレクションと多言語設定の両方において,このアプローチの有効性が示されている。
PLAID, an efficient implementation of the ColBERT late interaction bi-encoder using pretrained language models for ranking, consistently achieves state-of-the-art performance in monolingual, cross-language, and multilingual retrieval. PLAID differs from ColBERT by assigning terms to clusters and representing those terms as cluster centroids plus compressed residual vectors. While PLAID is effective in batch experiments, its performance degrades in streaming settings where documents arrive over time because representations of new tokens may be poorly modeled by the earlier tokens used to select cluster centroids. PLAID Streaming Hierarchical Indexing that Runs on Terabytes of Temporal Text (PLAID SHIRTTT) addresses this concern using multi-phase incremental indexing based on hierarchical sharding. Experiments on ClueWeb09 and the multilingual NeuCLIR collection demonstrate the effectiveness of this approach both for the largest collection indexed to date by the ColBERT architecture and in the multilingual setting, respectively. | 翻訳日:2024-05-03 18:04:13 公開日:2024-05-02 |
# 多言語情報検索のための蒸留法
Distillation for Multilingual Information Retrieval ( http://arxiv.org/abs/2405.00977v1 ) ライセンス: Link先を確認 | Eugene Yang, Dawn Lawrie, James Mayfield, | (参考訳) 言語間情報検索(CLIR)における最近の研究は、翻訳と蒸留を用いて言語間ニューラルエンコーダモデルを訓練するTranslate-Distillフレームワークの利点を示している。
しかし、Translate-Distillは単一のドキュメント言語しかサポートしていない。
マルチリンガル・インフォメーション・コレクション(MLIR)はCLIRよりも訓練が難しい。
本研究はTranslate-Distillを拡張し,MLIRのためのMultilingual Translate-Distill (MTD)を提案する。
MTDでトレーニングしたColBERT-Xモデルは、従来の最先端のトレーニング手法であるith Multilingual Translate-Trainを、nDCG@20で5%から25%、MAPで15%から45%上回った。
また、トレーニングバッチで言語が混在しているのに対して、モデルが堅牢であることも示しています。
私たちの実装はGitHubで利用可能です。
Recent work in cross-language information retrieval (CLIR), where queries and documents are in different languages, has shown the benefit of the Translate-Distill framework that trains a cross-language neural dual-encoder model using translation and distillation. However, Translate-Distill only supports a single document language. Multilingual information retrieval (MLIR), which ranks a multilingual document collection, is harder to train than CLIR because the model must assign comparable relevance scores to documents in different languages. This work extends Translate-Distill and propose Multilingual Translate-Distill (MTD) for MLIR. We show that ColBERT-X models trained with MTD outperform their counterparts trained ith Multilingual Translate-Train, which is the previous state-of-the-art training approach, by 5% to 25% in nDCG@20 and 15% to 45% in MAP. We also show that the model is robust to the way languages are mixed in training batches. Our implementation is available on GitHub. | 翻訳日:2024-05-03 18:04:13 公開日:2024-05-02 |
# 多言語情報検索における言語フェアネス
Language Fairness in Multilingual Information Retrieval ( http://arxiv.org/abs/2405.00978v1 ) ライセンス: Link先を確認 | Eugene Yang, Thomas Jänich, James Mayfield, Dawn Lawrie, | (参考訳) MLIR(Multilingual Information Search)は、これらの言語と異なる可能性のある言語で表現されたクエリに対して、複数の言語で文書をランク付けする問題を考える。
近年の研究では、1つの文書言語を表すランクリストの組み合わせや、多言語事前学習言語モデルの使用といったアプローチが、他言語よりも1つの言語を好むことを示している。
これにより、異なる言語の文書を体系的に不公平に扱うことができる。
本研究は,Kruskal-Wallis テストを用いて,各言語にまたがる文書が,統計的等価性テストによって適切にランク付けされているかどうかを評価するための言語フェアネス尺度を提案する。
群フェアネスにおける多くの先行研究とは対照的に、いかなる言語も保護されていない群とはみなさない。
そこで,提案手法であるPEER(Probability of EqualExpected Rank)は,MLIRシステムの言語フェアネスを捉えるために考案された最初のフェアネス尺度である。
人工ランクリスト上でPEERの挙動を示す。
また,2つの公開ベンチマーク上で実際のMLIRシステムを評価し,PEERスコアがMLIRの公正性に関する以前の分析結果と一致していることを示す。
実装はir-measuresと互換性があり、http://github.com/hltcoe/peer_measureで利用可能です。
Multilingual information retrieval (MLIR) considers the problem of ranking documents in several languages for a query expressed in a language that may differ from any of those languages. Recent work has observed that approaches such as combining ranked lists representing a single document language each or using multilingual pretrained language models demonstrate a preference for one language over others. This results in systematic unfair treatment of documents in different languages. This work proposes a language fairness metric to evaluate whether documents across different languages are fairly ranked through statistical equivalence testing using the Kruskal-Wallis test. In contrast to most prior work in group fairness, we do not consider any language to be an unprotected group. Thus our proposed measure, PEER (Probability of EqualExpected Rank), is the first fairness metric specifically designed to capture the language fairness of MLIR systems. We demonstrate the behavior of PEER on artificial ranked lists. We also evaluate real MLIR systems on two publicly available benchmarks and show that the PEER scores align with prior analytical findings on MLIR fairness. Our implementation is compatible with ir-measures and is available at http://github.com/hltcoe/peer_measure. | 翻訳日:2024-05-03 17:54:29 公開日:2024-05-02 |
# 香港の手話コーパス、テレビニュースから収集
A Hong Kong Sign Language Corpus Collected from Sign-interpreted TV News ( http://arxiv.org/abs/2405.00980v1 ) ライセンス: Link先を確認 | Zhe Niu, Ronglai Zuo, Brian Mak, Fangyun Wei, | (参考訳) 本稿では,香港のニュース番組から7ヶ月にわたって収集した新しい手話(HKSL)データセットであるTVB-HKSL-Newsを紹介する。
データセットは、HKSLのリソースを充実させ、大語彙連続手話認識(SLR)と翻訳(SLT)の研究を支援するために収集される。
2人のシグナーによる16.07時間のサインビデオで、6,515グルース(SLR)と2,850漢字または18K漢字(SLT)の語彙を持つ。
1人のシグナーは11.66時間、もう1人は4.41時間である。
データセット構築の1つの目的は、(相対的に)大量のトレーニングデータを与えられたシングルシグナーに対して、大語彙の連続手話認識/翻訳がいかにうまく行うかの調査を支援することであり、新しいモデリング手法の開発につながる可能性がある。
さらに、データ収集パイプラインのほとんどの部分は、人間の介入がほとんどなく自動化されており、このような手話解釈ビデオが利用可能であれば、将来SLTでより多くの手話データを容易に収集できるように、我々の収集方法をスケールアップできると信じています。
また、データセット上でSOTA SLR/SLTモデルを実行し、ベースラインのSLRワードエラー率34.08%、ベースラインのSLT BLEU-4スコア23.58を得る。
This paper introduces TVB-HKSL-News, a new Hong Kong sign language (HKSL) dataset collected from a TV news program over a period of 7 months. The dataset is collected to enrich resources for HKSL and support research in large-vocabulary continuous sign language recognition (SLR) and translation (SLT). It consists of 16.07 hours of sign videos of two signers with a vocabulary of 6,515 glosses (for SLR) and 2,850 Chinese characters or 18K Chinese words (for SLT). One signer has 11.66 hours of sign videos and the other has 4.41 hours. One objective in building the dataset is to support the investigation of how well large-vocabulary continuous sign language recognition/translation can be done for a single signer given a (relatively) large amount of his/her training data, which could potentially lead to the development of new modeling methods. Besides, most parts of the data collection pipeline are automated with little human intervention; we believe that our collection method can be scaled up to collect more sign language data easily for SLT in the future for any sign languages if such sign-interpreted videos are available. We also run a SOTA SLR/SLT model on the dataset and get a baseline SLR word error rate of 34.08% and a baseline SLT BLEU-4 score of 23.58 for benchmarking future research on the dataset. | 翻訳日:2024-05-03 17:54:29 公開日:2024-05-02 |
# LLMに基づく自然言語推論抽出のためのベイズ最適化
Bayesian Optimization with LLM-Based Acquisition Functions for Natural Language Preference Elicitation ( http://arxiv.org/abs/2405.00981v1 ) ライセンス: Link先を確認 | David Eric Austin, Anton Korikov, Armin Toroghi, Scott Sanner, | (参考訳) コールドスタート設定でユーザのトップ項目の嗜好を迅速に確認できるPE手法の設計は、効果的でパーソナライズされた会話レコメンデーション(ConvRec)システムを構築する上で重要な課題である。
大規模言語モデル (LLM) は, 完全な自然言語(NL) PE対話を可能にする新しい技術である一方, モノリシックLLM NL-PEアプローチには, NL探索とユーザ嗜好の任意の項目集合への活用を効果的に行うために必要な多ターン, 決定論的推論が欠如している, という仮説を立てる。
対照的に、従来のベイズ最適化PEメソッドは理論上最適なPE戦略を定義するが、NL項目の記述やNLクエリの生成に失敗し、ユーザーが直接アイテム評価と比較で好みを表現できると仮定する。
両手法の限界を克服するため,ベイズ最適化(BO)フレームワークでNL-PEを定式化し,自然言語のフィードバックを積極的に引き出すNLクエリを生成し,アイテムユーティリティに対する不確実性を低減し,最適なレコメンデーションを特定する。
我々は,ユーザの嗜好発話とNL項目記述の間で自然言語推論(NLI)を用いて,好みの信念を維持し,Thompson Sampling (TS) や Up Confidence Bound (UCB) などのBO戦略を用いて LLM クエリ生成を誘導する新しい NL-PE アルゴリズム PEBOL を実証した。
提案手法を制御実験で数値評価したところ, PEBOLは, より小さい400MパラメータNLIモデルに依存するにもかかわらず, 10ターンのコールドスタートNL-PE対話でMAP@10が最大131%向上することが判明した。
Designing preference elicitation (PE) methodologies that can quickly ascertain a user's top item preferences in a cold-start setting is a key challenge for building effective and personalized conversational recommendation (ConvRec) systems. While large language models (LLMs) constitute a novel technology that enables fully natural language (NL) PE dialogues, we hypothesize that monolithic LLM NL-PE approaches lack the multi-turn, decision-theoretic reasoning required to effectively balance the NL exploration and exploitation of user preferences towards an arbitrary item set. In contrast, traditional Bayesian optimization PE methods define theoretically optimal PE strategies, but fail to use NL item descriptions or generate NL queries, unrealistically assuming users can express preferences with direct item ratings and comparisons. To overcome the limitations of both approaches, we formulate NL-PE in a Bayesian Optimization (BO) framework that seeks to generate NL queries which actively elicit natural language feedback to reduce uncertainty over item utilities to identify the best recommendation. We demonstrate our framework in a novel NL-PE algorithm, PEBOL, which uses Natural Language Inference (NLI) between user preference utterances and NL item descriptions to maintain preference beliefs and BO strategies such as Thompson Sampling (TS) and Upper Confidence Bound (UCB) to guide LLM query generation. We numerically evaluate our methods in controlled experiments, finding that PEBOL achieves up to 131% improvement in MAP@10 after 10 turns of cold start NL-PE dialogue compared to monolithic GPT-3.5, despite relying on a much smaller 400M parameter NLI model for preference inference. | 翻訳日:2024-05-03 17:54:29 公開日:2024-05-02 |
# 機械による報告の評価について
On the Evaluation of Machine-Generated Reports ( http://arxiv.org/abs/2405.00982v1 ) ライセンス: Link先を確認 | James Mayfield, Eugene Yang, Dawn Lawrie, Sean MacAvaney, Paul McNamee, Douglas W. Oard, Luca Soldaini, Ian Soboroff, Orion Weller, Efsun Kayi, Kate Sanders, Marc Mason, Noah Hibbler, | (参考訳) 大きな言語モデル(LLM)は、情報ニーズを満たす新しい方法を可能にしました。
文書のランク付けやショートフォームのテキスト生成といった設定にそれらを適用しようとする動きは大きいが、それでも完全で正確で検証可能なロングフォームのレポートを作成するのに苦労している。
これらの品質の報告は、ユーザの複雑な、ニュアンスのある、あるいは多面的な情報要求を満たすために必要である。
本論では, 産業・学界, 各種研究分野から, 自動レポート生成の展望, そして, 批判的に, このようなレポートを評価可能なフレキシブルな枠組みについて考察する。
他の要約タスクとは対照的に、自動レポート生成は、必要なバックグラウンド、要求、およびレポートのスコープを記述して、必要な情報の詳細記述から始まる。
さらに、生成されたレポートは完全で、正確で、検証可能であるべきです。
これらの品質は(必要でないとしても)多くの分析レポートの書き起こし設定において望ましいものであり、これらの品質を示すシステムを構築し評価する方法を再考する必要がある。
これらのシステム構築における新たな取り組みを促進するために,様々な評価で見出されたアイデアを取り入れた評価フレームワークを提案する。
完全性と正確性をテストするため、このフレームワークは、高品質なレポートの一部である必要がある質問や回答として表現された大量の情報を使用する。
さらに、レポート内のクレームをソースドキュメントにマッピングする引用の評価により、妥当性が保証される。
Large Language Models (LLMs) have enabled new ways to satisfy information needs. Although great strides have been made in applying them to settings like document ranking and short-form text generation, they still struggle to compose complete, accurate, and verifiable long-form reports. Reports with these qualities are necessary to satisfy the complex, nuanced, or multi-faceted information needs of users. In this perspective paper, we draw together opinions from industry and academia, and from a variety of related research areas, to present our vision for automatic report generation, and -- critically -- a flexible framework by which such reports can be evaluated. In contrast with other summarization tasks, automatic report generation starts with a detailed description of an information need, stating the necessary background, requirements, and scope of the report. Further, the generated reports should be complete, accurate, and verifiable. These qualities, which are desirable -- if not required -- in many analytic report-writing settings, require rethinking how to build and evaluate systems that exhibit these qualities. To foster new efforts in building these systems, we present an evaluation framework that draws on ideas found in various evaluations. To test completeness and accuracy, the framework uses nuggets of information, expressed as questions and answers, that need to be part of any high-quality generated report. Additionally, evaluation of citations that map claims made in the report to their source documents ensures verifiability. | 翻訳日:2024-05-03 17:54:29 公開日:2024-05-02 |
# LLM-AD:大規模言語モデルに基づく音声記述システム
LLM-AD: Large Language Model based Audio Description System ( http://arxiv.org/abs/2405.00983v1 ) ライセンス: Link先を確認 | Peng Chu, Jiang Wang, Andre Abrantes, | (参考訳) Audio Description(AD)の開発は、ビデオコンテンツをよりアクセスしやすく包括的にするための重要な一歩だ。
伝統的に、AD生産は相当量の熟練した労働力を必要としているが、既存の自動化されたアプローチでは、マルチモーダルな入力を統合し、キャプティングスタイルからADスタイルへの出力を調整するための広範囲な訓練が必要である。
本稿では,GPT-4V(ision)の強力なマルチモーダルおよび命令追従能力を利用する自動AD生成パイプラインを提案する。
特に、我々の方法論は容易に利用できるコンポーネントを採用しており、追加のトレーニングの必要性を排除しています。
それは、確立された自然言語ADプロダクション標準に準拠するだけでなく、トラッキングベースの文字認識モジュールのおかげで、フレーム間でコンテキスト的に一貫した文字情報を維持できるADを生成する。
CIDErスコアが20.5であるように,MADデータセットの徹底的な解析により,自動AD生産における学習に基づく手法と同等の性能が得られた。
The development of Audio Description (AD) has been a pivotal step forward in making video content more accessible and inclusive. Traditionally, AD production has demanded a considerable amount of skilled labor, while existing automated approaches still necessitate extensive training to integrate multimodal inputs and tailor the output from a captioning style to an AD style. In this paper, we introduce an automated AD generation pipeline that harnesses the potent multimodal and instruction-following capacities of GPT-4V(ision). Notably, our methodology employs readily available components, eliminating the need for additional training. It produces ADs that not only comply with established natural language AD production standards but also maintain contextually consistent character information across frames, courtesy of a tracking-based character recognition module. A thorough analysis on the MAD dataset reveals that our approach achieves a performance on par with learning-based methods in automated AD production, as substantiated by a CIDEr score of 20.5. | 翻訳日:2024-05-03 17:54:29 公開日:2024-05-02 |
# FREE: より高速でデータフリーなメタ学習
FREE: Faster and Better Data-Free Meta-Learning ( http://arxiv.org/abs/2405.00984v1 ) ライセンス: Link先を確認 | Yongxian Wei, Zixuan Hu, Zhenyi Wang, Li Shen, Chun Yuan, Dacheng Tao, | (参考訳) Data-Free Meta-Learning (DFML)は、トレーニング済みモデルのコレクションから、オリジナルのデータを必要としない知識を抽出することを目的としており、データプライバシの懸念に制約されたコンテキストにおいて、実用的なメリットを提供する。
現在のDFMLメソッドは主に、トレーニング済みのモデルからのデータリカバリに焦点を当てている。
しかし、不均一な事前訓練モデルに固有の回復速度と見落としのギャップに悩まされている。
これらの課題に対応するために、我々はFREE(Faster and Better Data-Free Meta-Learning)フレームワークを紹介した。
一 事前訓練したモデルから迅速に訓練業務を回復するためのメタジェネレータ
(ii)新しい目に見えないタスクに一般化するためのメタラーナー。
具体的には、モジュール内のメタジェネレータによる高速インバージョンでは、トレーニング済みの各モデルが異なるタスクとして認識される。
メタジェネレータは、わずか5ステップで特定のタスクに迅速に適応し、データリカバリを著しく加速する。
さらに,メタラーナーによるより優れた一般化を提案し,メタラーナーを最適化するための暗黙の勾配アライメントアルゴリズムを提案する。
これは、不均一な事前訓練されたモデルからのタスク間の潜在的な衝突を軽減するためである。
複数のベンチマークに関する実証実験により、我々のアプローチの優位性が確認され、最先端技術と比較して、注目すべきスピードアップ(20$\times$)とパフォーマンス向上(1.42\%$\sim$4.78\%)が示された。
Data-Free Meta-Learning (DFML) aims to extract knowledge from a collection of pre-trained models without requiring the original data, presenting practical benefits in contexts constrained by data privacy concerns. Current DFML methods primarily focus on the data recovery from these pre-trained models. However, they suffer from slow recovery speed and overlook gaps inherent in heterogeneous pre-trained models. In response to these challenges, we introduce the Faster and Better Data-Free Meta-Learning (FREE) framework, which contains: (i) a meta-generator for rapidly recovering training tasks from pre-trained models; and (ii) a meta-learner for generalizing to new unseen tasks. Specifically, within the module Faster Inversion via Meta-Generator, each pre-trained model is perceived as a distinct task. The meta-generator can rapidly adapt to a specific task in just five steps, significantly accelerating the data recovery. Furthermore, we propose Better Generalization via Meta-Learner and introduce an implicit gradient alignment algorithm to optimize the meta-learner. This is achieved as aligned gradient directions alleviate potential conflicts among tasks from heterogeneous pre-trained models. Empirical experiments on multiple benchmarks affirm the superiority of our approach, marking a notable speed-up (20$\times$) and performance enhancement (1.42\% $\sim$ 4.78\%) in comparison to the state-of-the-art. | 翻訳日:2024-05-03 17:54:29 公開日:2024-05-02 |
# ResNetトレーニングの進歩的フィードフォワード崩壊
Progressive Feedforward Collapse of ResNet Training ( http://arxiv.org/abs/2405.00985v1 ) ライセンス: Link先を確認 | Sicong Wang, Kuo Gai, Shihua Zhang, | (参考訳) ニューラル崩壊(Neural collapse, NC)は、訓練の最終段階におけるディープニューラルネットワーク(DNN)の単純で対称的な現象であり、最終層の特徴はクラス平均に崩壊し、分類器ベクトルと整合した単純な等角形のタイトフレームを形成する。
しかし、トレーニング中の最終層の特徴とデータと中間層との関係は未解明のままである。
この目的のために、我々はResNetの中間層の幾何学を特徴付け、DNNの前方伝播中に崩壊の程度が増加するという新しい予想であるプログレッシブフィードフォワード崩壊(PFC)を提案する。
重み減衰したResNetは終端位相におけるワッサーシュタイン空間の測地線曲線を近似するので、よく訓練されたResNetに対して透明なモデルを導出する。
PFCのメトリクスは、確かに様々なデータセットの深さにわたって単調に減少する。
本稿では,中間層を最適輸送正規化器で接続する新しいサロゲートモデル,multilayer unconstrained feature model (MUFM)を提案する。
MUFMの最適解はNCと矛盾するが、入力データに対してより集中している。
本研究は、NCからPFCに拡張し、中間層の崩壊現象と入力データへの依存性をモデル化し、分類問題におけるResNetの理論的理解に光を当てる。
Neural collapse (NC) is a simple and symmetric phenomenon for deep neural networks (DNNs) at the terminal phase of training, where the last-layer features collapse to their class means and form a simplex equiangular tight frame aligning with the classifier vectors. However, the relationship of the last-layer features to the data and intermediate layers during training remains unexplored. To this end, we characterize the geometry of intermediate layers of ResNet and propose a novel conjecture, progressive feedforward collapse (PFC), claiming the degree of collapse increases during the forward propagation of DNNs. We derive a transparent model for the well-trained ResNet according to that ResNet with weight decay approximates the geodesic curve in Wasserstein space at the terminal phase. The metrics of PFC indeed monotonically decrease across depth on various datasets. We propose a new surrogate model, multilayer unconstrained feature model (MUFM), connecting intermediate layers by an optimal transport regularizer. The optimal solution of MUFM is inconsistent with NC but is more concentrated relative to the input data. Overall, this study extends NC to PFC to model the collapse phenomenon of intermediate layers and its dependence on the input data, shedding light on the theoretical understanding of ResNet in classification problems. | 翻訳日:2024-05-03 17:54:29 公開日:2024-05-02 |
# S$^2$AC:ステインソフトアクターによるエネルギーベース強化学習
S$^2$AC: Energy-Based Reinforcement Learning with Stein Soft Actor Critic ( http://arxiv.org/abs/2405.00987v1 ) ライセンス: Link先を確認 | Safa Messaoud, Billel Mokeddem, Zhenghai Xue, Linsey Pang, Bo An, Haipeng Chen, Sanjay Chawla, | (参考訳) より優れた安定性、サンプルの複雑さ、堅牢性を達成するために、決定論的ポリシーの代わりに表現的確率的ポリシーを学ぶことが提案されている。
特に、最大エントロピー強化学習(MaxEnt RL)では、Q値に対する表現型エネルギーベースモデル(EBM)としてモデル化されている。
しかし、この定式化は、開問題であるそのようなEMMのエントロピーを推定する必要がある。
これを解決するために、以前のMaxEnt RLメソッドは暗黙的にエントロピーを推定し、高い計算複雑性と分散(SQL)をもたらすか、あるいは単純なアクター分布(例えばガウス的)をトラクタビリティ(SAC)に適合させる変分推論手順に従う。
我々は,効率を損なうことなく表現的ポリシーを学習するMaxEnt RLアルゴリズムであるStein Soft Actor-Critic (S$^2$AC)を提案する。
具体的には、S$^2$ACはパラメータ化されたスタイン変分勾配 Descent (SVGD) を基本方針とする。
このような政策のエントロピーの閉形式表現を導出する。
我々の公式は計算的に効率的であり、一階微分やベクトル積にのみ依存する。
実証的な結果から、S$^2$ACは、マルチゴール環境でのSQLやSACよりもMaxEntの目的に対する最適なソリューションとなり、MuJoCoベンチマークではSACやSQLよりも優れています。
https://github.com/SafaMessaoud/S2AC-Energy-Based-RL-with-Stein-Soft-Actor-Critic
Learning expressive stochastic policies instead of deterministic ones has been proposed to achieve better stability, sample complexity, and robustness. Notably, in Maximum Entropy Reinforcement Learning (MaxEnt RL), the policy is modeled as an expressive Energy-Based Model (EBM) over the Q-values. However, this formulation requires the estimation of the entropy of such EBMs, which is an open problem. To address this, previous MaxEnt RL methods either implicitly estimate the entropy, resulting in high computational complexity and variance (SQL), or follow a variational inference procedure that fits simplified actor distributions (e.g., Gaussian) for tractability (SAC). We propose Stein Soft Actor-Critic (S$^2$AC), a MaxEnt RL algorithm that learns expressive policies without compromising efficiency. Specifically, S$^2$AC uses parameterized Stein Variational Gradient Descent (SVGD) as the underlying policy. We derive a closed-form expression of the entropy of such policies. Our formula is computationally efficient and only depends on first-order derivatives and vector products. Empirical results show that S$^2$AC yields more optimal solutions to the MaxEnt objective than SQL and SAC in the multi-goal environment, and outperforms SAC and SQL on the MuJoCo benchmark. Our code is available at: https://github.com/SafaMessaoud/S2AC-Energy-Based-RL-with-Stein-Soft-Actor-Critic | 翻訳日:2024-05-03 17:54:29 公開日:2024-05-02 |
# 大規模言語モデルを用いた文脈認識クラスタリング
Context-Aware Clustering using Large Language Models ( http://arxiv.org/abs/2405.00988v1 ) ライセンス: Link先を確認 | Sindhu Tipirneni, Ravinarayana Adkathimar, Nurendra Choudhary, Gaurush Hiranandani, Rana Ali Amjad, Vassilis N. Ioannidis, Changhe Yuan, Chandan K. Reddy, | (参考訳) テキスト理解と生成におけるLLM(Large Language Models)の顕著な成功にもかかわらず、テキストクラスタリングタスクの可能性はまだ未定である。
我々は、強力なクローズドソース LLM がエンティティセットの良質なクラスタリングを提供するが、大量の計算能力と関連するコストのためにスケーラビリティがないことを観察した。
CACTUS(Context-Aware ClusTering with aUgmented triplet losS)は、オープンソースのLCMを利用して、エンティティサブセットの効率的かつ効率的なクラスタリング、特にテキストベースのエンティティに焦点を当てた体系的なアプローチである。
既存のテキストクラスタリングメソッドは、エンティティサブセットが提供するコンテキストを効果的にキャプチャできない。
さらに、クラスタリングには言語モデリングに基づくアプローチがいくつかあるが、クラスタリングを教師するタスクのために設計されているものはほとんどない。
本稿では、拡張性のある相互注意機構を通じてコンテキストをキャプチャすることで、LCMを用いたエンティティサブセットのクラスタリングに向けた新しいアプローチを提案する。
本稿では,この問題に直接三重項損失を適用するという本質的な課題に対処する,教師付きクラスタリングに適した拡張三重項損失関数を提案する。
さらに,テキスト拡張技術に基づく自己教師型クラスタリングタスクを導入し,モデルの一般化を改善する。
評価のために、我々は、クローズドソースのLCMから真理クラスタリングを収集し、この知識を教師付きクラスタリングフレームワークの下でオープンソースLCMに転送し、より高速で安価なオープンソースモデルで同じタスクを実行できるようにする。
各種電子商取引クエリおよび製品クラスタリングデータセットの実験により、提案手法は、各種外部クラスタリング評価指標の下で、既存の教師なしベースラインを著しく上回ることを示した。
Despite the remarkable success of Large Language Models (LLMs) in text understanding and generation, their potential for text clustering tasks remains underexplored. We observed that powerful closed-source LLMs provide good quality clusterings of entity sets but are not scalable due to the massive compute power required and the associated costs. Thus, we propose CACTUS (Context-Aware ClusTering with aUgmented triplet losS), a systematic approach that leverages open-source LLMs for efficient and effective supervised clustering of entity subsets, particularly focusing on text-based entities. Existing text clustering methods fail to effectively capture the context provided by the entity subset. Moreover, though there are several language modeling based approaches for clustering, very few are designed for the task of supervised clustering. This paper introduces a novel approach towards clustering entity subsets using LLMs by capturing context via a scalable inter-entity attention mechanism. We propose a novel augmented triplet loss function tailored for supervised clustering, which addresses the inherent challenges of directly applying the triplet loss to this problem. Furthermore, we introduce a self-supervised clustering task based on text augmentation techniques to improve the generalization of our model. For evaluation, we collect ground truth clusterings from a closed-source LLM and transfer this knowledge to an open-source LLM under the supervised clustering framework, allowing a faster and cheaper open-source model to perform the same task. Experiments on various e-commerce query and product clustering datasets demonstrate that our proposed approach significantly outperforms existing unsupervised and supervised baselines under various external clustering evaluation metrics. | 翻訳日:2024-05-03 17:54:29 公開日:2024-05-02 |
# センチネルデータに基づく建物の高さを10m分解能で推定する
Estimate the building height at a 10-meter resolution based on Sentinel data ( http://arxiv.org/abs/2405.00989v1 ) ライセンス: Link先を確認 | Xin Yan, | (参考訳) 建築の高さは科学的研究と実用化の重要な指標である。
しかし,高空間分解能(10m)の建材は依然として極めて少ない。
本研究では,高分解能建築物の高さ推定モデルの必要性に応えるために,Sentinel-1で提供されるSARデータ,Sentinel-2で提供される光学データ,建築フットプリントで提供される形状データを組み合わせた空間時空間特徴データベースを構築した。
時間尺度上の統計指標を抽出し、160個の特徴からなる豊富なデータベースを形成する。
本研究は, 変分特徴の重要性, 共有付加説明, ランダムフォレスト変数の重要度と組み合わせて, エキスパートスコアリングシステムを用いて最終安定度を求める。
本研究は、米国の12大都市、中小都市をトレーニングデータとして分析した。
移動窓を使ってピクセルを集約し、SAR画像の変位と影の構築の影響を解消した。
本研究では,ランダム林モデルに基づく建物の高さモデルを構築し,バッジ,ブースティング,積み重ねの3つのモデルアンサンブル手法を比較した。
本研究は, 予測結果の精度を評価するために, 試験領域のライダーデータを収集し, そのR-Squareが0.78に達したことを示し, 建物の高さを効果的に得ることを示した。
高解像度建築高データの高速生産は、多くの分野における大規模科学的研究と応用を支援することができる。
Building height is an important indicator for scientific research and practical application. However, building height products with a high spatial resolution (10m) are still very scarce. To meet the needs of high-resolution building height estimation models, this study established a set of spatial-spectral-temporal feature databases, combining SAR data provided by Sentinel-1, optical data provided by Sentinel-2, and shape data provided by building footprints. The statistical indicators on the time scale are extracted to form a rich database of 160 features. This study combined with permutation feature importance, Shapley Additive Explanations, and Random Forest variable importance, and the final stable features are obtained through an expert scoring system. This study took 12 large, medium, and small cities in the United States as the training data. It used moving windows to aggregate the pixels to solve the impact of SAR image displacement and building shadows. This study built a building height model based on a random forest model and compared three model ensemble methods of bagging, boosting, and stacking. To evaluate the accuracy of the prediction results, this study collected Lidar data in the test area, and the evaluation results showed that its R-Square reached 0.78, which can prove that the building height can be obtained effectively. The fast production of high-resolution building height data can support large-scale scientific research and application in many fields. | 翻訳日:2024-05-03 17:54:29 公開日:2024-05-02 |
# スイス陸軍のナイフではない
Not a Swiss Army Knife: Academics' Perceptions of Trade-Offs Around Generative Artificial Intelligence Use ( http://arxiv.org/abs/2405.00995v1 ) ライセンス: Link先を確認 | Afsaneh Razi, Layla Bouzoubaa, Aria Pessianzadeh, John S. Seberger, Rezvaneh Rezapour, | (参考訳) コンピュータ分野の急速な発展の中で、生成的AI(Gen AI)の社会技術的意味を解き放つために、かなりの努力が注がれている。
既存の研究は様々な形で現れてきたが、Gen AIとの学術における知識労働者の直接の関与に関して、注目すべきギャップが残っている。
我々は、教員や学生を含む18人の知識労働者にインタビューを行い、その視点から、Gen AIの社会的・技術的側面について調査した。
参加者は、Gen AIのトレーニングに使用されるデータの不透明さに関する懸念を提起しました。
この透明性の欠如は、これらのモデルによって生成された不正確で偏りがあり、潜在的に有害な情報を識別し、対処することを困難にします。
知識労働者はまた、インストラクターと学生の関係に対する信頼を損なうGen AIに対する懸念を表明し、教育的準備のような潜在的な解決策について議論した。
さらに参加者は、学習プロセスを加速し、アクセス可能な研究アシスタントとして機能することで、Gen AIが知識を民主化する可能性を認識した。
しかし、このような技術への不平等なアクセスから生じる潜在的な社会的・権力不均衡にも懸念があった。
我々の研究は、知識労働者の関心事や、教育現場などにおけるGen AIの倫理的利用に関する希望についての洞察を提供する。
In the rapidly evolving landscape of computing disciplines, substantial efforts are being dedicated to unraveling the sociotechnical implications of generative AI (Gen AI). While existing research has manifested in various forms, there remains a notable gap concerning the direct engagement of knowledge workers in academia with Gen AI. We interviewed 18 knowledge workers, including faculty and students, to investigate the social and technical dimensions of Gen AI from their perspective. Our participants raised concerns about the opacity of the data used to train Gen AI. This lack of transparency makes it difficult to identify and address inaccurate, biased, and potentially harmful, information generated by these models. Knowledge workers also expressed worries about Gen AI undermining trust in the relationship between instructor and student and discussed potential solutions, such as pedagogy readiness, to mitigate them. Additionally, participants recognized Gen AI's potential to democratize knowledge by accelerating the learning process and act as an accessible research assistant. However, there were also concerns about potential social and power imbalances stemming from unequal access to such technologies. Our study offers insights into the concerns and hopes of knowledge workers about the ethical use of Gen AI in educational settings and beyond, with implications for navigating this new landscape. | 翻訳日:2024-05-03 17:54:29 公開日:2024-05-02 |
# IgboAPIデータセット:多言語化によるIgbo言語技術の強化
The IgboAPI Dataset: Empowering Igbo Language Technologies through Multi-dialectal Enrichment ( http://arxiv.org/abs/2405.00997v1 ) ライセンス: Link先を確認 | Chris Chinenye Emezue, Ifeoma Okoh, Chinedu Mbonu, Chiamaka Chukwuneke, Daisy Lal, Ignatius Ezeani, Paul Rayson, Ijemma Onwuzulike, Chukwuma Okeke, Gerald Nweya, Bright Ogbonna, Chukwuebuka Oraegbunam, Esther Chidinma Awo-Ndubuisi, Akudo Amarachukwu Osuagwu, Obioha Nmezi, | (参考訳) 2025年のユネスコの研究によると、イグボ語は絶滅の危機に直面している。
このことは、コミュニケーション、学習、保存を促進するためにIgboの言語技術を開発する必要性を強調している。
Igboの堅牢で、影響力があり、広く採用されている言語技術を開発するためには、言語の多言語性を統合することが不可欠である。
方言対応言語技術を実現する上での大きな障害は、包括的な方言データセットの欠如である。
そこで本研究では,Igbo方言の表現性向上を目的とした多方言Igbo- English辞書データセットであるIgboAPIデータセットを提案する。
さらに、IgboAPIデータセットの実用性について、Igbo意味辞書と機械翻訳に焦点を当てた2つの異なる研究を通して説明する。
セマンティックレキシコンプロジェクトでは、Igboセマンティックタグの初期Igboセマンティックレキシコンの確立に成功し、機械翻訳研究では、既存の機械翻訳システムをIgboAPIデータセットを用いて微調整することにより、文の方言変化を扱う能力を大幅に改善することを示した。
The Igbo language is facing a risk of becoming endangered, as indicated by a 2025 UNESCO study. This highlights the need to develop language technologies for Igbo to foster communication, learning and preservation. To create robust, impactful, and widely adopted language technologies for Igbo, it is essential to incorporate the multi-dialectal nature of the language. The primary obstacle in achieving dialectal-aware language technologies is the lack of comprehensive dialectal datasets. In response, we present the IgboAPI dataset, a multi-dialectal Igbo-English dictionary dataset, developed with the aim of enhancing the representation of Igbo dialects. Furthermore, we illustrate the practicality of the IgboAPI dataset through two distinct studies: one focusing on Igbo semantic lexicon and the other on machine translation. In the semantic lexicon project, we successfully establish an initial Igbo semantic lexicon for the Igbo semantic tagger, while in the machine translation study, we demonstrate that by finetuning existing machine translation systems using the IgboAPI dataset, we significantly improve their ability to handle dialectal variations in sentences. | 翻訳日:2024-05-03 17:54:29 公開日:2024-05-02 |
# ニューラルネットワークの3次元拡散による部分認識形状生成
Part-aware Shape Generation with Latent 3D Diffusion of Neural Voxel Fields ( http://arxiv.org/abs/2405.00998v1 ) ライセンス: Link先を確認 | Yuhang Huang, SHilong Zou, Xinwang Liu, Kai Xu, | (参考訳) 本稿では,神経ボクセル場生成のための新しい潜時3次元拡散モデルを提案する。
既存の手法と比較して、高品質で正確な部分認識生成を保証するための2つの重要な設計がある。
一方,ニューラルボクセル場の3次元拡散過程を導入し,より高分解能でリッチなテクスチャや幾何学的詳細を正確に捉えることが可能となる。
一方、部分認識形状デコーダを導入して、部分符号を神経ボクセル場に統合し、正確な部分分解を誘導し、高品質なレンダリング結果を生成する。
実験と最先端手法との比較により,4種類のデータにまたがるアプローチを検証した。
その結果,既存の最先端手法よりも優れた部品認識形状生成において,提案手法の優れた生成能力を示した。
This paper presents a novel latent 3D diffusion model for the generation of neural voxel fields, aiming to achieve accurate part-aware structures. Compared to existing methods, there are two key designs to ensure high-quality and accurate part-aware generation. On one hand, we introduce a latent 3D diffusion process for neural voxel fields, enabling generation at significantly higher resolutions that can accurately capture rich textural and geometric details. On the other hand, a part-aware shape decoder is introduced to integrate the part codes into the neural voxel fields, guiding the accurate part decomposition and producing high-quality rendering results. Through extensive experimentation and comparisons with state-of-the-art methods, we evaluate our approach across four different classes of data. The results demonstrate the superior generative capabilities of our proposed method in part-aware shape generation, outperforming existing state-of-the-art methods. | 翻訳日:2024-05-03 17:54:29 公開日:2024-05-02 |
# Spider: コンテキスト依存概念理解のための統一フレームワーク
Spider: A Unified Framework for Context-dependent Concept Understanding ( http://arxiv.org/abs/2405.01002v1 ) ライセンス: Link先を確認 | Xiaoqi Zhao, Youwei Pang, Wei Ji, Baicheng Sheng, Jiaming Zuo, Lihe Zhang, Huchuan Lu, | (参考訳) 人間、車、飛行機のような文脈に依存しない(CI)概念とは異なり、文脈に依存しない(CD)概念は、偽装された物体や医学的病変のような高い視覚的理解能力を必要とする。
多くのCD理解タスクが各ブランチで急速に進歩したにもかかわらず、分離された進化はドメイン間の一般化と反復的な技術革新に繋がる。
CDタスクには前景と背景のコンテキストの間に強い結合関係があるため、既存の手法では焦点を絞った領域で個別のモデルを訓練する必要がある。
これは、人工知能(AGI)に対する現実のCD概念の理解を制限する。
パラメータセット1セットの統一モデルであるSpiderを提案する。
イメージマスクグループプロンプトによって駆動される提案されたコンセプトフィルタの助けを借りて、スパイダーはプロンプターの意図を正確に捉えるために、多様なコンテキスト依存の概念を理解し、区別することができる。
ベルとホイッスルがなければ、スパイダーは8つの異なるコンテキスト依存のセグメンテーションタスクにおいて最先端の特殊モデルよりも優れており、その中には4つの自然なシーン(塩分、カモフラージュ、透明な物体と影)と4つの医学的病変(COVID-19、ポリプ、乳房、皮膚病変、大腸内視鏡、CT、超音波、皮膚内視鏡のモダリティ)が含まれる。
さらに、スパイダーは継続的学習における明らかなアドバンテージを示している。
パラメータを1\%未満に微調整することで、新しいタスクのトレーニングを簡単に完了し、古いタスクすべてに対して許容可能なパフォーマンス劣化を5\%以下にする。
ソースコードは \href{https://github.com/Xiaoqi-Zhao-DLUT/Spider-UniCDSeg}{Spider-UniCDSeg} で公開されている。
Different from the context-independent (CI) concepts such as human, car, and airplane, context-dependent (CD) concepts require higher visual understanding ability, such as camouflaged object and medical lesion. Despite the rapid advance of many CD understanding tasks in respective branches, the isolated evolution leads to their limited cross-domain generalisation and repetitive technique innovation. Since there is a strong coupling relationship between foreground and background context in CD tasks, existing methods require to train separate models in their focused domains. This restricts their real-world CD concept understanding towards artificial general intelligence (AGI). We propose a unified model with a single set of parameters, Spider, which only needs to be trained once. With the help of the proposed concept filter driven by the image-mask group prompt, Spider is able to understand and distinguish diverse strong context-dependent concepts to accurately capture the Prompter's intention. Without bells and whistles, Spider significantly outperforms the state-of-the-art specialized models in 8 different context-dependent segmentation tasks, including 4 natural scenes (salient, camouflaged, and transparent objects and shadow) and 4 medical lesions (COVID-19, polyp, breast, and skin lesion with color colonoscopy, CT, ultrasound, and dermoscopy modalities). Besides, Spider shows obvious advantages in continuous learning. It can easily complete the training of new tasks by fine-tuning parameters less than 1\% and bring a tolerable performance degradation of less than 5\% for all old tasks. The source code will be publicly available at \href{https://github.com/Xiaoqi-Zhao-DLUT/Spider-UniCDSeg}{Spider-UniCDSeg}. | 翻訳日:2024-05-03 17:54:29 公開日:2024-05-02 |
# 音声認識におけるディープラーニングモデル:GPUエネルギー消費の測定、ノイズの影響、エッジ展開のためのモデル量子化
Deep Learning Models in Speech Recognition: Measuring GPU Energy Consumption, Impact of Noise and Model Quantization for Edge Deployment ( http://arxiv.org/abs/2405.01004v1 ) ライセンス: Link先を確認 | Aditya Chakravarty, | (参考訳) 最近のトランスフォーマーベースのASRモデルは、人間のアノテータの精度を上回り、ワードエラー率(WER)を4%以下にしている。
ASRの従来のサーバベースのアーキテクチャは、ネットワーク依存による信頼性とレイテンシの問題とともに、プライバシの懸念ももたらしている。
対照的に、オンデバイス(エッジ)のASRは、プライバシを強化し、パフォーマンスを向上し、特定のアプリケーションのエネルギー使用量と精度を効果的にバランスさせることで、サステナビリティを向上する。
本研究では, NVIDIA Jetson Orin Nanoにおける各種ASRモデル推論の性能に及ぼす量子化, メモリ要求, エネルギー消費の影響について検討した。
クリーンでノイズの多いデータセット上で、FP32、FP16、INT8の量子化を用いてモデル間でのWERと転写速度を解析することにより、精度、速度、量子化、エネルギー効率、メモリニーズの間の重要なトレードオフを明らかにする。
その結果、fp32からfp16への精度変更は、異なるモデル間での音声書き起こしのエネルギー消費量を半減させ、性能劣化を最小限に抑えることができた。
より大きなモデルサイズとパラメータの数では、ノイズに対する弾力性は保証されず、与えられた転写負荷のエネルギー消費も予測できない。
これらは、エネルギーとメモリに制限のある環境でASRシステムを最適化するための新しい洞察を与え、デバイス上での効率的なASRソリューションの開発に不可欠である。
この記事で結果を再現するのに必要なコードと入力データは、[https://github.com/zzadiues3338/ASR-energy-jetson]で公開されている。
Recent transformer-based ASR models have achieved word-error rates (WER) below 4%, surpassing human annotator accuracy, yet they demand extensive server resources, contributing to significant carbon footprints. The traditional server-based architecture of ASR also presents privacy concerns, alongside reliability and latency issues due to network dependencies. In contrast, on-device (edge) ASR enhances privacy, boosts performance, and promotes sustainability by effectively balancing energy use and accuracy for specific applications. This study examines the effects of quantization, memory demands, and energy consumption on the performance of various ASR model inference on the NVIDIA Jetson Orin Nano. By analyzing WER and transcription speed across models using FP32, FP16, and INT8 quantization on clean and noisy datasets, we highlight the crucial trade-offs between accuracy, speeds, quantization, energy efficiency, and memory needs. We found that changing precision from fp32 to fp16 halves the energy consumption for audio transcription across different models, with minimal performance degradation. A larger model size and number of parameters neither guarantees better resilience to noise, nor predicts the energy consumption for a given transcription load. These, along with several other findings offer novel insights for optimizing ASR systems within energy- and memory-limited environments, crucial for the development of efficient on-device ASR solutions. The code and input data needed to reproduce the results in this article are open sourced are available on [https://github.com/zzadiues3338/ASR-energy-jetson]. | 翻訳日:2024-05-03 17:54:29 公開日:2024-05-02 |
# テキスト・画像生成モデルにおけるメカニスティック・ナレッジ・ローカライゼーションについて
On Mechanistic Knowledge Localization in Text-to-Image Generative Models ( http://arxiv.org/abs/2405.01008v1 ) ライセンス: Link先を確認 | Samyadeep Basu, Keivan Rezaei, Ryan Rossi, Cherry Zhao, Vlad Morariu, Varun Manjunatha, Soheil Feizi, | (参考訳) 視覚属性を制御するテキスト・ツー・イメージモデル内のレイヤを識別することで、クローズドフォーム更新による効率的なモデル編集が容易になる。
最近の研究は、因果トレースを利用して、初期安定拡散変種は、主にCLIPテキストエンコーダの第一層に知識を限定し、UNet全体に拡散していることを示している。このフレームワークは、最近のモデル(例えば、SD-XL、DeepFloyd)において、因果トレースは局所的な知識の特定に失敗し、モデル編集の課題を強調している。
この問題に対処するために、テキスト・ツー・イメージモデルにおけるメカニスティック・ローカライゼーション(Mechanistic Localization)の概念を導入し、様々な視覚的属性(例: ``style", ``objects", ``facts)に関する知識をUNet内の少数のレイヤに機械的にローカライズすることができ、効率的なモデル編集を容易にする。
我々は,UNetのクロスアテンション層に介入することで,中間層が生成する直接効果を計測するLocoGenという手法を用いて,知識をローカライズする。
次に、人気のあるオープンソーステキスト画像モデル(最新のSD-XLを含む)にまたがる高速なクローズドフォーム編集手法であるLocoEditを採用し、ニューロンレベルのモデル編集の可能性を探る。
メカニスティック・ローカライゼーション(Mechanistic Localization, メカニスティック・ローカライゼーション, メカニスティック・ローカライゼーション, メカニスティック・ローカライゼーション, メカニスティック・ローカライゼーション, メカニカル・ローカライゼーション)を用いて, ローカライゼーション・ベースのテキスト・ツー・イメージ・モデル編集における成功と失敗のより良いビューを提供する。
コードは \href{https://github.com/samyadeepbasu/LocoGen}{https://github.com/samyadeepbasu/LocoGen} で入手できる。
Identifying layers within text-to-image models which control visual attributes can facilitate efficient model editing through closed-form updates. Recent work, leveraging causal tracing show that early Stable-Diffusion variants confine knowledge primarily to the first layer of the CLIP text-encoder, while it diffuses throughout the UNet.Extending this framework, we observe that for recent models (e.g., SD-XL, DeepFloyd), causal tracing fails in pinpointing localized knowledge, highlighting challenges in model editing. To address this issue, we introduce the concept of Mechanistic Localization in text-to-image models, where knowledge about various visual attributes (e.g., ``style", ``objects", ``facts") can be mechanistically localized to a small fraction of layers in the UNet, thus facilitating efficient model editing. We localize knowledge using our method LocoGen which measures the direct effect of intermediate layers to output generation by performing interventions in the cross-attention layers of the UNet. We then employ LocoEdit, a fast closed-form editing method across popular open-source text-to-image models (including the latest SD-XL)and explore the possibilities of neuron-level model editing. Using Mechanistic Localization, our work offers a better view of successes and failures in localization-based text-to-image model editing. Code will be available at \href{https://github.com/samyadeepbasu/LocoGen}{https://github.com/samyadeepbasu/LocoGen}. | 翻訳日:2024-05-03 17:43:16 公開日:2024-05-02 |
# 大域的および局所的非拡散性によるグラフオーバーカッシングの解法
Tackling Graph Oversquashing by Global and Local Non-Dissipativity ( http://arxiv.org/abs/2405.01009v1 ) ライセンス: Link先を確認 | Alessio Gravina, Moshe Eliasof, Claudio Gallicchio, Davide Bacciu, Carola-Bibiane Schönlieb, | (参考訳) Message-Passing Neural Networksの一般的な問題はオーバーカッシング(oversquashing)である。
オーバーウォーキングは、ノード距離が増加するにつれて情報伝達の指数的な減衰に起因する。
本稿では, 過疎化に対処する新たな視点を導入し, グローバルおよびローカルな非拡散性の特性を活用し, 一定の情報流量の維持を可能にする。
すなわち、空間領域と重み領域の両方において反対称性を持つ一意にパラメータ化されたモデルGNNであるSWANを非拡散性を得る手段として提示する。
我々の理論的分析は、これらの特性を達成することで、SWANは拡張された距離で情報を伝達する能力を提供すると主張している。
長距離相互作用を強調する合成および実世界のベンチマークに関する実証的な評価は、SWANの理論的理解と過度の監視を緩和する能力を検証する。
A common problem in Message-Passing Neural Networks is oversquashing -- the limited ability to facilitate effective information flow between distant nodes. Oversquashing is attributed to the exponential decay in information transmission as node distances increase. This paper introduces a novel perspective to address oversquashing, leveraging properties of global and local non-dissipativity, that enable the maintenance of a constant information flow rate. Namely, we present SWAN, a uniquely parameterized model GNN with antisymmetry both in space and weight domains, as a means to obtain non-dissipativity. Our theoretical analysis asserts that by achieving these properties, SWAN offers an enhanced ability to transmit information over extended distances. Empirical evaluations on synthetic and real-world benchmarks that emphasize long-range interactions validate the theoretical understanding of SWAN, and its ability to mitigate oversquashing. | 翻訳日:2024-05-03 17:43:16 公開日:2024-05-02 |
# バンドの効率的かつ適応的な後方サンプリングアルゴリズム
Efficient and Adaptive Posterior Sampling Algorithms for Bandits ( http://arxiv.org/abs/2405.01010v1 ) ライセンス: Link先を確認 | Bingshan Hu, Zhiming Huang, Tianyue H. Zhang, Mathias Lécuyer, Nidhi Hegde, | (参考訳) 有界報酬を持つ確率的包帯に対するトンプソンサンプリングに基づくアルゴリズムについて検討する。
Agrawal and Goyal, 2017) がガウス前置詞でトンプソンサンプリングの既存の問題依存の後悔は、$T \le 288 e^{64}$が288 e^{64}$から$1270$に制限されたより実践的な境界から導かれる。
さらに,拡張性,適応計算資源割り当て,ユーティリティと計算のバランスを必要とする大規模実世界のアプリケーションによる動機付けとして,Thompson Smpling with Model Aggregation (TS-MA-$\alpha$) とThomp Smpling with Timestamp Duelling (TS-TD-$\alpha$) という,Thompson Smpling with Model Aggregation (TS-MA-$\alpha$) という2つのパラメータ化されたトンプソンサンプリングベースのアルゴリズムを提案する。
どちらのアルゴリズムも、$O \left(K\ln^{\alpha+1}(T)/\Delta \right)$ regret bound, where $K$ is the number of arms, $T$ is the finite learning horizon, $\Delta$ is the single round performance loss when a sub-optimal arm。
We study Thompson Sampling-based algorithms for stochastic bandits with bounded rewards. As the existing problem-dependent regret bound for Thompson Sampling with Gaussian priors [Agrawal and Goyal, 2017] is vacuous when $T \le 288 e^{64}$, we derive a more practical bound that tightens the coefficient of the leading term %from $288 e^{64}$ to $1270$. Additionally, motivated by large-scale real-world applications that require scalability, adaptive computational resource allocation, and a balance in utility and computation, we propose two parameterized Thompson Sampling-based algorithms: Thompson Sampling with Model Aggregation (TS-MA-$\alpha$) and Thompson Sampling with Timestamp Duelling (TS-TD-$\alpha$), where $\alpha \in [0,1]$ controls the trade-off between utility and computation. Both algorithms achieve $O \left(K\ln^{\alpha+1}(T)/\Delta \right)$ regret bound, where $K$ is the number of arms, $T$ is the finite learning horizon, and $\Delta$ denotes the single round performance loss when pulling a sub-optimal arm. | 翻訳日:2024-05-03 17:43:16 公開日:2024-05-02 |
# 生体・人工ニューラルネットワークにおけるバイアス中心カーネルアライメント対策の補正
Correcting Biased Centered Kernel Alignment Measures in Biological and Artificial Neural Networks ( http://arxiv.org/abs/2405.01012v1 ) ライセンス: Link先を確認 | Alex Murphy, Joel Zylberberg, Alona Fyshe, | (参考訳) Centred Kernel Alignment (CKA)は、最近、両方のシステムに提示される刺激セット(例えば、画像、テキスト、ビデオ)から導かれる内部表現のアライメントを定量化するために、生物と人工ニューラルネットワーク(ANN)からのアクティベーションを比較するための一般的な指標として登場した。
本稿では,ニューラルネットワークのアライメント指標としてCKAを使用する場合,コミュニティが考慮すべき課題について述べる。
ニューラルネットワークは低データ高次元領域に属するが、これは(バイアス付き)CKAがランダム行列のペアであっても高い類似度スコアをもたらす場合の1つである。
THINGSプロジェクトのfMRIおよびMEGデータを用いて、低データ高次元領域における異なる大きさの表現に偏りCKAを適用した場合、偏りCKAが特徴サンプル比の差に敏感であり、刺激駆動応答ではないため、直接的に比較できないことを示す。
この状況は、あらかじめ選択された関心領域(例えばROI)を複数のANN層と比較する場合と、異なる次元のセンサ群がどのANN層に複数の関心領域(ROI)を配置するかを決定する場合に起こる。
サンプル-特徴比の異なる独立ランダムデータを使用する場合, バイアス付きCKAは最大値に人工的に駆動可能であることを示す。
さらに、実際のニューラルネットワークのサンプル-機能ペアのシャッフルは、未シャッフルデータと比較して、バイアス付きCKA類似性を劇的に変化させることはないことを示し、刺激駆動型ニューラルレスポンスに対する好ましくない感度の欠如を示している。
真の刺激駆動応答の正のアライメントは、脱バイアスCKAを用いてのみ達成される。
最後に、偏りのあるCKAが神経データ固有の構造に敏感であることを示し、偏りのあるCKAが刺激によるアライメントを検出するときのみシャッフルデータと異なることを報告した。
Centred Kernel Alignment (CKA) has recently emerged as a popular metric to compare activations from biological and artificial neural networks (ANNs) in order to quantify the alignment between internal representations derived from stimuli sets (e.g. images, text, video) that are presented to both systems. In this paper we highlight issues that the community should take into account if using CKA as an alignment metric with neural data. Neural data are in the low-data high-dimensionality domain, which is one of the cases where (biased) CKA results in high similarity scores even for pairs of random matrices. Using fMRI and MEG data from the THINGS project, we show that if biased CKA is applied to representations of different sizes in the low-data high-dimensionality domain, they are not directly comparable due to biased CKA's sensitivity to differing feature-sample ratios and not stimuli-driven responses. This situation can arise both when comparing a pre-selected area of interest (e.g. ROI) to multiple ANN layers, as well as when determining to which ANN layer multiple regions of interest (ROIs) / sensor groups of different dimensionality are most similar. We show that biased CKA can be artificially driven to its maximum value when using independent random data of different sample-feature ratios. We further show that shuffling sample-feature pairs of real neural data does not drastically alter biased CKA similarity in comparison to unshuffled data, indicating an undesirable lack of sensitivity to stimuli-driven neural responses. Positive alignment of true stimuli-driven responses is only achieved by using debiased CKA. Lastly, we report findings that suggest biased CKA is sensitive to the inherent structure of neural data, only differing from shuffled data when debiased CKA detects stimuli-driven alignment. | 翻訳日:2024-05-03 17:43:16 公開日:2024-05-02 |
# 部分予測による非クレアボイアントスケジューリング
Non-clairvoyant Scheduling with Partial Predictions ( http://arxiv.org/abs/2405.01013v1 ) ライセンス: Link先を確認 | Ziyad Benomar, Vianney Perchet, | (参考訳) 非論理的スケジューリング問題は、品質保証のない予測機能を備えた学習強化アルゴリズムにおいて、新たな関心を集めている。
現実的な設定では、コストやデータ制限のため、予測へのアクセスを特定のインスタンスに限定することができる。
我々の調査は、アルゴリズムで利用可能な$n$のうち、B$のジョブサイズしか予測できないシナリオに焦点を当てている。
完全予測の場合、まず、最適に近い下界とアルゴリズムを確立する。
続いて, 頑健さ, 一貫性, 滑らかさの基準を満たす学習拡張アルゴリズムを提案し, シナリオ固有の一貫性と滑らかさとの新たなトレードオフを, 限られた数の予測で明らかにした。
The non-clairvoyant scheduling problem has gained new interest within learning-augmented algorithms, where the decision-maker is equipped with predictions without any quality guarantees. In practical settings, access to predictions may be reduced to specific instances, due to cost or data limitations. Our investigation focuses on scenarios where predictions for only $B$ job sizes out of $n$ are available to the algorithm. We first establish near-optimal lower bounds and algorithms in the case of perfect predictions. Subsequently, we present a learning-augmented algorithm satisfying the robustness, consistency, and smoothness criteria, and revealing a novel tradeoff between consistency and smoothness inherent in the scenario with a restricted number of predictions. | 翻訳日:2024-05-03 17:43:16 公開日:2024-05-02 |
# サブプロブレム溶液からのパレートフロントの計算方法
Proven Runtime Guarantees for How the \moead Computes the Pareto Front From the Subproblem Solutions ( http://arxiv.org/abs/2405.01014v1 ) ライセンス: Link先を確認 | Benjamin Doerr, Martin S. Krejca, Noé Weeks, | (参考訳) 分解に基づく多目的進化アルゴリズム(MOEA/D)は、与えられた多目的関数$f$を直接最適化するのではなく、共進化的な方法で$N + 1$単目的サブプロブレム$f$を最適化する。
支配的でないすべてのソリューションのアーカイブを保持し、パレートフロントへの近似として出力する。
MOEA/Dがサブプロブレムのすべてのオプティマ($g$-オプティマ)を見つければ、それでもパレートオプティマが$f$であるのを見逃すかもしれない。
アルゴリズムは、$g$-optima を変更することによって、残りの Pareto optima を直接見つけるように命じられる。
本研究では、標準的な突然変異演算子のみを持つMOEA/Dが、$g$-optimaがParetoフロントの厳密なサブセットである場合に、OneMinMaxベンチマークのParetoフロント全体をどのように計算するかを初めて分析する。
標準的なビット突然変異に対しては、$O(n N \log n + n^{n/(2N)} N \log n)$関数評価の期待ランタイムを証明する。
特に、アルゴリズムがすべての$g$-optimaから始まるとき、より興味深いフェーズでは、$\Omega(n^{(1/2)(n/N + 1)} \sqrt{N} 2^{-n/N})$期待ランタイムを証明する。
このランタイムは、$N = o(n)$の場合、超ポリノミカルである。
指数 $\beta \in (1, 2)$ の有理突然変異に対して、$O\left(n N \log n + n^{\beta} \log n\right)$関数評価の期待ランタイムを証明する。
O\left(n^{\beta} \log n\right)$ という項は、すべての$g$-optimaから始まる2番目のフェーズに由来する。
これにより、標準ビット突然変異のバウンダリよりも大幅にスピードアップする。
一般に、大まかに言えば、MOEA/D は$N = O(n^{\beta - 1})$ に対して最もよく作用し、結果として$O(n^\beta \log n)$bound となることを示唆している。
標準的なビット突然変異とは対照的に、N$の小さな値は、欠落した解を容易に生成できるため、パワー・ローの突然変異に対してより優れている。
The decomposition-based multi-objective evolutionary algorithm (MOEA/D) does not directly optimize a given multi-objective function $f$, but instead optimizes $N + 1$ single-objective subproblems of $f$ in a co-evolutionary manner. It maintains an archive of all non-dominated solutions found and outputs it as approximation to the Pareto front. Once the MOEA/D found all optima of the subproblems (the $g$-optima), it may still miss Pareto optima of $f$. The algorithm is then tasked to find the remaining Pareto optima directly by mutating the $g$-optima. In this work, we analyze for the first time how the MOEA/D with only standard mutation operators computes the whole Pareto front of the OneMinMax benchmark when the $g$-optima are a strict subset of the Pareto front. For standard bit mutation, we prove an expected runtime of $O(n N \log n + n^{n/(2N)} N \log n)$ function evaluations. Especially for the second, more interesting phase when the algorithm start with all $g$-optima, we prove an $\Omega(n^{(1/2)(n/N + 1)} \sqrt{N} 2^{-n/N})$ expected runtime. This runtime is super-polynomial if $N = o(n)$, since this leaves large gaps between the $g$-optima, which require costly mutations to cover. For power-law mutation with exponent $\beta \in (1, 2)$, we prove an expected runtime of $O\left(n N \log n + n^{\beta} \log n\right)$ function evaluations. The $O\left(n^{\beta} \log n\right)$ term stems from the second phase of starting with all $g$-optima, and it is independent of the number of subproblems $N$. This leads to a huge speedup compared to the lower bound for standard bit mutation. In general, our overall bound for power-law suggests that the MOEA/D performs best for $N = O(n^{\beta - 1})$, resulting in an $O(n^\beta \log n)$ bound. In contrast to standard bit mutation, smaller values of $N$ are better for power-law mutation, as it is capable of easily creating missing solutions. | 翻訳日:2024-05-03 17:43:16 公開日:2024-05-02 |
# 最小記述長原理によるネットワーク再構築
Network reconstruction via the minimum description length principle ( http://arxiv.org/abs/2405.01015v1 ) ライセンス: Link先を確認 | Tiago P. Peixoto, | (参考訳) 動的データや行動データからネットワークを再構築する作業に関わる根本的な問題は、過度な適合を防止し、統計的に正当化可能なエッジ数を持つ推論ネットワークを生成する方法で、最も適切なモデル複雑性を決定することである。
この文脈におけるステータスクオは、$L_{1}$正規化とクロスバリデーションの組み合わせに基づいている。
計算コストが高いことに加えて、このコモンプレースアプローチは、スパーシティの促進と重みの「収縮」を不要に結び付ける。
この組み合わせは、縮小によって導入されたバイアスとネットワークの間隔の間のトレードオフを強制し、しばしばクロスバリデーションの後にもかなりの過度なオーバーフィッティングをもたらす。
本研究では,階層的ベイズ推定と重み量子化に基づく別の非パラメトリック正則化スキームを提案する。
提案手法は最小記述長(MDL)の原理に従い,データ圧縮の最大化を可能にする重み分布を明らかにする。
後者のプロパティは、完全なデータに適合する単一のデータを必要とするため、我々のアプローチをかなり高速に採用します。
その結果、先述したエッジの数を必要とせず、多種多様な生成モデルで使用できる原理的かつ効率的な推論スキームが得られた。
また,本手法は,人工ネットワークと経験ネットワークの再構築において,体系的に精度が向上することを示した。
本手法は, 微生物群集間の相互作用ネットワークの再構築と, 10^{4}$から10^{5}$種を含む大規模個体群間の相互作用ネットワークの再構築に有効であることを示すとともに, システム内の介入の結果を予測するために, 推定モデルをどのように利用できるかを示す。
A fundamental problem associated with the task of network reconstruction from dynamical or behavioral data consists in determining the most appropriate model complexity in a manner that prevents overfitting, and produces an inferred network with a statistically justifiable number of edges. The status quo in this context is based on $L_{1}$ regularization combined with cross-validation. As we demonstrate, besides its high computational cost, this commonplace approach unnecessarily ties the promotion of sparsity with weight "shrinkage". This combination forces a trade-off between the bias introduced by shrinkage and the network sparsity, which often results in substantial overfitting even after cross-validation. In this work, we propose an alternative nonparametric regularization scheme based on hierarchical Bayesian inference and weight quantization, which does not rely on weight shrinkage to promote sparsity. Our approach follows the minimum description length (MDL) principle, and uncovers the weight distribution that allows for the most compression of the data, thus avoiding overfitting without requiring cross-validation. The latter property renders our approach substantially faster to employ, as it requires a single fit to the complete data. As a result, we have a principled and efficient inference scheme that can be used with a large variety of generative models, without requiring the number of edges to be known in advance. We also demonstrate that our scheme yields systematically increased accuracy in the reconstruction of both artificial and empirical networks. We highlight the use of our method with the reconstruction of interaction networks between microbial communities from large-scale abundance samples involving in the order of $10^{4}$ to $10^{5}$ species, and demonstrate how the inferred model can be used to predict the outcome of interventions in the system. | 翻訳日:2024-05-03 17:43:16 公開日:2024-05-02 |
# 精密視線マップ構築のための局所的修復による分岐訓練コストの対応
Addressing Diverging Training Costs using Local Restoration for Precise Bird's Eye View Map Construction ( http://arxiv.org/abs/2405.01016v1 ) ライセンス: Link先を確認 | Minsu Kim, Giseop Kim, Sunwook Choi, | (参考訳) 地図構築のためのBird's Eye View(BEV)融合の最近の進歩は、都市環境の顕著なマッピングを示している。
しかし、その深くて粗いアーキテクチャは、かなりの量のバックプロパゲーションメモリとコンピューティングのレイテンシを引き起こす。
結果として、この問題は高解像度(HR)のBEVマップの構築において必然的にボトルネックとなる。
この問題の影響で、既存のほとんどの手法は低解像度のBEVを採用し、道路車線や歩道などの都市景観の正確な位置を推定するのに苦労している。
インプレクシションがリスクの高い自動運転につながるため、多様化するトレーニングコストの問題は解決されなければならない。
本稿では,新しいTrumpet Neural Network(TNN)機構でこの問題に対処する。
このフレームワークはLR BEV空間を利用し、メモリ効率のよいパイプラインを作成するために、アップサンプルのセマンティックBEVマップを出力する。
そこで本稿では,BEV表現の局所的復元について紹介する。
具体的には、アップサンプリングされたBEV表現は、深刻なエイリアス、ブロッキー信号、そして厚いセマンティックラベルを持っている。
提案したローカル復元は,信号の復元とラベルの幅の縮小(あるいは縮小)を行う。
我々の広範な実験により、TNN機構は、プラグアンドプレイのメモリ効率の高いパイプラインを提供し、BEVマップ構築のための実サイズ(または正確な)セマンティックラベルを効果的に推定できることが示されている。
Recent advancements in Bird's Eye View (BEV) fusion for map construction have demonstrated remarkable mapping of urban environments. However, their deep and bulky architecture incurs substantial amounts of backpropagation memory and computing latency. Consequently, the problem poses an unavoidable bottleneck in constructing high-resolution (HR) BEV maps, as their large-sized features cause significant increases in costs including GPU memory consumption and computing latency, named diverging training costs issue. Affected by the problem, most existing methods adopt low-resolution (LR) BEV and struggle to estimate the precise locations of urban scene components like road lanes, and sidewalks. As the imprecision leads to risky self-driving, the diverging training costs issue has to be resolved. In this paper, we address the issue with our novel Trumpet Neural Network (TNN) mechanism. The framework utilizes LR BEV space and outputs an up-sampled semantic BEV map to create a memory-efficient pipeline. To this end, we introduce Local Restoration of BEV representation. Specifically, the up-sampled BEV representation has severely aliased, blocky signals, and thick semantic labels. Our proposed Local Restoration restores the signals and thins (or narrows down) the width of the labels. Our extensive experiments show that the TNN mechanism provides a plug-and-play memory-efficient pipeline, thereby enabling the effective estimation of real-sized (or precise) semantic labels for BEV map construction. | 翻訳日:2024-05-03 17:43:16 公開日:2024-05-02 |
# QSimPy: 量子クラウドリソース管理のための学習中心のシミュレーションフレームワーク
QSimPy: A Learning-centric Simulation Framework for Quantum Cloud Resource Management ( http://arxiv.org/abs/2405.01021v1 ) ライセンス: Link先を確認 | Hoa T. Nguyen, Muhammad Usman, Rajkumar Buyya, | (参考訳) 量子クラウドコンピューティングは、クラウドベースのサービスとして量子ハードウェアへのシームレスなアクセスを可能にする、新興コンピューティングパラダイムである。
しかし、量子資源の有効利用は困難であり、効率的な資源管理設計と評価のための堅牢なシミュレーションフレームワークが必要である。
このニーズに対処するために,クラウド環境における量子リソース管理問題に対する学習中心のアプローチの促進を主眼として設計された,新しい離散イベントシミュレーションフレームワークであるQSimPyを提案する。
QSimPyは、量子クラウドリソースとタスク操作のダイナミクスをモデリングするための、よく知られたPythonベースのシミュレーションエンジンであるSimPyをベースにした、軽量なシミュレーション環境を提供する。
我々はGymnasium環境を我々のフレームワークに統合し、量子クラウドリソース管理を最適化するための強化学習に基づく技術の開発と評価のためのシミュレーション環境の作成を支援する。
QSimPyフレームワークは、量子クラウド環境の運用上の複雑さをカプセル化し、DRLアプローチによる動的タスク割り当てと最適化の研究を支援する。
また、量子タスク配置問題に対する強化学習ポリシー開発におけるQSimPyの利用を実証し、将来の量子クラウド研究に有用なフレームワークとしての可能性を示した。
Quantum cloud computing is an emerging computing paradigm that allows seamless access to quantum hardware as cloud-based services. However, effective use of quantum resources is challenging and necessitates robust simulation frameworks for effective resource management design and evaluation. To address this need, we proposed QSimPy, a novel discrete-event simulation framework designed with the main focus of facilitating learning-centric approaches for quantum resource management problems in cloud environments. Underpinned by extensibility, compatibility, and reusability principles, QSimPy provides a lightweight simulation environment based on SimPy, a well-known Python-based simulation engine for modeling dynamics of quantum cloud resources and task operations. We integrate the Gymnasium environment into our framework to support the creation of simulated environments for developing and evaluating reinforcement learning-based techniques for optimizing quantum cloud resource management. The QSimPy framework encapsulates the operational intricacies of quantum cloud environments, supporting research in dynamic task allocation and optimization through DRL approaches. We also demonstrate the use of QSimPy in developing reinforcement learning policies for quantum task placement problems, demonstrating its potential as a useful framework for future quantum cloud research. | 翻訳日:2024-05-03 17:43:16 公開日:2024-05-02 |
# UniGen: ゼロショットデータセット生成による感覚分類のためのユニバーサルドメインの一般化
UniGen: Universal Domain Generalization for Sentiment Classification via Zero-shot Dataset Generation ( http://arxiv.org/abs/2405.01022v1 ) ライセンス: Link先を確認 | Juhwan Choi, Yeonghwa Kim, Seunguk Yu, JungMin Yun, YoungBin Kim, | (参考訳) 事前学習された言語モデルは、プロンプトベースの数発の学習で非常に柔軟性と汎用性を示してきたが、広いパラメータサイズと推論の適用性に悩まされている。
近年の研究では、PLMをデータセットジェネレータとして使用し、効率的な推論を実現するために、タスク固有の小さなモデルを訓練することが示唆されている。
しかし、ドメイン固有のデータセットを生成する傾向があるため、さまざまなドメインへの適用性は制限されている。
本研究では,対象領域によらずデータセットを生成する普遍的領域一般化に対する新しいアプローチを提案する。
これにより、ラベル空間を共有する任意のドメインに小さなタスクモデルを一般化することができ、データセット生成パラダイムの現実的な適用性を高めることができる。
提案手法は, PLM よりも桁違いの小さいパラメータ集合を用いて, 各領域にまたがる一般化性を実現する。
Although pre-trained language models have exhibited great flexibility and versatility with prompt-based few-shot learning, they suffer from the extensive parameter size and limited applicability for inference. Recent studies have suggested that PLMs be used as dataset generators and a tiny task-specific model be trained to achieve efficient inference. However, their applicability to various domains is limited because they tend to generate domain-specific datasets. In this work, we propose a novel approach to universal domain generalization that generates a dataset regardless of the target domain. This allows for generalization of the tiny task model to any domain that shares the label space, thus enhancing the real-world applicability of the dataset generation paradigm. Our experiments indicate that the proposed method accomplishes generalizability across various domains while using a parameter set that is orders of magnitude smaller than PLMs. | 翻訳日:2024-05-03 17:43:16 公開日:2024-05-02 |
# 密度行列リアリズム
Density Matrix Realism ( http://arxiv.org/abs/2405.01025v1 ) ライセンス: Link先を確認 | Eddy Keming Chen, | (参考訳) 量子論に関する現実論は自然界において宇宙の量子状態に関する現実論につながる。
波動関数で表される純粋な状態か、密度行列で表される不純な状態かは開である。
私は、普遍的な量子状態は客観的だが不純物であるという理論である密度行列リアリズムを特徴づけ、精巧に論じる。
本論をウェーブ・ファンクション・リアリズムと比較し、それらが経験的に等価である条件を説明し、密度行列・リアリズムの2つの一般化を考察し、よく聞かれる疑問に答える。
私は科学リアリズムの意味を強調することで終わりを告げる。
Realism about quantum theory naturally leads to realism about the quantum state of the universe. It leaves open whether it is a pure state represented by a wave function, or an impure one represented by a density matrix. I characterize and elaborate on Density Matrix Realism, the thesis that the universal quantum state is objective but can be impure. To clarify the thesis, I compare it with Wave Function Realism, explain the conditions under which they are empirically equivalent, consider two generalizations of Density Matrix Realism, and answer some frequently asked questions. I end by highlighting an implication for scientific realism. | 翻訳日:2024-05-03 17:43:16 公開日:2024-05-02 |
# NICE Challenge at CVPR 2024: Caption Re-level Evaluation using Ensembled CLIP and Consensus Scores
Technical Report of NICE Challenge at CVPR 2024: Caption Re-ranking Evaluation Using Ensembled CLIP and Consensus Scores ( http://arxiv.org/abs/2405.01028v1 ) ライセンス: Link先を確認 | Kiyoon Jeong, Woojun Lee, Woongchan Nam, Minjeong Ma, Pilsung Kang, | (参考訳) 本報告では,与えられた画像のキャプションの評価とランク付けに使用される新しいフレームワークであるDSBA LABのECO(Ensembled Clip score and cOnsensus score)パイプラインについて述べる。
ECOは、画像を記述する最も正確なキャプションを選択する。
これは、画像とキャプションのセマンティックアライメントを考慮するEnsembled CLIPスコアと、キャプションの本質性を説明するConsensusスコアを組み合わせることで実現される。
CVPR 2024 Workshop Challenge on Caption Re-level Evaluation at the New Frontiers for Zero-Shot Image Captioning Evaluation (NICE) では,このフレームワークを用いて顕著な成功を収めた。
具体的には、CIDErメトリックに基づいて第3位、SPICEとMETEORメトリクスの両方で第2位、ROUGE-LとBLEUスコアメトリクスで第1位を確保しました。
ECOフレームワークのコードと設定はhttps://github.com/ DSBA-Lab/ECO で確認できる。
This report presents the ECO (Ensembled Clip score and cOnsensus score) pipeline from team DSBA LAB, which is a new framework used to evaluate and rank captions for a given image. ECO selects the most accurate caption describing image. It is made possible by combining an Ensembled CLIP score, which considers the semantic alignment between the image and captions, with a Consensus score that accounts for the essentialness of the captions. Using this framework, we achieved notable success in the CVPR 2024 Workshop Challenge on Caption Re-ranking Evaluation at the New Frontiers for Zero-Shot Image Captioning Evaluation (NICE). Specifically, we secured third place based on the CIDEr metric, second in both the SPICE and METEOR metrics, and first in the ROUGE-L and all BLEU Score metrics. The code and configuration for the ECO framework are available at https://github.com/ DSBA-Lab/ECO . | 翻訳日:2024-05-03 17:43:16 公開日:2024-05-02 |
# MVMoE:Mixture-of-Expertsを用いたマルチタスク車両ルーティングソリューション
MVMoE: Multi-Task Vehicle Routing Solver with Mixture-of-Experts ( http://arxiv.org/abs/2405.01029v1 ) ライセンス: Link先を確認 | Jianan Zhou, Zhiguang Cao, Yaoxin Wu, Wen Song, Yining Ma, Jie Zhang, Chi Xu, | (参考訳) 車両ルーティング問題(VRP)を解決するための学習は、多くの注目を集めている。
しかし、ほとんどのニューラルソルバは特定の問題に対して独立して構成され、訓練されているだけで、より汎用的で実践的ではない。
本稿では,VRPの変種を同時に扱える統一型ニューラルソルバを開発することを目的とする。
具体的には,Mix-of-experts (MVMoE) を用いたマルチタスク車両ルーティング方式を提案する。
さらに,MVMoEの階層的ゲーティング機構を開発し,経験的性能と計算複雑性の良好なトレードオフを提供する。
実験により,10種類のVRPのゼロショット一般化性能が著しく向上し,少数の設定と実世界のベンチマークインスタンスで良好な結果が得られた。
さらに、VRPの解決におけるMoE構成の影響について広範な研究を行っている。
驚くべきことに、階層的ゲーティングは分布外一般化性能をはるかに向上させることができる。
ソースコードは、https://github.com/RoyalSkye/Routing-MVMoE.comで入手できる。
Learning to solve vehicle routing problems (VRPs) has garnered much attention. However, most neural solvers are only structured and trained independently on a specific problem, making them less generic and practical. In this paper, we aim to develop a unified neural solver that can cope with a range of VRP variants simultaneously. Specifically, we propose a multi-task vehicle routing solver with mixture-of-experts (MVMoE), which greatly enhances the model capacity without a proportional increase in computation. We further develop a hierarchical gating mechanism for the MVMoE, delivering a good trade-off between empirical performance and computational complexity. Experimentally, our method significantly promotes the zero-shot generalization performance on 10 unseen VRP variants, and showcases decent results on the few-shot setting and real-world benchmark instances. We further provide extensive studies on the effect of MoE configurations in solving VRPs. Surprisingly, the hierarchical gating can achieve much better out-of-distribution generalization performance. The source code is available at: https://github.com/RoyalSkye/Routing-MVMoE. | 翻訳日:2024-05-03 17:43:16 公開日:2024-05-02 |
# 機密仮想マシンの信頼性証明に向けて
Towards Trust Proof for Secure Confidential Virtual Machines ( http://arxiv.org/abs/2405.01030v1 ) ライセンス: Link先を確認 | Jingkai Mao, Haoran Zhu, Junchao Fan, Lin Li, Xiaolin Chang, | (参考訳) AMD Secure-Encrypted-Virtualization (SEV)のような仮想マシン(VM)ベースのTrusted-Execution-Environment (TEE)技術は、機密VM(CVM)の確立を可能にし、データのプライバシ保護を可能にする。
しかし、CVMは実行状態の信頼性証明を提供する方法がなく、CVMを使用するユーザの信頼性を低下させる。
仮想信頼プラットフォームモジュール(vTPM)の技術は、CVMの信頼証明を生成するために使用できる。
しかし、既存のvTPMベースのアプローチには、よく定義されたルート・オブ・トラストの欠如、vTPM保護の欠如、vTPMの信頼証明の欠如など、弱点がある。
これらの弱点は、CVMの信頼証明の生成を妨げる。
本稿では,AMD SEVベースのCVMに対して,セキュアなvTPMを用いてTrusted Complete Chain for the CVM(T3CVM)を構築することにより,安全性を確保するための信頼証明を生成するアプローチを提案する。
T3CVMは3つのコンポーネントから構成される。
1) TR-Managerは、よく定義された信頼の根本として、CVMのための完全な信頼連鎖を構築するのに役立ちます。
2) 特別なCVMであるCN-TPMCVMはセキュアなvTPMを提供する。
3) CN-CDriverは拡張TPMドライバである。
我々のアプローチは、既存のアプローチの弱点を克服し、信頼できるCVMで、信頼できるコンピューティングベースのアプリケーションがシームレスに実行できるようにします。
我々は,T3CVMの正式なセキュリティ解析を行い,その性能を評価するためのプロトタイプシステムを実装した。
The Virtual Machine (VM)-based Trusted-Execution-Environment (TEE) technology, like AMD Secure-Encrypted-Virtualization (SEV), enables the establishment of Confidential VMs (CVMs) to protect data privacy. But CVM lacks ways to provide the trust proof of its running state, degrading the user confidence of using CVM. The technology of virtual Trusted Platform Module (vTPM) can be used to generate trust proof for CVM. However, the existing vTPM-based approaches have the weaknesses like lack of a well-defined root-of-trust, lack of vTPM protection, and lack of vTPM's trust proof. These weaknesses prevent the generation of the trust proof of the CVM. This paper proposes an approach to generate the trust proof for AMD SEV-based CVM so as to ensure its security by using a secure vTPM to construct Trusted Complete Chain for the CVM (T3CVM). T3CVM consists of three components: 1) TR-Manager, as the well-defined root-of-trust, helps to build complete trust chains for CVMs; 2) CN-TPMCVM, a special CVM provides secure vTPMs; 3) CN-CDriver, an enhanced TPM driver. Our approach overcomes the weaknesses of existing approaches and enables trusted computing-based applications to run seamlessly in the trusted CVM. We perform a formal security analysis of T3CVM, and implement a prototype system to evaluate its performance. | 翻訳日:2024-05-03 17:43:16 公開日:2024-05-02 |
# 分散学習における相関ノイズのプライバシパワー
The Privacy Power of Correlated Noise in Decentralized Learning ( http://arxiv.org/abs/2405.01031v1 ) ライセンス: Link先を確認 | Youssef Allouah, Anastasia Koloskova, Aymane El Firdoussi, Martin Jaggi, Rachid Guerraoui, | (参考訳) 分散学習は、大量の分散データやリソース(中央のエンティティを使わずに)のスケーラブルな使用を可能にすると同時に、すべてのユーザがデータの直接的な露出を最小限に抑えるため、プライバシの促進を可能にするため、魅力的である。
しかし、追加の予防措置がなければ、好奇心が強いユーザーは、自分の仲間から得たモデルを利用してプライバシーを侵害することができる。
本稿では,DP(差分プライバシー)保証付き分散SGDの変種であるDecorを提案する。
本質的には、ユーザーは1つの通信ラウンドでランダムなシードを安全に交換し、各通信ラウンドにおけるローカルモデルを保護するために注入されるペアワイズ関連ガウスノイズを生成する。
我々は、任意の連結グラフに対して、DecorがDPの最適プライバシーユーティリティトレードオフと一致することを理論的および実証的に示す。
私たちはSecLDPの下で、すべてのユーザ通信を外部の盗聴者や好奇心の強いユーザから保護し、すべての接続されたユーザが秘密、すなわち他のすべてのユーザに隠された情報を共有することを前提に、新しいローカルDPの緩和を行いました。
主な理論的課題は、ネットワークの間隔による非キャンセリング相関ノイズの蓄積を制御することである。
また、公共利用のためのSecLDPプライバシー会計士を提案する。
Decentralized learning is appealing as it enables the scalable usage of large amounts of distributed data and resources (without resorting to any central entity), while promoting privacy since every user minimizes the direct exposure of their data. Yet, without additional precautions, curious users can still leverage models obtained from their peers to violate privacy. In this paper, we propose Decor, a variant of decentralized SGD with differential privacy (DP) guarantees. Essentially, in Decor, users securely exchange randomness seeds in one communication round to generate pairwise-canceling correlated Gaussian noises, which are injected to protect local models at every communication round. We theoretically and empirically show that, for arbitrary connected graphs, Decor matches the central DP optimal privacy-utility trade-off. We do so under SecLDP, our new relaxation of local DP, which protects all user communications against an external eavesdropper and curious users, assuming that every pair of connected users shares a secret, i.e., an information hidden to all others. The main theoretical challenge is to control the accumulation of non-canceling correlated noise due to network sparsity. We also propose a companion SecLDP privacy accountant for public use. | 翻訳日:2024-05-03 17:43:16 公開日:2024-05-02 |
# CrossMPT: エラー訂正のためのクロスアテンションメッセージパージングトランス
CrossMPT: Cross-attention Message-Passing Transformer for Error Correcting Codes ( http://arxiv.org/abs/2405.01033v1 ) ライセンス: Link先を確認 | Seong-Joon Park, Hee-Youl Kwak, Sang-Hyo Kim, Yongjune Kim, Jong-Seon No, | (参考訳) 誤り訂正符号~(ECC)は通信システムにおける信頼できる伝送には不可欠である。
ディープラーニングの最近の進歩は、ニューラルネットワークに基づくECCデコーダの探索を触媒している。
これらのうち、トランスをベースとしたニューラルデコーダは最先端のデコード性能を達成した。
本稿では,クロスアテンション型メッセージパージングトランス~(CrossMPT)を提案する。
CrossMPTは、2つのマスク付きクロスアテンションブロックを用いて2種類の入力ベクトル(等級ベクトルとシンドロームベクトル)を反復的に更新する。
これらのクロスアテンションブロックのマスク行列は、大きさとシンドロームベクトルの関係を記述したコードのパリティチェック行列によって決定される。
実験の結果、CrossMPTは、特に低密度パリティチェック符号のデコードにおいて、既存のニューラルネットワークベースのデコーダよりも大幅に優れていた。
特に、CrossMPTは計算複雑性の大幅な低減を実現し、残りのレイヤの計算複雑性を維持しながら、元のトランスフォーマーベースのデコーダに比べて注意層が50%以上減少する。
Error correcting codes~(ECCs) are indispensable for reliable transmission in communication systems. The recent advancements in deep learning have catalyzed the exploration of ECC decoders based on neural networks. Among these, transformer-based neural decoders have achieved state-of-the-art decoding performance. In this paper, we propose a novel Cross-attention Message-Passing Transformer~(CrossMPT). CrossMPT iteratively updates two types of input vectors (i.e., magnitude and syndrome vectors) using two masked cross-attention blocks. The mask matrices in these cross-attention blocks are determined by the code's parity-check matrix that delineates the relationship between magnitude and syndrome vectors. Our experimental results show that CrossMPT significantly outperforms existing neural network-based decoders, particularly in decoding low-density parity-check codes. Notably, CrossMPT also achieves a significant reduction in computational complexity, achieving over a 50\% decrease in its attention layers compared to the original transformer-based decoder, while retaining the computational complexity of the remaining layers. | 翻訳日:2024-05-03 17:33:31 公開日:2024-05-02 |
# LOQA: 対向的なQ-Learning Awarenessによる学習
LOQA: Learning with Opponent Q-Learning Awareness ( http://arxiv.org/abs/2405.01035v1 ) ライセンス: Link先を確認 | Milad Aghajohari, Juan Agustin Duque, Tim Cooijmans, Aaron Courville, | (参考訳) 現実世界の様々なシナリオにおいて、エージェント間の相互作用は、エージェントが自身のユーティリティを最適化しようとする一般的なサムゲームのダイナミクスによく似ている。
このような設定のユビキタスな関連性にもかかわらず、分散機械学習アルゴリズムは、社会的福祉を保ちながら個人の効用を最大化する均衡を見つけるのに苦労してきた。
本稿では,エージェントの個人利用を最適化すると同時に,部分的に競合する環境下での相手同士の協力を促進することを目的とした,新たな分散強化学習アルゴリズムであるLearning with Opponent Q-Learning Awareness(LOQA)を紹介する。
実験結果は、反復囚人ジレンマやコインゲームのようなベンチマークシナリオにおいて、最先端の性能を達成するためのLOQAの有効性を実証する。
LOQAは計算フットプリントを大幅に削減してこれらの結果を達成するため、実用的なマルチエージェントアプリケーションには有望なアプローチである。
In various real-world scenarios, interactions among agents often resemble the dynamics of general-sum games, where each agent strives to optimize its own utility. Despite the ubiquitous relevance of such settings, decentralized machine learning algorithms have struggled to find equilibria that maximize individual utility while preserving social welfare. In this paper we introduce Learning with Opponent Q-Learning Awareness (LOQA), a novel, decentralized reinforcement learning algorithm tailored to optimizing an agent's individual utility while fostering cooperation among adversaries in partially competitive environments. LOQA assumes the opponent samples actions proportionally to their action-value function Q. Experimental results demonstrate the effectiveness of LOQA at achieving state-of-the-art performance in benchmark scenarios such as the Iterated Prisoner's Dilemma and the Coin Game. LOQA achieves these outcomes with a significantly reduced computational footprint, making it a promising approach for practical multi-agent applications. | 翻訳日:2024-05-03 17:33:31 公開日:2024-05-02 |
# 視覚言語モデルを用いたショット・インクリメンタル・ラーニング
Few Shot Class Incremental Learning using Vision-Language models ( http://arxiv.org/abs/2405.01040v1 ) ライセンス: Link先を確認 | Anurag Kumar, Chinmay Bharti, Saikat Dutta, Srikrishna Karanam, Biplab Banerjee, | (参考訳) 近年のディープラーニングの進歩は、様々な教師付きコンピュータビジョンタスクにおける人間の能力に匹敵する顕著な性能を示している。
しかしながら、モデルトレーニングに先立って、すべてのクラスを包含する広範なトレーニングデータを持つという前提は、新しいクラスの限られたデータ可用性が一般的である現実のシナリオとは相容れないことが多い。
この課題は、トレーニングデータに少数のサンプルを含む新しいクラスをシームレスに統合し、ベースクラスのパフォーマンスを損なうことなく、モデルがこれらの追加を順応的に適応するように要求することにある。
この緊急性に対処するため、研究コミュニティは数発のクラスインクリメンタルラーニング(FSCIL)の領域でいくつかのソリューションを導入している。
本研究では,言語正規化器と部分空間正規化器を利用した革新的なFSCILフレームワークを提案する。
ベーストレーニング中、言語正規化器はビジョンランゲージモデルから抽出された意味情報を組み込むのに役立つ。
サブスペース正規化器は、インクリメンタルトレーニング中にベースクラス固有の画像とテキストセマンティクス間のニュアンスド接続の取得を容易にする。
提案するフレームワークは,限られたデータを持つ新しいクラスをモデルに導入するだけでなく,ベースクラスのパフォーマンスの維持も保証する。
提案手法の有効性を確認するため,我々は3つの異なるFSCILベンチマークの総合的な実験を行い,そのフレームワークが最先端の性能を達成した。
Recent advancements in deep learning have demonstrated remarkable performance comparable to human capabilities across various supervised computer vision tasks. However, the prevalent assumption of having an extensive pool of training data encompassing all classes prior to model training often diverges from real-world scenarios, where limited data availability for novel classes is the norm. The challenge emerges in seamlessly integrating new classes with few samples into the training data, demanding the model to adeptly accommodate these additions without compromising its performance on base classes. To address this exigency, the research community has introduced several solutions under the realm of few-shot class incremental learning (FSCIL). In this study, we introduce an innovative FSCIL framework that utilizes language regularizer and subspace regularizer. During base training, the language regularizer helps incorporate semantic information extracted from a Vision-Language model. The subspace regularizer helps in facilitating the model's acquisition of nuanced connections between image and text semantics inherent to base classes during incremental training. Our proposed framework not only empowers the model to embrace novel classes with limited data, but also ensures the preservation of performance on base classes. To substantiate the efficacy of our approach, we conduct comprehensive experiments on three distinct FSCIL benchmarks, where our framework attains state-of-the-art performance. | 翻訳日:2024-05-03 17:33:31 公開日:2024-05-02 |
# 凝縮を伴う中規模深部ニューラルネットワークの効率化とフレキシブル化
Efficient and Flexible Method for Reducing Moderate-size Deep Neural Networks with Condensation ( http://arxiv.org/abs/2405.01041v1 ) ライセンス: Link先を確認 | Tianyi Chen, Zhi-Qin John Xu, | (参考訳) ニューラルネットワークは様々なタスクに広く適用されており、驚くべき結果が得られている。
科学分野におけるニューラルネットワークの適用は、注目を集めている重要な研究方向である。
科学的応用において、ニューラルネットワークの規模は概して中規模であり、主に応用中の推論の速度を保証する。
さらに、科学応用におけるニューラルネットワークと従来のアルゴリズムを比較することは避けられない。
これらのアプリケーションは、しばしば高速な計算を必要とし、ニューラルネットワークのサイズを減らすことがますます重要になる。
既存の研究によると、ニューラルネットワークの強力な能力は、主に非線形性に起因する。
理論的な研究により、強い非線形性の下では、同じ層のニューロンも同様に振る舞う傾向にあり、この現象は凝縮(condensation)と呼ばれる。
凝縮は、ニューラルネットワークの規模を、同様のパフォーマンスで小さなサブネットワークに縮小する機会を提供する。
本稿では,本手法の有効性を検証するための凝縮低減アルゴリズムを提案する。
提案手法は, 完全連結ネットワークと畳み込みネットワークの両方に適用可能であり, 肯定的な結果が得られる。
複雑な燃焼加速タスクでは、予測精度を維持しながら、ニューラルネットワークのサイズを元のスケールの41.7%に削減した。
CIFAR10画像分類タスクでは、ネットワークサイズを元のスケールの11.5%に削減し、良好な検証精度を維持した。
提案手法は、最も訓練されたニューラルネットワークに適用でき、計算圧力を低減し、推論速度を向上することができる。
Neural networks have been extensively applied to a variety of tasks, achieving astounding results. Applying neural networks in the scientific field is an important research direction that is gaining increasing attention. In scientific applications, the scale of neural networks is generally moderate-size, mainly to ensure the speed of inference during application. Additionally, comparing neural networks to traditional algorithms in scientific applications is inevitable. These applications often require rapid computations, making the reduction of neural network sizes increasingly important. Existing work has found that the powerful capabilities of neural networks are primarily due to their non-linearity. Theoretical work has discovered that under strong non-linearity, neurons in the same layer tend to behave similarly, a phenomenon known as condensation. Condensation offers an opportunity to reduce the scale of neural networks to a smaller subnetwork with similar performance. In this article, we propose a condensation reduction algorithm to verify the feasibility of this idea in practical problems. Our reduction method can currently be applied to both fully connected networks and convolutional networks, achieving positive results. In complex combustion acceleration tasks, we reduced the size of the neural network to 41.7% of its original scale while maintaining prediction accuracy. In the CIFAR10 image classification task, we reduced the network size to 11.5% of the original scale, still maintaining a satisfactory validation accuracy. Our method can be applied to most trained neural networks, reducing computational pressure and improving inference speed. | 翻訳日:2024-05-03 17:33:31 公開日:2024-05-02 |
# サイバーセキュリティシミュレータを用いたインフラ保護プラットフォームの開発
Development of Cybersecurity Simulator-Based Platform for the Protection of Critical Infrastructures ( http://arxiv.org/abs/2405.01046v1 ) ライセンス: Link先を確認 | Tero Vartiainen, Duong Dang, Mike Mekkanen, Emmanuel Anti, | (参考訳) CNI(Critical Infrastructures)は、相互接続された通信システムによるサイバー攻撃に対して脆弱である。
我々は,サイバー物理システムのリアルタイムシミュレーションを用いて,CNIレジリエンスとセキュリティを強化するプラットフォームを開発している。
Vaasa Harbor Microgridで始まったこのプラットフォームは、デジタルツインとリアルタイムに機能を実行することができる。
サイバー攻撃シナリオをシミュレートし、サイバーセキュリティシミュレータベースのプラットフォームの設計を支援し、CNI利害関係者にサービスを提供する。
Critical infrastructures (CNI) are vulnerable to cyberattacks due to their interconnected communication systems. We are developing a platform using real-time simulation of cyber-physical systems to enhance CNI resilience and security. The platform, initiated in the Vaasa Harbor Microgrid, allows creation of a digital twin and real-time execution of its functions. It provides a co-simulation environment for simulating cyberattack scenarios, aiding in the design of a cybersecurity simulator-based platform and offering services for CNI stakeholders. | 翻訳日:2024-05-03 17:33:31 公開日:2024-05-02 |
# 光子相関の実験において偶然の一致を減じることができるか?
Are we allowed to subtract accidental coincidences in experiments of photon correlations? ( http://arxiv.org/abs/2405.01050v1 ) ライセンス: Link先を確認 | Eric Lantz, Fabrice Devaux, Serge Massar, | (参考訳) 偶然の偶然の抽出は、量子光学実験の一般的な実践である。
真空圧縮のようなゼロ平均ガウス状態の場合、偶然の一致を取り除いた場合、測定結果は、非常に低いフラックスでの光子偶然と強度の共分散の両方で定量的に同じであることを示す。
したがって、光子波動関数の干渉や光子束の干渉のような光子レベルの純粋な量子効果は、自発的なダウン変換から発行されるマクロビームのゆらぎの相関で再現される。
これは、検出分解能がコヒーレンスセル(モードのサイズ)よりも小さい場合と、ウィグナー関数のサンプリングに基づく確率シミュレーションの場合の両方に当てはまる。
本稿では,ベルの不等式(偶発的偶然を減じることができない),量子イメージングなどの多モードな状況,高次相関など,この対応の限界について論じる。
Subtracting accidental coincidences is a common practice quantum optics experiments. For zero mean Gaussian states, such as squeezed vacuum, we show that if one removes accidental coincidences the measurement results are quantitatively the same, both for photon coincidences at very low flux and for intensity covariances. Consequently, pure quantum effects at the photon level, like interference of photon wave functions or photon bunching, are reproduced in the correlation of fluctuations of macroscopic beams issued from spontaneous down conversion. This is true both in experiment if the detection resolution is smaller than the coherence cell (size of the mode), and in stochastic simulations based on sampling the Wigner function. We discuss the limitations of this correspondence, such as Bell inequalities (for which one cannot substract accidental coincidences), highly multimode situations such as quantum imaging, and higher order correlations. | 翻訳日:2024-05-03 17:33:31 公開日:2024-05-02 |
# AIアシスタントを用いたペルソナに基づくユーザエクスペリエンスの生成
Generating User Experience Based on Personas with AI Assistants ( http://arxiv.org/abs/2405.01051v1 ) ライセンス: Link先を確認 | Yutan Huang, | (参考訳) 従来のUX開発方法論は、“すべてにフィットする1つのサイズ”ソリューションの開発に重点を置いており、多様なユーザニーズに対応する柔軟性に欠けています。
これを受けて、よりダイナミックなUXフレームワークの開発への関心が高まっている。
しかし、既存のアプローチでは、ユーザエクスペリエンスをパーソナライズしたり、リアルタイムでユーザフィードバックに適応することはできません。
そこで本研究では,これらの制約に対処するために,大規模言語モデルとペルソナを組み合わせた新しいアプローチを提案する。
本研究は,(1)既存の適応型UXプラクティスの批判的レビューと自動化の可能性,(2)UX適応性向上におけるペルソナの役割と有効性の検討,(3)LCM機能を活用してよりダイナミックで応答性の高いUX設計とガイドラインを作成する理論的枠組みの提案,の3分野を中心に構成されている。
Traditional UX development methodologies focus on developing ``one size fits all" solutions and lack the flexibility to cater to diverse user needs. In response, a growing interest has arisen in developing more dynamic UX frameworks. However, existing approaches often cannot personalise user experiences and adapt to user feedback in real-time. Therefore, my research introduces a novel approach of combining Large Language Models and personas, to address these limitations. The research is structured around three areas: (1) a critical review of existing adaptive UX practices and the potential for their automation; (2) an investigation into the role and effectiveness of personas in enhancing UX adaptability; and (3) the proposal of a theoretical framework that leverages LLM capabilities to create more dynamic and responsive UX designs and guidelines. | 翻訳日:2024-05-03 17:33:31 公開日:2024-05-02 |
# ガウス過程を拡大した多項式カオス
Polynomial Chaos Expanded Gaussian Process ( http://arxiv.org/abs/2405.01052v1 ) ライセンス: Link先を確認 | Dominik Polke, Tim Kösters, Elmar Ahle, Dirk Söffker, | (参考訳) 複雑で未知のプロセスでは、大域モデルは最初実験空間全体にわたって生成されるが、しばしば局所的に正確な予測が得られない。
この制限を認識して,グローバル空間とローカル実験空間の両方を効果的に表現するモデルの必要性に対処する。
多項式カオス展開(PCE)を利用してガウス過程(GP)の入力依存ハイパーパラメータを計算する。
このアプローチは,非定常共分散関数と非定常雑音推定を組み込んで局所的に適応したモデルを生成する数学的解釈可能な手法を提供する。
モデル性能は回帰タスクのベンチマークテストで異なるアルゴリズムと比較される。
その結果、これらのベンチマークアプリケーションではPCEGPの予測誤差が低いことが示され、従来の手法と競合する場合や優れている場合が多いモデル性能が強調された。
提案モデルの主な利点は、ハイパーパラメータの計算とモデル予測における透明性とトレーサビリティである。
In complex and unknown processes, global models are initially generated over the entire experimental space, but they often fail to provide accurate predictions in local areas. Recognizing this limitation, this study addresses the need for models that effectively represent both global and local experimental spaces. It introduces a novel machine learning (ML) approach: Polynomial Chaos Expanded Gaussian Process (PCEGP), leveraging polynomial chaos expansion (PCE) to calculate input-dependent hyperparameters of the Gaussian process (GP). This approach provides a mathematically interpretable method that incorporates non-stationary covariance functions and heteroscedastic noise estimation to generate locally adapted models. The model performance is compared to different algorithms in benchmark tests for regression tasks. The results demonstrate low prediction errors of the PCEGP in these benchmark applications, highlighting model performance that is often competitive with or superior to previous methods. A key advantage of the presented model is the transparency and traceability in the calculation of hyperparameters and model predictions. | 翻訳日:2024-05-03 17:33:31 公開日:2024-05-02 |
# 一般性の明示的モデリングと自己指導型学習
Explicitly Modeling Generality into Self-Supervised Learning ( http://arxiv.org/abs/2405.01053v1 ) ライセンス: Link先を確認 | Jingyao Wang, Wenwen Qiang, Changwen Zheng, | (参考訳) 機械学習の一般性の目的は、目に見えない様々なタスクやドメインで優れたパフォーマンスを達成することである。
近年,自己指導型学習(SSL)がこの目標を達成するための効果的な方法として評価されている。
ラベルのないデータから高品質な表現を学習し、複数の下流タスクで有望な経験的パフォーマンスを達成することができる。
既存のSSLメソッドは、主に2つの側面から一般性を制約する。
(i)大規模研修データ、及び
(二)課題レベルの共有知識の学習。
しかし、これらの手法は学習目的においてSSLの一般性の明示的なモデリングを欠いているため、SSLの一般性の理論的理解は依然として限られている。
これによりSSLモデルは、データスカースな状況において過度に適合し、現実世界ではあまり一般化せず、真の汎用性を達成するのが困難になる可能性がある。
これらの問題に対処するため、SSLにおける一般性の理論的定義を提供し、それを定量化するために$\sigma$-measurementを定義する。
この知見に基づいて、汎用性を自己教師付き学習に明示的にモデル化し、さらにGeSSLと呼ばれる新しいSSLフレームワークを提案する。
これは$\sigma$-measurementに基づく自己動機的ターゲットを導入し、モデルが一般化に向けて最適な更新方向を見つけることを可能にする。
大規模な理論的および実証的な評価は、提案したGeSSLの優れた性能を示している。
The goal of generality in machine learning is to achieve excellent performance on various unseen tasks and domains. Recently, self-supervised learning (SSL) has been regarded as an effective method to achieve this goal. It can learn high-quality representations from unlabeled data and achieve promising empirical performance on multiple downstream tasks. Existing SSL methods mainly constrain generality from two aspects: (i) large-scale training data, and (ii) learning task-level shared knowledge. However, these methods lack explicit modeling of the SSL generality in the learning objective, and the theoretical understanding of SSL's generality remains limited. This may cause SSL models to overfit in data-scarce situations and generalize poorly in the real world, making it difficult to achieve true generality. To address these issues, we provide a theoretical definition of generality in SSL and define a $\sigma$-measurement to help quantify it. Based on this insight, we explicitly model generality into self-supervised learning and further propose a novel SSL framework, called GeSSL. It introduces a self-motivated target based on $\sigma$-measurement, which enables the model to find the optimal update direction towards generality. Extensive theoretical and empirical evaluations demonstrate the superior performance of the proposed GeSSL. | 翻訳日:2024-05-03 17:33:31 公開日:2024-05-02 |
# 自律型ドローンレースにおける動的照明下におけるロバストゲート検出の連続学習
Continual Learning for Robust Gate Detection under Dynamic Lighting in Autonomous Drone Racing ( http://arxiv.org/abs/2405.01054v1 ) ライセンス: Link先を確認 | Zhongzheng Qiao, Xuan Huy Pham, Savitha Ramasamy, Xudong Jiang, Erdal Kayacan, Andriy Sarabakha, | (参考訳) 自律型および移動型ロボティクスにおいて、主な課題は、自律型ドローンレースの文脈で例示されるように、特に未知および動的要素によって特徴づけられる状況において、リアルタイムな環境認識の回復である。
本研究は,高速飛行時によく見られる照明変化によるドローンレースゲートの検出手法を提案する。
提案手法は,連続学習機能を備えた軽量ニューラルネットワークバックボーンに頼っている。
想定されたアプローチアマルガメートは、ゲートの位置座標、距離、方向を予測し、それらを密集したポーズタプルにカプセル化する。
包括的なテストの数は、多様で困難なシナリオ、特に可変照明条件に関わるシナリオに直面するこのアプローチの有効性を評価するのに役立ちます。
提案手法は照明の変動に直面する顕著なロバスト性を示し,その有効性を実証する。
In autonomous and mobile robotics, a principal challenge is resilient real-time environmental perception, particularly in situations characterized by unknown and dynamic elements, as exemplified in the context of autonomous drone racing. This study introduces a perception technique for detecting drone racing gates under illumination variations, which is common during high-speed drone flights. The proposed technique relies upon a lightweight neural network backbone augmented with capabilities for continual learning. The envisaged approach amalgamates predictions of the gates' positional coordinates, distance, and orientation, encapsulating them into a cohesive pose tuple. A comprehensive number of tests serve to underscore the efficacy of this approach in confronting diverse and challenging scenarios, specifically those involving variable lighting conditions. The proposed methodology exhibits notable robustness in the face of illumination variations, thereby substantiating its effectiveness. | 翻訳日:2024-05-03 17:33:31 公開日:2024-05-02 |
# 変圧器モデルを用いたマルチソース交通需要データ融合による都市駐車予測
Leverage Multi-source Traffic Demand Data Fusion with Transformer Model for Urban Parking Prediction ( http://arxiv.org/abs/2405.01055v1 ) ライセンス: Link先を確認 | Yin Huang, Yongqi Dong, Youhua Tang, Li Li, | (参考訳) 都市自家用車所有の増大は、都市駐車場の悪化を悪化させ、都市計画と管理に効果的な駐車場利用予測を必要としている。
しかし, 既存の予測手法では, 駐車量に関する空間的・時間的相関が欠如していることや, 一定のエリア内の類似駐車場間の流れパターンや相関が無視されているため, 予測精度が低い。
これらの課題に対処するために,複数ソース(例えば,地下鉄,バス,タクシーサービスなど)からの交通需要データと駐車場データを含む,空間時間深度学習とマルチソースデータ融合を統合した駐車予測フレームワークを提案する。
このフレームワークはTransformerを時空間深層学習モデルとして利用し、K平均クラスタリングを利用して駐車場クラスタゾーンを確立し、駐車場に接続された様々な交通モード(メトロ、バス、オンライン配車、タクシー)から交通需要特性を抽出・統合する。
実世界の実証データを用いて、駐車場利用率を予測するための機械学習、ディープラーニング、従来の統計モデルと比較し、提案手法の有効性を検証した。
実験結果から,提案したパイプラインでは,Mean Squared Error (MSE), Mean Absolute Error (MAE), Mean Absolute Percentage Error (MAPE) など,他のモデルよりも優れていることがわかった。
マルチソース要求データを時空間深層学習技術で融合させることで、ドライバーと都市計画者の両方により正確でタイムリーな情報を提供し、より効率的で持続可能な都市移動を促進できる駐車予測システムを開発できる可能性がある。
The escalation in urban private car ownership has worsened the urban parking predicament, necessitating effective parking availability prediction for urban planning and management. However, the existing prediction methods suffer from low prediction accuracy with the lack of spatial-temporal correlation features related to parking volume, and neglect of flow patterns and correlations between similar parking lots within certain areas. To address these challenges, this study proposes a parking availability prediction framework integrating spatial-temporal deep learning with multi-source data fusion, encompassing traffic demand data from multiple sources (e.g., metro, bus, taxi services), and parking lot data. The framework is based on the Transformer as the spatial-temporal deep learning model and leverages K-means clustering to establish parking cluster zones, extracting and integrating traffic demand characteristics from various transportation modes (i.e., metro, bus, online ride-hailing, and taxi) connected to parking lots. Real-world empirical data was used to verify the effectiveness of the proposed method compared with different machine learning, deep learning, and traditional statistical models for predicting parking availability. Experimental results reveal that, with the proposed pipeline, the developed Transformer model outperforms other models in terms of various metrics, e.g., Mean Squared Error (MSE), Mean Absolute Error (MAE), and Mean Absolute Percentage Error (MAPE). By fusing multi-source demanding data with spatial-temporal deep learning techniques, this approach offers the potential to develop parking availability prediction systems that furnish more accurate and timely information to both drivers and urban planners, thereby fostering more efficient and sustainable urban mobility. | 翻訳日:2024-05-03 17:33:31 公開日:2024-05-02 |
# 熱浴中における高密度双極子結合二相系
Dense dipole-dipole-coupled two-level systems in a thermal bath ( http://arxiv.org/abs/2405.01059v1 ) ライセンス: Link先を確認 | Mihai A. Macovei, | (参考訳) 環境サーモスタットを介して相互作用する2レベルエミッタの密度と双極子-双極子結合アンサンブルの量子力学について検討した。
静的双極子-双極子相互作用の強度は、遷移周波数よりも十分に強いが小さいと考えられている。
したがって、アンサンブルの量子力学の確立された熱平衡は双極子-双極子結合強度に関して記述される。
この過程で自然に散乱する光場の量子的性質を,エミッタの遷移周波数に比べて弱い熱浴および非無視可能な双極子-双極子カップリングに対して実証した。
さらに、集合的に放出される光子強度は、環境熱浴強度に応じて抑制または強化する。
The quantum dynamics of a dense and dipole-dipole coupled ensemble of two-level emitters interacting via their environmental thermostat is investigated. The static dipole-dipole interaction strengths are being considered strong enough but smaller than the transition frequency. Therefore, the established thermal equilibrium of ensemble's quantum dynamics is described with respect to the dipole-dipole coupling strengths. We have demonstrated the quantum nature of the spontaneously scattered light field in this process for weaker thermal baths as well as non-negligible dipole-dipole couplings compared to the emitter's transition frequency. Furthermore, the collectively emitted photon intensity suppresses or enhances depending on the environmental thermal baths intensities. | 翻訳日:2024-05-03 17:33:31 公開日:2024-05-02 |
# VIS-NIR(400-2499 nm)帯における土壌反射スペクトルシミュレーションのためのテキストベース生成深層学習モデル
A text-based, generative deep learning model for soil reflectance spectrum simulation in the VIS-NIR (400-2499 nm) bands ( http://arxiv.org/abs/2405.01060v1 ) ライセンス: Link先を確認 | Tong Lei, Brian N. Bailey, | (参考訳) 土壌反射スペクトルのシミュレーションは, 土壌-植物放射モデルおよび機械学習モデルの訓練には有用であるが, 土壌構造とその構成成分の複雑な関係は困難である。
そこで, 土壌特性入力に基づく土壌反射スペクトルシミュレーションのための完全データ駆動型土壌光学生成モデル(SOGM)を開発した。
このモデルは、17のデータセットから約180,000の土壌スペクトル-プロパティペアからなる広範囲なデータセットに基づいて訓練される。
二進ベクトル形式の数値やラベルだけでなく、土壌特性とその値を記述するテキストベースの入力から土壌反射スペクトルを生成する。
生成モデルは、入力特性の不完全なセットに基づいて出力スペクトルをシミュレートすることができる。
SOGMは拡散確率モデル(DDPM)に基づいている。
可視赤外域(VIS-NIR; 400 - 2499 nm)よりも短いスペクトルのギャップを埋めるスペクトルパディングモデルと、SOGMが予測した乾燥スペクトルから土壌反射スペクトルに含水の影響を推定する湿潤土壌スペクトルモデルである。
SOGMは、シミュレーションされた土壌と植物シーンの合成空中画像の生成を可能にするHelios 3Dプラントモデリングソフトウェアと組み合わせて、スケールアップされた。
また、PROSAILのようなリモートセンシング研究に用いられる土壌・植物放射線モデルと容易に統合することができる。
モデルトレーニングに含まれない新しいデータセットに対するSOGMの試験結果から、モデルが利用可能なプロパティ入力に基づいて妥当な土壌反射スペクトルを生成できることが判明した。
提示されたモデルは、https://github.com/GEMINI-Breeding/SOGM_soil_spectra_simulationで公開されている。
Simulating soil reflectance spectra is invaluable for soil-plant radiative modeling and training machine learning models, yet it is difficult as the intricate relationships between soil structure and its constituents. To address this, a fully data-driven soil optics generative model (SOGM) for simulation of soil reflectance spectra based on soil property inputs was developed. The model is trained on an extensive dataset comprising nearly 180,000 soil spectra-property pairs from 17 datasets. It generates soil reflectance spectra from text-based inputs describing soil properties and their values rather than only numerical values and labels in binary vector format. The generative model can simulate output spectra based on an incomplete set of input properties. SOGM is based on the denoising diffusion probabilistic model (DDPM). Two additional sub-models were also built to complement the SOGM: a spectral padding model that can fill in the gaps for spectra shorter than the full visible-near-infrared range (VIS-NIR; 400 to 2499 nm), and a wet soil spectra model that can estimate the effects of water content on soil reflectance spectra given the dry spectrum predicted by the SOGM. The SOGM was up-scaled by coupling with the Helios 3D plant modeling software, which allowed for generation of synthetic aerial images of simulated soil and plant scenes. It can also be easily integrated with soil-plant radiation model used for remote sensin research like PROSAIL. The testing results of the SOGM on new datasets that not included in model training proved that the model can generate reasonable soil reflectance spectra based on available property inputs. The presented models are openly accessible on: https://github.com/GEMINI-Breeding/SOGM_soil_spectra_simulation. | 翻訳日:2024-05-03 17:33:31 公開日:2024-05-02 |
# 限定的な感性属性を持つフェアレコメンデーション:分散ロバスト最適化アプローチ
Fair Recommendations with Limited Sensitive Attributes: A Distributionally Robust Optimization Approach ( http://arxiv.org/abs/2405.01063v1 ) ライセンス: Link先を確認 | Tianhao Shi, Yang Zhang, Jizhi Zhang, Fuli Feng, Xiangnan He, | (参考訳) 求職や電子商取引など,様々な分野においてレコメンダシステムは不可欠であるため,ユーザに対して適切なレコメンデーションを提供することが必須条件となる。
推薦システムにおける公平性を高める以前のアプローチでは、プライバシの懸念やそれらの属性をキャプチャする不十分な手段のために、すべての機密属性が利用可能になることが予想される。
実際には、これらのアプローチの有効性は限られており、機密属性情報に制限されたフェアネスの促進方法の検討を迫られている。
この目標に向けて、欠落した機密属性を再構築することが重要である。
しかし, 現実の属性復元問題や法的規制が複雑化しているため, 復元ミスは避けられない。
そこで我々は,再構成誤りに対して堅牢な公平な学習手法を追求する。
この目的のために、再構成された属性ではなく、欠落した属性の潜在確率分布に対する最悪の不公平性を最小化し、再構成エラーの影響を考慮に入れた分散ロバスト公正最適化(DRFO)を提案する。
提案手法は,限られた機密属性しかアクセスできない場合に,提案手法が推薦システムの公平性を効果的に確保できることを示すため,理論的かつ実証的な証拠を提供する。
As recommender systems are indispensable in various domains such as job searching and e-commerce, providing equitable recommendations to users with different sensitive attributes becomes an imperative requirement. Prior approaches for enhancing fairness in recommender systems presume the availability of all sensitive attributes, which can be difficult to obtain due to privacy concerns or inadequate means of capturing these attributes. In practice, the efficacy of these approaches is limited, pushing us to investigate ways of promoting fairness with limited sensitive attribute information. Toward this goal, it is important to reconstruct missing sensitive attributes. Nevertheless, reconstruction errors are inevitable due to the complexity of real-world sensitive attribute reconstruction problems and legal regulations. Thus, we pursue fair learning methods that are robust to reconstruction errors. To this end, we propose Distributionally Robust Fair Optimization (DRFO), which minimizes the worst-case unfairness over all potential probability distributions of missing sensitive attributes instead of the reconstructed one to account for the impact of the reconstruction errors. We provide theoretical and empirical evidence to demonstrate that our method can effectively ensure fairness in recommender systems when only limited sensitive attributes are accessible. | 翻訳日:2024-05-03 17:33:31 公開日:2024-05-02 |
# 自律型サイバー物理システムのシミュレーションに基づくテストのロードマップ:課題と今後の方向性
A Roadmap for Simulation-Based Testing of Autonomous Cyber-Physical Systems: Challenges and Future Direction ( http://arxiv.org/abs/2405.01064v1 ) ライセンス: Link先を確認 | Christian Birchler, Sajad Khatiri, Pooja Rani, Timo Kehrer, Sebastiano Panichella, | (参考訳) 無人航空機や自動運転車のような自律型サイバー物理システム(ACPS)の時代が進むにつれ、堅牢なテスト手法の需要が現実のシナリオにおけるそのようなシステムの採用を実現する鍵となる。
しかしながら、従来のソフトウェアテストパラダイムは、これらのシステムの安全性と信頼性を確保する上で、前例のない課題に直面している。
そこで本研究では,ACPSのシミュレーションに基づくテストの戦略的ロードマップを開拓し,特に自律システムに焦点を当てた。
本稿では,テスト自動化と品質保証に焦点をあて,ACPSの課題と障害について論じる。
シミュレーション環境でテストケースの具体的な定義を提供する一方で、新しいベンチマークアセットを作成する必要性と、ソフトウェアエンジニアリングコミュニティの自律システム用に明示的に調整された自動化ツールの開発も強調します。
この記事では、ソフトウェアエンジニアリングコミュニティが(プラクティス、期待される自動化、パラダイムの観点から)重視すべき、関連性のある、迫力のある問題を取り上げるだけでなく、それに取り組む方法を概説する。
シミュレーションに基づくACPSの試験・開発における諸分野と課題を概説することにより,今後の研究の方向性を示す。
As the era of autonomous cyber-physical systems (ACPSs), such as unmanned aerial vehicles and self-driving cars, unfolds, the demand for robust testing methodologies is key to realizing the adoption of such systems in real-world scenarios. However, traditional software testing paradigms face unprecedented challenges in ensuring the safety and reliability of these systems. In response, this paper pioneers a strategic roadmap for simulation-based testing of ACPSs, specifically focusing on autonomous systems. Our paper discusses the relevant challenges and obstacles of ACPSs, focusing on test automation and quality assurance, hence advocating for tailored solutions to address the unique demands of autonomous systems. While providing concrete definitions of test cases within simulation environments, we also accentuate the need to create new benchmark assets and the development of automated tools tailored explicitly for autonomous systems in the software engineering community. This paper not only highlights the relevant, pressing issues the software engineering community should focus on (in terms of practices, expected automation, and paradigms), but it also outlines ways to tackle them. By outlining the various domains and challenges of simulation-based testing/development for ACPSs, we provide directions for future research efforts. | 翻訳日:2024-05-03 17:33:31 公開日:2024-05-02 |
# MFDS-Net:グローバルセマンティック・詳細情報を用いたリモートセンシング変化検出のためのマルチスケール特徴深度監視ネットワーク
MFDS-Net: Multi-Scale Feature Depth-Supervised Network for Remote Sensing Change Detection with Global Semantic and Detail Information ( http://arxiv.org/abs/2405.01065v1 ) ライセンス: Link先を確認 | Zhenyang Huang, Zhaojin Fu, Song Jintao, Genji Yuan, Jinjiang Li, | (参考訳) コンピュータビジョンとリモートセンシングの分野における学際的分野としての変革検出は,近年広く注目されている。
社会の急速な発展により、リモートセンシング衛星によって捉えられた地理情報は、より速く、より複雑に変化しており、これは間違いなくより高い課題をもたらし、変化検出タスクの価値を強調している。
MFDS-Net:MFDS-Net:MFDS-Net:MFDS-Net:MFDS-Net:MFDS-Net:MFDS-Net:MFDS-Net:MFDS-Net:MFDS-Net:MFDS-Net:M FDS-Net:MFDS-Net。
本研究の目的は,ResNet_34 をバックボーンネットワークとして改良し,従来の畳み込みの代替として特徴抽出と DO-Conv を行い,特徴情報の関連性に着目し,より良いトレーニング結果を得ることである。
グローバルな視点から高レベルの意味情報の処理を強化するためのグローバルセマンティック・エンハンスメント・モジュール(GSEM)を提案する。
差分特徴統合モジュール(DFIM)は,異なる深度特徴情報の融合を強化し,学習と差分特徴の抽出を実現するために提案される。
ネットワーク全体が、深い監視メカニズムを使用してトレーニングされ、最適化される。
MFDS-Netの実験結果は、現在の主流変更検出ネットワークを上回ります。
LEVIRデータセットでは、F1スコアが91.589、IoUが84.483、スコアがF1:92.384、IoUが86.807、GZ-CDデータセットではF1:86.377、IoUが76.021であった。
コードはhttps://github.com/AOZAKIiii/MFDS-Netで入手できる。
Change detection as an interdisciplinary discipline in the field of computer vision and remote sensing at present has been receiving extensive attention and research. Due to the rapid development of society, the geographic information captured by remote sensing satellites is changing faster and more complex, which undoubtedly poses a higher challenge and highlights the value of change detection tasks. We propose MFDS-Net: Multi-Scale Feature Depth-Supervised Network for Remote Sensing Change Detection with Global Semantic and Detail Information (MFDS-Net) with the aim of achieving a more refined description of changing buildings as well as geographic information, enhancing the localisation of changing targets and the acquisition of weak features. To achieve the research objectives, we use a modified ResNet_34 as backbone network to perform feature extraction and DO-Conv as an alternative to traditional convolution to better focus on the association between feature information and to obtain better training results. We propose the Global Semantic Enhancement Module (GSEM) to enhance the processing of high-level semantic information from a global perspective. The Differential Feature Integration Module (DFIM) is proposed to strengthen the fusion of different depth feature information, achieving learning and extraction of differential features. The entire network is trained and optimized using a deep supervision mechanism. The experimental outcomes of MFDS-Net surpass those of current mainstream change detection networks. On the LEVIR dataset, it achieved an F1 score of 91.589 and IoU of 84.483, on the WHU dataset, the scores were F1: 92.384 and IoU: 86.807, and on the GZ-CD dataset, the scores were F1: 86.377 and IoU: 76.021. The code is available at https://github.com/AOZAKIiii/MFDS-Net | 翻訳日:2024-05-03 17:23:40 公開日:2024-05-02 |
# HandSSCA:RGB画像からのステートスペースチャネル注意による3Dハンドメッシュ再構築
HandSSCA: 3D Hand Mesh Reconstruction with State Space Channel Attention from RGB images ( http://arxiv.org/abs/2405.01066v1 ) ライセンス: Link先を確認 | Zixun Jiao, Xihan Wang, Quanli Gao, | (参考訳) 単一のRGB画像から手メッシュを再構築するのは難しい作業です。
これまでのほとんどの研究は、さらなる情報を導入し、3D再構成結果を改善するための注意機構を導入しようとしたが、計算の複雑さは増大した。
この結果から,計算効率を向上しつつ,より簡潔なアーキテクチャを提案することができた。
本研究では,手動ポーズ推定の分野に状態空間モデリングを組み込んだ,シンプルで効果的な3次元手動メッシュ再構成ネットワークHandSSCAを提案する。
ネットワーク上では,有効な感覚場を拡張し,空間次元における手の特徴を抽出し,チャネル次元における手動領域の特徴を増強する,新しい状態空間アテンションモジュールを設計した。
この設計は、完全で詳細なハンドメッシュを再構築するのに役立ちます。
FREIHAND, DEXYCB, HO3Dなど, 難易度の高い手動オクルージョンを特徴とするよく知られたデータセットを用いて行った大規模な実験により, 提案したHandSSCAは, 最小パラメータ数を維持しながら, 最先端の性能を達成できることを示した。
Reconstructing a hand mesh from a single RGB image is a challenging task because hands are often occluded by objects. Most previous works attempted to introduce more additional information and adopt attention mechanisms to improve 3D reconstruction results, but it would increased computational complexity. This observation prompts us to propose a new and concise architecture while improving computational efficiency. In this work, we propose a simple and effective 3D hand mesh reconstruction network HandSSCA, which is the first to incorporate state space modeling into the field of hand pose estimation. In the network, we have designed a novel state space channel attention module that extends the effective sensory field, extracts hand features in the spatial dimension, and enhances hand regional features in the channel dimension. This design helps to reconstruct a complete and detailed hand mesh. Extensive experiments conducted on well-known datasets featuring challenging hand-object occlusions (such as FREIHAND, DEXYCB, and HO3D) demonstrate that our proposed HandSSCA achieves state-of-the-art performance while maintaining a minimal parameter count. | 翻訳日:2024-05-03 17:23:40 公開日:2024-05-02 |
# AB-Training:分散低ランク学習のためのコミュニケーション効率の良いアプローチ
AB-Training: A Communication-Efficient Approach for Distributed Low-Rank Learning ( http://arxiv.org/abs/2405.01067v1 ) ライセンス: Link先を確認 | Daniel Coquelin, Katherina Flügel, Marie Weiel, Nicholas Kiefer, Muhammed Öz, Charlotte Debus, Achim Streit, Markus Götz, | (参考訳) 通信ボトルネックは、分散ニューラルネットワークトレーニング、特に分散メモリコンピューティングクラスタのスケーラビリティを妨げる。
この通信オーバヘッドを大幅に低減するために,ウェイト行列を低ランク表現に分解し,独立したグループベーストレーニングを利用する新しいデータ並列トレーニング手法であるABトレーニングを導入する。
このアプローチは、複数のスケーリングシナリオにおけるネットワークトラフィックを50%削減し、通信制約のあるシステムのトレーニング可能性を高めます。
CIFAR-10のトレーニング中に44.14 : 1圧縮比を達成し、競争精度を維持するとともに、VGG16のようなモデルの一般化を向上する。
有望なことだが、我々の実験は、低ランクの訓練制度においても大きなバッチ効果が依然として課題であることを示した。
Communication bottlenecks hinder the scalability of distributed neural network training, particularly on distributed-memory computing clusters. To significantly reduce this communication overhead, we introduce AB-training, a novel data-parallel training method that decomposes weight matrices into low-rank representations and utilizes independent group-based training. This approach consistently reduces network traffic by 50% across multiple scaling scenarios, increasing the training potential on communication-constrained systems. Our method exhibits regularization effects at smaller scales, leading to improved generalization for models like VGG16, while achieving a remarkable 44.14 : 1 compression ratio during training on CIFAR-10 and maintaining competitive accuracy. Albeit promising, our experiments reveal that large batch effects remain a challenge even in low-rank training regimes. | 翻訳日:2024-05-03 17:23:40 公開日:2024-05-02 |
# Callico: ユビキタスなオープンソースドキュメンテーションイメージアノテーションプラットフォーム
Callico: a Versatile Open-Source Document Image Annotation Platform ( http://arxiv.org/abs/2405.01071v1 ) ライセンス: Link先を確認 | Christopher Kermorvant, Eva Bardou, Manon Blanco, Bastien Abadie, | (参考訳) 本稿では,文書認識プロジェクトにおけるアノテーションプロセスの簡略化を目的とした,WebベースのオープンソースプラットフォームであるCalicoについて述べる。
機械学習とディープラーニングにおけるデータ中心型AIへの移行は、高品質なデータの重要性と、そのようなデータを生成する効率と効率を高めるための専門化されたツールの必要性を強調している。
文書画像のアノテーションとして、Calicoはデジタル化された文書の二重表示アノテーションを提供し、スキャンされた画像とテキストの同時可視化とアノテーションを可能にする。
この機能は、OCRおよびHTRモデルのトレーニング、ドキュメントレイアウト解析、名前付きエンティティ認識、フォームベースのキーバリューアノテーション、または要素グループ化による階層構造アノテーションにとって重要である。
このプラットフォームは、オープンソース開発へのコミットメント、高品質のコード標準、Dockerによるデプロイの容易さを背景とした、多彩な機能を備えた共同アノテーションをサポートする。
ベルフォート市立登録簿の書き起こし、フランス第2次世界大戦の捕虜のICRCへの索引付け、ソックフェイスプロジェクトの国勢調査リストからの個人情報の抽出など、図解的なユースケースは、カリコの応用性と実用性を実証している。
This paper presents Callico, a web-based open source platform designed to simplify the annotation process in document recognition projects. The move towards data-centric AI in machine learning and deep learning underscores the importance of high-quality data, and the need for specialised tools that increase the efficiency and effectiveness of generating such data. For document image annotation, Callico offers dual-display annotation for digitised documents, enabling simultaneous visualisation and annotation of scanned images and text. This capability is critical for OCR and HTR model training, document layout analysis, named entity recognition, form-based key value annotation or hierarchical structure annotation with element grouping. The platform supports collaborative annotation with versatile features backed by a commitment to open source development, high-quality code standards and easy deployment via Docker. Illustrative use cases - including the transcription of the Belfort municipal registers, the indexing of French World War II prisoners for the ICRC, and the extraction of personal information from the Socface project's census lists - demonstrate Callico's applicability and utility. | 翻訳日:2024-05-03 17:23:40 公開日:2024-05-02 |
# 自動運転車のフェデレーション学習に対する攻撃
Poisoning Attacks on Federated Learning for Autonomous Driving ( http://arxiv.org/abs/2405.01073v1 ) ライセンス: Link先を確認 | Sonakshi Garg, Hugo Jönsson, Gustav Kalander, Axel Nilsson, Bhhaanu Pirange, Viktor Valadi, Johan Östman, | (参考訳) フェデレートラーニング(FL)は分散学習パラダイムであり、データを秘密にしながらモデルを協調的にトレーニングすることを可能にする。
自動運転では、データストレージコストを削減し、帯域幅の要件を減らし、学習を加速する可能性がある。
しかし、FLは毒による攻撃を受けやすい。
本稿では,FLStealth と Off-Track Attack (OTA) という,自律走行における回帰作業に適したFLに対する2つの新しい中毒攻撃を紹介する。
未ターゲットの攻撃であるFLStealthは、良心を見せながらグローバルモデルのパフォーマンスを低下させるモデルアップデートの提供を目標としている。
一方、OTAは特定のトリガに晒された場合のグローバルモデルの振る舞いを変えることを目的とした攻撃である。
本研究は,車両軌道予測の課題に関する総合的な実験を行うことにより,攻撃の有効性を実証する。
特に,FLStealthは,攻撃対象外である5種類の攻撃に対して,サーバが使用した防御策を回避し,最も成功していることを示す。
OTAでは、攻撃を緩和するための共通防衛戦略が欠如していることを示し、自動運転のためのFL内の標的攻撃に対する新たな防御機構の必要性を強調した。
Federated Learning (FL) is a decentralized learning paradigm, enabling parties to collaboratively train models while keeping their data confidential. Within autonomous driving, it brings the potential of reducing data storage costs, reducing bandwidth requirements, and to accelerate the learning. FL is, however, susceptible to poisoning attacks. In this paper, we introduce two novel poisoning attacks on FL tailored to regression tasks within autonomous driving: FLStealth and Off-Track Attack (OTA). FLStealth, an untargeted attack, aims at providing model updates that deteriorate the global model performance while appearing benign. OTA, on the other hand, is a targeted attack with the objective to change the global model's behavior when exposed to a certain trigger. We demonstrate the effectiveness of our attacks by conducting comprehensive experiments pertaining to the task of vehicle trajectory prediction. In particular, we show that, among five different untargeted attacks, FLStealth is the most successful at bypassing the considered defenses employed by the server. For OTA, we demonstrate the inability of common defense strategies to mitigate the attack, highlighting the critical need for new defensive mechanisms against targeted attacks within FL for autonomous driving. | 翻訳日:2024-05-03 17:23:40 公開日:2024-05-02 |
# 自発的ユニタリティ違反モデルに対するジェネリックシグナリングフリーホワイトノイズ限界
Generic signalling-free white-noise limit for models of spontaneous unitarity violation ( http://arxiv.org/abs/2405.01077v1 ) ライセンス: Link先を確認 | Aritro Mukherjee, Jasper van Wezel, | (参考訳) 客観的崩壊理論は、微視的量子力学と巨視的物体の射影的進化の間の補間によって量子測定問題を解決するシュリンガー方程式の修正を提案する。
量子力学における自発対称性の平衡記述からユニタリティの自発的違反までを拡張した客観的崩壊理論は, 初期2状態重畳に適用した場合に, 物理的ホワイトノイズ限界を持つことを示した。
ここでは、任意の初期状態に適用可能な自発的ユニタリティ違反モデルに対して、一般的な物理的白色雑音制限が存在することを示す。
この限界において、ボルン則統計の出現はゆらぎ-散逸関係によって強制され、アンサンブル平均確率密度は、線形量子半群に対応するGKSLマスター方程式に従っており、超光信号が存在しないことを保証している。
Objective collapse theories propose modifications to Schr\"odinger's equation that solve the quantum measurement problem by interpolating between microscopic quantum dynamics and projective evolution of macroscopic objects. Objective collapse theories extending the equilibrium description of spontaneous symmetry breaking to spontaneous violations of unitarity in quantum dynamics were recently shown to possess a physical white noise limit when applied to initial two-state superpositions. Here, we show the existence of a generic physical white noise limit for models of spontaneous unitarity violation applicable to any initial state. We show that in this limit, the emergence of Born rule statistics is enforced by a fluctuation-dissipation relation, and that the ensemble averaged probability densities follow the GKSL master equation corresponding to a linear quantum semi-group, guaranteeing the absence of superluminal signalling. | 翻訳日:2024-05-03 17:23:40 公開日:2024-05-02 |
# KDPrint: 標準化によるKeystroke Dynamics-to-Image Encodingを用いたパッシブ認証
KDPrint: Passive Authentication using Keystroke Dynamics-to-Image Encoding via Standardization ( http://arxiv.org/abs/2405.01080v1 ) ライセンス: Link先を確認 | Yooshin Kim, Namhyeok Kwon, Donghoon Shin, | (参考訳) 現代のモバイルユーザ認証システムでは,スマートフォンの普及により,ユーザの正当性を検証することが最重要である。
指紋認証と顔認識はモバイル認証に広く使われているが、生体認証が複数回試みて失敗した場合、PINベースの認証は依然としてフォールバックオプションとして使用されている。
その結果、生体認証の手法が失敗した場合、PINを標的とする攻撃に対して、システムは影響を受けないままである。
これらの懸念に応えて、2要素認証が提案されている。
これらの課題に対処するため,本研究では,キーストロークデータ(プライマリ認証手法の副産物)を背景ユーザ認証に用いる受動的認証システムを提案する。
さらに、キーストロークデータの時間的ダイナミクスを捉え、ディープラーニングモデルの性能制限を克服する新しい画像符号化手法を提案する。
さらに,画像表現に適した行動バイオメトリック特徴を選択する手法を提案する。
結果として得られた画像は、ユーザのPIN入力パターンを描写し、高い精度でセカンダリチャネルを通じてユーザを識別するモデルの能力を高める。
実験の結果,提案手法は情報容量の面で既存の手法を超越していることがわかった。
先行研究から得られた特徴を取り入れた自己収集データセット実験において,提案手法はEERの6.7\%を達成し,既存手法の47.7\%を上回った。
さらに, 画像解析では, 94.4\%のTrue Acceptance Rate (TAR) を, 17ユーザに対してFalse Acceptance Rate (FAR) を8\%とした。
In contemporary mobile user authentication systems, verifying user legitimacy has become paramount due to the widespread use of smartphones. Although fingerprint and facial recognition are widely used for mobile authentication, PIN-based authentication is still employed as a fallback option if biometric authentication fails after multiple attempts. Consequently, the system remains susceptible to attacks targeting the PIN when biometric methods are unsuccessful. In response to these concerns, two-factor authentication has been proposed, albeit with the caveat of increased user effort. To address these challenges, this paper proposes a passive authentication system that utilizes keystroke data, a byproduct of primary authentication methods, for background user authentication. Additionally, we introduce a novel image encoding technique to capture the temporal dynamics of keystroke data, overcoming the performance limitations of deep learning models. Furthermore, we present a methodology for selecting suitable behavioral biometric features for image representation. The resulting images, depicting the user's PIN input patterns, enhance the model's ability to uniquely identify users through the secondary channel with high accuracy. Experimental results demonstrate that the proposed imaging approach surpasses existing methods in terms of information capacity. In self-collected dataset experiments, incorporating features from prior research, our method achieved an Equal Error Rate (EER) of 6.7\%, outperforming the existing method's 47.7\%. Moreover, our imaging technique attained a True Acceptance Rate (TAR) of 94.4\% and a False Acceptance Rate (FAR) of 8\% for 17 users. | 翻訳日:2024-05-03 17:23:40 公開日:2024-05-02 |
# MCMS: Blind Motion Deblurringのためのマルチカテゴリ情報とマルチスケールStripeアテンション
MCMS: Multi-Category Information and Multi-Scale Stripe Attention for Blind Motion Deblurring ( http://arxiv.org/abs/2405.01083v1 ) ライセンス: Link先を確認 | Nianzu Qiao, Lamei Di, Changyin Sun, | (参考訳) 近年,深層学習に基づくモーションデブロワー技術が著しく進歩している。
しかし、この手法はぼやけた画像の固有の欠陥を慎重に調べるものではない。
例えば、低エッジと構造情報はぼやけた画像の特徴である。
ぼやけた画像の高周波成分はエッジ情報であり、低周波成分は構造情報である。
マルチカテゴリ情報とマルチスケールストリップアテンション機構に基づくブラインドモーションデブロアリングネットワーク(MCMS)を提案する。
高周波および低周波成分のそれぞれの特性を考慮し、3段エンコーダデコーダモデルを設計する。
具体的には、第1段は、高周波成分の特徴の抽出に焦点を当て、第2段は、低周波成分の特徴の抽出に集中し、第3段は、抽出された低周波成分の特徴、抽出された高周波成分の特徴、および、最終クリア画像の復元のために原ぼけ画像を統合する。
その結果、このモデルは、高周波成分のエッジ情報と低周波成分の構造情報を融合することにより、動作不良を効果的に改善する。
さらに,多種多様な特徴のよりリッチで3次元的,包括的利用を実現するために,グループ化された特徴融合技術を開発した。
次に、画像の異方性とマルチスケール情報を効果的に組み合わせたマルチスケールストリップアテンション機構(MSSA)を設計し、特徴表現におけるディープモデルの性能を大幅に向上させる。
各種データセットの大規模比較研究により,本論文の戦略が最近公表した指標よりも優れていることが示された。
Deep learning-based motion deblurring techniques have advanced significantly in recent years. This class of techniques, however, does not carefully examine the inherent flaws in blurry images. For instance, low edge and structural information are traits of blurry images. The high-frequency component of blurry images is edge information, and the low-frequency component is structure information. A blind motion deblurring network (MCMS) based on multi-category information and multi-scale stripe attention mechanism is proposed. Given the respective characteristics of the high-frequency and low-frequency components, a three-stage encoder-decoder model is designed. Specifically, the first stage focuses on extracting the features of the high-frequency component, the second stage concentrates on extracting the features of the low-frequency component, and the third stage integrates the extracted low-frequency component features, the extracted high-frequency component features, and the original blurred image in order to recover the final clear image. As a result, the model effectively improves motion deblurring by fusing the edge information of the high-frequency component and the structural information of the low-frequency component. In addition, a grouped feature fusion technique is developed so as to achieve richer, more three-dimensional and comprehensive utilization of various types of features at a deep level. Next, a multi-scale stripe attention mechanism (MSSA) is designed, which effectively combines the anisotropy and multi-scale information of the image, a move that significantly enhances the capability of the deep model in feature representation. Large-scale comparative studies on various datasets show that the strategy in this paper works better than the recently published measures. | 翻訳日:2024-05-03 17:23:40 公開日:2024-05-02 |
# グローバルローカル情報合成に基づく単一画像超解法
Single Image Super-Resolution Based on Global-Local Information Synergy ( http://arxiv.org/abs/2405.01085v1 ) ライセンス: Link先を確認 | Nianzu Qiao, Lamei Di, Changyin Sun, | (参考訳) 画像超解法はいくつか存在するが、それでも多くの課題に直面している。
CNNベースのアルゴリズムは、計算の複雑さが減っているにもかかわらず、精度を改善する必要がある。
Transformerベースのアルゴリズムは精度が高いが、その超高計算複雑性により、実用アプリケーションでは受け入れられ難い。
本稿では,既存の課題を克服するために,新しい超解像再構成アルゴリズムを提案する。
このアルゴリズムは,低複雑性を維持しながら,一意の設計により精度を著しく向上させる。
このアルゴリズムの中核は、巧妙に設計されたグローバルローカル情報抽出モジュールとベーシックブロックモジュールにある。
グローバル・ローカル情報抽出モジュールは,グローバル・ローカル・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメー
実験結果から,本論文で提案するアルゴリズムの総合的な性能は最適であり,超解像再構成の分野において,効率的かつ実用的な新しい解法を提供する。
Although several image super-resolution solutions exist, they still face many challenges. CNN-based algorithms, despite the reduction in computational complexity, still need to improve their accuracy. While Transformer-based algorithms have higher accuracy, their ultra-high computational complexity makes them difficult to be accepted in practical applications. To overcome the existing challenges, a novel super-resolution reconstruction algorithm is proposed in this paper. The algorithm achieves a significant increase in accuracy through a unique design while maintaining a low complexity. The core of the algorithm lies in its cleverly designed Global-Local Information Extraction Module and Basic Block Module. By combining global and local information, the Global-Local Information Extraction Module aims to understand the image content more comprehensively so as to recover the global structure and local details in the image more accurately, which provides rich information support for the subsequent reconstruction process. Experimental results show that the comprehensive performance of the algorithm proposed in this paper is optimal, providing an efficient and practical new solution in the field of super-resolution reconstruction. | 翻訳日:2024-05-03 17:23:40 公開日:2024-05-02 |
# プログラマブルフォトニック量子プロセッサにおける連続可変量子カーネル法
Continuous-variable quantum kernel method on a programmable photonic quantum processor ( http://arxiv.org/abs/2405.01086v1 ) ライセンス: Link先を確認 | Keitaro Anai, Shion Ikehara, Yoshichika Yano, Daichi Okuno, Shuntaro Takeda, | (参考訳) 様々な量子機械学習(QML)アルゴリズムの中で、量子カーネル法が特に注目されているのは、ノイズの多い中間スケールの量子デバイスとの互換性と、量子優位性を達成する可能性である。
この方法は、高次元ヒルベルト空間において、データを非線形に量子状態にマッピングすることで分類と回帰を行う。
これまでのところ、量子カーネル法は量子ビットベースのシステムでしか実装されていないが、連続可変(CV)システムは無限次元ヒルベルト空間を利用することで優れた計算能力を提供できる可能性がある。
本稿では,プログラマブルフォトニック量子プロセッサ上でのCV量子カーネル法による分類タスクの実装について述べる。
CV量子カーネル法は,実験的不完全条件下であっても,古典的カーネルに匹敵する高い精度で,複数のデータセットを頑健に分類できることを実験的に証明した。
このデモンストレーションは、QMLのためのCV量子システムの実用性に光を当て、他のCVQMLアルゴリズムにおけるさらなる研究を刺激する。
Among various quantum machine learning (QML) algorithms, the quantum kernel method has especially attracted attention due to its compatibility with noisy intermediate-scale quantum devices and its potential to achieve quantum advantage. This method performs classification and regression by nonlinearly mapping data into quantum states in a higher dimensional Hilbert space. Thus far, the quantum kernel method has been implemented only on qubit-based systems, but continuous-variable (CV) systems can potentially offer superior computational power by utilizing its infinite-dimensional Hilbert space. Here, we demonstrate the implementation of the classification task with the CV quantum kernel method on a programmable photonic quantum processor. We experimentally prove that the CV quantum kernel method successfully classifies several datasets robustly even under the experimental imperfections, with high accuracies comparable to the classical kernel. This demonstration sheds light on the utility of CV quantum systems for QML and should stimulate further study in other CV QML algorithms. | 翻訳日:2024-05-03 17:23:40 公開日:2024-05-02 |
# Type2Branch: 注意機構とset2set損失を持つデュアルブランチアーキテクチャに基づくキーストロークバイオメトリックス
Type2Branch: Keystroke Biometrics based on a Dual-branch Architecture with Attention Mechanisms and Set2set Loss ( http://arxiv.org/abs/2405.01088v1 ) ライセンス: Link先を確認 | Nahuel González, Giuseppe Stragapede, Rubén Vera-Rodriguez, Rubén Tolosana, | (参考訳) 2021年、TypeNetの先駆的な研究により、キーストロークのダイナミックス検証は、パフォーマンスの低下を最小限に抑えながら数十万のユーザまで拡張可能であることが示された。
近年、KVC-onGoingコンペティションは、アルゴリズムの公正性を考慮したキーストローク力学検証システムの評価のためのオープンで堅牢な実験的プロトコルを提供している。
この記事では、デスクトップとモバイルの両方のシナリオにおいて、KVC-onGoingで最低エラー率を達成したモデルとテクニックであるType2Branchについて説明する。
提案された2ブランチの斬新な側面には、以下のものがある。
一 一般人口からのユーザ行動の逸脱を強調した合成タイミング特徴
二 反復経路及び畳み込み経路を各種の注意機構と組み合わせた二重分岐構造
三 埋設空間のグローバル構造を捕捉するSet2setという新たな損失関数
四 困難を増す訓練カリキュラム
提案したType2Branchは,約50文字をタイプした被験者毎の5つの登録サンプルを考慮し,デスクトップシナリオとモバイルシナリオでそれぞれ15,000名,5000名の評価セットに対して平均0.77%,1.03%のEERで最先端のパフォーマンスを達成している。
すべての被験者に統一されたグローバルしきい値があり、EERはデスクトップが3.25%、モバイルが3.61%であり、以前のアプローチよりも大幅に差がある。
In 2021, the pioneering work on TypeNet showed that keystroke dynamics verification could scale to hundreds of thousands of users with minimal performance degradation. Recently, the KVC-onGoing competition has provided an open and robust experimental protocol for evaluating keystroke dynamics verification systems of such scale, including considerations of algorithmic fairness. This article describes Type2Branch, the model and techniques that achieved the lowest error rates at the KVC-onGoing, in both desktop and mobile scenarios. The novelty aspects of the proposed Type2Branch include: i) synthesized timing features emphasizing user behavior deviation from the general population, ii) a dual-branch architecture combining recurrent and convolutional paths with various attention mechanisms, iii) a new loss function named Set2set that captures the global structure of the embedding space, and iv) a training curriculum of increasing difficulty. Considering five enrollment samples per subject of approximately 50 characters typed, the proposed Type2Branch achieves state-of-the-art performance with mean per-subject EERs of 0.77% and 1.03% on evaluation sets of respectively 15,000 and 5,000 subjects for desktop and mobile scenarios. With a uniform global threshold for all subjects, the EERs are 3.25% for desktop and 3.61% for mobile, outperforming previous approaches by a significant margin. | 翻訳日:2024-05-03 17:23:40 公開日:2024-05-02 |
# 大規模言語モデルによる行動から対象状態を学ぶ
Learning Object States from Actions via Large Language Models ( http://arxiv.org/abs/2405.01090v1 ) ライセンス: Link先を確認 | Masatoshi Tateno, Takuma Yagi, Ryosuke Furuta, Yoichi Sato, | (参考訳) ビデオにおける物体の状態の存在を一時的に特定することは、行動や物体を超えた人間の活動を理解する上で非常に重要である。
このタスクは、オブジェクト状態固有のあいまいさと多様性のために、トレーニングデータの欠如に悩まされている。
徹底的なアノテーションを避けるために、指導ビデオで書き起こされたナレーションから学ぶことは興味深い。
しかしながら、オブジェクト状態は行動よりもナレーションで記述されることが少なく、効果的に表現できない。
本研究では,大規模言語モデル(LLM)を用いて,ナレーションに含まれる行動情報からオブジェクトの状態情報を抽出することを提案する。
我々の観察では、LLMにはアクションと結果のオブジェクト状態の関係に関する世界的知識が含まれており、過去のアクションシーケンスからオブジェクト状態の存在を推測することができる。
提案する LLM ベースのフレームワークは,任意のカテゴリに対して有効な擬似オブジェクト状態ラベルを生成する柔軟性を提供する。
我々は,60のオブジェクト状態カテゴリの高密度な時間的アノテーションを含むMOST(Multiple Object State Transition)データセットを用いて,本手法の評価を行った。
生成した擬似ラベルによってトレーニングされたモデルでは,強いゼロショット視覚言語モデルに対して29%以上のmAPの改善が見られ,LLMによる動作から対象状態情報を明示的に抽出する効果が示された。
Temporally localizing the presence of object states in videos is crucial in understanding human activities beyond actions and objects. This task has suffered from a lack of training data due to object states' inherent ambiguity and variety. To avoid exhaustive annotation, learning from transcribed narrations in instructional videos would be intriguing. However, object states are less described in narrations compared to actions, making them less effective. In this work, we propose to extract the object state information from action information included in narrations, using large language models (LLMs). Our observation is that LLMs include world knowledge on the relationship between actions and their resulting object states, and can infer the presence of object states from past action sequences. The proposed LLM-based framework offers flexibility to generate plausible pseudo-object state labels against arbitrary categories. We evaluate our method with our newly collected Multiple Object States Transition (MOST) dataset including dense temporal annotation of 60 object state categories. Our model trained by the generated pseudo-labels demonstrates significant improvement of over 29% in mAP against strong zero-shot vision-language models, showing the effectiveness of explicitly extracting object state information from actions through LLMs. | 翻訳日:2024-05-03 17:23:40 公開日:2024-05-02 |
# 駆動散逸量子系における乗算可能性の超量子化則
Superquantization rule for multistability in driven-dissipative quantum systems ( http://arxiv.org/abs/2405.01093v1 ) ライセンス: Link先を確認 | Nikolett Német, Árpád Kurkó, András Vukics, Péter Domokos, | (参考訳) 本稿では、汎用駆動散逸量子系の頑健な定常状態を示す超量子化規則を提案する。
簡単な直感的な画像の中で、quditと相互作用する駆動キャビティモードの多重性を明らかにする。
超量子化手法の精度は、基礎となる量子モデルの数値シミュレーションによって確認される。
クディットがキャビティに均一に結合した複数の2レベルエミッタからなる場合、超量子化された定常状態と単一エミッタ崩壊のロバスト性を実証する。
We present a superquantization rule which indicates the possible robust stationary states of a generic driven-dissipative quantum system. Multistability in a driven cavity mode interacting with a qudit is revealed in this way within a simple intuitive picture. The accuracy of the superquantization approach is confirmed by numerical simulations of the underlying quantum model. In the case when the qudit is composed of several two-level emitters coupled homogeneously to the cavity, we demonstrate the robustness of the superquantized steady states to single-emitter decay. | 翻訳日:2024-05-03 17:23:40 公開日:2024-05-02 |
# ハイパースペクトル画像分類のための異種試料間の変圧器融合
Transformers Fusion across Disjoint Samples for Hyperspectral Image Classification ( http://arxiv.org/abs/2405.01095v1 ) ライセンス: Link先を確認 | Muhammad Ahmad, Manuel Mazzara, Salvatore Distifano, | (参考訳) 3D Swin Transformer(3D-ST)はその階層的注意とウィンドウベースの処理で知られ、画像内の複雑な空間関係を捉えるのに優れている。
一方、空間スペクトル変換器(SST)は、自己注意機構を通じて長距離依存をモデル化する。
そこで本稿では,ハイパースペクトル画像(HSI)の分類性能を大幅に向上させるために,これら2つのトランスフォーマーの注意融合方式を提案する。
このアプローチを分離しているのは、両方のアーキテクチャからの注意機構の統合に重点を置いていることです。
この統合は、空間情報とスペクトル情報のモデリングを洗練させるだけでなく、より正確で正確な分類結果の達成にも貢献する。
ベンチマークHSIデータセットの実験と評価は、相反するトレーニング、検証、テストサンプルを採用することの重要性を強調している。
その結果,従来の手法やトランスフォーマーよりも優れていることが示され,融合手法の有効性が示された。
解離サンプルを組み込むことにより,提案手法の堅牢性と信頼性が向上し,ハイパースペクトル画像分類の進歩の可能性を強調した。
3D Swin Transformer (3D-ST) known for its hierarchical attention and window-based processing, excels in capturing intricate spatial relationships within images. Spatial-spectral Transformer (SST), meanwhile, specializes in modeling long-range dependencies through self-attention mechanisms. Therefore, this paper introduces a novel method: an attentional fusion of these two transformers to significantly enhance the classification performance of Hyperspectral Images (HSIs). What sets this approach apart is its emphasis on the integration of attentional mechanisms from both architectures. This integration not only refines the modeling of spatial and spectral information but also contributes to achieving more precise and accurate classification results. The experimentation and evaluation of benchmark HSI datasets underscore the importance of employing disjoint training, validation, and test samples. The results demonstrate the effectiveness of the fusion approach, showcasing its superiority over traditional methods and individual transformers. Incorporating disjoint samples enhances the robustness and reliability of the proposed methodology, emphasizing its potential for advancing hyperspectral image classification. | 翻訳日:2024-05-03 17:23:40 公開日:2024-05-02 |
# ウィスルではなくリスクを鎮める: ウィスルブロワー再同定のリスクを緩和する半自動テキスト衛生ツール
Silencing the Risk, Not the Whistle: A Semi-automated Text Sanitization Tool for Mitigating the Risk of Whistleblower Re-Identification ( http://arxiv.org/abs/2405.01097v1 ) ライセンス: Link先を確認 | Dimitri Staufer, Frank Pallas, Bettina Berendt, | (参考訳) ホイッスルブローイングは、公共部門と民間部門の両方で透明性と説明責任を確保するために不可欠である。
しかし、(潜在的に)内部告発者は、匿名で報告しても、しばしば報復を恐れたり、直面する。
公開の具体的な内容と、それらの異なる書き込みスタイルは、それらをソースとして再識別することができる。
EUのWBDのような法的措置は、その範囲と有効性に制限されている。
したがって, 再同定防止のための計算手法は, 内部告発者の前進を促す重要な補完ツールである。
しかし、現在のテキストのサニタイズツールは、一大のアプローチを踏襲し、匿名性の過度に制限されたビューを取る。
彼らは、典型的なハイリスクな単語(人名やNEラベルなど)とそれらの組み合わせをプレースホルダーに置き換えることで、識別リスクを軽減することを目指している。
しかし、このようなアプローチは、筆跡などテキストの特徴において、さらなる再識別の可能性を無視しているため、whiblowingのシナリオには不十分である。
そこで我々は,そのリスクと有用性を評価するために,whithblowerを含むテキストの書き直しのための新しい分類と緩和戦略を提案し,実装し,評価する。
原型的ツールでは,単語/項レベルでのリスクを半自動評価し,リスク適応型匿名化手法を適用し,文法的に不整合で適切に衛生化されたテキストを生成する。
次に、パラフレージングのために微調整したLLMを使用して、このテキストの一貫性とスタイルニュートラルを描画します。
我々は,ECHRの裁判と実世界の告発者証言からの抜粋を用いてツールの有効性を評価し,一般のIMDb62映画レビューデータセットを用いて,著者帰属(AA)攻撃とユーティリティ損失に対する保護を統計的に評価した。
我々の方法では、AAの精度が98.81%から31.22%に大幅に低下し、オリジナルコンテンツのセマンティクスの73.1%が保存される。
Whistleblowing is essential for ensuring transparency and accountability in both public and private sectors. However, (potential) whistleblowers often fear or face retaliation, even when reporting anonymously. The specific content of their disclosures and their distinct writing style may re-identify them as the source. Legal measures, such as the EU WBD, are limited in their scope and effectiveness. Therefore, computational methods to prevent re-identification are important complementary tools for encouraging whistleblowers to come forward. However, current text sanitization tools follow a one-size-fits-all approach and take an overly limited view of anonymity. They aim to mitigate identification risk by replacing typical high-risk words (such as person names and other NE labels) and combinations thereof with placeholders. Such an approach, however, is inadequate for the whistleblowing scenario since it neglects further re-identification potential in textual features, including writing style. Therefore, we propose, implement, and evaluate a novel classification and mitigation strategy for rewriting texts that involves the whistleblower in the assessment of the risk and utility. Our prototypical tool semi-automatically evaluates risk at the word/term level and applies risk-adapted anonymization techniques to produce a grammatically disjointed yet appropriately sanitized text. We then use a LLM that we fine-tuned for paraphrasing to render this text coherent and style-neutral. We evaluate our tool's effectiveness using court cases from the ECHR and excerpts from a real-world whistleblower testimony and measure the protection against authorship attribution (AA) attacks and utility loss statistically using the popular IMDb62 movie reviews dataset. Our method can significantly reduce AA accuracy from 98.81% to 31.22%, while preserving up to 73.1% of the original content's semantics. | 翻訳日:2024-05-03 17:23:40 公開日:2024-05-02 |
# 量子状態空間線形代数を用いた多変量トレース推定
Multivariate trace estimation using quantum state space linear algebra ( http://arxiv.org/abs/2405.01098v1 ) ライセンス: Link先を確認 | Liron Mor Yosef, Shashanka Ubaru, Lior Horesh, Haim Avron, | (参考訳) 本稿では,多変量トレース,すなわち行列生成物のトレースを近似する量子アルゴリズムを提案する。
我々の研究は、行列のスペクトル特性の解明における多変量トレースの広範な活用と、より高速な数値線形代数に量子コンピューティングを活用する最近の進歩によって動機付けられている。
我々のアプローチの中心は、多変量トレース公式の量子回路への直接変換であり、一連の低レベル回路構築操作によって達成される。
この変換を容易にするために,プリミティブ行列代数演算による状態準備回路の効率的な生成に適したフレームワークである 'emph{quantum Matrix States Linear Algebra} (qMSLA) を導入する。
本アルゴリズムは,入力行列を一次入力とし,多変量トレースを出力として符号化した2つの状態準備回路を生成する。
これらの回路は、前述の多変量トレース式を実行するqMSLA演算を用いて構築されている。
提案アルゴリズムの入力は状態準備回路のみで構成されており,ブロック符号化などの構成部品の合成が困難であることを強調する。
さらに,本手法は,QRAMのような専用ハードウェアの可用性とは独立して動作し,その汎用性と実用性を示す。
In this paper, we present a quantum algorithm for approximating multivariate traces, i.e. the traces of matrix products. Our research is motivated by the extensive utility of multivariate traces in elucidating spectral characteristics of matrices, as well as by recent advancements in leveraging quantum computing for faster numerical linear algebra. Central to our approach is a direct translation of a multivariate trace formula into a quantum circuit, achieved through a sequence of low-level circuit construction operations. To facilitate this translation, we introduce \emph{quantum Matrix States Linear Algebra} (qMSLA), a framework tailored for the efficient generation of state preparation circuits via primitive matrix algebra operations. Our algorithm relies on sets of state preparation circuits for input matrices as its primary inputs and yields two state preparation circuits encoding the multivariate trace as output. These circuits are constructed utilizing qMSLA operations, which enact the aforementioned multivariate trace formula. We emphasize that our algorithm's inputs consist solely of state preparation circuits, eschewing harder to synthesize constructs such as Block Encodings. Furthermore, our approach operates independently of the availability of specialized hardware like QRAM, underscoring its versatility and practicality. | 翻訳日:2024-05-03 17:13:51 公開日:2024-05-02 |
# 不確かさ特徴フュージョンとワイズ距離アグリゲーションによる人物再同定の促進
Enhancing Person Re-Identification via Uncertainty Feature Fusion and Wise Distance Aggregation ( http://arxiv.org/abs/2405.01101v1 ) ライセンス: Link先を確認 | Quang-Huy Che, Le-Chuong Nguyen, Vinh-Tiep Nguyen, | (参考訳) 多様なシナリオにまたがる対象を正確に特定できる堅牢な人物識別システム(Re-ID)の探求は、監視とセキュリティアプリケーションにおいて大きな課題である。
本研究では,不確実性特徴融合(UFFM)とWise Distance Aggregation(WDA)を統合することにより,人物再同定(Re-ID)を大幅に向上させる手法を提案する。
ベンチマークデータセット(Market-1501, DukeMTMC-ReID, MSMT17)で検証した結果,Ranc-1精度と平均平均精度(mAP)が大幅に向上した。
特に、UFFMは複数の画像から特徴合成のパワーを生かし、異なる視点の被写体の変動によって課される制限を克服する。
WDAはさらに、類似度メトリクスをインテリジェントに集約することでプロセスを洗練し、それによって、被験者間の微妙だが批判的な違いを識別するシステムの能力を高める。
実験結果から,提案手法が既存手法よりも優れていることが確認され,すべての評価データセットに対して新たな性能ベンチマークが達成された。
コードはGithubで入手できる。
The quest for robust Person re-identification (Re-ID) systems capable of accurately identifying subjects across diverse scenarios remains a formidable challenge in surveillance and security applications. This study presents a novel methodology that significantly enhances Person Re-Identification (Re-ID) by integrating Uncertainty Feature Fusion (UFFM) with Wise Distance Aggregation (WDA). Tested on benchmark datasets - Market-1501, DukeMTMC-ReID, and MSMT17 - our approach demonstrates substantial improvements in Rank-1 accuracy and mean Average Precision (mAP). Specifically, UFFM capitalizes on the power of feature synthesis from multiple images to overcome the limitations imposed by the variability of subject appearances across different views. WDA further refines the process by intelligently aggregating similarity metrics, thereby enhancing the system's ability to discern subtle but critical differences between subjects. The empirical results affirm the superiority of our method over existing approaches, achieving new performance benchmarks across all evaluated datasets. Code is available on Github. | 翻訳日:2024-05-03 17:13:51 公開日:2024-05-02 |
# グラフ変換器のオーバーグローバル化問題について
Less is More: on the Over-Globalizing Problem in Graph Transformers ( http://arxiv.org/abs/2405.01102v1 ) ライセンス: Link先を確認 | Yujie Xing, Xiao Wang, Yibo Li, Hai Huang, Chuan Shi, | (参考訳) Graph Transformerは、そのグローバルなアテンションメカニズムのため、グラフ構造化データを扱うための新しいツールとして登場した。
グローバルアテンション機構が完全に連結されたグラフにおいてより広い受容場を考慮していることはよく知られており、多くの人が有用な情報を全てのノードから抽出できると考えている。
本稿では,グローバル化プロパティが常にグラフトランスフォーマーに利益をもたらすかという,この信念に挑戦する。
グラフトランスフォーマーにおける過剰なグローバル化問題は,経験的エビデンスと理論的解析の両方を提示することにより明らかにする。すなわち,現在の注意機構は,これらの遠隔ノードに過度に焦点を絞っているのに対して,近いノードは実際には有用な情報のほとんどを含むが,比較的弱っている。
次に, クラスタ間およびクラスタ内変換器を含む協調学習用バイレベルグローバルグラフトランス (CoBFormer) を提案する。
さらに,理論的保証によりモデルの一般化能力を向上させるための協調学習を提案する。
各種グラフに対する大規模な実験は,提案したCoBFormerの有効性をよく検証する。
Graph Transformer, due to its global attention mechanism, has emerged as a new tool in dealing with graph-structured data. It is well recognized that the global attention mechanism considers a wider receptive field in a fully connected graph, leading many to believe that useful information can be extracted from all the nodes. In this paper, we challenge this belief: does the globalizing property always benefit Graph Transformers? We reveal the over-globalizing problem in Graph Transformer by presenting both empirical evidence and theoretical analysis, i.e., the current attention mechanism overly focuses on those distant nodes, while the near nodes, which actually contain most of the useful information, are relatively weakened. Then we propose a novel Bi-Level Global Graph Transformer with Collaborative Training (CoBFormer), including the inter-cluster and intra-cluster Transformers, to prevent the over-globalizing problem while keeping the ability to extract valuable information from distant nodes. Moreover, the collaborative training is proposed to improve the model's generalization ability with a theoretical guarantee. Extensive experiments on various graphs well validate the effectiveness of our proposed CoBFormer. | 翻訳日:2024-05-03 17:13:51 公開日:2024-05-02 |
# コードのためのLLMセキュリティガード
LLM Security Guard for Code ( http://arxiv.org/abs/2405.01103v1 ) ライセンス: Link先を確認 | Arya Kavian, Mohammad Mehdi Pourhashem Kallehbasti, Sajjad Kazemi, Ehsan Firouzi, Mohammad Ghafari, | (参考訳) 多くの開発者は、ソフトウェア開発を容易にするためにLarge Language Models (LLM)に依存している。
それでも、これらのモデルはセキュリティ領域で限られた機能を示している。
LLMSecGuardは、静的コードアナライザとLLM間の相乗効果を通じて、コードセキュリティを強化したオープンソースのフレームワークである。
LLMSecGuardは、LLMが最初に生成したコードよりもセキュアなコードソリューションを実践者に提供することを目的としている。
また、LSMをベンチマークし、これらのモデルの進化するセキュリティ特性に関する貴重な洞察を提供する。
Many developers rely on Large Language Models (LLMs) to facilitate software development. Nevertheless, these models have exhibited limited capabilities in the security domain. We introduce LLMSecGuard, an open-source framework that offers enhanced code security through the synergy between static code analyzers and LLMs. LLMSecGuard aims to equip practitioners with code solutions that are more secure than the code initially generated by LLMs. It also benchmarks LLMs, providing valuable insights into the evolving security properties of these models. | 翻訳日:2024-05-03 17:13:51 公開日:2024-05-02 |
# 完全畳み込みネットワークによる治療・未治療腫瘍球状体のイメージセグメンテーション
Image segmentation of treated and untreated tumor spheroids by Fully Convolutional Networks ( http://arxiv.org/abs/2405.01105v1 ) ライセンス: Link先を確認 | Matthias Streller, Soňa Michlíková, Willy Ciecior, Katharina Lönnecke, Leoni A. Kunz-Schughart, Steffen Lange, Anja Voss-Böhme, | (参考訳) MCTS(Multicellular tumor spheroids)は、組換え放射線(化学)療法の影響を評価するための先進的な細胞培養系である。
3D細胞と細胞-マトリクス相互作用から、増殖活性と栄養/酸素供給に関連する放射能生理学的勾配、細胞ラジオ応答を変化させる3D細胞-細胞-細胞-マトリクス相互作用まで、治療学的に関連するin-vivo様特性を示す。
State-of-the-art Assaysは、放射線線量および治療アーム当たりの大量の球状体集団から収集された明るい視野画像時系列に基づいて、長期的治療エンドポイントを定量化する。
ここで、スフェロイド制御確率は、カプラン・マイアー曲線に基づく生体内腫瘍制御確率と類似している。
この分析では、画像、例えば直径、面積、体積、円形から関連した構造情報を抽出するために、処理腕あたりの最大100.000個の球面分割が必要となる。
いくつかの画像解析アルゴリズムは球状セグメンテーションに利用できるが、これらは全て成長を通してはっきりと区別可能な外縁を持つコンパクトMCTSに焦点を当てている。
しかし、MCTSは部分的に取り除かれ破壊され、通常は死んだ細胞の破片によって隠蔽される。
UNetとHRNetの2つの完全畳み込みネットワークをトレーニングし、そのハイパーパラメータを最適化し、未処理および処理されたMCTSの自動セグメンテーションを開発する。
2つのヒト頭頸部癌細胞株由来のスフェロイドの大きな独立データセットに対する自動セグメンテーションを系統的に検証した。
Jaccardのインデックスによって約90%の精度で定量化され,ほとんどの画像に対して手動と自動セグメンテーションの間に優れた重なりがあることがわかった。
分割の重複が小さい画像の場合、この誤差は異なる生物学的専門家の分割のばらつきに匹敵するものであり、これらの画像は生物学的に不明瞭または曖昧なケースを表すことを示唆している。
Multicellular tumor spheroids (MCTS) are advanced cell culture systems for assessing the impact of combinatorial radio(chemo)therapy. They exhibit therapeutically relevant in-vivo-like characteristics from 3D cell-cell and cell-matrix interactions to radial pathophysiological gradients related to proliferative activity and nutrient/oxygen supply, altering cellular radioresponse. State-of-the-art assays quantify long-term curative endpoints based on collected brightfield image time series from large treated spheroid populations per irradiation dose and treatment arm. Here, spheroid control probabilities are documented analogous to in-vivo tumor control probabilities based on Kaplan-Meier curves. This analyses require laborious spheroid segmentation of up to 100.000 images per treatment arm to extract relevant structural information from the images, e.g., diameter, area, volume and circularity. While several image analysis algorithms are available for spheroid segmentation, they all focus on compact MCTS with clearly distinguishable outer rim throughout growth. However, treated MCTS may partly be detached and destroyed and are usually obscured by dead cell debris. We successfully train two Fully Convolutional Networks, UNet and HRNet, and optimize their hyperparameters to develop an automatic segmentation for both untreated and treated MCTS. We systematically validate the automatic segmentation on larger, independent data sets of spheroids derived from two human head-and-neck cancer cell lines. We find an excellent overlap between manual and automatic segmentation for most images, quantified by Jaccard indices at around 90%. For images with smaller overlap of the segmentations, we demonstrate that this error is comparable to the variations across segmentations from different biological experts, suggesting that these images represent biologically unclear or ambiguous cases. | 翻訳日:2024-05-03 17:13:51 公開日:2024-05-02 |
# ロバストな車両物体検出のための不均一データ処理によるフェデレーション学習
Federated Learning with Heterogeneous Data Handling for Robust Vehicular Object Detection ( http://arxiv.org/abs/2405.01108v1 ) ライセンス: Link先を確認 | Ahmad Khalil, Tizian Dege, Pegah Golchin, Rostyslav Olshevskyi, Antonio Fernandez Anta, Tobias Meuser, | (参考訳) 完全自律運転のための正確な知覚モデルを改善するためには,連続的なオンラインモデルトレーニングが不可欠である。
車両ネットワーク内のフェデレートラーニング(FL)は、生の知覚データの整合性を保ちながら、モデルトレーニングの効率的なメカニズムを提供する。
しかし、FLは、同定されていない分散データ(例えば、量スキュー)と苦労し、モデルトレーニング中に最適下限収束率をもたらす。
前回の研究で、汎用シナリオのためのFLにおけるデータ不均一性に対処する革新的なラベル・アウェアアグリゲーション手法であるFedLAを紹介した。
本稿では,最新のFedProxとFedLAをベースとした新しいFL法であるFedProx+LAを紹介する。
連続オンライン物体検出モデルトレーニングにおけるFedProx+LAの有効性を評価する。
従来の手法と最先端手法との比較分析により,FedProx+LAの収束速度が優れていることが明らかとなった。
特に,ラベル分布が非常に異種である場合,FedProx+LA法では,ベースライン法に比べて検出性能が大幅に向上し,従来のFedLA法よりも優れていた。
さらに,FedLAとFedProx+LAは,ベースライン法と比較して収束速度を30%向上させた。
In the pursuit of refining precise perception models for fully autonomous driving, continual online model training becomes essential. Federated Learning (FL) within vehicular networks offers an efficient mechanism for model training while preserving raw sensory data integrity. Yet, FL struggles with non-identically distributed data (e.g., quantity skew), leading to suboptimal convergence rates during model training. In previous work, we introduced FedLA, an innovative Label-Aware aggregation method addressing data heterogeneity in FL for generic scenarios. In this paper, we introduce FedProx+LA, a novel FL method building upon the state-of-the-art FedProx and FedLA to tackle data heterogeneity, which is specifically tailored for vehicular networks. We evaluate the efficacy of FedProx+LA in continuous online object detection model training. Through a comparative analysis against conventional and state-of-the-art methods, our findings reveal the superior convergence rate of FedProx+LA. Notably, if the label distribution is very heterogeneous, our FedProx+LA approach shows substantial improvements in detection performance compared to baseline methods, also outperforming our previous FedLA approach. Moreover, both FedLA and FedProx+LA increase convergence speed by 30% compared to baseline methods. | 翻訳日:2024-05-03 17:13:51 公開日:2024-05-02 |
# データ補間のための点雲上のハイパーグラフ$p$-ラプラシアン正規化
Hypergraph $p$-Laplacian regularization on point clouds for data interpolation ( http://arxiv.org/abs/2405.01109v1 ) ライセンス: Link先を確認 | Kehan Shi, Martin Burger, | (参考訳) グラフの一般化として、ハイパーグラフはデータの高次関係をモデル化するために広く使われている。
本稿では,明示的な構造情報を持たない点雲データの補間に対するハイパーグラフ構造の利点を考察する。
点クラウド上の$\varepsilon_n$-ballハイパーグラフと$k_n$-nearest 近傍ハイパーグラフを定義し、ハイパーグラフ上の$p$-Laplacian正規化について検討する。
超グラフ $p$-Laplacian 正規化と連続$p$-Laplacian 正規化の間の変分一貫性を半教師付き環境で証明する。
グラフの場合と比較して重要な改善点は、結果はより弱い仮定が$\varepsilon_n$と$k_n$の上限に依存することである。
凸だが微分不可能な大規模最適化問題を解くために,確率的原始-双対ハイブリッド勾配アルゴリズムを用いる。
データ補間に関する数値実験により、ハイパーグラフ$p$-ラプラシアン正規化はグラフ$p$-ラプラシアン正規化よりも優れており、ラベル付き点でのスパイクの発生を防ぐことができる。
As a generalization of graphs, hypergraphs are widely used to model higher-order relations in data. This paper explores the benefit of the hypergraph structure for the interpolation of point cloud data that contain no explicit structural information. We define the $\varepsilon_n$-ball hypergraph and the $k_n$-nearest neighbor hypergraph on a point cloud and study the $p$-Laplacian regularization on the hypergraphs. We prove the variational consistency between the hypergraph $p$-Laplacian regularization and the continuum $p$-Laplacian regularization in a semisupervised setting when the number of points $n$ goes to infinity while the number of labeled points remains fixed. A key improvement compared to the graph case is that the results rely on weaker assumptions on the upper bound of $\varepsilon_n$ and $k_n$. To solve the convex but non-differentiable large-scale optimization problem, we utilize the stochastic primal-dual hybrid gradient algorithm. Numerical experiments on data interpolation verify that the hypergraph $p$-Laplacian regularization outperforms the graph $p$-Laplacian regularization in preventing the development of spikes at the labeled points. | 翻訳日:2024-05-03 17:13:51 公開日:2024-05-02 |
# 潜在的なマスアサインメント脆弱性のためのREST APIのマイニング
Mining REST APIs for Potential Mass Assignment Vulnerabilities ( http://arxiv.org/abs/2405.01111v1 ) ライセンス: Link先を確認 | Arash Mazidi, Davide Corradini, Mohammad Ghafari, | (参考訳) REST APIは、サイバースペース内の保護されたリソースにアクセスする上で重要な役割を持っています。
セキュリティテストツールが利用可能であるにもかかわらず、大量割り当ての脆弱性は一般的であり、機密データへの不正アクセスをもたらす。
我々は、REST API仕様をマイニングする軽量なアプローチを提案し、大量割り当てをしがちな操作と属性を特定します。
100のAPIについて予備調査を行い、25の脆弱性が見つかった。
6つのオープンソースAPIで、9つの本当の脆弱な操作を確認しました。
REST APIs have a pivotal role in accessing protected resources within cyberspace. Despite the availability of security testing tools, mass assignment vulnerabilities are common, yielding unauthorized access to sensitive data. We propose a lightweight approach to mine the REST API specifications and identify operations and attributes that are prone to mass assignment. We conducted a preliminary study on 100 APIs and found 25 prone to this vulnerability. We confirmed nine real vulnerable operations in six open-source APIs. | 翻訳日:2024-05-03 17:13:51 公開日:2024-05-02 |
# マルチモーダル・マルチビューセンサを用いた選手追跡とポース推定に基づくスポーツ分析とVR視聴システム
Sports Analysis and VR Viewing System Based on Player Tracking and Pose Estimation with Multimodal and Multiview Sensors ( http://arxiv.org/abs/2405.01112v1 ) ライセンス: Link先を確認 | Wenxuan Guo, Zhiyu Pan, Ziheng Xi, Alapati Tuerxun, Jianjiang Feng, Jie Zhou, | (参考訳) スポーツ分析と観戦は、現在のスポーツ分野において重要な役割を担い、コーチやアスリートだけでなく、ファンやメディアにも大きな価値を提供している。
近年、仮想現実(VR)と拡張現実(AR)技術の急速な発展により、ゲームを見るための新しいプラットフォームが導入された。
VR/ARにおけるスポーツ競技の可視化は革命的な技術であり、観客に新しい没入感のある視聴体験を提供する。
しかし、この領域には関連研究の欠如がある。
本稿では,VR/ARプラットフォーム上でのスポーツ競技の分析とリアルタイム可視化のための総合システムについて紹介する。
まず,マルチビューLiDARとカメラを用いてマルチモーダルゲームデータを収集する。
そこで本研究では,限られた量の教師付きデータに基づくマルチプレイヤー追跡とポーズ推定のためのフレームワークを提案し,ポイントクラウドや画像から正確なプレイヤーの位置と動きを抽出する。
さらに,プレイヤーの3次元モデルを得るためにアバターモデリングを行う。
最終的に、これらの3Dプレイヤーデータを用いて、VR/AR上で競合分析とリアルタイム可視化を行う。
大規模な定量的実験により,マルチプレイヤートラッキングとポーズ推定フレームワークの精度とロバスト性を実証した。
ビジュアライゼーションの結果は、VR/ARデバイス上でゲームを見るという領域における、スポーツ視覚化システムの巨大な可能性を示している。
私たちが収集したマルチモーダルコンペティションデータセットと関連するすべてのコードが間もなくリリースされる予定です。
Sports analysis and viewing play a pivotal role in the current sports domain, offering significant value not only to coaches and athletes but also to fans and the media. In recent years, the rapid development of virtual reality (VR) and augmented reality (AR) technologies have introduced a new platform for watching games. Visualization of sports competitions in VR/AR represents a revolutionary technology, providing audiences with a novel immersive viewing experience. However, there is still a lack of related research in this area. In this work, we present for the first time a comprehensive system for sports competition analysis and real-time visualization on VR/AR platforms. First, we utilize multiview LiDARs and cameras to collect multimodal game data. Subsequently, we propose a framework for multi-player tracking and pose estimation based on a limited amount of supervised data, which extracts precise player positions and movements from point clouds and images. Moreover, we perform avatar modeling of players to obtain their 3D models. Ultimately, using these 3D player data, we conduct competition analysis and real-time visualization on VR/AR. Extensive quantitative experiments demonstrate the accuracy and robustness of our multi-player tracking and pose estimation framework. The visualization results showcase the immense potential of our sports visualization system on the domain of watching games on VR/AR devices. The multimodal competition dataset we collected and all related code will be released soon. | 翻訳日:2024-05-03 17:13:51 公開日:2024-05-02 |
# 単眼深度推定のための領域変換合成データ生成
Domain-Transferred Synthetic Data Generation for Improving Monocular Depth Estimation ( http://arxiv.org/abs/2405.01113v1 ) ライセンス: Link先を確認 | Seungyeop Lee, Knut Peterson, Solmaz Arezoomandan, Bill Cai, Peihan Li, Lifeng Zhou, David Han, | (参考訳) 効率的な単眼深度推定アルゴリズムを開発する上での大きな障害は、収集したRGB画像に対応する高品質の深度データを得るのが困難である。
このデータの収集には時間と費用がかかり、現代のセンサーが収集したデータでさえ範囲や解像度が限られており、矛盾やノイズにさらされている。
そこで本研究では,3次元合成環境とCycleGANドメイン転送を用いたシミュレーションデータ生成手法を提案する。
本研究では,DenseDepth構造に基づく深度推定モデルを実データと模擬データの異なるトレーニングセットを用いて学習することにより,このデータ生成手法を,人気のNYUDepth V2データセットと比較する。
本稿では,Huskyロボットによる新たに収集した画像とLiDAR深度データを用いたモデルの性能評価を行い,GAN変換データを実世界のデータ,特に深度推定の有効な代替手段として有効であることを示す。
A major obstacle to the development of effective monocular depth estimation algorithms is the difficulty in obtaining high-quality depth data that corresponds to collected RGB images. Collecting this data is time-consuming and costly, and even data collected by modern sensors has limited range or resolution, and is subject to inconsistencies and noise. To combat this, we propose a method of data generation in simulation using 3D synthetic environments and CycleGAN domain transfer. We compare this method of data generation to the popular NYUDepth V2 dataset by training a depth estimation model based on the DenseDepth structure using different training sets of real and simulated data. We evaluate the performance of the models on newly collected images and LiDAR depth data from a Husky robot to verify the generalizability of the approach and show that GAN-transformed data can serve as an effective alternative to real-world data, particularly in depth estimation. | 翻訳日:2024-05-03 17:13:51 公開日:2024-05-02 |
# 義肢の連続的模倣学習
Continual Imitation Learning for Prosthetic Limbs ( http://arxiv.org/abs/2405.01114v1 ) ライセンス: Link先を確認 | Sharmita Dey, Benjamin Paassen, Sarath Ravindran Nair, Sabri Boughorbel, Arndt F. Schilling, | (参考訳) 下肢切断と神経筋障害は運動性を著しく制限し、従来の義肢以上の進歩を必要とする。
モーター付きバイオニック手足は約束を提供するが、その実用性は、様々な環境で人間の運動の進化する相乗効果を模倣することに依存する。
そこで本研究では, カメラを用いたモーションキャプチャとウェアラブルセンサデータを活用するバイオニック義肢の新規な応用モデルを提案し, 人間の移動中の下肢の相乗的結合を学習し, 傾斜や階段を登るなどの様々な作業において, 下肢の運動的挙動を推測する能力を与える。
本稿では,マルチタスク,継続的な適応,動きの予測,洗練が可能なモデルを提案する。
提案手法のコアは,従来の予測に基づいて将来の動きを予測・合成し,その後の予測に補正機構を用いる,マルチタスク予測リハーサル(multitask prospective rehearsal)と呼ぶアプローチにある。
私たちは、軽量でタスク固有のモジュールを共有バックボーンにマージし、特異性とスケーラビリティの両方を保証する進化したアーキテクチャを設計します。
実世界の人間の歩行データを用いて,移動作業の幅広い範囲を網羅したトランスティバイアル・アンプを用いた実験を含む,様々なベースラインに対する我々のモデルの有効性を実証的に検証した。
その結果,本手法はベースラインモデル,特に分布シフト,対向摂動,雑音の影響を受けやすいシナリオにおいて,一貫して性能が向上していることがわかった。
Lower limb amputations and neuromuscular impairments severely restrict mobility, necessitating advancements beyond conventional prosthetics. Motorized bionic limbs offer promise, but their utility depends on mimicking the evolving synergy of human movement in various settings. In this context, we present a novel model for bionic prostheses' application that leverages camera-based motion capture and wearable sensor data, to learn the synergistic coupling of the lower limbs during human locomotion, empowering it to infer the kinematic behavior of a missing lower limb across varied tasks, such as climbing inclines and stairs. We propose a model that can multitask, adapt continually, anticipate movements, and refine. The core of our method lies in an approach which we call -- multitask prospective rehearsal -- that anticipates and synthesizes future movements based on the previous prediction and employs a corrective mechanism for subsequent predictions. We design an evolving architecture that merges lightweight, task-specific modules on a shared backbone, ensuring both specificity and scalability. We empirically validate our model against various baselines using real-world human gait datasets, including experiments with transtibial amputees, which encompass a broad spectrum of locomotion tasks. The results show that our approach consistently outperforms baseline models, particularly under scenarios affected by distributional shifts, adversarial perturbations, and noise. | 翻訳日:2024-05-03 17:13:51 公開日:2024-05-02 |
# テンプレートエンジンの見過ごされた危険度に関する調査
A Survey of the Overlooked Dangers of Template Engines ( http://arxiv.org/abs/2405.01118v1 ) ライセンス: Link先を確認 | Lorenzo Pisu, Davide Maiorca, Giorgio Giacinto, | (参考訳) テンプレートエンジンは、モダンなWebアプリケーション開発において重要な役割を担い、コンテンツ、製品、ユーザーインターフェイスの動的なレンダリングを容易にします。
現在、テンプレートエンジンは、Eコマースプラットフォームからソーシャルメディアまで、ダイナミックなデータを扱うウェブサイトで必須である。
しかし、それらが広く使われていることは、攻撃者が脆弱性を悪用し、Webサーバへの不正アクセスを得るための魅力的なターゲットでもある。
本稿では,Webアプリケーション開発において重要なセキュリティ問題であるリモートコード実行(RCE)攻撃に対する感受性に着目し,テンプレートエンジンの総合的な調査を行う。
Template engines play a pivotal role in modern web application development, facilitating the dynamic rendering of content, products, and user interfaces. Nowadays, template engines are essential in any website that deals with dynamic data, from e-commerce platforms to social media. However, their widespread use also makes them attractive targets for attackers seeking to exploit vulnerabilities and gain unauthorized access to web servers. This paper presents a comprehensive survey of template engines, focusing on their susceptibility to Remote Code Execution (RCE) attacks, a critical security concern in web application development. | 翻訳日:2024-05-03 17:13:51 公開日:2024-05-02 |
# 窒素空孔-ナノダイヤモンド粉末周囲の吸収環境による熱効果の光磁気共鳴による研究
Optically detected magnetic resonance study of thermal effects due to absorbing environment around nitrogen-vacancy-nanodiamond powders ( http://arxiv.org/abs/2405.01120v1 ) ライセンス: Link先を確認 | Mona Jani, Zuzanna Orzechowska, Mariusz Mrozek, Marzena Mitura-Nowak, Wojciech Gawlik, Adam M. Wojciechowski, | (参考訳) 負電荷窒素空孔 (NV-) 中心を含むナノダイアモンド (ND) 粉末にFe$^+$イオンを注入し, そのラマンスペクトルと光検出磁気共鳴 (ODMR) をグリーン光 (532 nm) 励起で印加した。
ラマンスペクトルでは、電子sp$3$構成から炭素/グラファイト構造に典型的な乱れsp$2$構造への変換に伴うNV$^-$ピークの青色シフトが観察された。
ODMRスペクトルでは, 焼鈍後に回復する吸収環境による局所加熱による共鳴位置の赤色変化が観察された。
ODMRの赤方偏移機構を明らかにするため,鉄系Fe$2$O$_3$および黒鉛系sp$2$粉をND懸濁液に添加することにより,ND周囲の吸収環境を制御した。
非照射NV-ND粉末では驚くほど大きな変化は見られず、NV-NDの吸収環境による局所温度の変化にのみ関連しており、NV$^-$のODMR信号を用いて研究することができる。
We implanted Fe$^+$ ions in nanodiamond (ND) powder containing negatively charged nitrogen-vacancy (NV-) centers and studied their Raman spectra and optically detected magnetic resonance (ODMR) in various applied magnetic fields with green light (532 nm) excitation. In Raman spectra, we observed a blue shift of the NV$^-$ peak associated with the conversion of the electronic sp$^3$ configuration to the disordered sp$^2$ one typical for the carbon/graphite structure. In the ODMR spectra, we observed a red shift of the resonance position caused by local heating by an absorptive environment that recovers after annealing. To reveal the red shift mechanism in ODMR, we created a controlled absorptive environment around ND by adding iron-based Fe$_2$O$_3$ and graphitic sp$^2$ powders to the ND suspension. This admixture caused a substantial increase in the observed shift proportional to the applied laser power, corresponding to an increase in the local temperature by 150-180 K. This surprisingly large shift is absent in non-irradiated NV-ND powders, is associated only with the modification of the local temperature by the absorptive environment of NV-NDs and can be studied using ODMR signals of NV$^-$. | 翻訳日:2024-05-03 17:13:51 公開日:2024-05-02 |
# ソース・グラウンド情報検索ダイアログの効率的なデータ生成:ミーティング・トランスクリプトのユースケース
Efficient Data Generation for Source-grounded Information-seeking Dialogs: A Use Case for Meeting Transcripts ( http://arxiv.org/abs/2405.01121v1 ) ライセンス: Link先を確認 | Lotem Golany, Filippo Galgani, Maya Mamo, Nimrod Parasol, Omer Vandsburger, Nadav Bar, Ido Dagan, | (参考訳) 情報源に基づく情報検索ダイアログデータセットを作成する既存の手法は、人間のアノテータにのみ依存するため、コストがかかり、実装が難しいことが多い。
我々は,より効率的で信頼性の高いデータ生成のために,大規模言語モデル(LLM)と人間の専門知識を組み合わせることを提案する。
WOZ(Worker-intensive Wizard-of-Oz)法の代わりに、2つのアノテータがスクラッチ、ロールプレイングエージェント、ユーザからダイアログを生成する。
アノテーションは出力を検証し、属性データで拡張する。
提案手法は,MSED -- Meeting Information Seeking Dialogs データセットを構築することで実証する。
MISeDで微調整されたモデルは、我々のテストセットと、新しい完全手動WOZテストセットと既存のクエリベースの要約ベンチマークにおいて優れた性能を示し、我々のアプローチの有用性を示唆している。
Existing methods for creating source-grounded information-seeking dialog datasets are often costly and hard to implement due to their sole reliance on human annotators. We propose combining large language models (LLMs) prompting with human expertise for more efficient and reliable data generation. Instead of the labor-intensive Wizard-of-Oz (WOZ) method, where two annotators generate a dialog from scratch, role-playing agent and user, we use LLM generation to simulate the two roles. Annotators then verify the output and augment it with attribution data. We demonstrate our method by constructing MISeD -- Meeting Information Seeking Dialogs dataset -- the first information-seeking dialog dataset focused on meeting transcripts. Models finetuned with MISeD demonstrate superior performance on our test set, as well as on a novel fully-manual WOZ test set and an existing query-based summarization benchmark, suggesting the utility of our approach. | 翻訳日:2024-05-03 17:13:51 公開日:2024-05-02 |
# 変性を伴う自己監督型画像デノイングの検討
Investigating Self-Supervised Image Denoising with Denaturation ( http://arxiv.org/abs/2405.01124v1 ) ライセンス: Link先を確認 | Hiroki Waida, Kimihiro Yamazaki, Atsushi Tokuhisa, Mutsuyo Wada, Yuichiro Wada, | (参考訳) ノイズの多いデータの変性の有無を考慮した自己教師付き学習は、機械学習における重要なアプローチである。
しかし、変性データを用いた手法の性能に関する理論的理解は欠如している。
提案手法をよりよく理解するために,本論文では,理論解析や数値実験を通じて,変性データを用いた自己教師付き復調アルゴリズムを解析する。
理論的解析により,アルゴリズムは人口リスクに対する最適化問題に対する望ましい解を求める一方で,経験的リスクの保証はデノナイジングタスクの難易度に依存している。
また,実際に拡張アルゴリズムの性能を調べるために,いくつかの実験を行った。
その結果, 劣化画像を用いたアルゴリズムトレーニングは有効であり, 経験的性能は理論的結果と一致していることがわかった。
これらの結果から,デノベーションデータを用いた自己監督型画像デノナイジングのさらなる改善に向けたいくつかの知見が示唆された。
Self-supervised learning for image denoising problems in the presence of denaturation for noisy data is a crucial approach in machine learning. However, theoretical understanding of the performance of the approach that uses denatured data is lacking. To provide better understanding of the approach, in this paper, we analyze a self-supervised denoising algorithm that uses denatured data in depth through theoretical analysis and numerical experiments. Through the theoretical analysis, we discuss that the algorithm finds desired solutions to the optimization problem with the population risk, while the guarantee for the empirical risk depends on the hardness of the denoising task in terms of denaturation levels. We also conduct several experiments to investigate the performance of an extended algorithm in practice. The results indicate that the algorithm training with denatured images works, and the empirical performance aligns with the theoretical results. These results suggest several insights for further improvement of self-supervised image denoising that uses denatured data in future directions. | 翻訳日:2024-05-03 17:13:51 公開日:2024-05-02 |
# 制御ツールを用いた一般ニューラルネットワークアーキテクチャのリプシッツ定数推定
Lipschitz constant estimation for general neural network architectures using control tools ( http://arxiv.org/abs/2405.01125v1 ) ライセンス: Link先を確認 | Patricia Pauli, Dennis Gramlich, Frank Allgöwer, | (参考訳) 本稿では,半定値プログラミングを用いたニューラルネットワークのリプシッツ定数の推定について述べる。
この目的のために、ニューラルネットワークを時間変動力学系と解釈し、そこでは、$k$-th層が、時間で$k$のダイナミックスに対応する。
先行研究における重要な特徴は、この解釈を用いて、動的プログラミング再帰を伴うニューラルネットワークの系列相互接続構造を利用することである。
活性化関数や非線形プーリング層のような非線形性は、積分二次的制約によって処理される。
ニューラルネットワークが信号処理層(畳み込みまたは状態空間モデル層)を含んでいる場合、1-D/2-D/N-Dシステムとして認識し、この構造も活用する。
我々は、より広範な構造利用(スキャラビリティ)と、多数の共通ニューラルネットワークアーキテクチャへの一般化によるリプシッツ定数推定に関する関連する研究とを区別する。
本手法の汎用性と計算上の利点を示すため,MNISTとCIFAR-10で訓練された異なるニューラルネットワークアーキテクチャに適用する。
This paper is devoted to the estimation of the Lipschitz constant of neural networks using semidefinite programming. For this purpose, we interpret neural networks as time-varying dynamical systems, where the $k$-th layer corresponds to the dynamics at time $k$. A key novelty with respect to prior work is that we use this interpretation to exploit the series interconnection structure of neural networks with a dynamic programming recursion. Nonlinearities, such as activation functions and nonlinear pooling layers, are handled with integral quadratic constraints. If the neural network contains signal processing layers (convolutional or state space model layers), we realize them as 1-D/2-D/N-D systems and exploit this structure as well. We distinguish ourselves from related work on Lipschitz constant estimation by more extensive structure exploitation (scalability) and a generalization to a large class of common neural network architectures. To show the versatility and computational advantages of our method, we apply it to different neural network architectures trained on MNIST and CIFAR-10. | 翻訳日:2024-05-03 17:04:04 公開日:2024-05-02 |
# 食道の長期高分解能計測におけるスズメイベントの検出とクラスタリング
Detecting and clustering swallow events in esophageal long-term high-resolution manometry ( http://arxiv.org/abs/2405.01126v1 ) ライセンス: Link先を確認 | Alexander Geiger, Lars Wagner, Daniel Rueckert, Dirk Wilhelm, Alissa Jell, | (参考訳) 高分解能マントメトリー(HRM)は食道運動障害の診断における金の標準である。
HRMは通常、短期的な実験室で実施されるため、間欠的に発生する障害は欠落する可能性がある。
したがって、長期(最大24時間) HRM (LTHRM) は摂食行動に関する詳細な知見を得るために用いられる。
しかし、医療専門家が手動でデータを分析しなければならないため、LTHRMからの広範なデータを分析することは困難であり、エラーを起こしやすい。
この課題に対処するために,LTHRMデータを用いたディープラーニングによる飲み込み事象と二次性非解離性食道運動障害を正確に識別する飲み込み検出手法を提案する。
次に、同定されたツバメを個別のクラスに分類し、高度に経験した臨床医によって分析し、異なる捕食パターンを検証した。
われわれは,25 LTHRMで計算パイプラインを評価し,医療専門家の注意を喚起した。
LTHRMを臨床に応用するためのアプローチの有効性および有効性を示すとともに, 有効性を示すことができる。
High-resolution manometry (HRM) is the gold standard in diagnosing esophageal motility disorders. As HRM is typically conducted under short-term laboratory settings, intermittently occurring disorders are likely to be missed. Therefore, long-term (up to 24h) HRM (LTHRM) is used to gain detailed insights into the swallowing behavior. However, analyzing the extensive data from LTHRM is challenging and time consuming as medical experts have to analyze the data manually, which is slow and prone to errors. To address this challenge, we propose a Deep Learning based swallowing detection method to accurately identify swallowing events and secondary non-deglutitive-induced esophageal motility disorders in LTHRM data. We then proceed with clustering the identified swallows into distinct classes, which are analyzed by highly experienced clinicians to validate the different swallowing patterns. We evaluate our computational pipeline on a total of 25 LTHRMs, which were meticulously annotated by medical experts. By detecting more than 94% of all relevant swallow events and providing all relevant clusters for a more reliable diagnostic process among experienced clinicians, we are able to demonstrate the effectiveness as well as positive clinical impact of our approach to make LTHRM feasible in clinical care. | 翻訳日:2024-05-03 17:04:04 公開日:2024-05-02 |
# 拡散モデルを用いた画像の自動仮想製品配置と評価
Automated Virtual Product Placement and Assessment in Images using Diffusion Models ( http://arxiv.org/abs/2405.01130v1 ) ライセンス: Link先を確認 | Mohammad Mahmudul Alam, Negin Sokhandan, Emmett Goodman, | (参考訳) 仮想プロダクトプレースメント(VPP)アプリケーションでは、特定のブランド製品のイメージやビデオへの個別の統合は、難しいが重要な課題として現れている。
本稿では,新しい3段階完全自動化VPPシステムを提案する。
第1段階では、言語誘導画像セグメンテーションモデルにより、製品塗布のための画像内の最適な領域を特定する。
第2段階では、いくつかの製品イメージを微調整した安定拡散(SD)を使用して、以前に特定された候補領域に製品を塗布する。
最終段階では、低画質の画像を効果的に取り出すために設計された「アライメントモジュール」が導入されている。
総合的な実験により、アライメントモジュールは生成した画像ごとに意図した製品の存在を保証し、画像の平均品質を35%向上させる。
本稿では,仮想広告とマーケティング戦略を変革する大きな可能性を秘めているVPPシステムの有効性を実証する。
In Virtual Product Placement (VPP) applications, the discrete integration of specific brand products into images or videos has emerged as a challenging yet important task. This paper introduces a novel three-stage fully automated VPP system. In the first stage, a language-guided image segmentation model identifies optimal regions within images for product inpainting. In the second stage, Stable Diffusion (SD), fine-tuned with a few example product images, is used to inpaint the product into the previously identified candidate regions. The final stage introduces an "Alignment Module", which is designed to effectively sieve out low-quality images. Comprehensive experiments demonstrate that the Alignment Module ensures the presence of the intended product in every generated image and enhances the average quality of images by 35%. The results presented in this paper demonstrate the effectiveness of the proposed VPP system, which holds significant potential for transforming the landscape of virtual advertising and marketing strategies. | 翻訳日:2024-05-03 17:04:04 公開日:2024-05-02 |
# 雑音量子コンピュータ上での量子シミュレーションのための最適順序トロッタースズキ分解
Optimal-order Trotter-Suzuki decomposition for quantum simulation on noisy quantum computers ( http://arxiv.org/abs/2405.01131v1 ) ライセンス: Link先を確認 | A. A. Avtandilyan, W. V. Pogosov, | (参考訳) 雑音量子コンピュータ上での量子システムのより効率的なシミュレーションのために、進化演算子のトロッター・鈴木分解の高次化を利用する可能性を探る。
横フィールドイジングモデルとXYモデルを調べることにより、ゲート誤差が典型的な現代値と比較して約1桁減少すると、高次トロッター化が有利になることを示した。
この形式のトロッタライゼーションは、トロッタライゼーションの数学的誤差とゲート実行による物理誤差の両方を含む、全体的なシミュレーションエラーの世界的な最小値が得られる。
The potential of employing higher orders of the Trotter-Suzuki decomposition of the evolution operator for more effective simulations of quantum systems on a noisy quantum computer is explored. By examining the transverse-field Ising model and the XY model, it is demonstrated that when the gate error is decreased by approximately an order of magnitude relative to typical modern values, higher-order Trotterization becomes advantageous. This form of Trotterization yields a global minimum of the overall simulation error, comprising both the mathematical error of Trotterization and the physical error arising from gate execution. | 翻訳日:2024-05-03 17:04:04 公開日:2024-05-02 |
# 宇宙空間における自律ペグインホールアセンブリ学習のための手続き生成の活用
Leveraging Procedural Generation for Learning Autonomous Peg-in-Hole Assembly in Space ( http://arxiv.org/abs/2405.01134v1 ) ライセンス: Link先を確認 | Andrej Orsula, Matthieu Geist, Miguel Olivares-Mendez, Carol Martinez, | (参考訳) 構造を自律的に組み立てる能力は、将来の宇宙インフラの開発に不可欠である。
しかし、宇宙の予測不可能な条件はロボットシステムに重大な課題をもたらし、自律的な組み立てを可能にするための高度な学習技術の開発を必要としている。
本研究では,宇宙ロボティクスの文脈において,自律型ペグ・イン・ホール・アセンブリを学習するための新しいアプローチを提案する。
我々の焦点は、深層強化学習による自律システムの一般化と適応性の向上である。
手続き生成とドメインランダム化を統合することで,多種多様なシナリオにまたがる高度に並列化されたシミュレーション環境においてエージェントを訓練し,ロバストなポリシーの獲得を目指す。
提案手法は3つの異なる強化学習アルゴリズムを用いて,様々なパラダイム間のトレードオフについて検討する。
宇宙空間におけるロボット学習に先進的なシミュレーション技術を活用する可能性を強調しつつ、新しいシナリオやアセンブリシーケンスへのエージェントの適応性を実証する。
我々の発見は、地球を越えた野心的な宇宙ミッションとインフラ開発を支援する知的ロボットシステムの将来の進歩の舞台となった。
The ability to autonomously assemble structures is crucial for the development of future space infrastructure. However, the unpredictable conditions of space pose significant challenges for robotic systems, necessitating the development of advanced learning techniques to enable autonomous assembly. In this study, we present a novel approach for learning autonomous peg-in-hole assembly in the context of space robotics. Our focus is on enhancing the generalization and adaptability of autonomous systems through deep reinforcement learning. By integrating procedural generation and domain randomization, we train agents in a highly parallelized simulation environment across a spectrum of diverse scenarios with the aim of acquiring a robust policy. The proposed approach is evaluated using three distinct reinforcement learning algorithms to investigate the trade-offs among various paradigms. We demonstrate the adaptability of our agents to novel scenarios and assembly sequences while emphasizing the potential of leveraging advanced simulation techniques for robot learning in space. Our findings set the stage for future advancements in intelligent robotic systems capable of supporting ambitious space missions and infrastructure development beyond Earth. | 翻訳日:2024-05-03 17:04:04 公開日:2024-05-02 |
# メタコミュニケーショングラウンド法と教師付き学習の限界について
It Couldn't Help But Overhear: On the Limits of Modelling Meta-Communicative Grounding Acts with Supervised Learning ( http://arxiv.org/abs/2405.01139v1 ) ライセンス: Link先を確認 | Brielen Madureira, David Schlangen, | (参考訳) 理解はプロデューサーと受取人によって共同で調整されるので、会話の活発な参加は共通基盤の構築の鍵となる。
オーバーハーサルは、根拠となる行為を行う特権を剥奪され、意図した意味についてしか推測できない。
それでも、NLP対話モデルのデータ生成とアノテーション、モデリング、トレーニング、評価は、過度な聴覚パラダイムに依存している。
その結果、基盤となる接地プロセスのどれ程が禁止されるのか?
このように、人間のメタコミュニケーション行為をデータ駆動学習モデルで適切にモデル化することは不可能であることを示す証拠がある。
本稿では, この課題について考察し, 明確化を求める人的意思決定の多様性に関する予備的分析を行う。
最も重要なことは、このトピックをコミュニティのテーブルに持ち帰り、モデルが“参加”するようにデザインされた結果について、議論を奨励したいということです。
Active participation in a conversation is key to building common ground, since understanding is jointly tailored by producers and recipients. Overhearers are deprived of the privilege of performing grounding acts and can only conjecture about intended meanings. Still, data generation and annotation, modelling, training and evaluation of NLP dialogue models place reliance on the overhearing paradigm. How much of the underlying grounding processes are thereby forfeited? As we show, there is evidence pointing to the impossibility of properly modelling human meta-communicative acts with data-driven learning models. In this paper, we discuss this issue and provide a preliminary analysis on the variability of human decisions for requesting clarification. Most importantly, we wish to bring this topic back to the community's table, encouraging discussion on the consequences of having models designed to only "listen in". | 翻訳日:2024-05-03 17:04:04 公開日:2024-05-02 |
# 不均一データに基づく逐次フェデレーション学習のためのシャープ境界
Sharp Bounds for Sequential Federated Learning on Heterogeneous Data ( http://arxiv.org/abs/2405.01142v1 ) ライセンス: Link先を確認 | Yipeng Li, Xinchen Lyu, | (参考訳) フェデレートラーニング(FL)には2つのパラダイムがある: 並列FL(PFL)、モデルがクライアント間で並列にトレーニングされ、シーケンシャルFL(SFL)、そしてモデルがクライアント間でシーケンシャルにトレーニングされる。
PFLとは対照的に、不均一データ上のSFLの収束理論はいまだに欠如している。
SFLの理論的ジレンマを解決するために、上界と下界の双方を持つ不均一なデータに対して、SFLの鋭い収束保証を確立する。
具体的には、強凸関数、一般凸関数、非凸関数の上限を導出し、強凸関数と一般凸関数の一致する下界を構築する。
次に、SFLの上界とPFLの限界を比較し、SFLがPFLより優れていることを示す(少なくとも、不均一性のレベルが比較的高い場合)。
2次関数と実データセットの実験結果は、直観的比較結果を検証する。
There are two paradigms in Federated Learning (FL): parallel FL (PFL), where models are trained in a parallel manner across clients; and sequential FL (SFL), where models are trained in a sequential manner across clients. In contrast to that of PFL, the convergence theory of SFL on heterogeneous data is still lacking. To resolve the theoretical dilemma of SFL, we establish sharp convergence guarantees for SFL on heterogeneous data with both upper and lower bounds. Specifically, we derive the upper bounds for strongly convex, general convex and non-convex objective functions, and construct the matching lower bounds for the strongly convex and general convex objective functions. Then, we compare the upper bounds of SFL with those of PFL, showing that SFL outperforms PFL (at least, when the level of heterogeneity is relatively high). Experimental results on quadratic functions and real data sets validate the counterintuitive comparison result. | 翻訳日:2024-05-03 17:04:04 公開日:2024-05-02 |
# フェデレーション学習のセキュアアグリゲーションによるコミュニケーション効率の向上
Boosting Communication Efficiency of Federated Learning's Secure Aggregation ( http://arxiv.org/abs/2405.01144v1 ) ライセンス: Link先を確認 | Niousha Nazemi, Omid Tavallaie, Shuaijun Chen, Albert Y. Zomaya, Ralph Holz, | (参考訳) Federated Learning(FL)は、クライアントデバイスがモデルをローカルにトレーニングし、それらを集約してグローバルモデルを生成するサーバに送信する分散機械学習アプローチである。
FLは、トレーニングされたモデルからセンシティブなクライアントデータを推論できる、モデル逆攻撃に対して脆弱である。
GoogleのSecure Aggregation(SecAgg)プロトコルは、クライアントデバイス上でローカルに生成された共有シークレットと個々の要素を使用して、各クライアントがトレーニングしたモデルを隠すことで、このデータプライバシ問題に対処する。
SecAggは効果的にプライバシを保存するが、特にネットワークサイズが大きくなると、通信と計算のオーバーヘッドがかなり大きくなる。
SecAgg上に構築されたこのポスターでは、クライアント毎に2つの共有シークレットを使用してモデルを隠蔽することで、このオーバーヘッドを大幅に削減する、通信効率の良いセキュアアグリゲーション(CESA)プロトコルが導入されている。
本稿では,遅延変動が少なく,クライアントのドロップアウトが制限された安定したネットワークを提案する。
CESAはデータ配信とネットワークサイズ(6ノード以上)とは独立しているため、真面目だがクレージーなサーバが不正なモデルにアクセスするのを防いでいる。
初回評価の結果,CESAはSecAggと比較して通信コストを大幅に削減することがわかった。
Federated Learning (FL) is a decentralized machine learning approach where client devices train models locally and send them to a server that performs aggregation to generate a global model. FL is vulnerable to model inversion attacks, where the server can infer sensitive client data from trained models. Google's Secure Aggregation (SecAgg) protocol addresses this data privacy issue by masking each client's trained model using shared secrets and individual elements generated locally on the client's device. Although SecAgg effectively preserves privacy, it imposes considerable communication and computation overhead, especially as network size increases. Building upon SecAgg, this poster introduces a Communication-Efficient Secure Aggregation (CESA) protocol that substantially reduces this overhead by using only two shared secrets per client to mask the model. We propose our method for stable networks with low delay variation and limited client dropouts. CESA is independent of the data distribution and network size (for higher than 6 nodes), preventing the honest-but-curious server from accessing unmasked models. Our initial evaluation reveals that CESA significantly reduces the communication cost compared to SecAgg. | 翻訳日:2024-05-03 17:04:04 公開日:2024-05-02 |
# インクリメンタルグラフクエリのためのローカライズされたRETE
Localized RETE for Incremental Graph Queries ( http://arxiv.org/abs/2405.01145v1 ) ライセンス: Link先を確認 | Matthias Barkowsky, Holger Giese, | (参考訳) コンテキスト: モデル駆動エンジニアリングにおけるグラフベースのモデリングアーティファクトの増大は、グラフクエリの効率的な実行を可能にする技術を呼び起こします。
RETEアルゴリズムに基づくインクリメンタルアプローチは、多くのシナリオにおいて適切なソリューションを提供するが、一般にグラフ全体のクエリ結果を探すように設計されている。
しかし、ある状況では、例えば開発者がワークスペースに部分だけをロードする大きなモデルに取り組んでいる場合、ユーザはサブグラフのクエリ結果のみに興味を持つかもしれません。
この場合、グローバルな実行セマンティクスは大きな計算オーバーヘッドをもたらす可能性がある。
コントリビューション: 概要的な欠点を軽減するため,本稿では,グラフクエリの局所的かつ完全にインクリメンタルな実行を可能にするRETEアプローチの拡張を提案し,関連するサブグラフに関して結果の完全性を保証する。
結果: ソフトウェア開発のシナリオと独立したソーシャルネットワークのベンチマークから着想を得た実験を通じて,提案手法を実証的に評価した。
実験結果から,提案手法は,好ましくないケースではメモリ消費や実行時間に関する性能を著しく向上させることができるが,好ましくないケースでは顕著な線形オーバーヘッドが生じる可能性が示唆された。
Context: The growing size of graph-based modeling artifacts in model-driven engineering calls for techniques that enable efficient execution of graph queries. Incremental approaches based on the RETE algorithm provide an adequate solution in many scenarios, but are generally designed to search for query results over the entire graph. However, in certain situations, a user may only be interested in query results for a subgraph, for instance when a developer is working on a large model of which only a part is loaded into their workspace. In this case, the global execution semantics can result in significant computational overhead. Contribution: To mitigate the outlined shortcoming, in this paper we propose an extension of the RETE approach that enables local, yet fully incremental execution of graph queries, while still guaranteeing completeness of results with respect to the relevant subgraph. Results: We empirically evaluate the presented approach via experiments inspired by a scenario from software development and an independent social network benchmark. The experimental results indicate that the proposed technique can significantly improve performance regarding memory consumption and execution time in favorable cases, but may incur a noticeable linear overhead in unfavorable cases. | 翻訳日:2024-05-03 17:04:04 公開日:2024-05-02 |
# タブラル・ファンデーション・モデルが研究優先であるべき理由
Why Tabular Foundation Models Should Be a Research Priority ( http://arxiv.org/abs/2405.01147v1 ) ライセンス: Link先を確認 | Boris van Breugel, Mihaela van der Schaar, | (参考訳) 最近のテキストと画像の基礎モデルは驚くほど印象的であり、これらのモデルは研究資源の継続的な増加を招いている。
このポジションピースでは、ML研究コミュニティの優先順位を、表のデータという、まったく異なるモダリティにシフトさせることを目標にしています。
タブラルデータは、多くの分野において支配的なモダリティであるが、研究の注意がほとんど与えられず、スケールとパワーの面ではかなり遅れている。
現在、表形式の基礎モデル、あるいはLTM(Large Tabular Model)と呼ばれるものの開発に着手する時が来たと信じています。
LTMは、科学とMLがグラフデータを使用する方法に革命をもたらす可能性がある。真空で分析される単一のデータセットではなく、関連するデータセットに関してコンテキスト化される。
潜在的な影響は、数ショットの表形式モデルからデータサイエンスの自動化、アウト・オブ・ディストリビューションの合成データから多分野の科学的発見の強化まで、はるかに大きい。
我々は、我々が研究しているモダリティの反映をエキサイティングにし、一部の研究者に大きな表層モデルの研究を説得するつもりです。
Recent text and image foundation models are incredibly impressive, and these models are attracting an ever-increasing portion of research resources. In this position piece we aim to shift the ML research community's priorities ever so slightly to a different modality: tabular data. Tabular data is the dominant modality in many fields, yet it is given hardly any research attention and significantly lags behind in terms of scale and power. We believe the time is now to start developing tabular foundation models, or what we coin a Large Tabular Model (LTM). LTMs could revolutionise the way science and ML use tabular data: not as single datasets that are analyzed in a vacuum, but contextualized with respect to related datasets. The potential impact is far-reaching: from few-shot tabular models to automating data science; from out-of-distribution synthetic data to empowering multidisciplinary scientific discovery. We intend to excite reflections on the modalities we study, and convince some researchers to study large tabular models. | 翻訳日:2024-05-03 17:04:04 公開日:2024-05-02 |
# 擬似性と意味の形式的構造
Qualia and the Formal Structure of Meaning ( http://arxiv.org/abs/2405.01148v1 ) ライセンス: Link先を確認 | Xerxes D. Arsiwalla, | (参考訳) この研究は、主観的に属性付けられた意味が意識経験の現象的内容を構成するという仮説を探求する。
つまり、驚くべき内容は意味論的である。
この主観的意味の形式は、内在的かつ非表現的なクエーリアの性格として現れている。
経験的に、主観的意味は意識的な経験においてユビキタスである。
これを裏付ける証拠を提示する現象学的研究を指摘する。
さらに、この意味の概念は、メタ物理学や言語哲学においてフレーゲが「センス」と呼ぶものと密接に関連している。
また、パースの「解釈者」とセミオティックスで一致している。
本稿では,フレーゲの感覚を意識の生感にまで拡張する方法について論じる。
センスとレファレンスの両方が、劇的な経験において重要な役割を果たしている。
さらに、マインド・マッター関係の文脈において、心的表現に関連する主観的意味の形式化を提供する。
身体領域と精神領域の正確な地図を同定し、統語的・意味的構造が言語を超越し、それぞれの領域で実現されていると論じる。
形式的には、意味は関係属性であり、適切な意味空間内の形式系の構文構造を解釈する写像を通して実現される。
精神領域内のこの地図のイメージは経験に関係しており、クァリアの現象的内容を構成する。
我々は、経験に基づく意識の理論にこれが持つ可能性のある意味を結論付けている。
This work explores the hypothesis that subjectively attributed meaning constitutes the phenomenal content of conscious experience. That is, phenomenal content is semantic. This form of subjective meaning manifests as an intrinsic and non-representational character of qualia. Empirically, subjective meaning is ubiquitous in conscious experiences. We point to phenomenological studies that lend evidence to support this. Furthermore, this notion of meaning closely relates to what Frege refers to as "sense", in metaphysics and philosophy of language. It also aligns with Peirce's "interpretant", in semiotics. We discuss how Frege's sense can also be extended to the raw feels of consciousness. Sense and reference both play a role in phenomenal experience. Moreover, within the context of the mind-matter relation, we provide a formalization of subjective meaning associated to one's mental representations. Identifying the precise maps between the physical and mental domains, we argue that syntactic and semantic structures transcend language, and are realized within each of these domains. Formally, meaning is a relational attribute, realized via a map that interprets syntactic structures of a formal system within an appropriate semantic space. The image of this map within the mental domain is what is relevant for experience, and thus comprises the phenomenal content of qualia. We conclude with possible implications this may have for experience-based theories of consciousness. | 翻訳日:2024-05-03 17:04:04 公開日:2024-05-02 |
# 量子曲面符号に対するスパンニング木マッチングデコーダ
Spanning Tree Matching Decoder for Quantum Surface Codes ( http://arxiv.org/abs/2405.01151v1 ) ライセンス: Link先を確認 | Diego Forlivesi, Lorenzo Valentini, Marco Chiani, | (参考訳) 本研究では,表面符号に対するスパンニングツリーマッチング(STM)デコーダを導入し,格子内のアシラキュービットのサブセットに最小スパンニングツリーのインスタンスを最初に使用することにより,コードの設計距離まで誤り訂正機能を保証する。
すると、エッジの選択が失敗する可能性が高くなるので、完全マッチンググラフが簡単に得られます。
比較分析により、STMデコーダは、性能劣化の少ないコストで、最小ウェイト完全整合(MWPM)デコーダに比べてデコード時間にかなりの利点があることが明らかとなった。
最後に,よりシンプルで高速なアルゴリズムであるRapid-Fire(RFire)デコーダを提案する。
We introduce the spanning tree matching (STM) decoder for surface codes, which guarantees the error correction capability up to the code's designed distance by first employing an instance of the minimum spanning tree on a subset of ancilla qubits within the lattice. Then, a perfect matching graph is simply obtained, by selecting the edges more likely to be faulty. A comparative analysis reveals that the STM decoder, at the cost of a slight performance degradation, provides a substantial advantage in decoding time compared to the minimum weight perfect matching (MWPM) decoder. Finally, we propose an even more simplified and faster algorithm, the Rapid-Fire (RFire) decoder, designed for scenarios where decoding speed is a critical requirement. | 翻訳日:2024-05-03 17:04:04 公開日:2024-05-02 |
# SynFlowNet: 保証された合成経路による分子設計を目指して
SynFlowNet: Towards Molecule Design with Guaranteed Synthesis Pathways ( http://arxiv.org/abs/2405.01155v1 ) ライセンス: Link先を確認 | Miruna Cretu, Charles Harris, Julien Roy, Emmanuel Bengio, Pietro Liò, | (参考訳) 生成的モデリングの最近の進歩は、薬物発見のための分子生成モデルを提案する多くの研究につながっている。
これらのモデルは、薬物のようなモチーフを捉えるのによく機能するが、しばしば合成不能な分子を生成することが知られている。
これは、原子や断片をトレーニング分布に近似するように構成するよう訓練されているためであるが、実験室で分子を作る際に生じる合成の制約を明示的に認識していないためである。
この問題に対処するために,反応空間が化学的に検証された反応と反応剤を用いて新しい分子を逐次構築するGFlowNetモデルであるSynFlowNetを紹介する。
我々は,合成アクセシビリティスコアと独立レトロシンセシスツールを用いて,本手法の評価を行った。
SynFlowNetは、合成可能な分子を一貫してサンプリングすると同時に、多種多様かつ高ユーティリティな候補を見つけることができる。
さらに,SynFlowNetを用いて設計した分子を実験により評価した結果,分子量,SAスコア,タンパク質結合親和性などの類似性を示すことがわかった。
Recent breakthroughs in generative modelling have led to a number of works proposing molecular generation models for drug discovery. While these models perform well at capturing drug-like motifs, they are known to often produce synthetically inaccessible molecules. This is because they are trained to compose atoms or fragments in a way that approximates the training distribution, but they are not explicitly aware of the synthesis constraints that come with making molecules in the lab. To address this issue, we introduce SynFlowNet, a GFlowNet model whose action space uses chemically validated reactions and reactants to sequentially build new molecules. We evaluate our approach using synthetic accessibility scores and an independent retrosynthesis tool. SynFlowNet consistently samples synthetically feasible molecules, while still being able to find diverse and high-utility candidates. Furthermore, we compare molecules designed with SynFlowNet to experimentally validated actives, and find that they show comparable properties of interest, such as molecular weight, SA score and predicted protein binding affinity. | 翻訳日:2024-05-03 17:04:04 公開日:2024-05-02 |
# インターベンショナル・イメージ・アナリティクスのための自己監督型学習:ロバスト・デバイス・トラッカーを目指して
Self-Supervised Learning for Interventional Image Analytics: Towards Robust Device Trackers ( http://arxiv.org/abs/2405.01156v1 ) ライセンス: Link先を確認 | Saahil Islam, Venkatesh N. Murthy, Dominik Neumann, Badhan Kumar Das, Puneet Sharma, Andreas Maier, Dorin Comaniciu, Florin C. Ghesu, | (参考訳) 生体X線画像取得におけるカテーテルのガイドなどの装置の正確な検出と追跡は、血管内心臓の介入に必須の条件である。
この情報は手続き的指導、例えばステント配置の指示に利用される。
プロシージャの安全性と有効性を確保するために、追跡中に障害のない高い堅牢性が必要である。
そのためには、コントラスト剤や他の外部機器やワイヤによるデバイス・オブスキュレーション、視野角や取得角度の変化、心臓や呼吸運動による連続的な動きといった課題に効果的に取り組む必要がある。
上記の課題を克服するために,画像シーケンスデータに対する自己監督を用いて,1600万以上の干渉X線フレームからなる非常に大きなデータコホートから時空間的特徴を学習する手法を提案する。
本手法は,フレーム補間に基づく再構成を利用してフレーム間時間対応を微妙に学習するマスク付き画像モデリング技術に基づいている。
結果のモデルにエンコードされた機能は、下流で微調整される。
提案手法は, マルチステージ機能融合, マルチタスク, フロー正規化を用いた超最適化参照ソリューションと比較して, 最先端性能, 特にロバスト性を実現している。
実験の結果,提案手法は参照解に対する最大追従誤差を66.31%削減し(フロー正規化の場合23.20%), 97.95%の高速化(GPUでは42フレーム/秒)で成功率97.95%を達成した。
その結果,時空間意味論を効果的に理解する必要のある介入画像解析における様々なタスクに,我々のアプローチを取り入れることが促進された。
An accurate detection and tracking of devices such as guiding catheters in live X-ray image acquisitions is an essential prerequisite for endovascular cardiac interventions. This information is leveraged for procedural guidance, e.g., directing stent placements. To ensure procedural safety and efficacy, there is a need for high robustness no failures during tracking. To achieve that, one needs to efficiently tackle challenges, such as: device obscuration by contrast agent or other external devices or wires, changes in field-of-view or acquisition angle, as well as the continuous movement due to cardiac and respiratory motion. To overcome the aforementioned challenges, we propose a novel approach to learn spatio-temporal features from a very large data cohort of over 16 million interventional X-ray frames using self-supervision for image sequence data. Our approach is based on a masked image modeling technique that leverages frame interpolation based reconstruction to learn fine inter-frame temporal correspondences. The features encoded in the resulting model are fine-tuned downstream. Our approach achieves state-of-the-art performance and in particular robustness compared to ultra optimized reference solutions (that use multi-stage feature fusion, multi-task and flow regularization). The experiments show that our method achieves 66.31% reduction in maximum tracking error against reference solutions (23.20% when flow regularization is used); achieving a success score of 97.95% at a 3x faster inference speed of 42 frames-per-second (on GPU). The results encourage the use of our approach in various other tasks within interventional image analytics that require effective understanding of spatio-temporal semantics. | 翻訳日:2024-05-03 17:04:04 公開日:2024-05-02 |
# Gittins Indexのためのタブラリとディープ強化学習
Tabular and Deep Reinforcement Learning for Gittins Index ( http://arxiv.org/abs/2405.01157v1 ) ライセンス: Link先を確認 | Harshit Dhankar, Kshitij Mishra, Tejas Bodas, | (参考訳) マルチアームバンディット問題の領域では、ギッティンス指数ポリシーはマルコフの腕を引いて得られる期待の総割引報酬を最大化するのに最適であることが知られている。
しかし、ほとんどの現実的なシナリオでは、マルコフ状態遷移確率は未知であり、そのためギッティンスの指数は計算できない。
次に、得られた報酬を最大限に活用しながら、状態空間を探索してこれらの指標を学習する強化学習(RL)アルゴリズムを利用することができる。
本研究では,マルチアームバンディット問題の定式化に基づくGittinsインデックスを学習するための表式(QGI)とディープRL(DGN)アルゴリズムを提案する。
Gittinsインデックスを学習する既存のRLアルゴリズムと比較して、当社のアルゴリズムは実行時間が短く、ストレージスペースが小さく(QGIではQテーブルサイズが小さく、DGNではリプレイバッファが小さい)、Gittinsインデックスへの経験的収束性が向上している。
これにより、我々のアルゴリズムは大きな状態空間の問題によく適合し、既存の手法の代替となる。
重要なアプリケーションとして、ジョブがバッチで利用可能で、未知のサービス時間分布を持つ場合、ジョブスケジューリング問題における平均フロータイムを最小化するアルゴリズムの使用を実証する。
名
In the realm of multi-arm bandit problems, the Gittins index policy is known to be optimal in maximizing the expected total discounted reward obtained from pulling the Markovian arms. In most realistic scenarios however, the Markovian state transition probabilities are unknown and therefore the Gittins indices cannot be computed. One can then resort to reinforcement learning (RL) algorithms that explore the state space to learn these indices while exploiting to maximize the reward collected. In this work, we propose tabular (QGI) and Deep RL (DGN) algorithms for learning the Gittins index that are based on the retirement formulation for the multi-arm bandit problem. When compared with existing RL algorithms that learn the Gittins index, our algorithms have a lower run time, require less storage space (small Q-table size in QGI and smaller replay buffer in DGN), and illustrate better empirical convergence to the Gittins index. This makes our algorithm well suited for problems with large state spaces and is a viable alternative to existing methods. As a key application, we demonstrate the use of our algorithms in minimizing the mean flowtime in a job scheduling problem when jobs are available in batches and have an unknown service time distribution. \ | 翻訳日:2024-05-03 17:04:04 公開日:2024-05-02 |
# ExIFFIを用いた産業プロセスにおける解釈可能なデータ駆動異常検出
Interpretable Data-driven Anomaly Detection in Industrial Processes with ExIFFI ( http://arxiv.org/abs/2405.01158v1 ) ライセンス: Link先を確認 | Davide Frizzo, Francesco Borsatti, Alessio Arcudi, Antonio De Moliner, Roberto Oboe, Gian Antonio Susto, | (参考訳) 異常検出(AD)は産業環境でしばしば必要とされる重要なプロセスである。
異常はシステム内の根底にある問題にシグナルを与え、さらなる調査を促す。
産業プロセスは、最終製品の生産をできるだけ効率化することを目的としており、ADを目標を達成するための重要な手段としています。従来の異常検出手法は、一般的に、これらの分類の背景にある理由を把握せずに、観察を通常または異常に分類します。
ExIFFIは、他の最先端のADモデルと比較して、説明と計算効率において優れた効果を示す2つの公開産業データセットでテストされている。
Anomaly detection (AD) is a crucial process often required in industrial settings. Anomalies can signal underlying issues within a system, prompting further investigation. Industrial processes aim to streamline operations as much as possible, encompassing the production of the final product, making AD an essential mean to reach this goal.Conventional anomaly detection methodologies typically classify observations as either normal or anomalous without providing insight into the reasons behind these classifications.Consequently, in light of the emergence of Industry 5.0, a more desirable approach involves providing interpretable outcomes, enabling users to understand the rationale behind the results.This paper presents the first industrial application of ExIFFI, a recently developed approach focused on the production of fast and efficient explanations for the Extended Isolation Forest (EIF) Anomaly detection method. ExIFFI is tested on two publicly available industrial datasets demonstrating superior effectiveness in explanations and computational efficiency with the respect to other state-of-the-art explainable AD models. | 翻訳日:2024-05-03 16:54:18 公開日:2024-05-02 |
# EvaLatin 2024におけるTartuNLP:感情極性検出
TartuNLP at EvaLatin 2024: Emotion Polarity Detection ( http://arxiv.org/abs/2405.01159v1 ) ライセンス: Link先を確認 | Aleksei Dorkin, Kairit Sirts, | (参考訳) 本稿では,EvaLatin 2024にTartuNLPチームが提出した過去のラテン文字の感情極性検出タスクについて述べる。
我々のシステムは、教師あり学習のためのトレーニングデータアノテートのための2つの異なるアプローチに依存している。
1) 主催者が提供する極性レキシコンを採用してヒューリスティックスに基づくラベルを作成すること
2) GPT4 でラベルを生成する。
パラメータ効率のよい微調整をアダプタフレームワークを用いて行い,学習言語とタスクアダプタの単言語/言語間知識伝達実験を行った。
感情極性検出タスクにおいて, LLM 生成ラベルを用いた提案は, 総合的に第1位を達成できた。
この結果から,LLMによるアノテーションはラテン語のテキストに対して有望な結果を示すことがわかった。
This paper presents the TartuNLP team submission to EvaLatin 2024 shared task of the emotion polarity detection for historical Latin texts. Our system relies on two distinct approaches to annotating training data for supervised learning: 1) creating heuristics-based labels by adopting the polarity lexicon provided by the organizers and 2) generating labels with GPT4. We employed parameter efficient fine-tuning using the adapters framework and experimented with both monolingual and cross-lingual knowledge transfer for training language and task adapters. Our submission with the LLM-generated labels achieved the overall first place in the emotion polarity detection task. Our results show that LLM-based annotations show promising results on texts in Latin. | 翻訳日:2024-05-03 16:54:18 公開日:2024-05-02 |
# ホップクロフト問題に対する量子アルゴリズム
Quantum algorithms for Hopcroft's problem ( http://arxiv.org/abs/2405.01160v1 ) ライセンス: Link先を確認 | Vladimirs Andrejevs, Aleksandrs Belovs, Jevgēnijs Vihrovs, | (参考訳) 本研究では,計算幾何学の基本問題であるホップクロフト問題に対する量子アルゴリズムについて検討する。
平面上の$n$ポイントと$n$ラインが与えられたとき、そのタスクはポイントラインインシデントがあるかどうかを決定することである。
この問題の古典的な複雑さはよく研究されており、最もよく知られたアルゴリズムは$O(n^{4/3})$時間で実行され、いくつかの制限された設定では低い境界が一致する。
我々の結果は、時間複雑性が$\widetilde O(n^{5/6})$の2つの異なる量子アルゴリズムである。
最初のアルゴリズムはパーティションツリーと量子バックトラックアルゴリズムに基づいている。
第2のアルゴリズムは、効率的なポイントロケーションクエリをサポートするラインアレンジメントを格納するために、歴史に依存しない動的データ構造とともに量子ウォークを使用する。
点数と線数が異なる場合、量子ウォークベースのアルゴリズムは漸近的に高速である。
上記のデータ構造に対する量子スピードアップは他の幾何学的問題に有用かもしれない。
In this work we study quantum algorithms for Hopcroft's problem which is a fundamental problem in computational geometry. Given $n$ points and $n$ lines in the plane, the task is to determine whether there is a point-line incidence. The classical complexity of this problem is well-studied, with the best known algorithm running in $O(n^{4/3})$ time, with matching lower bounds in some restricted settings. Our results are two different quantum algorithms with time complexity $\widetilde O(n^{5/6})$. The first algorithm is based on partition trees and the quantum backtracking algorithm. The second algorithm uses a quantum walk together with a history-independent dynamic data structure for storing line arrangement which supports efficient point location queries. In the setting where the number of points and lines differ, the quantum walk-based algorithm is asymptotically faster. The quantum speedups for the aforementioned data structures may be useful for other geometric problems. | 翻訳日:2024-05-03 16:54:18 公開日:2024-05-02 |
# GroupedMixer:学習画像圧縮のためのグループワイドToken-Mixerを用いたエントロピーモデル
GroupedMixer: An Entropy Model with Group-wise Token-Mixers for Learned Image Compression ( http://arxiv.org/abs/2405.01170v1 ) ライセンス: Link先を確認 | Daxin Li, Yuanchao Bai, Kai Wang, Junjun Jiang, Xianming Liu, Wen Gao, | (参考訳) 近年,変圧器を用いたエントロピーモデルは,畳み込みに基づく手法と比較して,確率分布推定における長距離依存性を捉える能力に優れており,注目されている。
しかし、以前のトランスフォーマーベースのエントロピーモデルは、推論中にピクセルワイドの自己回帰や重複計算によって、ゆるやかな符号化プロセスに悩まされる。
本稿では,従来の変圧器方式よりも高速な符号化速度と圧縮性能を両立させる,GroupedMixerと呼ばれる新しい変圧器型エントロピーモデルを提案する。
具体的には、まず潜伏変数を空間チャネル次元に沿って群に分割し、次にトランスフォーマーに基づくエントロピーモデルを用いて群をエントロピー符号化することにより、群ワイド自己回帰の上に構築する。
グローバル因果自己注意はより効率的なグループワイド相互作用に分解され、内部グループとクロスグループトークン-ミキサーを用いて実装される。
内部グループトークン-ミキサはグループ内にコンテキスト要素を組み込む一方、クロスグループトークン-ミキサは以前デコードされたグループと相互作用する。
2つのトークンミキサーの交互配置は、グローバルなコンテキスト参照を可能にする。
ネットワークの推論をさらに高速化するため,GroupedMixerにコンテキストキャッシュの最適化を導入し,グループ間トークン-ミキサーのアテンションアクティベーション値をキャッシュし,複雑で重複した計算を回避する。
実験結果から,提案したGroupedMixerは高速圧縮速度で最先端の速度歪み特性が得られることがわかった。
Transformer-based entropy models have gained prominence in recent years due to their superior ability to capture long-range dependencies in probability distribution estimation compared to convolution-based methods. However, previous transformer-based entropy models suffer from a sluggish coding process due to pixel-wise autoregression or duplicated computation during inference. In this paper, we propose a novel transformer-based entropy model called GroupedMixer, which enjoys both faster coding speed and better compression performance than previous transformer-based methods. Specifically, our approach builds upon group-wise autoregression by first partitioning the latent variables into groups along spatial-channel dimensions, and then entropy coding the groups with the proposed transformer-based entropy model. The global causal self-attention is decomposed into more efficient group-wise interactions, implemented using inner-group and cross-group token-mixers. The inner-group token-mixer incorporates contextual elements within a group while the cross-group token-mixer interacts with previously decoded groups. Alternate arrangement of two token-mixers enables global contextual reference. To further expedite the network inference, we introduce context cache optimization to GroupedMixer, which caches attention activation values in cross-group token-mixers and avoids complex and duplicated computation. Experimental results demonstrate that the proposed GroupedMixer yields the state-of-the-art rate-distortion performance with fast compression speed. | 翻訳日:2024-05-03 16:54:18 公開日:2024-05-02 |
# 期待最大化基底変換を用いた不確実性認識自己学習
Uncertainty-aware self-training with expectation maximization basis transformation ( http://arxiv.org/abs/2405.01175v1 ) ライセンス: Link先を確認 | Zijia Wang, Wenbin Yang, Zhisong Liu, Zhen Jia, | (参考訳) 自己学習はディープラーニングに対する強力なアプローチです。
重要なプロセスは、モデリングのための擬似ラベルを見つけることである。
しかし、従来の自己学習アルゴリズムは、ハードラベルがもたらす過信問題に悩まされており、信頼関係の正則化器でさえ、その不確実性を包括的にキャッチできない。
そこで本研究では,モデルとデータセットの両方の不確実性情報を組み合わせるための,新たな自己学習フレームワークを提案する。
具体的には,ラベルをスムースにし,不確実性情報を包括的に推定するために期待最大化(EM)を提案する。
さらに,データセットから初期ベースを推定する基盤抽出ネットワークを設計する。
不確実性のあるベースを不確実性情報に基づいてフィルタリングすることができる。
その後、実際のハードラベルに変換して、リトレーニングプロセスでモデルとベースを反復的に更新することが可能になる。
画像分類とセマンティックセグメンテーションの実験は、異なるデータセットに対して1~3パーセント改善した自信を考慮した自己学習アルゴリズムにおいて、我々の手法の利点を示している。
Self-training is a powerful approach to deep learning. The key process is to find a pseudo-label for modeling. However, previous self-training algorithms suffer from the over-confidence issue brought by the hard labels, even some confidence-related regularizers cannot comprehensively catch the uncertainty. Therefore, we propose a new self-training framework to combine uncertainty information of both model and dataset. Specifically, we propose to use Expectation-Maximization (EM) to smooth the labels and comprehensively estimate the uncertainty information. We further design a basis extraction network to estimate the initial basis from the dataset. The obtained basis with uncertainty can be filtered based on uncertainty information. It can then be transformed into the real hard label to iteratively update the model and basis in the retraining process. Experiments on image classification and semantic segmentation show the advantages of our methods among confidence-aware self-training algorithms with 1-3 percentage improvement on different datasets. | 翻訳日:2024-05-03 16:54:18 公開日:2024-05-02 |
# SOPA: 持続可能なプロセス分析とビジネスプロセス管理の再設計のためのフレームワーク
SOPA: A Framework for Sustainability-Oriented Process Analysis and Re-design in Business Process Management ( http://arxiv.org/abs/2405.01176v1 ) ライセンス: Link先を確認 | Finn Klessascheck, Ingo Weber, Luise Pufahl, | (参考訳) 持続不可能な人的活動による地球の生態系の継続的なグローバルな劣化を考えると、企業は環境への影響を評価することがますます重要である。
その結果、ビジネスプロセス管理(BPM)の分野において、持続可能性に対するビジネスプロセスの影響を評価することが重要視されている。
しかし、ビジネスプロセスの持続可能性指向分析を目的とした既存の実践的アプローチは、環境への影響について限られた視点しか提供しない。
さらに、持続可能性駆動型プロセス分析と再設計のための明確で実用的なメカニズムを提供していません。
本稿では,サステナビリティ指向プロセス分析と再設計のためのフレームワークであるSOPAを提案し,研究する。
SOPAは、アクティビティベースのコスト(ABC)と組み合わせて持続可能性の分析にLCA(Life Cycle Assessment)を使用してBPMライフサイクルを拡張します。
我々は,SOPAとその実用性を事例研究により評価し,本研究の実用性についても考察した。
Given the continuous global degradation of the Earth's ecosystem due to unsustainable human activity, it is increasingly important for enterprises to evaluate the effects they have on the environment. Consequently, assessing the impact of business processes on sustainability is becoming an important consideration in the discipline of Business Process Management (BPM). However, existing practical approaches that aim at a sustainability-oriented analysis of business processes provide only a limited perspective on the environmental impact caused. Further, they provide no clear and practically applicable mechanism for sustainability-driven process analysis and re-design. Following a design science methodology, we here propose and study SOPA, a framework for sustainability-oriented process analysis and re-design. SOPA extends the BPM life cycle by use of Life Cycle Assessment (LCA) for sustainability analysis in combination with Activity-based Costing (ABC). We evaluate SOPA and its usefulness with a case study, by means of an implementation to support the approach, thereby also illustrating the practical applicability of this work. | 翻訳日:2024-05-03 16:54:18 公開日:2024-05-02 |
# 雑音ラベル学習のためのポテンシャルエネルギーに基づく混合モデル
Potential Energy based Mixture Model for Noisy Label Learning ( http://arxiv.org/abs/2405.01186v1 ) ライセンス: Link先を確認 | Zijia Wang, Wenbin Yang, Zhisong Liu, Zhen Jia, | (参考訳) ノイズの多いラベルからディープニューラルネットワーク(DNN)をトレーニングすることは、重要かつ困難な作業である。
しかし、既存のほとんどのアプローチは、破損したラベルに焦点を当て、固有のデータ構造の重要性を無視している。
物理におけるポテンシャルエネルギーの概念から着想を得たノイズラベルとデータのギャップを埋めるため,ノイズラベル学習のための新しいポテンシャルエネルギーベース混合モデル(PEMM)を提案する。
我々は、そのクラスセンターでポテンシャルエネルギー正則化を持つ距離ベース分類器を革新する。
提案した分類器を既存のディープラーニングのバックボーンに埋め込むことで、より優れた特徴表現を備えた堅牢なネットワークを実現できる。
彼らは本質的な構造をデータから保存することができ、ノイズ耐性が優れている。
いくつかの実世界のデータセット上で,提案モデルの有効性を解析するために,広範囲な実験を行った。
定量的な結果から,最先端の性能を達成できることが示唆された。
Training deep neural networks (DNNs) from noisy labels is an important and challenging task. However, most existing approaches focus on the corrupted labels and ignore the importance of inherent data structure. To bridge the gap between noisy labels and data, inspired by the concept of potential energy in physics, we propose a novel Potential Energy based Mixture Model (PEMM) for noise-labels learning. We innovate a distance-based classifier with the potential energy regularization on its class centers. Embedding our proposed classifier with existing deep learning backbones, we can have robust networks with better feature representations. They can preserve intrinsic structures from the data, resulting in a superior noisy tolerance. We conducted extensive experiments to analyze the efficiency of our proposed model on several real-world datasets. Quantitative results show that it can achieve state-of-the-art performance. | 翻訳日:2024-05-03 16:54:18 公開日:2024-05-02 |
# リナール型非線形振動子と量子可解性
Liénard Type Nonlinear Oscillators and Quantum Solvability ( http://arxiv.org/abs/2405.01187v1 ) ライセンス: Link先を確認 | Chithiika Ruby V, Lakshmanan M, | (参考訳) 線形および非線形減衰項を持つLi\'{e}nard型非線形発振器は古典的および量子的状態の両方において様々な動的挙動を示す。
本稿では,多種一次元Li\'{e}nard型とタイプII型発振器の例について考察する。
関連するオイラー・ラグランジュ方程式は、減衰項と強制項の特性に基づいて群に分けられる。
Li\'{e}nard型I型発振器は、しばしば局所解、等時的および非等時的発振を示し、順序パラメータが重要な役割を果たす量子力学全般において、正確に解ける。
これにはMathews-LakshmananとHiggsの発振器が含まれる。
しかし、いくつかの非線形発振器の古典解は楕円関数で表され、量子領域で準特殊解法であることが判明した。
これらの古典系の3次元一般化はより自由度を増し、複雑な力学を示す。
この論文では、それらの量子等価性についても検討する。
非等方性非線形発振器の等速一般化も古典的および量子力学的に解決され研究が進められている。
Li\'{e}nard type-II に分類される修正エムデン方程式は古典的なレベルで等時振動を示す。
この性質は、基礎となる非線形力学を研究するための貴重な道具となる。
系の量子対する研究は、典型的なPT対称系として量子領域の挙動をより深く理解する。
Li\'{e}nard-type nonlinear oscillators with linear and nonlinear damping terms exhibit diverse dynamical behavior in both the classical and quantum regimes. In this paper, we consider examples of various one-dimensional Li\'{e}nard type-I and type-II oscillators. The associated Euler-Lagrange equations are divided into groups based on the characteristics of the damping and forcing terms. The Li\'{e}nard type-I oscillators often display localized solutions, isochronous and non-isochronous oscillations and are also precisely solvable in quantum mechanics in general, where the ordering parameters play an important role. These include Mathews-Lakshmanan and Higgs oscillators. However, the classical solutions of some of the nonlinear oscillators are expressed in terms of elliptic functions and have been found to be quasi-exactly solvable in the quantum region. The three-dimensional generalizations of these classical systems add more degrees of freedom, which show complex dynamics. Their quantum equivalents are also explored in this article. The isotonic generalizations of the non-isochronous nonlinear oscillators have also been solved both classically and quantum mechanically to advance the studies. The modified Emden equation categorized as Li\'{e}nard type-II exhibits isochronous oscillations at the classical level. This property makes it a valuable tool for studying the underlying nonlinear dynamics. The study on the quantum counterpart of the system provides a deeper understanding of the behavior in the quantum realm as a typical PT-symmetric system. | 翻訳日:2024-05-03 16:54:18 公開日:2024-05-02 |
# フェデレートスパーストレーニングを指導するグラディエント・コングルリティ
Gradient-Congruity Guided Federated Sparse Training ( http://arxiv.org/abs/2405.01189v1 ) ライセンス: Link先を確認 | Chris Xing Tian, Yibing Liu, Haoliang Li, Ray C. C. Cheung, Shiqi Wang, | (参考訳) エッジコンピューティングは、人工知能と機械学習モデルをエッジデバイスにデプロイし、ローカルデータから学習し、グローバルモデルを形成するためのコラボレーションを可能にする。
Federated Learning(FL)は、データプライバシを保持しながら、このプロセスを容易にする分散機械学習技術である。
しかし、FLは、リソース制約されたデバイスに関する高い計算・通信コストや、エッジクライアント間のデータの均一性やアウト・オブ・ディストリビューションデータの存在による一般化性能の低下といった課題に直面している。
本稿では,これらの課題に対処するために,動的スパーストレーニングと勾配一致検査を統合する新しい手法であるFedSGC(Gradient-Congruity Guided Federated Sparse Training)を提案する。
提案手法は,大域的モデルに対する対立方向の勾配に関連付けられたニューロンが,他のクライアントに対して無関係あるいはあまり一般化されていない情報を含んでいて,スパーストレーニングプロセス中に切断できるという考えを生かしている。
逆に、関連する勾配が一貫した方向に成長するニューロンは、高い優先度で成長することができる。
このように、FedSGCは局所的な計算と通信オーバーヘッドを大幅に減らし、同時にFLの一般化能力を高めることができる。
提案手法は非I.d設定に挑戦する上で評価し,計算と通信コストを最小化しつつ,様々なシナリオにわたる最先端のFL手法と競合する精度を実現することを示す。
Edge computing allows artificial intelligence and machine learning models to be deployed on edge devices, where they can learn from local data and collaborate to form a global model. Federated learning (FL) is a distributed machine learning technique that facilitates this process while preserving data privacy. However, FL also faces challenges such as high computational and communication costs regarding resource-constrained devices, and poor generalization performance due to the heterogeneity of data across edge clients and the presence of out-of-distribution data. In this paper, we propose the Gradient-Congruity Guided Federated Sparse Training (FedSGC), a novel method that integrates dynamic sparse training and gradient congruity inspection into federated learning framework to address these issues. Our method leverages the idea that the neurons, in which the associated gradients with conflicting directions with respect to the global model contain irrelevant or less generalized information for other clients, and could be pruned during the sparse training process. Conversely, the neurons where the associated gradients with consistent directions could be grown in a higher priority. In this way, FedSGC can greatly reduce the local computation and communication overheads while, at the same time, enhancing the generalization abilities of FL. We evaluate our method on challenging non-i.i.d settings and show that it achieves competitive accuracy with state-of-the-art FL methods across various scenarios while minimizing computation and communication costs. | 翻訳日:2024-05-03 16:54:18 公開日:2024-05-02 |
# imagine2touch: 効率的な低次元信号を用いたロボットマニピュレーションのための予測的触覚センシング
Imagine2touch: Predictive Tactile Sensing for Robotic Manipulation using Efficient Low-Dimensional Signals ( http://arxiv.org/abs/2405.01192v1 ) ライセンス: Link先を確認 | Abdallah Ayad, Adrian Röfer, Nick Heppert, Abhinav Valada, | (参考訳) 人間は知覚に潜在的な触覚信号が組み込まれているように見える。
私たちのゴールは、Imagine2touchと呼ばれる同様の能力でロボットを装備することです。
imagine2touchは、タッチする領域を表す視覚的パッチに基づいて、期待されるタッチ信号を予測することを目的としている。
ReSkinは安価でコンパクトなタッチセンサーで、5つの基本的な幾何学的形状と1つのツールをランダムにタッチすることで必要なデータセットを収集します。
これらの形状のうち2つでImagine2touchをトレーニングし、それをoodで検証します。
道具だ
我々は、Imagine2touchの有効性を、オブジェクト認識の下流タスクに適用することで実証する。
本研究では,Imagine2touchの性能を2つの実験で評価する。
imagine2touchは、オブジェクト毎の10タッチ後に58%のオブジェクト認識精度を達成し、プロプレセプションベースラインを超える。
Humans seemingly incorporate potential touch signals in their perception. Our goal is to equip robots with a similar capability, which we term Imagine2touch. Imagine2touch aims to predict the expected touch signal based on a visual patch representing the area to be touched. We use ReSkin, an inexpensive and compact touch sensor to collect the required dataset through random touching of five basic geometric shapes, and one tool. We train Imagine2touch on two out of those shapes and validate it on the ood. tool. We demonstrate the efficacy of Imagine2touch through its application to the downstream task of object recognition. In this task, we evaluate Imagine2touch performance in two experiments, together comprising 5 out of training distribution objects. Imagine2touch achieves an object recognition accuracy of 58% after ten touches per object, surpassing a proprioception baseline. | 翻訳日:2024-05-03 16:54:18 公開日:2024-05-02 |
# 校正ニューラルネットワークの特徴抽出と分類層
Decoupling Feature Extraction and Classification Layers for Calibrated Neural Networks ( http://arxiv.org/abs/2405.01196v1 ) ライセンス: Link先を確認 | Mikkel Jordahn, Pablo Olmos, | (参考訳) ディープニューラルネットワーク(DNN)は、多くの分類アプリケーションにおいて大きな可能性を示してきたが、過度にパラメータ化された場合、キャリブレーションが不十分であることが広く知られている。
モデル精度を犠牲にすることなくDNNキャリブレーションを改善することは極めて重要であり、医療分野などの安全クリティカルな応用への関心も高い。
本研究では,WRN (Wide Residual Networks) やVisual Transformer (ViT) などの過度にパラメータ化されたDNNアーキテクチャにおいて,特徴抽出層と分類層のトレーニングを分離することで,精度を維持しながらモデルのキャリブレーションを大幅に改善し,トレーニングコストを低減できることを示す。
さらに、DNNの最後の隠れ層出力にガウスを配置し、分類訓練段階においてモデルを変動的に訓練することで、キャリブレーションをさらに改善することを示す。
本稿では,複数の画像分類ベンチマークデータセットに対して,VTおよびWRNアーキテクチャ間のキャリブレーションを改善する手法を提案する。
Deep Neural Networks (DNN) have shown great promise in many classification applications, yet are widely known to have poorly calibrated predictions when they are over-parametrized. Improving DNN calibration without comprising on model accuracy is of extreme importance and interest in safety critical applications such as in the health-care sector. In this work, we show that decoupling the training of feature extraction layers and classification layers in over-parametrized DNN architectures such as Wide Residual Networks (WRN) and Visual Transformers (ViT) significantly improves model calibration whilst retaining accuracy, and at a low training cost. In addition, we show that placing a Gaussian prior on the last hidden layer outputs of a DNN, and training the model variationally in the classification training stage, even further improves calibration. We illustrate these methods improve calibration across ViT and WRN architectures for several image classification benchmark datasets. | 翻訳日:2024-05-03 16:54:18 公開日:2024-05-02 |
# 制約付き正規化フローポリシによる解釈型強化学習に向けて
Towards Interpretable Reinforcement Learning with Constrained Normalizing Flow Policies ( http://arxiv.org/abs/2405.01198v1 ) ライセンス: Link先を確認 | Finn Rietz, Erik Schaffernicht, Stefan Heinrich, Johannes A. Stork, | (参考訳) 強化学習ポリシは一般的にブラックボックスニューラルネットワークによって表現される。
これら2つの問題に対処するために、我々は、解釈可能かつ安全な構成ポリシーモデルとして、フローポリシーの正規化を制約的に提案する。
我々は,制約満足度を保証する正規化フローを解析的に構築することにより,ドメイン知識を活用できる即時安全制約付き強化学習問題の安全性を実現する。
正規化フローは、アクションサンプル上の変換の解釈可能なシーケンスに対応し、それぞれが特定の制約に対してアライメントを確保する。
本実験は,学習プロセス全体を通して,学習の容易な目標と制約満足度を維持することによる,解釈可能性以上のメリットを明らかにする。
提案手法では,報酬工学に対する制約を活用しながら,複雑な報酬関数を頼らずに,ドメイン知識をエージェントに提供するための高度な解釈可能性,安全性,直接的な手段を提供する。
Reinforcement learning policies are typically represented by black-box neural networks, which are non-interpretable and not well-suited for safety-critical domains. To address both of these issues, we propose constrained normalizing flow policies as interpretable and safe-by-construction policy models. We achieve safety for reinforcement learning problems with instantaneous safety constraints, for which we can exploit domain knowledge by analytically constructing a normalizing flow that ensures constraint satisfaction. The normalizing flow corresponds to an interpretable sequence of transformations on action samples, each ensuring alignment with respect to a particular constraint. Our experiments reveal benefits beyond interpretability in an easier learning objective and maintained constraint satisfaction throughout the entire learning process. Our approach leverages constraints over reward engineering while offering enhanced interpretability, safety, and direct means of providing domain knowledge to the agent without relying on complex reward functions. | 翻訳日:2024-05-03 16:54:18 公開日:2024-05-02 |
# Dense Minutia Descriptorによる潜時指紋照合
Latent Fingerprint Matching via Dense Minutia Descriptor ( http://arxiv.org/abs/2405.01199v1 ) ライセンス: Link先を確認 | Zhiyu Pan, Yongjie Duan, Xiongjun Guan, Jianjiang Feng, Jie Zhou, | (参考訳) 潜伏指紋マッチングは、潜伏指紋の質が低かったため、大変な作業である。
本研究では,潜伏指紋マッチングのための深層学習型高密度ミツリニアディスクリプタ(DMD)を提案する。
DMDは、その中心ミナミヤに整列した指紋パッチを抽出し、詳細なミナミヤ情報とテクスチャ情報をキャプチャして得られる。
我々の高密度記述子は、元の画像平面に関連付けられた2次元と、抽象的な特徴を表す他の次元の2次元の3次元表現の形を取る。
さらに、抽出処理は指紋分割マップを出力し、デクリプタが前景領域でのみ有効であることを保証する。
2つの記述子間のマッチングは重なり合う領域で発生し、スコア正規化戦略により、有効領域外の差による影響を低減する。
我々の記述子は、複数の潜伏指紋データに対して最先端の性能を達成する。
全体として、我々のDMDは従来の方法よりも代表的で解釈しやすい。
Latent fingerprint matching is a daunting task, primarily due to the poor quality of latent fingerprints. In this study, we propose a deep-learning based dense minutia descriptor (DMD) for latent fingerprint matching. A DMD is obtained by extracting the fingerprint patch aligned by its central minutia, capturing detailed minutia information and texture information. Our dense descriptor takes the form of a three-dimensional representation, with two dimensions associated with the original image plane and the other dimension representing the abstract features. Additionally, the extraction process outputs the fingerprint segmentation map, ensuring that the descriptor is only valid in the foreground region. The matching between two descriptors occurs in their overlapping regions, with a score normalization strategy to reduce the impact brought by the differences outside the valid area. Our descriptor achieves state-of-the-art performance on several latent fingerprint datasets. Overall, our DMD is more representative and interpretable compared to previous methods. | 翻訳日:2024-05-03 16:54:18 公開日:2024-05-02 |
# 数ショット物理誘導時空間グラフ畳み込みネットワークに基づく学習と解決の単位コミットメント
Learning-to-solve unit commitment based on few-shot physics-guided spatial-temporal graph convolution network ( http://arxiv.org/abs/2405.01200v1 ) ライセンス: Link先を確認 | Mei Yang, Gao Qiu andJunyong Liu, Kai Liu, | (参考訳) 本稿では,物理誘導型空間時間グラフ畳み込みネットワーク(FPG-STGCN)を提案する。
まず、STGCNはUCをパラメータ化するように調整される。
そこで,数発の物理誘導学習方式を提案する。
これは、局所的な最小限から逃れるために商用オプティマイザを介して得られる典型的なUCソリューションをほとんど利用せず、ラグランジアン法を活用して制約満足度を高める。
さらに、学習過程における整数の実現可能性と連続緩和を可能にするため、混合整数解空間を完全に区別するために、Tanh-Sign合成のためのストレートスルー推定器を提案する。
IEEEベンチマークのケーススタディでは,本手法はUCの実現可能性について主流の学習方法を最優先し,従来の解法よりも効率を優先している。
This letter proposes a few-shot physics-guided spatial temporal graph convolutional network (FPG-STGCN) to fast solve unit commitment (UC). Firstly, STGCN is tailored to parameterize UC. Then, few-shot physics-guided learning scheme is proposed. It exploits few typical UC solutions yielded via commercial optimizer to escape from local minimum, and leverages the augmented Lagrangian method for constraint satisfaction. To further enable both feasibility and continuous relaxation for integers in learning process, straight-through estimator for Tanh-Sign composition is proposed to fully differentiate the mixed integer solution space. Case study on the IEEE benchmark justifies that, our method bests mainstream learning ways on UC feasibility, and surpasses traditional solver on efficiency. | 翻訳日:2024-05-03 16:54:18 公開日:2024-05-02 |
# DLAP: ソフトウェア脆弱性検出のためのディープラーニング強化大規模言語モデルプロンプトフレームワーク
DLAP: A Deep Learning Augmented Large Language Model Prompting Framework for Software Vulnerability Detection ( http://arxiv.org/abs/2405.01202v1 ) ライセンス: Link先を確認 | Yanjing Yang, Xin Zhou, Runfeng Mao, Jinwei Xu, Lanxin Yang, Yu Zhangm, Haifeng Shen, He Zhang, | (参考訳) ソフトウェア脆弱性検出は一般的に、ディープラーニング(DL)モデルによって強化された自動静的解析ツールによってサポートされている。
しかし,本研究におけるDLベースのアプローチは,ルールベースアプローチよりも優れているにもかかわらず,ソースコードの複雑な構造,DLのブラックボックスの性質,検出後のタスクに対処するためのブラックボックス結果の理解と検証に必要なドメイン知識などにより,DLアプローチを実際にソフトウェア脆弱性検出に適用することは依然として課題である。
従来のDLモデルは特定のプロジェクトによって訓練されるため、これらのプロジェクトの脆弱性を特定するのに優れているが、他のプロジェクトではそうではない。
脆弱性検出のパフォーマンスが低いこれらのモデルは、ロケーションやリカバリといった下流タスクに影響を及ぼす。
さらに重要なのは、これらのモデルが開発者が検出結果を理解するための説明を提供していないことだ。
対照的に、LLM(Large Language Models)は、プロンプト技術を活用してこれらの問題に対処する上で、多くの進歩を遂げています。
残念ながら、脆弱性を特定するパフォーマンスは不十分だ。
本稿では,DLモデルとLDMの両方の長所を組み合わせ,例外的な脆弱性検出性能を実現するためのフレームワークである 'textbf{\DLAP}, a \underline{\textbf{D}}eep \underline{\textbf{L}}earning \underline{\textbf{A}}ugmented LLMs \underline{\textbf{P}}rompting を提案する。
実験の結果, DLAPは役割ベースのプロンプト, 補助情報プロンプト, チェーン・オブ・コンテクストのプロンプト, テキスト内学習プロンプトなど, 最先端のプロンプトフレームワークよりも優れており, 複数の指標を微調整する。
Software vulnerability detection is generally supported by automated static analysis tools, which have recently been reinforced by deep learning (DL) models. However, despite the superior performance of DL-based approaches over rule-based ones in research, applying DL approaches to software vulnerability detection in practice remains a challenge due to the complex structure of source code, the black-box nature of DL, and the domain knowledge required to understand and validate the black-box results for addressing tasks after detection. Conventional DL models are trained by specific projects and, hence, excel in identifying vulnerabilities in these projects but not in others. These models with poor performance in vulnerability detection would impact the downstream tasks such as location and repair. More importantly, these models do not provide explanations for developers to comprehend detection results. In contrast, Large Language Models (LLMs) have made lots of progress in addressing these issues by leveraging prompting techniques. Unfortunately, their performance in identifying vulnerabilities is unsatisfactory. This paper contributes \textbf{\DLAP}, a \underline{\textbf{D}}eep \underline{\textbf{L}}earning \underline{\textbf{A}}ugmented LLMs \underline{\textbf{P}}rompting framework that combines the best of both DL models and LLMs to achieve exceptional vulnerability detection performance. Experimental evaluation results confirm that \DLAP outperforms state-of-the-art prompting frameworks, including role-based prompts, auxiliary information prompts, chain-of-thought prompts, and in-context learning prompts, as well as fine-turning on multiple metrics. | 翻訳日:2024-05-03 16:54:18 公開日:2024-05-02 |
# CTにおける骨折骨切片の横断的注意と表面監督に向けて
Towards Cross-Scale Attention and Surface Supervision for Fractured Bone Segmentation in CT ( http://arxiv.org/abs/2405.01204v1 ) ライセンス: Link先を確認 | Yu Zhou, Xiahao Zou, Yi Wang, | (参考訳) 骨折外傷手術の術前計画には骨分節が不可欠である。
CT(Computed tomography)スキャンによる骨折骨の自動分割は, 骨折の位置と形態が大きく異なること, 骨構造の解剖学的特徴が異なることなどから, 依然として困難である。
これらの問題を緩和するため,CTにおける骨折骨片の観察および表面管理戦略として,クロススケールアテンション機構を提案する。
具体的には、異なるスケール間の特徴を効果的に集約し、より強力な破壊表現を提供するために、クロススケールアテンション機構を導入する。
さらに,骨境界に注意を払うためにネットワークを明示的に拘束する表面監視戦略が採用されている。
本手法の有効性を, 股関節骨折を有するCTスキャンを含む公的データセットを用いて評価した。
評価指標はDice similarity coefficient(DSC)、平均対称表面距離(ASSD)、Hausdorff distance(95HD)である。
提案手法は,平均DSC93.36%,ASSD0.85mm,95HD7.51mmを実現する。
本手法は骨盤CT検査に有効な骨折分割法を提供し,他の骨折のセグメント化性能向上に有効である可能性が示唆された。
Bone segmentation is an essential step for the preoperative planning of fracture trauma surgery. The automated segmentation of fractured bone from computed tomography (CT) scans remains challenging, due to the large differences of fractures in position and morphology, and also the inherent anatomical characteristics of different bone structures. To alleviate these issues, we propose a cross-scale attention mechanism as well as a surface supervision strategy for fractured bone segmentation in CT. Specifically, a cross-scale attention mechanism is introduced to effectively aggregate the features among different scales to provide more powerful fracture representation. Moreover, a surface supervision strategy is employed, which explicitly constrains the network to pay more attention to the bone boundary. The efficacy of the proposed method is evaluated on a public dataset containing CT scans with hip fractures. The evaluation metrics are Dice similarity coefficient (DSC), average symmetric surface distance (ASSD), and Hausdorff distance (95HD). The proposed method achieves an average DSC of 93.36%, ASSD of 0.85mm, 95HD of 7.51mm. Our method offers an effective fracture segmentation approach for the pelvic CT examinations, and has the potential to be used for improving the segmentation performance of other types of fractures. | 翻訳日:2024-05-03 16:44:25 公開日:2024-05-02 |
# エラー駆動型不確かさ認識訓練
Error-Driven Uncertainty Aware Training ( http://arxiv.org/abs/2405.01205v1 ) ライセンス: Link先を確認 | Pedro Mendes, Paolo Romano, David Garlan, | (参考訳) ニューラルネットワークは、しばしば彼らの予測を過度に信頼しており、信頼性と信頼性を損なう。
本研究では,ニューラルネットワークが不確かさを正確に推定する能力を高めることを目的とした,誤り駆動不確実性意識訓練(EUAT)という新しい手法を提案する。
EUATアプローチは、モデルのトレーニングフェーズ中に、トレーニング例が正しく、または正しく予測されているかどうかに応じて、2つの損失関数を選択的に使用することによって機能する。
これにより、2倍の目標を追求することができる。
一 正しく予測された入力のモデル不確実性を最小化すること。
二 モデルの誤予測率を維持しつつ、誤予測入力の不確かさを最大化すること。
画像認識領域における多様なニューラルモデルとデータセットを用いてEUATを評価する。
その結果、EUATは、統計指標(例えば、残差との相関関係)を用いて評価した場合に高い品質を持つ不確実性推定を提供するとともに、モデルの出力が信頼可能かどうか、分散データシフトの下で判断するバイナリ分類器を構築する際にも、既存の不確実性評価手法(他の不確実性学習手法、校正、アンサンブル、DEUPを含む)よりも優れていた。
Neural networks are often overconfident about their predictions, which undermines their reliability and trustworthiness. In this work, we present a novel technique, named Error-Driven Uncertainty Aware Training (EUAT), which aims to enhance the ability of neural models to estimate their uncertainty correctly, namely to be highly uncertain when they output inaccurate predictions and low uncertain when their output is accurate. The EUAT approach operates during the model's training phase by selectively employing two loss functions depending on whether the training examples are correctly or incorrectly predicted by the model. This allows for pursuing the twofold goal of i) minimizing model uncertainty for correctly predicted inputs and ii) maximizing uncertainty for mispredicted inputs, while preserving the model's misprediction rate. We evaluate EUAT using diverse neural models and datasets in the image recognition domains considering both non-adversarial and adversarial settings. The results show that EUAT outperforms existing approaches for uncertainty estimation (including other uncertainty-aware training techniques, calibration, ensembles, and DEUP) by providing uncertainty estimates that not only have higher quality when evaluated via statistical metrics (e.g., correlation with residuals) but also when employed to build binary classifiers that decide whether the model's output can be trusted or not and under distributional data shifts. | 翻訳日:2024-05-03 16:44:25 公開日:2024-05-02 |
# 摂動損失特徴を考慮したASRモデルにおけるメンバーシップ推論の改善
Improving Membership Inference in ASR Model Auditing with Perturbed Loss Features ( http://arxiv.org/abs/2405.01207v1 ) ライセンス: Link先を確認 | Francisco Teixeira, Karla Pizzi, Raphael Olivier, Alberto Abad, Bhiksha Raj, Isabel Trancoso, | (参考訳) メンバーシップ推論(MI)は、ASR(Automatic Speech Recognition)システムのトレーニングデータに対してかなりのプライバシー上の脅威となると同時に、ユーザデータに関してこれらのモデルを監査する機会を提供する。
本稿では,ASRモデルにおけるMIを実現するために,ガウスと逆方向の摂動を併用した損失に基づく特徴量の有効性について検討する。
私たちの知る限りでは、このアプローチはまだ検討されていない。
提案機能と一般的なエラーベース機能を比較し,提案機能によりサンプルレベルMIの性能が大幅に向上することを確認した。
話者レベルMIの場合、これらの機能は結果を改善するが、エラーベースの機能はすでにこのタスクで高いパフォーマンスを得たため、マージンは小さくなる。
本研究は,ASRシステムにおいて,対象モデルに対する異なる特徴セットとアクセスレベルを効果的MIとして考慮することの重要性を強調し,そのようなモデルの監査に有用な洞察を提供する。
Membership Inference (MI) poses a substantial privacy threat to the training data of Automatic Speech Recognition (ASR) systems, while also offering an opportunity to audit these models with regard to user data. This paper explores the effectiveness of loss-based features in combination with Gaussian and adversarial perturbations to perform MI in ASR models. To the best of our knowledge, this approach has not yet been investigated. We compare our proposed features with commonly used error-based features and find that the proposed features greatly enhance performance for sample-level MI. For speaker-level MI, these features improve results, though by a smaller margin, as error-based features already obtained a high performance for this task. Our findings emphasise the importance of considering different feature sets and levels of access to target models for effective MI in ASR systems, providing valuable insights for auditing such models. | 翻訳日:2024-05-03 16:44:25 公開日:2024-05-02 |
# ショット・ツー・ショット数変動の存在下での単原子分解検出器のトモグラフィー
Tomography of a single-atom-resolved detector in the presence of shot-to-shot number fluctuations ( http://arxiv.org/abs/2405.01211v1 ) ライセンス: Link先を確認 | Maxime Allemand, Raphael Jannin, Géraud Dupuy, Jan-Philipp Bureik, Luca Pezzè, Denis Boiron, David Clément, | (参考訳) 単一粒子分解検出器のトモグラフィーは、量子力学、量子シミュレーション、量子コンピューティングにおける粒子相関を特徴づけるのに重要である。
しかし、測定に影響を及ぼすが検出器から発せられるようなノイズが避けられないため、実際には非自明な作業である。
本研究では, 原子数変動が中心的な問題であり, 量子検出器トモグラフィーを行う3次元単原子分解検出器としてこの問題に対処する。
検出器のサブボリュームにおけるカウント統計の並列計測を利用して、ショット・ツー・ショットの変動の影響を評価し、検出器の局所トモグラフィーを実行することで、この難しさを克服する。
さらに,数値統計の異なるガウス量子状態に適用する手法の有効性について述べる。
最後に, マイクロチャネルプレート検出器の応答は, 検出効率を単一パラメータとする二項分布を用いてよく記述されていることを示す。
Tomography of single-particle-resolved detectors is of primary importance for characterizing particle correlations with applications in quantum metrology, quantum simulation and quantum computing. However, it is a non-trivial task in practice due to the unavoidable presence of noise that affects the measurement but does not originate from the detector. In this work, we address this problem for a three-dimensional single-atom-resolved detector where shot-to-shot atom number fluctuations are a central issue to perform a quantum detector tomography. We overcome this difficulty by exploiting the parallel measurement of counting statistics in sub-volumes of the detector, from which we evaluate the effect of shot-to-shot fluctuations and perform a local tomography of the detector. In addition, we illustrate the validity of our method from applying it to Gaussian quantum states with different number statistics. Finally, we show that the response of Micro-Channel Plate detectors is well-described from using a binomial distribution with the detection efficiency as a single parameter. | 翻訳日:2024-05-03 16:44:25 公開日:2024-05-02 |
# DMON: argument Structure Learningのためのシンプルで効果的なアプローチ
DMON: A Simple yet Effective Approach for Argument Structure Learning ( http://arxiv.org/abs/2405.01216v1 ) ライセンス: Link先を確認 | Wei Sun, Mingxiao Li, Jingyuan Sun, Jesse Davis, Marie-Francine Moens, | (参考訳) 引数構造学習〜(ASL)は、引数間の関係を予測する。
その理解を促進するために文書を構築できるため、多くの分野(医療、商業、科学分野)で広く適用されてきた。
広範に活用されているにもかかわらず、ASLは文間の複雑な関係を潜在的に構造化されていない言説で検証するので、難しい課題である。
この問題を解決するために、我々は、ASLタスクのためのDual-tower Multi-scale cOnvolution Neural Network~(DMON)と呼ばれるシンプルで効果的なアプローチを開発した。
具体的には、議論を関係行列に整理し、議論埋め込みと共に関係テンソルを形成し、文脈的議論と関係を捉えるメカニズムを設計する。
3つの異なるドメインの引数マイニングデータセットの実験結果から、我々のフレームワークは最先端のモデルよりも優れていることが示された。
コードはhttps://github.com/VRCMF/DMON.gitで公開されている。
Argument structure learning~(ASL) entails predicting relations between arguments. Because it can structure a document to facilitate its understanding, it has been widely applied in many fields~(medical, commercial, and scientific domains). Despite its broad utilization, ASL remains a challenging task because it involves examining the complex relationships between the sentences in a potentially unstructured discourse. To resolve this problem, we have developed a simple yet effective approach called Dual-tower Multi-scale cOnvolution neural Network~(DMON) for the ASL task. Specifically, we organize arguments into a relationship matrix that together with the argument embeddings forms a relationship tensor and design a mechanism to capture relations with contextual arguments. Experimental results on three different-domain argument mining datasets demonstrate that our framework outperforms state-of-the-art models. The code is available at https://github.com/VRCMF/DMON.git . | 翻訳日:2024-05-03 16:44:25 公開日:2024-05-02 |
# CromSS:リモートセンシング画像セグメンテーションのためのノイズラベルを用いたクロスモーダル事前学習
CromSS: Cross-modal pre-training with noisy labels for remote sensing image segmentation ( http://arxiv.org/abs/2405.01217v1 ) ライセンス: Link先を確認 | Chenying Liu, Conrad Albrecht, Yi Wang, Xiao Xiang Zhu, | (参考訳) 地理空間的応用のためのマルチモーダル学習フレームワークにおいて,事前学習型セマンティックセマンティックセマンティクスモデルに対する雑音ラベルyの可能性について検討する。
具体的には、画素 x とクラス c 上のクラス分布 P^{(d)}(x,c) を利用するクロスモーダルサンプル選択法(CromSS)を提案する。
センサ$d$間の予測の一貫性は、P^{(d)}(x,c)のエントロピーによって共同で通知される。
ノイズラベルサンプリングは、ノイズクラスラベル P^{(d)}(x,c=y(x)) における各センサdの信頼度によって決定される。
提案手法の有効性を検証するため,世界規模のSSL4EO-S12データセットから,Sentinel-1(レーダー)とSentinel-2(光学)の衛星画像を用いて実験を行った。
これらのシーンは、事前トレーニングのためにGoogle Dynamic Worldプロジェクトから派生した9クラスのノイズラベルとペアリングします。
DFC2020データセットの転送学習評価(ダウンストリームタスク)により,リモートセンシング画像セグメンテーションにおける提案手法の有効性が確認された。
We study the potential of noisy labels y to pretrain semantic segmentation models in a multi-modal learning framework for geospatial applications. Specifically, we propose a novel Cross-modal Sample Selection method (CromSS) that utilizes the class distributions P^{(d)}(x,c) over pixels x and classes c modelled by multiple sensors/modalities d of a given geospatial scene. Consistency of predictions across sensors $d$ is jointly informed by the entropy of P^{(d)}(x,c). Noisy label sampling we determine by the confidence of each sensor d in the noisy class label, P^{(d)}(x,c=y(x)). To verify the performance of our approach, we conduct experiments with Sentinel-1 (radar) and Sentinel-2 (optical) satellite imagery from the globally-sampled SSL4EO-S12 dataset. We pair those scenes with 9-class noisy labels sourced from the Google Dynamic World project for pretraining. Transfer learning evaluations (downstream task) on the DFC2020 dataset confirm the effectiveness of the proposed method for remote sensing image segmentation. | 翻訳日:2024-05-03 16:44:25 公開日:2024-05-02 |
# 散逸相転移:量子ビットから量子ビットへ
Dissipative phase transition: from qubits to qudits ( http://arxiv.org/abs/2405.01223v1 ) ライセンス: Link先を確認 | Lukas Pausch, François Damanet, Thierry Bastin, John Martin, | (参考訳) 量子多体系における散逸相転移の運命について、個々の成分が量子ビットではなくクイディット(d$レベル系)である場合について検討する。
例えば、置換不変な$XY$モデルである$N$無限範囲の相互作用を持つ$d$レベルのスピンは、個人と集団の散逸によって生じる。
平均場限界では、パラメータの適切な再スケーリングの後、臨界点が$d$とは独立な散逸相転移を同定する。
隣り合う全てのレベル間の崩壊速度が同じで$d\geq 4$であるとき、臨界点は、散逸と相互作用強度の比において、2つの相が共存し、d$が増加すると増加する臨界領域へと拡大する。
さらに、より大きい$d$は、臨界点におけるスピン期待値のより顕著な変化につながる。
有限$N$に対する数値的な研究は、位相遷移におけるリウヴィリアスペクトルの対称性の破れ符号を明らかにする。
さらに、相転移は最大エンタングルメント負性度と定常状態の顕著な純度変化によって特徴づけられ、より顕著に$d$ increaseと発音される。
キュービットの代わりにキューディットを考えると、オープン多体系におけるリッチ位相図へのアクセスに関する新たな視点が開かれる。
We investigate the fate of dissipative phase transitions in quantum many-body systems when the individual constituents are qudits ($d$-level systems) instead of qubits. As an example system, we employ a permutation-invariant $XY$ model of $N$ infinite-range interacting $d$-level spins undergoing individual and collective dissipation. In the mean-field limit, we identify a dissipative phase transition, whose critical point is independent of $d$ after a suitable rescaling of parameters. When the decay rates between all adjacent levels are identical and $d\geq 4$, the critical point expands, in terms of the ratio between dissipation and interaction strengths, to a critical region in which two phases coexist and which increases as $d$ grows. In addition, a larger $d$ leads to a more pronounced change in spin expectation values at the critical point. Numerical investigations for finite $N$ reveal symmetry breaking signatures in the Liouvillian spectrum at the phase transition. The phase transition is furthermore marked by maximum entanglement negativity and a significant purity change of the steady state, which become more pronounced as $d$ increases. Considering qudits instead of qubits thus opens new perspectives on accessing rich phase diagrams in open many-body systems. | 翻訳日:2024-05-03 16:44:25 公開日:2024-05-02 |
# CoolWalks:都市路面ネットワークにおけるアクティブモビリティのための日陰ルーティングの可能性の評価
CoolWalks: Assessing the potential of shaded routing for active mobility in urban street networks ( http://arxiv.org/abs/2405.01225v1 ) ライセンス: Link先を確認 | Henrik Wolf, Ane Rahbek Vierø, Michael Szell, | (参考訳) ウォーキングは都市移動の最も持続可能な形態であるが、不愉快または不健康な日光にさらされることによって妥協されている。
建物からのシェードは、歩行者の冷却と保護を提供することができるが、この潜在的な利益の程度は不明である。
ここでは、ビルの足跡と、合成と実際の両方の都市の街路網を用いて、日陰歩行の可能性を探る。
日射回避パラメータが$\alpha$の経路選択モデルを導入し、CoolWalkabilityメトリックを定義して、日陰を歩く機会を計測する。
解析学的には、一定の建物の高さを持つ正規グリッドでは、CoolWalkabilityは$\alpha$とは独立であり、最も短い経路と比較して、このグリッドは、CoolWalkabilityの利点を提供しない。
しかし、道路形状や建物の高さのバリエーションは、そのような利点を生み出している。
さらに、影付きルーティングの可能性は、格子状および不規則な街路網によって異なり、局所クラスタを形成し、マップ化されたネットワーク形状に敏感であることも明らかにした。
我々の研究は、冷涼で活発な旅行における日陰の限界と可能性を特定し、都市における持続可能な移動のための日陰供給の厳密な理解に向けた第一歩である。
Walking is the most sustainable form of urban mobility, but is compromised by uncomfortable or unhealthy sun exposure, which is an increasing problem due to global warming. Shade from buildings can provide cooling and protection for pedestrians, but the extent of this potential benefit is unknown. Here we explore the potential for shaded walking, using building footprints and street networks from both synthetic and real cities. We introduce a route choice model with a sun avoidance parameter $\alpha$ and define the CoolWalkability metric to measure opportunities for walking in shade. We derive analytically that on a regular grid with constant building heights, CoolWalkability is independent of $\alpha$, and that the grid provides no CoolWalkability benefit for shade-seeking individuals compared to the shortest path. However, variations in street geometry and building heights create such benefits. We further uncover that the potential for shaded routing differs between grid-like and irregular street networks, forms local clusters, and is sensitive to the mapped network geometry. Our research identifies the limitations and potential of shade for cool, active travel, and is a first step towards a rigorous understanding of shade provision for sustainable mobility in cities. | 翻訳日:2024-05-03 16:44:25 公開日:2024-05-02 |
# マルチモーダルグローバル最適化における冗長リスタートの回避
Avoiding Redundant Restarts in Multimodal Global Optimization ( http://arxiv.org/abs/2405.01226v1 ) ライセンス: Link先を確認 | Jacob de Nobel, Diederick Vermetten, Anna V. Kononova, Ofer M. Shir, Thomas Bäck, | (参考訳) マルチモーダルな検索ランドスケープで操作する場合、Na\"5"は、Couponのコレクター問題に似ており、アトラクションの同一領域を再検討する上で、重要な機能評価予算を浪費する可能性がある。
本稿では,標準的なマルチモーダルベンチマーク関数において,このような‘duplicate restarts'が生じる程度を評価し,それぞれのランドスケープの‘textit{redundancy potential’を定義する。
そこで本研究では,CMA-ESを用いた再起動防止機構を提案するとともに,従来の再起動機構と比較して高い冗長性を有するテストケースに対する有効性について検討する。
Na\"ive restarts of global optimization solvers when operating on multimodal search landscapes may resemble the Coupon's Collector Problem, with a potential to waste significant function evaluations budget on revisiting the same basins of attractions. In this paper, we assess the degree to which such ``duplicate restarts'' occur on standard multimodal benchmark functions, which defines the \textit{redundancy potential} of each particular landscape. We then propose a repelling mechanism to avoid such wasted restarts with the CMA-ES and investigate its efficacy on test cases with high redundancy potential compared to the standard restart mechanism. | 翻訳日:2024-05-03 16:44:25 公開日:2024-05-02 |
# RaffeSDG: 医用画像分割のための単一ソース領域一般化を可能にするランダム周波数フィルタリング
RaffeSDG: Random Frequency Filtering enabled Single-source Domain Generalization for Medical Image Segmentation ( http://arxiv.org/abs/2405.01228v1 ) ライセンス: Link先を確認 | Heng Li, Haojin Li, Jianyu Chen, Zhongxi Qiu, Huazhu Fu, Lidai Wang, Yan Hu, Jiang Liu, | (参考訳) ディープラーニングモデルは、ソースとターゲットデータの間にドメインシフトがある場合、正確な推論を行う際の課題に直面することが多い。
この問題は、医療データの専門的・私的な性質から得られた注釈付きデータの不足により、臨床現場で特に顕著である。
適切なソリューションが存在するにもかかわらず、データ収集と計算の複雑さの制限により、その多くが臨床環境で妨げられている。
データスカース医療シナリオにおけるドメインシフトに対処するため、単一ソースドメインでトレーニングされたセグメンテーションモデルを用いて、堅牢なドメイン外推論を約束するRaffeSDG(Random frequency filtering enabled Single-source Domain Generalization Algorithm)を提案する。
フィルタに基づくデータ拡張戦略は、周波数空間のばらつきを導入し、ホモロジーサンプルをブレンドすることによって、単一ソース領域内のドメイン変動を促進するために最初に提案される。
次に、ガウスフィルタに基づく構造的サリエンシも利用して、拡張サンプル全体にわたる堅牢な表現を学習し、さらに一般化可能なセグメンテーションモデルのトレーニングを容易にする。
RaffeSDGの有効性を検証するために,4つの異なるモードで画像化された3つのヒト組織に対するセグメンテーションタスクに対するドメイン外推論を含む広範囲な実験を行った。
徹底的な調査と比較を通じて、これらの実験で説得力のある証拠が観察され、RaffeSDGの可能性と一般化可能性が示された。
コードはhttps://github.com/liamheng/Non-IID_Medical_Image_Segmentationで公開されている。
Deep learning models often encounter challenges in making accurate inferences when there are domain shifts between the source and target data. This issue is particularly pronounced in clinical settings due to the scarcity of annotated data resulting from the professional and private nature of medical data. Despite the existence of decent solutions, many of them are hindered in clinical settings due to limitations in data collection and computational complexity. To tackle domain shifts in data-scarce medical scenarios, we propose a Random frequency filtering enabled Single-source Domain Generalization algorithm (RaffeSDG), which promises robust out-of-domain inference with segmentation models trained on a single-source domain. A filter-based data augmentation strategy is first proposed to promote domain variability within a single-source domain by introducing variations in frequency space and blending homologous samples. Then Gaussian filter-based structural saliency is also leveraged to learn robust representations across augmented samples, further facilitating the training of generalizable segmentation models. To validate the effectiveness of RaffeSDG, we conducted extensive experiments involving out-of-domain inference on segmentation tasks for three human tissues imaged by four diverse modalities. Through thorough investigations and comparisons, compelling evidence was observed in these experiments, demonstrating the potential and generalizability of RaffeSDG. The code is available at https://github.com/liamheng/Non-IID_Medical_Image_Segmentation. | 翻訳日:2024-05-03 16:44:25 公開日:2024-05-02 |
# Momentumによるジェイルブレイク攻撃の強化
Boosting Jailbreak Attack with Momentum ( http://arxiv.org/abs/2405.01229v1 ) ライセンス: Link先を確認 | Yihao Zhang, Zeming Wei, | (参考訳) 大規模言語モデル(LLM)は様々なタスクで顕著な成功を収めているが、敵攻撃、特に文書化された 'textit{jailbreak} 攻撃に弱いままである。
近年、Greedy Coordinate Gradient (GCG) 攻撃は、勾配ヒューリスティックスとグリーディサーチを組み合わせることで、敵のプロンプトを最適化することで、この脆弱性を悪用する効果を実証している。
しかし、この攻撃の効率は攻撃プロセスのボトルネックになっている。
この制限を緩和するために,本論文では,最適化レンズによる逆方向のプロンプトの生成を再考し,最適化プロセスの安定化と,以前のイテレーションからのよりヒューリスティックな洞察を活用することを目的とした。
具体的には、運動量項を勾配ヒューリスティックに組み込んだ G\textbf{C}G (\textbf{MAC}) 攻撃を導入する。
実験結果から,MAPによる言語モデルへの勾配に基づく攻撃の顕著な向上が示された。
私たちのコードはhttps://github.com/weizeming/momentum- attack-llm.comで利用可能です。
Large Language Models (LLMs) have achieved remarkable success across diverse tasks, yet they remain vulnerable to adversarial attacks, notably the well-documented \textit{jailbreak} attack. Recently, the Greedy Coordinate Gradient (GCG) attack has demonstrated efficacy in exploiting this vulnerability by optimizing adversarial prompts through a combination of gradient heuristics and greedy search. However, the efficiency of this attack has become a bottleneck in the attacking process. To mitigate this limitation, in this paper we rethink the generation of adversarial prompts through an optimization lens, aiming to stabilize the optimization process and harness more heuristic insights from previous iterations. Specifically, we introduce the \textbf{M}omentum \textbf{A}ccelerated G\textbf{C}G (\textbf{MAC}) attack, which incorporates a momentum term into the gradient heuristic. Experimental results showcase the notable enhancement achieved by MAP in gradient-based attacks on aligned language models. Our code is available at https://github.com/weizeming/momentum-attack-llm. | 翻訳日:2024-05-03 16:44:25 公開日:2024-05-02 |
# 混在環境におけるビデオベースrPPGの評価:アーチファクト緩和とネットワークレジリエンス
Evaluation of Video-Based rPPG in Challenging Environments: Artifact Mitigation and Network Resilience ( http://arxiv.org/abs/2405.01230v1 ) ライセンス: Link先を確認 | Nhi Nguyen, Le Nguyen, Honghan Li, Miguel Bordallo López, Constantino Álvarez Casado, | (参考訳) ビデオベースリモート光胸腺撮影(rPPG)は、特に制御条件下での非接触バイタルサインモニタリングのための有望な技術として登場した。
しかし、実世界のシナリオにおけるバイタルサインの正確な測定には、ビデオコーデックによって誘導されるアーティファクト、低照度ノイズ、劣化、低ダイナミックレンジ、オクルージョン、ハードウェアとネットワークの制約など、いくつかの課題に直面している。
本稿では,これらの問題を包括的に調査し,その劣化がrPPG測定の質に及ぼす影響を定量的に検討する。
さらに,ビデオベースのrPPGシステムの信頼性とレジリエンスを向上させるため,これらの課題を軽減するための実用的な戦略を提案する。
本稿では,ネットワーク制限の存在下での効果的な生体信号回復手法と,映像フレームの整合性を維持するためのデノナイズ・インペインティング技術について述べる。
広範囲な評価と直接比較を通じて,課題のある環境下でのrPPG測定を向上する手法の有効性を実証し,より信頼性が高く効果的なリモートバイタルサインモニタリング技術の開発に寄与する。
Video-based remote photoplethysmography (rPPG) has emerged as a promising technology for non-contact vital sign monitoring, especially under controlled conditions. However, the accurate measurement of vital signs in real-world scenarios faces several challenges, including artifacts induced by videocodecs, low-light noise, degradation, low dynamic range, occlusions, and hardware and network constraints. In this article, we systematically investigate comprehensive investigate these issues, measuring their detrimental effects on the quality of rPPG measurements. Additionally, we propose practical strategies for mitigating these challenges to improve the dependability and resilience of video-based rPPG systems. We detail methods for effective biosignal recovery in the presence of network limitations and present denoising and inpainting techniques aimed at preserving video frame integrity. Through extensive evaluations and direct comparisons, we demonstrate the effectiveness of the approaches in enhancing rPPG measurements under challenging environments, contributing to the development of more reliable and effective remote vital sign monitoring technologies. | 翻訳日:2024-05-03 16:44:25 公開日:2024-05-02 |
# 微分プライシングとヘッジにおける微分機械学習の数学
Mathematics of Differential Machine Learning in Derivative Pricing and Hedging ( http://arxiv.org/abs/2405.01233v1 ) ライセンス: Link先を確認 | Pedro Duarte Gomes, | (参考訳) 本稿では、厳密な数学的枠組みを通じて、金融微分機械学習アルゴリズムの画期的な概念を紹介する。
この研究は、金融機械学習に関する既存の文献から切り離され、機械学習アルゴリズムの構築に関する金融モデルにおける理論的仮定の深い影響を強調している。
この取り組みは特にタイムリーに行われ、金融業界はデリバティブ製品の評価とヘッジのためのデータ駆動モデルへの関心の高まりを目撃している。
特に、ニューラルネットワークの予測能力は、学術研究と実践的な金融応用の両方において大きな注目を集めている。
このアプローチは、理論レベルと実験結果の両方において包括的な比較を促進する統一的な理論基盤を提供する。
重要なことは、この理論的根拠は実験結果にかなりの重みを与え、一般的な文脈における微分機械学習手法の最適性を確認することである。
厳密な数学の洞察を固定することで、この論文は抽象的な金融概念と実践的なアルゴリズムの実装のギャップを埋める。
This article introduces the groundbreaking concept of the financial differential machine learning algorithm through a rigorous mathematical framework. Diverging from existing literature on financial machine learning, the work highlights the profound implications of theoretical assumptions within financial models on the construction of machine learning algorithms. This endeavour is particularly timely as the finance landscape witnesses a surge in interest towards data-driven models for the valuation and hedging of derivative products. Notably, the predictive capabilities of neural networks have garnered substantial attention in both academic research and practical financial applications. The approach offers a unified theoretical foundation that facilitates comprehensive comparisons, both at a theoretical level and in experimental outcomes. Importantly, this theoretical grounding lends substantial weight to the experimental results, affirming the differential machine learning method's optimality within the prevailing context. By anchoring the insights in rigorous mathematics, the article bridges the gap between abstract financial concepts and practical algorithmic implementations. | 翻訳日:2024-05-03 16:44:25 公開日:2024-05-02 |
# 簡易短距離FSOリンクによるソーラーブラインドQKD
Solar-Blind QKD over Simplified Short-Range FSO Link ( http://arxiv.org/abs/2405.01236v1 ) ライセンス: Link先を確認 | Florian Honz, Michael Hentschel, Philip Walther, Hannes Hübel, Bernhard Schrenk, | (参考訳) 大規模コアファイバがアクティブアライメントを代用する屋外自由空間リンク上でのQKDとデータ通信を実証する。
さらに,空間フィルタリングの欠如にもかかわらず,EバンドQKDは日中安定で頑健であることを示す。
We demonstrate QKD and data communication over an out-door free-space link where large-core fiber substitutes active alignment. We further prove E-band QKD as stable and robust under full daylight, despite the loss of spatial filtering. | 翻訳日:2024-05-03 16:44:25 公開日:2024-05-02 |
# 量子通信リンクを供給するフォトニックバイCMOSにおけるグループIVエミッタの最初の実証
First Demonstration of a Group-IV Emitter on Photonic BiCMOS Supplying a Quantum Communication Link ( http://arxiv.org/abs/2405.01237v1 ) ライセンス: Link先を確認 | Florian Honz, Michael Hentschel, Stefan Jessenig, Jochen Kraft, Philip Walther, Bernhard Schrenk, | (参考訳) 我々は、QKD送信機の光供給としてシリコンオン絶縁体発光器を実装し、電子BiCMOSウエハに転送する。
短波データ伝送と共存して、短距離でセキュア鍵が確立される。
We implement a silicon-on-insulator light emitter as optical supply for a QKD transmitter and transfer it to an electronic BiCMOS wafer. A secure key is established over short reach in co-existence with shortwave data transmission. | 翻訳日:2024-05-03 16:44:25 公開日:2024-05-02 |
# TRAMBA: 携帯・ウェアラブルプラットフォーム上での音声・骨伝導音声の高分解能・高機能化のためのハイブリッドトランスフォーマとマンバアーキテクチャ
TRAMBA: A Hybrid Transformer and Mamba Architecture for Practical Audio and Bone Conduction Speech Super Resolution and Enhancement on Mobile and Wearable Platforms ( http://arxiv.org/abs/2405.01242v1 ) ライセンス: Link先を確認 | Yueyuan Sui, Minghui Zhao, Junxi Xia, Xiaofan Jiang, Stephen Xia, | (参考訳) 本稿では,モバイルおよびウェアラブルプラットフォームに適した音響・骨伝導音声強調のためのハイブリッドトランスフォーマーTRAMBAとMambaアーキテクチャを提案する。
骨伝導音声強調は、モバイルおよびウェアラブルプラットフォームで採用されるには、いくつかの理由から非現実的である。
i) データ収集は労働集約的であり,その結果,不足する。
(II)数百MBのメモリフットプリントを持つ最先端モデルと資源制約システムに適した手法の間には,性能ギャップが存在する。
TRAMBAを振動に基づくセンシングに適応させるため、広範に利用できる音声音声データセットを用いてTRAMBAを事前訓練する。
そして、少量の骨伝導データで微調整を行う。
TRAMBAは、PESQが最大7.3%、STOIが1.8%、メモリフットプリントが桁違いに小さく、推論速度が最大465倍である。
我々はTRAMBAを実システムに統合し、TRAMBAを示す
i)データサンプリングや送信を少なくすることで、ウェアラブルのバッテリ寿命を最大160%向上させる。
(ii) 雑音の多い環境下では, 放送音声よりも高品質な音声を生成する。
(iii)メモリフットプリントは20.0MB未満である。
We propose TRAMBA, a hybrid transformer and Mamba architecture for acoustic and bone conduction speech enhancement, suitable for mobile and wearable platforms. Bone conduction speech enhancement has been impractical to adopt in mobile and wearable platforms for several reasons: (i) data collection is labor-intensive, resulting in scarcity; (ii) there exists a performance gap between state of-art models with memory footprints of hundreds of MBs and methods better suited for resource-constrained systems. To adapt TRAMBA to vibration-based sensing modalities, we pre-train TRAMBA with audio speech datasets that are widely available. Then, users fine-tune with a small amount of bone conduction data. TRAMBA outperforms state-of-art GANs by up to 7.3% in PESQ and 1.8% in STOI, with an order of magnitude smaller memory footprint and an inference speed up of up to 465 times. We integrate TRAMBA into real systems and show that TRAMBA (i) improves battery life of wearables by up to 160% by requiring less data sampling and transmission; (ii) generates higher quality voice in noisy environments than over-the-air speech; (iii) requires a memory footprint of less than 20.0 MB. | 翻訳日:2024-05-03 16:34:40 公開日:2024-05-02 |
# Lying Graph Convolution: ノードの分類タスクに嘘を学ぶ
Lying Graph Convolution: Learning to Lie for Node Classification Tasks ( http://arxiv.org/abs/2405.01247v1 ) ライセンス: Link先を確認 | Daniele Castellana, | (参考訳) グラフの機械学習の文脈において、ディープグラフネットワーク(DGN)がグラフ構造がホモフィル性である場合(隣接するノードは類似している)、ノード分類タスクにおいて好適に機能することが実証されている。
本稿では、ヘテロ親和性およびホモ親和性の両方で適応的に機能する新しいDGNであるLying-GCNを紹介する。
各レイヤでは、各エージェント(ノード)がそれぞれの意見(ノード埋め込み)を隣人と共有する。
GCNのように直接意見を共有するのではなく、エージェントが嘘をつくことができるメカニズムを導入します。
このようなメカニズムは適応的であるため、エージェントは解決すべきタスクに応じてどのように、いつ嘘をつくかを学ぶ。
系の係数行列のスペクトル特性を研究することにより,力学系の観点から提案手法の特徴付けを行う。
系の定常状態はゼロに崩壊するが、ノード分類タスクを解くのに依然として嘘つきのメカニズムが利用できると我々は信じている。
我々は, 人工と実世界の両方のデータセットに対する我々の信念を実証的に証明し, 嘘つきのメカニズムは, ホモ親和性のあるセッティングにおける結果に害を加えることなく, ヘテロ親和性のセッティングにおけるパフォーマンスを向上させることができることを示した。
In the context of machine learning for graphs, many researchers have empirically observed that Deep Graph Networks (DGNs) perform favourably on node classification tasks when the graph structure is homophilic (\ie adjacent nodes are similar). In this paper, we introduce Lying-GCN, a new DGN inspired by opinion dynamics that can adaptively work in both the heterophilic and the homophilic setting. At each layer, each agent (node) shares its own opinions (node embeddings) with its neighbours. Instead of sharing its opinion directly as in GCN, we introduce a mechanism which allows agents to lie. Such a mechanism is adaptive, thus the agents learn how and when to lie according to the task that should be solved. We provide a characterisation of our proposal in terms of dynamical systems, by studying the spectral property of the coefficient matrix of the system. While the steady state of the system collapses to zero, we believe the lying mechanism is still usable to solve node classification tasks. We empirically prove our belief on both synthetic and real-world datasets, by showing that the lying mechanism allows to increase the performances in the heterophilic setting without harming the results in the homophilic one. | 翻訳日:2024-05-03 16:34:40 公開日:2024-05-02 |
# 医療応用のためのプロンプトエンジニアリングパラダイム--スコーピングレビューとより良い実践のためのレコメンデーション
Prompt engineering paradigms for medical applications: scoping review and recommendations for better practices ( http://arxiv.org/abs/2405.01249v1 ) ライセンス: Link先を確認 | Jamil Zaghir, Marco Naguib, Mina Bjelogrlic, Aurélie Névéol, Xavier Tannier, Christian Lovis, | (参考訳) プロンプト工学は大規模言語モデル(LLM)の可能性を生かし、特に専門用語や言い回しが用いられる医学領域において重要である。
しかし, 医療領域における即時工学の有効性は検討されていない。
本研究は114の最近の研究 (2022-2024) を医学に応用し, 即時学習(PL), 即時チューニング(PT), 即時設計(PD)について概説した。
PDが最も多い(78条)。
12紙で,PD,PL,PTの用語を交互に使用した。
チャットGPTは最も一般的に使用されるLCMで、機密性のある臨床データを処理するために7つの論文が使われている。
チェーン・オブ・ソート(Chain-of-Thought)は、最も一般的なプロンプトエンジニアリング技術として出現する。
PLおよびPTの記事は、通常、プロンプトベースのアプローチを評価するためのベースラインを提供するが、PD研究の64%はプロンプト関連のベースラインを欠いている。
我々は、既存の作業を要約した表や数字を提供し、将来の研究貢献を導くためのレコメンデーションを報告します。
Prompt engineering is crucial for harnessing the potential of large language models (LLMs), especially in the medical domain where specialized terminology and phrasing is used. However, the efficacy of prompt engineering in the medical domain remains to be explored. In this work, 114 recent studies (2022-2024) applying prompt engineering in medicine, covering prompt learning (PL), prompt tuning (PT), and prompt design (PD) are reviewed. PD is the most prevalent (78 articles). In 12 papers, PD, PL, and PT terms were used interchangeably. ChatGPT is the most commonly used LLM, with seven papers using it for processing sensitive clinical data. Chain-of-Thought emerges as the most common prompt engineering technique. While PL and PT articles typically provide a baseline for evaluating prompt-based approaches, 64% of PD studies lack non-prompt-related baselines. We provide tables and figures summarizing existing work, and reporting recommendations to guide future research contributions. | 翻訳日:2024-05-03 16:34:40 公開日:2024-05-02 |
# 微分可能な粒子フィルタのための半教師付きトレーニング目標の再検討
Revisiting semi-supervised training objectives for differentiable particle filters ( http://arxiv.org/abs/2405.01251v1 ) ライセンス: Link先を確認 | Jiaxi Li, John-Joseph Brady, Xiongjie Chen, Yunpeng Li, | (参考訳) 微分可能な粒子フィルタは、ニューラルネットワークの柔軟性とシーケンシャルモンテカルロ法の確率的性質を結合する。
しかし、従来のアプローチはラベル付きデータの可用性、すなわち、現実のアプリケーションでは入手が難しい状態情報に頼っている。
本稿では,2つの半教師あり学習目標の微分可能な粒子フィルタへの適用について比較する。
ラベル付きデータが不足している2つのシミュレーション環境で結果を示す。
Differentiable particle filters combine the flexibility of neural networks with the probabilistic nature of sequential Monte Carlo methods. However, traditional approaches rely on the availability of labelled data, i.e., the ground truth latent state information, which is often difficult to obtain in real-world applications. This paper compares the effectiveness of two semi-supervised training objectives for differentiable particle filters. We present results in two simulated environments where labelled data are scarce. | 翻訳日:2024-05-03 16:34:40 公開日:2024-05-02 |
# LiDAR-Camera Synergyによる連続物体検出に向けて
Towards Consistent Object Detection via LiDAR-Camera Synergy ( http://arxiv.org/abs/2405.01258v1 ) ライセンス: Link先を確認 | Kai Luo, Hao Wu, Kefu Yi, Kailun Yang, Wei Hao, Rongdong Hu, | (参考訳) 人間と機械の相互作用が進化し続けるにつれ、環境認識の能力はますます重要になりつつある。
最も一般的な2種類の感覚データ、画像、点雲を統合することで、検出精度を高めることができる。
しかし、現在、物体の位置を点雲と画像の両方で同時に検出し、対応する関係を確かめるモデルが存在しない。
この情報は人間と機械の相互作用にとって重要であり、その強化の新たな可能性を提供する。
そこで本研究では,一対一のフォワード推論しか必要としないエンドツーエンドのオブジェクト検出(COD)アルゴリズムフレームワークを導入し,オブジェクトの位置を点群と画像の両方で同時に取得し,相関関係を確立する。
さらに,点雲と画像間の物体相関の精度を評価するために,新しい評価基準である Consistency Precision (CP) を提案する。
提案手法の有効性を検証するため,KITTI と DAIR-V2X のデータセットを用いて実験を行った。
また,既存の後処理法と比較して,画像と点雲の校正パラメータが乱される場合,画像に対して一貫性検出法がどう作用するかについても検討した。
実験の結果,提案手法は優れた検出性能とロバスト性を示し,エンドツーエンドの整合性検出を実現していることがわかった。
ソースコードはhttps://github.com/xifen523/COD.comで公開されている。
As human-machine interaction continues to evolve, the capacity for environmental perception is becoming increasingly crucial. Integrating the two most common types of sensory data, images, and point clouds, can enhance detection accuracy. However, currently, no model exists that can simultaneously detect an object's position in both point clouds and images and ascertain their corresponding relationship. This information is invaluable for human-machine interactions, offering new possibilities for their enhancement. In light of this, this paper introduces an end-to-end Consistency Object Detection (COD) algorithm framework that requires only a single forward inference to simultaneously obtain an object's position in both point clouds and images and establish their correlation. Furthermore, to assess the accuracy of the object correlation between point clouds and images, this paper proposes a new evaluation metric, Consistency Precision (CP). To verify the effectiveness of the proposed framework, an extensive set of experiments has been conducted on the KITTI and DAIR-V2X datasets. The study also explored how the proposed consistency detection method performs on images when the calibration parameters between images and point clouds are disturbed, compared to existing post-processing methods. The experimental results demonstrate that the proposed method exhibits excellent detection performance and robustness, achieving end-to-end consistency detection. The source code will be made publicly available at https://github.com/xifen523/COD. | 翻訳日:2024-05-03 16:34:40 公開日:2024-05-02 |
# 自然言語文間の係り受け関係と係り受け関係の同定:ニューロシンボリックアプローチ
Identification of Entailment and Contradiction Relations between Natural Language Sentences: A Neurosymbolic Approach ( http://arxiv.org/abs/2405.01259v1 ) ライセンス: Link先を確認 | Xuyao Feng, Anthony Hunter, | (参考訳) 自然言語推論(NLI、Recognizing Textual Entailment、RTE)は、自然言語理解の重要な側面である。
ほとんどの研究では、機械学習とディープラーニングを使って特定のデータセット上でこのタスクを実行している。
RTEへの説明可能なアプローチの必要性に対処するため,テキストを抽象的意味表現(AMR)グラフに変換する新しいパイプラインを提案する。
そのため、事前トレーニングされたAMRパーサを使用します。
次に、AMRグラフを命題論理に変換し、SATソルバを用いて自動推論を行う。
テキストでは、しばしばコモンセンス (commonsense) は、前提とクレームの間に関係(あるいは矛盾)があることを示唆するが、異なる単語が使用されるため、これはそれらの論理的表現から特定されない。
この問題に対処するために、いくつかの命題を置き換えたり忘れたりすることのできる緩和手法を導入する。
実験の結果,このパイプラインは4つのRTEデータセットでよく動作することがわかった。
Natural language inference (NLI), also known as Recognizing Textual Entailment (RTE), is an important aspect of natural language understanding. Most research now uses machine learning and deep learning to perform this task on specific datasets, meaning their solution is not explainable nor explicit. To address the need for an explainable approach to RTE, we propose a novel pipeline that is based on translating text into an Abstract Meaning Representation (AMR) graph. For this we use a pre-trained AMR parser. We then translate the AMR graph into propositional logic and use a SAT solver for automated reasoning. In text, often commonsense suggests that an entailment (or contradiction) relationship holds between a premise and a claim, but because different wordings are used, this is not identified from their logical representations. To address this, we introduce relaxation methods to allow replacement or forgetting of some propositions. Our experimental results show this pipeline performs well on four RTE datasets. | 翻訳日:2024-05-03 16:34:40 公開日:2024-05-02 |
# フェデレーションエッジ推論における因果関係の影響
Causal Influence in Federated Edge Inference ( http://arxiv.org/abs/2405.01260v1 ) ライセンス: Link先を確認 | Mert Kayaalp, Yunus Inan, Visa Koivunen, Ali H. Sayed, | (参考訳) 本稿では、未ラベルのストリーミングデータを用いて、接続性のある異種エージェントが推論を行う環境について考察する。
観測されたデータは、対象とする興味のある変数について部分的に情報化されているだけである。
不確実性を克服するために、エージェントは、融合センターを通じてローカルな推論を交換することで互いに協力する。
各エージェントが全体決定にどのように影響するかを評価するために,エージェントの実際の影響と意思決定プロセス内の相関を区別するために,因果的枠組みを採用する。
エージェントの関与パターンや核融合センターの方針を反映した様々なシナリオを考察した。
各エージェントの連関決定に対する因果的影響を定量化するための表現を導出し、敵攻撃やシステム障害などの非典型的シナリオを予測および解決するのに有用である。
数値シミュレーションによる理論的結果の検証と,マルチカメラ群カウントの現実的応用について検討する。
In this paper, we consider a setting where heterogeneous agents with connectivity are performing inference using unlabeled streaming data. Observed data are only partially informative about the target variable of interest. In order to overcome the uncertainty, agents cooperate with each other by exchanging their local inferences with and through a fusion center. To evaluate how each agent influences the overall decision, we adopt a causal framework in order to distinguish the actual influence of agents from mere correlations within the decision-making process. Various scenarios reflecting different agent participation patterns and fusion center policies are investigated. We derive expressions to quantify the causal impact of each agent on the joint decision, which could be beneficial for anticipating and addressing atypical scenarios, such as adversarial attacks or system malfunctions. We validate our theoretical results with numerical simulations and a real-world application of multi-camera crowd counting. | 翻訳日:2024-05-03 16:34:40 公開日:2024-05-02 |
# オープンエンド環境における継続的進化型報酬
Continuously evolving rewards in an open-ended environment ( http://arxiv.org/abs/2405.01261v1 ) ライセンス: Link先を確認 | Richard M. Bailey, | (参考訳) 複雑なオープンエンドの現実世界環境で活動するエンティティの行動を促進する報酬の明確な識別は、目標と関連する行動が不均一に出現し、環境の変化とともに動的に更新されるため、難しい。
モデルでそのようなダイナミクスを再現することは、特に固定報酬関数がエージェントの適応能力を制限している多くの領域で有用である。
シミュレーション実験では、報酬の動的更新のための候補アルゴリズムであるRULE: Reward Updating through Learning and expectationを評価した。
このアプローチは、実験がエンティティの生存に挑戦し、大きな行動変化を要求する、単純化されたエコシステムのような環境でテストされる。
団体の人口は、当初は報われたが最終的に有害な行動の放棄、有益な行動の増幅、そして環境に付加された新しいアイテムに対する適切な反応を示すことに成功した。
これらの調整は、継続的な学習において、外部の介入なしに、実体の根底にある報酬関数を内在的な修正によって行われる。
Unambiguous identification of the rewards driving behaviours of entities operating in complex open-ended real-world environments is difficult, partly because goals and associated behaviours emerge endogenously and are dynamically updated as environments change. Reproducing such dynamics in models would be useful in many domains, particularly where fixed reward functions limit the adaptive capabilities of agents. Simulation experiments described assess a candidate algorithm for the dynamic updating of rewards, RULE: Reward Updating through Learning and Expectation. The approach is tested in a simplified ecosystem-like setting where experiments challenge entities' survival, calling for significant behavioural change. The population of entities successfully demonstrate the abandonment of an initially rewarded but ultimately detrimental behaviour, amplification of beneficial behaviour, and appropriate responses to novel items added to their environment. These adjustment happen through endogenous modification of the entities' underlying reward function, during continuous learning, without external intervention. | 翻訳日:2024-05-03 16:34:40 公開日:2024-05-02 |
# 対数的複雑度と規則保証を考慮したオンライングラディエント型キャッシングポリシー
An Online Gradient-Based Caching Policy with Logarithmic Complexity and Regret Guarantees ( http://arxiv.org/abs/2405.01263v1 ) ライセンス: Link先を確認 | Damiano Carra, Giovanni Neglia, | (参考訳) LRUやLFUなどの一般的なキャッシュポリシは、特定のトラフィックパターンに対してのみ最適なパフォーマンスを示す。
過去の要求データのパターンを検出する高度な機械学習ベースの方法でさえ、将来の要求が過去のトレンドから逸脱した場合に苦労する。
最近、リクエストの到着プロセスについて仮定しない新しいポリシーのクラスが出現しました。
これらのアルゴリズムは、コンテキストへの継続的な適応を可能にするオンライン最適化問題を解決する。
これは、オンラインポリシーの利得と、後見で最適な静的キャッシュ割り当ての利得のギャップである。
それでも、これらの解の計算複雑性が高いことは、その実践的採用を妨げる。
本研究では,カタログサイズに対して対数計算の複雑さを初めて達成し,後悔の保証を伴って,画期的な勾配に基づくオンラインキャッシュポリシーを導入する。
これは,実時間決定と最適後見選択の間の性能差を最小化しながら,大規模データを効率的に処理できることを意味している。
リクエストが到着すると、ポリシーはキャッシュにアイテムを含める確率を動的に調整し、キャッシュの更新決定を駆動します。
我々のアルゴリズムの合理化された複雑さは重要な利点であり、数百万のリクエストとアイテムを特徴とする実世界のトレースを可能にする。
この規模の痕跡は、後悔の保証のある既存の政策には届かなかったため、これは大きな成果である。
我々の知る限り、我々の実験結果は、勾配に基づくキャッシュポリシーの後悔の保証が、実践的な関心のシナリオに多大な利益をもたらすことを初めて示している。
The commonly used caching policies, such as LRU or LFU, exhibit optimal performance only for specific traffic patterns. Even advanced Machine Learning-based methods, which detect patterns in historical request data, struggle when future requests deviate from past trends. Recently, a new class of policies has emerged that makes no assumptions about the request arrival process. These algorithms solve an online optimization problem, enabling continuous adaptation to the context. They offer theoretical guarantees on the regret metric, which is the gap between the gain of the online policy and the gain of the optimal static cache allocation in hindsight. Nevertheless, the high computational complexity of these solutions hinders their practical adoption. In this study, we introduce a groundbreaking gradient-based online caching policy, the first to achieve logarithmic computational complexity relative to catalog size along with regret guarantees. This means our algorithm can efficiently handle large-scale data while minimizing the performance gap between real-time decisions and optimal hindsight choices. As requests arrive, our policy dynamically adjusts the probabilities of including items in the cache, which drive cache update decisions. Our algorithm's streamlined complexity is a key advantage, enabling its application to real-world traces featuring millions of requests and items. This is a significant achievement, as traces of this scale have been out of reach for existing policies with regret guarantees. To the best of our knowledge, our experimental results show for the first time that the regret guarantees of gradient-based caching policies bring significant benefits in scenarios of practical interest. | 翻訳日:2024-05-03 16:34:40 公開日:2024-05-02 |
# MFTraj: 自律運転のためのマップフリー、行動駆動軌道予測
MFTraj: Map-Free, Behavior-Driven Trajectory Prediction for Autonomous Driving ( http://arxiv.org/abs/2405.01266v1 ) ライセンス: Link先を確認 | Haicheng Liao, Zhenning Li, Chengyue Wang, Huanming Shen, Bonan Wang, Dongping Liao, Guofa Li, Chengzhong Xu, | (参考訳) 本稿では,自律走行に適した軌道予測モデルを提案する。
MFTrajと呼ばれるこのモデルは、新しい動的幾何学グラフに基づく行動認識モジュールと組み合わせた歴史的軌跡データを利用する。
その中心となるのは、適応型構造対応の対話型グラフ畳み込みネットワークで、道路利用者の位置的特徴と行動的特徴の両方を捉え、空間的・時間的複雑さを保っている。
線形アテンション機構によって強化されたモデルでは、計算効率とパラメータオーバーヘッドの低減を実現している。
Argoverse、NGSIM、HighD、MoCADデータセットの評価は、MFTrajの堅牢性と適応性を強調し、HDマップやベクトル化マップなどの追加情報を必要としないデータ収集シナリオにおいても、多くのベンチマークを上回っている。
重要なのは、既存の最先端モデルに匹敵するデータ不足のシナリオでも、競争力のあるパフォーマンスを維持することだ。
この結果と手法は、より安全で効率的な自動運転システムを実現するために、自律走行軌道予測の大幅な進歩を示唆している。
This paper introduces a trajectory prediction model tailored for autonomous driving, focusing on capturing complex interactions in dynamic traffic scenarios without reliance on high-definition maps. The model, termed MFTraj, harnesses historical trajectory data combined with a novel dynamic geometric graph-based behavior-aware module. At its core, an adaptive structure-aware interactive graph convolutional network captures both positional and behavioral features of road users, preserving spatial-temporal intricacies. Enhanced by a linear attention mechanism, the model achieves computational efficiency and reduced parameter overhead. Evaluations on the Argoverse, NGSIM, HighD, and MoCAD datasets underscore MFTraj's robustness and adaptability, outperforming numerous benchmarks even in data-challenged scenarios without the need for additional information such as HD maps or vectorized maps. Importantly, it maintains competitive performance even in scenarios with substantial missing data, on par with most existing state-of-the-art models. The results and methodology suggest a significant advancement in autonomous driving trajectory prediction, paving the way for safer and more efficient autonomous systems. | 翻訳日:2024-05-03 16:34:40 公開日:2024-05-02 |
# グラフニューラルネットワークの性能特性理解のためのモデル検査の重要性
The Importance of Model Inspection for Better Understanding Performance Characteristics of Graph Neural Networks ( http://arxiv.org/abs/2405.01270v1 ) ライセンス: Link先を確認 | Nairouz Shehata, Carolina Piçarra, Anees Kazi, Ben Glocker, | (参考訳) 本研究は,比較性能分析の一環として総合的なモデル検査を行うことの重要性を強調した。
本稿では,脳形状分類タスクに適用したグラフニューラルネットワークの特徴学習特性に対するモデル選択の影響について検討する。
具体的には、パラメータ効率のよい共有グラフ畳み込みサブモデルを用いることによる効果を、構造固有の非共有サブモデルと比較して分析する。
さらに、データ調和パイプラインの一部としてメッシュ登録の効果を評価する。
モデルの異なるレイヤに機能の埋め込みを組み込むことで、かなりの違いが見つかります。
実験結果から,データソースに関連するバイアスの符号化や,サブモデルで学習した非識別的特徴などの重要なモデル特性を特定するには,テスト精度だけでは不十分であることが示唆された。
我々のモデル検査フレームワークは、医用画像におけるディープラーニングモデルの性能特性をよりよく理解するための貴重なツールを提供する。
This study highlights the importance of conducting comprehensive model inspection as part of comparative performance analyses. Here, we investigate the effect of modelling choices on the feature learning characteristics of graph neural networks applied to a brain shape classification task. Specifically, we analyse the effect of using parameter-efficient, shared graph convolutional submodels compared to structure-specific, non-shared submodels. Further, we assess the effect of mesh registration as part of the data harmonisation pipeline. We find substantial differences in the feature embeddings at different layers of the models. Our results highlight that test accuracy alone is insufficient to identify important model characteristics such as encoded biases related to data source or potentially non-discriminative features learned in submodels. Our model inspection framework offers a valuable tool for practitioners to better understand performance characteristics of deep learning models in medical imaging. | 翻訳日:2024-05-03 16:34:40 公開日:2024-05-02 |
# 合成倫理変化による包括的顔認識に向けて
Towards Inclusive Face Recognition Through Synthetic Ethnicity Alteration ( http://arxiv.org/abs/2405.01273v1 ) ライセンス: Link先を確認 | Praveen Kumar Chandaliya, Kiran Raja, Raghavendra Ramachandra, Zahid Akhtar, Christoph Busch, | (参考訳) 多くの研究が、商業的なものを含む既存の顔認識システム(FRS)は、表現不足のデータによって特定の民族に対する偏見を示すことが多いことを示している。
本研究では,データセットの多様性を高めるために合成顔画像生成法を用いて,民族性の変化と肌色の変化について検討する。
まず,アジア,黒人,インディアンの3民族を表わすバランスのとれた顔画像データセットを構築し,詳細な分析を行う。
次に、既存のGAN(Generative Adversarial Network-based Image-to-image translation)と多様体学習モデルを用いて、それぞれの民族性を変化させる。
さらに、個別型付けアングル(ITA)を用いて、現実的な肌色表現を研究することにより、これらのデータセットのFRSに対する適合性を評価するために、体系的な分析を行った。
さらに,既存の顔画像品質評価(FIQA)手法を用いて品質特性を解析する。
次に、4つの異なるシステムを用いて総合的なFRS性能解析を行う。
我々の研究成果は今後の研究の道のりを拓いている。
一 特定の民族と一般の民族変更モデルの両方を発達させること。
(二)このようなアプローチを拡張して、多様な肌色を持つデータベースを作成すること。
三 様々な民族を表わすデータセットを作成し、プライバシー上の懸念に対処しながらバイアスを軽減するのに役立ちます。
Numerous studies have shown that existing Face Recognition Systems (FRS), including commercial ones, often exhibit biases toward certain ethnicities due to under-represented data. In this work, we explore ethnicity alteration and skin tone modification using synthetic face image generation methods to increase the diversity of datasets. We conduct a detailed analysis by first constructing a balanced face image dataset representing three ethnicities: Asian, Black, and Indian. We then make use of existing Generative Adversarial Network-based (GAN) image-to-image translation and manifold learning models to alter the ethnicity from one to another. A systematic analysis is further conducted to assess the suitability of such datasets for FRS by studying the realistic skin-tone representation using Individual Typology Angle (ITA). Further, we also analyze the quality characteristics using existing Face image quality assessment (FIQA) approaches. We then provide a holistic FRS performance analysis using four different systems. Our findings pave the way for future research works in (i) developing both specific ethnicity and general (any to any) ethnicity alteration models, (ii) expanding such approaches to create databases with diverse skin tones, (iii) creating datasets representing various ethnicities which further can help in mitigating bias while addressing privacy concerns. | 翻訳日:2024-05-03 16:34:40 公開日:2024-05-02 |
# 地球モーバー距離を用いたBCIにおける空間領域説明の定量化
Quantifying Spatial Domain Explanations in BCI using Earth Mover's Distance ( http://arxiv.org/abs/2405.01277v1 ) ライセンス: Link先を確認 | Param Rajpura, Hubert Cecotti, Yogesh Kumar Meena, | (参考訳) 脳-コンピュータインターフェース(BCI)システムは、人間とコンピュータの間のユニークなコミュニケーションを促進し、障害のある個人に利益をもたらす。
何十年にもわたっての研究にもかかわらず、BCIは臨床および商業的な環境に完全には統合されていない。
BCIのパフォーマンスを評価し、説明することが不可欠で、潜在的ユーザに対して、期待通り動作しない場合にフラストレーションを避けるための明確な説明を提供する。
本研究では,脳波(EEG)を用いた運動画像(MI)に基づくBCIにおいて,異なる深層学習とリーマン幾何学に基づく分類モデルの有効性について検討した。
そこで我々は,地球移動器距離(EMD)を用いた最適輸送理論に基づくアプローチを提案し,特徴関連マップと神経科学の領域知識の比較を定量化する。
そこで我々は、空間領域における特徴関連性を生成するための説明可能なAI(XAI)技術を用いて、モデル結果の重要なチャネルを同定した。
3つの最先端モデルが実装されている - 1)リーマン幾何学に基づく分類器。
2)EEGNet,および
3)EEGコンフォーマー,およびデータセット上の異なるアーキテクチャにわたるモデルの精度の観測傾向は,提案した特徴関連指標と相関する。
多様なアーキテクチャを持つモデルは、データ駆動のチャネル選択よりも運動画像に関連するチャネルで訓練すると、大幅に向上する。
この研究は、信頼性と堅牢なBrain-Computer Interface(BCI)を作成する上で、ドメイン知識とモデル解釈をデータ駆動のアプローチと組み合わせることの価値を強調する。
Brain-computer interface (BCI) systems facilitate unique communication between humans and computers, benefiting severely disabled individuals. Despite decades of research, BCIs are not fully integrated into clinical and commercial settings. It's crucial to assess and explain BCI performance, offering clear explanations for potential users to avoid frustration when it doesn't work as expected. This work investigates the efficacy of different deep learning and Riemannian geometry-based classification models in the context of motor imagery (MI) based BCI using electroencephalography (EEG). We then propose an optimal transport theory-based approach using earth mover's distance (EMD) to quantify the comparison of the feature relevance map with the domain knowledge of neuroscience. For this, we utilized explainable AI (XAI) techniques for generating feature relevance in the spatial domain to identify important channels for model outcomes. Three state-of-the-art models are implemented - 1) Riemannian geometry-based classifier, 2) EEGNet, and 3) EEG Conformer, and the observed trend in the model's accuracy across different architectures on the dataset correlates with the proposed feature relevance metrics. The models with diverse architectures perform significantly better when trained on channels relevant to motor imagery than data-driven channel selection. This work focuses attention on the necessity for interpretability and incorporating metrics beyond accuracy, underscores the value of combining domain knowledge and quantifying model interpretations with data-driven approaches in creating reliable and robust Brain-Computer Interfaces (BCIs). | 翻訳日:2024-05-03 16:34:40 公開日:2024-05-02 |
# 編集に基づく非自己回帰型ニューラルネットワーク翻訳のための強化学習
Reinforcement Learning for Edit-Based Non-Autoregressive Neural Machine Translation ( http://arxiv.org/abs/2405.01280v1 ) ライセンス: Link先を確認 | Hao Wang, Tetsuro Morimura, Ukyo Honda, Daisuke Kawahara, | (参考訳) 非自己回帰(NAR)言語モデルは、ニューラルネットワーク翻訳(NMT)の低レイテンシで知られている。
しかし,NARと自己回帰モデルの間には大きな復号化空間があり,目的語間の依存性を正確に把握することが困難である。
これを組み合わせることで、NARモデルの適切なトレーニングデータを作成することは、非自明な作業であり、しばしば露出バイアスを悪化させる。
これらの課題に対処するため, 代表的な編集ベースNARモデルであるLevenshtein Transformerに強化学習(RL)を適用し, 自己生成データを用いたRLが編集ベースNARモデルの性能を向上させることを実証した。
ステップワイズ報酬最大化とエピソード報酬最大化という2つのRLアプローチを探索する。
これら2つのアプローチのそれぞれの長所と短所について議論し、実証的に検証する。
さらに,NARモデルのトレーニングにおいて,温度設定が性能に与える影響を実験的に検討し,適切な温度設定の重要性を確認した。
Non-autoregressive (NAR) language models are known for their low latency in neural machine translation (NMT). However, a performance gap exists between NAR and autoregressive models due to the large decoding space and difficulty in capturing dependency between target words accurately. Compounding this, preparing appropriate training data for NAR models is a non-trivial task, often exacerbating exposure bias. To address these challenges, we apply reinforcement learning (RL) to Levenshtein Transformer, a representative edit-based NAR model, demonstrating that RL with self-generated data can enhance the performance of edit-based NAR models. We explore two RL approaches: stepwise reward maximization and episodic reward maximization. We discuss the respective pros and cons of these two approaches and empirically verify them. Moreover, we experimentally investigate the impact of temperature setting on performance, confirming the importance of proper temperature setting for NAR models' training. | 翻訳日:2024-05-03 16:34:40 公開日:2024-05-02 |
# 適応実験による推論の最小化
Demistifying Inference after Adaptive Experiments ( http://arxiv.org/abs/2405.01281v1 ) ライセンス: Link先を確認 | Aurélien Bibaut, Nathan Kallus, | (参考訳) マルチアームバンディットのような適応的な実験は、治療-割り当てポリシーに適応し、または、これまで観察されたデータに実験を停止する決定を下す。
これは、実験の参加者の成果を改善し、実験後の最良の治療法を特定する可能性を改善し、データを無駄にしないようにする可能性がある。
実験として見れば(常に最適化されるシステムではなく)、頻繁な保証を伴う統計的推論を描くことが望ましい。
適応的実験アルゴリズムを一般的に不足させる濃度不等式と結合境界は、過度に保守的な推論をもたらすことができるが、同時に、適応的でない環境では、漸近的正規性は通常適応性によって損なわれる。
本稿では,適応性が実際に推論の問題であり,それを解決するための様々な方法を理解することを目的としている。分散を安定化し,漸近的正規性を取り戻すための重み付け,漸近的制限配列の結合正規性に基づく常に有意な推論,適応性によって引き起こされる非正規分布の特性と反転である。
Adaptive experiments such as multi-arm bandits adapt the treatment-allocation policy and/or the decision to stop the experiment to the data observed so far. This has the potential to improve outcomes for study participants within the experiment, to improve the chance of identifying best treatments after the experiment, and to avoid wasting data. Seen as an experiment (rather than just a continually optimizing system) it is still desirable to draw statistical inferences with frequentist guarantees. The concentration inequalities and union bounds that generally underlie adaptive experimentation algorithms can yield overly conservative inferences, but at the same time the asymptotic normality we would usually appeal to in non-adaptive settings can be imperiled by adaptivity. In this article we aim to explain why, how, and when adaptivity is in fact an issue for inference and, when it is, understand the various ways to fix it: reweighting to stabilize variances and recover asymptotic normality, always-valid inference based on joint normality of an asymptotic limiting sequence, and characterizing and inverting the non-normal distributions induced by adaptivity. | 翻訳日:2024-05-03 16:24:55 公開日:2024-05-02 |
# 深部強化学習によるマニピュレータ制御とグラッピングの動作模倣
Behavior Imitation for Manipulator Control and Grasping with Deep Reinforcement Learning ( http://arxiv.org/abs/2405.01284v1 ) ライセンス: Link先を確認 | Liu Qiyuan, | (参考訳) 既存のモーション・イミテーション・モデルは、通常、MoCapデバイスを通じて得られた専門家データを必要とするが、必要な膨大なトレーニングデータは取得が困難であり、財務資源、人力、時間に対するかなりの投資を必要としている。
本研究は,3次元ポーズ推定と強化学習を組み合わせることで,強化学習における関節角度値の予測問題に運動模倣を単純化する新しいモデルを提案する。
これにより、膨大なトレーニングデータへの依存を大幅に減らし、エージェントはわずか数秒のビデオから模倣ポリシーを学習し、強力な一般化能力を示すことができる。
学習したポリシーを、馴染みの無いビデオで人間の腕の動きを模倣するために、迅速に適用することができる。
このモデルはまず、3D人間のポーズ推定を用いて、所定のビデオから人間の腕の骨格の動きを抽出する。
これらの抽出された腕の動きは、形態学的にロボットマニピュレータに再ターゲティングされる。
その後、再ターゲットされた動きを使用して参照動作を生成する。
最後に、これらの参照動作は強化学習問題を定式化するために使用され、エージェントは人間の腕の動きを模倣するポリシーを学ぶことができる。
このプロジェクトは模倣作業に優れ、他の馴染みのないビデオからの人間の腕の動きを正確に模倣し、堅牢な転送性を示す。
このプロジェクトは軽量で、便利で、効率的で、正確なモーション・イミテーション・モデルを提供する。
モーション・イミテーションの複雑なプロセスを単純化する一方で、顕著なパフォーマンスを実現している。
The existing Motion Imitation models typically require expert data obtained through MoCap devices, but the vast amount of training data needed is difficult to acquire, necessitating substantial investments of financial resources, manpower, and time. This project combines 3D human pose estimation with reinforcement learning, proposing a novel model that simplifies Motion Imitation into a prediction problem of joint angle values in reinforcement learning. This significantly reduces the reliance on vast amounts of training data, enabling the agent to learn an imitation policy from just a few seconds of video and exhibit strong generalization capabilities. It can quickly apply the learned policy to imitate human arm motions in unfamiliar videos. The model first extracts skeletal motions of human arms from a given video using 3D human pose estimation. These extracted arm motions are then morphologically retargeted onto a robotic manipulator. Subsequently, the retargeted motions are used to generate reference motions. Finally, these reference motions are used to formulate a reinforcement learning problem, enabling the agent to learn a policy for imitating human arm motions. This project excels at imitation tasks and demonstrates robust transferability, accurately imitating human arm motions from other unfamiliar videos. This project provides a lightweight, convenient, efficient, and accurate Motion Imitation model. While simplifying the complex process of Motion Imitation, it achieves notably outstanding performance. | 翻訳日:2024-05-03 16:24:55 公開日:2024-05-02 |
# AIのためのデータフェミニズム
Data Feminism for AI ( http://arxiv.org/abs/2405.01286v1 ) ライセンス: Link先を確認 | Lauren Klein, Catherine D'Ignazio, | (参考訳) 本稿では、公平で倫理的で持続可能なAI研究を行うための交叉フェミニストの原則について述べる。
Data Feminism (2020)では、データサイエンスにおける不平等なパワーを調べ、挑戦する7つの原則を提示しました。
ここでは、フェミニズムがAI研究に深く関係している理由を説明し、AIに関するデータフェミニズムの原原則を再検討し、環境への影響と同意に関する2つの新しい原則を導入する。
これらの原則は共に役立ちます
1)AI研究,開発及び展開における不平等,非民主的,抽出的,排他的な力について説明すること。
2 安全でない、差別的、その他の抑圧的なシステムが世界に放たれる前に、予測可能な害を識別し、緩和すること。
3) 創造的で喜びがあり、集団的な方法で、私たち全員が繁栄できる、より平等で持続可能な世界に向けて働くことを促す。
This paper presents a set of intersectional feminist principles for conducting equitable, ethical, and sustainable AI research. In Data Feminism (2020), we offered seven principles for examining and challenging unequal power in data science. Here, we present a rationale for why feminism remains deeply relevant for AI research, rearticulate the original principles of data feminism with respect to AI, and introduce two potential new principles related to environmental impact and consent. Together, these principles help to 1) account for the unequal, undemocratic, extractive, and exclusionary forces at work in AI research, development, and deployment; 2) identify and mitigate predictable harms in advance of unsafe, discriminatory, or otherwise oppressive systems being released into the world; and 3) inspire creative, joyful, and collective ways to work towards a more equitable, sustainable world in which all of us can thrive. | 翻訳日:2024-05-03 16:24:55 公開日:2024-05-02 |
# 野生の弱さの爆発測定
Measuring the Exploitation of Weaknesses in the Wild ( http://arxiv.org/abs/2405.01289v1 ) ライセンス: Link先を確認 | Peter Mell, Irena Bojanova, Carlos Galhardo, | (参考訳) 攻撃によって悪用されるソフトウェア脆弱性の特定は、開発者の脆弱性導入の削減とセキュリティコードレビューの取り組みのガイドを支援する。
弱点は、セキュリティ関連エラーを引き起こす操作を通じて悪用されるバグや障害タイプである。
理想的には、セキュリティコミュニティは実際のエクスプロイトで使用されるソフトウェアの弱点の頻度を計測するでしょう。
この研究は、公開データフィードを利用する単純なメトリクスを導入して、30日間のウィンドウで野生で悪用されている弱点の確率を決定することで、その目標を推し進める。
この指標は、2021年4月から2024年3月までに一般的に発見された130の弱点に基づいて評価されている。
分析の結果,92%の弱点が常に悪用されていないことが明らかとなった。
Identifying the software weaknesses exploited by attacks supports efforts to reduce developer introduction of vulnerabilities and to guide security code review efforts. A weakness is a bug or fault type that can be exploited through an operation that results in a security-relevant error. Ideally, the security community would measure the prevalence of the software weaknesses used in actual exploitation. This work advances that goal by introducing a simple metric that utilizes public data feeds to determine the probability of a weakness being exploited in the wild for any 30-day window. The metric is evaluated on a set of 130 weaknesses that were commonly found in vulnerabilities between April 2021 and March 2024. Our analysis reveals that 92 % of the weaknesses are not being constantly exploited. | 翻訳日:2024-05-03 16:24:55 公開日:2024-05-02 |
# ロバスト安定性と再帰可能性保証を備えたクープマンデータ駆動予測制御
Koopman Data-Driven Predictive Control with Robust Stability and Recursive Feasibility Guarantees ( http://arxiv.org/abs/2405.01292v1 ) ライセンス: Link先を確認 | Thomas de Jong, Valentina Breschi, Maarten Schoukens, Mircea Lazar, | (参考訳) 本稿では,非線形システム用データ駆動予測制御器の設計について,線形制御入力クープマンリフトモデルによる入力出力データから検討する。
将来の出力を予測するためにクープマンモデルを特定しシミュレーションする代わりに、クープマン空間内の部分空間予測コントローラを設計する。
これにより、クープマン部分空間予測器のマルチステップ出力予測誤差を最小限に抑えることができ、予測誤差の伝搬を防止することができる。
予測誤差による予測制御方式の実現可能性を失うのを避けるため、クープマン空間の端末コストと端末設定を計算し、補間初期状態を通して再帰的実現可能性を保証する。
第3のコントリビューションとして,得られた閉ループシステムの予測誤差に対して,入力から状態への安定性を保証する新たな正規化コストを導入する。
開発したKoopmanデータ駆動予測制御手法の性能を,本論文の非線形ベンチマークの例に示す。
In this paper, we consider the design of data-driven predictive controllers for nonlinear systems from input-output data via linear-in-control input Koopman lifted models. Instead of identifying and simulating a Koopman model to predict future outputs, we design a subspace predictive controller in the Koopman space. This allows us to learn the observables minimizing the multi-step output prediction error of the Koopman subspace predictor, preventing the propagation of prediction errors. To avoid losing feasibility of our predictive control scheme due to prediction errors, we compute a terminal cost and terminal set in the Koopman space and we obtain recursive feasibility guarantees through an interpolated initial state. As a third contribution, we introduce a novel regularization cost yielding input-to-state stability guarantees with respect to the prediction error for the resulting closed-loop system. The performance of the developed Koopman data-driven predictive control methodology is illustrated on a nonlinear benchmark example from the literature. | 翻訳日:2024-05-03 16:24:55 公開日:2024-05-02 |
# マルチタスク・フレームワークにおける低音源音声認識とアイルランド語の方言識別
Low-resource speech recognition and dialect identification of Irish in a multi-task framework ( http://arxiv.org/abs/2405.01293v1 ) ライセンス: Link先を確認 | Liam Lonergan, Mengjie Qian, Neasa Ní Chiaráin, Christer Gobl, Ailbhe Ní Chasaide, | (参考訳) 本稿では,アイルランド語(ゲール語)の低音源音声認識 (ASR) と方言識別 (DID) のためにIntermediate CTC (InterCTC) を用いて学習したハイブリッドCTC/Attention Encoder-decoderモデルについて検討する。
結果は、ASR(TDNN-HMM)とDID(ECAPA-TDNN)で訓練された現在の最高のパフォーマンスモデルと比較される。
最適な InterCTC 設定は、まず Conformer エンコーダを用いて確立される。
この設定はE-branchformerエンコーダでモデルをトレーニングするために使用され、両方のアーキテクチャのパフォーマンスを比較する。
言語モデル(LM)浅層核融合にはマルチタスクファインチューニングアプローチが採用されている。
実験の結果、ベースラインのCAPA-TDNNと比較してDID精度は10.8%向上し、WER性能はTDNN-HMMモデルに近づいた。
このマルチタスクアプローチは、アイルランドの低リソースのASRとDIDにとって有望な戦略として現れます。
This paper explores the use of Hybrid CTC/Attention encoder-decoder models trained with Intermediate CTC (InterCTC) for Irish (Gaelic) low-resource speech recognition (ASR) and dialect identification (DID). Results are compared to the current best performing models trained for ASR (TDNN-HMM) and DID (ECAPA-TDNN). An optimal InterCTC setting is initially established using a Conformer encoder. This setting is then used to train a model with an E-branchformer encoder and the performance of both architectures are compared. A multi-task fine-tuning approach is adopted for language model (LM) shallow fusion. The experiments yielded an improvement in DID accuracy of 10.8% relative to a baseline ECAPA-TDNN, and WER performance approaching the TDNN-HMM model. This multi-task approach emerges as a promising strategy for Irish low-resource ASR and DID. | 翻訳日:2024-05-03 16:24:55 公開日:2024-05-02 |
# 結合量子輸送における逆流の熱力学理論
Thermodynamic theory of inverse current in coupled quantum transport ( http://arxiv.org/abs/2405.01295v1 ) ライセンス: Link先を確認 | Shuvadip Ghosh, Nikhil Gupt, Arnab Ghosh, | (参考訳) 1つの誘導電流が系のすべての熱力学的力に反対する逆電流結合(ICC)量子輸送は、非常に反直感的な輸送現象である。
強結合量子ドットの正確な解法モデルを用いて、エネルギーおよびスピン誘起粒子電流におけるICCの熱力学的記述と、非伝統的な自律ナノスケール熱電発電機への応用の可能性を示す。
解析の結果, エントロピー生成速度の微視的およびマクロ的定式化の関連が明らかとなり, 真のICCの特徴付けにおける適切な熱力学力と共役フラックスの役割が明らかにされた。
我々のモデルでは、ICCのエネルギー電流における見かけのパラドックス的な結果は、電流を流す量子粒子による化学作用から生じ、一方スピン誘起粒子電流では、特定の遷移を制御する電子貯水池間の相対的な競合に由来する。
The inverse current in coupled (ICC) quantum transport, where one induced current opposes all thermodynamic forces of a system, is a highly counter-intuitive transport phenomenon. Using an exactly solvable model of strongly-coupled quantum dots, we present thermodynamic description of ICC in energy and spin-induced particle currents, with potential applications towards unconventional and autonomous nanoscale thermoelectric generators. Our analysis reveals the connection between microscopic and macroscopic formulations of entropy production rates, elucidating the often-overlooked role of proper thermodynamic forces and conjugate fluxes in characterizing genuine ICC. In our model, the seemingly paradoxical results of ICC in the energy current arise from chemical work done by current-carrying quantum particles, while in spin-induced particle current, it stems from the relative competition between electron reservoirs controlling one particular transition. | 翻訳日:2024-05-03 16:24:55 公開日:2024-05-02 |
# アノテーションとしてのLLMの有効性:直接表現の比較と実証分析
The Effectiveness of LLMs as Annotators: A Comparative Overview and Empirical Analysis of Direct Representation ( http://arxiv.org/abs/2405.01299v1 ) ライセンス: Link先を確認 | Maja Pavlovic, Massimo Poesio, | (参考訳) 大規模言語モデル(LLM)は、さまざまな自然言語タスクやさまざまなアプリケーションドメインにまたがる強力なサポートツールとして登場した。
最近の研究は、データアノテーションの能力を探求することに焦点を当てている。
本稿では,ラベル付けデータにおけるLCMの可能性について,12種類の研究結果の比較検討を行った。
モデルは有望なコストと時間の節約効果を示すが、代表性、偏見、変化を促す感度、英語の好みなど、かなりの制限がある。
これらの研究から得られた知見を活かして、実験分析により、4つの主観的データセットにまたがる人間とGPTが生成する意見分布の整合性をさらに検証した。
表現を調査する研究とは対照的に,本手法はGPTから意見分布を直接取得する。
そこで本研究では,データアノテーションタスクの評価において多様な視点を考慮に入れている少数の研究を支援し,今後の研究の必要性を強調した。
Large Language Models (LLMs) have emerged as powerful support tools across various natural language tasks and a range of application domains. Recent studies focus on exploring their capabilities for data annotation. This paper provides a comparative overview of twelve studies investigating the potential of LLMs in labelling data. While the models demonstrate promising cost and time-saving benefits, there exist considerable limitations, such as representativeness, bias, sensitivity to prompt variations and English language preference. Leveraging insights from these studies, our empirical analysis further examines the alignment between human and GPT-generated opinion distributions across four subjective datasets. In contrast to the studies examining representation, our methodology directly obtains the opinion distribution from GPT. Our analysis thereby supports the minority of studies that are considering diverse perspectives when evaluating data annotation tasks and highlights the need for further research in this direction. | 翻訳日:2024-05-03 16:24:55 公開日:2024-05-02 |
# PAC-Bayesian sparse Deep Learningにおける誤分類境界
Misclassification bounds for PAC-Bayesian sparse deep learning ( http://arxiv.org/abs/2405.01304v1 ) ライセンス: Link先を確認 | The Tien Mai, | (参考訳) 近年,ディープラーニングの理論的側面,特に分類タスクにおける性能について,重要な焦点が当てられている。
ベイズ的深層学習は、ベイズ的方法論とシームレスに深層学習を統合するための統一確率的枠組みとして登場した。
しかし、分類のためのディープラーニングにおけるベイズ的アプローチの理論的理解にはギャップがある。
この研究は、そのギャップを埋めようとする試みを示す。
PAC-Bayes境界法を応用して,Spike-and-Slab 先行手法を用いた確率論的手法の予測・誤分類誤差に関する理論的結果を示す。
予測誤差に対する非漸近的な結果を確立する。
さらに, 異なるアーキテクチャを考慮すれば, 対数係数まで, 低次元と高次元の両方で最小値の最適値を達成できることが実証された。
さらに、我々の追加の対数項は、以前の作品よりもわずかに改善される。
さらに、最適性を保証するネットワークアーキテクチャを最適に選択することを目的とした自動モデル選択手法を提案し、分析する。
Recently, there has been a significant focus on exploring the theoretical aspects of deep learning, especially regarding its performance in classification tasks. Bayesian deep learning has emerged as a unified probabilistic framework, seeking to integrate deep learning with Bayesian methodologies seamlessly. However, there exists a gap in the theoretical understanding of Bayesian approaches in deep learning for classification. This study presents an attempt to bridge that gap. By leveraging PAC-Bayes bounds techniques, we present theoretical results on the prediction or misclassification error of a probabilistic approach utilizing Spike-and-Slab priors for sparse deep learning in classification. We establish non-asymptotic results for the prediction error. Additionally, we demonstrate that, by considering different architectures, our results can achieve minimax optimal rates in both low and high-dimensional settings, up to a logarithmic factor. Moreover, our additional logarithmic term yields slight improvements over previous works. Additionally, we propose and analyze an automated model selection approach aimed at optimally choosing a network architecture with guaranteed optimality. | 翻訳日:2024-05-03 16:24:55 公開日:2024-05-02 |
# ニューロモルフィックハードウェアにおけるロバストなマルチスケール計算を可能にする分散表現
Distributed Representations Enable Robust Multi-Timescale Computation in Neuromorphic Hardware ( http://arxiv.org/abs/2405.01305v1 ) ライセンス: Link先を確認 | Madison Cotteret, Hugh Greatorex, Alpha Renner, Junren Chen, Emre Neftci, Huaqiang Wu, Giacomo Indiveri, Martin Ziegler, Elisabetta Chicca, | (参考訳) マルチスケール計算を堅牢に行うために、繰り返しスパイクニューラルネットワーク(RSNN)をプログラミングすることは、依然として難しい課題である。
これを解決するために,高次元乱数ベクトルを表現の最小単位として利用するベクトル記号アーキテクチャ(VSAs)による分散手法を用いて,ロバストなマルチスケールダイナミックスをアトラクタベースRSNNに組み込む方法を示す。
対称自己解離重み行列と非対称遷移項を重畳することにより、有限状態機械をRSNN力学に組み込む。
遷移項は、状態間の入力とヘテロ結合性外積のVSA結合によって形成される。
提案手法は,高度に非理想的な重みを持つシミュレーション,実験的なクローズドループ・メムリシブ・ハードウェア・セットアップ,および大規模マシンにシームレスにスケールするLoihi 2を用いて検証する。
この研究は、パラメータの微調整やプラットフォーム固有の重要な最適化を必要とせず、リカレントダイナミクスによる堅牢な計算をニューロモルフィックハードウェアに組み込むためのVSA表現の有効性を示す。
これにより、ニューロモルフィックハードウェアにおける認知アルゴリズムのための高レベル表現不変抽象言語としてVSAが進歩する。
Programming recurrent spiking neural networks (RSNNs) to robustly perform multi-timescale computation remains a difficult challenge. To address this, we show how the distributed approach offered by vector symbolic architectures (VSAs), which uses high-dimensional random vectors as the smallest units of representation, can be leveraged to embed robust multi-timescale dynamics into attractor-based RSNNs. We embed finite state machines into the RSNN dynamics by superimposing a symmetric autoassociative weight matrix and asymmetric transition terms. The transition terms are formed by the VSA binding of an input and heteroassociative outer-products between states. Our approach is validated through simulations with highly non-ideal weights; an experimental closed-loop memristive hardware setup; and on Loihi 2, where it scales seamlessly to large state machines. This work demonstrates the effectiveness of VSA representations for embedding robust computation with recurrent dynamics into neuromorphic hardware, without requiring parameter fine-tuning or significant platform-specific optimisation. This advances VSAs as a high-level representation-invariant abstract language for cognitive algorithms in neuromorphic hardware. | 翻訳日:2024-05-03 16:24:55 公開日:2024-05-02 |
# グラフは必要なだけ? トレーニングなしで軽量なデータに依存しないニューラルネットワーク検索
Graph is all you need? Lightweight data-agnostic neural architecture search without training ( http://arxiv.org/abs/2405.01306v1 ) ライセンス: Link先を確認 | Zhenhan Huang, Tejaswini Pedapati, Pin-Yu Chen, Chunhen Jiang, Jianxi Gao, | (参考訳) ニューラルアーキテクチャサーチ(NAS)は、ニューラルネットワークモデルの自動設計を可能にする。
しかし,性能評価のために探索アルゴリズムによって生成された候補を訓練すると,かなりの計算オーバーヘッドが生じる。
評価指標の代わりに,ニューラルネットワークをグラフに変換し,平均度,グラフ測度を用いて計算コストを大幅に削減する。
トレーニング不要なNAS法は,データに依存しない軽量な手法である。
NAS-Bench201からランダムにサンプリングされた200のアーキテクチャの中で、最高のアーキテクチャを217CPU秒で見つけることができる。
また,NASBench-101,NASBench-201,NASBench-201,NDS検索空間など,様々なデータセット上での競合性能の達成も可能である。
また、nasgraph は Micro TransNAS-Bench-101 上のより困難なタスクに一般化することを示した。
Neural architecture search (NAS) enables the automatic design of neural network models. However, training the candidates generated by the search algorithm for performance evaluation incurs considerable computational overhead. Our method, dubbed nasgraph, remarkably reduces the computational costs by converting neural architectures to graphs and using the average degree, a graph measure, as the proxy in lieu of the evaluation metric. Our training-free NAS method is data-agnostic and light-weight. It can find the best architecture among 200 randomly sampled architectures from NAS-Bench201 in 217 CPU seconds. Besides, our method is able to achieve competitive performance on various datasets including NASBench-101, NASBench-201, and NDS search spaces. We also demonstrate that nasgraph generalizes to more challenging tasks on Micro TransNAS-Bench-101. | 翻訳日:2024-05-03 16:24:55 公開日:2024-05-02 |
# 実行不要プログラム修復
Execution-free Program Repair ( http://arxiv.org/abs/2405.01309v1 ) ライセンス: Link先を確認 | Li Huang, Bertrand Meyer, Manuel Oriol, | (参考訳) 自動プログラム修復は通常、バグ識別と修正検証の両方のテストケースに大きく依存する。
問題なのは、テストケースを書くのは面倒で、それらを実行するのに多くの時間がかかり、テストを通じて修正を検証することは、その正しさを保証しません。
ここで提示されたProof2Fixの方法論とツールは、テストの実行やプログラムの実行を必要とせずに、代わりにプログラム証明に頼っている。
結果は、Proof2Fixが重要な歴史的なバグを発見し、修正していることを示している。
Automatic program repair usually relies heavily on test cases for both bug identification and fix validation. The issue is that writing test cases is tedious, running them takes much time, and validating a fix through tests does not guarantee its correctness. The novel idea in the Proof2Fix methodology and tool presented here is to rely instead on a program prover, without the need to run tests or to run the program at all. Results show that Proof2Fix finds and fixes significant historical bugs. | 翻訳日:2024-05-03 16:24:55 公開日:2024-05-02 |
# コーヒーリーフ病治療におけるRAG-Driven Precisionを用いたLCM課題の克服
Overcoming LLM Challenges using RAG-Driven Precision in Coffee Leaf Disease Remediation ( http://arxiv.org/abs/2405.01310v1 ) ライセンス: Link先を確認 | Dr. Selva Kumar S, Afifah Khan Mohammed Ajmal Khan, Imadh Ajaz Banday, Manikantha Gada, Vibha Venkatesh Shanbhag, | (参考訳) 本研究は、病気の識別にYOLOv8を、コンテキスト認識診断にRAG(Retrieval Augmented Generation)を応用した、革新的なAI駆動型精密農業システムを提案する。
カルナタカのコーヒー生産セクターに影響を及ぼす病気に対処することに焦点を当て,言語モデルと高度なオブジェクト検出技術を統合し,Large Language Models (LLMs) に関連する固有の制約に対処する。
本手法は, LLMの幻覚問題に対処するだけでなく, 動的疾患の同定と治療戦略も導入する。
リアルタイム監視、協調データセット拡張、組織的関与により、多様な農業環境におけるシステムの適応性が保証される。
提案システムの効果は、自動化を超えて、食料供給の確保、生活保護、環境に優しい農業の実践を促進することを目的としている。
病気の正確な識別を容易にすることにより、このシステムは持続的で環境に配慮した農業に寄与し、農薬への依存を減らす。
将来的には、RAG統合オブジェクト検出システムにおける継続的開発を構想し、スケーラビリティ、信頼性、ユーザビリティを強調している。
この研究は、持続的で技術的に強化された食品生産へのグローバルな取り組みと整合して、農業のポジティブな変化のビーコンになることを目指している。
This research introduces an innovative AI-driven precision agriculture system, leveraging YOLOv8 for disease identification and Retrieval Augmented Generation (RAG) for context-aware diagnosis. Focused on addressing the challenges of diseases affecting the coffee production sector in Karnataka, The system integrates sophisticated object detection techniques with language models to address the inherent constraints associated with Large Language Models (LLMs). Our methodology not only tackles the issue of hallucinations in LLMs, but also introduces dynamic disease identification and remediation strategies. Real-time monitoring, collaborative dataset expansion, and organizational involvement ensure the system's adaptability in diverse agricultural settings. The effect of the suggested system extends beyond automation, aiming to secure food supplies, protect livelihoods, and promote eco-friendly farming practices. By facilitating precise disease identification, the system contributes to sustainable and environmentally conscious agriculture, reducing reliance on pesticides. Looking to the future, the project envisions continuous development in RAG-integrated object detection systems, emphasizing scalability, reliability, and usability. This research strives to be a beacon for positive change in agriculture, aligning with global efforts toward sustainable and technologically enhanced food production. | 翻訳日:2024-05-03 16:24:55 公開日:2024-05-02 |
# 敵対的特徴の完成による歩行者検出の失敗を想像してみよう
Imagine the Unseen: Occluded Pedestrian Detection via Adversarial Feature Completion ( http://arxiv.org/abs/2405.01311v1 ) ライセンス: Link先を確認 | Shanshan Zhang, Mingqian Ji, Yang Li, Jian Yang, | (参考訳) 近年,DNNの開発により歩行者検出が著しく進展している。
しかし, 閉鎖シーンにおける検出性能は, 歩行者のクラス内ばらつきを増大させるため, 歩行者と背景ゴミの正確な分類境界を見つけるのを妨げているため, まだまだ不十分である。
クラス内ばらつきの低減の観点から, 歩行者の特徴を異なる閉塞パターンに整合させるため, 閉塞領域の特徴を完備化することを提案する。
機能補完の重要な前提は、隠された領域を見つけることである。
本分析から,異なる歩行者提案のチャネル特徴は,可視部でのみ高い相関値を示すため,閉塞パターンのモデル化に特徴相関を用いることができる。
完全可視的特徴と実完全可視的特徴とのギャップを狭めるために,実完全可視的特徴との識別が困難となるような生成物で隠蔽的特徴を完遂する逆学習法を提案する。
本稿では,CityPersons,Caltech,CrowdHumanの各データセットに関する実験結果について報告する。
CityPersonsでは,5種類のベースライン検出器,特に重閉塞サブセットに対して顕著な改善が見られた。
さらに,提案手法であるFeatComp++は,上記の3つのデータセットのすべてに対して,余分な手がかりに頼らずに最先端の結果が得られることを示す。
Pedestrian detection has significantly progressed in recent years, thanks to the development of DNNs. However, detection performance at occluded scenes is still far from satisfactory, as occlusion increases the intra-class variance of pedestrians, hindering the model from finding an accurate classification boundary between pedestrians and background clutters. From the perspective of reducing intra-class variance, we propose to complete features for occluded regions so as to align the features of pedestrians across different occlusion patterns. An important premise for feature completion is to locate occluded regions. From our analysis, channel features of different pedestrian proposals only show high correlation values at visible parts and thus feature correlations can be used to model occlusion patterns. In order to narrow down the gap between completed features and real fully visible ones, we propose an adversarial learning method, which completes occluded features with a generator such that they can hardly be distinguished by the discriminator from real fully visible features. We report experimental results on the CityPersons, Caltech and CrowdHuman datasets. On CityPersons, we show significant improvements over five different baseline detectors, especially on the heavy occlusion subset. Furthermore, we show that our proposed method FeatComp++ achieves state-of-the-art results on all the above three datasets without relying on extra cues. | 翻訳日:2024-05-03 16:24:55 公開日:2024-05-02 |
# ベンチマークパブリッシングのためのプライバシ強化データベース合成
Privacy-Enhanced Database Synthesis for Benchmark Publishing ( http://arxiv.org/abs/2405.01312v1 ) ライセンス: Link先を確認 | Yongrui Zhong, Yunqing Ge, Jianbin Qin, Shuyuan Zheng, Bo Tang, Yu-Xuan Qiu, Rui Mao, Ye Yuan, Makoto Onizuka, Chuan Xiao, | (参考訳) ベンチマークはDBMSを評価する上で重要であるが、既存のベンチマークはユーザのワークロードのさまざまな性質を反映しないことが多い。
結果として、ビジネス環境をより正確に反映するために、現実世界のユーザデータを組み込んだデータベースを作成する動きが高まっている。
しかしながら、プライバシに関する懸念は、ユーザがデータを直接共有することを妨げ、プライバシ保護を優先するベンチマーク用の合成データベースを作成することの重要性を強調している。
差分プライバシーは、データ共有時のプライバシ保護の鍵となる方法となっているが、その焦点は、集約クエリや分類タスクにおけるエラーを最小限にすることであり、実行時パフォーマンスなどのベンチマーク要因にはあまり注意を払わない。
本稿では,ベンチマークに特化してプライバシ保護データベースを作成することを目的として,クエリ性能が元のデータとよく似ている差分プライベートデータベースを作成することを目的とする。
革新的な合成フレームワークであるPrivBenchを導入し、プライバシーを維持する高品質なデータの生成をサポートしています。
PrivBenchは、データ分割とサンプリングにSPN(Sum-product Network)を使用して、プライバシを確保しながらデータ表現を強化する。
このフレームワークでは、プライバシレベルをカスタマイズするために不可欠なSPNパーティションとプライバシ設定の詳細を調整できる。
プライバシの維持にLaplaceと指数的なメカニズムを用いるアプローチを検証する。
テストの結果,プライバシの維持とクエリ性能の向上,クエリ実行時間,クエリの精度,KLのばらつきといったエラーを一貫して低減するデータを生成することができた。
Benchmarking is crucial for evaluating a DBMS, yet existing benchmarks often fail to reflect the varied nature of user workloads. As a result, there is increasing momentum toward creating databases that incorporate real-world user data to more accurately mirror business environments. However, privacy concerns deter users from directly sharing their data, underscoring the importance of creating synthesized databases for benchmarking that also prioritize privacy protection. Differential privacy has become a key method for safeguarding privacy when sharing data, but the focus has largely been on minimizing errors in aggregate queries or classification tasks, with less attention given to benchmarking factors like runtime performance. This paper delves into the creation of privacy-preserving databases specifically for benchmarking, aiming to produce a differentially private database whose query performance closely resembles that of the original data. Introducing PrivBench, an innovative synthesis framework, we support the generation of high-quality data that maintains privacy. PrivBench uses sum-product networks (SPNs) to partition and sample data, enhancing data representation while securing privacy. The framework allows users to adjust the detail of SPN partitions and privacy settings, crucial for customizing privacy levels. We validate our approach, which uses the Laplace and exponential mechanisms, in maintaining privacy. Our tests show that PrivBench effectively generates data that maintains privacy and excels in query performance, consistently reducing errors in query execution time, query cardinality, and KL divergence. | 翻訳日:2024-05-03 16:24:55 公開日:2024-05-02 |
# 線形偏微分方程式を解くための量子想像時間進化の一般化
Generalising quantum imaginary time evolution to solve linear partial differential equations ( http://arxiv.org/abs/2405.01313v1 ) ライセンス: Link先を確認 | Swagat Kumar, Colin Michael Wilmott, | (参考訳) QITE(Quantum imaginary Time Evolution)法は、量子コンピュータ上での仮想時間進化の実装において、非ユニタリティに関して重要な問題を克服するために開発された。
その後、QITEは様々な物理系の基底状態を近似するために使われるようになった。
本稿では,線形偏微分方程式に対する量子数値解法としてのQITEの実用化を実証する。
我々のアルゴリズムは、量子状態が両方のアルゴリズムで同じ正規化軌道に従うという点で、QITEからインスピレーションを得ている。
しかし、我々のQITE手法は、時間とともに状態ベクトルのスケールを追跡でき、アルゴリズムが微分方程式を解くことができる。
本手法を数値シミュレーションで実証し, 熱方程式を1次元と2次元でそれぞれ6キュービットと10キュービットで解く。
The quantum imaginary time evolution (QITE) methodology was developed to overcome a critical issue as regards non-unitarity in the implementation of imaginary time evolution on a quantum computer. QITE has since been used to approximate ground states of various physical systems. In this paper, we demonstrate a practical application of QITE as a quantum numerical solver for linear partial differential equations. Our algorithm takes inspiration from QITE in that the quantum state follows the same normalised trajectory in both algorithms. However, it is our QITE methodology's ability to track the scale of the state vector over time that allows our algorithm to solve differential equations. We demonstrate our methodology with numerical simulations and use it to solve the heat equation in one and two dimensions using six and ten qubits, respectively. | 翻訳日:2024-05-03 16:15:09 公開日:2024-05-02 |
# 航空網における軌道・無線資源の非定常最適化
Non-iterative Optimization of Trajectory and Radio Resource for Aerial Network ( http://arxiv.org/abs/2405.01314v1 ) ライセンス: Link先を確認 | Hyeonsu Lyu, Jonggyu Jang, Harim Lee, Hyun Jong Yang, | (参考訳) 本研究では,実運用のエンドツーエンド品質(QoS)と通信スケジュールを考慮して,空域IoTネットワークにおける比例フェアネスを最大化するために,共同軌道計画,ユーザアソシエーション,リソースアロケーション,電力制御の問題に対処する。
問題はかなり古いが、従来のアプローチがユーザ固有のQoSや時間固有のQoSを考慮していなかったという事実とは別に、文献の大半で採用されている座標最適化アプローチの誤りを指摘した。
座標最適化アプローチは、固定軌跡に対して無線資源を反復的に最適化し、その逆もまた、すべての変数が微分可能であれば、一般に局所最適に収束する。
しかし、これらの手法はしばしば非定常点において停滞し、ジョイント軌道や無線リソース最適化といった混合整数問題においてネットワークの有用性は著しく低下する。
定式化問題をマルコフ決定過程(MDP)に変換することにより、この問題に対処する。
提案手法は, トラジェクトリと無線資源を初期軌道選択なしで協調的に最適化する非イテレーティブな枠組みを設計する。
提案フレームワークは,遺伝的アルゴリズム,木探索,強化学習など,様々な軌道計画アルゴリズムを組み込むことができる。
多様なベースラインとの大規模な比較により、提案したフレームワークが最先端の手法を著しく上回り、大域的な最適化をほぼ達成していることを確認した。
私たちの実装コードはhttps://github.com/hslyu/dbspf.comで公開されています。
We address a joint trajectory planning, user association, resource allocation, and power control problem to maximize proportional fairness in the aerial IoT network, considering practical end-to-end quality-of-service (QoS) and communication schedules. Though the problem is rather ancient, apart from the fact that the previous approaches have never considered user- and time-specific QoS, we point out a prevalent mistake in coordinate optimization approaches adopted by the majority of the literature. Coordinate optimization approaches, which repetitively optimize radio resources for a fixed trajectory and vice versa, generally converge to local optima when all variables are differentiable. However, these methods often stagnate at a non-stationary point, significantly degrading the network utility in mixed-integer problems such as joint trajectory and radio resource optimization. We detour this problem by converting the formulated problem into the Markov decision process (MDP). Exploiting the beneficial characteristics of the MDP, we design a non-iterative framework that cooperatively optimizes trajectory and radio resources without initial trajectory choice. The proposed framework can incorporate various trajectory planning algorithms such as the genetic algorithm, tree search, and reinforcement learning. Extensive comparisons with diverse baselines verify that the proposed framework significantly outperforms the state-of-the-art method, nearly achieving the global optimum. Our implementation code is available at https://github.com/hslyu/dbspf. | 翻訳日:2024-05-03 16:15:09 公開日:2024-05-02 |
# データスコーピング:ジェネリックトランスポートPDEの進化を効果的に学ぶ
Data Scoping: Effectively Learning the Evolution of Generic Transport PDEs ( http://arxiv.org/abs/2405.01319v1 ) ライセンス: Link先を確認 | Jiangce Chen, Wenzhuo Xu, Zeda Xu, Noelia Grande Gutiérrez, Sneha Prabha Narra, Christopher McComb, | (参考訳) 輸送現象(例えば流体の流れ)は、質量、運動量、エネルギー保存を記述した時間依存偏微分方程式(PDE)によって制御され、多くの工学的応用においてユビキタスである。
しかし、ディープラーニングアーキテクチャはこれらのPDEのシミュレーションとは根本的に相容れない。
本論文は, この非互換性を明確化し, 解決するものである。
ジェネリックトランスポートPDEの局所依存性は、次のステップで位置の物理的特性を予測するために、ローカル情報のみを含むことを意味する。
しかし、ディープラーニングアーキテクチャは、レイヤーの数が増えるにつれて、情報の範囲を必然的に増加させ、ゆるやかな収束と一般化可能性の妥協を引き起こす可能性がある。
本稿では,局所特性を予測するための情報範囲を厳格に制限するために,線形時間複雑性を持つ分散データスコーピング手法を提案することで,この問題を解決することを目的とする。
複数の物理上の数値実験により,我々のデータスコーピング法はトレーニングの収束を著しく加速し,大規模工学シミュレーションにおけるベンチマークモデルの一般化性を向上させることが示された。
具体的には、熱伝達シミュレーションのトレーニングデータに含まれないジオメトリでは、畳み込みニューラルネットワーク(CNN)の精度を21.7%、フーリエニューラルネットワーク(FNO)の精度を38.5%向上させることができる。
Transport phenomena (e.g., fluid flows) are governed by time-dependent partial differential equations (PDEs) describing mass, momentum, and energy conservation, and are ubiquitous in many engineering applications. However, deep learning architectures are fundamentally incompatible with the simulation of these PDEs. This paper clearly articulates and then solves this incompatibility. The local-dependency of generic transport PDEs implies that it only involves local information to predict the physical properties at a location in the next time step. However, the deep learning architecture will inevitably increase the scope of information to make such predictions as the number of layers increases, which can cause sluggish convergence and compromise generalizability. This paper aims to solve this problem by proposing a distributed data scoping method with linear time complexity to strictly limit the scope of information to predict the local properties. The numerical experiments over multiple physics show that our data scoping method significantly accelerates training convergence and improves the generalizability of benchmark models on large-scale engineering simulations. Specifically, over the geometries not included in the training data for heat transferring simulation, it can increase the accuracy of Convolutional Neural Networks (CNNs) by 21.7 \% and that of Fourier Neural Operators (FNOs) by 38.5 \% on average. | 翻訳日:2024-05-03 16:15:09 公開日:2024-05-02 |
# タイムセンシティブな自動車ネットワークにおける異常検知器のシステム評価のためのフレームワーク
A Framework for the Systematic Assessment of Anomaly Detectors in Time-Sensitive Automotive Networks ( http://arxiv.org/abs/2405.01324v1 ) ライセンス: Link先を確認 | Philipp Meyer, Timo Häckel, Teresa Lübeck, Franz Korf, Thomas C. Schmidt, | (参考訳) 接続された車はサイバー攻撃を受けやすい。
将来の車両の安全性と安全性は、時間に敏感なバックボーンネットワークが重要な役割を果たす自動車部品の全体的保護に依存している。
搭載されているTSN(Time-Sensitive Networks)は安全性の監視を必要とし、セキュリティのためにネットワーク異常検出システム(NADS)をホストする汎用プラットフォームである。
それでも、ハードリアルタイム操作、自動車プロトコルスタック、ドメイン固有の攻撃ベクトルといったコンテキストにおける異常検出方法の徹底的な評価は、適切な入力データセットとともに欠落している。
本稿では,検出アルゴリズムの再現性,比較性,迅速な評価を可能にするアセスメントフレームワークを提案する。
これは、構成可能なトポロジ、トラフィックストリーム、異常、アタック、検出器にコントリビュートするシミュレーションツールチェーンに基づいている。
交通異常をモデル化した交通流を用いた総合車内ネットワークにおけるNADSの評価を実演する。
実例検出機構を評価し,TSNトラフィックフローと異常型の組み合わせによって検出性能がどう影響するかを明らかにする。
我々のアプローチは、産業施設、飛行機、UAVなどの他のリアルタイムイーサネットドメインに翻訳される。
Connected cars are susceptible to cyberattacks. Security and safety of future vehicles highly depend on a holistic protection of automotive components, of which the time-sensitive backbone network takes a significant role. These onboard Time-Sensitive Networks (TSNs) require monitoring for safety and -- as versatile platforms to host Network Anomaly Detection Systems (NADSs) -- for security. Still a thorough evaluation of anomaly detection methods in the context of hard real-time operations, automotive protocol stacks, and domain specific attack vectors is missing along with appropriate input datasets. In this paper, we present an assessment framework that allows for reproducible, comparable, and rapid evaluation of detection algorithms. It is based on a simulation toolchain, which contributes configurable topologies, traffic streams, anomalies, attacks, and detectors. We demonstrate the assessment of NADSs in a comprehensive in-vehicular network with its communication flows, on which we model traffic anomalies. We evaluate exemplary detection mechanisms and reveal how the detection performance is influenced by different combinations of TSN traffic flows and anomaly types. Our approach translates to other real-time Ethernet domains, such as industrial facilities, airplanes, and UAVs. | 翻訳日:2024-05-03 16:15:09 公開日:2024-05-02 |
# 画像美学評価のためのマルチモーダル学習型クエリ
Multi-modal Learnable Queries for Image Aesthetics Assessment ( http://arxiv.org/abs/2405.01326v1 ) ライセンス: Link先を確認 | Zhiwei Xiong, Yunfan Zhang, Zhiqi Shen, Peiran Ren, Han Yu, | (参考訳) 画像美学評価(IAA)はソーシャルメディアの普及に広く関心を集めている。
その問題は主観的で曖昧な性質のため難しい。
画像からのみ美的特徴を直接抽出するのではなく、画像に関連するユーザコメントは、IAAに有用な補完的な知識を提供する可能性がある。
既存の大規模事前学習モデルでは、高品質な伝達可能な視覚的特徴とテキスト的特徴を抽出する強力な能力を示すため、学習可能なクエリは、事前学習された視覚的特徴から有用な特徴を抽出するのに有効であることが示されている。
そこで本稿では,マルチモーダル学習可能なクエリを用いて,マルチモーダル事前学習特徴から美学関連特徴を抽出するMMLQを提案する。
MMLQはマルチモーダルIAAにおいて新しい最先端性能を達成し,SRCCとPLCCでそれぞれ7.7%,8.3%を達成した。
Image aesthetics assessment (IAA) is attracting wide interest with the prevalence of social media. The problem is challenging due to its subjective and ambiguous nature. Instead of directly extracting aesthetic features solely from the image, user comments associated with an image could potentially provide complementary knowledge that is useful for IAA. With existing large-scale pre-trained models demonstrating strong capabilities in extracting high-quality transferable visual and textual features, learnable queries are shown to be effective in extracting useful features from the pre-trained visual features. Therefore, in this paper, we propose MMLQ, which utilizes multi-modal learnable queries to extract aesthetics-related features from multi-modal pre-trained features. Extensive experimental results demonstrate that MMLQ achieves new state-of-the-art performance on multi-modal IAA, beating previous methods by 7.7% and 8.3% in terms of SRCC and PLCC, respectively. | 翻訳日:2024-05-03 16:15:09 公開日:2024-05-02 |
# モデルミスマッチによる制約付き強化学習
Constrained Reinforcement Learning Under Model Mismatch ( http://arxiv.org/abs/2405.01327v1 ) ライセンス: Link先を確認 | Zhongchang Sun, Sihong He, Fei Miao, Shaofeng Zou, | (参考訳) 制約強化学習(RL)に関する既存の研究は、訓練環境における優れた政策を得ることができる。
しかし、実際の環境にデプロイすると、トレーニングと実際の環境の間にモデルミスマッチがあるため、トレーニング中に当初満足していた制約に容易に違反する可能性がある。
この課題に対処するために、モデル不確実性の下で制約付きRLとして問題を定式化し、そこでは報酬を最適化する優れたポリシーを学習し、同時にモデルミスマッチの下で制約を満たすことを目標とする。
我々は,大規模かつ連続的な状態空間に適用可能な最初のアルゴリズムであるロバスト制約付きポリシー最適化(RCPO)アルゴリズムを開発し,トレーニング中の各イテレーションにおいて最悪の報酬改善と制約違反を理論的に保証する。
本稿では,制約付きRLタスクに対するアルゴリズムの有効性を示す。
Existing studies on constrained reinforcement learning (RL) may obtain a well-performing policy in the training environment. However, when deployed in a real environment, it may easily violate constraints that were originally satisfied during training because there might be model mismatch between the training and real environments. To address the above challenge, we formulate the problem as constrained RL under model uncertainty, where the goal is to learn a good policy that optimizes the reward and at the same time satisfy the constraint under model mismatch. We develop a Robust Constrained Policy Optimization (RCPO) algorithm, which is the first algorithm that applies to large/continuous state space and has theoretical guarantees on worst-case reward improvement and constraint violation at each iteration during the training. We demonstrate the effectiveness of our algorithm on a set of RL tasks with constraints. | 翻訳日:2024-05-03 16:15:09 公開日:2024-05-02 |
# Ethereumのビルダー市場の分散化
Decentralization of Ethereum's Builder Market ( http://arxiv.org/abs/2405.01329v1 ) ライセンス: Link先を確認 | Sen Yang, Kartik Nayak, Fan Zhang, | (参考訳) ブロックチェーンは、分散化の原則に由来する強力なセキュリティ特性によって、500億ドル以上の価値を持つエコシステムを保護します。
今日のブロックチェーンは本当に分散していますか?
本稿では,Ethereumの最も多く使用されているブロックチェーンシステムである(最小限の分散化)部分の1つを実証的に研究し,新たな視点から分散化の問題に光を当てる。
最大抽出可能な値(MEV)による集中化を避けるため、Ethereumは {\displaystyle {\em builder market}を通じてブロックを生成する新しいメカニズムを採用した。
しかし、2年間の運用期間を経て、ビルダー市場は高度に集中した市場へと発展し、3人のビルダーが90%以上のブロックを生産している。
なぜビルダー市場は、それが無許可で誰でも参加できるので、中央集権化するのか?
さらに、集中型ビルダー市場のMEV-Boostオークションに対するセキュリティへの影響はどのようなものか。
原文(投稿日:2012/01/14)へのリンク ビルダー市場の中核的メカニズムであるMEV-Boostオークションの厳密な実証研究を通じて,2022年以降にキュレートした大規模オークションデータセットを用いて,これらの2つの質問に答えた。
オークションで誰が優勝するかに焦点を当てた以前の作品とは異なり、なぜ優勝したのかに注目し、MEV-Boostオークションの「オープン性、競争性、効率性」に光を当てる。
我々の発見は、ビルダー市場の分散化を改善するための方向性の特定にも役立ちます。
Blockchains protect an ecosystem worth more than $500bn with their strong security properties derived from the principle of decentralization. Is today's blockchain really decentralized? In this paper, we empirically studied one of the {\em least decentralized} parts of Ethereum -- the most used blockchain system in practice -- and shed light on the decentralization issue from a new perspective. To avoid centralization caused by Maximal Extractable Value (MEV), Ethereum adopts a novel mechanism that produces blocks through a {\em builder market}. After two years in operation, however, the builder market has evolved to a highly centralized one with three builders producing more than 90% of blocks. {\em Why does the builder market centralize, given that it is permissionless and anyone can join?} Moreover, {\em what are the security implications of a centralized builder market to MEV-Boost auctions?} Through a rigorous empirical study of the builder market's core mechanism, MEV-Boost auctions, we answered these two questions using a large-scale auction dataset we curated since 2022. Unlike previous works that focus on {\em who} wins the auctions, we focus on {\em why} they win, to shed light on the {openness, competitiveness, and efficiency} of MEV-Boost auctions. Our findings also help identify directions for improving the decentralization of builder markets. | 翻訳日:2024-05-03 16:15:09 公開日:2024-05-02 |
# 量子誤り訂正にどの程度の絡み合いが必要か?
How much entanglement is needed for quantum error correction? ( http://arxiv.org/abs/2405.01332v1 ) ライセンス: Link先を確認 | Sergey Bravyi, Dongjin Lee, Zhi Li, Beni Yoshida, | (参考訳) 量子誤り訂正符号の論理状態は、より多くの誤りを訂正できる符号が量子ビットをエンコードするためにより多くの絡み合いを必要とするように、高度に絡み合う必要があると一般的に信じられている。
ここでは、この信念が特定のコードによって真であるかどうかを示す。
この目的のために、訂正可能なエラーの数を定量化するコード距離$d$と、積状態やより一般的な「トポロジカルに自明な」状態との最大の重なりを定量化する論理状態の幾何学的絡み合いを特徴付ける。
最大オーバーラップは、(1)通勤チェック演算子付き低密度パリティチェック(LDPC)符号、(2)安定化符号、(3)符号化レートが一定である3種類の符号に対して、$d$で指数関数的に小さいことが示されている。
等しく、これらの符号の任意の論理状態の幾何学的絡み合いは、少なくとも$d$で線形に成長する。
一方、この距離絡みのトレードオフは一般には成立しないことを示す。
任意の定数$d$と$k$(論理量子ビットの数)に対して、ある論理状態の幾何学的絡み合いが大きな符号長の極限でゼロに近づくような符号の族が存在することを示す。
It is commonly believed that logical states of quantum error-correcting codes have to be highly entangled such that codes capable of correcting more errors require more entanglement to encode a qubit. Here we show that this belief may or may not be true depending on a particular code. To this end, we characterize a tradeoff between the code distance $d$ quantifying the number of correctable errors, and geometric entanglement of logical states quantifying their maximal overlap with product states or more general "topologically trivial" states. The maximum overlap is shown to be exponentially small in $d$ for three families of codes: (1) low-density parity check (LDPC) codes with commuting check operators, (2) stabilizer codes, and (3) codes with a constant encoding rate. Equivalently, the geometric entanglement of any logical state of these codes grows at least linearly with $d$. On the opposite side, we also show that this distance-entanglement tradeoff does not hold in general. For any constant $d$ and $k$ (number of logical qubits), we show there exists a family of codes such that the geometric entanglement of some logical states approaches zero in the limit of large code length. | 翻訳日:2024-05-03 16:15:09 公開日:2024-05-02 |
# NeRF in Robotics: A Survey
NeRF in Robotics: A Survey ( http://arxiv.org/abs/2405.01333v1 ) ライセンス: Link先を確認 | Guangming Wang, Lei Pan, Songyou Peng, Shaohui Liu, Chenfeng Xu, Yanzi Miao, Wei Zhan, Masayoshi Tomizuka, Marc Pollefeys, Hesheng Wang, | (参考訳) 微妙な3D環境表現は、コンピュータビジョンとロボティクス分野における長年の目標である。
近年の神経暗示表現の出現は、暗示表現が多くの機能を実現するため、この分野に急進的な革新をもたらした。
このうちNeural Radiance Field(NeRF)は、単純化された数学的モデル、コンパクトな環境記憶、連続的なシーン表現など、表現上の大きな利点から、トレンドを引き起こしている。
コンピュータービジョン以外にも、NeRFはロボティクスの分野でも大きな可能性を秘めている。
そこで我々は,ロボット工学の分野におけるNeRFの包括的理解を提供するために,本調査を作成した。
NeRFの利点と限界、そしてその現在の応用と将来の可能性を探ることで、私たちはこの有望な研究領域に光を当てたいと考えています。
我々の調査は2つの主要なセクションに分けられる: ロボットにおけるNeRFの応用 \textit{The Application of NeRF in Robotics} と \textit{The Advance of NeRF in Robotics} である。
第1節では、ロボット工学の分野における知覚と相互作用の観点から、これまであるいは使用されてきたいくつかの研究を紹介し、分析する。
第2節では, ロボット分野におけるNeRFの展開に不可欠であるNeRFの特性向上に関するいくつかの研究について述べる。
レビューの議論のセクションでは、既存の課題を要約し、参考となる貴重な研究の方向性を提示する。
Meticulous 3D environment representations have been a longstanding goal in computer vision and robotics fields. The recent emergence of neural implicit representations has introduced radical innovation to this field as implicit representations enable numerous capabilities. Among these, the Neural Radiance Field (NeRF) has sparked a trend because of the huge representational advantages, such as simplified mathematical models, compact environment storage, and continuous scene representations. Apart from computer vision, NeRF has also shown tremendous potential in the field of robotics. Thus, we create this survey to provide a comprehensive understanding of NeRF in the field of robotics. By exploring the advantages and limitations of NeRF, as well as its current applications and future potential, we hope to shed light on this promising area of research. Our survey is divided into two main sections: \textit{The Application of NeRF in Robotics} and \textit{The Advance of NeRF in Robotics}, from the perspective of how NeRF enters the field of robotics. In the first section, we introduce and analyze some works that have been or could be used in the field of robotics from the perception and interaction perspectives. In the second section, we show some works related to improving NeRF's own properties, which are essential for deploying NeRF in the field of robotics. In the discussion section of the review, we summarize the existing challenges and provide some valuable future research directions for reference. | 翻訳日:2024-05-03 16:15:09 公開日:2024-05-02 |
# 指示Gromov-Wasserstein差分法による多視点行動認識
Multi-view Action Recognition via Directed Gromov-Wasserstein Discrepancy ( http://arxiv.org/abs/2405.01337v1 ) ライセンス: Link先を確認 | Hoang-Quan Nguyen, Thanh-Dat Truong, Khoa Luu, | (参考訳) 行動認識はコンピュータビジョンにおける人気のある研究トピックの1つとなっている。
コンボリューショナル・ネットワークと自己認識機構に基づく様々な手法があり、競合性能を実現する行動認識タスクの空間的・時間的次元の問題を解決する。
しかし、これらの手法は、モデルが注意を向けるアクション対象の正しさ、すなわちアクション認識モデルが適切なアクション対象に集中して合理的なアクション予測を行う方法の保証を欠いている。
本稿では,2つのアクションビデオの異なる視点からの2つの注意の類似性を計算するための多視点アテンション整合性手法を提案する。
さらに,本手法では,単一ビューデータセット上でのトレーニングにおいて,新しいビューの特徴を暗黙的にレンダリングするために,ニューラルラジアンス場(Neural Radiance Field)という概念を適用している。
したがって、この作品への貢献は3倍である。
まず、動作認識における合理的な予測の問題を解決するために、多視点アテンション整合性を導入する。
次に、Gromov-Wasserstein Disrepancy を用いた多視点一貫した注意のための新しい指標を定義する。
第3に,ビデオトランスフォーマーとニューラルラジアンスフィールドに基づく行動認識モデルを構築した。
近年の行動認識手法と比較して,提案手法は3つの大規模データセット,すなわちJester,Something V2,Kineetics-400に対して,最先端の結果を達成している。
Action recognition has become one of the popular research topics in computer vision. There are various methods based on Convolutional Networks and self-attention mechanisms as Transformers to solve both spatial and temporal dimensions problems of action recognition tasks that achieve competitive performances. However, these methods lack a guarantee of the correctness of the action subject that the models give attention to, i.e., how to ensure an action recognition model focuses on the proper action subject to make a reasonable action prediction. In this paper, we propose a multi-view attention consistency method that computes the similarity between two attentions from two different views of the action videos using Directed Gromov-Wasserstein Discrepancy. Furthermore, our approach applies the idea of Neural Radiance Field to implicitly render the features from novel views when training on single-view datasets. Therefore, the contributions in this work are three-fold. Firstly, we introduce the multi-view attention consistency to solve the problem of reasonable prediction in action recognition. Secondly, we define a new metric for multi-view consistent attention using Directed Gromov-Wasserstein Discrepancy. Thirdly, we built an action recognition model based on Video Transformers and Neural Radiance Fields. Compared to the recent action recognition methods, the proposed approach achieves state-of-the-art results on three large-scale datasets, i.e., Jester, Something-Something V2, and Kinetics-400. | 翻訳日:2024-05-03 16:15:09 公開日:2024-05-02 |
# 多言語推論における質問文翻訳指導の力 : スコープの拡大と洞察の深化
The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights ( http://arxiv.org/abs/2405.01345v1 ) ライセンス: Link先を確認 | Wenhao Zhu, Shujian Huang, Fei Yuan, Cheng Chen, Jiajun Chen, Alexandra Birch, | (参考訳) 大きな言語モデルの英語と非英語のパフォーマンスの間に大きなギャップを埋めることは大きな課題である。
以前の研究では、このギャップを翻訳トレーニングデータで軽減しようとする試みもあったが、最近提案された質問アライメントアプローチでは、このモデルの英語の専門知識を活用して、高価でエラーを起こしやすい翻訳を最小限に使用することで、多言語のパフォーマンスを向上させる。
本稿では,この手法が,実行可能コードによる推論や常識による推論において,その効果を検証することによって,いかに広範に適用できるかを考察する。
また、プロキシチューニングを用いて、非常に大きな言語モデルに対して、このアプローチを効率的に適用する方法についても検討する。
mGSM, mSVAMP, xCSQAの多言語推論ベンチマーク実験の結果, 多様な推論シナリオ, モデルファミリ, サイズをまたいだ多言語性能向上に, 問合せアライメントアプローチが有効であることが示された。
例えば、LLaMA2モデルに適用すると、70BモデルであってもmGSMの平均精度は12.2%向上する。
その成功のメカニズムを理解するために、我々は表現空間、チェーン・オブ・シンク、翻訳データスケールを分析し、質問翻訳訓練がLLM内の言語アライメントを強化し、その動作パターンを形作る方法を明らかにする。
Bridging the significant gap between large language model's English and non-English performance presents a great challenge. While some previous studies attempt to mitigate this gap with translated training data, the recently proposed question alignment approach leverages the model's English expertise to improve multilingual performance with minimum usage of expensive, error-prone translation. In this paper, we explore how broadly this method can be applied by examining its effects in reasoning with executable code and reasoning with common sense. We also explore how to apply this approach efficiently to extremely large language models using proxy-tuning. Experiment results on multilingual reasoning benchmarks mGSM, mSVAMP and xCSQA demonstrate that the question alignment approach can be used to boost multilingual performance across diverse reasoning scenarios, model families, and sizes. For instance, when applied to the LLaMA2 models, our method brings an average accuracy improvements of 12.2% on mGSM even with the 70B model. To understand the mechanism of its success, we analyze representation space, chain-of-thought and translation data scales, which reveals how question translation training strengthens language alignment within LLMs and shapes their working patterns. | 翻訳日:2024-05-03 16:15:09 公開日:2024-05-02 |
# ポジションペーパー: 単一攻撃型に対するロバスト性を超えて
Position Paper: Beyond Robustness Against Single Attack Types ( http://arxiv.org/abs/2405.01349v1 ) ライセンス: Link先を確認 | Sihui Dai, Chong Xiang, Tong Wu, Prateek Mittal, | (参考訳) 敵の例に対する防御に関する現在の研究は、主に$\ell_2$や$\ell_{\infty}$-bounded攻撃のような単一の攻撃タイプに対して堅牢性を達成することに焦点を当てている。
しかし、考えられる摂動の空間ははるかに大きく、現在は単一の攻撃タイプでモデル化することはできない。
現在の防衛の焦点と関心の攻撃空間との相違は、既存の防衛の実用性と評価の信頼性に疑問を呈するものである。
本稿では,複数攻撃に対するロバスト性に関する3つの潜在的方向性,すなわち同時多発攻撃ロバスト性,予期せぬ攻撃ロバスト性,および連続適応ロバスト性(continuous Adaptive robustness)と呼ばれる新たな問題設定に留意する。
我々は、これらの問題設定を厳格に定義し、これらの分野における既存の研究を合成し、オープンな方向性を概説する統一的なフレームワークを提供する。
当社のポジションペーパーは、同時多発攻撃、予期せぬ攻撃、継続的な適応的堅牢性に関するさらなる研究を促すことを願っている。
Current research on defending against adversarial examples focuses primarily on achieving robustness against a single attack type such as $\ell_2$ or $\ell_{\infty}$-bounded attacks. However, the space of possible perturbations is much larger and currently cannot be modeled by a single attack type. The discrepancy between the focus of current defenses and the space of attacks of interest calls to question the practicality of existing defenses and the reliability of their evaluation. In this position paper, we argue that the research community should look beyond single attack robustness, and we draw attention to three potential directions involving robustness against multiple attacks: simultaneous multiattack robustness, unforeseen attack robustness, and a newly defined problem setting which we call continual adaptive robustness. We provide a unified framework which rigorously defines these problem settings, synthesize existing research in these fields, and outline open directions. We hope that our position paper inspires more research in simultaneous multiattack, unforeseen attack, and continual adaptive robustness. | 翻訳日:2024-05-03 16:15:09 公開日:2024-05-02 |
# コミュニティ不変グラフコントラスト学習
Community-Invariant Graph Contrastive Learning ( http://arxiv.org/abs/2405.01350v1 ) ライセンス: Link先を確認 | Shiyin Tan, Dongyuan Li, Renhe Jiang, Ying Zhang, Manabu Okumura, | (参考訳) グラフ拡張は近年,グラフコントラスト学習(GCL)において,よく一般化されたノード/グラフ表現の学習において大きな注目を集めている。
しかし、主流のGCL法は、拡張のためにランダムに破壊的なグラフを好むことが多く、それは限定的な一般化を示し、必然的に高レベルなグラフ情報、すなわちグラフコミュニティの腐敗につながる。
さらに、現在の知識に基づくグラフ拡張手法では、トポロジやノードの特徴にのみ焦点をあてることができるため、様々な種類のノイズに対して堅牢性が欠如する。
これらの制約に対処するため,グラフ拡張におけるグラフコミュニティの役割を調査し,学習可能なグラフ拡張にとって重要な優位性を見出した。
本稿では,学習可能なグラフ拡張時のグラフコミュニティ構造を維持するための,コミュニティ不変なGCLフレームワークを提案する。
スペクトル変化を最大化することにより、このフレームワークはトポロジと特徴増強の両方の制約を統一し、モデルの堅牢性を高める。
21のベンチマークデータセットに関する実証的な証拠は、我々のフレームワークの排他的メリットを示している。
コードはGithub(https://github.com/ShiyinTan/CI-GCL.git)で公開されている。
Graph augmentation has received great attention in recent years for graph contrastive learning (GCL) to learn well-generalized node/graph representations. However, mainstream GCL methods often favor randomly disrupting graphs for augmentation, which shows limited generalization and inevitably leads to the corruption of high-level graph information, i.e., the graph community. Moreover, current knowledge-based graph augmentation methods can only focus on either topology or node features, causing the model to lack robustness against various types of noise. To address these limitations, this research investigated the role of the graph community in graph augmentation and figured out its crucial advantage for learnable graph augmentation. Based on our observations, we propose a community-invariant GCL framework to maintain graph community structure during learnable graph augmentation. By maximizing the spectral changes, this framework unifies the constraints of both topology and feature augmentation, enhancing the model's robustness. Empirical evidence on 21 benchmark datasets demonstrates the exclusive merits of our framework. Code is released on Github (https://github.com/ShiyinTan/CI-GCL.git). | 翻訳日:2024-05-03 16:15:09 公開日:2024-05-02 |
# 見えない環境におけるスパース多視点ハンドオブジェクト再構成
Sparse multi-view hand-object reconstruction for unseen environments ( http://arxiv.org/abs/2405.01353v1 ) ライセンス: Link先を確認 | Yik Lung Pang, Changjae Oh, Andrea Cavallaro, | (参考訳) 近年の手動オブジェクト再構成の研究は、主にシングルビューと密集したマルチビュー設定に焦点を当てている。
一方、シングルビュー法は、学習前の形状を利用して見えない物体を一般化するが、閉塞により不正確になる傾向がある。
一方、高密度多視点法は非常に正確であるが、余分なデータ収集なしには見当たらないオブジェクトに容易に適応できない。
対照的に、スパース・マルチビュー法は、高密度なマルチビュー法と比較して計算コストを低く保ちながら、オクルージョンに対処するために追加のビューを利用することができる。
本稿では,スパース・マルチビュー・セッティングにおける未確認物体を用いた手動物体再構成の問題点について考察する。
複数のRGB画像が同時に取得された場合、我々のモデルSVHOは、各ビューからの予測を、ビュー間の最適化を伴わずに統一された再構成に組み合わせる。
我々は、合成手オブジェクトデータセットに基づいてモデルをトレーニングし、実世界記録手オブジェクトデータセットを直接評価する。
RGBから見えない手や物体を復元することは難しいが、追加の視点は再建の質を向上させるのに役立つ。
Recent works in hand-object reconstruction mainly focus on the single-view and dense multi-view settings. On the one hand, single-view methods can leverage learned shape priors to generalise to unseen objects but are prone to inaccuracies due to occlusions. On the other hand, dense multi-view methods are very accurate but cannot easily adapt to unseen objects without further data collection. In contrast, sparse multi-view methods can take advantage of the additional views to tackle occlusion, while keeping the computational cost low compared to dense multi-view methods. In this paper, we consider the problem of hand-object reconstruction with unseen objects in the sparse multi-view setting. Given multiple RGB images of the hand and object captured at the same time, our model SVHO combines the predictions from each view into a unified reconstruction without optimisation across views. We train our model on a synthetic hand-object dataset and evaluate directly on a real world recorded hand-object dataset with unseen objects. We show that while reconstruction of unseen hands and objects from RGB is challenging, additional views can help improve the reconstruction quality. | 翻訳日:2024-05-03 16:15:09 公開日:2024-05-02 |
# 主観非依存誘導による主観的画像合成の改善
Improving Subject-Driven Image Synthesis with Subject-Agnostic Guidance ( http://arxiv.org/abs/2405.01356v1 ) ライセンス: Link先を確認 | Kelvin C. K. Chan, Yang Zhao, Xuhui Jia, Ming-Hsuan Yang, Huisheng Wang, | (参考訳) 主題駆動のテキスト・ツー・イメージ合成では、合成プロセスはユーザーが提供した参照画像に大きく影響されがちであり、しばしばテキスト・プロンプトに詳述された重要な属性を見落としている。
そこで本研究では,SAG (Subject-Agnostic Guidance) を提案する。
本研究では,主観的条件の構築と提案した二重分類器フリーガイダンスの適用により,与えられた主観と入力テキストのプロンプトに一致した出力が得られることを示す。
最適化法とエンコーダ法の両方を用いて,提案手法の有効性を検証する。
さらに、エンコーダベースのモデルをDreamBoothで微調整する2次カスタマイズ手法の適用性を示す。
私たちのアプローチは概念的には単純で、最小限のコード修正しか必要ありませんが、評価やユーザスタディによって証明されているように、大幅な品質改善につながります。
In subject-driven text-to-image synthesis, the synthesis process tends to be heavily influenced by the reference images provided by users, often overlooking crucial attributes detailed in the text prompt. In this work, we propose Subject-Agnostic Guidance (SAG), a simple yet effective solution to remedy the problem. We show that through constructing a subject-agnostic condition and applying our proposed dual classifier-free guidance, one could obtain outputs consistent with both the given subject and input text prompts. We validate the efficacy of our approach through both optimization-based and encoder-based methods. Additionally, we demonstrate its applicability in second-order customization methods, where an encoder-based model is fine-tuned with DreamBooth. Our approach is conceptually simple and requires only minimal code modifications, but leads to substantial quality improvements, as evidenced by our evaluations and user studies. | 翻訳日:2024-05-03 16:15:09 公開日:2024-05-02 |
# GAIA:Intelligent Accelerator Operationsのための汎用AIアシスタント
GAIA: A General AI Assistant for Intelligent Accelerator Operations ( http://arxiv.org/abs/2405.01359v1 ) ライセンス: Link先を確認 | Frank Mayet, | (参考訳) 粒子加速器のような大規模マシンは通常、経験豊富な演算子のチームによって実行される。
粒子加速器の場合、これらの演算子は加速器物理学と機械を構成する技術の両方に関する適切な背景知識を持っている。
マシンの複雑さのため、マシンの特定のサブシステムは専門家によって管理され、オペレータはそれを操作できる。
この作業では、推論とアクション(ReAct)のプロンプトパラダイムが、オープンウェイトな大規模言語モデル(LLM)と高レベルの機械制御システムフレームワークや他のツール、例えば電子ログブックや機械設計文書とを結合するために使用されます。
これにより、知識検索タスクのオペレータを支援し、必要に応じてマシンと直接対話したり、高レベルの制御システムスクリプトを書いたりできるマルチエキスパート検索拡張生成システム(RAG)が実装される。
この専門家の知識と機械のインタラクションの統合は、新しい操作者および経験豊富な操作者のマシン操作タスクを簡素化し、高速化することができる。
Large-scale machines like particle accelerators are usually run by a team of experienced operators. In case of a particle accelerator, these operators possess suitable background knowledge on both accelerator physics and the technology comprising the machine. Due to the complexity of the machine, particular subsystems of the machine are taken care of by experts, who the operators can turn to. In this work the reasoning and action (ReAct) prompting paradigm is used to couple an open-weights large language model (LLM) with a high-level machine control system framework and other tools, e.g. the electronic logbook or machine design documentation. By doing so, a multi-expert retrieval augmented generation (RAG) system is implemented, which assists operators in knowledge retrieval tasks, interacts with the machine directly if needed, or writes high level control system scripts. This consolidation of expert knowledge and machine interaction can simplify and speed up machine operation tasks for both new and experienced human operators. | 翻訳日:2024-05-03 16:05:24 公開日:2024-05-02 |
# 基底展開の動的オンラインアンサンブル
Dynamic Online Ensembles of Basis Expansions ( http://arxiv.org/abs/2405.01365v1 ) ライセンス: Link先を確認 | Daniel Waxman, Petar M. Djurić, | (参考訳) 実践的ベイズ学習は、(1)オンライン推論、(2)動的モデル、(3)複数の異なるモデルに対するアンサンブルを必要とすることが多い。
最近の進歩は、ガウス過程のスケーラブルでオンラインなアンサンブルを実現するためにランダムな特徴近似を用いて、望ましい理論的特性と実りある応用を実現する方法を示している。
これらのメソッドの成功の鍵の1つは、モデルパラメータのランダムウォークを含めることであり、モデルが動的になる。
これらの手法が任意の基底展開モデルに容易に一般化できることを示し、ヒルベルト空間ガウス過程のような代替基底展開を用いることで、しばしばより良い性能が得られることを示す。
特定の基底展開を選択する過程を単純化するために、本手法の一般性は、ガウス過程や多項式回帰など、いくつかの全く異なるモデルのアンサンブルを可能にする。
最後に,静的モデルと動的モデルを組み合わせる新しい手法を提案する。
Practical Bayesian learning often requires (1) online inference, (2) dynamic models, and (3) ensembling over multiple different models. Recent advances have shown how to use random feature approximations to achieve scalable, online ensembling of Gaussian processes with desirable theoretical properties and fruitful applications. One key to these methods' success is the inclusion of a random walk on the model parameters, which makes models dynamic. We show that these methods can be generalized easily to any basis expansion model and that using alternative basis expansions, such as Hilbert space Gaussian processes, often results in better performance. To simplify the process of choosing a specific basis expansion, our method's generality also allows the ensembling of several entirely different models, for example, a Gaussian process and polynomial regression. Finally, we propose a novel method to ensemble static and dynamic models together. | 翻訳日:2024-05-03 16:05:24 公開日:2024-05-02 |
# 超対称性拡張アルゴリズムとHulthénおよび無調波ポテンシャルの完全解析解
Supersymmetric Expansion Algorithm and complete analytical solution for the Hulthén and anharmonic potentials ( http://arxiv.org/abs/2405.01367v1 ) ライセンス: Link先を確認 | M. Napsuciale, S. Rodríguez, M. Kirchbach, | (参考訳) Schr\"{o}dinger's equation with non-exactlysolvable potentials" に対する解析的解を提供するアルゴリズムが詳しく説明されている。これは対数展開法と非形状不変ポテンシャルに向けて拡張される超対称量子力学の技法との共生を表す。与えられたハミルトンの$H_{0}$に対する完全な解は、ハミルトンの$H_{0}$のノードレス状態と超対称パートナーのセットである$H_{1}, H_{2}, ..., H_{r}$から得られる。ノードレス状態(「エッジ」状態」状態)は、一意であり、一般に接地あるいは励起状態である。これらは、第一次階層方程式の無限系を導出する対数膨張法を用いて解かれ、後続の方程式と逐次的な関係を導出する。
An algorithm for providing analytical solutions to Schr\"{o}dinger's equation with non-exactly solvable potentials is elaborated. It represents a symbiosis between the logarithmic expansion method and the techniques of the superymmetric quantum mechanics as extended toward non shape invariant potentials. The complete solution to a given Hamiltonian $H_{0}$ is obtained from the nodeless states of the Hamiltonian $H_{0}$ and of a set of supersymmetric partners $H_{1}, H_{2},..., H_{r}$. The nodeless states (dubbed "edge" states) are unique and in general can be ground or excited states. They are solved using the logarithmic expansion which yields an infinite systems of coupled first order hierarchical differential equations, converted later into algebraic equations with recurrence relations which can be solved order by order. We formulate the aforementioned scheme, termed to as "Supersymmetric Expansion Algorithm'' step by step and apply it to obtain for the first time the complete analytical solutions of the three dimensional Hulth\'en--, and the one-dimensional anharmonic oscillator potentials. | 翻訳日:2024-05-03 16:05:24 公開日:2024-05-02 |
# シンボリック格子を用いた可能性値解析
Possible Value Analysis based on Symbolic Lattice ( http://arxiv.org/abs/2405.01369v1 ) ライセンス: Link先を確認 | Qi Zhan, | (参考訳) 本稿では,プログラム動作解析と呼ばれる静的プログラム解析を提案する。
この分析は、各プログラムポイントにおける各変数のシンボル式を計算することを目的としている。
解析に適合する新しい格子,転送関数,拡張演算子を設計する。
さらに、解析を相互運用に拡張する。
We propose a new static program analysis called program behavior analysis. The analysis aims to calculate possible symbolic expressions for every variable at each program point. We design a new lattice, transfer function, and widening operator to accommodate the analysis. Furthermore, we extend the analysis to interprocedural. | 翻訳日:2024-05-03 16:05:24 公開日:2024-05-02 |
# ATOM: 効率的なデータセット蒸留のためのアテンションミキサー
ATOM: Attention Mixer for Efficient Dataset Distillation ( http://arxiv.org/abs/2405.01373v1 ) ライセンス: Link先を確認 | Samir Khaki, Ahmad Sajedi, Kai Wang, Lucy Z. Liu, Yuri A. Lawryshyn, Konstantinos N. Plataniotis, | (参考訳) データセット蒸留における最近の研究は、より大きな実際のデータセットに存在する情報をカプセル化した凝縮された合成データセットを生成することで、トレーニングコストを最小化しようとしている。
これらのアプローチは、最終的に、オリジナルのデータセット全体に基づいてトレーニングされたモデルによって達成されたものに似た、テストの精度レベルを達成することを目的としている。
蒸留プロセスにおける二段階最適化のコストを発生させることなく, 機能および分布の整合性に関するこれまでの研究は, 有意義な成果を上げている。
説得力のある効率にもかかわらず、これらの手法の多くは、下流の性能改善、文脈情報の限られた蒸留、サブパークロスアーキテクチャの一般化に悩まされている。
これらの課題に対処するため, 特徴マッチングプロセスにおいて, チャネルと空間的注意の混合を用いて, 大規模データセットを効率的に抽出するATtentiOn Mixer (ATOM) モジュールを提案する。
空間的注意は、各画像内のクラスを一貫した局所化に基づいて学習プロセスを導くのに役立ち、より広い受容領域からの蒸留を可能にする。
一方、チャネルワイドアテンションは、クラス自体に関連するコンテキスト情報をキャプチャし、その合成画像が訓練に役立てられるようにしている。
どちらのタイプの注目も統合することで,CIFAR10/100やTinyImagenetなど,さまざまなコンピュータビジョンデータセットに対して優れたパフォーマンスを実現しています。
特に,本手法は,クラス毎の画像数が少ないシナリオの性能を著しく向上させ,その可能性を高める。
さらに,ニューラルネットワーク探索などのクロスアーキテクチャやアプリケーションの改善も維持する。
Recent works in dataset distillation seek to minimize training expenses by generating a condensed synthetic dataset that encapsulates the information present in a larger real dataset. These approaches ultimately aim to attain test accuracy levels akin to those achieved by models trained on the entirety of the original dataset. Previous studies in feature and distribution matching have achieved significant results without incurring the costs of bi-level optimization in the distillation process. Despite their convincing efficiency, many of these methods suffer from marginal downstream performance improvements, limited distillation of contextual information, and subpar cross-architecture generalization. To address these challenges in dataset distillation, we propose the ATtentiOn Mixer (ATOM) module to efficiently distill large datasets using a mixture of channel and spatial-wise attention in the feature matching process. Spatial-wise attention helps guide the learning process based on consistent localization of classes in their respective images, allowing for distillation from a broader receptive field. Meanwhile, channel-wise attention captures the contextual information associated with the class itself, thus making the synthetic image more informative for training. By integrating both types of attention, our ATOM module demonstrates superior performance across various computer vision datasets, including CIFAR10/100 and TinyImagenet. Notably, our method significantly improves performance in scenarios with a low number of images per class, thereby enhancing its potential. Furthermore, we maintain the improvement in cross-architectures and applications such as neural architecture search. | 翻訳日:2024-05-03 16:05:24 公開日:2024-05-02 |
# 対話における音韻削減の実用的機能に関する研究
Topics in the Study of the Pragmatic Functions of Phonetic Reduction in Dialog ( http://arxiv.org/abs/2405.01376v1 ) ライセンス: Link先を確認 | Nigel G. Ward, Carlos A. Ortega, | (参考訳) 音声では調音精度の低下が一般的であるが,対話ではその音響特性や実用性はほとんど研究されていない。
私たちはこのギャップを埋めようとしている。
本技術報告は、ジャーナル記事から削除された内容を含む(Ward et al 2024, submitted)。
特に 報告します
1)減音に対する注記に関する教訓。
2)読み上げ音声とは異なり、対話の減少の相関には高音域、広音域、強度が含まれており、
3) 音声・韻律的特徴を用いたダイアログの減少予測のためのベースラインモデルにより, 英語の0.24, スペイン語の0.17の人間の知覚と相関関係が得られた。
また、英語の減量のための実用的な機能の追加例や、様々な議論、観察、憶測について述べる。
Reduced articulatory precision is common in speech, but for dialog its acoustic properties and pragmatic functions have been little studied. We here try to remedy this gap. This technical report contains content that was omitted from the journal article (Ward et al. 2024, submitted). Specifically, we here report 1) lessons learned about annotating for perceived reduction, 2) the finding that, unlike in read speech, the correlates of reduction in dialog include high pitch, wide pitch range, and intensity, and 3) a baseline model for predicting reduction in dialog, using simple acoustic/prosodic features, that achieves correlations with human perceptions of 0.24 for English, and 0.17 for Spanish. We also provide examples of additional possible pragmatic functions of reduction in English, and various discussion, observations and speculations | 翻訳日:2024-05-03 16:05:24 公開日:2024-05-02 |
# 準最適最小埋め込みインスタンスによる量子アニールのベンチマーク
Benchmarking Quantum Annealers with Near-Optimal Minor-Embedded Instances ( http://arxiv.org/abs/2405.01378v1 ) ライセンス: Link先を確認 | Valentin Gilbert, Julien Rodriguez, Stephane Louise, | (参考訳) アプリケーションレベルでの量子プロセスユニット(QPU)のベンチマークは通常、量子コンピュータのプログラミングスタック全体を考慮する必要がある。
1つの重要なタスクは、アニーリングベースの(ゲートベースの)量子コンピュータの時空オーバーヘッドを含むマイナーエンベディング (resp. transpilation) ステップである。
本稿では,D-Wave Quantum Annealers (QA) に関連付けられた準最適部分埋め込みマッピングを用いてグラフインスタンスを生成するための新しいプロトコルを確立する。
この一連の好意的な写像は、幅広い最適化問題インスタンスを生成するために使われる。
この手法を用いて、制約のない最適化問題の大規模インスタンス上でQAをベンチマークし、QPUの性能を効率的な古典的解法と比較する。
このベンチマークは、量子コンピュータの使用の恩恵を受けるインスタンスの重要な特性を評価し、定量化することを目的としている。
この文脈では、既存のQAは、密度が10\%以下のインスタンスの制約のない問題に最も適しているように思われる。
制約付き問題に対して、ハード制約を符号化するために使用されるペナルティ項は、QAの性能を制限し、これらのQPUが同等の大きさのこれらの問題に対してより効率的でないことを示唆する。
Benchmarking Quantum Process Units (QPU) at an application level usually requires considering the whole programming stack of the quantum computer. One critical task is the minor-embedding (resp. transpilation) step, which involves space-time overheads for annealing-based (resp. gate-based) quantum computers. This paper establishes a new protocol to generate graph instances with their associated near-optimal minor-embedding mappings to D-Wave Quantum Annealers (QA). This set of favorable mappings is used to generate a wide diversity of optimization problem instances. We use this method to benchmark QA on large instances of unconstrained and constrained optimization problems and compare the performance of the QPU with efficient classical solvers. The benchmark aims to evaluate and quantify the key characteristics of instances that could benefit from the use of a quantum computer. In this context, existing QA seem best suited for unconstrained problems on instances with densities less than $10\%$. For constrained problems, the penalty terms used to encode the hard constraints restrict the performance of QA and suggest that these QPU will be less efficient on these problems of comparable size. | 翻訳日:2024-05-03 16:05:24 公開日:2024-05-02 |
# LLM-Symbolic Theoremによる自然言語説明の検証と再定義
Verification and Refinement of Natural Language Explanations through LLM-Symbolic Theorem Proving ( http://arxiv.org/abs/2405.01379v1 ) ライセンス: Link先を確認 | Xin Quan, Marco Valentino, Louise A. Dennis, André Freitas, | (参考訳) 自然言語の説明は、説明可能な多段階の自然言語推論(NLI)モデルを評価するためのプロキシとなっている。
しかしながら、NLIの説明の妥当性を評価することは、一般的には、時間をかけて論理的エラーを起こすプロセスである、アポサイトデータセットのクラウドソーシングを伴うため、難しい。
本稿では,Large Language Models (LLMs) と Theorem Provers (TPs) を統合した自然言語説明の検証と改善について検討する。
具体的には、説明文の生成と形式化、NLIの潜在的な推論戦略を提案するために、LPMによるTPを増強するExplanation-Refinerというニューロシンボリックなフレームワークを提案する。
代わりに、TPは説明の論理的妥当性を公式に保証し、その後の改善のためのフィードバックを生成するために使用される。
本研究では, 説明的推論, 自己形式化, 誤り訂正機構の評価を共同で行うこと, および, 異なる領域における可変複雑性の人為的な説明の質を自動的に向上させることを実証する。
Natural language explanations have become a proxy for evaluating explainable and multi-step Natural Language Inference (NLI) models. However, assessing the validity of explanations for NLI is challenging as it typically involves the crowd-sourcing of apposite datasets, a process that is time-consuming and prone to logical errors. To address existing limitations, this paper investigates the verification and refinement of natural language explanations through the integration of Large Language Models (LLMs) and Theorem Provers (TPs). Specifically, we present a neuro-symbolic framework, named Explanation-Refiner, that augments a TP with LLMs to generate and formalise explanatory sentences and suggest potential inference strategies for NLI. In turn, the TP is employed to provide formal guarantees on the logical validity of the explanations and to generate feedback for subsequent improvements. We demonstrate how Explanation-Refiner can be jointly used to evaluate explanatory reasoning, autoformalisation, and error correction mechanisms of state-of-the-art LLMs as well as to automatically enhance the quality of human-annotated explanations of variable complexity in different domains. | 翻訳日:2024-05-03 16:05:24 公開日:2024-05-02 |
# 不変リスク最小化は全変動モデルである
Invariant Risk Minimization Is A Total Variation Model ( http://arxiv.org/abs/2405.01389v1 ) ライセンス: Link先を確認 | Zhao-Rong Lai, Wei-Wen Wang, | (参考訳) 不変リスク最小化(英: Invariant risk minimization、IRM)とは、機械学習において、不変の機能を様々な環境に一般化する手法である。
関連するほとんどの研究は、新しいIRM設定や新しいアプリケーションシナリオに焦点を当てているが、IRMの数学的本質は、まだ適切に説明されていない。
IRM は本質的に分類器変数に関する学習リスクの $L^2$ norm (TV-$\ell_2$) に基づく総変量であることを示す。
さらに,TV-$\ell_1$モデルに基づく新しいIRMフレームワークを提案する。
学習リスクとして使用できる関数のクラスを拡大するだけでなく、コアレア式に基づいたデノナイズおよび不変の特徴保存における堅牢な性能も備えている。
IRM-TV-$\ell_1$のアウト・オブ・ディストリビューションの一般化の要求についても述べる。
実験結果から,提案フレームワークは,いくつかのベンチマーク機械学習シナリオにおいて,競合性能を実現することが示された。
Invariant risk minimization (IRM) is an arising approach to generalize invariant features to different environments in machine learning. While most related works focus on new IRM settings or new application scenarios, the mathematical essence of IRM remains to be properly explained. We verify that IRM is essentially a total variation based on $L^2$ norm (TV-$\ell_2$) of the learning risk with respect to the classifier variable. Moreover, we propose a novel IRM framework based on the TV-$\ell_1$ model. It not only expands the classes of functions that can be used as the learning risk, but also has robust performance in denoising and invariant feature preservation based on the coarea formula. We also illustrate some requirements for IRM-TV-$\ell_1$ to achieve out-of-distribution generalization. Experimental results show that the proposed framework achieves competitive performance in several benchmark machine learning scenarios. | 翻訳日:2024-05-03 16:05:24 公開日:2024-05-02 |
# Sustainability Assessment Framework Toolkit:モデリング体験の10年
The Sustainability Assessment Framework Toolkit: A Decade of Modeling Experience ( http://arxiv.org/abs/2405.01391v1 ) ライセンス: Link先を確認 | Patricia Lago, Nelly Condori Fernandez, Iffat Fatima, Markus Funke, Ivano Malavolta, | (参考訳) ソフトウェア集約システムは、現代の社会のほとんどの面において、すべてではなくとも、重要な役割を担います。
そのため、持続可能なプロセスを支える上での持続可能性と役割は、設計によって実現されなければならない。
この目的のために、ソフトウェア集約システムのアーキテクチャは、持続可能性の目標をサポートするように設計され、それがいかに効果的かを理解するために測定されるべきである。
本稿では,サステナビリティ・アセスメント・フレームワーク(SAF, Sustainability Assessment Framework, SAF)ツールキットについて述べる。
SAF Toolkitは、産業パートナーとのコラボレーションで10年以上のケースで得られた私たちの経験の成果です。
様々なケースから派生した例でツールキットを解説する。
我々は、学習した教訓を抽出し、さらにアーキテクチャモデリングと測定のためにSAF Toolkitを拡張するための現在の研究と今後の計画について述べる。
Software intensive systems play a crucial role in most, if not all, aspects of modern society. As such, both their sustainability and their role in supporting sustainable processes, must be realized by design. To this aim, the architecture of software intensive systems should be designed to support sustainability goals; and measured to understand how effectively they do so. In this paper, we present the Sustainability Assessment Framework (SAF) Toolkit -- a set of instruments that support architects and design decision makers in modeling sustainability as a software quality property. The SAF Toolkit is the result of our experience gained in over a decade of cases in collaboration with industrial partners. We illustrate the toolkit with examples stemming from various cases. We extract our lessons learned, and our current research and future plans to extend the SAF Toolkit for further architecture modeling and measurement. | 翻訳日:2024-05-03 16:05:24 公開日:2024-05-02 |
# 線形光学を用いた2光子状態合成のための簡単な規則
Simple rules for two-photon state preparation with linear optics ( http://arxiv.org/abs/2405.01395v1 ) ライセンス: Link先を確認 | Grégoire de Gliniasty, Paul Bagourd, Sébastien Draux, Boris Bourdoncle, | (参考訳) 絡み合いは量子通信と計算にとって重要な資源であるが、線形光学を用いた場合のみ確率的に行うことができる。
本研究では,2光子状態行列表現を利用して,線形光学を用いた2光子エンタングリング操作において必要かつ十分な条件を導出する。
入力フォトニック状態のキャラクタリゼーションを行い,d-railエンコーディングにおける任意の2量子状態の生成とポストセレクションを行う。
我々は、2光子状態を作るために何個の補助光子を必要とするかを決定する。
さらに,一般化後n-qubit制御回転ゲートの構成を提案する。
Entangling photons is a critical challenge for photonic quantum information processing: entanglement is a crucial resource for quantum communication and computation but can only be performed in a probabilistic manner when using linear optics. In this work, we leverage a two-photon state matrix representation to derive necessary and sufficient conditions on two-photon entangling operations with linear optics. We give a characterization of the input photonic states that can be used to prepare arbitrary two-qudit states in d-rail encoding with post-selection. We determine how many auxiliary photons are required to prepare any two-photon state with heralding. In addition, we present a construction for generalized post-selected n-qubit control-rotation gates. | 翻訳日:2024-05-03 16:05:24 公開日:2024-05-02 |
# 原子間フェルミ超流動におけるライドバーグ-分子分光法によるクーパー対の破れとトラップ
Breaking and trapping Cooper pairs by Rydberg-molecule spectroscopy in atomic Fermi superfluids ( http://arxiv.org/abs/2405.01401v1 ) ライセンス: Link先を確認 | Chih-Chun Chien, Symeon I. Mistakidis, Hossein R. Sadeghpour, | (参考訳) ライドバーグ不純物と相互作用する原子フェルミ超流動層におけるクーパー対の破壊と局在の分光プローブを提案する。
これは、BCS-Bose Einstein condensation (BEC) の交差する超流動層における二原子および三原子超長距離分子種の形成をモニタリングすることによって達成される。
BECの3つの原子Rydberg分子は、核物質のピオン捕獲を連想させる強結合のクーパー対のトラップを、BCS側の2つの原子Rydberg分子によるクーパー対の破壊はブラックホールによる連星潮位破壊を誘発する。
フェルミ超流動分子とリドベルク分子の分光はクーパー対の大きさを推定し、ライドベルク分子結合エネルギーは多体対効果を識別する。
We propose a spectroscopic probe of the breaking and localization of Cooper pairs in an atomic Fermi superfluid interacting with a Rydberg impurity. This is achieved by monitoring the formation of diatomic and triatomic ultralong-range molecular species in the superfluid across the BCS - Bose Einstein condensation (BEC) crossover. The triatomic Rydberg molecule in the BEC regime heralds the trapping of a tightly-bound Cooper pair, reminiscent of pion capture in nuclear matter, while the breaking of a Cooper pair on the BCS side by a diatomic Rydberg molecule is evocative of binary-star tidal disruption by a black hole. Spectroscopy of the Fermi superfluid and Rydberg molecules allows for an estimation of the Cooper-pair size while the Rydberg molecule binding energies discern many-body pairing effects. | 翻訳日:2024-05-03 16:05:24 公開日:2024-05-02 |
# 指操作のための学習力制御
Learning Force Control for Legged Manipulation ( http://arxiv.org/abs/2405.01402v1 ) ライセンス: Link先を確認 | Tifanny Portela, Gabriel B. Margolis, Yandong Ji, Pulkit Agrawal, | (参考訳) 相互作用中の接触力の制御は、移動や操作作業において重要である。
sim-to-real reinforcement learning (RL) は多くの接触に富む問題に成功しているが、現在のRL法は力の制御を明示的に行わずに暗黙的に力強い相互作用を達成している。
本稿では,力覚へのアクセスを必要とせず,直接力制御のためのRLポリシーを訓練する方法を提案する。
腕を持つ四足ロボットの全身制御プラットフォーム上で本手法を実証する。
このような力の制御により、重力補償とインピーダンス制御を行え、従順な全身操作を解き放つことができる。
可変コンプライアンスの学習された全身制御装置は、ロボットがマニピュレータを指示するだけでロボットの遠隔操作を直感的に行うことができ、ロボットの体は自動的に調整され、所望の位置と力を達成する。
これにより、人間の遠隔操作者は、多様なロコ操作タスクを容易に示することができる。
我々の知る限り、我々は、学習した全身力制御を脚のマニピュレータに初めて展開し、より汎用的で適応可能な脚ロボットへの道を開いた。
Controlling contact forces during interactions is critical for locomotion and manipulation tasks. While sim-to-real reinforcement learning (RL) has succeeded in many contact-rich problems, current RL methods achieve forceful interactions implicitly without explicitly regulating forces. We propose a method for training RL policies for direct force control without requiring access to force sensing. We showcase our method on a whole-body control platform of a quadruped robot with an arm. Such force control enables us to perform gravity compensation and impedance control, unlocking compliant whole-body manipulation. The learned whole-body controller with variable compliance makes it intuitive for humans to teleoperate the robot by only commanding the manipulator, and the robot's body adjusts automatically to achieve the desired position and force. Consequently, a human teleoperator can easily demonstrate a wide variety of loco-manipulation tasks. To the best of our knowledge, we provide the first deployment of learned whole-body force control in legged manipulators, paving the way for more versatile and adaptable legged robots. | 翻訳日:2024-05-03 16:05:24 公開日:2024-05-02 |
# タスク指向対話からの教師なしフロー発見
Unsupervised Flow Discovery from Task-oriented Dialogues ( http://arxiv.org/abs/2405.01403v1 ) ライセンス: Link先を確認 | Patrícia Ferreira, Daniel Martins, Ana Alves, Catarina Silva, Hugo Gonçalo Oliveira, | (参考訳) 対話フローの設計は、タスク指向対話(TOD)システムを開発する場合、重要な作業であるが時間を要する作業である。
本稿では,対話履歴からのフローを教師なしで発見する手法を提案する。
簡単に言えば、発話はベクトル空間で表現され、意味的類似性に応じてクラスタ化される。
クラスタは対話状態として見ることができ、フローを視覚的に表現するための遷移グラフの頂点として使用される。
パブリックTODデータセットであるMultiWOZから発見された流れの具体的な例を示す。
さらに、基礎となる会話の意義と関連性について詳しく検討し、評価のための自動検証基準を導入する。
実験により,タスク指向会話から意味の流れを抽出する手法の可能性を示す。
The design of dialogue flows is a critical but time-consuming task when developing task-oriented dialogue (TOD) systems. We propose an approach for the unsupervised discovery of flows from dialogue history, thus making the process applicable to any domain for which such an history is available. Briefly, utterances are represented in a vector space and clustered according to their semantic similarity. Clusters, which can be seen as dialogue states, are then used as the vertices of a transition graph for representing the flows visually. We present concrete examples of flows, discovered from MultiWOZ, a public TOD dataset. We further elaborate on their significance and relevance for the underlying conversations and introduce an automatic validation metric for their assessment. Experimental results demonstrate the potential of the proposed approach for extracting meaningful flows from task-oriented conversations. | 翻訳日:2024-05-03 16:05:24 公開日:2024-05-02 |
# ランダムパレート前面
Random Pareto front surfaces ( http://arxiv.org/abs/2405.01404v1 ) ライセンス: Link先を確認 | Ben Tu, Nikolas Kantas, Robert M. Lee, Behrang Shafei, | (参考訳) ベクトルの集合のパレートフロント(Pareto front)は、すべての最良のトレードオフ点からなる部分集合である。
この部分集合を補間することにより、最適なトレードオフ面を得る。
本研究では、すべてのパレート面が極座標を用いて明示的にパラメトリできることを示す非常に有用な結果を示す。
特に、偏光パラメトリゼーションの結果は、任意の正の半径方向に沿って投影された長さを返すスカラー値関数である長さ関数を用いて、パレート前面をフルに特徴付けることができることを示している。
したがって、この表現を利用することで、線型代数、確率と統計、決定論からパレート面の空間上の函数への多くの有用な概念を一般化することができることを示す。
特に、我々は、パレート面自体が確率過程である確率的設定に注目する。
その中で,パレート表面分布の予測,共分散,量子化など,多くの統計量の利害関係を定義・推定することが可能であることを示す。
モチベーションの例として,実験環境の設計において,これらの統計値をどのように利用することができるかを検討する。
これに加えて、これらのパレートフロントのアイデアが、極端な価値理論の文脈でどのように使用できるかを説明している。
最後に、数値的な例として、我々の新しい手法を実世界の大気汚染データセットに適用した。
The Pareto front of a set of vectors is the subset which is comprised solely of all of the best trade-off points. By interpolating this subset, we obtain the optimal trade-off surface. In this work, we prove a very useful result which states that all Pareto front surfaces can be explicitly parametrised using polar coordinates. In particular, our polar parametrisation result tells us that we can fully characterise any Pareto front surface using the length function, which is a scalar-valued function that returns the projected length along any positive radial direction. Consequently, by exploiting this representation, we show how it is possible to generalise many useful concepts from linear algebra, probability and statistics, and decision theory to function over the space of Pareto front surfaces. Notably, we focus our attention on the stochastic setting where the Pareto front surface itself is a stochastic process. Among other things, we showcase how it is possible to define and estimate many statistical quantities of interest such as the expectation, covariance and quantile of any Pareto front surface distribution. As a motivating example, we investigate how these statistics can be used within a design of experiments setting, where the goal is to both infer and use the Pareto front surface distribution in order to make effective decisions. Besides this, we also illustrate how these Pareto front ideas can be used within the context of extreme value theory. Finally, as a numerical example, we applied some of our new methodology on a real-world air pollution data set. | 翻訳日:2024-05-03 16:05:24 公開日:2024-05-02 |
# 超音波ナビゲーション誘導のためのゴール条件強化学習
Goal-conditioned reinforcement learning for ultrasound navigation guidance ( http://arxiv.org/abs/2405.01409v1 ) ライセンス: Link先を確認 | Abdoul Aziz Amadou, Vivek Singh, Florin C. Ghesu, Young-Ho Kim, Laura Stanciulescu, Harshitha P. Sai, Puneet Sharma, Alistair Young, Ronak Rajani, Kawal Rhode, | (参考訳) 経食道心エコー法(TEE)は, 診断・介入術において重要な役割を担っている。
しかし、画像の取得と解釈の複雑な性質のため、効果的に広範囲な訓練が必要である。
初心者ソノグラフィーの効率を高め,スキャン取得における可変性を低減するため,目標条件強化学習(GCRL)としてコントラスト学習に基づく超音波ナビゲーション支援手法を提案する。
我々は,新しいコントラスト的患者バッチリング法 (CPB) とデータ拡張型コントラスト的損失を用いて,従来の枠組みを拡張した。
提案するフレームワークは,標準的な診断と,単一モデルによる複雑な介入ビューの両立を可能にする。
提案手法は789名の患者を対象とした大規模データセットを用いて開発され,140名の患者を対象に平均6.56mm,9.36°の角度での誤差を得た。
さらに,LAA閉鎖に使用される左心房アプリケージ(LAA)ビューのような介入的視点にナビゲートする手法の能力を定量的に検証した。
本手法は,経食道超音波検査において有意義なガイダンスを提供することを約束し,心超音波検査者に対する技術習得の進展に寄与する。
Transesophageal echocardiography (TEE) plays a pivotal role in cardiology for diagnostic and interventional procedures. However, using it effectively requires extensive training due to the intricate nature of image acquisition and interpretation. To enhance the efficiency of novice sonographers and reduce variability in scan acquisitions, we propose a novel ultrasound (US) navigation assistance method based on contrastive learning as goal-conditioned reinforcement learning (GCRL). We augment the previous framework using a novel contrastive patient batching method (CPB) and a data-augmented contrastive loss, both of which we demonstrate are essential to ensure generalization to anatomical variations across patients. The proposed framework enables navigation to both standard diagnostic as well as intricate interventional views with a single model. Our method was developed with a large dataset of 789 patients and obtained an average error of 6.56 mm in position and 9.36 degrees in angle on a testing dataset of 140 patients, which is competitive or superior to models trained on individual views. Furthermore, we quantitatively validate our method's ability to navigate to interventional views such as the Left Atrial Appendage (LAA) view used in LAA closure. Our approach holds promise in providing valuable guidance during transesophageal ultrasound examinations, contributing to the advancement of skill acquisition for cardiac ultrasound practitioners. | 翻訳日:2024-05-03 15:55:39 公開日:2024-05-02 |
# IDPFilter: サードパーティアプリにおける依存関係のプライバシ問題を軽減する
IDPFilter: Mitigating Interdependent Privacy Issues in Third-Party Apps ( http://arxiv.org/abs/2405.01411v1 ) ライセンス: Link先を確認 | Shuaishuai Liu, Gergely Biczók, | (参考訳) サードパーティアプリケーションは、今日のオンラインエコシステムの重要な部分となり、人気のあるプラットフォームの機能を強化しています。
しかし、その増殖の根底にあるデータ交換は、相互依存プライバシー(IDP)に対する懸念を高めている。
本報告では,サードパーティアプリのIDP問題に関して,これまで未検討であった問題を包括的に調査する。
具体的には、まず、複数のアプリプラットフォームのパーミッション構造を分析し、ユーザが他の誰かの個人情報をアプリと共有できるようにすることで、相互依存のプライバシー問題を引き起こす可能性があるパーミッションを特定します。
次に、データセットを収集し、既存のアプリがこれらのパーミッションをリクエストする範囲を特徴付け、各アプリプラットフォーム、アプリのタイプ、リクエストする依存性のプライバシ関連パーミッションの数などの特性の関係を明らかにします。
第三に、IDPがデータ保護規制とアプリプラットフォームの両方で無視されているさまざまな理由を分析し、緩和ソリューションを設計する際に従うべき原則を考案する。
最後に、これらの原則に基づいて明確に定義された目的を満足するIDPFilterを提案する。これは、アプリケーションプロバイダが、ユーザから収集したデータをフィルタリングして、他者をデータ対象として含めることによって、余分な情報収集を最小化できるプラットフォームに依存しないAPIである。
我々は,テキストデータにフィルタリングロジックを実装した概念実証プロトタイプ IDPTextFilter を実装し,プライバシ,精度,効率に関する初期性能評価を行う。
Third-party applications have become an essential part of today's online ecosystem, enhancing the functionality of popular platforms. However, the intensive data exchange underlying their proliferation has increased concerns about interdependent privacy (IDP). This paper provides a comprehensive investigation into the previously underinvestigated IDP issues of third-party apps. Specifically, first, we analyze the permission structure of multiple app platforms, identifying permissions that have the potential to cause interdependent privacy issues by enabling a user to share someone else's personal data with an app. Second, we collect datasets and characterize the extent to which existing apps request these permissions, revealing the relationship between characteristics such as the respective app platform, the app's type, and the number of interdependent privacy-related permissions it requests. Third, we analyze the various reasons IDP is neglected by both data protection regulations and app platforms and then devise principles that should be followed when designing a mitigation solution. Finally, based on these principles and satisfying clearly defined objectives, we propose IDPFilter, a platform-agnostic API that enables application providers to minimize collateral information collection by filtering out data collected from their users but implicating others as data subjects. We implement a proof-of-concept prototype, IDPTextFilter, that implements the filtering logic on textual data, and provide its initial performance evaluation with regard to privacy, accuracy, and efficiency. | 翻訳日:2024-05-03 15:55:39 公開日:2024-05-02 |
# AWSのゼロ信頼アーキテクチャ実装に透過的なシェーピングを適用する - ケーススタディ
Applying Transparent Shaping for Zero Trust Architecture Implementation in AWS: A Case Study ( http://arxiv.org/abs/2405.01412v1 ) ライセンス: Link先を確認 | Wenjia Wang, Seyed Masoud Sadjadi, Naphtali Rishe, | (参考訳) この記事では、Zero Trust Architecture(ZTA)原則とTransparent ShapingをAWSがホストするオンラインファイルマネージャ(OFM)アプリケーションに統合する方法論を紹介し、コード修正なしにセキュリティを向上させる。
当社のアプローチをMozilla Observatoryで評価し、重要なセキュリティ改善を強調し、クラウド環境に透過型シェーピングとZTAを適用するための有望な方向性を概説した。
This study introduces a methodology integrating Zero Trust Architecture (ZTA) principles and Transparent Shaping into an AWS-hosted Online File Manager (OFM) application, enhancing security without substantial code modifications. We evaluate our approach with the Mozilla Observatory, highlighting significant security improvements and outlining a promising direction for applying Transparent Shaping and ZTA in cloud environments. | 翻訳日:2024-05-03 15:55:39 公開日:2024-05-02 |
# MiniGPT-3D: 2次元先行モデルを用いた大規模言語モデルによる3次元点雲の効率的な配向
MiniGPT-3D: Efficiently Aligning 3D Point Clouds with Large Language Models using 2D Priors ( http://arxiv.org/abs/2405.01413v1 ) ライセンス: Link先を確認 | Yuan Tang, Xu Han, Xianzhi Li, Qiao Yu, Yixue Hao, Long Hu, Min Chen, | (参考訳) 大規模2次元視覚言語モデル (2D-LLM) は、単純なプロジェクタを用いて画像で大言語モデル (LLM) をブリッジすることで大きな注目を集めている。
彼らの成功に触発されて、大きな3Dポイントのクラウド言語モデル(3D-LLM)も、ポイントクラウドをLLMに統合した。
しかしながら、3D-LLMの開発を妨げているA100上の数百のGPU時間において、ポイントクラウドとLLMを直接整列させるには、高価なトレーニングコストが必要となる。
本稿では,1つのRTX 3090上で27時間しかトレーニングを行ないながら,複数のSOTA結果を実現する,効率的で強力な3D-LLMであるMiniGPT-3Dを紹介する。
具体的には,2次元と3次元の視覚情報との類似性を生かした2D-LLMの2次元先行情報を用いて,3次元点群をLLMと整合させることを提案する。
提案手法では,適応的に特徴を高効率で集約するクエリ・エキスパート・モジュールを混在させて,モダリティアライメントのための新しい4段階のトレーニング戦略を導入する。
さらに,パラメータ効率のよい微調整手法であるLoRAとNormの微細調整を応用し,学習可能なパラメータは47.8Mに過ぎず,既存の手法よりも最大260倍少ない。
広汎な実験により,MiniGPT-3Dは3次元オブジェクト分類およびキャプションタスクにおいてSOTAを達成し,トレーニングコストが大幅に低減された。
特に、MiniGPT-3DはShapeLLM-13Bと比較して、GPT-4の評価スコアが8.12アップし、後者は8 A800で合計160GPU時間である。
私たちは3D-LLMを効果的に探求し、コミュニティに新しい洞察を提供しています。
コードとウェイトはhttps://github.com/TangYuan96/MiniGPT-3Dで入手できる。
Large 2D vision-language models (2D-LLMs) have gained significant attention by bridging Large Language Models (LLMs) with images using a simple projector. Inspired by their success, large 3D point cloud-language models (3D-LLMs) also integrate point clouds into LLMs. However, directly aligning point clouds with LLM requires expensive training costs, typically in hundreds of GPU-hours on A100, which hinders the development of 3D-LLMs. In this paper, we introduce MiniGPT-3D, an efficient and powerful 3D-LLM that achieves multiple SOTA results while training for only 27 hours on one RTX 3090. Specifically, we propose to align 3D point clouds with LLMs using 2D priors from 2D-LLMs, which can leverage the similarity between 2D and 3D visual information. We introduce a novel four-stage training strategy for modality alignment in a cascaded way, and a mixture of query experts module to adaptively aggregate features with high efficiency. Moreover, we utilize parameter-efficient fine-tuning methods LoRA and Norm fine-tuning, resulting in only 47.8M learnable parameters, which is up to 260x fewer than existing methods. Extensive experiments show that MiniGPT-3D achieves SOTA on 3D object classification and captioning tasks, with significantly cheaper training costs. Notably, MiniGPT-3D gains an 8.12 increase on GPT-4 evaluation score for the challenging object captioning task compared to ShapeLLM-13B, while the latter costs 160 total GPU-hours on 8 A800. We are the first to explore the efficient 3D-LLM, offering new insights to the community. Code and weights are available at https://github.com/TangYuan96/MiniGPT-3D. | 翻訳日:2024-05-03 15:55:39 公開日:2024-05-02 |
# 自然言語からVerilogへ:大規模言語モデルとChatGPTを用いた繰り返しスパイクニューラルネットワークの設計
Natural Language to Verilog: Design of a Recurrent Spiking Neural Network using Large Language Models and ChatGPT ( http://arxiv.org/abs/2405.01419v1 ) ライセンス: Link先を確認 | Paola Vitolo, George Psaltakis, Michael Tomlinson, Gian Domenico Licciardo, Andreas G. Andreou, | (参考訳) 本稿では,ハードウェア記述コードの自動生成におけるLarge Language Models (LLMs) の利用について検討する。
これまでの研究に基づいて、我々はOpenAIのChatGPT4と自然言語のプロンプトを用いて、プログラマブルリカレントスパイクニューラルネットワークのRTL Verilogモジュールを合成するとともに、システムの正しさを評価するためのテストベンチを生成する。
得られた設計は、排他的OR、IRIS花分類、MNIST手書き桁分類の3つのケーススタディで検証され、96.6%の精度を達成した。
合成性と実装性を検証するため、フィールドプログラマブルゲートアレイで試作され、オープンソースの電子設計自動化フローを用いてSkyWater 130nm技術で実装された。
さらに,Tiny Tapeout 6チップ製造プログラムに提案し,将来的なオンチップ性能の評価を行った。
This paper investigates the use of Large Language Models (LLMs) for automating the generation of hardware description code, aiming to explore their potential in supporting and enhancing the development of efficient neuromorphic computing architectures. Building on our prior work, we employ OpenAI's ChatGPT4 and natural language prompts to synthesize a RTL Verilog module of a programmable recurrent spiking neural network, while also generating test benches to assess the system's correctness. The resultant design was validated in three case studies, the exclusive OR,the IRIS flower classification and the MNIST hand-written digit classification, achieving accuracies of up to 96.6%. To verify its synthesizability and implementability, the design was prototyped on a field-programmable gate array and implemented on SkyWater 130 nm technology by using an open-source electronic design automation flow. Additionally, we have submitted it to Tiny Tapeout 6 chip fabrication program to further evaluate the system on-chip performance in the future. | 翻訳日:2024-05-03 15:55:39 公開日:2024-05-02 |
# In-and-Out: 凸体サンプリングのためのアルゴリズム拡散
In-and-Out: Algorithmic Diffusion for Sampling Convex Bodies ( http://arxiv.org/abs/2405.01425v1 ) ライセンス: Link先を確認 | Yunbum Kook, Santosh S. Vempala, Matthew S. Zhang, | (参考訳) 高次元凸体を一様にサンプリングするための新しいランダムウォークを提案する。
これまでのR\enyi divergence(TV, $\mathcal{W}_2$, KL, $\chi^2$)において、出力に対する保証がより強く、最先端のランタイム複雑性を実現する。
この証明は、確率的拡散の観点を用いて、定常密度の関数的等尺定数によって決定される収束の速度で、対象分布に収縮を示す。
We present a new random walk for uniformly sampling high-dimensional convex bodies. It achieves state-of-the-art runtime complexity with stronger guarantees on the output than previously known, namely in R\'enyi divergence (which implies TV, $\mathcal{W}_2$, KL, $\chi^2$). The proof departs from known approaches for polytime algorithms for the problem -- we utilize a stochastic diffusion perspective to show contraction to the target distribution with the rate of convergence determined by functional isoperimetric constants of the stationary density. | 翻訳日:2024-05-03 15:55:39 公開日:2024-05-02 |
# 連続変数系の量子状態の学習
Learning quantum states of continuous variable systems ( http://arxiv.org/abs/2405.01431v1 ) ライセンス: Link先を確認 | Francesco Anna Mele, Antonio Anna Mele, Lennart Bittel, Jens Eisert, Vittorio Giovannetti, Ludovico Lami, Lorenzo Leone, Salvatore F. E. Oliviero, | (参考訳) 量子状態の区別のための最も実用的に意味のある計量であるトレース距離に関する厳密な保証を持つ量子状態トモグラフィーは、有限次元系では広く研究されているが、連続変数系では研究されていない。
この仕事はこのギャップを埋める。
学習エネルギーに制約のある$n$-mode状態は、追加の前提なしに極めて非効率であることが証明されている: $\varepsilon$-approximation in trace distance scales as $\sim \varepsilon^{-2n}$, in stark contrast to the $n$-qudit case, where $\varepsilon$-scaling is $\sim \varepsilon^{-2}$.
具体的には、エネルギー制約された純状態のトモグラフィーの最適なサンプル複雑性を発見し、連続変数系のトモグラフィーの最終的な性能を確立する。
このような極端な非効率性を考えると、量子状態のクラスがより構造化されているが、物理的に興味深いかどうかを効率的にトモグラフィーすることができる。
我々は、このことがガウス国家にとって本当にそうであるということを厳格に証明する。
これを達成するために、2つのガウス状態間のトレース距離を、その第1モーメントと第2モーメントのノルム距離の観点から定め、これは独立した興味を持つ技術ツールを構成する。
未知のガウス状態の第1モーメントと第2モーメントを精度$\varepsilon$で推定することで、状態のトレース距離誤差はどうなるのか?
最後に、$t$ドープされたガウシアン状態、すなわちガウシアンユニタリーによって準備された状態と、最大で$t$の非ガウシアン進化を効率的に学習する方法を示し、これらわずかに飽和したガウシアン系の構造を明らかにした。
Quantum state tomography with rigorous guarantees with respect to the trace distance, the most operationally meaningful metric for distinguishing quantum states, has been studied extensively for finite-dimensional systems; however, it remains almost unexplored for continuous variable systems. This work fills this gap. We prove that learning energy-constrained $n$-mode states without any additional prior assumption is extremely inefficient: The minimum number of copies needed for achieving an $\varepsilon$-approximation in trace distance scales as $\sim \varepsilon^{-2n}$, in stark contrast to the $n$-qudit case, where the $\varepsilon$-scaling is $\sim \varepsilon^{-2}$. Specifically, we find the optimal sample complexity of tomography of energy-constrained pure states, thereby establishing the ultimate achievable performance of tomography of continuous variable systems. Given such an extreme inefficiency, we then investigate whether more structured, yet still physically interesting, classes of quantum states can be efficiently tomographed. We rigorously prove that this is indeed the case for Gaussian states, a result previously assumed but never proved in the literature. To accomplish this, we establish bounds on the trace distance between two Gaussian states in terms of the norm distance of their first and second moments, which constitute technical tools of independent interest. This allows us to answer a fundamental question for the field of Gaussian quantum information: by estimating the first and second moments of an unknown Gaussian state with precision $\varepsilon$, what is the resulting trace distance error on the state? Lastly, we show how to efficiently learn $t$-doped Gaussian states, i.e., states prepared by Gaussian unitaries and at most $t$ local non-Gaussian evolutions, unveiling more of the structure of these slightly-perturbed Gaussian systems. | 翻訳日:2024-05-03 15:55:39 公開日:2024-05-02 |
# 熱状態のインフレーション複雑性
Inflationary complexity of thermal state ( http://arxiv.org/abs/2405.01433v1 ) ライセンス: Link先を確認 | Tao Li, Lei-Hua Liu, | (参考訳) 本研究では, 単体インフレーション, 修正分散関係, および非自明音速に対する熱効果を考慮した2モード圧縮状態のインフレーション複雑度を, 閉系および開系法を用いて系統的に検討し, ほとんどのインフレーションモデルにおいて有効である。
第一に、閉系の方法におけるクリロフ複雑性の数値は、クリロフ複雑性の進化は熱効果を考慮に入れれば圧縮角度パラメータに大きく依存し、非常に小さな値に崩壊するが、クリロフ複雑性は熱効果なしで常に増大することを示している。
比較すると、回路の複雑さの数値は、熱的効果があるかどうかに関わらず、常に進化が増大していることを示している。
オープンシステムの手法を利用して、まず波動関数を構築する。
開系の方法によるクリロフ複雑性について、我々の研究は、クリロフ複雑性の進化が熱的効果の要因となるいくつかのピークにおいて促進されることを示す。
完全性のために、閉系と開系の方法におけるクリロフエントロピーも計算し、熱い宇宙がよりカオス的な宇宙であることを示す。
さらに、Krylov複雑性とKrylovエントロピーの導出は、弱い散逸近似の下で閉系の場合においてうまく回復することができ、波動関数の構成の有効性を確認することができる。
最後に、Lanczos係数の数値は、非自明な音速が他の2つの場合と比較して最小限のカオスを持つことを示している。
In this work, we systematically investigate the inflationary complexity of the two-mode squeezed state with thermal effect for the single field inflation, modified dispersion relation, and non-trivial sound speed with the method of closed system and open system, respectively, which our analysis is valid for most inflationary models. First, the numeric of Krylov complexity in the method of the closed system indicates that the evolution of Krylov complexity highly depends on the squeezed angle parameter once taking the thermal effect into account, which will decay into some very tiny values, but the Krylov complexity will always enhance without thermal effect. For comparison, the numeric of circuit complexity shows that the evolution is always increasing no matter whether there are thermal effects or not which is independent of the evolution of squeezed angle parameter. By utilizing the method of open system, we first construct the wave function. As for the Krylov complexity with the method of open system, our investigations show the evolution of Krylov complexity will enhance upon some peaks factoring in the thermal effects. For completeness, we also calculate the Krylov entropy in the method of closed system and open system, which indicates that the hotter universe, the more chaotic the universe. Furthermore, our derivation for the Krylov complexity and Krylov entropy could nicely recover into the case of closed system under weak dissipative approximation, which confirms the validity of construction for the wave function. Finally, our numeric of Lanczos coefficient shows that the non-trivial sound speed has minimal chaos compared to the other two cases. | 翻訳日:2024-05-03 15:55:39 公開日:2024-05-02 |
# StoryDiffusion:ロングランジ画像とビデオ生成のための一貫性のある自己認識
StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation ( http://arxiv.org/abs/2405.01434v1 ) ライセンス: Link先を確認 | Yupeng Zhou, Daquan Zhou, Ming-Ming Cheng, Jiashi Feng, Qibin Hou, | (参考訳) 最近の拡散に基づく生成モデルでは、一連の生成した画像、特に被写体と複雑な詳細を含むコンテンツを一貫したコンテンツを維持することが大きな課題である。
本稿では,画像間の一貫性を著しく向上し,事前学習した拡散型画像のテキスト・ツー・イメージモデルをゼロショットで拡張する,一貫性自己注意計算法を提案する。
提案手法を長距離ビデオ生成に拡張するために,セマンティックモーション予測器という新しい意味空間時間的動き予測モジュールを導入する。
セマンティック空間内の2つの提供された画像間の運動条件を推定するように訓練されている。
このモジュールは、生成した画像列をスムーズな遷移と一貫した主題を持つビデオに変換する。
これら2つの新しいコンポーネントをマージすることで、StoryDiffusionと呼ばれるフレームワークは、多種多様なコンテンツを含む一貫した画像やビデオを含むテキストベースのストーリーを記述できる。
提案されたStoryDiffusionは、画像とビデオの提示による視覚的なストーリー生成の先駆的な探索を含んでいる。
私たちのコードはhttps://github.com/HVision-NKU/StoryDiffusion.comで公開されています。
For recent diffusion-based generative models, maintaining consistent content across a series of generated images, especially those containing subjects and complex details, presents a significant challenge. In this paper, we propose a new way of self-attention calculation, termed Consistent Self-Attention, that significantly boosts the consistency between the generated images and augments prevalent pretrained diffusion-based text-to-image models in a zero-shot manner. To extend our method to long-range video generation, we further introduce a novel semantic space temporal motion prediction module, named Semantic Motion Predictor. It is trained to estimate the motion conditions between two provided images in the semantic spaces. This module converts the generated sequence of images into videos with smooth transitions and consistent subjects that are significantly more stable than the modules based on latent spaces only, especially in the context of long video generation. By merging these two novel components, our framework, referred to as StoryDiffusion, can describe a text-based story with consistent images or videos encompassing a rich variety of contents. The proposed StoryDiffusion encompasses pioneering explorations in visual story generation with the presentation of images and videos, which we hope could inspire more research from the aspect of architectural modifications. Our code is made publicly available at https://github.com/HVision-NKU/StoryDiffusion. | 翻訳日:2024-05-03 15:55:39 公開日:2024-05-02 |
# 分枝型補助正規化による注視推定における領域一般化の改善
Improving Domain Generalization on Gaze Estimation via Branch-out Auxiliary Regularization ( http://arxiv.org/abs/2405.01439v1 ) ライセンス: Link先を確認 | Ruijie Zhao, Pinyan Tang, Sihui Luo, | (参考訳) 顕著な進歩にもかかわらず、主流の視線推定技術、特に外見に基づく手法は、照明のバリエーションや個々の顔特性によって、制御されていない環境での性能劣化に悩まされることが多い。
既存のドメイン適応戦略は、対象のドメインサンプルの必要性によって制限され、現実世界のアプリケーションでは不足する可能性がある。
このレターでは、ターゲットドメインデータに直接アクセスすることなく、視線推定の一般化能力を向上する革新的な手法であるブランチアウト補助正規化(BAR)を紹介する。
具体的には、BARは2つの補助的な整合性正規化ブランチを統合している。ひとつは、拡張サンプルを使用して環境変動を防止し、もうひとつは、視線方向を正のソース領域サンプルと整合させて、一貫した視線特徴の学習を促進するものだ。
これらの補助経路はコアネットワークを強化し、スムーズでプラグアンドプレイな方法で統合され、他の様々なモデルに容易に適応できる。
4つのクロスデータセットタスクに関する総合的な実験的評価は、我々のアプローチの優位性を示している。
Despite remarkable advancements, mainstream gaze estimation techniques, particularly appearance-based methods, often suffer from performance degradation in uncontrolled environments due to variations in illumination and individual facial attributes. Existing domain adaptation strategies, limited by their need for target domain samples, may fall short in real-world applications. This letter introduces Branch-out Auxiliary Regularization (BAR), an innovative method designed to boost gaze estimation's generalization capabilities without requiring direct access to target domain data. Specifically, BAR integrates two auxiliary consistency regularization branches: one that uses augmented samples to counteract environmental variations, and another that aligns gaze directions with positive source domain samples to encourage the learning of consistent gaze features. These auxiliary pathways strengthen the core network and are integrated in a smooth, plug-and-play manner, facilitating easy adaptation to various other models. Comprehensive experimental evaluations on four cross-dataset tasks demonstrate the superiority of our approach. | 翻訳日:2024-05-03 15:55:39 公開日:2024-05-02 |
# データ漂白ジャーナリズムに関する探索的研究
An Exploratory Case Study on Data Breach Journalism ( http://arxiv.org/abs/2405.01446v1 ) ライセンス: Link先を確認 | Jukka Ruohonen, Kalle Hjerppe, Maximilian von Zastrow, | (参考訳) 本稿では、データ漏洩ジャーナリズムとデータ漏洩ニュースの新たな話題を、データ漏洩と関連するサイバー犯罪に特化したニュースメディアであるDatabreaches.netの事例を通して探求する。
伝統的な犯罪ニュースや犯罪ジャーナリズムの問題に触発され、テキストマイニングによって調査される。
結果によると、出版社は出版ペースを着実に保っており、主に平易で短い報道に重点を置いているが、ニュース記事の質は概して高い。
これらの特徴にもかかわらず、ニュース記事はかなり強い感情を示しており、それは部分的には、情緒に満ちた犯罪の存在と、犯罪ニュースにおけるセンセーショナルズムの長い歴史のために期待されている。
ニュースサイトはまた、データ漏洩の全範囲をカバーしているが、その多くはかなり伝統的であり、被害者の個人識別と財務的詳細を暴露している。
また、病院や医療部門も際立っている。
これらの結果から,メディア・ジャーナリズムの観点から考察し,データ漏洩の研究を進めた。
This paper explores the novel topic of data breach journalism and data breach news through the case of databreaches.net, a news outlet dedicated to data breaches and related cyber crime. Motivated by the issues in traditional crime news and crime journalism, the case is explored by the means of text mining. According to the results, the outlet has kept a steady publishing pace, mainly focusing on plain and short reporting but with generally high-quality source material for the news articles. Despite these characteristics, the news articles exhibit fairly strong sentiments, which is partially expected due to the presence of emotionally laden crime and the long history of sensationalism in crime news. The news site has also covered the full scope of data breaches, although many of these are fairly traditional, exposing personal identifiers and financial details of the victims. Also hospitals and the healthcare sector stand out. With these results, the paper advances the study of data breaches by considering these from the perspective of media and journalism. | 翻訳日:2024-05-03 15:55:39 公開日:2024-05-02 |
# トラップイオンを用いたディジタルアナログ反断熱量子最適化
Digital-Analog Counterdiabatic Quantum Optimization with Trapped Ions ( http://arxiv.org/abs/2405.01447v1 ) ライセンス: Link先を確認 | Shubham Kumar, Narendra N. Hegade, Alejandro Gomez Cadavid, Murilo Henrique de Oliveira, Enrique Solano, F. Albarrán-Arriagada, | (参考訳) 本稿では,最適化問題に適した反断熱量子力学の,ハードウェア固有の問題依存型ディジタルアナログ量子アルゴリズムを提案する。
具体的には,デジタルゲートを補完するアナログ相互作用として,グローバルなM{\o}lmer-S{\o}rensenゲートを活かして,トラップイオンアーキテクチャに着目する。
アナログブロックとデジタルステップの最適構成は、純粋にデジタルアプローチに比べて回路深さが大幅に減少することを示す。
これは、提案したエンコーディングを使うことで、現在のデバイスのコヒーレンス時間を保ちながら、より多くのキュービットを必要とする、より大きな最適化問題インスタンスに対処できることを意味している。
さらに, アナログブロックの最小ゲート忠実度は, 純粋デジタルシミュレーションよりも優れており, 文献で報告されている最良忠実度以下であることが確認された。
ディジタル・アナログ符号化の性能を検証するため,最大独立セット問題に取り組み,デジタル・ケースに比べて少ないリソースを必要とすることを示す。
このハイブリッド共設計アプローチは、量子最適化問題の効率的な解に対する量子優位性への道を開く。
We introduce a hardware-specific, problem-dependent digital-analog quantum algorithm of a counterdiabatic quantum dynamics tailored for optimization problems. Specifically, we focus on trapped-ion architectures, taking advantage from global M{\o}lmer-S{\o}rensen gates as the analog interactions complemented by digital gates, both of which are available in the state-of-the-art technologies. We show an optimal configuration of analog blocks and digital steps leading to a substantial reduction in circuit depth compared to the purely digital approach. This implies that, using the proposed encoding, we can address larger optimization problem instances, requiring more qubits, while preserving the coherence time of current devices. Furthermore, we study the minimum gate fidelity required by the analog blocks to outperform the purely digital simulation, finding that it is below the best fidelity reported in the literature. To validate the performance of the digital-analog encoding, we tackle the maximum independent set problem, showing that it requires fewer resources compared to the digital case. This hybrid co-design approach paves the way towards quantum advantage for efficient solutions of quantum optimization problems. | 翻訳日:2024-05-03 15:55:39 公開日:2024-05-02 |
# 最適輸送による未確認領域におけるモデルの性能の試験時間評価
Test-time Assessment of a Model's Performance on Unseen Domains via Optimal Transport ( http://arxiv.org/abs/2405.01451v1 ) ライセンス: Link先を確認 | Akshay Mehra, Yunbei Zhang, Jihun Hamm, | (参考訳) テスト時に見えないドメインのデータに対してMLモデルのパフォーマンスを評価することは、この設定にラベルがないため、非常に難しい問題である。
さらに、これらのモデルが非配信データ上でのパフォーマンスは、目に見えないドメインのデータに対するパフォーマンスの指標として不十分である。
したがって、テスト時にモデルのパフォーマンスに関する洞察を提供し、テスト時に利用可能な情報(モデルパラメータ、トレーニングデータまたはその統計、ラベル付けされていないテストデータなど)でのみ計算できるメトリクスを開発することが不可欠である。
そこで本研究では,未確認領域におけるモデルの性能と高い相関性を持ち,テスト時に利用可能な情報のみを用いて効率的に計算可能な最適輸送に基づくメトリクスを提案する。
具体的には、これらのドメインから少量のラベルなしデータとトレーニング(ソース)ドメインからのデータや統計を用いて、未確認領域におけるモデルの性能を特徴付ける。
標準ベンチマークデータセットを用いた広範な経験的評価と,その破損から,様々な応用におけるモデルの性能を推定する上で,我々の測定値の有用性を実証する。
これには、目に見えないドメインからデータに対する最高のパフォーマンスをもたらすソースデータとアーキテクチャの選択の問題と、目に見えないドメインでテスト時にデプロイされたモデルのパフォーマンスを予測する問題が含まれる。
実験結果から, 情報源と未知領域の両方からの情報を用いた計量は, モデルの性能と高い相関関係を示し, 未知領域のデータのみを用いて計算される一般的な予測エントロピーに基づく計量よりも, はるかに優れた相関関係が得られた。
Gauging the performance of ML models on data from unseen domains at test-time is essential yet a challenging problem due to the lack of labels in this setting. Moreover, the performance of these models on in-distribution data is a poor indicator of their performance on data from unseen domains. Thus, it is essential to develop metrics that can provide insights into the model's performance at test time and can be computed only with the information available at test time (such as their model parameters, the training data or its statistics, and the unlabeled test data). To this end, we propose a metric based on Optimal Transport that is highly correlated with the model's performance on unseen domains and is efficiently computable only using information available at test time. Concretely, our metric characterizes the model's performance on unseen domains using only a small amount of unlabeled data from these domains and data or statistics from the training (source) domain(s). Through extensive empirical evaluation using standard benchmark datasets, and their corruptions, we demonstrate the utility of our metric in estimating the model's performance in various practical applications. These include the problems of selecting the source data and architecture that leads to the best performance on data from an unseen domain and the problem of predicting a deployed model's performance at test time on unseen domains. Our empirical results show that our metric, which uses information from both the source and the unseen domain, is highly correlated with the model's performance, achieving a significantly better correlation than that obtained via the popular prediction entropy-based metric, which is computed solely using the data from the unseen domain. | 翻訳日:2024-05-03 15:55:39 公開日:2024-05-02 |
# 大規模言語とビジョンモデルにおける創造的問題解決 - 何が必要か?
Creative Problem Solving in Large Language and Vision Models -- What Would it Take? ( http://arxiv.org/abs/2405.01453v1 ) ライセンス: Link先を確認 | Lakshmi Nair, Evana Gizzi, Jivko Sinapov, | (参考訳) 本稿では,計算創造性(CC)を大規模言語と視覚モデル(LLVM)で研究し,これらのモデルの限界,すなわち創造的問題解決に対処するためのアプローチについて議論する。
本研究は, CCの原理を応用して, 拡張的プロンプトによってこの制限に対処できることを示す予備実験である。
本研究は,LLVMにおける創造的問題解決のためのMLアルゴリズムの文脈において,計算創造性に関する議論を促進することを目的としている。
https://github.com/lnairGT/creative-problem-solving-LLMs
In this paper, we discuss approaches for integrating Computational Creativity (CC) with research in large language and vision models (LLVMs) to address a key limitation of these models, i.e., creative problem solving. We present preliminary experiments showing how CC principles can be applied to address this limitation through augmented prompting. With this work, we hope to foster discussions of Computational Creativity in the context of ML algorithms for creative problem solving in LLVMs. Our code is at: https://github.com/lnairGT/creative-problem-solving-LLMs | 翻訳日:2024-05-03 15:55:39 公開日:2024-05-02 |
# UQA:ウルドゥー質問応答のコーパス
UQA: Corpus for Urdu Question Answering ( http://arxiv.org/abs/2405.01458v1 ) ライセンス: Link先を確認 | Samee Arif, Sualeha Farid, Awais Athar, Agha Ali Raza, | (参考訳) 本稿では,7000万人以上の母語話者を持つ低リソース言語であるUrduにおける質問応答とテキスト理解のための新しいデータセットであるUQAを紹介する。
UQAは、EATS(Enclose to Anchor, Translate, Seek)と呼ばれる、翻訳された文脈の段落にまたがる回答を保存する技術を使用して、大規模な英語QAデータセットであるSQuAD2.0(Stanford Question Answering Dataset)を翻訳することによって生成される。
本稿では,Google TranslatorとSeamless M4Tの2つの候補の中から,最適な翻訳モデルを選択し,評価するプロセスについて述べる。
また、mBERT、XLM-RoBERTa、mT5など、UQA上の最先端多言語QAモデルをベンチマークし、有望な結果を報告する。
XLM-RoBERTa-XLの場合、F1スコアは85.99と74.56 EMである。
UQAは、Urduのための多言語NLPシステムの開発とテスト、および既存のモデルの言語間転送性を高めるための貴重なリソースである。
さらに,他の言語やドメインに対して高品質なデータセットを作成するためのEATSの有効性を示す。
UQAデータセットとコードはwww.github.com/sameearif/UQAで公開されている。
This paper introduces UQA, a novel dataset for question answering and text comprehension in Urdu, a low-resource language with over 70 million native speakers. UQA is generated by translating the Stanford Question Answering Dataset (SQuAD2.0), a large-scale English QA dataset, using a technique called EATS (Enclose to Anchor, Translate, Seek), which preserves the answer spans in the translated context paragraphs. The paper describes the process of selecting and evaluating the best translation model among two candidates: Google Translator and Seamless M4T. The paper also benchmarks several state-of-the-art multilingual QA models on UQA, including mBERT, XLM-RoBERTa, and mT5, and reports promising results. For XLM-RoBERTa-XL, we have an F1 score of 85.99 and 74.56 EM. UQA is a valuable resource for developing and testing multilingual NLP systems for Urdu and for enhancing the cross-lingual transferability of existing models. Further, the paper demonstrates the effectiveness of EATS for creating high-quality datasets for other languages and domains. The UQA dataset and the code are publicly available at www.github.com/sameearif/UQA. | 翻訳日:2024-05-03 15:55:39 公開日:2024-05-02 |
# 無条件安全なライトクライアント
Unconditionally Safe Light Client ( http://arxiv.org/abs/2405.01459v1 ) ライセンス: Link先を確認 | Niusha Moshrefi, Peiyao Sheng, Soubhik Deb, Sreeram Kannan, Pramod Viswanath, | (参考訳) ブロックチェーンアプリケーションは、リソース集約フルノードを実行する必要なしに、オンチェーンデータにアクセスし、効率よく検証するために、軽量クライアントに依存することが多い。
これらの軽量クライアントは、その上に構築されたアプリケーションのユーザに対するブロックチェーンの整合性を保護するために、堅牢なセキュリティを維持しなければなりません。
さらに、異なるアプリケーションには様々なセキュリティニーズがある。
この作業は、Proof-of-Stake(PoS)ブロックチェーンのコンテキストにおけるこれら2つの重要な要件への対処と、各ライトクライアント用に調整された最適なセキュリティを実現するための基本的なコスト-レイテンシトレードオフの特定に重点を置いている。
PoSブロックチェーンの重要なセキュリティ保証は、経済的("Stake"によって実装される)である。
本稿では、この暗号セキュリティをライトクライアントに形式化し、ライトクライアントに提供するデータの破損コストが潜在的利益を上回ることを保証し、悪質なアクターを経済的に抑制する。
さらに、軽クライアントに「保険」暗号セキュリティを導入し、敵行為の帰属とそれに伴う利害の削減による無条件保護を提供します。
プログラム可能なセキュリティを促進し、異なるアプリケーションのニーズに応じて、セキュリティレベルと保険金額のカスタマイズを可能にする。
プロトコルを1000行未満のSolidityとTypeScriptコードで実装し、ガスコスト、レイテンシ、計算オーバーヘッドを評価しました。
例えば、32kの値を持つトランザクションの場合、ライトクライアントは、レイテンシが5時間あるゼロコストと、保険コストが7.45ドルである即時確認とを選択できる。
したがって、クライアントは、そのニーズに最も適したレイテンシコストのトレードオフスペクトルの最適点を選択することができる。
Lightクライアントは無視できるストレージを必要とし、最小の計算コストに直面している。
Blockchain applications often rely on lightweight clients to access and verify on-chain data efficiently without the need to run a resource-intensive full node. These light clients must maintain robust security to protect the blockchain's integrity for users of applications built upon it, achieving this with minimal resources and without significant latency. Moreover, different applications have varying security needs. This work focuses on addressing these two key requirements in the context of Proof-of-Stake (PoS) blockchains and identifying the fundamental cost-latency trade-offs to achieve tailored, optimal security for each light client. The key security guarantee of PoS blockchains is economic (implied by the "stake"). In this paper we formalize this cryptoeconomic security to light clients, ensuring that the cost of corrupting the data provided to light clients must outweigh the potential profit, thereby economically deterring malicious actors. We further introduce "insured" cryptoeconomic security to light clients, providing unconditional protection via the attribution of adversarial actions and the consequent slashing of stakes. The divisible and fungible nature of stake facilitates programmable security, allowing for customization of the security level and insurance amount according to the specific needs of different applications. We implemented the protocols in less than 1000 lines of Solidity and TypeScript code and evaluated their gas cost, latency, and the computational overhead. For example, for a transaction with value of \$32k, the light client can choose between zero cost with a latency of 5 hours or instant confirmation with an insurance cost of \$7.45. Thus, the client can select the optimal point on the latency-cost trade-off spectrum that best aligns with its needs. Light clients require negligible storage and face minimal computational costs,... | 翻訳日:2024-05-03 15:45:41 公開日:2024-05-02 |
# レート制約付き変分オートエンコーダによる未学習例の精製
Purify Unlearnable Examples via Rate-Constrained Variational Autoencoders ( http://arxiv.org/abs/2405.01460v1 ) ライセンス: Link先を確認 | Yi Yu, Yufei Wang, Song Xia, Wenhan Yang, Shijian Lu, Yap-Peng Tan, Alex C. Kot, | (参考訳) 未学習例(UE)は、正しくラベル付けされたトレーニング例に微妙な修正を加えることで、テストエラーの最大化を目指している。
これらの毒殺攻撃に対する防御は、訓練中に特定の介入が採用されたかどうかに基づいて分類することができる。
第一のアプローチは、敵の訓練のような訓練時間防衛であり、毒殺効果を軽減できるが、計算的に集中している。
もうひとつのアプローチは、いくつかの単純な圧縮からなるイメージショート・スクイーズ(画像ショート・スクイーズ)の事前トレーニングである。
我々の研究は、効率的な事前学習浄化法を構築するための、新しいゆがみ機構を提供する。
まず,速度制約付き変分オートエンコーダ(VAE)を明らかにし,UEの摂動を抑制する傾向を示す。
この現象の理論的解析を行う。
これらの知見に基づいて、学習可能なクラスワイド埋め込みで摂動を遠ざける不整形変分オートエンコーダ(D-VAE)を導入する。
このネットワークに基づいて、2段階の浄化手法が自然に開発されている。
第1段階は摂動を大まかに排除することに焦点を当て、第2段階は洗練された無毒な結果をもたらし、様々なシナリオにおける有効性と堅牢性を保証する。
CIFAR-10, CIFAR-100, 100-class ImageNet-subset を用いた大規模実験を行った。
コードはhttps://github.com/yuyi-sd/D-VAE.comで入手できる。
Unlearnable examples (UEs) seek to maximize testing error by making subtle modifications to training examples that are correctly labeled. Defenses against these poisoning attacks can be categorized based on whether specific interventions are adopted during training. The first approach is training-time defense, such as adversarial training, which can mitigate poisoning effects but is computationally intensive. The other approach is pre-training purification, e.g., image short squeezing, which consists of several simple compressions but often encounters challenges in dealing with various UEs. Our work provides a novel disentanglement mechanism to build an efficient pre-training purification method. Firstly, we uncover rate-constrained variational autoencoders (VAEs), demonstrating a clear tendency to suppress the perturbations in UEs. We subsequently conduct a theoretical analysis for this phenomenon. Building upon these insights, we introduce a disentangle variational autoencoder (D-VAE), capable of disentangling the perturbations with learnable class-wise embeddings. Based on this network, a two-stage purification approach is naturally developed. The first stage focuses on roughly eliminating perturbations, while the second stage produces refined, poison-free results, ensuring effectiveness and robustness across various scenarios. Extensive experiments demonstrate the remarkable performance of our method across CIFAR-10, CIFAR-100, and a 100-class ImageNet-subset. Code is available at https://github.com/yuyi-sd/D-VAE. | 翻訳日:2024-05-03 15:45:41 公開日:2024-05-02 |
# SATO: 安定したテキスト間移動フレームワーク
SATO: Stable Text-to-Motion Framework ( http://arxiv.org/abs/2405.01461v1 ) ライセンス: Link先を確認 | Wenshuo Chen, Hongru Xiao, Erhang Zhang, Lijie Hu, Lei Wang, Mengyuan Liu, Chen Chen, | (参考訳) Text to Motionモデルは堅牢か?
テキスト・トゥ・モーション・モデルの最近の進歩は、主に特定の行動のより正確な予測に由来する。
しかし、テキストモダリティは通常、事前訓練されたコントラスト言語-画像事前訓練(CLIP)モデルにのみ依存する。
その結果、意味的に類似したテキスト入力や同一のテキスト入力が提示された場合、その予測が不整合な出力を示すことが多かった。
本稿では,この不安定性の根本原因を明らかにするために解析を行い,モデル出力の予測不能性とテキストエンコーダモジュールの警告パターンとの明確なリンクを確立する。
そこで本稿では,この問題を解決するための公式なフレームワークを紹介し,そのフレームワークをSATO (Stable Text-to-Motion Framework) と呼ぶ。
SATOは3つのモジュールから構成されており、それぞれが注意を安定させ、予測を安定させ、正確性と堅牢性のトレードオフのバランスを維持する。
注意と予測の安定性を満足するSATOを構築するための方法論を提案する。
モデルの安定性を検証するため,HumanML3DとKIT-MLをベースとした新しいテキスト同義語摂動データセットを導入した。
その結果,SATOは高い精度を維持しつつ,同義語や他のわずかな摂動に対して著しく安定であることがわかった。
Is the Text to Motion model robust? Recent advancements in Text to Motion models primarily stem from more accurate predictions of specific actions. However, the text modality typically relies solely on pre-trained Contrastive Language-Image Pretraining (CLIP) models. Our research has uncovered a significant issue with the text-to-motion model: its predictions often exhibit inconsistent outputs, resulting in vastly different or even incorrect poses when presented with semantically similar or identical text inputs. In this paper, we undertake an analysis to elucidate the underlying causes of this instability, establishing a clear link between the unpredictability of model outputs and the erratic attention patterns of the text encoder module. Consequently, we introduce a formal framework aimed at addressing this issue, which we term the Stable Text-to-Motion Framework (SATO). SATO consists of three modules, each dedicated to stable attention, stable prediction, and maintaining a balance between accuracy and robustness trade-off. We present a methodology for constructing an SATO that satisfies the stability of attention and prediction. To verify the stability of the model, we introduced a new textual synonym perturbation dataset based on HumanML3D and KIT-ML. Results show that SATO is significantly more stable against synonyms and other slight perturbations while keeping its high accuracy performance. | 翻訳日:2024-05-03 15:45:41 公開日:2024-05-02 |
# グラフ上でのアクティブラーニングの不確実性
Uncertainty for Active Learning on Graphs ( http://arxiv.org/abs/2405.01462v1 ) ライセンス: Link先を確認 | Dominik Fuchsgruber, Tom Wollschläger, Bertrand Charpentier, Antonio Oroz, Stephan Günnemann, | (参考訳) 不確実性サンプリングは、最も不確実性の高いデータポイントのラベルを反復的に取得することで、機械学習モデルのデータ効率を改善することを目的とした、アクティブな学習戦略である。
独立したデータに対して有効であることが証明されているが、グラフへの適用性はまだ未調査である。
1)予測的不確実性を超えた不確実性サンプリングをベンチマークし、他のアクティブラーニング戦略に顕著なパフォーマンスギャップを浮き彫りにする。
2) 提案手法は,データ生成過程の観点からの地道的ベイズの不確実性推定を開発し,不確実性サンプリングを最適クエリへ導く上での有効性を実証する。
我々は、合成データに関する我々の結果を確認し、実際のデータセット上の他の不確実性推定器を一貫して上回る近似的なアプローチを設計する。
(3) この分析に基づいて, 不確実性モデリングにおける落とし穴と既存手法を関連づける。
我々の分析は、グラフ上での原理的不確実性推定の開発を可能にする。
Uncertainty Sampling is an Active Learning strategy that aims to improve the data efficiency of machine learning models by iteratively acquiring labels of data points with the highest uncertainty. While it has proven effective for independent data its applicability to graphs remains under-explored. We propose the first extensive study of Uncertainty Sampling for node classification: (1) We benchmark Uncertainty Sampling beyond predictive uncertainty and highlight a significant performance gap to other Active Learning strategies. (2) We develop ground-truth Bayesian uncertainty estimates in terms of the data generating process and prove their effectiveness in guiding Uncertainty Sampling toward optimal queries. We confirm our results on synthetic data and design an approximate approach that consistently outperforms other uncertainty estimators on real datasets. (3) Based on this analysis, we relate pitfalls in modeling uncertainty to existing methods. Our analysis enables and informs the development of principled uncertainty estimation on graphs. | 翻訳日:2024-05-03 15:45:41 公開日:2024-05-02 |
# 局所的平均処理効果
Dynamic Local Average Treatment Effects ( http://arxiv.org/abs/2405.01463v1 ) ライセンス: Link先を確認 | Ravi B. Sojitra, Vasilis Syrgkanis, | (参考訳) 我々は、デジタルレコメンデーションや適応医療トライアルなどの応用において、一方の非準拠を伴う動的治療規則(DTR)を検討する。
これらは、意思決定者が個人が時間とともに治療を受けることを奨励するが、以前の奨励、治療、状態、結果に基づいて奨励を適応する設定である。
重要なのは、個人が治療勧告を遵守する(従わない)ことを選択できることだ。
本研究では,多周期処理コントラストの予測値である動的局所的平均処理効果の非パラメトリック同定,推定,推定を行う。
インストゥルメンタル・バリアブルとDTRの文献における標準的な仮定では、任意の時間ステップで治療を行うためのコントラストの局所的な平均効果を識別できることが示される。
また,Saggered Adoption 設定で満足するクロス周期効果コンプライアンス独立仮定と,Saggered Compliance 設定と定義するそれらの一般化により,複数の期間における治療の局所的平均処理効果を同定する。
We consider Dynamic Treatment Regimes (DTRs) with one sided non-compliance that arise in applications such as digital recommendations and adaptive medical trials. These are settings where decision makers encourage individuals to take treatments over time, but adapt encouragements based on previous encouragements, treatments, states, and outcomes. Importantly, individuals may choose to (not) comply with a treatment recommendation, whenever it is made available to them, based on unobserved confounding factors. We provide non-parametric identification, estimation, and inference for Dynamic Local Average Treatment Effects, which are expected values of multi-period treatment contrasts among appropriately defined complier subpopulations. Under standard assumptions in the Instrumental Variable and DTR literature, we show that one can identify local average effects of contrasts that correspond to offering treatment at any single time step. Under an additional cross-period effect-compliance independence assumption, which is satisfied in Staggered Adoption settings and a generalization of them, which we define as Staggered Compliance settings, we identify local average treatment effects of treating in multiple time periods. | 翻訳日:2024-05-03 15:45:41 公開日:2024-05-02 |
# パラメトリック変調量子ビットを用いたオンデマンド形光子放射
On-demand shaped photon emission based on a parametrically modulated qubit ( http://arxiv.org/abs/2405.01464v1 ) ライセンス: Link先を確認 | Xiang Li, Sheng-Yong Li, Si-Lu Zhao, Zheng-Yang Mei, Yang He, Cheng-Lin Deng, Yu Liu, Yan-Jun Liu, Gui-Han Liang, Jin-Zhe Wang, Xiao-Hui Song, Kai Xu, Fan Heng, Yu-Xiang Zhang, Zhong-Cheng Xiang, Dong-Ning Zheng, | (参考訳) 回路量子力学アーキテクチャでは、飛行光子を介する長距離量子ネットワークを実現するためには、2つの量子ノード間の高い転送効率を達成するために、放出光子の時間プロファイルを形成する必要がある。
本研究では,新しい単線・双線時間ビン型光子生成器を,追加のフラックス可変素子を使わずに実演し,点対点量子ネットワークの量子インターフェースとして機能することを示す。
提案手法では,qubit-resonator-transmission line 構成を採用し,qubit-resonator 間の有効結合強度は,qubit 周波数のパラメトリック変調により変化させることができる。
このように、結合はパラメトリック変調振幅に直接比例し、使用したサンプルに対して20MHzを超える広い可変範囲をカバーする。
さらに、形状光子を放出する際、パラメトリック変調によるスプリアス周波数シフト(-0.4MHz)が小さく、チャープによって容易に校正できることがわかった。
我々は,GPUのデータストリーム処理に基づく効率的な光子場計測装置を開発した。
本システムを用いて,光子時間分布測定,光子場の量子状態トモグラフィ,ヘテロダイン測定に基づく単一レール量子状態移動の量子プロセストモグラフィを行う。
形状光子放出の1本のレール符号化状態の転写忠実度は90.32%であり、未形状光子についてはそれぞれ97.20%である。
我々は、形状光子放射の忠実度は、主にクビットコヒーレンス時間によって制限されると考えている。
その結果,本手法はハードウェア効率が高く,実装が簡単で,拡張性が高いことがわかった。
シングルレールとデュアルレールのタイムビンエンコーディングの両方を利用して、高品質な量子ネットワークで実行可能なツールになり得る。
In the circuit quantum electrodynamics architectures, to realize a long-range quantum network mediated by flying photon, it is necessary to shape the temporal profile of emitted photons to achieve high transfer efficiency between two quantum nodes. In this work, we demonstrate a new single-rail and dual-rail time-bin shaped photon generator without additional flux-tunable elements, which can act as a quantum interface of a point-to-point quantum network. In our approach, we adopt a qubit-resonator-transmission line configuration, and the effective coupling strength between the qubit and the resonator can be varied by parametrically modulating the qubit frequency. In this way, the coupling is directly proportional to the parametric modulation amplitude and covers a broad tunable range beyond 20 MHz for the sample we used. Additionally, when emitting shaped photons, we find that the spurious frequency shift (-0.4 MHz) due to parametric modulation is small and can be readily calibrated through chirping. We develop an efficient photon field measurement setup based on the data stream processing of GPU. Utilizing this system, we perform photon temporal profile measurement, quantum state tomography of photon field, and quantum process tomography of single-rail quantum state transfer based on a heterodyne measurement scheme. The single-rail encoding state transfer fidelity of shaped photon emission is 90.32%, and that for unshaped photon is 97.20%, respectively. We believe that the fidelity of shaped photon emission is mainly limited by the qubit coherence time. The results demonstrate that our method is hardware efficient, simple to implement, and scalable. It could become a viable tool in a high-quality quantum network utilizing both single-rail and dual-rail time-bin encoding. | 翻訳日:2024-05-03 15:45:41 公開日:2024-05-02 |
# プログラム自動修復のための大規模言語モデルに関する体系的文献レビュー
A Systematic Literature Review on Large Language Models for Automated Program Repair ( http://arxiv.org/abs/2405.01466v1 ) ライセンス: Link先を確認 | Quanjun Zhang, Chunrong Fang, Yang Xie, YuXiang Ma, Weisong Sun, Yun Yang Zhenyu Chen, | (参考訳) 自動プログラム修復(APR)は、ソフトウェアのバグにパッチを当て、手作業によるデバッグ作業を減らす。
最近、LLM(Large Language Models)の進歩に伴い、ソフトウェア開発とメンテナンスを容易にし、優れたパフォーマンスを示すAPR技術が提案されている。
しかし、LLMベースのAPR分野の探索が進行中であるため、研究者が現在の成果、課題、潜在的な機会を理解することは困難である。
この研究は、2020年から2024年までのAPRにおけるLLMの応用を要約する最初の体系的な文献レビューを提供する。
LLM,APRおよびそれらの統合の観点から,127件の関連論文を分析した。
まず、APRをサポートするために適用されている既存のLLMを分類し、3種類の利用戦略を概説する。
さらに、LLM、例えばセマンティックバグやセキュリティ脆弱性の恩恵を受ける、いくつかの特定の修復シナリオについて詳述する。
さらに、ALMをAPR研究、例えば入力形式、オープンサイエンスに統合する際のいくつかの重要な側面について論じる。
最後に,今後検討すべき課題と今後の研究ガイドラインについて紹介する。
本稿は,APRコミュニティにおける研究状況の体系的概要を提供し,研究成果の包括的理解と今後の研究の促進を支援する。
Automated Program Repair (APR) attempts to patch software bugs and reduce manual debugging efforts. Very recently, with the advances in Large Language Models (LLMs), an increasing number of APR techniques have been proposed, facilitating software development and maintenance and demonstrating remarkable performance. However, due to ongoing explorations in the LLM-based APR field, it is challenging for researchers to understand the current achievements, challenges, and potential opportunities. This work provides the first systematic literature review to summarize the applications of LLMs in APR between 2020 and 2024. We analyze 127 relevant papers from LLMs, APR and their integration perspectives. First, we categorize existing popular LLMs that are applied to support APR and outline three types of utilization strategies for their deployment. Besides, we detail some specific repair scenarios that benefit from LLMs, e.g., semantic bugs and security vulnerabilities. Furthermore, we discuss several critical aspects of integrating LLMs into APR research, e.g., input forms and open science. Finally, we highlight a set of challenges remaining to be investigated and the potential guidelines for future research. Overall, our paper provides a systematic overview of the research landscape to the APR community, helping researchers gain a comprehensive understanding of achievements and promote future research. | 翻訳日:2024-05-03 15:45:41 公開日:2024-05-02 |
# 視覚言語モデルに対する検索拡張タスク適応の理解
Understanding Retrieval-Augmented Task Adaptation for Vision-Language Models ( http://arxiv.org/abs/2405.01468v1 ) ライセンス: Link先を確認 | Yifei Ming, Yixuan Li, | (参考訳) 事前訓練された対照的な視覚言語モデルは、幅広いタスクで顕著な性能を示した。
しかし、彼らはしばしば、事前トレーニング中に適切に表現されていないカテゴリを持つ、微調整されたデータセットに苦しむため、適応が必要である。
最近の研究は、特に低データ体制において、検索強化適応のためのWebスケールデータベースのサンプルを利用することで、有望な結果を示している。
実証的な成功にもかかわらず、検索が視覚言語モデルの適応にどのように影響するかを理解することは、オープンな研究課題である。
本研究では,検索強化適応におけるキーコンポーネントの役割を理解するための体系的な研究を提示することにより,反射的視点を採用する。
単モーダルおよびクロスモーダル検索に関する新たな知見を明らかにし,ロジットアンサンブルの有効適応における重要な役割を強調した。
さらに、我々の経験的観察を直接支援する理論的基盤を提示する。
Pre-trained contrastive vision-language models have demonstrated remarkable performance across a wide range of tasks. However, they often struggle on fine-trained datasets with categories not adequately represented during pre-training, which makes adaptation necessary. Recent works have shown promising results by utilizing samples from web-scale databases for retrieval-augmented adaptation, especially in low-data regimes. Despite the empirical success, understanding how retrieval impacts the adaptation of vision-language models remains an open research question. In this work, we adopt a reflective perspective by presenting a systematic study to understand the roles of key components in retrieval-augmented adaptation. We unveil new insights on uni-modal and cross-modal retrieval and highlight the critical role of logit ensemble for effective adaptation. We further present theoretical underpinnings that directly support our empirical observations. | 翻訳日:2024-05-03 15:45:41 公開日:2024-05-02 |
# 総合的自己教師型学習による頑健なX線分析のための人間中心型AIの活用
Advancing human-centric AI for robust X-ray analysis through holistic self-supervised learning ( http://arxiv.org/abs/2405.01469v1 ) ライセンス: Link先を確認 | Théo Moutakanni, Piotr Bojanowski, Guillaume Chassagnon, Céline Hudelot, Armand Joulin, Yann LeCun, Matthew Muckley, Maxime Oquab, Marie-Pierre Revel, Maria Vakalopoulou, | (参考訳) AI Foundationのモデルは、放射線学などの医学分野など、さまざまな応用で注目を集めている。
しかしながら、医療基礎モデルは、しばしば限られたタスクでテストされ、その一般化可能性とバイアスは未調査のままである。
873kの胸部X線で自己監督によって訓練された大型ビジュアルエンコーダであるRayDinoについて紹介する。
我々はレイディーノと過去の9つの放射線学課題における最先端モデルを比較し、分類と密分化からテキスト生成までを比較し、我々のモデルにおける人口、年齢、性別の偏りを詳細に分析した。
我々の研究結果は、患者中心のAIが臨床ワークフローやX線を一様に解釈するのに有用であることを示唆している。
RayDINOと小さなタスク特化アダプタによって、我々は最先端の結果に到達し、バイアスを緩和しながら、未確認人口への一般化を改善し、基礎モデルの真の約束である汎用性と堅牢性を示す。
AI Foundation models are gaining traction in various applications, including medical fields like radiology. However, medical foundation models are often tested on limited tasks, leaving their generalisability and biases unexplored. We present RayDINO, a large visual encoder trained by self-supervision on 873k chest X-rays. We compare RayDINO to previous state-of-the-art models across nine radiology tasks, from classification and dense segmentation to text generation, and provide an in depth analysis of population, age and sex biases of our model. Our findings suggest that self-supervision allows patient-centric AI proving useful in clinical workflows and interpreting X-rays holistically. With RayDINO and small task-specific adapters, we reach state-of-the-art results and improve generalization to unseen populations while mitigating bias, illustrating the true promise of foundation models: versatility and robustness. | 翻訳日:2024-05-03 15:45:41 公開日:2024-05-02 |
# WildChat: 野生での100万のチャットGPTインタラクションログ
WildChat: 1M ChatGPT Interaction Logs in the Wild ( http://arxiv.org/abs/2405.01470v1 ) ライセンス: Link先を確認 | Wenting Zhao, Xiang Ren, Jack Hessel, Claire Cardie, Yejin Choi, Yuntian Deng, | (参考訳) GPT-4やChatGPTのようなチャットボットは今や数百万のユーザーにサービスを提供している。
広く使われているにもかかわらず、これらのツールが実際に多くのユーザーがどのように使われているかを示す公開データセットが不足している。
このギャップを埋めるために、私たちはチャットの書き起こしやリクエストヘッダーを匿名で収集するために、肯定的で合意的なオプトインと引き換えにChatGPTへの無料アクセスを提供しました。
そこからWildChatをコンパイルしました。これは100万のユーザ-ChatGPT会話のコーパスで、250万回以上のインタラクションターンで構成されています。
WildChatを他の一般的なユーザ-チャットボットのインタラクションデータセットと比較すると、私たちのデータセットは最も多様なユーザープロンプトを提供し、最も多くの言語を含み、研究者が研究するための潜在的に有毒なユースケースを多種多様に提示している。
タイムスタンプによるチャットの書き起こしに加えて、私たちは、リクエストヘッダとともに、州、国、ハッシュIPアドレスを含む人口統計データでデータセットを豊かにしています。
この拡張により、異なる地理的領域と時間次元にわたるユーザの振る舞いをより詳細に分析することができる。
最後に、広範囲のユースケースをキャプチャするので、微調整された命令追従モデルにおいて、データセットの潜在的有用性を示す。
WildChatはAI2 ImpACT Licensesの下でhttps://wildchat.allen.aiでリリースされた。
Chatbots such as GPT-4 and ChatGPT are now serving millions of users. Despite their widespread use, there remains a lack of public datasets showcasing how these tools are used by a population of users in practice. To bridge this gap, we offered free access to ChatGPT for online users in exchange for their affirmative, consensual opt-in to anonymously collect their chat transcripts and request headers. From this, we compiled WildChat, a corpus of 1 million user-ChatGPT conversations, which consists of over 2.5 million interaction turns. We compare WildChat with other popular user-chatbot interaction datasets, and find that our dataset offers the most diverse user prompts, contains the largest number of languages, and presents the richest variety of potentially toxic use-cases for researchers to study. In addition to timestamped chat transcripts, we enrich the dataset with demographic data, including state, country, and hashed IP addresses, alongside request headers. This augmentation allows for more detailed analysis of user behaviors across different geographical regions and temporal dimensions. Finally, because it captures a broad range of use cases, we demonstrate the dataset's potential utility in fine-tuning instruction-following models. WildChat is released at https://wildchat.allen.ai under AI2 ImpACT Licenses. | 翻訳日:2024-05-03 15:45:41 公開日:2024-05-02 |
# 射影測定によるマルチパラメーター量子クラム・ラオ境界の単磁極レベルでの飽和
Saturation of the Multiparameter Quantum Cramér-Rao Bound at the Single-Copy Level with Projective Measurements ( http://arxiv.org/abs/2405.01471v1 ) ライセンス: Link先を確認 | Hendra I. Nurdin, | (参考訳) 量子パラメータ推定理論は量子情報理論の重要な構成要素であり、量子系同定や量子波形推定といった重要なトピックを支える統計基盤を提供する。
複数のパラメータが存在する場合、量子クラム・ラオ境界によって与えられる平均二乗誤差における最終的な精度は必ずしも達成可能であるとは限らない。
非フルランクの量子状態については、未知のパラメータを符号化する量子状態の1つのコピーのみが利用可能である場合、いつこの境界が飽和(達成)できるかは分かっていなかった。
この単一コピーシナリオは、実験的/実践的なトラクタビリティのために重要である。
近年,マルチパラメータ単一コピーシナリオにおける量子Cram\'er-Rao境界の飽和性に関する必要十分条件が確立されている。
一 射影対称対数微分の集合の可換性及び
二 結合した非線形偏微分方程式系に対する一意解の存在。
また、対称対数微分の性質にのみ依存する新しい十分条件も得られた。
本稿では、量子Cram\'er-Rao境界を飽和させる最適測定の鍵となる構造特性を照明する。
これらの性質は活用される
一 十分な条件が実際に必要であり、かつ、最適な測定値が投影されるのに十分であることを示すこと。
二 予め確立した必要条件の代替証明を与え、
三 多パラメータQCRBを飽和させる一般のPOVMを記述すること。
非線形偏微分方程式系に対するユニタリ解が要求条件を満たすときに明示的に計算できるような例が与えられる。
Quantum parameter estimation theory is an important component of quantum information theory and provides the statistical foundation that underpins important topics such as quantum system identification and quantum waveform estimation. When there is more than one parameter the ultimate precision in the mean square error given by the quantum Cram\'er-Rao bound is not necessarily achievable. For non-full rank quantum states, it was not known when this bound can be saturated (achieved) when only a single copy of the quantum state encoding the unknown parameters is available. This single-copy scenario is important because of its experimental/practical tractability. Recently, necessary and sufficient conditions for saturability of the quantum Cram\'er-Rao bound in the multiparameter single-copy scenario have been established in terms of i) the commutativity of a set of projected symmetric logarithmic derivatives and ii) the existence of a unitary solution to a system of coupled nonlinear partial differential equations. New sufficient conditions were also obtained that only depend on properties of the symmetric logarithmic derivatives. In this paper, key structural properties of optimal measurements that saturate the quantum Cram\'er-Rao bound are illuminated. These properties are exploited to i) show that the sufficient conditions are in fact necessary and sufficient for an optimal measurement to be projective, ii) give an alternative proof of previously established necessary conditions, and iii) describe general POVMs, not necessarily projective, that saturate the multiparameter QCRB. Examples are given where a unitary solution to the system of nonlinear partial differential equations can be explicitly calculated when the required conditions are fulfilled. | 翻訳日:2024-05-03 15:45:41 公開日:2024-05-02 |
# IntervenGen:ロバストでデータ効率の良いロボット模倣学習のためのインターベンショナルデータ生成
IntervenGen: Interventional Data Generation for Robust and Data-Efficient Robot Imitation Learning ( http://arxiv.org/abs/2405.01472v1 ) ライセンス: Link先を確認 | Ryan Hoque, Ajay Mandlekar, Caelan Garrett, Ken Goldberg, Dieter Fox, | (参考訳) 模倣学習はロボット制御ポリシーを訓練する上で有望なパラダイムであるが、これらのポリシーは、トレーニングデータと評価時の条件が異なる分散シフトに悩まされる可能性がある。
分散シフトに対するポリシーロバスト性を高めるための一般的なアプローチは、インタラクティブな模倣学習(DAggerとvariants)である。
しかし、政策ミスの分布を網羅する十分な介入を収集することは、人間のオペレーターにとって負担になる可能性がある。
我々は、少数の人的介入から、州空間を広範囲に網羅した大規模な修正介入を自律的に生成できる新しいデータ生成システムIntervenGen(I-Gen)を提案する。
I-Genをオブジェクトポーズ推定誤差のある4つのシミュレーション環境と1つの物理環境に適用し、10人の介入だけで39倍のロバスト性を向上できることを示す。
ビデオやその他の結果はhttps://sites.google.com/view/intervengen2024.comで公開されている。
Imitation learning is a promising paradigm for training robot control policies, but these policies can suffer from distribution shift, where the conditions at evaluation time differ from those in the training data. A popular approach for increasing policy robustness to distribution shift is interactive imitation learning (i.e., DAgger and variants), where a human operator provides corrective interventions during policy rollouts. However, collecting a sufficient amount of interventions to cover the distribution of policy mistakes can be burdensome for human operators. We propose IntervenGen (I-Gen), a novel data generation system that can autonomously produce a large set of corrective interventions with rich coverage of the state space from a small number of human interventions. We apply I-Gen to 4 simulated environments and 1 physical environment with object pose estimation error and show that it can increase policy robustness by up to 39x with only 10 human interventions. Videos and more results are available at https://sites.google.com/view/intervengen2024. | 翻訳日:2024-05-03 15:45:41 公開日:2024-05-02 |
# V-FLUTE: テキスト記述による視覚的図形言語理解
V-FLUTE: Visual Figurative Language Understanding with Textual Explanations ( http://arxiv.org/abs/2405.01474v1 ) ライセンス: Link先を確認 | Arkadiy Saakyan, Shreyas Kulkarni, Tuhin Chakrabarty, Smaranda Muresan, | (参考訳) VLM(Large Vision-Language Model)は、視覚的な質問応答や視覚的エンターテイメントといった、リテラル画像やテキストのきめ細やかな理解を必要とするタスクにおいて、強力な推論能力を示す。
しかし、比喩やユーモアなどの比喩的な現象を含む画像やキャプションが提示された際には、これらのモデルが持つ能力についてはほとんど調査されていないが、その意味は暗黙的であることが多い。
このギャップを埋めるために、我々は新しいタスクと高品質なデータセット、Visual Figurative Language Understanding with Textual Explanations (V-FLUTE)を提案する。
視覚的図形言語理解問題を説明可能な視覚的包含課題とみなし、画像(前提)がクレーム(仮説)を包含するか否かを予測し、予測されたラベルをテキストによる説明で正当化する。
人間のAIコラボレーションフレームワークを用いて、6,027の<画像,クレーム,ラベル,説明>を含む高品質なデータセットV-FLUTEを構築した。
図形現象は、画像、キャプション、または両方に存在する。
我々はまた、図形現象を理解する上での現在のVLMの能力を評価するために、自動評価と人的評価の両方を行う。
Large Vision-Language models (VLMs) have demonstrated strong reasoning capabilities in tasks requiring a fine-grained understanding of literal images and text, such as visual question-answering or visual entailment. However, there has been little exploration of these models' capabilities when presented with images and captions containing figurative phenomena such as metaphors or humor, the meaning of which is often implicit. To close this gap, we propose a new task and a high-quality dataset: Visual Figurative Language Understanding with Textual Explanations (V-FLUTE). We frame the visual figurative language understanding problem as an explainable visual entailment task, where the model has to predict whether the image (premise) entails a claim (hypothesis) and justify the predicted label with a textual explanation. Using a human-AI collaboration framework, we build a high-quality dataset, V-FLUTE, that contains 6,027 <image, claim, label, explanation> instances spanning five diverse multimodal figurative phenomena: metaphors, similes, idioms, sarcasm, and humor. The figurative phenomena can be present either in the image, the caption, or both. We further conduct both automatic and human evaluations to assess current VLMs' capabilities in understanding figurative phenomena. | 翻訳日:2024-05-03 15:45:41 公開日:2024-05-02 |
# 解法に対する量子曖昧性と指数計算の高速化について
On Quantum Ambiguity and Potential Exponential Computational Speed-Ups to Solving ( http://arxiv.org/abs/2405.01479v1 ) ライセンス: Link先を確認 | Eric Ghysels, Jack Morgan, | (参考訳) 量子コンピューティングの解を、アルゴリズムを用いて様々な非線形資産価格モデルに定式化し、理論的には、重ね合わせと絡み合いの量子的性質を利用する古典的手法よりも指数関数的に効率的である。
平衡資産価格の解は量子状態である。
モデル選択に対処するために、あいまいさとモデル/パラメータの不確実性の量子決定理論の基礎を導入する。
We formulate quantum computing solutions to a large class of dynamic nonlinear asset pricing models using algorithms, in theory exponentially more efficient than classical ones, which leverage the quantum properties of superposition and entanglement. The equilibrium asset pricing solution is a quantum state. We introduce quantum decision-theoretic foundations of ambiguity and model/parameter uncertainty to deal with model selection. | 翻訳日:2024-05-03 15:45:41 公開日:2024-05-02 |
# 機械学習における多目的最適化の回避のための共通の落とし穴
Common pitfalls to avoid while using multiobjective optimization in machine learning ( http://arxiv.org/abs/2405.01480v1 ) ライセンス: Link先を確認 | Junaid Akhter, Paul David Fährmann, Konstantin Sonntag, Sebastian Peitz, | (参考訳) 近年,機械学習(ML)における多目的最適化(MOO)の適用の探求への関心が高まっている。
この関心は、複数の目的を同時に最適化する必要がある現実のアプリケーションにおける多くの状況によって引き起こされる。
MOO の重要な側面は、単一の最適解ではなく、パレート集合の存在であり、目的間の固有のトレードオフを示している。
その可能性にもかかわらず、MOOを使いたいML実践者のエントリーレベルガイドとして機能する十分な文献が不足している。
したがって、本論文の目標は、そのような資源を生産することである。
従来の研究、特に深層学習におけるMOO(物理情報ニューラルネットワーク(PINN)を手がかりに)に関する研究を批判的にレビューし、MLにおけるMOOの原則をよりよく把握する必要性を強調する誤解を特定する。
PINNのMOOをケーススタディとして、データ損失と物理損失項の相互作用を実証する。
MLでMOO技術を使用している場合、避けるべき最も一般的な落とし穴を強調します。
まず、重み付け和(WS)法や、多目的勾配勾配勾配アルゴリズム(MGDA)のようなより複雑な手法など、よく知られたアプローチに焦点をあててMOOの基盤を確立する。
さらに、WS および MGDA から得られた結果と最も一般的な進化的アルゴリズムである NSGA-II を比較した。
我々は,特定の問題,目的空間,選択されたMOO法を理解することの重要性を強調し,収束などの要因を無視すると不正確な結果が得られ,その結果,最適でない解が得られることを指摘した。
我々のゴールは、特にDLの文脈において、ML実践者がMOOを効果的に適用するための明確で実践的なガイドを提供することです。
Recently, there has been an increasing interest in exploring the application of multiobjective optimization (MOO) in machine learning (ML). The interest is driven by the numerous situations in real-life applications where multiple objectives need to be optimized simultaneously. A key aspect of MOO is the existence of a Pareto set, rather than a single optimal solution, which illustrates the inherent trade-offs between objectives. Despite its potential, there is a noticeable lack of satisfactory literature that could serve as an entry-level guide for ML practitioners who want to use MOO. Hence, our goal in this paper is to produce such a resource. We critically review previous studies, particularly those involving MOO in deep learning (using Physics-Informed Neural Networks (PINNs) as a guiding example), and identify misconceptions that highlight the need for a better grasp of MOO principles in ML. Using MOO of PINNs as a case study, we demonstrate the interplay between the data loss and the physics loss terms. We highlight the most common pitfalls one should avoid while using MOO techniques in ML. We begin by establishing the groundwork for MOO, focusing on well-known approaches such as the weighted sum (WS) method, alongside more complex techniques like the multiobjective gradient descent algorithm (MGDA). Additionally, we compare the results obtained from the WS and MGDA with one of the most common evolutionary algorithms, NSGA-II. We emphasize the importance of understanding the specific problem, the objective space, and the selected MOO method, while also noting that neglecting factors such as convergence can result in inaccurate outcomes and, consequently, a non-optimal solution. Our goal is to offer a clear and practical guide for ML practitioners to effectively apply MOO, particularly in the context of DL. | 翻訳日:2024-05-03 15:45:41 公開日:2024-05-02 |
# NeMo-Aligner: 効率的なモデルアライメントのためのスケーラブルなツールキット
NeMo-Aligner: Scalable Toolkit for Efficient Model Alignment ( http://arxiv.org/abs/2405.01481v1 ) ライセンス: Link先を確認 | Gerald Shen, Zhilin Wang, Olivier Delalleau, Jiaqi Zeng, Yi Dong, Daniel Egert, Shengyang Sun, Jimmy Zhang, Sahil Jain, Ali Taghibakhshi, Markel Sanz Ausin, Ashwath Aithal, Oleksii Kuchaiev, | (参考訳) 大規模言語モデル(LLM)を人的価値と好みで調整することは、それらを有用かつ安全にするために不可欠である。
しかし、アライメントを行うための効率的なツールの構築は困難であり、特に数十億から数百億のパラメータを含む最大かつ最も有能なLLMでは困難である。
NeMo-Alignerは、モデルアライメントのためのツールキットで、トレーニングに数百のGPUを使用するように効率的にスケールできる。
NeMo-Alignerには、Reinforcement Learning from Human Feedback (RLHF)、Direct Preference Optimization (DPO)、SteerLM、Self-Play Fine-Tuning (SPIN)など、モデルアライメントの主要なパラダイムに対する高度に最適化されたスケーラブルな実装が付属している。
さらに,本ツールキットは,パラメータ・エフェクト・ファイン・チューニング(PEFT)設定におけるアライメント技術の大部分の実行をサポートする。
NeMo-Alignerは拡張性のために設計されており、最小限の労力で他のアライメント技術をサポートすることができる。
Apache 2.0 Licenseでオープンソース化されており、コミュニティからのコントリビューションをhttps://github.com/NVIDIA/NeMo-Alignerで募集しています。
Aligning Large Language Models (LLMs) with human values and preferences is essential for making them helpful and safe. However, building efficient tools to perform alignment can be challenging, especially for the largest and most competent LLMs which often contain tens or hundreds of billions of parameters. We create NeMo-Aligner, a toolkit for model alignment that can efficiently scale to using hundreds of GPUs for training. NeMo-Aligner comes with highly optimized and scalable implementations for major paradigms of model alignment such as: Reinforcement Learning from Human Feedback (RLHF), Direct Preference Optimization (DPO), SteerLM, and Self-Play Fine-Tuning (SPIN). Additionally, our toolkit supports running most of the alignment techniques in a Parameter Efficient Fine-Tuning (PEFT) setting. NeMo-Aligner is designed for extensibility, allowing support for other alignment techniques with minimal effort. It is open-sourced with Apache 2.0 License and we invite community contributions at https://github.com/NVIDIA/NeMo-Aligner | 翻訳日:2024-05-03 15:35:38 公開日:2024-05-02 |
# MANTIS: インターリーブされたマルチイメージインストラクションチューニング
MANTIS: Interleaved Multi-Image Instruction Tuning ( http://arxiv.org/abs/2405.01483v1 ) ライセンス: Link先を確認 | Dongfu Jiang, Xuan He, Huaye Zeng, Cong Wei, Max Ku, Qian Liu, Wenhu Chen, | (参考訳) 近年では、単一イメージの視覚言語タスクを効果的に解くために、大規模なマルチモーダルモデル(LMM)が多数登場している。
しかし、マルチイメージの視覚言語タスクを解く能力はまだ改善されていない。
既存のマルチイメージLMM(例えば、OpenFlamingo、Emu、Ideficsなど)は、Webから何十億ものノイズの多いインターリーブ画像テキストデータを事前学習することで、そのマルチイメージ能力を得る。
本稿では,学術レベルのリソースを用いた指導指導により,強力なマルチイメージLMMを構築することを目的とする。
そこで,14のマルチイメージデータセットから 721K のインスタンスを含む Mantis-Instruct を慎重に構築する。
We design Mantis-Instruct to cover different multi-image skills, co-reference, reasoning, comparison, temporal understanding。
Mantis-Instructと複数の単一イメージのビジュアル言語データセットを組み合わせて、Mantisをトレーニングして、インターリーブされたイメージテキスト入力を処理します。
トレーニングしたマンティスを5つのマルチイメージベンチマークと8つのシングルイメージベンチマークで評価した。
学術レベルのリソース(すなわち16xA100-40Gの36時間)のみを必要とするが、Mantis-8Bはすべてのマルチイメージベンチマークで最先端のパフォーマンスを達成でき、既存の最高のマルチイメージ LMM Idefics2-8B を平均9つの絶対点で打ち負かすことができる。
我々はマンティスがホールドインおよびホールドアウト評価ベンチマークで同等に優れていることを観察する。
さらに,マンティスをシングルイメージのベンチマークで評価し,マンティスがCogVLMやEmu2と同等の強いシングルイメージ性能を維持できることを実証した。
この結果から,マルチイメージLMMの構築において,高精度な事前学習よりも,低コストの指導チューニングの方がはるかに効果的であることが示唆された。
The recent years have witnessed a great array of large multimodal models (LMMs) to effectively solve single-image vision language tasks. However, their abilities to solve multi-image visual language tasks is yet to be improved. The existing multi-image LMMs (e.g. OpenFlamingo, Emu, Idefics, etc) mostly gain their multi-image ability through pre-training on hundreds of millions of noisy interleaved image-text data from web, which is neither efficient nor effective. In this paper, we aim at building strong multi-image LMMs via instruction tuning with academic-level resources. Therefore, we meticulously construct Mantis-Instruct containing 721K instances from 14 multi-image datasets. We design Mantis-Instruct to cover different multi-image skills like co-reference, reasoning, comparing, temporal understanding. We combine Mantis-Instruct with several single-image visual-language datasets to train our model Mantis to handle any interleaved image-text inputs. We evaluate the trained Mantis on five multi-image benchmarks and eight single-image benchmarks. Though only requiring academic-level resources (i.e. 36 hours on 16xA100-40G), Mantis-8B can achieve state-of-the-art performance on all the multi-image benchmarks and beats the existing best multi-image LMM Idefics2-8B by an average of 9 absolute points. We observe that Mantis performs equivalently well on the held-in and held-out evaluation benchmarks. We further evaluate Mantis on single-image benchmarks and demonstrate that Mantis can maintain a strong single-image performance on par with CogVLM and Emu2. Our results are particularly encouraging as it shows that low-cost instruction tuning is indeed much more effective than intensive pre-training in terms of building multi-image LMMs. | 翻訳日:2024-05-03 15:35:38 公開日:2024-05-02 |
# 人間とAIの相補性を達成するためのアルゴリズムレコメンデーションの設計
Designing Algorithmic Recommendations to Achieve Human-AI Complementarity ( http://arxiv.org/abs/2405.01484v1 ) ライセンス: Link先を確認 | Bryce McLaughlin, Jann Spiess, | (参考訳) アルゴリズムは人間の意思決定を置き換えるのではなく、しばしば助ける。
しかしながら、アルゴリズムの設計と分析は、しばしば結果を予測することに集中し、人的決定に対するその影響を明示的にモデル化しない。
このアルゴリズムアシスタントの設計と役割の相違は、アルゴリズムアシスタントが人的決定を改善するのに何度も失敗することを示す経験的な証拠から、特に懸念される。
本稿では,人間の意思決定者を支援するレコメンデーションアルゴリズムの設計を,レコメンデーションが意思決定にどう影響するかという限定的な前提を課すことなく形式化する。
本稿では、因果推論から潜在的アウトカムの枠組みを活用するアルゴリズム設計問題を定式化し、人間の意思決定者による二項処理選択に対するレコメンデーションの効果をモデル化する。
本モデルでは,アルゴリズムに対する人間の反応を直感的に分類する単調性仮定を導入する。
この単調な仮定の下では、アルゴリズムへのコンプライアンスと、アルゴリズムが推奨を送信しない場合の判断の観点から、アルゴリズムレコメンデーションに対する人間の反応を表現できる。
我々は,採用タスクをシミュレートするオンライン実験を用いて,我々のフレームワークの有用性を実証する。
提案手法は,提案実験における推薦アルゴリズムの相対的性能を説明し,人間とAIの相補性を実現するソリューションの設計に有効である,と論じる。
Algorithms frequently assist, rather than replace, human decision-makers. However, the design and analysis of algorithms often focus on predicting outcomes and do not explicitly model their effect on human decisions. This discrepancy between the design and role of algorithmic assistants becomes of particular concern in light of empirical evidence that suggests that algorithmic assistants again and again fail to improve human decisions. In this article, we formalize the design of recommendation algorithms that assist human decision-makers without making restrictive ex-ante assumptions about how recommendations affect decisions. We formulate an algorithmic-design problem that leverages the potential-outcomes framework from causal inference to model the effect of recommendations on a human decision-maker's binary treatment choice. Within this model, we introduce a monotonicity assumption that leads to an intuitive classification of human responses to the algorithm. Under this monotonicity assumption, we can express the human's response to algorithmic recommendations in terms of their compliance with the algorithm and the decision they would take if the algorithm sends no recommendation. We showcase the utility of our framework using an online experiment that simulates a hiring task. We argue that our approach explains the relative performance of different recommendation algorithms in the experiment, and can help design solutions that realize human-AI complementarity. | 翻訳日:2024-05-03 15:35:38 公開日:2024-05-02 |
# 量子流体力学と軌道の定式化
A Formulation of Quantum Fluid Mechanics and Trajectories ( http://arxiv.org/abs/2405.01486v1 ) ライセンス: Link先を確認 | James P. Finley, | (参考訳) 古典力学の定式化は、流体の流れと点質量軌跡の両方を記述する量子力学の時間依存多体状態に対して与えられる。
エネルギー、運動、ラグランジアン力学に精通した方程式が得られている。
エネルギーと連続性方程式はそれぞれ、シュレーディンガー方程式の実部と虚部と等価であることが示され、シュレーディンガー方程式は密度行列形式である。
一定の定常状態に対しては、量子力学においてラグランジュ力学とハミルトニアン関数を用いて、点質量軌道の方程式を得る。
1体状態と流体の流れについて、エネルギー方程式と運動方程式はそれぞれベルヌーイ方程式とオイラー方程式である。
エネルギー方程式とオイラー方程式の一般化は、古典力学と同じ形の方程式を得るために導かれる。
流体流動型は圧縮可能で、目視可能で、不整合であり、局所的な変動質量の非古典的要素を持つ。
すべての空間の質量が保存される。
可変質量は、流体の流れが水素のs状態のゼロ軌道角運動量と一致するために必要な条件である。
速度方向を運動エネルギーを変えることなく変化させるクロスフローについて検討する。
一電子原子の場合、速度変化は軌道の閉軌道を与え、流体の質量保存、渦、密度成層化を与える。
多くの身体状態について、ある条件の下で、および仮説により、軌道フローのオイラー方程式が得られる。
また、ハートリー・フォック方程式の一般化である1体シュレーディンガー方程式も得られる。
これらの方程式は量子クーロンの法則を含み、電荷密度を置き換える還元密度行列理論の2体対関数を含む。
A formalism of classical mechanics is given for time-dependent many-body states of quantum mechanics, describing both fluid flow and point mass trajectories. The familiar equations of energy, motion, and those of Lagrangian mechanics are obtained. An energy and continuity equation is demonstrated to be equivalent to the real and imaginary parts of the time dependent Schroedinger equation, respectively, where the Schroedinger equation is in density matrix form. For certain stationary states, using Lagrangian mechanics and a Hamiltonian function for quantum mechanics, equations for point-mass trajectories are obtained. For 1-body states and fluid flows, the energy equation and equations of motion are the Bernoulli and Euler equations of fluid mechanics, respectively. Generalizations of the energy and Euler equations are derived to obtain equations that are in the same form as they are in classical mechanics. The fluid flow type is compressible, inviscid, irrotational, with the nonclassical element of local variable mass. Over all space mass is conserved. The variable mass is a necessary condition for the fluid flow to agree with the zero orbital angular momentum for s states of hydrogen. Cross flows are examined, where velocity directions are changed without changing the kinetic energy. For one-electron atoms, the velocity modification gives closed orbits for trajectories, and mass conservation, vortexes, and density stratification for fluid flows. For many body states, Under certain conditions, and by hypotheses, Euler equations of orbital-flows are obtained. One-body Schroedinger equations that are a generalization of the Hartree-Fock equations are also obtained. These equations contain a quantum Coulomb's law, involving the 2-body pair function of reduced density matrix theory that replace the charge densities. | 翻訳日:2024-05-03 15:35:38 公開日:2024-05-02 |
# 疾患モデリングのためのディジタル双極子発電機
Digital Twin Generators for Disease Modeling ( http://arxiv.org/abs/2405.01488v1 ) ライセンス: Link先を確認 | Nameyeh Alam, Jake Basilico, Daniele Bertolini, Satish Casie Chetty, Heather D'Angelo, Ryan Douglas, Charles K. Fisher, Franklin Fuller, Melissa Gomes, Rishabh Gupta, Alex Lang, Anton Loukianov, Rachel Mak-McCully, Cary Murray, Hanalei Pham, Susanna Qiao, Elena Ryapolova-Webb, Aaron Smith, Dimitri Theoharatos, Anil Tolwani, Eric W. Tramel, Anna Vidovszky, Judy Viduya, Jonathan R. Walsh, | (参考訳) 患者のデジタルツイン(英: Digital twin)とは、患者の健康状態の経時変化を記述する計算モデルである。
デジタル双生児は、より効率的な臨床試験やパーソナライズされた治療オプションの推奨に使用できる、人間の健康の個々のレベルのコンピュータシミュレーションを可能にすることで、医療に革命をもたらす可能性がある。
人間の生物学の圧倒的な複雑さのため、患者のデジタル双生児を生成するために、歴史的患者の縦断的な健康記録の大規模なデータセットを利用する機械学習アプローチは、潜在的な力学モデルよりもより魅力的である。
本稿では,臨床軌道の条件付き生成モデル(Digital Twin Generators,DTG)を学習し,個々の患者にディジタル双生児を作成できるニューラルネットワークアーキテクチャについて述べる。
トレーニングセットを変更し、ハイパーパラメータをチューニングするだけで、同じニューラルネットワークアーキテクチャをトレーニングすることで、13の異なる指示に対して正確なデジタルツインを生成できることが示されています。
汎用アーキテクチャを導入することで、より大規模なデータセットやより多くの指標に機械学習アプローチを拡大し、世界中のすべての患者に対してデジタルツインを作成できるようにすることを目標としています。
A patient's digital twin is a computational model that describes the evolution of their health over time. Digital twins have the potential to revolutionize medicine by enabling individual-level computer simulations of human health, which can be used to conduct more efficient clinical trials or to recommend personalized treatment options. Due to the overwhelming complexity of human biology, machine learning approaches that leverage large datasets of historical patients' longitudinal health records to generate patients' digital twins are more tractable than potential mechanistic models. In this manuscript, we describe a neural network architecture that can learn conditional generative models of clinical trajectories, which we call Digital Twin Generators (DTGs), that can create digital twins of individual patients. We show that the same neural network architecture can be trained to generate accurate digital twins for patients across 13 different indications simply by changing the training set and tuning hyperparameters. By introducing a general purpose architecture, we aim to unlock the ability to scale machine learning approaches to larger datasets and across more indications so that a digital twin could be created for any patient in the world. | 翻訳日:2024-05-03 15:35:38 公開日:2024-05-02 |
# 3次元量子システムのための単層テンソルネットワークアプローチ
Single-layer tensor network approach for three-dimensional quantum systems ( http://arxiv.org/abs/2405.01489v1 ) ライセンス: Link先を確認 | Illia Lukin, Andrii Sotnikov, | (参考訳) 複雑な多層テンソルネットワークの収縮を必要とするため、三次元射影対状態を持つ可観測物の計算は一般に難しい。
これらのテンソルネットワークの多層構造を利用して、収縮を大幅に単純化する。
提案手法では, 境界射影絡み合ったペア状態の探索を簡略化し, 最終コーナー移動行列再正規化群縮合の単一層マッピングを行う。
我々は, 立方格子ハイゼンベルクモデルを用いて実験結果をベンチマークし, 結合次元D = 7に到達し, 前の結果と良好な一致を見いだした。
Calculation of observables with three-dimensional projected entangled pair states is generally hard, as it requires a contraction of complex multi-layer tensor networks. We utilize the multi-layer structure of these tensor networks to largely simplify the contraction. The proposed approach involves the usage of the layer structure both to simplify the search for the boundary projected entangled pair states and the single-layer mapping of the final corner transfer matrix renormalization group contraction. We benchmark our results on the cubic lattice Heisenberg model, reaching the bond dimension D = 7, and find a good agreement with the previous results. | 翻訳日:2024-05-03 15:35:38 公開日:2024-05-02 |
# インストラクション・チューニング時代の制御可能なテキスト生成
Controllable Text Generation in the Instruction-Tuning Era ( http://arxiv.org/abs/2405.01490v1 ) ライセンス: Link先を確認 | Dhananjay Ashok, Barnabas Poczos, | (参考訳) 制御可能なテキスト生成に関するほとんどの研究は、基本言語モデルのステアリングに重点を置いているが、新しい命令チューニングとプロンプトパラダイムは、制御可能性に対する代替的なアプローチを提供する。
我々は17の異なる制御可能な生成タスクのテストベッドであるConGenBenchをコンパイルしてリリースし、そのサブセットを使用して、インストラクションチューニング言語モデル上の9つの異なるベースラインとメソッドのパフォーマンスをベンチマークします。
意外なことに、プロンプトベースのアプローチは、ほとんどのデータセットやタスクにおいて制御可能なテキスト生成方法よりも優れており、インストラクションチューニング言語モデルを用いた制御可能なテキスト生成の研究の必要性が強調されている。
プロンプトベースのアプローチは、ほとんどのスタイリスティックなタスクにおいて人間のパフォーマンスと一致し、構造的なタスクを遅延させ、より多様な制約とより困難なスタイリスティックなタスクを研究する必要がある。
このような研究を容易にするために、制約データセットを自動的に生成するコンテキスト内機能を備えたタスクデータセットと大規模言語モデルのみを使用するアルゴリズムを提供する。
この方法では、事前計算された制約データセットへのフィールド依存を排除し、将来研究できる制約の範囲を大幅に拡大する。
While most research on controllable text generation has focused on steering base Language Models, the emerging instruction-tuning and prompting paradigm offers an alternate approach to controllability. We compile and release ConGenBench, a testbed of 17 different controllable generation tasks, using a subset of it to benchmark the performance of 9 different baselines and methods on Instruction-tuned Language Models. To our surprise, we find that prompting-based approaches outperform controllable text generation methods on most datasets and tasks, highlighting a need for research on controllable text generation with Instruction-tuned Language Models in specific. Prompt-based approaches match human performance on most stylistic tasks while lagging on structural tasks, foregrounding a need to study more varied constraints and more challenging stylistic tasks. To facilitate such research, we provide an algorithm that uses only a task dataset and a Large Language Model with in-context capabilities to automatically generate a constraint dataset. This method eliminates the fields dependence on pre-curated constraint datasets, hence vastly expanding the range of constraints that can be studied in the future. | 翻訳日:2024-05-03 15:35:38 公開日:2024-05-02 |
# FeNNol: 力場強化ニューラルネットワークポテンシャル構築のための効率的で柔軟なライブラリ
FeNNol: an Efficient and Flexible Library for Building Force-field-enhanced Neural Network Potentials ( http://arxiv.org/abs/2405.01491v1 ) ライセンス: Link先を確認 | Thomas Plé, Olivier Adjoua, Louis Lagardère, Jean-Philip Piquemal, | (参考訳) ニューラルネットワーク間ポテンシャル(NNP)は、最近、アブ初期分子動力学シミュレーションの高コストを回避しつつ、複雑な分子システムを正確にモデル化する強力なツールであることが証明されている。
近年、モデルアーキテクチャの進歩や機械学習(ML)とより伝統的で物理的に動機付けられた力場相互作用を組み合わせたハイブリッドモデルの開発により、MLポテンシャルの設計空間が大幅に増大している。
本稿では、力場強化ニューラルネットワークポテンシャルの構築、トレーニング、実行のための新しいライブラリであるFeNNolについて述べる。
ハイブリッドモデルを構築するためのフレキシブルでモジュラーなシステムを提供しており、明示的なプログラミングを必要とせずに、最先端の埋め込みとMLパラメータ化された物理的相互作用の項を簡単に組み合わせることができる。
さらに、FeNNolは、Jox Pythonライブラリの自動微分とジャストインタイムコンパイル機能を活用して、NNPの迅速な評価を可能にし、ML電位と標準力場のパフォーマンスギャップを縮小する。
一般的なANI-2xモデルは、コモディティGPU(GPU=グラフィックス処理ユニット)上のAMOEBA偏光力場とほぼ同等のシミュレーション速度に達する。
FeNNolは、幅広い分子シミュレーション問題に対して、新しいハイブリッドNPアーキテクチャの開発と応用を促進することを願っている。
Neural network interatomic potentials (NNPs) have recently proven to be powerful tools to accurately model complex molecular systems while bypassing the high numerical cost of ab-initio molecular dynamics simulations. In recent years, numerous advances in model architectures as well as the development of hybrid models combining machine-learning (ML) with more traditional, physically-motivated, force-field interactions have considerably increased the design space of ML potentials. In this paper, we present FeNNol, a new library for building, training and running force-field-enhanced neural network potentials. It provides a flexible and modular system for building hybrid models, allowing to easily combine state-of-the-art embeddings with ML-parameterized physical interaction terms without the need for explicit programming. Furthermore, FeNNol leverages the automatic differentiation and just-in-time compilation features of the Jax Python library to enable fast evaluation of NNPs, shrinking the performance gap between ML potentials and standard force-fields. This is demonstrated with the popular ANI-2x model reaching simulation speeds nearly on par with the AMOEBA polarizable force-field on commodity GPUs (GPU=Graphics processing unit). We hope that FeNNol will facilitate the development and application of new hybrid NNP architectures for a wide range of molecular simulation problems. | 翻訳日:2024-05-03 15:35:38 公開日:2024-05-02 |
# 拡散モデルを用いたワンショットフェデレーション学習における不均一性とプライバシの探索
Navigating Heterogeneity and Privacy in One-Shot Federated Learning with Diffusion Models ( http://arxiv.org/abs/2405.01494v1 ) ライセンス: Link先を確認 | Matias Mendieta, Guangyu Sun, Chen Chen, | (参考訳) フェデレートラーニング(FL)は、複数のクライアントがデータのプライバシを保持しながらモデルをまとめてトレーニングすることを可能にする。
しかし、FLは通信コストとデータ不均一性の点で課題に直面している。
ワンショットフェデレーション学習は、コミュニケーションラウンドの削減、効率の向上、盗聴攻撃に対するセキュリティ向上によるソリューションとして登場した。
それでも、データの異質性は大きな課題であり、パフォーマンスに影響を与えます。
本研究では,単発FLにおける拡散モデルの有効性について検討し,データの不均一性に対処し,FL性能を向上させるための適用性を示す。
さらに,拡散モデルアプローチであるFedDiffの有用性を,差分プライバシ(DP)下での他のワンショットFL法と比較して検討した。
さらに,DP設定下で生成したサンプルの品質を向上させるために,大域的モデルトレーニングにおける生成データの有効性を高めるために,実用的フーリエ・マグニチュード・フィルタリング(FMF)手法を提案する。
Federated learning (FL) enables multiple clients to train models collectively while preserving data privacy. However, FL faces challenges in terms of communication cost and data heterogeneity. One-shot federated learning has emerged as a solution by reducing communication rounds, improving efficiency, and providing better security against eavesdropping attacks. Nevertheless, data heterogeneity remains a significant challenge, impacting performance. This work explores the effectiveness of diffusion models in one-shot FL, demonstrating their applicability in addressing data heterogeneity and improving FL performance. Additionally, we investigate the utility of our diffusion model approach, FedDiff, compared to other one-shot FL methods under differential privacy (DP). Furthermore, to improve generated sample quality under DP settings, we propose a pragmatic Fourier Magnitude Filtering (FMF) method, enhancing the effectiveness of generated data for global model training. | 翻訳日:2024-05-03 15:35:38 公開日:2024-05-02 |
# 非線形暗号ハッシュ関数の誤り補正機能
Error Correction Capabilities of Non-Linear Cryptographic Hash Functions ( http://arxiv.org/abs/2405.01495v1 ) ライセンス: Link先を確認 | Alejandro Cohen, Rafael G. L. D'Oliveira, | (参考訳) 線形ハッシュは誤り訂正能力を有することが知られている。
しかし、ほとんどの応用では、擬似ランダム出力を持つ非線形ハッシュが代わりに利用される。
また、古典的な非体系的乱数符号(線形および非線形の両方)が漸近的体制で達成できる能力であることが確立されている。
したがって、非線形ハッシュが優れた誤り訂正能力を示す可能性があると期待することは妥当である。
本稿では,これについて述べる。
我々の証明は、複数のアクセスチャネルからのテクニックに基づいている。
その結果,S-RNLC (Systematic Random Non-Linear Codes) が漸近的体制で達成できることが示唆された。
セキュアハッシュアルゴリズム(SHA)とSRLC(Systematic Random Linear Codes)とS-RNLC(S-RNLC)のパフォーマンスを比較し,SHAが等しく動作することを示す。
Linear hashes are known to possess error-correcting capabilities. However, in most applications, non-linear hashes with pseudorandom outputs are utilized instead. It has also been established that classical non-systematic random codes, both linear and non-linear, are capacity achieving in the asymptotic regime. Thus, it is reasonable to expect that non-linear hashes might also exhibit good error-correcting capabilities. In this paper, we show this to be the case. Our proof is based on techniques from multiple access channels. As a consequence, we show that Systematic Random Non-Linear Codes (S-RNLC) are capacity achieving in the asymptotic regime. We validate our results by comparing the performance of the Secure Hash Algorithm (SHA) with that of Systematic Random Linear Codes (SRLC) and S-RNLC, demonstrating that SHA performs equally. | 翻訳日:2024-05-03 15:35:38 公開日:2024-05-02 |
# LocInv: テキストガイド画像編集のためのローカライズ対応インバージョン
LocInv: Localization-aware Inversion for Text-Guided Image Editing ( http://arxiv.org/abs/2405.01496v1 ) ライセンス: Link先を確認 | Chuanming Tang, Kai Wang, Fei Yang, Joost van de Weijer, | (参考訳) 大規模テキスト・ツー・イメージ(T2I)拡散モデルでは,テキスト・プロンプトに基づく大きな生成能力を示す。
T2I拡散モデルに基づいて、テキスト誘導画像編集研究は、ユーザーがテキストプロンプトを変更することで生成された画像を操作できるようにすることを目的としている。
しかし、既存の画像編集技術は、意図した対象領域を超えて意図しない領域を編集する傾向がある。
この問題に対処するために, 分割マップや境界ボックスを余分な局所化前として利用し, 拡散過程のデノナイズ段階におけるクロスアテンションマップを改良するLocalization-aware Inversion (LocInv)を提案する。
テキスト入力中の名詞語に対応するトークンを動的に更新することで、テキストプロンプト内の正しい名詞と形容詞の単語と密に一致するように、クロスアテンションマップを説得する。
本手法により,所望の他の領域への変更を防止しつつ,特定のオブジェクトに対するきめ細かい画像編集を実現する。
我々のメソッドLocInvは、公開可能な安定拡散に基づいて、COCOデータセットのサブセットで広範囲に評価され、一貫した定量的かつ質的に優れた結果が得られる。
Large-scale Text-to-Image (T2I) diffusion models demonstrate significant generation capabilities based on textual prompts. Based on the T2I diffusion models, text-guided image editing research aims to empower users to manipulate generated images by altering the text prompts. However, existing image editing techniques are prone to editing over unintentional regions that are beyond the intended target area, primarily due to inaccuracies in cross-attention maps. To address this problem, we propose Localization-aware Inversion (LocInv), which exploits segmentation maps or bounding boxes as extra localization priors to refine the cross-attention maps in the denoising phases of the diffusion process. Through the dynamic updating of tokens corresponding to noun words in the textual input, we are compelling the cross-attention maps to closely align with the correct noun and adjective words in the text prompt. Based on this technique, we achieve fine-grained image editing over particular objects while preventing undesired changes to other regions. Our method LocInv, based on the publicly available Stable Diffusion, is extensively evaluated on a subset of the COCO dataset, and consistently obtains superior results both quantitatively and qualitatively.The code will be released at https://github.com/wangkai930418/DPL | 翻訳日:2024-05-03 15:35:38 公開日:2024-05-02 |
# 大規模言語モデルにおける意味表現の役割の分析
Analyzing the Role of Semantic Representations in the Era of Large Language Models ( http://arxiv.org/abs/2405.01502v1 ) ライセンス: Link先を確認 | Zhijing Jin, Yuen Chen, Fernando Gonzalez, Jiarui Liu, Jiayi Zhang, Julian Michael, Bernhard Schölkopf, Mona Diab, | (参考訳) 伝統的に、自然言語処理(NLP)モデルは、意味表現のような言語的な専門知識によって生成される豊富な特徴セットを使用することが多い。
しかし、大規模言語モデル(LLM)の時代になると、多くのタスクが汎用的なエンドツーエンドのシーケンス生成問題に変換される。
本稿では,LLMの時代における意味表現の役割について考察する。
具体的には,5つのNLPタスクにおける抽象的意味表現(AMR)の効果について検討する。
我々は、AMRCoTと呼ぶAMR駆動のチェーン・オブ・シークレット・プロンプト手法を提案し、それが一般的にパフォーマンスを損なうことを発見した。
これらの課題に対してAMRがもたらすべきことを調べるため、我々は一連の分析実験を実施している。
AMRのどの入力例が役に立つか予測することは難しいが、エラーは複数ワード表現や名前付きエンティティ、そしてLLMがAMR上の推論をその予測に結び付けなければならない最後の推論ステップで発生することが多い。
LLMのセマンティック表現における今後の研究のために,これらの領域に焦点を合わせることを推奨する。
コード:https://github.com/causalNLP/amr_llm。
Traditionally, natural language processing (NLP) models often use a rich set of features created by linguistic expertise, such as semantic representations. However, in the era of large language models (LLMs), more and more tasks are turned into generic, end-to-end sequence generation problems. In this paper, we investigate the question: what is the role of semantic representations in the era of LLMs? Specifically, we investigate the effect of Abstract Meaning Representation (AMR) across five diverse NLP tasks. We propose an AMR-driven chain-of-thought prompting method, which we call AMRCoT, and find that it generally hurts performance more than it helps. To investigate what AMR may have to offer on these tasks, we conduct a series of analysis experiments. We find that it is difficult to predict which input examples AMR may help or hurt on, but errors tend to arise with multi-word expressions, named entities, and in the final inference step where the LLM must connect its reasoning over the AMR to its prediction. We recommend focusing on these areas for future work in semantic representations for LLMs. Our code: https://github.com/causalNLP/amr_llm. | 翻訳日:2024-05-03 15:35:38 公開日:2024-05-02 |
# PAM-UNet:医療画像における関心領域への意識の変化
PAM-UNet: Shifting Attention on Region of Interest in Medical Images ( http://arxiv.org/abs/2405.01503v1 ) ライセンス: Link先を確認 | Abhijit Das, Debesh Jha, Vandan Gorade, Koushik Biswas, Hongyi Pan, Zheyuan Zhang, Daniela P. Ladner, Yury Velichko, Amir Borhani, Ulas Bagci, | (参考訳) コンピュータ支援セグメンテーション法は、医療従事者が診断結果を改善するのに役立つ。
UNetやその変種のような最近の進歩は、将来性を示しているが、彼らは重要な課題に直面している: 精度と計算効率のバランス。
UNetsの浅層エンコーダアーキテクチャは、しばしば重要な空間的特徴を捉えるのに苦労し、不正確でスパースなセグメンテーションに繋がる。
この制限に対処するために、新規な \underline{P}rogressive \underline{A}ttention based \underline{M}obile \underline{UNet} (\underline{PAM-UNet}) アーキテクチャを提案する。
PAM-UNetの逆残差(IR)ブロックは軽量なフレームワークを維持するのに役立ち、レイヤーワイド \textit{Progressive Luong Attention} (\mathcal{PLA}$) は合成中の関心領域に注意を向けることで正確なセグメンテーションを促進する。
提案手法は精度と速度の両方を優先し,平均IoU 74.65,サイススコア82.87,肝腫瘍セグメンテーションベンチマーク(LiTS)2017データセットでは1.32浮動小数点演算(FLOPS)しか必要としない。
これらの結果は、臨床実践におけるAIの導入を促進するために効率的なセグメンテーションモデルを開発することの重要性を強調している。
Computer-aided segmentation methods can assist medical personnel in improving diagnostic outcomes. While recent advancements like UNet and its variants have shown promise, they face a critical challenge: balancing accuracy with computational efficiency. Shallow encoder architectures in UNets often struggle to capture crucial spatial features, leading in inaccurate and sparse segmentation. To address this limitation, we propose a novel \underline{P}rogressive \underline{A}ttention based \underline{M}obile \underline{UNet} (\underline{PAM-UNet}) architecture. The inverted residual (IR) blocks in PAM-UNet help maintain a lightweight framework, while layerwise \textit{Progressive Luong Attention} ($\mathcal{PLA}$) promotes precise segmentation by directing attention toward regions of interest during synthesis. Our approach prioritizes both accuracy and speed, achieving a commendable balance with a mean IoU of 74.65 and a dice score of 82.87, while requiring only 1.32 floating-point operations per second (FLOPS) on the Liver Tumor Segmentation Benchmark (LiTS) 2017 dataset. These results highlight the importance of developing efficient segmentation models to accelerate the adoption of AI in clinical practice. | 翻訳日:2024-05-03 15:35:38 公開日:2024-05-02 |
# Bayesian Few-Shot 分類における高速化収束
Accelerating Convergence in Bayesian Few-Shot Classification ( http://arxiv.org/abs/2405.01507v1 ) ライセンス: Link先を確認 | Tianjun Ke, Haoqun Cao, Feng Zhou, | (参考訳) ベイズ的数発分類は、数発学習の分野において焦点となっている。
本稿では,ミラー降下に基づく変分推論をガウス過程に基づく少数ショット分類にシームレスに統合し,非共役推論の課題に対処する。
非ユークリッド幾何学を活用することにより、ミラー降下は対応する多様体に沿って最も急勾配の方向を与えることにより加速収束を達成する。
また、変分分布に関するパラメータ化不変性を示す。
実験により, 競争的分類精度, 不確実性定量化の改善, ベースラインモデルと比較して収束の速さが示された。
さらに,過度パラメータと成分の影響について検討する。
コードはhttps://github.com/keanson/MD-BSFCで公開されている。
Bayesian few-shot classification has been a focal point in the field of few-shot learning. This paper seamlessly integrates mirror descent-based variational inference into Gaussian process-based few-shot classification, addressing the challenge of non-conjugate inference. By leveraging non-Euclidean geometry, mirror descent achieves accelerated convergence by providing the steepest descent direction along the corresponding manifold. It also exhibits the parameterization invariance property concerning the variational distribution. Experimental results demonstrate competitive classification accuracy, improved uncertainty quantification, and faster convergence compared to baseline models. Additionally, we investigate the impact of hyperparameters and components. Code is publicly available at https://github.com/keanson/MD-BSFC. | 翻訳日:2024-05-03 15:35:38 公開日:2024-05-02 |
# D2PO:応答評価モデルを用いた識別器誘導型DPO
D2PO: Discriminator-Guided DPO with Response Evaluation Models ( http://arxiv.org/abs/2405.01511v1 ) ライセンス: Link先を確認 | Prasann Singhal, Nathan Lambert, Scott Niekum, Tanya Goyal, Greg Durrett, | (参考訳) 教師付き微調整,RLHF,DPOなどの直接最適化など,言語モデルの整合性向上のためのアプローチが提案されている。
DPOは、直接的なトレーニングプロセスと競争結果によって急速に人気を博しているが、報酬モデルのような識別器を用いて応答を評価するという現実的な利点があるかどうかについては、未解決の問題がある。
学習を通して嗜好が収集されるオンライン環境におけるD2PO, D2POを提案する。
金の選好を収集する際、これらは政策の訓練だけでなく、銀ラベルによる政策訓練のためのさらに総合的なデータに対する差別的な反応評価モデルを訓練するために利用します。
我々は、現実的なチャット設定を含む一連の多様なタスクにわたってこのアプローチを探求し、我々のアプローチが、同じデータ予算を持つDPOと比較して高品質なアウトプットを導き、好みのデータ要求の観点でより効率の良いものにすることを発見した。
さらに、DPOで政策を訓練する際に最も効果的であり、従来のPPOよりも優れており、政策モデルとは別の差別者を維持する利点があることを示す。
Varied approaches for aligning language models have been proposed, including supervised fine-tuning, RLHF, and direct optimization methods such as DPO. Although DPO has rapidly gained popularity due to its straightforward training process and competitive results, there is an open question of whether there remain practical advantages of using a discriminator, like a reward model, to evaluate responses. We propose D2PO, discriminator-guided DPO, an approach for the online setting where preferences are being collected throughout learning. As we collect gold preferences, we use these not only to train our policy, but to train a discriminative response evaluation model to silver-label even more synthetic data for policy training. We explore this approach across a set of diverse tasks, including a realistic chat setting, we find that our approach leads to higher-quality outputs compared to DPO with the same data budget, and greater efficiency in terms of preference data requirements. Furthermore, we show conditions under which silver labeling is most helpful: it is most effective when training the policy with DPO, outperforming traditional PPO, and benefits from maintaining a separate discriminator from the policy model. | 翻訳日:2024-05-03 15:25:48 公開日:2024-05-02 |
# 駆動型多光子量子共振器相互作用
Driven Multiphoton Qubit-Resonator Interactions ( http://arxiv.org/abs/2405.01518v1 ) ライセンス: Link先を確認 | Mohammad Ayyash, X. Xu, Sahel Ashhab, M. Mariantoni, | (参考訳) 我々は、量子ビット駆動により強化された多光子量子ビット-共振器相互作用の一般理論を開発する。
相互作用は、駆動がn$-光子交叉共振器に近い場合、共振器内でqubit条件演算を生成する。
我々は強い運転体制に特別な注意を払っており、そこでは相互作用はキュービットの服装状態で条件付けられている。
qubit-conditional squeezing (QCS) の結果として$n=2$となる場合を考える。
共振器の変位とその重畳を増幅するためのQCSプロトコルを提案する。
適切に選択された量子ビット測定の結果,直交的に圧縮された状態の重畳を生成するQCSプロトコルが発見された。
共振器における量子ビットの符号化や、共振器の2番目の統計モーメントから推定される量子非劣化の測定を含む、これらの状態に対する量子情報処理の応用について概説する。
次に、任意の所望の結合状態において、実効的な$n$- Photon Rabi Hamiltonianを設計するために、2音駆動を用いる。
言い換えれば、効果的な結合強度は幅広い範囲で調整できるので、これまでのところ到達不可能な新しい状態を実現することができる。
最後に、非対称SQUIDを介して共振器に結合されたトランモン量子ビットに基づく多光子回路QEDの実装を提案する。
上記の2光子プロトコルをホストできる2光子演算系に対して,現実的なパラメータ推定を行う。
数値シミュレーションを用いて、急激な項やデコヒーレンスが存在する場合でも、解析的予測が堅牢であることを示す。
We develop a general theory for multiphoton qubit-resonator interactions enhanced by a qubit drive. The interactions generate qubit-conditional operations in the resonator when the driving is near $n$-photon cross-resonance, namely, the qubit drive is $n$-times the resonator frequency. We pay special attention to the strong driving regime, where the interactions are conditioned on the qubit dressed states. We consider the specific case where $n=2$, which results in qubit-conditional squeezing (QCS). We propose to use the QCS protocol for amplifying resonator displacements and their superpositions. We find the QCS protocol to generate a superposition of orthogonally squeezed states following a properly chosen qubit measurement. We outline quantum information processing applications for these states, including encoding a qubit in a resonator and performing a quantum non-demolition measurement of the qubit inferred from the resonator's second statistical moment. Next, we employ a two-tone drive to engineer an effective $n$-photon Rabi Hamiltonian in any desired coupling regime. In other words, the effective coupling strengths can be tuned over a wide range, thus allowing for the realization of new regimes that have so far been inaccessible. Finally, we propose a multiphoton circuit QED implementation based on a transmon qubit coupled to a resonator via an asymmetric SQUID. We provide realistic parameter estimates for the two-photon operation regime that can host the aforementioned two-photon protocols. We use numerical simulations to show that even in the presence of spurious terms and decoherence, our analytical predictions are robust. | 翻訳日:2024-05-03 15:25:48 公開日:2024-05-02 |
# 変圧器を用いた意味コミュニケーション
Transformer-Aided Semantic Communications ( http://arxiv.org/abs/2405.01521v1 ) ライセンス: Link先を確認 | Matin Mortaheb, Erciyes Karakaya, Mohammad A. Amir Khojastepour, Sennur Ulukus, | (参考訳) 大きな言語モデル(LLM)で使用されるトランスフォーマー構造は、注意機構を特徴とするディープニューラルネットワーク(DNN)の特殊カテゴリとして、入力データの最も関連性の高い側面を特定し、強調する能力で際立っている。
このような能力は、特に帯域幅が限られているシステムにおいて、関連するデータの適切なエンコーディングが重要となるセマンティックコミュニケーションの領域において、様々な通信課題に対処する上で特に有益である。
本研究では,入力画像の圧縮およびコンパクトな表現を目的とした視覚変換器を用いて,送信プロセス全体を通して意味情報を保存することを目的とする。
変圧器固有のアテンション機構を用いることで、アテンションマスクを作成する。
このマスクは、送信のための重要な画像セグメントを効果的に優先順位付けし、マスクが強調するキーオブジェクトに再構成フェーズがフォーカスされることを保証する。
提案手法はセマンティックコミュニケーションの質を著しく向上させ, セマンティック情報の内容に応じてデータの異なる部分を符号化することで帯域幅を最適化し, 全体的な効率を向上する。
提案手法の有効性をTinyImageNetデータセットを用いて評価し,再現性と精度の両面に着目した。
評価結果から,意図した圧縮率に応じて,符号化されたデータのごく一部が送信された場合でも,本フレームワークは意味情報の保存に成功していることが示された。
The transformer structure employed in large language models (LLMs), as a specialized category of deep neural networks (DNNs) featuring attention mechanisms, stands out for their ability to identify and highlight the most relevant aspects of input data. Such a capability is particularly beneficial in addressing a variety of communication challenges, notably in the realm of semantic communication where proper encoding of the relevant data is critical especially in systems with limited bandwidth. In this work, we employ vision transformers specifically for the purpose of compression and compact representation of the input image, with the goal of preserving semantic information throughout the transmission process. Through the use of the attention mechanism inherent in transformers, we create an attention mask. This mask effectively prioritizes critical segments of images for transmission, ensuring that the reconstruction phase focuses on key objects highlighted by the mask. Our methodology significantly improves the quality of semantic communication and optimizes bandwidth usage by encoding different parts of the data in accordance with their semantic information content, thus enhancing overall efficiency. We evaluate the effectiveness of our proposed framework using the TinyImageNet dataset, focusing on both reconstruction quality and accuracy. Our evaluation results demonstrate that our framework successfully preserves semantic information, even when only a fraction of the encoded data is transmitted, according to the intended compression rates. | 翻訳日:2024-05-03 15:25:48 公開日:2024-05-02 |
# 一般化の定量化のための分離可能性に基づくアプローチ:どの層が最適か?
A separability-based approach to quantifying generalization: which layer is best? ( http://arxiv.org/abs/2405.01524v1 ) ライセンス: Link先を確認 | Luciano Dyballa, Evan Gerritz, Steven W. Zucker, | (参考訳) 未確認データへの一般化は、ディープラーニングの分類と基礎モデルではよく理解されていない。
数ショット学習、アウト・オブ・ディストリビューションの一般化、ドメイン適応の精神において、入力空間の新規または拡張バージョンに適応するネットワークの能力をどのように評価することができるか。
ネットワークのどの層が最も一般化されるか?
ネットワークがドメイン内のすべてのクラスでトレーニングされているかどうかに関わらず、サンプルドメインを表すネットワークのキャパシティを評価するための新しい手法を提案する。
我々のアプローチは以下の通りである: ある領域における視覚的分類のための最先端の訓練済みモデルを微調整した後、その領域の関連するが異なるバリエーションからそれらの性能を評価する。
一般化パワーは、教師なし設定と教師なし設定の両方に対して中間層から見えないデータの潜伏埋め込みの関数として定量化される。
ネットワークのあらゆる段階にまたがって働くと、私たちはそれを見つける。
(i)高い分類精度は、高い一般化可能性を意味するものではない。
(ii) モデル内の深い層が必ずしも最良を一般化するとは限らない。
データセット間で観測される傾向は概ね一貫したものであるので、我々の手法はモデルの異なるレイヤの固有の能力を明らかにし(関数)、一般化する。
Generalization to unseen data remains poorly understood for deep learning classification and foundation models. How can one assess the ability of networks to adapt to new or extended versions of their input space in the spirit of few-shot learning, out-of-distribution generalization, and domain adaptation? Which layers of a network are likely to generalize best? We provide a new method for evaluating the capacity of networks to represent a sampled domain, regardless of whether the network has been trained on all classes in the domain. Our approach is the following: after fine-tuning state-of-the-art pre-trained models for visual classification on a particular domain, we assess their performance on data from related but distinct variations in that domain. Generalization power is quantified as a function of the latent embeddings of unseen data from intermediate layers for both unsupervised and supervised settings. Working throughout all stages of the network, we find that (i) high classification accuracy does not imply high generalizability; and (ii) deeper layers in a model do not always generalize the best, which has implications for pruning. Since the trends observed across datasets are largely consistent, we conclude that our approach reveals (a function of) the intrinsic capacity of the different layers of a model to generalize. | 翻訳日:2024-05-03 15:25:48 公開日:2024-05-02 |
# FLAME: 大規模言語モデルのためのファクタリティを考慮したアライメント
FLAME: Factuality-Aware Alignment for Large Language Models ( http://arxiv.org/abs/2405.01525v1 ) ライセンス: Link先を確認 | Sheng-Chieh Lin, Luyu Gao, Barlas Oguz, Wenhan Xiong, Jimmy Lin, Wen-tau Yih, Xilun Chen, | (参考訳) アライメントは、訓練済みの大規模言語モデル(LLM)を微調整し、自然言語の指示に従ってAIアシスタントとして機能する標準的な手順である。
しかしながら、従来のアライメントプロセスではLLMの事実精度が向上せず、しばしばより偽の事実(幻覚)を生み出すことが観察されている。
本稿では,LLMアライメントプロセスをより現実的なものにする方法について,まず,両アライメントステップにおける幻覚につながる要因を同定する: 教師付き微調整(SFT)と強化学習(RL)。
特に、新しい知識や不慣れな文章に基づいてLLMを訓練することは幻覚を喚起する可能性がある。
これにより、SFTはLLMに新しいかもしれない人間のラベル付きデータをトレーニングするので、現実的ではない。
さらに、標準のRLで使われる報酬関数は、LLMが様々な命令セットに対してより有用な応答を提供するよう誘導するので、より長くより詳細な応答を好んでいるため、幻覚を促進することもできる。
これらの観測に基づいて、直接選好最適化により、事実性認識型SFTと事実性認識型RLからなる事実性認識型アライメントを提案する。
実験の結果,提案した事実認識アライメントは,命令追従能力を維持しつつ,より現実的な応答を出力する。
Alignment is a standard procedure to fine-tune pre-trained large language models (LLMs) to follow natural language instructions and serve as helpful AI assistants. We have observed, however, that the conventional alignment process fails to enhance the factual accuracy of LLMs, and often leads to the generation of more false facts (i.e. hallucination). In this paper, we study how to make the LLM alignment process more factual, by first identifying factors that lead to hallucination in both alignment steps:\ supervised fine-tuning (SFT) and reinforcement learning (RL). In particular, we find that training the LLM on new knowledge or unfamiliar texts can encourage hallucination. This makes SFT less factual as it trains on human labeled data that may be novel to the LLM. Furthermore, reward functions used in standard RL can also encourage hallucination, because it guides the LLM to provide more helpful responses on a diverse set of instructions, often preferring longer and more detailed responses. Based on these observations, we propose factuality-aware alignment, comprised of factuality-aware SFT and factuality-aware RL through direct preference optimization. Experiments show that our proposed factuality-aware alignment guides LLMs to output more factual responses while maintaining instruction-following capability. | 翻訳日:2024-05-03 15:25:48 公開日:2024-05-02 |
# Track2Act:インターネットビデオからのポイントトラックの予測により、多様なゼロショットロボット操作が可能に
Track2Act: Predicting Point Tracks from Internet Videos enables Diverse Zero-shot Robot Manipulation ( http://arxiv.org/abs/2405.01527v1 ) ライセンス: Link先を確認 | Homanga Bharadhwaj, Roozbeh Mottaghi, Abhinav Gupta, Shubham Tulsiani, | (参考訳) 我々は、ゼロショットロボット操作を可能にする汎用的な目標条件付きポリシーを学習し、テスト時間適応なしに、新しいシーンで見えない物体と対話する。
一般的な手法は、そのような一般化のための大量の実演データに依存しているが、我々は、Webビデオを活用して、もっともらしい対話計画を予測するアプローチを提案し、実世界でロボットの動作を得るためのタスク非依存の変換を学習する。
我々のフレームワークであるTrack2Actは、ゴールに基づいて、画像内のポイントが将来のタイムステップでどのように動くかを予測する。
これらの2次元トラック予測を用いて、操作対象物の剛体変換列を推定し、オープンループで実行可能なロボットエンドエフェクタのポーズを得る。
次に、いくつかの具体的デモンストレーションで訓練された閉ループポリシーにより、残余動作を予測することにより、このオープンループ計画を洗練する。
そこで本研究では,学習可能なトラック予測と,最小限のドメイン内ロボット固有のデータを必要とする残ポリシーを組み合わせることで,ゼロショットロボット操作を可能にし,未知のタスク,オブジェクト,シーンにまたがるさまざまな実世界のロボット操作結果を示す。
https://homangab.github.io/track2act/
We seek to learn a generalizable goal-conditioned policy that enables zero-shot robot manipulation: interacting with unseen objects in novel scenes without test-time adaptation. While typical approaches rely on a large amount of demonstration data for such generalization, we propose an approach that leverages web videos to predict plausible interaction plans and learns a task-agnostic transformation to obtain robot actions in the real world. Our framework,Track2Act predicts tracks of how points in an image should move in future time-steps based on a goal, and can be trained with diverse videos on the web including those of humans and robots manipulating everyday objects. We use these 2D track predictions to infer a sequence of rigid transforms of the object to be manipulated, and obtain robot end-effector poses that can be executed in an open-loop manner. We then refine this open-loop plan by predicting residual actions through a closed loop policy trained with a few embodiment-specific demonstrations. We show that this approach of combining scalably learned track prediction with a residual policy requiring minimal in-domain robot-specific data enables zero-shot robot manipulation, and present a wide array of real-world robot manipulation results across unseen tasks, objects, and scenes. https://homangab.github.io/track2act/ | 翻訳日:2024-05-03 15:25:48 公開日:2024-05-02 |
# 双極子遮断効果による非エルミート原子格子の偏極依存性
Polarization dependent non-Hermitian atomic grating controlled by dipole blockade effect ( http://arxiv.org/abs/2405.01528v1 ) ライセンス: Link先を確認 | Yi-Mou Liu, Lin Zhang, | (参考訳) 超低温ルビジウム-87(^{87}Rb$)原子アンサンブル内での非エルミタン原子格子の理論スキームを提案する。
格子の回折特性は入射光子の偏光状態に依存し、リードバーグ相互作用を介して非局所的に制御される。
複数種類の偏光依存回折モードが生成され、遷移選択規則に基づくクロストーク原子遷移チャネルの恩恵を受けない。
これらの偏光依存回折モードは、ライドベルク封鎖効果を利用して動的光パルストレインで切り替えることができ、非エルミート光変調により調整できる。
本研究は, 連続媒質中の偏光度を利用して非対称光散乱の応用を推し進め, 非エルミチアン・非対称光デバイスの適用に寄与する。
We propose a theoretical scheme for a non-Hermitian atomic grating within an ultra-cold rubidium-87 ($^{87}Rb$) atomic ensemble. The grating's diffraction properties depend on the polarization states of incident photons and are controlled non-locally through Rydberg interactions. Multiple types of polarization-dependent diffraction modes are generated, benefiting from no crosstalk atomic transition channels based on transition selection rules. Those polarization-dependent diffraction modes can be switched using dynamic optical pulse trains, exploiting the Rydberg blockade effect, and are tunable by non-Hermitian optical modulation. Our work will advance the application of asymmetric optical scattering by utilizing the polarization degree of freedom within continuous media and benefit the application of versatile non-Hermitian/asymmetric optical devices. | 翻訳日:2024-05-03 15:25:48 公開日:2024-05-02 |
# 概念ボトルネックモデルにおける概念認識による介入効率の改善
Improving Intervention Efficacy via Concept Realignment in Concept Bottleneck Models ( http://arxiv.org/abs/2405.01531v1 ) ライセンス: Link先を確認 | Nishad Singhi, Jae Myung Kim, Karsten Roth, Zeynep Akata, | (参考訳) 概念ボトルネックモデル (Concept Bottleneck Models, CBM) は、人間の理解可能な概念に基づいて、解釈可能なモデル決定を可能にする画像分類である。
重要なことに、CBMの設計は本質的に人間の介入を可能にしており、専門家のユーザは、解釈可能な方法でモデルの決定行動に影響を与えるために、潜在的に不整合した概念の選択を変更することができる。
しかしながら、既存のアプローチでは、強いパフォーマンスを達成するために、画像ごとに多数の人間の介入を必要とすることが多く、人間のフィードバックを得るのが高価であるシナリオにおいて、実践的な課題を提起する。
本稿では,モデルの最終決定において,ある概念の変更が他の概念の使用に影響を与えない,介入中の概念の独立した処理によって,これが顕著に駆動されることを見出した。
この問題に対処するために,本研究では,概念関係を利用した学習可能な概念介入調整モジュールを導入する。
標準的な実世界のベンチマークでは、概念再編成は介入効果を著しく改善し、対象の分類性能や概念予測精度に到達するために必要な介入回数を大幅に削減できることがわかった。
さらに、モデル自体の変更を必要とせずに、既存のコンセプトベースのアーキテクチャに容易に統合できる。
この人-モデル協力のコスト削減は、資源制約環境におけるCBMの実現可能性を高めるために不可欠である。
Concept Bottleneck Models (CBMs) ground image classification on human-understandable concepts to allow for interpretable model decisions. Crucially, the CBM design inherently allows for human interventions, in which expert users are given the ability to modify potentially misaligned concept choices to influence the decision behavior of the model in an interpretable fashion. However, existing approaches often require numerous human interventions per image to achieve strong performances, posing practical challenges in scenarios where obtaining human feedback is expensive. In this paper, we find that this is noticeably driven by an independent treatment of concepts during intervention, wherein a change of one concept does not influence the use of other ones in the model's final decision. To address this issue, we introduce a trainable concept intervention realignment module, which leverages concept relations to realign concept assignments post-intervention. Across standard, real-world benchmarks, we find that concept realignment can significantly improve intervention efficacy; significantly reducing the number of interventions needed to reach a target classification performance or concept prediction accuracy. In addition, it easily integrates into existing concept-based architectures without requiring changes to the models themselves. This reduced cost of human-model collaboration is crucial to enhancing the feasibility of CBMs in resource-constrained environments. | 翻訳日:2024-05-03 15:25:48 公開日:2024-05-02 |
# 量子チャネル固定点のロバスト性と近似量子マルコフ鎖への応用
Robustness of Fixed Points of Quantum Channels and Application to Approximate Quantum Markov Chains ( http://arxiv.org/abs/2405.01532v1 ) ライセンス: Link先を確認 | Robert Salzmann, Bjarne Bergh, Nilanjana Datta, | (参考訳) 量子チャネルと、(例えば、誤差$\varepsilon$まで)定点方程式をほぼ満たす状態が与えられたとき、それぞれ元のものに近い新しいチャネルと状態を見つけることができ、それらが正確な定点方程式を満たすか?
この疑問に対して、元のチャネルと状態の構造に対する制約の異なる選択を問うこと、そしてこれらが新しいチャネルと状態によって満たされることを要求することは興味深い。
我々は、これらの構造に関するかなり一般的な仮定の下で、コンパクト性論を通して、上記の疑問に肯定的に答える。
さらに、特定の特定の構造を満たすチャネルや状態に対して、問題となるチャネル(および状態)のペア間の距離の明示的な上限を求める。
これらの距離が $\varepsilon\to 0$ として急速に減衰すると、元の近似固定点方程式は迅速に固定可能である。
我々は、一般的な量子チャネルだけでなく、元のチャネルと新しいチャネルの両方がユニタリ、混合ユニタリ、あるいはユニタリである必要がある場合に、迅速な固定性を確立する。
対照的に、チャネルが1つのサブシステムに自明に作用する二部量子系の場合、近似的な固定点方程式は迅速に固定できないことが証明される。
この場合、正確な固定点方程式を満たす最も近いチャネル(および状態)への距離は、望ましくない方法で量子系の次元に依存することができる。
量子マルコフ連鎖のロバスト性(英語版)(QMC)の問題に近似的な不動点方程式を応用し、以下のことを立証する: 任意の三部量子状態に対して、その距離に次元依存的な上界が存在し、状態の条件的相互情報が消えるにつれてゼロに崩壊する。
Given a quantum channel and a state which satisfy a fixed point equation approximately (say, up to an error $\varepsilon$), can one find a new channel and a state, which are respectively close to the original ones, such that they satisfy an exact fixed point equation? It is interesting to ask this question for different choices of constraints on the structures of the original channel and state, and requiring that these are also satisfied by the new channel and state. We affirmatively answer the above question, under fairly general assumptions on these structures, through a compactness argument. Additionally, for channels and states satisfying certain specific structures, we find explicit upper bounds on the distances between the pairs of channels (and states) in question. When these distances decay quickly (in a particular, desirable manner) as $\varepsilon\to 0$, we say that the original approximate fixed point equation is rapidly fixable. We establish rapid fixability, not only for general quantum channels, but also when the original and new channels are both required to be unitary, mixed unitary or unital. In contrast, for the case of bipartite quantum systems with channels acting trivially on one subsystem, we prove that approximate fixed point equations are not rapidly fixable. In this case, the distance to the closest channel (and state) which satisfy an exact fixed point equation can depend on the dimension of the quantum system in an undesirable way. We apply our results on approximate fixed point equations to the question of robustness of quantum Markov chains (QMC) and establish the following: For any tripartite quantum state, there exists a dimension-dependent upper bound on its distance to the set of QMCs, which decays to zero as the conditional mutual information of the state vanishes. | 翻訳日:2024-05-03 15:25:48 公開日:2024-05-02 |
# OmniDrive: 3D知覚、推論、計画による自律運転のためのホロスティックLLM-Agentフレームワーク
OmniDrive: A Holistic LLM-Agent Framework for Autonomous Driving with 3D Perception, Reasoning and Planning ( http://arxiv.org/abs/2405.01533v1 ) ライセンス: Link先を確認 | Shihao Wang, Zhiding Yu, Xiaohui Jiang, Shiyi Lan, Min Shi, Nadine Chang, Jan Kautz, Ying Li, Jose M. Alvarez, | (参考訳) MLLM(Multimodal large language model)の進歩により、LLMベースの自律運転エージェントへの関心が高まり、その強力な推論能力が利用できるようになった。
しかし,計画行動を改善するため,MLLMの強い推論能力を活用することは困難である。
この課題に対処するため,エージェントモデルと3次元駆動タスクの整合性を高めるための総合的な枠組みを提案する。
我々のフレームワークは、3次元MLLMアーキテクチャから始まり、スパースクエリを使って視覚表現を3次元に持ち上げ、圧縮し、LLMに入力する。
このクエリベースの表現により、動的オブジェクトと静的マップ要素(例えば、トラフィックレーン)を共同でエンコードすることができ、3Dでの知覚・行動アライメントのための凝縮世界モデルを提供する。
さらに,OmniDrive-nuScenesを提案する。このデータセットは,シーン記述,交通規制,3Dグラウンドニング,ファクトファクチュアル推論,意思決定,計画といった,総合的な視覚的質問応答(VQA)タスクを伴うモデルの真の3次元状況認識に挑戦する新しい視覚的質問応答データセットである。
大規模な研究は、複雑な3Dシーンにおける推論と計画のためのVQAタスクの重要性とともに、提案されたアーキテクチャの有効性を示している。
The advances in multimodal large language models (MLLMs) have led to growing interests in LLM-based autonomous driving agents to leverage their strong reasoning capabilities. However, capitalizing on MLLMs' strong reasoning capabilities for improved planning behavior is challenging since planning requires full 3D situational awareness beyond 2D reasoning. To address this challenge, our work proposes a holistic framework for strong alignment between agent models and 3D driving tasks. Our framework starts with a novel 3D MLLM architecture that uses sparse queries to lift and compress visual representations into 3D before feeding them into an LLM. This query-based representation allows us to jointly encode dynamic objects and static map elements (e.g., traffic lanes), providing a condensed world model for perception-action alignment in 3D. We further propose OmniDrive-nuScenes, a new visual question-answering dataset challenging the true 3D situational awareness of a model with comprehensive visual question-answering (VQA) tasks, including scene description, traffic regulation, 3D grounding, counterfactual reasoning, decision making and planning. Extensive studies show the effectiveness of the proposed architecture as well as the importance of the VQA tasks for reasoning and planning in complex 3D scenes. | 翻訳日:2024-05-03 15:25:48 公開日:2024-05-02 |
# Plan-Seq-Learn:長い水平ロボットタスクを解くための言語モデルガイドRL
Plan-Seq-Learn: Language Model Guided RL for Solving Long Horizon Robotics Tasks ( http://arxiv.org/abs/2405.01534v1 ) ライセンス: Link先を確認 | Murtaza Dalal, Tarun Chiruvolu, Devendra Chaplot, Ruslan Salakhutdinov, | (参考訳) 大規模言語モデル(LLM)は、長い水平ロボット作業のために高いレベルの計画を実行することができるが、既存の手法では、事前に定義されたスキルライブラリ(例えば、ピッキング、プレース、プル、プッシュ、ナビゲーティング)にアクセスする必要がある。
しかし、LSMプランニングはこれらの振る舞いの設計や学習の仕方には対処していない。
さらに、多くの興味のあるタスクに対して、ロボットはその振る舞いをきめ細かな方法で調整し、エージェントが低レベルの制御行動を変更できるようにする必要がある。
代わりに、ロボット制御タスクをオンラインで効率的に解くための強化学習(RL)ポリシーを、事前に決められたスキルセットを必要とせずに、LLMからのインターネット規模の知識を高レベルなポリシーに活用できますか?
本稿では,Plan-Seq-Learn(PSL:Plan-Seq-Learn)を提案する。
PSLは、最大10段階の課題ロボットタスク25以上において、最先端の成果を達成できることを実証する。
PSLは、85%以上の成功率で4つのベンチマークにまたがる生の視覚的な入力から、言語ベース、古典的、エンドツーエンドのアプローチまで、長期的なタスクを解決している。
https://mihdalal.github.io/planseqlearn/
Large Language Models (LLMs) have been shown to be capable of performing high-level planning for long-horizon robotics tasks, yet existing methods require access to a pre-defined skill library (e.g. picking, placing, pulling, pushing, navigating). However, LLM planning does not address how to design or learn those behaviors, which remains challenging particularly in long-horizon settings. Furthermore, for many tasks of interest, the robot needs to be able to adjust its behavior in a fine-grained manner, requiring the agent to be capable of modifying low-level control actions. Can we instead use the internet-scale knowledge from LLMs for high-level policies, guiding reinforcement learning (RL) policies to efficiently solve robotic control tasks online without requiring a pre-determined set of skills? In this paper, we propose Plan-Seq-Learn (PSL): a modular approach that uses motion planning to bridge the gap between abstract language and learned low-level control for solving long-horizon robotics tasks from scratch. We demonstrate that PSL achieves state-of-the-art results on over 25 challenging robotics tasks with up to 10 stages. PSL solves long-horizon tasks from raw visual input spanning four benchmarks at success rates of over 85%, out-performing language-based, classical, and end-to-end approaches. Video results and code at https://mihdalal.github.io/planseqlearn/ | 翻訳日:2024-05-03 15:25:48 公開日:2024-05-02 |
# Prometheus 2: 他の言語モデルを評価するためのオープンソース言語モデル
Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models ( http://arxiv.org/abs/2405.01535v1 ) ライセンス: Link先を確認 | Seungone Kim, Juyoung Suk, Shayne Longpre, Bill Yuchen Lin, Jamin Shin, Sean Welleck, Graham Neubig, Moontae Lee, Kyungjae Lee, Minjoon Seo, | (参考訳) GPT-4のようなプロプライエタリなLMは、様々なLMからの応答の質を評価するためにしばしば用いられる。
しかし、透明性、制御可能性、手頃な価格といった懸念は、評価に特化したオープンソースLMの開発を強く動機付けている。
一方、既存のオープン評価器 LM には重大な欠点がある。
1)人間に割り当てられたスコアとは大きく異なるスコアを発行し、
2) 直接評価とペアランキングの両方を行う柔軟性が欠如している。
さらに、彼らはカスタム評価基準に基づいて評価する能力を持っておらず、代わりに有用性や無害性といった一般的な属性に焦点を当てている。
これらの問題に対処するために,人間とGPT-4の判断を密接に反映した前者よりも強力な評価器であるPrometheus 2を紹介する。
さらに、ユーザ定義評価基準でグループ化されたダイレクトアセスメントとペアワイズランキングフォーマットの両方を処理できる。
4つの直接評価ベンチマークと4つのペアのランキングベンチマークにおいて、Prometheus 2は、試験された全てのオープン評価器LMの中で、人間とプロプライエタリなLM裁判官との相関と合意を最も高く評価している。
私たちのモデル、コード、データは、すべてhttps://github.com/prometheus-eval/prometheus-eval.comで公開されています。
Proprietary LMs such as GPT-4 are often employed to assess the quality of responses from various LMs. However, concerns including transparency, controllability, and affordability strongly motivate the development of open-source LMs specialized in evaluations. On the other hand, existing open evaluator LMs exhibit critical shortcomings: 1) they issue scores that significantly diverge from those assigned by humans, and 2) they lack the flexibility to perform both direct assessment and pairwise ranking, the two most prevalent forms of assessment. Additionally, they do not possess the ability to evaluate based on custom evaluation criteria, focusing instead on general attributes like helpfulness and harmlessness. To address these issues, we introduce Prometheus 2, a more powerful evaluator LM than its predecessor that closely mirrors human and GPT-4 judgements. Moreover, it is capable of processing both direct assessment and pair-wise ranking formats grouped with a user-defined evaluation criteria. On four direct assessment benchmarks and four pairwise ranking benchmarks, Prometheus 2 scores the highest correlation and agreement with humans and proprietary LM judges among all tested open evaluator LMs. Our models, code, and data are all publicly available at https://github.com/prometheus-eval/prometheus-eval. | 翻訳日:2024-05-03 15:25:48 公開日:2024-05-02 |
# 単一画像ペアによるテキスト・ツー・イメージモデルのカスタマイズ
Customizing Text-to-Image Models with a Single Image Pair ( http://arxiv.org/abs/2405.01536v1 ) ライセンス: Link先を確認 | Maxwell Jones, Sheng-Yu Wang, Nupur Kumari, David Bau, Jun-Yan Zhu, | (参考訳) 芸術再解釈(Art repretation)は、参照された作品のバリエーションを作成し、異なる芸術様式を示すペアアートを作るプラクティスである。
そこで我々は,このような画像ペアを用いて生成モデルをカスタマイズし,提示された形式的差異を捉えることができるかどうかを問う。
Pair Customizationは、単一の画像対からスタイリスティックな違いを学習し、取得したスタイルを生成プロセスに適用する新しいカスタマイズ手法である。
画像の集合から1つの概念を模倣することを学習する既存の方法とは異なり、本手法はペア画像間の構造的差異をキャプチャする。
これにより、例の中の特定の画像コンテンツに過度に適合することなく、スタイリスティックな変更を適用できます。
この新たな課題に対処するために、我々は、スタイルと内容を異なるLoRA重み空間に明確に分離する共同最適化手法を採用した。
我々はこれらのスタイルとコンテンツ重みを最適化し、その直交性を奨励しながら、スタイルとコンテンツイメージを再現する。
推論中に、学習した重みに基づく新しいスタイルのガイダンスを用いて拡散過程を変更する。
定性的かつ定量的な実験は,画像コンテンツへの過度な適合を回避しつつ,そのスタイルを効果的に学習できることを示し,そのようなスタイル的差異を1つの画像対からモデル化する可能性を強調した。
Art reinterpretation is the practice of creating a variation of a reference work, making a paired artwork that exhibits a distinct artistic style. We ask if such an image pair can be used to customize a generative model to capture the demonstrated stylistic difference. We propose Pair Customization, a new customization method that learns stylistic difference from a single image pair and then applies the acquired style to the generation process. Unlike existing methods that learn to mimic a single concept from a collection of images, our method captures the stylistic difference between paired images. This allows us to apply a stylistic change without overfitting to the specific image content in the examples. To address this new task, we employ a joint optimization method that explicitly separates the style and content into distinct LoRA weight spaces. We optimize these style and content weights to reproduce the style and content images while encouraging their orthogonality. During inference, we modify the diffusion process via a new style guidance based on our learned weights. Both qualitative and quantitative experiments show that our method can effectively learn style while avoiding overfitting to image content, highlighting the potential of modeling such stylistic differences from a single image pair. | 翻訳日:2024-05-03 15:25:48 公開日:2024-05-02 |
# 駆動量子ガス中の逆乱流波カスケードの観測
Observation of an inverse turbulent-wave cascade in a driven quantum gas ( http://arxiv.org/abs/2405.01537v1 ) ライセンス: Link先を確認 | Andrey Karailiev, Martin Gazo, Maciej Gałka, Christoph Eigen, Tanish Satoor, Zoran Hadzibabic, | (参考訳) 我々は, 逆乱流カスケードを, 小型から大型の2次元ボースガス中で, 等方的に等方的に駆動する逆乱流カスケードを観測した。
平衡凝縮気体から始めると、長い駆動時間で非熱的定常状態が観測される。
強制力から始まる長さスケールの増加に伴い、定常運動量分布は次のようになる。
(i)弱波乱流における粒子カスケードの解析結果に近接する指数を持つパワーロースペクトル、及び
(II) 孤立した2次元気体中の普遍的粗さに付随する非熱的不動点を暗示するスペクトル。
さらに, 異方性駆動に基づく実験では, カスケード現象の定性的図像も明らかにした。
We observe an inverse turbulent-wave cascade, from small to large lengthscales, in a homogeneous 2D Bose gas driven isotropically on a lengthscale much smaller than its size. Starting with an equilibrium condensed gas, at long drive times we observe a nonthermal steady state. At increasing lengthscales, starting from the forcing one, the steady-state momentum distribution features in turn: (i) a power-law spectrum, with an exponent close to the analytical result for a particle cascade in weak-wave turbulence, and (ii) a spectrum intriguingly reminiscent of a nonthermal fixed point associated with universal coarsening in an isolated 2D gas. In further experiments, based on anisotropic driving, we also reveal the qualitative picture of the cascade-formation dynamics. | 翻訳日:2024-05-03 15:25:48 公開日:2024-05-02 |
# ユニバーサルLiDARセグメンテーションに向けたマルチスペースアライメント
Multi-Space Alignments Towards Universal LiDAR Segmentation ( http://arxiv.org/abs/2405.01538v1 ) ライセンス: Link先を確認 | Youquan Liu, Lingdong Kong, Xiaoyang Wu, Runnan Chen, Xin Li, Liang Pan, Ziwei Liu, Yuexin Ma, | (参考訳) 強力な堅牢性と一般化性を備えた統一的で汎用的なLiDARセグメンテーションモデルは、安全な自律運転知覚に望ましい。
本研究は,マルチタスク,マルチデータセット,マルチモダリティのLiDARセグメンテーションを,単一のパラメータセットを用いて普遍的に実現するためのフレームワークであるM3Netを提案する。
データ量と多様性をよりうまく活用するために、私たちはまず、さまざまなシーンから異なるタイプのセンサーによって取得された大規模な運転データセットを組み合わせて、トレーニング中にデータ、特徴、ラベル空間という3つの空間でアライメントを実行します。
その結果、M3Netは、最先端のLiDARセグメンテーションモデルをトレーニングするために異種データを使用することができる。
12のLiDARセグメンテーションデータセットに関する大規模な実験により、我々の有効性が確認された。
特に、M3Netは共有パラメータセットを使用して、SemanticKITTI、nuScenes、Waymo Openの公式ベンチマークでそれぞれ75.1%、83.1%、72.4%のmIoUスコアを達成している。
A unified and versatile LiDAR segmentation model with strong robustness and generalizability is desirable for safe autonomous driving perception. This work presents M3Net, a one-of-a-kind framework for fulfilling multi-task, multi-dataset, multi-modality LiDAR segmentation in a universal manner using just a single set of parameters. To better exploit data volume and diversity, we first combine large-scale driving datasets acquired by different types of sensors from diverse scenes and then conduct alignments in three spaces, namely data, feature, and label spaces, during the training. As a result, M3Net is capable of taming heterogeneous data for training state-of-the-art LiDAR segmentation models. Extensive experiments on twelve LiDAR segmentation datasets verify our effectiveness. Notably, using a shared set of parameters, M3Net achieves 75.1%, 83.1%, and 72.4% mIoU scores, respectively, on the official benchmarks of SemanticKITTI, nuScenes, and Waymo Open. | 翻訳日:2024-05-03 15:25:48 公開日:2024-05-02 |
# ObjectAdd: トレーニング不要な拡散修正ファシオンによるイメージへのオブジェクトの追加
ObjectAdd: Adding Objects into Image via a Training-Free Diffusion Modification Fashion ( http://arxiv.org/abs/2404.17230v2 ) ライセンス: Link先を確認 | Ziyue Zhang, Mingbao Lin, Rongrong Ji, | (参考訳) 我々は,ユーザ指定領域にユーザ予測オブジェクトを追加するトレーニング不要な拡散修正手法であるObjectAddを紹介する。
ObjectAddの動機は次のようなものだ。 1つは、すべてのことを1つのプロンプトで記述することが難しいこと、2つ目は、ユーザが生成したイメージにオブジェクトを追加する必要があること。
実世界に対応するため,ObjectAddは,(1) 適切なテキスト埋め込み合体を保証するための埋め込みレベル結合,(2) 潜時および注意注入によるオブジェクト駆動レイアウト制御によるユーザ指定領域へのアクセスを保証するためのオブジェクト駆動レイアウト制御,(3) 注意再焦点化・オブジェクト拡張方式による画像インペインティングにより,画像の残りが同一であることを保証する。
テキストプロンプトされた画像により、ObjectAddはユーザーがボックスとオブジェクトを指定することができ、(1) ボックス領域内にオブジェクトを追加し、(2) ボックス領域の外に正確なコンテンツを追加し、(3) ボックス領域間の不完全な融合を実現する。
We introduce ObjectAdd, a training-free diffusion modification method to add user-expected objects into user-specified area. The motive of ObjectAdd stems from: first, describing everything in one prompt can be difficult, and second, users often need to add objects into the generated image. To accommodate with real world, our ObjectAdd maintains accurate image consistency after adding objects with technical innovations in: (1) embedding-level concatenation to ensure correct text embedding coalesce; (2) object-driven layout control with latent and attention injection to ensure objects accessing user-specified area; (3) prompted image inpainting in an attention refocusing & object expansion fashion to ensure rest of the image stays the same. With a text-prompted image, our ObjectAdd allows users to specify a box and an object, and achieves: (1) adding object inside the box area; (2) exact content outside the box area; (3) flawless fusion between the two areas | 翻訳日:2024-05-03 13:26:53 公開日:2024-05-02 |
# 大規模言語モデルにおけるリアルタイム学習に向けて:批判的レビュー
Towards Real-time Learning in Large Language Models: A Critical Review ( http://arxiv.org/abs/2404.18311v3 ) ライセンス: Link先を確認 | Mladjan Jovanovic, Peter Voss, | (参考訳) リアルタイム学習は、学習システムが時間とともに知識を習得し、新しいタスクへの適応と一般化を可能にする能力に関するものである。
これは知的で現実世界のシステムにとって重要な能力であり、特にデータが不十分で入手が困難である場合である。
本稿では,大規模言語モデルにおけるリアルタイム学習の包括的分析について述べる。
継続的な学習、メタラーニング、パラメータ効率の学習、エキスパートの混合学習など、最先端のリアルタイム学習パラダイムを合成する。
本研究は,これらのトピックから得られた特定の成果とその重要な要因を記述し,リアルタイム学習の有用性を実証する。
最後に,今後の研究の課題と課題について述べる。
最新の研究成果を集約することにより、リアルタイム学習の包括的理解と、実世界の問題に対処するLLMベースの学習システムを設計・開発する上での意義について述べる。
Real-time learning concerns the ability of learning systems to acquire knowledge over time, enabling their adaptation and generalization to novel tasks. It is a critical ability for intelligent, real-world systems, especially when data may be insufficient or difficult to obtain. This review provides a comprehensive analysis of real-time learning in Large Language Models. It synthesizes the state-of-the-art real-time learning paradigms, including continual learning, meta-learning, parameter-efficient learning, and mixture-of-experts learning. We demonstrate their utility for real-time learning by describing specific achievements from these related topics and their critical factors. Finally, the paper highlights current problems and challenges for future research in the field. By consolidating the latest relevant research developments, this review offers a comprehensive understanding of real-time learning and its implications for designing and developing LLM-based learning systems addressing real-world problems. | 翻訳日:2024-05-03 13:26:53 公開日:2024-05-02 |
# 能動空間埋め込み法のための一般的なフレームワーク--量子コンピューティングへの応用
A general framework for active space embedding methods: applications in quantum computing ( http://arxiv.org/abs/2404.18737v2 ) ライセンス: Link先を確認 | Stefano Battaglia, Max Rossmannek, Vladimir V. Rybkin, Ivano Tavernelli, Jürg Hutter, | (参考訳) 我々は, フラグメントの軌道空間分離と環境自由度に基づく分子および周期埋め込みアプローチのハイブリッド量子古典計算のための一般的なフレームワークを開発した。
量子回路アンサッツに結合した周期領域分離DFTの特定の実装を示すことにより、量子固有解器と量子方程式のアルゴリズムを用いて、ハミルトニアンの低階スペクトルを得る。
酸化マグネシウム(MgO)中の中性酸素空孔の光学的特性の正確な予測を通じて,物質中の局在電子状態の研究にこの手法を適用した。
主吸収帯の位置にいくつかの相違があるにもかかわらず、この手法は最先端のアブイニシアトアプローチと比較して競争性能を示すが、特に実験光発光発光ピークとの優れた一致によって証明されている。
We developed a general framework for hybrid quantum-classical computing of molecular and periodic embedding approaches based on an orbital space separation of the fragment and environment degrees of freedom. We demonstrate its potential by presenting a specific implementation of periodic range-separated DFT coupled to a quantum circuit ansatz, whereby the variational quantum eigensolver and the quantum equation-of-motion algorithm are used to obtain the low-lying spectrum of the embedded fragment Hamiltonian. Application of this scheme to study localized electronic states in materials is showcased through the accurate prediction of the optical properties of the neutral oxygen vacancy in magnesium oxide (MgO). Despite some discrepancies in the position of the main absorption band, the method demonstrates competitive performance compared to state-of-the-art ab initio approaches, particularly evidenced by the excellent agreement with the experimental photoluminescence emission peak. | 翻訳日:2024-05-03 13:26:53 公開日:2024-05-02 |
# 法律領域における自然言語処理の活用事例の構造的概要--ドイツの視点から
Towards A Structured Overview of Use Cases for Natural Language Processing in the Legal Domain: A German Perspective ( http://arxiv.org/abs/2404.18759v2 ) ライセンス: Link先を確認 | Juraj Vladika, Stephen Meisenbacher, Martina Preis, Alexandra Klymenko, Florian Matthes, | (参考訳) 近年、自然言語処理(NLP)と法学の分野が合わさって法プロセスのデジタル化が進んでいるため、法務技術の分野が盛んになっている。
NLPドメインから生じる研究ソリューションの定常的な流れの中で、ユースケースの研究は遅れており、実際は場所のない革新的な技術手法が数多く生まれている。
本研究は,NLP文学を基盤として,ドイツにおける法律実務の声を補足した法律技術事例の構造化された概要を構築することを目的としている。
体系的文献レビューに基づいて、法域におけるNLP技術の7つのカテゴリを特定し、22の訴訟事例に並置して研究する。
これらの事例の調査では、倫理的、法的、社会的側面(ELSA)を15個特定し、法的領域をデジタル化することの潜在的な懸念に光を当てる。
In recent years, the field of Legal Tech has risen in prevalence, as the Natural Language Processing (NLP) and legal disciplines have combined forces to digitalize legal processes. Amidst the steady flow of research solutions stemming from the NLP domain, the study of use cases has fallen behind, leading to a number of innovative technical methods without a place in practice. In this work, we aim to build a structured overview of Legal Tech use cases, grounded in NLP literature, but also supplemented by voices from legal practice in Germany. Based upon a Systematic Literature Review, we identify seven categories of NLP technologies for the legal domain, which are then studied in juxtaposition to 22 legal use cases. In the investigation of these use cases, we identify 15 ethical, legal, and social aspects (ELSA), shedding light on the potential concerns of digitally transforming the legal domain. | 翻訳日:2024-05-03 13:26:53 公開日:2024-05-02 |
# 頭部アバターアニメーションのための3次元ガウスブレンドサプシス
3D Gaussian Blendshapes for Head Avatar Animation ( http://arxiv.org/abs/2404.19398v2 ) ライセンス: Link先を確認 | Shengjie Ma, Yanlin Weng, Tianjia Shao, Kun Zhou, | (参考訳) フォトリアリスティックヘッドアバターをモデル化するための3次元ガウス混合モデルを提案する。
モノクロ映像を入力として、中性表現のベースヘッドモデルと、古典的パラメトリック顔モデルにおける基底表現に対応する表現群をブレンドする。
ニュートラルモデルと表現ブレンドサップはどちらも3Dガウスとして表現され、アバターの外観を表すいくつかの性質を含む。
任意の表現のアバターモデルは、ガウスの線形ブレンディングと表現係数を結合することで、中立モデルと表現をブレンドすることで効果的に生成することができる。
高忠実度頭部アバターアニメーションはガウススプラッティングを用いてリアルタイムで合成できる。
最先端の手法と比較して、ガウスのブレンドシェープ表現は、入力ビデオに表示される高周波の詳細をよりよく捉え、より優れたレンダリング性能を実現する。
We introduce 3D Gaussian blendshapes for modeling photorealistic head avatars. Taking a monocular video as input, we learn a base head model of neutral expression, along with a group of expression blendshapes, each of which corresponds to a basis expression in classical parametric face models. Both the neutral model and expression blendshapes are represented as 3D Gaussians, which contain a few properties to depict the avatar appearance. The avatar model of an arbitrary expression can be effectively generated by combining the neutral model and expression blendshapes through linear blending of Gaussians with the expression coefficients. High-fidelity head avatar animations can be synthesized in real time using Gaussian splatting. Compared to state-of-the-art methods, our Gaussian blendshape representation better captures high-frequency details exhibited in input video, and achieves superior rendering performance. | 翻訳日:2024-05-03 13:26:53 公開日:2024-05-02 |
# Kan: Kolmogorov-Arnold Networks
KAN: Kolmogorov-Arnold Networks ( http://arxiv.org/abs/2404.19756v2 ) ライセンス: Link先を確認 | Ziming Liu, Yixuan Wang, Sachin Vaidya, Fabian Ruehle, James Halverson, Marin Soljačić, Thomas Y. Hou, Max Tegmark, | (参考訳) コルモゴロフ・アルノルド表現定理に着想を得て、多層受容器(MLP)の代替としてコルモゴロフ・アルノルドネットワーク(KAN)を提案する。
MLPはノード(ニューロン)上で一定の活性化関数を持つが、Kanはエッジ(重み)上で学習可能な活性化関数を持つ。
カンは線形重みを全く持たず、全ての重みパラメータはスプラインとしてパラメータ化された単変量関数に置き換えられる。
この一見単純な変化により、KANSA は精度と解釈可能性において MLP を上回ります。
正確性のために、より小さなkanは、データフィッティングやPDE解決において、はるかに大きなMLPよりも同等またはより良い精度を達成することができる。
理論上、実証上、カンはMLPよりも高速なニューラルスケーリング法則を持っている。
解釈可能性のために、KANSAは直感的に視覚化でき、人間のユーザと簡単に対話できる。
数学と物理学の2つの例を通して、カンは科学者が数学的および物理的法則を発見(再発見)するのに有用な協力者であることが示されている。
要約すると、KansはMLPの代替として有望であり、MDPに大きく依存する今日のディープラーニングモデルをさらに改善する機会を開く。
Inspired by the Kolmogorov-Arnold representation theorem, we propose Kolmogorov-Arnold Networks (KANs) as promising alternatives to Multi-Layer Perceptrons (MLPs). While MLPs have fixed activation functions on nodes ("neurons"), KANs have learnable activation functions on edges ("weights"). KANs have no linear weights at all -- every weight parameter is replaced by a univariate function parametrized as a spline. We show that this seemingly simple change makes KANs outperform MLPs in terms of accuracy and interpretability. For accuracy, much smaller KANs can achieve comparable or better accuracy than much larger MLPs in data fitting and PDE solving. Theoretically and empirically, KANs possess faster neural scaling laws than MLPs. For interpretability, KANs can be intuitively visualized and can easily interact with human users. Through two examples in mathematics and physics, KANs are shown to be useful collaborators helping scientists (re)discover mathematical and physical laws. In summary, KANs are promising alternatives for MLPs, opening opportunities for further improving today's deep learning models which rely heavily on MLPs. | 翻訳日:2024-05-03 13:26:53 公開日:2024-05-02 |
# 大規模言語モデルを用いたプログラミングにおける論理エラーに対するフィードバックラダーの生成
Generating Feedback-Ladders for Logical Errors in Programming using Large Language Models ( http://arxiv.org/abs/2405.00302v2 ) ライセンス: Link先を確認 | Hasnain Heickal, Andrew Lan, | (参考訳) プログラム代入における論理的誤りに対するフィードバック生成において,大規模言語モデル(LLM)に基づく手法は大きな可能性を秘めている。
これらの方法は、問題ステートメントと学生の(バグ)提出を前提として、LSMにフィードバックを生成するよう要求する。
このような方法にはいくつかの問題がある。
第一に、生成されたフィードバックメッセージは、しばしば、提出中のエラーを明らかにするために直接的すぎるので、学生が学ぶ貴重な機会を減らします。
第二に、学生の学習の文脈、すなわち、以前の提出書、現在の知識などを考慮していない。
第3に、既存のメソッドでは、すべての学生の応募に対して単一の共有プロンプトを使用するため、レイヤ化されていない。
本稿では,LLMを用いて「フィードバック・ラダー」、すなわち同じ問題・サブミッション・ペアに対するフィードバックのレベルを複数生成する方法について検討する。
本研究では, 学生, 教育者, 研究者によるユーザスタディにより, 生成したフィードバックラダーの品質を評価する。
本研究は,高レベルのフィードバックと高レベルの提案に対する効果の低下を総合的に観察した。
実際に,本手法では,教師が個人的学習状況に基づいて,生徒に適切なレベルのフィードバックを提示するか,あるいは高レベルのフィードバックが生徒の誤りを訂正できなかった場合に,より詳細に学習することができる。
In feedback generation for logical errors in programming assignments, large language model (LLM)-based methods have shown great promise. These methods ask the LLM to generate feedback given the problem statement and a student's (buggy) submission. There are several issues with these types of methods. First, the generated feedback messages are often too direct in revealing the error in the submission and thus diminish valuable opportunities for the student to learn. Second, they do not consider the student's learning context, i.e., their previous submissions, current knowledge, etc. Third, they are not layered since existing methods use a single, shared prompt for all student submissions. In this paper, we explore using LLMs to generate a "feedback-ladder", i.e., multiple levels of feedback for the same problem-submission pair. We evaluate the quality of the generated feedback-ladder via a user study with students, educators, and researchers. We have observed diminishing effectiveness for higher-level feedback and higher-scoring submissions overall in the study. In practice, our method enables teachers to select an appropriate level of feedback to show to a student based on their personal learning context, or in a progressive manner to go more detailed if a higher-level feedback fails to correct the student's error. | 翻訳日:2024-05-03 13:26:53 公開日:2024-05-02 |
# 小学校算数科における大規模言語モデルの性能に関する注意深い検討
A Careful Examination of Large Language Model Performance on Grade School Arithmetic ( http://arxiv.org/abs/2405.00332v2 ) ライセンス: Link先を確認 | Hugh Zhang, Jeff Da, Dean Lee, Vaughn Robinson, Catherine Wu, Will Song, Tiffany Zhao, Pranav Raja, Dylan Slack, Qin Lyu, Sean Hendryx, Russell Kaplan, Michele Lunati, Summer Yue, | (参考訳) 大規模言語モデル (LLM) は、数学的推論のための多くのベンチマークで驚くべき成功を収めた。
しかし、このパフォーマンスのいくつかは実際にデータセットの汚染を反映しているという懸念が高まっており、ベンチマークによく似たデータが真の推論能力ではなく、トレーニングデータに漏れ込む。
この主張を厳格に調査するために、小学校数学1000(GSM1k)を委託する。
GSM1kは、基本的な数学的推論を測定するための金の標準である確立されたGSM8kベンチマークのスタイルと複雑さを反映するように設計されている。
2つのベンチマークは、人間の解決率、ソリューションのステップ数、回答の規模など、重要な指標に匹敵するものであることを保証します。
GSM1k上でのオープンおよびクローズドソースLCMの評価では、最大13%の精度低下を観測し、いくつかのモデルのファミリー(例えば、Phi、Mistral)は、ほぼすべてのモデルサイズに体系的にオーバーフィットする証拠を示している。
同時に、多くのモデル、特にフロンティアのモデル(例えば、Gemini/GPT/Claude)は、オーバーフィッティングの兆候を最小限に示している。
さらなる分析では、モデルが GSM8k からサンプルを生成する確率と GSM8k と GSM1k のパフォーマンスギャップとの間の正の関係(スピアマンの r^2=0.32)が示唆され、多くのモデルが部分的に GSM8k を記憶している可能性が示唆されている。
Large language models (LLMs) have achieved impressive success on many benchmarks for mathematical reasoning. However, there is growing concern that some of this performance actually reflects dataset contamination, where data closely resembling benchmark questions leaks into the training data, instead of true reasoning ability. To investigate this claim rigorously, we commission Grade School Math 1000 (GSM1k). GSM1k is designed to mirror the style and complexity of the established GSM8k benchmark, the gold standard for measuring elementary mathematical reasoning. We ensure that the two benchmarks are comparable across important metrics such as human solve rates, number of steps in solution, answer magnitude, and more. When evaluating leading open- and closed-source LLMs on GSM1k, we observe accuracy drops of up to 13%, with several families of models (e.g., Phi and Mistral) showing evidence of systematic overfitting across almost all model sizes. At the same time, many models, especially those on the frontier, (e.g., Gemini/GPT/Claude) show minimal signs of overfitting. Further analysis suggests a positive relationship (Spearman's r^2=0.32) between a model's probability of generating an example from GSM8k and its performance gap between GSM8k and GSM1k, suggesting that many models may have partially memorized GSM8k. | 翻訳日:2024-05-03 13:26:53 公開日:2024-05-02 |
# RIS (Re-configurable Intelligent Surface) 支援物理層認証 (PLA) の可能性について
On the Potential of Re-configurable Intelligent Surface (RIS)-assisted Physical Layer Authentication (PLA) ( http://arxiv.org/abs/2405.00426v2 ) ライセンス: Link先を確認 | Hala Amin, Waqas Aman, Saif Al-Kuwari, | (参考訳) 再構成可能なインテリジェントサーフェス(RIS)技術は、スループット、スペクトル、エネルギー効率の面でパフォーマンスを向上し、次世代無線ネットワークの潜在的なコンポーネントになりつつある。
しかし、RIS支援無線通信のブロードキャスト特性は、物理的層における悪意のある攻撃に対して脆弱である。
同時に、物理層認証は、無線ネットワークをセキュアにするためのソリューションとして人気を集めており、物理層のランダムな特徴を利用することで、クローン、偽造、偽造などの異なる攻撃を阻止している。
本稿では,RISを利用した物理層認証(PLA)の可能性を明らかにするために,RISを利用した無線通信システムについて検討する。
特に、RIS支援無線通信におけるPLAのためのパスロスとチャネルインパルス応答(CIR)の2つの特徴を利用する。
推定された特徴に対する仮説テストを構築し、クローズドフォームの誤り表現を導出する。
さらに、RISパネルの位相シフトを最適化して最小化する目的関数として、臨界誤差、すなわち検出を欠いたことを考察する。
提案手法とPLA方式の比較を行ったが,RISは含まない。
さらに,誤報の確率 (PFA) や誤検知の確率 (PMD) ,受信動作特性 (ROC) 曲線などの性能指標を用いて,提案手法を徹底的に評価した。
その結果、最適位相シフトを決定する際に、PSD値をゼロに効果的に削減するため、RISがPLAに明らかな正の効果を示した。
Re-configurable Intelligent Surfaces (RIS) technology is increasingly becoming a potential component for next-generation wireless networks, offering enhanced performance in terms of throughput, spectral, and energy efficiency. However, the broadcast nature of RIS-assisted wireless communication makes it vulnerable to malicious attacks at the physical layer. At the same time, physical layer authentication is gaining popularity as a solution to secure wireless networks, thwarting different attacks such as cloning, spoofing, and impersonation by using the random features of the physical layer. In this paper, we investigate RIS-assisted wireless communication systems to unlock the potential of using RIS for physical layer authentication (PLA). In particular, we exploit two distinct features of the physical layer: pathloss and channel impulse response (CIR) for PLA in RIS-assisted wireless communication. We construct hypothesis tests for the estimated features and derive closed-form error expressions. Further, we consider the critical error, i.e., missed detection, as our objective function to minimize by optimizing the phase shift of the RIS pannel. We compare the performance of our proposed mechanisms with PLA schemes using the same features but with no RIS. Furthermore, we thoroughly evaluate our proposed schemes using performance metrics such as the probability of false alarm (PFA), the probability of missed detection (PMD), and the receiver operating characteristic (ROC) curves. The results demonstrate a clear positive impact of RIS on PLA, as it effectively reduces PMD values to zero when determining the optimal phase shift. | 翻訳日:2024-05-03 13:26:53 公開日:2024-05-02 |
# BiomedRAG: バイオメディシンのための検索型大規模言語モデル
BiomedRAG: A Retrieval Augmented Large Language Model for Biomedicine ( http://arxiv.org/abs/2405.00465v2 ) ライセンス: Link先を確認 | Mingchen Li, Halil Kilicoglu, Hua Xu, Rui Zhang, | (参考訳) 大規模言語モデル(LLM)は、バイオメディカルおよび医療分野における様々な応用のための重要なリソースとして急速に現れてきたが、これらのモデルは不正確な情報の生成や幻覚といった問題に直面している。
Retrieval-augmented Generationは、これらのモデルが知識を更新し、パフォーマンスを向上させるためのソリューションを提供する。
従来の検索拡張LMとは対照的に,検索したテキストをLSMにエンコードする際,検索したチャンクベースの文書を直接LLMに入力することで,よりシンプルなアプローチを採用する。
この簡単な設計は、既存の検索や言語モデルに容易に適用でき、特にノイズ集約タスクにおいて、検索した文書のノイズ情報を効果的にバイパスすることができる。
さらに, LLM を利用したバイオメディカル領域の検索モデルを監督し, LM を補助する文書を検索し, その予測を改善する可能性を示した。
実験の結果, 情報抽出(三重抽出, 関係抽出), テキスト分類, リンク予測, 質問応答などを含む5つのNLPタスクにおいて, 9件以上のデータセットを活用でき, 優れた性能が得られることがわかった。
例えば、トリプル抽出タスクでは、 \textsc{BiomedRAG} は、GIT と ChemProt のコーパスにおいて、それぞれ 81.42 と 88.83 のマイクロF1スコアを持つ他のトリプル抽出システムより優れている。
Large Language Models (LLMs) have swiftly emerged as vital resources for different applications in the biomedical and healthcare domains; however, these models encounter issues such as generating inaccurate information or hallucinations. Retrieval-augmented generation provided a solution for these models to update knowledge and enhance their performance. In contrast to previous retrieval-augmented LMs, which utilize specialized cross-attention mechanisms to help LLM encode retrieved text, BiomedRAG adopts a simpler approach by directly inputting the retrieved chunk-based documents into the LLM. This straightforward design is easily applicable to existing retrieval and language models, effectively bypassing noise information in retrieved documents, particularly in noise-intensive tasks. Moreover, we demonstrate the potential for utilizing the LLM to supervise the retrieval model in the biomedical domain, enabling it to retrieve the document that assists the LM in improving its predictions. Our experiments reveal that with the tuned scorer,\textsc{ BiomedRAG} attains superior performance across 5 biomedical NLP tasks, encompassing information extraction (triple extraction, relation extraction), text classification, link prediction, and question-answering, leveraging over 9 datasets. For instance, in the triple extraction task, \textsc{BiomedRAG} outperforms other triple extraction systems with micro-F1 scores of 81.42 and 88.83 on GIT and ChemProt corpora, respectively. | 翻訳日:2024-05-03 13:26:53 公開日:2024-05-02 |
# 分散不変共分散正則化に関する情報理論的視点
An Information-Theoretic Perspective on Variance-Invariance-Covariance Regularization ( http://arxiv.org/abs/2303.00633v4 ) ライセンス: Link先を確認 | Ravid Shwartz-Ziv, Randall Balestriero, Kenji Kawaguchi, Tim G. J. Rudner, Yann LeCun, | (参考訳) 可変不変共分散正規化(VICReg)は、様々なタスクにおいて有望な結果を示す自己教師付き学習(SSL)手法である。
しかし、VICRegの基礎となるメカニズムは未解明のままである。
本稿では、VICRegの目的に関する情報理論的な視点を示す。
まず、非現実的な確率的ネットワーク仮定の代替として、決定論的ネットワークの情報理論量の導出から始める。
次に、VICRegの目的の最適化を相互情報最適化に関連付け、基礎となる仮定を強調し、他のSSLアルゴリズムとの構築的比較を容易にし、VICRegの一般化を導出し、下流タスクに固有の利点を明らかにする。
これらの結果に基づいて,既存のSSL技術より優れた情報理論原理に基づくSSL手法のファミリを導入する。
Variance-Invariance-Covariance Regularization (VICReg) is a self-supervised learning (SSL) method that has shown promising results on a variety of tasks. However, the fundamental mechanisms underlying VICReg remain unexplored. In this paper, we present an information-theoretic perspective on the VICReg objective. We begin by deriving information-theoretic quantities for deterministic networks as an alternative to unrealistic stochastic network assumptions. We then relate the optimization of the VICReg objective to mutual information optimization, highlighting underlying assumptions and facilitating a constructive comparison with other SSL algorithms and derive a generalization bound for VICReg, revealing its inherent advantages for downstream tasks. Building on these results, we introduce a family of SSL methods derived from information-theoretic principles that outperform existing SSL techniques. | 翻訳日:2024-05-03 11:30:45 公開日:2024-05-02 |
# 大規模言語モデルに基づくコードレビュー自動化のためのファインチューニングとプロンプトエンジニアリング
Fine-Tuning and Prompt Engineering for Large Language Models-based Code Review Automation ( http://arxiv.org/abs/2402.00905v3 ) ライセンス: Link先を確認 | Chanathip Pornprasit, Chakkrit Tantithamthavorn, | (参考訳) コンテキスト: 大規模言語モデル(LLM)の急速な進化は、コードレビュープロセスの自動化に彼らの能力を活用することに、大きな関心を喚起しました。
以前の研究は、コードレビュー自動化のためのLLMの開発に注力することが多いが、高価なリソースを必要とするため、予算やリソースが限られている組織では不可能である。
したがって、コードレビュー自動化にLLMを活用するための2つの一般的なアプローチは、微調整と迅速なエンジニアリングである。
目的: LLMが微調整とプロンプトによって活用される場合の2つのコンテキストに基づいて,LLMベースのコードレビュー自動化の性能を検討することを目的とする。
微調整には、特定のコードレビューデータセットでモデルをトレーニングすること、プロンプトには、特定のコードレビューデータセットを必要とせずに、モデル生成プロセスをガイドするための明確な命令を提供することが含まれる。
方法: LLMベースのコードレビュー自動化において,モデルファインチューニングと推論技術(ゼロショット学習,少数ショット学習,ペルソナ)を活用する。
総じて、2つのLCMベースのコードレビュー自動化(GPT-3.5とMagicoder)の12のバリエーションを調査し、それらをGuo et alのアプローチと既存のコードレビュー自動化アプローチ3つと比較する。
結果: ゼロショット学習による GPT 3.5 の微調整により GPT-3.5 は 73.17% -74.23% の EM を達成することができる。
さらに、GPT-3.5が微調整されていない場合、少数ショット学習のGPT-3.5は0ショット学習のGPT-3.5よりも46.38%から659.09%高いEMが得られる。
結論: 結果から,(1) コードレビュー自動化のためのLLMは,最高のパフォーマンスを達成するために微調整する必要があること,(2) モデル微調整に十分なデータがない場合(例: コールドスタート問題)は,コードレビュー自動化のためのLLMにはペルソナを使わずに,ペルソナを使わなければならないこと,などが示唆された。
Context: The rapid evolution of Large Language Models (LLMs) has sparked significant interest in leveraging their capabilities for automating code review processes. Prior studies often focus on developing LLMs for code review automation, yet require expensive resources, which is infeasible for organizations with limited budgets and resources. Thus, fine-tuning and prompt engineering are the two common approaches to leveraging LLMs for code review automation. Objective: We aim to investigate the performance of LLMs-based code review automation based on two contexts, i.e., when LLMs are leveraged by fine-tuning and prompting. Fine-tuning involves training the model on a specific code review dataset, while prompting involves providing explicit instructions to guide the model's generation process without requiring a specific code review dataset. Method: We leverage model fine-tuning and inference techniques (i.e., zero-shot learning, few-shot learning and persona) on LLMs-based code review automation. In total, we investigate 12 variations of two LLMs-based code review automation (i.e., GPT- 3.5 and Magicoder), and compare them with the Guo et al.'s approach and three existing code review automation approaches. Results: The fine-tuning of GPT 3.5 with zero-shot learning helps GPT-3.5 to achieve 73.17% -74.23% higher EM than the Guo et al.'s approach. In addition, when GPT-3.5 is not fine-tuned, GPT-3.5 with few-shot learning achieves 46.38% - 659.09% higher EM than GPT-3.5 with zero-shot learning. Conclusions: Based on our results, we recommend that (1) LLMs for code review automation should be fine-tuned to achieve the highest performance; and (2) when data is not sufficient for model fine-tuning (e.g., a cold-start problem), few-shot learning without a persona should be used for LLMs for code review automation. | 翻訳日:2024-05-03 11:27:18 公開日:2024-05-02 |
# 関数呼び出しによるゼロショット対話状態追跡器としての大規模言語モデル
Large Language Models as Zero-shot Dialogue State Tracker through Function Calling ( http://arxiv.org/abs/2402.10466v3 ) ライセンス: Link先を確認 | Zekun Li, Zhiyu Zoey Chen, Mike Ross, Patrick Huber, Seungwhan Moon, Zhaojiang Lin, Xin Luna Dong, Adithya Sagar, Xifeng Yan, Paul A. Crook, | (参考訳) 大きな言語モデル(LLM)は、一般的な文脈における高度な理解と生成能力のため、会話システムにおいてますます普及している。
しかし、タスク指向対話(TOD)の有効性は、応答生成だけでなく、特定のタスクやドメイン内での効果的な対話状態追跡(DST)も必要としている。
本研究では,関数呼び出しによるDSTをLLMで解くための新しいアプローチFnCTODを提案する。
この方法はゼロショットDSTを改善し、広範囲のデータ収集やモデルチューニングなしに多様なドメインに適応できる。
提案手法は,ChatGPTが達成した従来のSOTA(State-of-the-art (SOTA))を7Bまたは13Bパラメータモデルで上回り,平均目標精度(JGA)を5.6%上回るChatGPTの性能向上を実現している。
GPT-3.5とGPT-4はそれぞれ4.8%、GPT-4は14%増加した。
また,多種多様なタスク指向対話を微調整することで,チャット機能を維持しながら,関数呼び出し機能とチャット機能に匹敵するDST性能を備えた13BパラメータLLaMA2-Chatモデルを実現することができることを示す。
コードをhttps://github.com/facebookresearch/FnCTODで公開しました。
Large language models (LLMs) are increasingly prevalent in conversational systems due to their advanced understanding and generative capabilities in general contexts. However, their effectiveness in task-oriented dialogues (TOD), which requires not only response generation but also effective dialogue state tracking (DST) within specific tasks and domains, remains less satisfying. In this work, we propose a novel approach FnCTOD for solving DST with LLMs through function calling. This method improves zero-shot DST, allowing adaptation to diverse domains without extensive data collection or model tuning. Our experimental results demonstrate that our approach achieves exceptional performance with both modestly sized open-source and also proprietary LLMs: with in-context prompting it enables various 7B or 13B parameter models to surpass the previous state-of-the-art (SOTA) achieved by ChatGPT, and improves ChatGPT's performance beating the SOTA by 5.6% average joint goal accuracy (JGA). Individual model results for GPT-3.5 and GPT-4 are boosted by 4.8% and 14%, respectively. We also show that by fine-tuning on a small collection of diverse task-oriented dialogues, we can equip modestly sized models, specifically a 13B parameter LLaMA2-Chat model, with function-calling capabilities and DST performance comparable to ChatGPT while maintaining their chat capabilities. We have made the code publicly available at https://github.com/facebookresearch/FnCTOD | 翻訳日:2024-05-03 11:27:18 公開日:2024-05-02 |
# 水中可変ズーム:水中画像強調のための深さ誘導知覚ネットワーク
Underwater Variable Zoom: Depth-Guided Perception Network for Underwater Image Enhancement ( http://arxiv.org/abs/2404.17883v2 ) ライセンス: Link先を確認 | Zhixiong Huang, Xinying Wang, Jinjiang Li, Shenglan Liu, Lin Feng, | (参考訳) 水中のシーンは、不均一な海洋要素による劣化問題に本質的に関係している。
水中画像強調法(UIE)は、単純な特徴モデリングによってマッピング関数を学習し、より明確な物理的手がかり(例えば深度)が欠如しているため、視力の上昇が制限される。
そこで本研究では,より精密なシーン強調機能を実現するために,より深いUIEモデルに先行して深度を注入することを検討した。
この目的のために,水中可変ズーム (UVZ) と呼ばれる新しい深度誘導型知覚UIEフレームワークを提案する。
具体的には、UVZは2段階のパイプラインを利用する。
第一に、深度推定ネットワークは、訓練中の推定差を抑えるために導入された補助的な監視ネットワークと組み合わせて、臨界深度マップを生成するように設計されている。
第二に、UVZは予測された深度マップを利用することで、近距離シナリオを解析し、異なる領域における局所的および非局所的知覚を可能にする。
5つのベンチマークデータセットに対する大規模な実験は、UVZが優れた視覚的ゲインを達成し、有望な定量的指標を提供することを示す。
さらに、UVZは視覚的なタスク、特に異常な照明条件において、優れた一般化を示すことが確認されている。
コード、モデル、および結果は、https://github.com/WindySprint/UVZ.comで公開されている。
Underwater scenes intrinsically involve degradation problems owing to heterogeneous ocean elements. Prevailing underwater image enhancement (UIE) methods stick to straightforward feature modeling to learn the mapping function, which leads to limited vision gain as it lacks more explicit physical cues (e.g., depth). In this work, we investigate injecting the depth prior into the deep UIE model for more precise scene enhancement capability. To this end, we present a novel depth-guided perception UIE framework, dubbed underwater variable zoom (UVZ). Specifically, UVZ resorts to a two-stage pipeline. First, a depth estimation network is designed to generate critical depth maps, combined with an auxiliary supervision network introduced to suppress estimation differences during training. Second, UVZ parses near-far scenarios by harnessing the predicted depth maps, enabling local and non-local perceiving in different regions. Extensive experiments on five benchmark datasets demonstrate that UVZ achieves superior visual gain and delivers promising quantitative metrics. Besides, UVZ is confirmed to exhibit good generalization in some visual tasks, especially in unusual lighting conditions. The code, models and results are available at: https://github.com/WindySprint/UVZ. | 翻訳日:2024-05-03 11:27:18 公開日:2024-05-02 |
# 高調波伝達学習とモダリティアライメントを用いた効率的なリモートセンシング
Efficient Remote Sensing with Harmonized Transfer Learning and Modality Alignment ( http://arxiv.org/abs/2404.18253v3 ) ライセンス: Link先を確認 | Tengjun Huang, | (参考訳) Visual and Language Pretraining (VLP)の台頭に伴い、多くのダウンストリームタスクが事前トレーニングのパラダイムを採用しており、さらに微調整も行われている。
このパラダイムは、様々なマルチモーダルな下流タスクにおいてポテンシャルを示してきたが、リモートセンシング領域における実装はいくつかの障害に直面している。
具体的には、同じモダリティの埋め込みを一緒にクラスタ化する傾向は、効率的な移動学習を妨げる。
この問題に対処するために,下流タスクに対するマルチモーダル・トランスファー学習の目的を統一的な視点から検討し,3つの異なる目的に基づいて最適化プロセスを再考する。
本研究では,タスク制約,モダリティアライメント,単一モダリティアライメントを同時に満足する手法であるHarMA(Harmonized Transfer Learning and Modality Alignment)を提案する。
注目すべきは、トレーニングのための外部データを必要としないHarMAは、リモートセンシングの分野で人気の高い2つのマルチモーダル検索タスクにおいて、最先端のパフォーマンスを達成することである。
実験の結果,HarMAは最小限の調整可能なパラメータしか持たない完全微調整モデルに対して,競争力や性能に優れることがわかった。
その単純さから、HarMAは既存のほとんどすべてのマルチモーダル事前学習モデルに統合できる。
本手法により,大規模モデルの幅広い下流タスクへの効率的な適用が促進され,資源消費を大幅に削減できることを期待する。
コードはhttps://github.com/seekerhuang/HarMA.comで入手できる。
With the rise of Visual and Language Pretraining (VLP), an increasing number of downstream tasks are adopting the paradigm of pretraining followed by fine-tuning. Although this paradigm has demonstrated potential in various multimodal downstream tasks, its implementation in the remote sensing domain encounters some obstacles. Specifically, the tendency for same-modality embeddings to cluster together impedes efficient transfer learning. To tackle this issue, we review the aim of multimodal transfer learning for downstream tasks from a unified perspective, and rethink the optimization process based on three distinct objectives. We propose "Harmonized Transfer Learning and Modality Alignment (HarMA)", a method that simultaneously satisfies task constraints, modality alignment, and single-modality uniform alignment, while minimizing training overhead through parameter-efficient fine-tuning. Remarkably, without the need for external data for training, HarMA achieves state-of-the-art performance in two popular multimodal retrieval tasks in the field of remote sensing. Our experiments reveal that HarMA achieves competitive and even superior performance to fully fine-tuned models with only minimal adjustable parameters. Due to its simplicity, HarMA can be integrated into almost all existing multimodal pretraining models. We hope this method can facilitate the efficient application of large models to a wide range of downstream tasks while significantly reducing the resource consumption. Code is available at https://github.com/seekerhuang/HarMA. | 翻訳日:2024-05-03 11:27:18 公開日:2024-05-02 |
# マイクログリッド経済分散のための物理インフォームド畳み込みニューラルネットワーク
Physics-informed Convolutional Neural Network for Microgrid Economic Dispatch ( http://arxiv.org/abs/2404.18362v2 ) ライセンス: Link先を確認 | Xiaoyu Ge, Javad Khazaei, | (参考訳) 再生可能エネルギーの変動と電力需要の予測不可能さは、マイクログリッド内の資産のリアルタイム・エコノミック・ディスパッチ(ED)の必要性を生んでいる。
しかし,数値最適化問題をリアルタイムに解くことは極めて困難である。
本研究では,これらの課題に対処するために,ディープラーニングに基づく畳み込みニューラルネットワーク(CNN)を提案する。
従来の手法と比較して、CNNはより効率的で、信頼性が高く、不確実性を扱う場合の応答時間が短い。
CNNは有望な結果を示しているが、データから説明可能な知識を抽出していない。
この制限に対処するため、ED問題の制約をCNNトレーニングに組み込むことで、物理に着想を得たCNNモデルを開発した。
提案手法は,数値最適化手法の精度を損なうことなく,マイクログリッドのリアルタイム経済展開を著しく加速させることができる。
従来の数値最適化手法と比較して,マイクログリッド資源をリアルタイムに最適に割り当てるためのデータ駆動手法の有効性を検証した。
The variability of renewable energy generation and the unpredictability of electricity demand create a need for real-time economic dispatch (ED) of assets in microgrids. However, solving numerical optimization problems in real-time can be incredibly challenging. This study proposes using a convolutional neural network (CNN) based on deep learning to address these challenges. Compared to traditional methods, CNN is more efficient, delivers more dependable results, and has a shorter response time when dealing with uncertainties. While CNN has shown promising results, it does not extract explainable knowledge from the data. To address this limitation, a physics-inspired CNN model is developed by incorporating constraints of the ED problem into the CNN training to ensure that the model follows physical laws while fitting the data. The proposed method can significantly accelerate real-time economic dispatch of microgrids without compromising the accuracy of numerical optimization techniques. The effectiveness of the proposed data-driven approach for optimal allocation of microgrid resources in real-time is verified through a comprehensive comparison with conventional numerical optimization approaches. | 翻訳日:2024-05-03 11:27:18 公開日:2024-05-02 |
# 一般化二粒子干渉
Generalized Two-Particle Interference ( http://arxiv.org/abs/2404.18468v2 ) ライセンス: Link先を確認 | Kamran Nazir, Tabish Qureshi, | (参考訳) 2光子干渉は興味深い量子現象であり、通常ハンベリー・ブラウン・ツイス実験(HBT)と香港・ウー・マンデル実験(HOM)の2種類の実験で観測される。
HBT実験は古典的な光とともに1956年にかなり早く行われたが、HOM効果の実証は1987年より遅くに行われた。
前者とは異なり、後者は純粋に量子効果であると考えられている。
ここでは2粒子干渉の一般化定式化について述べる。
HOMとHBT効果は、一般的な分析において特別な場合として現れる。
この2つの効果の中間的な2粒子干渉実験を提案し,解析した。
したがって、2粒子干渉は、HBTやHOMといった様々な実装が可能な単一の現象であることが示されている。
Two-photon interference is an interesting quantum phenomenon that is usually captured in two distinct types of experiments, namely the Hanbury-Brown- Twiss (HBT) experiment and the Hong-Ou-Mandel (HOM) experiment. While the HBT experiment was carried out much earlier in 1956, with classical light, the demonstration of the HOM effect came much later in 1987. Unlike the former, the latter has been argued to be a purely quantum effect. A generalized formulation of two-particle interference is presented here. The HOM and the HBT effects emerge as special cases in the general analysis. A realizable two-particle interference experiment, which is intermediate between the two effects, is proposed and analyzed. Thus two-particle interference is shown to be a single phenomenon with various possible implementations, including the HBT and HOM setups. | 翻訳日:2024-05-03 11:27:18 公開日:2024-05-02 |
# RSCaMa:状態空間モデルによるリモートセンシング画像変更キャプション
RSCaMa: Remote Sensing Image Change Captioning with State Space Model ( http://arxiv.org/abs/2404.18895v2 ) ライセンス: Link先を確認 | Chenyang Liu, Keyan Chen, Bowen Chen, Haotian Zhang, Zhengxia Zou, Zhenwei Shi, | (参考訳) Remote Sensing Image Change Captioning (RSICC) は、変更対象のカテゴリ、位置、変化対象のダイナミックス(例えば、追加または削除)を含む、言語における多時間リモートセンシングイメージ間の表面的変化を記述することを目的としている。
これは、時間的特徴の空間的および時間的モデリングに挑戦する。
従来の手法では空間変化の知覚が進んでいたが, 共同空間時間モデルでは依然として弱点が残っている。
そこで本稿では,複数のCaMa層を通した効率的な結合時空間モデリングを実現する新しいRSCaMaモデルを提案する。
空間の効率的なモデリングを実現するため,大域的受容場と線形複雑度を持つ最近流行のMamba(状態空間モデル)をRSICCタスクに導入し,従来のCNNおよびTransformerベースの手法の制約を克服した空間差認識SSM(SD-SSM)を提案する。
SD-SSMは、空間変化を鋭くキャプチャするモデルの能力を高める。
効率的な時間的モデリングでは,マンバの時間的走査特性とRSICCの時間的特性の相関を考慮し,時間的相互に時間的特徴を走査し,時間的理解と情報相互作用を高めるための時間的トラバースSSM(TT-SSM)を提案する。
RSICC タスクにおける RSCaMa の優れた性能と Mamba の可能性について実験により検証した。
さらに,Mamba,GPTスタイルデコーダ,Transformerデコーダの3つの異なる言語デコーダを体系的に比較し,将来のRSICC研究に有用な洞察を提供する。
コードは \emph{\url{https://github.com/Chen-Yang-Liu/RSCaMa}} で入手できる。
Remote Sensing Image Change Captioning (RSICC) aims to describe surface changes between multi-temporal remote sensing images in language, including the changed object categories, locations, and dynamics of changing objects (e.g., added or disappeared). This poses challenges to spatial and temporal modeling of bi-temporal features. Despite previous methods progressing in the spatial change perception, there are still weaknesses in joint spatial-temporal modeling. To address this, in this paper, we propose a novel RSCaMa model, which achieves efficient joint spatial-temporal modeling through multiple CaMa layers, enabling iterative refinement of bi-temporal features. To achieve efficient spatial modeling, we introduce the recently popular Mamba (a state space model) with a global receptive field and linear complexity into the RSICC task and propose the Spatial Difference-aware SSM (SD-SSM), overcoming limitations of previous CNN- and Transformer-based methods in the receptive field and computational complexity. SD-SSM enhances the model's ability to capture spatial changes sharply. In terms of efficient temporal modeling, considering the potential correlation between the temporal scanning characteristics of Mamba and the temporality of the RSICC, we propose the Temporal-Traversing SSM (TT-SSM), which scans bi-temporal features in a temporal cross-wise manner, enhancing the model's temporal understanding and information interaction. Experiments validate the effectiveness of the efficient joint spatial-temporal modeling and demonstrate the outstanding performance of RSCaMa and the potential of the Mamba in the RSICC task. Additionally, we systematically compare three different language decoders, including Mamba, GPT-style decoder, and Transformer decoder, providing valuable insights for future RSICC research. The code will be available at \emph{\url{https://github.com/Chen-Yang-Liu/RSCaMa}} | 翻訳日:2024-05-03 11:27:18 公開日:2024-05-02 |
# GRAMMAR:ドメイン特化検索拡張言語モデルの評価のための基礎的およびモジュール的手法
GRAMMAR: Grounded and Modular Methodology for Assessment of Domain-Specific Retrieval-Augmented Language Model ( http://arxiv.org/abs/2404.19232v2 ) ライセンス: Link先を確認 | Xinzhe Li, Ming Liu, Shang Gao, | (参考訳) Retrieval-augmented Generation (RAG) システムは、ドメイン固有の知識ベースを問うために、様々な産業で活発に研究され、展開されている。
しかし、これらのシステムを評価することは、ドメイン固有のクエリの不足とそれに対応する基礎的な真実、そして障害の原因を診断するための体系的なアプローチの欠如など、ユニークな課題を示す。
これらの課題に対処するために、GRAMMAR(GRounded and Modular Methodology for Assessment of RAG)という2つの要素からなる評価フレームワークを導入する。
1)リレーショナルデータベースとLLMを活用して,スケーラブルな問合せ対を効率的に生成するデータ生成プロセス。
この方法では、言語的バリエーションからクエリロジックを分離し、デバッグ機能を増強する。
2)知識ギャップと堅牢性を区別し,欠陥モジュールの識別を可能にする評価フレームワーク。
我々の経験的結果は、モデル脆弱性を正確に識別するために、現在の基準フリー評価手法の限界とGRAMMARの信頼性を裏付けるものである。
Retrieval-augmented Generation (RAG) systems have been actively studied and deployed across various industries to query on domain-specific knowledge base. However, evaluating these systems presents unique challenges due to the scarcity of domain-specific queries and corresponding ground truths, as well as a lack of systematic approaches to diagnosing the cause of failure cases -- whether they stem from knowledge deficits or issues related to system robustness. To address these challenges, we introduce GRAMMAR (GRounded And Modular Methodology for Assessment of RAG), an evaluation framework comprising two key elements: 1) a data generation process that leverages relational databases and LLMs to efficiently produce scalable query-answer pairs. This method facilitates the separation of query logic from linguistic variations for enhanced debugging capabilities; and 2) an evaluation framework that differentiates knowledge gaps from robustness and enables the identification of defective modules. Our empirical results underscore the limitations of current reference-free evaluation approaches and the reliability of GRAMMAR to accurately identify model vulnerabilities. | 翻訳日:2024-05-03 11:27:18 公開日:2024-05-02 |
# AnomalyXFusion:拡散を用いた多モード異常合成
AnomalyXFusion: Multi-modal Anomaly Synthesis with Diffusion ( http://arxiv.org/abs/2404.19444v2 ) ライセンス: Link先を確認 | Jie Hu, Yawen Huang, Yilin Lu, Guoyang Xie, Guannan Jiang, Yefeng Zheng, Zhichao Lu, | (参考訳) 異常合成は、トレーニングのための異常サンプルを増強する有効な方法の1つである。
しかし、現在の異常合成法は、主に、合成された異常サンプルの忠実度を制限する入力としてのテクスチャ情報に依存している。
テクスチャ情報は、特に論理的異常に対して、異常のパターンを正しく表現するには不十分である。
この障害を克服するため、合成された異常サンプルの品質を高めるために多モード情報を利用するAnomalyXFusionフレームワークを提案する。
AnomalyXFusionフレームワークは、Multi-modal In-Fusion (MIF)モジュールとDynamic Dif-Fusion (DDF)モジュールの2つの異なる相乗的モジュールで構成されている。
MIFモジュールは、画像、テキスト、マスク機能を含むX埋め込みと呼ばれる、様々なモダリティ機能を統合された埋め込み空間に集約して統合することで、モダリティアライメントを洗練する。
同時に、DDFモジュールは拡散ステップに条件付きX埋め込みの適応調整により制御生成を容易にする。
さらに,AnomalyXFusionのマルチモーダル表現能力を明らかにするために,MVTec Captionと呼ばれる新しいデータセットを提案する。
より正確には、MVTec CaptionはMVTec ADとLOCOデータセットのための2.2kの正確な画像マスクテキストアノテーションを拡張する。
総合的な評価はAnomalyXFusionの有効性を示し、特に論理的異常に対する忠実度と多様性についてである。
プロジェクトページ:http:github.com/hujiecpp/MVTec-Caption
Anomaly synthesis is one of the effective methods to augment abnormal samples for training. However, current anomaly synthesis methods predominantly rely on texture information as input, which limits the fidelity of synthesized abnormal samples. Because texture information is insufficient to correctly depict the pattern of anomalies, especially for logical anomalies. To surmount this obstacle, we present the AnomalyXFusion framework, designed to harness multi-modality information to enhance the quality of synthesized abnormal samples. The AnomalyXFusion framework comprises two distinct yet synergistic modules: the Multi-modal In-Fusion (MIF) module and the Dynamic Dif-Fusion (DDF) module. The MIF module refines modality alignment by aggregating and integrating various modality features into a unified embedding space, termed X-embedding, which includes image, text, and mask features. Concurrently, the DDF module facilitates controlled generation through an adaptive adjustment of X-embedding conditioned on the diffusion steps. In addition, to reveal the multi-modality representational power of AnomalyXFusion, we propose a new dataset, called MVTec Caption. More precisely, MVTec Caption extends 2.2k accurate image-mask-text annotations for the MVTec AD and LOCO datasets. Comprehensive evaluations demonstrate the effectiveness of AnomalyXFusion, especially regarding the fidelity and diversity for logical anomalies. Project page: http:github.com/hujiecpp/MVTec-Caption | 翻訳日:2024-05-03 11:27:18 公開日:2024-05-02 |
# コンピューティングがもっと必要になる
More Compute Is What You Need ( http://arxiv.org/abs/2404.19484v2 ) ライセンス: Link先を確認 | Zhen Guo, | (参考訳) 大規模言語モデルの事前トレーニングはますます高価になり、ほとんどの実践者は、モデルサイズとトレーニングトークン(一般にCompute-OptimalまたはChinchilla Optimalと呼ばれる)の計算予算を割り当てるために、スケーリング法に頼っている。
本稿では,モデルサイズとデータセットサイズに対する特定の割り当てに依存しない,トランスフォーマーモデルに費やされる計算量に大きく依存する,モデル性能の新たなスケーリング法則を仮定する。
この統合スケーリング法則を用いることで、私たちはそれを予測します。
(a)推論効率において、トレーニングは、より小さなモデルサイズとより大きなトレーニングデータセットを優先すべきである。
b) 利用可能なWebデータセットの枯渇を前提として、モデルサイズをスケールすることが、モデルパフォーマンスをさらに改善する唯一の方法かもしれない。
Large language model pre-training has become increasingly expensive, with most practitioners relying on scaling laws to allocate compute budgets for model size and training tokens, commonly referred to as Compute-Optimal or Chinchilla Optimal. In this paper, we hypothesize a new scaling law that suggests model performance depends mostly on the amount of compute spent for transformer-based models, independent of the specific allocation to model size and dataset size. Using this unified scaling law, we predict that (a) for inference efficiency, training should prioritize smaller model sizes and larger training datasets, and (b) assuming the exhaustion of available web datasets, scaling the model size might be the only way to further improve model performance. | 翻訳日:2024-05-03 11:27:18 公開日:2024-05-02 |
# 機械学習と3次元ニューロイメージングによる聴覚障害の予測:次元減少と回帰手法の比較分析
Utilizing Machine Learning and 3D Neuroimaging to Predict Hearing Loss: A Comparative Analysis of Dimensionality Reduction and Regression Techniques ( http://arxiv.org/abs/2405.00142v2 ) ライセンス: Link先を確認 | Trinath Sai Subhash Reddy Pittala, Uma Maheswara R Meleti, Manasa Thatipamula, | (参考訳) 本稿では,脳の灰白質3次元画像における難聴閾値を予測するための機械学習手法について検討した。
我々はその問題を2段階に分けて解決した。
第1フェーズでは、3次元CNNモデルを用いて、遅延空間への高次元入力を減らし、リッチな特徴空間における入力を表現するために元の画像に復号する。
第2フェーズでは、このモデルをリッチな特徴への入力を減らすために使用し、これらの特徴を使用して、聴覚閾値を予測するための標準的な機械学習モデルを訓練した。
我々は、次元減少のための第1フェーズにおけるオートエンコーダと変分オートエンコーダの実験を行い、しきい値の回帰のためのランダムフォレスト、XGBoostおよび多層パーセプトロンを探索した。
与えられたデータセットをトレーニングセットとテストセットに分割し、テストセットでそれぞれPT500とPT4000に対して8.80の範囲と22.57の範囲を達成しました。
他のモデルの中でも最も低いRMSEを多層パーセプトロンで取得した。
我々のアプローチは、高次元のニューロイメージングデータ内の複雑な非線形関係を捉えるために、VAEのユニークな能力を活用している。
我々は、ルート平均二乗誤差(RMSE)に着目し、様々な指標を用いてモデルを厳格に評価した。
その結果,多層ニューラルネットワークモデルの有効性が強調され,精度の点で他の手法よりも優れていた。
本研究は,医療診断におけるデータマイニングの活用を推進し,革新的な機械学習フレームワークによる年齢関連難聴の理解を深めるものである。
In this project, we have explored machine learning approaches for predicting hearing loss thresholds on the brain's gray matter 3D images. We have solved the problem statement in two phases. In the first phase, we used a 3D CNN model to reduce high-dimensional input into latent space and decode it into an original image to represent the input in rich feature space. In the second phase, we utilized this model to reduce input into rich features and used these features to train standard machine learning models for predicting hearing thresholds. We have experimented with autoencoders and variational autoencoders in the first phase for dimensionality reduction and explored random forest, XGBoost and multi-layer perceptron for regressing the thresholds. We split the given data set into training and testing sets and achieved an 8.80 range and 22.57 range for PT500 and PT4000 on the test set, respectively. We got the lowest RMSE using multi-layer perceptron among the other models. Our approach leverages the unique capabilities of VAEs to capture complex, non-linear relationships within high-dimensional neuroimaging data. We rigorously evaluated the models using various metrics, focusing on the root mean squared error (RMSE). The results highlight the efficacy of the multi-layer neural network model, which outperformed other techniques in terms of accuracy. This project advances the application of data mining in medical diagnostics and enhances our understanding of age-related hearing loss through innovative machine-learning frameworks. | 翻訳日:2024-05-03 11:27:18 公開日:2024-05-02 |
# 変圧器を用いた言語モデルの内部動作に関する一考察
A Primer on the Inner Workings of Transformer-based Language Models ( http://arxiv.org/abs/2405.00208v2 ) ライセンス: Link先を確認 | Javier Ferrando, Gabriele Sarti, Arianna Bisazza, Marta R. Costa-jussà, | (参考訳) 先進言語モデルの内部動作の解釈を目的とした研究の急速な進歩は、この分野における長年の作業から得られた洞察を文脈的に理解する必要性を浮き彫りにした。
このプライマーは、トランスフォーマーベースの言語モデルの内部動作を解釈するために使われる現在のテクニックの簡潔な技術的紹介を提供し、生成デコーダのみアーキテクチャに焦点を当てている。
本稿では、これらのモデルによって実装された既知の内部機構の概要を概説し、一般的なアプローチとこの分野の活発な研究方向のつながりを明らかにする。
The rapid progress of research aimed at interpreting the inner workings of advanced language models has highlighted a need for contextualizing the insights gained from years of work in this area. This primer provides a concise technical introduction to the current techniques used to interpret the inner workings of Transformer-based language models, focusing on the generative decoder-only architecture. We conclude by presenting a comprehensive overview of the known internal mechanisms implemented by these models, uncovering connections across popular approaches and active research directions in this area. | 翻訳日:2024-05-03 11:27:18 公開日:2024-05-02 |
# 会話包摂課題に対する敵の攻撃と防御
Adversarial Attacks and Defense for Conversation Entailment Task ( http://arxiv.org/abs/2405.00289v2 ) ライセンス: Link先を確認 | Zhenning Yang, Ryan Krawec, Liang-Yuan Wu, | (参考訳) 重要なアプリケーションにおけるNLPシステムの展開が進むにつれて、敵攻撃に対する大規模言語モデル(LLM)の堅牢性を保証することがますます重要になる。
大規模言語モデルは様々なNLPタスクに優れるが、低コストの敵攻撃に弱いままである。
マルチターン対話が仮説検証の前提となる会話内容の領域に着目し,これらの仮説の真偽を正確に識別するトランスフォーマーモデルを微調整する。
敵は同義語を交換することで仮説を操り、モデルを欺いて誤った予測をする。
これらの攻撃に対処するため、我々は革新的な微調整手法を導入し、モデルの堅牢性を著しく向上させるために埋め込み摂動損失法を導入した。
本研究は,NLPにおける敵攻撃に対する防御の重要性だけでなく,実世界の意義も強調し,信頼性の高いNLPアプリケーションにおいてモデルロバスト性の向上が重要であることを示唆している。
As the deployment of NLP systems in critical applications grows, ensuring the robustness of large language models (LLMs) against adversarial attacks becomes increasingly important. Large language models excel in various NLP tasks but remain vulnerable to low-cost adversarial attacks. Focusing on the domain of conversation entailment, where multi-turn dialogues serve as premises to verify hypotheses, we fine-tune a transformer model to accurately discern the truthfulness of these hypotheses. Adversaries manipulate hypotheses through synonym swapping, aiming to deceive the model into making incorrect predictions. To counteract these attacks, we implemented innovative fine-tuning techniques and introduced an embedding perturbation loss method to significantly bolster the model's robustness. Our findings not only emphasize the importance of defending against adversarial attacks in NLP but also highlight the real-world implications, suggesting that enhancing model robustness is critical for reliable NLP applications. | 翻訳日:2024-05-03 11:27:18 公開日:2024-05-02 |